IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社トランストロンの特許一覧

特開2024-139278自動利得制御装置、エコー除去装置、自動利得制御方法及び自動利得制御プログラム
<>
  • 特開-自動利得制御装置、エコー除去装置、自動利得制御方法及び自動利得制御プログラム 図1
  • 特開-自動利得制御装置、エコー除去装置、自動利得制御方法及び自動利得制御プログラム 図2
  • 特開-自動利得制御装置、エコー除去装置、自動利得制御方法及び自動利得制御プログラム 図3
  • 特開-自動利得制御装置、エコー除去装置、自動利得制御方法及び自動利得制御プログラム 図4
  • 特開-自動利得制御装置、エコー除去装置、自動利得制御方法及び自動利得制御プログラム 図5
  • 特開-自動利得制御装置、エコー除去装置、自動利得制御方法及び自動利得制御プログラム 図6
  • 特開-自動利得制御装置、エコー除去装置、自動利得制御方法及び自動利得制御プログラム 図7
  • 特開-自動利得制御装置、エコー除去装置、自動利得制御方法及び自動利得制御プログラム 図8
  • 特開-自動利得制御装置、エコー除去装置、自動利得制御方法及び自動利得制御プログラム 図9
  • 特開-自動利得制御装置、エコー除去装置、自動利得制御方法及び自動利得制御プログラム 図10
  • 特開-自動利得制御装置、エコー除去装置、自動利得制御方法及び自動利得制御プログラム 図11
  • 特開-自動利得制御装置、エコー除去装置、自動利得制御方法及び自動利得制御プログラム 図12
  • 特開-自動利得制御装置、エコー除去装置、自動利得制御方法及び自動利得制御プログラム 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024139278
(43)【公開日】2024-10-09
(54)【発明の名称】自動利得制御装置、エコー除去装置、自動利得制御方法及び自動利得制御プログラム
(51)【国際特許分類】
   H03G 3/20 20060101AFI20241002BHJP
   G10L 21/034 20130101ALI20241002BHJP
   H04B 3/23 20060101ALI20241002BHJP
【FI】
H03G3/20 A
G10L21/034
H04B3/23
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2023050149
(22)【出願日】2023-03-27
(71)【出願人】
【識別番号】391008559
【氏名又は名称】株式会社トランストロン
(74)【代理人】
【識別番号】100170070
【弁理士】
【氏名又は名称】坂田 ゆかり
(72)【発明者】
【氏名】里見 祐樹
【テーマコード(参考)】
5J100
5K046
【Fターム(参考)】
5J100JA01
5J100KA02
5J100LA00
5J100SA00
5K046AA01
5K046BB01
5K046HH11
5K046HH56
5K046HH61
5K046HH69
5K046HH79
(57)【要約】
【課題】演算装置の処理負荷を軽減しつつ、適切な利得制御を行うことができる。
【解決手段】端末が有するスピーカへ受話信号を伝送する受話側信号経路から第1時間の間に入力された時間領域の参照信号である第1入力信号を周波数領域の第2入力信号に変換する周波数領域変換部と、第2入力信号に基づいて第1ゲインを算出するゲイン決定部と、受話側信号経路に設けられており、第1ゲインを受話信号に乗算するゲイン乗算部と、を備える。参照信号は、受話信号にゲイン乗算部で第1ゲインが乗算された後の信号である。
【選択図】 図2
【特許請求の範囲】
【請求項1】
端末が有するスピーカへ受話信号を伝送する受話側信号経路から第1時間の間に入力された時間領域の参照信号である第1入力信号を周波数領域の第2入力信号に変換する周波数領域変換部と、
前記第2入力信号に基づいて、第1ゲインを算出するゲイン決定部と、
前記受話側信号経路に設けられており、前記第1ゲインを前記受話信号に乗算するゲイン乗算部と、
を備え、
前記参照信号は、前記受話信号に前記ゲイン乗算部で前記第1ゲインが乗算された後の信号である
ことを特徴とする自動利得制御装置。
【請求項2】
前記ゲイン決定部は、
前記第2入力信号に基づいて、前記参照信号のパワーの瞬時値であるパワー瞬時値を算出するパワー瞬時値取得部と、
前記第1時間より長い第2時間の間に前記パワー瞬時値取得部により求められた複数の前記パワー瞬時値に基づいて、前記スピーカを鳴らす音の大きさの概算値を数値化した平均パワーを算出する平均パワー推定部と、
前記平均パワーと、ゲインの目標値とに基づいて所望の第2ゲインを算出するゲイン算出部と、
前記第2ゲインに基づいて前記第1ゲインを算出する非連続性軽減部であって、前記第1ゲインの変化率を所定範囲内とする非連続性軽減部と、
を備えたことを特徴とする請求項1に記載の自動利得制御装置。
【請求項3】
前記ゲイン決定部は、
前記第2入力信号とゲインの目標値とに基づいて、周波数帯域ごとに第3ゲインを算出する第2ゲイン算出部と、
前記第1時間より長い第2時間の間に算出された前記第3ゲインを、周波数方向および時間方向に前記ゲインを平均して第2ゲインを算出する平均部と、
前記第2ゲインに基づいて前記第1ゲインを算出する非連続性軽減部であって、前記第1ゲインの変化率を所定範囲内とする非連続性軽減部と、
を備えたことを特徴とする請求項1に記載の自動利得制御装置。
【請求項4】
前記非連続性軽減部は、前記参照信号の振幅の変位が反転するゼロクロスポイントで前記第1ゲインが不連続となるようにする
ことを特徴とする請求項2又は3に記載の自動利得制御装置。
【請求項5】
前記非連続性軽減部は、前記参照信号の振幅の変位が最大となる最大点までの間に徐々に前記第1ゲインを変化させる
ことを特徴とする請求項2又は3に記載の自動利得制御装置。
【請求項6】
前記パワー瞬時値の変化率が所定値以上であることを検出するパワー変化検出部をさらに備え、
前記ゲイン決定部は、前記パワー瞬時値の変化率が前記所定値以上であることを検出した場合には、前記第1ゲインを変化させない
ことを特徴とする請求項2に記載の自動利得制御装置。
【請求項7】
前記ゲイン決定部は、前記第2ゲインを第2時間より長い第3時間をかけて変化させる
ことを特徴とする請求項2から6のいずれか一項に記載の自動利得制御装置。
【請求項8】
前記ゲイン乗算部は、前記受話信号の大きさが閾値以上の場合には、前記第1ゲインを小さくする
ことを特徴とする請求項1から7のいずれか一項に記載の自動利得制御装置。
【請求項9】
請求項1から8のいずれか一項に記載の自動利得制御装置と、
前記端末が有するマイクロホンから入力された入力信号を伝送する送話側信号経路に設けられており、前記スピーカから出力される音声が前記マイクロホンに入力することによって生じるエコーを除去するエコー除去部を備え、
前記エコー除去部は、前記周波数領域変換部により変換された前記第2入力信号に基づいてエコー除去を行う
ことを特徴とするエコー除去装置。
【請求項10】
端末が有するスピーカへ受話信号を伝送する受話側信号経路から第1時間の間に入力された時間領域の参照信号である第1入力信号を周波数領域の第2入力信号に変換するステップと、
前記第2入力信号に基づいて、第1ゲインを算出するステップと、
前記受話側信号経路に設けられており、前記第1ゲインを前記受話信号に乗算するステップと、を含み、
前記参照信号は、前記受話信号に前記第1ゲインが乗算された後の信号である
ことを特徴とする自動利得制御方法。
【請求項11】
コンピュータを、
端末が有するスピーカへ受話信号を伝送する受話側信号経路から第1時間の間に入力された時間領域の参照信号である第1入力信号を周波数領域の第2入力信号に変換する周波数領域変換部、
前記第2入力信号に基づいて、第1ゲインを算出するゲイン決定部、
前記受話側信号経路に設けられており、前記第1ゲインを前記受話信号に乗算するゲイン乗算部、として機能させ、
前記参照信号は、前記受話信号に前記ゲイン乗算部で前記第1ゲインが乗算された後の信号である
ことを特徴とする自動利得制御プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自動利得制御装置、エコー除去装置、自動利得制御方法及び自動利得制御プログラムに関する。
【背景技術】
【0002】
特許文献1には、入力信号のレベルに応じて入力信号を増幅する際の利得を制御する自動利得制御装置が開示されている。この装置では、入力信号に含まれる雑音の程度を検出する雑音検出部と、入力信号の比較的短い時間における時間平均を検出する短時間平均レベル検出部と、雑音検出部で検出される雑音の程度に応じて予め用意された複数の利得関数のうちから何れか一つの利得関数を選択する利得関数選択部と、短時間平均レベル検出部で検出される入力信号の短時間平均値及び利得関数選択部で選択された利得関数から入力信号を増幅する際の利得を算出する利得算出部とを備えている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2004-129187号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に記載の発明では、入力信号の平均値を取得するため、演算装置に負荷がかかり、高い処理能力のCPUが必要となる。したがって、特許文献1に記載の発明では、低い処理能力のCPUを用いて適切な利得の制御を行うことができない。
【0005】
本発明はこのような事情を鑑みてなされたもので、演算装置の処理負荷を軽減しつつ、適切な利得制御を行うことができる自動利得制御装置、エコー除去装置、自動利得制御方法および自動利得制御プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本発明に係る自動利得制御装置は、例えば、端末が有するスピーカへ受話信号を伝送する受話側信号経路から第1時間の間に入力された時間領域の参照信号である第1入力信号を周波数領域の第2入力信号に変換する周波数領域変換部と、前記第2入力信号に基づいて、第1ゲインを算出するゲイン決定部と、前記受話側信号経路に設けられており、前記第1ゲインを前記受話信号に乗算するゲイン乗算部と、を備え、前記参照信号は、前記受話信号に前記ゲイン乗算部で前記第1ゲインが乗算された後の信号であることを特徴とする。
【0007】
上記課題を解決するために、本発明の他態様に係る自動利得制御方法は、例えば、端末が有するスピーカへ受話信号を伝送する受話側信号経路から第1時間の間に入力された時間領域の参照信号である第1入力信号を周波数領域の第2入力信号に変換するステップと、前記第2入力信号に基づいて、第1ゲインを算出するステップと、前記受話側信号経路に設けられており、前記第1ゲインを前記受話信号に乗算するステップと、を含み、前記参照信号は、前記受話信号に前記第1ゲインが乗算された後の信号であることを特徴とする。
【0008】
上記課題を解決するために、本発明の他態様に係る自動利得制御プログラムは、例えば、コンピュータを、端末が有するスピーカへ受話信号を伝送する受話側信号経路から第1時間の間に入力された時間領域の参照信号である第1入力信号を周波数領域の第2入力信号に変換する周波数領域変換部、前記第2入力信号に基づいて、第1ゲインを算出するゲイン決定部、前記受話側信号経路に設けられており、前記第1ゲインを前記受話信号に乗算するゲイン乗算部、として機能させ、前記参照信号は、前記受話信号に前記ゲイン乗算部で前記第1ゲインが乗算された後の信号であることを特徴とする。
なお、コンピュータプログラムは、インターネット等のネットワークを介したダウンロードによって提供したり、CD-ROMなどのコンピュータ読取可能な各種の記録媒体に記録して提供したりすることができる。
【0009】
本発明に係る自動利得制御装置、自動利得制御方法および自動利得制御プログラムによれば、ゲイン乗算部で第1ゲインが乗算された後の信号である受話信号(参照信号)である第1入力信号を周波数領域の第2入力信号に変換し、第2入力信号に基づいて第1ゲインを算出する。第1時間ごとに処理を行うため、演算装置の処理負荷を軽減することができる。また、参照信号のパワーを用いて第1ゲインを求めることで、適切な利得制御を行うことができる。
【0010】
前記ゲイン決定部は、前記第2入力信号に基づいて、前記参照信号のパワーの瞬時値であるパワー瞬時値を算出するパワー瞬時値取得部と、前記第1時間より長い第2時間の間に前記パワー瞬時値取得部により求められた複数の前記パワー瞬時値に基づいて、前記スピーカを鳴らす音の大きさの概算値を数値化した平均パワーを算出する平均パワー推定部と、前記平均パワーと、ゲインの目標値とに基づいて所望の第2ゲインを算出するゲイン算出部と、前記第2ゲインに基づいて前記第1ゲインを算出する非連続性軽減部であって、前記第1ゲインの変化率を所定範囲内とする非連続性軽減部と、を備えてもよい。このように、第2時間の平均パワーに基づいて第1ゲインを求めることで、参照信号の大きさを適切に反映したより適切な利得制御を行うことができる。また、ゲインの変化に伴う信号の不連続性による異音の発生を低減することができる。
【0011】
前記ゲイン決定部は、前記第2入力信号とゲインの目標値とに基づいて、周波数帯域ごとに第3ゲインを算出する第2ゲイン算出部と、前記第1時間より長い第2時間の間に算出された前記第3ゲインを、周波数方向および時間方向に前記ゲインを平均して第2ゲインを算出する平均部と、前記第2ゲインに基づいて前記第1ゲインを算出する非連続性軽減部であって、前記第1ゲインの変化率を所定範囲内とする非連続性軽減部と、を備えてもよい。このように、第2時間の間に得られたゲインの平均値である第2ゲインを用いることで、参照信号の大きさを適切に反映したより適切な利得制御を行うことができる。また、ゲインの変化に伴う信号の不連続性による異音の発生を低減することができる。
【0012】
前記非連続性軽減部は、前記参照信号の振幅の変位が反転するゼロクロスポイントで前記第1ゲインが不連続となるようにしてもよい。このように、音量がゼロになるゼロクロスポイントではゲインを急激に変化させてもユーザが違和感を感じにくいため、ゼロクロスポイントでゲインを切り替えることは快適なユーザ利用に寄与する。
【0013】
前記非連続性軽減部は、前記参照信号の振幅の変位が最大となる最大点までの間に徐々に前記第1ゲインを変化させてもよい。このように、適切でないゲインが乗算されたことがユーザに感知されやすい時点までに確実にゲインを切り替えることは快適なユーザ利用に寄与する。
【0014】
前記パワー瞬時値の変化率が所定値以上であることを検出するパワー変化検出部をさらに備え、前記ゲイン決定部は、前記パワー瞬時値の変化率が前記所定値以上であることを検出した場合には、前記第1ゲインを変化させなくてもよい。このように、発話中、無声音又は語尾の発話時にはゲインを変化させず、直前のゲインを維持することで、聞き取りやすい音声を担保できる。
【0015】
前記ゲイン決定部は、前記第2ゲインを第2時間より長い第3時間をかけて変化させてもよい。これにより、ゲインの急峻な変化を防止することができる。
【0016】
前記ゲイン乗算部は、前記受話信号の大きさが閾値以上の場合には、前記第1ゲインを小さくしてもよい。これにより、信号を増幅し過ぎることによるクリップを防止することができる。また、装置の破損を防止することができる。
【0017】
本発明の他態様に係るエコー除去装置は、例えば、自動利得制御装置と、前記端末が有するマイクロホンから入力された入力信号を伝送する送話側信号経路に設けられており、前記スピーカから出力される音声が前記マイクロホンに入力することによって生じるエコーを除去するエコー除去部を備え、前記エコー除去部は、前記周波数領域変換部により変換された前記第2入力信号に基づいてエコー除去を行うことを特徴とする。すなわち、周波数領域変換部を自動利得制御装置とエコー除去部とで共有できる。これにより、少ない処理コストで適切にゲインを求めたり、エコーを除去したりすることができる。
【発明の効果】
【0018】
本発明によれば、演算装置の処理負荷を軽減しつつ、適切な利得制御を行うことができる。
【図面の簡単な説明】
【0019】
図1】第1の実施の形態に係るエコー除去装置1が設けられた音声通信システム100を模式的に示す図である。
図2】エコー除去装置1の概略構成を示すブロック図である。
図3】自動利得制御装置9の処理を説明する模式図である。
図4】重みづけ関数の一例を示す図である。
図5】サンプル数T1及びオーバーラップ率を説明する模式図である。
図6】非連続性軽減部22dの他の形態を説明する図であり、(a)は参照信号を示すグラフであり、(b)、(c)はゲインを示すグラフである。
図7】非連続性軽減部22dの他の形態を説明する図であり、(a)は参照信号を示すグラフであり、(b)はゲインを示すグラフである。
図8】第2の実施の形態に係るエコー除去装置2の概略構成を示すブロック図である。
図9】第3の実施の形態に係るエコー除去装置3の概略構成を示すブロック図である。
図10】自動利得制御装置9Aの処理を説明する模式図である。
図11】第4の実施の形態に係るエコー除去装置4の概略構成を示すブロック図である。
図12】第5の実施の形態に係るエコー除去装置5の概略構成を示すブロック図である。
図13】第6の実施の形態に係るエコー除去装置6の概略構成を示すブロック図である。
【発明を実施するための形態】
【0020】
以下、本発明に係る自動利得制御装置、自動利得制御方法及び自動利得制御プログラムの実施形態を、図面を参照して詳細に説明する。
【0021】
自動利得制御装置は、信号のゲイン(利得)を自動調整する装置である。以下の実施の形態では、自動利得制御装置は、エコー除去装置の中に設けられている。エコー除去装置は、音声通信システムにおいて、通話の際に発生するエコーを抑圧する装置である。
【0022】
<第1の実施の形態>
図1は、第1の実施の形態に係る自動利得制御装置9を有するエコー除去装置1が設けられた音声通信システム100を模式的に示す図である。音声通信システム100は、主として、マイクロホン51及びスピーカ52を有する端末50と、2台の通信装置53、54と、スピーカアンプ55と、エコー除去装置1と、を有する。
【0023】
音声通信システム100は、端末50(近端端末)を利用する近端話者(近端側にいる利用者A)が、通信装置54(遠端端末)を利用する利用者(遠端側にいる利用者B)と音声通信を行なうシステムである。通信装置54を介して入力された音声信号(以下、受話信号という)をスピーカ52によって拡声出力し、かつ、近端側にいる利用者Aの発する音声をマイクロホン51により集音して通信装置54へ伝送することで、利用者Aは、通信装置53を把持することなく拡声通話(ハンズフリー通話)が可能となる。通信装置53と通信装置54とは、一般的な電話回線により接続されている。
【0024】
エコー除去装置1及び自動利得制御装置9は、例えば、音声通信システム100内の通信端末等(例えば、車載装置、会議システム、携帯端末)に搭載される専用ボードとして構築されてもよい。また、エコー除去装置1は、例えば、主として、情報処理を実行するためのCPU(Central Processing Unit)などの演算装置、RAM(Random Access Memory)やROM(Read Only Memory)などの記憶装置を含むコンピュータシステム及びソフトウエア(エコー抑圧プログラム)によって構成されてもよい。エコー抑圧プログラムは、コンピュータ等の機器に内蔵されている記憶媒体としてのSSDや、CPUを有するマイクロコンピュータ内のROM等に予め記憶しておき、そこからコンピュータにインストールしてもよい。また、エコー抑圧プログラムは、半導体メモリ、メモリカード、光ディスク、光磁気ディスク、磁気ディスク等のリムーバブル記憶媒体に、一時的あるいは永続的に格納(記憶)しておいてもよい。
【0025】
図2は、エコー除去装置1及び自動利得制御装置9の概略構成を示すブロック図である。エコー除去装置1は、機能的には、主として、自動利得制御装置9と、エコー除去部11と、周波数分析器(FFT部)12と、ノイズ/エコーサプレッサ14(本発明のエコー除去部に相当)と、復元部(IFFT部)15と、EQ・ゲイン・コンプレッサ16と、を有する。図2において、上側の信号経路は、マイクロホン51から入力された入力信号を伝送する送話側信号経路であり、下側の信号経路は、スピーカ52へ受話信号を伝送する受話側信号経路である。また、図中、矢印は信号の流れ(処理の流れ)を示す。
【0026】
なお、エコー除去装置1の機能構成要素は、処理内容に応じてさらに多くの構成要素に分類されてもよいし、1つの構成要素が複数の構成要素の処理を実行してもよい。
【0027】
エコー除去部11は、例えば、適応フィルタを用いてエコーを除去する。エコー除去部11は、参照信号に基づいて、与えられた手順に従ってフィルタ係数を更新し、受話側信号経路を伝送される信号から擬似エコー信号を生成し、送話側信号経路を伝送される入力信号から擬似エコー信号を減算することで、エコーを除去するものである。ここで、参照信号とは、スピーカ52を鳴らすための信号であり、受話側信号経路を伝送された受話信号に対してゲイン乗算部23(後に詳述)及びEQ・ゲイン・コンプレッサ16(後に詳述)で処理が行われた後の信号である。なお、適応フィルタについては既に公知であるため、説明を省略する。
【0028】
なお、本実施の形態では、エコー除去部11に適応フィルタを適用したが、その他の公知のエコー除去技術をエコー除去部11に適用することもできる。
【0029】
周波数分析器(FFT部)12は、信号に対して高速フーリエ変換(FFT、Fast Fourier Transform)を行う。FFT部12は、エコー除去部11の処理において周波数変換を行う機能部である。FFT部12は、時系列に並んだ信号(時間の領域)を周波数の集合で表す信号(周波数の領域)に変換する。
【0030】
なお、図においては便宜上、FFT部12とFFT部21とは異なるブロックに記載されているが、同一の機能部により処理されてもよい。
【0031】
ノイズ/エコーサプレッサ14は、例えば、線形エコーを除去するエコー除去部11で除去できなかった非線形エコーを除去する機能部である。ノイズ/エコーサプレッサ14は、例えば適宜の周波数フィルタ等の他、パワー瞬時値を参照した非線形エコー抑圧処理を実施してもよい。ノイズ/エコーサプレッサ14からの出力値は、IFFT部15により逆高速フーリエ変換(IFFT、Inverse FFT)され、通信装置53の出力部531から出力信号として出力される。
【0032】
なお、本実施の形態では、FFT部12で高速フーリエ変換を行い、IFFT部15で逆高速フーリエ変換を行ったが、FFT部12及びIFFT部15で行う処理はこれに限られない。例えば、FFT部12で離散フーリエ変換(DFT、discreteFT)を行い、IFFT部15で逆離散フーリエ変換(IDFT、Inverse DFT)を行ってもよい。
【0033】
自動利得制御装置9は、入力部532から入力され、受話側信号経路を伝送される受話信号に基づいてゲインを決定し、このゲインを受話信号に乗じる。本実施の形態では、参照信号に基づいてゲインを決定する。
【0034】
ゲインを乗じた受話信号は、EQ・ゲイン(ゲイン制御又はゲイン乗算)・コンプレッサ16を経てスピーカアンプ55に出力される。EQ・ゲイン・コンプレッサ16は、所定の周波数帯域の音量を押さえるイコライザーと、音量の強弱の幅を圧縮するコンプレッサーとを含む。なお、EQ・ゲイン・コンプレッサ16は必須ではない。この場合には、受話信号に対してゲイン乗算部23(後に詳述)で処理が行われた後の信号を参照信号とすればよい。
【0035】
なお、エコー除去装置1は一般的な発話検知やノイズキャンセリングに関する構成を有していてよい。各構成の処理は既に公知であるため、説明を省略する。
【0036】
次に、自動利得制御装置9について説明する。自動利得制御装置9は、主として、FFT部21と、ゲイン決定部22と、ゲイン乗算部23と、を機能的に有する。ゲイン決定部22は、主として、パワー瞬時値取得部22aと、平均パワー推定部22bと、ゲイン算出部22cと、非連続性軽減部22dとを機能的に有する。FFT部21で処理された信号に基づいて、ゲイン決定部22において出力信号のレベルを一定範囲とするゲイン(本発明の第1ゲインに相当)が求められ、このゲインがゲイン乗算部23において受話信号に乗算される。
【0037】
図3は、自動利得制御装置9の処理を説明する模式図である。図中、矢印は信号の流れ(処理の流れ)を示す。EQ・ゲイン・コンプレッサ16は必須ではないため、図3ではEQ・ゲイン・コンプレッサ16の処理を省略する。
【0038】
時間ta(本発明の第1時間に相当)の最初に得られた受話信号をx(s)とすると、参照信号y(s)は以下の数式(1)のように表される。また、時間taの間に得られる最後の受話信号をx(s+F1-1)の参照信号y(s+F1-1)は以下の数式(2)で表される。ここでG(s)、G(s+F1-1)はゲイン乗算部23で乗算されるゲイン(本発明の第1ゲインに相当)である。このようにして求められたF1個の参照信号y(s)~y(s+F1-1)は、FFT部21に入力される
【数1】
・・・(1)
【数2】
・・・(2)
【0039】
FFT部21は、FFT部12と同様、信号に対して周波数変換を行う。周波数変換は、例えば高速フーリエ変換(FFT、Fast Fourier Transform)である。FFT部21は、時間taに得られたF1個(例えば、128個)のサンプルを取得するごとに高速フーリエ変換を行う。FFT部21は、上述の処理により、パワースペクトルをY[k](t)として求める。ここで、tはフレームであり、例えば最初のF1個のサンプルが1フレーム(t=1)であり、その次のF1個のサンプルが2フレーム(t=2)である。また、kは周波数帯域であり、kの数(周波数の分解能)はサンプル数F1と同じである。このように、パワースペクトルY[k](t)は、周波数情報(k)と時間情報(t)が混ざっている。
【0040】
FFT部21により得られたパワースペクトルY[k](t)(本発明の第2入力信号に相当)は、ゲイン決定部22に入力される。ゲイン決定部22(パワー瞬時値取得部22a、平均パワー推定部22b、ゲイン算出部22c、非連続性軽減部22d)は、FFT部21により得られたパワースペクトルY[k](t)に基づいて、出力信号のゲインの変化率が所定値となるように、出力信号のゲインを算出する。
【0041】
パワー瞬時値取得部22aは、パワースペクトルY[k](t)に基づいて、参照信号のパワーの瞬時値であるパワー瞬時値P(t)を算出する。より具体的には、パワー瞬時値取得部22aは、以下の数式(3)によりパワー瞬時値P(t)を算出する。すなわち、パワー瞬時値P(t)とは、対象周波数領域F0からF1における各パワースペクトルのパワーの総和である。
【数3】
・・・(3)
【0042】
なお、A[k]は、重みづけ関数である。図4は、重みづけ関数の一例を示す図である。例えば、重みづけ関数として、A特性、C特性、重みづけを行わないZ特性等を採用することができる。周波数帯域ごとに重みづけを異ならせることで、所望のパワー瞬時値P(t)を得ることができる。例えば、人間が聞き取りにくい低周波数領域を切り捨てるA特性、C特性等を用いて重みづけをすることで、人間の感覚に近づけたパワー瞬時値P(t)を得ることができる。
【0043】
パワー瞬時値取得部22aは、毎時刻ではなく、所定のサンプル数F1(時間ta)ごとパワースペクトルY[k](t)を求めるため、計算頻度が低く、処理コストを低減することができる。
【0044】
FFT部21により得られるパワースペクトル、およびパワー瞬時値取得部22aにより得られるパワー瞬時値は、ノイズ/エコーサプレッサ14に入力される。ノイズ/エコーサプレッサ14では、パワー瞬時値P(t)を用いて非線形エコーの抑圧を行う。なお、FFT部21及びパワー瞬時値取得部22aは、ノイズ/エコーサプレッサ14が有していてもよい。
【0045】
平均パワー推定部22bは、時間taより長い時間tb(本発明の第2時間に相当)の間にパワー瞬時値取得部22aにより求められた複数のパワー瞬時値P(t)に基づいて、パワー瞬時値の平均値である平均パワーAve(t)を算出する。平均パワーAve(t)は、スピーカ52(図2等参照)を鳴らす音の大きさの概算値を数値化したものである。
【0046】
例えば、平均パワー推定部22bは、以下の数式(4)により一定区間T1からT2のパワー瞬時値P(t)の総和を平均パワーAve(t)として求める。このT1~T2の間の時間は時間tbと同じである。
【数4】
・・・(4)
【0047】
例えば、サンプル数F1が128個であり、サンプリング周波数が16kHzであるとすると、時間taは数ミリ秒であり、パワー瞬時値P(t)では一瞬(数ミリ秒)のパワーが求められる。パワー瞬時値P(t)は増減を繰り返すため、本実施の形態では、1~3秒程度のある程度の長い時間(時間tb)で平均パワーAve(t)を求めるようにしている。
【0048】
なお、平均パワー推定部22bは、平均パワーAve(t)として一定区間T1からT2のパワー瞬時値P(t)の総和を求めたが、平均パワーAve(t)の算出方法はこれに限られない。例えば、平均パワー推定部22bは、一定区間T1からT2のパワー瞬時値P(t)の平均値を平均パワーAve(t)としてもよいし、一定区間T1からT2のパワー瞬時値P(t)の時間加重平均値(数式(5)参照)を平均パワーAve(t)としてもよいし、一定区間T1からT2のパワー瞬時値P(t)の最大値を平均パワーAve(t)としてもよい。ただし、平均値を用いて平均パワーAve(t)を算出するのが最も正確である。また、時間加重平均値を用いて平均パワーAve(t)を算出するのが最も処理が軽い。
【数5】
・・・(5)
【0049】
ゲイン算出部22cは、平均パワーAve(t)と、ゲインの目標値D1とに基づいてゲインG(t)(本発明の第2ゲインに相当)を算出する。ゲイン算出部22cは、例えば、以下の数式(6)によりゲインG(t)を求める。
【数6】
・・・(6)
【0050】
本実施の形態では、平均パワーAve(t)の算出にゲイン乗算部23でゲインが乗算された信号を用いているため、それを排除するために目標値にゲインG(t-1)を乗算する。
【0051】
非連続性軽減部22dは、ゲインの変化に伴う信号の非連続性を低減し、信号の変化が滑らかになるように、ゲイン算出部22cで得られたG(t)を調整してゲインG(s+k)(本発明の第1ゲインに相当)を求める。非連続性軽減部22dは、ゲインG(s+k)の変化率を所定範囲内とする。
【0052】
ゲイン算出部22cでは、F1個のサンプル毎に1回しかゲインG(t)が求められないが、受話信号は連続して入力される。このときに急にゲインG(t)が変更されると、ゲインの変化に伴う信号の不連続性が発生し、異音が入るおそれがある。したがって、非連続性軽減部22dは、ゲインG(s+k)の変化率を所定範囲内とし、信号の非連続性を低減する。
【0053】
非連続性軽減部22dによる処理は、例えば以下の数式(7)により行われる。数式(7)では、ゲインG(s+k)は、k=0のときは1つ前のフレームのゲインG(t-1)となり、k=T1-1のときは今回のフレームのゲインG(t)となり、任意のサンプル数k=0~T1-1の間で線形的にゲインG(s+k)が変化している。なお、サンプル数T1はあらかじめ定めておくことができ、例えば64サンプルである。
【数7】
・・・(7)
【0054】
なお、非連続性軽減部22dによる処理は、数式(7)による処理には限られず、ゲイン変化前後の信号が滑らかに接続される種々の処理が採用できる。例えば、非連続性軽減部22dは、以下の数式(8)によりゲインG(s+k)を調整してもよい。数式(8)では、任意のサンプル数k=0~T1-1の間で、ゲイン変化前後の信号を曲線(ここでは、k=t-1で最小値となる2次曲線)で接続する。これにより、より滑らかなゲイン変化を実現できる。
【数8】
・・・(8)
【0055】
数式(7)、(8)では、k=T1-1でゲインが不連続となり、k=0~T1-1の間はゲインを連続的に変化させる。このように、ゲインを連続的に変化させることで、k=T1-1におけるゲインの不連続の程度が小さくなり、近端話者(利用者A、図1参照)が快適な音声を聞くことができる。
【0056】
ゲイン乗算部23は、受話側信号経路に設けられており、ゲインG(s+k)を受話信号に乗算する。
【0057】
なお、サンプル数T1は、1からオーバーラップ率を引いた値にサンプル数F1を乗算した値以下(T1≦(1-オーバーラップ率)*F1)とすることが望ましい。以下、図5を用いてその理由を説明する。図5の横軸は時間軸である。
【0058】
一般的に、FFT部21における処理は、取得したデータを複数のフレームに分割し(オーバーラップ処理)、分割したそれぞれのフレームに窓関数をかけてからFFTを行う。具体的には、図5に示すように、まず、時間S=0以降に得られたF1個の受話信号x(0)~x(F1-1)に対してFFTを行ってパワースペクトルY[k](0)を得、これに基づいてゲインG(0)を求める。次に、時間S=a以降に得られたF1個の受話信号x(a)~x(a+F1-1)に対してFFTを行ってパワースペクトルY[k](1)を得、これに基づいてゲインG(1)を求める。そして、パワースペクトルY[k](0)を得るための受話信号x(0)~x(F1-1)とパワースペクトルY[k](1)を得るための受話信号x(a)~x(a+F1-1)とは一部重なっている。この重なりのフレームサイズに対する比率がオーバーラップ率である。
【0059】
したがって、ゲイン乗算部23が乗算するゲインG(s+k)が1つ前のフレームのゲインG(t-1)から今回のフレームのゲインG(t)に遷移が完了するまでのフレーム数T1が、ゲイン決定部22が今回のフレームのゲインG(t)(図5におけるG(0))を得てから次のフレームのゲインG(t+1)(図5におけるG(1))を得るまでのフレーム数以下、すなわちT1≦(1-オーバーラップ率)*F1以下とすることが望ましい。
【0060】
本実施の形態によれば、自動利得制御装置9が一定の時間taごとに演算を行うため、演算装置の処理負荷を軽減することができる。したがって、処理性能が低いCPUを用いて利得制御を行うことができる。また、自動利得制御装置9が参照信号のパワーを用いてゲインG(s+k)を求めるため、適切な利得制御を行うことができる。特に、時間tbの平均パワーAve(t)、すなわち参照信号の大きさを適切に反映した結果に基づいてゲインG(s+k)を求めるため、より適切な利得制御を行うことができる。
【0061】
また、通常行われている従来の自動利得制御では、ゲイン乗算部23がFFT部を有し、フーリエ変換後の結果を用いてゲインを求めているが、本実施の形態では参照信号を用いてゲインG(s+k)を求めるため、ゲイン乗算部23におけるFFT部が不要である。したがって、本実施の形態によれば、処理性能が低いCPUを用いて利得制御を行うことができる。
【0062】
また、本実施の形態によれば、ノイズ/エコーサプレッサ14がFFT部21により得られたパワースペクトルY[k](t)に基づいてエコー除去を行う、より詳細には、FFT部21により得られたパワースペクトルY[k](t)及びパワー瞬時値取得部22aにより得られたパワー瞬時値P(t)を用いてノイズ/エコーサプレッサ14が非線形エコーの抑圧を行うため、ノイズ/エコーサプレッサ14が別途パワースペクトルY[k](t)及びパワー瞬時値P(t)を算出する必要がない。また、FFT部21及びパワー瞬時値取得部22aを自動利得制御装置9とノイズ/エコーサプレッサ14とで共有することができる。これにより、ノイズ/エコーサプレッサ14の構成を有効に用いて、少ない処理コストで適切にゲインを求めたり、エコーを除去したりすることができる。
【0063】
なお、本実施の形態では、エコー除去装置1がエコー除去部11とノイズ/エコーサプレッサ14とを用いてエコーを除去したが、エコーを除去する形態はこれに限られない。例えば、エコー除去部11は必須ではない。また、例えば、ノイズ/エコーサプレッサ14に代えて、ノイズ/エコーサプレッサ14の位置にエコー除去部11を設けてもよい。この場合には、エコー除去部11が本発明のエコー除去部に相当する。また、例えば、エコー除去部11を無くし、ノイズ/エコーサプレッサ14がエコー除去部11の機能をも有していてもよい。
【0064】
また、例えば、ノイズ/エコーサプレッサ14をFFT部21とパワー瞬時値取得部22aとの間に設けてもよい。参照信号にノイズが含まれているとパワー瞬時値P(t)の計算がしにくいため、パワー瞬時値取得部22aに入力される参照信号からあらかじめノイズを除去しておくことで容易に計算を行うことができる。
【0065】
また、本実施の形態では、非連続性軽減部22dは、所定のサンプル数の間で線形的又は二次関数的にゲインG(s+k)を変化させたが、非連続性軽減部22dが行う処理の形態はこれに限られない。
【0066】
例えば、非連続性軽減部22dは、図6(a)に示すように参照信号の振幅の変位が反転するゼロクロスポイントを検出した上で、図6(b)に示すようにゼロクロスポイントまでの間で線形的又は二次関数的にゲインを変化させてもよい。また、例えば、非連続性軽減部22dは、図6(c)に示すように、ゼロクロスポイントまではゲインを変化させず、ゼロクロスポイントでゲインを変更してもよい。このように、非連続性軽減部22dは、ゼロクロスポイントでゲインが不連続となるようにゲインG(s+k)を変化させる。ゼロクロスポイントでは音量がゼロになるため、ゲインを急激に変化させてもユーザが違和感を感じにくい。したがって、ゼロクロスポイントでゲインを切り替えることは快適なユーザ利用に寄与する。なお、ゼロクロスポイントの検出は適宜の公知の手法によることができる。
【0067】
また、例えば、非連続性軽減部22dは、図7(a)に示すように参照信号の振幅の変位が最大となる最大点を検出し、図7(b)に示すように最大点までの間で線形的又は二次関数的にゲインG(s+k)を変化させてもよい。信号が最大となる時点では、適切でないゲインが乗算されたことがユーザに感知されやすいため、信号が最大となる時点までに確実にゲインを切り替えることは快適なユーザ利用に寄与する。最大点の検出は適宜の公知の手法によることができる。
【0068】
また、本実施の形態では、フレーム数T1≦(1-オーバーラップ率)*F1としたが、T1>(1-オーバーラップ率)*F1とすることも不可能ではない。ただし、T1>(1-オーバーラップ率)*F1とする場合には、数式(7)、(8)において、G(t-1)に代えて、前回のG(s+k)(k=(1-オーバーラップ率)*F1)とする必要がある点に注意が必要である。ただし、エコー除去装置1の性能としては、フレーム数T1までに目標値に達するように、フレーム数T1≦(1-オーバーラップ率)*F1とすることが望ましい。
【0069】
<第2の実施の形態>
本発明の第2の実施の形態に係るエコー除去装置2について、第1実施形態と異なる部分を中心に説明する。なお、以降の説明において、第1の実施形態と同様の構成については同一の符号を付し、説明を省略する。
【0070】
図8は、第2の実施の形態に係るエコー除去装置2及び自動利得制御装置9の概略構成を示すブロック図である。エコー除去装置2は、機能的には、主として、自動利得制御装置9と、エコー除去部11と、周波数分析器(FFT部)12と、ノイズ/エコーサプレッサ14と、復元部(IFFT部)15と、EQ・ゲイン・コンプレッサ16と、を有する。エコー除去装置2では、エコー除去部11がFFT部12の後に構成されている点でエコー除去装置1と異なる。
【0071】
本実施の形態によれば、FFT部12での処理結果を用いてエコー除去部11及びノイズ/エコーサプレッサ14でエコーを消すことができる。
【0072】
<第3の実施の形態>
本発明の第3の実施の形態に係るエコー除去装置3について、第1実施形態と異なる部分を中心に説明する。なお、以降の説明において、第1の実施形態と同様の構成については同一の符号を付し、説明を省略する。
【0073】
図9は、第3の実施の形態に係るエコー除去装置3の概略構成を示すブロック図である。エコー除去装置3は、機能的には、主として、自動利得制御装置9Aと、エコー除去部11と、周波数分析器(FFT部)12と、ノイズ/エコーサプレッサ14と、復元部(IFFT部)15と、EQ・ゲイン・コンプレッサ16と、を有する。
【0074】
自動利得制御装置9Aは、参照信号に基づいてゲイン(本発明の第1ゲインに相当)を決定し、このゲインを受話信号に乗じる。自動利得制御装置9Aは、主として、FFT部21と、ゲイン決定部22Aと、ゲイン乗算部23と、を機能的に有する。ゲイン決定部22は、主として、ゲイン算出部22eと、平均部22fと、非連続性軽減部22dとを機能的に有する。ゲイン決定部22Aは、ゲイン算出部22eが平均部22fより前に設けられている点において、第1の実施形態にかかるゲイン決定部22とは異なる。
【0075】
図10は、自動利得制御装置9Aの処理を説明する模式図である。図中、矢印は信号の流れ(処理の流れ)を示す。EQ・ゲイン・コンプレッサ16は必須ではないため、図10ではEQ・ゲイン・コンプレッサ16の処理を省略する。
【0076】
ゲイン決定部22Aにおいて、FFT部21で得られたパワースペクトルY[k](t)に基づいて、出力信号のレベルが一定範囲となるゲイン(本発明の第1ゲインに相当)が求められ、このゲインがゲイン乗算部23において受話信号に乗算される。
【0077】
ゲイン算出部22e(本発明の第2ゲイン算出部に相当)は、パワースペクトルY[k](t)に基づいて、周波数帯域ごとに所望のゲインを求める。より具体的には、ゲイン算出部22eは、以下の数式(9)により周波数帯域ごとのゲインG[k](t)を算出する。
【数9】
・・・(9)
【0078】
平均部22fは、以下の数式(10)により、周波数ごとのゲインG[k](t)を周波数軸方向にF0からF1まで平均し、かつ時間軸方向にT1からT2まで平均することで、任意のフレームにおけるゲインG(t)(本発明の第2ゲインに相当)を算出する。
【数10】
・・・(10)
【0079】
本実施の形態によれば、自動利得制御装置9と同様に、演算装置の処理負荷を軽減しつつ、適切な利得制御を行うことができる。また、周波数ごとのゲインG[k](t)を周波数軸方向にF0からF1まで平均し、かつ時間軸方向にT1からT2まで平均してゲインG(t)を求めることで、参照信号の大きさを適切に反映したより適切な利得制御を行うことができる。
【0080】
なお、本実施の形態では、平均部22fは、周波数軸方向に平均化した上で時間軸方向に平均化するものとしたが、時間軸方向に平均化した上で周波数軸方向に平均化する処理を行ってもよい。また、平均部22fは、周波数ごとに重みづけを行ってもよい。さらに、平均部22fは、特定の周波数帯域のゲインを平均化する構成であってもよい。
【0081】
<第4の実施の形態>
本発明の第4の実施の形態に係るエコー除去装置4について、第1実施形態と異なる部分を中心に説明する。第4実施形態のエコー除去装置4が有する自動利得制御装置9Bは、パワー変化検出部40を備える点で、先に説明した実施形態とは異なる。なお、以降の説明において、第1の実施形態と同様の構成については同一の符号を付し、説明を省略する。
【0082】
図11は、第4の実施の形態に係るエコー除去装置4及び自動利得制御装置9Bの概略構成を示すブロック図である。エコー除去装置4は、機能的には、主として、自動利得制御装置9Bと、エコー除去部11と、周波数分析器(FFT部)12と、ノイズ/エコーサプレッサ14(本発明のエコー除去部に相当)と、復元部(IFFT部)15と、EQ・ゲイン・コンプレッサ16と、を有する。
【0083】
自動利得制御装置9Bは、受話側信号経路を伝送される受話信号に基づいてゲインを決定し、このゲインを受話信号に乗じる。自動利得制御装置9Bは、主として、FFT部21と、ゲイン決定部22Bと、ゲイン乗算部23と、パワー変化検出部40を機能的に有する。ゲイン決定部22Bは、ゲイン決定部22と同様に、主として、パワー瞬時値取得部22aと、平均パワー推定部22bと、ゲイン算出部22cと、非連続性軽減部22dとを機能的に有するが、パワー瞬時値取得部22aと平均パワー推定部22bとの間にパワー変化検出部40が設けられている点でゲイン決定部22と異なる。
【0084】
自動利得制御装置9Bにおいては、FFT部21で処理された信号に基づいて、ゲイン決定部22A及びパワー変化検出部40において出力信号のレベルが一定範囲となるゲイン(本発明の第1ゲインに相当)が求められ、このゲインがゲイン乗算部23において受話信号に乗算される。
【0085】
パワー変化検出部40は、パワー瞬時値取得部22aで算出されたパワー瞬時値P(t)の変化率が所定値以上であるか否かを検出する。例えば、パワー瞬時値P(t)の正の変化率が閾値以上である、すなわちパワー瞬時値P(t)が急激に増加する場合には、発話が開始された蓋然性が高い。また、例えば、パワー瞬時値P(t)の負の変化率が閾値以上である、すなわちパワー瞬時値P(t)が急激に減少する場合には、発話中に無声音や子音、語尾が発声されている蓋然性が高い。したがって、パワー変化検出部40は、パワー瞬時値P(t)の増加(発話)やパワー瞬時値P(t)の減少(無声音や子音、語尾)を検出する。
【0086】
発話や無声音や子音、語尾の発話があると、それが原因でパワー瞬時値P(t)の誤差が大きくなる恐れがある。したがって、パワー変化検出部40は、発話や無声音や子音、語尾の発話を検出した場合には、ゲインを変化させず、直前のゲインを維持する(G(t)=G(t-1))。そして、パワー変化検出部40は、直前のゲインG(t-1)をゲインG(t)として非連続性軽減部22dに出力する。
【0087】
本実施の形態によれば、発話が無い場合には直前のゲインを用いることで、処理が軽減できる。また、無声音又は語尾の発話時には、ゲインを変化させずに直前のゲインを維持することで、不要なゲインの変化を防ぎ、聞き取りやすい音声を担保できる。
【0088】
なお、本実施の形態では、パワー変化検出部40がパワー瞬時値P(t)の増加(発話)及びパワー瞬時値P(t)の減少(無声音や子音、語尾)を検出したがパワー変化検出部40がパワー瞬時値P(t)及びパワー瞬時値P(t)の減少のいずれか一方を検出してもよい。
【0089】
また、本実施の形態では、自動利得制御装置9Bはパワースペクトルの変化率に基づいて発話を検出するものとしたが、周波数特性等を参照して発話の有無を検出するものとしてもよい。
【0090】
<第5の実施の形態>
本発明の第5の実施の形態に係るエコー除去装置5について、第1実施形態と異なる部分を中心に説明する。第5実施形態のエコー除去装置5が有する自動利得制御装置9Cは、ゲイン算出時にいわゆるアタックタイム、リリースタイムを設ける点で、先に説明した実施形態とは異なる。なお、以降の説明において、第1の実施形態と同様の構成については同一の符号を付し、説明を省略する。
【0091】
図12は、第5の実施の形態に係るエコー除去装置5及び自動利得制御装置9Cの概略構成を示すブロック図である。エコー除去装置5は、機能的には、主として、自動利得制御装置9Cと、エコー除去部11と、周波数分析器(FFT部)12と、ノイズ/エコーサプレッサ14と、復元部(IFFT部)15と、EQ・ゲイン・コンプレッサ16と、を有する。
【0092】
自動利得制御装置9Cは、受話側信号経路を伝送される受話信号に基づいてゲインを決定し、このゲインを受話信号に乗じる。自動利得制御装置9Cは、主として、FFT部21と、ゲイン決定部22Cと、ゲイン乗算部23とを機能的に有する。FFT部21で処理された信号に基づいて、ゲイン決定部22Cにおいて出力信号のレベルが一定範囲となるゲイン(本発明の第1ゲインに相当)が求められ、このゲインがゲイン乗算部23において受話信号に乗算される。
【0093】
ゲイン決定部22Cは、FFT部21により得られたパワースペクトルY[k](t)に基づいて、出力信号のゲインの変化率が所定値となるように、出力信号のゲインを算出する。ゲイン決定部22は、主として、パワー瞬時値取得部22aと、平均パワー推定部22bと、ゲイン算出部22gと、非連続性軽減部22dとを機能的に有する。
【0094】
ゲイン算出部22gは、平均パワーAve(t)と、ゲインの目標値D1とに基づいて、数式(5)によりゲインG(t)を算出する。このとき、ゲイン算出部22gは、いわゆるアタックタイム又はリリースタイムを設けて、ゲインG(t)を緩やかに変化させる。
【0095】
なお、アタックタイムは、最初に信号が入力された場合等に所望のゲインまでゲインを増加させるのに要する時間であり、アタックタイムを大きくするほどゲインは緩やかに増加する。また、リリースタイムは、ゲインが減少した場合等に所望のゲインまでゲインを低下させるのに要する時間であり、リリースタイムを大きくするほどゲインは緩やかに低下する。
【0096】
アタックタイム及びリリースタイムはあらかじめ設定されており、ゲイン算出部22gはアタックタイム及びリリースタイムの時間を保持している。アタックタイム及びリリースタイムは、平均パワー推定部22bが平均パワーAve(t)を算出する時間tb(本発明の第2時間に相当)より長い時間tc(本発明の第3時間に相当)であり、例えば1~10秒程度である。
【0097】
ゲイン算出部22gは、アタックタイム及びリリースタイムの時間をかけてゲインG(t)を変化させる。例えば、アタックタイムが10秒であり、ゲインG(t)の変化が1である場合には、ゲイン算出部22gは、1フレームで変化させるゲインG(t)’(本発明の第2ゲインに相当)を、1を10秒のフレーム数で割った大きさとする。
【0098】
非連続性軽減部22dは、ゲイン算出部22cで得られたG(t)’を数式(7)のG(t)に入力してゲインG(s+k)(本発明の第1ゲインに相当)を求める
【0099】
本実施の形態によれば、ゲインの急峻な変化を防止することができる。なお、アタックタイム又はリリースタイムを設ける構成は、数フレーム(例えば、0.01~0.1秒程度)の時間でゲインの非連続性を軽減する非連続性軽減部22dによる処理と合わせて行うと一層効果的である。
【0100】
<第6の実施の形態>
本発明の第6の実施の形態に係るエコー除去装置6について、第1実施形態と異なる部分を中心に説明する。第5実施形態のエコー除去装置6が有する自動利得制御装置9Dは、ゲイン乗算時にクリップ対策を行う点で、先に説明した実施形態とは異なる。なお、以降の説明において、第1の実施形態と同様の構成については同一の符号を付し、説明を省略する。
【0101】
なお、クリップとは信号が規定のレベルを超えた部分が削られた状態で出力されることであり、クリップにより異音(クリップノイズ)が発生してしまう。
【0102】
図13は、第6の実施の形態に係るエコー除去装置6及び自動利得制御装置9Dの概略構成を示すブロック図である。エコー除去装置6は、機能的には、主として、自動利得制御装置9Dと、エコー除去部11と、周波数分析器(FFT部)12と、ノイズ/エコーサプレッサ14と、復元部(IFFT部)15と、EQ・ゲイン・コンプレッサ16と、を有する。
【0103】
自動利得制御装置9Dは、主として、FFT部21と、ゲイン決定部22と、ゲイン乗算部23Aと、を機能的に有する。FFT部21で処理された信号に基づいて、ゲイン決定部22において出力信号のレベルが一定範囲となるゲイン(本発明の第1ゲインに相当)が求められ、このゲインがゲイン乗算部23Aにおいて受話信号に乗算される。
【0104】
ゲイン乗算部23Aは、受話側信号経路に設けられており、非連続性軽減部22dで求められたゲインG(s+k)を受話信号に乗算する。このとき、ゲイン乗算部23Aは、受話信号の大きさ(レベル)を取得し、受話信号の大きさが任意の閾値以上の場合には、乗算するゲインを小さくする。また、ゲイン乗算部23Aは、受話信号の大きさ(レベル)によっては、ゲインを1まで小さく(ゲインの乗算を停止)してもよい。
【0105】
本実施の形態によれば、信号を増幅し過ぎることによるクリップを防止することができる。また、装置の破損を防止することができる。
【0106】
以上、この発明の実施形態を、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。
【符号の説明】
【0107】
1、2、3、4、5、6:エコー除去装置
9、9A、9B、9C、9D:自動利得制御装置
11 :エコー除去部
12 :FFT部
14 :ノイズ/エコーサプレッサ
15 :IFFT部
16 :EQ・ゲイン・コンプレッサ
21 :FFT部
22、22A、22B、22C:ゲイン決定部
22a :パワー瞬時値取得部
22b :平均パワー推定部
22c、22e、22g:ゲイン算出部
22d :非連続性軽減部
22f :平均部
23、23A:ゲイン乗算部
40 :パワー変化検出部
50 :端末
51 :マイクロホン
52 :スピーカ
53 :通信装置
54 :通信装置
55 :スピーカアンプ
100 :音声通信システム
531 :出力部
532 :入力部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
【手続補正書】
【提出日】2024-02-16
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
端末が有するスピーカへ受話信号を伝送する受話側信号経路から第1時間の間に入力された時間領域の参照信号である第1入力信号を周波数領域の第2入力信号に変換する周波数領域変換部と、
前記第2入力信号に基づいて、第1ゲインを算出するゲイン決定部と、
前記受話側信号経路に設けられており、前記第1ゲインを前記受話信号に乗算するゲイン乗算部と、
を備え、
前記参照信号は、前記受話信号に前記ゲイン乗算部で前記第1ゲインが乗算された後の信号である
ことを特徴とする自動利得制御装置。
【請求項2】
前記ゲイン決定部は、
前記第2入力信号に基づいて、前記参照信号のパワーの瞬時値であるパワー瞬時値を算出するパワー瞬時値取得部と、
前記第1時間より長い第2時間の間に前記パワー瞬時値取得部により求められた複数の前記パワー瞬時値に基づいて、前記スピーカを鳴らす音の大きさの概算値を数値化した平均パワーを算出する平均パワー推定部と、
前記平均パワーと、ゲインの目標値とに基づいて所望の第2ゲインを算出するゲイン算出部と、
前記第2ゲインに基づいて前記第1ゲインを算出する非連続性軽減部であって、前記第1ゲインの変化率を所定範囲内とする非連続性軽減部と、
を備えたことを特徴とする請求項1に記載の自動利得制御装置。
【請求項3】
前記ゲイン決定部は、
前記第2入力信号とゲインの目標値とに基づいて、周波数帯域ごとに第3ゲインを算出する第2ゲイン算出部と、
前記第1時間より長い第2時間の間に算出された前記第3ゲインを、周波数方向および時間方向に前記ゲインを平均して第2ゲインを算出する平均部と、
前記第2ゲインに基づいて前記第1ゲインを算出する非連続性軽減部であって、前記第1ゲインの変化率を所定範囲内とする非連続性軽減部と、
を備えたことを特徴とする請求項1に記載の自動利得制御装置。
【請求項4】
前記非連続性軽減部は、前記参照信号の振幅の変位が反転するゼロクロスポイントで前記第1ゲインが不連続となるようにする
ことを特徴とする請求項2又は3に記載の自動利得制御装置。
【請求項5】
前記非連続性軽減部は、前記参照信号の振幅の変位が最大となる最大点までの間に徐々に前記第1ゲインを変化させる
ことを特徴とする請求項2又は3に記載の自動利得制御装置。
【請求項6】
前記パワー瞬時値の変化率が所定値以上であることを検出するパワー変化検出部をさらに備え、
前記ゲイン決定部は、前記パワー瞬時値の変化率が前記所定値以上であることを検出した場合には、前記第1ゲインを変化させない
ことを特徴とする請求項2に記載の自動利得制御装置。
【請求項7】
前記ゲイン決定部は、前記第2ゲインを前記第2時間より長い第3時間をかけて変化させる
ことを特徴とする請求項2から6のいずれか一項に記載の自動利得制御装置。
【請求項8】
前記ゲイン乗算部は、前記受話信号の大きさが閾値以上の場合には、前記第1ゲインを小さくする
ことを特徴とする請求項1から7のいずれか一項に記載の自動利得制御装置。
【請求項9】
請求項1から8のいずれか一項に記載の自動利得制御装置と、
前記端末が有するマイクロホンから入力された入力信号を伝送する送話側信号経路に設けられており、前記スピーカから出力される音声が前記マイクロホンに入力することによって生じるエコーを除去するエコー除去部を備え、
前記エコー除去部は、前記周波数領域変換部により変換された前記第2入力信号に基づいてエコー除去を行う
ことを特徴とするエコー除去装置。
【請求項10】
端末が有するスピーカへ受話信号を伝送する受話側信号経路から第1時間の間に入力された時間領域の参照信号である第1入力信号を周波数領域の第2入力信号に変換するステップと、
前記第2入力信号に基づいて、第1ゲインを算出するステップと、
前記受話側信号経路に設けられており、前記第1ゲインを前記受話信号に乗算するステップと、を含み、
前記参照信号は、前記受話信号に前記第1ゲインが乗算された後の信号である
ことを特徴とする自動利得制御方法。
【請求項11】
コンピュータを、
端末が有するスピーカへ受話信号を伝送する受話側信号経路から第1時間の間に入力された時間領域の参照信号である第1入力信号を周波数領域の第2入力信号に変換する周波数領域変換部、
前記第2入力信号に基づいて、第1ゲインを算出するゲイン決定部、
前記受話側信号経路に設けられており、前記第1ゲインを前記受話信号に乗算するゲイン乗算部、として機能させ、
前記参照信号は、前記受話信号に前記ゲイン乗算部で前記第1ゲインが乗算された後の信号である
ことを特徴とする自動利得制御プログラム。