特許第5799013号(P5799013)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エスシーティアイ ホールディングス、インクの特許一覧

特許5799013音声信号の処理に際して、ノイズを無視して音声を対象にすることによりノイズを低減するシステムおよび方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5799013
(24)【登録日】2015年8月28日
(45)【発行日】2015年10月21日
(54)【発明の名称】音声信号の処理に際して、ノイズを無視して音声を対象にすることによりノイズを低減するシステムおよび方法
(51)【国際特許分類】
   G10L 21/0224 20130101AFI20151001BHJP
   G10L 21/0208 20130101ALI20151001BHJP
   G10L 25/84 20130101ALI20151001BHJP
   G10L 25/90 20130101ALI20151001BHJP
【FI】
   G10L21/0224
   G10L21/0208 100B
   G10L25/84
   G10L25/90
【請求項の数】20
【全頁数】15
(21)【出願番号】特願2012-522970(P2012-522970)
(86)(22)【出願日】2010年7月27日
(65)【公表番号】特表2013-500508(P2013-500508A)
(43)【公表日】2013年1月7日
(86)【国際出願番号】US2010043400
(87)【国際公開番号】WO2011014512
(87)【国際公開日】20110203
【審査請求日】2013年7月26日
(31)【優先権主張番号】61/228,925
(32)【優先日】2009年7月27日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】511114818
【氏名又は名称】エスシーティアイ ホールディングス、インク
(74)【代理人】
【識別番号】100092048
【弁理士】
【氏名又は名称】沢田 雅男
(74)【代理人】
【識別番号】110001302
【氏名又は名称】特許業務法人北青山インターナショナル
(72)【発明者】
【氏名】ピンソン,マーク
【審査官】 千本 潤介
(56)【参考文献】
【文献】 米国特許出願公開第2009/0112579(US,A1)
【文献】 米国特許第06925435(US,B1)
【文献】 特開2002−244695(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/0224
G10L 21/0208
G10L 25/84
G10L 25/90
H04R 3/00
(57)【特許請求の範囲】
【請求項1】
自動音声抽出システムにおいてノイズを無視して音声を対象とする方法であって、
自動音声抽出システムに音声信号を受け入れるステップと、
前記音声信号の基本周波数を識別するステップと、
前記基本周波数の1またはそれ以上の高調波を識別するステップと、
前記基本周波数および前記1またはそれ以上の高調波フィルタを適用して、高調波エネルギー以外のエネルギーを減衰させかつ1またはそれ以上の高調波のみの信号を生成するステップと、
前記1またはそれ以上の高調波のみの信号に振幅変調を行い、1またはそれ以上の振幅変調された高調波のみの信号を生成するステップと、
前記1またはそれ以上の振幅変調された高調波のみの信号について、1またはそれ以上の信号対ノイズ比を作成するステップと、
前記1またはそれ以上の振幅変調された高調波のみの信号のうち、信号対ノイズ比が閾値の大きさ未満に低下した1またはそれ以上の信号を無視し、抽出された振幅パターンを形成するステップと、
前記抽出された振幅パターンに人間の音声の範囲の特徴を有する帯域通過フィルタを適用し、前記1またはそれ以上の振幅変調された高調波のみの信号のうち、振幅変調が人間の音声に一致しない1またはそれ以上の信号を無視するステップとを備え、
結果として得られた信号が出力されることを特徴とする方法。
【請求項2】
請求項1に記載の音声信号の処理方法において、
前記音声信号の基本周波数を識別するステップが、前記音声信号をデジタルフィルタで処理するように構成されたプロセッサを提供するステップをさらに備えることを特徴とする方法。
【請求項3】
請求項2に記載の音声信号の処理方法において、
前記デジタルフィルタが、前記音声信号のスペクトル全体にわたって前記音声信号の局所的に最も強いエネルギー量を追跡するように構成された1またはそれ以上の適応狭帯域フィルタを含むことを特徴とする方法。
【請求項4】
請求項3に記載の音声信号の処理方法において、
倍音列に一致する局所的に最も強いエネルギー量を選択するとともに、前記基本周波数として、前記局所的に最も強いエネルギー量に関連する周波数を選択するように前記プロセッサを構成するステップをさらに備えることを特徴とする方法。
【請求項5】
請求項4に記載の音声信号の処理方法において、
前記倍音列に一致する1またはそれ以上の追加的な局所的に強いエネルギー量を選択するとともに、前記基本周波数の高調波として、前記倍音列と一致する周波数を選択するように前記プロセッサを構成するステップをさらに備えることを特徴とする方法。
【請求項6】
請求項3に記載の音声信号の処理方法において、
前記1またはそれ以上の適応狭帯域フィルタを構成することが、
推定中心周波数を生成するステップと、
前記推定中心周波数を使用して、前記音声信号の瞬時周波数および振幅を計算し、それによってより正確な中心周波数を提供するステップと、
前記推定中心周波数を前記より正確な中心周波数と置き換えるステップとをさらに備えることを特徴とする方法。
【請求項7】
請求項1に記載の音声信号の処理方法において、
前記1またはそれ以上の振幅変調された高調波のみの信号のうち、信号対ノイズ比が閾値の大きさ未満に低下した1またはそれ以上の信号を無視するステップが、
前記基本周波数に中心を有し、次に低い高調波周波数までの実質的に中間から、次に高い高調波周波数までの実質的に中間に及ぶ少なくとも1の広帯域を規定するステップと、
前記基本周波数に中心を有する少なくとも1の狭帯域を規定するステップであって、前記狭帯域の帯域幅が前記広帯域の帯域幅よりも小さいステップと、
前記狭帯域のエネルギーと前記広帯域のエネルギーとの比率を計算するステップと、
前記1またはそれ以上の振幅変調された高調波のみの信号のうち、前記狭帯域のエネルギーと前記広帯域のエネルギーとの比率が閾値よりも高い1またはそれ以上の信号を無視するステップとをさらに備えることを特徴とする方法。
【請求項8】
請求項1に記載の音声信号の処理方法において、
前記1またはそれ以上の振幅変調された高調波のみの信号のうち、信号対ノイズ比が閾値の大きさ未満に低下した1またはそれ以上の信号を無視するステップが、
前記基本周波数に基づいて、前記1またはそれ以上の高調波の周波数を推定するステップと、
前記基本周波数の1またはそれ以上の高調波を識別するステップで観測された1またはそれ以上の高調波の実際の周波数を判定するステップと、
前記1またはそれ以上の高調波の前記推定される周波数と前記1またはそれ以上の高調波の実際の周波数との間の偏差値を判定するステップと、
前記1またはそれ以上の振幅変調された高調波のみの信号のうち、偏差値が予め設定された値を超える1またはそれ以上の信号を無視するステップとをさらに備えることを特徴とする方法。
【請求項9】
請求項1に記載の音声信号の処理方法において、
前記1またはそれ以上の振幅変調された高調波のみの信号のうち、信号対ノイズ比が閾値の大きさ未満に低下した1またはそれ以上の信号を無視するステップが、
前記基本周波数に中心を有し、次に低い高調波周波数までの実質的に中間から、次に高い高調波周波数までの実質的に中間に及ぶ少なくとも1の広帯域を規定するステップと、
前記基本周波数に中心を有する少なくとも1の狭帯域を規定するステップであって、前記狭帯域の帯域幅が前記広帯域の帯域幅よりも小さいステップと、
前記狭帯域のエネルギーと前記広帯域のエネルギーとの比率を計算するステップと、
前記1またはそれ以上の振幅変調された高調波のみの信号のうち、前記狭帯域のエネルギーと前記広帯域のエネルギーとの比率が閾値よりも高い1またはそれ以上の信号を無視するステップと、
前記基本周波数に基づいて、前記1またはそれ以上の高調波の周波数を推定するステップと、
前記基本周波数の1またはそれ以上の高調波を識別するステップで観測された1またはそれ以上の高調波の実際の周波数を判定するステップと、
前記1またはそれ以上の高調波の前記推定される周波数と前記1またはそれ以上の高調波の実際の周波数との間の偏差値を判定するステップと、
前記1またはそれ以上の振幅変調された高調波のみの信号のうち、偏差値が予め設定された値を超える1またはそれ以上の信号を無視するステップとをさらに備えることを特徴とする方法。
【請求項10】
請求項1に記載の音声信号の処理方法において、
前記1またはそれ以上の振幅変調された高調波のみの信号のうち、振幅変調が人間の音声に一致しない1またはそれ以上の信号を無視するステップが、
1ヘルツから16ヘルツの範囲を有する帯域通過フィルタに、前記振幅変調を通過させるステップをさらに備えることを特徴とする方法。
【請求項11】
実行可能コンピュータ可読媒体であって、
実行時に請求項1に記載の方法を行う命令が記憶されていることを特徴とする実行可能コンピュータ可読媒体。
【請求項12】
自動音声抽出のために音声信号を処理する装置であって、
自動音声抽出システムに音声信号を受け入れるように構成された音声信号入力デバイスと、
メモリデバイスおよび前記音声信号入力デバイスに動作可能に接続され、複数の処理モジュールを含むプロセッサとを備え、
前記複数の処理モジュールが、
前記音声信号の基本周波数を識別するように構成された高調波周波数識別部と、
前記基本周波数および1またはそれ以上の高調波フィルタを適用して、高調波エネルギー以外のエネルギーを減衰させかつ1またはそれ以上の振幅変調された高調波のみの信号を生成するように構成されたフィルタアプリケータと、
前記1またはそれ以上の振幅変調された高調波のみの信号に振幅変調を実行して、1つまたはそれ以上の振幅変調された高調波のみの信号を形成するように構成されたモジュレータと、
前記1またはそれ以上の振幅変調された高調波のみの信号について、1またはそれ以上の信号対ノイズ比を作成するように構成された出力比コンストラクタと、
前記1またはそれ以上の振幅変調された高調波のみの信号のうち、信号対ノイズ比が閾値の大きさ未満に低下した1またはそれ以上の信号を無視し、抽出された振幅パターンを形成するように構成された低出力高調波リムーバと、
前記抽出された振幅パターンに適用される人間の音声の範囲の特徴を有する帯域通過フィルタを備える非音声高調波リムーバであって、前記1またはそれ以上の振幅変調された高調波のみの信号のうち、振幅変調が人間の音声に一致しない1またはそれ以上の信号を無視するように構成された非音声高調波リムーバとを備え、
処理信号を出力することを特徴とする装置。
【請求項13】
請求項12に記載の装置において、
前記フィルタアプリケータが、前記音声信号のスペクトル全体にわたって前記音声信号の局所的に最も強いエネルギー量を追跡するように構成された1またはそれ以上の適応狭帯域フィルタで構成されていることを特徴とする装置。
【請求項14】
請求項13に記載の装置において、
前記フィルタアプリケータが、倍音列に一致する局所的に最も強いエネルギー量を選択し、前記基本周波数として、前記局所的に最も強いエネルギー量に関連する周波数を選択するように構成されていることを特徴とする装置。
【請求項15】
請求項14に記載の装置において、
前記フィルタアプリケータが、前記倍音列に一致する1またはそれ以上の追加的な局所的に強いエネルギー量を選択し、前記基本周波数の高調波として、前記倍音列と一致する周波数を選択するように構成されていることを特徴とする装置。
【請求項16】
請求項12に記載の装置において、
前記低出力高調波リムーバが、
前記基本周波数に中心を有し、次に低い高調波周波数までの実質的に中間から、次に高い高調波周波数までの実質的に中間に及ぶ少なくとも1の広帯域を規定するステップと、
前記基本周波数に中心を有する少なくとも1の狭帯域を規定するステップであって、前記狭帯域の帯域幅が前記広帯域の帯域幅よりも小さいステップと、
前記狭帯域のエネルギーと前記広帯域のエネルギーとの比率を計算するステップと、
前記1またはそれ以上の振幅変調された高調波のみの信号のうち、前記狭帯域のエネルギーと前記広帯域のエネルギーとの比率が閾値よりも高い1またはそれ以上の信号を無視するステップとを行うようにさらに構成されていることを特徴とする装置。
【請求項17】
請求項12に記載の装置において、
前記低出力高調波リムーバが、
前記基本周波数に基づいて、前記1またはそれ以上の高調波の周波数を推定するステップと、
前記基本周波数の1またはそれ以上の高調波を識別するステップで観測された1またはそれ以上の高調波の実際の周波数を判定するステップと、
前記1またはそれ以上の高調波の前記推定される周波数と前記1またはそれ以上の高調波の実際の周波数との間の偏差値を判定するステップと、
前記1またはそれ以上の振幅変調された高調波のみの信号のうち、偏差値が予め設定された値を超える1またはそれ以上の信号を無視するステップとを行うようにさらに構成されていることを特徴とする装置。
【請求項18】
請求項12に記載の装置において、
前記低出力高調波リムーバが、
前記基本周波数に中心を有し、次に低い高調波周波数までの実質的に中間から、次に高い高調波周波数までの実質的に中間に及ぶ少なくとも1の広帯域を規定するステップと、
前記基本周波数に中心を有する少なくとも1の狭帯域を規定するステップであって、前記狭帯域の帯域幅が前記広帯域の帯域幅よりも小さいステップと、
前記狭帯域のエネルギーと前記広帯域のエネルギーとの比率を計算するステップと、
前記1またはそれ以上の振幅変調された高調波のみの信号のうち、前記狭帯域のエネルギーと前記広帯域のエネルギーとの比率が閾値よりも高い1またはそれ以上の信号を無視するステップと、
前記基本周波数に基づいて、前記1またはそれ以上の高調波の周波数を推定するステップと、
前記基本周波数の1またはそれ以上の高調波を識別するステップで観測された1またはそれ以上の高調波の実際の周波数を判定するステップと、
前記1またはそれ以上の高調波の前記推定される周波数と前記1またはそれ以上の高調波の実際の周波数との間の偏差値を判定するステップと、
前記1またはそれ以上の振幅変調された高調波のみの信号のうち、偏差値が予め設定された値を超える1またはそれ以上の信号を無視するステップとを行うようにさらに構成されていることを特徴とする装置。
【請求項19】
請求項12に記載の装置において、
前記非音声高調波リムーバが、
1ヘルツから16ヘルツの範囲を有する帯域通過フィルタに振幅変調を通過させることにより、前記1またはそれ以上の振幅変調された高調波のみの信号のうち、1またはそれ以上の信号を無視するように構成されていることを特徴とする装置。
【請求項20】
自動音声抽出のために音声信号を処理する方法であって、
自動音声抽出システムに音声信号を受け入れるステップと、
前記音声信号の基本周波数を識別するステップと、
前記基本周波数の1またはそれ以上の高調波を識別するステップと、
前記基本周波数および前記1またはそれ以上の高調波フィルタを適用して、高調波エネルギー以外のエネルギーを減衰させかつ1またはそれ以上の高調波のみの信号を生成するステップと、
前記1またはそれ以上の高調波のみの信号に振幅変調を行い、1またはそれ以上の振幅変調された高調波のみの信号を生成するステップと、
前記1またはそれ以上の振幅変調された高調波のみの信号について、1またはそれ以上の信号対ノイズ比を作成するステップと、
前記1またはそれ以上の振幅変調された高調波のみの信号のうち、信号対ノイズ比が閾値の大きさ未満に低下した1またはそれ以上の信号を無視するステップとを備え、
このステップが、
前記基本周波数に中心を有し、次に低い高調波周波数までの実質的に中間から、次に高い高調波周波数までの実質的に中間に及ぶ少なくとも1の広帯域を規定するステップと、
前記基本周波数に中心を有する少なくとも1の狭帯域を規定するステップであって、前記狭帯域の帯域幅が前記広帯域の帯域幅よりも小さいステップと、
前記狭帯域のエネルギーと前記広帯域のエネルギーとの比率を計算するステップと、
前記1またはそれ以上の振幅変調された高調波のみの信号のうち、前記狭帯域のエネルギーと前記広帯域のエネルギーとの比率が閾値よりも高い1またはそれ以上の信号を無視するステップと、
前記基本周波数に基づいて、前記1またはそれ以上の高調波の周波数を推定するステップと、
前記基本周波数の1またはそれ以上の高調波を識別するステップで観測された1またはそれ以上の高調波の実際の周波数を判定するステップと、
前記1またはそれ以上の高調波の前記推定される周波数と前記1またはそれ以上の高調波の実際の周波数との間の偏差値を判定するステップと、
前記1またはそれ以上の振幅変調された高調波のみの信号のうち、偏差値が予め設定された値を超える1またはそれ以上の信号を無視し、抽出された振幅パターンを形成するステップとを含み、
当該方法がさらに、
前記抽出された振幅パターンに人間の音声の範囲の特徴を有する帯域通過フィルタを適用し、前記1またはそれ以上の振幅変調された高調波のみの信号のうち、振幅変調が人間の音声に一致しない1またはそれ以上の信号を無視するステップを備え、
結果として得られた信号が出力されることを特徴とする方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声信号を処理する際のノイズ低減に関する。より詳細には、本発明は、適応フィルタを使用して、ノイズを含む音声信号から音声情報を抽出することに関するものである。
【0002】
[関連出願の相互参照]
この出願は、2009年7月27日に出願された米国仮特許出願第61/228,925号に対して優先権を主張する。この米国仮特許出願は、引用により本明細書にそのまま援用されるものである。
【背景技術】
【0003】
自動音声認識システム(“ASR”)は、音声の言葉を含む音響信号をテキストに変換する。そのようなシステムの“フロントエンド”は、対象となる音声信号から重要な識別音声の“特徴”を抽出することにより、変換プロセスを開始する。ASRシステムの特徴抽出能力は、対象となる音声信号がノイズ汚染されたときに、大幅に低下する。実際に、ノイズは、その他の多くの実用的な用途において、ASRシステムの幅広い使用の妨げとなる。これは、入力として音声の言葉を用いるとともに、より明瞭に聞こえて分かるように信号を処理する、補聴器、ヘッドホン、無線、有線またはインターネットベースの音声通信のような、その他の通信または聴覚システムにも当てはまる。
【0004】
現在のノイズ低減システムにおいては、ノイズをモデリングして信号から取り去ることにより、ノイズを軽減しようと試みている。それらシステムは、ノイズ信号の正確な推定を必要とする。しかしながら、ノイズ信号が非定常的で、ノイズがモデルと異なるとき、あるいはノイズが時間とともに変化する場合に、それら技術は機能しなくなるか、有効性が制限されるため、正確な評価が非常に困難となる。
【0005】
その他の方法は、ノイズ汚染された音声を認識するためにASRシステムを教育しようと試みるトレーニングモデルに依存する。しかしながら、環境ノイズおよびシステムノイズの大きさが、大き過ぎるか、または動的過ぎるため、必要な信頼性を有するトレーニングモデルを生成することができない。
【0006】
また、それ以外のもので、音声の高調波特性を利用して、音声認識を改善するように試みたものもある。しかしながら、音声の調和構造を検出して追跡しようとするこれまでの試みは、十分ではなかった。
【発明の概要】
【0007】
本発明は、フィルタを使用して、人間の音声を含むノイズの多い信号から音声情報を抽出して、その抽出分のうち、音声情報を伝えない部分を無視するシステムおよび方法に関する。
【0008】
本発明の幾つかの実施形態は、ノイズに汚染されることが最も少ない高調波のサブセットに注目するステップを含む。本発明の幾つかの実施形態は、低信号対ノイズ比を有する信号高調波を無視するステップを含む。幾つかの実施形態は、音声と一致しない振幅変調を無視するステップを含む。本発明の現時点で好ましい実施形態は、ノイズ汚染が最も少ない高調波のサブセットに注目し、低信号対ノイズ比を有する信号高調波を無視し、音声と一致しない振幅変調を無視する、信号の処理システムを含む。
【0009】
本発明の幾つかの実施形態は、自動音声抽出を実行するための複数の処理モジュールを備えるプロセッサを有するシステムを含む。現時点で好ましい実施形態では、プロセッサが、高調波周波数識別部(harmonic frequency identifier)、適応フィルタアプリケータ(adaptive filter applicator)、モジュレータ(modulator)、出力比コンストラクタ(power ratio constructor)、低出力高周波リムーバ(low-power harmonic remover)および非音声高調波リムーバ(non-speech harmonic remover)を備え、ノイズの影響を受けることが最も少ない高調波のサブセットに注目し、低信号対ノイズ比を有する信号高調波を無視し、音声と一致しない振幅変調を無視するような方法で、モジュールが信号を処理するように構成されている。
【図面の簡単な説明】
【0010】
図1図1Aは、本発明の幾つかの実施形態に係る、音高および高調波のサブセットに保持された情報を含む単語を発する人間の話者の周波数を時間とともにプロットしたグラフである。図1Bは、本発明の幾つかの実施形態に係る、音声信号高調波の振幅変調の値を時間とともにプロットしたグラフである。
図2図2は、本発明の現時点で好ましい実施形態に係る自動音声抽出の方法を示している。
図3図3Aは、元の音声信号のスペクトログラムを示している。図3Bは、ノイズ成分を加えた音声信号のスペクトログラムを示している。図3Cは、本発明の幾つかの実施形態に係る音声信号の音声変換再構成のスペクトログラムを示している。
図4図4Aは、本発明の幾つかの実施形態に係る自動音声抽出のシステムを示している。図4Bは、本発明の現時点で好ましい実施形態に係る自動音声抽出を実行する複数の処理モジュールを備える処理エンジンを示している。
図5図5は、コンピュータシステムの例示的形式の装置の概略ブロック図で、そのコンピュータシステム内では、命令のセットがプログラムされて、本発明の論理ステップを当該装置に実行させるものとなっている。
【発明を実施するための形態】
【0011】
上述したように、コンピュータ認識可能な音声の処理システムを作ろうとする多くの従来の試みは、ノイズのモデリングおよび除去に重点を置いており、ノイズ条件がそれらのモデルと異なるときに機能しなくなる。特にこの理由により、実際のところ、人間の能力に近いASRシステムは先行技術に存在しない。同じことは、補聴器、無線、有線およびインターネットベースの音声通信システムのような、音声入力を使用するその他のシステムにも該当する。
【0012】
他方、人間は、中程度の量の様々なタイプのノイズの中で、時間変化条件下で、音声を確実に理解することができる。人間は、ノイズを除去することによってではなく、ノイズを無視して、音声情報信号の意味のある特徴により集中的および選択的に注目することによって、ノイズの多い音声信号内のノイズに対応している。ノイズ低減に対する本発明の方法の目的は、先行技術のようなノイズ低減技術ではなく、人間の能力により近付けることである。
【0013】
音声信号は、基本周波数(fundamental frequency)、すなわち“音高(pitch)”と、基本周波数の整数倍、すなわち“高調波または倍音(harmonics)”とからなる調波構造を備える。有声音声は、音高および高調波にエネルギーが集まる調波構造を示す。これは、音高の周波数およびその整数倍の高調波周波数に、有声音声のエネルギーが集中することを意味している。
【0014】
本発明は、この調波構造を検知および追跡して、それにより音声把握に最も関連する信号の特徴を抽出するシステムおよび方法である。
【0015】
本発明者は、関連するエネルギーの集中が高調波に存在することにより、音高およびその高調波が最も高い局所的な信号対ノイズ比を有することを見出した。これは、ノイズレベルが増加したときに、高調波がノイズの中で目立つ信号の最後の特徴であることを意味している。高調波の振幅変調は、音声知覚に使用される情報を符号化する。この情報は、幾分冗長的に符号化される。したがって、音声情報は高調波のサブセットのみに依存して伝えられる。
【0016】
高調波のサブセットに注目することは、ノイズ汚染を受けることが最も少ない高調波への選択的な注意によってメッセージを受け取ることができるため、音声を把握する人間の能力をさらに高める。本発明の現時点で好ましい実施形態は、ノイズ汚染を受けることが最も少ない高調波のサブセットに選択的に注目するこの能力を再現する。
【0017】
本発明においては、用語“ノイズまたは雑音”は、環境ノイズ、チャネルノイズおよびそれらの組合せに限定される訳ではないが、それらを含む音声信号における望ましくない任意の音のことをいう。
【0018】
より汚染の少ない高調波に選択的に注目することができる多くの方法が存在する。それら方法は、高調波のサブセットに選択的に注目するために、別個に、または組み合わせて使用することができる。それら方法は、後ほどより詳細に説明する。
【0019】
図1Aおよび図1Bは、有声音声の調波構造および音声信号の高調波の振幅変調を示し、これは、高調波のサブセットが音声情報の大部分を如何に伝えるのかを示している。
【0020】
図1Aは、単語“one”を発する人間の話者の周波数を時間とともにプロットしたグラフである。図示のように、単語“one”は時間インデックス37から開始して、時間インデックス102に至る。有声音声の調波構造はハッキリと分かる。
【0021】
上述したように、音声信号の振幅変調は、どの高調波が最も多くの音声情報を伝えるかについての情報を提供する。図1Bは、上記単語“one”の発声の音声信号高調波の振幅変調の値を時間とともにプロットしたグラフである。図1Bに示すように、振幅変調のパターンは語音を表わしている。例えば、最も低い高調波のみが、単語の最後の“nの音”の間に大きなエネルギーを有している。
【0022】
上述したように、高調波のサブセットに注目することは、ノイズ汚染を受けることが最も少ない高調波への選択的な注意によってメッセージを受け取ることができるため、音声を把握する人間の能力をさらに高める。同様に、本発明の現時点で好ましい実施形態は、信頼できる高調波のサブセットから音声を再構築するシステムおよび方法を含む。
【0023】
高調波の変調は、音声が生成されるときに声道の構成を変えることによって引き起こされる。本発明者は、音声情報を符号化する高調波の振幅変調が非常に遅く、それが約16Hzであることを見出した。
【0024】
このため、16Hzより上の変調速度が音声源と合致しないためこれを除去することができるという知見に基づき、約16Hzよりも速く高調波振幅を変調するノイズは、無視することができる。
【0025】
本発明の現時点で好ましい実施形態は、別個の3つの仕組みにより、ノイズを低減するシステムおよび方法を含む。先ず、非高調波エネルギーはすべて無視される。次に、低い信号対ノイズ比を有する信号高調波は無視される。最後に、音声と一致しない振幅変調は無視される。
【0026】
図2は、本発明の現時点で好ましい実施形態に係る自動音声抽出の方法200を示している。この方法200は、自動音声認識システムにおける音声信号の伝送および受け取りから開始する(201)。次に、音声信号の音高が、その高調波周波数とともに、識別される(202)。
【0027】
音声信号の音高は、信号自体の固有の特徴を処理することによって識別される。有声音声中に、強い高調波パターンが示される。高調波は、音高の整数倍である。スペクトルにわたって局所的に最も強いエネルギー集中を追跡するために、適応狭帯域フィルタのセットが使用される。これらのフィルタは、高調波およびその他の強い狭い周波数の信号をロックオンすることとなる。ロックオンされた周波数は、倍音列と一致する周波数を選択するために検査される。その音高は、倍音列のベースとして判定される。実際に、音高を判定するために基音にフィルタをロックオンさせる必要は無い。
【0028】
入ってくる音声信号においては、人が話すことによって高調波が振幅変調される。音声源と一致する高調波およびその振幅変調を分離することによって、我々は、関係の無いノイズの多くを無視しながらも、関係のある音声情報の多くを捕捉する。ノイズの多くが除去された信号を再構成するために、我々は、振幅パターンに1Hzと16Hzとの間で帯域フィルタリングをかけて音声源と一致しない変調を取り除いた後に、それら自体の抽出された振幅パターンを有する選択した高調波の各々を変調することとなる。
【0029】
基音振動数とその高調波が特定されると、非高調波エネルギーを無視するために、1またはそれ以上のフィルタが信号に適用される(203)。適応狭帯域フィルタは、狭帯域であることにより、非高調波エネルギーを減衰する。適応フィルタは、その出力から瞬時周波数および振幅を推定するプロセスを使用する。狭帯域フィルタは、推定と等しい中心周波数で生成される。この周波数の出力の瞬時周波数および振幅は、より正確な推定を与えるために計算される。本発明の幾つかの実施形態では、出力が安定するまで、改善プロセスをより多くのサイクル繰り返すようにしてもよい。高調波成分を追跡する次回のステップでは、様々なフィルタ用の中心周波数として、最終的な推定が使用される。
【0030】
次に、高調波のみの信号が変調される(204)。現時点で好ましい実施形態では、変調のステップ(204)が振幅変調を含む。
【0031】
方法200は、振幅変調された高調波信号について信号対ノイズ比を作成して(205)、所与の閾値の大きさ未満に低下した信号対ノイズ比を有する高調波を無視すること(206)を続け、ノイズ汚染の最も少ない高調波に注目する。
【0032】
上述したように、汚染の少ない高調波に選択的に注目することを可能にする多くの方法が存在する。それら方法は、高調波のサブセットに選択的に注目するために、別個に、または組み合わせて使用することができる。
【0033】
本発明の幾つかの実施形態では、システムが、汚染を受けない高調波についてはスペクトルの信号対ノイズ比が高いという事実を利用して、ノイズ汚染を受けた高調波を無視する。それら実施形態は、ともに高周波に中心がある狭および広帯域を規定するステップを含む。幾つかの実施形態では、広帯域が、音高から外側の両方向に、音高から離れた予め設定された距離まで及ぶ。幾つかの実施形態では、広帯域が、次に低い高調波および次に高い高調波まで、パーセント距離を隔てて延びる。好ましくは、広帯域が、次に低い高調波周波数までの実質的に中間から、次に高い高調波周波数までの実質的に中間に及び、ここで、実質的に中間には、最も近い高調波までの距離の40%と60%の間の距離が含まれる。その他の幾つかの実施形態では、広帯域が、次に低い高調波周波数までの丁度中間と、次に高い高調波周波数までの丁度中間とに及ぶ。
【0034】
また、狭帯域の帯域幅は、追跡フィルタによって決定されることが望ましいが、その帯域幅は、広帯域の帯域幅よりも小さくなるであろう。汚染を受けない音声信号では、エネルギーの殆どすべてが高調波の近くに集中する。
【0035】
このため、高調波の近傍における信号対ノイズ比に関連する関数は、狭帯域のエネルギーと広帯域のエネルギーの比率(広帯域のエネルギーに対する狭帯域のエネルギーの比率)として計算することができる。よって、所与の閾値振幅未満に低下した信号対ノイズ比を有する高調波を無視するステップは、狭帯域のエネルギーと広帯域のエネルギーの比率が予め設定された閾値よりも高い高調波を無視するステップを含む。
【0036】
本発明の幾つかの実施形態では、予め設定された閾値が、システムの望ましい性能に基づいて選択される。
【0037】
本発明の幾つかのその他の実施形態では、システムが、各高調波の推定周波数が高調波の周波数近傍のノイズ成分によって汚染を受けるという知見を利用して、ノイズ汚染を受けた高調波を無視する。このノイズは高調波の推定を“引っ張る”こととなる。倍音列の周波数の関係は固定されているため、所与の高調波について、高調波の“予期される”周波数を計算するために、それ以外の高調波に対する基準を使用することができる。高調波推定のその予期される値からの偏差は、高調波近傍における汚染の尺度となる。
【0038】
このため、本発明の幾つかの実施形態は、音高に基づいて高調波の周波数を推定するステップと、信号を分析することにより観測される高調波の実際の周波数を測定するステップと、推定される周波数と実際に観測される周波数との偏差値を判定するステップと、偏差をノイズに起因するものと結論付けるステップと、偏差値が予め設定された値を上回る高調波を無視するステップとを含む。
【0039】
最後に、本発明の現時点で好ましい実施形態では、方法が、狭帯域のエネルギーと広帯域のエネルギーとの比率と、予期される値からの偏差とを使用してノイズ汚染を受けた高調波を無視し、それが、汚染の小さい高調波に選択的に注目するために、同時に使用される。
【0040】
最後に、方法200は、人間の音声と一致しない残りの振幅変調信号を選択的に無視する(207)。幾つかの実施形態では、抽出した振幅パターンを、人間の音声の範囲の特徴を有する帯域通過フィルタに通過させることにより、人間の音声と一致しない振幅変調が抑制される。好ましくは、帯域通過フィルタが1Hz乃至16Hzの範囲を有する。
【0041】
音声信号認識の方法200の最終結果は、元の信号の不可欠な成分と厳密に適合するように再現される、ノイズおよび不必要な認識情報の無い音響信号である。
【0042】
先行技術の音声認識の特徴抽出の手法およびその他の音声信号処理使用法は、ノイズから音声情報を分離するために、方法200の開示したステップを使用することはない。
【0043】
他方、方法200は、大きなレベルのノイズ下における信頼性のある追跡を実証している。例えば、図3A乃至図3Cは、本発明の利点を示す信号のスペクトログラムを例示している。
【0044】
図3Aは、元の音声信号のスペクトログラムを示している。図3Bは、ノイズ成分を加えた音声信号のスペクトログラムを示している。また、図3Cは、本発明の幾つかの実施形態に係る音声信号の音声変換再構成のスペクトログラムを示している。図示のように、再構成によって、ノイズ成分の無い音声信号が正確に再生されている。
【0045】
本発明の幾つかの実施形態では、自動音声抽出のシステムが、自動音声抽出を行う方法200を利用するように構成された信号プロセッサを含む。
【0046】
図4Aは、本発明の幾つかの実施形態に係る自動音声抽出の基本システム400を示している。図4Aによれば、入力信号が、メモリ402に接続されたプロセッサ401に送られる。本発明の現時点で好ましい実施形態では、図2の方法を行うようにプロセッサ401が構成されている。また、本発明の現時点で好ましい実施形態では、プロセッサ401が、必要とされる様々な実行ステップを行うように構成された複数の処理モジュールを含む。
【0047】
図4Aのシステム400は、任意の自動音声認識、並びに、入力として音声の言葉を利用してノイズ汚染に悩む任意のその他のシステムまたはデバイスに組み入れることができ、それらシステムまたはデバイスには、補聴器、ヘッドホン、または、空対空および地対空通信を含む、無線、有線またはインターネットによる音声通信が含まれるが、それらに限定される訳ではない。
【0048】
図4Bは、本発明の現時点で好ましい実施形態に係る自動音声抽出を実行する複数の処理モジュールを備える処理エンジン405を示している。図4Bによれば、処理エンジン405は、高調波周波数識別部410、適応フィルタアプリケータ420、モジュレータ430、出力比コンストラクタ440、低出力高周波リムーバ450および非音声高調波リムーバ460を備える。本発明の現時点で好ましい実施形態によれば、方法200を行うように処理エンジン405が構成される。
【0049】
図5は、コンピュータシステム1600の例示的形式の装置の概略ブロック図で、そのコンピュータシステム内では、命令のセットをプログラムして、本発明の論理ステップを当該装置に実行させることが可能となっている。代替的な実施形態では、装置が、ネットワークルータ、ネットワークスイッチ、ネットワークブリッジ、携帯情報端末(PDA)、携帯電話、Webアプライアンス、または当該装置によって取られる動作を指定する一連の命令を実行することができる任意の装置を含むことができる。
【0050】
コンピューターシステム1600は、プロセッサ1602、メインメモリ1604およびスタティックメモリ1606を含み、それらがバス1608を介して相互に遣り取りするものとなっている。コンピューターシステム1600は、表示装置1610、例えば、液晶ディスプレイ(LCD)または陰極線管(CRT)をさらに含むことができる。さらに、コンピューターシステム1600は、英数字入力装置1612、例えば、キーボードと、カーソル制御装置1614、例えば、マウスと、ディスク駆動装置1616と、信号発生装置1618、例えば、スピーカと、ネットワークインターフェース装置1620とを含む。
【0051】
ディスク駆動装置1616は、機械可読媒体1624を含み、この媒体には、本明細書に記載の以下の方法の何れか一つまたはすべてを具現化する実行可能な命令のセット、すなわち、ソフトウェア1626が格納されている。また、ソフトウェア1626は、メインメモリ1604内および/またはプロセッサ1602内にも、完全に、または少なくとも部分的に存在するものとして示されている。また、ソフトウェア1626は、ネットワークインターフェース装置1620によって、ネットワーク1628,1630を介して伝送または受信されるものであってもよい。
【0052】
上述したシステム1600とは対照的に、異なる実施形態は、処理エンティティを実行に移すために、コンピュータで実行される命令の代わりに、論理回路を使用する。速さ、費用、金型費などの領域における適用の具体的な条件に応じて、何千もの集積したトランジスタを有する特定用途向け集積回路(ASIC)を構築することにより、この論理回路を実装することができる。そのようなASICは、CMOS(相補型金属酸化膜半導体)、TTL(トランジスタ−トランジスタ論理回路)、VLSI(超大規模システム統合)または別の適当な構成で実行されるものであってもよい。その他の選択肢は、デジタル信号処理チップ(DSP)、ディスクリート回路(抵抗器、コンデンサ、ダイオード、インダクタおよびトランジスタのような)、フィールドプログラマブル・ゲートアレイ(FPGA)、プログラマブル・ロジックアレー(PLA)、プログラマブル論理デバイス(PLD)を含む。
【0053】
当然のことながら、ある形式の処理コア(コンピュータのCPUのような)で実行されるソフトウェアプログラムまたはソフトウェアモジュールをサポートするものとして、またはサポートするために、あるいは、機械またはコンピュータ可読媒体上で、またはそれら媒体内で実行または実現するために、本実施形態を使用することができる。機械可読媒体は、機械、例えば、コンピュータにより読み取り可能な形式で情報を記憶または送信する任意の機構を含む。例えば、機械可読媒体は、リードオンリーメモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク記憶媒体、光学記憶媒体、フラッシュメモリデバイス、電気、光学、音響、または搬送波、赤外線信号、デジタル信号などの伝搬信号のその他の形式、または情報を記憶または伝送するのに適した任意のその他のタイプの媒体を含む。
【0054】
当業者によって理解されるように、本発明は、その趣旨または本質的な特徴から逸脱しない範囲で、その他の特定の形式で具現化することもできる。同様に、具体的な呼称および部材の区分、特徴、特性およびその他の態様は、必須または重要なものではなく、本発明またはその特徴を実行する機構は、異なる名称、区分および/または形式を有することが可能である。すなわち、本発明の開示は、本発明の範囲を限定することを目的とするものではなく、例示を目的とするものであり、本発明の範囲は、以下の特許請求の範囲に示されるものである。
図1A
図1B
図2
図3A
図3B
図3C
図4A
図4B
図5