(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-18
(54)【発明の名称】音響エコー除去および残留エコー抑制のための統一されたディープニューラルネットワークモデル
(51)【国際特許分類】
G10L 21/0216 20130101AFI20240111BHJP
G10L 21/0224 20130101ALI20240111BHJP
G10L 21/0232 20130101ALI20240111BHJP
【FI】
G10L21/0216
G10L21/0224
G10L21/0232
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023539048
(86)(22)【出願日】2022-08-04
(85)【翻訳文提出日】2023-06-23
(86)【国際出願番号】 US2022039386
(87)【国際公開番号】W WO2023048838
(87)【国際公開日】2023-03-30
(32)【優先日】2021-09-27
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】メン・ユ
(72)【発明者】
【氏名】ドン・ユ
(57)【要約】
リカレントニューラルネットワークによる全ディープラーニングベースのAECシステムのための方法、コンピュータプログラム、およびコンピュータシステムが提供される。モデルは、エコー推定段階およびエコー抑制段階の2つの段階からなる。本明細書では、遠端基準信号に対するマルチタップフィルタリングによる線形エコー推定と、マイクロフォン信号に対するシングルタップマスキングによる非線形エコー推定の2つの異なるエコー推定方式が提示される。マイクロフォン信号波形および遠端基準信号波形が受信される。マイクロフォン信号波形および遠端基準信号波形に基づいてエコー信号波形が推定される。マイクロフォン信号波形から、推定されたエコー信号波形を減算して近端音声信号波形を出力し、近端音声信号波形内でエコーが抑制される。
【特許請求の範囲】
【請求項1】
プロセッサによって実行可能な音響エコー抑制の方法であって、
マイクロフォン信号波形および遠端基準信号波形を受信するステップと、
前記マイクロフォン信号波形および前記遠端基準信号波形に基づいてエコー信号波形を推定するステップと、
前記マイクロフォン信号波形から、前記推定されたエコー信号波形を減算することに基づいて近端音声信号波形を出力するステップであって、前記近端音声信号波形内でエコーが抑制される、ステップと
を含む、方法。
【請求項2】
前記エコー信号は、前記遠端基準信号波形に対する線形フィルタリングに基づいて計算される、請求項1に記載の方法。
【請求項3】
前記エコー信号は、シングルタップマスクに前記マイクロフォン信号波形に関連する信号スペクトルを乗算することに基づいて計算される、請求項1に記載の方法。
【請求項4】
前記エコー信号は第1段階によって推定され、前記近端音声信号は第2段階によって推定される、請求項1に記載の方法。
【請求項5】
前記第1段階は、前記マイクロフォン信号波形および前記遠端基準信号波形に関連する時間領域信号上の歪み比および前記マイクロフォン信号波形および前記遠端基準信号波形に関連する時間-周波数スペクトル振幅上の損失に対してスケール不変信号を適用する、請求項4に記載の方法。
【請求項6】
前記第2段階は、前記マイクロフォン信号波形および前記エコー信号波形に関連する時間領域信号上の歪み比および前記マイクロフォン信号波形および前記エコー信号波形に関連する時間-周波数スペクトル振幅上の損失に対してスケール不変信号を適用する、請求項4に記載の方法。
【請求項7】
前記第1段階および前記第2段階は、リカレントニューラルネットワークを含む、請求項4に記載の方法。
【請求項8】
音響エコー抑制のためのコンピュータシステムであって、前記コンピュータシステムは、
コンピュータプログラムコードを記憶するように構成された1つまたは複数のコンピュータ可読非一時的記憶媒体と、
前記コンピュータプログラムコードにアクセスし、前記コンピュータプログラムコードによって命令されるように動作するように構成された1つまたは複数のコンピュータプロセッサであって、前記コンピュータプログラムコードは、
前記1つまたは複数のコンピュータプロセッサに、マイクロフォン信号波形および遠端基準信号波形を受信させるように構成された受信コードと、
前記1つまたは複数のコンピュータプロセッサに、前記マイクロフォン信号波形および遠端基準信号波形に基づいてエコー信号波形を推定させるように構成された推定コードと、
前記1つまたは複数のコンピュータプロセッサに、前記マイクロフォン信号波形から、前記推定されたエコー信号波形を減算することに基づいて近端音声信号波形を出力させるように構成された出力推定コードであって、前記近端音声信号波形内でエコーが抑制される、出力推定コードと
を含む、1つまたは複数のコンピュータプロセッサと
を備える、コンピュータシステム。
【請求項9】
前記エコー信号は、前記遠端基準信号波形に対する線形フィルタリングに基づいて計算される、請求項8に記載のコンピュータシステム。
【請求項10】
前記エコー信号は、シングルタップマスクに前記マイクロフォン信号波形に関連する信号スペクトルを乗算することに基づいて計算される、請求項8に記載のコンピュータシステム。
【請求項11】
前記エコー信号は第1段階によって推定され、前記近端音声信号は第2段階によって推定される、請求項8に記載のコンピュータシステム。
【請求項12】
前記第1段階は、前記マイクロフォン信号波形および前記遠端基準信号波形に関連する時間領域信号上の歪み比および前記マイクロフォン信号波形および前記遠端基準信号波形に関連する時間-周波数スペクトル振幅上の損失に対してスケール不変信号を適用する、請求項11に記載のコンピュータシステム。
【請求項13】
前記第2段階は、前記マイクロフォン信号波形および前記エコー信号波形に関連する時間領域信号上の歪み比および前記マイクロフォン信号波形および前記エコー信号波形に関連する時間-周波数スペクトル振幅上の損失に対してスケール不変信号を適用する、請求項11に記載のコンピュータシステム。
【請求項14】
前記第1段階および前記第2段階は、リカレントニューラルネットワークを含む、請求項11に記載のコンピュータシステム。
【請求項15】
音響エコー抑制のためのコンピュータプログラムを記憶した非一時的コンピュータ可読媒体であって、前記コンピュータプログラムは、1つまたは複数のコンピュータプロセッサに、
マイクロフォン信号波形および遠端基準信号波形を受信させ、
前記マイクロフォン信号波形および遠端基準信号波形に基づいてエコー信号波形を推定させ、
前記マイクロフォン信号波形から、前記推定されたエコー信号波形を減算することに基づいて近端音声信号波形を出力させ、前記近端音声信号波形内でエコーが抑制される、
ように構成される、非一時的コンピュータ可読媒体。
【請求項16】
前記エコー信号は、前記遠端基準信号波形に対する線形フィルタリングに基づいて計算される、請求項15に記載のコンピュータ可読媒体。
【請求項17】
前記エコー信号は、シングルタップマスクに前記マイクロフォン信号波形に関連する信号スペクトルを乗算することに基づいて計算される、請求項15に記載のコンピュータ可読媒体。
【請求項18】
前記エコー信号は第1段階によって推定され、前記近端音声信号は第2段階によって推定される、請求項15に記載のコンピュータ可読媒体。
【請求項19】
前記第1段階は、前記マイクロフォン信号波形および前記遠端基準信号波形に関連する時間領域信号上の歪み比および前記マイクロフォン信号波形および前記遠端基準信号波形に関連する時間-周波数スペクトル振幅上の損失に対してスケール不変信号を適用する、請求項18に記載のコンピュータ可読媒体。
【請求項20】
前記第2段階は、前記マイクロフォン信号波形および前記エコー信号波形に関連する時間領域信号上の歪み比および前記マイクロフォン信号波形および前記エコー信号波形に関連する時間-周波数スペクトル振幅上の損失に対してスケール不変信号を適用する、請求項18に記載のコンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、一般に、データ処理の分野に関し、より詳細には、ニューラルネットワークに関する。
【背景技術】
【0002】
音響エコー除去(AEC)は、全二重音声通信において、ならびにスピーカが再生される状況における認識のためのフロントエンド音声強化において重要な役割を果たす。
【発明の概要】
【課題を解決するための手段】
【0003】
実施形態は、音響エコー抑制のための方法、システム、およびコンピュータ可読媒体に関する。一態様によって、音響エコー抑制のための方法が提供される。方法は、マイクロフォン信号波形および遠端基準信号波形を受信するステップを含むことができる。マイクロフォン信号波形および遠端基準信号波形に基づいてエコー信号波形が推定される。マイクロフォン信号波形から、推定されたエコー信号波形を減算することに基づいて、近端音声信号波形が出力される。
【0004】
別の態様によって、音響エコー抑制のためのコンピュータシステムが提供される。コンピュータシステムは、1つまたは複数のプロセッサと、1つまたは複数のコンピュータ可読メモリと、1つまたは複数のコンピュータ可読有形記憶デバイスと、1つまたは複数のメモリのうちの少なくとも1つを介して1つまたは複数のプロセッサのうちの少なくとも1つによって実行するために1つまたは複数の記憶デバイスのうちの少なくとも1つに記憶されたプログラム命令とを含んでよく、これにより、コンピュータシステムは方法を実行することが可能である。方法は、マイクロフォン信号波形および遠端基準信号波形を受信するステップを含むことができる。マイクロフォン信号波形および遠端基準信号波形に基づいてエコー信号波形が推定される。マイクロフォン信号波形から、推定されたエコー信号波形を減算することに基づいて、近端音声信号波形が出力される。
【0005】
さらに別の態様によって、音響エコー抑制のためのコンピュータ可読媒体が提供される。コンピュータ可読媒体は、1つまたは複数のコンピュータ可読記憶デバイスと、1つまたは複数の有形記憶デバイスのうちの少なくとも1つに記憶されたプログラム命令とを含んでよく、プログラム命令はプロセッサによって実行可能である。プログラム命令は、それに従ってマイクロフォン信号波形および遠端基準信号波形を受信するステップを含むことができる方法を実行するためにプロセッサによって実行可能である。マイクロフォン信号波形および遠端基準信号波形に基づいてエコー信号波形が推定される。マイクロフォン信号波形から、推定されたエコー信号波形を減算することに基づいて、近端音声信号波形が出力される。
【0006】
これらおよび他の目的、特徴、および利点は、添付の図面に関連して読まれるべき、例示的な実施形態の以下の詳細な説明から明らかになるであろう。図面は、詳細な説明と併せて当業者の理解を容易にする際に明確にするためのものであるため、図面の様々な特徴は一定の縮尺ではない。
【図面の簡単な説明】
【0007】
【
図1】少なくとも1つの実施形態によるネットワーク化されたコンピュータ環境を示す図である。
【
図2A】実施形態によるエコー抑制システムの図である。
【
図2B】実施形態によるエコー抑制システムの図である。
【
図3】少なくとも1つの実施形態による、残留音響エコーを抑制するプログラムによって実行されるステップを示す動作フローチャートである。
【
図4】少なくとも1つの実施形態による、
図1に示されるコンピュータおよびサーバの内部構成要素および外部構成要素のブロック図である。
【
図5】少なくとも1つの実施形態による、
図1に示されるコンピュータシステムを含む例示的なクラウドコンピューティング環境のブロック図である。
【
図6】少なくとも1つの実施形態による、
図5の例示的なクラウドコンピューティング環境の機能層のブロック図である。
【発明を実施するための形態】
【0008】
特許請求される構造および方法の詳細な実施形態が本明細書に開示されているが、開示された実施形態は、様々な形態で具現化され得る特許請求される構造および方法の例示にすぎないことが理解され得る。しかしながら、これらの構造および方法は、多くの異なる形態で具現化され得、本明細書に記載された例示的な実施形態に限定されると解釈されるべきではない。逆に、これらの例示的な実施形態は、本開示が徹底的かつ完全であり、当業者にその範囲を十分に伝えるように提供されている。この説明では、提示された実施形態を不必要に不明瞭にすることを避けるために、周知の特徴および技術の詳細は省略されている場合がある。
【0009】
実施形態は、一般に、データ処理の分野に関し、より具体的には、ニューラルネットワークに関する。以下に説明する例示的な実施形態は、とりわけ音響エコー抑制のためのシステム、方法、およびコンピュータプログラムを提供する。したがって、いくつかの実施形態は、コンピュータが全二重音声通信における残留音響エコーを抑制することを可能にすることによって計算分野を改善する能力を有する。
【0010】
前述したように、音響エコー除去(AEC)は、全二重音声通信において、ならびにスピーカが再生される状況における認識のためのフロントエンド音声強化において重要な役割を果たす。
【0011】
しかしながら、スピーカからの音によって引き起こされる音響エコーは、近端マイクロフォンによって受信され、次いで遠端の聞き手または音声認識エンジンに伝達される。このような干渉信号は、テレビ会議システム、モバイル通信、およびハンズフリーの人間と機械との対話における音声品質を低下させる。適応性のあるフィルタリング方法が、数十年にわたって研究されてきた。正規化最小二乗平均(NLMS)は、周波数領域ブロック適応フィルタ(FDBAF)およびマルチ遅延ブロック周波数領域(MDF)適応フィルタなど、その堅牢性、およびさほど複雑ではないために最も広く使用されている。非線形の後処理が、通常、残留エコー抑制(RES)のために段階的に行われる。従来の後処理の代わりに、RES目的のためにディープラーニング法が使用されてきた。したがって、線形適応フィルタリングとそれに続くニューラルネットワークベースのRESがAECシステム設計に採用される。
【0012】
したがって、AECにエンドツーエンドモデルを使用することが有利であり得る。線形エコー除去(段階1)および残留エコー抑制(段階2)のためのエコー推定が両方とも統合モデルで提示される。リカレントニューラルネットワーク(RNN)が、段階1の時変マルチタップリニアフィルタならびに段階2のシングルタップRESマスクの学習に使用される。エコー推定、第1段階のエコー除去、および第2段階のエコー抑制は、すべて統一モデルにおいてモデル化される。遠端基準信号に対するマルチタップ線形フィルタリングは、適応線形フィルタリングに基づくAECと同じような方法で行われる。大きなスピーカ歪みを処理するために、マイクロフォン信号に直接基づくシングルタップマスキングベースの非線形エコー推定が代わりに考案されている。マイクロフォン信号に対するマスキングベースのエコー推定は、スピーカの非線形性および音響エコー経路の残響を捕らえる。
【0013】
本明細書では、様々な実施形態による方法、装置(システム)、およびコンピュータ可読媒体のフローチャート図および/またはブロック図を参照して、態様が説明される。フローチャート図および/またはブロック図の各ブロック、ならびにフローチャート図および/またはブロック図のブロックの組み合わせは、コンピュータ可読プログラム命令によって実施され得ることが理解されよう。
【0014】
以下に説明する例示的な実施形態は、リカレントニューラルネットワークによる全ディープラーニングベースのAECシステムを使用するシステム、方法、およびコンピュータプログラムを提供する。モデルは、エコー推定段階およびエコー抑制段階の2つの段階からなる。本明細書では、遠端基準信号に対するマルチタップフィルタリングによる線形エコー推定と、マイクロフォン信号に対するシングルタップマスキングによる非線形エコー推定の2つの異なるエコー推定方式が提示される。
【0015】
ここで
図1を参照すると、残留エコー抑制のための音響エコー除去システム100(以下「システム」)を示すネットワーク化されたコンピュータ環境の機能ブロック図が示されている。
図1は、一実装形態の例示のみを提供しており、異なる実施形態が実施され得る環境に関していかる限定も含意しないことを理解されたい。図示された環境に対する多くの修正は、設計および実施要件に基づいて行われ得る。
【0016】
システム100は、コンピュータ102およびサーバコンピュータ114を含むことができる。コンピュータ102は、通信ネットワーク110(以下「ネットワーク」)を介してサーバコンピュータ114と通信し得る。コンピュータ102は、プロセッサ104と、ユーザとインターフェースし、サーバコンピュータ114と通信することが可能な、データ記憶デバイス106に記憶されたソフトウェアプログラム108とを含み得る。
図4を参照して以下で述べられるように、コンピュータ102は、それぞれ内部構成要素800Aおよび外部構成要素900Aを含んでよく、サーバコンピュータ114は、それぞれ内部構成要素800Bおよび外部構成要素900Bを含んでよい。コンピュータ102は、例えば、モバイルデバイス、電話、携帯情報端末、ネットブック、ラップトップコンピュータ、タブレットコンピュータ、デスクトップコンピュータ、またはプログラムを実行し、ネットワークにアクセスし、データベースにアクセスすることが可能な任意のタイプのコンピューティングデバイスであってもよい。
【0017】
サーバコンピュータ114はまた、
図5および
図6に関して以下で述べられるように、サービスとしてのソフトウェア(SaaS:Software as a Service)、サービスとしてのプラットフォーム(PaaS:Platform as a Service)、またはサービスとしてのインフラストラクチャ(laaS:Infrastructure as a Service)などのクラウドコンピューティングサービスモデルで動作してもよい。サーバコンピュータ114はまた、プライベートクラウド、コミュニティクラウド、パブリッククラウド、またはハイブリッドクラウドなどのクラウドコンピューティング展開モデルに配置されてもよい。
【0018】
音響エコー抑制に使用することができるサーバコンピュータ114は、データベース112と相互作用することができる音響エコー抑制プログラム116(以下、「プログラム」)を実行することができるようにされている。音響エコー抑制プログラム方法は、
図3に関連して以下により詳細に説明される。一実施形態では、コンピュータ102は、ユーザインターフェースを含む入力デバイスとして動作してよく、プログラム116は、主にサーバコンピュータ114上で動作してよい。代替の実施形態では、プログラム116は、主に1つまたは複数のコンピュータ102上で動作してもよく、サーバコンピュータ114は、プログラム116によって使用されるデータの処理および記憶に使用されてもよい。プログラム116は、スタンドアロンプログラムであってもよく、またはより大きな音響エコー抑制プログラムに統合されてもよいことに留意されたい。
【0019】
しかしながら、プログラム116の処理は、場合によっては、コンピュータ102とサーバコンピュータ114との間で任意の比率で共有されてもよいことに留意されたい。別の実施形態では、プログラム116は、1つより多くのコンピュータ、サーバコンピュータ、またはコンピュータとサーバコンピュータとの何らかの組み合わせ、例えば、ネットワーク110を介して単一のサーバコンピュータ114と通信する複数のコンピュータ102上で動作し得る。別の実施形態では、例えば、プログラム116は、ネットワーク110を介して複数のクライアントコンピュータと通信する複数のサーバコンピュータ114上で動作し得る。あるいは、プログラムは、ネットワークを介してサーバおよび複数のクライアントコンピュータと通信するネットワークサーバ上で動作してもよい。
【0020】
ネットワーク110は、有線接続、無線接続、光ファイバ接続、またはそれらの何らかの組み合わせを含むことができる。一般に、ネットワーク110は、コンピュータ102とサーバコンピュータ114との間の通信をサポートする接続およびプロトコルの任意の組み合わせであり得る。ネットワーク110は、例えば、ローカルエリアネットワーク(LAN)、インターネットなどのワイドエリアネットワーク(WAN)、公衆交換電話網(PSTN)などの電気通信ネットワーク、無線ネットワーク、公衆交換網、衛星ネットワーク、セルラーネットワーク(例えば、第5世代(5G)ネットワーク、ロングタームエボリューション(LTE)ネットワーク、第3世代(3G)ネットワーク、符号分割多元接続(CDMA)ネットワークなど)、公衆陸上移動網(PLMN)、メトロポリタンエリアネットワーク(MAN)、プライベートネットワーク、アドホックネットワーク、イントラネット、光ファイバベースのネットワークなど、および/またはこれらのもしくは他のタイプのネットワークの組み合わせなどの様々なタイプのネットワークを含むことができる。
【0021】
図1に示すデバイスおよびネットワークの数および配置は、一例として提供されている。実際には、
図1に示すものに比べて、追加のデバイスおよび/もしくはネットワーク、少ないデバイスおよび/もしくはネットワーク、異なるデバイスおよび/もしくはネットワーク、または異なる配置のデバイスおよび/もしくはネットワークがあってもよい。さらに、
図1に示す2つ以上のデバイスは、単一のデバイス内に実装されてもよく、または
図1に示す単一のデバイスは、複数の分散型デバイスとして実装されてもよい。追加的または代替的に、システム100のデバイスのセット(例えば、1つ以上のデバイス)が、システム100のデバイスの別のセットによって実行されるものとして説明されている1つ以上の機能を実行してもよい。
【0022】
図2Aおよび
図2Bを参照すると、それぞれの多段エコー抑制システム200Aおよび200Bが示されている。
図2Aのエコー抑制システム200Aは、遠端基準信号のマルチタップフィルタリングに通される第1段階のエコー推定に基づいてエコーを抑制する。
図2Bのエコー抑制システム200Bは、マイクロフォン信号のシングルタップマスキングに通される第1段階のエコー推定に基づいてエコーを抑制する。
【0023】
エコー抑制システム200A、200Bは、2つの入力、すなわち(i)マイクロフォン信号波形、(ii)遠端基準信号波形を取り込む。第1段階では、システムは音響エコー信号を推定する。マイクロフォン信号から、推定されたエコー信号を減算することにより、結果として得られたエコーが除去された信号は次いで、マイクロフォン信号および推定されたエコー信号と共に第2段階に渡される。モデルの第2段階は、残留エコー抑制として機能し、近端音声信号を推定する。2つの損失関数が、第1段階エコー推定および第2段階近端信号推定にそれぞれ適用される。その両方において、時間領域信号上のスケール不変信号対歪み比(SI-SDR)および時間-周波数スペクトル振幅上のL1損失が、訓練の目的として一緒に合計される。
図2Aのタイプ1モデルのエコー抑制システム200Aは遠端信号に対する線形フィルタリングによってエコー信号を計算し、
図2Bのタイプ2モデルのエコー抑制システム200Bはマイクロフォン信号スペクトルにシングルタップマスクを乗算することによってエコー信号を計算する。したがって、本明細書で開示される全ディープラーニングベースの2段階統合音響エコー除去モデルは、エコー推定、音響エコー除去および残留エコー抑制の問題を解決することを目的とする。
【0024】
ここで
図3を参照すると、音響エコー除去が示されているプログラムによって実行される方法300のステップを例示する動作フローチャートが描かれている。
【0025】
302において、方法300は、マイクロフォン信号波形および遠端基準信号波形を受信するステップを含んでよい。
【0026】
304において、方法300は、マイクロフォン信号波形および遠端基準信号波形に基づいてエコー信号波形を推定するステップを含んでよい。
【0027】
306において、方法300は、マイクロフォン信号波形から、推定されたエコー信号波形を減算することに基づいて近端音声信号波形を推定するステップを含んでよい。近端音声信号波形は、エコーが抑制されるように出力されてよい。
【0028】
図3は、一実施態様の例示のみを提供しており、異なる実施形態がどのように実施され得るかに関していかなる限定も含意しないことが理解され得る。図示された環境に対する多くの修正は、設計および実施要件に基づいて行われ得る。
【0029】
図4は、例示的な実施形態による、
図1に示されているコンピュータの内部構成要素および外部構成要素のブロック
図400である。
図4は、一実施態様の例示のみを提供しており、異なる実施形態が実施され得る環境に関していかる限定も含意しないことを理解されたい。図示された環境に対する多くの修正は、設計および実施要件に基づいて行われ得る。
【0030】
コンピュータ102(
図1)およびサーバコンピュータ114(
図1)は、
図5に示す内部構成要素800A、Bおよび外部構成要素900A、Bのそれぞれのセットを含むことができる。内部構成要素800のセットの各々は、1つまたは複数のバス826上の1つまたは複数のプロセッサ820、1つまたは複数のコンピュータ可読RAM822、および1つまたは複数のコンピュータ可読ROM824と、1つまたは複数のオペレーティングシステム828と、1つまたは複数のコンピュータ可読有形記憶デバイス830とを含む。
【0031】
プロセッサ820は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアとの組み合わせで実装される。プロセッサ820は、中央処理装置(CPU:central processing unit)、グラフィック処理装置(GPU:graphics processing unit)、加速処理装置(APU:accelerated processing unit)、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP:digital signal processor)、フィールドプログラマブルゲートアレイ(FPGA:field-programmable gate array)、特定用途向け集積回路(ASIC:application-specific integrated circuit)、または別のタイプの処理構成要素である。一部の実施態様では、プロセッサ820は、機能を実行するようにプログラムされ得る1つまたは複数のプロセッサを含む。バス826は、内部構成要素800A、800B間の通信を可能にする構成要素を含む。
【0032】
1つまたは複数のオペレーティングシステム828、ソフトウェアプログラム108(
図1)、ならびにサーバコンピュータ114(
図1)上の音響エコー抑制プログラム116(
図1)は、それぞれのRAM822(通常はキャッシュメモリを含む)のうちの1つまたは複数を介してそれぞれのプロセッサ820のうちの1つまたは複数によって実行されるために、それぞれのコンピュータ可読有形記憶デバイス830のうちの1つまたは複数に記憶される。
図4に示されている実施形態では、コンピュータ可読有形記憶デバイス830の各々は、内蔵ハードドライブの磁気ディスク記憶デバイスである。代替として、コンピュータ可読有形記憶デバイス830の各々は、ROM824、EPROM、フラッシュメモリなどの半導体記憶デバイス、光ディスク、光磁気ディスク、ソリッドステートディスク、コンパクトディスク(CD:compact disc)、デジタル多用途ディスク(DVD:digital versatile disc)、フロッピーディスク、カートリッジ、磁気テープ、ならびに/またはコンピュータプログラムおよびデジタル情報を記憶し得る別のタイプの非一時的コンピュータ可読有形記憶デバイスである。
【0033】
内部構成要素800A、800Bの各セットはまた、CD-ROM、DVD、メモリスティック、磁気テープ、磁気ディスク、光ディスク、または半導体記憶デバイスなどの1つまたは複数のポータブルコンピュータ可読有形記憶デバイス936から読み書きするためのR/Wドライブまたはインターフェース832を含む。ソフトウェアプログラム108(
図1)および音響エコー抑制プログラム116(
図1)などのソフトウェアプログラムは、それぞれのポータブルコンピュータ可読有形記憶デバイス936のうちの1つまたは複数に記憶され、それぞれのR/Wドライブまたはインターフェース832を介して読み取られ、それぞれのハードドライブ830にロードされ得る。
【0034】
内部構成要素800A、800Bの各セットはまた、TCP/IPアダプタカード、無線Wi-Fiインターフェースカード、または3G、4G、もしくは5G無線インターフェースカードまたは他の有線もしくは無線通信リンクなどのネットワークアダプタまたはインターフェース836を含む。ソフトウェアプログラム108(
図1)およびサーバコンピュータ114(
図1)上の音響エコー抑制プログラム116(
図1)は、ネットワーク(例えば、インターネット、ローカルエリアネットワーク、または他のワイドエリアネットワーク)およびそれぞれのネットワークアダプタまたはインターフェース836を介して外部コンピュータからコンピュータ102(
図1)およびサーバコンピュータ114にダウンロードすることができる。ネットワークアダプタまたはインターフェース836から、ソフトウェアプログラム108およびサーバコンピュータ114上の音響エコー抑制プログラム116が、それぞれのハードドライブ830にロードされる。ネットワークは、銅線、光ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、および/またはエッジサーバを含み得る。
【0035】
外部構成要素900A、900Bのセットの各々は、コンピュータディスプレイモニタ920、キーボード930、およびコンピュータマウス934を含み得る。外部構成要素900A、900Bはまた、タッチスクリーン、仮想キーボード、タッチパッド、ポインティングデバイス、および他のヒューマンインターフェースデバイスを含み得る。内部構成要素800A、800Bのセットの各々はまた、コンピュータディスプレイモニタ920、キーボード930、およびコンピュータマウス934にインターフェースするためのデバイスドライバ840を含む。デバイスドライバ840、R/Wドライブまたはインターフェース832ならびにネットワークアダプタまたはインターフェース836は、ハードウェアおよび(記憶デバイス830および/またはROM824に記憶された)ソフトウェアを含む。
【0036】
本開示はクラウドコンピューティングに関する詳細な説明を含むが、本明細書に記載された教示の実施態様はクラウドコンピューティング環境に限定されないことが事前に理解される。それどころか、一部の実施形態は、現在知られているまたは後に開発される任意の他のタイプのコンピューティング環境と併せて実施され得る。
【0037】
クラウドコンピューティングは、最小限の管理労力またはサービスのプロバイダとの対話で迅速にプロビジョニングおよびリリースされ得る構成可能コンピューティングリソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス)の共有プールへの便利なオンデマンドネットワークアクセスを可能にするためのサービス配信のモデルである。このクラウドモデルは、少なくとも5つの特性、少なくとも3つのサービスモデル、および少なくとも4つの展開モデルを含み得る。
【0038】
特性は以下の通りである。
オンデマンドセルフサービス:クラウド消費者は、サービスのプロバイダとの人間の対話を必要とせずに、必要に応じてサーバタイムおよびネットワークストレージなどのコンピューティング機能を一方的にプロビジョニングできる。
広範なネットワークアクセス:機能は、ネットワークを介して利用可能であり、異種のシンまたはシックなクライアントプラットフォーム(例えば、携帯電話、ラップトップ、およびPDA)による使用を促進する標準的な機構を介してアクセスされる。
リソースプーリング:プロバイダのコンピューティングリソースは、マルチテナントモデルを使用して複数の消費者にサービスを提供するためにプールされ、異なる物理リソースおよび仮想リソースは、需要に応じて動的に割り当ておよび再割り当てされる。消費者は、一般に、提供されたリソースの正確な位置に対する制御または知識を持たないが、より高い抽象化レベル(例えば、国、州、またはデータセンタ)で位置を指定することができるという点で、位置独立性の感覚がある。
迅速な柔軟性(elasticity):機能は、素早くスケールアウトするために迅速かつ柔軟に、場合によっては自動的に、プロビジョニングされ、素早くスケールインするために迅速にリリースされ得る。消費者には、プロビジョニングに利用可能な機能は、多くの場合、無制限であるように見え、いつでも任意の量で購入され得る。
測定されるサービス:クラウドシステムは、サービスのタイプ(例えば、ストレージ、処理、帯域幅、およびアクティブユーザアカウント)に適したある抽象化レベルで計測機能を活用することによって、リソース使用を自動的に制御および最適化する。リソース使用は、利用されるサービスのプロバイダおよび消費者の両方に透明性を提供するように監視、制御、および報告され得る。
【0039】
サービスモデルは次の通りである。
サービスとしてのソフトウェア(SaaS):消費者に提供される能力は、クラウドインフラストラクチャ上で実行されるプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブブラウザ(例えば、ウェブベースの電子メール)などのシンクライアントインターフェースを介して様々なクライアント装置からアクセス可能である。消費者は、限定されたユーザ固有のアプリケーション構成設定を可能な例外として、ネットワーク、サーバ、オペレーティングシステム、ストレージ、または個々のアプリケーション機能さえも含む基盤となるクラウドインフラストラクチャを管理または制御しない。
サービスとしてのプラットフォーム(PaaS):消費者に提供される機能は、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成された、消費者が作成または取得したアプリケーションをクラウドインフラストラクチャ上に展開することである。消費者は、ネットワーク、サーバ、オペレーティングシステム、またはストレージを含む基盤となるクラウドインフラストラクチャを管理または制御しないが、展開されたアプリケーションおよび場合によってはアプリケーションホスティング環境構成を制御する。
サービスとしてのインフラストラクチャ(laaS):消費者に提供される機能は、処理、ストレージ、ネットワーク、および他の基本的なコンピューティングリソースをプロビジョニングすることであり、消費者は、オペレーティングシステムおよびアプリケーションを含み得る任意のソフトウェアを展開および実行し得る。消費者は、基盤となるクラウドインフラストラクチャを管理も制御もしないが、オペレーティングシステム、ストレージ、展開されたアプリケーション、および場合によっては選択ネットワーキング構成要素(例えば、ホストファイアウォール)の限定された制御を制御する。
【0040】
展開モデルは次の通りである。
プライベートクラウド:クラウドインフラストラクチャは、組織のためだけに運用される。クラウドインフラストラクチャは、当該組織またはサードパーティーによって管理されてもよく、また、オンプレミスで存在してもよいし、オフプレミスで存在してもよい。
コミュニティクラウド:クラウドインフラストラクチャは、いくつかの組織によって共有され、共有された関心事項(例えば、ミッション、セキュリティ要件、ポリシー、およびコンプライアンスの考慮事項)を有する特定のコミュニティをサポートする。それは、組織または第3者によって管理されてもよく、オンプレミスまたはオフプレミスで存在してもよい。
パブリッククラウド:クラウドインフラストラクチャは、一般の市民または大規模な業界グループに利用可能にされ、クラウドサービスを販売する組織によって所有される。
ハイブリッドクラウド:クラウドインフラストラクチャは、固有のエンティティのままであるが、データおよびアプリケーションの可搬性(例えば、クラウド間の負荷分散のためのクラウドバースト)を可能にする標準化されたまたは独自の技術によって互いに結び付けられた2つ以上のクラウド(プライベート、コミュニティ、またはパブリック)の複合である。
【0041】
クラウドコンピューティング環境は、無国籍、低結合、モジュール性、およびセマンティック相互運用性に焦点を合わせたサービス指向である。クラウドコンピューティングの中心には、相互接続されたノードのネットワークを含むインフラストラクチャがある。
【0042】
図5を参照すると、例示的なクラウドコンピューティング環境500が示されている。図示するように、クラウドコンピューティング環境500は、例えば、携帯情報端末(PDA)または携帯電話54A、デスクトップコンピュータ54B、ラップトップコンピュータ54C、および/または自動車コンピュータシステム54Nなどの、クラウド消費者によって使用されるローカルコンピューティングデバイスが通信し得る1つまたは複数のクラウド・コンピューティング・ノード10を含む。クラウド・コンピューティング・ノード10は、互いに通信し得る。それらは、上述のプライベートクラウド、コミュニティクラウド、パブリッククラウド、ハイブリッドクラウド、またはそれらの組み合わせなどの1つもしくは複数のネットワークにおいて、物理的または仮想的にグループ化(図示せず)されてもよい。これは、クラウドコンピューティング環境500が、クラウド消費者がローカルコンピューティングデバイス上のリソースを維持する必要がないサービスとしてのインフラストラクチャ、プラットフォーム、および/またはソフトウェアを提供することを可能にする。
図5に示されているコンピューティングデバイス54A~54Nのタイプは例示にすぎないことが意図されており、クラウド・コンピューティング・ノード10およびクラウドコンピューティング環境500は、任意のタイプのネットワークおよび/またはネットワークアドレス指定可能な接続(例えば、ウェブブラウザを使用する)を介して任意のタイプのコンピュータ化されたデバイスと通信し得ることが理解される。
【0043】
図6を参照すると、クラウドコンピューティング環境500(
図5)によって提供される1セットの機能抽象化層600が示されている。
図6に示されたコンポーネント、層、および機能は、例示のみを意図しており、実施形態はこれらに限定されないことを、あらかじめ理解されたい。図示のように、以下の層および対応する機能が提供される。
【0044】
ハードウェアおよびソフトウェア層60は、ハードウェアおよびソフトウェア構成要素を含む。ハードウェア構成要素の例は、メインフレーム61、RISC(縮小命令セットコンピュータ)アーキテクチャベースのサーバ62、サーバ63、ブレードサーバ64、記憶デバイス65、ならびにネットワークおよびネットワーキング構成要素66を含む。一部の実施形態では、ソフトウェア構成要素は、ネットワーク・アプリケーション・サーバ・ソフトウェア67およびデータベース・ソフトウェア68を含む。
【0045】
仮想化層70は、仮想エンティティの以下の例、すなわち、仮想サーバ71、仮想ストレージ72、仮想プライベートネットワークを含む仮想ネットワーク73、仮想アプリケーションおよびオペレーティングシステム74、ならびに仮想クライアント75が提供され得る抽象化層を提供する。
【0046】
一例では、管理層80は、以下で説明される機能を提供し得る。リソースプロビジョニング81は、クラウドコンピューティング環境内でタスクを実行するために利用されるコンピューティングリソースおよび他のリソースの動的な調達を提供する。計測および価格設定82は、リソースがクラウドコンピューティング環境内で利用されるときのコスト追跡、およびこれらのリソースの消費に対する請求または請求書発行を提供する。一例では、これらのリソースは、アプリケーションソフトウェアライセンスを含み得る。セキュリティは、クラウド消費者およびタスクのための識別検証、ならびにデータおよび他のリソースのための保護を提供する。ユーザポータル83は、消費者およびシステム管理者にクラウドコンピューティング環境へのアクセスを提供する。サービスレベル管理84は、必要なサービスレベルが満たされるようにクラウドコンピューティングリソースの割り当ておよび管理を提供する。サービスレベル合意(SLA:Service Level Agreement)の計画および履行85は、将来の要件がSLAに従って予想されるクラウドコンピューティングリソースの事前配置および調達を提供する。
【0047】
ワークロード層90は、クラウドコンピューティング環境が利用され得る機能の例を提供する。この層から提供され得るワークロードおよび機能の例は、マッピングおよびナビゲーション91、ソフトウェア開発およびライフサイクル管理92、仮想教室教育配信93、データ解析処理94、取引処理95、ならびに音響エコー抑制96を含む。音響エコー抑制96は、全二重通信における残留音響エコーを抑制し得る。
【0048】
一部の実施形態は、任意の可能な技術的詳細の統合レベルでシステム、方法、および/またはコンピュータ可読媒体に関することができる。コンピュータ可読媒体は、プロセッサに動作を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読非一時的記憶媒体を含むことができる。
【0049】
コンピュータ可読記憶媒体は、命令実行装置によって使用するための命令を保持および記憶し得る有形デバイスとすることができる。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または上記の任意の適切な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、以下を、すなわち、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM:random access memory)、読み出し専用メモリ(ROM:read-only memory)、消去可能プログラマブル読み出し専用メモリ(EPROM:erasable programmable read-only memoryまたはフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM:static random access memory)、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM:compact disc read-only memory)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、命令が記録されたパンチカードまたは溝内の隆起構造などの機械的に符号化されたデバイス、および上記の任意の適切な組み合わせを含む。本明細書で使用されるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を伝搬する電磁波(例えば、光ファイバケーブルを通過する光パルス)、または電線を介して伝送される電気信号などの一時的な信号自体であると解釈されるべきではない。
【0050】
本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスにダウンロードすることができ、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、および/もしくは無線ネットワークを介して外部コンピュータもしくは外部記憶デバイスにダウンロードすることができる。ネットワークは、銅製伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、および/またはエッジサーバを含むことができる。各コンピューティング/処理デバイス内のネットワークアダプタカードまたはネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶するためにコンピュータ可読プログラム命令を転送する。
【0051】
動作を実行するためのコンピュータ可読プログラムコード/命令は、アセンブラ命令、命令セットアーキテクチャ(ISA:instruction-set-architecture)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路の構成データ、またはSmalltalkもしくはC++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語もしくは同様のプログラミング言語などの手続き型プログラミング言語を含む1つまたは複数のプログラミング言語の任意の組み合わせで記述されたソースコードもしくはオブジェクトコードのいずれかであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロンソフトウェアパッケージとして、部分的にユーザのコンピュータ上かつ部分的にリモートコンピュータ上で、または完全にリモートコンピュータもしくはサーバ上で実行することができる。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク(LAN)もしくはワイドエリアネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよいし、または(例えば、インターネットサービスプロバイダを使用したインターネットを介して)外部コンピュータへの接続がなされてもよい。一部の実施形態では、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)、またはプログラマブル論理アレイ(PLA:programmable logic array)を含む電子回路が、態様または動作を実行するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによってコンピュータ可読プログラム命令を実行することができる。
【0052】
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行される命令が、フローチャートおよび/またはブロック図のブロックで指定された機能/動作を実装するための手段を作成するようにマシンを生成するために、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサに提供することができる。これらのコンピュータ可読プログラム命令はまた、記憶された命令を有するコンピュータ可読記憶媒体が、フローチャートおよび/またはブロック図のブロックで指定された機能/動作の態様を実装する命令を含む製品を含むように、コンピュータ、プログラマブルデータ処理装置、および/または他のデバイスに特定の方法で機能するように指示し得るコンピュータ可読記憶媒体に記憶することができる。
【0053】
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブル装置、または他のデバイス上で実行される命令がフローチャートおよび/またはブロック図のブロックで指定された機能/動作を実装するように、コンピュータ実装プロセスを生成するために一連の動作ステップがコンピュータ、他のプログラマブル装置、または他のデバイス上で実行されるよう、コンピュータ、他のプログラマブルデータ処理装置、または他のデバイス上にロードすることができる。
【0054】
図のフローチャートおよびブロック図は、様々な実施形態によるシステム、方法、およびコンピュータ可読媒体の可能な実装形態のアーキテクチャ、機能、および動作を示す。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実装するための1つまたは複数の実行可能命令を含むモジュール、セグメント、または命令の一部を表すことができる。方法、コンピュータシステム、およびコンピュータ可読媒体は、図に示されているものと比べて、追加のブロック、より少ないブロック、異なるブロック、または異なる配置のブロックを含んでもよい。一部の代替の実装形態では、ブロックに記載された機能は、図に記載されているのとは異なる順序で実行されてもよい。例えば、連続して示されている2つのブロックは、実際には、同時にまたは実質的に同時に実行されてもよいし、またはブロックは、関連する機能に応じて、場合によっては逆の順序で実行されてもよい。ブロック図および/またはフローチャート図の各ブロック、ならびにブロック図および/またはフローチャート図のブロックの組み合わせは、指定された機能もしくは動作を実行する、または専用ハードウェアとコンピュータ命令との組み合わせを実現する、専用ハードウェアベースのシステムによって実装され得ることにも留意されたい。
【0055】
本明細書に記載される、システムおよび/または方法は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアの組み合わせの様々な形態で実施され得ることは明らかであろう。これらのシステムおよび/または方法を実装するために使用される実際の専用の制御ハードウェアまたはソフトウェアコードは、実装形態を限定するものではない。よって、システムおよび/または方法の動作および挙動を、本明細書では、特定のソフトウェアコードに言及せずに記載した。ソフトウェアおよびハードウェアは、本明細書の説明に基づいてシステムおよび/または方法を実施するように設計され得ることを理解されたい。
【0056】
本明細書で使用される要素、動作、または命令は、そのようなものとして明示的に記載されていない限り、重要または必須であると解釈されてはならない。また、本明細書で使用される場合、冠詞「a」および「an」は、1つまたは複数の項目を含むことを意図されており、「1つまたは複数」と交換可能に使用されてもよい。さらに、本明細書で使用される「セット」という用語は、1つまたは複数の項目(例えば、関連項目、非関連項目、関連項目と非関連項目の組み合わせなど)を含むものであり、「1つまたは複数」と同じ意味で使用されてもよい。1つの項目のみが対象とされる場合、「1つ」という用語または同様の言葉が使用される。また、本明細書で使用される「有する(has)」、「有する(have)」、「有する(having)」などの用語は、オープンエンド用語であることが意図されている。さらに、「に基づいて」という語句は、特に明記されない限り、「に少なくとも部分的に基づいて」を意味することが意図されている。
【0057】
様々な態様および実施形態の説明は、例示の目的で提示されているが、網羅的であること、または開示された実施形態に限定されることを意図されていない。特徴の組み合わせが特許請求の範囲に記載され、および/または本明細書に開示されているが、これらの組み合わせは、可能な実装形態の開示を限定することを意図されていない。実際、これらの特徴の多くは、特許請求の範囲に特に列挙されておらず、かつ/または本明細書に開示されていない方法で組み合わされてもよい。以下に列挙されている各従属請求項は1つの請求項のみに直接従属し得るが、可能な実装形態の開示は、請求項セット内の他のすべての請求項との組み合わせにおいて各従属請求項を含む。記載された実施形態の範囲から逸脱することなく、多くの修正および変形が当業者に明らかになるであろう。本明細書で使用される用語は、実施形態の原理、実際の用途、もしくは市場で見られる技術に対する技術的改善を最もよく説明するために、または当業者が本明細書に開示されている実施形態を理解することを可能にするために選択された。
【符号の説明】
【0058】
10 クラウド・コンピューティング・ノード
54A 携帯情報端末(PDA)または携帯電話
54B デスクトップコンピュータ
54C ラップトップコンピュータ
54N自動車コンピュータシステム
60 ハードウェアおよびソフトウェア層
61 メインフレーム
62 RISC(縮小命令セットコンピュータ)アーキテクチャベースのサーバ
63 サーバ
64 ブレードサーバ
65 記憶デバイス
66 ネットワークおよびネットワーキング構成要素
67 ネットワーク・アプリケーション・サーバ・ソフトウェア
68 データベース・ソフトウェア
70 仮想化層
71 仮想サーバ
72 仮想ストレージ
73 仮想プライベートネットワークを含む仮想ネットワーク
74 仮想アプリケーションおよびオペレーティングシステム
75 仮想クライアント
80 管理層
81 リソースプロビジョニング
82 計測および価格設定
83 ユーザポータル
84 サービスレベル管理
85 サービスレベル合意(SLA)の計画および履行
90 ワークロード層
91 マッピングおよびナビゲーション
92 ソフトウェア開発およびライフサイクル管理
93 仮想教室教育配信
94 データ解析処理
95 取引処理
96 音響エコー抑制
100 音響エコー除去システム
102 コンピュータ
104 プロセッサ
106 データ記憶デバイス
108 ソフトウェアプログラム
110 通信ネットワーク
112 データベース
114 サーバコンピュータ
116 音響エコー抑制プログラム
200A エコー抑制システム
200B エコー抑制システム
300 方法
500 クラウドコンピューティング環境
600 1セットの機能抽象化層
800A 内部構成要素
800B 内部構成要素
820 プロセッサ
822 RAM
824 ROM
826 バス
828 オペレーティングシステム
830 コンピュータ可読有形記憶デバイス
832 R/Wドライブまたはインターフェース
836 ネットワークアダプタまたはインターフェース
840 デバイスドライバ
900A 外部構成要素
900B 外部構成要素
920 コンピュータディスプレイモニタ
930 キーボード
934 コンピュータマウス
936 ポータブルコンピュータ可読有形記憶デバイス
【手続補正書】
【提出日】2023-06-23
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
プロセッサによって実行可能な音響エコー抑制の方法であって、
マイクロフォン信号波形および遠端基準信号波形を受信するステップと、
前記マイクロフォン信号波形および前記遠端基準信号波形に基づいてエコー信号波形を推定するステップと、
前記マイクロフォン信号波形から、前記推定されたエコー信号波形を減算することに基づいて近端音声信号波形を出力するステップであって、前記近端音声信号波形内でエコーが抑制される、ステップと
を含む、方法。
【請求項2】
前記エコー信号
波形は、前記遠端基準信号波形に対する線形フィルタリングに基づいて計算される、請求項1に記載の方法。
【請求項3】
前記エコー信号
波形は、シングルタップマスクに前記マイクロフォン信号波形に関連する信号スペクトルを乗算することに基づいて計算される、請求項1に記載の方法。
【請求項4】
前記エコー信号
波形は第1段階によって推定され、前記近端音声信号
波形は第2段階によって推定される、請求項1に記載の方法。
【請求項5】
前記第1段階は、前記マイクロフォン信号波形および前記遠端基準信号波形に関連する時間領域信号上の歪み比および前記マイクロフォン信号波形および前記遠端基準信号波形に関連する時間-周波数スペクトル振幅上の損失に対してスケール不変信号を適用する、請求項4に記載の方法。
【請求項6】
前記第2段階は、前記マイクロフォン信号波形および前記エコー信号波形に関連する時間領域信号上の歪み比および前記マイクロフォン信号波形および前記エコー信号波形に関連する時間-周波数スペクトル振幅上の損失に対してスケール不変信号を適用する、請求項4に記載の方法。
【請求項7】
前記第1段階および前記第2段階は、リカレントニューラルネットワークを含む、請求項4に記載の方法。
【請求項8】
音響エコー抑制のためのコンピュータシステムであって、前記コンピュータシステムは、
コンピュータプログラムコードを記憶するように構成された1つまたは複数のコンピュータ可読非一時的記憶媒体と、
前記コンピュータプログラムコードにアクセスし、前記コンピュータプログラムコードによって命令されるように動作するように構成された1つまたは複数のコンピュータプロセッサであって、前記コンピュータプログラムコードは
、前記1つまたは複数のコンピュータプロセッサに、
請求項1~7のいずれか一項に記載の方法を行わせるように構成される、1つまたは複数のコンピュータプロセッサと
を備える、コンピュータシステム。
【請求項9】
1つまたは複数のコンピュータプロセッサに、
請求項1~7のいずれか一項に記載の方法を行わせるためのコンピュータプログラム。
【国際調査報告】