(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024132950
(43)【公開日】2024-10-01
(54)【発明の名称】ハンズフリー通信のための音源分類
(51)【国際特許分類】
G10L 21/0224 20130101AFI20240920BHJP
G10L 21/0208 20130101ALI20240920BHJP
【FI】
G10L21/0224
G10L21/0208 100A
【審査請求】未請求
【請求項の数】20
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024035522
(22)【出願日】2024-03-08
(31)【優先権主張番号】18/185,977
(32)【優先日】2023-03-17
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】502161508
【氏名又は名称】シナプティクス インコーポレイテッド
(74)【代理人】
【識別番号】100205350
【弁理士】
【氏名又は名称】狩野 芳正
(74)【代理人】
【識別番号】100117617
【弁理士】
【氏名又は名称】中尾 圭策
(72)【発明者】
【氏名】アッシャー、ジョン
(57)【要約】 (修正有)
【課題】音源分類のためにマルチチャンネル音声信号を用いる発話強調のための方法、装置及びシステムを提供する。
【解決手段】発話者フォーカスシステム700は、適応フィルタと、特徴抽出器と、混合ガウスモデル(GMM)分類器と、を含む。適応フィルタは、少なくとも第1マイクロホン及び第2マイクロホンを介してマルチチャンネル音声信号702(1)、702(2)を受信し、マルチチャンネル音声信号に基づいて該マイクロホンの間の相対インパルス応答(ReIR)704を決定する。特徴抽出器は、ReIRのピークに少なくとも部分的に基づいてReIRから特徴706のセットを抽出する。GMM分類器は、混合ガウスモデルに基づいて、特徴のセットが対象音源又は擾乱音源に関連しているとして分類する。
【選択図】
図7
【特許請求の範囲】
【請求項1】
複数のマイクロホンを介して第1マルチチャンネル音声信号を受信することと、
前記第1マルチチャンネル音声信号のフレームに基づいて前記複数のマイクロホンの間の第1相対インパルス応答を決定することと、
前記第1相対インパルス応答のピークに少なくとも部分的に基づいて前記第1相対インパルス応答から第1の特徴のセットを抽出することと、
前記第1の特徴のセットを、混合ガウスモデル(GMM)に基づいて分類することと、
前記第1の特徴の分類に少なくとも部分的に基づいて前記第1マルチチャンネル音声信号の少なくとも第1チャンネルを処理することと、
を含む
発話強調の方法。
【請求項2】
前記第1相対インパルス応答が、正規化最小二乗平均(NLMS)フィルタに基づいて決定される
請求項1に記載の方法。
【請求項3】
前記第1の特徴のセットが、前記第1相対インパルス応答のテール部分の尖度を含み、
前記テール部分が、前記ピークから始まる閾値期間に渡っている、
請求項1に記載の方法。
【請求項4】
前記第1の特徴のセットが、前記ピークに対して正規化された前記第1相対インパルス応答のプレリング部分の二乗平均平方根(RMS)を含み、
前記プレリング部分が、前記ピークで終了する閾値期間に渡っている
請求項1に記載の方法。
【請求項5】
前記複数のマイクロホンを介して第2マルチチャンネル音声信号を受信することと、
前記第2マルチチャンネル音声信号のフレームに基づいて前記複数のマイクロホンの間の第2相対インパルス応答を決定することと、
前記第2相対インパルス応答のピークに少なくとも部分的に基づいて前記第2相対インパルス応答から第2の特徴のセットを抽出することと、
前記第2の特徴のセットに少なくとも部分的に基づいて前記GMMを訓練することと、
を更に含む、
請求項1に記載の方法。
【請求項6】
前記第1マルチチャンネル音声信号と前記第2マルチチャンネル音声信号とが同一のユーザからの発話を伝送する、
請求項5に記載の方法。
【請求項7】
前記GMMが、対象クラスタと擾乱クラスタとを含む2つの非共変クラスタを決定するように訓練される
請求項1に記載の方法。
【請求項8】
前記第1の特徴のセットを分類することが、前記第1の特徴のセットを前記対象クラスタと前記擾乱クラスタの一方にマッピングすることを含む
請求項7に記載の方法。
【請求項9】
前記マルチチャンネル音声信号の前記第1チャンネルを処理することが、
前記第1の特徴のセットが前記対象クラスタにマッピングされるか前記擾乱クラスタにマッピングされるかに基づいて前記第1チャンネルに関連するゲインを調節することを含む、
請求項8に記載の方法。
【請求項10】
前記ゲインを調節することにより、前記第1の特徴のセットが前記擾乱クラスタにマッピングされるとき、前記第1の特徴のセットが前記対象クラスタにマッピングされる場合よりも前記第1チャンネルの減衰が大きくなる
請求項9に記載の方法。
【請求項11】
発話強調システムであって、
処理システムと、
前記処理システムによって実行されたときに、前記発話強調システムに、
複数のマイクロホンを介して第1マルチチャンネル音声信号を受信させ、
前記第1マルチチャンネル音声信号のフレームに基づいて前記複数のマイクロホンの間の第1相対インパルス応答を決定させ、
前記第1相対インパルス応答のピークに少なくとも部分的に基づいて前記第1相対インパルス応答から第1の特徴のセットを抽出させ、
混合ガウスモデルに基づいて前記第1の特徴のセットを分類させ、
前記第1の特徴のセットの分類に少なくとも部分的に基づいて前記第1マルチチャンネル音声信号の少なくとも第1チャンネルを処理させる命令を格納するメモリと、
を備える
発話強調システム。
【請求項12】
前記複数のマイクロホンが、電話通信デバイスの受話器マイクロホンと前記電話通信デバイスのハンズフリーマイクロホンとを含む、
請求項11に記載の発話強調システム。
【請求項13】
前記第1マルチチャンネル音声信号が、前記電話通信デバイスがハンズフリー通信モードで動作している間に受信される
請求項12に記載の発話強調システム。
【請求項14】
前記第1相対インパルス応答が、正規化最小二乗平均(NLMS)フィルタに基づいて決定される
請求項11に記載の発話強調システム。
【請求項15】
前記第1の特徴のセットが、前記第1相対インパルス応答のテール部分の尖度を含み、
前記テール部分が、前記ピークから始まる閾値期間に渡っている
請求項11に記載の発話強調システム。
【請求項16】
前記第1の特徴のセットが、前記ピークに対して正規化された前記第1相対インパルス応答のプレリング部分の二乗平均平方根(RMS)を含み、
前記プレリング部分が、前記ピークで終了する閾値期間に渡っている
請求項11に記載の発話強調システム。
【請求項17】
前記命令の実行が、更に、前記発話強調システムに、
前記複数のマイクロホンを介して第2マルチチャンネル音声信号を受信させ、
前記第2マルチチャンネル音声信号のフレームに基づいて前記複数のマイクロホンの間の第2相対インパルス応答を決定させ、
前記第2相対インパルス応答のピークに少なくとも部分的に基づいて前記第2相対インパルス応答から第2の特徴のセットを抽出させ、
前記第2の特徴のセットに少なくとも部分的に基づいて前記GMMを訓練させる
請求項11に記載の発話強調システム。
【請求項18】
前記第1マルチチャンネル音声信号と前記第2マルチチャンネル音声信号とが同一のユーザからの発話を伝送する、
請求項17に記載の発話強調システム。
【請求項19】
前記GMMが、対象クラスタと擾乱クラスタとを含む2つの非共変クラスタを決定するように訓練され
前記第1の特徴のセットを分類することが、前記第1の特徴のセットを前記対象クラスタと前記擾乱クラスタの一方にマッピングすることを含む、
請求項11に記載の発話強調システム。
【請求項20】
前記マルチチャンネル音声信号の第1チャンネルを処理することが、前記第1の特徴のセットが前記対象クラスタにマッピングされるか前記擾乱クラスタにマッピングされるかに基づいて前記第1チャンネルに関連するゲインを調節することを含む、
請求項19に記載の発話強調システム。
【発明の詳細な説明】
【技術分野】
【0001】
本実装は、全体としては信号処理に関しており、具体的には、ハンズフリー通信のための音源分類に関している。
【背景技術】
【0002】
電話通信装置は、受信デバイスに通信チャンネルを介して伝送可能な音声信号に音波を変換するように構成されたマイクロホンを備えている。音声信号は、しばしば、(例えば、通信デバイスに向けて話すユーザからの)対象発話成分と、(例えば、その背後で発話する人々からの)ノイズ成分とを含んでいる。発話強調は、対象発話成分を歪ませずに、受信した音声信号のノイズ成分を抑制しようとする信号処理技術である。マルチチャンネル発話強調は、マイクロホンのアレイを介して受信した音声信号(「マルチチャンネル音声信号」ともいう)における空間ダイバーシティに依拠してノイズ成分から発話成分を分離する。それに対し、単一チャンネル発話強調では、単一のマイクロホンを介して受信した音声信号(「単一チャンネル音声信号」ともいう)におけるノイズ成分を追尾しなければならない。
【0003】
(ボイスオーバーインターネットプロトコル(VoIP)電話機のような)電話通信デバイスには、特定の動作モードで選択的にアクティブにすることができる複数のマイクロホンを備えているものがある。例えば、多くのVoIP電話機は、(音声信号が本体内のマイクロホンを介して受信される)「ハンズフリー通話」に使用可能な本体と、(受話器内のマイクロホンを介して音声信号が受信される)「受話器通話」のために本体から分離可能な、着脱可能な受話器とを備えている。大半の受話器は、該電話がハンズフリー通話に使用されているときに本体に(例えば「受け台」に)置かれるように設計される。受け台にある間、受話器のマイクロホンは、しばしば、本体によって塞がれる。従って、多くの既存の電話通信デバイスは、ハンズフリー通話に関し、単一チャンネル音声信号のみに依拠している。
【発明の概要】
【0004】
本概要は、「発明を実施するための形態」において以下で更に説明されている概念の選択を、簡略化した形式で紹介するために提供される。本概要は、請求された主題の主要な特徴又は本質的な特徴を特定することを意図したものではなく、請求された主題の技術的範囲を限定することを意図したものでもない。
【0005】
本開示の主題の一の革新的な態様は、発話強調の方法において実施可能である。該方法は、複数のマイクロホンを介してマルチチャンネル音声信号を受信するステップと、マルチチャンネル音声信号のフレームに基づいて複数のマイクロホンの間の相対インパルス応答を決定するステップと、相対インパルス応答のピークに少なくとも部分的に基づいて相対インパルス応答から特徴のセットを抽出するステップと、混合ガウスモデル(GMM)に基づいて特徴のセットを分類するステップと、該特徴のセットの分類に少なくとも部分的に基づいてマルチチャンネル音声信号を処理するステップとを含む。
【0006】
本開示の主題の他の革新的な態様は、処理システムとメモリとを備える発話強調システムにおいて実施可能である。該メモリは、処理システムによって実行されたときに、発話強調システムに、複数のマイクロホンを介してマルチチャンネル音声信号を受信させ、マルチチャンネル音声信号のフレームに基づいて複数のマイクロホンの間の相対インパルス応答を決定させ、相対インパルス応答のピークに少なくとも部分的に基づいて相対インパルス応答から特徴のセットを抽出させ、混合ガウスモデルに基づいて特徴のセットを分類させ、特徴のセットの分類に少なくとも部分的に基づいてマルチチャンネル音声信号を処理させる命令を格納している。
【図面の簡単な説明】
【0007】
本実施形態は例として示されており、添付図面の図によって限定されることを意図していない。
【0008】
【
図1】
図1は、発話強調が実施され得る環境の例を図示している。
【0009】
【
図2】
図2は、発話強調をサポートする音声レシーバの例を図示している。
【0010】
【
図3】
図3は、いくつかの実装による、混合ガウスモデル(GMM)訓練システムの例のブロック図を図示している。
【0011】
【
図4】
図4は、一対のマイクロホンの間の相対インパルス応答(ReIR)の例を示すタイミング図である。
【0012】
【
図5】
図5は、対象音源及び擾乱音源についてのReIRの例を示すタイミング図である。
【0013】
【
図6】
図6は、ReIRから抽出された特徴のセットから生成可能な混合ガウスモデル(GMM)の例を図示している。
【0014】
【
図7】
図7は、いくつかの実装による、発話者フォーカス分類システムの例のブロック図を図示している。
【0015】
【
図8A】
図8Aは、一対のマイクロホンの間のReIRの例を示す他のタイミング図を図示している。
【0016】
【
図8B】
図8Bは、
図8AのReIRから抽出された特徴のセットの、訓練済みGMMへのマッピングの例を図示している。
【0017】
【
図9】
図9は、いくつかの実装による、発話強調システムの例の他のブロック図を図示している。
【0018】
【
図10】
図10は、いくつかの実装による、音声信号を処理するための動作の例を示す説明フローチャートである。
【発明を実施するための形態】
【0019】
以下の記載においては、本開示の深い理解を提供するために、具体的なコンポーネント、回路及び処理の例のような、多くの具体的詳細が提示されている。本明細書において「結合された」という用語は、直接に接続されていること、又は、一以上の介在するコンポーネント又は回路を介して接続されていることを意味している。「電子システム」及び「電子デバイス」という用語は、電子的に情報を処理することが可能な任意のシステムをいうために同義的に使用されることがある。また、以下の記載において、説明の目的で、本開示の態様の深い理解を提供するために特定の術語体系が提示されている。しかしながら、これらの具体的な詳細が、例示的な実施形態を実施するために必要とされないことがあることは、当業者には自明であろう。他の例として、周知の回路及びデバイスは、本開示を曖昧にすることを避けるためにブロック図の形態で図示される。下記の、発明を実施するための形態のいくつかの部分は、手順、論理ブロック及びコンピュータメモリ内のデータビットへの操作の他の記号による表現の形態で提示される。
【0020】
これらの記述や表現は、データ処理技術の当業者が、その仕事の内容を他の当業者に最も効果的に伝えるために用いる手段である。本開示において、手順、論理ブロック、処理等は、所望の結果に至るステップ又は命令の自己一貫性のあるシーケンスであると考えられる。該ステップは、物理量の物理的操作を要求するようなものである。必ずしもそうではないが、通常、これらの量は、コンピュータシステム内で格納され、転送され、結合され、比較され、又は、他の態様で操作されることが可能な電気的又は磁気的信号の形態をとる。しかしながら、これらの用語及び類似の用語の全ては、適切な物理量に関連付けられるべきものであり、これらの量に適用される便宜的なラベルに過ぎないことに留意すべきである。
【0021】
特に異なると述べられていない限り、下記の議論から自明であるように、本出願の全体に渡り、「アクセスする」、「受信する」、「送信する」、「用いる」、「選択する」、「決定する」、「正規化する」、「乗算する」、「平均化する」、「監視する」、「比較する」、「適用する」、「更新する」、「測定する」、「導き出す」等の用語を用いた議論は、コンピュータシステムのレジスタ及びメモリ内の(電子的な)物理量として表現されたデータを操作してコンピュータシステムのメモリ又はレジスタ又は他のそのような情報を格納、伝送又は表示するデバイス内で物理量として同様に表現される他のデータに変換するコンピュータシステム又は類似の電子的計算デバイスの動作又は処理をいう。
【0022】
図において、単一のブロックが一の機能又は複数の機能を実行すると記載されることがある。しかしながら実際の実施においては、そのブロックによって実施される該一の機能又は複数の機能は、単一のコンポーネントにおいて実施され得るものであり、また、複数のコンポーネントに渡って実施され得るものであり、及び/又は、ハードウェアを用いて、ソフトウェアを用いて、又はハードウェアとソフトウェアの組み合わせを用いて実施され得るものである。このハードウェアとソフトウェアの互換性を明確に図示するために、様々な例示的なコンポーネント、ブロック、モジュール、回路及びステップが、下記では、一般に、その機能の観点で説明されている。このような機能がハードウェアとして実装されるかソフトウェアとして実装されるかは、全体システムに課せられる個別の応用及び設計の制約に依存している。当業者は、説明された機能を、各個別の応用のために様々な方法で実装し得るが、このような実装上の決定が、本開示の範囲からの乖離を生じさせるとして解釈すべきではない。また、例示的な入力装置は、プロセッサ、メモリ等のような周知のコンポーネントを含む、図示されているもの以外のコンポーネントを備えることがある。
【0023】
本明細書に記載された技術は、特定の態様で実装されると特に記載されていない限り、ハードウェア、ソフトウェア、ファームウェア又はそれらの任意の組み合わせにおいて実装され得る。また、モジュール又はコンポーネントとして記載されている任意の特徴は、集積論理デバイスに纏めて実装されることがあり、また、別々の、しかしながら、協働可能な論理デバイスとして分離して実装されることがある。ソフトウェアに実装される場合、当該技術は、実行されたときに上述された方法の一以上を実施する命令を含む非一時的プロセッサ読み取り可能記録媒体によって少なくとも部分的に実現され得る。該非一時的プロセッサ読み取り可能記録媒体は、包装材を含むことがある、コンピュータプログラム製品の一部を構成することがある。
【0024】
非一時的プロセッサ読み取り可能記録媒体は、同期型ダイナミックランダムアクセスメモリ(SDRAM)のようなランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、不揮発性ランダムアクセスメモリ(NVRAM)、電気的消去可能プログラム可能読み出し専用メモリ(EEPROM)、フラッシュメモリ、及び、他の公知の記憶媒体等を備えることがある。当該技術は、加えて、又は、その代わりに、コンピュータ又は他のプロセッサによってアクセスされ、読み出され、及び/又は実行可能な命令又はデータ構造の形態のコードを伝搬又は通信するプロセッサ読み出し可能通信媒体によって少なくとも部分的に実現され得る。
【0025】
本明細書に開示された実施形態に関連して記載された様々な例示的な論理ブロック、モジュール、回路及び命令は、一以上のプロセッサ(又は処理システム)によって実行され得る。本明細書でいう「プロセッサ」という用語は、メモリに格納された一以上のソフトウェアプログラムのスクリプト又は命令を実行可能な任意の汎用プロセッサ、特別用途プロセッサ、従来のプロセッサ、コントローラ、マイクロコントローラ及び/又はステートマシンをいうことがある。
【0026】
上述のように、(例えばボイスオーバーインターネットプロトコル(VoIP)電話機のような)電話通信デバイスには、特定の動作モードについて選択的にアクティブにすることが可能な複数のマイクロホンを備えるものがある。例えば、多くのVoIP電話機は、(音声信号が本体内のマイクロホンを介して受信される)「ハンズフリー通話」に使用可能な本体と、(受話器内のマイクロホンを介して音声信号が受信される)「受話器通話」のために本体から分離可能な、着脱可能な受話器とを備えている。大半の受話器は、該電話がハンズフリー通話に使用されているときに本体に(例えば「受け台」に)置かれるように設計される。受け台にある間、受話器のマイクロホンは、しばしば、本体によって塞がれる。
【0027】
しかしながら、本開示の態様は、電話通信デバイスがハンズフリー通話に使用され(たとえ、音波が本体によって妨害され)ていてもなお、受話器のマイクロホンが、使用可能な音声信号を生成可能であることを認識している。より具体的には、受話器のマイクロホンを介して受信された音声信号(「受話器音声信号」ともいう)は、例えば、(通信デバイスのユーザのような)対象音源に由来する音声信号の部分と、(例えば、その背後で発話する人々や、様々な他のノイズ源のような)擾乱音源に由来する音声信号の部分とを判別するために使用可能なマルチチャンネル音声信号を生成するために、本体のマイクロホンを介して受信された音声信号(「ハンズフリー音声信号」ともいう)と組み合わされ得る。
【0028】
様々な態様が全体としては音声信号処理に関しており、特に、マルチチャンネル音声信号を音源分類のために使用する発話強調技術に関している。いくつかの態様では、発話強調システムが、適応フィルタと、特徴抽出器と、特徴分類器とを含むことがある。適応フィルタは、少なくとも第1マイクロホン及び第2マイクロホンを介してマルチチャンネル音声信号を受信し、該マルチチャンネル音声信号に基づいてマイクロホンの間の相対インパルス応答(relative impulse response:ReIR)を決定するように構成されている。特徴抽出器は、ReIRのピークに少なくとも部分的に基づいて、ReIRから特徴のセットを抽出するように構成されている。いくつかの実装では、特徴のセットが、ReIRのテール部分の尖度を含むことがある。ここで、テール部分は、ピークから始まる閾値期間に渡っている。他のいくつかの実装では、特徴のセットは、ピークに対して正規化されたReIRのプレリング部分の二乗平均平方根(root mean square:RMS)を含んでいることがある。ここで、プレリング部分は、ピークで終了する閾値期間に渡っている。特徴分類器は、混合ガウスモデル(GMM)に基づいて、特徴のセットを、対象音源に関連するとして、又は、擾乱音源に関連するとして分類するように構成されている。
【0029】
本開示で記述される主題の特定の実装は、下記の潜在的な利点の一つ以上を実現するように実装可能である。ハンズフリー通信のために複数のマイクロホンを使うことによって、本開示の態様は、受信した音声信号における空間ダイバーシティを活用してハンズフリー通信のユーザ体験又は音質を向上することができる。例えば、発話強調システムは、特徴分類器の出力に基づいてハンズフリー音声信号にゲインを適用することによって対象音源に「焦点を合わせる」ことがある。より具体的には、該システムは、高いゲインを適用することで対象音源の分類を有する音声信号の部分を強調又は増幅することがあり、低いゲインを適用することで擾乱音源の分類を有する音声信号の部分を抑制又は減衰することがある。従って、本実装の音声強調技術の発話強調技術は、「ハンズフリー発話者フォーカス(handsfree speaker focus:HSF)」ということがある。受話器と本体を有する電話通信システムを参照して具体的な例を説明するが、本実装の音源分類技術は、複数のマイクロホンを備える任意の音声通信システムにおける発話強調の様々な他の形態のために使用され得る。
【0030】
図1は、発話強調が実施される例示的な環境100を図示している。例示的な環境100は、電話通信デバイス110と、通信デバイス110のユーザ120(「対象音声源」又は「対象音源」ともいう)と、その背後の発話者130(「擾乱音声源」又は「擾乱音源」ともいう)とを含む。態様によっては、電話通信デバイス110は、受話器112と本体(通信デバイスの残部として示されている)とを備えることがある。より具体的には、受話器112が受話器マイクロホン114を備えており、本体が本体マイクロホン116を備えている。
【0031】
図1の例では、電話通信デバイス110は、受話器112が本体上の受け台に置かれている状態で「ハンズフリーモード」で動作するように図示されている。実装によっては、電話通信デバイス110が、ハンズフリーモードで動作するときに、受話器マイクロホン114と本体マイクロホン116とを作動させ、さもなければアクティブにするように構成されることがある。従って、マイクロホン114、116のそれぞれは、対象発話122とノイズ132とを含む、環境100を伝搬する音波を検出することがある。例えば、対象発話122は、ユーザ120によって生成された任意の音を含み得る。それに対して、ノイズ132は、背後の発話者130又は背景ノイズの任意の他の音源(簡潔性のために図示されていない)によって生成された任意の音を含み得る。
【0032】
マイクロホン114、116のそれぞれは、検出された音波を、音響波形を表す電気信号(「音声信号」ともいう)に変換することがある。従って、各音声信号は、(対象発話122を表す)発話成分と(ノイズ132を表す)ノイズ成分とを含み得る。マイクロホン114及び116の空間的位置取りにより、マイクロホン114又は116の一方によって検出される音は、他方のマイクロホンによって検出される音に対して遅延し得る。言い換えれば、マイクロホン114及び116は、変化する位相オフセットを持つ複数の音声信号を生成し得る。実装によっては、受話器マイクロホン114によって検出される音は、受話器112の本体上の位置により、本体マイクロホン116によって検出される音と比較すると、減衰され、そうでなくとも歪みが有り得る。
【0033】
本開示の態様は、ハンズフリー通話の間、受話器マイクロホン114を介して受信された音声信号(「受話器音声信号」ともいう)が、本体マイクロホン116を介して受信された音声信号(「ハンズフリー音声信号」ともいう)の質を向上するために使用可能であることを認識している。実装によっては、電話通信デバイス110は、ハンズフリー音声信号と受話器音声信号との間の空間ダイバーシティを活用して対象発話122を含む音声信号の部分とノイズ132のみを含む音声信号の部分とを判別することがある。電話通信デバイス110は、更に、例えば対象発話122を含む音声信号の部分をノイズ132のみを含む音声信号の部分とは異なる態様で処理することにより、ハンズフリー音声信号における発話の質を向上することがある。
【0034】
図2は、発話強調をサポートする音声レシーバ200の例を図示している。音声レシーバ200は、複数のマイクロホン210(1)、210(2)と、発話者フォーカスコンポーネント220と、発話強調コンポーネント230とを備えている。実装によっては、音声レシーバ200が、
図1の電話通信デバイス110の一例であり得る。例えば
図1を参照すると、第1マイクロホン210(1)が受話器マイクロホン114の一例であり得るし、第2マイクロホン210(2)が本体マイクロホン116の一例であり得る。
【0035】
マイクロホン210(1)、210(2)は、(例えば、
図1の音波のような)一連の音波201を、それぞれ、音声信号202(1)、202(2)に変換するように構成されている。実装によっては、音波201が、(例えばノイズ132のような)背景ノイズ又は干渉と混ざった(例えば対象発話122のような)ユーザ発話を含むことがある。従って、音声信号202(1)、202(2)のそれぞれは、発話成分とノイズ成分とを含むことがある。より具体的には、音声信号202(1)、202(2)のそれぞれは、マルチチャンネル音声信号の各チャンネルを表していることがある。マイクロホン210(1)、210(2)の空間的位置取りのために、音声信号202(2)が、音声信号202(1)の遅延したバージョンである場合がある。いくつかの他の実装では、音声信号202(1)が音声信号202(2)の遅延したバージョンであり得る。更にまた、いくつかの実装では、音声信号202(1)、202(2)の間に遅延が無いこともあり得る。
【0036】
発話者フォーカスコンポーネント220は、マルチチャンネル音声信号の各フレームに基づいて、各音源分類204を決定するように構成されている。例えば、音源分類204は、マルチチャンネル音声信号の各フレームが対象発話を含むのか、ノイズのみしか含まないのかを示すことがある。態様によっては、発話者フォーカスコンポーネント220は、音声信号202(1)、202(2)に基づいてマイクロホン210(1)、210(2)の間の相対インパルス応答を決定することがある。実装によっては、発話者フォーカスコンポーネント220は、相対インパルス応答の一以上の特性に基づいて音源分類204を決定することがある。例えば、発話者フォーカスコンポーネント220は、相対インパルス応答から特徴のセットを抽出し、該特徴のセットを、(例えばユーザ120のような)対象音源に由来しているとして分類し、又は、(例えば背景発話者130のような)擾乱音源に由来しているとして分類することがある。実装によっては、発話者フォーカスコンポーネント220が、混合ガウスモデル(GMM)222に少なくとも部分的に基づいて特徴分類を実行することがある。
【0037】
発話強調コンポーネント230は、音声信号202(2)と音源分類204とに基づいて強調音声信号206を生成するように構成されている。より具体的には、発話強調コンポーネント230は、音源分類204に少なくとも部分的に基づいて、ノイズを抑制又は減衰し、そうでなくとも音声信号202(2)の信号対ノイズ比(SNR)を増大することによって音声信号202(2)における発話の質を向上することがある。態様によっては、発話強調コンポーネント230が、音源分類204に基づいて音声信号202(2)にゲインを適用することがある。いくつかの実装では、発話強調コンポーネント230が、音声信号202(2)の所与のフレームが対象発話を含むことを音源分類204が示しているとき、より高いゲインを適用することで該フレームを通過させ、又は増幅することがある。いくつかの他の実装では、発話強調コンポーネント230は、音声信号202(2)の所与のフレームにノイズしか含まれないことを音源分類204が示しているとき、より低いゲインを適用して該フレームを抑制又は減衰することがある。
【0038】
図3は、いくつかの実装による、混合ガウスモデル(GMM)訓練システム300の例のブロック図である。GMM訓練システム300は、相対インパルス応答から抽出された特徴を分類するために使用可能なGMM308を訓練し、そうでなければGMM308を生成するように構成されている。例えば
図2を参照すると、GMM308は、GMM222の一例であり得る。いくつかの実装では、GMM訓練システム300は、発話者フォーカスコンポーネント220の一例であり得る。このような実装では、発話者フォーカスコンポーネント220は、音声レシーバ200のユーザからの発話に基づいてGMM222を訓練することがある。
【0039】
態様によっては、GMM訓練システム300が、各マイクロホン(簡潔性のために図示されていない)を介して受信された音声信号302(1)、302(2)に基づいてGMM308を訓練することがある。例えば
図2を参照すると、音声信号302(1)は、音声信号202(1)の一例である場合があり、音声信号302(2)は、音声信号202(2)の一例である場合がある。実装によっては、遅延301が音声信号302(1)に加えられることがある。
【0040】
いくつかの他の実装では、その代わりに、音声信号302(1)ではなく音声信号302(2)に遅延が加えられることがある。更にまた、いくつかの実装では、音声信号302(1)、302(2)のいずれにも遅延が加えられないことがある。実装によっては、音声信号302(1)、302(2)のそれぞれが、各音声信号を少なくとも2つのサブバンド(簡潔性のために図示されない)に分離する直交ミラーフィルタ(quadrature mirror filter:QMF)を介して処理されることがある。このような実装では、GMM訓練システム300は、サブバンドのそれぞれを個別に(分離された入力音声信号として)処理することがある。
【0041】
GMM訓練システム300は、適応フィルタ310と、特徴抽出器320と、GMM生成器330とを備えている。適応フィルタ310は、受信した音声信号302(1)、302(2)に基づいてマイクロホンの間の相対インパルス応答(ReIR)304を決定するように構成されている。適切な適応フィルタ技術の例としては、周波数ドメイン正規化最小二乗平均(normalized least mean squares:NLMS)、時間ドメインNLMS、アフィン投影、再帰的最小二乗平均(LMS)等が挙げられる。
【0042】
実装によっては、適応フィルタ310が、周波数ドメインNLMSフィルタに基づいてReIR304を決定することがある。例えば、適応フィルタ310は、(例えば高速フーリエ変換(FFT)を用いて)音声信号302(1)、302(2)の各フレームを時間ドメインから周波数ドメインに変換し、音声信号302(1)のフレームを音声信号302(2)の各フレームにマッチさせるNLMSフィルタを決定する。結果として得られるNLMSフィルタは、音声信号302(1)、302(2)の音源についてのマイクロホンの間の(時間ドメインに変換されたときの)ReIR304を表す機械音響伝達関数である。
【0043】
特徴抽出器320は、(例えばReIR304の振幅が最も高い場所である)ReIR304のピークの位置に少なくとも部分的に基づいてReIR304から特徴306のセットを抽出するように構成されている。例えば、ReIR304のピークの位置は、遅延301のタイミングに整合していることがある。実装によっては、遅延301が、NLMSフィルタのサイズの4分の1に等しいことがある。態様によっては、特徴抽出器320が、ReIR304の一以上の統計的特性に基づいて特徴306のセットを決定することがある。適切な統計的特性の例としては、ReIR304の尖度、ReIR304の二乗平均平方根(root mean square:RMS)、ReIR304のスキュー又は高さ(level)等が挙げられる。
【0044】
実装によっては、特徴抽出器320がテール尖度コンポーネント322を備えることがある。テール尖度コンポーネント322は、ReIR304のテール部分の尖度(「テール尖度」ともいう)を決定するように構成されている。例えば、ランダム変数(X)の尖度は、
【数1】
として定義される。ここで、μ
4は、4次中心モーメントであり、σは標準偏差である。ReIR304のテール部分は、ReIR304のピークから始まる閾値期間に渡っている。実装によっては、ReIR304のテール部分が、ReIR304の残部(ReIR304のピークからReIR304の末尾まで)を含むことがある。
【0045】
実装によっては、特徴抽出器320が正規化プレリングコンポーネント324を備えることがある。正規化プレリングコンポーネント324は、ReIR304のピークに対して正規化されたReIR304のプレリング部分(「正規化プレリング」ともいう)のRMSを決定するように構成されている。例えば、期間T
1≦t≦T
2に対して定義された波形(f(t))のRMSは、
【数2】
である。ReIR304のプレリング部分は、ReIR304のピークで終わる(又は直前で終わる)閾値期間に渡っている。実装によっては、ReIR304のプレリング部分が、ReIR304の開始から、ReIR304のピークの1以上のサンプル(例えば5サンプル)前までのReIR304の部分に渡っていることがある。
【0046】
特徴306のセットは、ReIR304のテール尖度、ReIR304の正規化プレリング、又はそれらの任意の組み合わせを含んでいることがある。実装によっては、特徴306のセットが、ReIR304の他の統計的特性(簡潔性のために図示しない)を含むことがある。適切な統計的特性の例としては、ReIR304の全体のスキュー又は高さ、又は、ReIR304の一部(例えば、プレリング部分又はテール部分)のスキュー又は高さ等が挙げられ得る。
【0047】
GMM生成器330は、音声信号302(1)、302(2)の閾値数(N)のフレームに渡って特徴306を蓄積し、蓄積された特徴306に基づいてGMM308を生成する。実装によっては、ユーザは、蓄積期間の間、(例えばマイクロホンの方向に話すことによって)対象発話のサンプルを提供するように指示されることがある。Nセットの特徴306が蓄積された後、GMM生成器330は、蓄積された特徴306の一以上のクラスタにフィッティングされたGMMを決定することがある。例えば、GMM生成器330が、期待値最大化(expectation-maximization:EM)アルゴリズムを用いてフィッティングを行うことがある。
【0048】
実装によっては、GMM生成器330が、多変量モデルの信頼楕円を描き、ベイズ情報量基準を計算して蓄積された特徴306に関連するクラスタの数を算定することがある。クラスタのうちの少なくとも一つが(対象音源に対応する)対象クラスタとラベリングされ、クラスタのうちの少なくとも一つが(擾乱音源に対応する)擾乱クラスタとラベリングされることがある。いくつかの他の実装では、GMM生成器330が、対象クラスタと擾乱クラスタとを含む2つの非共変クラスタを決定するように調整、さもなければ構成されることがある。いくつかの態様では、各クラスタの平均及び分散がGMM308として格納されることがある。他のいくつかの態様では、GMM308は、各クラスタについての共分散を含むことがある。
【0049】
図4は、一対のマイクロホンの間の相対インパルス応答(ReIR)400の例を示すタイミング図を図示している。実装によっては、ReIR400が、一対のマイクロホンを介してそれぞれに受信された一対の音声信号に基づいて(例えば、
図3の適応フィルタ310のような)適応フィルタによって生成されることがある。
図4の例では、ReIR400の振幅が、時間(T)と共に示されている。より具体的には、ReIR400は、時間T=0から時間T=256までの期間に渡っており、時間T=63の辺りで発生しているピーク401を有する。実装によっては、ReIR400の期間が、プレリング部分402とテール部分404に更に分割されることがある。プレリング部分402は、ReIR400の開始から始まり、ピーク401において、又は、ピーク401の直前で終了する期間に渡っている。テール部分404は、ピーク401から始まり、ReIR400の末尾で終了する期間に渡っている。
【0050】
図5は、対象音源及び擾乱音源についてのReIRの例を示すタイミング
図501~506を図示している。実装によっては、ReIR501~506のそれぞれが、一対のマイクロホンを介してそれぞれに受信された一対の音声信号に基づいて、(例えば
図3の適応フィルタ310のような)適応フィルタによって生成されることがある。
図5の例では、ReIR501~503が、対象発話を含む音声フレームに基づいて決定されている。従って、ReIR501~503は、対象音源に由来していると言われる。それに対して、ReIR504~506は、ノイズしか含まない音声フレームに基づいて決定されている。従って、ReIR504~506は、擾乱音源に由来していると言われる。
【0051】
本開示の態様は、マイクロホンからより遠い音源(例えば擾乱音源)に由来するReIRが、マイクロホンにより近い音源(例えば対象音源)に由来するReIRよりもノイズが多いテールを有している傾向があることを認識している。
図5に示されているように、擾乱音源に由来するReIR504~506のテール部分は、一般に、対象音源に由来するReIR501~503のテール部分よりもノイズが多い。例えば、ReIR504~506のそれぞれは、3に近いテール尖度(これは、ランダムノイズの尖度である)を有することがある。それに対して、ReIR501~503のそれぞれは、3よりずっと高いテール尖度を有している。従って、より高いテール尖度は、ReIRが対象音源に由来している可能性がより高いことを示すことがあり、より低いテール尖度は、ReIRが擾乱音源に由来している可能性がより高いことを示すことがある。
【0052】
本開示の態様は、また、マイクロホンからより遠い音源(例えば、擾乱音源)に由来するReIRが、マイクロホンにより近い音源(例えば、対象音源)に由来するReIRよりも多くのプレリンギングを発現する傾向があることを認識している。
図5に図示されているように、擾乱音源に由来するReIR504~506のプレリング部分は、一般に、対象音源に由来するReIR501~503のプレリング部分よりも多くのリンギングを発現する。従って、ReIR504~506のそれぞれは、相対的に高い正規化プレリングを有し得る。それに対して、ReIR501~503のそれぞれは、相対的に低い正規化プレリングを有し得る。従って、より高い正規化プレリングは、ReIRが擾乱音源に由来している可能性がより高いことを示すことがあり、一方で、より低い正規化プレリングは、ReIRが対象音源に由来している可能性が高いことを示すことがある。
【0053】
図6は、ReIRから抽出された特徴のセットから生成可能なGMM600の例を図示している。実装によっては、GMM600が、ReIRから抽出された特徴に基づいて(例えば
図3のGMM生成器330のような)GMM生成器によって生成されることがある。
図6の例では、GMM600が、それぞれがデータ点の各クラスタにフィッティングされた一対の楕円610、620として示されている。各データ点は、各ReIRから抽出された特徴のセットを表している。より具体的には、各特徴のセットは、ReIRのテール尖度(垂直軸に沿ってマッピングされている)と、ReIRの正規化プレリング(水平軸に沿ってマッピングされている)とを含んでいる。
【0054】
図6に図示されているように、第1クラスタ610に属するデータ点は、相対的に高いテール尖度と相対的に低い正規化プレリングとを有している。それに対して、第2クラスタ620に属するデータ点は、相対的に低いテール尖度と相対的に高い正規化プレリングとを有している。
図5を参照して説明したように、より高いテール尖度はReIRが対象音源に由来している可能性がより高いことを示していることがあり、一方、より高い正規化プレリングは、ReIRが擾乱音源に由来している可能性がより高いことを示していることがある。従って、いくつかの実装では、第1クラスタ610が「対象クラスタ」とラベリングされることがあり、第2クラスタ620が「擾乱クラスタ」とラベリングされることがある。言い換えれば、対象クラスタ610に属するデータ点は、対象音源に由来すると特定されているReIRを表している。それに対して、擾乱クラスタ620は、擾乱音源に由来すると特定されているReIRを表している。
【0055】
図7は、いくつかの実装による発話者フォーカスシステム700の例のブロック図である。実装によっては、発話者フォーカスシステム700が、
図2の発話者フォーカスコンポーネント220の一例であり得る。より具体的には、発話者フォーカスシステム700は、マルチチャンネル音声信号の各フレームに基づいて、それぞれの音源分類708を決定するように構成されている。
【0056】
図7の例において、マルチチャンネル音声信号は、各マイクロホン(簡潔性のために図示されない)を介して受信される音声信号702(1)、702(2)を含んでいることがある。例えば
図2を参照すると、音声信号702(1)は音声信号202(1)の一例である場合があり、音声信号702(2)は音声信号202(2)の一例である場合がある。いくつかの実装では、遅延701が音声信号702(1)に加えられることがある。
【0057】
他のいくつかの実装では、遅延が、音声信号702(1)ではなく、むしろ音声信号702(2)に加えられることがある。更にまた、いくつかの実装では、音声信号702(1)、702(2)のいずれにも遅延が加えられないことがある。実装によっては、音声信号702(1)、702(2)のそれぞれが、各音声信号を少なくとも2つのサブバンド(簡潔性のために図示されない)に分離するQMFフィルタを介して処理されてもよい。このような実装では、発話者フォーカスシステム700が、サブバンドのそれぞれを個別に(別々の入力音声信号として)処理してもよい。
【0058】
発話者フォーカスシステム700は、適応フィルタ710と、特徴抽出器720と、GMM分類器730とを備えている。適応フィルタ710は、受信した音声信号702(1)、702(2)に基づいてマイクロホンの間のReIR704を決定するように構成される。適切な適応フィルタリング技術の例としては、周波数ドメインNLMS、時間ドメインNLMS、アフィン投影、再帰的LMS等が挙げられる。
【0059】
実装によっては、適応フィルタ310が、周波数ドメインNLMSフィルタに基づいてReIR704を決定することがある。例えば、適応フィルタ710は、音声信号702(1)、702(2)の各フレームを(例えばFFTを用いて)時間ドメインから周波数ドメインに変換し、音声信号702(1)のフレームを音声信号702(2)の各フレームにマッチさせるNLMSフィルタを決定することがある。結果として得られるNLMSフィルタは、音声信号702(1)及び702(2)の音源についてのマイクロホンの間の(時間ドメインに変換されたときの)ReIR704を表す機械音響伝達関数である。
【0060】
特徴抽出器720は、ReIR704のピークの位置に少なくとも部分的に基づいてReIR704から特徴706のセットを抽出するように構成されている。例えば、ReIR704のピークの位置は、遅延701のタイミングに整合していることがある。実装によっては、遅延701が、NLMSフィルタのサイズの4分の1に等しいことがある。態様によっては、特徴抽出器720が、ReIR704の一以上の統計的特性に基づいて特徴706のセットを決定することがある。適正な統計的特性の例としては、ReIR704の尖度、ReIR704のRMS、及び、ReIR704のスキュー又は高さ等が挙げられる。
【0061】
実装によっては、特徴抽出器720がテール尖度コンポーネント722を備えていることがある。テール尖度コンポーネント722は、(例えば
図3を参照して説明した)ReIR704のテール部分の尖度を決定するように構成されている。例えば、ランダム変数(X)の尖度は、式(1)に定義されている。ReIR704のテール部分は、ReIR704のピークから始まる閾値期間に渡っている。実装によっては、ReIR704のテール部分が、(ReIR704のピークからReIR704の末尾までの)ReIR704の残部を含んでいることがある。
【0062】
実装によっては、特徴抽出器720が正規化プレリングコンポーネント724を備えることがある。正規化プレリングコンポーネント724は、(例えば
図3を参照して説明したように)ReIR704のピークに対して正規化されたReIR704のプレリング部分のRMSを決定するように構成されている。例えば、期間T
1≦t≦T
2に対して定義された波形(f(t))のRMSが、式(2)に示されている。ReIR704のプレリング部分は、ReIR704のピークで終了する(又は直前で終了する)閾値期間に渡っている。実装によっては、ReIR704のプレリング部分が、ReIR704の開始からReIR704のピークの1又は複数のサンプル前(例えば、5サンプル前)までの部分に渡っていることがある。
【0063】
特徴706のセットは、ReIR704のテール尖度、ReIR704の正規化プレリング、又は、これらの任意の組み合わせを含んでいることがある。実装によっては、特徴706のセットが、ReIR704の他の統計的特性(簡潔性のために図示されない)を含んでいることがある。適切な統計的特性の例としては、ReIR704全体のスキュー又は高さ、(例えば、ReIR704のプレリング部分又はテールのような)ReIR704の特定の部分のスキュー又は高さ等が挙げられ得る。
【0064】
GMM分類器730は、特徴706のセットに基づいて音源分類708を決定するように構成されている。より具体的には、GMM分類器730は、訓練済みGMM707に基づいて特徴706を分類することがある。実装によっては、訓練済みGMM707が、
図3のGMM308の一例であり得る。例えば、GMM分類器730は、特徴706のセットが(例えば
図6の対象クラスタ610のような)対象クラスタにマッピングされる尤度又は確率と、特徴706のセットが(例えば
図6の擾乱クラスタ620のような)擾乱クラスタにマッピングされる尤度又は確率とを決定してもよい。
【0065】
実装によっては、GMM分類器730が、最も確率が高いクラスタを音源分類708として選択してもよい。言い換えれば、音源分類708は、特徴706のセットが対象クラスタ又は擾乱クラスタのいずれに対応している可能性がより高いかを示すことがある。特徴706のセットが対象クラスタ又は擾乱クラスタに位置づけられる尤度が同じであるいくつかの実装では、GMM分類器730が、(例えば対象発話を誤って抑制することを避けるために)対象クラスタを音源分類708として選択してもよい。
【0066】
図2を参照して説明したように、音源分類708は、音声信号における発話の質を向上するために(例えば発話強調コンポーネント230のような)発話強調コンポーネントによって使用されてもよい。例えば、発話強調コンポーネントは、音源分類708が対象クラスタを示しているとき、音声信号の所与のフレームを通過させ又は増幅するように、より高いゲインを適用してもよい。一方、発話強調コンポーネントは、音源分類708が擾乱クラスタを示しているとき、音声信号の所与のフレームを抑制又は減衰するように、より低いゲインを適用してもよい。
【0067】
図8Aは、一対のマイクロホンの間のReIR800の例を示す他のタイミング図である。実装によっては、ReIR800が、それぞれマイクロホンの対を介して受信された一対の音声信号に基づいて(例えば
図7の適応フィルタ710のような)適応フィルタによって生成されてもよい。
図8Aの例では、ReIR800の振幅が、時間(T)と共に示されている。より具体的には、ReIR800は、時間T=0からT=510までの期間に渡っており、時間T=135の辺りで発生するピークを有している。
図8Aに図示されているように、(例えば時間T=135からT=510までのような)ReIR800のテール部は非常にノイズが多く、(例えば時間T=0からT=135までのような)ReIR800のプレリング部分は相当なリンギングを発現している。従って、ReIR800は、相対的に低いテール尖度と相対的に高い正規化プレリングとを有しているかもしれない。
図5を参照して説明したように、低いテール尖度と高い正規化プレリングは、ReIR800が擾乱音源に由来している可能性が高いことを示している。
【0068】
図8Bは、
図8AのReIR800から抽出された特徴813のセットの訓練済みGMMへのマッピング810の例を図示している。より具体的には、特徴813のセットは、ReIR800の(垂直軸に沿ってマッピングされる)テール尖度とReIR800の(水平軸に沿ってマッピングされる)正規化プレリングとを含んでいる。実装によっては、マッピング810が、(例えば
図7のGMM分類器730のような)GMM分類器によって実施されてもよい。例えば
図7を参照して、該訓練済みGMMは、訓練済みGMM707の一例であり得る。
図8Bの例では、訓練済みGMMが、それぞれ対象クラスタ及び擾乱クラスタを表す一対の楕円811、812として示されている。
図8Bに図示されているように、特徴セット813の位置は、擾乱クラスタを表す楕円812によって境界が付けられている。従って、いくつかの実装では、GMM分類器が、特徴813のセットを擾乱クラスタ812に属している(又はマッピングされる)として分類することがある。
【0069】
図9は、いくつかの実装による、発話強調システム900の例の他のブロック図を図示している。より具体的には、発話強調システム900は、マルチチャンネル音声信号を受信し、受信した音声信号におけるノイズをフィルタリング又は抑制することによって強調音声信号を生成するように構成されてもよい。実装によっては、発話強調システム900は、
図2の音声レシーバ200の一例であり得る。
【0070】
発話強調システム900は、デバイスインタフェース910と、処理システム920と、メモリ930とを備えている。デバイスインタフェース910は、(例えば
図2のマイクロホン201(1)、201(2)のような)音声レシーバの様々なコンポーネントと通信するように構成されている。実装によっては、デバイスインタフェース910が、複数のマイクロホンを介してマルチチャンネル音声信号を受信するように構成されたマイクロホンインタフェース(I/F)912を備えていてもよい。例えば、マイクロホンインタフェース912は、発話強調システム900に関連するフレームホップで音声信号の個々のフレームをサンプリングし、又は、受信することがある。フレームホップは、アプリケーションが発話強調システム900から強調音声フレームを受け取ることを要求する、さもなければ期待する頻度を表すことがある。
【0071】
メモリ930は、音声フレームデータ格納部931とGMMデータ格納部932とを備えることがある。音声フレームデータ格納部931は、マルチチャンネル音声信号の一以上のフレームを格納すると共に、(例えば、ReIRやReIRから抽出された様々な特徴のような)発話強調動作を実行した結果として発話強調システム900によって生成されることがある任意の中間情報を格納するように構成されている。GMMデータ格納部932は、特徴分類に使用可能な(例えば
図3のGMM308や
図7の訓練済みGMM707のような)訓練済みGMMを格納するように構成されている。
【0072】
メモリ930は、下記のソフトウェア(SW)モジュールを少なくとも格納することがある(例えばEPROM、EEPROM、フラッシュメモリ、ハードドライバ等のような一以上の不揮発性メモリ要素を含む)非一時的コンピュータ読み取り可能媒体も備えることがある。
・マルチチャンネル音声信号のフレームに基づいて複数のマイクロホンの間の相対インパルス応答を決定する適応フィルタリングSWモジュール933、
・相対インパルス応答のピークに少なくとも部分的に基づいて相対インパルス応答から特徴のセットを抽出する特徴抽出SWモジュール934、
・訓練済みGMMに基づいて特徴のセットを分類する特徴分類SWモジュール935、及び、
・特徴のセットの分類に少なくとも部分的に基づいてマルチチャンネル音声信号の少なくとも第1チャンネルを処理する発話強調SWモジュール936
各ソフトウェアモジュールは、処理システム920によって実行されたときに、対応する機能を発話強調システム900に実行させる命令を含んでいる。
【0073】
処理システム920は、発話強調システム900に(例えばメモリ930に)格納された一以上のソフトウェアプログラムのスクリプト又は命令を実行可能な一以上の適切なプロセッサを含んでいることがある。例えば、処理システム920は、適応フィルタリングSWモジュール933を実行して、マルチチャンネル音声信号のフレームに基づいてマイクロホンの間の相対インパルス応答を決定することがある。処理システム920は、特徴抽出SWモジュール934を実行して、相対インパルス応答のピークに少なくとも部分的に基づいて相対インパルス応答から特徴のセットを抽出することもある。更に、処理システム920は、特徴分類SWモジュール935を実行して、訓練済みGMMに基づいて該特徴のセットを分類することがある。更にまた、処理システム920は、発話強調SWモジュール936を実行して、特徴のセットの分類に少なくとも部分的に基づいてマルチチャンネル音声信号の少なくとも第1チャンネルを処理することがある。
【0074】
図10は、いくつかの実装による、音声信号を処理するための例示的な動作1000の例を示す説明フローチャートを図示している。実装によっては、例示的な動作1000が、(例えば
図2の音声レシーバ200や
図9の発話強調システム900のような)発話強調システムによって実行され得る。
【0075】
発話強調システムは、複数のマイクロホンを介して第1マルチチャンネル音声信号を受信する(1010)。発話強調システムは、第1マルチチャンネル音声信号のフレームに基づいて該複数のマイクロホンの間の第1相対インパルス応答を決定する(1020)。発話強調システムは、第1相対インパルス応答のピークに少なくとも部分的に基づいて第1相対インパルス応答から第1の特徴のセットを抽出する(1030)。発話強調システムは、GMMに基づいて第1の特徴のセットを分類する(1040)。更に、発話強調システムは、第1の特徴のセットの分類に少なくとも部分的に基づいて第1マルチチャンネル音声信号の少なくとも第1チャンネルを処理する(1050)。
【0076】
実装によっては、第1相対インパルス応答がNLMSフィルタに基づいて決定されてもよい。いくつかの実装では、第1の特徴のセットが、第1相対インパルス応答のテール部分の尖度を含んでいることがある。ここで、テール部分は、ピークから始まる閾値期間に渡っている。他のいくつかの実装では、第1の特徴のセットが、該ピークに対して正規化された第1相対インパルス応答のプレリング部分のRMSを含んでいることがある。ここで、プレリング部分は、該ピークにおいて終了する閾値期間に渡っている。
【0077】
態様によっては、発話強調システムが、更に、複数のマイクロホンを介して第2マルチチャンネル音声信号を受信し、第2マルチチャンネル音声信号のフレームに基づいて該複数のマイクロホンの間の第2相対インパルス応答を決定し、第2相対インパルス応答のピークに少なくとも部分的に基づいて第2相対インパルス応答から第2の特徴のセットを抽出し、該第2の特徴のセットに少なくとも部分的に基づいてGMMを訓練することがある。実装によっては、第1マルチチャンネル音声信号及び第2マルチチャンネル音声信号が、同一のユーザからの発話を伝送してもよい。
【0078】
態様によっては、GMMが、対象クラスタと擾乱クラスタとを含む2つの非共変クラスタを決定するように訓練されることがある。実装によっては、第1の特徴のセットを分類することが、該第1の特徴のセットを対象クラスタ又は擾乱クラスタの一方にマッピングすることを含むことがある。実装によっては、マルチチャンネル音声信号の第1チャンネルを処理することが、第1の特徴のセットが対象クラスタにマッピングされるか、擾乱クラスタにマッピングされるかに基づいて第1チャンネルに関連するゲインを調節することを含むことがある。実装によっては、ゲインを調節することにより、第1の特徴のセットが擾乱クラスタにマッピングされるとき、第1の特徴のセットが対象クラスタにマッピングされる場合よりも第1チャンネルの減衰が大きくなってもよい。
【0079】
当業者は、情報及び信号が、様々の異なる技術又はテクニックの任意のものを用いて表現され得ると理解するであろう。例えば、上記の説明に渡って参照されることがあるデータ、命令、コマンド、情報、信号、ビット、シンボル及びチップは、電圧、電流、電磁波、磁界又は磁性粒子、光学場又は光子、又は、それらの任意の組み合わせによって表現され得る。
【0080】
更に、当業者は、本明細書に開示された態様に関連して説明された様々な例示的な論理ブロック、モジュール、回路及びアルゴリズムのステップが、電子ハードウェア、コンピュータソフトウェア又は両者の組み合わせとして実装され得ることを理解するであろう。ハードウェアとソフトウェアのこの互換性を明確に図示するために、様々な例示的なコンポーネント、ブロック、モジュール、回路及びステップは、上記において、一般に、その機能の観点で説明されている。このような機能がハードウェアとして実装されるかソフトウェアとして実装されるかは、全体システムに課せられる個別の応用及び設計の制約に依存している。当業者は、記述された機能を、各個別の応用のために様々な方法で実装し得るが、このような実装上の決定が、本開示の技術的な範囲からの乖離を生じさせるとして解釈すべきではない。
【0081】
本明細書に開示された態様と関連して説明されている方法、シーケンス又はアルゴリズムは、直接にハードウェアで具現化されてもよく、プロセッサによって実行されるソフトウェアで具現化されてもよく、それら2つの組み合わせで具現化されてもよい。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、リムーバブルディスク、CD-ROM、又は、本技術で知られる他の形態の記憶媒体に存在し得る。例示的な記憶媒体は、当該プロセッサが該記憶媒体から情報を読み取り、該記録媒体に情報を書き込むことができるようにプロセッサに結合される。その代わりに、記憶媒体がプロセッサと一体であってもよい。
【0082】
前述の明細書において、実施形態が、その具体的な例を参照して説明されている。しかしながら、添付の特許請求の範囲に提示されているような開示のより広い範囲から逸脱することなく、様々な修正及び変更がなされ得ることは、明らかであろう。従って、明細書及び図面は、限定的な意味ではなく、例示的な意味で考慮されるべきである。
【外国語明細書】