特表2022-533300 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ カードームテクノロジーリミテッドの特許一覧

特表2022-533300キューのクラスター化を使用した音声強化

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2022-07-22

(54)【発明の名称】キューのクラスター化を使用した音声強化

(51)【国際特許分類】

G10L 21/0208 20130101AFI20220714BHJP

G10L 15/10 20060101ALI20220714BHJP

G10L 15/20 20060101ALI20220714BHJP

【ＦＩ】

G10L21/0208 100Z

G10L15/10 200W

G10L15/20 370D

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2021553756

(86)(22)【出願日】2019-03-10

(85)【翻訳文提出日】2021-11-08

(86)【国際出願番号】 IB2019051933

(87)【国際公開番号】W WO2020183219

(87)【国際公開日】2020-09-17

(81)【指定国・地域】

(71)【出願人】

【識別番号】521404587

【氏名又は名称】カードームテクノロジーリミテッド

(74)【代理人】

【識別番号】110000855

【氏名又は名称】特許業務法人浅村特許事務所

(72)【発明者】

【氏名】スラパク、アロン

(72)【発明者】

【氏名】チャーカスキー、ダニ

(57)【要約】

音声強化のための方法であって、方法は、所与の時間期間の間にマイクロホンのアレイによって受信された音信号を表す音サンプルを受け取るステップ又は生成するステップと、周波数変換されたサンプルを提供するために音サンプルを周波数変換するステップと、スピーカ関連クラスターを提供するために、周波数変換されたサンプルをスピーカにクラスター化するステップであって、該クラスター化するステップが、ｉ受信した音信号に関連する空間キュー、及びｉｉスピーカに関連する音響キューに基づく、クラスター化するステップと、スピーカ関連相対伝達関数を提供するために、スピーカの個々のスピーカ毎に相対伝達関数を決定するステップと、ビーム形成された信号を提供するために、スピーカ関連相対伝達関数に対して多重入力多重出力ＭＩＭＯビーム形成演算を適用するステップと、音声信号を提供するために、ビーム形成された信号を逆周波数変換するステップとを含むことができる。

【特許請求の範囲】

【請求項1】

音声強化のための方法であって、
所与の時間期間の間にマイクロホンのアレイによって受信された音信号を表す音サンプルを受け取るステップ又は生成するステップと、
周波数変換されたサンプルを提供するために前記音サンプルを周波数変換するステップと、
スピーカ関連クラスターを提供するために、前記周波数変換されたサンプルをスピーカにクラスター化するステップであって、前記クラスター化するステップが、（ｉ）前記受信した音信号に関連する空間キュー、及び（ｉｉ）前記スピーカに関連する音響キューに基づく、クラスター化するステップと、
スピーカ関連相対伝達関数を提供するために、前記スピーカの個々のスピーカ毎に相対伝達関数を決定するステップと、
ビーム形成された信号を提供するために、前記スピーカ関連相対伝達関数に対して多重入力多重出力（ＭＩＭＯ）ビーム形成演算を適用するステップと、
音声信号を提供するために、前記ビーム形成された信号を逆周波数変換するステップと
を含む方法。

【請求項2】

前記スピーカに関連する前記音響キューを生成するステップを含む、請求項１に記載の方法。

【請求項3】

前記音響キューを生成する前記ステップが、前記音サンプル中のキーワードを探索するステップと、
前記キーワードから前記音響キューを引き出すステップと
を含む、請求項２に記載の方法。

【請求項4】

前記キーワードに関連する空間キューを引き出すステップをさらに含む、請求項３に記載の方法。

【請求項5】

前記キーワードに関連する前記空間キュアをクラスター化シードとして使用するステップを含む、請求項４に記載の方法。

【請求項6】

前記音響キューが、ピッチ周波数、ピッチ強度、１つ又は複数のピッチ周波数調波、及び前記１つ又は複数のピッチ周波数調波の強度を含む、請求項２に記載の方法。

【請求項7】

信頼性属性を個々のピッチに関連付けるステップ、及び前記ピッチと関連付けられるスピーカは、前記ピッチの信頼性が定義済み閾値未満になるとサイレントになることを決定するステップを含む、請求項５に記載の方法。

【請求項8】

前記クラスター化するステップが、前記音響キュー及び前記空間キューを提供するために、前記周波数変換されたサンプルを処理するステップ、前記音響キューを使用してスピーカの状態を常に追跡するステップ、前記周波数変換された信号の個々の周波数成分の空間キューをグループにセグメント化するステップ、及び周波数変換された信号の個々のグループに、現在活動状態であるスピーカに関連する音響キューを割り当てるステップを含む、請求項１に記載の方法。

【請求項9】

前記割り当てるステップが、周波数変換された信号のグループ毎に、時間周波数マップの他の線に属し、また、周波数変換された信号の前記グループに関連付けられる要素を有する前記時間周波数マップの等周波数線の要素同士の間の相互相関を計算するステップを含む、請求項８に記載の方法。

【請求項10】

前記追跡するステップが拡張カルマン・フィルターを適用するステップを含む、請求項８に記載の方法。

【請求項11】

前記追跡するステップが多重仮説追跡を適用するステップを含む、請求項８に記載の方法。

【請求項12】

前記追跡するステップが粒子フィルターを適用するステップを含む、請求項８に記載の方法。

【請求項13】

前記セグメント化するステップが、単一の時間フレームに関連する単一の周波数成分を単一のスピーカに割り当てるステップを含む、請求項８に記載の方法。

【請求項14】

音声速度、音声強度及び感情的発声の中から少なくとも１つの被監視音響特徴を監視するステップを含む、請求項８に記載の方法。

【請求項15】

前記少なくとも１つの被監視音響特徴を拡張カルマン・フィルターに供給するステップを含む、請求項１４に記載の方法。

【請求項16】

前記周波数変換されたサンプルが、マイクロホンの前記アレイのマイクロホン毎に１つのベクトルである複数のベクトルで配置され、前記方法が、前記複数のベクトルを重み平均することによって中間ベクトルを計算するステップと、定義済み閾値未満である値を有する前記中間ベクトルの要素を無視することによって音響キュー候補を探索するステップとを含む、請求項１に記載の方法。

【請求項17】

雑音の標準偏差の３倍になるように前記定義済み閾値を決定するステップを含む、請求項１６に記載の方法。

【請求項18】

非一時的コンピュータ可読媒体であって、コンピュータ化されたシステムによって実行されると、前記コンピュータ化されたシステムが、所与の時間期間の間にマイクロホンのアレイによって受信された音信号を表す音サンプルを受け取るか、又は生成し、周波数変換されたサンプルを提供するために前記音サンプルを周波数変換し、スピーカ関連クラスターを提供するために、前記周波数変換されたサンプルをスピーカにクラスター化し（前記クラスター化は、（ｉ）前記受信した音信号に関連する空間キュー、及び（ｉｉ）前記スピーカに関連する音響キューに基づく）、スピーカ関連相対伝達関数を提供するために、前記スピーカの個々のスピーカ毎に相対伝達関数を決定し、ビーム形成された信号を提供するために、前記スピーカ関連相対伝達関数に対して多重入力多重出力（ＭＩＭＯ）ビーム形成演算を適用し、且つ、音声信号を提供するために、前記ビーム形成された信号を逆周波数変換することになる命令を記憶する、非一時的コンピュータ可読媒体。

【請求項19】

非一時的コンピュータ可読媒体は、前記スピーカに関連する前記音響キューを生成するための命令を記憶する、請求項１８に記載の非一時的コンピュータ可読媒体。

【請求項20】

マイクロホンのアレイと、記憶装置と、プロセッサとを備えるコンピュータ化されたシステムであって、前記プロセッサは、所与の時間期間の間にマイクロホンのアレイによって受信された音信号を表す音サンプルを受け取るか、又は生成し、周波数変換されたサンプルを提供するために前記音サンプルを周波数変換し、スピーカ関連クラスターを提供するために、前記周波数変換されたサンプルをスピーカにクラスター化し（前記クラスター化は、（ｉ）前記受信した音信号に関連する空間キュー、及び（ｉｉ）前記スピーカに関連する音響キューに基づく）、スピーカ関連相対伝達関数を提供するために、前記スピーカの個々のスピーカ毎に相対伝達関数を決定し、ビーム形成された信号を提供するために、前記スピーカ関連相対伝達関数に対して多重入力多重出力（ＭＩＭＯ）ビーム形成演算を適用し、且つ、音声信号を提供するために、前記ビーム形成された信号を逆周波数変換するように構成され、前記記憶装置は、前記音サンプル及び前記音声信号のうちの少なくとも１つを記憶するように構成される、コンピュータ化されたシステム。

【請求項21】

発信源分離アルゴリズムを音声認識アルゴリズムに調整するための方法であって、発信源選択プロセスの先行する出力に対して適用された音声認識プロセスに関連する誤差を受け取るステップ又は計算するステップと、前記誤差に基づいて前記発信源分離プロセスの少なくとも１つのパラメータを改訂するステップと、複数の発信源から発信され、且つ、マイクロホンのアレイによって検出される可聴信号を表す信号を受信するステップと、前記複数の発信源の異なる発信源から発信された可聴信号を分離して発信源分離信号を提供するために、発信源分離プロセスを実施するステップと、前記発信源分離信号を前記発信源選択プロセスに送信するステップとを含む方法。

【請求項22】

前記発信源分離プロセスを実施する前記ステップが、周波数変換を適用するステップ、脱混合するステップ及び逆周波数変換を適用するステップを含む、請求項２１に記載の方法。

【請求項23】

前記発信源分離プロセスの少なくとも１つのパラメータが前記周波数変換の少なくとも１つのパラメータを含む、請求項２２に記載の方法。

【請求項24】

少なくとも１つのパラメータが、周波数変換が適用される可聴信号を表す信号のセグメントの長さである、請求項２３に記載の方法。

【請求項25】

少なくとも１つのパラメータが可聴信号を表す信号の連続するセグメント間の重畳であり、前記周波数変換がセグメント毎を基本として適用される、請求項２３に記載の方法。

【請求項26】

少なくとも１つのパラメータが前記周波数変換のサンプリング・レートである、請求項２３に記載の方法。

【請求項27】

少なくとも１つのパラメータが前記周波数変換によって適用されるウィンドウのウィンドウ処理パラメータである、請求項２３に記載の方法。

【請求項28】

前記発信源分離プロセスの少なくとも１つのパラメータが前記脱混合ステップの少なくとも１つのパラメータを含む、請求項２２に記載の方法。

【請求項29】

少なくとも１つのパラメータが前記脱混合ステップの間に適用されるフィルターの遮断周波数である、請求項２７に記載の方法。

【請求項30】

少なくとも１つのパラメータが、前記脱混合ステップの間、マイクロホンの前記アレイのうちの個々のマイクロホンに適用される重みである、請求項２７に記載の方法。

【請求項31】

少なくとも１つのパラメータがマイクロホンの前記アレイのマイクロホンの数である、請求項２７に記載の方法。

【請求項32】

改訂するステップが、黄金分割探索を使用して少なくとも１つのパラメータのパラメータの被改訂値を決定するステップを含む、請求項２１に記載の方法。

【請求項33】

改訂するステップが、ＮｅｄｌｅｒＭｅａｄアルゴリズムを使用して少なくとも１つのパラメータの被改訂値を決定するステップを含む、請求項２１に記載の方法。

【請求項34】

前記改訂するステップが、格子探索を使用して少なくとも１つのパラメータの被改訂値を決定するステップを含む、請求項２１に記載の方法。

【請求項35】

前記改訂するステップが、前記誤差と前記少なくとも１つのパラメータの間の定義済みマッピングに基づいて少なくとも１つのパラメータの被改訂値を決定するステップを含む、請求項２１に記載の方法。

【請求項36】

前記改訂するステップが、前記誤差と前記少なくとも１つのパラメータの間のマッピングを実時間で決定するステップを含む、請求項２１に記載の方法。

【請求項37】

非一時的コンピュータ可読媒体であって、発信源選択プロセスの先行する出力に対して適用された音声認識プロセスに関連する誤差を受け取るステップ又は計算するステップと、前記誤差に基づいて前記発信源分離プロセスの少なくとも１つのパラメータを改訂するステップと、複数の発信源から発信され、且つ、マイクロホンのアレイによって検出される可聴信号を表す信号を受信するステップと、前記複数の発信源の異なる発信源から発信された可聴信号を分離して発信源分離信号を提供するために、発信源分離プロセスを実施するステップと、前記発信源分離信号を前記発信源選択プロセスに送信するステップとを実行することによって発信源を分離するための命令を記憶する、非一時的コンピュータ可読媒体。

【発明の詳細な説明】

【技術分野】

【0001】

（背景技術）
音声強化モジュールの性能は、すべての妨害信号をフィルター除去して、望ましい音声信号のみを残す能力で決まる。妨害信号は、例えば他のスピーカ、空気調和からの雑音、音楽、モータ雑音（例えば自動車又は飛行機の中）、及び「カクテル・パーティ雑音」としても知られている大群衆雑音であり得る。音声強化モジュールの性能は、通常、それぞれ雑音及び他の妨害信号の総電力に対する望ましい音声信号の電力の比率（ｄＢスケールであることがしばしばである）を反映している、音声対雑音比（ＳＮＲ：ｓｐｅｅｃｈ－ｔｏ－ｎｏｉｓｅ－ｒａｔｉｏ）又は音声対妨害比（ＳＩＲ：ｓｐｅｅｃｈ－ｔｏ－ｉｎｔｅｒｆｅｒｅｎｃｅ－ｒａｔｉｏ）を改善するそれらの能力によって判断される。

【先行技術文献】

【非特許文献】

【0002】

【非特許文献1】「ＬｅｓｓｏｎｓｉｎＤｉｇｉｔａｌＥｓｔｉｍａｔｉｏｎＴｈｅｏｒｙ」ｂｙＪｅｒｒｙＭ．Ｍｅｎｄｅｌ

【非特許文献2】「ＮｅｗＦｅａｔｕｒｅｓｆｏｒＥｍｏｔｉｏｎａｌＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ」ｂｙＰａｌｏｅｔ．ａｌ．

【発明の概要】

【発明が解決しようとする課題】

【0003】

反響環境で音声強化を実施する必要がますます高くなっている。

【課題を解決するための手段】

【0004】

音声強化のための方法を提供することができ、方法は、所与の時間期間の間にマイクロホンのアレイによって受信された音信号を表す音サンプルを受け取るステップ又は生成するステップと、周波数変換されたサンプルを提供するために音サンプルを周波数変換するステップと、スピーカ関連クラスターを提供するために、周波数変換されたサンプルをスピーカにクラスター化するステップであって、該クラスター化するステップが、（ｉ）受信した音信号に関連する空間キュー、及び（ｉｉ）スピーカに関連する音響キューに基づき得る、クラスター化するステップと、スピーカ関連相対伝達関数を提供するために、スピーカの個々のスピーカ毎に相対伝達関数を決定するステップと、ビーム形成された信号を提供するために、スピーカ関連相対伝達関数に対して多重入力多重出力（ＭＩＭＯ：ｍｕｌｔｉｐｌｅｉｎｐｕｔｍｕｌｔｉｐｌｅｏｕｔｐｕｔ）ビーム形成演算を適用するステップと、音声信号を提供するために、ビーム形成された信号を逆周波数変換するステップとを含むことができる。

【0005】

方法は、スピーカに関連する音響キューを生成するステップを含むことができる。

【0006】

音響キューを生成するステップは、音サンプル中のキーワードを探索するステップ、及びキーワードから音響キューを引き出すステップを含むことができる。

【0007】

方法は、キーワードに関連する空間キューを引き出すステップを含むことができる。

【0008】

方法は、キーワードに関連する空間キュアをクラスター化シード（clustering seed）として使用するステップを含むことができる。

【0009】

音響キューは、ピッチ周波数、ピッチ強度、１つ又は複数のピッチ周波数調波、及び１つ又は複数のピッチ周波数調波の強度を含むことができる。

【0010】

方法は、信頼性属性を個々のピッチに関連付けるステップ、及びピッチと関連付けられ得るスピーカは、ピッチの信頼性が定義済み閾値未満になるとサイレントになり得ることを決定するステップを含むことができる。

【0011】

クラスター化するステップは、音響キュー及び空間キューを提供するために、周波数変換されたサンプルを処理するステップ、音響キューを使用してスピーカの状態を常に追跡するステップ、周波数変換された信号の個々の周波数成分の空間キューをグループにセグメント化するステップ、及び周波数変換された信号の個々のグループに、現在活動状態であるスピーカに関連する音響キューを割り当てるステップを含むことができる。

【0012】

割り当てるステップは、周波数変換された信号のグループ毎に、時間周波数マップの他の線に属し、また、周波数変換された信号のグループに関連付けることができる要素を有する時間周波数マップの等周波数線の要素同士の間の相互相関を計算するステップを含むことができる。

【0013】

追跡するステップは、拡張カルマン・フィルターを適用するステップを含むことができる。

【0014】

追跡するステップは、多重仮説追跡を適用するステップを含むことができる。

【0015】

追跡するステップは、粒子フィルターを適用するステップを含むことができる。

【0016】

セグメント化するステップは、単一の時間フレームに関連する単一の周波数成分を単一のスピーカに割り当てるステップを含むことができる。

【0017】

方法は、音声速度、音声強度及び感情的発声の中から少なくとも１つの被監視音響特徴を監視するステップを含むことができる。

【0018】

方法は、少なくとも１つの被監視音響特徴を拡張カルマン・フィルターに供給するステップを含むことができる。

【0019】

周波数変換されたサンプルは、マイクロホンのアレイのマイクロホン毎に１つのベクトルである複数のベクトルで配置することができ、方法は、複数のベクトルを重み平均することによって中間ベクトルを計算するステップと、定義済み閾値未満であり得る値を有する中間ベクトルの要素を無視することによって音響キュー候補を探索するステップとを含むことができる。

【0020】

方法は、雑音の標準偏差の３倍になるように定義済み閾値を決定するステップを含むことができる。

【0021】

コンピュータ化されたシステムによって実行されると、そのコンピュータ化されたシステムが、所与の時間期間の間にマイクロホンのアレイによって受信された音信号を表す音サンプルを受け取るか、又は生成し、周波数変換されたサンプルを提供するために音サンプルを周波数変換し、スピーカ関連クラスターを提供するために、周波数変換されたサンプルをスピーカにクラスター化し（このクラスター化は、（ｉ）受信した音信号に関連する空間キュー、及び（ｉｉ）スピーカに関連する音響キューに基づくことができる）、スピーカ関連相対伝達関数を提供するために、スピーカの個々のスピーカ毎に相対伝達関数を決定し、ビーム形成された信号を提供するために、スピーカ関連相対伝達関数に対して多重入力多重出力（ＭＩＭＯ）ビーム形成演算を適用し、且つ、音声信号を提供するために、ビーム形成された信号を逆周波数変換することになる命令を記憶する非一時的コンピュータ可読媒体を提供することができる。

【0022】

非一時的コンピュータ可読媒体は、スピーカに関連する音響キューを生成するための命令を記憶することができる。

【0023】

音響キューの生成には、音サンプル中のキーワードを探索すること、及びキーワードから音響キューを引き出すことを含むことができる。

【0024】

音響キューの生成には、音サンプル中のキーワードを探索すること、及びキーワードから音響キューを引き出すことを含むことができる。

【0025】

非一時的コンピュータ可読媒体は、キーワードに関連する空間キューを引き出すための命令を記憶することができる。

【0026】

非一時的コンピュータ可読媒体は、キーワードに関連する空間キュアをクラスター化シードとして使用するための命令を記憶することができる。

【0027】

音響キューは、ピッチ周波数、ピッチ強度、１つ又は複数のピッチ周波数調波、及び１つ又は複数のピッチ周波数調波の強度を含むことができる。

【0028】

非一時的コンピュータ可読媒体は、信頼性属性を個々のピッチに関連付け、また、ピッチと関連付けられ得るスピーカは、ピッチの信頼性が定義済み閾値未満になるとサイレントになり得ることを決定するための命令を記憶することができる。

【0029】

クラスター化には、音響キュー及び空間キューを提供するために、周波数変換されたサンプルを処理し、音響キューを使用してスピーカの状態を常に追跡し、周波数変換された信号の個々の周波数成分の空間キューをグループにセグメント化し、また、周波数変換された信号の個々のグループに、現在活動状態であるスピーカに関連する音響キューを割り当てることを含むことができる。

【0030】

割り当てには、周波数変換された信号のグループ毎に、時間周波数マップの他の線に属し、また、周波数変換された信号のグループに関連付けることができる要素を有する時間周波数マップの等周波数線の要素同士の間の相互相関を計算することを含むことができる。

【0031】

追跡することには、拡張カルマン・フィルターを適用することを含むことができる。

【0032】

追跡することには、多重仮説追跡を適用することを含むことができる。

【0033】

追跡することには、粒子フィルターを適用することを含むことができる。

【0034】

セグメント化することには、単一の時間フレームに関連する単一の周波数成分を単一のスピーカに割り当てることを含むことができる。

【0035】

非一時的コンピュータ可読媒体は、音声速度、音声強度及び感情的発声の中から少なくとも１つの被監視音響特徴を監視するための命令を記憶することができる。

【0036】

非一時的コンピュータ可読媒体は、少なくとも１つの被監視音響特徴を拡張カルマン・フィルターに供給するための命令を記憶することができる。

【0037】

周波数変換されたサンプルは、マイクロホンのアレイのマイクロホン毎に１つのベクトルである複数のベクトルで配置することができ、非一時的コンピュータ可読媒体は、複数のベクトルを重み平均することによって中間ベクトルを計算し、また、定義済み閾値未満であり得る値を有する中間ベクトルの要素を無視することによって音響キュー候補を探索するための命令を記憶することができる。

【0038】

非一時的コンピュータ可読媒体は、雑音の標準偏差の３倍になるように定義済み閾値を決定するための命令を記憶することができる。

【0039】

マイクロホンのアレイと、記憶装置と、プロセッサとを含むことができるコンピュータ化されたシステムを提供することができる。プロセッサは、所与の時間期間の間にマイクロホンのアレイによって受信された音信号を表す音サンプルを受け取るか、又は生成し、周波数変換されたサンプルを提供するために音サンプルを周波数変換し、スピーカ関連クラスターを提供するために、周波数変換されたサンプルをスピーカにクラスター化し（このクラスター化は、（ｉ）受信した音信号に関連する空間キュー、及び（ｉｉ）スピーカに関連する音響キューに基づくことができる）、スピーカ関連相対伝達関数を提供するために、スピーカの個々のスピーカ毎に相対伝達関数を決定し、ビーム形成された信号を提供するために、スピーカ関連相対伝達関数に対して多重入力多重出力（ＭＩＭＯ）ビーム形成演算を適用し、且つ、音声信号を提供するために、ビーム形成された信号を逆周波数変換するように構成することができ、記憶装置は、音サンプル及び音声信号のうちの少なくとも１つを記憶するように構成することができる。

【0040】

コンピュータ化されたシステムはマイクロホンのアレイを含むことはできないが、所与の時間期間の間にマイクロホンのアレイによって受信された音信号を表す信号をマイクロホンのアレイから受信することは可能である。

【0041】

プロセッサは、スピーカに関連する音響キューを生成するように構成することができる。

【0042】

音響キューの生成には、音サンプル中のキーワードを探索すること、及びキーワードから音響キューを引き出すことを含むことができる。

【0043】

プロセッサは、キーワードに関連する空間キューを引き出すように構成することができる。

【0044】

プロセッサは、キーワードに関連する空間キュアをクラスター化シードとして使用するように構成することができる。

【0045】

音響キューは、ピッチ周波数、ピッチ強度、１つ又は複数のピッチ周波数調波、及び１つ又は複数のピッチ周波数調波の強度を含むことができる。

【0046】

プロセッサは、信頼性属性を個々のピッチに関連付け、また、ピッチと関連付けられ得るスピーカは、ピッチの信頼性が定義済み閾値未満になるとサイレントになり得ることを決定するように構成することができる。

【0047】

プロセッサは、音響キュー及び空間キューを提供するために、周波数変換されたサンプルを処理することによってクラスター化し、音響キューを使用してスピーカの状態を常に追跡し、周波数変換された信号の個々の周波数成分の空間キューをグループにセグメント化し、また、周波数変換された信号の個々のグループに、現在活動状態であるスピーカに関連する音響キューを割り当てるように構成することができる。

【0048】

プロセッサは、周波数変換された信号のグループ毎に、時間周波数マップの他の線に属し、また、周波数変換された信号のグループに関連付けることができる要素を有する時間周波数マップの等周波数線の要素同士の間の相互相関を計算することによって割り当てるように構成することができる。

【0049】

プロセッサは、拡張カルマン・フィルターを適用することによって追跡するように構成することができる。

【0050】

プロセッサは、多重仮説追跡を適用することによって追跡するように構成することができる。

【0051】

プロセッサは、粒子フィルターを適用することによって追跡するように構成することができる。

【0052】

プロセッサは、単一の時間フレームに関連する単一の周波数成分を単一のスピーカに割り当てることによってセグメント化するように構成することができる。

【0053】

プロセッサは、音声速度、音声強度及び感情的発声の中から少なくとも１つの被監視音響特徴を監視するように構成することができる。

【0054】

プロセッサは、少なくとも１つの被監視音響特徴を拡張カルマン・フィルターに供給するように構成することができる。

【0055】

周波数変換されたサンプルは、マイクロホンのアレイのマイクロホン毎に１つのベクトルである複数のベクトルで配置することができ、プロセッサは、複数のベクトルを重み平均することによって中間ベクトルを計算し、また、定義済み閾値未満であり得る値を有する中間ベクトルの要素を無視することによって音響キュー候補を探索するように構成することができる。

【0056】

プロセッサは、雑音の標準偏差の３倍になるように定義済み閾値を決定するように構成することができる。

【0057】

本発明を理解し、また、本発明を実際に実施することができる方法をよく調べるために、以下、好ましい実施例について、添付の図面を参照して、単なる非制限の実例によって説明する。

【図面の簡単な説明】

【0058】

【図1】多重通路を示す図である。

【図2】方法の実例を示す図である。

【図3】図２の方法のクラスター化ステップの実例を示す図である。

【図4】時間－周波数マップ上のピッチ検出の実例を示す図である。

【図5】時間－周波数－キューマップの実例を示す図である。

【図6】オフライン訓練における声認識チェーンの実例を示す図である。

【図7】実時間訓練における声認識チェーンの実例を示す図である。

【図8】訓練機構の実例を示す図である。

【図9】方法の実例を示す図である。

【発明を実施するための形態】

【0059】

システムに対する参照は、すべて、必要な変更を加えて、システムによって実行される方法に、及び／又はシステムによって実行されると、そのシステムが方法を実行することになる命令を記憶する非一時的コンピュータ可読媒体に適用されるものとする。

【0060】

方法に対する参照は、すべて、必要な変更を加えて、方法を実行するように構成されるシステムに、及び／又はシステムによって実行されると、そのシステムが方法を実行することになる命令を記憶する非一時的コンピュータ可読媒体に適用されるものとする。

【0061】

非一時的コンピュータ可読媒体に対する参照は、すべて、必要な変更を加えて、システムによって実行される、及び／又は非一時的コンピュータ可読媒体に記憶されている命令を実行するように構成されるシステムによって実行される方法に適用されるものとする。

【0062】

「及び／又は」という用語は、追加的又は代替的である。

【0063】

「システム」という用語は、コンピュータ化されたシステムを意味している。

【0064】

音声強化方法は、信号が雑音及び他のスピーカによって妨害される場合に、所望の発信源（スピーカ）から音声信号を引き出すことに的が絞られている。無響環境では、指向性ビーム形成の形態の空間フィルタリングが有効である。しかしながら反響環境では、個々の発信源からの音声は、いくつかの方向にわたって不鮮明にされ、必ずしも連続的ではなく、通常のビームフォーマーの利点を生かしていない。伝達関数（ＴＦ：ｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎ）に基づくビームフォーマーを使用してこの問題に対処し、或いは相対伝達関数（ＲＴＦ：ｒｅｌａｔｉｖｅｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎ）をＴＦそのものとして使用することは有望な方向である。しかしながら多重スピーカ環境では、スピーカ毎にＲＴＦを予測する能力は、音声信号が同時に捕獲される場合、依然として課題である。音響キュー及び空間キューを追跡して同時スピーカをクラスター化し、それにより反響環境におけるスピーカのＲＴＦの予測を容易にすることを含む解決法が提供される。

【0065】

とりわけ多重スピーカ反響環境において、個々の周波数成分をその元のスピーカに割り当てる、スピーカのクラスター化アルゴリズムが提供される。このクラスター化アルゴリズムは、ＲＴＦエスティメータ（ＲＴＦ予測器）が多重スピーカ反響環境で適切に動作するために必要な条件を提供する。次に、ＲＴＦ行列の予測を使用して、伝達関数に基づく線形拘束最小分散（ＴＦ－ＬＣＭＶ：ｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎｂａｓｅｄｌｉｎｅａｒｃｏｎｓｔｒａｉｎｅｄｍｉｎｉｍｕｍｖａｒｉａｎｃｅ）ビームフォーマーの重みベクトルが計算され（後で出てくる方程式（１０）を参照されたい）、したがってＴＦ－ＬＣＭＶが動作するために必要な条件を満たす。個々の人間のスピーカには異なるピッチが賦与されていることが仮定されており、したがってピッチはスピーカに対する全単射インジケータである。多重ピッチ検出は、とりわけ雑音が多い反響多重スピーカ環境では課題タスクであることが知られている。この課題に対処するために、Ｗ－分離直交性（Ｗ－ＤＯ：Ｗ－ＤｉｓｊｏｉｎｔＯｒｔｈｏｇｏｎａｌｉｔｙ）仮定が採用され、また、一組の空間キュー、例えば信号強度、方位角及び仰角が追加特徴として使用される。一時的に非活動状態のスピーカ及びピッチの変化を克服するために、拡張カルマン・フィルター（ＥＫＦ：ｅｘｔｅｎｄｅｄＫａｌｍａｎｆｉｌｔｅｒ）を使用して音響キュー－ピッチ値－が常に追跡され、また、空間キューを使用して最後のＬ個の周波数成分がセグメント化され、且つ、個々の周波数成分が異なる発信源に割り当てられる。特定のピッチを有する特定のスピーカへの周波数成分のクラスター化を容易にするために、相互相関によってＥＫＦ及びセグメント化の結果が結合される。

【0066】

図１は、音声信号の周波数成分が人間のスピーカ１１からマイクロホン・アレイ１２へ反響環境で移動する経路を説明したものである。環境１４における壁１３及び他の要素は、衝突する信号を反射し、その減衰及び反射角は、壁の材料及び織地で決まる。人間の音声の異なる周波数成分は、異なる経路を辿ることになる。これらの経路は、人間のスピーカ１１とマイクロホン・アレイ１２の間の最短経路上に存在している直接経路１５であっても、或いは間接経路１６、１７であってもよい。周波数成分は１つ又は複数の経路に沿って移動することになることに留意されたい。

【0067】

図２はアルゴリズムを説明したものである。信号は、Ｍ≧２個のマイクロホンを含むマイクロホン・アレイ２０１によって獲得され、Ｍ＝７個のマイクロホンは一実例である。マイクロホンは、例えば直線、円又は球の上を等間隔で間隔を隔てたような、さらには任意の形を形成する非一様に間隔を隔てたような一連の集まりで展開させることができる。個々のマイクロホンからの信号は、サンプリングされ、デジタル化され、また、それぞれＴ個の連続するサンプル２０２を含むＭ個のフレームに記憶される。フレームＴのサイズは、短時間フーリエ変換（ＳＴＦＴ：ｓｈｏｒｔ－ｔｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）が正確で、しかしながら十分に短く、したがって信号が等価時間継続期間に沿って不動であるよう、十分に大きくなるように選択することができる。Ｔのための典型的な値は、１６ｋＨｚのサンプリング・レートに対して４，０９６サンプルであり、即ちフレームは１／４秒と等価である。連続するフレームは、しばしば、信号の特徴が時間を経過した後の追跡を改善するために互いに重畳する。典型的な重畳は７５％であり、即ち１，０２４サンプル毎に新しいフレームが開始される。Ｔは、例えば０．１秒と２秒の間の範囲であってもよく、それにより１６ｋＨｚサンプリング・レートに対して１０２４～３２７６８個のサンプルを提供する。サンプルは、時間期間Ｔの間にマイクロホンのアレイによって受信された音信号を表す音サンプルと呼ぶことも可能である。

【0068】

個々のフレームは、２０３で、フーリエ変換、又は短時間フーリエ変換（ＳＴＦＴ）、定－Ｑ変換（ＣＱＴ：ｃｏｎｓｔａｎｔ－Ｑｔｒａｎｓｆｏｒｍ）、対数フーリエ変換（ＬＦＴ：ｌｏｇａｒｉｔｈｍｉｃＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）、フィルター・バンク、等々などのフーリエ変換の変形を適用することによって周波数領域に変換される。窓処理及びゼロ－パッディングなどのいくつかの技法を適用してフレーミング効果を制御することも可能である。２０３によって、長さＫのＭ個の複素数値化ベクトルが得られる。例えばアレイが７個のマイクロホンを含んでいる場合、７個のベクトルが準備され、これらはフレーム時間指数ｌによって登録される。Ｋは周波数ビンの数であり、周波数変換によって決定される。例えば通常のＳＴＦＴを使用する場合、Ｋ＝Ｔであり、これはバッファの長さである。ステップ２０３の出力は、周波数変換された信号と呼ぶことも可能である。

【0069】

音声信号は、２０４で、異なるスピーカにクラスター化される。クラスターは、スピーカ関連クラスターと呼ぶことができる。方向のみに基づいてスピーカをクラスター化する従来技術ワークとは異なり、２０４は、反響室における複数のスピーカを取り扱っており、したがって直接経路及び間接経路により、異なる方向からの信号を同じスピーカに割り当てることができる。提案されている解決法は、一組の空間キュー、例えばマイクロホンのうちの１つにおける信号の方向（方位及び高度）及び強度に加えて、一組の音響キュー、例えばピッチ周波数及び強度、並びにその調波周波数及び強度の使用を示唆している。ピッチ、及び空間キューのうちの１つ又は複数は、カルマン・フィルター及びその変形、多重仮説追跡（ＭＨＴ：ｍｕｌｔｉｐｌｅｈｙｐｏｔｈｅｓｉｓｔｒａｃｋｉｎｇ）又は粒子フィルターなどの追跡アルゴリズムのための状態ベクトルとして働き、これらは、この状態ベクトルを追跡するために使用され、また、個々の追跡を異なるスピーカに割り得てるために使用される。

【0070】

すべてのこれらの追跡アルゴリズムは、時間における状態ベクトルの力学を説明しているモデルを使用しており、したがって状態ベクトルの測値が雑音によって紛失し、或いは汚染されると、追跡アルゴリズムは、動的モデルのこの使用を補償し、また、それと同時にモデル・パラメータを更新する。このステージの出力は、所与の時間ｌにおける個々の周波数成分を個々のスピーカに割り当てるベクトルである。２０４については、図３でさらに詳しく説明される。

【0071】

２０５で、周波数領域におけるデータにＲＴＦエスティメータが適用される。このステージにより一組のＲＴＦが得られ、ＲＴＦの各々は関連するスピーカに登録される。登録プロセスは、クラスター化スピーカ２０４からのクラスター化アレイを使用して実施される。この一組のＲＴＦは、スピーカ関連相対伝達関数と呼ぶことも可能である。

【0072】

ＭＩＭＯビームフォーマー２０６は、必要な音声信号のエネルギーに関して、空間フィルタリングによって雑音及び妨害信号のエネルギーを小さくする。ステップ２０６の出力は、ビーム形成された信号と呼ぶことも可能である。ビーム形成された信号は、次に、サンプルのストリームの形態の連続音声信号を作り出すために逆周波数変換２０７へ送られ、このサンプルのストリームは、今度は、音声認識システム、通信システム及び記録デバイスなどの他の要素に転送される２０８。

【0073】

本発明の好ましい実施例では、キーワード・スポッティング２０９を使用して、クラスター化ブロック２０４の性能を改善することができる。２０２からのフレームの中から、定義済みキーワード（例えば「今日はアレクサ」又は「オーケーグーグル」）が探索される。キーワードがフレームのストリームの中にスポットされると、ピッチ周波数及び強度、並びにその調波周波数及び強度などのスピーカの音響キューが引き出される。また、個々の周波数成分がマイクロホン・アレイ２０１に到達した経路の特徴が同じく引き出される。これらの特徴は、クラスター化スピーカ２０４によって、所望のスピーカのクラスターのためのシード（seed）として使用される。シードとは、クラスターの初期パラメータ、例えばクラスターの重心、半径、及びＫ－平均、ＰＳＯ及び２ＫＰＭなどの重心に基づくクラスター化アルゴリズムのための統計量に関する初期推測である。別の実例は、部分空間に基づくクラスター化のための部分空間の基本である。

【0074】

図３は、スピーカのクラスター化アルゴリズムを説明したものである。個々のスピーカには異なる一組の音響キュー、例えばピッチ周波数及び強度、並びにその調波周波数及び強度が賦与されていることが仮定されており、したがってその一組の音響キューは、スピーカに対する全単射インジケータ（bijective indicator）である。音響キュー検出は、とりわけ雑音が多い反響多重スピーカ環境では骨の折れる課題タスクであることが知られている。この課題に対処するために、例えば信号強度、方位角及び仰角の形態の空間キューが使用される。一時的に非活動状態のスピーカ及び音響キューの変化を克服するために、空間フィルター及び拡張カルマン・フィルター（ＥＫＦ）などのフィルターを使用して音響キューが常に追跡され、また、空間キューを使用して、異なる発信源の間で周波数成分がセグメント化される。特定のピッチを有する特定のスピーカへの周波数成分のクラスター化を容易にするために、相互相関によってＥＫＦ及びセグメント化の結果が結合される。

【0075】

３１で、好ましい一実施例の実例のように、ピッチ周波数の形態の潜在的音響キューが検出される。最初に、２０３で計算される、個々のマイクロホンからのバッファの周波数変換を使用して時間－周波数マップが準備される。次に、いくつかのマイクロホンにおけるアーチファクトを少なくするように決定することができる何らかの重み係数を使用して、Ｍ個の長さＫの複素数値化ベクトルの各々の絶対値が重み平均される。それにより長さＫの単一の実ベクトルが得られる。このベクトルでは、所与の閾値μより大きい値が引き出され、一方、残りの要素は廃棄される。閾値μは、しばしば、雑音の標準偏差の３倍になり、システムの電気パラメータ、とりわけサンプリングされた信号の有効ビット数で決まる一定の値未満にはならないように適応的に選択される。周波数指数が［ｋ＿最小、ｋ＿最大］の範囲内である値は、ピッチ周波数のための候補として定義される。変数ｋ＿最小及びｋ＿最大は、典型的な成年の男性は８５Ｈｚから１８００Ｈｚまでの基本周波数を有し、また、典型的な成年の女性の基本周波数は１６５Ｈｚから２５５０Ｈｚまでであるため、典型的にはそれぞれ８５Ｈｚ及び２５５０Ｈｚである。次に、そのより高い調波を探索することによって個々のピッチ候補が検証される。第２調波及び第３調波の存在は、信頼性がＲ（例えばＲ＝１０）である道理にかなったピッチとして検出されることになる候補ピッチのための前提条件であり得る。より高い調波（例えば第４及び第５）が存在している場合、ピッチの信頼性が高くなり、例えば調波毎に２倍になり得る。図４に実例を見出すことができる。本発明の好ましい実施例では、所望のスピーカのピッチ３２は、所望のスピーカによって発音されたキーワードを使用して２１０によって供給される。供給されるピッチ３２は、最も高い可能信頼性、例えばＲ＝１０００を有するリストに加えられる。

【0076】

３３で、拡張カルマン・フィルター（ＥＫＦ）が３１からのピッチに適用される。拡張カルマン・フィルターに対するウィキペディア・エントリーによって注釈されているように（ｗｗｗ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ｅｘｔｅｎｄｅｄ＿Ｋａｌｍａｎ＿ｆｉｌｔｅｒ）、カルマン・フィルターは、状態移行方程式及び観察モデルを有している。離散計算のための状態移行方程式は、
ｘ_ｋ＝ｆ（ｘ_ｋ－１、ｕ_ｋ）＋ｗ_ｋ（１）

【0077】

また、離散計算のための観察モデルは、
ｚ_ｋ＝ｈ（ｘ_ｋ）＋ｖ_ｋ（２）
であり、上式でｘ_ｋは、（部分的に）システムの状態を記述しているパラメータを含む状態ベクトルであり、ｕ_ｋは、システムの状態に関する情報を提供する外部入力のベクトルであり、ｗ_ｋ及びｖ_ｋはプロセス及び観察雑音である。拡張カルマン・フィルターの時間アップデータは、予測方程式を使用して次の状態を予測することができ、また、検出されたピッチは、以下のタイプの方程式、
ｙ_ｋ＝ｚ_ｋ－ｈ（ｘ_{ｋ｜ｋ＋１}）（３）
を使用して、実際の測値を予測された測値と比較することによって変数を更新することができ、上式でｚ_ｋは検出されたピッチであり、ｙ_ｋは、測値と予測されたピッチの間の誤差である。

【0078】

３３で、個々の軌道は、感情のために高くなったり、或いは低くなったりすることがあるピッチの一時的挙動を反映するモデルｆ（ｘ_ｋ、ｕ_ｋ）が後続する、検出されたピッチから開始することができる。モデルの入力は、過去の状態ベクトルｘ_ｋ（１つの状態ベクトル又はそれ以上の状態ベクトルのいずれか）、及び音声の速度、音声の強度及び感情的発声などのピッチの力学に影響を及ぼす任意の外部入力ｕ_ｋであってもよい。状態ベクトルｘの要素は、ピッチを定量的に記述することができる。例えばピッチの状態ベクトルは、とりわけピッチ周波数、一次調波の強度、及びより高い調波の周波数及び強度を含むことができる。ベクトル関数ｆ（ｘ_ｋ、ｕ_ｋ）を使用して、現在の時間より前の何らかの所定の時間ｋ＋１における状態ベクトルｘを予測することができる。ＥＫＦにおける動的モデルの例示的実現は、参照により本明細書に組み込まれている書物「ＬｅｓｓｏｎｓｉｎＤｉｇｉｔａｌＥｓｔｉｍａｔｉｏｎＴｈｅｏｒｙ」ｂｙＪｅｒｒｙＭ．Ｍｅｎｄｅｌに記載されているように時間更新方程式（ａ．ｋ．ａ．予測方程式）を含むことができる。

【0079】

例えば３項状態ベクトル

【数1】

を考察する。上式でｆ_ｋは時間ｋにおけるピッチ（第１調波）の周波数であり、ａ_ｋは時間ｋにおけるピッチ（第１調波）の強度であり、また、ｂ_ｋは時間ｋにおける第２調波の強度である。

【0080】

ピッチのための例示的状態ベクトル・モデルは、

【数2】

であってもよい。

【0081】

これは、すべての時間において定ピッチを仮定するモデルを記述している。本発明の好ましい実施例では、当技術分野で知られている音声認識アルゴリズムを使用している音声の速度、音声の強度及び感情的発声が連続的に監視され、ＥＫＦの時間更新ステージを改善する外部入力ｕ_ｋを提供する。感情的発声方法は当技術分野で知られている。例えば「ＮｅｗＦｅａｔｕｒｅｓｆｏｒＥｍｏｔｉｏｎａｌＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ」ｂｙＰａｌｏｅｔ．ａｌ．を参照されたい。

【0082】

個々の追跡には、時間更新のみを使用して追跡を展開する時間に反比例する信頼性フィールドが賦与されている。追跡の信頼性が何らかの信頼性閾値、例えば非検出ピッチの１０秒を表すρ未満になると、追跡は死んだものとして定義され、それは、それぞれのスピーカが活動状態ではないことを意味する。一方、一切の既存の追跡に割り当てられ得ない新しい測値（ピッチ検出）が出現すると、新しい追跡が開始される。

【0083】

３４で、Ｍ個の周波数変換されたフレームから空間キューが引き出される。３１の場合と同様、時間における相関を使用して解析するために、直近のＬ個のベクトルが保存される。それによりＭ個のマイクロホンの各々に対して、サイズＬｘＫｘＰ（Ｐ＝Ｍ－１である）の３次元アレイである時間－周波数－キュー（ＴＦＣ：ｔｉｍｅ－ｆｒｅｑｕｅｎｃｙ－Ｃｕｅ）マップが得られる。ＴＦＣについては図５で説明される。

【0084】

３５で、ＴＦＣにおける個々の周波数成分の空間キューがセグメント化される。着想は、周波数成分は、異なるスピーカから、Ｌ個のフレームに沿って生じ得る、ということであり、これは、空間キューを比較することによって観察することができる。しかしながら単一のフレーム時間ｌにおいては、Ｗ－ＤＯ仮定のために周波数成分は一人のスピーカから生じることが仮定されている。セグメント化は、Ｋ近傍法（ＫＮＮ：Ｋｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｓ）などのクラスター化のために使用される文献における任意の知られている方法を使用して実施することができる。クラスター化は、Ａの中の個々のセルに、そのセル（ｋ、ｌ）が属しているクラスターを示す指数

【数3】

を割り当てる。

【0085】

３６で、ＥＫＦによって追跡されるピッチのリストに挙げられている特定のピッチに個々の周波数成分が割り当てられ、また、個々の周波数成分がその信頼性によって活動状態であるよう、信号の周波数成分が分類される。これは、ピッチのうちの１つに割り当てられる時間－周波数マップ（図４を参照されたい）のｋ番目の線と、時間－周波数マップ中の他の線における特定のクラスター指数ｃ_ｏ（ｊ、ｌ）を有するすべての値の間のサンプル相互相関を計算することによって実施される。これは、すべてのクラスター指数に対して実施される。サンプル相互相関は、

【数4】

によって与えられる。

【0086】

上式でＡは時間－周波数マップであり、ｋはピッチのうちの１つの属する線の指数であり、ｊはＡの任意の他の線であり、また、ＬはＡの列の数である。個々のピッチと、他の線におけるクラスターの各々との間のサンプル相互相関の計算の後、最も高い相互相関を有する線ｊ_１におけるクラスターｃ_１がそれぞれのピッチと共に分類され、次に、２番目に高い相互相関を有する線ｊ_２におけるクラスターｃ_２がそれぞれのピッチと共に分類され、以下同様である。このプロセスは、サンプル相互相関が、例えば０．５ｘ（単一の周波数における信号の平均エネルギー）として適応的に設定することができる何らかの閾値ｋ未満になるまで繰り返される。３５により、それぞれのピッチ周波数が賦与された周波数の一組のグループが得られる。

【0087】

図４は、時間－周波数マップ上のピッチ検出の実例を説明したものである。４１は時間軸であり、パラメータｌによって表されており、また、４２は周波数軸であり、パラメータｋによって説明されている。この２次元アレイにおける個々の列は、Ｍ個の周波数変換されたバッファの絶対値を時間ｌで平均化した後に、３１で引き出された長さＫの実数値ベクトルである。時間における相関解析のために、Ｌ個の直近のベクトルがサイズＫｘＬの２次元アレイに保存される。４３では２つのピッチが異なる方向の対角線で表されている。ｋ＝４、６、８にその調波を有するピッチｋ＝２は、第４の調波が存在しているため、信頼性Ｒ＝２０を有しており、また、ｋ＝６、９にその調波を有するｋ＝３のピッチは、信頼性Ｒ＝１０を有している。４４ではｋ＝３ピッチは非活動状態であり、ｋ＝２のみが活動状態である。しかしながらｋ＝２ピッチの信頼性は、第４の調波が検出されないため（閾値μ未満）、Ｒ＝１０まで低下している。４５ではｋ＝３のピッチは再び活動状態であり、また、ｋ＝２は非活動状態である。４６ではｋ＝４の新しいピッチ候補が出現しているが、その第２の調波しか検出されていない。したがってその候補はピッチとして検出されていない。４７ではｋ＝３ピッチは非活動状態であり、ピッチは検出されない。

【0088】

図５はＴＦＣ－マップを説明したものであり、その軸はフレーム指数（時間）５１、周波数成分５２、及び例えば個々の周波数成分が到達する方向（方位及び高度）及び成分の強度を表現している複素数値であってもよい空間キュー５３である。指数ｌのフレームが処理され、且つ、周波数領域へ移されると、周波数要素

【数5】

毎にＭ個の複素数のベクトルが受け取られる。個々のベクトルから最大Ｍ－１個の空間キューが引き出される。個々の周波数成分の方向及び強度の実例では、これは、当技術分野ではＭＵＳＩＣ又はＥＳＰＲＩＴなどとして知られている、アレイ処理のための任意の方向発見アルゴリズムを使用して実施することができる。このアルゴリズムにより、一組の最大Ｍ－１個の方向が３次元空間に得られ、個々の方向は、２つの角度及び到達する信号の予測された強度によって表現される。

【数6】

ｐ＝１、．．、Ｐ≦Ｍ－１。キューは、セルにおける

【数7】

がｌ_ｏ、ｋ_ｏ、ｐ_ｏによって指数が付けられるようにＴＦＣ－マップの中に配置される。

【0089】

付録
音声強化モジュールの性能は、すべての妨害信号をフィルター除去して、望ましい音声信号のみを残す能力で決まる。妨害信号は、例えば他のスピーカ、空気調和からの雑音、音楽、モータ雑音（例えば自動車又は飛行機の中）、及び「カクテル・パーティ雑音」としても知られている大群衆雑音であり得る。音声強化モジュールの性能は、通常、それぞれ雑音及び他の妨害信号の総電力に対する望ましい音声信号の電力の比率（ｄＢスケールであることがしばしばである）を反映している、音声対雑音比（ＳＮＲ）又は音声対妨害比（ＳＩＲ）を改善するそれらの能力によって判断される。

【0090】

収集モジュールが単一のマイクロホンを含んでいる場合、方法は単一マイクロホン音声強化と呼ばれ、また、しばしば、単一チャネル・スペクトル控除、最小分散歪みなし応答（ＭＶＤＲ：ｍｉｎｉｍｕｍｖａｒｉａｎｃｅｄｉｓｔｏｒｔｉｏｎｌｅｓｓｒｅｓｐｏｎｓｅ）及びエコー相殺（エコーキャンセレーション（echo-cancelation））を使用したスペクトル予測などの時間－周波数領域における信号自体の統計的特徴に基づいている。複数のマイクロホンが使用される場合、収集モジュールは、しばしばマイクロホン・アレイと呼ばれ、また、方法は多重マイクロホン音声強化（multi-microphone speech enhancement）と呼ばれる。これらの方法の多くは、マイクロホンによって同時に捕獲される信号同士の間の相違を利用している。確立した方法は、個々の信号に重み付け係数を掛け合わせた後のマイクロホンからの信号を合計するビーム形成である。重み付け係数の目的は、重要な信号を条件付けるために妨害信号を平均化することである。

【0091】

ビーム形成は、言い換えると、空間における所与の場所から放出される信号（所望のスピーカからの所望の信号）の電力をアルゴリズムによって大きくし、また、空間における他の場所から放出される信号（他の発信源からの妨害信号）の電力を小さくし、それによりビームフォーマー出力におけるＳＩＲを大きくする空間フィルターを作り出す方法である。

【0092】

ＤＳＢの重み付け係数の使用を必要とする遅延及び合計ビームフォーマー（ＤＳＢ：ｄｅｌａｙ－ａｎｄ－ｓｕｍｂｅａｍｆｏｒｍｅｒ）は、所望の信号がその発信源からアレイ中のマイクロホンの各々まで移動する異なる経路によって必然的な条件として含まれるカウンター遅延から構成される。ＤＳＢは、無響環境におけるようなそれぞれ単一の方向からくる信号に限定される。したがって同じ発信源からの信号が異なる経路に沿ってマイクロホンまで移動し、複数の方向からマイクロホンに到達する反響環境では、ＤＳＢ性能は典型的には不十分である。

【0093】

反響環境におけるＤＳＢの欠点を緩和するために、ビームフォーマーは、個々の周波数成分が所与の発信源から特定のマイクロホンに到達する方向（方位及び高度）を表すもっと複雑な音響伝達関数（ＡＴＦ：ａｃｏｕｓｔｉｃｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎ）を使用することができる。ＤＳＢ及び他のＤＯＡに基づく方法によって仮定される単一の到達方向（ＤＯＡ：ｄｉｒｅｃｔｉｏｎｏｆａｒｒｉｖａｌ）は、同じ音声信号の成分が異なる方向から到達する反響環境では真実を保持していないことがしばしばである。これは、壁、家具及び人などの反響環境における物理的要素の異なる周波数応答によるものである。周波数領域におけるＡＴＦは、ナイキスト帯域幅における個々の周波数に複素数を割り当てるベクトルである。絶対値は、この周波数に関連する経路の利得を表し、また、位相は、経路に沿って周波数成分に加えられる位相を示す。

【0094】

空間における所与の点と所与のマイクロホンの間のＡＴＦの予測は、所与の点に配置された、既知の信号を放出する拡声器を使用することによって実施することができる。スピーカの入力及びマイクロホンの出力から信号を同時に取得することにより、ＡＴＦを容易に予測することができる。拡声器は、システムの動作中に人間のスピーカが存在しているであろう１つ又は複数の位置に置くことができる。この方法は、空間における点毎に、より実際的には格子上の点毎にＡＴＦのマップを作り出す。格子に含まれていない点のＡＴＦは、補間を使用して近似される。しかしながらこの方法は大きな欠点を抱えている。第１に、設置毎にシステムを較正する必要があり、それがこのシステムを実際的ではないものにしている。第２は、人間のスピーカと電子スピーカの間の音響差であり、この差が測定されたＡＴＦを実際のＡＴＦから狂わせている。第３は、とりわけスピーカの方向を同じく考慮した場合の、ＡＴＦの莫大な数の測定の複雑さであり、第４は、環境の変化による可能誤差である。

【0095】

ＡＴＦに対するより実際的な代替は、実際的なアプリケーションにおけるＡＴＦ予測方法の欠点に対する改善としての相対伝達関数（ＲＴＦ）である。ＲＴＦは、アレイ中のマイクロホンのうちの２つに対する所与の発信源同士の間のＡＴＦ同士の間の差であり、周波数領域では、２つのＡＴＦのスペクトル表現同士の間の比率の形態を取る。ＡＴＦと同様、周波数領域におけるＲＴＦは、個々の周波数に複素数を割り当てる。絶対値は２つのマイクロホンの間の利得差であり、マイクロホンが互いに接近している場合は一に近いことがしばしばであり、また、位相は、いくつかの条件の下では発信源の入射角を反映する。

【0096】

伝達関数に基づく線形拘束最小分散（ＴＦ－ＬＣＭＶ）ビームフォーマーは、出力信号中の音声成分はマイクロホン信号のうちの１つにおける音声成分に等しい、という拘束を仮定して出力エネルギーを最小化することにより、多重マイクロホン・アプリケーションにおける音声歪みを制限しつつ雑音を小さくすることができる。Ｎ＝Ｎ_ｄ＋Ｎ_ｉ個の発信源が与えられ、Ｎ_ｉ個の妨害発信源及び定常雑音によって汚染されたＮ_ｄ個の望ましい音声発信源を引き出す問題を考慮する。含まれている信号の各々は、Ｍ個のマイクロホンを備えた任意のアレイによって拾われる前に音響媒体を通って伝搬する。個々のマイクロホンの信号は長さＴのフレームにセグメント化され、また、個々のフレームにＦＦＴが適用される。周波数領域では、ｍ番目のマイクロホン及びｎ番目の発信源のｌ番目のフレームのｋ番目の周波数成分それぞれ

【数8】

及び

【数9】

で表すものとする。同様に、ｎ番目の発信源とｍ番目のマイクロホンの間のＡＴＦはｇ_ｍ、ｎ（ｌ、ｋ）であり、また、ｍ番目のマイクロホンにおける雑音はｖ_ｍ（ｌ、ｋ）である。行列形態の受信信号は、

【数10】

によって与えられる。

【0097】

上式で

【数11】

はセンサ・ベクトルであり、

【数12】

は発信源ベクトルであり、

【数13】

は、

【数14】

になるようにＡＴＦ行列であり、また、

【数15】

は、一切の発信源と相関されてない付加的定常雑音である。等価的に、（７）はＲＴＦを使用して公式化することができる。普遍性を失うことなく、ｎ番目の音声発信源のＲＴＦ

【数16】

は、ｍ番目のマイクロホンにおけるｎ番目の音声成分と、第１のマイクロホンにおけるそのそれぞれの成分との間の比率、即ちｈ_ｍ、ｎ（ｌ、ｋ）＝ｇ_ｍ、ｎ（ｌ、ｋ）／ｇ_１、ｎ（ｌ、ｋ）として定義することができる。（７）における信号は、ベクトル表記

【数17】

で

【数18】

であるよう、ＲＴＦ行列

【数19】

を使用して公式化することができる。

【0098】

上式で

【数20】

は変更された発信源信号である。

【0099】

アレイ測値ｚ（ｌ、ｋ）が与えられると、Ｎ_ｄ個の所望の発信源の混合を予測する必要がある。所望の信号の引出しは、ビームフォーマー

【数21】

をマイクロホン信号

【数22】

に適用することによって達成することができる。

【数23】

を選択してＬＣＭＶ基準
Ｗ（ｌ、ｋ）＝ａｒｇｍｉｎ｛ｗ^Ｈ（ｌ、ｋ）Φ_ｖｖ（ｌ、ｋ）ｗ（ｌ、ｋ）｝ｓ．ｔＨ^Ｈ（ｌ、ｋ）ｗ（ｌ、ｋ）＝ｅ（ｌ、ｋ）（９）
を満たすことができると仮定し、上式で

【数24】

はｖ（ｌ、ｋ）のパワー・スペクトル密度（ＰＳＤ：ｐｏｗｅｒｓｐｅｃｔｒａｌｄｅｎｓｉｔｙ）であり、また、

【数25】

は拘束ベクトルである。

【0100】

（９）に対する可能解は

【数26】

である。

【0101】

（７）及び（８）並びに拘束セットに基づいて、ビームフォーマー出力における所望の信号の成分は、

【数27】

によって与えられ、即ちビームフォーマーの出力は、第１の（基準）マイクロホンによって測定される所望の信号の成分の混合である。

【0102】

ｌ番目の一組のＲＴＦから、また、周波数成分ｋ毎に、例えば基準マイクロホンとして定義されているマイクロホンのうちの１つから得られた強度ａ_ｐ（ｌ、ｋ）と相俟った、位相差に基づくアルゴリズムを使用して、入射角がθ_ｐ（ｌ、ｋ）、ｐ＝１、．．、Ｐ≦Ｍ－１である一組の最大Ｍ－１個の発信源、及び仰角φ_ｐ（ｌ、ｋ）を引き出すことができる。これらの３項

【数28】

は、しばしば空間キューと呼ばれている。

【0103】

ＴＦ－ＬＣＭＶは、Ｍ個のセンサからなるアレイに、反響環境における異なる場所から衝突するＭ－１個の音声発信源を引き出すための適用可能な方法である。しかしながらＴＦ－ＬＣＭＶが動作するために必要な条件は、その列が環境中のすべての活動状態の発信源のＲＴＦベクトルであるＲＴＦ行列Ｈ（ｌ、ｋ）が分かり、且つ、ＴＦ－ＬＣＭＶに利用することができることである。そのためには個々の周波数成分をその発信源スピーカに関連付ける必要がある。

【0104】

いくつかの方法を使用して、補足情報を必要とすることなく信号に発信源を割り当てることができる。方法の主要なファミリーは、未知の信号又は発信源をそれらの観察された混合から回復するブラインド・発信源分離（ＢＳＳ：ｂｌｉｎｄｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎ）と呼ばれている。周波数領域におけるＢＳＳのキーとなる弱さは、個々の周波数において、混合行列の列ベクトル（ＢＳＳによって予測される）が無作為に並べ替えられ、また、この無作為の並べ替えに対する知識なしに、周波数全体にわたって結果を結合し、開示されているように困難になることである。

【0105】

ピッチ情報によってＢＳＳを補助することができる。しかしながらスピーカの性別にはアプリオリ（ａ－ｐｒｉｏｒｙ）が要求される。

【0106】

ＢＳＳは、混合行列の特定の列をベクトル中の最大要素に対応する発信源に割り当てる最大－大きさ方法を使用して予測された混合行列の曖昧さを解明している間、周波数領域で使用することができる。しかしながらこの方法は、個々の周波数における最強の成分は、実際、最強の発信源に属することが仮定されているため、発信源のスペクトル分布に大きく依存している。しかしながら異なるスピーカは、異なる周波数で強度ピークを導入することになるため、この条件に遭遇することはまれである。別法としては、特定の時間における活動状態の発信源に関する情報を使用して混合行列における曖昧さが解明されるよう、声アクティビティ検出（ＶＡＤ：ｖｏｉｃｅａｃｔｉｖｉｔｙｄｅｔｅｃｔｉｏｎ）として同じく知られている発信源アクティビティ検出を使用することも可能である。ＶＡＤの欠点は、とりわけ多重スピーカ環境では、声一時停止を頑強に検出することができないことである。また、この方法が有効であるのは、比較的長い訓練期間を必要とし、また、この期間の間、動きに敏感である会話に加わるのが一度に一人のスピーカだけである場合である。

【0107】

ＴＦ－ＬＣＭＶビームフォーマーは、双聴覚キュー・ジェネレータと相俟って、双聴覚音声強化システムのためのその拡張バージョンとしても使用することができる。音響キューを使用して、入力信号中の雑音成分から音声成分が分離される。この技法は、「カクテル・パーティ」環境における全く異なる音声発信源からの信号をクラスター化するために全く異なる観点のキューの使用を示唆する聴覚シーン解析理論^１に基づいている。音声分離のために使用することができる原始的分類キューの実例は、周波数帯域全体にわたる共通のオンセット／オフセット、ピッチ（基本周波数）、空間における同じ場所、一時的スペクトル変調、ピッチ及びエネルギー連続性並びに平滑性を含む。しかしながらこの方法の基礎をなしている仮定は、望ましい音声信号のすべての成分がほぼ同じ方向を有していることである。即ち頭影効果の効果を維持するほぼ無響状態であり、これは、頭に関連する伝達関数を使用することによって補償されるべきことが示唆される。これは、反響環境では起こりそうにない。

【0108】

複数のスピーカが同時に活動状態にあっても、スピーカのスペクトル内容は、ほとんどの時間－周波数点において重畳しないことに留意されたい。これは、Ｗ－分離直交性、即ち短くしてＷ－ＤＯと呼ばれている。これは、時間－周波数領域における音声信号の疎であることによって正当化され得る。この疎であることによれば、特定の時間－周波数点における二人のスピーカの同時アクティビティの確率は極めて低い。言い換えると、複数の同時スピーカの場合、個々の時間－周波数点は、スピーカのうちの一人のスペクトル内容にほとんど対応するようである。

【0109】

Ｗ－ＤＯを使用して、ある程度までＷ－ＤＯである特定の等級の信号を定義することによってＢＳＳを容易にすることができる。これは、必要な第一次の統計量のみを使用することができ、計算的に経済的である。さらに、発信源がＷ－ＤＯであり、同じ空間位置を占有しないことを条件として、たったの２つのマイクロホンしか使わずに任意の数の信号発信源を脱混合することができる。しかしながらこの方法は、すべての周波数にわたって、基礎をなしている全く同じ混合行列を仮定している。この仮定は、異なる周波数にわたって予測された混合係数のヒストグラムを使用するための本質である。しかしながらこの仮定は、反響環境では真実を保持せず、無響環境でのみ真実を保持することがしばしばである。多重経路の場合へのこの方法の拡張は、多重経路からの無視し得るエネルギー、又は十分に滑らかな畳込み混合フィルターのいずれかに限定され、したがってヒストグラムが不鮮明になるが、依然として単一のピークを維持している。この仮定も、滑らかなヒストグラムを作り出すには、異なる経路間の差が大きすぎることがしばしばである反響環境では同じく真実を保持していない。

【0110】

示唆されている解決法は、反響環境で性能を発揮し、不必要な仮定及び拘束に頼る必要はないことが分かっている。この解決法は、アプリオリ情報がなくても、大規模訓練プロセスがなくても、個々の周波数における所与の発信源の減衰及び遅延の予測を、減衰－遅延空間における単一の点に拘束しなくても、単一の発信源の減衰－遅延値の予測値を単一のクラスターの作出しに拘束しなくても、また、混合された音の数を２つに制限しなくても動作することができる。

【0111】

音声認識エンジンへの発信源分離
ボイス・ユーザ・インタフェース（ＶＵＩ：Ｖｏｉｃｅｕｓｅｒｉｎｔｅｒｆａｃｅ）は、人間のスピーカと機械の間のインタフェースである。ＶＵＩは、１つ又は複数のマイクロホンを使用して音声信号を受信し、且つ、しばしば音声信号をテキストに転記することによって音声信号をデジタル・シグネチャーに変換し、それを使用してスピーカの意図を推論する。機械は、次に、その機械が設計されているアプリケーションに基づいてスピーカの意図に応答することができる。

【0112】

ＶＵＩのキー構成要素は、デジタル化された音声信号をテキストに変換する自動音声認識エンジン（ＡＳＲ：ａｕｔｏｍａｔｉｃｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｅｎｇｉｎｅ）である。ＡＳＲの性能は、テキストが如何に正確に音響音声信号を記述するかは、ＡＳＲの要求事項への入力信号の一致に大きく依存していることである。したがってＶＵＩの他の構成要素は、獲得された音声信号をＡＳＲに供給する前に、その音声信号を強化するように設計されている。このような構成要素は、いくつかを挙げると、雑音抑制、エコー相殺及び発信源分離であってもよい。

【0113】

音声強化における極めて重要な構成要素の１つは、いくつかの発信源から到達する音声信号を分離することが意図された発信源分離（ＳＳ：ｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎ）である。２つ以上のマイクロホンのアレイを仮定すると、マイクロホンの各々によって獲得される信号は、環境中のすべての音声信号＋雑音及び音楽などの他の妨害の混合である。ＳＳアルゴリズムは、すべてのマイクロホンからの混合信号を取り上げ、それらをそれらの成分に分解する。即ち発信源分離の出力は一組の信号であり、特定のスピーカ、音楽さらには雑音からの音声信号であれ、それぞれ特定の発信源の信号を表す。

【0114】

発信源分離を改善する必要がますます高くなっている。

【0115】

図６は、オフライン訓練における声認識チェーンの実例を図解したものである。チェーンは、しばしば、一組のデジタル化された音響信号を提供するマイクロホンのアレイ５１１を含む。デジタル化される音響信号の数は、アレイ５１１を構成しているマイクロホンの数に等しい。個々のデジタル化された音響信号は、人間のスピーカであれ、ＴＶ、音楽及び雑音などの合成スピーカであれ、マイクロホンのアレイ５１１の近傍のすべての音響発信源の混合を含む。デジタル化された音響信号は予備処理ステージ５１２に引き渡される。予備処理ステージ５１２の目的は、エコー、反響及び雑音などの妨害を除去することによって、デジタル化された音響信号の品質を改善することである。予備処理ステージ５１２は、通常、デジタル化された音響信号同士の間の統計的関連を採用している多重チャネルアルゴリズムを使用して実施される。予備処理ステージ５１２の出力は一組の処理済み信号であり、通常、このステージへの入力でデジタライズされた音響信号の数と同じ数の信号を有している。この一組の処理済み信号は、マイクロホンのアレイの近傍の個々の発信源から音響信号を引き出すことを目的としている発信源分離（ＳＳ）ステージ５１３へ送られる。言い換えると、ＳＳステージ５１３は、個々の信号が異なる発信源から受信した音響信号の異なる混合である一組の信号を取り上げ、個々の信号が単一の特定の発信源からの単一の音響信号を主として含むように一組の信号を作り出す。音声信号の発信源分離は、ビーム形成などの発信源の展開の幾何学的考察を使用して、或いは独立成分分析などの音声信号の特性を考察することによって実施することができる。分離される信号の数は、通常、マイクロホンのアレイ５１１の近傍の活動状態の発信源の数に等しいが、マイクロホンの数より少ない。分離された上記一組の信号は発信源セレクター５１４へ送られる。発信源セレクターの目的は、その音声信号が認識されるべき音声の関連する発信源を選択することである。発信源セレクター５１４は、定義済みトリガ・ワードを発音する発信源が選択されるよう、トリガ・ワード・ディテクターを使用することができる。別法としては、発信源セレクター５１４は、マイクロホンのアレイ５１１に対する定義済み方向などの、マイクロホンのアレイ５１１の近傍の発信源の位置を考慮することも可能である。また、発信源セレクター５１４は、音声信号の定義済み音響シグネチャーを使用して、このシグネチャーと一致する発信源を選択することも可能である。発信源セレクター５１４の出力は、音声認識エンジン５１５へ送られる単一の音声信号である。音声認識エンジン５１５は、デジタル化された音声信号をテキストに変換する。当技術分野で知られている音声認識のための多くの方法が存在しており、それらのほとんどは、音声信号から特徴を引き出し、これらの特徴を定義済み語彙と比較することに基づいている。音声認識エンジン５１５の主な出力は、入力音声信号と関連付けられるテキスト・ストリング５１６である。定義済みテキスト５１８は、オフライン訓練においてマイクロホンに対して発音される。ＡＳＲの出力５１６をこのテキストに対して比較することによって誤差５１９が計算される。比較５１７は、単純なワード計数を使用して、又はワードの意味を考慮し、且つ、異なるワードの誤検出に適切に重みを付けるもっと高度に複雑な比較方法を使用して実施することができる。誤差５１９は、次に、誤差を最小にする値を見出すべく一組のパラメータを修正するためにＳＳ５１３によって使用される。これは、任意の被監視予測によって、又は最小二乗、確率的勾配、ニューラル・ネットワーク（ＮＮ：ｎｅｕｒａｌｎｅｔｗｏｒｋ）及びその変形などの最適化方法によって実施することができる。

【0116】

図７は、実時間訓練、即ちシステムの正規の動作中の訓練における声認識チェーンの実例を図解したものである。ＶＵＩが動作している間、人間のスピーカによって発音された真のテキストは未知であり、また、被監視誤差５１９も利用不可能である。代替は、話された実テキストに対する参照がない場合、また、ＡＳＲ出力の信頼性レベルを知ることによってアプリケーションが利益を得ることができる場合に、実時間アプリケーションのために開発された確信スコア５２１である。例えば確信スコアが低い場合、システムは、より管理された対話がユーザと実施される適切な分岐へ進行することができる。確信スコアを予測するための多くの方法が存在しており、それらのほとんどは、話されたテキストが分かると計算することができる誤差との高い相関を目標にしている。実時間訓練では、確信スコア５２１は、誤差エスティメータ５２２によって被監視誤差５１９に変換される。確信スコアが理論的被監視誤差と高度に相関されている場合、誤差エスティメータは単純な軸変換であってもよい。確信スコア５２１は０から１００までの範囲であり、目的は確信スコア５２１をもっと高くすることであるが、被監視誤差は０から１００までの範囲で、目的は被監視誤差をもっと小さくすることである。ｅｓｔｉｍａｔｅｄ＿ｅｒｒｏｒ＝１００－ｃｏｎｆｉｄｅｎｃｅ＿ｓｃｏｒｅの形態の単純な軸変換を誤差エスティメータ５２２として使用することができる。予測された誤差５１９を使用して、オフライン訓練の場合と同様にＳＳのパラメータを訓練することができる。

【0117】

図３は、典型的なＳＳ５１３の訓練機構を図解したものである。発信源セパレータ（ＳＳ）５１３は、予備処理ステージ５１２から一組の混合信号を受信し、分離された信号を発信源セレクター５１４に供給する。典型的には、音響信号及びとりわけ音声信号の発信源分離は周波数領域で実施される。予備処理ステージ５１２からの混合された信号は、最初に周波数領域に変換される５５３。これは、混合された信号を全く同じ長さのセグメントに分割し、結果として得られるセグメント同士の間に重畳期間を持たせることによって実施される。例えばセグメントの長さが１０２４サンプルであり、また、重畳期間が２５％として決定されると、混合された信号の各々は、それぞれ１０２４サンプルのセグメントに分割される。異なる混合信号からの現在の一組のセグメントはバッチと呼ばれる。セグメントの個々のバッチは、先行するバッチの後に、７６８個のサンプルを開始する。上記一組の混合信号全体にわたるセグメントは同期化される、即ち同じバッチに属するすべてのセグメントの開始点は全く同じであることに留意されたい。バッチ内におけるセグメントの長さ及び重畳期間は、モデル・パラメータ５５２から得られる。

【0118】

脱混合アルゴリズム５５４は、周波数変換５５３から到達したセグメントのバッチを分離する。多くの他のアルゴリズムと同様、発信源分離（ＳＳ）アルゴリズムは、一組のモデル・パラメータ５５２が付属する一組の数学モデルを含む。数学モデルは、ＳＳが物理現象、例えば多重経路を取り扱う方法などの操作方法を確立する。上記一組のモデル・パラメータ５５２は、発信源信号の特定の特徴、これらの信号を受信する自動音声認識エンジン（ＡＳＲ）のアーキテクチャー、環境の幾何学、さらには人間のスピーカに対するＳＳの操作を調整する。

【0119】

セグメントの脱混合されたバッチは逆周波数変換５５５へ送られ、そこでバッチが変換されて時間領域に戻される。逆周波数変換ステージ５５５では、周波数変換ステージ５５３で使用された同じ一組のモデル・パラメータ５５２が使用される。例えば重畳期間を使用して、結果として得られたバッチからの時間領域における出力信号が再構築される。これは、例えば重畳加算方法を使用して実施され、この重畳加算方法では、逆周波数変換の後に、恐らくは、重畳領域全体にわたって０と１の間の範囲である適切な重み付け関数を使用して重畳化し、且つ、重畳された時間間隔を追加することによって、結果として得られる出力信号が再構築され、したがって総エネルギーが節約される。言い換えると、前のバッチからの重畳セグメントがフェード・アウトし、一方、後のバッチからの重畳セグメントがフェード・インする。逆周波数変換ブロックの出力は発信源セレクター５１４へ送られる。

【0120】

モデル・パラメータ５５２は、周波数変換ブロック５５３、脱混合ブロック５５４及び逆周波数変換ブロック５５５によって使用される一組のパラメータである。周波数変換５５３によって実施される、混合された信号の全く同じ長さのセグメントへの分割は、実時間クロックなどの刻時機構によって歩調が整調される。個々の歩調で、周波数変換ブロック５５３、脱混合ブロック５５４及び逆周波数変換ブロック５５５の各々は、モデル・パラメータ５５２からパラメータを引き出す。これらのパラメータは、次に、周波数変換ブロック５５３、脱混合ブロック５５４及び逆周波数変換ブロック５５５の中で実行される数学的モデルの中で置換される。

【0121】

コレクター５５１は、誤差エスティメータからの誤差５１９を小さくすることを目的として上記一組のモデル・パラメータ５５２を最適化する。コレクター５５１は、誤差５１９及び現在の一組のモデル・パラメータ５５２を受け取り、また、修正された一組のモデル・パラメータ５５２を出力する。上記一組のパラメータの修正は、アプリオリ（オフライン）で、又はＶＵＩの動作中（実時間）に実施することができる。オフライン訓練では、上記一組のモデル・パラメータ５５２を修正するために使用される誤差５１９は、マイクロホンに対して発音される定義済みテキストを使用し、ＡＳＲの出力をこのテキストに対して比較して引き出される。実時間訓練では、誤差５１９はＡＳＲの確信スコアから引き出される。

【0122】

次に、誤差を最小にする値を見出すために、誤差を使用して、上記一組のパラメータが修正される。これは、任意の被監視予測又は最適化方法、好ましくは黄金分割探索、格子探索及びＮｅｌｄｅｒ－Ｍｅａｄなどの導関数がない方法によって実施することができる。

【0123】

Ｎｅｌｄｅｒ－Ｍｅａｄ法（同じく滑降シンプレックス法、アメーバ法又はポリトープ法）は、多次元空間における目的関数の最小又は最大を見出すために使用される、広く適用されている数値方法である。それは直接探索方法であり（関数比較に基づく）、また、導関数を知り得ない非線形最適化問題にしばしば適用される。

【0124】

Ｎｅｌｄｅｒ－Ｍｅａｄは、誤差５１９の極小をいくつかのパラメータの関数として反復して見出す。方法は、シンプレックス（Ｎ次元における一般化された三角形）を決定する一組の値で開始する。極小はシンプレックス内に存在することが仮定されている。個々の反復で、シンプレックスの頂点における誤差が計算される。最大誤差を有する頂点が新しい頂点に置き替えられ、したがってシンプレックスの体積が小さくなる。これは、シンプレックス体積が定義済み体積より小さくなり、また、最適値が頂点のうちの１つになるまで反復する。このプロセスはコレクター５５１によって実施される。

【0125】

黄金分割探索は、その中に最小が存在していることが分かる値の範囲を連続的に狭くすることによって誤差５１９の最小を見出す。黄金分割探索には、パラメータの関数としての厳格に単峰形の誤差が必要である。範囲を狭くする操作はコレクター５５１によって実施される。

【0126】

黄金分割探索は、その中に極値が存在していることが分かる値の範囲を連続的に狭くすることによって厳格に単峰形の関数の極値（最小又は最大）を見出すための技法である（ｗｗｗ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ）。

【0127】

格子探索は、最適化されるべきパラメータのうちの１つ又は複数と関連付けられた一組の値を通して反復する。複数のパラメータが最適化される場合、その一組の中の個々の値は、その長さがパラメータの数に等しいベクトルである。値毎に誤差５１９が計算され、最小誤差に対応する値が選択される。上記一組の値を通した反復はコレクター５５１によって実施される。

【0128】

格子探索－ハイパーパラメータ最適化を実施する伝統的な方法は、格子探索即ちパラメータ掃引であり、これは、単純に、学習アルゴリズムのハイパーパラメータ空間の手動で規定された部分集合を通した網羅的探索である。格子探索アルゴリズムは、典型的には訓練セットに対する相互検証によって、或いはヘルド－アウト検証セットに対する評価によって判断される何らかの性能メトリックによって導かれなければならない。機械学習のパラメータ空間は、特定のパラメータのための実数値空間又は非有界値空間を含むことができるため、格子探索を適用する前に、手動設定境界及び打切りが必要であり得る（ｗｗｗ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ）。

【0129】

すべての最適化方法には、分離された音響信号の同じ一組を使用した誤差５１９の連続計算が必要である。これは時間を消費するプロセスであり、したがって連続的には実施されず、誤差５１９（これは連続的に計算される）が何らかの定義済み閾値、例えば１０％誤差を超えた場合にのみ実施され得る。これが生じると、２つの手法を取ることができる。

【0130】

１つの手法は、並列スレッド（ｔｈｒｅａｄ）又は多重コアを使用して、システムの正規の操作と並行して最適化を操作することである。即ちブロック５１３、５１４、５１５、５２２がシステムの正規の操作のタスクと並行して実施する１つ又は複数の並列タスクが存在している。並列タスクでは、長さ１～２秒の混合信号のバッチが予備処理５１２から獲得され、反復して分離され５１３、また、異なる複数組のモデル・パラメータ５５２を使用して解釈される５１４、５１５。誤差５１９は、このようなサイクル毎に計算される。個々のサイクルで、最適化方法に従ってコレクター５５１によって上記一組のモデル・パラメータが選択される。

【0131】

第２の手法は、部屋に音声が存在しない場合に最適化を操作することである。人間の音声がない期間は、声アクティビティ検出（ＶＡＤ）アルゴリズムを使用して検出することができる。これらの期間を使用して、第１の手法の場合と同じ方法でモデル・パラメータ５５２が最適化され、並列スレッド又は多重コアの必要性を節約する。

【0132】

５５２におけるパラメータ毎に適切な最適化方法を選択しなければならない。方法のうちのいくつかは単一のパラメータに適用され、また、いくつかはパラメータのグループに適用される。以下のテキストは、音声認識の性能に影響を及ぼすいくつかのパラメータを示唆している。また、パラメータの特性に基づく最適化方法が示唆されている。

【0133】

セグメント・パラメータの長さ
セグメント・パラメータの長さはＦＦＴ／ＩＦＦＴに関連付けられる。典型的には、分離された音素の特徴を使用するＡＳＲには、２０ミリ秒程度の短いセグメントが必要であり、一方、結果として生じる一連の音素の特徴を使用するＡＳＲは、１００～２００ミリ秒程度のセグメントを使用する。一方、セグメントの長さは、部屋の反響時間などのシナリオによって影響される。セグメント長さは、２００～５００ミリ秒程度であり得る反響時間程度でなければならない。セグメントの長さのためのスイート・ポイントは存在しないため、この値は、そのシナリオ及びＡＳＲに対して最適化しなければならない。典型的な値は、サンプルに関しては１００～５００ミリ秒である。例えば８ｋＨｚのサンプリング・レートは、８００～４０００サンプルのセグメント長さを暗に意味している。これは連続パラメータである。

【0134】

このパラメータの最適化は、黄金分割探索、又は重畳期間と相俟ったＮｅｌｄｅｒ－Ｍｅａｄなどの様々な最適化方法を使用して実施することができる。黄金分割探索を使用する場合、アルゴリズムへの入力は、最小及び最大可能長さ、例えば１０ミリ秒乃至５００ｍＳｅｃ、及び誤差関数５１９である。出力は、誤差関数５１９を最小にするセグメントの長さである。重畳期間と共にＮｅｌｄｅｒ－Ｍｅａｄを使用する場合、入力は、セグメント長さ及び重畳期間の一組の３つの２項、例えば（１０ミリ秒、０％）、（５００ミリ秒、１０％）及び（５００ミリ秒、８０％）、及び誤差関数５１９であり、また、出力は、セグメントの最適長さ及び最適重畳期間である。

【0135】

重畳期間
重畳期間パラメータはＦＦＴ／ＩＦＦＴに関連付けられる。重畳期間を使用して、セグメント化による音素の見落としが回避される。即ち結果として得られるセグメント同士の間で音素が分割される。セグメントの長さのため、重畳期間はＡＳＲが採用する特徴で決まる。典型的な範囲は、セグメントの長さの０～９０％である。これは連続パラメータである。

【0136】

このパラメータの最適化は、黄金分割探索、セグメントの長さを有するＮｅｌｄｅｒ－ｍｅａｄなどの様々な最適化方法を使用して実施することができる。黄金分割探索を使用する場合、アルゴリズムへの入力は、最小及び最大可能重畳期間、例えば０％乃至９０％、及び誤差関数５１９である。出力は、誤差関数５１９を最小にする重畳期間である。

【0137】

ウィンドウ。ウィンドウ・パラメータはＦＦＴ／ＩＦＦＴに関連付けられる。周波数変換５５３は、しばしばウィンドウ処理を使用してセグメント化の効果を軽減する。Ｋａｉｓｅｒ及びＣｈｅｂｙｓｈｅｖなどのいくつかのウィンドウがパラメータ化されている。これは、ウィンドウのパラメータを変更することによってウィンドウの効果を制御することができることを意味している。典型的な範囲はウィンドウのタイプで決まる。これは連続パラメータである。このパラメータの最適化は、黄金分割探索などの様々な最適化方法を使用して実施することができる。黄金分割探索を使用する場合、アルゴリズムへの入力は、ウィンドウ・タイプで決まる、ウィンドウのパラメータの最小値及び最大値、及び誤差関数５１９である。例えばＫａｉｓｅｒウィンドウの場合、最小値及び最大値は（０、３０）である。出力は最適ウィンドウ・パラメータである。

【0138】

サンプリング・レート
サンプリング・レート・パラメータはＦＦＴ／ＩＦＦＴに関連付けられる。サンプリング・レートは、音声認識の性能に影響を及ぼす臨界パラメータのうちの１つである。例えば１６ｋＨｚ未満のサンプリング・レートに対して貧弱な結果を立証しているＡＳＲが存在している。他のＡＳＲは、４ｋＨｚ又は８ｋＨｚであっても良好に動作することができる。典型的には、このパラメータはＡＳＲが選択されると最適化される。典型的な範囲は、４ｋＨｚ、８ｋＨｚ、１６ｋＨｚ、４４．１ｋＨｚ、４８ｋＨｚである。このパラメータは離散パラメータである。このパラメータの最適化は、格子探索などの様々な最適化方法を使用して実施することができる。アルゴリズムへの入力は、格子探索が実施される値である例えば（４、８、１６、４４．１、４８）ｋＨｚのサンプリング・レート、及び誤差関数５１９である。出力は最適サンプリング・レートである。

【0139】

フィルタリング
フィルタリング・パラメータは脱混合に関連付けられる。いくつかのＡＳＲは、制限された周波数を表す特徴を使用する。したがって発信源分離５１３後における分離された信号のフィルタリングは、ＡＳＲによって使用される特定の特徴を協調することができ、それによりその性能を改善することができる。さらに、ＡＳＲによって使用されないスペクトル成分をフィルタリング除去することにより、分離された信号の信号対雑音比（ＳＮＲ：ｓｉｇｎａｌｔｏｎｏｉｓｅｒａｔｉｏ）を改善することができ、延いてはＡＳＲの性能を改善することができる。典型的な範囲は４～８ｋＨｚである。このパラメータの最適化は、黄金分割探索などの様々な最適化方法を使用して実施することができる。このパラメータは連続的である。黄金分割探索を適用する場合、アルゴリズムへの入力は、誤差関数５１９及び遮断周波数の分割の初期推測、例えば１０００Ｈｚ及び０．５Ｘサンプリング・レートである。出力は最適フィルタリング・パラメータである。

【0140】

マイクロホン毎の重み付け係数。マイクロホン毎の重み付け係数は脱混合に関連付けられる。理論的には、特定のアレイ上の異なるマイクロホンの感度は、最大３ｄＢまで同様でなければならない。しかしながら実際的には、異なるマイクロホンの感度のスパンはもっと広いことがあり得る。さらに、マイクロホンの感度は、埃及び湿気のため、時間によって変化し得る。典型的な範囲は０～１０ｄＢである。これは連続パラメータである。このパラメータの最適化は、マイクロホン毎に重み付け係数を有する、或いは重み付け係数を有さないＮｅｌｄｅｒ－ｍｅａｄなどの様々な最適化方法を使用して実施することができる。Ｎｅｌｄｅｒ－ｍｅａｄ法を適用する場合、アルゴリズムへの入力は、誤差関数５１９及びシンプレックスの頂点の初期推測である。例えば個々のｎ項のサイズは、マイクロホンの数－Ｎ：（１、０、．．、０、０）、（０、０、…、０、１）及び（１／Ｎ、１／Ｎ、…、１／Ｎ）である。出力はマイクロホン毎の最適重みである。

【0141】

マイクロホンの数
マイクロホンの数は脱混合に関連付けられる。マイクロホンの数は、一方では分離することができる発信源の数に影響を及ぼし、また、他方では複雑性及び数値的精度に影響を及ぼす。また、実際的な実験によれば、マイクロホンが多すぎると、出力ＳＮＲが小さくなることがある。典型的な範囲は４～８である。これは離散パラメータである。このパラメータの最適化は、格子探索、又はマイクロホン毎に重み付け係数を有するＮｅｌｄｅｒ－ｍｅａｄなどの様々な最適化方法を使用して実施することができる。格子探索を適用する場合、アルゴリズムへの入力は、誤差関数５１９及び探索が実施されるマイクロホンの数、例えば４個、５個、６個、７個、８個のマイクロホンである。出力は最適マイクロホン数である。

【0142】

図４は方法６００を図解したものである。

【0143】

方法６００は、発信源選択プロセスの先行する出力に対して適用された音声認識プロセスに関連した誤差を受け取るか、或いは計算するステップ６１０で開始することができる。

【0144】

ステップ６１０には、誤差に基づいて発信源分離プロセスの少なくとも１つのパラメータを改訂するステップ６２０を後続させることができる。

【0145】

ステップ６２０には、複数の発信源から発信され、且つ、マイクロホンのアレイによって検出される可聴信号を表す信号を受信するステップ６３０を後続させることができる。

【0146】

ステップ６３０には、発信源分離信号を提供するために、複数の発信源の異なる発信源から発信された可聴信号を分離し、且つ、発信源分離信号を発信源選択プロセスに送信するための発信源分離プロセスを実施するステップ６４０を後続させることができる。

【0147】

ステップ６４０にはステップ６３０を後続させることができる。

【0148】

ステップ６３０及び６４０の１回又は複数回の反復毎に、ステップ６１０（図示せず）を後続させることができ、ＡＳＲの先行する出力を提供するために、ステップ６４０の出力を発信源選択プロセス及びＡＳＲに供給することができる。

【0149】

ステップ６３０及び６４０の初期反復は、誤差を受け取ることなく実行することができることに留意されたい。

【0150】

ステップ６４０は、周波数変換（それには限定されないがＦＦＴなど）を適用するステップ、脱混合するステップ、及び逆周波数変換（それには限定されないがＩＦＦＴなど）を適用するステップを含むことができる。

【0151】

ステップ６２０は、以下のステップのうちの少なくとも１つを含むことができる。
ａ．周波数変換の少なくとも１つのパラメータを改訂するステップ
ｂ．逆周波数変換の少なくとも１つのパラメータを改訂するステップ
ｃ．脱混合の少なくとも１つのパラメータを改訂するステップ
ｄ．周波数変換が適用される可聴信号を表す信号のセグメントの長さを改訂するステップ
ｅ．可聴信号を表す信号の連続するセグメントの間の重畳を改訂するステップであって、セグメント毎を基本として周波数変換が適用される、ステップ
ｆ．周波数変換のサンプリング・レートを改訂するステップ
ｇ．周波数変換によって適用されるウィンドウのウィンドウ処理パラメータを改訂するステップ
ｈ．脱混合中に適用されるフィルターの遮断周波数を改訂するステップ
ｉ．脱混合中にマイクロホンのアレイのうちの個々のマイクロホンに適用される重みを改訂するステップ
ｊ．マイクロホンのアレイのマイクロホンの数を改訂するステップ
ｋ．黄金分割探索を使用して、少なくとも１つのパラメータの被改訂値を決定するステップ
ｌ．ＮｅｄｌｅｒＭｅａｄアルゴリズムを使用して、少なくとも１つのパラメータの被改訂値を決定するステップ
ｍ．格子探索を使用して、少なくとも１つのパラメータの被改訂値を決定するステップ
ｎ．誤差と少なくとも１つのパラメータの間の定義済みマッピングに基づいて、少なくとも１つのパラメータのパラメータの被改訂値を決定するステップ
ｏ．誤差と少なくとも１つのパラメータの間のマッピングを実時間で決定するステップ

【0152】

以上、本明細書において、本発明について、本発明の実施例の特定の実例を参照して説明した。しかしながら添付の特許請求の範囲に示されている本発明のより広義の精神及び範囲を逸脱することなく、様々な修正及び変更をそれらに加えることができることは明らかであろう。

【0153】

さらに、説明及び特許請求の範囲における「前方」、「後方」、「頂部」、「底部」、「上方」、「下方」、等々という用語は、それらが使用されている場合、説明を目的として使用されており、必ずしも永久的な相対位置を説明するためのものではない。そのように使用されている用語は、本明細書において説明されている本発明の実施例が、例えば図解されている配向、さもなければ本明細書において説明されている配向以外の配向で動作することができるよう、適切な状況の下では交換可能であることが理解される。

【0154】

同じ機能性を達成するための構成要素の配置は、すべて、所望の機能性が達成されるよう、事実上「関連付けられて」いる。したがって特定の機能性を達成するために組み合わされた本明細書における任意の２つの構成要素は、アーキテクチャー又は中間構成要素に無関係に所望の機能性が達成されるよう、互いに「関連付けられている」ものとして捉えることができる。同様に、そのように関連付けられた任意の２つの構成要素は、所望の機能性を達成するために互いに「動作可能に接続」されている、又は「動作可能に結合」されているものとして同じく捉えることができる。

【0155】

さらに、上で説明した操作同士の間の境界は単に例証にすぎないことは当業者には認識されよう。複数の操作を単一の操作に組み合わせることができ、単一の操作を追加操作の中に分散させることができ、また、操作は、少なくとも部分的に時間を重畳させて実行することができる。さらに、代替実施例は、特定の操作の複数の例を含むことができ、また、操作の順序は、様々な他の実施例では変更することができる。

【0156】

しかしながら他の変更態様、変形形態及び代替も同じく可能である。したがって本明細書及び図面は、制限的な意味ではなく、例証と見なされるべきである。

【0157】

「Ｘであってもよい」という語句は、条件Ｘが満たされ得ることを示している。また、この語句は、条件Ｘが満たされなくてもよいことを示唆している。例えば特定の構成要素を含んでいるものとしてのシステムに対する参照は、すべて、システムがその特定の構成要素を含んでいないシナリオを同じく包含しているものとする。例えば特定のステップを含んでいるものとしての方法に対する参照は、すべて、方法がその特定の構成要素を含んでいないシナリオを同じく包含しているものとする。さらに別の実例の場合、特定の操作を実施するように構成されるシステムに対する参照は、すべて、システムがその特定の操作を実施するようには構成されないシナリオを同じく包含しているものとする。

【0158】

「含む」、「備える」、「有する」、「からなる」及び「から本質的になる」という用語は、交換可能な方法で使用されている。例えば方法は、すべて、図及び／又は本明細書に含まれている少なくともステップを含むことができ、図及び／又は本明細書に含まれているステップのみを含むことも可能である。システムに対しても同様である。

【0159】

システムは、マイクロホンのアレイ、記憶装置、及びデジタル信号プロセッサ、ＦＰＧＡ、ＡＳＩＣ、上で言及した任意の方法を実行するようにプログラムされた汎用プロセッサ、等々などの１つ又は複数のハードウェア・プロセッサを含むことができる。システムはマイクロホンのアレイを含んでいなくてもよいが、マイクロホンのアレイによって生成される音信号から供給され得る。

【0160】

例証を単純にし、且つ、分かりやすくするために、図に示されている要素は必ずしもスケール通りに描かれていないことは認識されよう。例えば要素のうちのいくつかの寸法は、分かりやすくするために他の要素に対して誇張され得る。さらに、適切であると見なされる場合、参照数表示は、対応する要素、又は類似の要素であることを示すために、図の間で繰り返され得る。

【0161】

【0162】

【0163】

論理ブロック同士の間の境界は単に例証にすぎないこと、また、代替実施例は、論理ブロック又は回路素子を統合し得ること、或いは様々な論理ブロック又は回路素子に機能性の代替分解を強制し得ることは当業者には認識されよう。したがって本明細書において描かれているアーキテクチャーは単に例示的なものにすぎないこと、また、実際、同じ機能性を達成する多くの他のアーキテクチャーを実現することができることを理解されたい。

【0164】

【0165】

【0166】

また、例えば一実施例では、例証されている実例は、単一の集積回路上又は同じデバイス内に配置された回路機構として実現することも可能である。別法としては、実例は、適切な方法で互いに相互接続された任意の数の個別の集積回路又は個別のデバイスとして実現することも可能である。

【0167】

また、例えば実例又はその一部は、物理的回路機構のソフト即ちコード表現として、或いは任意の適切なタイプのハードウェア記述言語におけるような、物理的回路機構に変換することができる論理表現として実現することも可能である。

【0168】

また、本発明は、非プログラマブル・ハードウェアの中で実現される物理的デバイス又はユニットに限定されず、適切なプログラム・コードに従って動作させることによって所望のデバイス機能を実施することができる、本出願においては一般に「コンピュータ・システム」で表されている、メインフレーム、ミニコンピュータ、サーバ、ワークステーション、パーソナル・コンピュータ、ノートパッド、パーソナル・デジタル・アシスタント、電子ゲーム、自動車及び他の埋込みシステム、セル電話及び様々な他の無線デバイスなどのプログラマブル・デバイス又はユニットの中にも同じく適用され得る。

【0169】

【0170】

特許請求の範囲では、括弧の間に置かれた参照符号は、すべて、特許請求の範囲を制限するものと解釈してはならない。「備えている」という語は、特許請求の範囲に挙げられている要素又はステップ以外の他の要素又はステップの存在を排他するものではない。さらに、本明細書において使用されている不特定要素の単数形の表現は、１つとして、又は複数として定義されている。また、特許請求の範囲における「少なくとも１つ」及び「１つ又は複数」などの導入節の使用は、同じ特許請求が導入節「１つ又は複数」或いは「少なくとも１つ」、及び不特定要素の単数形の表現を含んでいる場合であっても、不特定要素の単数形の表現による別の特許請求要素の導入が、このような導入される特許請求要素を含む何らかの特定の特許請求を、１つのこのような要素しか含んでいない発明に限定することを暗に意味するものと解釈してはならない。特定の要素をさす表現の使用についても同様である。他に特に言及されていない限り、「第１の」及び「第２の」などの用語は、このような用語が説明している要素同士の間を恣意的に区別するために任意に使用されている。したがってこれらの用語には、このような要素の一時的又は他の順位付けを示すことは必ずしも意図されておらず、特定の手段が相互に異なる特許請求に記載されている、という単なる事実は、これらの手段の組合せを有利に使用することができないことを示しているわけではない。

【0171】

また、本発明は、コンピュータ・システムなどのプログラマブル装置上で走ると、本発明による方法のステップを実施するか、或いは本発明によるデバイス又はシステムの機能のプログラマブル装置による実施を可能にするためのコード部分を少なくとも含む、コンピュータ・システム上で走らせるためのコンピュータ・プログラムの中で実現することも可能である。コンピュータ・プログラムは、記憶システムにディスク・ドライブをディスク・ドライブ・グループに割り振らせることができる。

【0172】

コンピュータ・プログラムは、特定のアプリケーション・プログラム及び／又はオペレーティング・システムなどの命令のリストである。コンピュータ・プログラムは、例えばサブルーチン、機能、手順、目的方法、目的実施態様、実行可能アプリケーション、アプレット、サーブレット、ソース・コード、目的コード、共用ライブラリ／ダイナミック・ロード・ライブラリ、及び／又はコンピュータ・システム上で実行するために設計された命令の他のシーケンスのうちの１つ又は複数を含むことができる。

【0173】

コンピュータ・プログラムは、非一時的コンピュータ可読媒体上に内部的に記憶することができる。コンピュータ・プログラムのすべて又は一部は、情報処理システムに永久的に、除去可能に、又は遠隔的に結合されたコンピュータ可読媒体上に提供することができる。コンピュータ可読媒体は、例えば非制限で任意の数の、ディスク及びテープ記憶媒体を含む磁気記憶媒体；コンパクト・ディスク媒体（例えばＣＤ－ＲＯＭ、ＣＤ－Ｒ、等々）及びデジタル・ビデオ・ディスク記憶媒体などの光記憶媒体；ＦＬＡＳＨメモリ、ＥＥＰＲＯＭ、ＥＰＲＯＭ、ＲＯＭなどの半導体に基づく記憶装置を含む不揮発性メモリ記憶媒体；強磁性デジタル・メモリ；ＭＲＡＭ；レジスタ、バッファ又はキャッシュ、主記憶装置、ＲＡＭ、等々を含む揮発性記憶媒体を含むことができる。コンピュータ・プロセスは、典型的には、実行（ランニング）プログラム又はプログラムの一部、現在のプログラム値及び状態情報、及びプロセスの実行を管理するためにオペレーティング・システムによって使用される資源を含む。オペレーティング・システム（ＯＳ：ｏｐｅｒａｔｉｎｇｓｙｓｔｅｍ）は、コンピュータの資源の共有を管理し、また、これらの資源にアクセスするために使用されるインタフェースをプログラマーに提供するソフトウェアである。オペレーティング・システムはシステム・データ及びユーザ入力を処理し、また、システムのユーザ及びプログラムに対するサービスとしてタスク及び内部システム資源を割り振り、且つ、管理することによって応答する。コンピュータ・システムは、例えば少なくとも１つの処理装置、関連するメモリ及び多くの入力／出力（Ｉ／Ｏ）デバイスを含むことができるコンピュータ・プログラムを実行する場合、コンピュータ・システムは、コンピュータ・プログラムに従って情報を処理し、且つ、結果として得られる出力情報をＩ／Ｏデバイスを介して生成する。

【0174】

本特許出願に関連するシステムは、すべて、少なくとも１つのハードウェア構成要素を含む。

【0175】

以上、本明細書において、本発明の特定の特徴について例証し、且つ、説明したが、当業者には多くの修正、置換、変更及び等価物が思い浮かぶことであろう。したがって添付の特許請求の範囲には、本発明の真の精神の範疇としてすべてのこのような修正及び変更を包含することが意図されていることを理解されたい。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【手続補正書】

【提出日】2022-03-09

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

音声強化のための方法であって、
周波数変換されたサンプルを提供するために音サンプルを周波数変換するステップであって、前記音サンプルは、所定の時間期間中にマイクロホンのアレイによって受信された音信号を表す、ステップと、
前記周波数変換されたサンプルを、複数のスピーカに対応する複数のスピーカの関連クラスターにそれぞれクラスター化するステップであって、前記クラスター化は、前記音信号に関連する空間キューに基づき且つ前記複数のスピーカに関連する音響キューに基づいており、複数のスピーカの１スピーカに対応する１スピーカの関連クラスターが、前記空間キューと音響キューに基づき前記１スピーカと関連した周波数変換されたサンプルを含む、クラスター化するステップと、
前記複数のスピーカに対応する複数のスピーカの関連相対伝達関数をそれぞれ決定するステップであって、前記複数のスピーカの関連相対伝達関数を決定することは、前記１スピーカに対応するスピーカの関連クラスターの周波数変換されたサンプルに基づき前記複数のスピーカの前記１スピーカに対応する１スピーカの関連相対伝達関数を決定することを含む、相対伝達関数を決定するステップと、
ビーム形成された信号を提供するために、前記複数のスピーカの関連相対伝達関数に対して多重入力多重出力（ＭＩＭＯ）ビーム形成演算を適用するステップと、
音声信号を提供するために、前記ビーム形成された信号を逆周波数変換するステップと
を含む方法。

【請求項2】

前記１スピーカに対応するスピーカの関連相対伝達関数を決定することは、マイクロホンのアレイの２つのそれぞれのマイクロホンに関して前記１スピーカの２つの音響伝達関数間の比率を周波数領域で表すために前記１スピーカの関連相対伝達関数を決定することを含む、請求項１に記載の方法。

【請求項3】

前記音サンプル中のキーワードを探索し、
前記キーワードから前記音響キューを抽出する、
ことによって、前記音響キューを生成することを含む、請求項１又は２に記載の方法。

【請求項4】

前記キーワードに関連する空間キューを引き出すステップを含む、請求項３に記載の方法。

【請求項5】

周波数変換されたサンプルを複数のスピーカの関連クラスターにクラスター化するために前記キーワードに関連する前記空間キューをクラスター化シードとして使用するステップを含む、請求項４に記載の方法。

【請求項6】

前記音響キューが、ピッチ周波数、ピッチ強度、１つ又は複数のピッチ周波数調波、及び前記１つ又は複数のピッチ周波数調波の強度、のうちの１つ又はいくつかを含む、請求項１乃至５のいずれかに記載の方法。

【請求項7】

信頼性属性をピッチに関連付け、前記ピッチと関連付けられるスピーカは、前記ピッチの信頼性が定義済み閾値未満になるとサイレントになることを決定する、ステップを含む、請求項１乃至６のいずれかに記載の方法。

【請求項8】

前記クラスター化するステップが、前記音響キュー及び前記空間キューを提供するために、前記周波数変換されたサンプルを処理するステップ、前記音響キューを使用してスピーカの状態を常に追跡するステップ、前記周波数変換されたサンプルの周波数成分の空間キューを複数のグループにセグメント化するステップ、及び周波数変換されたサンプルのグループに、活動状態であるスピーカに関連する音響キューを割り当てるステップを含む、請求項１乃至７のいずれかに記載の方法。

【請求項9】

前記割り当てるステップが、周波数変換されたサンプルの前記グループに対して、時間周波数マップの他の線に属し且つ周波数変換されたサンプルの前記グループに関連付けられる要素を有する前記時間周波数マップの等周波数線の要素同士の間の相互相関を計算するステップを含む、請求項８に記載の方法。

【請求項10】

前記追跡するステップが拡張カルマン・フィルターを適用するステップを含む、請求項８又は９に記載の方法。

【請求項11】

前記追跡するステップが多重仮説追跡を適用するステップを含む、請求項８乃至１０のいずれかに記載の方法。

【請求項12】

前記追跡するステップが粒子フィルターを適用するステップを含む、請求項８乃至１１のいずれかに記載の方法。

【請求項13】

前記セグメント化するステップが、単一の時間フレームに関連する単一の周波数成分を単一のスピーカに割り当てるステップを含む、請求項８乃至１２のいずれかに記載の方法。

【請求項14】

音声速度、音声強度及び感情的発声の中から少なくとも１つの被監視音響特徴を監視するステップを含む、請求項８に記載の方法。

【請求項15】

前記少なくとも１つの被監視音響特徴を拡張カルマン・フィルターに供給するステップを含む、請求項１４に記載の方法。

【請求項16】

前記周波数変換されたサンプルを複数のスピーカの関連クラスターにクラスター化することは、
前記周波数変換されたサンプルの時間-周波数マップに従って前記音響キューを検出するために前記周波数変換されたサンプルを処理し、
３次元の時間-周波数キューマップで前記空間キューを抽出するために前記周波数変換されたサンプルを処理し、そして
前記周波数変換されたサンプルを、３次元の時間-周波数キューマップの前記音響キューと前記空間キューに基づいて、複数のスピーカの関連クラスターに割り当てる、
ことを含む、請求項１乃至１５のいずれかに記載の方法。

【請求項17】

前記周波数変換されたサンプルのクラスター化は、直接パスと間接パスの両方から受信した同じスピーカの音信号に割り当てるために前記音響キューを使用する、ことを含む、請求項１乃至１６のいずれかに記載の方法。

【請求項18】

マイクロホンの前記アレイの複数のマイクロホンのそれぞれに対応する複数のベクトルに構成された前記周波数変換されたサンプルを処理することを含み、前記周波数変換されたサンプルを処理することが、前記複数のベクトルを重み平均することによって中間ベクトルを計算し、そして定義済み閾値未満である値を有する前記中間ベクトルの要素を無視することによって音響キュー候補を探索する、ことを含む、請求項１乃至１７のいずれかに記載の方法。

【請求項19】

前記定義済み閾値は、雑音の標準偏差の３倍である、請求項１８に記載の方法。

【請求項20】

請求項１乃至１９のいずれかに記載の方法をコンピュータ化されたシステムによって実行させる命令を格納する非一時的コンピュータ可読媒体。

【請求項21】

マイクロホンのアレイと、記憶装置と、プロセッサとを備えるコンピュータ化されたシステムであって、前記プロセッサは、請求項１乃至１９のいずれかに記載の方法を実行するように構成される、コンピュータ化されたシステム。

【請求項22】

請求項１乃至１９のいずれかに記載の方法を実行するように構成された処理手段を含む装置。

【国際調査報告】

知財求人

青山学院大学 (神奈川県相模原市中央区淵野辺)

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版