(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-09-10
(54)【発明の名称】変調領域アテンションに基づく残響および雑音にロバストなボイスアクティビティ検出
(51)【国際特許分類】
G10L 25/84 20130101AFI20240903BHJP
G10L 25/18 20130101ALI20240903BHJP
G10L 21/0208 20130101ALI20240903BHJP
G10L 25/24 20130101ALI20240903BHJP
【FI】
G10L25/84
G10L25/18
G10L21/0208 100B
G10L25/24
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024508558
(86)(22)【出願日】2022-08-11
(85)【翻訳文提出日】2024-04-09
(86)【国際出願番号】 US2022040076
(87)【国際公開番号】W WO2023018880
(87)【国際公開日】2023-02-16
(31)【優先権主張番号】PCT/CN2021/112265
(32)【優先日】2021-08-12
(33)【優先権主張国・地域又は機関】CN
(32)【優先日】2021-09-02
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-10-28
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100101683
【氏名又は名称】奥田 誠司
(74)【代理人】
【識別番号】100155000
【氏名又は名称】喜多 修市
(74)【代理人】
【識別番号】100188813
【氏名又は名称】川喜田 徹
(74)【代理人】
【識別番号】100202197
【氏名又は名称】村瀬 成康
(72)【発明者】
【氏名】ヤン,シャオファン
(72)【発明者】
【氏名】リー, カイ
(57)【要約】
残響信号から音声を検出するためのシステムを開示する。本システムは、変調周波数領域におけるスペクトル時間振幅データを受信するようにプログラムされる。本システムは、次いで、残響および他の雑音を低減するとともに、スペクトル時間振幅データに関連するスペクトル時間スペクトログラムの特定の性質に基づいて平滑化することによって、スペクトル時間振幅データを強調するようにプログラムされる。次に、本システムは、強調化スペクトル時間振幅データと、変調周波数領域または(音響)周波数領域における他のデータとに基づいて、音声の存在に関係する様々な特徴を計算するようにプログラムされる。本システムは、次いで、様々な特徴に基づいて、受信したスペクトル時間振幅データに対応するオーディオデータ内に存在する音声の程度を決定するようにプログラムされる。本システムは、存在する音声の程度を出力デバイスに送信するようにプログラム可能である。
【特許請求の範囲】
【請求項1】
変調周波数領域におけるデータに基づいて残響信号から音声を検出するコンピュータによって実行される方法であって、
プロセッサによって、時間領域において新しいオーディオデータによってカバーされる一時点に対応する特定のスペクトル時間振幅(STA)を、時間-周波数表現として、取得するステップと、
前記時点に対する、音響帯域次元および変調帯域次元を有する変調スペクトル測定値(MSM)を、新しいオーディオデータから得られた1つまたは複数のSTAから取得するステップと、
前記MSMに基づいて、前記1個の新しいオーディオデータに対する変調周波数領域における拡散性の度合いを示す拡散性指標(DI)を計算するステップと、
前記特定のSTAから残響および他の雑音をフィルタリングした強調化STAを生成するステップと、
前記強調化STAから1つまたは複数の特徴を計算するステップと、
前記DIおよび前記1つまたは複数の特徴を使用して1つまたは複数の特徴ベクトルを作成するステップと、
前記1つまたは複数の特徴ベクトルから前記1個の新しいオーディオデータにおける音声の程度の推定値を決定するステップと、
前記1個の新しいオーディオデータにおける前記音声の程度の前記推定値を出力するステップと、
を含む、コンピュータによって実行される方法。
【請求項2】
前記DIは、変調周波数帯域の一範囲および音響周波数帯域の一範囲における前記MSMの値に基づく変調スペクトルの重心である、
請求項1に記載のコンピュータによって実行される方法。
【請求項3】
前記DIは、変調周波数帯域の低い範囲および音響周波数帯域の一範囲における前記MSMの値に基づく低変調部と、変調周波数帯域の高い範囲および音響周波数帯域の前記範囲における前記MSMの値に基づく高変調部とのエネルギー比である、
請求項1に記載のコンピュータによって実行される方法。
【請求項4】
前記DIは、変調周波数帯域の低い範囲および音響周波数帯域の一範囲における前記MSMの値に基づく低変調部と、変調周波数帯域の全範囲および音響周波数帯域の前記範囲における前記MSMの値に基づく全変調部とのエネルギー比である、
請求項1のコンピュータによって実行される方法。
【請求項5】
前記取得するステップは、前記時点より前の所定の個数の連続した時点に対応する複数個の新しいオーディオデータを使用し、高速フーリエ変換を用いて前記MSMを計算するステップを含む、
請求項1に記載のコンピュータによって実行される方法。
【請求項6】
前記強調化STAを生成するステップは、変調周波数帯域の除外された範囲の外側の前記MSMの値をフィルタリングして除去するステップを含む、
請求項1~5のいずれかに記載のコンピュータによって実行される方法。
【請求項7】
変調周波数帯域の前記除外された範囲は、3~30Hzである、
請求項6に記載のコンピュータによって実行される方法。
【請求項8】
前記強調化STAを生成するステップは、時間にわたる集計によって平滑化スペクトル時間エネルギーを計算するステップを含む、
請求項1~7のいずれかに記載のコンピュータによって実行される方法。
【請求項9】
前記強調化STAを生成するステップは、経時的に最小スペクトル時間エネルギーをトラッキングすることによって残留雑音を除去するステップを含む、
請求項1~8のいずれかに記載のコンピュータによって実行される方法。
【請求項10】
強調化STAを生成するステップは、入力データとしての、異なる度合いの残響および他の雑音に対応するスペクトル時間振幅データと、出力データとしての、クリーンな音声のみに対応する対応のスペクトル時間振幅データとを用いて訓練された機械学習モデルを適用するステップを含む、
請求項1~7のいずれかに記載のコンピュータによって実行される方法。
【請求項11】
前記機械学習モデルの適用から、低いカットオフ変調周波数および高いカットオフ変調周波数を含む、前記クリーンな音声を特徴づける特徴を抽出するステップ、
をさらに含む、請求項10に記載のコンピュータによって実行される方法。
【請求項12】
前記計算するステップは、前記強調化STAを使用して強調化メル周波数ケプストラム係数(MFCC)を計算するステップを含む、
請求項1~11のいずれかに記載のコンピュータによって実行される方法。
【請求項13】
前記計算するステップは、強調化スペクトル平坦度(SFT)を計算するステップであって、前記STAの代わりに前記強調化STAを使用し、かつ、前記SFTの計算において経時的に値を合計することによって前記強調化SFTを計算するステップを含む、
請求項1~12のいずれかに記載のコンピュータによって実行される方法。
【請求項14】
前記1つまたは複数の特徴は、ピーク帯域と他の帯域とのパワー比の合計に基づくスペクトルの山、ピークと平均(ピーク帯域なし)とのパワー比に基づくスペクトルの山、隣接するスペクトル帯域パワーの分散または標準偏差、隣接する周波数帯域間のスペクトル帯域パワー差の合計または最大値、スペクトル広がりまたはスペクトル中心周辺のスペクトル分散、およびスペクトルエントロピーを含む、
請求項1~13のいずれかに記載のコンピュータによって実行される方法。
【請求項15】
前記判定するステップは、入力データとしての、クリーンな音声に対応するスペクトル時間振幅データおよび異なる度合いの残響および他の雑音に対応するスペクトル時間振幅データの1つまたは複数の特徴と、出力データとしての、対応する音声の程度とを用いて訓練された機械学習モデルを適用するステップを含む、
請求項1~14のいずれかに記載のコンピュータによって実行される方法。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願への参照)
本願は、以下の優先出願、すなわち、2021年8月12日付け出願の国際出願PCT/CN2021/112265(参照番号:D20109WO)、2021年9月2日付け出願の米国仮出願63/239,976(参照番号:D20109USP1)、および2021年10月28日付け出願の欧州出願EP21205203.9の優先権を主張する。
【0002】
本願は、ボイスアクティビティ検出に関する。より詳細には、以下に記載する例示の実施形態は、変調領域アテンションに基づく雑音および残響ロバスト性問題の解決に関する。
【背景技術】
【0003】
本節に記載の手法は、探求し得る手法ではあるが、必ずしもこれまでに着想または探求されてきた手法ではない。従って、別途示唆のない限り、本節に記載の手法のいずれについても、本節に記載されているという理由だけで従来技術としての適格性を有すると考えるべきではない。
【0004】
従来、音声強調システムは、ハンズフリー電話、ビデオ会議、または補聴器に組み込まれるが、雑音および残響(雑音として考えられ得るが、以下では別ものとして言及する)を適切に対処することが困難であった。雑音および残響に関する情報を推定し、発話中に雑音および残響によって引き起こされるアーティファクトや知覚の混乱を低減するロバストなボイスアクティビティ検出(VAD)があれば役に立つであろう。そのようなVADは、任意のソーシャルネットワーキングソフトウェアのボイスメッセージングコンポーネント、ビデオブログ(vlog)プラットフォーム、またはポッドキャストセットアップなどのオーディオ/ビデオコンテンツ記録および再生システムにとって、音声の品質および理解のしやすさを向上させるために特に役立ち得る。
【発明の概要】
【0005】
変調周波数領域におけるデータに基づいて残響信号から音声を検出するコンピュータによって実装される方法(computer-implemented method)を開示する。この方法は、プロセッサによって、時間領域における新しいオーディオデータを受信するステップと、前記プロセッサによって、一時点に対応する1個の前記新しいオーディオデータを、時間-周波数表現としての特定のスペクトル時間振幅(STA)に変換するステップと、前記特定のSTAに検出モデルを適用して、前記新しいオーディオデータにおける音声の程度の推定値を取得するステップであって、前記時点に対する、音響帯域次元および変調帯域次元を有する変調スペクトル測定値(MSM)を、新しいオーディオデータから得られた1つまたは複数のSTAから取得するステップと、前記MSMに基づいて、前記1個の新しいオーディオデータについての変調周波数領域における拡散性の度合いを示す拡散性指標(DI)を計算するステップと、前記特定のSTAから残響および他の雑音をフィルタリングした強調化STAを生成するステップと、前記DIおよび前記1つまたは複数の特徴を使用して、1つまたは複数の特徴ベクトルを作成するステップと、前記1つまたは複数の特徴ベクトルから前記1個の新しい音声データにおける音声の程度の推定値を決定するステップとを含むステップと、前記1個の新しい音声データにおける前記音声の程度の前記推定値を送信するステップとを含む。
【図面の簡単な説明】
【0006】
添付図面の各図において、本発明の例示の実施形態を限定する事なく例示する。同様の参照符号は同様の要素を表す。
【0007】
【
図1】
図1は、様々な実施形態が実施され得る例示的なネットワーク化されたコンピュータシステムを例示する。
【0008】
【
図2】
図2は、開示された実施形態に係るオーディオ管理サーバコンピュータのコンポーネントの例を例示する。
【0009】
【
図3A】
図3Aは、残響時間が0msであるクリーンな残響音声信号に対する音響/変調周波数表現におけるエネルギープロットを例示する。
【0010】
【
図3B】
図3Bは、残響時間が500msであるクリーンな残響音声信号に対する音響/変調周波数表現におけるエネルギープロットを例示する。
【0011】
【
図3C】
図3Cは、残響時間が1秒(s)であるクリーンな残響音声信号に対する音響/変調周波数表現におけるエネルギープロットを例示する。
【0012】
【
図4A】
図4Aは、室内で記録された雑音に対する音響/変調周波数表現におけるエネルギープロットを例示し、ここで、変調周波数の範囲は、最大で24Hzである。
【0013】
【
図4B】
図4Bは、室内で記録された雑音に対する音響/変調周波数表現におけるエネルギープロットを例示し、ここで、変調周波数の範囲は、4~24Hzである。
【0014】
【
図5A】
図5Aは、信号対雑音(SNR)比が20dBである音響/変調周波数表現におけるエネルギープロットを例示する。
【0015】
【
図5B】
図5Bは、信号対雑音(SNR)比が10dBである音響/変調周波数表現におけるエネルギープロットを例示する。
【0016】
【
図5C】
図5Cは、信号対雑音(SNR)比が0dBである音響/変調周波数表現におけるエネルギープロットを例示する。
【0017】
【
図6】
図6は、スペクトル時間振幅強調化器(enhancer)における、オーディオ管理サーバコンピュータによって雑音低減が行われることを伴う、時間スペクトル振幅データを強調するプロセスを例示する。
【0018】
【
図7】
図7は、本明細書に記載のいくつかの実施形態に係る、オーディオ管理サーバコンピュータを用いて行われるプロセスの例を例示する。
【0019】
【
図8】
図8は、本発明の一実施形態が実装され得るコンピュータシステムを例示するブロック図である。
【発明を実施するための形態】
【0020】
以下の記載では、説明を目的として、本発明の例示の実施形態の完全な理解を与えるために、多くの具体的な詳細を記載する。しかし、例示の実施形態は、これらの具体的な詳細がなくても実施され得ることが明らかであろう。他の例では、例示の実施形態を不必要に不明瞭にすることを避けるために、周知の構造や装置をブロック図形態で示す。
【0021】
以下の節において、実施形態を以下の概略にしたがって記載する。
1.概要
2.コンピューティング環境の例
3.コンピュータコンポーネントの例
4.機能の説明
4.1.拡散性指標モジュール
4.2.スペクトル時間振幅強調化器
4.3.強調化特徴抽出器
4.4.特徴融合および分類
5.プロセスの例
6.ハードウェア実装
【0022】
1.概要
変調周波数領域におけるデータに基づいて残響信号から音声を検出するためのシステムおよび関係する方法を開示する。いくつかの実施形態において、本システムは、スペクトル時間振幅データを受信するようにプログラムされる。本システムは、次いで、残響および他の雑音を低減するとともに、スペクトル時間振幅データに関連するスペクトル時間スペクトログラムの変調周波数領域における特定の性質に基づいて平滑化することによって、スペクトル時間振幅データを強調するようにプログラムされる。次に、本システムは、強調化スペクトル時間振幅データと、変調周波数領域または(音響)周波数領域における他のデータとに基づいて、音声の存在に関係する様々な特徴を計算するようにプログラムされる。本システムは、次いで、様々な特徴に基づいて、受信したスペクトル時間振幅データに対応するオーディオデータ内に存在する音声の程度(extent of speech)を決定するようにプログラムされる。本システムは、存在する音声の程度を出力デバイスに送信するようにプログラム可能である。
【0023】
いくつかの実施形態において、強調化スペクトル時間振幅データを生成するために残響を低減することは、主に、特定の変調周波数範囲内にある情報をフィルタリングによって除去することに基づく。残響の存在が低減されたことを特徴づける特徴を計算することは、典型的には周波数領域に適用される、既存のメトリクスを変調周波数領域に適用すること、または、スペクトル時間振幅に関連する変調スペクトログラムから特徴を直接抽出することを含むことができる。
【0024】
本システムは、技術的な利点を与える。本システムは、音声と(残響を含む)雑音とを区別する特徴を、音声データからインテリジェントに選択することで、効果的なVADを可能にする。これらの特徴は、異なるレベルで存在可能であり、環境中の雑音に関係するものと、クリーンな音声に関係するものとがあり、これらの特徴を使用した分類の正確性を高めることができる。このようなVADは、さらに、所与の音声データからクリーンな音声を検出および抽出することを可能にし、特に残響が頻繁に発生する環境において多くの用途を有する。
【0025】
2.コンピューティング環境の例
図1は、様々な実施形態が実施され得るネットワーク化されたコンピュータシステムの例を例示する。
図1は、明確な例を示すための簡略化された模式形態で示されており、他の実施形態は、より多くの要素、より少ない要素、または異なる要素を含み得る。
【0026】
いくつかの実施形態において、ネットワーク化されたコンピュータシステムは、オーディオ管理サーバコンピュータ102(「サーバ」)と、1つまたは複数のセンサ104または入力デバイスと、1つまたは複数の出力デバイス110とを備え、これらは、直接的な物理的接続を介して、または、1つまたは複数のネットワーク118を介して通信可能に接続される。
【0027】
いくつかの実施形態において、サーバ102は、広義には、1つまたは複数のコンピュータ、仮想コンピューティングインスタンス、および/または、雑音低減による低遅延音声強調に関係する機能をホストまたは実行するように配置されたデータ構造および/またはデータベースレコードを用いてプログラムまたは構成されたアプリケーションのインスタンスを表す。サーバ102は、サーバファーム、クラウドコンピューティングプラットフォーム、並列コンピュータ、または上述の機能のためのデータ処理、データ格納、およびネットワーク通信において十分なコンピューティングパワーを有する任意の他のコンピューティング設備を備えることができる。
【0028】
いくつかの実施形態において、1つまたは複数のセンサ104の各々は、マイクロフォン、または、音を電気信号に変換する他のデジタル記録装置を含むことができる。各センサは、検出された音声データをサーバ102に送信するように構成される。各センサは、プロセッサを含んでもよいし、または、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スマートフォン、またはウェアラブルデバイスなどの典型的なクライアントデバイスに一体化されてもよい。
【0029】
いくつかの実施形態において、1つまたは複数の出力デバイス110の各々は、スピーカ、または、電気信号を音に変換し直す他のデジタル再生デバイスを含むことができる。各出力デバイスは、サーバ102から受信したオーディオデータを再生するようにプログラムされる。センサと同様に、出力デバイスは、プロセッサを含んでもよいし、または、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スマートフォン、またはウェアラブルデバイスなどの典型的なクライアントデバイスに一体化されてもよい。
【0030】
1つまたは複数のネットワーク118は、
図1の様々な要素間でのデータの交換を提供する任意の媒体または機構によって実装され得る。ネットワーク118の例は、限定されないが、セルラーアンテナを介してコンピューティングデバイスへのデータ接続に通信可能に接続されたセルラーネットワーク、近距離通信(NFC)ネットワーク、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット、地上波リンクまたは衛星リンクなどのうちの1つ以上を含む。
【0031】
いくつかの実施形態において、サーバ102は、1つまたは複数のセンサ104からの所与の環境内の音に対応する入力オーディオデータを受信するようにプログラムされる。サーバ102は、次に、入力オーディオデータ(典型的には、音声と雑音が混合されたものに相当する)を処理して、入力データの各フレームにおいてどれだけの音声が存在するかを推定するようにプログラムされる。また、サーバ102は、当該推定に基づいて入力オーディオデータを更新して、入力オーディオデータよりも少ない雑音を含むと期待されるクリーンアップされた出力オーディオデータを生成するようにプログラムされる。さらに、サーバ102は、出力オーディオデータを1つまたは複数の出力デバイスに送るようにプログラムされる。
【0032】
3.コンピュータコンポーネントの例
図2は、開示された実施形態に係るオーディオ管理サーバコンピュータのコンポーネントの例を例示する。この図は、例示のみを目的とし、サーバ102は、より少ないまたはより多くの機能または記憶コンポーネントを備えることができる。機能コンポーネントの各々は、ソフトウェアコンポーネント、汎用もしくは専用のハードウェアコンポーネント、ファームウェアコンポーネント、または、これらの任意の組み合わせとして実装することができる。また、機能コンポーネントの各々は、1つまたは複数の記憶コンポーネント(図示せず)に接続することができる。記憶コンポーネントは、リレーショナルデータベース、オブジェクトデータベース、フラットファイルシステム、またはJSONストアのうちのいずれかを使用して実装することができる。記憶コンポーネントは、プログラムコール、リモートプロシージャコール(RPC)ファシリティ、またはメッセージングバスを使用して、ローカルにまたはネットワークを介して機能コンポーネントに接続することができる。コンポーネントは、自己完結型であってもよいし、そうでなくてもよい。実装に固有の考慮事項または他の考慮事項に依存して、コンポーネントは、機能的または物理的に集中または分散され得る。
【0033】
いくつかの実施形態において、サーバ102は、変調領域アテンションモジュール220を備える。変調領域アテンションモジュール220は、拡散性指標モジュール202と、スペクトル時間振幅強調化器204と、強調化特徴抽出器206とを備える。また、サーバ102は、特徴融合演算器208と、分類演算器210とを備える。
【0034】
いくつかの実施形態において、拡散性指標モジュール202は、変調周波数領域における異なるクラスタリング特性に基づいて、音声と非音声(例えば、残響または他の雑音)とを区別する区別可能特徴の生成を可能にするコンピュータ実行可能命令を含む。
【0035】
いくつかの実施形態において、スペクトル時間振幅強調化器204は、強調化特徴抽出のために、変調周波数領域におけるスペクトル時間振幅の強調を可能にするコンピュータ実行可能命令を含む。
【0036】
いくつかの実施形態において、強調化特徴抽出器206は、強調化スペクトル時間振幅データからの時間的特徴およびスペクトル特徴の抽出を可能にするコンピュータ実行可能命令を含む。
【0037】
いくつかの実施形態において、特徴融合演算器208は、拡散性指標モジュール202、強調化特徴抽出器206によって生成された特徴、および必要に応じて、さらに後述する他の特徴の組み合わせを可能にするコンピュータ実行可能命令を含む。
【0038】
いくつかの実施形態において、分類演算器210は、特徴融合演算器208によって生成された特徴の組み合わせに基づいて、所与のオーディオデータにおける、残響または他の雑音のないクリーンな音声の存在を決定することを可能にするコンピュータ実行可能命令を含む。
【0039】
4.機能説明
混合オーディオ信号は時間領域において多くの重複を有し得るが、変調周波数分析によって追加的な次元が提供され、これはオーディオソース間により高い度合いの分離を呈し得る。言い換えれば、時間領域においてまずキャプチャされたオーディオ信号は、離散短時間フーリエ変換(STFT)のような変換によって、時間-周波数表現(TFR)(信号を時間と周波数の両方で表される時間の関数とする見方)に変換することができる。次いで、TFRは、所与の仮定下において変調周波数を表す第3の次元に拡張することができる。
【0040】
変調周波数領域は、典型的には、強度値を示す変調スペクトログラムによって示される。変調スペクトログラムにおいては、
図3A、
図3B、
図4A、
図4B、
図5A、
図5B、および
図5Cに例示されるように、縦軸が通常の音響周波数インデックスkを表し、横軸が変調周波数インデックスiを表す。変調スペクトログラムは、オーディオソース間のより大きな度合いの分離を示すことができる。
【0041】
変調周波数領域において、クリーン(無響)な音声、時間エンベロープは、発話音声の音節速度に対応する約4Hzにおいてスペクトルのピークを有する、2~16Hzの範囲の周波数を含む。しかし、雑音および残響は、異なる変調特性を示す。残響のある音声では、拡散残響テール(tail)は、指数関数的に減衰するガウスホワイト雑音プロセスとしてモデル化されることが多い。残響レベルが増大するにつれて、信号は、よりガウスホワイト雑音のような性質を得る。残響信号は、残響テールの「ホワイトニング」効果により、より高い周波数の時間エンベロープを示す。
【0042】
図3Aは、残響時間が0msであるクリーンな残響音声信号に対する音響/変調周波数表現におけるエネルギープロットを例示する。
図3Bは、残響時間が500msであるクリーンな残響音声信号に対する音響/変調周波数表現におけるエネルギープロットを例示する。
図3Cは、残響時間が1秒(s)であるクリーンな残響音声信号に対する音響/変調周波数表現におけるエネルギープロットを例示する。
図3Bに例示するように、クリーンな音声に対して、変調エネルギー302の大部分は、主に変調周波数領域において10Hzより下に位置し、約4Hzにピークを有する。
図3Cに例示するように、残響は、より高い変調周波数へのエネルギーのスミアリング(smearing)を引き起こす。残響が強いほど、より高い変調周波数により大きくシフトする。これらの図は、クリーンな音声は、一般により高いエネルギーとなるが、より低い変調周波数領域に集中し、残響が多いほど、より高い変調周波数領域により多くのエネルギーがシフトすることを示す。
【0043】
室内雑音の拡散は、典型的には、時間の関数としてゆっくりと発生するため、室内雑音の変調スペクトルは、1Hzより下の変調周波数が優勢である。したがって、室内雑音のエンベロープは、定数+ランダム値としてモデル化できる。一定エンベロープは、主エネルギーをカバーし、変調周波数において1Hzより下に集中しており、ランダムエンベロープは、変調周波数領域全体に一様に分布する残余エネルギーをカバーする。
【0044】
図4Aは、室内で記録された雑音(音声のない室内雑音)に対する音響/変調周波数表現におけるエネルギープロットを例示し、ここで、変調周波数の範囲は、最大で24Hzであり、0~24Hzにわたって正規化される。
図4Aに示すように、主エネルギーは、変調周波数において1Hzより下に集中しており、これは、室内雑音の一定エンベロープを例示している。
図4Bは、室内で記録された雑音に対する音響/変調周波数表現における、正規化されたエネルギープロットを例示し、ここで、変調周波数の範囲は、4~24Hzであり、4~24Hzにわたって正規化される。
図4Bに示すように、室内雑音の残留ランダムエンベロープは、変調周波数次元に沿って一様な分布を示す。その上、エネルギーは、主に低い音響周波数に集中し、音響周波数が増大するにつれて徐々に低減する。
【0045】
図5Aは、信号対雑音(SNR)比が20dBである音響/変調周波数表現におけるエネルギープロットを例示する。
図5Bは、信号対雑音(SNR)比が10dBである音響/変調周波数表現におけるエネルギープロットを例示する。
図5Cは、信号対雑音(SNR)比が0dBである音響/変調周波数表現におけるエネルギープロットを例示する。ここで、雑音は、実際に記録された室内雑音である。これらの図からわかるように、変調周波数が4Hzより上である場合、
図4Aに示された室内雑音の一定時間エンベロープ(4Hzより下)は、フィルタリングまたはマスキングされ、
図4Bに示された雑音の残りのランダム時間エンベロープは、特に低音響周波数帯域において、音声領域を比較的一様にマスキングする。雑音が強いほど、変調周波数領域においてマスキングが大きくなる。これは、
図5Cの504などの同じ音響周波数帯域のほとんどの部分のうちの、502などの高エネルギー部分の割合が、同じ音響周波数帯域のほとんどの部分のうちの、506などの高エネルギー部分の割合と比較して小さいことからわかる。したがって、ほとんどのエネルギーは、低い音響周波数帯域において存在する。加えて、クリーンな音声は、一般的に高いエネルギーを生じるが、より低い変調周波数領域に集中し、「雑音」が多いほど、より高い変調周波数領域にエネルギーを取り込むランダム時間エンベロープのブレンディングまたはマスキングがより大きくなる。
【0046】
いくつかの実施形態において、サーバ102は、時間領域信号x(n)を受信する。ここで、nは、離散時間依存変数を表す。x(n)の時間-周波数(T-F)変換X(l,k)は、STFTを使用して得ることができる。
【数1】
ここで、lは、時間/フレームインデックスを表し、kは、チャネルインデックスを表し、Nは、フレーム長さまたは高速フーリエ変換(FFT)長さを表し、g(.)は、長さNを有する分析ウインドウを表し、Mは、間引き係数(decimated factor)を表す。
【0047】
いくつかの実施形態において、サーバ102は、次いで、T-F変換された狭帯域信号であるX(l,k)を、以下の変換行列を使用して、人間の聴覚系に基づいて、知覚音響帯域のスペクトル時間振幅Y(l,m)に変換する。
【数2】
ここで、mは、知覚音響帯域のインデックスを表し、Hは、バンディング(banding)用に設計された(N/2+1)×(N/2+1)行列であり、X(l,0:N/2)は、X(l,k)を表す(ここで、kは、0より大きく、N/2までの範囲にある)。X(l,k)のうちの最初のN/2+1個の狭帯域だけが使用される。なぜなら、残留の狭帯域は、実数値信号に対して、最初のN/2+1個のFFT成分によって回復できるからである。
【0048】
いくつかの実施形態において、任意のフレームl、知覚音響帯域m、および変調帯域cにおける変調スペクトル測定値(スペクトログラム)Z(l,m,c)は、FFT上のスペクトル振幅ベースの最後のL個のフレームを使用して計算される。
【数3】
ここで、ω(.)は、当業者に知られたウインドウ関数を表す。
【0049】
4.1.拡散性指標モジュール
いくつかの実施形態において、拡散性モジュール202におけるサーバ102は、最後のL個のフレームに基づいて、特定の時間に対する、変調周波数領域のより低い範囲にあるエネルギーと、変調周波数領域のより高い範囲にあるエネルギーとの間の関係を特徴づける拡散性インジケータ(DI)を計算する。上述したように、クリーンな音声に対応するエネルギーデータは、変調周波数領域におけるより低い範囲にある傾向があるが、クリーンな音声に混じる残響および他の雑音が多いほど、その混合したものに対応するエネルギーデータは、変調周波数領域におけるより高い範囲に拡がる傾向があり、その結果、変調周波数領域においてエネルギー値がより大きく「拡散」する。したがって、より高いDIは、残響のより大きいオーディオ信号、またはその他雑音がより多いオーディオ信号を示す。
【0050】
いくつかの実施形態において、DIは、変調スペクトルの重心として計算できる。
【数4】
ここで、c
Lおよびc
Hは、典型的には3Hzおよび30Hzに対応する、上記分析における最も低い変調帯域および最も高い変調帯域を示し、m
Lおよびm
Hは、上記分析における最も低い音響帯域および最も高い音響帯域を示し、典型的には125Hzおよび8000Hzに対応する。
【0051】
いくつかの実施形態において、DIは、低い変調部と高い変調部とのエネルギー比として計算できる。
【数5】
ここで、c
L1およびc
L2は、典型的には3Hzおよび16Hzに対応する変調帯域を示し、c
H1およびc
H2は、典型的には16Hzおよび30Hzに対応する変調帯域を示す。
【0052】
いくつかの実施形態において、拡散性指標は、低変調部と全変調部とのエネルギー比として計算できる。
【数6】
【0053】
4.2.スペクトル時間振幅強調化器
図6は、スペクトル時間振幅強調化器における、サーバによって雑音低減が実行されることを伴う、時間スペクトル振幅データを強調するプロセスを例示する。いくつかの実施形態において、スペクトル時間振幅強調化器204におけるサーバ102は、変調周波数領域における残響および雑音フィルタリング、残留雑音推定、および残留雑音抑制を含む一連のステップを行って、初期スペクトル時間振幅データを強調化スペクトル時間振幅データに変換する。
【0054】
いくつかの実施形態において、式(1)から計算される変調スペクトル測定値が与えられると、ボックス604におけるサーバ102は、雑音および残響をフィルタリングして、フィルタリングされた変調スペクトル測定値
【数7】
を以下のように得る。
【数8】
ここで、式(2)に示したように、c
Lは、低カットオフ変調帯域のインデックスであり、c
Hは、高カットオフ変調帯域のインデックスである。
【0055】
いくつかの実施形態において、ボックス606におけるサーバ102は、フィルタリングされた変調スペクトル測定値を以下のように平滑化する。ある関数の平方の和(または積分)は、そのフーリエ変換の平方の和(または積分)に等しいことを大まかに示すパーセバルの定理によれば、以下となる。
【数9】
ここで、|Y(n,m)|
2は、振幅Y(n,m)に対応するスペクトル時間エネルギーに比例する。
【0056】
サーバ102は、以下のように集計することにより、変調周波数領域における平滑化スペクトル時間エネルギー
【数10】
を計算する。
【数11】
この式は、式(6)に記載の|Y(n,m)|
2の平均を表す。
【0057】
ここで、サーバ102は、上記の式(5)および(6)に基づいて、変調周波数領域における残響および雑音フィルタリングを伴う、強調化スペクトル時間エネルギー
【数12】
の計算を以下のように行う。
【数13】
【0058】
次いで、サーバ102は、上記式(7)に基づいて、平滑化強調化スペクトル時間振幅
【数14】
を以下のように計算することできる。
【数15】
ここで、FFTに共役対称性があるので、定数2を使用して、エネルギーがスケーリングされないままにする。
【0059】
いくつかの実施形態において、ボックス608におけるサーバ102は、残留(周囲)雑音のスペクトル時間振幅
【数16】
を推定する。一つの手法は、サーバ102がある期間にわたって室内のスペクトル時間エネルギーの最小レベルをトラッキングすることである。
【0060】
いくつかの実施形態において、ボックス610におけるサーバ102は、以下のように、残留雑音推定および抑制を行って、ボックス620の出力データとして強調化スペクトル時間振幅
【数17】
を得る。
【数18】
【0061】
いくつかの実施形態において、変調周波数領域におけるデータを使用し、機械学習モデルを介して強調化スペクトル時間振幅を計算できる。当該モデルを構築するために、ある範囲の長さ(例えば、5分)の長さのクリーンな音声、雑音、および残響の組み合わせに対応する変調周波数領域におけるいくつかのスペクトル時間振幅データを含む「元の音声」クラスを訓練データセットに入力データとして含めることができる。平滑化され雑音が低減されたクリーンな音声に対応する、変調周波数領域におけるいくつかのスペクトル時間振幅データを含む「強調化音声」クラスを、訓練データセットに出力データとして含めることができる。上述したように、上記雑音低減には、残響、周囲音、および他の雑音の除去が含まれる。次いで、arXiv:1709.08243またはarXiv:1704.07804[cs.CV]に記載の機械学習方法などの、当業者に既知の機械学習方法を訓練データセットに適用し、強調化スペクトル時間振幅データを生成するように構成されたモデルを構築することができる。次いで、特徴抽出器は、後述のように、元の振幅の代わりに強調化スペクトル時間振幅に基づいて特徴を抽出して、強調化特徴を導出することができる。
【0062】
4.3.強調化特徴抽出器
いくつかの実施形態において、強調化特徴抽出器206におけるサーバ102は、周波数スペクトルに通常適用される強調化メル周波数ケプストラム係数(MFCC)または強調化スペクトル平坦度(SFT)などの、強調化時間スペクトル振幅の特定の特徴を計算する。
【0063】
いくつかの実施形態において、サーバ102は、MFCCの計算において、元のスペクトル時間振幅の代わりに、スペクトル時間振幅強調化器204において計算された強調化時間スペクトル振幅を使用して、強調化MFCC(EMFCC)を計算する。メル周波数フィルタは、MFCCを計算する前に、特定のバンディング行列として扱うことができる。
【0064】
いくつかの実施形態において、サーバ102は、SFTの計算において、元のスペクトル時間振幅の代わりに、スペクトル時間振幅強調化器204において計算された強調化スペクトル時間振幅を使用して、強調化SFT(ESFT)を計算する。具体的には、元のSFTは、時間次元を説明するために、Y(l,m)を使用して、以下のように計算できる。
【数19】
ここで、Y(l,m)は、タイムスタンプlまたはl番目のフレームに対する知覚音響帯域mのスペクトル時間振幅を表し、Mは、周波数帯域の総数を表し、時間次元に沿って合計が取られる。ESFTは、以下のように、強調化スペクトル時間振幅
【数20】
から導出される。
【数21】
【0065】
いくつかの実施形態において、信号スペクトルの平坦またはピーク状態を特徴づけるために、または強調化スペクトル時間振幅のさらなる特徴を生成するために、以下などの他のスペクトルに関係した測定値を使用することもできる。
●ピーク帯域と他の帯域とのパワー比の合計に基づくスペクトルの山
●ピークと平均(ピーク帯域なし)とのパワー比に基づくスペクトルの山
●隣接するスペクトル帯域パワーの分散または標準偏差
●隣接する周波数帯域間のスペクトル帯域パワー差の合計または最大値
●スペクトル広がり(spread)またはそのスペクトル中心周辺のスペクトル分散
●スペクトルエントロピー
【0066】
4.4.特徴融合および分類
いくつかの実施形態において、特徴融合演算器208におけるサーバ102は、拡散性指標、強調化特徴、および強調のない他の一般的に用いられる特徴(周波数領域におけるゼロ交差率、スペクトルフラックス(flux)、またはピッチなど)を組み合わせる。次いで、サーバ102は、当該組み合わせから1つまたは複数の特徴ベクトルを計算する。すべての特徴の出力を単純に連結して1つの特徴にし、1つの特徴からなるベクトルを形成してもよい。また、異なる特徴が複数の特徴からなる1つのベクトルを形成していてもよい。あるいは、異なる特徴がそれぞれの特徴ベクトルを形成し、各ベクトルが1つの特徴を有するようにしてもよい。
【0067】
いくつかの実施形態において、分類演算器210におけるサーバ102は、機械学習モデルを介して、特徴融合演算器208によって生成された1つまたは複数の特徴ベクトルを分類する。当該モデルを構築するために、サーバ102は、様々な程度の音声(残響または他の雑音を含まない)および様々な程度の残響を含む一組のオーディオ信号(周波数領域および変調周波数領域に変換される)をモジュール202、204、206、および208に適用することによって生成される特徴ベクトルの訓練セットを準備することができる。「程度」は、音量またはラウドネス、すなわち音波の振幅、または別の音の特性についての割合として定義できる。訓練セットにおける各信号について、抽出された特徴ベクトルを入力データとし、信号内の何らかの音声の有無の指示(バイナリ値)、または、信号内のクリーンな音声の程度(連続値)を出力データとし得る。次いで、サーバ102は、ロジスティック回帰、適応ブースティング(AdaBoost)またはガウス混合モデル(GMM)を含む統計的手法、または多層パーセプトロンまたはサポートベクターマシンを含む人工ニューラルネットワークなどの、当業者に知られている分類のための任意の機械学習モデルを適用できる。例えば、ニューラルネットワークの場合、ソフトマックス関数を適用して、入力信号に音声が含まれる確率を計算できる。当該確率は、入力信号内の音声の程度の推定値として使用し得る。
【0068】
5.処理の例
図7は、本明細書に記載のいくつかの実施形態に係る、オーディオ管理サーバコンピュータを用いて行われるプロセスの例を例示する。
図7は、明瞭な例を例示する目的で簡略化された模式形式で示され、他の実施形態は、様々なやり方で接続されたより多くの、より少ない、または異なる要素を含んでもよい。
図7は、実行時に本明細書に記載される機能向上および技術的進歩を行わせる1つまたは複数のコンピュータプログラムまたは他のソフトウェア要素を実装するために使用できるアルゴリズム、計画、または概要を開示することが意図される。さらに、本明細書のフロー図は、コーディングまたは実装することを計画しているソフトウェアプログラムの基礎を形成するアルゴリズム、計画、または仕様について、当業者らが蓄積された技術および知識を使用して互いにコミュニケーションするために通常使用するものと同程度の詳細さで記載される。
【0069】
いくつかの実施形態において、ステップ702において、サーバ102は、時間領域における新しいオーディオデータを受信するようにプログラムされる。
【0070】
いくつかの実施形態において、ステップ704において、サーバ102は、一時点に対応する1個の上記新しいオーディオデータを、時間-周波数表現としての特定のスペクトル時間振幅(STA)に変換するようにプログラムされる。
【0071】
いくつかの実施形態において、ステップ706において、サーバ102は、上記時点に対する、音響帯域次元および変調帯域次元を有する変調スペクトル測定値(MSM)を、新しいオーディオデータから得られた1つまたは複数のSTAから得るようにプログラムされる。
【0072】
いくつかの実施形態において、ステップ708において、サーバ102は、MSMに基づいて、上記1個の新しいオーディオデータに対する変調周波数領域における拡散性の度合いを示す拡散性指標(DI)を計算するようにプログラムされる。
【0073】
いくつかの実施形態において、DIは、変調周波数帯域の一範囲および音響周波数帯域の一範囲におけるMSMの値に基づく変調スペクトルの重心である。他の実施形態において、DIは、変調周波数帯域の低い範囲および音響周波数帯域の一範囲におけるMSMの値に基づく低変調部と、変調周波数帯域の高い範囲および音響周波数帯域の一範囲におけるMSMの値に基づく高変調部とのエネルギー比である。他の実施形態において、DIは、変調周波数帯域の低い範囲および音響周波数帯域の一範囲におけるMSMの値に基づく低変調部と、変調周波数帯域の全範囲および音響周波数帯域の当該範囲におけるMSMの値に基づく全変調部とのエネルギー比である。
【0074】
いくつかの実施形態において、DIを計算することは、入力データとしての、クリーンな音声のみを有する音声データならびに異なる度合いの残響および他の雑音を有する音声データに対するMSMの測定値と、出力データとしての、対応するDI値とを用いて訓練された機械学習モデルを適用することを含む。
【0075】
いくつかの実施形態において、ステップ710において、サーバ102は、特定のSTAから残響および他の雑音をフィルタリングした強調化STAを生成するようにプログラムされる。
【0076】
いくつかの実施形態において、強調化STAを生成することは、変調周波数帯域の一範囲の外のMSMの値をフィルタリングして除去することを含む。他の実施形態において、変調周波数帯域の当該範囲は、3~30Hzである。
【0077】
いくつかの実施形態において、強調化STAを生成することは、時間にわたる集計によって平滑化スペクトル時間エネルギーを計算することを含む。他の実施形態において、強調化STAを生成することは、経時的に最小スペクトル時間エネルギーをトラッキングすることによって残留雑音を除去することを含む。
【0078】
いくつかの実施形態において、強調化STAを生成することは、入力データとしての、異なる度合いの残響および他の雑音に対応するスペクトル時間振幅データと、出力データとしての、クリーンな音声のみに対応する対応のスペクトル時間振幅データとを用いて訓練された機械学習モデルを適用することを含む。他の実施形態において、サーバ102は、機械学習モデルの適用から、低いカットオフ変調周波数および高いカットオフ変調周波数を含む、クリーンな音声を特徴づける特徴を抽出するようにさらにプログラムされる。
【0079】
いくつかの実施形態において、ステップ712において、サーバ102は、強調化STAから1つまたは複数の特徴を計算し、DIおよび当該1つまたは複数の特徴を使用して1つまたは複数の特徴ベクトルを作成するようにプログラムされる。
【0080】
いくつかの実施形態において、上記計算することは、強調化メル周波数フィルタケプストラム係数(MFCC)を計算することを包含し、MFCCの計算の最後のステップにおいて使用するための強調化STAにメル周波数フィルタを適用することによって強調化MFCCを計算する。他の実施形態において、上記計算することは、強調化スペクトル平坦度(SFT)を計算することを包含し、STAの代わりに強調化STAを使用し、SFTの計算において経時的に値を合計することによって強調化SFTを計算する。
【0081】
いくつかの実施形態において、上記1つまたは複数の特徴は、ピーク帯域と他の帯域とのパワー比の合計に基づくスペクトルの山、ピークと平均(ピーク帯域なし)とのパワー比に基づくスペクトルの山、隣接するスペクトル帯域パワーの分散または標準偏差、隣接する周波数帯域間のスペクトル帯域パワー差の合計または最大値、スペクトル広がりまたはスペクトル中心周辺のスペクトル分散、およびスペクトルエントロピーを含む。
【0082】
いくつかの実施形態において、ステップ714において、サーバ102は、上記1つまたは複数の特徴ベクトルから上記1個の新しいオーディオデータにおけるスピーチの程度の推定値を決定し、上記1個の新しいオーディオデータにおける上記スピーチの程度の推定値を送信するようにプログラムされる。
【0083】
いくつかの実施形態において、上記判定することは、入力データとしての、クリーンな音声に対応するスペクトル時間振幅データならびに異なる度合いの残響および他の雑音に対応するスペクトル時間振幅データの1つまたは複数の特徴と、出力データとしての、対応する音声の程度とを用いて訓練された機械学習モデルを適用することを含む。
【0084】
6.ハードウェア実装
一実施形態によれば、本明細書に記載の技術は、少なくとも1つのコンピューティングデバイスによって実装される。当該技術は、パケットデータネットワークなどのネットワークを用いて接続された少なくとも1つのサーバコンピュータおよび/または他のコンピューティングデバイスの組み合わせを使用して、全体的または部分的に実装され得る。コンピューティングデバイスは、当該技術を行うようにハードワイヤードされてもよいし、または当該技術を行うように持続的にプログラムされた少なくとも1つの特定用途向け集積回路(ASIC)またはフィールドプログラマブルゲートアレイ(FPGA)などのデジタル電子デバイスを含んでもよいし、あるいはファームウェア、メモリ、他のストレージ、または組み合わせにおけるプログラム命令に従って当該技術を行うようにプログラムされた少なくとも1つの汎用ハードウェアプロセッサを含んでもよい。また、そのようなコンピューティングデバイスは、上記技術を達成するために、カスタムハードワイヤードロジック、ASIC、またはFPGAをカスタムプログラミングと組み合わせてもよい。コンピューティングデバイスは、サーバコンピュータ、ワークステーション、パーソナルコンピュータ、ポータブルコンピュータシステム、手持ち式デバイス、モバイルコンピューティングデバイス、ウェアラブルデバイス、身体装着型もしくは埋め込み型デバイス、スマートフォン、スマート家電、インターネットワーキングデバイス、自律もしくは半自律デバイス(ロボットまたは無人の地上もしくは空中乗り物など)、上記技術を実装するためのハードワイヤードロジックおよび/またはプログラムロジックを組み込まれた任意の他の電子デバイス、データセンタにおける1つ以上の仮想コンピューティングマシンもしくはインスタンス、ならびに/または、サーバコンピュータおよび/もしくはパーソナルコンピュータのネットワークであってもよい。
【0085】
図8は、一実施形態が実装され得るコンピュータシステムの例を例示するブロック図である。
図8の例において、コンピュータアーキテクチャおよびコンピュータシステム実装について理解してもらうために、上記開示の技術をハードウェア、ソフトウェア、またはハードウェアとソフトウェアとの組み合わせにおいて実装するためのコンピュータシステム800および命令を模式的に、例えば四角および円として、本開示が関係する技術分野の当業者によって一般に使用される詳細さと同じレベルの詳細さで表す。
【0086】
コンピュータシステム800は、電子信号経路を介してコンピュータシステム800のコンポーネント間で情報および/または命令を通信するためのバスおよび/または他の通信機構を含み得る入力/出力(I/O)サブシステム802を含む。I/Oサブシステム802は、I/Oコントローラ、メモリコントローラ、および少なくとも1つのI/Oポートを含み得る。電子信号経路は、図において模式的に、例えば線、一方向矢印、または双方向矢印として表されている。
【0087】
情報および命令を処理するために、I/Oサブシステム802には、少なくとも1つのハードウェアプロセッサ804が接続される。ハードウェアプロセッサ804は、例えば、汎用マイクロプロセッサもしくはマイクロコントローラ、および/または、埋め込みシステム、グラフィックス処理ユニット(GPU)、デジタル信号プロセッサもしくはARMプロセッサなどの専用マイクロプロセッサを含み得る。プロセッサ804は、集積算術ロジックユニット(ALU)を備えてもよいし、または、別個のALUに接続されてもよい。
【0088】
コンピュータシステム800は、データおよびプロセッサ804によって実行されるべき命令を電子的にデジタルで格納するために、I/Oサブシステム802に接続された、1つまたは複数のユニット(メインメモリなど)からなるメモリ806を含む。メモリ806は、様々な形態のランダムアクセスメモリ(RAM)または他のダイナミックストレージデバイスなどの揮発性メモリを含み得る。また、メモリ806は、プロセッサ804によって実行されるべき命令の実行中に一時的な変数または他の中間情報を格納するために使用され得る。そのような命令は、プロセッサ804にとってアクセス可能な非一時的コンピュータ読み取り可能記憶媒体に格納された場合、コンピュータシステム800を、当該命令で規定された動作を行うようにカスタマイズされた専用マシンにすることができる。
【0089】
コンピュータシステム800は、さらに、プロセッサ804に対する情報および命令を格納するために、I/Oサブシステム802に接続された不揮発性メモリ(読み出し専用メモリ(ROM)808または他の静的ストレージデバイスなど)を含む。ROM808は、消去可能PROM(EPROM)または電気的消去可能PROM(EEPROM)などの様々な形態のプログラマブルROM(PROM)を含み得る。一ユニットの持続的ストレージ810は、フラッシュメモリなどの様々な形態の不揮発性RAM(NVRAM)、またはソリッドステートストレージ、磁気ディスク、またはCD-ROMもしくはDVD-ROMなどの光ディスクを含み得るし、情報および命令を格納するためにI/Oサブシステム802に接続され得る。ストレージ810は、プロセッサ804による実行時にコンピュータ実装された方法を行って本明細書に記載の技術を実行させる命令およびデータを格納するために使用され得る非一時的コンピュータ読み取り可能媒体の一例である。
【0090】
メモリ806、ROM808、またはストレージ810における命令は、モジュール、メソッド、オブジェクト、関数、ルーチン、またはコールとして構成された1つまたは複数のセットの命令を含み得る。命令は、1つまたは複数のコンピュータプログラム、オペレーティングシステムサービス、またはモバイルアプリを含むアプリケーションプログラムとして構成され得る。命令は、オペレーティングシステムおよび/またはシステムソフトウェア;マルチメディア、プログラミング、または他の機能をサポートする1つまたは複数のライブラリ;TCP/IP、HTTP、または他の通信プロトコルを実装するデータプロトコル命令またはスタック;HTML、XML、JPEG、MPEG、またはPNGを使用してコーディングされたファイルをインタプリタおよびレンダリングするファイル処理命令;グラフィカルユーザインタフェース(GUI)、コマンドラインインタフェース、またはテキストユーザインタフェースのためのコマンドをレンダリングまたはインタプリタするユーザインタフェース命令;オフィススイート、インターネットアクセスアプリケーション、設計および製造アプリケーション、グラフィックスアプリケーション、オーディオアプリケーション、ソフトウェアエンジニアリングアプリケーション、教育アプリケーション、ゲーム、または他のアプリケーションなどのアプリケーションソフトウェアを含み得る。命令は、ウェブサーバ、ウェブアプリケーションサーバ、またはウェブクライアントを実装し得る。命令は、プレゼンテーション層、アプリケーション層、および、構造化照会言語(SQL)もしくはNoSQLを使用するリレーショナルデータベースシステム、オブジェクトストア、グラフデータベース、フラットファイルシステム、または他のデータストレージなどのデータストレージ層として構成され得る。
【0091】
コンピュータシステム800は、I/Oサブシステム802を介して少なくとも1つの出力デバイス812に接続され得る。一実施形態において、出力デバイス812は、デジタルコンピュータディスプレイである。様々な実施形態において使用され得るディスプレイの例は、タッチスクリーンディスプレイまたは発光ダイオード(LED)ディスプレイまたは液晶ディスプレイ(LCD)または電子ペーパーディスプレイを含む。コンピュータシステム800は、ディスプレイデバイスに代えて、または、それに加えて、他のタイプの出力デバイス812を含み得る。他の出力デバイス812の例は、プリンタ、チケットプリンタ、プロッタ、プロジェクタ、サウンドカードもしくはビデオカード、スピーカ、ブザーもしくは圧電デバイスもしくは他の可聴デバイス、ランプもしくはLEDもしくはLCDインジケータ、触覚デバイス、アクチュエータ、またはサーボを含む。
【0092】
信号、データ、コマンド選択、またはジェスチャをプロセッサ804に通信するために、少なくとも1つの入力デバイス814がI/Oサブシステム802に接続される。入力デバイス814の例は、タッチスクリーン、マイクロフォン、スチルおよびビデオデジタルカメラ、英数字および他のキー、キーパッド、キーボード、グラフィックスタブレット、イメージスキャナ、ジョイスティック、クロック、スイッチ、ボタン、ダイヤル、スライド、ならびに/または、力センサ、モーションセンサ、熱センサ、加速度計、ジャイロスコープ、および慣性測定ユニット(IMU)センサなどの様々なタイプのセンサ、ならびに/または、セルラーもしくはWi-Fiなどの無線、無線周波数(RF)もしくは赤外線(IR)トランシーバ、および全地球測位システム(GPS)トランシーバなどの様々なタイプのトランシーバを含む。
【0093】
別のタイプの入力デバイスは、制御デバイス816である。制御デバイス816は、入力機能に代えて、または、それに加えて、カーソル制御、または、表示画面上のグラフィカルインタフェースにおけるナビゲーションなどの他の自動化された制御機能を行い得る。制御デバイス816は、方向情報およびコマンド選択をプロセッサ804に通信するため、および、ディスプレイ812上のカーソル移動を制御するためのタッチパッド、マウス、トラックボール、またはカーソル方向キーであり得る。入力デバイスは、当該デバイスが平面内の位置を特定することを可能にする、第1の軸(例えば、x)および第2の軸(例えば、y)の2つの軸における少なくとも2自由度を有し得る。別のタイプの入力デバイスは、ジョイスティック、ワンド(wand)、コンソール、ステアリングホイール、ペダル、ギアシフト機構、または他のタイプの制御デバイスなどの、有線、無線、または光学式の制御デバイスである。入力デバイス814は、例えばビデオカメラと深度センサなどの複数の異なる入力デバイスの組み合わせを含み得る。
【0094】
別の実施形態において、コンピュータシステム800は、出力デバイス812、入力デバイス814、および制御デバイス816のうちの1つまたは複数が省略されたモノのインターネット(IoT)デバイスを備え得る。あるいは、そのような実施形態において、入力デバイス814は、1つまたは複数のカメラ、モーション検出器、温度計、マイクロフォン、地震検出器、他のセンサもしくは検出器、測定デバイス、またはエンコーダを備え得るし、出力デバイス812は、シングルラインLEDもしくはLCDディスプレイなどの専用ディスプレイ、1つ以上のインジケータ、ディスプレイパネル、メータ、バルブ、ソレノイド、アクチュエータ、またはサーボを備え得る。
【0095】
コンピュータシステム800がモバイルコンピューティングデバイスである場合、入力デバイス814は、複数の全地球測位システム(GPS)衛星に対して三角測量し、コンピュータシステム800の地球物理学的位置について、緯度-経度値などのジオロケーションまたは位置データを決定および生成することができるGPSモジュールに接続されたGPS受信器を備え得る。出力デバイス812は、位置報告パケット、通知、パルスもしくはハートビート信号、またはコンピュータシステム800の位置を特定する他の繰り返し発生するデータ送信を、単独で、または、他のアプリケーション特定データと組み合わせて、ホスト824またはサーバ830に向けて、生成するためのハードウェア、ソフトウェア、ファームウェア、およびインタフェースを含み得る。
【0096】
コンピュータシステム800は、カスタマイズされたハードワイヤードロジック、少なくとも1つのASICもしくはFPGA、ファームウェア、および/または、ロードされてコンピュータシステムと組み合わせて使用または実行されるときにコンピュータシステムを専用マシンとして動作させるか、または、専用マシンとして動作するようにコンピュータシステムをプログラムするプログラム命令もしくはロジックを用使用して、本明細書に記載の技術を実装し得る。一実施形態によれば、本技術は、プロセッサ804がメインメモリ806に含まれる少なくとも1つの命令の少なくとも1つのシーケンスを実行することに応答して、コンピュータシステム800によって行われる。そのような命令は、ストレージ810などの別の記憶媒体からメインメモリ806に読み込まれ得る。メインメモリ806に含まれる命令のシーケンスの実行により、プロセッサ804は、本明細書に記載のプロセスステップを実行する。代替の実施形態において、ソフトウェア命令の代わりに、または、それと組み合わせて、ハードワイヤード回路が使用され得る。
【0097】
本明細書にて使用される用語「記憶(ストレージ)媒体」は、データおよび/またはマシンを特定のやり方で動作させる命令を格納する任意の非一時的な媒体を指す。そのような記憶媒体は、不揮発性の媒体および/または揮発性の媒体を含み得る。不揮発性の媒体は、例えば、例えば、ストレージ810などの光ディスクまたは磁気ディスクを含む。揮発性の媒体は、例えば、メモリ806などのダイナミックメモリを含む。記憶媒体の一般的な形態は、例えば、ハードディスク、ソリッドステートドライブ、フラッシュドライブ、磁気データ記憶媒体、任意の光学的または物理的データ記憶媒体、メモリチップなどを含む。
【0098】
記憶媒体は、伝送媒体とは異なるが、伝送媒体と併用され得る。伝送媒体は、記憶媒体間で情報を転送することに関与する。例えば、伝送媒体は、同軸ケーブル、銅線、および光ファイバを含み、I/Oサブシステム802のバスなどの配線を含む。また、伝送媒体は、電波および赤外線データ通信において生成されるものなどの音波または光波の形態をとることもできる。
【0099】
実行のための少なくとも1つの命令の少なくとも1つのシーケンスをプロセッサ804に搬送することに様々な形態の媒体が関与し得る。例えば、命令は、遠隔のコンピュータの磁気ディスクまたはソリッドステートドライブ上に最初に保持され得る。遠隔のコンピュータは、命令をそれ自体のダイナミックメモリにロードし、モデムを使用し、光ファイバまたは同軸ケーブルまたは電話回線などの通信リンクを介して命令を送信することができる。通信リンク上のデータは、コンピュータシステム800に対して近接のモデムまたはルータが受信し、コンピュータシステム800が読み取れるように変換することができる。例えば、無線信号または光信号で搬送されたデータは、無線周波数アンテナまたは赤外線検出器などの受信器が受信でき、適切な回路によって、I/Oサブシステム802に与えること(データをバス上に置くことなど)ができる。I/Oサブシステム802は、データをメモリ806に搬送する。データは、プロセッサ804によってメモリ806から取り出され、命令が実行される。メモリ806によって受信された命令は、必要に応じて、プロセッサ804による実行の前または後のいずれかにおいてストレージ810上に格納されてもよい。
【0100】
また、コンピュータシステム800は、バス802に接続された通信インタフェース818を含む。通信インタフェース818は、ネットワーク822またはインターネット上のパブリッククラウドもしくはプライベートクラウドなどの少なくとも1つの通信ネットワークに直接的または間接的に接続されたネットワークリンク820に接続する双方向データ通信を提供する。例えば、通信インタフェース818は、イーサネットネットワーキングインタフェース、統合サービスデジタルネットワーク(ISDN)カード、ケーブルモデム、衛星モデム、または、例えばイーサネットケーブルもしくは任意の種類の金属ケーブルもしくは光ファイバ回線もしくは電話回線といった対応するタイプの通信回線へのデータ通信接続を提供するモデムであり得る。ネットワーク822は、広義には、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、キャンパスネットワーク、インターネットワーク、またはこれらの任意の組み合わせを表す。通信インタフェース818は、互換性のあるLANへのデータ通信接続を提供するLANカード、またはセルラー無線電話ワイヤレスネットワーキング規格に従ってセルラーデータを送信または受信するように有線接続されたセルラー無線電話インタフェース、または衛星ワイヤレスネットワーキング規格に従ってデジタルデータを送信または受信するように有線接続された衛星無線インタフェースを備え得る。任意のそのような実装において、通信インタフェース818は、様々なタイプの情報を表すデジタルデータストリームを搬送する信号経路を介して、電気信号、電磁信号、または光信号を送受信する。
【0101】
ネットワークリンク820は、典型的には、例えば衛星、セルラー、Wi-Fi、またはBLUETOOTH技術を使用して、直接的に、または、少なくとも1つのネットワークを介して、他のデータデバイスに電気、電磁、または光データ通信を提供する。例えば、ネットワークリンク820は、ネットワーク822を介するホストコンピュータ824への接続を提供し得る。
【0102】
さらに、ネットワークリンク820は、ネットワーク822を介した接続、または、インターネットサービスプロバイダ(ISP)826によって稼働されるインターネットワーキングデバイスおよび/またはコンピュータを介した他のコンピューティングデバイスへの接続を提供し得る。ISP826は、インターネット828として表されるワールドワイドパケットデータ通信ネットワークを介したデータ通信サービスを提供する。インターネット828には、サーバコンピュータ830が接続され得る。サーバ830は、広義には、任意のコンピュータ、データセンタ、ハイパーバイザを有するかもしくは有しない仮想マシンもしくは仮想コンピューティングインスタンス、またはDOCKERもしくはKUBERNETESなどのコンテナ化されたプログラムシステムを実行するコンピュータを表す。サーバ830は、2つ以上のコンピュータまたはインスタンスを使用して実装され、ウェブサービス要求、HTTPペイロード内にパラメータを有するユニフォームリソースロケータ(URL)文字列、APIコール、アプリサービスコール、または他のサービスコールを送信することによってアクセスされて使用される電子デジタルサービスを表してもよい。コンピュータシステム800およびサーバ830は、他のコンピュータ、処理クラスタ、サーバファーム、または、協働してタスクを実行行ったり、またはアプリケーションもしくはサービスを実行したりするコンピュータの他の構成を含む分散コンピューティングシステムの要素を形成してもよい。サーバ830は、モジュール、メソッド、オブジェクト、関数、ルーチン、またはコールとして構成された1つまたは複数のセットの命令を備え得る。命令は、1つまたは複数のコンピュータプログラム、オペレーティングシステムサービス、または、モバイルアプリを含むアプリケーションプログラムとして構成され得る。命令は、オペレーティングシステムおよび/またはシステムソフトウェア;マルチメディア、プログラミングまたは他の機能をサポートする1つまたは複数のライブラリ;TCP/IP、HTTPまたは他の通信プロトコルを実装するデータプロトコル命令もしくはスタック;HTML、XML、JPEG、MPEGまたはPNGを使用してコーディングされたファイルをインタプリタまたはレンダリングするファイルフォーマット処理命令;グラフィカルユーザインタフェース(GUI)、コマンドラインインタフェースまたはテキストユーザインタフェースのためのコマンドをレンダリングまたはインタプリタするユーザインタフェース命令;例えばオフィススイート、インターネットアクセスアプリケーション、設計および製造アプリケーション、グラフィックスアプリケーション、オーディオアプリケーション、ソフトウェアエンジニアリングアプリケーション、教育アプリケーション、ゲーム、または他のアプリケーションなどのアプリケーションソフトウェアを含み得る。サーバ830は、プレゼンテーション層、アプリケーション層、および、構造化照会言語(SQL)もしくはNoSQLを使用するリレーショナルデータベースシステム、オブジェクトストア、グラフデータベース、フラットファイルシステム、または他のデータストレージなどのデータストレージ層をホストするウェブアプリケーションサーバを備え得る。
【0103】
コンピュータシステム800は、ネットワーク、ネットワークリンク820、および通信インタフェース818を介して、メッセージを送信し、データおよびプログラムコードを含む命令を受信することができる。インターネットの例において、サーバ830は、インターネット828、ISP826、ローカルネットワーク822、および通信インタフェース818を介して、アプリケーションプログラムについて要求されたコードを送信し得る。受信されたコードは、受信時にプロセッサ804によって実行されてもよいし、かつ/または、後の実行のためにストレージ810または他の不揮発性ストレージに格納されてもよい。
【0104】
本節に記載の命令の実行は、プログラムコードおよびその現在の働きからなる実行中のコンピュータプログラムのインスタンスの形態でプロセスを実装し得る。オペレーティングシステム(OS)に依存して、プロセスは、命令を同時に実行する複数の実行スレッドから構成され得る。この意味において、コンピュータプログラムは、命令の受動的な集合であり、他方プロセスは、それらの命令の実際の実行であり得る。複数のプロセスが同じプログラムに関連し得る。例えば、同一のプログラムの複数のインスタンスを開くことは、2つ以上のプロセスが実行されていることを意味することが多い。複数のプロセスがプロセッサ804を共有することを可能にするようにマルチタスキングが実装され得る。各プロセッサ804またはそのプロセッサの各コアは、一度に1つのタスクを実行するが、コンピュータシステム800は、実行中の複数のタスクを各タスクの終了を待つ必要なく各プロセッサが切り替えることを可能とするために、マルチタスキングを実装するようにプログラムされ得る。一実施形態において、切り替えは、タスクが入力/出力動作を実行するとき、タスクがそれ自体が切り替え可能であることを示すとき、またはハードウェア割り込み時に、行われ得る。コンテキスト切り替えを高速に行って複数のプロセスの同時に実行されているように見えるようにすることによって、対話型ユーザアプリケーションのための高速な応答を可能にするようにタイムシェリングが実装され得る。一実施形態において、安全および信頼性のために、オペレーティングシステムは、独立したプロセス間の直接通信を防止して、厳密に仲介および制御されたプロセス間通信機能を提供してもよい。
【0105】
7.拡張および代替
上記において、実装ごとに異なり得る多くの具体的な詳細を参照して本開示された実施形態を説明した。このように、明細書および図面は、限定を意味するのではなく、例示を意味するとみなされるべきである。本開示の範囲を唯一かつ排他的に示すもの、および、出願人らが本開示の範囲であると意図するものは、本願から生じる請求項のセットの文字通りかつ同等な範囲であって、任意の後の補正を含む、そのような請求項が生じる具体的形態における範囲である。
【0106】
本発明の様々な態様は、以下(enumerated example embodiments:EEE)から理解され得る。
EEE1.
変調周波数領域におけるデータに基づいて残響信号から音声を検出するコンピュータによって実行される方法であって、
プロセッサによって、時間領域において新しいオーディオデータによってカバーされる一時点に対応する特定のスペクトル時間振幅(STA)を、時間-周波数表現として、取得するステップと、
前記時点に対する、音響帯域次元および変調帯域次元を有する変調スペクトル測定値(MSM)を、新しいオーディオデータから得られた1つまたは複数のSTAから取得するステップと、
前記MSMに基づいて、前記1個の新しいオーディオデータに対する変調周波数領域における拡散性の度合いを示す拡散性指標(DI)を計算するステップと、
前記特定のSTAから残響および他の雑音をフィルタリングした強調化STAを生成するステップと、
前記強調化STAから1つまたは複数の特徴を計算するステップと、
前記DIおよび前記1つまたは複数の特徴を使用して1つまたは複数の特徴ベクトルを作成するステップと、
前記1つまたは複数の特徴ベクトルから前記1個の新しいオーディオデータにおける音声の程度の推定値を決定するステップと、
前記1個の新しいオーディオデータにおける前記音声の程度の前記推定値を出力するステップと、
を含む、コンピュータによって実行される方法。
EEE2.
前記DIは、変調周波数帯域の一範囲および音響周波数帯域の一範囲における前記MSMの値に基づく変調スペクトルの重心である、
EEE1のコンピュータによって実行される方法。
EEE3.
前記DIは、変調周波数帯域の低い範囲および音響周波数帯域の一範囲における前記MSMの値に基づく低変調部と、変調周波数帯域の高い範囲および音響周波数帯域の前記範囲における前記MSMの値に基づく高変調部とのエネルギー比である、
EEE1のコンピュータによって実行される方法。
EEE4.
前記DIは、変調周波数帯域の低い範囲および音響周波数帯域の一範囲における前記MSMの値に基づく低変調部と、変調周波数帯域の全範囲および音響周波数帯域の前記範囲における前記MSMの値に基づく全変調部とのエネルギー比である、
EEE1のコンピュータによって実行される方法。
EEE5.
前記取得するステップは、前記時点より前の所定の個数の連続した時点に対応する複数個の新しいオーディオデータを使用し、高速フーリエ変換を用いて前記MSMを計算するステップを含む、
EEE1のコンピュータによって実行される方法。
EEE6.
前記強調化STAを生成するステップは、変調周波数帯域の除外された範囲の外側の前記MSMの値をフィルタリングして除去するステップを含む、
EEE1~5のいずれかのコンピュータによって実行される方法。
EEE7.
変調周波数帯域の前記除外された範囲は、3~30Hzである、
EEE6のコンピュータによって実行される方法。
EEE8.
前記強調化STAを生成するステップは、時間にわたる集計によって平滑化スペクトル時間エネルギーを計算するステップを含む、
EEE1~7のいずれかのコンピュータによって実行される方法。
EEE9.
前記強調化STAを生成するステップは、経時的に最小スペクトル時間エネルギーをトラッキングすることによって残留雑音を除去するステップを含む、
EEE1~8のいずれかのコンピュータによって実行される方法。
EEE10.
強調化STAを生成するステップは、入力データとしての、異なる度合いの残響および他の雑音に対応するスペクトル時間振幅データと、出力データとしての、クリーンな音声のみに対応する対応のスペクトル時間振幅データとを用いて訓練された機械学習モデルを適用するステップを含む、
EEE1~7のいずれかのコンピュータによって実行される方法。
EEE11.
前記機械学習モデルの適用から、低いカットオフ変調周波数および高いカットオフ変調周波数を含む、前記クリーンな音声を特徴づける特徴を抽出するステップ、
をさらに含む、EEE10のコンピュータによって実行される方法。
EEE12.
前記計算するステップは、前記強調化STAを使用して強調化メル周波数ケプストラム係数(MFCC)を計算するステップを含む、
EEE1~11のいずれかのコンピュータによって実行される方法。
EEE13.
前記計算するステップは、強調化スペクトル平坦度(SFT)を計算するステップであって、前記STAの代わりに前記強調化STAを使用し、かつ、前記SFTの計算において経時的に値を合計することによって前記強調化SFTを計算するステップを含む、
EEE1~12のいずれかのコンピュータによって実行される方法。
EEE14.
前記1つまたは複数の特徴は、ピーク帯域と他の帯域とのパワー比の合計に基づくスペクトルの山、ピークと平均(ピーク帯域なし)とのパワー比に基づくスペクトルの山、隣接するスペクトル帯域パワーの分散または標準偏差、隣接する周波数帯域間のスペクトル帯域パワー差の合計または最大値、スペクトル広がりまたはスペクトル中心周辺のスペクトル分散、およびスペクトルエントロピーを含む、
EEE1~13のいずれかのコンピュータによって実行される方法。
EEE15.
前記判定するステップは、入力データとしての、クリーンな音声に対応するスペクトル時間振幅データおよび異なる度合いの残響および他の雑音に対応するスペクトル時間振幅データの1つまたは複数の特徴と、出力データとしての、対応する音声の程度とを用いて訓練された機械学習モデルを適用するステップを含む、
EEE1~14のいずれかのコンピュータによって実行される方法。
EEE16.
時間領域における新しいオーディオデータを受信するステップと、
一時点に対応する1個の前記新しいオーディオデータを時間-周波数表現としての前記特定のスペクトル時間振幅(STA)に変換するステップと、
をさらに含む、EEE1~15のいずれかのコンピュータによって実行される方法。
EEE17.
変調周波数領域におけるデータに基づいて残響信号から音声を検出するコンピュータによって実行される方法であって、
プロセッサによって、時間領域における新しいオーディオデータを取得するステップと、
一時点に対応する1個の前記新しいオーディオデータを時間-周波数表現としての特定のスペクトル時間振幅(STA)に変換するステップと、
検出モデルを前記特定のSTAに適用して、前記新しいオーディオデータにおける音声の程度の推定値を取得するステップと、
を含む、方法であって、前記適用するステップは、
前記プロセッサによって、前記時点に対する、音響帯域次元および変調帯域次元を有する変調スペクトル測定値(MSM)を、新しいオーディオデータから得られた1つまたは複数のSTAから取得するステップと、
前記MSMに基づいて、前記時点に対応する1個の前記新しいオーディオデータに対する変調周波数領域における拡散性の度合いを示す拡散性指標(DI)を計算するステップと、
前記特定のSTAから残響および他の雑音をフィルタリングした強調化STAを生成するステップと、
前記強調化STAから1つまたは複数の特徴を計算するステップと、
前記DIおよび前記1つまたは複数の特徴を使用して1つまたは複数の特徴ベクトルを作成するステップと、
前記1つまたは複数の特徴ベクトルから前記1個の新しいオーディオデータにおける音声の程度の推定値を決定するステップと、
前記1個の新しいオーディオデータにおける前記音声の程度の前記推定値を出力するステップと、
を含む、
コンピュータによって実行される方法。
EEE18.
前記取得するステップは、前記時点より前の所定の個数の連続した時点に対応する複数個の新しいオーディオデータを使用し、高速フーリエ変換を用いて前記MSMを計算するステップを含む、
EEE17のコンピュータによって実行される方法。
EEE19.
前記生成するステップは、パーセバルの定理に基づく、
EEE17のコンピュータによって実行される方法。
EEE20.
前記計算するステップは、125~8,000Hzの音響周波数帯域の範囲を有する前記MSMの値を使用するステップを含む、
EEE17のコンピュータによって実行される方法。
【手続補正書】
【提出日】2024-04-09
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
変調周波数領域におけるデータに基づいて残響信号から音声を検出するコンピュータによって実行される方法であって、
プロセッサによって、時間領域において新しいオーディオデータによってカバーされる一時点に対応する特定のスペクトル時間振幅(STA)を、時間-周波数表現として、取得するステップと、
前記時点に対する、音響帯域次元および変調帯域次元を有する変調スペクトル測定値(MSM)を、新しいオーディオデータから得られた1つまたは複数のSTAから取得するステップと、
前記MSMに基づいて、前記1個の新しいオーディオデータに対する変調周波数領域における拡散性の度合いを示す拡散性指標(DI)を計算するステップと、
前記特定のSTAから残響および他の雑音をフィルタリングした強調化STAを生成するステップと、
前記強調化STAから1つまたは複数の特徴を計算するステップと、
前記DIおよび前記1つまたは複数の特徴を使用して1つまたは複数の特徴ベクトルを作成するステップと、
前記1つまたは複数の特徴ベクトルから前記1個の新しいオーディオデータにおける音声の程度の推定値を決定するステップと、
前記1個の新しいオーディオデータにおける前記音声の程度の前記推定値を出力するステップと、
を含む、コンピュータによって実行される方法。
【請求項2】
前記DIは、変調周波数帯域の一範囲および音響周波数帯域の一範囲における前記MSMの値に基づく変調スペクトルの重心である、
請求項1に記載のコンピュータによって実行される方法。
【請求項3】
前記DIは、変調周波数帯域の低い範囲および音響周波数帯域の一範囲における前記MSMの値に基づく低変調部と、変調周波数帯域の高い範囲および音響周波数帯域の前記範囲における前記MSMの値に基づく高変調部とのエネルギー比である、
請求項1に記載のコンピュータによって実行される方法。
【請求項4】
前記DIは、変調周波数帯域の低い範囲および音響周波数帯域の一範囲における前記MSMの値に基づく低変調部と、変調周波数帯域の全範囲および音響周波数帯域の前記範囲における前記MSMの値に基づく全変調部とのエネルギー比である、
請求項1のコンピュータによって実行される方法。
【請求項5】
前記取得するステップは、前記時点より前の所定の個数の連続した時点に対応する複数個の新しいオーディオデータを使用し、高速フーリエ変換を用いて前記MSMを計算するステップを含む、
請求項1に記載のコンピュータによって実行される方法。
【請求項6】
前記強調化STAを生成するステップは、変調周波数帯域の除外された範囲の外側の前記MSMの値をフィルタリングして除去するステップを含む、
請求項1~5のいずれかに記載のコンピュータによって実行される方法。
【請求項7】
変調周波数帯域の前記除外された範囲は、3~30Hzである、
請求項6に記載のコンピュータによって実行される方法。
【請求項8】
前記強調化STAを生成するステップは、時間にわたる集計によって平滑化スペクトル時間エネルギーを計算するステップを含む、
請求項1~
5のいずれかに記載のコンピュータによって実行される方法。
【請求項9】
前記強調化STAを生成するステップは、経時的に最小スペクトル時間エネルギーをトラッキングすることによって残留雑音を除去するステップを含む、
請求項1~
5のいずれかに記載のコンピュータによって実行される方法。
【請求項10】
強調化STAを生成するステップは、入力データとしての、異なる度合いの残響および他の雑音に対応するスペクトル時間振幅データと、出力データとしての、クリーンな音声のみに対応する対応のスペクトル時間振幅データとを用いて訓練された機械学習モデルを適用するステップを含む、
請求項1~
5のいずれかに記載のコンピュータによって実行される方法。
【請求項11】
前記機械学習モデルの適用から、低いカットオフ変調周波数および高いカットオフ変調周波数を含む、前記クリーンな音声を特徴づける特徴を抽出するステップ、
をさらに含む、請求項10に記載のコンピュータによって実行される方法。
【請求項12】
前記計算するステップは、前記強調化STAを使用して強調化メル周波数ケプストラム係数(MFCC)を計算するステップを含む、
請求項1~
5のいずれかに記載のコンピュータによって実行される方法。
【請求項13】
前記計算するステップは、強調化スペクトル平坦度(SFT)を計算するステップであって、前記STAの代わりに前記強調化STAを使用し、かつ、前記SFTの計算において経時的に値を合計することによって前記強調化SFTを計算するステップを含む、
請求項1~
5のいずれかに記載のコンピュータによって実行される方法。
【請求項14】
前記1つまたは複数の特徴は、ピーク帯域と他の帯域とのパワー比の合計に基づくスペクトルの山、ピークと平均(ピーク帯域なし)とのパワー比に基づくスペクトルの山、隣接するスペクトル帯域パワーの分散または標準偏差、隣接する周波数帯域間のスペクトル帯域パワー差の合計または最大値、スペクトル広がりまたはスペクトル中心周辺のスペクトル分散、およびスペクトルエントロピーを含む、
請求項1~
5のいずれかに記載のコンピュータによって実行される方法。
【請求項15】
前記判定するステップは、入力データとしての、クリーンな音声に対応するスペクトル時間振幅データおよび異なる度合いの残響および他の雑音に対応するスペクトル時間振幅データの1つまたは複数の特徴と、出力データとしての、対応する音声の程度とを用いて訓練された機械学習モデルを適用するステップを含む、
請求項1~
5のいずれかに記載のコンピュータによって実行される方法。
【国際調査報告】