特表2024-532786 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ドルビー　ラボラトリーズ　ライセンシング　コーポレイションの特許一覧

特表2024-532786変調領域アテンションに基づく残響および雑音にロバストなボイスアクティビティ検出

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
3C
4A
4B
5A
5B
5C
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-09-10

(54)【発明の名称】変調領域アテンションに基づく残響および雑音にロバストなボイスアクティビティ検出

(51)【国際特許分類】

G10L 25/84 20130101AFI20240903BHJP

G10L 25/18 20130101ALI20240903BHJP

G10L 21/0208 20130101ALI20240903BHJP

G10L 25/24 20130101ALI20240903BHJP

【ＦＩ】

G10L25/84

G10L25/18

G10L21/0208 100B

G10L25/24

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024508558

(86)(22)【出願日】2022-08-11

(85)【翻訳文提出日】2024-04-09

(86)【国際出願番号】 US2022040076

(87)【国際公開番号】W WO2023018880

(87)【国際公開日】2023-02-16

(31)【優先権主張番号】PCT/CN2021/112265

(32)【優先日】2021-08-12

(33)【優先権主張国・地域又は機関】CN

(31)【優先権主張番号】63/239,976

(32)【優先日】2021-09-02

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】21205203.9

(32)【優先日】2021-10-28

(33)【優先権主張国・地域又は機関】EP

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＢＬＵＥＴＯＯＴＨ

(71)【出願人】

【識別番号】507236292

【氏名又は名称】ドルビーラボラトリーズライセンシングコーポレイション

(74)【代理人】

【識別番号】100101683

【弁理士】

【氏名又は名称】奥田誠司

(74)【代理人】

【識別番号】100155000

【弁理士】

【氏名又は名称】喜多修市

(74)【代理人】

【識別番号】100188813

【弁理士】

【氏名又は名称】川喜田徹

(74)【代理人】

【識別番号】100202197

【弁理士】

【氏名又は名称】村瀬成康

(72)【発明者】

【氏名】ヤン，シャオファン

(72)【発明者】

【氏名】リー，カイ

(57)【要約】

残響信号から音声を検出するためのシステムを開示する。本システムは、変調周波数領域におけるスペクトル時間振幅データを受信するようにプログラムされる。本システムは、次いで、残響および他の雑音を低減するとともに、スペクトル時間振幅データに関連するスペクトル時間スペクトログラムの特定の性質に基づいて平滑化することによって、スペクトル時間振幅データを強調するようにプログラムされる。次に、本システムは、強調化スペクトル時間振幅データと、変調周波数領域または（音響）周波数領域における他のデータとに基づいて、音声の存在に関係する様々な特徴を計算するようにプログラムされる。本システムは、次いで、様々な特徴に基づいて、受信したスペクトル時間振幅データに対応するオーディオデータ内に存在する音声の程度を決定するようにプログラムされる。本システムは、存在する音声の程度を出力デバイスに送信するようにプログラム可能である。

【特許請求の範囲】

【請求項1】

変調周波数領域におけるデータに基づいて残響信号から音声を検出するコンピュータによって実行される方法であって、
プロセッサによって、時間領域において新しいオーディオデータによってカバーされる一時点に対応する特定のスペクトル時間振幅（ＳＴＡ）を、時間－周波数表現として、取得するステップと、
前記時点に対する、音響帯域次元および変調帯域次元を有する変調スペクトル測定値（ＭＳＭ）を、新しいオーディオデータから得られた１つまたは複数のＳＴＡから取得するステップと、
前記ＭＳＭに基づいて、前記１個の新しいオーディオデータに対する変調周波数領域における拡散性の度合いを示す拡散性指標（ＤＩ）を計算するステップと、
前記特定のＳＴＡから残響および他の雑音をフィルタリングした強調化ＳＴＡを生成するステップと、
前記強調化ＳＴＡから１つまたは複数の特徴を計算するステップと、
前記ＤＩおよび前記１つまたは複数の特徴を使用して１つまたは複数の特徴ベクトルを作成するステップと、
前記１つまたは複数の特徴ベクトルから前記１個の新しいオーディオデータにおける音声の程度の推定値を決定するステップと、
前記１個の新しいオーディオデータにおける前記音声の程度の前記推定値を出力するステップと、
を含む、コンピュータによって実行される方法。

【請求項2】

前記ＤＩは、変調周波数帯域の一範囲および音響周波数帯域の一範囲における前記ＭＳＭの値に基づく変調スペクトルの重心である、
請求項１に記載のコンピュータによって実行される方法。

【請求項3】

前記ＤＩは、変調周波数帯域の低い範囲および音響周波数帯域の一範囲における前記ＭＳＭの値に基づく低変調部と、変調周波数帯域の高い範囲および音響周波数帯域の前記範囲における前記ＭＳＭの値に基づく高変調部とのエネルギー比である、
請求項１に記載のコンピュータによって実行される方法。

【請求項4】

前記ＤＩは、変調周波数帯域の低い範囲および音響周波数帯域の一範囲における前記ＭＳＭの値に基づく低変調部と、変調周波数帯域の全範囲および音響周波数帯域の前記範囲における前記ＭＳＭの値に基づく全変調部とのエネルギー比である、
請求項１のコンピュータによって実行される方法。

【請求項5】

前記取得するステップは、前記時点より前の所定の個数の連続した時点に対応する複数個の新しいオーディオデータを使用し、高速フーリエ変換を用いて前記ＭＳＭを計算するステップを含む、
請求項１に記載のコンピュータによって実行される方法。

【請求項6】

前記強調化ＳＴＡを生成するステップは、変調周波数帯域の除外された範囲の外側の前記ＭＳＭの値をフィルタリングして除去するステップを含む、
請求項１～５のいずれかに記載のコンピュータによって実行される方法。

【請求項7】

変調周波数帯域の前記除外された範囲は、３～３０Ｈｚである、
請求項６に記載のコンピュータによって実行される方法。

【請求項8】

前記強調化ＳＴＡを生成するステップは、時間にわたる集計によって平滑化スペクトル時間エネルギーを計算するステップを含む、
請求項１～７のいずれかに記載のコンピュータによって実行される方法。

【請求項9】

前記強調化ＳＴＡを生成するステップは、経時的に最小スペクトル時間エネルギーをトラッキングすることによって残留雑音を除去するステップを含む、
請求項１～８のいずれかに記載のコンピュータによって実行される方法。

【請求項10】

強調化ＳＴＡを生成するステップは、入力データとしての、異なる度合いの残響および他の雑音に対応するスペクトル時間振幅データと、出力データとしての、クリーンな音声のみに対応する対応のスペクトル時間振幅データとを用いて訓練された機械学習モデルを適用するステップを含む、
請求項１～７のいずれかに記載のコンピュータによって実行される方法。

【請求項11】

前記機械学習モデルの適用から、低いカットオフ変調周波数および高いカットオフ変調周波数を含む、前記クリーンな音声を特徴づける特徴を抽出するステップ、
をさらに含む、請求項１０に記載のコンピュータによって実行される方法。

【請求項12】

前記計算するステップは、前記強調化ＳＴＡを使用して強調化メル周波数ケプストラム係数（ＭＦＣＣ）を計算するステップを含む、
請求項１～１１のいずれかに記載のコンピュータによって実行される方法。

【請求項13】

前記計算するステップは、強調化スペクトル平坦度（ＳＦＴ）を計算するステップであって、前記ＳＴＡの代わりに前記強調化ＳＴＡを使用し、かつ、前記ＳＦＴの計算において経時的に値を合計することによって前記強調化ＳＦＴを計算するステップを含む、
請求項１～１２のいずれかに記載のコンピュータによって実行される方法。

【請求項14】

前記１つまたは複数の特徴は、ピーク帯域と他の帯域とのパワー比の合計に基づくスペクトルの山、ピークと平均（ピーク帯域なし）とのパワー比に基づくスペクトルの山、隣接するスペクトル帯域パワーの分散または標準偏差、隣接する周波数帯域間のスペクトル帯域パワー差の合計または最大値、スペクトル広がりまたはスペクトル中心周辺のスペクトル分散、およびスペクトルエントロピーを含む、
請求項１～１３のいずれかに記載のコンピュータによって実行される方法。

【請求項15】

前記判定するステップは、入力データとしての、クリーンな音声に対応するスペクトル時間振幅データおよび異なる度合いの残響および他の雑音に対応するスペクトル時間振幅データの１つまたは複数の特徴と、出力データとしての、対応する音声の程度とを用いて訓練された機械学習モデルを適用するステップを含む、
請求項１～１４のいずれかに記載のコンピュータによって実行される方法。

【発明の詳細な説明】

【技術分野】

【0001】

（関連出願への参照）
本願は、以下の優先出願、すなわち、２０２１年８月１２日付け出願の国際出願ＰＣＴ／ＣＮ２０２１／１１２２６５（参照番号：Ｄ２０１０９ＷＯ）、２０２１年９月２日付け出願の米国仮出願６３／２３９，９７６（参照番号：Ｄ２０１０９ＵＳＰ１）、および２０２１年１０月２８日付け出願の欧州出願ＥＰ２１２０５２０３．９の優先権を主張する。

【0002】

本願は、ボイスアクティビティ検出に関する。より詳細には、以下に記載する例示の実施形態は、変調領域アテンションに基づく雑音および残響ロバスト性問題の解決に関する。

【背景技術】

【0003】

本節に記載の手法は、探求し得る手法ではあるが、必ずしもこれまでに着想または探求されてきた手法ではない。従って、別途示唆のない限り、本節に記載の手法のいずれについても、本節に記載されているという理由だけで従来技術としての適格性を有すると考えるべきではない。

【0004】

従来、音声強調システムは、ハンズフリー電話、ビデオ会議、または補聴器に組み込まれるが、雑音および残響（雑音として考えられ得るが、以下では別ものとして言及する）を適切に対処することが困難であった。雑音および残響に関する情報を推定し、発話中に雑音および残響によって引き起こされるアーティファクトや知覚の混乱を低減するロバストなボイスアクティビティ検出（ＶＡＤ）があれば役に立つであろう。そのようなＶＡＤは、任意のソーシャルネットワーキングソフトウェアのボイスメッセージングコンポーネント、ビデオブログ（ｖｌｏｇ）プラットフォーム、またはポッドキャストセットアップなどのオーディオ／ビデオコンテンツ記録および再生システムにとって、音声の品質および理解のしやすさを向上させるために特に役立ち得る。

【発明の概要】

【0005】

変調周波数領域におけるデータに基づいて残響信号から音声を検出するコンピュータによって実装される方法（ｃｏｍｐｕｔｅｒ－ｉｍｐｌｅｍｅｎｔｅｄｍｅｔｈｏｄ）を開示する。この方法は、プロセッサによって、時間領域における新しいオーディオデータを受信するステップと、前記プロセッサによって、一時点に対応する１個の前記新しいオーディオデータを、時間－周波数表現としての特定のスペクトル時間振幅（ＳＴＡ）に変換するステップと、前記特定のＳＴＡに検出モデルを適用して、前記新しいオーディオデータにおける音声の程度の推定値を取得するステップであって、前記時点に対する、音響帯域次元および変調帯域次元を有する変調スペクトル測定値（ＭＳＭ）を、新しいオーディオデータから得られた１つまたは複数のＳＴＡから取得するステップと、前記ＭＳＭに基づいて、前記１個の新しいオーディオデータについての変調周波数領域における拡散性の度合いを示す拡散性指標（ＤＩ）を計算するステップと、前記特定のＳＴＡから残響および他の雑音をフィルタリングした強調化ＳＴＡを生成するステップと、前記ＤＩおよび前記１つまたは複数の特徴を使用して、１つまたは複数の特徴ベクトルを作成するステップと、前記１つまたは複数の特徴ベクトルから前記１個の新しい音声データにおける音声の程度の推定値を決定するステップとを含むステップと、前記１個の新しい音声データにおける前記音声の程度の前記推定値を送信するステップとを含む。

【図面の簡単な説明】

【0006】

添付図面の各図において、本発明の例示の実施形態を限定する事なく例示する。同様の参照符号は同様の要素を表す。

【0007】

【図1】図１は、様々な実施形態が実施され得る例示的なネットワーク化されたコンピュータシステムを例示する。

【0008】

【図2】図２は、開示された実施形態に係るオーディオ管理サーバコンピュータのコンポーネントの例を例示する。

【0009】

【図3A】図３Ａは、残響時間が０ｍｓであるクリーンな残響音声信号に対する音響／変調周波数表現におけるエネルギープロットを例示する。

【0010】

【図3B】図３Ｂは、残響時間が５００ｍｓであるクリーンな残響音声信号に対する音響／変調周波数表現におけるエネルギープロットを例示する。

【0011】

【図3C】図３Ｃは、残響時間が１秒（ｓ）であるクリーンな残響音声信号に対する音響／変調周波数表現におけるエネルギープロットを例示する。

【0012】

【図4A】図４Ａは、室内で記録された雑音に対する音響／変調周波数表現におけるエネルギープロットを例示し、ここで、変調周波数の範囲は、最大で２４Ｈｚである。

【0013】

【図4B】図４Ｂは、室内で記録された雑音に対する音響／変調周波数表現におけるエネルギープロットを例示し、ここで、変調周波数の範囲は、４～２４Ｈｚである。

【0014】

【図5A】図５Ａは、信号対雑音（ＳＮＲ）比が２０ｄＢである音響／変調周波数表現におけるエネルギープロットを例示する。

【0015】

【図5B】図５Ｂは、信号対雑音（ＳＮＲ）比が１０ｄＢである音響／変調周波数表現におけるエネルギープロットを例示する。

【0016】

【図5C】図５Ｃは、信号対雑音（ＳＮＲ）比が０ｄＢである音響／変調周波数表現におけるエネルギープロットを例示する。

【0017】

【図6】図６は、スペクトル時間振幅強調化器（ｅｎｈａｎｃｅｒ）における、オーディオ管理サーバコンピュータによって雑音低減が行われることを伴う、時間スペクトル振幅データを強調するプロセスを例示する。

【0018】

【図7】図７は、本明細書に記載のいくつかの実施形態に係る、オーディオ管理サーバコンピュータを用いて行われるプロセスの例を例示する。

【0019】

【図8】図８は、本発明の一実施形態が実装され得るコンピュータシステムを例示するブロック図である。

【発明を実施するための形態】

【0020】

以下の記載では、説明を目的として、本発明の例示の実施形態の完全な理解を与えるために、多くの具体的な詳細を記載する。しかし、例示の実施形態は、これらの具体的な詳細がなくても実施され得ることが明らかであろう。他の例では、例示の実施形態を不必要に不明瞭にすることを避けるために、周知の構造や装置をブロック図形態で示す。

【0021】

以下の節において、実施形態を以下の概略にしたがって記載する。
１．概要
２．コンピューティング環境の例
３．コンピュータコンポーネントの例
４．機能の説明
４．１．拡散性指標モジュール
４．２．スペクトル時間振幅強調化器
４．３．強調化特徴抽出器
４．４．特徴融合および分類
５．プロセスの例
６．ハードウェア実装

【0022】

１．概要
変調周波数領域におけるデータに基づいて残響信号から音声を検出するためのシステムおよび関係する方法を開示する。いくつかの実施形態において、本システムは、スペクトル時間振幅データを受信するようにプログラムされる。本システムは、次いで、残響および他の雑音を低減するとともに、スペクトル時間振幅データに関連するスペクトル時間スペクトログラムの変調周波数領域における特定の性質に基づいて平滑化することによって、スペクトル時間振幅データを強調するようにプログラムされる。次に、本システムは、強調化スペクトル時間振幅データと、変調周波数領域または（音響）周波数領域における他のデータとに基づいて、音声の存在に関係する様々な特徴を計算するようにプログラムされる。本システムは、次いで、様々な特徴に基づいて、受信したスペクトル時間振幅データに対応するオーディオデータ内に存在する音声の程度（ｅｘｔｅｎｔｏｆｓｐｅｅｃｈ）を決定するようにプログラムされる。本システムは、存在する音声の程度を出力デバイスに送信するようにプログラム可能である。

【0023】

いくつかの実施形態において、強調化スペクトル時間振幅データを生成するために残響を低減することは、主に、特定の変調周波数範囲内にある情報をフィルタリングによって除去することに基づく。残響の存在が低減されたことを特徴づける特徴を計算することは、典型的には周波数領域に適用される、既存のメトリクスを変調周波数領域に適用すること、または、スペクトル時間振幅に関連する変調スペクトログラムから特徴を直接抽出することを含むことができる。

【0024】

本システムは、技術的な利点を与える。本システムは、音声と（残響を含む）雑音とを区別する特徴を、音声データからインテリジェントに選択することで、効果的なＶＡＤを可能にする。これらの特徴は、異なるレベルで存在可能であり、環境中の雑音に関係するものと、クリーンな音声に関係するものとがあり、これらの特徴を使用した分類の正確性を高めることができる。このようなＶＡＤは、さらに、所与の音声データからクリーンな音声を検出および抽出することを可能にし、特に残響が頻繁に発生する環境において多くの用途を有する。

【0025】

２．コンピューティング環境の例
図１は、様々な実施形態が実施され得るネットワーク化されたコンピュータシステムの例を例示する。図１は、明確な例を示すための簡略化された模式形態で示されており、他の実施形態は、より多くの要素、より少ない要素、または異なる要素を含み得る。

【0026】

いくつかの実施形態において、ネットワーク化されたコンピュータシステムは、オーディオ管理サーバコンピュータ１０２（「サーバ」）と、１つまたは複数のセンサ１０４または入力デバイスと、１つまたは複数の出力デバイス１１０とを備え、これらは、直接的な物理的接続を介して、または、１つまたは複数のネットワーク１１８を介して通信可能に接続される。

【0027】

いくつかの実施形態において、サーバ１０２は、広義には、１つまたは複数のコンピュータ、仮想コンピューティングインスタンス、および／または、雑音低減による低遅延音声強調に関係する機能をホストまたは実行するように配置されたデータ構造および／またはデータベースレコードを用いてプログラムまたは構成されたアプリケーションのインスタンスを表す。サーバ１０２は、サーバファーム、クラウドコンピューティングプラットフォーム、並列コンピュータ、または上述の機能のためのデータ処理、データ格納、およびネットワーク通信において十分なコンピューティングパワーを有する任意の他のコンピューティング設備を備えることができる。

【0028】

いくつかの実施形態において、１つまたは複数のセンサ１０４の各々は、マイクロフォン、または、音を電気信号に変換する他のデジタル記録装置を含むことができる。各センサは、検出された音声データをサーバ１０２に送信するように構成される。各センサは、プロセッサを含んでもよいし、または、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スマートフォン、またはウェアラブルデバイスなどの典型的なクライアントデバイスに一体化されてもよい。

【0029】

いくつかの実施形態において、１つまたは複数の出力デバイス１１０の各々は、スピーカ、または、電気信号を音に変換し直す他のデジタル再生デバイスを含むことができる。各出力デバイスは、サーバ１０２から受信したオーディオデータを再生するようにプログラムされる。センサと同様に、出力デバイスは、プロセッサを含んでもよいし、または、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スマートフォン、またはウェアラブルデバイスなどの典型的なクライアントデバイスに一体化されてもよい。

【0030】

１つまたは複数のネットワーク１１８は、図１の様々な要素間でのデータの交換を提供する任意の媒体または機構によって実装され得る。ネットワーク１１８の例は、限定されないが、セルラーアンテナを介してコンピューティングデバイスへのデータ接続に通信可能に接続されたセルラーネットワーク、近距離通信（ＮＦＣ）ネットワーク、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、インターネット、地上波リンクまたは衛星リンクなどのうちの１つ以上を含む。

【0031】

いくつかの実施形態において、サーバ１０２は、１つまたは複数のセンサ１０４からの所与の環境内の音に対応する入力オーディオデータを受信するようにプログラムされる。サーバ１０２は、次に、入力オーディオデータ（典型的には、音声と雑音が混合されたものに相当する）を処理して、入力データの各フレームにおいてどれだけの音声が存在するかを推定するようにプログラムされる。また、サーバ１０２は、当該推定に基づいて入力オーディオデータを更新して、入力オーディオデータよりも少ない雑音を含むと期待されるクリーンアップされた出力オーディオデータを生成するようにプログラムされる。さらに、サーバ１０２は、出力オーディオデータを１つまたは複数の出力デバイスに送るようにプログラムされる。

【0032】

３．コンピュータコンポーネントの例
図２は、開示された実施形態に係るオーディオ管理サーバコンピュータのコンポーネントの例を例示する。この図は、例示のみを目的とし、サーバ１０２は、より少ないまたはより多くの機能または記憶コンポーネントを備えることができる。機能コンポーネントの各々は、ソフトウェアコンポーネント、汎用もしくは専用のハードウェアコンポーネント、ファームウェアコンポーネント、または、これらの任意の組み合わせとして実装することができる。また、機能コンポーネントの各々は、１つまたは複数の記憶コンポーネント（図示せず）に接続することができる。記憶コンポーネントは、リレーショナルデータベース、オブジェクトデータベース、フラットファイルシステム、またはＪＳＯＮストアのうちのいずれかを使用して実装することができる。記憶コンポーネントは、プログラムコール、リモートプロシージャコール（ＲＰＣ）ファシリティ、またはメッセージングバスを使用して、ローカルにまたはネットワークを介して機能コンポーネントに接続することができる。コンポーネントは、自己完結型であってもよいし、そうでなくてもよい。実装に固有の考慮事項または他の考慮事項に依存して、コンポーネントは、機能的または物理的に集中または分散され得る。

【0033】

いくつかの実施形態において、サーバ１０２は、変調領域アテンションモジュール２２０を備える。変調領域アテンションモジュール２２０は、拡散性指標モジュール２０２と、スペクトル時間振幅強調化器２０４と、強調化特徴抽出器２０６とを備える。また、サーバ１０２は、特徴融合演算器２０８と、分類演算器２１０とを備える。

【0034】

いくつかの実施形態において、拡散性指標モジュール２０２は、変調周波数領域における異なるクラスタリング特性に基づいて、音声と非音声（例えば、残響または他の雑音）とを区別する区別可能特徴の生成を可能にするコンピュータ実行可能命令を含む。

【0035】

いくつかの実施形態において、スペクトル時間振幅強調化器２０４は、強調化特徴抽出のために、変調周波数領域におけるスペクトル時間振幅の強調を可能にするコンピュータ実行可能命令を含む。

【0036】

いくつかの実施形態において、強調化特徴抽出器２０６は、強調化スペクトル時間振幅データからの時間的特徴およびスペクトル特徴の抽出を可能にするコンピュータ実行可能命令を含む。

【0037】

いくつかの実施形態において、特徴融合演算器２０８は、拡散性指標モジュール２０２、強調化特徴抽出器２０６によって生成された特徴、および必要に応じて、さらに後述する他の特徴の組み合わせを可能にするコンピュータ実行可能命令を含む。

【0038】

いくつかの実施形態において、分類演算器２１０は、特徴融合演算器２０８によって生成された特徴の組み合わせに基づいて、所与のオーディオデータにおける、残響または他の雑音のないクリーンな音声の存在を決定することを可能にするコンピュータ実行可能命令を含む。

【0039】

４．機能説明
混合オーディオ信号は時間領域において多くの重複を有し得るが、変調周波数分析によって追加的な次元が提供され、これはオーディオソース間により高い度合いの分離を呈し得る。言い換えれば、時間領域においてまずキャプチャされたオーディオ信号は、離散短時間フーリエ変換（ＳＴＦＴ）のような変換によって、時間－周波数表現（ＴＦＲ）（信号を時間と周波数の両方で表される時間の関数とする見方）に変換することができる。次いで、ＴＦＲは、所与の仮定下において変調周波数を表す第３の次元に拡張することができる。

【0040】

変調周波数領域は、典型的には、強度値を示す変調スペクトログラムによって示される。変調スペクトログラムにおいては、図３Ａ、図３Ｂ、図４Ａ、図４Ｂ、図５Ａ、図５Ｂ、および図５Ｃに例示されるように、縦軸が通常の音響周波数インデックスｋを表し、横軸が変調周波数インデックスｉを表す。変調スペクトログラムは、オーディオソース間のより大きな度合いの分離を示すことができる。

【0041】

変調周波数領域において、クリーン（無響）な音声、時間エンベロープは、発話音声の音節速度に対応する約４Ｈｚにおいてスペクトルのピークを有する、２～１６Ｈｚの範囲の周波数を含む。しかし、雑音および残響は、異なる変調特性を示す。残響のある音声では、拡散残響テール（ｔａｉｌ）は、指数関数的に減衰するガウスホワイト雑音プロセスとしてモデル化されることが多い。残響レベルが増大するにつれて、信号は、よりガウスホワイト雑音のような性質を得る。残響信号は、残響テールの「ホワイトニング」効果により、より高い周波数の時間エンベロープを示す。

【0042】

図３Ａは、残響時間が０ｍｓであるクリーンな残響音声信号に対する音響／変調周波数表現におけるエネルギープロットを例示する。図３Ｂは、残響時間が５００ｍｓであるクリーンな残響音声信号に対する音響／変調周波数表現におけるエネルギープロットを例示する。図３Ｃは、残響時間が１秒（ｓ）であるクリーンな残響音声信号に対する音響／変調周波数表現におけるエネルギープロットを例示する。図３Ｂに例示するように、クリーンな音声に対して、変調エネルギー３０２の大部分は、主に変調周波数領域において１０Ｈｚより下に位置し、約４Ｈｚにピークを有する。図３Ｃに例示するように、残響は、より高い変調周波数へのエネルギーのスミアリング（ｓｍｅａｒｉｎｇ）を引き起こす。残響が強いほど、より高い変調周波数により大きくシフトする。これらの図は、クリーンな音声は、一般により高いエネルギーとなるが、より低い変調周波数領域に集中し、残響が多いほど、より高い変調周波数領域により多くのエネルギーがシフトすることを示す。

【0043】

室内雑音の拡散は、典型的には、時間の関数としてゆっくりと発生するため、室内雑音の変調スペクトルは、１Ｈｚより下の変調周波数が優勢である。したがって、室内雑音のエンベロープは、定数＋ランダム値としてモデル化できる。一定エンベロープは、主エネルギーをカバーし、変調周波数において１Ｈｚより下に集中しており、ランダムエンベロープは、変調周波数領域全体に一様に分布する残余エネルギーをカバーする。

【0044】

図４Ａは、室内で記録された雑音（音声のない室内雑音）に対する音響／変調周波数表現におけるエネルギープロットを例示し、ここで、変調周波数の範囲は、最大で２４Ｈｚであり、０～２４Ｈｚにわたって正規化される。図４Ａに示すように、主エネルギーは、変調周波数において１Ｈzより下に集中しており、これは、室内雑音の一定エンベロープを例示している。図４Ｂは、室内で記録された雑音に対する音響／変調周波数表現における、正規化されたエネルギープロットを例示し、ここで、変調周波数の範囲は、４～２４Ｈｚであり、４～２４Ｈｚにわたって正規化される。図４Ｂに示すように、室内雑音の残留ランダムエンベロープは、変調周波数次元に沿って一様な分布を示す。その上、エネルギーは、主に低い音響周波数に集中し、音響周波数が増大するにつれて徐々に低減する。

【0045】

図５Ａは、信号対雑音（ＳＮＲ）比が２０ｄＢである音響／変調周波数表現におけるエネルギープロットを例示する。図５Ｂは、信号対雑音（ＳＮＲ）比が１０ｄＢである音響／変調周波数表現におけるエネルギープロットを例示する。図５Ｃは、信号対雑音（ＳＮＲ）比が０ｄＢである音響／変調周波数表現におけるエネルギープロットを例示する。ここで、雑音は、実際に記録された室内雑音である。これらの図からわかるように、変調周波数が４Ｈｚより上である場合、図４Ａに示された室内雑音の一定時間エンベロープ（４Ｈｚより下）は、フィルタリングまたはマスキングされ、図４Ｂに示された雑音の残りのランダム時間エンベロープは、特に低音響周波数帯域において、音声領域を比較的一様にマスキングする。雑音が強いほど、変調周波数領域においてマスキングが大きくなる。これは、図５Ｃの５０４などの同じ音響周波数帯域のほとんどの部分のうちの、５０２などの高エネルギー部分の割合が、同じ音響周波数帯域のほとんどの部分のうちの、５０６などの高エネルギー部分の割合と比較して小さいことからわかる。したがって、ほとんどのエネルギーは、低い音響周波数帯域において存在する。加えて、クリーンな音声は、一般的に高いエネルギーを生じるが、より低い変調周波数領域に集中し、「雑音」が多いほど、より高い変調周波数領域にエネルギーを取り込むランダム時間エンベロープのブレンディングまたはマスキングがより大きくなる。

【0046】

いくつかの実施形態において、サーバ１０２は、時間領域信号ｘ（ｎ）を受信する。ここで、ｎは、離散時間依存変数を表す。ｘ（ｎ）の時間－周波数（Ｔ－Ｆ）変換Ｘ（ｌ，ｋ）は、ＳＴＦＴを使用して得ることができる。

【数1】

ここで、ｌは、時間／フレームインデックスを表し、ｋは、チャネルインデックスを表し、Ｎは、フレーム長さまたは高速フーリエ変換（ＦＦＴ）長さを表し、ｇ（．）は、長さＮを有する分析ウインドウを表し、Ｍは、間引き係数（ｄｅｃｉｍａｔｅｄｆａｃｔｏｒ）を表す。

【0047】

いくつかの実施形態において、サーバ１０２は、次いで、Ｔ－Ｆ変換された狭帯域信号であるＸ（ｌ，ｋ）を、以下の変換行列を使用して、人間の聴覚系に基づいて、知覚音響帯域のスペクトル時間振幅Ｙ（ｌ，ｍ）に変換する。

【数2】

ここで、ｍは、知覚音響帯域のインデックスを表し、Ｈは、バンディング（ｂａｎｄｉｎｇ）用に設計された（Ｎ／２＋１）×（Ｎ／２＋１）行列であり、Ｘ（ｌ，０：Ｎ／２）は、Ｘ（ｌ，ｋ）を表す（ここで、ｋは、０より大きく、Ｎ／２までの範囲にある）。Ｘ（ｌ，ｋ）のうちの最初のＮ／２＋１個の狭帯域だけが使用される。なぜなら、残留の狭帯域は、実数値信号に対して、最初のＮ／２＋１個のＦＦＴ成分によって回復できるからである。

【0048】

いくつかの実施形態において、任意のフレームｌ、知覚音響帯域ｍ、および変調帯域ｃにおける変調スペクトル測定値（スペクトログラム）Ｚ（ｌ，ｍ，ｃ）は、ＦＦＴ上のスペクトル振幅ベースの最後のＬ個のフレームを使用して計算される。

【数3】

ここで、ω（．）は、当業者に知られたウインドウ関数を表す。

【0049】

４．１．拡散性指標モジュール
いくつかの実施形態において、拡散性モジュール２０２におけるサーバ１０２は、最後のＬ個のフレームに基づいて、特定の時間に対する、変調周波数領域のより低い範囲にあるエネルギーと、変調周波数領域のより高い範囲にあるエネルギーとの間の関係を特徴づける拡散性インジケータ（ＤＩ）を計算する。上述したように、クリーンな音声に対応するエネルギーデータは、変調周波数領域におけるより低い範囲にある傾向があるが、クリーンな音声に混じる残響および他の雑音が多いほど、その混合したものに対応するエネルギーデータは、変調周波数領域におけるより高い範囲に拡がる傾向があり、その結果、変調周波数領域においてエネルギー値がより大きく「拡散」する。したがって、より高いＤＩは、残響のより大きいオーディオ信号、またはその他雑音がより多いオーディオ信号を示す。

【0050】

いくつかの実施形態において、ＤＩは、変調スペクトルの重心として計算できる。

【数4】

ここで、ｃ_Ｌおよびｃ_Ｈは、典型的には３Ｈｚおよび３０Ｈｚに対応する、上記分析における最も低い変調帯域および最も高い変調帯域を示し、ｍ_Ｌおよびｍ_Ｈは、上記分析における最も低い音響帯域および最も高い音響帯域を示し、典型的には１２５Ｈｚおよび８０００Ｈｚに対応する。

【0051】

いくつかの実施形態において、ＤＩは、低い変調部と高い変調部とのエネルギー比として計算できる。

【数5】

ここで、ｃ_Ｌ１およびｃ_Ｌ２は、典型的には３Ｈｚおよび１６Ｈｚに対応する変調帯域を示し、ｃ_Ｈ１およびｃ_Ｈ２は、典型的には１６Ｈｚおよび３０Ｈｚに対応する変調帯域を示す。

【0052】

いくつかの実施形態において、拡散性指標は、低変調部と全変調部とのエネルギー比として計算できる。

【数6】

【0053】

４．２．スペクトル時間振幅強調化器
図６は、スペクトル時間振幅強調化器における、サーバによって雑音低減が実行されることを伴う、時間スペクトル振幅データを強調するプロセスを例示する。いくつかの実施形態において、スペクトル時間振幅強調化器２０４におけるサーバ１０２は、変調周波数領域における残響および雑音フィルタリング、残留雑音推定、および残留雑音抑制を含む一連のステップを行って、初期スペクトル時間振幅データを強調化スペクトル時間振幅データに変換する。

【0054】

いくつかの実施形態において、式（１）から計算される変調スペクトル測定値が与えられると、ボックス６０４におけるサーバ１０２は、雑音および残響をフィルタリングして、フィルタリングされた変調スペクトル測定値

【数7】

を以下のように得る。

【数8】

ここで、式（２）に示したように、ｃ_Ｌは、低カットオフ変調帯域のインデックスであり、ｃ_Ｈは、高カットオフ変調帯域のインデックスである。

【0055】

いくつかの実施形態において、ボックス６０６におけるサーバ１０２は、フィルタリングされた変調スペクトル測定値を以下のように平滑化する。ある関数の平方の和（または積分）は、そのフーリエ変換の平方の和（または積分）に等しいことを大まかに示すパーセバルの定理によれば、以下となる。

【数9】

ここで、｜Ｙ（ｎ，ｍ）｜^２は、振幅Ｙ（ｎ，ｍ）に対応するスペクトル時間エネルギーに比例する。

【0056】

サーバ１０２は、以下のように集計することにより、変調周波数領域における平滑化スペクトル時間エネルギー

【数10】

を計算する。

【数11】

この式は、式（６）に記載の｜Ｙ（ｎ，ｍ）｜^２の平均を表す。

【0057】

ここで、サーバ１０２は、上記の式（５）および（６）に基づいて、変調周波数領域における残響および雑音フィルタリングを伴う、強調化スペクトル時間エネルギー

【数12】

の計算を以下のように行う。

【数13】

【0058】

次いで、サーバ１０２は、上記式（７）に基づいて、平滑化強調化スペクトル時間振幅

【数14】

を以下のように計算することできる。

【数15】

ここで、ＦＦＴに共役対称性があるので、定数２を使用して、エネルギーがスケーリングされないままにする。

【0059】

いくつかの実施形態において、ボックス６０８におけるサーバ１０２は、残留（周囲）雑音のスペクトル時間振幅

【数16】

を推定する。一つの手法は、サーバ１０２がある期間にわたって室内のスペクトル時間エネルギーの最小レベルをトラッキングすることである。

【0060】

いくつかの実施形態において、ボックス６１０におけるサーバ１０２は、以下のように、残留雑音推定および抑制を行って、ボックス６２０の出力データとして強調化スペクトル時間振幅

【数17】

を得る。

【数18】

【0061】

いくつかの実施形態において、変調周波数領域におけるデータを使用し、機械学習モデルを介して強調化スペクトル時間振幅を計算できる。当該モデルを構築するために、ある範囲の長さ（例えば、５分）の長さのクリーンな音声、雑音、および残響の組み合わせに対応する変調周波数領域におけるいくつかのスペクトル時間振幅データを含む「元の音声」クラスを訓練データセットに入力データとして含めることができる。平滑化され雑音が低減されたクリーンな音声に対応する、変調周波数領域におけるいくつかのスペクトル時間振幅データを含む「強調化音声」クラスを、訓練データセットに出力データとして含めることができる。上述したように、上記雑音低減には、残響、周囲音、および他の雑音の除去が含まれる。次いで、ａｒＸｉｖ：１７０９．０８２４３またはａｒＸｉｖ：１７０４．０７８０４［ｃｓ．ＣＶ］に記載の機械学習方法などの、当業者に既知の機械学習方法を訓練データセットに適用し、強調化スペクトル時間振幅データを生成するように構成されたモデルを構築することができる。次いで、特徴抽出器は、後述のように、元の振幅の代わりに強調化スペクトル時間振幅に基づいて特徴を抽出して、強調化特徴を導出することができる。

【0062】

４．３．強調化特徴抽出器
いくつかの実施形態において、強調化特徴抽出器２０６におけるサーバ１０２は、周波数スペクトルに通常適用される強調化メル周波数ケプストラム係数（ＭＦＣＣ）または強調化スペクトル平坦度（ＳＦＴ）などの、強調化時間スペクトル振幅の特定の特徴を計算する。

【0063】

いくつかの実施形態において、サーバ１０２は、ＭＦＣＣの計算において、元のスペクトル時間振幅の代わりに、スペクトル時間振幅強調化器２０４において計算された強調化時間スペクトル振幅を使用して、強調化ＭＦＣＣ（ＥＭＦＣＣ）を計算する。メル周波数フィルタは、ＭＦＣＣを計算する前に、特定のバンディング行列として扱うことができる。

【0064】

いくつかの実施形態において、サーバ１０２は、ＳＦＴの計算において、元のスペクトル時間振幅の代わりに、スペクトル時間振幅強調化器２０４において計算された強調化スペクトル時間振幅を使用して、強調化ＳＦＴ（ＥＳＦＴ）を計算する。具体的には、元のＳＦＴは、時間次元を説明するために、Ｙ（ｌ，ｍ）を使用して、以下のように計算できる。

【数19】

ここで、Ｙ（ｌ，ｍ）は、タイムスタンプｌまたはｌ番目のフレームに対する知覚音響帯域ｍのスペクトル時間振幅を表し、Ｍは、周波数帯域の総数を表し、時間次元に沿って合計が取られる。ＥＳＦＴは、以下のように、強調化スペクトル時間振幅

【数20】

から導出される。

【数21】

【0065】

いくつかの実施形態において、信号スペクトルの平坦またはピーク状態を特徴づけるために、または強調化スペクトル時間振幅のさらなる特徴を生成するために、以下などの他のスペクトルに関係した測定値を使用することもできる。
●ピーク帯域と他の帯域とのパワー比の合計に基づくスペクトルの山
●ピークと平均（ピーク帯域なし）とのパワー比に基づくスペクトルの山
●隣接するスペクトル帯域パワーの分散または標準偏差
●隣接する周波数帯域間のスペクトル帯域パワー差の合計または最大値
●スペクトル広がり（ｓｐｒｅａｄ)またはそのスペクトル中心周辺のスペクトル分散
●スペクトルエントロピー

【0066】

４．４．特徴融合および分類
いくつかの実施形態において、特徴融合演算器２０８におけるサーバ１０２は、拡散性指標、強調化特徴、および強調のない他の一般的に用いられる特徴（周波数領域におけるゼロ交差率、スペクトルフラックス（ｆｌｕｘ）、またはピッチなど）を組み合わせる。次いで、サーバ１０２は、当該組み合わせから１つまたは複数の特徴ベクトルを計算する。すべての特徴の出力を単純に連結して１つの特徴にし、１つの特徴からなるベクトルを形成してもよい。また、異なる特徴が複数の特徴からなる１つのベクトルを形成していてもよい。あるいは、異なる特徴がそれぞれの特徴ベクトルを形成し、各ベクトルが１つの特徴を有するようにしてもよい。

【0067】

いくつかの実施形態において、分類演算器２１０におけるサーバ１０２は、機械学習モデルを介して、特徴融合演算器２０８によって生成された１つまたは複数の特徴ベクトルを分類する。当該モデルを構築するために、サーバ１０２は、様々な程度の音声（残響または他の雑音を含まない）および様々な程度の残響を含む一組のオーディオ信号（周波数領域および変調周波数領域に変換される）をモジュール２０２、２０４、２０６、および２０８に適用することによって生成される特徴ベクトルの訓練セットを準備することができる。「程度」は、音量またはラウドネス、すなわち音波の振幅、または別の音の特性についての割合として定義できる。訓練セットにおける各信号について、抽出された特徴ベクトルを入力データとし、信号内の何らかの音声の有無の指示（バイナリ値）、または、信号内のクリーンな音声の程度（連続値）を出力データとし得る。次いで、サーバ１０２は、ロジスティック回帰、適応ブースティング（ＡｄａＢｏｏｓｔ）またはガウス混合モデル（ＧＭＭ）を含む統計的手法、または多層パーセプトロンまたはサポートベクターマシンを含む人工ニューラルネットワークなどの、当業者に知られている分類のための任意の機械学習モデルを適用できる。例えば、ニューラルネットワークの場合、ソフトマックス関数を適用して、入力信号に音声が含まれる確率を計算できる。当該確率は、入力信号内の音声の程度の推定値として使用し得る。

【0068】

５．処理の例
図７は、本明細書に記載のいくつかの実施形態に係る、オーディオ管理サーバコンピュータを用いて行われるプロセスの例を例示する。図７は、明瞭な例を例示する目的で簡略化された模式形式で示され、他の実施形態は、様々なやり方で接続されたより多くの、より少ない、または異なる要素を含んでもよい。図７は、実行時に本明細書に記載される機能向上および技術的進歩を行わせる１つまたは複数のコンピュータプログラムまたは他のソフトウェア要素を実装するために使用できるアルゴリズム、計画、または概要を開示することが意図される。さらに、本明細書のフロー図は、コーディングまたは実装することを計画しているソフトウェアプログラムの基礎を形成するアルゴリズム、計画、または仕様について、当業者らが蓄積された技術および知識を使用して互いにコミュニケーションするために通常使用するものと同程度の詳細さで記載される。

【0069】

いくつかの実施形態において、ステップ７０２において、サーバ１０２は、時間領域における新しいオーディオデータを受信するようにプログラムされる。

【0070】

いくつかの実施形態において、ステップ７０４において、サーバ１０２は、一時点に対応する１個の上記新しいオーディオデータを、時間－周波数表現としての特定のスペクトル時間振幅（ＳＴＡ）に変換するようにプログラムされる。

【0071】

いくつかの実施形態において、ステップ７０６において、サーバ１０２は、上記時点に対する、音響帯域次元および変調帯域次元を有する変調スペクトル測定値（ＭＳＭ）を、新しいオーディオデータから得られた１つまたは複数のＳＴＡから得るようにプログラムされる。

【0072】

いくつかの実施形態において、ステップ７０８において、サーバ１０２は、ＭＳＭに基づいて、上記１個の新しいオーディオデータに対する変調周波数領域における拡散性の度合いを示す拡散性指標（ＤＩ）を計算するようにプログラムされる。

【0073】

いくつかの実施形態において、ＤＩは、変調周波数帯域の一範囲および音響周波数帯域の一範囲におけるＭＳＭの値に基づく変調スペクトルの重心である。他の実施形態において、ＤＩは、変調周波数帯域の低い範囲および音響周波数帯域の一範囲におけるＭＳＭの値に基づく低変調部と、変調周波数帯域の高い範囲および音響周波数帯域の一範囲におけるＭＳＭの値に基づく高変調部とのエネルギー比である。他の実施形態において、ＤＩは、変調周波数帯域の低い範囲および音響周波数帯域の一範囲におけるＭＳＭの値に基づく低変調部と、変調周波数帯域の全範囲および音響周波数帯域の当該範囲におけるＭＳＭの値に基づく全変調部とのエネルギー比である。

【0074】

いくつかの実施形態において、ＤＩを計算することは、入力データとしての、クリーンな音声のみを有する音声データならびに異なる度合いの残響および他の雑音を有する音声データに対するＭＳＭの測定値と、出力データとしての、対応するＤＩ値とを用いて訓練された機械学習モデルを適用することを含む。

【0075】

いくつかの実施形態において、ステップ７１０において、サーバ１０２は、特定のＳＴＡから残響および他の雑音をフィルタリングした強調化ＳＴＡを生成するようにプログラムされる。

【0076】

いくつかの実施形態において、強調化ＳＴＡを生成することは、変調周波数帯域の一範囲の外のＭＳＭの値をフィルタリングして除去することを含む。他の実施形態において、変調周波数帯域の当該範囲は、３～３０Ｈｚである。

【0077】

いくつかの実施形態において、強調化ＳＴＡを生成することは、時間にわたる集計によって平滑化スペクトル時間エネルギーを計算することを含む。他の実施形態において、強調化ＳＴＡを生成することは、経時的に最小スペクトル時間エネルギーをトラッキングすることによって残留雑音を除去することを含む。

【0078】

いくつかの実施形態において、強調化ＳＴＡを生成することは、入力データとしての、異なる度合いの残響および他の雑音に対応するスペクトル時間振幅データと、出力データとしての、クリーンな音声のみに対応する対応のスペクトル時間振幅データとを用いて訓練された機械学習モデルを適用することを含む。他の実施形態において、サーバ１０２は、機械学習モデルの適用から、低いカットオフ変調周波数および高いカットオフ変調周波数を含む、クリーンな音声を特徴づける特徴を抽出するようにさらにプログラムされる。

【0079】

いくつかの実施形態において、ステップ７１２において、サーバ１０２は、強調化ＳＴＡから１つまたは複数の特徴を計算し、ＤＩおよび当該１つまたは複数の特徴を使用して１つまたは複数の特徴ベクトルを作成するようにプログラムされる。

【0080】

いくつかの実施形態において、上記計算することは、強調化メル周波数フィルタケプストラム係数（ＭＦＣＣ）を計算することを包含し、ＭＦＣＣの計算の最後のステップにおいて使用するための強調化ＳＴＡにメル周波数フィルタを適用することによって強調化ＭＦＣＣを計算する。他の実施形態において、上記計算することは、強調化スペクトル平坦度（ＳＦＴ）を計算することを包含し、ＳＴＡの代わりに強調化ＳＴＡを使用し、ＳＦＴの計算において経時的に値を合計することによって強調化ＳＦＴを計算する。

【0081】

いくつかの実施形態において、上記１つまたは複数の特徴は、ピーク帯域と他の帯域とのパワー比の合計に基づくスペクトルの山、ピークと平均（ピーク帯域なし）とのパワー比に基づくスペクトルの山、隣接するスペクトル帯域パワーの分散または標準偏差、隣接する周波数帯域間のスペクトル帯域パワー差の合計または最大値、スペクトル広がりまたはスペクトル中心周辺のスペクトル分散、およびスペクトルエントロピーを含む。

【0082】

いくつかの実施形態において、ステップ７１４において、サーバ１０２は、上記１つまたは複数の特徴ベクトルから上記１個の新しいオーディオデータにおけるスピーチの程度の推定値を決定し、上記１個の新しいオーディオデータにおける上記スピーチの程度の推定値を送信するようにプログラムされる。

【0083】

いくつかの実施形態において、上記判定することは、入力データとしての、クリーンな音声に対応するスペクトル時間振幅データならびに異なる度合いの残響および他の雑音に対応するスペクトル時間振幅データの１つまたは複数の特徴と、出力データとしての、対応する音声の程度とを用いて訓練された機械学習モデルを適用することを含む。

【0084】

６．ハードウェア実装
一実施形態によれば、本明細書に記載の技術は、少なくとも１つのコンピューティングデバイスによって実装される。当該技術は、パケットデータネットワークなどのネットワークを用いて接続された少なくとも１つのサーバコンピュータおよび／または他のコンピューティングデバイスの組み合わせを使用して、全体的または部分的に実装され得る。コンピューティングデバイスは、当該技術を行うようにハードワイヤードされてもよいし、または当該技術を行うように持続的にプログラムされた少なくとも１つの特定用途向け集積回路（ＡＳＩＣ）またはフィールドプログラマブルゲートアレイ（ＦＰＧＡ）などのデジタル電子デバイスを含んでもよいし、あるいはファームウェア、メモリ、他のストレージ、または組み合わせにおけるプログラム命令に従って当該技術を行うようにプログラムされた少なくとも１つの汎用ハードウェアプロセッサを含んでもよい。また、そのようなコンピューティングデバイスは、上記技術を達成するために、カスタムハードワイヤードロジック、ＡＳＩＣ、またはＦＰＧＡをカスタムプログラミングと組み合わせてもよい。コンピューティングデバイスは、サーバコンピュータ、ワークステーション、パーソナルコンピュータ、ポータブルコンピュータシステム、手持ち式デバイス、モバイルコンピューティングデバイス、ウェアラブルデバイス、身体装着型もしくは埋め込み型デバイス、スマートフォン、スマート家電、インターネットワーキングデバイス、自律もしくは半自律デバイス（ロボットまたは無人の地上もしくは空中乗り物など）、上記技術を実装するためのハードワイヤードロジックおよび／またはプログラムロジックを組み込まれた任意の他の電子デバイス、データセンタにおける１つ以上の仮想コンピューティングマシンもしくはインスタンス、ならびに／または、サーバコンピュータおよび／もしくはパーソナルコンピュータのネットワークであってもよい。

【0085】

図８は、一実施形態が実装され得るコンピュータシステムの例を例示するブロック図である。図８の例において、コンピュータアーキテクチャおよびコンピュータシステム実装について理解してもらうために、上記開示の技術をハードウェア、ソフトウェア、またはハードウェアとソフトウェアとの組み合わせにおいて実装するためのコンピュータシステム８００および命令を模式的に、例えば四角および円として、本開示が関係する技術分野の当業者によって一般に使用される詳細さと同じレベルの詳細さで表す。

【0086】

コンピュータシステム８００は、電子信号経路を介してコンピュータシステム８００のコンポーネント間で情報および／または命令を通信するためのバスおよび／または他の通信機構を含み得る入力／出力（Ｉ／Ｏ）サブシステム８０２を含む。Ｉ／Ｏサブシステム８０２は、Ｉ／Ｏコントローラ、メモリコントローラ、および少なくとも１つのＩ／Ｏポートを含み得る。電子信号経路は、図において模式的に、例えば線、一方向矢印、または双方向矢印として表されている。

【0087】

情報および命令を処理するために、Ｉ／Ｏサブシステム８０２には、少なくとも１つのハードウェアプロセッサ８０４が接続される。ハードウェアプロセッサ８０４は、例えば、汎用マイクロプロセッサもしくはマイクロコントローラ、および／または、埋め込みシステム、グラフィックス処理ユニット（ＧＰＵ）、デジタル信号プロセッサもしくはＡＲＭプロセッサなどの専用マイクロプロセッサを含み得る。プロセッサ８０４は、集積算術ロジックユニット（ＡＬＵ）を備えてもよいし、または、別個のＡＬＵに接続されてもよい。

【0088】

コンピュータシステム８００は、データおよびプロセッサ８０４によって実行されるべき命令を電子的にデジタルで格納するために、Ｉ／Ｏサブシステム８０２に接続された、１つまたは複数のユニット（メインメモリなど）からなるメモリ８０６を含む。メモリ８０６は、様々な形態のランダムアクセスメモリ（ＲＡＭ）または他のダイナミックストレージデバイスなどの揮発性メモリを含み得る。また、メモリ８０６は、プロセッサ８０４によって実行されるべき命令の実行中に一時的な変数または他の中間情報を格納するために使用され得る。そのような命令は、プロセッサ８０４にとってアクセス可能な非一時的コンピュータ読み取り可能記憶媒体に格納された場合、コンピュータシステム８００を、当該命令で規定された動作を行うようにカスタマイズされた専用マシンにすることができる。

【0089】

コンピュータシステム８００は、さらに、プロセッサ８０４に対する情報および命令を格納するために、Ｉ／Ｏサブシステム８０２に接続された不揮発性メモリ（読み出し専用メモリ（ＲＯＭ）８０８または他の静的ストレージデバイスなど）を含む。ＲＯＭ８０８は、消去可能ＰＲＯＭ（ＥＰＲＯＭ）または電気的消去可能ＰＲＯＭ（ＥＥＰＲＯＭ）などの様々な形態のプログラマブルＲＯＭ（ＰＲＯＭ）を含み得る。一ユニットの持続的ストレージ８１０は、フラッシュメモリなどの様々な形態の不揮発性ＲＡＭ（ＮＶＲＡＭ）、またはソリッドステートストレージ、磁気ディスク、またはＣＤ－ＲＯＭもしくはＤＶＤ－ＲＯＭなどの光ディスクを含み得るし、情報および命令を格納するためにＩ／Ｏサブシステム８０２に接続され得る。ストレージ８１０は、プロセッサ８０４による実行時にコンピュータ実装された方法を行って本明細書に記載の技術を実行させる命令およびデータを格納するために使用され得る非一時的コンピュータ読み取り可能媒体の一例である。

【0090】

メモリ８０６、ＲＯＭ８０８、またはストレージ８１０における命令は、モジュール、メソッド、オブジェクト、関数、ルーチン、またはコールとして構成された１つまたは複数のセットの命令を含み得る。命令は、１つまたは複数のコンピュータプログラム、オペレーティングシステムサービス、またはモバイルアプリを含むアプリケーションプログラムとして構成され得る。命令は、オペレーティングシステムおよび／またはシステムソフトウェア；マルチメディア、プログラミング、または他の機能をサポートする１つまたは複数のライブラリ；ＴＣＰ／ＩＰ、ＨＴＴＰ、または他の通信プロトコルを実装するデータプロトコル命令またはスタック；ＨＴＭＬ、ＸＭＬ、ＪＰＥＧ、ＭＰＥＧ、またはＰＮＧを使用してコーディングされたファイルをインタプリタおよびレンダリングするファイル処理命令；グラフィカルユーザインタフェース（ＧＵＩ）、コマンドラインインタフェース、またはテキストユーザインタフェースのためのコマンドをレンダリングまたはインタプリタするユーザインタフェース命令；オフィススイート、インターネットアクセスアプリケーション、設計および製造アプリケーション、グラフィックスアプリケーション、オーディオアプリケーション、ソフトウェアエンジニアリングアプリケーション、教育アプリケーション、ゲーム、または他のアプリケーションなどのアプリケーションソフトウェアを含み得る。命令は、ウェブサーバ、ウェブアプリケーションサーバ、またはウェブクライアントを実装し得る。命令は、プレゼンテーション層、アプリケーション層、および、構造化照会言語（ＳＱＬ）もしくはＮｏＳＱＬを使用するリレーショナルデータベースシステム、オブジェクトストア、グラフデータベース、フラットファイルシステム、または他のデータストレージなどのデータストレージ層として構成され得る。

【0091】

コンピュータシステム８００は、Ｉ／Ｏサブシステム８０２を介して少なくとも１つの出力デバイス８１２に接続され得る。一実施形態において、出力デバイス８１２は、デジタルコンピュータディスプレイである。様々な実施形態において使用され得るディスプレイの例は、タッチスクリーンディスプレイまたは発光ダイオード（ＬＥＤ）ディスプレイまたは液晶ディスプレイ（ＬＣＤ）または電子ペーパーディスプレイを含む。コンピュータシステム８００は、ディスプレイデバイスに代えて、または、それに加えて、他のタイプの出力デバイス８１２を含み得る。他の出力デバイス８１２の例は、プリンタ、チケットプリンタ、プロッタ、プロジェクタ、サウンドカードもしくはビデオカード、スピーカ、ブザーもしくは圧電デバイスもしくは他の可聴デバイス、ランプもしくはＬＥＤもしくはＬＣＤインジケータ、触覚デバイス、アクチュエータ、またはサーボを含む。

【0092】

信号、データ、コマンド選択、またはジェスチャをプロセッサ８０４に通信するために、少なくとも１つの入力デバイス８１４がＩ／Ｏサブシステム８０２に接続される。入力デバイス８１４の例は、タッチスクリーン、マイクロフォン、スチルおよびビデオデジタルカメラ、英数字および他のキー、キーパッド、キーボード、グラフィックスタブレット、イメージスキャナ、ジョイスティック、クロック、スイッチ、ボタン、ダイヤル、スライド、ならびに／または、力センサ、モーションセンサ、熱センサ、加速度計、ジャイロスコープ、および慣性測定ユニット（ＩＭＵ）センサなどの様々なタイプのセンサ、ならびに／または、セルラーもしくはＷｉ－Ｆｉなどの無線、無線周波数（ＲＦ）もしくは赤外線（ＩＲ）トランシーバ、および全地球測位システム（ＧＰＳ）トランシーバなどの様々なタイプのトランシーバを含む。

【0093】

別のタイプの入力デバイスは、制御デバイス８１６である。制御デバイス８１６は、入力機能に代えて、または、それに加えて、カーソル制御、または、表示画面上のグラフィカルインタフェースにおけるナビゲーションなどの他の自動化された制御機能を行い得る。制御デバイス８１６は、方向情報およびコマンド選択をプロセッサ８０４に通信するため、および、ディスプレイ８１２上のカーソル移動を制御するためのタッチパッド、マウス、トラックボール、またはカーソル方向キーであり得る。入力デバイスは、当該デバイスが平面内の位置を特定することを可能にする、第１の軸（例えば、ｘ）および第２の軸（例えば、ｙ）の２つの軸における少なくとも２自由度を有し得る。別のタイプの入力デバイスは、ジョイスティック、ワンド（ｗａｎｄ）、コンソール、ステアリングホイール、ペダル、ギアシフト機構、または他のタイプの制御デバイスなどの、有線、無線、または光学式の制御デバイスである。入力デバイス８１４は、例えばビデオカメラと深度センサなどの複数の異なる入力デバイスの組み合わせを含み得る。

【0094】

別の実施形態において、コンピュータシステム８００は、出力デバイス８１２、入力デバイス８１４、および制御デバイス８１６のうちの１つまたは複数が省略されたモノのインターネット（ＩｏＴ）デバイスを備え得る。あるいは、そのような実施形態において、入力デバイス８１４は、１つまたは複数のカメラ、モーション検出器、温度計、マイクロフォン、地震検出器、他のセンサもしくは検出器、測定デバイス、またはエンコーダを備え得るし、出力デバイス８１２は、シングルラインＬＥＤもしくはＬＣＤディスプレイなどの専用ディスプレイ、１つ以上のインジケータ、ディスプレイパネル、メータ、バルブ、ソレノイド、アクチュエータ、またはサーボを備え得る。

【0095】

コンピュータシステム８００がモバイルコンピューティングデバイスである場合、入力デバイス８１４は、複数の全地球測位システム（ＧＰＳ）衛星に対して三角測量し、コンピュータシステム８００の地球物理学的位置について、緯度－経度値などのジオロケーションまたは位置データを決定および生成することができるＧＰＳモジュールに接続されたＧＰＳ受信器を備え得る。出力デバイス８１２は、位置報告パケット、通知、パルスもしくはハートビート信号、またはコンピュータシステム８００の位置を特定する他の繰り返し発生するデータ送信を、単独で、または、他のアプリケーション特定データと組み合わせて、ホスト８２４またはサーバ８３０に向けて、生成するためのハードウェア、ソフトウェア、ファームウェア、およびインタフェースを含み得る。

【0096】

コンピュータシステム８００は、カスタマイズされたハードワイヤードロジック、少なくとも１つのＡＳＩＣもしくはＦＰＧＡ、ファームウェア、および／または、ロードされてコンピュータシステムと組み合わせて使用または実行されるときにコンピュータシステムを専用マシンとして動作させるか、または、専用マシンとして動作するようにコンピュータシステムをプログラムするプログラム命令もしくはロジックを用使用して、本明細書に記載の技術を実装し得る。一実施形態によれば、本技術は、プロセッサ８０４がメインメモリ８０６に含まれる少なくとも１つの命令の少なくとも１つのシーケンスを実行することに応答して、コンピュータシステム８００によって行われる。そのような命令は、ストレージ８１０などの別の記憶媒体からメインメモリ８０６に読み込まれ得る。メインメモリ８０６に含まれる命令のシーケンスの実行により、プロセッサ８０４は、本明細書に記載のプロセスステップを実行する。代替の実施形態において、ソフトウェア命令の代わりに、または、それと組み合わせて、ハードワイヤード回路が使用され得る。

【0097】

本明細書にて使用される用語「記憶（ストレージ）媒体」は、データおよび／またはマシンを特定のやり方で動作させる命令を格納する任意の非一時的な媒体を指す。そのような記憶媒体は、不揮発性の媒体および／または揮発性の媒体を含み得る。不揮発性の媒体は、例えば、例えば、ストレージ８１０などの光ディスクまたは磁気ディスクを含む。揮発性の媒体は、例えば、メモリ８０６などのダイナミックメモリを含む。記憶媒体の一般的な形態は、例えば、ハードディスク、ソリッドステートドライブ、フラッシュドライブ、磁気データ記憶媒体、任意の光学的または物理的データ記憶媒体、メモリチップなどを含む。

【0098】

記憶媒体は、伝送媒体とは異なるが、伝送媒体と併用され得る。伝送媒体は、記憶媒体間で情報を転送することに関与する。例えば、伝送媒体は、同軸ケーブル、銅線、および光ファイバを含み、Ｉ／Ｏサブシステム８０２のバスなどの配線を含む。また、伝送媒体は、電波および赤外線データ通信において生成されるものなどの音波または光波の形態をとることもできる。

【0099】

実行のための少なくとも１つの命令の少なくとも１つのシーケンスをプロセッサ８０４に搬送することに様々な形態の媒体が関与し得る。例えば、命令は、遠隔のコンピュータの磁気ディスクまたはソリッドステートドライブ上に最初に保持され得る。遠隔のコンピュータは、命令をそれ自体のダイナミックメモリにロードし、モデムを使用し、光ファイバまたは同軸ケーブルまたは電話回線などの通信リンクを介して命令を送信することができる。通信リンク上のデータは、コンピュータシステム８００に対して近接のモデムまたはルータが受信し、コンピュータシステム８００が読み取れるように変換することができる。例えば、無線信号または光信号で搬送されたデータは、無線周波数アンテナまたは赤外線検出器などの受信器が受信でき、適切な回路によって、Ｉ／Ｏサブシステム８０２に与えること（データをバス上に置くことなど）ができる。Ｉ／Ｏサブシステム８０２は、データをメモリ８０６に搬送する。データは、プロセッサ８０４によってメモリ８０６から取り出され、命令が実行される。メモリ８０６によって受信された命令は、必要に応じて、プロセッサ８０４による実行の前または後のいずれかにおいてストレージ８１０上に格納されてもよい。

【0100】

また、コンピュータシステム８００は、バス８０２に接続された通信インタフェース８１８を含む。通信インタフェース８１８は、ネットワーク８２２またはインターネット上のパブリッククラウドもしくはプライベートクラウドなどの少なくとも１つの通信ネットワークに直接的または間接的に接続されたネットワークリンク８２０に接続する双方向データ通信を提供する。例えば、通信インタフェース８１８は、イーサネットネットワーキングインタフェース、統合サービスデジタルネットワーク（ＩＳＤＮ）カード、ケーブルモデム、衛星モデム、または、例えばイーサネットケーブルもしくは任意の種類の金属ケーブルもしくは光ファイバ回線もしくは電話回線といった対応するタイプの通信回線へのデータ通信接続を提供するモデムであり得る。ネットワーク８２２は、広義には、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、キャンパスネットワーク、インターネットワーク、またはこれらの任意の組み合わせを表す。通信インタフェース８１８は、互換性のあるＬＡＮへのデータ通信接続を提供するＬＡＮカード、またはセルラー無線電話ワイヤレスネットワーキング規格に従ってセルラーデータを送信または受信するように有線接続されたセルラー無線電話インタフェース、または衛星ワイヤレスネットワーキング規格に従ってデジタルデータを送信または受信するように有線接続された衛星無線インタフェースを備え得る。任意のそのような実装において、通信インタフェース８１８は、様々なタイプの情報を表すデジタルデータストリームを搬送する信号経路を介して、電気信号、電磁信号、または光信号を送受信する。

【0101】

ネットワークリンク８２０は、典型的には、例えば衛星、セルラー、Ｗｉ－Ｆｉ、またはＢＬＵＥＴＯＯＴＨ技術を使用して、直接的に、または、少なくとも１つのネットワークを介して、他のデータデバイスに電気、電磁、または光データ通信を提供する。例えば、ネットワークリンク８２０は、ネットワーク８２２を介するホストコンピュータ８２４への接続を提供し得る。

【0102】

さらに、ネットワークリンク８２０は、ネットワーク８２２を介した接続、または、インターネットサービスプロバイダ（ＩＳＰ）８２６によって稼働されるインターネットワーキングデバイスおよび／またはコンピュータを介した他のコンピューティングデバイスへの接続を提供し得る。ＩＳＰ８２６は、インターネット８２８として表されるワールドワイドパケットデータ通信ネットワークを介したデータ通信サービスを提供する。インターネット８２８には、サーバコンピュータ８３０が接続され得る。サーバ８３０は、広義には、任意のコンピュータ、データセンタ、ハイパーバイザを有するかもしくは有しない仮想マシンもしくは仮想コンピューティングインスタンス、またはＤＯＣＫＥＲもしくはＫＵＢＥＲＮＥＴＥＳなどのコンテナ化されたプログラムシステムを実行するコンピュータを表す。サーバ８３０は、２つ以上のコンピュータまたはインスタンスを使用して実装され、ウェブサービス要求、ＨＴＴＰペイロード内にパラメータを有するユニフォームリソースロケータ（ＵＲＬ）文字列、ＡＰＩコール、アプリサービスコール、または他のサービスコールを送信することによってアクセスされて使用される電子デジタルサービスを表してもよい。コンピュータシステム８００およびサーバ８３０は、他のコンピュータ、処理クラスタ、サーバファーム、または、協働してタスクを実行行ったり、またはアプリケーションもしくはサービスを実行したりするコンピュータの他の構成を含む分散コンピューティングシステムの要素を形成してもよい。サーバ８３０は、モジュール、メソッド、オブジェクト、関数、ルーチン、またはコールとして構成された１つまたは複数のセットの命令を備え得る。命令は、１つまたは複数のコンピュータプログラム、オペレーティングシステムサービス、または、モバイルアプリを含むアプリケーションプログラムとして構成され得る。命令は、オペレーティングシステムおよび／またはシステムソフトウェア；マルチメディア、プログラミングまたは他の機能をサポートする１つまたは複数のライブラリ；ＴＣＰ／ＩＰ、ＨＴＴＰまたは他の通信プロトコルを実装するデータプロトコル命令もしくはスタック；ＨＴＭＬ、ＸＭＬ、ＪＰＥＧ、ＭＰＥＧまたはＰＮＧを使用してコーディングされたファイルをインタプリタまたはレンダリングするファイルフォーマット処理命令；グラフィカルユーザインタフェース（ＧＵＩ）、コマンドラインインタフェースまたはテキストユーザインタフェースのためのコマンドをレンダリングまたはインタプリタするユーザインタフェース命令；例えばオフィススイート、インターネットアクセスアプリケーション、設計および製造アプリケーション、グラフィックスアプリケーション、オーディオアプリケーション、ソフトウェアエンジニアリングアプリケーション、教育アプリケーション、ゲーム、または他のアプリケーションなどのアプリケーションソフトウェアを含み得る。サーバ８３０は、プレゼンテーション層、アプリケーション層、および、構造化照会言語（ＳＱＬ）もしくはＮｏＳＱＬを使用するリレーショナルデータベースシステム、オブジェクトストア、グラフデータベース、フラットファイルシステム、または他のデータストレージなどのデータストレージ層をホストするウェブアプリケーションサーバを備え得る。

【0103】

コンピュータシステム８００は、ネットワーク、ネットワークリンク８２０、および通信インタフェース８１８を介して、メッセージを送信し、データおよびプログラムコードを含む命令を受信することができる。インターネットの例において、サーバ８３０は、インターネット８２８、ＩＳＰ８２６、ローカルネットワーク８２２、および通信インタフェース８１８を介して、アプリケーションプログラムについて要求されたコードを送信し得る。受信されたコードは、受信時にプロセッサ８０４によって実行されてもよいし、かつ／または、後の実行のためにストレージ８１０または他の不揮発性ストレージに格納されてもよい。

【0104】

本節に記載の命令の実行は、プログラムコードおよびその現在の働きからなる実行中のコンピュータプログラムのインスタンスの形態でプロセスを実装し得る。オペレーティングシステム（ＯＳ）に依存して、プロセスは、命令を同時に実行する複数の実行スレッドから構成され得る。この意味において、コンピュータプログラムは、命令の受動的な集合であり、他方プロセスは、それらの命令の実際の実行であり得る。複数のプロセスが同じプログラムに関連し得る。例えば、同一のプログラムの複数のインスタンスを開くことは、２つ以上のプロセスが実行されていることを意味することが多い。複数のプロセスがプロセッサ８０４を共有することを可能にするようにマルチタスキングが実装され得る。各プロセッサ８０４またはそのプロセッサの各コアは、一度に１つのタスクを実行するが、コンピュータシステム８００は、実行中の複数のタスクを各タスクの終了を待つ必要なく各プロセッサが切り替えることを可能とするために、マルチタスキングを実装するようにプログラムされ得る。一実施形態において、切り替えは、タスクが入力／出力動作を実行するとき、タスクがそれ自体が切り替え可能であることを示すとき、またはハードウェア割り込み時に、行われ得る。コンテキスト切り替えを高速に行って複数のプロセスの同時に実行されているように見えるようにすることによって、対話型ユーザアプリケーションのための高速な応答を可能にするようにタイムシェリングが実装され得る。一実施形態において、安全および信頼性のために、オペレーティングシステムは、独立したプロセス間の直接通信を防止して、厳密に仲介および制御されたプロセス間通信機能を提供してもよい。

【0105】

７．拡張および代替
上記において、実装ごとに異なり得る多くの具体的な詳細を参照して本開示された実施形態を説明した。このように、明細書および図面は、限定を意味するのではなく、例示を意味するとみなされるべきである。本開示の範囲を唯一かつ排他的に示すもの、および、出願人らが本開示の範囲であると意図するものは、本願から生じる請求項のセットの文字通りかつ同等な範囲であって、任意の後の補正を含む、そのような請求項が生じる具体的形態における範囲である。

【0106】

本発明の様々な態様は、以下（ｅｎｕｍｅｒａｔｅｄｅｘａｍｐｌｅｅｍｂｏｄｉｍｅｎｔｓ：ＥＥＥ）から理解され得る。
ＥＥＥ１．
変調周波数領域におけるデータに基づいて残響信号から音声を検出するコンピュータによって実行される方法であって、
プロセッサによって、時間領域において新しいオーディオデータによってカバーされる一時点に対応する特定のスペクトル時間振幅（ＳＴＡ）を、時間－周波数表現として、取得するステップと、
前記時点に対する、音響帯域次元および変調帯域次元を有する変調スペクトル測定値（ＭＳＭ）を、新しいオーディオデータから得られた１つまたは複数のＳＴＡから取得するステップと、
前記ＭＳＭに基づいて、前記１個の新しいオーディオデータに対する変調周波数領域における拡散性の度合いを示す拡散性指標（ＤＩ）を計算するステップと、
前記特定のＳＴＡから残響および他の雑音をフィルタリングした強調化ＳＴＡを生成するステップと、
前記強調化ＳＴＡから１つまたは複数の特徴を計算するステップと、
前記ＤＩおよび前記１つまたは複数の特徴を使用して１つまたは複数の特徴ベクトルを作成するステップと、
前記１つまたは複数の特徴ベクトルから前記１個の新しいオーディオデータにおける音声の程度の推定値を決定するステップと、
前記１個の新しいオーディオデータにおける前記音声の程度の前記推定値を出力するステップと、
を含む、コンピュータによって実行される方法。

ＥＥＥ２．
前記ＤＩは、変調周波数帯域の一範囲および音響周波数帯域の一範囲における前記ＭＳＭの値に基づく変調スペクトルの重心である、
ＥＥＥ１のコンピュータによって実行される方法。

ＥＥＥ３．
前記ＤＩは、変調周波数帯域の低い範囲および音響周波数帯域の一範囲における前記ＭＳＭの値に基づく低変調部と、変調周波数帯域の高い範囲および音響周波数帯域の前記範囲における前記ＭＳＭの値に基づく高変調部とのエネルギー比である、
ＥＥＥ１のコンピュータによって実行される方法。

ＥＥＥ４．
前記ＤＩは、変調周波数帯域の低い範囲および音響周波数帯域の一範囲における前記ＭＳＭの値に基づく低変調部と、変調周波数帯域の全範囲および音響周波数帯域の前記範囲における前記ＭＳＭの値に基づく全変調部とのエネルギー比である、
ＥＥＥ１のコンピュータによって実行される方法。

ＥＥＥ５．
前記取得するステップは、前記時点より前の所定の個数の連続した時点に対応する複数個の新しいオーディオデータを使用し、高速フーリエ変換を用いて前記ＭＳＭを計算するステップを含む、
ＥＥＥ１のコンピュータによって実行される方法。

ＥＥＥ６．
前記強調化ＳＴＡを生成するステップは、変調周波数帯域の除外された範囲の外側の前記ＭＳＭの値をフィルタリングして除去するステップを含む、
ＥＥＥ１～５のいずれかのコンピュータによって実行される方法。

ＥＥＥ７．
変調周波数帯域の前記除外された範囲は、３～３０Ｈｚである、
ＥＥＥ６のコンピュータによって実行される方法。

ＥＥＥ８．
前記強調化ＳＴＡを生成するステップは、時間にわたる集計によって平滑化スペクトル時間エネルギーを計算するステップを含む、
ＥＥＥ１～７のいずれかのコンピュータによって実行される方法。

ＥＥＥ９．
前記強調化ＳＴＡを生成するステップは、経時的に最小スペクトル時間エネルギーをトラッキングすることによって残留雑音を除去するステップを含む、
ＥＥＥ１～８のいずれかのコンピュータによって実行される方法。

ＥＥＥ１０．
強調化ＳＴＡを生成するステップは、入力データとしての、異なる度合いの残響および他の雑音に対応するスペクトル時間振幅データと、出力データとしての、クリーンな音声のみに対応する対応のスペクトル時間振幅データとを用いて訓練された機械学習モデルを適用するステップを含む、
ＥＥＥ１～７のいずれかのコンピュータによって実行される方法。

ＥＥＥ１１．
前記機械学習モデルの適用から、低いカットオフ変調周波数および高いカットオフ変調周波数を含む、前記クリーンな音声を特徴づける特徴を抽出するステップ、
をさらに含む、ＥＥＥ１０のコンピュータによって実行される方法。

ＥＥＥ１２．
前記計算するステップは、前記強調化ＳＴＡを使用して強調化メル周波数ケプストラム係数（ＭＦＣＣ）を計算するステップを含む、
ＥＥＥ１～１１のいずれかのコンピュータによって実行される方法。

ＥＥＥ１３．
前記計算するステップは、強調化スペクトル平坦度（ＳＦＴ）を計算するステップであって、前記ＳＴＡの代わりに前記強調化ＳＴＡを使用し、かつ、前記ＳＦＴの計算において経時的に値を合計することによって前記強調化ＳＦＴを計算するステップを含む、
ＥＥＥ１～１２のいずれかのコンピュータによって実行される方法。

ＥＥＥ１４．
前記１つまたは複数の特徴は、ピーク帯域と他の帯域とのパワー比の合計に基づくスペクトルの山、ピークと平均（ピーク帯域なし）とのパワー比に基づくスペクトルの山、隣接するスペクトル帯域パワーの分散または標準偏差、隣接する周波数帯域間のスペクトル帯域パワー差の合計または最大値、スペクトル広がりまたはスペクトル中心周辺のスペクトル分散、およびスペクトルエントロピーを含む、
ＥＥＥ１～１３のいずれかのコンピュータによって実行される方法。

ＥＥＥ１５．
前記判定するステップは、入力データとしての、クリーンな音声に対応するスペクトル時間振幅データおよび異なる度合いの残響および他の雑音に対応するスペクトル時間振幅データの１つまたは複数の特徴と、出力データとしての、対応する音声の程度とを用いて訓練された機械学習モデルを適用するステップを含む、
ＥＥＥ１～１４のいずれかのコンピュータによって実行される方法。

ＥＥＥ１６．
時間領域における新しいオーディオデータを受信するステップと、
一時点に対応する１個の前記新しいオーディオデータを時間－周波数表現としての前記特定のスペクトル時間振幅（ＳＴＡ）に変換するステップと、
をさらに含む、ＥＥＥ１～１５のいずれかのコンピュータによって実行される方法。

ＥＥＥ１７．
変調周波数領域におけるデータに基づいて残響信号から音声を検出するコンピュータによって実行される方法であって、
プロセッサによって、時間領域における新しいオーディオデータを取得するステップと、
一時点に対応する１個の前記新しいオーディオデータを時間－周波数表現としての特定のスペクトル時間振幅（ＳＴＡ）に変換するステップと、
検出モデルを前記特定のＳＴＡに適用して、前記新しいオーディオデータにおける音声の程度の推定値を取得するステップと、
を含む、方法であって、前記適用するステップは、
前記プロセッサによって、前記時点に対する、音響帯域次元および変調帯域次元を有する変調スペクトル測定値（ＭＳＭ）を、新しいオーディオデータから得られた１つまたは複数のＳＴＡから取得するステップと、
前記ＭＳＭに基づいて、前記時点に対応する１個の前記新しいオーディオデータに対する変調周波数領域における拡散性の度合いを示す拡散性指標（ＤＩ）を計算するステップと、
前記特定のＳＴＡから残響および他の雑音をフィルタリングした強調化ＳＴＡを生成するステップと、
前記強調化ＳＴＡから１つまたは複数の特徴を計算するステップと、
前記ＤＩおよび前記１つまたは複数の特徴を使用して１つまたは複数の特徴ベクトルを作成するステップと、
前記１つまたは複数の特徴ベクトルから前記１個の新しいオーディオデータにおける音声の程度の推定値を決定するステップと、
前記１個の新しいオーディオデータにおける前記音声の程度の前記推定値を出力するステップと、
を含む、
コンピュータによって実行される方法。

ＥＥＥ１８．
前記取得するステップは、前記時点より前の所定の個数の連続した時点に対応する複数個の新しいオーディオデータを使用し、高速フーリエ変換を用いて前記ＭＳＭを計算するステップを含む、
ＥＥＥ１７のコンピュータによって実行される方法。

ＥＥＥ１９．
前記生成するステップは、パーセバルの定理に基づく、
ＥＥＥ１７のコンピュータによって実行される方法。

ＥＥＥ２０．
前記計算するステップは、１２５～８，０００Ｈｚの音響周波数帯域の範囲を有する前記ＭＳＭの値を使用するステップを含む、
ＥＥＥ１７のコンピュータによって実行される方法。

【図1】

【図2】

【図3A】

【図3B】

【図3C】

【図4A】

【図4B】

【図5A】

【図5B】

【図5C】

【図6】

【図7】

【図8】

【手続補正書】

【提出日】2024-04-09

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

【請求項2】

【請求項3】

【請求項4】

【請求項5】

【請求項6】

【請求項7】

変調周波数帯域の前記除外された範囲は、３～３０Ｈｚである、
請求項６に記載のコンピュータによって実行される方法。

【請求項8】

前記強調化ＳＴＡを生成するステップは、時間にわたる集計によって平滑化スペクトル時間エネルギーを計算するステップを含む、
請求項１～５のいずれかに記載のコンピュータによって実行される方法。

【請求項9】

前記強調化ＳＴＡを生成するステップは、経時的に最小スペクトル時間エネルギーをトラッキングすることによって残留雑音を除去するステップを含む、
請求項１～５のいずれかに記載のコンピュータによって実行される方法。

【請求項10】

強調化ＳＴＡを生成するステップは、入力データとしての、異なる度合いの残響および他の雑音に対応するスペクトル時間振幅データと、出力データとしての、クリーンな音声のみに対応する対応のスペクトル時間振幅データとを用いて訓練された機械学習モデルを適用するステップを含む、
請求項１～５のいずれかに記載のコンピュータによって実行される方法。

【請求項11】

【請求項12】

前記計算するステップは、前記強調化ＳＴＡを使用して強調化メル周波数ケプストラム係数（ＭＦＣＣ）を計算するステップを含む、
請求項１～５のいずれかに記載のコンピュータによって実行される方法。

【請求項13】

前記計算するステップは、強調化スペクトル平坦度（ＳＦＴ）を計算するステップであって、前記ＳＴＡの代わりに前記強調化ＳＴＡを使用し、かつ、前記ＳＦＴの計算において経時的に値を合計することによって前記強調化ＳＦＴを計算するステップを含む、
請求項１～５のいずれかに記載のコンピュータによって実行される方法。

【請求項14】

前記１つまたは複数の特徴は、ピーク帯域と他の帯域とのパワー比の合計に基づくスペクトルの山、ピークと平均（ピーク帯域なし）とのパワー比に基づくスペクトルの山、隣接するスペクトル帯域パワーの分散または標準偏差、隣接する周波数帯域間のスペクトル帯域パワー差の合計または最大値、スペクトル広がりまたはスペクトル中心周辺のスペクトル分散、およびスペクトルエントロピーを含む、
請求項１～５のいずれかに記載のコンピュータによって実行される方法。

【請求項15】

前記判定するステップは、入力データとしての、クリーンな音声に対応するスペクトル時間振幅データおよび異なる度合いの残響および他の雑音に対応するスペクトル時間振幅データの１つまたは複数の特徴と、出力データとしての、対応する音声の程度とを用いて訓練された機械学習モデルを適用するステップを含む、
請求項１～５のいずれかに記載のコンピュータによって実行される方法。

【国際調査報告】

知財求人

青山学院大学 (神奈川県相模原市中央区淵野辺)

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版