(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-08-05
(54)【発明の名称】音声およびノイズアクティビティ検出と統合された低レイテンシオートミキサー
(51)【国際特許分類】
G10L 21/0208 20130101AFI20220729BHJP
G10L 25/84 20130101ALI20220729BHJP
H04R 3/00 20060101ALI20220729BHJP
【FI】
G10L21/0208 100Z
G10L25/84
H04R3/00
H04R3/00 320
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021571323
(86)(22)【出願日】2020-05-29
(85)【翻訳文提出日】2022-01-28
(86)【国際出願番号】 US2020035185
(87)【国際公開番号】W WO2020243471
(87)【国際公開日】2020-12-03
(32)【優先日】2019-05-31
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】504189151
【氏名又は名称】シュアー アクイジッション ホールディングス インコーポレイテッド
【氏名又は名称原語表記】SHURE ACQUISITION HOLDINGS,INC.
(74)【代理人】
【識別番号】100094569
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100103610
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100109070
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100086771
【氏名又は名称】西島 孝喜
(74)【代理人】
【識別番号】100109335
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100139712
【氏名又は名称】那須 威夫
(72)【発明者】
【氏名】ぺニマン ロス ローレンス
(72)【発明者】
【氏名】レスター マイケル ライアン
(72)【発明者】
【氏名】アンサイ ミシェル ミチコ
(72)【発明者】
【氏名】プロシンスキ マイケル ハリソン
(72)【発明者】
【氏名】ティアン ウェンシュン
(72)【発明者】
【氏名】ヴァーリー デヴィッド アンドリュー
【テーマコード(参考)】
5D220
【Fターム(参考)】
5D220BA02
5D220BB04
5D220BC08
5D220EE23
5D220EE25
(57)【要約】
信号対雑音比を最大化し、オーディオレイテンシを最小化しながら、不規則な非音声または非人間のノイズを除去することができる、オーディオオートミキサーと一体になった音声およびノイズアクティビティ検出を提供するためのシステムおよび方法を開示する。
【特許請求の範囲】
【請求項1】
ミキサーによって最初にゲートオンされたチャネルのオーディオ信号に非発話オーディオが存在するか否かを判定することであって、前記ミキサーは、前記最初にゲートオンされたチャネルの前記オーディオ信号に少なくとも基づいて混合されたオーディオ信号を生成する、判定することと、
前記最初にゲートオンされたチャネルの前記オーディオ信号に前記非発話オーディオが存在すると判定された場合、前記最初にゲートオンされたチャネルの前記オーディオ信号を有さない前記混合されたオーディオ信号を前記ミキサーに生成させるために、前記最初にゲートオンされたチャネルをゲートオフすることによって、前記ミキサーを上書きすることと、
を含む、方法。
【請求項2】
(1)前記ミキサーが前記最初にゲートオンされたチャネルをゲートオンすると判定することと、(2)前記最初にゲートオンされたチャネルの前記オーディオ信号に前記非発話オーディオが存在するか否かを判定することとの間の期間中、前記最初にゲートオンされたチャネルの前記オーディオ信号における前端ノイズ漏洩を最小化することをさらに含む、請求項1に記載の方法。
【請求項3】
非発話抑制フィルタを前記最初にゲートオンされたチャネルの前記オーディオ信号に適用することをさらに含む、請求項1に記載の方法。
【請求項4】
前記最初にゲートオンされたチャネルの前記オーディオ信号に発話オーディオが存在するか否かを判定することと、
前記最初にゲートオンされたチャネルの前記オーディオ信号に前記発話オーディオが存在すると判定された場合、前記最初にゲートオンされたチャネルの前記オーディオ信号から前記非発話抑制フィルタを解除することと、
をさらに含む、請求項3に記載の方法。
【請求項5】
(1)前記ミキサーが前記最初にゲートオンされたチャネルをゲートオンすると判定することと、(2)前記最初にゲートオンされたチャネルの前記オーディオ信号に前記非発話オーディオが存在するか否かを判定することとの間の期間が経過した後、前記最初にゲートオンされたチャネルの前記オーディオ信号から前記非発話抑制フィルタを解除することをさらに含む、請求項3に記載の方法。
【請求項6】
前記最初にゲートオンされたチャネルの前記オーディオ信号を減衰させることをさらに含む、請求項1に記載の方法。
【請求項7】
前記最初にゲートオンされたチャネルの前記オーディオ信号に発話オーディオが存在するか否かを判定することと、
前記最初にゲートオンされたチャネルの前記オーディオ信号に前記発話オーディオが存在すると判定された場合、前記最初にゲートオンされたチャネルの前記オーディオ信号から前記減衰を解除することと、
をさらに含む、請求項6に記載の方法。
【請求項8】
(1)前記ミキサーが前記最初にゲートオンされたチャネルをゲートオンすると判定することと、(2)前記最初にゲートオンされたチャネルの前記オーディオ信号に前記非発話オーディオが存在するか否かを判定することとの間の期間が経過した後、前記最初にゲートオンされたチャネルの前記オーディオ信号から前記減衰を解除することをさらに含む、請求項6に記載の方法。
【請求項9】
前記最初にゲートオンされたチャネルの前記オーディオ信号に時間変化する減衰を適用することをさらに含む、請求項1に記載の方法。
【請求項10】
前記最初にゲートオンされたチャネルの前記オーディオ信号に発話オーディオが存在するか否かを判定することと、
前記最初にゲートオンされたチャネルの前記オーディオ信号に前記発話オーディオが存在すると判定された場合、前記最初にゲートオンされたチャネルの前記オーディオ信号から前記時間変化する減衰を解除することと、
をさらに含む、請求項9に記載の方法。
【請求項11】
(1)前記ミキサーが前記最初にゲートオンされたチャネルをゲートオンすると判定することと、(2)前記最初にゲートオンされたチャネルの前記オーディオ信号に前記非発話オーディオが存在するか否かを判定することとの間の期間が経過した後、前記最初にゲートオンされたチャネルの前記オーディオ信号から前記時間変化する減衰を解除することをさらに含む、請求項9に記載の方法。
【請求項12】
波高率コンプレッサまたは波高率リミッタのうちの1つまたは複数を、前記最初にゲートオンされたチャネルの前記オーディオ信号に適用することをさらに含む、請求項1に記載の方法。
【請求項13】
前記最初にゲートオンされたチャネルの前記オーディオ信号に発話オーディオが存在するか否かを判定することと、
前記最初にゲートオンされたチャネルの前記オーディオ信号に前記発話オーディオが存在すると判定された場合、前記最初にゲートオンされたチャネルの前記オーディオ信号から前記波高率コンプレッサまたは前記波高率リミッタのうちの前記1つまたは複数を解除することと、
をさらに含む、請求項12に記載の方法。
【請求項14】
(1)前記ミキサーが前記最初にゲートオンされたチャネルをゲートオンすると判定することと、(2)前記最初にゲートオンされたチャネルの前記オーディオ信号に前記非発話オーディオが存在するか否かを判定することとの間の期間が経過した後、前記最初にゲートオンされたチャネルの前記オーディオ信号から前記波高率コンプレッサまたは前記波高率リミッタのうちの前記1つまたは複数を解除することをさらに含む、請求項12に記載の方法。
【請求項15】
前記最初にゲートオンされたチャネルの前記オーディオ信号に前記非発話オーディオが存在すると判定された場合、前記最初にゲートオンされたチャネルに、ゲートオフされた後に追加の減衰を適用することをさらに含む、請求項1に記載の方法。
【請求項16】
前記最初にゲートオンされたチャネルがこれまでに前記非発話オーディオまたは発話オーディオのいずれを含むかに基づいて、前記前端ノイズ漏洩の最小化に関連するパラメータを変更することをさらに含む、請求項2に記載の方法。
【請求項17】
前記ミキサーを上書きすることは、前記最初にゲートオンされたチャネルをゲートオフする速度を制御して前記ミキサーを上書きすることを含む、請求項1に記載の方法。
【請求項18】
前記最初にゲートオンされたチャネルの前記オーディオ信号に発話オーディオが存在するか否かを判定することと、
前記ミキサーによって最初にゲートオンされた第2のチャネルの第2のオーディオ信号に非発話オーディオが存在するか否かを判定することと、
前記最初にゲートオンされたチャネルの前記オーディオ信号に前記発話オーディオが存在すると判定され、前記最初にゲートオンされた第2のチャネルの前記第2のオーディオ信号に前記非発話オーディオが存在すると判定された場合、前記最初にゲートオンされたチャネルの前記オーディオ信号にノイズ漏洩フィルタを適用することと、
をさらに含む、請求項1に記載の方法。
【請求項19】
(1)チャネル選択ルール、または(2)前記最初にゲートオンされたチャネルの前記オーディオ信号が発話オーディオを含むか否か、のうちの1つまたは複数に基づいて、前記ミキサーによって前記最初にゲートオンされたチャネルをゲートオンすると判定することをさらに含む、請求項1に記載の方法。
【請求項20】
ミキサーによって最初にゲートオンされたチャネルのオーディオ信号に非発話オーディオが存在するか否かを判定するように構成されるアクティビティ検出器であって、前記ミキサーは、前記最初にゲートオンされたチャネルの前記オーディオ信号に少なくとも基づいて混合されたオーディオ信号を生成するように構成される、アクティビティ検出器と、
前記アクティビティ検出器と通信するチャネルゲーティングモジュールと、
を備え、前記チャネルゲーティングモジュールは、前記アクティビティ検出器によって前記最初にゲートオンされたチャネルの前記オーディオ信号に前記非発話オーディオが存在すると判定された場合、前記ミキサーに、
前記最初にゲートオンされたチャネルをゲートオフさせ、
前記最初にゲートオンされたチャネルの前記オーディオ信号を有さない前記混合されたオーディオ信号を生成させる
ように前記ミキサーを上書きするよう構成される、システム。
【請求項21】
前記ミキサーと通信するプレミキサーをさらに備え、前記プレミキサーは、(1)前記ミキサーが前記最初にゲートオンされたチャネルをゲートオンすると判定することと、(2)前記アクティビティ検出器が前記最初にゲートオンされたチャネルの前記オーディオ信号に前記非発話オーディオが存在するか否かを判定することとの間の期間中、前記最初にゲートオンされたチャネルの前記オーディオ信号における前端ノイズ漏洩を最小化するように構成される、請求項20に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2019年5月31日に出願された米国仮特許出願第62/855,491号の利益を主張し、その全体が引用により本明細書に組み込まれている。
【0002】
本出願は一般に、オーディオオートミキサーと統合された低レイテンシの音声(voice)およびノイズアクティビティ検出を提供するためのシステムおよび方法に関する。より詳細には、本出願は、信号対雑音比を最大化し、オーディオレイテンシを最小化しながら、不規則な(errant)非音声または非人間のノイズを除去することができる、オーディオオートミキサーと一体になった音声およびノイズアクティビティ検出を提供するためのシステムおよび方法に関する。
【背景技術】
【0003】
会議室、会議セッティングなどの会議環境およびプレゼンテーション環境では、様々なオーディオソースからの音(sound)をキャプチャするために複数のマイクロフォンまたはマイクロフォンアレイローブの使用を含む場合がある。オーディオソースには、たとえば、人間の話者が含まれ得る。キャプチャされた音は、アンプスピーカー(拡声用)を介してその環境内のローカルの聴衆に、ならびに/あるいは(たとえば、テレキャストおよび/またはウェブキャストを介して)その環境から離れた他の人々に広められ得る。マイクロフォンまたはアレイローブのそれぞれは、チャネルを形成し得る。キャプチャされた音は、マルチチャネルオーディオとして入力され、単一の混合されたオーディオチャネルとして提供され得る。
【0004】
典型的には、キャプチャされた音は、紙をめくる、袋および容器を開ける、咀嚼、タイピングのような突然の音、衝撃音、または再発性の音など、環境内の不規則な非音声または非人間のノイズも含み得る。キャプチャされた音に含まれる不規則ノイズを最小化するために、音声アクティビティ検出(VAD:voice activity detection)アルゴリズムおよび/またはオートミキサーが、マイクロフォンまたはアレイローブのチャネルに適用され得る。オートミキサーは、人間の発話(speech)または音声をキャプチャしていないときに、特定のマイクロフォンのオーディオ入力信号の強度を自動的に低下させて、背景ノイズ、静的ノイズ、または定常ノイズの影響を軽減することができる。VADは、人間の発話または音声の有無を検出することができる、発話処理において使用される技術である。また、ノイズ低減技術は、ファンおよびHVACシステムのノイズなど、特定の背景ノイズ、静的ノイズ、または定常ノイズを低減することができる。しかしながら、そのようなノイズ低減技術は、不規則ノイズを低減または除去するのに理想的ではない。
【0005】
オートミキシングとVADとの組み合わせは現在のシステムに存在するが、そのような組み合わせは通常、リアルタイムのコミュニケーションが可能な、または室内の拡声で使用するための低いオーディオレイテンシの場合は特に、不規則ノイズを本質的に除去することができない。オートミキサーは、典型的には、最初の到着時間または所与の瞬間での最大振幅など、比較的単純なチャネル選択ルールに依存しているので、不規則ノイズを除去すると、典型的なオートミキサーのパフォーマンスは低下し得る。オートミキシングとVADとを統合した現在のシステムは、レイテンシが長いこと、および/または発話もしくは音声の前端クリッピング(FEC:front end clipping)が原因で、最適ではない場合がある。たとえば、発話または音声内の音節または単語へのFECを最小化するために、VADの検出遅延を音声の発生に合わせると、さらなるオーディオレイテンシがチャネルに追加され得、これによりオーディオストリームに許容できない遅延が発生し得る。あるいは、VAD検出遅延をオーディオストリームに合わせるためにオーディオレイテンシを追加しないと判定することによって、FECを許容することができるが、これによりオーディオストリームの音声または発話が不完全になり得る。これらの状況では、ユーザの満足度が低下し得る。また、VADを用いる多くの現在のシステムは、単一のオーディオチャネルのみを利用し得、特定の環境で発生する発話/音声とノイズとの空間的関係を効果的な動作のために考慮する必要がない。
【0006】
さらに、オートミキシングアプリケーション(個別のマイクロフォンユニットを用いるか、またはマイクロフォンアレイから操舵されるオーディオローブを使用するもの)では、音声および不規則ノイズが同じ環境で発生し、マイクロフォンおよび/またはローブの不完全な音響ポーラパターンが原因で、全てのマイクロフォンおよび/またはローブに含まれ得る。これにより、VAD検出機能(個別チャネル方式および集合チャネル方式の両方)、適切なオートミキサーチャネル選択(音声を含むチャネルを選択しながら不規則ノイズの回避を試行)、および発話/音声を含んでいるためにゲートオンされたローブにおける不規則ノイズの抑圧に関する問題が生じ得る。
【0007】
したがって、これらの懸念に対処するシステムおよび方法の機会が存在する。より詳細には、信号対雑音比を最大化し、明瞭性を高め、オーディオレイテンシを最小化し、ユーザの満足度を高めながら、不規則な非音声または非人間のノイズを除去することができる、オーディオオートミキサーと一体になった音声およびノイズアクティビティ検出を提供することができるシステムおよび方法の機会が存在する。オートミキシングの原理とより高度な音声アクティビティ検出技術とを組み合わせることにより、マイクロフォン/ローブの選択を強化して、発話対不規則ノイズ比を最大化することができる。
【発明の概要】
【0008】
本発明は、とりわけ、(1)音声または不規則ノイズのいずれがチャネルに存在するかを検知するためにノイズアクティビティ検出器として機能するように改変された、修正された音声アクティビティ検出器を利用し、(2)オートミキサーによって実行されるチャネルゲーティングに影響を与え得る、および/または上書きし得る音声アクティビティ検出器からのメトリックおよび判定に基づいて追加のチャネルゲーティングを実行し、(3)キャプチャされた音声/発話の前端クリッピングの量を低減または排除し、(4)特定のゲートオンされたチャネルに最初に含まれ得る不規則ノイズからの前端ノイズ漏洩の影響を最小化するように設計されるシステムおよび方法を提供することによって、上記の問題を解決することを目的とする。
【0009】
一実施形態では、方法は、ミキサーによって最初にゲートオンされたチャネルのオーディオ信号に非発話オーディオが存在するか否かを判定することであって、ミキサーは、最初にゲートオンされたチャネルのオーディオ信号に少なくとも基づいて混合されたオーディオ信号を生成する、判定することと、最初にゲートオンされたチャネルのオーディオ信号に非発話オーディオが存在すると判定された場合、最初にゲートオンされたチャネルのオーディオ信号を有さない混合されたオーディオ信号をミキサーに生成させるために、最初にゲートオンされたチャネルをゲートオフすることによって、ミキサーを上書きすることと、を含む。
【0010】
他の実施形態では、システムは、ミキサーによって最初にゲートオンされたチャネルのオーディオ信号に非発話オーディオが存在するか否かを判定するように構成されるアクティビティ検出器であって、ミキサーは、最初にゲートオンされたチャネルのオーディオ信号に少なくとも基づいて混合されたオーディオ信号を生成するように構成される、アクティビティ検出器を含む。このシステムはまた、アクティビティ検出器と通信するチャネルゲーティングモジュールを含み、チャネルゲーティングモジュールは、アクティビティ検出器によって最初にゲートオンされたチャネルのオーディオ信号に非発話オーディオが存在すると判定された場合、ミキサーに、最初にゲートオンされたチャネルをゲートオフさせ、最初にゲートオンされたチャネルのオーディオ信号を有さない混合されたオーディオ信号を生成させるようにミキサーを上書きするよう構成される。
【0011】
これらおよび他の実施形態、ならびに様々な置換および態様は、本発明の原理が使用され得る様々な方法を示す例示的な実施形態を記載した以下の詳細な説明および添付図面から明らかになり、より完全に理解されよう。
【図面の簡単な説明】
【0012】
【
図1】いくつかの実施形態による、チャネルのゲーティングのためのミキサーおよび音声アクティビティ検出器を含むシステムの概略図である。
【
図2】いくつかの実施形態による、
図1のシステムを使用してマイクロフォンからのチャネルをゲーティングするための動作を示すフローチャートである。
【
図3】いくつかの実施形態による、
図1のシステムのミキサーで使用される例示的なゲート制御ステートマシンの図である。
【発明を実施するための形態】
【0013】
以下の説明は、本発明の原理に従う本発明の1つまたは複数の特定の実施形態を説明し、図解し、例示する。この説明は、本発明を本明細書に記載の実施形態に限定するためではなく、当業者が本発明の原理を理解し、その理解の下でそれらを適用して、本明細書に記載の実施形態のみでなく、これらの原理に従って思い浮かび得る他の実施形態も実践できるような方法で、本発明の原理を説明および教示するために提供している。本発明の範囲は、字義通りに、または均等論の下で、添付の特許請求の範囲に含まれ得る全てのそのような実施形態を包含するものとする。
【0014】
本説明および図面において、同等または実質的に同様の要素は、同一の参照番号でラベル付けし得ることに留意されたい。しかしながら、これらの要素は異なる番号でラベル付けする場合があり、これはたとえば、そのようなラベル付けによって説明がより明確になる場合などである。さらに、本明細書に記載の図面は、必ずしも一定の縮尺で描いているわけではなく、場合によっては、特定の特徴をより明確に描写するために比率を誇張している場合がある。そのようなラベル付けおよび描画の慣行は、必ずしも根底にある本質的な目的を示唆するものではない。上記のように、本明細書は、全体としてとらえられ、本明細書で教示した、当業者に理解される本発明の原理に従って解釈されることを意図している。
【0015】
本明細書に記載のシステムおよび方法は、環境で検知された不規則な非音声または非人間のノイズの影響を低減および最小化するオートミキサーから混合されたオーディオ信号を生成することができる。これらのシステムおよび方法はオートミキサーを音声アクティビティ検出器(または不規則ノイズアクティビティ検出器)と共に利用し得、それぞれが独立したチャネルゲーティング判定を行う。オートミキサーは、チャネル選択ルールに基づいて特定のチャネルをゲートオンまたはオフし得、音声/不規則ノイズアクティビティ検出器は、オートミキサーによってゲートオンされたチャネルにおいて音声または不規則ノイズのいずれが検出されたかに応じて、オートミキサーのチャネルゲーティング判定を上書きし得る。信頼スコアなどの音声/不規則ノイズアクティビティ検出器からのメトリックも、チャネルゲーティング判定に影響を与え得、および/またはオートミキサーにおいてチャネルごとに選択される相対的な混合に影響を与え得る。低レイテンシのオーディオ出力をサポートするために、音声/不規則ノイズアクティビティ検出器がオーディオミキサーを上書きできるようになる前に、一部の不規則ノイズがオーディオミックスに漏洩し得る。これらのシステムおよび方法は、このチャネルゲーティングのノイズの出だしのエネルギーおよび主観的な音質への影響を最小化しながら、この動作を可能にし得る。これにより、低レイテンシを維持しながら、チャネルに漏洩する不規則ノイズからのエネルギーを最小化することが可能になる。
【0016】
図1は、マイクロフォン102、ミキサー104、および音声アクティビティ検出器108を含む、不規則ノイズを除去するために利用することができるシステム100の概略図である。
図2は、
図1のシステム100を使用して不規則ノイズを除去するための処理200のフローチャートである。システム100および処理200は、最適な信号対雑音比を有し、不規則ノイズの含有または影響を最小化しながら望ましい音声を含む混合されたオーディオ信号の出力をもたらし得る。
【0017】
会議室などの環境は、システム100を利用して、たとえば、遠隔地にいる人とのコミュニケーションを容易にし得る。マイクロフォン102のタイプおよび特定の環境におけるそれらの配置は、オーディオソースの位置、物理的なスペースの要件、美観、部屋のレイアウト、および/または他の考慮事項に依存し得る。たとえば、一部の環境では、マイクロフォンはオーディオソースの近くのテーブルまたは演台に配置され得る。他の環境では、マイクロフォンは、たとえば、部屋全体からの音をキャプチャするために頭上に取り付けられ得る。コミュニケーションシステム100は、任意のタイプおよび任意の数のマイクロフォン102と連動して動作し得る。コミュニケーションシステム100に含まれる様々な構成要素は、たとえば、プロセッサおよびメモリ、グラフィック処理ユニット(GPU)を有するコンピューティングデバイスなどの1つまたは複数のサーバまたはコンピュータによって実行可能なソフトウェアを使用して、ならびに/あるいはハードウェア(たとえば、ディスクリート論理回路、特定用途向け集積回路(ASIC)、プログラマブルゲートアレイ(PGA)、フィールドプログラマブルゲートアレイ(FPGA)など)によって実装され得る。
【0018】
一般に、実施形態によるコンピュータプログラム製品は、コンピュータ可読プログラムコードがその中に具現化されたコンピュータ使用可能記憶媒体(たとえば、標準的なランダムアクセスメモリ(RAM)、光ディスク、ユニバーサルシリアルバス(USB)ドライブなど)を含み、コンピュータ可読プログラムコードは、以下に説明する方法を実装するために、プロセッサ(たとえば、オペレーティングシステムと連携するもの)によって実行されるようになされる。この点に関して、プログラムコードは、任意の所望の言語で実装され得、(たとえば、C、C++、Java、Actionscript、Objective-C、Javascript、CSS、XML、および/またはその他を介して)機械語、アセンブリコード、バイトコード、解釈実行可能なソースコードなどとして実装され得る。
【0019】
図1を参照すると、システム100は、マイクロフォン102、ミキサー104、プレミキサー106、音声アクティビティ検出器108、およびチャネルゲーティングモジュール110を含み得る。各マイクロフォン102は、環境内の音を検出し、その音をオーディオ信号に変換し、チャネルを形成し得る。実施形態では、マイクロフォン102からのオーディオ信号の一部または全ては、当技術分野で知られているように、ビームフォーマ(図示せず)によって処理されて、1つまたは複数のビームフォーミングされたオーディオ信号を生成し得る。したがって、これらのシステムおよび方法は、本明細書ではマイクロフォン102からのオーディオ信号を使用するものとして説明するが、これらのシステムおよび方法は、ビームフォーマによって生成されるビームフォーミングされたオーディオ信号などの任意のタイプの音響ソースも利用し得ると考えられる。
【0020】
各マイクロフォン102からのオーディオ信号は、
図2に示す処理200のステップ202などにおいて、ミキサー104、プレミキサー106、および音声アクティビティ検出器108によって受け取られ得る。ミキサー104は、特定のマイクロフォンからのオーディオ信号が強調され、他のマイクロフォンからのオーディオ信号が抑制(deemphasized)または抑圧されるような所望のオーディオミックスに一致し得る混合されたオーディオ信号を最終的に生成および出力し得る。オーディオミキサーの例示的な実施形態は、同一出願人による特許である、米国特許第4,658,425号および米国特許第5,297,210号に開示されており、これらはそれぞれ引用によりその全体が組み込まれている。
【0021】
ミキサー104からの混合されたオーディオ信号は、1つまたは複数のチャネルからの寄与、すなわち、システム100を使用してゲートオンされたマイクロフォン102からのオーディオ信号を含み得る。ミキサー104およびチャネルゲーティングモジュール110は、キャプチャされたオーディオが人間の発話を含むと判定したことに応答して、および/または特定のチャネル選択ルールに従って、1つまたは複数のチャネルをゲートオンすることによって、キャプチャされたオーディオを抑圧せずに(または特定の実施形態では、最小限の抑圧で)提供し得る。ミキサー104およびチャネルゲーティングモジュール110はまた、チャネル内のキャプチャされたオーディオが背景ノイズ、静的ノイズ、または定常ノイズであると判定したことに応答して、1つまたは複数のチャネルをゲートオフすることによって、特定のキャプチャされたオーディオの強度を低下させ得る。ステップ204において、ミキサー104およびチャネルゲーティングモジュール110によるチャネルゲーティングの判定が行われ得る。ミキサー104およびチャネルゲーティングモジュール110は、複数のマイクロフォンまたはアレイローブ102に対応する複数のチャネルのそれぞれについてチャネルゲーティング判定を下し得る。処理200はステップ206に続き得る。
【0022】
ステップ206において、チャネルがステップ204においてゲートオフされると判定されていた場合、処理200はステップ218に進み得、ミキサー104は、ゲートオフされたチャネルを含まない混合されたオーディオ信号を出力し得る。しかしながら、ステップ206において、チャネルがステップ204においてゲートオンされると判定されていた場合、処理200はステップ208に続き得、特定の実施形態では、以下でさらに詳細に説明するように、前端ノイズ漏洩を主観的に最小化するための帯域幅制限フィルタ(たとえば、ローパスフィルタ、バンドパスフィルタ、線形予測符号化(LPC:linear predictive coding)など)として機能する非発話抑制フィルタ(non-speech de-emphasis filter)が適用され得る。
【0023】
ステップ210において、マイクロフォン102からのオーディオ信号はまた、音声アクティビティ検出器(VAD)108によって受け取られ得る。VAD108は、ステップ210において、特定のチャネルに音声が存在するか、または逆に、特定のチャネルにノイズが存在するかを判定するためのアルゴリズムを実行し得る。たとえば、VAD108によって特定のチャネルに音声が存在することが発見された(またはノイズが発見されなかった)場合、VAD108は、そのチャネルが音声を含むか、または「ノイズではない」と見なし得る。同様に、VAD108によって特定のチャネルに音声が存在することが発見されなかった(またはノイズが発見された)場合、そのチャネルがノイズを含むか、または「音声ではない」と見なし得る。実施形態では、VAD108は、オーディオ信号のスペクトル分散を分析し、線形予測符号化(LPC)を使用し、機械学習もしくは深層学習技術を適用して音声を検出し、および/またはITU G.729 VAD、GSM規格に含まれるVAD計算用のETSI標準、もしくは長期ピッチ予測などのよく知られている技術を使用することによって実装され得る。
【0024】
特定のチャネルが不規則ノイズを含む(すなわち、「音声ではない」)か否かを識別することによって、システム100は、ミキサー104およびチャネルゲーティングモジュール110によって行われた判定を上書きして、チャネルをゲートオンし、続いてそのようなチャネルをゲートオフすることによって、不規則ノイズがミキサー104から出力される混合されたオーディオ信号に最終的に含まれないようにすることができる。具体的には、ステップ212において、チャネルに不規則ノイズが存在するとステップ210において判定されていた場合、処理200はステップ220に続き得る。ステップ220において、ミキサー104およびチャネルゲーティングモジュール110による、チャネルをゲートオンするという判定は、不規則ノイズを検出したために上書きされ得、チャネルはゲートオフされ得る。処理200はステップ218に続き得、ここでミキサー104は、今ゲートオフされたチャネルからの寄与を含まない混合されたオーディオ信号を出力し得る。実施形態では、VAD108からの信頼スコアを利用して、チャネルをゲートオンするというミキサー104による判定が、チャネルをゲートオフするように上書きされ得るか否かを判定し、および/または信頼スコアを利用して、オートミキサーにおいてチャネルごとに選択される相対的な混合に影響を与え得る。
【0025】
一方、ステップ212において、チャネルに音声が存在する(すなわち、「ノイズが存在しない」)とステップ210において判定されていた場合、処理200はステップ214に続き得る。ステップ214において、以下でより詳細に説明するように、ステップ208において適用されたフィルタが解除され得る。ステップ216において、チャネルのゲートオンは、ミキサー104によって維持され得、ステップ218において、ミキサー104は、このチャネルを含む混合されたオーディオ信号を出力し得る。
【0026】
実施形態では、チャネルに音声またはノイズのいずれが存在するかを識別するためのVAD108によるステップ210および212は、並行して、またはステップ204および206においてミキサー104およびチャネルゲーティングモジュール110がチャネルゲーティング判定を行った直後に実行され得る。たとえば、VAD108は、チャネルが音声またはノイズのいずれを含むかを判定するのに十分な情報を得るために、入力オーディオ信号からオーディオデータを所定の期間収集してバッファリングし得る。したがって、ミキサー104の判定と、VAD108の判定(ミキサー104およびチャネルゲーティングモジュール110の判定を上書きするか上書きしないかに関するもの)との間の期間において、不規則ノイズが、混合されたオーディオ信号に一時的に影響を及ぼし得る。この短期間の不規則ノイズの影響は、前端ノイズ漏洩(FENL:front end noise leak)と呼ばれ得る。混合されたオーディオ信号におけるFENLの発生は、前端クリッピングと比較して、混合されたオーディオ信号の聞き手にとってより望ましく、あまり目立たないと考えられ得る。FENLを許可することの主観的な影響は、FENL期間の振幅および周波数の内容と、FENLが許可される選択された時間の長さとを制御することによって、最小化することができる。
【0027】
実施形態では、ミキサー104は、ミキサー104、チャネルゲーティングモジュール110、およびVAD108の判定に基づいてチャネルゲーティングの最終的な適用を制御するゲート制御ステートマシンを含み得る。このステートマシンは、(1)ゲートオン時間を遅らせるミキサー104およびチャネルゲーティングモジュール110の設計外のアルゴリズム設計によって制御されるFEC期間、(2)ミキサー104およびチャネルゲーティングモジュール110がチャネルゲーティングを完全に制御するFENL期間中の特定の時間、ならびに/あるいは(3)VAD108からのゲーティング指示が、ミキサー104およびチャネルゲーティングモジュール110からのゲーティング指示と論理積が取られ得る最終期間を含み得る。ミキサー104およびチャネルゲーティングモジュール110のゲーティング指示がチャネルのゲートオフに戻ると、ゲート制御ステートマシンはその開始状態に戻され得る。ゲート制御ステートマシンの図を
図3に示す。
【0028】
混合されたオーディオ信号へのFENLの影響は、特定のチャネルに一時的に漏洩し得る不規則ノイズのエネルギーおよびスペクトルの影響を最小化することにより、以下に詳述する様々な技術を使用して最小化され得る。混合されたオーディオ信号へのFENLの影響を最小化することにより、FENLが発生し得る期間中の混合されたオーディオ信号における発話および音声への影響が減少し得る。そのようなFENL最小化技術は、いくつかの実施形態では、プレミキサー106に実装され得る。
【0029】
プレミキサー106は、いくつかの実施形態では、音声アクティビティ検出器108から状態情報を受け取り得る。状態情報は、オートミキサーゲーティングフラグ、VAD/NADインジケータ、およびFENL期間の組み合わせを含み得る。プレミキサー106は、状態情報を利用して、時間の経過に合わせて適用する振幅減衰および周波数フィルタリングを決定し得る。ミキサー104は、プレミキサー106から処理されたオーディオ信号を受け取り得る。プレミキサー106からミキサー104への処理されたオーディオ信号の数は、いくつかの実施形態ではマイクロフォン102の数と同じでもよく、または他の実施形態ではマイクロフォン102の数より少なくてもよい。
【0030】
1つの技術は、ミキサー104によるチャネルをゲートオンするという判定をVAD108が肯定的に裏付けることができるまで、減衰されたゲートオン振幅を適用することを含み得る。FENL期間中のチャネルの減衰は、混合されたオーディオ信号における発話の明瞭性への影響を比較的小さく抑えながら、不規則ノイズの影響を低減することができる。この技術は、プレミキサー106において、ステップ209においてFENL期間ウィンドウ内でオートミキサーが直近にゲートオンしたチャネルに単純な減衰を適用し、ステップ215において減衰の適用を解除することによって、実装され得る。FENL期間ウィンドウは、発話の主観的な音質に明白な影響を与えずにノイズの漏洩が許可される時間の長さに対応するタイマーが満了した後に終了する。
【0031】
他の技術は、FENL期間中にオーディオ帯域幅を削減することを含み得る。このシナリオでのオーディオ帯域幅の削減は、FENL期間中の混合されたオーディオ信号における発話または音声の明瞭性にとって最も重要な周波数を維持しながら、全帯域のFENLを特定の期間(たとえば、数ミリ秒)有することによる影響を大幅に削減することができる。この技術はプレミキサー106において、上述のようにステップ208において非発話抑制フィルタを適用し、ステップ214において非発話抑制フィルタの適用を解除することによって実装され得る。(たとえば、ステップ204および206において)ミキサー104がチャネルをゲートオンするかオフするかついて判定した後であるが、VAD108がチャネルに音声またはノイズのいずれが存在するかについて判定する前に、ステップ208において、たとえば、ローパスフィルタが適用され得る。(たとえば、ステップ210および212において)VAD108がチャネルに音声が存在すると判定すると、ステップ214において非発話抑制フィルタの適用が解除され得る。実施形態では、プレミキサー106における非発話抑制フィルタは、マイクロフォン102からの未処理のオーディオ信号とクロスフェードされる静的な2次バターワースフィルタであり得る。他の実施形態では、プレミキサー106における非発話抑制フィルタは、2つの直列の一次ローパスフィルタとして実装され得、フィルタの極の位置を時間の経過と共に移動させて、低域および高域の帯域幅を独立して時間の経過と共に適応的に制限する制御を行うことによって、より多いまたはより少ないフィルタリングを適用することができる。これらのフィルタの適応的制御は、FENLタイマーパラメータまたはVAD信頼性メトリックに対応することができる。他の実施形態では、プレミキサー106における非発話抑制フィルタは、線形予測符号化を使用して発話のフォルマント構造を保存する、より複雑な帯域幅制限フィルタとして実装され得る。
【0032】
他の技術は、ノイズの知覚を最小化するようにオーディオの波高率を変更することを含み得る。多くのタイプの不規則ノイズは、人間の発話よりも高い波高率を有し得る。持続的な高い波高率は、人間により騒々しさとして知覚され得る。FENL領域中のオーディオの波高率を人間の発話の波高率以下に圧縮することにより、不規則ノイズの知覚される騒々しさを低減しながら、人間の発話の明瞭性を維持することができる。いくつかの実施形態では、目標を上回る瞬間的な時間領域の波高率を有する信号を動的に圧縮して、所望の波高率を維持することができる。他の実施形態では、圧縮をリミッタになるように修正して、結果として得られるオーディオが所望の波高率を有することをより確実にすることができる。
【0033】
さらなる技術は、鋭く瞬間的な不規則ノイズ(たとえば、ペンのクリック、本がテーブルに落ちるなど)の主観的な影響を心理音響的に最小化しつつ、音声の主観的な品質にあまり影響を与えないようにすることができる(音声は通常、出だしが瞬間的ではない)所定量のFECを導入することを含み得る。この状況でのFECの導入は、瞬間的な不規則ノイズの逆エンベロープを模倣するようにさらに改良することができ、これにより、FENL期間中に静的な減衰を受けて発生することになる発話の出だしを完全に削除せずに、ノイズの知覚を大幅に低減することができる。これは、静的ではなく時間変化する減衰を適用することによって、ステップ209において実施され、ステップ215において解除することができる。これらの技術のうちの1つまたは複数を使用することにより、チャネルに音声またはノイズのいずれが存在するかについてVAD108が判定できるまで、混合されたオーディオ信号に漏洩する不規則ノイズの影響が気づかれずに最小化され得る。したがって、これにより、オーディオ経路レイテンシを追加することなく、発話の明瞭性に利益をもたらすことができる。
【0034】
上述のFENL最小化技術は、システム100が動作している環境によりよく適合する動作を自動的に修正することができる適応的技術を使用することによって強化することができる。そのような適応的技術は、上述のゲート制御ステートマシンの時間パラメータ、ならびに逆FECエンベロープ形状、帯域幅削減値、FENL期間中の減衰量、FENL最小化の時間的な進入/退出動作、および/またはVAD108が不規則ノイズを含むと識別したチャネルをゲートオフするためのミキサー104の時間的な弾道特性(ballistics)などのパラメータを制御し得る。
【0035】
実施形態では、システム100は、(複数のマイクロフォンまたはアレイローブ102のそれぞれに対応する)各チャネルの統計を収集して、特定のチャネルが平均して音声/発話またはノイズのいずれを含むかを識別し得る。たとえば、特定の環境では、1つのチャネルがドアに向けられ得、別のチャネルが議長の位置に向けられる。この環境では、時間が経過するにつれて、システム100は、ドアに向けられたチャネルがほぼ不規則ノイズのみであり、議長の位置に向けられたチャネルがほぼ音声のみであると判定し得る。それに応じて、システム100は、ドアに向けられたチャネルを調整して、より長い強制的なFECを適用し、より積極的なFENL最小化パラメータを使用し、および/またはゲート制御ステートマシンに、ゲーティング判定に関してVAD108を優先させ得る。逆に、システム100は、議長の位置に向けられたチャネルを調整して、FECを排除し、FENL最小化技術の使用を削減し、および/またはゲート制御ステートマシンに、より長い期間ミキサー104へゲーティング制御を提供させ得る(これによりVAD108が、チャネルを上書きしてゲートオフする前に、ノイズに関する判定にさらに自信を持つようになり得る)。
【0036】
他の技術は、VAD108が特定のチャネルに関して高い信頼性の閾値レベルに達したときにのみ、システム100が適応化の訓練を許可することを含み得る。これにより、FENL最小化技術に適用される適応化動作における偽陽性および/または偽陰性が軽減され得る。さらなる技術は、システム100が、上述の逆FECエンベロープ形状を更新するために、後にVAD108によってノイズとしてタグ付けされたオーディオ期間にゲートオンされたチャネルのオーディオエンベロープデータをサンプリングして分析することを含み得る。
【0037】
実施形態では、適応的動作は、チャネルをゲートオフする処理にも適用され得る。たとえば、通常の発話の間、システム100は、上下または変化するオーディオのノイズフロアの知覚を最小化するために、チャネルのゲートオフに低速のランプアウトを適用し得る。他の例として、ノイズの存在下では、システム100は、VAD108による判定に応答してチャネルをゲートオフする有効性を最大化するために、チャネルのゲートオフに高速のランプを適用し得る。実施形態では、システム100は、ミキサー104およびVAD108からの情報を組み合わせて、チャネルをゲートオフする理由を特定し得る。この情報は、チャネルがゲートオフされる速度を動的に変更するために使用され得る。また、ランプの一様でない傾斜を使用して、不規則ノイズ状態および発話状態の両方を知覚的に最適化することができる。
【0038】
システム100は、マイクロフォンまたはローブ102の間のオーディオ選択性が不完全であるために、多くのまたは全てのチャネルが音声および不規則ノイズの両方を有し得ることに対処するさらなる技術を含み得る。この状況では、不規則ノイズを最も多く含む特定のチャネルを単純にゲートオフしても、混合されたオーディオ信号から不規則ノイズが完全に排除されない場合がある。このため、不規則ノイズの一部が音声を含むゲートオンされたチャネルにまだ存在し得る。この状況に対処するための1つの技術は、プレミキサー106においてノイズ漏洩フィルタを使用することを含み得る。ノイズ漏洩フィルタは、VAD108が特定のチャネルに音声が存在すると判定した後の時間部分の間に適用され得る。別のチャネルが不規則ノイズを含むと判定された場合(すなわち、その別のチャネルをゲートオンするというミキサー104の判定が、VAD108によって上書きされた場合)、音声を有するチャネルへのノイズの高周波の漏洩を軽減するために、ノイズ漏洩フィルタが、音声を有するチャネルに適用され得る。換言すれば、ノイズ漏洩フィルタは、不規則ノイズを含むと識別されたチャネルが少なくとも1つあり、不規則ノイズを有さない(すなわち、音声を有する)と識別された他のチャネルが存在する場合に適用され得る。実施形態では、プレミキサー106におけるノイズ漏洩フィルタは、マイクロフォン102からの未処理のオーディオ信号とクロスフェードされる静的な2次バターワースフィルタであり得る。他の実施形態では、プレミキサー106におけるノイズ漏洩フィルタは、2つの直列の一次ローパスフィルタとして実装され得、フィルタの極の位置を時間の経過と共に移動させて、低域および高域の帯域幅を独立して時間の経過と共に適応的に制限する制御を行うことによって、より多いまたはより少ないフィルタリングを適用することができる。これらのフィルタの適応的制御は、ノイズとして識別された他のチャネルの数またはVAD信頼性メトリックに対応することができる。他の実施形態では、プレミキサー106におけるノイズ漏洩フィルタは、線形予測符号化を使用して発話のフォルマント構造を保存する、より複雑な帯域幅制限フィルタとして実装され得る。
【0039】
たとえば、典型的には特定のチャネルがミキサー104によってゲートオフされる場合、ミキサー104はそのチャネルのオーディオ信号を(たとえば、-15dBの減衰を適用することによって)減衰させて、ルームプレゼンスを保存し、様々なチャネルがゲートオンおよびオフされたときのノイズフロアの一貫性を有し、後でゲートオンされるチャネルへのFECの影響を低減するようにし得る。上述のノイズ漏洩フィルタを使用することにより、システム100は、発話の明瞭性のための周波数が保存されつつ、不規則ノイズの周波数が除去されるように、ゲートオンされたチャネルの帯域幅を削減し得る。これにより、ゲートオンされたチャネルに漏洩する不規則ノイズが軽減され得る。
【0040】
特定の実施形態では、不規則ノイズの影響をさらに低減するために、VAD108によって1つまたは複数のチャネルが不規則ノイズを含むと識別された場合、システム100は、ゲートオフされたチャネル全てに追加の減衰(すなわち、-15dBから-25dBへの変更)を適用し、これらのチャネルの帯域幅を削減し得る。
【0041】
システム100では、標準的な静的ノイズ低減技術が利用され得ることに留意されたい。実施形態では、VAD108は、ノイズ低減されていないマイクロフォン102からのオーディオ信号を利用し得る。VAD108がノイズ低減されていないオーディオ信号を使用して、VAD108がオーディオ信号の元のノイズフロアに基づいて判定を下せるようにする方が最適な場合がある。
【0042】
本出願では、選言(disjunctive)の使用は連言(conjunctive)を含むものとする。定冠詞または不定冠詞の使用は、濃度(cardinality)を示すことを意図したものではない。具体的には、「the」を冠した対象または「a」および「an」を冠した対象への言及は、可能性のある複数のそのような対象のうちの1つを示すことも意図している。さらに、接続詞「または」は、相互排他的な選択肢ではなく、同時に存在する特徴を伝えるために使用され得る。換言すれば、接続詞「または」は、「および/または」を含むものと理解されたい。「含む(includes)」、「含む(including)」、および「含む(include)」という用語は包括的なものであり、それぞれ、「備える(comprises)」、「備える(comprising)」、および「備える(comprise)」と同じ範囲を有する。
【0043】
図中の処理の説明またはブロックは、その処理内の特定の論理的な機能またはステップを実装するための1つまたは複数の実行可能命令を含むモジュール、セグメント、またはコードの一部を表すものとして理解されるべきであり、代替の実装形態は、当業者によって理解されるように、関与する機能に応じて、実質的に同時または逆の順序を含む、図示または議論したものとは異なる順序で機能が実行され得る本発明の実施形態の範囲内に含まれる。
【0044】
本開示は、その真の意図した公正な範囲および思想を限定することではなく、本技術による様々な実施形態を作成および使用する方法を説明することを意図している。前述の説明は、網羅的であることも、開示した正確な形態に限定されることも意図したものではない。上記の教示に照らして、修正または変形が可能である。実施形態は、記載した技術の原理およびその実際の適用の最良の例示を提供し、当業者が様々な実施形態の技術を、企図した特定の用途に適するように様々な修正を加えて利用できるようにするために選択および説明している。そのような全ての修正および変形は、本特許出願の係属中に補正され得る添付の特許請求の範囲、および公正に、法的に、公平に与えられる権利範囲に従って解釈される場合のその全ての均等物によって決定される実施形態の範囲内にある。
【国際調査報告】