IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ シュアー アクイジッション ホールディングス インコーポレイテッドの特許一覧

特許7572964阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置
<>
  • 特許-阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置 図1
  • 特許-阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置 図2
  • 特許-阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置 図3
  • 特許-阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置 図4
  • 特許-阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置 図5
  • 特許-阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置 図6
  • 特許-阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置 図7
  • 特許-阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置 図8
  • 特許-阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置 図9
  • 特許-阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置 図10
  • 特許-阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置 図11
  • 特許-阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置 図12
  • 特許-阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置 図13
  • 特許-阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置 図14
  • 特許-阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置 図15
  • 特許-阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置 図16
  • 特許-阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置 図17
  • 特許-阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置 図18
  • 特許-阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置 図19
  • 特許-阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置 図20
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-16
(45)【発行日】2024-10-24
(54)【発明の名称】阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置
(51)【国際特許分類】
   H04R 3/00 20060101AFI20241017BHJP
   H04R 1/40 20060101ALI20241017BHJP
   G10K 11/34 20060101ALI20241017BHJP
   G10L 25/51 20130101ALI20241017BHJP
   G10L 21/0272 20130101ALI20241017BHJP
【FI】
H04R3/00 320
H04R1/40 320Z
G10K11/34 100
G10L25/51 400
G10L21/0272 100A
【請求項の数】 30
(21)【出願番号】P 2021556732
(86)(22)【出願日】2020-03-20
(65)【公表番号】
(43)【公表日】2022-05-26
(86)【国際出願番号】 US2020024063
(87)【国際公開番号】W WO2020191380
(87)【国際公開日】2020-09-24
【審査請求日】2023-03-17
(31)【優先権主張番号】62/971,648
(32)【優先日】2020-02-07
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/821,800
(32)【優先日】2019-03-21
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/855,187
(32)【優先日】2019-05-31
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】504189151
【氏名又は名称】シュアー アクイジッション ホールディングス インコーポレイテッド
【氏名又は名称原語表記】SHURE ACQUISITION HOLDINGS,INC.
(74)【代理人】
【識別番号】100094569
【弁理士】
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100103610
【弁理士】
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100109070
【弁理士】
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【弁理士】
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100086771
【弁理士】
【氏名又は名称】西島 孝喜
(74)【代理人】
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【弁理士】
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100139712
【弁理士】
【氏名又は名称】那須 威夫
(72)【発明者】
【氏名】ヴェセリノヴィク ドゥサン
(72)【発明者】
【氏名】アブラハム マシュー ティー
(72)【発明者】
【氏名】レスター マイケル ライアン
(72)【発明者】
【氏名】ヴァイドヤ アヴィナッシュ ケイ
【審査官】堀 洋介
(56)【参考文献】
【文献】特開2012-105199(JP,A)
【文献】特表2014-523679(JP,A)
【文献】特表2018-515028(JP,A)
【文献】特開2011-066805(JP,A)
【文献】米国特許第10210882(US,B1)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00- 3/14
H04R 1/20- 1/40
G10K 11/34
G10L 25/51
G10L 21/0272
(57)【特許請求の範囲】
【請求項1】
環境内のアレイマイクロフォンの複数のローブの非活動状態のローブが配備のために利用可能であるかどうかを判定することと、
前記非活動状態のローブが利用可能であると判定したとき、音声活動の場所データに基づいて、前記非活動状態のローブの位置を特定することと、
前記非活動状態のローブが利用可能でないと判定したとき、
前記複数の配備されたローブのうちの移動すべき1つを選択することと、
前記音声活動の前記場所データに基づいて、前記選択されている配備されたローブを再配置することと
を含む方法。
【請求項2】
前記音声活動の前記場所データが、前記環境内の前記音声活動の座標を含む、請求項1に記載の方法。
【請求項3】
前記複数の配備されたローブのうちの前記1つを選択することが、前記複数の配備されたローブに関連付けられたタイムスタンプに基づいて、前記複数の配備されたローブのうちの前記1つを選択することを含む、請求項1に記載の方法。
【請求項4】
前記タイムスタンプが、前記音声活動の前記場所データを受信することに関連付けられた第1のタイムスタンプと、前記選択されている配備されたローブに関連付けられた第2のタイムスタンプとを含む、請求項3に記載の方法。
【請求項5】
前記複数の配備されたローブのうちの前記1つを選択することが、前記複数の配備されたローブに関連付けられたメトリックに基づいて、前記複数の配備されたローブのうちの前記1つを選択することを含む、請求項1に記載の方法。
【請求項6】
前記メトリックが、前記選択されている配備されたローブの信頼度スコアを含み、
前記信頼度スコアが、前記選択されている配備されたローブの場所の確実性または前記選択されている配備されたローブの音の品質のうちの1つまたは複数を示す、
請求項5に記載の方法。
【請求項7】
前記音声活動の前記場所データに基づいて、前記複数のローブのうちの既存のローブが前記音声活動に近いかどうかを判定することと、
前記既存のローブが前記音声活動に近くないと判定したとき、前記非活動状態のローブが配備のために利用可能であるかどうかを判定する前記ステップ、前記非活動状態のローブの位置を特定する前記ステップ、前記複数のローブのうちの移動すべき前記1つを選択する前記ステップ、および前記選択されたローブを再配置する前記ステップを実行することと
をさらに含む、請求項1に記載の方法。
【請求項8】
前記非活動状態のローブが、前記複数のローブのうち前記環境内の特有の座標に位置決めされていないローブ、前記複数のローブのうち配備されていないローブ、または前記複数のローブのうちメトリックに基づいて非活動状態にあるローブのうちの1つまたは複数である、請求項1に記載の方法。
【請求項9】
前記複数の配備されたローブのうちの移動すべき前記1つを選択することが、(1)方位閾値に対する前記音声活動の前記座標の方位と前記選択されている配備されたローブの方位の差、または(2)仰角閾値に対する前記音声活動の前記座標の仰角と前記選択されている配備されたローブの仰角の差のうちの1つまたは複数に基づいている、請求項2に記載の方法。
【請求項10】
前記複数の配備されたローブのうちの移動すべき前記1つを選択することが、前記アレイマイクロフォンから前記音声活動の前記座標までの距離に基づいている、請求項9に記載の方法。
【請求項11】
前記アレイマイクロフォンから前記音声活動の前記座標までの前記距離に基づいて、前記方位閾値を設定することをさらに含む、請求項10に記載の方法。
【請求項12】
前記複数の配備されたローブのうちの移動すべき前記1つを選択することが、(1)前記音声活動の前記座標の前記方位と前記選択されている配備されたローブの前記方位の前記差の絶対値が、前記方位閾値以下であるとき、ならびに(2)前記音声活動の前記座標の前記仰角と前記選択されている配備されたローブの前記仰角の前記差の絶対値が、前記仰角閾値より大きくないとき、前記選択されている配備されたローブを選択することを含む、請求項9に記載の方法。
【請求項13】
前記音声活動の前記場所データを、前記選択されている配備されたローブの新しい場所としてデータベースに記憶することをさらに含む、請求項1に記載の方法。
【請求項14】
遠端からリモート音声信号を受信することと、
前記リモート音声信号の活動量を検出することと、
前記リモート音声信号の前記活動量が所定の閾値を超過したとき、前記非活動状態のローブが利用可能であるかどうかを判定する前記ステップ、前記非活動状態のローブの位置を特定する前記ステップ、前記複数の配備されたローブのうちの前記1つを選択する前記ステップ、および前記選択されている配備されたローブを再配置する前記ステップの実行を阻止することと
をさらに含む、請求項1に記載の方法。
【請求項15】
音を検出して音声信号を出力するように各々構成された複数のマイクロフォン要素と、
前記複数のマイクロフォン要素と通信しているビームフォーマであって、前記複数のマイクロフォン要素の前記音声信号に基づいて、1つまたは複数のビーム形成信号を生成するように構成され、前記1つまたは複数のビーム形成信号が、環境内の場所に各々位置決めされた1つまたは複数のローブに対応する、ビームフォーマと、
前記複数のマイクロフォン要素と通信している音声活動ローカライザであって、前記環境内の新しい音声活動の座標を判定するように構成された音声活動ローカライザと、
前記音声活動ローカライザおよび前記ビームフォーマと通信しているローブオートプレーサとを備え、前記ローブオートプレーサが、
前記新しい音声活動の前記座標を受信することと、
前記新しい音声活動の前記座標が既存のローブに近いかどうかを判定することであり、既存のローブが前記1つまたは複数のローブのうちの1つを含む、判定することと、
前記新しい音声活動の前記座標が前記既存のローブに近くないと判定したとき、
非活動状態のローブが利用可能であるかどうかを判定することと、
前記非活動状態のローブが利用可能であると判定したとき、前記非活動状態のローブを選択することと、
前記非活動状態のローブが利用可能でないと判定したとき、前記1つまたは複数のローブのうちの1つを選択することと、
前記新しい音声活動の前記座標を前記ビームフォーマへ伝送して、前記ビームフォーマに、前記選択されたローブの前記場所を前記新しい音声活動の前記座標に更新させることとを行うように構成される、
アレイマイクロフォンシステム。
【請求項16】
前記非活動状態のローブが、前記環境内の特有の座標に位置決めされていない前記ビームフォーマのローブ、配備されていない前記ビームフォーマのローブ、またはメトリックに基づいて非活動状態にある前記ビームフォーマのローブのうちの1つまたは複数を含む、請求項15に記載のシステム。
【請求項17】
前記ローブオートプレーサが、(1)方位閾値に対する前記新しい音声活動の前記座標の方位と前記既存のローブの前記場所の方位の差、または(2)仰角閾値に対する前記新しい音声活動の前記座標の仰角と前記既存のローブの前記場所の仰角の差のうちの1つまたは複数に基づいて、前記新しい音声活動の前記座標が前記既存のローブに近いかどうかを判定するように構成される、請求項15に記載のシステム。
【請求項18】
前記ローブオートプレーサが、前記システムから前記新しい音声活動の前記座標までの距離に基づいて、前記新しい音声活動の前記座標が既存のローブに近いかどうかを判定するように構成される、請求項17に記載のシステム。
【請求項19】
前記ローブオートプレーサが、前記システムから前記新しい音声活動の前記座標までの前記距離に基づいて、前記方位閾値を設定するようにさらに構成される、請求項18に記載のシステム。
【請求項20】
前記ローブオートプレーサが、(1)前記新しい音声活動の前記座標の前記方位と前記既存のローブの前記場所の前記方位の前記差の絶対値が、前記方位閾値以下であるとき、ならびに(2)前記新しい音声活動の前記座標の前記仰角と前記既存のローブの前記場所の前記仰角の前記差の絶対値が、前記仰角閾値より大きくないとき、前記新しい音声活動の前記座標が前記既存のローブに近いと判定するように構成される、請求項17に記載のシステム。
【請求項21】
前記ローブオートプレーサと通信しているデータベースをさらに備え、前記ローブオートプレーサが、前記新しい音声活動の前記座標を受信することに関連付けられた第1のタイムスタンプを前記データベースに記憶するようにさらに構成される、請求項15に記載のシステム。
【請求項22】
前記ローブオートプレーサが、前記新しい音声活動の前記座標が前記既存のローブに近いと判定したとき、前記データベース内の前記既存のローブに関連付けられた第2のタイムスタンプを前記第1のタイムスタンプに更新するようにさらに構成される、請求項21に記載のシステム。
【請求項23】
前記ローブオートプレーサが、前記新しい音声活動の前記座標が前記既存のローブに近くないと判定したとき、前記データベース内の前記選択されたローブに関連付けられた第3のタイムスタンプを前記第1のタイムスタンプに更新するようにさらに構成される、請求項21に記載のシステム。
【請求項24】
前記ローブオートプレーサが、前記新しい音声活動の前記座標が前記既存のローブに近くないと判定したとき、および前記非活動状態のローブが利用可能でないと判定したとき、前記1つまたは複数のローブのうちの前記1つに関連付けられたタイムスタンプに基づいて、前記1つまたは複数のローブのうちの前記1つを選択するようにさらに構成される、請求項15に記載のシステム。
【請求項25】
前記ローブオートプレーサが、前記新しい音声活動の前記座標が前記既存のローブに近くないと判定したとき、前記選択されたローブに関連付けられたメトリックを割り当てるようにさらに構成される、請求項15に記載のシステム。
【請求項26】
前記ローブオートプレーサが、前記新しい音声活動の前記座標が前記既存のローブに近くないと判定したとき、および前記非活動状態のローブが利用可能でないと判定したとき、前記1つまたは複数のローブのうちの前記1つに関連付けられたメトリックに基づいて、前記1つまたは複数のローブのうちの前記1つを選択するようにさらに構成される、請求項15に記載のシステム。
【請求項27】
前記メトリックが、前記選択されたローブの信頼度スコアを含み、
前記信頼度スコアが、前記選択されたローブの前記座標の確実性または前記選択されたローブの音の品質のうちの1つまたは複数を示す、
請求項25に記載のシステム。
【請求項28】
前記ローブオートプレーサと通信しているデータベースをさらに備え、前記ローブオートプレーサが、前記新しい音声活動の前記座標が前記既存のローブに近くないと判定したとき、前記新しい音声活動の前記座標を、前記選択されたローブの前記新しい場所として記憶するようにさらに構成される、請求項15に記載のシステム。
【請求項29】
遠端および前記ローブオートプレーサと通信している活動検出器をさらに備え、前記活動検出器が、
前記遠端からリモート音声信号を受信することと、
前記リモート音声信号の活動量を検出することと、
前記検出された活動量を前記ローブオートプレーサへ伝送することとを行うように構成され、
前記ローブオートプレーサが、
前記リモート音声信号の前記活動量が所定の閾値を超過したとき、前記ローブオートプレーサが、前記新しい音声活動の前記座標が前記既存のローブに近いかどうかを判定する前記ステップ、前記非活動状態のローブが利用可能であるかどうかを判定する前記ステップ、前記非活動状態のローブを選択する前記ステップ、前記1つまたは複数のローブのうちの1つを選択する前記ステップ、および前記新しい音声活動の前記座標を前記ビームフォーマへ伝送する前記ステップを実行することを阻止するようにさらに構成される、
請求項15に記載のシステム。
【請求項30】
遠端および前記ローブオートプレーサと通信している活動検出器をさらに備え、前記活動検出器が、
前記遠端からリモート音声信号を受信することと、
前記リモート音声信号の活動量を検出することと、
前記リモート音声信号の前記活動量が所定の閾値を超過したとき、前記ローブオートプレーサへ信号を伝送して、前記ローブオートプレーサに、前記新しい音声活動の前記座標が前記既存のローブに近いかどうかを判定する前記ステップ、前記非活動状態のローブが利用可能であるかどうかを判定する前記ステップ、前記非活動状態のローブを選択する前記ステップ、前記1つまたは複数のローブのうちの1つを選択する前記ステップ、および前記新しい音声活動の前記座標を前記ビームフォーマへ伝送する前記ステップの実行を停止させることとを行うように構成される、
請求項15に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2019年3月21日出願の米国仮特許出願第62/821,800号、2019年5月31日出願の米国仮特許出願第62/855,187号、および2020年2月7日出願の米国仮特許出願第62/971,648号の利益を主張する。各出願の内容が、全体として参照により本明細書に完全に組み込まれている。
【0002】
本出願は、一般に、ビーム形成マイクロフォンローブ(beamformed microphone lobes)の自動集束(automatic focus)および配置(placement)を有するアレイマイクロフォンに関する。詳細には、本出願は、ローブが最初に配置された後、音声活動の検出に基づいて、ビーム形成マイクロフォンローブの集束および配置を調整し、リモート遠端音声信号に基づいて、ビーム形成マイクロフォンローブの集束および配置の調整の阻止を可能にするアレイマイクロフォンに関する。
【背景技術】
【0003】
会議室、役員室、ビデオ会議アプリケーションなどの会議環境は、そのような環境で活動中の様々な音源からの音を捕捉するために、マイクロフォンの使用を必要とする可能性がある。そのような音源は、たとえば、話している人を含むことができる。捕捉された音は、増幅スピーカ(音の増強のため)を介して環境内の現場の聞き手に広めることができ、かつ/または環境から離れた他の聞き手に(テレビ放送および/またはウェブ放送などを介して)広めることができる。マイクロフォンのタイプおよび特定の環境における配置は、音源の場所、物理的空間要件、美的感覚、部屋のレイアウト、および/または他の考慮すべき点に依存することがある。たとえば、いくつかの環境では、マイクロフォンは、音源に近い机または書見台に配置されることがある。他の環境では、マイクロフォンは、たとえば、部屋全体から音を捕捉するために、頭上に取り付けられることがある。したがって、マイクロフォンは、特定の環境の必要に合うように、様々なサイズ、形状因子、取付けの選択肢、および配線の選択肢で利用可能である。
【0004】
従来のマイクロフォンは、典型的に、固定の極性パターンおよびいくつかの手動で選択可能な設定を有する。会議環境で音を捕捉する場合、多くの従来のマイクロフォンは、環境内の音源を捕捉するためにすぐに使用することができる。しかし、従来のマイクロフォンは、部屋の雑音、エコー、および他の望ましくない音声要素などの望ましくない音声も同様に捕捉する傾向がある。これらの望ましくない雑音の捕捉は、多くのマイクロフォンの使用によって悪化する。
【0005】
複数のマイクロフォン要素を有するアレイマイクロフォンは、操縦可能な有効範囲または捕捉パターン(1つまたは複数のローブを有する)などの利益を提供することができ、それによりマイクロフォンが所望の音源に集中し、部屋の雑音などの望ましくない音は拒否することを可能にする。音声捕捉パターンを操縦する能力は、マイクロフォン配置がそれほど精密でなくてもよいという利益を提供し、これによりアレイマイクロフォンの許容性がより高くなる。さらに、アレイマイクロフォンは、この場合も捕捉パターンを操縦することが可能であるため、1つのアレイマイクロフォンまたはユニットによって複数の音源を捕捉するという能力を提供する。
【0006】
しかし、アレイマイクロフォンの捕捉パターンのローブの位置は、特定の環境および状況では最適でないことがある。たとえば、ローブによって最初に検出された音源が移動して場所を変えることがある。この状況では、ローブは、音源をその新しい場所で最適に捕捉することができない可能性がある。
【0007】
したがって、これらの課題に対処するアレイマイクロフォンが必要とされている。より詳細には、ローブが最初に配置された後、音声活動の検出に基づいて、ビーム形成マイクロフォンローブを自動で集束および/または配置しながら、リモート遠端音声信号に基づいて、ビーム形成マイクロフォンローブの集束および/または配置を阻止することも可能であり、その結果、より高品質の音の捕捉およびより最適な環境の有効範囲が得られるアレイマイクロフォンが必要とされている。
【発明の概要】
【0008】
本発明は、とりわけ、(1)ローブが最初に配置された後に、音声活動の検出に応答して、アレイマイクロフォンのビーム形成ローブの自動集束を可能にし、(2)音声活動の検出に応答して、アレイマイクロフォンのビーム形成ローブの自動配置を可能にし、(3)ローブが最初に配置された後に、音声活動の検出に応答して、ローブ領域内のアレイマイクロフォンのビーム形成ローブの自動集束を可能にし、(4)リモート遠端音声信号の活動に基づいて、アレイマイクロフォンのビーム形成ローブの自動集束または自動配置を阻止または抑制するように設計されたアレイマイクロフォンシステムおよび方法を提供することによって、上記の問題を解決することを意図している。
【0009】
一実施形態では、新しい音声活動が新しい座標で検出されたとき、初期座標の概ね近傍にある新しい座標へローブを移動することによって、初期座標に位置決めされたビーム形成ローブを集束させることができる。
【0010】
別の実施形態では、新しい音声活動が新しい座標で検出されたとき、ビーム形成ローブを新しい座標へ配置または移動することができる。
【0011】
さらなる実施形態では、新しい音声活動が新しい座標で検出されたとき、ローブを移動することによって、初期座標に位置決めされたビーム形成ローブを集束させることができるが、ローブ領域内に制限することができる。
【0012】
別の実施形態では、リモート遠端音声信号の活動が所定の閾値を超過したとき、ビーム形成ローブの移動または配置を阻止または抑制することができる。
【0013】
上記および他の実施形態、ならびに様々な順列および態様は、本発明の原理を用いることができる様々な方法を示す例示的な実施形態について述べる以下の詳細な説明および添付の図面から明らかになり、より詳細に理解されよう。
【図面の簡単な説明】
【0014】
図1】いくつかの実施形態による、音声活動の検出に応答して、ビーム形成ローブの自動集束を行うアレイマイクロフォンの概略図である。
図2】いくつかの実施形態による、ビーム形成ローブを自動集束する動作を示す流れ図である。
図3】いくつかの実施形態による、コスト汎関数(cost functional)を利用してビーム形成ローブを自動集束(automatic focusing)する動作を示す流れ図である。
図4】いくつかの実施形態による、音声活動の検出に応答して、アレイマイクロフォンのビーム形成ローブの自動配置を行うアレイマイクロフォンの概略図である。
図5】いくつかの実施形態による、ビーム形成ローブを自動配置する動作を示す流れ図である。
図6】いくつかの実施形態による、検出された音声活動の近くでローブを発見する動作を示す流れ図である。
図7】いくつかの実施形態による、ローブ領域内にビーム形成ローブを有するアレイマイクロフォンの例示的な図である。
図8】いくつかの実施形態による、ローブ領域内でビーム形成ローブを自動集束する動作を示す流れ図である。
図9】いくつかの実施形態による、検出された音声活動がローブの探索半径内にあるかどうかを判定する動作を示す流れ図である。
図10】いくつかの実施形態による、ローブ領域内にビーム形成ローブを含み、ローブの探索半径を示す、アレイマイクロフォンの例示的な図である。
図11】いくつかの実施形態による、ローブの移動半径内のローブの移動を判定する動作を示す流れ図である。
図12】いくつかの実施形態による、ローブ領域内にビーム形成ローブを含み、ローブの移動半径を示す、アレイマイクロフォンの例示的な図である。
図13】いくつかの実施形態による、ローブ領域内にビーム形成ローブを含み、ローブ領域間の境界クッション(boundary cushion)を示す、アレイマイクロフォンの例示的な図である。
図14】いくつかの実施形態による、ローブ領域間の境界クッションに基づいてローブの移動を制限する動作を示す流れ図である。
図15】いくつかの実施形態による、領域内にビーム形成ローブを含み、領域間の境界クッションに基づいてローブの移動を示す、アレイマイクロフォンの例示的な図である。
図16】いくつかの実施形態による、音声活動の検出およびリモート遠端音声信号に基づく自動集束の阻止に応答して、ビーム形成ローブの自動集束を行うアレイマイクロフォンの概略図である。
図17】いくつかの実施形態による、音声活動の検出およびリモート遠端音声信号に基づく自動配置の阻止に応答して、アレイマイクロフォンのビーム形成ローブの自動配置を行うアレイマイクロフォンの概略図である。
図18】いくつかの実施形態による、リモート遠端音声信号に基づいて、アレイマイクロフォンのビーム形成ローブの自動調整を阻止する動作を示す流れ図である。
図19】いくつかの実施形態による、音声活動の検出および音声活動の活動検出に応答して、アレイマイクロフォンのビーム形成ローブの自動配置を行うアレイマイクロフォンの概略図である。
図20】いくつかの実施形態による、音声活動の活動検出を含む、ビーム形成ローブを自動配置する動作を示す流れ図である。
【発明を実施するための形態】
【0015】
以下の説明は、本発明の1つまたは複数の特定の実施形態についてその原理に従って説明、図示、および例示する。この説明は、本発明を本明細書に記載する実施形態に限定するためではなく、本発明の原理について説明および教示するために提供されており、したがって当業者であればこれらの原理を理解することを可能にし、その理解によってこれらの原理を適用して、本明細書に記載する実施形態だけでなく、これらの原理に従って想到される他の実施形態も実施することが可能になる。本発明の範囲は、文字どおりまたは均等物によって添付の特許請求の範囲の範囲内に入る、すべてのそのような実施形態を包含することを意図している。
【0016】
本説明および図面では、同じまたは実質的に類似の要素が、同じ参照番号で表示されることがあることに留意されたい。しかし、場合により、これらの要素は、異なる数字などで表示されることもあり、これはたとえば、そのような表示によってより明確な説明が容易になる場合である。加えて、本明細書に記載する図面は、必ずしも原寸に比例して描かれておらず、いくつかの例では、特定の特徴をより明確に示すために、割合が強調されていることがある。そのような表示および描写の実施は、必ずしも内在する実質的な目的を示唆するものではない。上述したように、本明細書は、全体として考えられ、本明細書に教示された当業者には理解される本発明の原理に従って解釈されることを意図している。
【0017】
本明細書に記載するアレイマイクロフォンシステムおよび方法は、音声活動の検出に応答して、ビーム形成ローブの自動集束および配置を可能にし、ならびにリモート遠端音声信号に基づいて、ビーム形成ローブの集束および配置を阻止することを可能にすることができる。実施形態では、アレイマイクロフォンは、複数のマイクロフォン要素、音声活動ローカライザ、ローブオートフォーカサ、データベース、およびビームフォーマを含むことができる。音声活動ローカライザは、新しい音声活動の座標および信頼度スコア(confidence score)を検出することができ、ローブオートフォーカサは、新しい音声活動付近に以前に配置されたローブが存在するかどうかを判定することができる。そのようなローブが存在し、かつ新しい音声活動の信頼度スコアがローブの信頼度スコアより大きい場合、ローブオートフォーカサは、新しい座標をビームフォーマへ伝送することができ、したがってローブが新しい座標へ移動される。これらの実施形態では、ローブの場所を改善し、ローブ内側およびその近くの音源の最新の場所に自動で集束させるとともに、ローブが重複すること、望ましくない方向(たとえば、望ましくない雑音の方)を向くこと、および/またはあまりに急に移動することを防止することができる。
【0018】
他の実施形態では、アレイマイクロフォンは、複数のマイクロフォン要素、音声活動ローカライザ、ローブオートプレーサ、データベース、およびビームフォーマを含むことができる。音声活動ローカライザは、新しい音声活動の座標を検出することができ、ローブオートプレーサは、新しい音声活動付近にローブが存在するかどうかを判定することができる。そのようなローブが存在しない場合、ローブオートプレーサは、新しい座標をビームフォーマへ伝送することができ、したがって新しい座標に非活動状態のローブが配置され、または既存のローブが新しい座標へ移動される。これらの実施形態では、アレイマイクロフォンの1組の活動状態のローブが、アレイマイクロフォンの有効区域内の最近の音声活動の方を向くことができる。
【0019】
他の実施形態では、音声活動ローカライザは、新しい音声活動の座標および信頼度スコアを検出することができ、新しい音声活動の信頼度スコアが閾値より大きい場合、ローブオートフォーカサは、新しい音声活動が属するローブ領域を識別することができる。識別されたローブ領域において、ローブの現在の座標の探索半径、すなわち新しい音声活動を考慮することができるローブの現在の座標の周りの空間の3次元領域内に座標がある場合、以前に配置されたローブを移動することができる。ローブ領域におけるローブの移動は、ローブの現在の座標の移動半径、すなわちローブが移動することが可能な3次元空間内の最大距離内に制限することができ、かつ/またはローブ領域間の境界クッションの外側、すなわちローブがローブ領域間の境界にどれだけ近づくことができるかに制限することができる。これらの実施形態では、ローブに関連するローブ領域内でローブの場所を改善し、音源の最新の場所に自動で集束させるとともに、ローブが重複すること、望ましくない方向(たとえば、望ましくない雑音の方)を向くこと、および/またはあまりに急に移動することを防止することができる。
【0020】
さらなる実施形態では、活動検出器が、遠端などからのリモート音声信号を受信することができる。リモート音声信号の音は、会議室内のラウドスピーカなど、局所的な環境で再生することができる。リモート音声信号の活動が所定の閾値を超過した場合、ビーム形成ローブの自動調整(すなわち、集束および/または配置)を行うことを阻止することができる。たとえば、リモート音声信号の活動は、リモート音声信号のエネルギーレベルによって測定することができる。この例では、リモート音声信号に特定の発言または発声レベルが含まれる場合、リモート音声信号のエネルギーレベルが所定の閾値を超過する可能性がある。この状況では、たとえば局所的な環境で再生されているリモート音声信号からの音を捕捉するようにローブが誘導されないように、ビーム形成ローブの自動調整を防止することが望ましい可能性がある。しかし、リモート音声信号のエネルギーレベルが所定の閾値を超過しない場合、ビーム形成ローブの自動調整を実行することができる。ビーム形成ローブの自動調整は、たとえば、本明細書に記載するローブの自動集束および/または配置を含むことができる。これらの実施形態では、リモート音声信号の活動が所定の閾値を超過しないときは、ローブの場所を改善し、自動で集束および/または配置することができ、リモート音声信号の活動が所定の閾値を超過するときは、ローブが自動で集束および/または配置されることを阻止または抑制することができる。
【0021】
本明細書のシステムおよび方法を使用すると、音源が最初の位置から移動して場所を変えた場合でも、たとえばビーム形成ローブが音源を最適に捕捉することを確実にすることによって、環境における音源の有効範囲の品質を改善することができる。環境における音源の有効範囲の品質はまた、たとえば遠端からの発声、発言、または他の雑音のような望ましくない音を捕捉するようにビーム形成ローブが配備(deployed)(たとえば、集束または配置(focused or placed))される可能性を低減させることによって、改善することができる。
【0022】
図1および図4は、様々な周波数で音源からの音を検出することができるアレイマイクロフォン100、400の概略図である。アレイマイクロフォン100、400は、たとえば、会議室または役員室内で利用することができ、音源は、1人または複数の発言者とすることができる。この環境には、換気、他の人、音声/視覚機器、電子デバイスなどからの雑音などの望ましくない他の音も存在することがある。典型的な状況では、音源は、机に着いて椅子に座っているが、音源の他の構成および配置も企図され、それも可能である。
【0023】
アレイマイクロフォン100、400は、机、書見台、卓上、壁、天井などの上または中に配置することができ、したがって発言者によって話される発言など、音源からの音を検出および捕捉することができる。アレイマイクロフォン100、400は、たとえば、任意の数のマイクロフォン要素102a、b、...、zz、402a、b、...、zzを含むことができ、音源からの音を検出および捕捉することができるように、ローブによって複数の捕捉パターンを形成することが可能である。任意の適当な数のマイクロフォン要素102、402が可能であり、それも企図される。
【0024】
アレイマイクロフォン100、400内のマイクロフォン要素102、402の各々は、音を検出し、その音をアナログ音声信号に変換することができる。アナログデジタル変換器、プロセッサ、および/または他の構成要素などのアレイマイクロフォン100、400内の構成要素は、アナログ音声信号を処理し、最終的に1つまたは複数のデジタル音声出力信号を生成することができる。デジタル音声出力信号は、いくつかの実施形態では、イーサネットを介して音声を伝送するためのDante規格に準拠することができ、または別の規格および/もしくは伝送プロトコルに準拠することができる。実施形態では、アレイマイクロフォン100、400内のマイクロフォン要素102、402の各々は、音を検出し、その音をデジタル音声信号に変換することができる。
【0025】
アレイマイクロフォン100、400内のビームフォーマ170、470によって、マイクロフォン要素102、402の音声信号から1つまたは複数の捕捉パターンを形成することができる。ビームフォーマ170、470は、捕捉パターンの各々に対応するデジタル出力信号190a、b、c、...z、490a、b、c、...、zを生成することができる。捕捉パターンは、1つまたは複数のローブ、たとえば主ローブ、サイドローブ、およびバックローブから構成することができる。他の実施形態では、アレイマイクロフォン100、400内のマイクロフォン要素102、402は、アナログ音声信号を出力することができ、したがってアレイマイクロフォン100、400の外部の他の構成要素およびデバイス(たとえば、プロセッサ、ミキサ、レコーダ、増幅器など)が、アナログ音声信号を処理することができる。
【0026】
音声活動の検出に応答してビーム形成ローブを自動で集束させる図1のアレイマイクロフォン100は、マイクロフォン要素102と、マイクロフォン要素102と有線または無線通信する音声活動ローカライザ150と、音声活動ローカライザ150と有線または無線通信するローブオートフォーカサ160と、マイクロフォン要素102およびローブオートフォーカサ160と有線または無線通信するビームフォーマ170と、ローブオートフォーカサ160と有線または無線通信するデータベース180とを含むことができる。これらの構成要素は、以下でより詳細に説明する。
【0027】
音声活動の検出に応答してビーム形成ローブを自動で配置する図4のアレイマイクロフォン400は、マイクロフォン要素402と、マイクロフォン要素402と有線または無線通信する音声活動ローカライザ450と、音声活動ローカライザ450と有線または無線通信するローブオートプレーサ460と、マイクロフォン要素402およびローブオートプレーサ460と有線または無線通信するビームフォーマ470と、ローブオートプレーサ460と有線または無線通信するデータベース480とを含むことができる。これらの構成要素は、以下でより詳細に説明する。
【0028】
実施形態では、アレイマイクロフォン100、400は、音声活動ローカライザ150、450および/またはビームフォーマ170、470とともに働く音響エコーキャンセラまたはオートミキサなどの他の構成要素を含むことができる。たとえば、本明細書に記載するように、新しい音声活動を検出したことに応答してローブが新しい座標へ移動されたとき、ローブの移動からの情報を利用して、音響エコーキャンセラによって、移動中のエコーを最小化することができ、かつ/またはオートミキサによって、その決定能力を改善することができる。別の例として、関係する発声活動を有しているとオートミキサが識別したローブを移動することを可能にするなど、オートミキサの決定によって、ローブの移動に影響を与えることができる。ビームフォーマ170、470は、遅延和ビームフォーマまたは最小分散無歪応答(MVDR)ビームフォーマなどの任意の好適なビームフォーマとすることができる。
【0029】
アレイマイクロフォン100、400に含まれる様々な構成要素は、プロセッサおよびメモリ、グラフィックス処理ユニット(GPU)を有する計算デバイスなどの1つもしくは複数のサーバもしくはコンピュータによって実行可能なソフトウェアを使用して実施することができ、ならびに/またはハードウェア(たとえば、離散論理回路、特定用途向け集積回路(ASIC)、プログラマブルゲートアレイ(PGA)、フィールドプログラマブルゲートアレイ(FPGA)などによって実施することができる。
【0030】
いくつかの実施形態では、マイクロフォン要素102、402は、同心円状のリングで配置することができ、かつ/または調和的に入れ子状にすることができる。いくつかの実施形態では、マイクロフォン要素102、402は、略対称になるように配置することができる。他の実施形態では、マイクロフォン要素102、402は、非対称にまたは別の配置で配置することができる。さらなる実施形態では、マイクロフォン要素102、402は、たとえば、基板上に配置することができ、枠内に配置することができ、または個々につるすことができる。アレイマイクロフォンの一実施形態が、全体として参照により本明細書に組み込まれている、本発明の譲受人に譲渡された米国特許第9,565,493号に記載されている。実施形態では、マイクロフォン要素102、402は、主に一方向に感度を有する単方向マイクロフォンとすることができる。他の実施形態では、マイクロフォン要素102、402は、所望される場合、カーディオイド、サブカーディオイド、または無指向性などの他の指向性または極性パターンを有することができる。マイクロフォン要素102、402は、音源から音を検出してその音を電気音声信号に変換することができる任意の好適なタイプのトランスデューサとすることができる。一実施形態では、マイクロフォン要素102、402は、微小電気機械システム(MEMS)マイクロフォンとすることができる。他の実施形態では、マイクロフォン要素102、402は、コンデンサマイクロフォン、バランスドアーマチュアマイクロフォン、エレクトレットマイクロフォン、ダイナミックマイクロフォン、および/または他のタイプのマイクロフォンとすることができる。実施形態では、マイクロフォン要素102、402は、1次元または2次元で配列することができる。アレイマイクロフォン100、400は、たとえば、机、壁、天井などに配置しまたは取り付けることができ、かつビデオモニタの隣、下、または上に配置することができる。
【0031】
アレイマイクロフォン100の以前に配置されたビーム形成ローブを自動集束するプロセス200の一実施形態が、図2に示されている。プロセス200は、アレイマイクロフォン100が、アレイマイクロフォン100から1つまたは複数の音声信号180を出力することができるように、ローブオートフォーカサ160によって実行することができ、音声信号180は、音源の新しい音声活動に集束したビーム形成ローブによって捕捉された音を含むことができる。アレイマイクロフォン100の内部または外部の1つまたは複数のプロセッサおよび/または他の処理構成要素(たとえば、アナログデジタル変換器、暗号化チップなど)は、プロセス200のステップのうちのいずれか、いくつか、またはすべてを実行することができる。1つまたは複数の他のタイプの構成要素(たとえば、メモリ、入力および/または出力デバイス、送信器、受信器、バッファ、ドライバ、個別の構成要素など)はまた、プロセス200のステップのうちのいずれか、いくつか、またはすべてを実行するために、プロセッサおよび/または他の処理構成要素とともに利用することができる。
【0032】
ステップ202で、新しい音声活動に対応する座標および信頼度スコアを、音声活動ローカライザ150からローブオートフォーカサ160で受信することができる。音声活動ローカライザ150は、アレイマイクロフォン100の環境を連続して走査して、新しい音声活動を発見することができる。音声活動ローカライザ150によって発見された新しい音声活動は、静止していない好適な音源、たとえば発言者を含むことができる。新しい音声活動の座標は、デカルト座標(すなわち、x、y、z)または球座標(すなわち、径方向の距離/大きさr、仰角(elevation angle)θ(シータ)、方位角(azimuthal angle)φ(ファイ))など、アレイマイクロフォン100の場所に対する特定の3次元座標とすることができる。新しい音声活動の信頼度スコアは、たとえば、座標の確実性および/または音声活動の品質を示すことができる。実施形態では、ステップ202で、新しい音声活動に関係する他の好適なメトリックを受信して利用することもできる。必要な場合、デカルト座標を球座標に容易に変換することができ、逆も同様であることに留意されたい。
【0033】
ステップ204で、ローブオートフォーカサ160は、新しい音声活動の座標が既存のローブ付近(すなわち、近傍)にあるかどうかを判定することができる。新しい音声活動が既存のローブ付近にあるかどうかは、所定の閾値に対する(1)新しい音声活動の座標と(2)既存のローブの座標の方位および/または仰角の差に基づくことができる。マイクロフォン100から新しい音声活動までの距離もまた、新しい音声活動の座標が既存のローブ付近にあるかどうかの判定に影響することができる。いくつかの実施形態では、ローブオートフォーカサ160は、ステップ204で使用するために、データベース180から既存のローブの座標を取り出すことができる。新しい音声活動の座標が既存のローブ付近にあるかどうかの判定の一実施形態は、図6に関連して以下でより詳細に説明する。
【0034】
ローブオートフォーカサ160が、ステップ204で、新しい音声活動の座標が既存のローブ付近にないと判定した場合、プロセス200はステップ210で終了することができ、アレイマイクロフォン100のローブの場所は更新されない。このシナリオでは、新しい音声活動の座標がアレイマイクロフォン100の有効区域の外側にあると考えることができ、したがってこの新しい音声活動を無視することができる。しかし、ローブオートフォーカサ160が、ステップ204で、新しい音声活動の座標が既存のローブ付近にあると判定した場合、プロセス200はステップ206へ進む。このシナリオでは、新しい音声活動の座標が、既存のローブの改善された(すなわち、より集束された)場所であると考えることができる。
【0035】
ステップ206で、ローブオートフォーカサ160は、新しい音声活動の信頼度スコアを既存のローブの信頼度スコアと比較することができる。いくつかの実施形態では、ローブオートフォーカサ160は、データベース180から既存のローブの信頼度スコアを取り出すことができる。ローブオートフォーカサ160が、ステップ206で、新しい音声活動の信頼度スコアが既存のローブの信頼度スコアより小さい(すなわち、より悪い)と判定した場合、プロセス200はステップ210で終了することができ、アレイマイクロフォン100のローブの場所は更新されない。しかし、ローブオートフォーカサ160が、ステップ206で、新しい音声活動の信頼度スコアが既存のローブの信頼度スコアより大きいまたはそれに等しい(すなわち、より良好であるまたはそれより好ましい)と判定した場合、プロセス200はステップ208へ進むことができる。ステップ208で、ローブオートフォーカサ160は、新しい音声活動の座標をビームフォーマ170へ伝送することができ、したがってビームフォーマ170は、既存のローブの場所を新しい座標に更新することができる。加えて、ローブオートフォーカサ160は、ローブの新しい座標をデータベース180に記憶することができる。
【0036】
いくつかの実施形態では、ステップ208で、ローブオートフォーカサ160は、ローブの場所の突然の変化を防止および/または最小化するために、既存のローブの移動を制限することができる。たとえば、ローブオートフォーカサ160は、特定の最近の期間内に特定のローブが最近移動されている場合、そのローブを新しい座標へ移動させない。別の例として、ローブオートフォーカサ160は、新しい座標がローブの現在の座標に近接しすぎている場合、別のローブに近接しすぎている場合、別のローブに重複している場合、および/またはローブの既存の位置から遠すぎると考えられる場合、特定のローブをそれらの新しい座標へ移動させない。
【0037】
プロセス200は、音声活動ローカライザ150が新しい音声活動を発見し、新しい音声活動の座標および信頼度スコアをローブオートフォーカサ160へ提供すると、アレイマイクロフォン100によって連続して実行することができる。たとえば、プロセス200は、音源、たとえば発言者が会議室内を動き回っているとき、1つまたは複数のローブを音源に集束させてそれらの音を最適に捕捉することができるように実行することができる。
【0038】
コスト汎関数を使用してアレイマイクロフォン100の以前に配置されたビーム形成ローブを自動集束するプロセス300の一実施形態が、図3に示されている。プロセス300は、アレイマイクロフォン100が、1つまたは複数の音声信号180を出力することができるように、ローブオートフォーカサ160によって実行することができ、音声信号180は、音源の新しい音声活動に集束したビーム形成ローブによって捕捉された音を含むことができる。マイクロフォンアレイ100の内部または外部の1つまたは複数のプロセッサおよび/または他の処理構成要素(たとえば、アナログデジタル変換器、暗号化チップなど)は、プロセス300のステップのうちのいずれか、いくつか、またはすべてを実行することができる。1つまたは複数の他のタイプの構成要素(たとえば、メモリ、入力および/または出力デバイス、送信器、受信器、バッファ、ドライバ、個別の構成要素など)はまた、プロセス300のステップのうちのいずれか、いくつか、またはすべてを実行するために、プロセッサおよび/または他の処理構成要素とともに利用することができる。
【0039】
ローブオートフォーカサ160に対するプロセス300のステップ302、304、および306は、上述した図2のプロセス200のステップ202、204、および206と実質的に同じものとすることができる。特に、新しい音声活動に対応する座標および信頼度スコアを、音声活動ローカライザ150からローブオートフォーカサ160で受信することができる。ローブオートフォーカサ160は、新しい音声活動の座標が既存のローブ付近(すなわち、近傍)にあるかどうかを判定することができる。新しい音声活動の座標が既存のローブ付近にない場合(または新しい音声活動の信頼度スコアが既存のローブの信頼度スコアより小さい場合)、プロセス300はステップ324へ進むことができ、アレイマイクロフォン100のローブの場所は更新されない。しかし、ローブオートフォーカサ160が、ステップ306で、新しい音声活動の信頼度スコアが既存のローブの信頼度スコアより大きい(すなわち、より良好であるまたはそれより好ましい)と判定した場合、プロセス300はステップ308へ進むことができる。このシナリオでは、新しい音声活動の座標が、既存のローブを移動させる場所候補であると考えることができ、後述するように、既存のローブのコスト汎関数を評価して最大化することができる。
【0040】
ローブに対するコスト汎関数は、ローブの空間アスペクトおよび新しい音声活動の音声品質を考慮することができる。本明細書では、コスト汎関数およびコスト関数は同じ意味を有する。特に、いくつかの実施形態では、ローブiに対するコスト汎関数は、新しい音声活動の座標(LCi)、ローブに対する信号対雑音比(SNRi)、ローブに対する利得値(Gaini)、新しい音声活動に関係する発声活動検出情報(VADi)、および既存のローブの座標からの距離(distance(LOi))の関数として定義することができる。他の実施形態では、ローブに対するコスト汎関数を他の情報の関数とすることができる。ローブiに対するコスト汎関数は、たとえば、デカルト座標の場合はJi(x,y,z)として、または球座標の場合はJi(azimuth,elevation,magnitude)として記述することができる。デカルト座標によるコスト汎関数を例示として使用すると、コスト汎関数Ji(x,y,z)=f(LCi,distance(LOi),Gaini,SNRi,VADi)になる。したがって、座標の空間格子にわたってコスト汎関数Jiを評価して最大化することによって、ローブを移動させることができ、したがってローブの移動は、コスト汎関数の勾配(すなわち、最も急傾斜の上昇)の方向になる。いくつかの状況では、コスト汎関数の最大は、ステップ302でローブオートフォーカサ160によって受信された新しい音声活動の座標(すなわち、場所候補)と同じものとすることができる。他の状況では、上述した他のパラメータを考慮したとき、コスト汎関数の最大は、新しい音声活動の座標とは異なる位置へローブを移動させることができる。
【0041】
ステップ308で、ローブオートフォーカサ160によって、新しい音声活動の座標で、ローブに対するコスト汎関数を評価することができる。いくつかの実施形態では、評価されたコスト汎関数は、ローブオートフォーカサ160によってデータベース180に記憶することができる。ステップ310で、ローブオートフォーカサ160は、新しい音声活動の座標から、それぞれx、y、およびz方向に量Δx、Δy、Δzの各々だけ、ローブを移動させることができる。各移動後、ローブオートフォーカサ160によって、コスト汎関数をこれらの場所の各々で評価することができる。たとえば、ローブを場所(x+Δx,y,z)へ移動させることができ、その場所でコスト汎関数を評価することができ、次いで場所(x,y+Δy,z)へ移動させることができ、その場所でコスト汎関数を評価することができ、次いで場所(x,y,z+Δz)へ移動させることができ、その場所でコスト汎関数を評価することができる。ステップ310で、ローブは、量Δx、Δy、Δzだけ任意の順序で移動させることができる。いくつかの実施形態では、これらの場所で評価されたコスト汎関数の各々は、ローブオートフォーカサ160によってデータベース180に記憶することができる。コスト汎関数の評価は、ステップ310で、後述するように、偏導関数の推定およびコスト汎関数の勾配を計算するために、ローブオートフォーカサ160によって実行される。上記の説明はデカルト座標に関連するが、球座標(たとえば、Δazimuth,Δelevation,Δmagnitude)の場合も類似の動作を実行することができることに留意されたい。
【0042】
ステップ312で、ローブオートフォーカサ160によって、偏導関数の1組の推定に基づいて、コスト汎関数の勾配を計算することができる。勾配∇jは、次のように計算することができる。
【数1】
【0043】
ステップ314で、ローブオートフォーカサ160は、ステップ312で計算した勾配∇jの方向に所定のステップサイズμだけ、ローブを移動させることができる。特に、ローブは、新しい場所(xi+μgxi,i+μgyi,i+μgzi)へ移動させることができる。この新しい場所におけるローブのコスト汎関数はまた、ステップ314で、ローブオートフォーカサ160によって評価することができる。いくつかの実施形態では、このコスト汎関数は、ローブオートフォーカサ160によってデータベース180に記憶することができる。
【0044】
ステップ316で、ローブオートフォーカサ160は、新しい場所におけるローブのコスト汎関数(ステップ314で評価)を、新しい音声活動の座標におけるローブのコスト汎関数(ステップ308で評価)と比較することができる。ステップ316で、新しい場所におけるローブのコスト汎関数が新しい音声活動の座標におけるローブのコスト汎関数より小さい場合、ステップ314で、ステップサイズμが大きすぎると考えることができ、プロセス300はステップ322へ進むことができる。ステップ322で、ステップサイズを調整することができ、プロセスはステップ314へ戻ることができる。
【0045】
しかし、ステップ316で、新しい場所におけるローブのコスト汎関数が、新しい音声活動の座標におけるローブのコスト汎関数より小さくない場合、プロセス300はステップ318へ進むことができる。ステップ318で、ローブオートフォーカサ160は、(1)新しい場所におけるローブのコスト汎関数(ステップ314で評価)と(2)新しい音声活動の座標におけるローブのコスト汎関数(ステップ308で評価)との間の差が近いかどうか、すなわちこの差の絶対値が小さい量εの範囲内であるかどうかを判定することができる。ステップ318でこの条件が満足されない場合、コスト汎関数の極大に到達していないと考えることができる。プロセス300はステップ324へ進むことができ、アレイマイクロフォン100のローブの場所は更新されない。
【0046】
しかし、ステップ318でこの条件が満足された場合、コスト汎関数の極大に到達し、ローブが自動集束されていると考えることができ、プロセス300はステップ320へ進む。ステップ320で、ローブオートフォーカサ160は、新しい音声活動の座標をビームフォーマ170へ伝送することができ、したがってビームフォーマ170は、ローブの場所を新しい座標に更新することができる。加えて、ローブオートフォーカサ160は、ローブの新しい座標をデータベース180に記憶することができる。
【0047】
いくつかの実施形態では、ステップ320で、ローブオートフォーカサ160によって、ローブのアニーリング/ディザリング移動を適用することができる。アニーリング/ディザリング移動は、より良好な極大(したがって、ローブにとってより良好な場所)の発見を試みるために、コスト汎関数の極大からローブをナッジするように適用することができる。アニーリング/ディザリング場所は、(xi+rxi,i+ryi,i+rzi)によって定義することができ、ここで(rxi,ryi,rzi)は小さい乱数値である。
【0048】
プロセス300は、音声活動ローカライザ150が新しい音声活動を発見し、新しい音声活動の座標および信頼度スコアをローブオートフォーカサ160へ提供すると、アレイマイクロフォン100によって連続して実行することができる。たとえば、プロセス300は、音源、たとえば発言者が会議室内を動き回っているとき、1つまたは複数のローブを音源に集束させてそれらの音を最適に捕捉することができるように実行することができる。
【0049】
実施形態では、たとえばステップ308~318および322で、たとえばステップ302で新しい音声活動の1組の座標を受信する必要なく、コスト汎関数を再評価して更新することができ、ローブの座標を調整することができる。たとえば、アルゴリズムが、新しい音声活動の1組の座標を提供することなく、アレイマイクロフォン100のどのローブが最大の音声活動を有するかを検出することができる。そのようなアルゴリズムからの音声活動情報に基づいて、コスト汎関数を再評価して更新することができる。
【0050】
アレイマイクロフォン400のビーム形成ローブの自動配置または配置のためのプロセス500の一実施形態が、図5に示されている。プロセス500は、アレイマイクロフォン400が、図4に示すアレイマイクロフォン400から1つまたは複数の音声信号480を出力することができるように、ローブオートプレーサ460によって実行することができ、音声信号480は、音源の新しい音声活動に由来する、配置されたビーム形成ローブによって捕捉された音を含むことができる。マイクロフォンアレイ400の内部または外部の1つまたは複数のプロセッサおよび/または他の処理構成要素(たとえば、アナログデジタル変換器、暗号化チップなど)は、プロセス500のステップのうちのいずれか、いくつか、またはすべてを実行することができる。1つまたは複数の他のタイプの構成要素(たとえば、メモリ、入力および/または出力デバイス、送信器、受信器、バッファ、ドライバ、個別の構成要素など)はまた、プロセス500のステップのうちのいずれか、いくつか、またはすべてを実行するために、プロセッサおよび/または他の処理構成要素とともに利用することができる。
【0051】
ステップ502で、新しい音声活動に対応する座標を、音声活動ローカライザ450からローブオートプレーサ460で受信することができる。音声活動ローカライザ450は、アレイマイクロフォン400の環境を連続して走査して、新しい音声活動を発見することができる。音声活動ローカライザ450によって発見された新しい音声活動は、静止していない好適な音源、たとえば発言者を含むことができる。新しい音声活動の座標は、デカルト座標(すなわち、x、y、z)または球座標(すなわち、径方向の距離/大きさr、仰角θ(シータ)、方位角φ(ファイ))など、アレイマイクロフォン400の場所に対する特定の3次元座標とすることができる。
【0052】
実施形態では、ビーム形成ローブの配置は、新しい音声活動の活動量が所定の閾値を超過するかどうかに基づいて行うことができる。図19は、様々な周波数で音源からの音を検出し、新しい音声活動の活動量を考慮しながら、音声活動の検出に応答してビーム形成ローブを自動で配置することができるアレイマイクロフォン1900の概略図である。実施形態では、アレイマイクロフォン1900は、上述したアレイマイクロフォン400と同じ構成要素、たとえばマイクロフォン402、音声活動ローカライザ450、ローブオートプレーサ460、ビームフォーマ470、および/またはデータベース480のうちのいくつかまたはすべてを含むことができる。アレイマイクロフォン1900はまた、ローブオートプレーサ460およびビームフォーマ470と通信している活動検出器1904を含むことができる。
【0053】
活動検出器1904は、新しい音声活動における活動量を検出することができる。いくつかの実施形態では、活動量は、新しい音声活動のエネルギーレベルとして測定することができる。他の実施形態では、活動量は、時間領域および/または周波数領域における方法を使用して、機械学習(たとえば、ケプストラム係数を使用)の適用、1つもしくは複数の周波数帯域における信号の非定常性の測定、および/または望ましい音もしくは発言の特徴の探索などによって測定することができる。
【0054】
実施形態では、活動検出器1904は、リモート音声信号に発声および/または雑音が存在するかどうかを判定することができる発声活動検出器(VAD)とすることができる。VADは、たとえば、リモート音声信号のスペクトル分散の分析、線形予測符号化の使用、発声および/もしくは雑音を検出するための機械学習もしくは深層学習技法の適用、ならびに/またはITU G.729VAD、GSM仕様に含まれるVAD計算のためのETSI規格、もしくは長期ピッチ予測などのよく知られている技法の使用によって実施することができる。
【0055】
検出された活動量に基づいて、自動ローブ配置が実行されたり、または実行されなかったりする。新しい音声活動の検出された活動が所定の基準を満足させるとき、自動ローブ配置を実行することができる。逆に、新しい音声活動の検出された活動が所定の基準を満足させないときは、自動ローブ配置は実行されない。たとえば、所定の基準を満足させるということは、新しい音声活動が、ローブによって捕捉されることが好ましい発声、発言、または他の音を含むことを示すことができる。別の例として、所定の基準を満足させないということは、新しい音声活動が、ローブによって捕捉されることが好ましい発声、発言、または他の音を含まないことを示すことができる。この後者のシナリオでは、自動ローブ配置を阻止することによって、新しい音声活動からの音を捕捉することを回避するために、ローブは配置されない。
【0056】
図20のプロセス2000に見られるように、ステップ502に続くステップ2003で、新しい音声活動の活動量が所定の基準を満足させるかどうかを判定することができる。新しい音声活動は、たとえば、活動検出器1904によってビームフォーマ470から受信することができる。検出された活動量は、新しい音声活動における発言、発声、雑音などの量に対応することができる。実施形態では、活動量は、新しい音声活動のエネルギーレベルとして、または新しい音声活動における発声量として測定することができる。実施形態では、検出された活動量は、新しい音声活動における発声または発言の量を具体的に示すことができる。他の実施形態では、検出された活動量は、発声対雑音比とすることができ、または新しい音声活動における雑音量を示すことができる。
【0057】
ステップ2003で、活動量が所定の基準を満足させない場合、プロセス2000はステップ522で終了することができ、アレイマイクロフォン1900のローブの場所は更新されない。新しい音声活動における発声の発言の量が比較的小さいとき、および/または発声対雑音比が比較的低いとき、新しい音声活動の検出された活動量は、所定の基準を満足させることができない。同様に、新しい音声活動における雑音量が比較的大きいとき、新しい音声活動の検出された活動量は、所定の基準を満足させることができない。したがって、新しい音声活動を検出するためにローブを自動で配置しないことで、望ましくない音が拾われないことを確実にする手助けをすることができる。
【0058】
ステップ2003で、活動量が所定の基準を満足させた場合、プロセス2000は、後述するステップ504へ進むことができる。新しい音声活動における発言もしくは発声の量が比較的大きいとき、および/または発声対雑音比が比較的高いとき、新しい音声活動の検出された活動量は、所定の基準を満足させることができる。同様に、新しい音声活動における雑音量が比較的小さいとき、新しい音声活動の検出された活動量は、所定の基準を満足させることができる。したがって、このシナリオでは、新しい音声活動を検出するようにローブを自動で配置することが望ましい。
【0059】
プロセス500に戻ると、ステップ504で、ローブオートプレーサ460は、タイムスタンプをクロックの現在の値などに更新することができる。いくつかの実施形態では、タイムスタンプは、データベース480に記憶することができる。実施形態では、タイムスタンプおよび/またはクロックは、実時間値、たとえば、時間、分、秒などとすることができる。他の実施形態では、タイムスタンプおよび/またはクロックは、事象の時間順の追跡を可能にすることができる整数値の増加に基づくことができる。
【0060】
ステップ506で、ローブオートプレーサ460は、新しい音声活動の座標が既存の活動状態のローブ付近(すなわち、近傍)にあるかどうかを判定することができる。新しい音声活動が既存のローブ付近にあるかどうかは、所定の閾値に対する(1)新しい音声活動の座標と(2)既存のローブの座標の方位および/または仰角の差に基づくことができる。マイクロフォン400から新しい音声活動までの距離もまた、新しい音声活動の座標が既存のローブ付近にあるかどうかの判定に影響することができる。いくつかの実施形態では、ローブオートプレーサ460は、ステップ506で使用するために、データベース480から既存のローブの座標を取り出すことができる。新しい音声活動の座標が既存のローブ付近にあるかどうかの判定の一実施形態は、図6に関連して以下でより詳細に説明する。
【0061】
ステップ506で、ローブオートプレーサ460が、新しい音声活動の座標が既存のローブ付近にあると判定した場合、プロセス500はステップ520へ進む。ステップ520で、既存のローブのタイムスタンプが、ステップ504からの現在のタイムスタンプに更新される。このシナリオでは、既存のローブは、新しい音声活動を含む(すなわち、捕捉する)ことができると考えられる。プロセス500はステップ522で終了することができ、アレイマイクロフォン400のローブの場所は更新されない。
【0062】
しかし、ステップ506で、ローブオートプレーサ460が、新しい音声活動の座標が既存のローブ付近にないと判定した場合、プロセス500はステップ508へ進む。このシナリオでは、新しい音声活動の座標は、アレイマイクロフォン400の現在の有効区域の外側にあると考えることができ、したがって新しい音声活動を含む必要がある。ステップ508で、ローブオートプレーサ460は、アレイマイクロフォン400の非活動状態のローブが利用可能であるかどうかを判定することができる。いくつかの実施形態では、ローブが特定の1組の座標に向けられていない場合、またはローブが配備されていない(すなわち、存在しない)場合、ローブは非活動状態であると考えることができる。他の実施形態では、配備されたローブのメトリック(たとえば、時間、経過年数など)が特定の基準を満足させるかどうかに基づいて、配備されたローブが非活動状態であると考えることができる。ローブオートプレーサ460が、ステップ508で、非活動状態のローブが利用可能であると判定した場合、ステップ510で、非活動状態のローブが選択され、ステップ514で、新しく選択されたローブのタイムスタンプが現在のタイムスタンプ(ステップ504から)に更新される。
【0063】
しかし、ローブオートプレーサ460が、ステップ508で、非活動状態のローブが利用可能でないと判定した場合、プロセス500はステップ512へ進むことができる。ステップ512で、ローブオートプレーサ460は、新しい音声活動の座標に向けられるように、リサイクルすべき現在活動状態のローブを選択することができる。いくつかの実施形態では、リサイクルのために選択されたローブは、最も低い信頼度スコアおよび/または最も古いタイムスタンプを有する活動状態のローブとすることができる。ローブに対する信頼度スコアは、たとえば、座標の確実性および/または音声活動の品質を示すことができる。実施形態では、ローブに関係する他の好適なメトリックを利用することができる。活動状態のローブに対する最も古いタイムスタンプは、ローブが最近音声活動を検出していないこと、および場合により音源がローブ内に存在しなくなったことを示すことができる。ステップ512でリサイクルのために選択されたローブは、ステップ514で、そのタイムスタンプを現在のタイムスタンプ(ステップ504から)に更新することができる。
【0064】
ステップ516で、ローブがステップ510から選択された非活動状態のローブ、またはステップ512から選択されたリサイクルされるローブであるときはどちらも、このローブに新しい信頼度スコアを割り当てることができる。ステップ518で、ローブオートプレーサ460は、新しい音声活動の座標をビームフォーマ470へ伝送することができ、したがってビームフォーマ470は、ローブの場所を新しい座標に更新することができる。加えて、ローブオートプレーサ460は、ローブの新しい座標をデータベース480に記憶することができる。
【0065】
プロセス500は、音声活動ローカライザ450が新しい音声活動を発見し、新しい音声活動の座標をローブオートプレーサ460に提供すると、アレイマイクロフォン400によって連続して実行することができる。たとえば、プロセス500は、音源、たとえば発言者が会議室内を動き回っているとき、1つまたは複数のローブを配置して音源の音を最適に捕捉することができるように実行することができる。
【0066】
以前に配置されたローブを音声活動の近くで発見するプロセス600の一実施形態が、図6に示されている。プロセス600は、プロセス200のステップ204、プロセス300のステップ304、および/もしくはプロセス800のステップ806でローブオートフォーカサ160によって利用することができ、かつ/またはプロセス500のステップ506でローブオートプレーサ460によって利用することができる。特に、プロセス600は、新しい音声活動の座標がアレイマイクロフォン100、400の既存のローブ付近にあるかどうかを判定することができる。新しい音声活動が既存のローブ付近にあるかどうかは、所定の閾値に対する(1)新しい音声活動の座標と(2)既存のローブの座標の方位および/または仰角の差に基づくことができる。アレイマイクロフォン100、400から新しい音声活動までの距離もまた、新しい音声活動の座標が既存のローブ付近にあるかどうかの判定に影響することができる。
【0067】
ステップ602で、新しい音声活動に対応する座標を、それぞれ音声活動ローカライザ150、450からローブオートフォーカサ160またはローブオートプレーサ460で受信することができる。新しい音声活動の座標は、デカルト座標(すなわち、x、y、z)または球座標(すなわち、径方向の距離/大きさr、仰角θ(シータ)、方位角φ(ファイ))など、アレイマイクロフォン100、400の場所に対する特定の3次元座標とすることができる。必要な場合、デカルト座標を球座標に容易に変換することができ、逆も同様であることに留意されたい。
【0068】
ステップ604で、ローブオートフォーカサ160またはローブオートプレーサ460は、新しい音声活動の距離が判定された閾値より大きいかどうかを評価することによって、新しい音声活動がアレイマイクロフォン100、400から比較的遠いかどうかを判定することができる。新しい音声活動の距離は、新しい音声活動の座標を表すベクトルの大きさによって判定することができる。ステップ604で、新しい音声活動がアレイマイクロフォン100、400から比較的遠い(すなわち、閾値より大きい)と判定された場合、ステップ606で、プロセス600で後に使用するために、より低い方位閾値を設定することができる。ステップ604で、新しい音声活動がアレイマイクロフォン100、400から比較的遠くない(すなわち、閾値より小さいまたはそれに等しい)と判定された場合、ステップ608で、プロセス600で後に使用するために、より高い方位閾値を設定することができる。
【0069】
ステップ606またはステップ608における方位閾値の設定に続いて、プロセス600はステップ610へ進むことができる。ステップ610で、ローブオートフォーカサ160またはローブオートプレーサ460は、新しい音声活動への近傍を確認すべきローブがあるかどうかを判定することができる。ステップ610で、確認すべきアレイマイクロフォン100、400のローブがない場合、プロセス600はステップ616で終了し、アレイマイクロフォン100、400の近傍にローブがないことを示すことができる。
【0070】
しかし、ステップ610で、確認すべきアレイマイクロフォン100、400のローブがある場合、プロセス600はステップ612へ進み、既存のローブのうちの1つを調査することができる。ステップ612で、ローブオートフォーカサ160またはローブオートプレーサ460は、(1)既存のローブの方位と(2)新しい音声活動の方位との間の差の絶対値が、方位閾値(ステップ606またはステップ608で設定)より大きいかどうかを判定することができる。ステップ612でこの条件が満足された場合、調査対象のローブが新しい音声活動の近傍範囲内にないと考えることができる。プロセス600はステップ610へ戻り、調査すべきさらなるローブがあるかどうかを判定することができる。
【0071】
しかし、ステップ612でこの条件が満足されない場合、プロセス600はステップ614へ進むことができる。ステップ614で、ローブオートフォーカサ160またはローブオートプレーサ460は、(1)既存のローブの仰角と(2)新しい音声活動の仰角との間の差の絶対値が所定の仰角閾値より大きいかどうかを判定することができる。ステップ614でこの条件が満足された場合、調査対象のローブが新しい音声活動の近傍範囲内にないと考えることができる。プロセス600はステップ610へ戻り、調査すべきさらなるローブがあるかどうかを判定することができる。しかし、ステップ614でこの条件が満足されない場合、プロセス600はステップ618で終了し、調査対象のローブが新しい音声活動の近傍にあることを示すことができる。
【0072】
図7は、新しい音声活動の検出に応答して、関連するローブ領域内で以前に配置されたビーム形成ローブを自動で集束させることができるアレイマイクロフォン700の例示的な図である。実施形態では、アレイマイクロフォン700は、上述したアレイマイクロフォン100と同じ構成要素、たとえば音声活動ローカライザ150、ローブオートフォーカサ160、ビームフォーマ170、および/またはデータベース180のうちのいくつかまたはすべてを含むことができる。アレイマイクロフォン700の各ローブは、その関連するローブ領域内で移動可能とすることができ、ローブは、ローブ領域間の境界に交差しない。図7は、8つの関連するローブ領域を有する8つのローブを示すが、図10図12図13、および図15に示す4つの関連するローブ領域を有する4つのローブなど、任意の数のローブおよび関連するローブ領域が可能であり、それも企図されることに留意されたい。図7図10図12図13、および図15は、アレイマイクロフォンの周りの3次元空間の2次元表現として示されていることにも留意されたい。
【0073】
少なくとも2組の座標、すなわち(1)元のまたは初期の座標LOi(たとえば、アレイマイクロフォン700の設定時に自動または手動で構成される)、および(2)所与の時間にローブが現在向いている現在の座標
【数2】
を、アレイマイクロフォン700の各ローブに関連付けることができる。いくつかの実施形態では、これらの組の座標は、ローブの中心の位置を示すことができる。いくつかの実施形態では、これらの組の座標は、データベース180に記憶することができる。
【0074】
加えて、アレイマイクロフォン700の各ローブを、その周りの3次元空間のローブ領域に関連付けることができる。実施形態では、アレイマイクロフォンのあらゆる他のローブの座標よりローブの初期座標LOiに近い空間内の1組の点として、ローブ領域を定義することができる。言い換えれば、pが空間内の点として定義されるとき、
【0075】
【数3】
のように、点pとローブiの中心(LOi)との間の距離Dがあらゆる他のローブより最も小さい場合、点pは特定のローブ領域LRiに属することができる。こうして定義される領域は、Voronoi領域またはVoronoiセルとして知られている。たとえば、8つのローブが、ローブ領域の各々の間に示された境界を有する関連するローブ領域を有することを、図7に見ることができる。ローブ領域間の境界は、2つ以上の隣接するローブから等しく離れた空間内の1組の点である。また、いくつかの組のローブ領域の境界をなくすことも可能である。実施形態では、距離Dは、たとえば、点pとLOiとの間のユークリッド距離
【0076】
【数4】
とすることができる。いくつかの実施形態では、特定のローブを移動させるとき、ローブ領域を再計算することができる。
【0077】
実施形態では、ローブ領域は、赤外センサ、視覚センサ、および/または他の好適なセンサを使用して、アレイマイクロフォン700が位置する環境(たとえば、物体、壁、人物など)を感知したことに基づいて計算および/または更新することができる。たとえば、アレイマイクロフォン700によって、センサからの情報を使用して、ローブ領域に対する近似境界を設定することができ、これらの近似境界を使用して、関連するローブを配置することができる。さらなる実施形態では、ローブ領域は、アレイマイクロフォン700のグラフィカルユーザインターフェースなどによってユーザがローブ領域を定義したことに基づいて計算および/または更新することができる。
【0078】
図7にさらに示すように、各ローブには、後述するように、自動集束プロセス中にその移動を抑制することができる様々なパラメータを関連付けることができる。1つのパラメータは、新しい音声活動を考えることができるローブの初期座標LOiの周りの空間の3次元領域であるローブの探索半径である。言い換えれば、ローブ領域内であるがローブの探索半径外で新しい音声活動が検出された場合、新しい音声活動の検出に応答したローブの移動または自動集束はないはずである。したがって、ローブの探索半径の外側にある点は、関連するローブ領域の無視または「don’t care」部分であると考えることができる。たとえば、図7で、Aとして示されている点は、ローブ5およびその関連するローブ領域5の探索半径の外側にあり、したがって点Aでのいかなる新しい音声活動も、このローブを移動させないはずである。逆に、新しい音声活動が特定のローブ領域内で検出され、かつそのローブの探索半径内にある場合、新しい音声活動の検出に応答して、このローブを自動で移動および集束させることができる。
【0079】
別のパラメータは、ローブが移動することが可能な空間内の最大距離であるローブの移動半径である。ローブの移動半径は概して、ローブの探索半径より小さく、ローブがアレイマイクロフォンまたはローブの初期座標LOiからあまりに遠くへ移動することを防止するように設定することができる。たとえば、図7で、Bとして示す点は、ローブ5およびその関連するローブ領域5の探索半径および移動半径の両方の中にある。新しい音声活動が点Bで検出された場合、ローブ5を点Bへ移動させることもできる。別の例として、図7で、Cとして示す点は、ローブ5の探索半径の範囲内であるが、ローブ5およびその関連するローブ領域5の移動半径の外側にある。新しい音声活動が点Cで検出された場合、ローブ5を移動させることができる最大距離は、移動半径に制限される。
【0080】
さらなるパラメータは、ローブが隣接ローブ領域およびローブ領域間の境界の方へ移動することが可能な空間内の最大距離であるローブの境界クッションである。たとえば、図7で、Dとして示す点は、ローブ8およびその関連するローブ領域8(ローブ領域7に隣接)の境界クッションの外側にある。ローブの境界クッションは、隣接ローブの重複を最小化するように設定することができる。図7図10図12図13、および図15で、ローブ領域間の境界は、破線によって示されており、各ローブ領域に対する境界クッションは、これらの境界に平行な一点鎖線によって示されている。
【0081】
関連するローブ領域内でアレイマイクロフォン700の以前に配置されたビーム形成ローブを自動集束するプロセス800の一実施形態が、図8に示されている。プロセス800は、アレイマイクロフォン700が、アレイマイクロフォン700から1つまたは複数の音声信号180を出力することができるように、ローブオートフォーカサ160によって実行することができ、音声信号180は、音源の新しい音声活動に集束したビーム形成ローブによって捕捉された音を含むことができる。アレイマイクロフォン700の内部または外部の1つまたは複数のプロセッサおよび/または他の処理構成要素(たとえば、アナログデジタル変換器、暗号化チップなど)は、プロセス800のステップのうちのいずれか、いくつか、またはすべてを実行することができる。1つまたは複数の他のタイプの構成要素(たとえば、メモリ、入力および/または出力デバイス、送信器、受信器、バッファ、ドライバ、個別の構成要素など)はまた、プロセス800のステップのうちのいずれか、いくつか、またはすべてを実行するために、プロセッサおよび/または他の処理構成要素とともに利用することができる。
【0082】
ローブオートフォーカサ160に対するプロセス800のステップ802は、上述した図2のプロセス200のステップ202と実質的に同じものとすることができる。特に、ステップ802で、新しい音声活動に対応する座標および信頼度スコアを、音声活動ローカライザ150からローブオートフォーカサ160で受信することができる。実施形態では、ステップ802で、新しい音声活動に関係する他の好適なメトリックを受信して利用することもできる。ステップ804で、ローブオートフォーカサ160は、新しい音声活動の信頼度スコアを所定の閾値と比較して、新しい信頼度スコアが満足のいくものであるかどうかを判定することができる。ローブオートフォーカサ160が、ステップ804で、新しい音声活動の信頼度スコアが所定の閾値より小さい(すなわち、信頼度スコアが満足のいくものでない)と判定した場合、プロセス800はステップ820で終了することができ、アレイマイクロフォン700のローブの場所は更新されない。しかし、ローブオートフォーカサ160が、ステップ804で、新しい音声活動の信頼度スコアが所定の閾値より大きいまたはそれに等しい(すなわち、信頼度スコアが満足のいくものである)と判定した場合、プロセス800はステップ806へ進むことができる。
【0083】
ステップ806で、ローブオートフォーカサ160は、新しい音声活動が存在するローブ領域、すなわち新しい音声活動が属するローブ領域を識別することができる。実施形態では、ローブオートフォーカサ160は、ステップ806で、ローブ領域を識別するために、新しい音声活動の座標に最も近いローブを発見することができる。たとえば、ローブ領域は、新しい音声活動の座標とローブの初期座標LOiとの間の距離が最小化されるように、ローブのインデックスi
【0084】
【数5】
を発見することなど、新しい音声活動に最も近いローブの初期座標LOiを発見することによって識別することができる。新しい音声活動を含むローブおよびその関連するローブ領域は、ステップ806で識別されたローブおよびローブ領域であると判定することができる。
【0085】
ステップ806で、ローブ領域が識別された後、ローブオートフォーカサ160は、ステップ808で、新しい音声活動の座標がローブの探索半径の外側にあるかどうかを判定することができる。ローブオートフォーカサ160が、ステップ808で、新しい音声活動の座標がローブの探索半径の外側にあると判定した場合、プロセス800はステップ820で終了することができ、アレイマイクロフォン700のローブの場所は更新されない。言い換えれば、新しい音声活動がローブの探索半径の外側にある場合、新しい音声活動を無視することができ、新しい音声活動がローブの有効範囲の外側にあると考えることができる。一例として、図7の点Aは、ローブ5に関連するローブ領域5内にあるが、ローブ5の探索半径の外側にある。新しい音声活動の座標がローブの探索半径の外側にあるかどうかを判定する詳細は、図9および図10に関連して以下で説明する。
【0086】
しかし、ステップ808で、ローブオートフォーカサ160が、新しい音声活動の座標がローブの探索半径の外側にない(すなわち、内側にある)と判定した場合、プロセス800はステップ810へ進むことができる。このシナリオでは、後述するように、移動半径および境界クッションなどの他のパラメータに対して新しい音声活動の座標を評価したことを条件として、ローブを新しい音声活動の方へ移動させることができる。ステップ810で、ローブオートフォーカサ160は、新しい音声活動の座標がローブの移動半径の外側にあるかどうかを判定することができる。ローブオートフォーカサ160が、ステップ810で、新しい音声活動の座標がローブの移動半径の外側にあると判定した場合、プロセス800はステップ816へ進むことができ、ローブの移動を制限または抑制することができる。特に、ステップ816で、ローブを一時的に移動させることができる新しい座標は、移動半径以下になるように設定することができる。新しい座標は、後述するように、境界クッションパラメータに関してローブの移動をそれでもなお評価することができるため、一時的とすることができる。実施形態では、ステップ816におけるローブの移動は、ローブがその初期座標LOiからあまりに遠くへ移動するのを防止するために、スケーリング係数α(ここで、0<α≦1)に基づいて抑制することができる。一例として、図7の点Cは、ローブ5の移動半径の外側にあり、したがってローブ5を移動させることができる最も遠い距離は、移動半径である。ステップ816後、プロセス800はステップ812へ進むことができる。ローブの移動をその移動半径の範囲内に制限する詳細は、図11および図12に関連して以下で説明する。
【0087】
プロセス800はまた、ステップ810で、ローブオートフォーカサ160が、新しい音声活動の座標がローブの移動半径の外側にない(すなわち、内側にある)と判定した場合、ステップ812へ進むことができる。一例として、図7での点Bは、ローブ5の移動半径の内側にあり、したがってローブ5を点Bへ移動させることができる。ステップ812で、ローブオートフォーカサ160は、新しい音声活動の座標が境界クッションに近接しており、したがって隣接ローブに近接しすぎているかどうかを判定することができる。ローブオートフォーカサ160が、ステップ812で、新しい音声活動の座標が境界クッションに近接していると判定した場合、プロセス800はステップ818へ進むことができ、ローブの移動を制限または抑制することができる。特に、ステップ818で、ローブを移動させることができる新しい座標は、境界クッションのすぐ外側に設定することができる。実施形態では、ステップ818におけるローブの移動は、スケーリング係数β(ここで、0<β≦1)に基づいて抑制することができる。一例として、図7の点Dは、境界クッションの外側で隣接するローブ領域8とローブ領域7との間にある。プロセス800は、ステップ818に続いて、ステップ814へ進むことができる。境界クッションに関する詳細は、図13図15に関連して以下で説明する。
【0088】
プロセス800はまた、ステップ812で、ローブオートフォーカサ160が、新しい音声活動の座標が境界クッションに近接していないと判定した場合、ステップ814へ進むことができる。ステップ812で、ローブオートフォーカサ160は、ローブの新しい座標をビームフォーマ170へ伝送することができ、したがってビームフォーマ170は、既存のローブの場所を新しい座標に更新することができる。実施形態では、以下でより詳細に説明するように、ローブの新しい座標
【0089】
【数6】
を、
【数7】
と定義することができ、ここで、
【数8】
は動きベクトルであり、
【数9】
は抑制された動きベクトルである。実施形態では、ローブオートフォーカサ160は、ローブの新しい座標をデータベース180に記憶することができる。
【0090】
上述したプロセス800のステップに応じて、新しい音声活動の検出のためにローブが移動させられたとき、ローブの新しい座標は、(1)新しい音声活動の座標がローブの探索半径の範囲内にあり、ローブの移動半径の範囲内であり、かつ関連するローブ領域の境界クッションに近接していない場合は、新しい音声活動の座標とすることができ、(2)新しい音声活動の座標がローブの探索半径の範囲内にあり、ローブの移動半径の外側にあり、かつ関連するローブ領域の境界クッションに近接していない場合は、新しい音声活動に向かう動きベクトルの方向の点とすることができ、かつ移動半径の範囲に制限することができ、または(3)新しい音声活動の座標がローブの探索半径の範囲内にありかつ境界クッションに近接している場合は、境界クッションのすぐ外側とすることができる。
【0091】
プロセス800は、音声活動ローカライザ150が新しい音声活動を発見し、新しい音声活動の座標および信頼度スコアをローブオートフォーカサ160へ提供すると、アレイマイクロフォン700によって連続して実行することができる。たとえば、プロセス800は、音源、たとえば発言者が会議室内を動き回っているとき、1つまたは複数のローブを音源に集束させてそれらの音を最適に捕捉することができるように実行することができる。
【0092】
新しい音声活動の座標がローブの探索半径の外側にあるかどうかを判定するプロセス900の一実施形態が、図9に示されている。プロセス900は、たとえば、プロセス800のステップ808で、ローブオートフォーカサ160によって利用することができる。特に、プロセス900は、ステップ902で開始することができ、動きベクトル
【0093】
【数10】
は、
【数11】
として計算することができる。動きベクトルは、ローブの元の座標LOiの中心を、新しい音声活動の座標
【数12】
に接続するベクトルとすることができる。たとえば、図10に示すように、新しい音声活動Sがローブ領域3に存在し、動きベクトル
【数13】
が、ローブ3の元の座標LO3と新しい音声活動Sの座標との間に示されている。ローブ3に対する探索半径も、図10に示されている。
【0094】
ステップ902で動きベクトル
【数14】
を計算した後、プロセス900はステップ904へ進むことができる。ステップ904で、ローブオートフォーカサ160は、動きベクトルの大きさがローブに対する探索半径より大きいかどうかを、
【数15】
のように判定することができる。ステップ904で、動きベクトル
【数16】
の大きさがローブに対する探索半径より大きい場合、ステップ906で、新しい音声活動の座標がローブに対する探索半径の外側にあると示すことができる。たとえば、図10に示すように、新しい音声活動Sがローブ3の探索半径の外側にあるため、新しい音声活動Sは無視されるはずである。しかし、ステップ904で、動きベクトル
【数17】
の大きさがローブに対する探索半径より小さいまたはそれに等しい場合、ステップ908で、新しい音声活動の座標がローブに対する探索半径の内側にあると示すことができる。
【0095】
ローブの移動をその移動半径の範囲内に制限するプロセス1100の一実施形態が、図11に示されている。プロセス1100は、たとえば、プロセス800のステップ816で、ローブオートフォーカサ160によって利用することができる。特に、プロセス1100は、ステップ1102で開始することができ、動きベクトル
【0096】
【数18】
は、図9に示すプロセス900のステップ902関連して上述したものと同様に、
【数19】
として計算することができる。たとえば、図12に示すように、新しい音声活動Sがローブ領域3に存在し、動きベクトル
【数20】
が、ローブ3の元の座標LO3と新しい音声活動Sの座標との間に示されている。ローブ3に対する移動半径も、図12に示されている。
【0097】
ステップ1102で動きベクトル
【数21】
を計算した後、プロセス1100はステップ1104へ進むことができる。ステップ1104で、ローブオートフォーカサ160は、動きベクトル
【数22】
の大きさがローブに対する移動半径より小さいまたはそれに等しいかどうかを、
【数23】
のように判定することができる。ステップ1104で、動きベクトル
【数24】
の大きさが移動半径より小さいまたはそれに等しい場合、ステップ1106で、ローブの新しい座標を新しい音声活動の座標へ一時的に移動することができる。たとえば、図12に示すように、新しい音声活動Sがローブ3の移動半径の範囲内にあるため、ローブは、新しい音声活動Sの座標へ一時的に移動されるはずである。
【0098】
しかし、ステップ1104で、動きベクトル
【数25】
の大きさが移動半径より大きい場合、ステップ1108で、動きベクトル
【数26】
の大きさは、
【数27】
のように、同じ方向を維持しながら、移動半径の最大値までスケーリング係数αでスケーリングすることができる。ここで、スケーリング係数αは、
【数28】
と定義することができる。
【0099】
図13図15は、ローブ領域の境界または縁部に近い空間のうち別のローブ領域に隣接している部分であるローブ領域の境界クッションに関する。特に、2つのローブiおよびj間の境界に近い境界クッションは、2つのローブの元の座標(すなわち、LOiおよびLOj)を接続するベクトル
【0100】
【数29】
を使用して、間接的に記述することができる。したがって、そのようなベクトルは、
【数30】
と記述することができる。このベクトル
【数31】
の中間点は、2つのローブ領域間の境界にある点とすることができる。特に、ローブiの元の座標LOiからベクトル
【数32】
の方向に移動すると、隣接するローブjに向かう最短の経路が得られる。さらに、ローブiの元の座標LOiからベクトル
【数33】
の方向に移動しながら、その移動量をベクトル
【数34】
の大きさの2分の1に抑えると、2つのローブ領域間の厳密な境界が得られる。
【0101】
上記に基づいて、ローブiの元の座標LOiからベクトル
【数35】
の方向に移動しながら、値A(ここで、0<A<1)に基づいてその移動量を抑制すると(すなわち、
【数36】
)、ローブ領域間の境界の(100*A)%の範囲内になる。たとえば、Aが0.8(すなわち、80%)である場合、移動したローブの新しい座標は、ローブ領域間の境界の80%の範囲内になるはずである。したがって、値Aを利用して、2つの隣接ローブ領域間の境界クッションを作成することができる。概して、境界クッションが大きければ大きいほど、ローブが別のローブ領域へ移動することを防止することができ、境界クッションが小さければ小さいほど、ローブが別のローブ領域のより近くへ移動することを可能にすることができる。
【0102】
加えて、新しい音声活動の検出により、ローブiがローブjに向かう方向(たとえば、上述した動きベクトル
【数37】
の方向)に移動した場合、ローブjの方向、すなわちベクトル
【数38】
の方向の移動成分が存在することに留意されたい。ベクトル
【数39】
の方向の移動成分を発見するために、動きベクトル
【数40】
を単位ベクトル
【数41】
(単位大きさでベクトル
【数42】
と同じ方向を有する)に投影して、投影ベクトル
【数43】
を計算することができる。一例として、図13は、ローブ3および2を接続するベクトル
【数44】
を示し、これはまた、ローブ3の中心からローブ領域2へ向かう最短の経路である。図13に示す投影ベクトル
【数45】
は、動きベクトル
【数46】
を単位ベクトル
【数47】
に投影したものである。
【0103】
ベクトル投影を使用してローブ領域の境界クッションを作成するプロセス1400の一実施形態が、図14に示されている。プロセス1400は、たとえば、プロセス800のステップ818で、ローブオートフォーカサ160によって利用することができる。プロセス1400の結果、境界クッションのサイズを特定付ける特定の割合を超えて、ローブがいかなる他のローブ領域の方向にも移動しないように、動きベクトル
【0104】
【数48】
の大きさを抑制することができる。
【0105】
プロセス1400を実行する前に、活動状態のローブのすべての対に対して、ベクトル
【数49】
および単位ベクトル
【数50】
を計算することができる。前述したように、ベクトル
【数51】
は、ローブiおよびjの元の座標を接続することができる。すべての活動状態のローブに対して、各ローブ領域に対する境界クッションのサイズを特徴付けるパラメータAi(ここで、0<Ai<1)を判定することができる。前述したように、プロセス1400を実行する前に(すなわち、プロセス800のステップ818の前に)、新しい音声活動のローブ領域を識別することができ(すなわち、ステップ806)、動きベクトルを計算することができる(すなわち、プロセス1100/ステップ810を使用)。
【0106】
プロセス1400のステップ1402で、新しい音声活動に対して識別されたローブ領域に関連付けられていないすべてのローブに対して、投影ベクトル
【数52】
を計算することができる。投影ベクトル
【数53】
の大きさ(図13に関して上述)は、ローブ領域間の境界の方向へのローブの移動量を決定することができる。投影ベクトル
【数54】
のそのような大きさは、動きベクトル
【数55】
および単位ベクトル
【数56】
のドット積などによって、スケーラとして計算することができ、したがって投影PMij=MxDuij,z+MyDuij,y+MzDuij,zになる。
【0107】
PMij<0のとき、動きベクトル
【数57】
は、ベクトル
【数58】
の逆方向の成分を有する。これは、ローブiの移動が、ローブjを有する境界とは反対の方向になるはずであることを意味する。このシナリオでは、ローブiの移動はローブjを有する境界から離れる方向になるはずであるため、ローブiおよびj間の境界クッションは問題でない。しかし、PMij>0のとき、動きベクトル
【数59】
は、ベクトル
【数60】
の方向と同じ方向の成分を有する。これは、ローブiの移動が、ローブjを有する境界と同じ方向になるはずであることを意味する。このシナリオでは、ローブiの移動は、
【数61】
になるように、境界クッションの外側に制限することができ、ここでAi(ここで0<Ai<1)は、ローブiに関連付けられたローブ領域に対する境界クッションを特徴付けるパラメータである。
【0108】
スケーリング係数βを利用して、
【数62】
を確実にすることができる。スケーリング係数βは、動きベクトル
【数63】
をスケーリングするために使用することができ、
【数64】
と定義することができる。したがって、ローブ領域の境界クッションの外側にある新しい音声活動が検出された場合、スケーリング係数βは1に等しくすることができ、これは動きベクトル
【数65】
のスケーリングを行わないことを示す。ステップ1404で、新しい音声活動に対して識別されたローブ領域に関連付けられていないすべてのローブに対して、スケーリング係数βを計算することができる。
【0109】
ステップ1406で、最も近いローブ領域の境界クッションに対応して、最小のスケーリング係数βを、
【数66】
のように判定することができる。ステップ1406で最小のスケーリング係数βを判定した後、ステップ1408で、最小のスケーリング係数βを動きベクトル
【数67】
に適用して、抑制された動きベクトル
【数68】
を判定することができる。
【0110】
たとえば、図15は、ローブ領域3内に存在する新しい音声活動S、ならびにローブ3の初期座標LO3と新しい音声活動Sの座標との間の動きベクトル
【数69】
を示す。ベクトル
【数70】

【数71】

【数72】
および投影ベクトル
【数73】

【数74】

【数75】
が、ローブ3と、ローブ領域3に関連付けられていない他のローブ(すなわち、ローブ1、2、および4)の各々との間に示されている。特に、活動状態のローブ(すなわち、ローブ1、2、3、および4)のすべての対に対して、ベクトル
【数76】

【数77】

【数78】
を計算することができ、ローブ領域3に関連付けられていないすべてのローブ(新しい音声活動Sに対して識別)に対して、投影PM31、PM32、PM34が計算される。これらの投影ベクトルの大きさを利用して、スケーリング係数βを計算することができ、最小のスケーリング係数βを使用して、動きベクトル
【数79】
をスケーリングすることができる。したがって、新しい音声活動Sがローブ3とローブ2との間の境界に近接しすぎているため、動きベクトル
【数80】
をローブ領域3の境界クッションの外側に抑制することができる。抑制された動きベクトルに基づいて、ローブ3の座標を、ローブ領域3の境界クッションの外側にある座標Srへ移動させることができる。
【0111】
図15に示す投影ベクトル
【数81】
は負であり、対応するスケーリング係数β4(ローブ4に対する)は1に等しい。スケーリング係数β1(ローブ1に対する)もまた、
【数82】
であるため、1に等しいのに対して、スケーリング係数β2(ローブ2に対する)は、新しい音声活動Sがローブ領域2とローブ領域3との間の境界クッションの内側にある(すなわち、
【数83】
)ため、1より小さい。したがって、最小のスケーリング係数β2を利用して、ローブ3が座標Srへ移動することを確実にすることができる。
【0112】
図16および図17は、様々な周波数で音源から音を検出することができるアレイマイクロフォン1600、1700の概略図である。図16のアレイマイクロフォン1600は、音声活動の検出に応答してビーム形成ローブを自動で集束させながら、遠端からのリモート音声信号の活動が所定の閾値を超過したときは、ビーム形成ローブの自動集束の阻止を可能にすることができる。実施形態では、アレイマイクロフォン1600は、上述したアレイマイクロフォン100と同じ構成要素、たとえばマイクロフォン102、音声活動ローカライザ150、ローブオートフォーカサ160、ビームフォーマ170、および/またはデータベース180のうちのいくつかまたはすべてを含むことができる。アレイマイクロフォン1600はまた、トランスデューサ1602、たとえばラウドスピーカと、ローブオートフォーカサ160と通信している活動検出器1604とを含むことができる。遠端からのリモート音声信号は、トランスデューサ1602および活動検出器1604と通信することができる。
【0113】
図17のアレイマイクロフォン1700は、音声活動の検出に応答してビーム形成ローブを自動で配置しながら、遠端からのリモート音声信号の活動が所定の閾値を超過したときは、ビーム形成ローブの自動配置の阻止を可能にすることができる。実施形態では、アレイマイクロフォン1700は、上述したアレイマイクロフォン400と同じ構成要素、たとえばマイクロフォン402、音声活動ローカライザ450、ローブオートプレーサ460、ビームフォーマ470、および/またはデータベース480のうちのいくつかまたはすべてを含むことができる。アレイマイクロフォン1700はまた、トランスデューサ1702、たとえばラウドスピーカと、ローブオートプレーサ460と通信している活動検出器1704とを含むことができる。遠端からのリモート音声信号は、トランスデューサ1702および活動検出器1704と通信することができる。
【0114】
トランスデューサ1602、1702は、アレイマイクロフォン1600、1700が位置する局所的な環境で、リモート音声信号の音を再生するために利用することができる。活動検出器1604、1704は、リモート音声信号の活動量を検出することができる。いくつかの実施形態では、活動量は、リモート音声信号のエネルギーレベルとして測定することができる。他の実施形態では、活動量は、時間領域および/または周波数領域における方法を使用して、機械学習(たとえば、ケプストラム係数を使用)の適用、1つもしくは複数の周波数帯域における信号の非定常性の測定、および/または望ましい音もしくは発言の特徴の探索などによって測定することができる。
【0115】
実施形態では、活動検出器1604、1704は、リモート音声信号に発声が存在するかどうかを判定することができる発声活動検出器(VAD)とすることができる。VADは、たとえば、リモート音声信号のスペクトル分散の分析、線形予測符号化の使用、発声を検出するための機械学習もしくは深層学習技法の適用、および/またはITU G.729VAD、GSM仕様に含まれるVAD計算のためのETSI規格、もしくは長期ピッチ予測などのよく知られている技法の使用によって実施することができる。
【0116】
検出された活動量に基づいて、自動ローブ調整を実行または阻止することができる。自動ローブ調整は、たとえば、本明細書に記載するように、ローブの自動集束、領域内のローブの自動集束、および/またはローブの自動配置を含むことができる。リモート音声信号の検出された活動が所定の閾値を超過しないとき、自動ローブ調整を実行することができる。逆に、リモート音声信号の検出された活動が所定の閾値を超過するときは、自動ローブ調整を阻止することができる(すなわち、実行しない)。たとえば、所定の閾値を超過するということは、リモート音声信号が、ローブによって捕捉されないことが好ましい発声、発言、または他の音を含むことを示すことができる。このシナリオでは、自動ローブ調整を阻止することによって、リモート音声信号からの音を捕捉することを回避するために、ローブは集束または配置されない。
【0117】
いくつかの実施形態では、活動検出器1604、1704は、リモート音声信号の検出された活動量が所定の閾値を超過するかどうかを判定することができる。検出された活動量が所定の閾値を超過しないとき、活動検出器1604、1704は、それぞれローブオートフォーカサ160またはローブオートプレーサ460へイネーブル信号を伝送して、ローブを調整することを可能にすることができる。追加または別法として、リモート音声信号の検出された活動量が所定の閾値を超過したとき、活動検出器1604、1704は、それぞれローブオートフォーカサ160またはローブオートプレーサ460へポーズ信号を伝送して、ローブが調整されるのを止めることができる。
【0118】
他の実施形態では、活動検出器1604、1704は、それぞれローブオートフォーカサ160またはローブオートプレーサ460へ、リモート音声信号の検出された活動量を伝送することができる。ローブオートフォーカサ160またはローブオートプレーサ460が、検出された活動量が所定の閾値を超過するかどうかを判定することができる。検出された活動量が所定の閾値を超過するかどうかに基づいて、ローブオートフォーカサ160またはローブオートプレーサ460は、ローブの調整を実行または休止することができる。
【0119】
アレイマイクロフォン1600、1700に含まれる様々な構成要素は、プロセッサおよびメモリ、グラフィックス処理ユニット(GPU)を有する計算デバイスなどの1つもしくは複数のサーバもしくはコンピュータによって実行可能なソフトウェアを使用して実施することができ、ならびに/またはハードウェア(たとえば、離散論理回路、特定用途向け集積回路(ASIC)、プログラマブルゲートアレイ(PGA)、フィールドプログラマブルゲートアレイ(FPGA)などによって実施することができる。
【0120】
リモート遠端音声信号に基づいてアレイマイクロフォンのビーム形成ローブの自動調整を阻止するプロセス1800の一実施形態が、図18に示されている。プロセス1800は、遠端からのリモート音声信号の活動量に基づいて、ビーム形成ローブの自動集束または自動配置を実行または阻止することができるように、アレイマイクロフォン1600、1700によって実行することができる。アレイマイクロフォン1600、1700の内部または外部の1つまたは複数のプロセッサおよび/または他の処理構成要素(たとえば、アナログデジタル変換器、暗号化チップなど)は、プロセス1800のステップのうちのいずれか、いくつか、またはすべてを実行することができる。1つまたは複数の他のタイプの構成要素(たとえば、メモリ、入力および/または出力デバイス、送信器、受信器、バッファ、ドライバ、個別の構成要素など)はまた、プロセス1800のステップのうちのいずれか、いくつか、またはすべてを実行するために、プロセッサおよび/または他の処理構成要素とともに利用することができる。
【0121】
ステップ1802で、リモート音声信号を、アレイマイクロフォン1600、1700で受信することができる。リモート音声信号は、遠端(たとえば、離れた場所)からくることができ、遠端からの音(たとえば、発言、発声、雑音など)を含むことができる。リモート音声信号は、ステップ1804で、局所的な環境内のラウドスピーカなどのトランスデューサ1602、1702から出力することができる。したがって、会議通話中などの局所的な環境において、現場の参加者が離れた参加者の声を聞くことができるように、遠端からの音を再生することができる。
【0122】
活動検出器1604、1704によって、リモート音声信号を受信することができ、活動検出器1604、1704は、ステップ1806で、リモート音声信号の活動量を検出することができる。検出された活動量は、リモート音声信号における発言、発声、雑音などの量に対応することができる。実施形態では、活動量は、リモート音声信号のエネルギーレベルとして測定することができる。ステップ1808で、リモート音声信号の検出された活動量が所定の閾値を超過しない場合、プロセス1800はステップ1810へ進むことができる。リモート音声信号の検出された活動量が所定の閾値を超過しないということは、リモート音声信号における発言、発声、雑音などの量が比較的小さいことを示すことができる。実施形態では、検出された活動量は、リモート音声信号における発声または発言の量を具体的に示すことができる。ステップ1810で、ローブ調整を実行することができる。ステップ1810は、たとえば、本明細書に記載するように、ビーム形成ローブを自動集束するプロセス200および300、ビーム形成ローブを自動配置するプロセス400、ならびに/またはローブ領域内でビーム形成ローブを自動集束するプロセス800を含むことができる。このシナリオでは、ローブを集束または配置することができるが、そのようなローブが局所的な環境で出力されているリモート音声信号から望ましくない音を捕捉する可能性がより低くなるため、ローブ調整を実行することができる。ステップ1810後、プロセス1800はステップ1802へ戻ることができる。
【0123】
しかし、ステップ1808で、リモート音声信号の検出された活動量が所定の閾値を超過した場合、プロセス1800はステップ1812へ進むことができる。ステップ1812で、ローブ調整を実行することはできず、すなわちローブ調整を阻止することができる。リモート音声信号の検出された活動量が所定の閾値を超過するということは、リモート音声信号における発言、発声、雑音などの量が比較的大きいことを示すことができる。このシナリオでは、ローブ調整が行われることを阻止することで、ローブが局所的な環境において出力されているリモート音声信号からの音を捕捉するように集束または配置されないことを確実にする手助けをすることができる。いくつかの実施形態では、ステップ1812後、プロセス1800はステップ1802へ戻ることができる。他の実施形態では、プロセス1800は、ステップ1812で、特定の持続時間にわたって待機してから、ステップ1802へ戻ることができる。特定の持続時間にわたって待機することで、局所的な環境における反響(たとえば、リモート音声信号の音を再生することによって引き起こされる)が放散することを可能にすることができる。
【0124】
プロセス1800は、遠端からのリモート音声信号が受信されると、アレイマイクロフォン1600、1700によって連続して実行することができる。たとえば、リモート音声信号は、所定の閾値を超過しない小さい活動量(たとえば、発言または発声なし)を含むことがある。この状況では、ローブ調整を実行することができる。別の例として、リモート音声信号は、所定の閾値を超過する大きい活動量(たとえば、発言または発声)を含むことがある。この状況では、ローブ調整の実行を阻止することができる。したがって、ローブ調整を実行するか、または阻止するかは、リモート音声信号の活動量が変化するにつれて変化することができる。プロセス1800の結果、遠端からの音が望ましくなく捕捉される可能性を低減させることによって、局所的な環境における音をより最適に捕捉することができる。
【0125】
図中のあらゆるプロセスの説明またはブロックは、プロセスにおいて特有の論理機能またはステップを実施するための1つまたは複数の実行可能な命令を含むモジュール、セグメント、またはコード部分を表すことを理解されたい。代替の実装も本発明の実施形態の範囲内に包含され、機能は、当業者には理解されるように、必要な機能に応じて、実質的に同時または逆の順序を含めて、図示または議論された順序以外で実行することができる。
【0126】
本開示は、本技術の本当の意図した公正な範囲および精神を限定するためではなく、本技術によって様々な実施形態をどのように形成および使用するかについて説明することを意図している。上記の説明は、網羅的であること、または開示する厳密な形態に限定されることを意図したものではない。上記の教示に照らして、修正例または変形例も可能である。これらの実施形態は、記載する技術の原理およびその実際的な応用例の最良の例示を提供し、当業者であれば、企図される特定の用途に適合された様々な修正例によって、本技術を様々な実施形態で利用することを可能にするために、選択および記載されたものである。そのような修正例および変形例はすべて、公正、合法、かつ公平に与えられる範囲に従って解釈されるとき、本特許出願の係属中に修正することができる添付の特許請求の範囲およびそのあらゆる均等物によって決定される実施形態の範囲内である。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20