特表2024-534497 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ シュアー　アクイジッション　ホールディングス　インコーポレイテッドの特許一覧

特表2024-534497ルームインテリジェンスのための会議システムおよび方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-09-20

(54)【発明の名称】ルームインテリジェンスのための会議システムおよび方法

(51)【国際特許分類】

H04N 23/695 20230101AFI20240912BHJP

G10L 25/51 20130101ALI20240912BHJP

H04N 7/15 20060101ALI20240912BHJP

【ＦＩ】

H04N23/695

G10L25/51 400

H04N7/15

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024517419

(86)(22)【出願日】2022-09-21

(85)【翻訳文提出日】2024-05-17

(86)【国際出願番号】 US2022076815

(87)【国際公開番号】W WO2023049773

(87)【国際公開日】2023-03-30

(31)【優先権主張番号】63/261,459

(32)【優先日】2021-09-21

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】504189151

【氏名又は名称】シュアーアクイジッションホールディングスインコーポレイテッド

【氏名又は名称原語表記】ＳＨＵＲＥＡＣＱＵＩＳＩＴＩＯＮＨＯＬＤＩＮＧＳ，ＩＮＣ．

(74)【代理人】

【識別番号】100094569

【弁理士】

【氏名又は名称】田中伸一郎

(74)【代理人】

【識別番号】100103610

【弁理士】

【氏名又は名称】▲吉▼田和彦

(74)【代理人】

【識別番号】100109070

【弁理士】

【氏名又は名称】須田洋之

(74)【代理人】

【識別番号】100067013

【弁理士】

【氏名又は名称】大塚文昭

(74)【代理人】

【識別番号】100120525

【弁理士】

【氏名又は名称】近藤直樹

(74)【代理人】

【識別番号】100139712

【弁理士】

【氏名又は名称】那須威夫

(74)【代理人】

【識別番号】100141553

【弁理士】

【氏名又は名称】鈴木信彦

(72)【発明者】

【氏名】アブラハムマシューティー

(72)【発明者】

【氏名】ジョシビジャル

【テーマコード（参考）】

5C122

5C164

【Ｆターム（参考）】

5C122DA08

5C122EA55

5C122EA63

5C122EA66

5C122FA01

5C122FH11

5C122FH14

5C122FJ01

5C122FJ04

5C122FJ06

5C122FJ09

5C122GC75

5C122HA88

5C122HB01

5C164FA10

5C164VA04S

5C164VA06S

5C164VA32P

5C164VA56P

(57)【要約】

環境内の話者および物体のカメラ追跡、および他のルームインテリジェンス使用事例で使用するための真の話者座標を生成するように構成された会議システムおよび方法が開示される。会議システムの初期構成および進行中の使用が、環境内の物体および話者の位置を検出し、共通座標系に変換することによって改善され得る。設置者、インテグレータ、およびユーザによる時間量および労力が削減され、会議システムの設置および使用に伴う満足感が向上し得る。

【特許請求の範囲】

【請求項1】

第１の視聴覚装置を使用して、受信した音声に基づいて、第１の座標系での第２の視聴覚装置の位置を決定することと、
前記第１の座標系での前記第２の視聴覚装置の前記位置を、第２の座標系での前記第１の視聴覚装置の位置に変換することと、
前記第１の視聴覚装置から前記第２の視聴覚装置に、前記第２の座標系での前記第１の視聴覚装置の前記位置を送信することと
を含む方法。

【請求項2】

前記受信した音声が、前記第２の視聴覚装置の前記位置からの、または前記第２の視聴覚装置の前記位置の近くの音響トリガを含む、請求項１に記載の方法。

【請求項3】

前記第２の視聴覚装置の前記位置を決定することが、音声ローカライゼーションアルゴリズムを使用して前記受信した音声の前記位置を決定することを含む、請求項１に記載の方法。

【請求項4】

前記第１の視聴覚装置から前記第２の視聴覚装置に、前記第２の座標系での前記第１の視聴覚装置の前記位置を送信することが、前記第２の視聴覚装置に少なくとも１つのパラメータを調節させる、請求項１に記載の方法。

【請求項5】

前記第１の座標系が、前記第１の視聴覚装置に関する座標系を含み、
前記第２の座標系が、前記第２の視聴覚装置に関する座標系を含む、請求項１に記載の方法。

【請求項6】

前記第１の視聴覚装置がマイクロフォンアレイを含み、前記第２の視聴覚装置がカメラを含む、請求項１に記載の方法。

【請求項7】

前記マイクロフォンアレイを使用して、前記第１の座標系での前記マイクロフォンアレイのローブ位置を、前記第２の座標系での前記マイクロフォンアレイのローブ位置に変換することと、
前記マイクロフォンアレイから前記カメラに、前記第２の座標系での前記マイクロフォンアレイの前記ローブ位置を送信することと
をさらに含む、請求項６に記載の方法。

【請求項8】

前記第２の座標系での前記マイクロフォンアレイの前記ローブ位置に基づいて、前記第２の座標系での前記カメラの１つまたは複数のプリセットを自動的に生成することをさらに含む、請求項７に記載の方法。

【請求項9】

前記マイクロフォンアレイを使用して、話者に関連する音声に基づいて、前記第１の座標系での前記話者の位置を決定することと、
前記マイクロフォンアレイを使用して、前記第１の座標系での前記話者の前記位置に基づいて、前記話者の前記位置を前記第２の座標系での前記話者の位置に変換することと、
前記マイクロフォンアレイから前記カメラに、前記第２の座標系での前記話者の前記位置を送信することと
をさらに含む、請求項６に記載の方法。

【請求項10】

前記マイクロフォンアレイに向くように前記カメラを制御することと、
（１）前記第２の座標系での前記第１の視聴覚装置の前記位置と、（２）前記カメラからの画像とに基づいて、前記第２の座標系の原点を設定すること
をさらに含む、請求項６に記載の方法。

【請求項11】

第１の視聴覚装置と、
前記第１の視聴覚装置と同じ場所に配置されない第２の視聴覚装置と
を備えるシステムであって、
前記第１の視聴覚装置が、
前記第１の視聴覚装置に対する第１の座標系での前記第２の視聴覚装置の位置を決定し、
前記第１の座標系での前記第２の視聴覚装置の前記位置を、前記第２の視聴覚装置に対する第２の座標系での前記第１の視聴覚装置の位置に変換する
ように構成される、システム。

【請求項12】

前記第１の視聴覚装置が、前記第２の視聴覚装置からの、または前記第２の視聴覚装置の近くの音声のローカライゼーションに基づいて、前記第１の座標系での前記第２の視聴覚装置の前記位置を決定するように構成される、請求項１１に記載のシステム。

【請求項13】

前記第１の視聴覚装置が、前記第２の座標系での前記第１の視聴覚装置の前記位置を前記第２の視聴覚装置に送信して、前記第２の視聴覚装置に少なくとも１つのパラメータを調節させるようにさらに構成される、請求項１１に記載のシステム。

【請求項14】

前記第１の視聴覚装置がマイクロフォンアレイを含み、前記第２の視聴覚装置がカメラを含む、請求項１１に記載のシステム。

【請求項15】

前記第１の視聴覚装置が、
前記第１の座標系での前記マイクロフォンアレイのローブ位置を前記第２の座標系での前記マイクロフォンアレイのローブ位置に変換し、
前記マイクロフォンアレイから前記カメラに、前記第２の座標系での前記マイクロフォンアレイの前記ローブ位置を送信する
ようにさらに構成される、請求項１４に記載のシステム。

【請求項16】

前記第２の視聴覚装置が、前記第２の座標系での前記マイクロフォンアレイの前記ローブ位置に基づいて、前記第２の座標系での前記カメラの１つまたは複数のプリセットを生成するように構成される、請求項１５に記載のシステム。

【請求項17】

前記第１の視聴覚装置が、
前記話者に関連する音声に基づいて、前記第１の座標系での話者の位置を決定し、
前記第１の座標系での前記話者の前記位置に基づいて、前記話者の前記位置を前記第２の座標系での前記話者の位置に変換し、
前記マイクロフォンアレイから前記カメラに、前記第２の座標系での前記話者の前記位置を送信する
ようにさらに構成される、請求項１４に記載のシステム。

【請求項18】

前記第２の視聴覚装置が、
前記マイクロフォンアレイに向くように前記カメラを制御し、
（１）前記第２の座標系での前記第１の視聴覚装置の前記位置と、（２）前記カメラからの画像とに基づいて、前記第２の座標系の原点を設定する
ように構成される、請求項１４に記載のシステム。

【請求項19】

カメラからの、または前記カメラの近くの音響トリガに基づいて、第１の座標系での前記カメラの位置を検出し、
前記第１の座標系での前記カメラの前記位置を第２の座標系での前記マイクロフォンアレイの位置に変換し、
前記第２の座標系での前記マイクロフォンアレイの前記位置を前記カメラに送信する
ように構成されたマイクロフォンアレイと、
前記第２の座標系での前記マイクロフォンアレイの前記位置を受信し、
前記マイクロフォンアレイの前記位置に基づいて、前記第２の座標系での１つまたは複数のカメラプリセットを自動的に生成し、
前記１つまたは複数のカメラプリセットのうちの１つに基づいて、前記カメラのパラメータを調節する
ように構成された前記カメラと
を備えるシステム。

【請求項20】

前記カメラが、
前記マイクロフォンアレイに前記カメラを向けるように制御され、
（１）前記第２の座標系での前記マイクロフォンアレイの前記位置と、（２）前記カメラからの画像とに基づいて、前記第２の座標系の原点を設定する
ようにさらに構成される、請求項１９に記載のシステム。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本願は、２０２１年９月２１日に出願された米国仮特許出願第６３／２６１４５９号の特典を主張し、参照によりその全体が本明細書に完全に組み込まれている。

【0002】

本願は、一般には、環境内の話者および物体のカメラ追跡、および他のルームインテリジェンス使用事例で使用するための真の話者座標（ｔｒｕｅｔａｌｋｅｒｃｏｏｒｄｉｎａｔｅｓ）を生成するように構成された会議システムおよび方法に関する。

【背景技術】

【0003】

会議室、役員室（ｂｏａｒｄｒｏｏｍ）、ビデオ会議設定などの会議環境は、音源からの音を取り込むためのマイクロフォン（マイクロフォンアレイを含む）と、リモートロケーション（遠端（ｆａｒｅｎｄ）とも呼ばれる）からの音声を提示するためのスピーカの使用を含み得る。たとえば、会議室内の人が、リモートロケーションの人と会議通話を実施中であり得る。通常、会議室からの音声および音がマイクロフォンによって取り込まれ、リモートロケーションに送信され得ると共に、リモートロケーションからの音声および音が受信され、会議室内のスピーカ上で再生され得る。会議室内の音声および音を最適に取り込むために、複数のマイクロフォンが使用され得る。

【0004】

そのような会議環境はまた、カメラなどの１つまたは複数の画像取り込み装置（ｉｍａｇｅｃａｐｔｕｒｅｄｅｖｉｃｅ）をも含み得、画像取り込み装置は、リモートロケーションで閲覧するために送信すべき環境内の人および物体の画像およびビデオを取り込み、提供するために使用され得る。しかしながら、たとえば、環境内のカメラが部屋全体だけを示すように構成される場合、またはカメラが部屋の特定の事前構成された部分のみを示すように固定される場合、リモートロケーションの閲覧者が特定の話者を見ることが難しいことがある。話者には、たとえば、話している、または他の音を出している環境内の人が含まれ得る。

【0005】

さらに、十分なビデオおよび音声カバレッジのために複数のカメラおよび／または複数のマイクロフォンが望ましい環境、ならびにカメラおよびマイクロフォンの相対位置が知られておらず、または事前定義されていない環境があり得る。そのような環境では、話者位置とカメラアングルを正確に相関させることが難しいことがある。専門の設置者またはインテグレータが、マイクロフォンアレイからの位置情報に基づいて、カメラについてのゾーンまたはプリセットを手動で構成し得るが、これは、しばしば時間がかかり、労力を必要とし、柔軟性のないプロセスである。たとえば、室内の座席配置がシステムの初期セットアップ後に変更される場合、事前構成されたカメラゾーンが参加者を十分にカバーしないことがあり、そのようなゾーンは、セットアップ後は修正が困難であり得、かつ／または専門の設置者またはインテグレータのみによって修正され得る。

【発明の概要】

【0006】

本開示の技法は、とりわけ、（１）マイクロフォンアレイを使用して第１の座標系でのカメラ位置を決定し、マイクロフォンアレイを使用するカメラ位置を第２の座標系でのマイクロフォンアレイ位置に変換し、第２の座標系でのマイクロフォンアレイ位置をカメラに送信し、（２）第１の座標系でのマイクロフォンアレイのローブ位置を第２の座標系でのローブ位置に変換し、第２の座標系でのローブ位置をカメラに送信し、（３）第１の座標系でのマイクロフォンアレイによって検出された話者位置を第２の座標系での話者位置に変換し、第２の座標系での話者位置をカメラに送信し、（４）それぞれの座標系での複数のマイクロフォンアレイからのマイクロフォンアレイ位置、ローブ位置、および話者位置を集約し、別の座標系に変換し、別の座標系でのマイクロフォンアレイ位置、ローブ位置、および話者位置をカメラに送信し、（５）変換後の座標系でのローブ位置および／または話者位置に基づいてカメラプリセットを生成し、またはカメラを調節するように設計されるシステムおよび方法を提供することによって前述の問題を解決することを対象とする。

【0007】

一実施形態では、方法が、マイクロフォンアレイを使用して、カメラからの、またはカメラの近くの音響トリガ（ａｃｏｕｓｔｉｃａｌｔｒｉｇｇｅｒ）に基づいて、第１の座標系でのカメラ位置を検出することと、マイクロフォンアレイを使用して、カメラ位置に基づいて、第１の座標系でのカメラ位置を第２の座標系でのマイクロフォンアレイ位置に変換することと、マイクロフォンアレイからカメラに、第２の座標系でのマイクロフォンアレイ位置を送信することとを含み得る。

【0008】

別の実施形態では、方法が、カメラに関する座標系での１つまたは複数のマイクロフォンローブ位置をカメラで受信することと、１つまたは複数のマイクロフォンローブ位置に関連する１つまたは複数のマイクロフォンローブのうちのどれがアクティブであるかを示すマイクロフォンローブ活動情報（ｍｉｃｒｏｐｈｏｎｅｌｏｂｅａｃｔｉｖｉｔｙｉｎｆｏｒｍａｔｉｏｎ）をカメラで受信することと、カメラを使用して、１つまたは複数のマイクロフォンローブ位置に基づいて、カメラに関する座標系での１つまたは複数のカメラプリセットを自動的に生成することと、カメラを使用して、１つまたは複数のカメラプリセットおよびマイクロフォンローブ活動情報に基づいて、１つまたは複数のカメラプリセットのアクティブなプリセットを決定することと、決定したアクティブなプリセットに基づいてカメラを制御することとを含み得る。

【0009】

別の実施形態では、方法が、カメラに関する座標系での１つまたは複数のマイクロフォンローブ位置をカメラで受信することと、カメラを使用して、１つまたは複数のマイクロフォンローブ位置に基づいて、カメラに関連する少なくとも１つのパラメータに対する調節を自動的に決定することと、決定した調節に基づいてカメラを制御することとを含み得る。

【0010】

別の実施形態では、システムが、カメラからの、またはカメラの近くの音響トリガに基づいて、第１の座標系でのカメラ位置を検出し、第１の座標系でのカメラ位置を第２の座標系でのマイクロフォンアレイ位置に変換し、第２の座標系でのマイクロフォンアレイ位置をカメラに送信するように構成されたマイクロフォンアレイを含み得る。システムはまた、第２の座標系でのマイクロフォンアレイ位置を受信し、マイクロフォンアレイ位置に基づいて、第２の座標系での１つまたは複数のカメラプリセットを自動的に生成し、１つまたは複数のカメラプリセットのうちの１つに基づいてカメラのパラメータを調節するように構成されているカメラをも含み得る。

【0011】

別の実施形態では、方法が、マイクロフォンアレイを使用して、第１の座標系でのマイクロフォンアレイのローブ位置を第２の座標系でのマイクロフォンアレイのローブ位置に変換することと、マイクロフォンアレイからカメラに、第２の座標系でのマイクロフォンアレイのローブ位置を送信して、カメラに関連する少なくとも１つのパラメータをカメラに調節させることとを含み得る。

【0012】

別の実施形態では、方法が、マイクロフォンアレイを使用して、話者に関連する音声に基づいて、第１の座標系での話者位置を決定することと、マイクロフォンアレイを使用して、第１の座標系での話者位置に基づいて、話者位置を第２の座標系での話者位置に変換することと、マイクロフォンアレイからカメラに、第２の座標系での話者位置を送信して、カメラに関連する少なくとも１つのパラメータをカメラに調節させることとを含み得る。

【0013】

別の実施形態では、システムが、第１の視聴覚装置と、第１の視聴覚装置と同じ場所に配置されない第２の視聴覚装置とを含み得る。第１の視聴覚装置は、第１の視聴覚装置に対する第１の座標系での第２の視聴覚装置の位置を決定し、第１の座標系での第２の視聴覚装置の位置を、第２の視聴覚装置に対する第２の座標系での第１の視聴覚装置の位置に変換するように構成され得る。

【0014】

別の実施形態では、方法が、第１の視聴覚装置を使用して、受信した音声に基づいて、第１の座標系での第２の視聴覚装置位置を決定することと、第２の視聴覚装置位置に基づいて、第１の座標系での第２の視聴覚装置位置を、第２の座標系での第１の視聴覚装置位置に変換することと、第１の視聴覚装置から第２の視聴覚装置に、第２の座標系での第１の装置位置を送信することとを含み得る。

【0015】

別の実施形態では、方法が、複数のカメラのそれぞれを使用して、複数のカメラのそれぞれの座標系でのマイクロフォン位置を検出することと、複数のカメラのそれぞれの座標系でのマイクロフォン位置を、共通座標系でのマイクロフォン位置に変換することと、共通座標系でのマイクロフォン位置に基づいて、複数のカメラのうちの１つまたは複数のパラメータを制御することとを含み得る。

【0016】

これらおよび他の実施形態、ならびに様々な置換および態様が、本発明の原理が利用され得る様々な方式を示す例示的実施形態を説明する、以下の詳細な説明および添付の図面から明らかとなり、より完全に理解されよう。

【図面の簡単な説明】

【0017】

【図1】いくつかの実施形態による、環境内の物体および話者の位置を検出し、座標系に変換するために利用され得る会議システムを含む物理的環境の例示的な図である。

【図2】いくつかの実施形態による、図１の会議システムと共に使用可能なシステムのブロック図である。

【図3】いくつかの実施形態による、音声活動の自動検出、ならびに環境内の物体および話者の位置の座標系への変換のために構成され、図１および２のシステムと共に使用可能なマイクロフォンアレイのブロック図である。

【図4】いくつかの実施形態による、図２および３のシステムを使用して、第１の座標系でのカメラ位置を決定し、第２の座標系でのマイクロフォンアレイ位置に変換し、マイクロフォンローブ位置を第２の座標系に変換するための動作を示すフローチャートである。

【図5】いくつかの実施形態による、図２および３のシステムを使用して、第１の座標系でのマイクロフォンアレイによって検出された話者位置を決定し、第２の座標系での話者位置に変換するための動作を示すフローチャートである。

【図6】いくつかの実施形態による、図２および３のシステムを使用して、カメラを使用して、座標系でのマイクロフォンアレイ位置およびローブ位置に基づいてカメラプリセットを生成するための動作を示すフローチャートである。

【図7】いくつかの実施形態による、図２および３のシステムを使用して、カメラを使用して、変換後の座標系でのマイクロフォンアレイ位置および話者位置に基づいてカメラプリセットを生成するための動作を示すフローチャートである。

【図8】いくつかの実施形態による、図２および３のシステムを使用して、変換後の座標系でのマイクロフォンアレイ位置および話者位置に基づいてカメラ調節を決定するための動作を示すフローチャートである。

【図9】いくつかの実施形態による、環境内の物体および話者の位置を検出し、座標系に変換するためにシステムが使用され得る、複数のマイクロフォンアレイおよびカメラを含む会議システムを含む物理的環境の例示的な図である。

【図10】いくつかの実施形態による、図９の会議システムと共に使用可能であり得る複数のマイクロフォンアレイを有するシステムのブロック図である。

【図11】いくつかの実施形態による、それぞれの座標系での複数のマイクロフォンアレイからのカメラ位置、ローブ位置、および話者位置を集積し、図１０のシステムと共に使用可能な座標系に変換するための動作を示すフローチャートである。

【図12】いくつかの実施形態による、図９の会議システムと共に使用可能な複数のカメラを有するシステムのブロック図である。

【図13】いくつかの実施形態による、利用するカメラを選択し、図１２のシステムと共に使用可能な、選択したカメラを調節するための動作を示すフローチャートである。

【図14】いくつかの実施形態による、第１の座標系でのマイクロフォンアレイ位置を決定し、第２の座標系でのカメラ位置に変換するための動作を示すフローチャートである。

【発明を実施するための形態】

【0018】

本明細書で説明されるシステムおよび方法は、環境内の物体および話者の位置を検出し、共通座標系に変換することによって、会議システムの構成および使用を改善し得る。たとえば、マイクロフォンアレイは、マイクロフォンアレイに関する座標系でのカメラの位置を検出し、カメラでより容易に使用可能な座標系、たとえばカメラに関する座標系でのマイクロフォンアレイの位置に変換し得る。別の例として、マイクロフォンアレイは、マイクロフォンアレイに関する座標系での環境内の話者の位置を検出し得る。マイクロフォンアレイはまた、マイクロフォンアレイに関する座標系での話者の位置を、カメラに関する座標系での話者の位置に変換し得る。別の例として、マイクロフォンアレイは、マイクロフォンアレイに関する座標系でのマイクロフォンアレイのローブの位置を、カメラに関する座標系でのローブの位置に変換し得る。

【0019】

このようにして、カメラは、カメラにとって理解可能で有用な座標系でのマイクロフォンアレイ、話者、および／またはマイクロフォンアレイローブの位置を受信し得る。本明細書で説明されるシステムおよび方法は、カメラとマイクロフォンアレイの位置が当初は互いに対して既知ではなく、たとえばカメラとマイクロフォンアレイが同じ場所に配置されない会議システムと共に使用するのに特に有用であり得る。

【0020】

カメラは、たとえば、話者および／またはマイクロフォンローブの位置に基づき得るカメラプリセットを生成するための基礎として、マイクロフォンアレイ、話者、および／またはマイクロフォンアレイローブの位置を利用し得る。カメラはまた、カメラによって取り込まれた画像およびビデオを移動し、ズーミングし、パニングし、フレーミングし、あるいは調節するために、マイクロフォンアレイ、話者、および／またはマイクロフォンアレイローブの位置を利用し得る。したがって、本明細書で説明されるシステムおよび方法は、カメラとマイクロフォンアレイとの間の距離および位置の測定など、通常は設置者またはインテグレータによって実施され得る手動測定を削減するために、会議システムの構成中に役立ち得る。本明細書で説明されるシステムおよび方法はまた、たとえばカメラがアクティブな話者の画像をより正確に取り込むことを可能にするために、会議システムの使用中に役立ち得る。したがって、設置者、インテグレータ、およびユーザによる時間および労力の量が削減され、会議システムの設置および使用に伴う満足感が向上し得る。

【0021】

図１は、本明細書で開示されるシステムおよび方法が使用され得る物理的環境１００の例示的な図である。具体的には、図１は、会議システムの様々な変換器および装置、ならびに他の物体を含む例示的会議室の斜視図を示す。図１は１つの潜在的な環境を示すが、本明細書で開示されるシステムおよび方法は、限定はしないがオフィス、ハドルルーム、映画館、アリーナ、音楽会場などを含む任意の適用可能な環境で利用され得ることを理解されたい。

【0022】

図１に示される環境１００内のシステムは、スピーカ１０２、マイクロフォンアレイ１０４、テーブルトップマイクロフォン１０６、ディスプレイ１０８、コンピューティング装置１１０、カメラ１１２などの様々な構成要素を含み得る。環境１００はまた、１人または複数の人１２０および／または他の物体（たとえば、楽器、電話機、タブレット、コンピュータ、ＨＶＡＣ機器など）をも含み得る。実施形態では、構成要素のうちの１つまたは複数は、デジタル信号プロセッサ、ワイヤレス受信機、ワイヤレストランシーバなどを含み得る。図１に示される構成要素は例示的なものに過ぎず、環境１００内の様々な構成要素の任意の数、タイプ、および配置が企図され、可能であることを理解されたい。

【0023】

変換器のタイプ（たとえば、マイクロフォンおよびスピーカ）および特定の環境内のその配置は、音源、聴取者の位置、物理空間要件、美学、部屋のレイアウト、ステージレイアウト、および／または他の考慮事項に依存し得る。たとえば、マイクロフォンが、マイクロフォン１０６など、音源の近くのテーブルまたは書見台上に配置され、または音源、たとえば出演者（ｐｅｒｆｏｒｍｅｒ）に取り付けられ得る。マイクロフォンはまた、たとえばマイクロフォンアレイ１０４を使用して、部屋全体などのより広いエリアから音を取り込むために頭上または壁に取り付けられ得る。同様に、会議の遠端からの音、事前記録された音声、ストリーミング音声など、環境１００内の聴取者に対して音を出すために、スピーカ１０２が壁または天井に配置され得る。マイクロフォンおよびスピーカは、特定の環境の必要に適合するように、様々なサイズ、形状因子、取付けオプション、および配線オプションに準拠し得る。

【0024】

通常、環境１００の会議室は、ローカル参加者が互いに、かつ／またはリモート参加者と意思疎通する会合（ｍｅｅｔｉｎｇ）のために使用され得る。したがって、マイクロフォンアレイ１０４および／またはテーブルトップマイクロフォン１０６は、環境１００内の音源からの音を検出し、取り込み得る。音源は、たとえば１人または複数の人間の話者１２０であり得る。一般的な状況では、人間の話者がテーブルの椅子に着席し得るが、音源の他の構成および配置が企図され、可能である。

【0025】

カメラ１１２は、システムが配置される環境１００の静止画像および／またはビデオを取り込み得る。いくつかの実施形態では、カメラ１１２はスタンドアロンカメラであり得、別の実施形態では、カメラ１１２は電子装置、たとえばスマートフォン、タブレットなどの構成要素であり得る。カメラ１１２は、所望の画像およびビデオを取り込むために物理的に移動およびズーミングし得るパンチルトズーム（ＰＴＺ）カメラであり得、または画像およびビデオを１つまたは複数の所望の部分にデジタルにクロッピングおよびズーミングする仮想ＰＴＺカメラであり得る。ディスプレイ１０８は、たとえばテレビジョンまたはコンピュータモニタであり得、会議のリモート参加者や他の画像またはビデオコンテンツなどの他の画像および／またはビデオを示し得る。実施形態では、ディスプレイ１０８はマイクロフォンおよび／またはスピーカを含み得る。

【0026】

図２は、図１の環境１００内に示される会議システムと共に使用可能なシステム２００のブロック図である。システム２００は、実施形態では、環境１００内の物体および話者の位置を検出し、カメラコントローラ２０６によって制御され得るカメラ２１２（たとえば、図１のカメラ１１２）で容易に使用可能な共通座標系に変換し得るマイクロフォンアレイ２０４（たとえば、図１のマイクロフォンアレイ１０４）を含み得る。カメラコントローラ２０６は、たとえばカメラ２１２を移動および／またはズーミングさせるように、カメラ２１２に適切な信号を供給し得る。カメラコントローラ２０６はまた、図６～７に関して以下でより詳細に説明されるように、カメラプリセットを生成するように構成され得る。いくつかの実施形態では、カメラコントローラ２０６とカメラ２１２は共に一体化され得る。システム２００の構成要素は、システム２００の他の構成要素とワイヤードおよび／またはワイヤレス通信し得る。実施形態では、環境１００内の物体および話者の位置の共通座標系への変換が、たとえばカメラコントローラ２０６、カメラ２１２、コンピューティング装置（たとえば、コンピューティング装置１１０）、リモートコンピューティング装置（たとえば、クラウドベースの装置）、および／または任意の他の適切な装置によって実施され得る。

【0027】

マイクロフォンアレイ２０４は、環境内の音源から音を検出し、取り込み得る。たとえば、図４のプロセス４００に関して以下でより詳細に説明される一実施形態では、マイクロフォンアレイ２０４は、カメラ２１２に関連する音を検出し、たとえばマイクロフォンアレイ２０４が座標系の原点である、マイクロフォンアレイ２０４に関する座標系でのカメラ２１２の位置を決定し得る。マイクロフォンアレイ２０４は、カメラ２１２の位置を、たとえばカメラ２１２が座標系の原点である、カメラ２１２に関する座標系でのマイクロフォンアレイ２０４の位置に変換し得る。カメラ２１２に関する座標系でのマイクロフォンアレイ２０４の位置は、マイクロフォンアレイ２０４からカメラコントローラ２０６および／またはカメラ２１２に送信され得る。たとえば、マイクロフォンアレイ２０４は、適切なアプリケーションプログラミングインターフェース（ＡＰＩ）を介してカメラコントローラ２０６および／またはカメラ２１２と通信し得る。

【0028】

実施形態では、座標系でのカメラ２１２の位置が、ローカル測位システム、会議システム構成および設計ソフトウェア、ならびに／あるいはカメラ２１２などの別の供給源から、マイクロフォンアレイ２０４によって受信され得る。そのような実施形態では、受信される座標系でのカメラ２１２の位置が、カメラ２１２に関する座標系でのマイクロフォンアレイ２０４の位置に変換され得る。

【0029】

マイクロフォンアレイ２０４は、環境内の特定の位置の音声を感知するように操向され得るローブを有する１つまたは複数のピックアップパターンを形成することができ得る。マイクロフォンアレイ２０４は、マイクロフォンアレイ２０４に関する座標系からカメラ２１２に関する座標系に、マイクロフォンアレイ２０４のローブ位置を変換し得る。カメラ２１２に関する座標系でのマイクロフォンアレイ２０４のローブ位置はまた、マイクロフォンアレイ２０４からカメラコントローラ２０６および／またはカメラ２１２に送信され得る。

【0030】

別の例として、図５に示されるプロセス５００に関して以下でより詳細に説明される一実施形態では、マイクロフォンアレイ２０４は、環境内の話者（または他の所望の音源）に関連する音を検出し、マイクロフォンアレイ２０４に関する座標系での話者の位置を決定し得る。マイクロフォンアレイ２０４は、話者、たとえば話者１２０の位置を、マイクロフォンアレイ２０４に関する座標系から、カメラ２１２に関する座標系での話者の位置に変換し得る。カメラ２１２に関する座標系での話者の位置は、マイクロフォンアレイ２０４からカメラコントローラ２０６および／またはカメラ２１２に送信され得る。

【0031】

実施形態では、マイクロフォンアレイ２０４とカメラコントローラ２０６は、カメラコントローラ２０６がマイクロフォンアレイ２０４の位置についてマイクロフォンアレイ２０４に照会することを可能にすること、マイクロフォンアレイ２０４がカメラコントローラ２０６に信号を送信することを可能にすること、および／またはカメラコントローラ２０６がマイクロフォンアレイ２０４に信号を送信することを可能にすることを含めて、適切なアプリケーションプログラミングインターフェース（ＡＰＩ）を介して通信し得る。カメラコントローラ２０６は、たとえば最適化されたカメラプリセットを生成して、より正確な話者のズーミング、パニング、および／またはフレーミングを可能にするために、カメラ２１２に関する座標系でのマイクロフォンアレイ２０４、ローブ、および／または話者の位置を利用し得る。

【0032】

システム２００の構成要素の一部またはすべてが、プロセッサおよびメモリを有する図１のコンピューティング装置１１０（たとえば、パーソナルコンピュータ（ＰＣ）、ラップトップ、タブレット、モバイル装置、スマートデバイス、シンクライアントなど）などの１つまたは複数のコンピュータによって、かつ／またはハードウェア（たとえば、ディスクリート論理回路、特定用途向け集積回路（ＡＳＩＣ）、プログラマブルゲートアレイ（ＰＧＡ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、デジタル信号プロセッサ（ＤＳＰ）、マイクロプロセッサなど）によって実行可能なソフトウェアを使用して実施され得る。たとえば、システム２００の一部またはすべての構成要素は、ディスクリート回路デバイスを使用して、かつ／またはメモリ（図示せず）内に記憶されたプログラムコードを実行する１つまたは複数のプロセッサ（たとえば、オーディオプロセッサおよび／またはデジタル信号プロセッサ）を使用して実施され得、プログラムコードは、たとえば図４～８で示される方法などの、本明細書で説明される１つまたは複数のプロセスまたは動作を実施するように構成される。したがって、実施形態では、システム２００は、図２に図示されていない１つまたは複数のプロセッサ、メモリデバイス、コンピューティング装置、および／または他のハードウェア構成要素を含み得る。

【0033】

図２に示される構成要素は例示的なものに過ぎず、システム２００の様々な構成要素の任意の数、タイプ、および配置が企図され、可能であることを理解されたい。たとえば、複数のマイクロフォンアレイ２０４、複数のカメラコントローラ２０６、および／または複数のカメラ２１２があり得る。

【0034】

図３は、環境内の音源からの音を検出し、環境内の物体および話者の位置を、カメラで容易に使用可能な共通座標系に変換するための、図２のシステム２００で使用可能な、図２のマイクロフォンアレイ２０４などのマイクロフォンアレイ３００のブロック図を示す。マイクロフォンアレイ３００は、たとえば任意の数のマイクロフォン素子３０２ａ、ｂ、ｃ、．．．、ｚｚを含み得、音源からの音が検出され、取り込まれ得るようにローブを有する１つまたは複数のピックアップパターンを形成することができ得る。マイクロフォンアレイ３００内のマイクロフォン素子３０２ａ、ｂ、ｃ、．．．、ｚｚのそれぞれは、音を検出し、音をアナログ音声信号に変換し得る。マイクロフォンアレイ３００はまた、マイクロフォン素子３０２ａ、ｂ、ｃ、．．．、ｚｚとワイヤードまたはワイヤレス通信している音声活動ローカライザ３５０と、音声活動ローカライザ３５０とワイヤードまたはワイヤレス通信している変換ユニット３６０と、マイクロフォン素子３０２ａ、ｂ、ｃ、．．．、ｚｚおよび音声活動ローカライザ３５０とワイヤードまたはワイヤレス通信しているビームフォーマ３７０をも含み得る。

【0035】

マイクロフォン素子３０２ａ、ｂ、ｃ、．．．、ｚｚは、いくつかの実施形態では、無指向性ピックアップパターンを有するそれぞれＭＥＭＳ（ｍｉｃｒｏ－ｅｌｅｃｔｒｉｃａｌｍｅｃｈａｎｉｃａｌｓｙｓｔｅｍ）マイクロフォンであり得る。別の実施形態では、マイクロフォン素子３０２ａ、ｂ、ｃ、．．．、ｚｚは、別のピックアップパターンを有し得、かつ／またはエレクトレットコンデンサマイクロフォン、ダイナミックマイクロフォン、リボンマイクロフォン、圧電マイクロフォン、および／または他のタイプのマイクロフォンであり得る。実施形態では、マイクロフォン素子３０２ａ、ｂ、ｃ、．．．、ｚｚは、１次元または多次元に配置され得る。

【0036】

アナログ－デジタル変換器、プロセッサ、および／または他の構成要素（図示せず）などのマイクロフォンアレイ３００内の他の構成要素が、アナログ音声信号を処理し、最終的に１つまたは複数のデジタル音声出力信号を生成し得る。デジタル音声出力信号は、音声を送信するための適切な規格および／または伝送プロトコルに準拠し得る。実施形態では、マイクロフォンアレイ３００内のマイクロフォン素子のそれぞれは、音を検出し、音をデジタル音声信号に変換し得る。

【0037】

ピックアップパターンのそれぞれに対応する、１つまたは複数のデジタル音声出力信号３９０ａ、ｂ、ｃ、．．．、ｚが生成され得る。ピックアップパターンは、１つまたは複数のローブ、たとえばメインローブ、サイドローブ、およびバックローブ、ならびに／あるいは１つまたは複数のヌルから構成され得る。マイクロフォンアレイ３００によって形成され得るピックアップパターンは、ビームフォーマ３７０などの、マイクロフォン素子と共に使用されるビームフォーマのタイプに依存し得る。たとえば、遅延和ビームフォーマ（ｄｅｌａｙａｎｄｓｕｍｂｅａｍｆｏｒｍｅｒ）が、そのフィルタ構造とマイクロフォン素子のレイアウト幾何形状とに基づいて周波数依存ピックアップパターンを形成し得る。別の例として、差動ビームフォーマ（ｄｉｆｆｅｒｅｎｔｉａｌｂｅａｍｆｏｒｍｅｒ）が、カーディオイド、サブカーディオイド、スーパーカーディオイド、ハイパーカーディオイド、または両指向性ピックアップパターンを形成し得る。

【0038】

音声活動ローカライザ３５０は、マイクロフォン素子３０２ａ、ｂ、ｃ、．．．、ｚｚからの音声信号に基づいて環境内の音声活動の位置を決定し得る。実施形態では、音声活動ローカライザ３５０は、ステアード応答パワー位相変換（Ｓｔｅｅｒｅｄ－ＲｅｓｐｏｎｓｅＰｏｗｅｒＰｈａｓｅＴｒａｎｓｆｏｒｍ（ＳＲＰ－ＰＨＡＴ））アルゴリズム、一般化相互相関位相変換（ＧｅｎｅｒａｌｉｚｅｄＣｒｏｓｓＣｏｒｒｅｌａｔｉｏｎＰｈａｓｅＴｒａｎｓｆｏｒｍ（ＧＣＣ－ＰＨＡＴ））アルゴリズム、到来時間（ＴＯＡ）ベースのアルゴリズム、到来時間差（ｔｉｍｅｄｉｆｆｅｒｅｎｃｅｏｆａｒｒｉｖａｌ，ＴＤＯＡ）ベースのアルゴリズム、または別の適切な音源ローカライゼーションアルゴリズム（ｓｏｕｎｄｓｏｕｒｃｅｌｏｃａｌｉｚａｔｉｏｎａｌｇｏｒｉｔｈｍ）を利用し得る。検出される音声活動は、人間の話者や、カメラ、たとえばカメラ２１２からの、またはカメラの近くの音響トリガなどの音源を含み得る。音声活動の位置は、デカルト座標（すなわち、ｘ、ｙ、ｚ）、または球座標（すなわち、半径方向の距離／大きさｒ、仰角θ（シータ）、方位角φ（ファイ））などでの、マイクロフォンアレイ３００の位置に対する３次元座標のセットによって示され得る。必要に応じて、デカルト座標は容易に球座標に変換され得、逆も同様であることに留意されたい。実施形態では、音声活動ローカライザ３５０はマイクロフォンアレイ３００内に含まれ得、別の構成要素内に含まれ得、またはスタンドアロン構成要素であり得る。

【0039】

変換ユニット３６０は、音声活動ローカライザ３５０から音声活動の位置を受信し、マイクロフォンアレイ３００に対する座標系から別の座標系に、音声活動の位置を変換し得る。たとえば、音声活動の位置は、変換ユニット３６０によって、カメラ、たとえばカメラ２１２に対する座標系での音声活動の位置に変換され得る。実施形態では、（カメラからの、またはカメラの近くの検出された音響トリガから決定した）マイクロフォンアレイ３００に対する座標系でのカメラの位置が、変換ユニット３６０によって、カメラに対する座標系でのマイクロフォンアレイ３００の位置に変換され得る。

【0040】

変換ユニット３６０はまた、マイクロフォンアレイ３００に対する座標系でのマイクロフォンアレイ３００のローブの位置を、別の座標系に変換するように構成され得る。変換ユニット３６０は、別の座標系に変換された音声活動および／またはローブの位置を、カメラコントローラ２０６および／またはカメラ２１２などに送信し得る。

【0041】

図４は、マイクロフォンアレイ、たとえばマイクロフォンアレイ３００が、たとえばマイクロフォンアレイに対する第１の座標系でのカメラ位置を決定し、たとえばカメラに対する第２の座標系でのマイクロフォンアレイ位置に変換するためのプロセス４００を示す。プロセス４００はまた、マイクロフォンアレイがマイクロフォンローブ位置を第２の座標系に変換することも含み得る。プロセス４００の結果、第２の座標系でのマイクロフォンアレイ位置および／またはマイクロフォンローブ位置が、マイクロフォンアレイ３００からカメラ２１２または別の構成要素に送信され得る。たとえば、カメラ２１２は、図６のプロセス６００に関して以下でより詳細に説明されるように、カメラ２１２に対する座標系でのマイクロフォンアレイ位置および／またはマイクロフォンローブ位置を利用して、カメラプリセットを生成し、かつ／または（たとえば、ローブによってカバーされる位置に対してズームインするために）カメラ２１２に関連するパラメータを調節し得る。別の例として、カメラ２１２に対する座標系でのマイクロフォンアレイ位置および／またはマイクロフォンローブ位置が、たとえば部屋のコンピュータ支援設計表現を生成する、ルームマッピングアプリケーションなどのルームインテリジェンス使用事例を支援するために利用され得る。実施形態では、プロセス４００は、部屋内の物体および装置の位置を決定するために利用され得る。

【0042】

ステップ４０２では、カメラ２１２からの、またはカメラ２１２の近くの音響トリガが、マイクロフォン素子３０２ａ、ｂ、ｃ、．．．、ｚｚによって検出されることなどによって、マイクロフォンアレイ３００で受信され得る。カメラ２１２からの、またはカメラ２１２の近くの音響トリガは、カメラ２１２の位置を決定するために使用されることが意図される１つまたは複数の音を含み得る。たとえば、マイクロフォンアレイ３００がカメラ２１２の位置を決定することが望ましいとき、カメラ２１２の前で、フィンガースナップなどの音が鳴らされ得る。別の例として、マイクロフォンアレイ３００がカメラ２１２の位置を自動的に決定することが望ましいとき、カメラ２１２は、既知の音調シーケンス（ｔｏｎａｌｓｅｑｕｅｎｃｅ）などの識別音（ｉｄｅｎｔｉｆｙｉｎｇｓｏｕｎｄ）を出すように構成され得る。実施形態では、カメラ２１２の位置を決定することが望ましいとき、マイクロフォンアレイ３００は、ユーザ（たとえば、設置者またはインテグレータ）によって特定のモードに置かれ得る。そのようなモードに置かれるとき、マイクロフォンアレイ３００は、次に検出される音が、カメラ２１２の位置を決定する目的のための、カメラ２１２からの、またはカメラ２１２の近くの音響トリガであるはずであると予想する。

【0043】

ステップ４０４では、音声活動ローカライザ３５０が、ステップ４０２で受信された、カメラ２１２からの、またはカメラ２１２の近くの音響トリガに基づいて、カメラ２１２の位置を決定し得る。実施形態では、音声活動ローカライザ３５０は、カメラ２１２からの、またはカメラ２１２の近くの受信した音響トリガに対して音声ローカライゼーションアルゴリズムを実行し、カメラ２１２の位置を決定し得る。ステップ４０４で決定されるカメラ２１２の位置は、マイクロフォンアレイ３００に対する座標系でのものであり得る。音声活動ローカライザ３５０は、変換ユニット３６０にカメラ２１２の位置を送信し得る。

【0044】

ステップ４０６では、変換ユニット３６０が、マイクロフォンアレイ３００に対する座標系でのカメラ２１２の位置を、カメラ２１２に対する座標系でのマイクロフォンアレイ３００の位置に変換し得る。ステップ４０８では、変換ユニット３６０は、カメラ２１２に対する座標系でのマイクロフォンアレイ３００の位置をカメラ２１２に送信し得る。

【0045】

実施形態では、マイクロフォンアレイ３００のローブの位置も、変換ユニット３６０によってカメラ２１２に対する座標系に変換され得る。マイクロフォンアレイ３００のローブの変換後の位置が、カメラ２１２に送信され得る。ステップ４１０では、いくつかの実施形態では、マイクロフォンアレイ３００のローブの位置をカメラ２１２に対する座標系に変換するために、マイクロフォンアレイ３００およびマイクロフォン素子３０２ａ、ｂ、ｃ、．．．、ｚｚの回転が決定される。

【0046】

ステップ４１２では、変換ユニット３６０が、マイクロフォンアレイ３００に対する座標系でのマイクロフォンアレイ３００のローブの位置を、カメラ２１２に対する座標系でのマイクロフォンアレイ３００のローブの位置に変換し得る。いくつかの実施形態では、マイクロフォンアレイ３００のローブの位置の、カメラ２１２に対する座標系への変換は、ステップ４１０で決定されたマイクロフォンアレイ３００の回転に基づき得る。そのような実施形態では、ステップ４１２で変換を実施するときにローブの位置を補正するために、マイクロフォンアレイ３００の回転が考慮に入れられ得る。別の実施形態では、マイクロフォンアレイ３００のローブの位置の、カメラ２１２に対する座標系への変換は、マイクロフォンアレイ３００の回転に基づかないことがある。

【0047】

いくつかの実施形態では、現在アクティブであるマイクロフォンアレイ３００のローブの位置が、カメラ２１２に対する座標系に変換され得、しかし一方別の実施形態では、マイクロフォンアレイ３００のすべてのローブの位置が、カメラ２１２に対する座標系に変換され得る。ステップ４１４では、変換ユニット３６０が、カメラ２１２に対する座標系での、ステップ４１２で生成されたマイクロフォンアレイ３００のローブの位置をカメラ２１２に送信し得る。

【0048】

図１４は、カメラ、たとえばカメラ２１２が、たとえばカメラに対する、第１の座標系でのマイクロフォンアレイ位置を決定し、たとえばマイクロフォンアレイに対する、第２の座標系でのカメラ位置に変換するためのプロセス１４００を示す。プロセス１４００の結果、第２の座標系でのカメラ位置が、カメラ２１２からマイクロフォンアレイ３００または別の構成要素に送信され得る。たとえば、マイクロフォンアレイ３００は、カメラ位置を利用して、前述のプロセス４００を使用して決定された可能性のあるカメラ２１２の位置の精度を改善し得る。

【0049】

ステップ１４０２では、カメラ２１２が、マイクロフォンアレイ３００の中心に向けてなど、マイクロフォンアレイ３００に向くようにされ得る。たとえば、ユーザ、設置者、インテグレータなどが、カメラコントローラ２０６などを介して、ステップ１４０２でカメラ２１２をマイクロフォンアレイ３００に向くようにし得る。ステップ１４０４では、カメラ２１２は、マイクロフォンアレイ３００の位置を、カメラ２１２に対する座標系の原点として設定し得る。

【0050】

ステップ１４０６では、カメラ２１２に対する座標系でのマイクロフォンアレイ３００の位置（すなわち、カメラ２１２に対する座標系の原点）が、カメラ２１２によって、マイクロフォンアレイ３００に対する座標系でのカメラ２１２の位置に変換され得る。ステップ１４０８では、カメラ２１２が、マイクロフォンアレイ３００に対する座標系でのカメラ２１２の位置をマイクロフォンアレイ３００に送信し得る。

【0051】

ステップ１４０８で受信された、マイクロフォンアレイ３００に対する座標系でのカメラ２１２の位置に基づいて、マイクロフォンアレイ３００は、（以下で説明されるプロセス５００でのステップ５０６などで）マイクロフォンアレイ３００に対する座標系での話者の位置を、カメラ２１２に対する座標系での話者の位置により正確に変換することができ得る。マイクロフォンアレイ３００は、カメラ２１２に対する座標系の原点（すなわち、マイクロフォンアレイ３００自体の位置）と、さらにはマイクロフォンアレイ３００に対する座標系でのカメラ２１２の位置をどちらも認識しているので、この話者座標の変換が、プロセス１４００を使用することによってより精密となるように改善され得る。

【0052】

図５は、マイクロフォンアレイ、たとえばマイクロフォンアレイ３００が、たとえばマイクロフォンアレイに対する、第１の座標系での話者位置を決定し、たとえばカメラに対する、第２の座標系での話者位置に変換するためのプロセス５００を示す。プロセス５００の結果、変換後の話者位置が、マイクロフォンアレイ３００からカメラ２１２または別の構成要素に送信され得る。たとえば、カメラ２１２は、図７のプロセス７００に関して以下でより詳細に説明されるように、カメラ２１２に対する座標系での変換後の話者位置を利用して、カメラプリセットを生成し得る。別の例として、カメラ２１２は、図８のプロセス８００に関して以下でより詳細に説明されるように、カメラ２１２に対する座標系での変換後の話者位置を利用して、カメラ２１２に関連するパラメータを調節し（たとえば、環境内のアクティブな話者にズームインし）得る。

【0053】

実施形態では、プロセス５００を使用して、環境内の他の所望の音源および物体の位置が決定され得る。たとえば、会議室内の人、テーブル、椅子、および電子機器の位置が、そのような物体に関連する音声に基づいてマッピングされ得る。環境内の物体の位置が解析され、たとえば部屋の使用および占有情報が決定され得る。

【0054】

ステップ５０２では、環境内の話者に関連する音声（または他の所望の音）が、マイクロフォン素子３０２ａ、ｂ、ｃ、．．．、ｚｚによって検出されることなどによって、マイクロフォンアレイ３００で受信され得る。ステップ５０４では、音声活動ローカライザ３５０が、ステップ５０２で受信された話者に関連する音声に基づいて、話者の位置を決定し得る。実施形態では、音声活動ローカライザ３５０は、話者に関連する受信された音声に対して音声ローカライゼーションアルゴリズムを実行し、話者の位置を決定し得る。ステップ５０４で決定される話者の位置は、マイクロフォンアレイ３００に対する座標系でのものであり得る。音声活動ローカライザ３５０は、変換ユニット３６０に話者の位置を送信し得る。

【0055】

ステップ５０６では、変換ユニット３６０は、マイクロフォンアレイ３００に対する座標系での話者の位置を、カメラ２１２に対する座標系での話者の位置に変換し得る。実施形態では、ステップ５０６で変換を実施するときに話者の位置を補正するために、マイクロフォンアレイ３００の回転が考慮に入れられ得る。ステップ５０８では、変換ユニット３６０は、カメラ２１２に対する座標系での話者の位置をカメラ２１２に送信し得る。

【0056】

図６は、カメラ、たとえばカメラ２１２が、カメラに対する座標系でのマイクロフォンアレイ位置および／またはローブ位置に基づいてカメラプリセットを生成するためのプロセス６００を示す。実施形態では、マイクロフォンアレイ３００は、マイクロフォンアレイ３００およびマイクロフォンアレイ３００のローブの位置を、マイクロフォンアレイ３００に対する座標系から、カメラ２１２に対する座標系に変換していることがある。

【0057】

カメラプリセットは、カメラ２１２が位置する環境の一部を取り込む特定の位置および／またはズーム設定のビューなどの、カメラ２１２の特定のビューに対応し得る。実施形態では、カメラプリセットは、カメラ２１２によって取り込まれる画像および／またはビデオのアングル、チルト、ズーム、および／またはフレーミングについての設定を含み得る。たとえば、プロセス６００によって生成されるカメラプリセットは、マイクロフォンアレイ３００のローブの位置のうちの１つまたは複数の画像および／またはビデオを取り込むように設定され得る。こうした位置は、話者および他の望ましい音源が環境内で配置されると予想される場所であり得るからである。

【0058】

ステップ６０２では、カメラ２１２に対する座標系でのマイクロフォンアレイ３００の位置が、マイクロフォンアレイ３００などからカメラ２１２で受信され得る。ステップ６０４では、カメラ２１２は、マイクロフォンアレイ３００のローブの位置と、マイクロフォンアレイ３００のローブに関する活動情報とをマイクロフォンアレイ３００から受信し得る。ローブ活動情報は、マイクロフォンアレイ３００のローブのうちのどれがアクティブである（たとえば、音声活動を有する）かを示し得、ローブがゲートされる（たとえば、抑制される）か否かを示し得る。

【0059】

ステップ６０６では、カメラ２１２は、ステップ６０２および６０４で受信された、マイクロフォンアレイ３００の位置およびマイクロフォンアレイ３００のローブの位置に基づいて、１つまたは複数のカメラプリセットを生成し得る。カメラプリセットは、たとえば、ＰＴＺカメラのパン、チルト、およびズームパラメータについての値、ならびに／あるいは仮想ＰＴＺカメラによって取り込まれる画像およびビデオのクロッピングおよびズーミングについての値を含み得る。ステップ６０８では、カメラ２１２は、ステップ４０４で受信されたローブ活動情報に基づいて、画像およびビデオを取り込むためにどのカメラプリセットを利用するかを決定し得る。具体的には、ローブ活動情報は、どのローブがアクティブであるかを示し得、それは、話者および他の望ましい音源が検出されたローブを含み得る。たとえば、カメラ２１２は、（ローブ活動情報から導出された）アクティブなローブについてのカメラプリセットを使用し、したがってその位置で所望の音源の画像および／またはビデオを取り込み得る。

【0060】

図７は、カメラ、たとえばカメラ２１２が、カメラに対する座標系でのマイクロフォンアレイ位置および話者位置に基づいてカメラプリセットを生成するためのプロセス７００を示す。ローブの位置を利用することに加えて、またはその代わりに、いくつかのシナリオでは、カメラが話者の位置を取得して、たとえば話者を個々にフレーミングし、かつ／または話者のクローズアップを取得するために利用することも有益であり得る。実施形態では、マイクロフォンアレイ３００は、マイクロフォンアレイ３００および話者の位置を、マイクロフォンアレイ３００に対する座標系から、カメラ２１２に対する座標系に変換していることがある。カメラプリセットは、カメラ２１２が位置する環境の一部を取り込む特定の位置および／またはズーム設定のビューなどの、カメラ２１２の特定のビューに対応し得る。たとえば、プロセス７００によって生成されるカメラプリセットは、マイクロフォンアレイ３００によって検出された話者および他の望ましい音源の位置のうちの１つまたは複数の画像および／またはビデオを取り込むように設定され得る。

【0061】

ステップ７０２では、カメラ２１２に対する座標系でのマイクロフォンアレイ３００の位置が、マイクロフォンアレイ３００などからカメラ２１２で受信され得る。ステップ７０４では、カメラ２１２に対する座標系での話者の位置が、マイクロフォンアレイ３００からカメラ２１２で受信され得る。ステップ７０６では、カメラ２１２は、マイクロフォンアレイ３００の位置と、マイクロフォンアレイ３００によって検出された話者の位置とに基づいて、１つまたは複数のカメラプリセットを生成し得る。カメラ２１２は、カメラプリセットを使用して、アクティブな話者の画像およびビデオを取り込むことに進み得る。環境内に複数のカメラがある実施形態では、最新の話者の位置の画像およびビデオが、ステップ７０４で受信された話者の位置によって示される最新の話者の位置に基づいて、カメラ２１２によって取り込まれ得る。

【0062】

図８は、カメラ、たとえばカメラ２１２が、カメラに対する座標系でのマイクロフォンアレイ位置および話者位置に基づいて、カメラに関連するパラメータに対する調節を決定するためのプロセス８００を示す。実施形態では、カメラのパラメータが、話者の位置に基づいて、カメラによって取り込まれる画像および／またはビデオを変更して、たとえば話者を個々にフレーミングし、かつ／または話者のクローズアップを取得するように調節され得る。実施形態では、マイクロフォンアレイ３００は、マイクロフォンアレイ３００および話者の位置を、マイクロフォンアレイ３００に対する座標系から、カメラ２１２に対する座標系に変換していることがある。カメラに関連するパラメータに対する調節は、たとえば、画像および／またはビデオのアングル、チルト、ズーム、またはフレーミングに対する調節を含み得る。

【0063】

ステップ８０２では、カメラ２１２に対する座標系でのマイクロフォンアレイ３００の位置が、マイクロフォンアレイ３００などからカメラ２１２で受信され得る。ステップ８０４では、カメラ２１２に対する座標系での話者の位置が、マイクロフォンアレイ３００からカメラ２１２で受信され得る。ステップ８０６では、カメラ２１２は、マイクロフォンアレイ３００によって検出されたマイクロフォンアレイ３００の位置および話者の位置に基づいて、カメラに関連するパラメータに対する１つまたは複数の調節を生成し得る。カメラ２１２は、カメラのパラメータを制御および調節して、カメラ２１２によって取り込まれる画像および／またはビデオを変更することに進み得る。たとえば、カメラ２１２は、カメラ２１２によって取り込まれる画像および／またはビデオをクロッピングおよびズーミングして、話者のクローズアップを得るように制御され得る。

【0064】

図９は、本明細書で開示されるシステムおよび方法が使用され得る物理的環境９００の例示的な図である。具体的には、図９は、会議システムの様々な変換器および装置、ならびに他の物体を含む例示的会議室の斜視図を示す。図９は１つの潜在的な環境を示すが、本明細書で開示されるシステムおよび方法は、限定はしないがオフィス、ハドルルーム、映画館、アリーナ、音楽会場などを含む任意の適用可能な環境で利用され得ることに留意されたい。環境９００は、スピーカ９０２、複数のマイクロフォンアレイ９０４、テーブルトップマイクロフォン９０６、ディスプレイ９０８、コンピューティング装置９１０、および複数のカメラ９１２を含み得る。環境９００はまた、１人または複数の人９２０および／または他の物体（たとえば、楽器、電話機、タブレット、コンピュータ、ＨＶＡＣ機器など）をも含み得る。実施形態では、構成要素のうちの１つまたは複数は、デジタル信号プロセッサ、ワイヤレス受信機、ワイヤレストランシーバなどを含み得る。

【0065】

図９に示される構成要素は例示的なものに過ぎず、環境９００内の様々な構成要素の任意の数、タイプ、および配置が企図され、可能であることを理解されたい。環境９００は、複数のマイクロフォンアレイ９０４および複数のカメラ９１２があることを除いて、前述の図１の環境１００と同様であり得る。簡単のために、環境９００内に示される他の構成要素の機能の説明は、ここでは繰り返されない。

【0066】

図９に示される環境９００は、天井に配置されたマイクロフォンアレイ９０４と、壁に配置された２つのマイクロフォンアレイ９０４とを含み得る。複数のマイクロフォンアレイ９０４の使用により、環境９００内の音源からの音の感知および取り込みが改善され得る。環境９００はまた、正面に配置されたカメラ９１２と、壁に配置された２つのカメラとを含み得る。複数のカメラ９１２の使用により、環境９００のより多くの、多様なタイプの画像および／またはビデオの取り込みが可能となり得る。たとえば、正面に配置されたカメラ９１２が、環境９００のより広いビューを取り込むために利用され得、壁に配置されたカメラ９１２が、環境内の話者のクローズアップを取り込むために利用され得る。

【0067】

図１０は、図９の環境９００内に示される会議システムと共に使用可能なシステム１０００のブロック図を示す。システム１０００は、実施形態では、環境９００内の物体および話者の位置を検出し得る複数のマイクロフォンアレイ１００４ａ、．．．、ｚ（たとえば、図９のマイクロフォンアレイ９０４）、ならびに位置を受信し、カメラコントローラ１００６によって制御され得るカメラ１０１２（たとえば、図９のカメラ９１２）で容易に使用可能な共通座標系に位置を変換し得るアグリゲータユニット１００５を含み得る。アグリゲータユニット１００５は、カメラコントローラ１００６および／またはカメラ１０１２に変換後の位置を供給し得る。実施形態では、マイクロフォンアレイ１００４ａ、．．．、ｚのうちの１つはアグリゲータユニットとして働き得る。カメラコントローラ１００６は、カメラ１０１２に適切な信号を供給して、たとえばカメラ１０１２を移動および／またはズーミングさせ得る。いくつかの実施形態では、カメラコントローラ１００６とカメラ１０１２は共に一体化され得る。システム１０００の構成要素は、システム１０００の他の構成要素とワイヤードおよび／またはワイヤレス通信し得る。

【0068】

各マイクロフォンアレイ１００４ａ、．．．、ｚは、環境内の音源からの音を検出し、取り込み得る。たとえば、各マイクロフォンアレイ１００４ａ、．．．、ｚは、カメラ１０１２に関連する音を検出し、各マイクロフォンアレイ１００４ａ、．．．、ｚ自体に関する座標系でのカメラ１０１２の位置を決定し得、たとえば、各マイクロフォンアレイ１００４ａ、．．．、ｚは、それぞれの座標系の原点である。各マイクロフォンアレイ１００４ａ、．．．ｚは、それぞれの座標系でのカメラ１０１２の位置をアグリゲータユニット１００５に送信し得る。各マイクロフォンアレイ１００４ａ、．．．ｚはまた、それぞれの座標系でのそのローブの位置をアグリゲータユニット１００５に送信し得る。

【0069】

別の例として、各マイクロフォンアレイ１００４ａ、．．．、ｚは、環境内の話者（または他の所望の音源）に関連する音を検出し、それぞれの座標系での話者の位置を決定し得る。各マイクロフォンアレイ１００４ａ、．．．、ｚは、それぞれの座標系での話者の位置をアグリゲータユニット１００５に送信し得る。

【0070】

したがって、アグリゲータユニット１００５は、各マイクロフォンアレイ１００４ａ、．．．、ｚから、（１）カメラ１０１２の位置、（２）各マイクロフォンアレイ１００４ａ、．．．ｚのローブ位置、および／または（３）話者の位置を受信し得る。アグリゲータユニット１００５によって受信される位置は、各マイクロフォンアレイ１００４ａ、．．．ｚのそれぞれの座標系でのものであり得る。アグリゲータユニット１００５は、カメラ１０１２の位置を、（それぞれの座標系での）各マイクロフォンアレイ１００４ａ、．．．、ｚから、カメラ１０１２に関する座標系での各マイクロフォンアレイ１００４ａ、．．．、ｚの位置に変換し得る。アグリゲータユニット１００５はまた、ローブおよび話者の位置を、カメラ１０１２に関する座標系に変換し得る。アグリゲータユニット１００５は、適切なアプリケーションプログラミングインターフェース（ＡＰＩ）を介する照会などに応答して、カメラコントローラ１００６および／またはカメラ１０１２に変換後の位置を送信し得る。カメラコントローラ１００６は、たとえば、最適化されたカメラプリセットを生成して、より正確な話者のズーミング、パニング、および／またはフレーミングを可能にするために、カメラ１０１２に関する座標系でのマイクロフォンアレイ１００４ａ、．．．、ｚ、ローブ、および／または話者の位置を利用し得る。

【0071】

図１１は、それぞれの座標系での複数のマイクロフォンアレイからのカメラ、ローブ位置、および話者位置を集約し、共通座標系に変換するためのプロセス１１００を示す。実施形態では、プロセス１１００は、複数のマイクロフォンアレイからカメラ位置、ローブ位置、および話者位置を収集するアグリゲータユニット（たとえば、アグリゲータユニット１００５）によって実施され得る。別の実施形態では、プロセス１１００が、他のマイクロフォンアレイからカメラ位置、ローブ位置、および話者位置を収集するために、マイクロフォンアレイのうちの１つによって実施され得る。

【0072】

（１）カメラ、（２）各マイクロフォンアレイのローブ、および（３）各マイクロフォンアレイによって検出された話者の位置は、それぞれのマイクロフォンアレイに対する座標系でのものであり得る。プロセス１１００は、それぞれのマイクロフォンアレイの座標系から、カメラに対する座標系などの共通座標系に位置を変換し得る。ステップ１１０２では、カメラ、ローブ、および／または話者の位置、ならびにたとえばマイクロフォンアレイのどのローブがアクティブであるかを示すローブ活動情報が、マイクロフォンアレイのそれぞれから受信され得る。

【0073】

ステップ１１０４では、カメラ、ローブ、および／または話者の位置が、それぞれのマイクロフォンアレイに対する座標系から、カメラに対する座標系に変換され得る。具体的には、それぞれのマイクロフォンアレイに対する座標系でのカメラの位置が、カメラに関する各マイクロフォンアレイの位置に変換され得る。ローブおよび話者の位置が、それぞれのマイクロフォンアレイに対する座標系から、カメラに対する座標系に変換され得る。ステップ１１０６では、カメラ２１２に対する座標系でのマイクロフォンアレイ、ローブ、および話者の位置が、カメラ２１２に送信され得る。ローブ活動情報も、ステップ１１０６でカメラ２１２に送信され得る。

【0074】

図１２は、図９の環境９００内に示される会議システムと共に使用可能なシステム１２００のブロック図を示す。システム１２００は、環境９００内の物体および話者の位置を検出し、１つまたは複数のカメラ１２１２ａ、．．．ｚ（たとえば、図９のカメラ９１２）で容易に使用可能な共通座標系に変換し得るマイクロフォンアレイ１２０４（たとえば、図９のマイクロフォンアレイ９０４）を含み得る。カメラ１２１２ａ、．．．、ｚは、環境９００の画像および／またはビデオを取り込み得る。

【0075】

カメラコントローラ１２０６は、マイクロフォンアレイ１２０４、マイクロフォンアレイ１２０４のローブ、および話者の位置を受信し得、位置は、マイクロフォンアレイ１２０４によって共通座標系に変換されている。カメラコントローラ１２０６は、特定の位置、たとえばアクティブな話者が配置される場所の画像および／またはビデオを取り込むためにカメラ１２１２ａ、．．．、ｚのうちのどれを利用するかを選択し得る。カメラコントローラ１２０６による、利用するカメラ１２１２ａ、．．．、ｚの選択は、マイクロフォンアレイ１２０４、マイクロフォンアレイ１２０４のローブ、および話者の受信された位置のうちの１つまたは複数に基づき得る。カメラコントローラ１２０６はまた、適切な信号をカメラ１２１２ａ、．．．、ｚに供給して、たとえばカメラ１２１２ａ、．．．、ｚを移動および／またはズーミングさせ得る。システム１２００の構成要素は、システム１２００の他の構成要素とワイヤードおよび／またはワイヤレス通信し得る。

【0076】

図１３は、カメラコントローラ、たとえばカメラコントローラ１２０６が、カメラ、たとえばカメラ１２１２ａ、．．．、ｚを選択し、共通座標系でのマイクロフォンアレイ位置、ローブ位置、および／または話者位置に基づいて、カメラに関連するパラメータに対する調節を決定するためのプロセス１３００を示す。カメラコントローラ１２０６はまた、マイクロフォンアレイ１２０４からのローブ活動情報を利用し得る。カメラに関連するパラメータに対する調節は、たとえば、画像および／またはビデオのアングル、チルト、ズーム、またはフレーミングに対する調節を含み得る。

【0077】

ステップ１３０２では、カメラコントローラ１２０６は、マイクロフォンアレイ１２０４の位置、マイクロフォンアレイ１２０４のローブの位置、および／またはマイクロフォンアレイ１２０４によって検出された話者の位置のうちの１つまたは複数を受信し得る。ローブ活動情報も、ステップ１３０２でカメラコントローラ１２０６によって受信され得る。ステップ１３０２で受信された位置は、カメラ１２１２ａ、．．．、ｚのすべてによって使用可能である共通座標系でのものであり得る。たとえば、共通座標系は、カメラ１２１２ａ、．．．、ｚのうちの１つ（たとえば、部屋の正面のカメラ）に対するものであり得、または部屋の特定の部分（たとえば、部屋のコーナ）に対するものであり得る。

【0078】

ステップ１３０４では、カメラコントローラ１２０６は、ステップ１３０２で受信された位置および／またはローブ活動情報に基づいて、利用するカメラ１２１２ａ、．．．、ｚのうちの１つを選択し得る。たとえば、選択されるカメラ１２１２ａ、．．．、ｚは、アクティブな話者に最も近いカメラ１２１２ａ、．．．、ｚ、アクティブな話者に対して既にズームインされているカメラ１２１２ａ、．．．、ｚ、またはアクティブな話者の顔を取り込むために最良に利用され得るカメラ１２１２ａ、．．．、ｚであり得る。ステップ１３０６では、カメラコントローラ１２０６は、ステップ１３０２で受信された位置および／またはローブ活動情報に基づいて、ステップ１３０４で選択されたカメラに対する１つまたは複数の調節を生成し得る。カメラコントローラ１２０６は、選択されたカメラ１２１２ａ、．．．、ｚのパラメータを制御および調節して、カメラ１２１２ａ、．．．ｚによって取り込まれた画像および／またはビデオを変更することに進み得る。

【0079】

実施形態では、カメラ１２１２ａ、．．．、ｚのうちの１つまたは複数は、マイクロフォンアレイ１２０４を検出し、カメラ１２１２ａ、．．．、ｚのそれぞれに関する座標系でのマイクロフォンアレイ１２０４の位置を決定し得る。たとえば、カメラ１２１２ａ、．．．、ｚは、画像認識技法、人工知能技法、および／または視覚的標識もしくはマーカを利用して、マイクロフォンアレイ１２０４の位置を検出し得る。それぞれのカメラ座標系でのマイクロフォンアレイ１２０４の位置に基づいて、それぞれのカメラ座標系でのマイクロフォンアレイ１２０４の位置を、カメラ１２１２ａ、．．．、ｚのすべてにとって既知の共通座標系でのマイクロフォンアレイ１２０４の位置に変換することなどによって、マイクロフォンアレイ１２０４の位置が決定され得る。カメラ１２１２ａ、．．．、ｚのうちの１つまたは複数のパラメータが、共通座標系でのマイクロフォンアレイ１２０４の位置に基づいて、所望の画像および／またはビデオを取り込むように調節および制御され得る。

【0080】

本明細書での説明は、本発明の原理に従って本発明の１つまたは複数の特定の実施形態を説明し、図示し、例示する。この説明は、本明細書で説明される実施形態に本発明を限定するために与えられるのではなく、本発明の原理を当業者が理解することを可能にし、その理解と共に、本発明の原理を適用して、本明細書で説明される実施形態だけではなく、こうした原理に従って思い浮かび得る他の実施形態も実施することができるように本発明の原理を説明し、教示するために与えられる。本発明の範囲は、文字通りに、または均等論の下で添付の特許請求の範囲の範囲内に含まれ得るようなすべての実施形態を包含するものとする。

【0081】

説明および図面では、同様の、またはほぼ同様の要素が同一の参照番号が付けられ得ることに留意されたい。しかしながら、時には、たとえば異なる番号付けがより明快な説明を促進するケースなどで、こうした要素に異なる番号が付けられ得る。さらに、本明細書で説明される図面は、必ずしも原寸に比例せず、ある場合には、ある特徴をより明確に示すために比率が誇張されていることがある。そのような番号付けおよび図面の慣行は、基礎となる実質的な目的を必ずしも含意するわけではない。前述のように、本明細書は、全体として理解され、本明細書で教示され、当業者に理解される本発明の原理に従って解釈されるものとする。

【0082】

任意のプロセス説明または図でのブロックは、プロセスでの特定の論理機能またはステップを実施するための１つまたは複数の実行可能命令を含むモジュール、セグメント、またはコードの部分を表すと理解されるべきであり、当業者によって理解されるように、関係する機能に応じて、ほぼ同時、または逆の順序を含めて、図示され、または論じられるのとは異なる順序で機能が実行され得る、代替実施が本発明の実施形態の範囲内に含まれる。

【0083】

本開示は、本開示の真の、所期の、適正な範囲および趣旨を限定するためではなく、技術に従って様々な実施形態をどのように作り、使用するかを説明するためのものである。上記の説明は、網羅的なものではなく、開示される厳密な形態に限定されないものとする。上記の教示に照らして修正または変形が可能である。実施形態は、記載の技術の原理およびその実際の応用の最良の例示を与え、当業者が技術を様々な実施形態で、企図される特定の用途に適合するような様々な修正と共に利用することを可能にするように選ばれ、説明された。すべてのそのような修正および変形、ならびに実施形態のすべての均等物は、適正に、法的に、かつ正当に権利が与えられる幅に従って解釈されるとき、添付の特許請求の範囲によって決定され、特許を求める本願の係属中に補正され得る、実施形態の範囲内にある。

【図1】