(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-09-20
(54)【発明の名称】ルームインテリジェンスのための会議システムおよび方法
(51)【国際特許分類】
H04N 23/695 20230101AFI20240912BHJP
G10L 25/51 20130101ALI20240912BHJP
H04N 7/15 20060101ALI20240912BHJP
【FI】
H04N23/695
G10L25/51 400
H04N7/15
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024517419
(86)(22)【出願日】2022-09-21
(85)【翻訳文提出日】2024-05-17
(86)【国際出願番号】 US2022076815
(87)【国際公開番号】W WO2023049773
(87)【国際公開日】2023-03-30
(32)【優先日】2021-09-21
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】504189151
【氏名又は名称】シュアー アクイジッション ホールディングス インコーポレイテッド
【氏名又は名称原語表記】SHURE ACQUISITION HOLDINGS,INC.
(74)【代理人】
【識別番号】100094569
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100103610
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100109070
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100120525
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100139712
【氏名又は名称】那須 威夫
(74)【代理人】
【識別番号】100141553
【氏名又は名称】鈴木 信彦
(72)【発明者】
【氏名】アブラハム マシュー ティー
(72)【発明者】
【氏名】ジョシ ビジャル
【テーマコード(参考)】
5C122
5C164
【Fターム(参考)】
5C122DA08
5C122EA55
5C122EA63
5C122EA66
5C122FA01
5C122FH11
5C122FH14
5C122FJ01
5C122FJ04
5C122FJ06
5C122FJ09
5C122GC75
5C122HA88
5C122HB01
5C164FA10
5C164VA04S
5C164VA06S
5C164VA32P
5C164VA56P
(57)【要約】
環境内の話者および物体のカメラ追跡、および他のルームインテリジェンス使用事例で使用するための真の話者座標を生成するように構成された会議システムおよび方法が開示される。会議システムの初期構成および進行中の使用が、環境内の物体および話者の位置を検出し、共通座標系に変換することによって改善され得る。設置者、インテグレータ、およびユーザによる時間量および労力が削減され、会議システムの設置および使用に伴う満足感が向上し得る。
【特許請求の範囲】
【請求項1】
第1の視聴覚装置を使用して、受信した音声に基づいて、第1の座標系での第2の視聴覚装置の位置を決定することと、
前記第1の座標系での前記第2の視聴覚装置の前記位置を、第2の座標系での前記第1の視聴覚装置の位置に変換することと、
前記第1の視聴覚装置から前記第2の視聴覚装置に、前記第2の座標系での前記第1の視聴覚装置の前記位置を送信することと
を含む方法。
【請求項2】
前記受信した音声が、前記第2の視聴覚装置の前記位置からの、または前記第2の視聴覚装置の前記位置の近くの音響トリガを含む、請求項1に記載の方法。
【請求項3】
前記第2の視聴覚装置の前記位置を決定することが、音声ローカライゼーションアルゴリズムを使用して前記受信した音声の前記位置を決定することを含む、請求項1に記載の方法。
【請求項4】
前記第1の視聴覚装置から前記第2の視聴覚装置に、前記第2の座標系での前記第1の視聴覚装置の前記位置を送信することが、前記第2の視聴覚装置に少なくとも1つのパラメータを調節させる、請求項1に記載の方法。
【請求項5】
前記第1の座標系が、前記第1の視聴覚装置に関する座標系を含み、
前記第2の座標系が、前記第2の視聴覚装置に関する座標系を含む、請求項1に記載の方法。
【請求項6】
前記第1の視聴覚装置がマイクロフォンアレイを含み、前記第2の視聴覚装置がカメラを含む、請求項1に記載の方法。
【請求項7】
前記マイクロフォンアレイを使用して、前記第1の座標系での前記マイクロフォンアレイのローブ位置を、前記第2の座標系での前記マイクロフォンアレイのローブ位置に変換することと、
前記マイクロフォンアレイから前記カメラに、前記第2の座標系での前記マイクロフォンアレイの前記ローブ位置を送信することと
をさらに含む、請求項6に記載の方法。
【請求項8】
前記第2の座標系での前記マイクロフォンアレイの前記ローブ位置に基づいて、前記第2の座標系での前記カメラの1つまたは複数のプリセットを自動的に生成することをさらに含む、請求項7に記載の方法。
【請求項9】
前記マイクロフォンアレイを使用して、話者に関連する音声に基づいて、前記第1の座標系での前記話者の位置を決定することと、
前記マイクロフォンアレイを使用して、前記第1の座標系での前記話者の前記位置に基づいて、前記話者の前記位置を前記第2の座標系での前記話者の位置に変換することと、
前記マイクロフォンアレイから前記カメラに、前記第2の座標系での前記話者の前記位置を送信することと
をさらに含む、請求項6に記載の方法。
【請求項10】
前記マイクロフォンアレイに向くように前記カメラを制御することと、
(1)前記第2の座標系での前記第1の視聴覚装置の前記位置と、(2)前記カメラからの画像とに基づいて、前記第2の座標系の原点を設定すること
をさらに含む、請求項6に記載の方法。
【請求項11】
第1の視聴覚装置と、
前記第1の視聴覚装置と同じ場所に配置されない第2の視聴覚装置と
を備えるシステムであって、
前記第1の視聴覚装置が、
前記第1の視聴覚装置に対する第1の座標系での前記第2の視聴覚装置の位置を決定し、
前記第1の座標系での前記第2の視聴覚装置の前記位置を、前記第2の視聴覚装置に対する第2の座標系での前記第1の視聴覚装置の位置に変換する
ように構成される、システム。
【請求項12】
前記第1の視聴覚装置が、前記第2の視聴覚装置からの、または前記第2の視聴覚装置の近くの音声のローカライゼーションに基づいて、前記第1の座標系での前記第2の視聴覚装置の前記位置を決定するように構成される、請求項11に記載のシステム。
【請求項13】
前記第1の視聴覚装置が、前記第2の座標系での前記第1の視聴覚装置の前記位置を前記第2の視聴覚装置に送信して、前記第2の視聴覚装置に少なくとも1つのパラメータを調節させるようにさらに構成される、請求項11に記載のシステム。
【請求項14】
前記第1の視聴覚装置がマイクロフォンアレイを含み、前記第2の視聴覚装置がカメラを含む、請求項11に記載のシステム。
【請求項15】
前記第1の視聴覚装置が、
前記第1の座標系での前記マイクロフォンアレイのローブ位置を前記第2の座標系での前記マイクロフォンアレイのローブ位置に変換し、
前記マイクロフォンアレイから前記カメラに、前記第2の座標系での前記マイクロフォンアレイの前記ローブ位置を送信する
ようにさらに構成される、請求項14に記載のシステム。
【請求項16】
前記第2の視聴覚装置が、前記第2の座標系での前記マイクロフォンアレイの前記ローブ位置に基づいて、前記第2の座標系での前記カメラの1つまたは複数のプリセットを生成するように構成される、請求項15に記載のシステム。
【請求項17】
前記第1の視聴覚装置が、
前記話者に関連する音声に基づいて、前記第1の座標系での話者の位置を決定し、
前記第1の座標系での前記話者の前記位置に基づいて、前記話者の前記位置を前記第2の座標系での前記話者の位置に変換し、
前記マイクロフォンアレイから前記カメラに、前記第2の座標系での前記話者の前記位置を送信する
ようにさらに構成される、請求項14に記載のシステム。
【請求項18】
前記第2の視聴覚装置が、
前記マイクロフォンアレイに向くように前記カメラを制御し、
(1)前記第2の座標系での前記第1の視聴覚装置の前記位置と、(2)前記カメラからの画像とに基づいて、前記第2の座標系の原点を設定する
ように構成される、請求項14に記載のシステム。
【請求項19】
カメラからの、または前記カメラの近くの音響トリガに基づいて、第1の座標系での前記カメラの位置を検出し、
前記第1の座標系での前記カメラの前記位置を第2の座標系での前記マイクロフォンアレイの位置に変換し、
前記第2の座標系での前記マイクロフォンアレイの前記位置を前記カメラに送信する
ように構成されたマイクロフォンアレイと、
前記第2の座標系での前記マイクロフォンアレイの前記位置を受信し、
前記マイクロフォンアレイの前記位置に基づいて、前記第2の座標系での1つまたは複数のカメラプリセットを自動的に生成し、
前記1つまたは複数のカメラプリセットのうちの1つに基づいて、前記カメラのパラメータを調節する
ように構成された前記カメラと
を備えるシステム。
【請求項20】
前記カメラが、
前記マイクロフォンアレイに前記カメラを向けるように制御され、
(1)前記第2の座標系での前記マイクロフォンアレイの前記位置と、(2)前記カメラからの画像とに基づいて、前記第2の座標系の原点を設定する
ようにさらに構成される、請求項19に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本願は、2021年9月21日に出願された米国仮特許出願第63/261459号の特典を主張し、参照によりその全体が本明細書に完全に組み込まれている。
【0002】
本願は、一般には、環境内の話者および物体のカメラ追跡、および他のルームインテリジェンス使用事例で使用するための真の話者座標(true talker coordinates)を生成するように構成された会議システムおよび方法に関する。
【背景技術】
【0003】
会議室、役員室(boardroom)、ビデオ会議設定などの会議環境は、音源からの音を取り込むためのマイクロフォン(マイクロフォンアレイを含む)と、リモートロケーション(遠端(far end)とも呼ばれる)からの音声を提示するためのスピーカの使用を含み得る。たとえば、会議室内の人が、リモートロケーションの人と会議通話を実施中であり得る。通常、会議室からの音声および音がマイクロフォンによって取り込まれ、リモートロケーションに送信され得ると共に、リモートロケーションからの音声および音が受信され、会議室内のスピーカ上で再生され得る。会議室内の音声および音を最適に取り込むために、複数のマイクロフォンが使用され得る。
【0004】
そのような会議環境はまた、カメラなどの1つまたは複数の画像取り込み装置(image capture device)をも含み得、画像取り込み装置は、リモートロケーションで閲覧するために送信すべき環境内の人および物体の画像およびビデオを取り込み、提供するために使用され得る。しかしながら、たとえば、環境内のカメラが部屋全体だけを示すように構成される場合、またはカメラが部屋の特定の事前構成された部分のみを示すように固定される場合、リモートロケーションの閲覧者が特定の話者を見ることが難しいことがある。話者には、たとえば、話している、または他の音を出している環境内の人が含まれ得る。
【0005】
さらに、十分なビデオおよび音声カバレッジのために複数のカメラおよび/または複数のマイクロフォンが望ましい環境、ならびにカメラおよびマイクロフォンの相対位置が知られておらず、または事前定義されていない環境があり得る。そのような環境では、話者位置とカメラアングルを正確に相関させることが難しいことがある。専門の設置者またはインテグレータが、マイクロフォンアレイからの位置情報に基づいて、カメラについてのゾーンまたはプリセットを手動で構成し得るが、これは、しばしば時間がかかり、労力を必要とし、柔軟性のないプロセスである。たとえば、室内の座席配置がシステムの初期セットアップ後に変更される場合、事前構成されたカメラゾーンが参加者を十分にカバーしないことがあり、そのようなゾーンは、セットアップ後は修正が困難であり得、かつ/または専門の設置者またはインテグレータのみによって修正され得る。
【発明の概要】
【0006】
本開示の技法は、とりわけ、(1)マイクロフォンアレイを使用して第1の座標系でのカメラ位置を決定し、マイクロフォンアレイを使用するカメラ位置を第2の座標系でのマイクロフォンアレイ位置に変換し、第2の座標系でのマイクロフォンアレイ位置をカメラに送信し、(2)第1の座標系でのマイクロフォンアレイのローブ位置を第2の座標系でのローブ位置に変換し、第2の座標系でのローブ位置をカメラに送信し、(3)第1の座標系でのマイクロフォンアレイによって検出された話者位置を第2の座標系での話者位置に変換し、第2の座標系での話者位置をカメラに送信し、(4)それぞれの座標系での複数のマイクロフォンアレイからのマイクロフォンアレイ位置、ローブ位置、および話者位置を集約し、別の座標系に変換し、別の座標系でのマイクロフォンアレイ位置、ローブ位置、および話者位置をカメラに送信し、(5)変換後の座標系でのローブ位置および/または話者位置に基づいてカメラプリセットを生成し、またはカメラを調節するように設計されるシステムおよび方法を提供することによって前述の問題を解決することを対象とする。
【0007】
一実施形態では、方法が、マイクロフォンアレイを使用して、カメラからの、またはカメラの近くの音響トリガ(acoustical trigger)に基づいて、第1の座標系でのカメラ位置を検出することと、マイクロフォンアレイを使用して、カメラ位置に基づいて、第1の座標系でのカメラ位置を第2の座標系でのマイクロフォンアレイ位置に変換することと、マイクロフォンアレイからカメラに、第2の座標系でのマイクロフォンアレイ位置を送信することとを含み得る。
【0008】
別の実施形態では、方法が、カメラに関する座標系での1つまたは複数のマイクロフォンローブ位置をカメラで受信することと、1つまたは複数のマイクロフォンローブ位置に関連する1つまたは複数のマイクロフォンローブのうちのどれがアクティブであるかを示すマイクロフォンローブ活動情報(microphone lobe activity information)をカメラで受信することと、カメラを使用して、1つまたは複数のマイクロフォンローブ位置に基づいて、カメラに関する座標系での1つまたは複数のカメラプリセットを自動的に生成することと、カメラを使用して、1つまたは複数のカメラプリセットおよびマイクロフォンローブ活動情報に基づいて、1つまたは複数のカメラプリセットのアクティブなプリセットを決定することと、決定したアクティブなプリセットに基づいてカメラを制御することとを含み得る。
【0009】
別の実施形態では、方法が、カメラに関する座標系での1つまたは複数のマイクロフォンローブ位置をカメラで受信することと、カメラを使用して、1つまたは複数のマイクロフォンローブ位置に基づいて、カメラに関連する少なくとも1つのパラメータに対する調節を自動的に決定することと、決定した調節に基づいてカメラを制御することとを含み得る。
【0010】
別の実施形態では、システムが、カメラからの、またはカメラの近くの音響トリガに基づいて、第1の座標系でのカメラ位置を検出し、第1の座標系でのカメラ位置を第2の座標系でのマイクロフォンアレイ位置に変換し、第2の座標系でのマイクロフォンアレイ位置をカメラに送信するように構成されたマイクロフォンアレイを含み得る。システムはまた、第2の座標系でのマイクロフォンアレイ位置を受信し、マイクロフォンアレイ位置に基づいて、第2の座標系での1つまたは複数のカメラプリセットを自動的に生成し、1つまたは複数のカメラプリセットのうちの1つに基づいてカメラのパラメータを調節するように構成されているカメラをも含み得る。
【0011】
別の実施形態では、方法が、マイクロフォンアレイを使用して、第1の座標系でのマイクロフォンアレイのローブ位置を第2の座標系でのマイクロフォンアレイのローブ位置に変換することと、マイクロフォンアレイからカメラに、第2の座標系でのマイクロフォンアレイのローブ位置を送信して、カメラに関連する少なくとも1つのパラメータをカメラに調節させることとを含み得る。
【0012】
別の実施形態では、方法が、マイクロフォンアレイを使用して、話者に関連する音声に基づいて、第1の座標系での話者位置を決定することと、マイクロフォンアレイを使用して、第1の座標系での話者位置に基づいて、話者位置を第2の座標系での話者位置に変換することと、マイクロフォンアレイからカメラに、第2の座標系での話者位置を送信して、カメラに関連する少なくとも1つのパラメータをカメラに調節させることとを含み得る。
【0013】
別の実施形態では、システムが、第1の視聴覚装置と、第1の視聴覚装置と同じ場所に配置されない第2の視聴覚装置とを含み得る。第1の視聴覚装置は、第1の視聴覚装置に対する第1の座標系での第2の視聴覚装置の位置を決定し、第1の座標系での第2の視聴覚装置の位置を、第2の視聴覚装置に対する第2の座標系での第1の視聴覚装置の位置に変換するように構成され得る。
【0014】
別の実施形態では、方法が、第1の視聴覚装置を使用して、受信した音声に基づいて、第1の座標系での第2の視聴覚装置位置を決定することと、第2の視聴覚装置位置に基づいて、第1の座標系での第2の視聴覚装置位置を、第2の座標系での第1の視聴覚装置位置に変換することと、第1の視聴覚装置から第2の視聴覚装置に、第2の座標系での第1の装置位置を送信することとを含み得る。
【0015】
別の実施形態では、方法が、複数のカメラのそれぞれを使用して、複数のカメラのそれぞれの座標系でのマイクロフォン位置を検出することと、複数のカメラのそれぞれの座標系でのマイクロフォン位置を、共通座標系でのマイクロフォン位置に変換することと、共通座標系でのマイクロフォン位置に基づいて、複数のカメラのうちの1つまたは複数のパラメータを制御することとを含み得る。
【0016】
これらおよび他の実施形態、ならびに様々な置換および態様が、本発明の原理が利用され得る様々な方式を示す例示的実施形態を説明する、以下の詳細な説明および添付の図面から明らかとなり、より完全に理解されよう。
【図面の簡単な説明】
【0017】
【
図1】いくつかの実施形態による、環境内の物体および話者の位置を検出し、座標系に変換するために利用され得る会議システムを含む物理的環境の例示的な図である。
【
図2】いくつかの実施形態による、
図1の会議システムと共に使用可能なシステムのブロック図である。
【
図3】いくつかの実施形態による、音声活動の自動検出、ならびに環境内の物体および話者の位置の座標系への変換のために構成され、
図1および2のシステムと共に使用可能なマイクロフォンアレイのブロック図である。
【
図4】いくつかの実施形態による、
図2および3のシステムを使用して、第1の座標系でのカメラ位置を決定し、第2の座標系でのマイクロフォンアレイ位置に変換し、マイクロフォンローブ位置を第2の座標系に変換するための動作を示すフローチャートである。
【
図5】いくつかの実施形態による、
図2および3のシステムを使用して、第1の座標系でのマイクロフォンアレイによって検出された話者位置を決定し、第2の座標系での話者位置に変換するための動作を示すフローチャートである。
【
図6】いくつかの実施形態による、
図2および3のシステムを使用して、カメラを使用して、座標系でのマイクロフォンアレイ位置およびローブ位置に基づいてカメラプリセットを生成するための動作を示すフローチャートである。
【
図7】いくつかの実施形態による、
図2および3のシステムを使用して、カメラを使用して、変換後の座標系でのマイクロフォンアレイ位置および話者位置に基づいてカメラプリセットを生成するための動作を示すフローチャートである。
【
図8】いくつかの実施形態による、
図2および3のシステムを使用して、変換後の座標系でのマイクロフォンアレイ位置および話者位置に基づいてカメラ調節を決定するための動作を示すフローチャートである。
【
図9】いくつかの実施形態による、環境内の物体および話者の位置を検出し、座標系に変換するためにシステムが使用され得る、複数のマイクロフォンアレイおよびカメラを含む会議システムを含む物理的環境の例示的な図である。
【
図10】いくつかの実施形態による、
図9の会議システムと共に使用可能であり得る複数のマイクロフォンアレイを有するシステムのブロック図である。
【
図11】いくつかの実施形態による、それぞれの座標系での複数のマイクロフォンアレイからのカメラ位置、ローブ位置、および話者位置を集積し、
図10のシステムと共に使用可能な座標系に変換するための動作を示すフローチャートである。
【
図12】いくつかの実施形態による、
図9の会議システムと共に使用可能な複数のカメラを有するシステムのブロック図である。
【
図13】いくつかの実施形態による、利用するカメラを選択し、
図12のシステムと共に使用可能な、選択したカメラを調節するための動作を示すフローチャートである。
【
図14】いくつかの実施形態による、第1の座標系でのマイクロフォンアレイ位置を決定し、第2の座標系でのカメラ位置に変換するための動作を示すフローチャートである。
【発明を実施するための形態】
【0018】
本明細書で説明されるシステムおよび方法は、環境内の物体および話者の位置を検出し、共通座標系に変換することによって、会議システムの構成および使用を改善し得る。たとえば、マイクロフォンアレイは、マイクロフォンアレイに関する座標系でのカメラの位置を検出し、カメラでより容易に使用可能な座標系、たとえばカメラに関する座標系でのマイクロフォンアレイの位置に変換し得る。別の例として、マイクロフォンアレイは、マイクロフォンアレイに関する座標系での環境内の話者の位置を検出し得る。マイクロフォンアレイはまた、マイクロフォンアレイに関する座標系での話者の位置を、カメラに関する座標系での話者の位置に変換し得る。別の例として、マイクロフォンアレイは、マイクロフォンアレイに関する座標系でのマイクロフォンアレイのローブの位置を、カメラに関する座標系でのローブの位置に変換し得る。
【0019】
このようにして、カメラは、カメラにとって理解可能で有用な座標系でのマイクロフォンアレイ、話者、および/またはマイクロフォンアレイローブの位置を受信し得る。本明細書で説明されるシステムおよび方法は、カメラとマイクロフォンアレイの位置が当初は互いに対して既知ではなく、たとえばカメラとマイクロフォンアレイが同じ場所に配置されない会議システムと共に使用するのに特に有用であり得る。
【0020】
カメラは、たとえば、話者および/またはマイクロフォンローブの位置に基づき得るカメラプリセットを生成するための基礎として、マイクロフォンアレイ、話者、および/またはマイクロフォンアレイローブの位置を利用し得る。カメラはまた、カメラによって取り込まれた画像およびビデオを移動し、ズーミングし、パニングし、フレーミングし、あるいは調節するために、マイクロフォンアレイ、話者、および/またはマイクロフォンアレイローブの位置を利用し得る。したがって、本明細書で説明されるシステムおよび方法は、カメラとマイクロフォンアレイとの間の距離および位置の測定など、通常は設置者またはインテグレータによって実施され得る手動測定を削減するために、会議システムの構成中に役立ち得る。本明細書で説明されるシステムおよび方法はまた、たとえばカメラがアクティブな話者の画像をより正確に取り込むことを可能にするために、会議システムの使用中に役立ち得る。したがって、設置者、インテグレータ、およびユーザによる時間および労力の量が削減され、会議システムの設置および使用に伴う満足感が向上し得る。
【0021】
図1は、本明細書で開示されるシステムおよび方法が使用され得る物理的環境100の例示的な図である。具体的には、
図1は、会議システムの様々な変換器および装置、ならびに他の物体を含む例示的会議室の斜視図を示す。
図1は1つの潜在的な環境を示すが、本明細書で開示されるシステムおよび方法は、限定はしないがオフィス、ハドルルーム、映画館、アリーナ、音楽会場などを含む任意の適用可能な環境で利用され得ることを理解されたい。
【0022】
図1に示される環境100内のシステムは、スピーカ102、マイクロフォンアレイ104、テーブルトップマイクロフォン106、ディスプレイ108、コンピューティング装置110、カメラ112などの様々な構成要素を含み得る。環境100はまた、1人または複数の人120および/または他の物体(たとえば、楽器、電話機、タブレット、コンピュータ、HVAC機器など)をも含み得る。実施形態では、構成要素のうちの1つまたは複数は、デジタル信号プロセッサ、ワイヤレス受信機、ワイヤレストランシーバなどを含み得る。
図1に示される構成要素は例示的なものに過ぎず、環境100内の様々な構成要素の任意の数、タイプ、および配置が企図され、可能であることを理解されたい。
【0023】
変換器のタイプ(たとえば、マイクロフォンおよびスピーカ)および特定の環境内のその配置は、音源、聴取者の位置、物理空間要件、美学、部屋のレイアウト、ステージレイアウト、および/または他の考慮事項に依存し得る。たとえば、マイクロフォンが、マイクロフォン106など、音源の近くのテーブルまたは書見台上に配置され、または音源、たとえば出演者(performer)に取り付けられ得る。マイクロフォンはまた、たとえばマイクロフォンアレイ104を使用して、部屋全体などのより広いエリアから音を取り込むために頭上または壁に取り付けられ得る。同様に、会議の遠端からの音、事前記録された音声、ストリーミング音声など、環境100内の聴取者に対して音を出すために、スピーカ102が壁または天井に配置され得る。マイクロフォンおよびスピーカは、特定の環境の必要に適合するように、様々なサイズ、形状因子、取付けオプション、および配線オプションに準拠し得る。
【0024】
通常、環境100の会議室は、ローカル参加者が互いに、かつ/またはリモート参加者と意思疎通する会合(meeting)のために使用され得る。したがって、マイクロフォンアレイ104および/またはテーブルトップマイクロフォン106は、環境100内の音源からの音を検出し、取り込み得る。音源は、たとえば1人または複数の人間の話者120であり得る。一般的な状況では、人間の話者がテーブルの椅子に着席し得るが、音源の他の構成および配置が企図され、可能である。
【0025】
カメラ112は、システムが配置される環境100の静止画像および/またはビデオを取り込み得る。いくつかの実施形態では、カメラ112はスタンドアロンカメラであり得、別の実施形態では、カメラ112は電子装置、たとえばスマートフォン、タブレットなどの構成要素であり得る。カメラ112は、所望の画像およびビデオを取り込むために物理的に移動およびズーミングし得るパンチルトズーム(PTZ)カメラであり得、または画像およびビデオを1つまたは複数の所望の部分にデジタルにクロッピングおよびズーミングする仮想PTZカメラであり得る。ディスプレイ108は、たとえばテレビジョンまたはコンピュータモニタであり得、会議のリモート参加者や他の画像またはビデオコンテンツなどの他の画像および/またはビデオを示し得る。実施形態では、ディスプレイ108はマイクロフォンおよび/またはスピーカを含み得る。
【0026】
図2は、
図1の環境100内に示される会議システムと共に使用可能なシステム200のブロック図である。システム200は、実施形態では、環境100内の物体および話者の位置を検出し、カメラコントローラ206によって制御され得るカメラ212(たとえば、
図1のカメラ112)で容易に使用可能な共通座標系に変換し得るマイクロフォンアレイ204(たとえば、
図1のマイクロフォンアレイ104)を含み得る。カメラコントローラ206は、たとえばカメラ212を移動および/またはズーミングさせるように、カメラ212に適切な信号を供給し得る。カメラコントローラ206はまた、
図6~7に関して以下でより詳細に説明されるように、カメラプリセットを生成するように構成され得る。いくつかの実施形態では、カメラコントローラ206とカメラ212は共に一体化され得る。システム200の構成要素は、システム200の他の構成要素とワイヤードおよび/またはワイヤレス通信し得る。実施形態では、環境100内の物体および話者の位置の共通座標系への変換が、たとえばカメラコントローラ206、カメラ212、コンピューティング装置(たとえば、コンピューティング装置110)、リモートコンピューティング装置(たとえば、クラウドベースの装置)、および/または任意の他の適切な装置によって実施され得る。
【0027】
マイクロフォンアレイ204は、環境内の音源から音を検出し、取り込み得る。たとえば、
図4のプロセス400に関して以下でより詳細に説明される一実施形態では、マイクロフォンアレイ204は、カメラ212に関連する音を検出し、たとえばマイクロフォンアレイ204が座標系の原点である、マイクロフォンアレイ204に関する座標系でのカメラ212の位置を決定し得る。マイクロフォンアレイ204は、カメラ212の位置を、たとえばカメラ212が座標系の原点である、カメラ212に関する座標系でのマイクロフォンアレイ204の位置に変換し得る。カメラ212に関する座標系でのマイクロフォンアレイ204の位置は、マイクロフォンアレイ204からカメラコントローラ206および/またはカメラ212に送信され得る。たとえば、マイクロフォンアレイ204は、適切なアプリケーションプログラミングインターフェース(API)を介してカメラコントローラ206および/またはカメラ212と通信し得る。
【0028】
実施形態では、座標系でのカメラ212の位置が、ローカル測位システム、会議システム構成および設計ソフトウェア、ならびに/あるいはカメラ212などの別の供給源から、マイクロフォンアレイ204によって受信され得る。そのような実施形態では、受信される座標系でのカメラ212の位置が、カメラ212に関する座標系でのマイクロフォンアレイ204の位置に変換され得る。
【0029】
マイクロフォンアレイ204は、環境内の特定の位置の音声を感知するように操向され得るローブを有する1つまたは複数のピックアップパターンを形成することができ得る。マイクロフォンアレイ204は、マイクロフォンアレイ204に関する座標系からカメラ212に関する座標系に、マイクロフォンアレイ204のローブ位置を変換し得る。カメラ212に関する座標系でのマイクロフォンアレイ204のローブ位置はまた、マイクロフォンアレイ204からカメラコントローラ206および/またはカメラ212に送信され得る。
【0030】
別の例として、
図5に示されるプロセス500に関して以下でより詳細に説明される一実施形態では、マイクロフォンアレイ204は、環境内の話者(または他の所望の音源)に関連する音を検出し、マイクロフォンアレイ204に関する座標系での話者の位置を決定し得る。マイクロフォンアレイ204は、話者、たとえば話者120の位置を、マイクロフォンアレイ204に関する座標系から、カメラ212に関する座標系での話者の位置に変換し得る。カメラ212に関する座標系での話者の位置は、マイクロフォンアレイ204からカメラコントローラ206および/またはカメラ212に送信され得る。
【0031】
実施形態では、マイクロフォンアレイ204とカメラコントローラ206は、カメラコントローラ206がマイクロフォンアレイ204の位置についてマイクロフォンアレイ204に照会することを可能にすること、マイクロフォンアレイ204がカメラコントローラ206に信号を送信することを可能にすること、および/またはカメラコントローラ206がマイクロフォンアレイ204に信号を送信することを可能にすることを含めて、適切なアプリケーションプログラミングインターフェース(API)を介して通信し得る。カメラコントローラ206は、たとえば最適化されたカメラプリセットを生成して、より正確な話者のズーミング、パニング、および/またはフレーミングを可能にするために、カメラ212に関する座標系でのマイクロフォンアレイ204、ローブ、および/または話者の位置を利用し得る。
【0032】
システム200の構成要素の一部またはすべてが、プロセッサおよびメモリを有する
図1のコンピューティング装置110(たとえば、パーソナルコンピュータ(PC)、ラップトップ、タブレット、モバイル装置、スマートデバイス、シンクライアントなど)などの1つまたは複数のコンピュータによって、かつ/またはハードウェア(たとえば、ディスクリート論理回路、特定用途向け集積回路(ASIC)、プログラマブルゲートアレイ(PGA)、フィールドプログラマブルゲートアレイ(FPGA)、デジタル信号プロセッサ(DSP)、マイクロプロセッサなど)によって実行可能なソフトウェアを使用して実施され得る。たとえば、システム200の一部またはすべての構成要素は、ディスクリート回路デバイスを使用して、かつ/またはメモリ(図示せず)内に記憶されたプログラムコードを実行する1つまたは複数のプロセッサ(たとえば、オーディオプロセッサおよび/またはデジタル信号プロセッサ)を使用して実施され得、プログラムコードは、たとえば
図4~8で示される方法などの、本明細書で説明される1つまたは複数のプロセスまたは動作を実施するように構成される。したがって、実施形態では、システム200は、
図2に図示されていない1つまたは複数のプロセッサ、メモリデバイス、コンピューティング装置、および/または他のハードウェア構成要素を含み得る。
【0033】
図2に示される構成要素は例示的なものに過ぎず、システム200の様々な構成要素の任意の数、タイプ、および配置が企図され、可能であることを理解されたい。たとえば、複数のマイクロフォンアレイ204、複数のカメラコントローラ206、および/または複数のカメラ212があり得る。
【0034】
図3は、環境内の音源からの音を検出し、環境内の物体および話者の位置を、カメラで容易に使用可能な共通座標系に変換するための、
図2のシステム200で使用可能な、
図2のマイクロフォンアレイ204などのマイクロフォンアレイ300のブロック図を示す。マイクロフォンアレイ300は、たとえば任意の数のマイクロフォン素子302a、b、c、...、zzを含み得、音源からの音が検出され、取り込まれ得るようにローブを有する1つまたは複数のピックアップパターンを形成することができ得る。マイクロフォンアレイ300内のマイクロフォン素子302a、b、c、...、zzのそれぞれは、音を検出し、音をアナログ音声信号に変換し得る。マイクロフォンアレイ300はまた、マイクロフォン素子302a、b、c、...、zzとワイヤードまたはワイヤレス通信している音声活動ローカライザ350と、音声活動ローカライザ350とワイヤードまたはワイヤレス通信している変換ユニット360と、マイクロフォン素子302a、b、c、...、zzおよび音声活動ローカライザ350とワイヤードまたはワイヤレス通信しているビームフォーマ370をも含み得る。
【0035】
マイクロフォン素子302a、b、c、...、zzは、いくつかの実施形態では、無指向性ピックアップパターンを有するそれぞれMEMS(micro-electrical mechanical system)マイクロフォンであり得る。別の実施形態では、マイクロフォン素子302a、b、c、...、zzは、別のピックアップパターンを有し得、かつ/またはエレクトレットコンデンサマイクロフォン、ダイナミックマイクロフォン、リボンマイクロフォン、圧電マイクロフォン、および/または他のタイプのマイクロフォンであり得る。実施形態では、マイクロフォン素子302a、b、c、...、zzは、1次元または多次元に配置され得る。
【0036】
アナログ-デジタル変換器、プロセッサ、および/または他の構成要素(図示せず)などのマイクロフォンアレイ300内の他の構成要素が、アナログ音声信号を処理し、最終的に1つまたは複数のデジタル音声出力信号を生成し得る。デジタル音声出力信号は、音声を送信するための適切な規格および/または伝送プロトコルに準拠し得る。実施形態では、マイクロフォンアレイ300内のマイクロフォン素子のそれぞれは、音を検出し、音をデジタル音声信号に変換し得る。
【0037】
ピックアップパターンのそれぞれに対応する、1つまたは複数のデジタル音声出力信号390a、b、c、...、zが生成され得る。ピックアップパターンは、1つまたは複数のローブ、たとえばメインローブ、サイドローブ、およびバックローブ、ならびに/あるいは1つまたは複数のヌルから構成され得る。マイクロフォンアレイ300によって形成され得るピックアップパターンは、ビームフォーマ370などの、マイクロフォン素子と共に使用されるビームフォーマのタイプに依存し得る。たとえば、遅延和ビームフォーマ(delay and sum beamformer)が、そのフィルタ構造とマイクロフォン素子のレイアウト幾何形状とに基づいて周波数依存ピックアップパターンを形成し得る。別の例として、差動ビームフォーマ(differential beamformer)が、カーディオイド、サブカーディオイド、スーパーカーディオイド、ハイパーカーディオイド、または両指向性ピックアップパターンを形成し得る。
【0038】
音声活動ローカライザ350は、マイクロフォン素子302a、b、c、...、zzからの音声信号に基づいて環境内の音声活動の位置を決定し得る。実施形態では、音声活動ローカライザ350は、ステアード応答パワー位相変換(Steered-Response Power Phase Transform(SRP-PHAT))アルゴリズム、一般化相互相関位相変換(Generalized Cross Correlation Phase Transform(GCC-PHAT))アルゴリズム、到来時間(TOA)ベースのアルゴリズム、到来時間差(time difference of arrival,TDOA)ベースのアルゴリズム、または別の適切な音源ローカライゼーションアルゴリズム(sound source localization algorithm)を利用し得る。検出される音声活動は、人間の話者や、カメラ、たとえばカメラ212からの、またはカメラの近くの音響トリガなどの音源を含み得る。音声活動の位置は、デカルト座標(すなわち、x、y、z)、または球座標(すなわち、半径方向の距離/大きさr、仰角θ(シータ)、方位角φ(ファイ))などでの、マイクロフォンアレイ300の位置に対する3次元座標のセットによって示され得る。必要に応じて、デカルト座標は容易に球座標に変換され得、逆も同様であることに留意されたい。実施形態では、音声活動ローカライザ350はマイクロフォンアレイ300内に含まれ得、別の構成要素内に含まれ得、またはスタンドアロン構成要素であり得る。
【0039】
変換ユニット360は、音声活動ローカライザ350から音声活動の位置を受信し、マイクロフォンアレイ300に対する座標系から別の座標系に、音声活動の位置を変換し得る。たとえば、音声活動の位置は、変換ユニット360によって、カメラ、たとえばカメラ212に対する座標系での音声活動の位置に変換され得る。実施形態では、(カメラからの、またはカメラの近くの検出された音響トリガから決定した)マイクロフォンアレイ300に対する座標系でのカメラの位置が、変換ユニット360によって、カメラに対する座標系でのマイクロフォンアレイ300の位置に変換され得る。
【0040】
変換ユニット360はまた、マイクロフォンアレイ300に対する座標系でのマイクロフォンアレイ300のローブの位置を、別の座標系に変換するように構成され得る。変換ユニット360は、別の座標系に変換された音声活動および/またはローブの位置を、カメラコントローラ206および/またはカメラ212などに送信し得る。
【0041】
図4は、マイクロフォンアレイ、たとえばマイクロフォンアレイ300が、たとえばマイクロフォンアレイに対する第1の座標系でのカメラ位置を決定し、たとえばカメラに対する第2の座標系でのマイクロフォンアレイ位置に変換するためのプロセス400を示す。プロセス400はまた、マイクロフォンアレイがマイクロフォンローブ位置を第2の座標系に変換することも含み得る。プロセス400の結果、第2の座標系でのマイクロフォンアレイ位置および/またはマイクロフォンローブ位置が、マイクロフォンアレイ300からカメラ212または別の構成要素に送信され得る。たとえば、カメラ212は、
図6のプロセス600に関して以下でより詳細に説明されるように、カメラ212に対する座標系でのマイクロフォンアレイ位置および/またはマイクロフォンローブ位置を利用して、カメラプリセットを生成し、かつ/または(たとえば、ローブによってカバーされる位置に対してズームインするために)カメラ212に関連するパラメータを調節し得る。別の例として、カメラ212に対する座標系でのマイクロフォンアレイ位置および/またはマイクロフォンローブ位置が、たとえば部屋のコンピュータ支援設計表現を生成する、ルームマッピングアプリケーションなどのルームインテリジェンス使用事例を支援するために利用され得る。実施形態では、プロセス400は、部屋内の物体および装置の位置を決定するために利用され得る。
【0042】
ステップ402では、カメラ212からの、またはカメラ212の近くの音響トリガが、マイクロフォン素子302a、b、c、...、zzによって検出されることなどによって、マイクロフォンアレイ300で受信され得る。カメラ212からの、またはカメラ212の近くの音響トリガは、カメラ212の位置を決定するために使用されることが意図される1つまたは複数の音を含み得る。たとえば、マイクロフォンアレイ300がカメラ212の位置を決定することが望ましいとき、カメラ212の前で、フィンガースナップなどの音が鳴らされ得る。別の例として、マイクロフォンアレイ300がカメラ212の位置を自動的に決定することが望ましいとき、カメラ212は、既知の音調シーケンス(tonal sequence)などの識別音(identifying sound)を出すように構成され得る。実施形態では、カメラ212の位置を決定することが望ましいとき、マイクロフォンアレイ300は、ユーザ(たとえば、設置者またはインテグレータ)によって特定のモードに置かれ得る。そのようなモードに置かれるとき、マイクロフォンアレイ300は、次に検出される音が、カメラ212の位置を決定する目的のための、カメラ212からの、またはカメラ212の近くの音響トリガであるはずであると予想する。
【0043】
ステップ404では、音声活動ローカライザ350が、ステップ402で受信された、カメラ212からの、またはカメラ212の近くの音響トリガに基づいて、カメラ212の位置を決定し得る。実施形態では、音声活動ローカライザ350は、カメラ212からの、またはカメラ212の近くの受信した音響トリガに対して音声ローカライゼーションアルゴリズムを実行し、カメラ212の位置を決定し得る。ステップ404で決定されるカメラ212の位置は、マイクロフォンアレイ300に対する座標系でのものであり得る。音声活動ローカライザ350は、変換ユニット360にカメラ212の位置を送信し得る。
【0044】
ステップ406では、変換ユニット360が、マイクロフォンアレイ300に対する座標系でのカメラ212の位置を、カメラ212に対する座標系でのマイクロフォンアレイ300の位置に変換し得る。ステップ408では、変換ユニット360は、カメラ212に対する座標系でのマイクロフォンアレイ300の位置をカメラ212に送信し得る。
【0045】
実施形態では、マイクロフォンアレイ300のローブの位置も、変換ユニット360によってカメラ212に対する座標系に変換され得る。マイクロフォンアレイ300のローブの変換後の位置が、カメラ212に送信され得る。ステップ410では、いくつかの実施形態では、マイクロフォンアレイ300のローブの位置をカメラ212に対する座標系に変換するために、マイクロフォンアレイ300およびマイクロフォン素子302a、b、c、...、zzの回転が決定される。
【0046】
ステップ412では、変換ユニット360が、マイクロフォンアレイ300に対する座標系でのマイクロフォンアレイ300のローブの位置を、カメラ212に対する座標系でのマイクロフォンアレイ300のローブの位置に変換し得る。いくつかの実施形態では、マイクロフォンアレイ300のローブの位置の、カメラ212に対する座標系への変換は、ステップ410で決定されたマイクロフォンアレイ300の回転に基づき得る。そのような実施形態では、ステップ412で変換を実施するときにローブの位置を補正するために、マイクロフォンアレイ300の回転が考慮に入れられ得る。別の実施形態では、マイクロフォンアレイ300のローブの位置の、カメラ212に対する座標系への変換は、マイクロフォンアレイ300の回転に基づかないことがある。
【0047】
いくつかの実施形態では、現在アクティブであるマイクロフォンアレイ300のローブの位置が、カメラ212に対する座標系に変換され得、しかし一方別の実施形態では、マイクロフォンアレイ300のすべてのローブの位置が、カメラ212に対する座標系に変換され得る。ステップ414では、変換ユニット360が、カメラ212に対する座標系での、ステップ412で生成されたマイクロフォンアレイ300のローブの位置をカメラ212に送信し得る。
【0048】
図14は、カメラ、たとえばカメラ212が、たとえばカメラに対する、第1の座標系でのマイクロフォンアレイ位置を決定し、たとえばマイクロフォンアレイに対する、第2の座標系でのカメラ位置に変換するためのプロセス1400を示す。プロセス1400の結果、第2の座標系でのカメラ位置が、カメラ212からマイクロフォンアレイ300または別の構成要素に送信され得る。たとえば、マイクロフォンアレイ300は、カメラ位置を利用して、前述のプロセス400を使用して決定された可能性のあるカメラ212の位置の精度を改善し得る。
【0049】
ステップ1402では、カメラ212が、マイクロフォンアレイ300の中心に向けてなど、マイクロフォンアレイ300に向くようにされ得る。たとえば、ユーザ、設置者、インテグレータなどが、カメラコントローラ206などを介して、ステップ1402でカメラ212をマイクロフォンアレイ300に向くようにし得る。ステップ1404では、カメラ212は、マイクロフォンアレイ300の位置を、カメラ212に対する座標系の原点として設定し得る。
【0050】
ステップ1406では、カメラ212に対する座標系でのマイクロフォンアレイ300の位置(すなわち、カメラ212に対する座標系の原点)が、カメラ212によって、マイクロフォンアレイ300に対する座標系でのカメラ212の位置に変換され得る。ステップ1408では、カメラ212が、マイクロフォンアレイ300に対する座標系でのカメラ212の位置をマイクロフォンアレイ300に送信し得る。
【0051】
ステップ1408で受信された、マイクロフォンアレイ300に対する座標系でのカメラ212の位置に基づいて、マイクロフォンアレイ300は、(以下で説明されるプロセス500でのステップ506などで)マイクロフォンアレイ300に対する座標系での話者の位置を、カメラ212に対する座標系での話者の位置により正確に変換することができ得る。マイクロフォンアレイ300は、カメラ212に対する座標系の原点(すなわち、マイクロフォンアレイ300自体の位置)と、さらにはマイクロフォンアレイ300に対する座標系でのカメラ212の位置をどちらも認識しているので、この話者座標の変換が、プロセス1400を使用することによってより精密となるように改善され得る。
【0052】
図5は、マイクロフォンアレイ、たとえばマイクロフォンアレイ300が、たとえばマイクロフォンアレイに対する、第1の座標系での話者位置を決定し、たとえばカメラに対する、第2の座標系での話者位置に変換するためのプロセス500を示す。プロセス500の結果、変換後の話者位置が、マイクロフォンアレイ300からカメラ212または別の構成要素に送信され得る。たとえば、カメラ212は、
図7のプロセス700に関して以下でより詳細に説明されるように、カメラ212に対する座標系での変換後の話者位置を利用して、カメラプリセットを生成し得る。別の例として、カメラ212は、
図8のプロセス800に関して以下でより詳細に説明されるように、カメラ212に対する座標系での変換後の話者位置を利用して、カメラ212に関連するパラメータを調節し(たとえば、環境内のアクティブな話者にズームインし)得る。
【0053】
実施形態では、プロセス500を使用して、環境内の他の所望の音源および物体の位置が決定され得る。たとえば、会議室内の人、テーブル、椅子、および電子機器の位置が、そのような物体に関連する音声に基づいてマッピングされ得る。環境内の物体の位置が解析され、たとえば部屋の使用および占有情報が決定され得る。
【0054】
ステップ502では、環境内の話者に関連する音声(または他の所望の音)が、マイクロフォン素子302a、b、c、...、zzによって検出されることなどによって、マイクロフォンアレイ300で受信され得る。ステップ504では、音声活動ローカライザ350が、ステップ502で受信された話者に関連する音声に基づいて、話者の位置を決定し得る。実施形態では、音声活動ローカライザ350は、話者に関連する受信された音声に対して音声ローカライゼーションアルゴリズムを実行し、話者の位置を決定し得る。ステップ504で決定される話者の位置は、マイクロフォンアレイ300に対する座標系でのものであり得る。音声活動ローカライザ350は、変換ユニット360に話者の位置を送信し得る。
【0055】
ステップ506では、変換ユニット360は、マイクロフォンアレイ300に対する座標系での話者の位置を、カメラ212に対する座標系での話者の位置に変換し得る。実施形態では、ステップ506で変換を実施するときに話者の位置を補正するために、マイクロフォンアレイ300の回転が考慮に入れられ得る。ステップ508では、変換ユニット360は、カメラ212に対する座標系での話者の位置をカメラ212に送信し得る。
【0056】
図6は、カメラ、たとえばカメラ212が、カメラに対する座標系でのマイクロフォンアレイ位置および/またはローブ位置に基づいてカメラプリセットを生成するためのプロセス600を示す。実施形態では、マイクロフォンアレイ300は、マイクロフォンアレイ300およびマイクロフォンアレイ300のローブの位置を、マイクロフォンアレイ300に対する座標系から、カメラ212に対する座標系に変換していることがある。
【0057】
カメラプリセットは、カメラ212が位置する環境の一部を取り込む特定の位置および/またはズーム設定のビューなどの、カメラ212の特定のビューに対応し得る。実施形態では、カメラプリセットは、カメラ212によって取り込まれる画像および/またはビデオのアングル、チルト、ズーム、および/またはフレーミングについての設定を含み得る。たとえば、プロセス600によって生成されるカメラプリセットは、マイクロフォンアレイ300のローブの位置のうちの1つまたは複数の画像および/またはビデオを取り込むように設定され得る。こうした位置は、話者および他の望ましい音源が環境内で配置されると予想される場所であり得るからである。
【0058】
ステップ602では、カメラ212に対する座標系でのマイクロフォンアレイ300の位置が、マイクロフォンアレイ300などからカメラ212で受信され得る。ステップ604では、カメラ212は、マイクロフォンアレイ300のローブの位置と、マイクロフォンアレイ300のローブに関する活動情報とをマイクロフォンアレイ300から受信し得る。ローブ活動情報は、マイクロフォンアレイ300のローブのうちのどれがアクティブである(たとえば、音声活動を有する)かを示し得、ローブがゲートされる(たとえば、抑制される)か否かを示し得る。
【0059】
ステップ606では、カメラ212は、ステップ602および604で受信された、マイクロフォンアレイ300の位置およびマイクロフォンアレイ300のローブの位置に基づいて、1つまたは複数のカメラプリセットを生成し得る。カメラプリセットは、たとえば、PTZカメラのパン、チルト、およびズームパラメータについての値、ならびに/あるいは仮想PTZカメラによって取り込まれる画像およびビデオのクロッピングおよびズーミングについての値を含み得る。ステップ608では、カメラ212は、ステップ404で受信されたローブ活動情報に基づいて、画像およびビデオを取り込むためにどのカメラプリセットを利用するかを決定し得る。具体的には、ローブ活動情報は、どのローブがアクティブであるかを示し得、それは、話者および他の望ましい音源が検出されたローブを含み得る。たとえば、カメラ212は、(ローブ活動情報から導出された)アクティブなローブについてのカメラプリセットを使用し、したがってその位置で所望の音源の画像および/またはビデオを取り込み得る。
【0060】
図7は、カメラ、たとえばカメラ212が、カメラに対する座標系でのマイクロフォンアレイ位置および話者位置に基づいてカメラプリセットを生成するためのプロセス700を示す。ローブの位置を利用することに加えて、またはその代わりに、いくつかのシナリオでは、カメラが話者の位置を取得して、たとえば話者を個々にフレーミングし、かつ/または話者のクローズアップを取得するために利用することも有益であり得る。実施形態では、マイクロフォンアレイ300は、マイクロフォンアレイ300および話者の位置を、マイクロフォンアレイ300に対する座標系から、カメラ212に対する座標系に変換していることがある。カメラプリセットは、カメラ212が位置する環境の一部を取り込む特定の位置および/またはズーム設定のビューなどの、カメラ212の特定のビューに対応し得る。たとえば、プロセス700によって生成されるカメラプリセットは、マイクロフォンアレイ300によって検出された話者および他の望ましい音源の位置のうちの1つまたは複数の画像および/またはビデオを取り込むように設定され得る。
【0061】
ステップ702では、カメラ212に対する座標系でのマイクロフォンアレイ300の位置が、マイクロフォンアレイ300などからカメラ212で受信され得る。ステップ704では、カメラ212に対する座標系での話者の位置が、マイクロフォンアレイ300からカメラ212で受信され得る。ステップ706では、カメラ212は、マイクロフォンアレイ300の位置と、マイクロフォンアレイ300によって検出された話者の位置とに基づいて、1つまたは複数のカメラプリセットを生成し得る。カメラ212は、カメラプリセットを使用して、アクティブな話者の画像およびビデオを取り込むことに進み得る。環境内に複数のカメラがある実施形態では、最新の話者の位置の画像およびビデオが、ステップ704で受信された話者の位置によって示される最新の話者の位置に基づいて、カメラ212によって取り込まれ得る。
【0062】
図8は、カメラ、たとえばカメラ212が、カメラに対する座標系でのマイクロフォンアレイ位置および話者位置に基づいて、カメラに関連するパラメータに対する調節を決定するためのプロセス800を示す。実施形態では、カメラのパラメータが、話者の位置に基づいて、カメラによって取り込まれる画像および/またはビデオを変更して、たとえば話者を個々にフレーミングし、かつ/または話者のクローズアップを取得するように調節され得る。実施形態では、マイクロフォンアレイ300は、マイクロフォンアレイ300および話者の位置を、マイクロフォンアレイ300に対する座標系から、カメラ212に対する座標系に変換していることがある。カメラに関連するパラメータに対する調節は、たとえば、画像および/またはビデオのアングル、チルト、ズーム、またはフレーミングに対する調節を含み得る。
【0063】
ステップ802では、カメラ212に対する座標系でのマイクロフォンアレイ300の位置が、マイクロフォンアレイ300などからカメラ212で受信され得る。ステップ804では、カメラ212に対する座標系での話者の位置が、マイクロフォンアレイ300からカメラ212で受信され得る。ステップ806では、カメラ212は、マイクロフォンアレイ300によって検出されたマイクロフォンアレイ300の位置および話者の位置に基づいて、カメラに関連するパラメータに対する1つまたは複数の調節を生成し得る。カメラ212は、カメラのパラメータを制御および調節して、カメラ212によって取り込まれる画像および/またはビデオを変更することに進み得る。たとえば、カメラ212は、カメラ212によって取り込まれる画像および/またはビデオをクロッピングおよびズーミングして、話者のクローズアップを得るように制御され得る。
【0064】
図9は、本明細書で開示されるシステムおよび方法が使用され得る物理的環境900の例示的な図である。具体的には、
図9は、会議システムの様々な変換器および装置、ならびに他の物体を含む例示的会議室の斜視図を示す。
図9は1つの潜在的な環境を示すが、本明細書で開示されるシステムおよび方法は、限定はしないがオフィス、ハドルルーム、映画館、アリーナ、音楽会場などを含む任意の適用可能な環境で利用され得ることに留意されたい。環境900は、スピーカ902、複数のマイクロフォンアレイ904、テーブルトップマイクロフォン906、ディスプレイ908、コンピューティング装置910、および複数のカメラ912を含み得る。環境900はまた、1人または複数の人920および/または他の物体(たとえば、楽器、電話機、タブレット、コンピュータ、HVAC機器など)をも含み得る。実施形態では、構成要素のうちの1つまたは複数は、デジタル信号プロセッサ、ワイヤレス受信機、ワイヤレストランシーバなどを含み得る。
【0065】
図9に示される構成要素は例示的なものに過ぎず、環境900内の様々な構成要素の任意の数、タイプ、および配置が企図され、可能であることを理解されたい。環境900は、複数のマイクロフォンアレイ904および複数のカメラ912があることを除いて、前述の
図1の環境100と同様であり得る。簡単のために、環境900内に示される他の構成要素の機能の説明は、ここでは繰り返されない。
【0066】
図9に示される環境900は、天井に配置されたマイクロフォンアレイ904と、壁に配置された2つのマイクロフォンアレイ904とを含み得る。複数のマイクロフォンアレイ904の使用により、環境900内の音源からの音の感知および取り込みが改善され得る。環境900はまた、正面に配置されたカメラ912と、壁に配置された2つのカメラとを含み得る。複数のカメラ912の使用により、環境900のより多くの、多様なタイプの画像および/またはビデオの取り込みが可能となり得る。たとえば、正面に配置されたカメラ912が、環境900のより広いビューを取り込むために利用され得、壁に配置されたカメラ912が、環境内の話者のクローズアップを取り込むために利用され得る。
【0067】
図10は、
図9の環境900内に示される会議システムと共に使用可能なシステム1000のブロック図を示す。システム1000は、実施形態では、環境900内の物体および話者の位置を検出し得る複数のマイクロフォンアレイ1004a、...、z(たとえば、
図9のマイクロフォンアレイ904)、ならびに位置を受信し、カメラコントローラ1006によって制御され得るカメラ1012(たとえば、
図9のカメラ912)で容易に使用可能な共通座標系に位置を変換し得るアグリゲータユニット1005を含み得る。アグリゲータユニット1005は、カメラコントローラ1006および/またはカメラ1012に変換後の位置を供給し得る。実施形態では、マイクロフォンアレイ1004a、...、zのうちの1つはアグリゲータユニットとして働き得る。カメラコントローラ1006は、カメラ1012に適切な信号を供給して、たとえばカメラ1012を移動および/またはズーミングさせ得る。いくつかの実施形態では、カメラコントローラ1006とカメラ1012は共に一体化され得る。システム1000の構成要素は、システム1000の他の構成要素とワイヤードおよび/またはワイヤレス通信し得る。
【0068】
各マイクロフォンアレイ1004a、...、zは、環境内の音源からの音を検出し、取り込み得る。たとえば、各マイクロフォンアレイ1004a、...、zは、カメラ1012に関連する音を検出し、各マイクロフォンアレイ1004a、...、z自体に関する座標系でのカメラ1012の位置を決定し得、たとえば、各マイクロフォンアレイ1004a、...、zは、それぞれの座標系の原点である。各マイクロフォンアレイ1004a、...zは、それぞれの座標系でのカメラ1012の位置をアグリゲータユニット1005に送信し得る。各マイクロフォンアレイ1004a、...zはまた、それぞれの座標系でのそのローブの位置をアグリゲータユニット1005に送信し得る。
【0069】
別の例として、各マイクロフォンアレイ1004a、...、zは、環境内の話者(または他の所望の音源)に関連する音を検出し、それぞれの座標系での話者の位置を決定し得る。各マイクロフォンアレイ1004a、...、zは、それぞれの座標系での話者の位置をアグリゲータユニット1005に送信し得る。
【0070】
したがって、アグリゲータユニット1005は、各マイクロフォンアレイ1004a、...、zから、(1)カメラ1012の位置、(2)各マイクロフォンアレイ1004a、...zのローブ位置、および/または(3)話者の位置を受信し得る。アグリゲータユニット1005によって受信される位置は、各マイクロフォンアレイ1004a、...zのそれぞれの座標系でのものであり得る。アグリゲータユニット1005は、カメラ1012の位置を、(それぞれの座標系での)各マイクロフォンアレイ1004a、...、zから、カメラ1012に関する座標系での各マイクロフォンアレイ1004a、...、zの位置に変換し得る。アグリゲータユニット1005はまた、ローブおよび話者の位置を、カメラ1012に関する座標系に変換し得る。アグリゲータユニット1005は、適切なアプリケーションプログラミングインターフェース(API)を介する照会などに応答して、カメラコントローラ1006および/またはカメラ1012に変換後の位置を送信し得る。カメラコントローラ1006は、たとえば、最適化されたカメラプリセットを生成して、より正確な話者のズーミング、パニング、および/またはフレーミングを可能にするために、カメラ1012に関する座標系でのマイクロフォンアレイ1004a、...、z、ローブ、および/または話者の位置を利用し得る。
【0071】
図11は、それぞれの座標系での複数のマイクロフォンアレイからのカメラ、ローブ位置、および話者位置を集約し、共通座標系に変換するためのプロセス1100を示す。実施形態では、プロセス1100は、複数のマイクロフォンアレイからカメラ位置、ローブ位置、および話者位置を収集するアグリゲータユニット(たとえば、アグリゲータユニット1005)によって実施され得る。別の実施形態では、プロセス1100が、他のマイクロフォンアレイからカメラ位置、ローブ位置、および話者位置を収集するために、マイクロフォンアレイのうちの1つによって実施され得る。
【0072】
(1)カメラ、(2)各マイクロフォンアレイのローブ、および(3)各マイクロフォンアレイによって検出された話者の位置は、それぞれのマイクロフォンアレイに対する座標系でのものであり得る。プロセス1100は、それぞれのマイクロフォンアレイの座標系から、カメラに対する座標系などの共通座標系に位置を変換し得る。ステップ1102では、カメラ、ローブ、および/または話者の位置、ならびにたとえばマイクロフォンアレイのどのローブがアクティブであるかを示すローブ活動情報が、マイクロフォンアレイのそれぞれから受信され得る。
【0073】
ステップ1104では、カメラ、ローブ、および/または話者の位置が、それぞれのマイクロフォンアレイに対する座標系から、カメラに対する座標系に変換され得る。具体的には、それぞれのマイクロフォンアレイに対する座標系でのカメラの位置が、カメラに関する各マイクロフォンアレイの位置に変換され得る。ローブおよび話者の位置が、それぞれのマイクロフォンアレイに対する座標系から、カメラに対する座標系に変換され得る。ステップ1106では、カメラ212に対する座標系でのマイクロフォンアレイ、ローブ、および話者の位置が、カメラ212に送信され得る。ローブ活動情報も、ステップ1106でカメラ212に送信され得る。
【0074】
図12は、
図9の環境900内に示される会議システムと共に使用可能なシステム1200のブロック図を示す。システム1200は、環境900内の物体および話者の位置を検出し、1つまたは複数のカメラ1212a、...z(たとえば、
図9のカメラ912)で容易に使用可能な共通座標系に変換し得るマイクロフォンアレイ1204(たとえば、
図9のマイクロフォンアレイ904)を含み得る。カメラ1212a、...、zは、環境900の画像および/またはビデオを取り込み得る。
【0075】
カメラコントローラ1206は、マイクロフォンアレイ1204、マイクロフォンアレイ1204のローブ、および話者の位置を受信し得、位置は、マイクロフォンアレイ1204によって共通座標系に変換されている。カメラコントローラ1206は、特定の位置、たとえばアクティブな話者が配置される場所の画像および/またはビデオを取り込むためにカメラ1212a、...、zのうちのどれを利用するかを選択し得る。カメラコントローラ1206による、利用するカメラ1212a、...、zの選択は、マイクロフォンアレイ1204、マイクロフォンアレイ1204のローブ、および話者の受信された位置のうちの1つまたは複数に基づき得る。カメラコントローラ1206はまた、適切な信号をカメラ1212a、...、zに供給して、たとえばカメラ1212a、...、zを移動および/またはズーミングさせ得る。システム1200の構成要素は、システム1200の他の構成要素とワイヤードおよび/またはワイヤレス通信し得る。
【0076】
図13は、カメラコントローラ、たとえばカメラコントローラ1206が、カメラ、たとえばカメラ1212a、...、zを選択し、共通座標系でのマイクロフォンアレイ位置、ローブ位置、および/または話者位置に基づいて、カメラに関連するパラメータに対する調節を決定するためのプロセス1300を示す。カメラコントローラ1206はまた、マイクロフォンアレイ1204からのローブ活動情報を利用し得る。カメラに関連するパラメータに対する調節は、たとえば、画像および/またはビデオのアングル、チルト、ズーム、またはフレーミングに対する調節を含み得る。
【0077】
ステップ1302では、カメラコントローラ1206は、マイクロフォンアレイ1204の位置、マイクロフォンアレイ1204のローブの位置、および/またはマイクロフォンアレイ1204によって検出された話者の位置のうちの1つまたは複数を受信し得る。ローブ活動情報も、ステップ1302でカメラコントローラ1206によって受信され得る。ステップ1302で受信された位置は、カメラ1212a、...、zのすべてによって使用可能である共通座標系でのものであり得る。たとえば、共通座標系は、カメラ1212a、...、zのうちの1つ(たとえば、部屋の正面のカメラ)に対するものであり得、または部屋の特定の部分(たとえば、部屋のコーナ)に対するものであり得る。
【0078】
ステップ1304では、カメラコントローラ1206は、ステップ1302で受信された位置および/またはローブ活動情報に基づいて、利用するカメラ1212a、...、zのうちの1つを選択し得る。たとえば、選択されるカメラ1212a、...、zは、アクティブな話者に最も近いカメラ1212a、...、z、アクティブな話者に対して既にズームインされているカメラ1212a、...、z、またはアクティブな話者の顔を取り込むために最良に利用され得るカメラ1212a、...、zであり得る。ステップ1306では、カメラコントローラ1206は、ステップ1302で受信された位置および/またはローブ活動情報に基づいて、ステップ1304で選択されたカメラに対する1つまたは複数の調節を生成し得る。カメラコントローラ1206は、選択されたカメラ1212a、...、zのパラメータを制御および調節して、カメラ1212a、...zによって取り込まれた画像および/またはビデオを変更することに進み得る。
【0079】
実施形態では、カメラ1212a、...、zのうちの1つまたは複数は、マイクロフォンアレイ1204を検出し、カメラ1212a、...、zのそれぞれに関する座標系でのマイクロフォンアレイ1204の位置を決定し得る。たとえば、カメラ1212a、...、zは、画像認識技法、人工知能技法、および/または視覚的標識もしくはマーカを利用して、マイクロフォンアレイ1204の位置を検出し得る。それぞれのカメラ座標系でのマイクロフォンアレイ1204の位置に基づいて、それぞれのカメラ座標系でのマイクロフォンアレイ1204の位置を、カメラ1212a、...、zのすべてにとって既知の共通座標系でのマイクロフォンアレイ1204の位置に変換することなどによって、マイクロフォンアレイ1204の位置が決定され得る。カメラ1212a、...、zのうちの1つまたは複数のパラメータが、共通座標系でのマイクロフォンアレイ1204の位置に基づいて、所望の画像および/またはビデオを取り込むように調節および制御され得る。
【0080】
本明細書での説明は、本発明の原理に従って本発明の1つまたは複数の特定の実施形態を説明し、図示し、例示する。この説明は、本明細書で説明される実施形態に本発明を限定するために与えられるのではなく、本発明の原理を当業者が理解することを可能にし、その理解と共に、本発明の原理を適用して、本明細書で説明される実施形態だけではなく、こうした原理に従って思い浮かび得る他の実施形態も実施することができるように本発明の原理を説明し、教示するために与えられる。本発明の範囲は、文字通りに、または均等論の下で添付の特許請求の範囲の範囲内に含まれ得るようなすべての実施形態を包含するものとする。
【0081】
説明および図面では、同様の、またはほぼ同様の要素が同一の参照番号が付けられ得ることに留意されたい。しかしながら、時には、たとえば異なる番号付けがより明快な説明を促進するケースなどで、こうした要素に異なる番号が付けられ得る。さらに、本明細書で説明される図面は、必ずしも原寸に比例せず、ある場合には、ある特徴をより明確に示すために比率が誇張されていることがある。そのような番号付けおよび図面の慣行は、基礎となる実質的な目的を必ずしも含意するわけではない。前述のように、本明細書は、全体として理解され、本明細書で教示され、当業者に理解される本発明の原理に従って解釈されるものとする。
【0082】
任意のプロセス説明または図でのブロックは、プロセスでの特定の論理機能またはステップを実施するための1つまたは複数の実行可能命令を含むモジュール、セグメント、またはコードの部分を表すと理解されるべきであり、当業者によって理解されるように、関係する機能に応じて、ほぼ同時、または逆の順序を含めて、図示され、または論じられるのとは異なる順序で機能が実行され得る、代替実施が本発明の実施形態の範囲内に含まれる。
【0083】
本開示は、本開示の真の、所期の、適正な範囲および趣旨を限定するためではなく、技術に従って様々な実施形態をどのように作り、使用するかを説明するためのものである。上記の説明は、網羅的なものではなく、開示される厳密な形態に限定されないものとする。上記の教示に照らして修正または変形が可能である。実施形態は、記載の技術の原理およびその実際の応用の最良の例示を与え、当業者が技術を様々な実施形態で、企図される特定の用途に適合するような様々な修正と共に利用することを可能にするように選ばれ、説明された。すべてのそのような修正および変形、ならびに実施形態のすべての均等物は、適正に、法的に、かつ正当に権利が与えられる幅に従って解釈されるとき、添付の特許請求の範囲によって決定され、特許を求める本願の係属中に補正され得る、実施形態の範囲内にある。
【国際調査報告】