IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

特開2023-136193会議システムの処理方法及び会議システム
<>
  • 特開-会議システムの処理方法及び会議システム 図1
  • 特開-会議システムの処理方法及び会議システム 図2
  • 特開-会議システムの処理方法及び会議システム 図3
  • 特開-会議システムの処理方法及び会議システム 図4
  • 特開-会議システムの処理方法及び会議システム 図5
  • 特開-会議システムの処理方法及び会議システム 図6
  • 特開-会議システムの処理方法及び会議システム 図7
  • 特開-会議システムの処理方法及び会議システム 図8
  • 特開-会議システムの処理方法及び会議システム 図9
  • 特開-会議システムの処理方法及び会議システム 図10
  • 特開-会議システムの処理方法及び会議システム 図11
  • 特開-会議システムの処理方法及び会議システム 図12
  • 特開-会議システムの処理方法及び会議システム 図13
  • 特開-会議システムの処理方法及び会議システム 図14
  • 特開-会議システムの処理方法及び会議システム 図15
  • 特開-会議システムの処理方法及び会議システム 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023136193
(43)【公開日】2023-09-29
(54)【発明の名称】会議システムの処理方法及び会議システム
(51)【国際特許分類】
   H04N 23/60 20230101AFI20230922BHJP
   H04N 23/69 20230101ALI20230922BHJP
   H04N 7/15 20060101ALI20230922BHJP
   G10L 21/0272 20130101ALI20230922BHJP
   G10L 17/00 20130101ALI20230922BHJP
【FI】
H04N5/232
H04N5/232 960
H04N7/15
G10L21/0272 100A
G10L17/00 200C
【審査請求】未請求
【請求項の数】17
【出願形態】OL
(21)【出願番号】P 2022041682
(22)【出願日】2022-03-16
(71)【出願人】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110000970
【氏名又は名称】弁理士法人 楓国際特許事務所
(72)【発明者】
【氏名】佐藤 航一郎
【テーマコード(参考)】
5C122
5C164
【Fターム(参考)】
5C122DA08
5C122EA61
5C122EA65
5C122FH11
5C122FH14
5C122FJ02
5C122FJ09
5C122GC53
5C122HB01
5C122HB05
5C164FA10
5C164VA04S
5C164VA06S
5C164VA33P
(57)【要約】
【課題】ユーザの意図を反映した画像を出力することができる会議システムの処理方法を提供する。
【解決手段】マイクと、カメラと、第1オブジェクトと、処理部とを有し、処理部は、カメラで撮像した画像データを取得し、画像データに含まれる複数のオブジェクトのそれぞれの種類と位置とを検出し、複数のオブジェクトのうち、種類に応じて第1オブジェクトと、第1オブジェクトとは異なる1乃至複数の第2オブジェクトとを特定し、第1オブジェクトの位置と、1乃至複数の第2オブジェクトのそれぞれとの相対位置を算出し、1乃至複数の第2オブジェクトのうち、第1オブジェクトとの相対位置が、所定の条件を満たす第2オブジェクトを選択し、選択した第2オブジェクトを基準にして画像データの画像処理又は前記カメラの制御を行い、画像処理又はカメラの制御が行われた画像データ及びマイクで収音した音の音データに基づく出力データを生成する。
【選択図】図7
【特許請求の範囲】
【請求項1】
マイクと、カメラと、第1オブジェクトと、処理部と、を有する会議システムの処理方法であって、
前記処理部は、
前記カメラで撮像した画像の画像データを取得し、
取得した前記画像データに含まれる複数のオブジェクトのそれぞれの種類と位置とを検出し、
検出された前記複数のオブジェクトのうち、前記種類に応じて前記第1オブジェクトと、前記第1オブジェクトとは異なる1乃至複数の第2オブジェクトとを特定し、
前記第1オブジェクトの位置と、前記1乃至複数の第2オブジェクトのそれぞれとの相対位置を算出し、
前記1乃至複数の第2オブジェクトのうち、前記第1オブジェクトとの前記相対位置が、所定の条件を満たす第2オブジェクトを選択し、
選択した前記第2オブジェクトを基準にして前記画像データの画像処理又は前記カメラの制御を行い、
前記画像処理又は前記カメラの制御が行われた前記画像データ及び前記マイクで収音した音の音データに基づく出力データを生成する、
会議システムの処理方法。
【請求項2】
前記処理部は、
前記第1オブジェクトと、前記1乃至複数の第2オブジェクトのそれぞれとの距離を算出し、
前記第1オブジェクトからの前記距離が、所定の範囲内の第2オブジェクトを選択する、
請求項1に記載の会議システムの処理方法。
【請求項3】
前記第1オブジェクトは、ユーザによる操作を受け付ける操作部を含み、
前記処理部は、前記操作部で受け付けた前記操作をトリガに、前記第2オブジェクトを選択する、
請求項1又は2に記載の会議システムの処理方法。
【請求項4】
前記1乃至複数の第2オブジェクトの種類を選択する選択操作を受け付け、
前記処理部は、前記選択操作によって選択された種類に属する1乃至複数の第2オブジェクトのうち、前記所定の条件を満たす第2オブジェクトを選択する、
請求項1乃至3の何れかに記載の会議システムの処理方法。
【請求項5】
選択した前記第2オブジェクトを追尾する追尾操作を受け付け、
前記処理部は、
前記追尾操作の対象となる第2オブジェクトの動きに応じて前記出力データを生成する、
請求項1乃至4の何れかに記載の会議システムの処理方法。
【請求項6】
前記処理部は、前記第2オブジェクトを拡大する画像処理を行う、
請求項1乃至5の何れかに記載の会議システムの処理方法。
【請求項7】
選択された前記第2オブジェクトの方向に前記マイクの指向性を向ける、
請求項1乃至6の何れかに記載の会議システムの処理方法。
【請求項8】
話者を認識し、
認識した前記話者の方向に前記マイクの指向性を向ける、
請求項1乃至6の何れかに記載の会議システムの処理方法。
【請求項9】
マイクと、カメラとを有する会議システムであって、
前記マイクで収音した音声データを取得し、
前記カメラで撮像した画像データを取得し、
取得した前記画像データに含まれる複数のオブジェクトのそれぞれの種類と位置とを検出し、
検出された前記複数のオブジェクトのうち、前記種類に応じて第1オブジェクトと、前記第1オブジェクトとは異なる1乃至複数の第2オブジェクトとを特定し、
前記第1オブジェクトの位置と、前記1乃至複数の第2オブジェクトのそれぞれとの相対位置を算出し、
前記1乃至複数の第2オブジェクトのうち、前記第1オブジェクトとの前記相対位置が、所定の条件を満たす第2オブジェクトを選択し、
選択した前記第2オブジェクトを基準にして前記画像データの画像処理又は前記カメラの制御を行い、
前記画像処理又は前記カメラの制御が行われた前記画像データ及び前記マイクで収音した音の音データに基づく出力データを生成する、
処理部を、
を備える、
会議システム。
【請求項10】
前記処理部は、
前記第1オブジェクトと、前記1乃至複数の第2オブジェクトのそれぞれとの距離を算出し、
前記第1オブジェクトからの前記距離が、所定の範囲内の第2オブジェクトを選択する、
請求項9に記載の会議システム。
【請求項11】
ユーザによる操作を受け付ける操作部を含む第1オブジェクトを備え、
前記処理部は、前記操作部で受け付けた前記操作をトリガに、前記第2オブジェクトを選択する、
請求項9又は10に記載の会議システム。
【請求項12】
前記操作部は、前記1乃至複数の第2オブジェクトの種類を選択する選択操作を受け付け、
前記処理部は、前記選択操作によって選択された種類に属する1乃至複数の第2オブジェクトのうち、前記所定の条件を満たす第2オブジェクトを選択する、
請求項11に記載の会議システム。
【請求項13】
前記操作部は、選択した前記第2オブジェクトを追尾する追尾操作を受け付け、
前記処理部は、前記追尾操作の対象となる第2オブジェクトの動きに応じて前記出力データを生成する、
請求項11又は12に記載の会議システム。
【請求項14】
前記処理部は、前記第2オブジェクトを拡大する画像処理を行う、
請求項9乃至13の何れかに記載の会議システム。
【請求項15】
前記処理部は、選択された前記第2オブジェクトの方向に前記マイクの指向性を向ける、
請求項9乃至14の何れかに記載の会議システム。
【請求項16】
話者を認識し、
前記処理部は、認識した前記話者の方向に前記マイクの指向性を向ける、
請求項9乃至14の何れかに記載の会議システム。
【請求項17】
前記出力データを遠端側の機器に送信し、及び、前記遠端側の機器から前記画像データ及び前記音声データの少なくとも一方を含むデータを受信する通信部を備える、
請求項9乃至16の何れかに記載の会議システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の一実施形態は、会議システムの処理方法及び会議システムに関する。
【背景技術】
【0002】
特許文献1には、カメラで撮像した画像から、画像に映る対象物として、人物(参加者)の顔、ホワイトボード、及び特定対象物の検出を行う端末装置がある。特許文献1に記載の端末装置は、人物の顔、ホワイトボード、及び特定対象物の優先順位を自動で検出し、優先順位の高い対象物に応じた画像補正を決定する。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2013-16933号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1の端末装置は、ユーザの意図とは関係なく、自動で対象物(オブジェクト)の優先順位を決定し、優先順位の高いものを優先して画像を補正していた。このように、自動でオブジェクトを検出する装置又は方法は、ユーザの意図を反映した画像を生成することができなかった。
【0005】
本発明の一実施形態は、オブジェクトを自動検出した場合であってもユーザの意図を反映した画像を出力することができる会議システムの処理方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の一実施形態に係る会議システムの処理方法は、マイクと、カメラと、第1オブジェクトと、処理部と、を有する会議システムの処理方法であって、前記処理部は、前記カメラで撮像した画像の画像データを取得し、取得した前記画像データに含まれる複数のオブジェクトのそれぞれの種類と位置とを検出し、検出された前記複数のオブジェクトのうち、前記第1オブジェクトと、前記第1オブジェクトとは異なる1乃至複数の第2オブジェクトとを特定し、前記種類に応じて、前記第1オブジェクトの位置と、前記1乃至複数の第2オブジェクトのそれぞれとの相対位置を算出し、前記1乃至複数の第2オブジェクトのうち、前記第1オブジェクトとの前記相対位置が、所定の条件を満たす第2オブジェクトを選択し、選択した前記第2オブジェクトを基準にして前記画像データの画像処理又は前記カメラの制御を行い、前記画像処理又は前記カメラの制御が行われた前記画像データ及び前記マイクで収音した音の音データに基づく出力データを生成する。
【発明の効果】
【0007】
本発明の一実施形態によれば、オブジェクトを自動検出した場合であってもユーザの意図を反映した画像を出力することができる。
【図面の簡単な説明】
【0008】
図1】会議システムの構成及び端末の構成の一例を示すブロック図である。
図2】会議の様子をカメラで撮影した画像の一例を示す図である。
図3】PCの構成の一例を示すブロック図である
図4】リモコンの構成の一例を示すブロック図である
図5】操作部の概略外観図である。
図6】処理部の機能的構成を示すブロック図である。
図7】処理部の動作(画像生成処理)の一例を示すフローチャートである。
図8】オブジェクトの境界ボックスを表示した画面である。
図9】第2オブジェクト(試作品)を基準にした画像の一例である。
図10】変形例1の操作部の概略外観図である。
図11】変形例1の処理部の機能的構成を示すブロック図である。
図12】変形例2の操作部の概略外観図である。
図13】変形例2の処理部の動作の一例を示すフローチャートである。
図14】変形例3の端末の構成を示すブロック図である。
図15】変形例3の処理部の機能的構成を示すブロック図である。
図16】変形例4の処理部の機能的構成を示すブロック図である。
【発明を実施するための形態】
【0009】
[実施形態1]
以下、実施形態1に係る会議システム100について、図1図2図3図4図5図6図7図8及び図9を参照して説明する。図1は、会議システム100の構成及び端末1の構成の一例を示すブロック図である。図2は、カメラ14で撮影した画像の一例を示す図である。会議システム100は、遠隔地のPC等の情報処理装置と接続してWeb会議を行うためのシステムである。会議システム100は、端末1と、PC2と、リモートコントローラ3と、を備えている。リモートコントローラ3(以下リモコン3と称す)は、端末1を制御するためのものである。この例でいうリモコン3は、本発明の第1オブジェクトの一例である。
【0010】
端末1は、図1に示すように、USBI/F11と、処理部12と、スピーカ13と、カメラ14と、通信I/F15と、マイク16とを備えている。
【0011】
カメラ14は、参加者p1、参加者p2、及び参加者p3が会議室で会議に参加している様子を撮像している。図2で示す例では、カメラ14は、会議に参加する参加者p1、参加者p2、参加者p3、と、参加者p1、参加者p2及び参加者p3が囲むデスクの上にあるPC2、リモコン3及び試作品4(ヘッドホン)を撮像している。
【0012】
マイク16は、会議室の音を収音する。より具体的には、マイク16は、話者の音声を収音する。
【0013】
USBI/F11は、PC2と接続されている。USBI/F11は、カメラ14で撮像した画像の画像データ及びマイク16で収音した音声の音データをPC2に送信する。USBI/F11は、PC2によって受信された遠端側からの音データを、PC2から受信する。スピーカ13は、USBI/F11を介して受信した音データに基づいて放音する。
【0014】
通信I/F15は、Bluetooth(登録商標)、又は、WiFi(登録商標)等の無線通信、又は有線でリモコン3と接続される。通信I/F15は、リモコン3が受け付けた種々の操作に応じたデータを受信する。
【0015】
処理部12は、例えば、CPUからなり、端末1の動作を統括的に制御する。処理部12の詳細な説明は後述する。
【0016】
PC2は、汎用のパーソナルコンピュータである。図3は、PC2の構成の一例を示すブロック図である。PC2は、図3に示すように、CPU21と、フラッシュメモリ22と、RAM23と、ユーザI/F24と、USBI/F25と、通信部26と、表示器27とを備えている。
【0017】
通信部26は、無線LAN又は有線LANのネットワークインタフェースであり、ネットワークを介して遠隔地のPCに接続される。PC2は、遠隔地にあるPCに、端末1で撮像した画像(図2参照)の画像データ及び収音した音声の音データを、通信部26を介して、送信する。また、PC2は、遠隔地にあるPCから、遠隔地で撮像された画像の画像データ及び収音された音声の音データを、通信部26を介して受信する。
【0018】
CPU21は、フラッシュメモリ22からWeb会議用のプログラムをRAM23に読み出すことにより、遠隔地のPCにネットワークを介して接続してWeb会議を行う。ユーザI/F24は、マウス及びキーボード等を含み、参加者の操作を受け付ける。参加者は、ユーザI/F24を介して例えばWeb会議用のプログラムを起動する指示を行う。
【0019】
USBI/F25は、端末1に接続される。PC2は、USBI/F25を介して端末1から音データ及び画像データを含む出力データを受信する。
【0020】
PC2は、遠隔地のPCから受信した画像データ及び端末1から受信した画像データに基づいて、表示器27にWeb会議に係る映像を表示する。
【0021】
リモコン3について図4及び図5を参照して説明する。図4は、リモコン3の構成の一例を示すブロック図である。図5は、操作部32の概略外観図である。リモコン3は、図4に示すように、通信I/F31と、操作部32と、マイコン33とを備えている。
【0022】
通信I/F31は、Bluetooth(登録商標)、WiFi(登録商標)の無線通信又は有線の通信手段によって、端末1に接続される。
【0023】
操作部32は、参加者からの操作を受け付ける。操作部32は、一例としてタッチパネル式の複数のキーを有する。操作部32は、図5に示すように、電源オン/オフキー320、方向キー321、322、323、324と、ズームキー325と、音量キー326と、モード切替キー327とを備えている。操作部32は、受け付けた操作に応じたデータを通信I/F31を介して端末1に送信する。端末1の処理部12は、操作部32が受け付けた操作に応じて、種々の処理を行う。
【0024】
電源オン/オフキー320は、タッチ操作により、リモコン3の電源のオンオフ(スタンバイのオンオフも含む)を切り替える。
【0025】
方向キー321、322、323、324は、カメラ14の撮像方向を変更するためのキーである。上方向を示す方向キー321及び下方向を示す方向キー322は、チルト機能に対応する。左方向を示す方向キー323及び右方向を示す方向キー324は、パン機能に対応する。すなわち、処理部12は、方向キー321、322、323、324の操作に応じて、パン、又はチルト機能を実行する。ズームキー325は、ズームインの「+」及びズームアウトの「-」キーを有する。ズームキー325は、カメラ14の撮像範囲の変更を受け付ける。すなわち、処理部12は、ズームキー325の操作に応じて、撮像範囲を変更する。
【0026】
音量キー326は、スピーカ13の音量の変更を受け付ける。すなわち、処理部12は、音量キー326の操作に応じて、スピーカ13の音量レベルを変更する。
【0027】
モード切替キー327は、会議室全体を撮像するディフォルトモードと、方向キー321、322、323、324及びズームキー325が操作されることで撮像方向を変更する手動モードと、自動でオブジェクトを検出する自動オブジェクト検出モードとに切り替える切替操作を受け付ける。言い換えると、処理部12は、モード切替キー327がタップされる毎に、ディフォルトモードと、手動モードと、自動オブジェクト検出モードとを切り替える。処理部12は、モード切替キー327の操作をトリガに、ディフォルトモードから自動オブジェクト検出モードに切り替えて、参加者が所望するオブジェクト(この例では試作品4)を基準にした画像の画像データを生成する。
【0028】
ここでいう、オブジェクトとは、例えば、「リモコン」及び「リモコン以外の物体」を含む。言い換えると、「リモコン」及び「リモコン以外の物体」はオブジェクトの種類である。また、ここでいう物体とは、人物、例えば、参加者p1、参加者p2及び参加者p3、と、人物以外の物、例えば、PC2及び試作品4、を含む。
【0029】
自動オブジェクト検出モードについて、詳細に説明する。会議システム100において、参加者は、会議室全体を撮像したディフォルトモードの画像(図2を参照)から、所望するオブジェクト(例えば、試作品4)を基準にした画像の画像データを遠隔地のPCに送信したい場合がある。より詳細には、参加者は、試作品4を画面の中心に配置し、かつ試作品4の画像を拡大した画像データを生成したい場合がある。この場合、参加者は、リモコン3を試作品4の近くに配置する。
【0030】
会議システム100において、リモコン3は、端末1に付随するものである。よって、リモコン3は、端末1に予め外観が特定されている。端末1は、検出した複数のオブジェクトのうち、リモコン3を第1オブジェクトとして特定する。一方、端末1が予め外観を特定していない「リモコン以外の物体」は、全て第2オブジェクトとして特定される。端末1は、リモコン3(第1オブジェクト)の近くに配置された第2オブジェクトを選択し、選択された第2オブジェクトを基準に画像データを生成する。ここでいう、「第1オブジェクトを特定する」とは、端末1に予め特定されている物体を認識することである。
【0031】
以下に、試作品4を基準にした画像データを含む出力データの生成処理における端末1の処理部12の機能及び動作について、詳細に説明する。図6は、端末1の処理部12の機能的構成を示すブロック図である。図7は、処理部12の動作(出力データ生成処理)の一例を示すフローチャートである。図8は、オブジェクトの境界ボックスを表示した画面である。
【0032】
処理部12は、図6に示すように、画像取得部121と、オブジェクト検出部122と、オブジェクト特定部123と、相対位置算出部124と、オブジェクト選択部125と、画像データ生成部126と、出力データ生成部127と、を機能的に含んでいる。画像取得部121と、オブジェクト検出部122と、オブジェクト特定部123と、相対位置算出部124と、オブジェクト選択部125と、画像データ生成部126と、出力データ生成部127とが、出力データ生成処理を実行する。
【0033】
画像取得部121は、カメラ14で撮像した画像の画像データを取得する(S11)。オブジェクト検出部122は、取得した画像データに含まれる複数のオブジェクト(参加者p1、参加者p2、参加者p3、PC2、リモコン3及び試作品4)を検出する(S12)。オブジェクト検出部122は、図2で示される画像の画像データから、参加者p1、参加者p2、参加者p3の顔認識処理を行う。該認識処理は、例えばニューラルネットワーク等を用いた所定のアルゴリズムを用いることにより、顔の位置を認識する。また、オブジェクト検出部122は、PC2、リモコン3及び試作品4の認識処理を行う。物の認識処理も、例えばニューラルネットワーク等を用いた所定のアルゴリズムを用いることにより、PC4、リモコン3、及び試作品4の検出を行う。
【0034】
オブジェクト検出部122は、検出したオブジェクトのそれぞれの種類及び位置を検出する(S13)。この例において、オブジェクト検出部122は、検出したオブジェクトそれぞれにラベリングする。ラベリングするとは、例えば、検出したオブジェクトに名前を対応付けて、記憶することである。より具体的には、オブジェクト検出部122は、参加者p1、参加者p2、及び参加者p3を「人物」としてラベリングする。また、オブジェクト検出部122は、リモコン3を「端末1のリモコン」としてラベリングする。さらに、オブジェクト検出部122は、PC2を「PC」としてラベリングする。また、オブジェクト検出部122は、試作品4を「ヘッドホン」としてラベリングする。
【0035】
オブジェクト特定部123は、検出された6つのオブジェクト(参加者p1、参加者p2、参加者p3、PC2、リモコン3、及び試作品4)のうち、第1オブジェクトと第2オブジェクトを特定する。オブジェクト特定部123は、「端末1のリモコン」であるリモコン3を第1オブジェクトとして特定する。また、オブジェクト特定部123は、第1オブジェクトとは異なるオブジェクト(「人物」、「PC」、及び「ヘッドホン」)である参加者p1、参加者p2、参加者p3、PC2及び試作品4を第2オブジェクトとして特定する(S14)。
【0036】
また、オブジェクト検出部122は、S12において検出したオブジェクトのそれぞれの位置(例えば、ピクセルのX,Y座標)を検出する。ここでいうオブジェクトとの位置とは、図8に示すように、例えば、四角で示す境界ボックス(Bounding Box)の中心の座標である。なお、境界ボックスは、顔を認証した場合、人物の顔の位置を含む範囲に設定される。また、オブジェクトが物の場合、境界ボックスは、人物以外の物を認証すれば、物全体を囲むように設定される。
【0037】
相対位置算出部124は、オブジェクト検出部122が検出した位置から、リモコン3(第1オブジェクト)と参加者p1、参加者p2、及び参加者p3、PC2及び試作品4(第2オブジェクト)のそれぞれとの相対位置(位置関係)を算出する(S15)。相対位置の算出方法を、より詳細に、図8で示される破線d1、d2、d3で説明する。破線d1は、第1オブジェクトであるリモコン3を囲む境界ボックスの中心(ピクセルの座標:x1,y1)と、試作品4を囲む境界ボックスの中心(ピクセルの座標:x2,y2)とを結ぶ。破線d2は、リモコン3を囲む境界ボックスの中心(ピクセルの座標:x1、y1)と、PC2を囲む境界ボックスの中心(ピクセルの座標:x3,y3)とを結ぶ。破線d3は、リモコン3を囲む境界ボックスの中心(ピクセルの座標:x1、y1)と、参加者p1との顔を含む境界ボックスの中心(ピクセルの座標:x4、y4)とを結ぶ。相対位置算出部124は、破線d1、d2、d3の長さを、ピクセルの座標から算出する。言い換えると、相対位置算出部124は、第1オブジェクト(リモコン3)と第2オブジェクトのそれぞれとの距離を算出する。なお、端末1は、破線d1、d2、d3を画面上に表示する必要はない。
【0038】
オブジェクト選択部125は、算出された相対位置からリモコン3と最も近い試作品4を選択する(S16)。言い換えると、オブジェクト選択部125は、破線d1、d2、d3の長さを比較して、リモコン3と最も長さが短い破線で結ばれているオブジェクトを選択する。画像データ生成部126は、選択した試作品4を基準にして、画像データの画像処理を行う(S17)。
【0039】
図9は、試作品4を基準にした画像の一例である。より具体的には、画像データ生成部126は、図9に示すように、試作品4が画面の中央になるように、かつ、試作品4の画像を拡大するように、画像処理を行う。画像データ生成部126は、例えば、試作品4が画面の中央になるようにパン、チルトを行う。画像データ生成部126は、さらに、試作品4の画面内の占有率が所定比率(例えば50%)になるように、ズーミングを行う。これにより、画像データ生成部126は、試作品4を画面の中心に所定比率で表示した画像データを生成する。ここでいう、含有率は、例えば、境界ボックス内のピクセル数/画面全体のピクセル数で表される。
【0040】
出力データ生成部127は、画像処理が行われた画像データ及びマイク16で収音した音の音データに基づく出力データを生成する(S18)。
【0041】
従来の会議システムにおいても、自動でオブジェクトを検出する機能があった(いわゆる自動フレーミングモード)。自動フレーミングモードでは、人物の顔を大きく写すために、顔認証によって人物の顔を認識し、認識した人物の顔を基準に画像データを生成していた。このように、従来の会議システムでは、自動で参加者(人物)の顔を認識していた。ここで、参加者が、人物以外のオブジェクトを基準に画像データを生成したい場合に、従来の会議システムは、参加者がどのオブジェクトを基準にした画像データを生成したいのか、判断することができなかった。
【0042】
これに対して、本実施形態の会議システム100は、予め端末1に特定されているリモコン3を「リモコン(第1オブジェクト)」、として特定する、また、会議システム100は、リモコン3以外の物体を「リモコン以外の物体(第2オブジェクト)」として特定する。ここで、会議システム100は、「リモコン」に最も近い「リモコン以外の物体」を基準に画像データを生成する。これにより、会議システム100は、「リモコン」の近くにある、人物以外の物を基準に画像データを生成することができる。すなわち、会議システム100は、予め端末1によって特定されていない物体(第2オブジェクト)であっても、該物体がリモコン3の近くにあれば、この物体を画面の中心になるように、かつ拡大した画像データを生成することができる。したがって、会議システム100は、複数のオブジェクトを自動検出した場合であっても、ユーザの意図を反映した画像を出力することができる。
【0043】
また、会議システム100は、操作部32の操作を受け付けることで、参加者が所望するタイミングで、参加者p1、参加者p2、参加者p3、PC2、リモコン3及び試作品4を含む会議室全体を撮像した画像と、選択した第2オブジェクト(試作品4)に基づいた画像とを容易に切り替えることができる。
【0044】
なお、上述の例では、処理部12は、画像データ生成部126により選択された第2オブジェクト(上述の例では、試作品4)を基準にした画像データを生成するために画像処理を行う例を示した。しかし、画像データ生成部126は、選択された第2オブジェクトを基準にした画像データを生成するためにカメラ14を制御してもよい。この場合も、画像データ生成部126は、例えば、パン、チルト又はズームによるフレーミングを行う。例えば、図9に示すように、試作品4が画面の中心になるように、カメラ14を制御してパン及びチルトを行う。そして、画像データ生成部126は、試作品4の画面内の占有率が所定比率(例えば50%)になるように、カメラ14を制御してズームを行う。
【0045】
[変形例1]
変形例1の会議システム100について、図10及び図11を参照して説明する。図10は、変形例1の操作部32の概略外観図である。図11は、変形例1の処理部12の機能的構成を示すブロック図である。
【0046】
変形例1の端末1は、複数の第2オブジェクトの種類のうち、基準にする種類の第2オブジェクトを選択する。ここでいう「基準にする種類」とは、第2オブジェクトであって、「人物」又は「人物以外の物」である。すなわち、変形例1では、複数の第2オブジェクトは、「人物」又は「人物以外の物」に分別される。「人物」は、図2で示される画像において、参加者p1、参加者p2、及び参加者p3である。また、「人物以外の物」は、図2で示される画像において、PC2及び試作品4である。変形例1の端末1は、種類を選択する選択操作を受け付ける。さらに、変形例1の端末1は、該選択操作によって選択された「リモコン以外の物体」である1乃至複数の第2オブジェクトのうち、所定の条件を満たす第2オブジェクトを選択する。なお、実施形態1と同じ構成については、同じ符号を付して説明を省略する。
【0047】
リモコン3の操作部32は、図10に示すように、オブジェクト種類切替キー328を備えている。オブジェクト種類切替キー328は、第2オブジェクトのうち、基準にする種類を切り替える切替操作を受け付ける。言い換えると、オブジェクト種類切替キー328は、基準にしたい種類を「人物」又は「人物以外の物」に切り替える切替操作を受け付ける。オブジェクト特定部123は、図11に示すように、オブジェクト種類切替キー328がタップされる毎に、第2オブジェクトのうち基準にする種類を、「人物」又は「人物以外の物」に切り替える。この例でいう「人物」とは、参加者p1、参加者p2、及び参加者p3である。また、この例でいう「人物以外の物」とは、PC2及び試作品4である。
【0048】
オブジェクト検出部122は、図2の画像の画像データから、参加者p1、参加者p2、参加者p3、PC2、リモコン3及び試作品4をオブジェクトとして検出する。オブジェクト特定部123は、第1オブジェクトをリモコン3として特定する。また、オブジェクト特定部123は、参加者p1、参加者p2、参加者p3、PC2及び試作品4を第2オブジェクトとして特定する。さらに、オブジェクト特定部123は、参加者p1、参加者p2、及び参加者p3を「人物」として特定し、PC2及び試作品4を「人物以外の物」として特定する。
【0049】
また、相対位置算出部124は、オブジェクト特定部123がオブジェクト種類切替キー328の操作により種類を「人物」に切り替えると、リモコン3と、参加者p1、参加者p2、及び参加者p3との相対位置を算出する。オブジェクト選択部125は、算出結果から、例えば、リモコン3の最も近くにいる参加者p1を選択する(図2参照)。
【0050】
また、相対位置算出部124は、オブジェクト特定部123がオブジェクト種類切替キー328の操作により、種類を「人物以外の物」に切り替えると、リモコン3と、PC2及び試作品4の相対位置を算出する。オブジェクト選択部125は、算出結果から、例えば、リモコン3の最も近くにある試作品4を選択する(図2参照)。
【0051】
このように、変形例1の会議システム100は、オブジェクト種類切替キー328の操作により、第2オブジェクトのうち、基準にする種類を切り替える。したがって、変形例1の会議システム100は、ユーザが所望するタイミングで、リモコン3に最も近い人物を基準にした画像と、リモコン3に最も近い物を基準にした画像とを切り替えることができる。すなわち、変形例1の会議システム100は、オブジェクトを自動検出した場合であっても、ユーザの意図を反映した画像を出力することができる。
【0052】
また、変形例1の会議システム100は、画像から検出した全ての第2オブジェクトと第1オブジェクトとの相対位置を算出する必要がない。これにより、会議システム100は、算出に必要なメモリ領域を軽減することができる。
【0053】
[変形例2]
変形例2の会議システム100について、図12及び図13を参照して説明する。図12は、変形例2の操作部32の概略外観図である。図13は、変形例2の処理部12の動作の一例を示すフローチャートである。変形例2の会議システム100は、選択した第2オブジェクトを追尾する追尾操作を受け付ける。変形例2の会議システム100は、追尾操作の対象となる第2オブジェクトの動きに応じて出力データを生成する。なお、実施形態1と同じ構成については、同じ符号を付して説明を省略する。また、以下の説明では参加者の選択した第2オブジェクトを試作品4として説明する。
【0054】
リモコン3の操作部32は、図12に示すように、追尾機能オンオフキー329を備えている。追尾機能オンオフキー329は、選択した第2オブジェクト(この例では、試作品4)を追尾するか否か選択する操作を受け付ける。画像データ生成部126は、追尾機能オンオフキー329がタップされる毎に、試作品4を追尾する(追尾機能オン)か否(追尾機能オフ)かを切り替える(S21)。画像データ生成部126は、追尾機能がオンになり(S21:Yes)、かつ、参加者が試作品4を動かしていた場合(S22:Yes)、試作品4の移動に合わせて、試作品4が画面の中央になるように、パン、チルト、試作品4の画像が拡大するようにズーム機能を制御する(S23)。言い換えると、画像データ生成部126は、モード(ディフォルトモード、手動モード、自動オブジェクト検出モード)が自動オブジェクト検出モードに切り替えられた時に選択した第2オブジェクトを、該第2オブジェクトの動きに応じて追従する画像処理を行う。
【0055】
また、画像データ生成部126は、追尾機能がオフであれば(S21:No)、モード(ディフォルトモード、手動モード、自動オブジェクト検出モード)が自動オブジェクト検出モードに切り替えられた時のフレーミングを維持する。すなわち、画像データ生成部126は、モードが自動オブジェクト検出モードに切り替えられた時の画像処理に係る設定を維持する。したがって、画像データ生成部126は、追尾機能がオフであれば、例えば、参加者が試作品4を動かした場合であってもパン、チルト、及びズームを変化させない。
【0056】
変形例2の会議システム100は、追尾機能オンの状態であれば、選択された第2オブジェクト(試作品4)の動きに合わせて、画像処理を行う。これにより、会議システム100は、試作品4が移動している場合でも、試作品4の移動に伴って、試作品4を基準にした画像データを生成することができる。
【0057】
なお、変形例2では、選択した第2オブジェクト(上述の例では、試作品4)を基準にした画像データを生成するために画像処理を行う例を示した。しかし、画像データ生成部126は、選択した第2オブジェクトを基準にした画像データを生成するためにカメラ14を制御してもよい。この場合も、画像データ生成部126は、例えば、パン、チルト又はズームによるフレーミングを行う。例えば、図9に示すように、試作品4が画面の中心になるように、カメラ14を制御してパン、チルト及びズームを行う。
【0058】
[変形例3]
変形例3の端末1Aについて、図14及び図15を参照して説明する。図14は、変形例3の端末1Aの構成を示すブロック図である。図15は、変形例3の処理部12Aの機能的構成を示すブロック図である。変形例3の会議システム100は、第2オブジェクトの方向にマイク16Aの指向性を向ける。なお、実施形態1と同じ構成については、同じ符号を付して説明を省略する。
【0059】
端末1Aは、図14に示すように、マイク16Aを備えている。マイク16Aは、複数のマイク160を有するマイクロフォンアレイである。また、端末1Aの処理部12は、図15に示すように、指向性制御部128を備える。マイク16Aは、指向性制御部128の制御に従って、複数のマイク160の音信号にそれぞれ所定のディレイを付与して合成する。
【0060】
指向性制御部128は、例えば、複数のマイク160のそれぞれの音信号に付与するディレイ量を変更することで、オブジェクト選択部125が選択した第2オブジェクト(例えば、試作品4)に対応する方向の感度を上げる。言い換えると、指向性制御部128は、複数のマイク160のそれぞれの音信号の位相を制御して、選択した第2オブジェクトに対応する方向の感度を上げる。
【0061】
出力データ生成部127は、選択した第2オブジェクト(例えば、試作品4)を基準にした画像データ及び、マイク16Aで収音した第2オブジェクトの音の音データに基づく出力データを生成する。
【0062】
このように、変形例3の会議システム100は、選択した第2オブジェクト(この例では、試作品4)から放音される音を強調して、不要な音(例えば、エアコンの音等のノイズ)を低減することができる。
【0063】
[変形例4]
変形例4の端末1Aについて、図16を参照して説明する。図16は、変形例4の処理部12Bの機能的構成を示すブロック図である。変形例4の処理部12Bは、話者認識部129を有している点で変形例3の端末1Aの処理部12Aと異なる。変形例4の会議システム100は、話者を認識し、認識した話者の方向にマイク16Aの指向性を向ける。なお、実施形態1又は変形例3同じ構成については、同じ符号を付して説明を省略する。
【0064】
話者認識部129は、図16に示すように、マイク16Aから音信号を取得する。話者認識部129は、取得した音信号から話者を認識する。より詳細には、話者認識部129は、複数のマイク160で取得した音信号の相互相関を求めることにより、話者の音声がマイク160のそれぞれに到達したタイミングを求める。話者認識部129は、複数のマイク160のそれぞれの相対位置及び音声の到達タイミングに基づいて、話者の音声の到来方向を求めることができる。
【0065】
処理部12は、オブジェクト選択部125で選択した第2オブジェクトとは別に、話者認識部129によって話者を認識する。指向性制御部128は、認識された話者の方位に指向性を向けるようにマイク16に対してディレイ設定を行う。
【0066】
出力データ生成部127は、選択した第2オブジェクト(例えば、試作品4)を基準にした画像データ及び、マイク16Aで収音した話者の音声の音声データに基づく出力データを生成する。
【0067】
変形例4の会議システム100は、話者の方向にマイク16Aの指向性を向けることで、選択した第2オブジェクトを基準にした画像の画像データを出力しつつ、話者の声を強調した音声データを生成することができる。また、変形例4の会議システム100は、選択した第2オブジェクト(例えば、試作品4)ではなく、話者にマイク16Aの指向性を向けることで、遠隔値の会議参加者にとって、より会議の内容が理解しやすい出力データを、生成することができる。
【0068】
なお、上述の例では、話者認識部129によって話者を認識する方法として、マイク16Aで収音した音声信号によって話者を認識したがこれに限定されない。話者認識部129は、画像データに基づいて、話者を認定してもよい。この場合、オブジェクト検出部122が検出したオブジェクトのうち、顔認証で認証された顔から口の動きに注目して、話者を認識してもよい。話者認識部129は、例えば、所定の時間において、口が動いている顔を話者として認識してもよい。
【0069】
[その他の変形例]
撮像方向の変更及び撮像範囲の変更は、カメラ14で取得した画像データの画像処理を変更することで行ってもよいし、カメラ14を機械的、光学的に制御することで行ってもよい。
【0070】
なお、PC2と端末1の接続は、USBに限らない。PC2と端末1は、HDMI(登録商標)、LAN、あるいはBluetooth(登録商標)等の他の通信手段で接続されてもよい。
【0071】
操作部32は、タッチパネルに限らず、物理的なキースイッチであってもよい。
【0072】
端末1、1Aは、例えば、一定の間にリモコン3が移動したことを検出すれば、モードを自動オブジェクト検出モードに切り替えてもよい。会議システム100では、例えば、参加者がリモコン3を手で持つ等して移動した場合、端末1、1Aは、リモコン3が所定の時間内に移動したことをトリガに自動オブジェクト検出モードに切り替えてもよい。
【0073】
上述の例では、第1オブジェクト(リモコン3)との相対位置が所定の条件を満たすオブジェクトとして、リモコン3に最も近いオブジェクトを選択したが、これに限定されない。会議システム100は、リモコン3との相対位置において、例えば、画面上においてリモコン3と左右方向に並んでいる第2オブジェクトを選択してもよい。また、会議システム100は、例えば、リモコン3の方向を規定して、規定された方向にある第2オブジェクトを選択してもよい。
【0074】
マイク16は、複数であってもよい。
【0075】
第1オブジェクトは、リモコン3に限定されない。第1オブジェクトは、端末1に付随するものであればよい。また、第1オブジェクトは、例えば、レーザポインタでもよい。この場合、端末1は、レーザポインタを持つ人物を自動的に拡大する。したがって、端末1は、プレゼンテーションを行う人物(参加者)を自動的に拡大することができる。なお、この場合、端末1は、レーザポインタからレーザ(光)を受け付ける受光センサなどを備え、該受光センサによって、レーザを受け付けることで、モードを自動オブジェクト検出モードに切り替えてもよい。
【0076】
本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲を含む。
【符号の説明】
【0077】
1…端末
2…PC(第2オブジェクト)
3…リモコン(第1オブジェクト)
4…試作品(第2オブジェクト)
12…処理部
14…カメラ
16…マイク
26…通信部
100…会議システム
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16