特開2023-136193 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

特開2023-136193会議システムの処理方法及び会議システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023136193

(43)【公開日】2023-09-29

(54)【発明の名称】会議システムの処理方法及び会議システム

(51)【国際特許分類】

H04N 23/60 20230101AFI20230922BHJP

H04N 23/69 20230101ALI20230922BHJP

H04N 7/15 20060101ALI20230922BHJP

G10L 21/0272 20130101ALI20230922BHJP

G10L 17/00 20130101ALI20230922BHJP

【ＦＩ】

H04N5/232

H04N5/232 960

H04N7/15

G10L21/0272 100A

G10L17/00 200C

【審査請求】未請求

【請求項の数】17

【出願形態】ＯＬ

(21)【出願番号】P 2022041682

(22)【出願日】2022-03-16

(71)【出願人】

【識別番号】000004075

【氏名又は名称】ヤマハ株式会社

(74)【代理人】

【識別番号】110000970

【氏名又は名称】弁理士法人楓国際特許事務所

(72)【発明者】

【氏名】佐藤航一郎

【テーマコード（参考）】

5C122

5C164

【Ｆターム（参考）】

5C122DA08

5C122EA61

5C122EA65

5C122FH11

5C122FH14

5C122FJ02

5C122FJ09

5C122GC53

5C122HB01

5C122HB05

5C164FA10

5C164VA04S

5C164VA06S

5C164VA33P

(57)【要約】

【課題】ユーザの意図を反映した画像を出力することができる会議システムの処理方法を提供する。
【解決手段】マイクと、カメラと、第１オブジェクトと、処理部とを有し、処理部は、カメラで撮像した画像データを取得し、画像データに含まれる複数のオブジェクトのそれぞれの種類と位置とを検出し、複数のオブジェクトのうち、種類に応じて第１オブジェクトと、第１オブジェクトとは異なる１乃至複数の第２オブジェクトとを特定し、第１オブジェクトの位置と、１乃至複数の第２オブジェクトのそれぞれとの相対位置を算出し、１乃至複数の第２オブジェクトのうち、第１オブジェクトとの相対位置が、所定の条件を満たす第２オブジェクトを選択し、選択した第２オブジェクトを基準にして画像データの画像処理又は前記カメラの制御を行い、画像処理又はカメラの制御が行われた画像データ及びマイクで収音した音の音データに基づく出力データを生成する。
【選択図】図７

【特許請求の範囲】

【請求項1】

マイクと、カメラと、第１オブジェクトと、処理部と、を有する会議システムの処理方法であって、
前記処理部は、
前記カメラで撮像した画像の画像データを取得し、
取得した前記画像データに含まれる複数のオブジェクトのそれぞれの種類と位置とを検出し、
検出された前記複数のオブジェクトのうち、前記種類に応じて前記第１オブジェクトと、前記第１オブジェクトとは異なる１乃至複数の第２オブジェクトとを特定し、
前記第１オブジェクトの位置と、前記１乃至複数の第２オブジェクトのそれぞれとの相対位置を算出し、
前記１乃至複数の第２オブジェクトのうち、前記第１オブジェクトとの前記相対位置が、所定の条件を満たす第２オブジェクトを選択し、
選択した前記第２オブジェクトを基準にして前記画像データの画像処理又は前記カメラの制御を行い、
前記画像処理又は前記カメラの制御が行われた前記画像データ及び前記マイクで収音した音の音データに基づく出力データを生成する、
会議システムの処理方法。

【請求項2】

前記処理部は、
前記第１オブジェクトと、前記１乃至複数の第２オブジェクトのそれぞれとの距離を算出し、
前記第１オブジェクトからの前記距離が、所定の範囲内の第２オブジェクトを選択する、
請求項１に記載の会議システムの処理方法。

【請求項3】

前記第１オブジェクトは、ユーザによる操作を受け付ける操作部を含み、
前記処理部は、前記操作部で受け付けた前記操作をトリガに、前記第２オブジェクトを選択する、
請求項１又は２に記載の会議システムの処理方法。

【請求項4】

前記１乃至複数の第２オブジェクトの種類を選択する選択操作を受け付け、
前記処理部は、前記選択操作によって選択された種類に属する１乃至複数の第２オブジェクトのうち、前記所定の条件を満たす第２オブジェクトを選択する、
請求項１乃至３の何れかに記載の会議システムの処理方法。

【請求項5】

選択した前記第２オブジェクトを追尾する追尾操作を受け付け、
前記処理部は、
前記追尾操作の対象となる第２オブジェクトの動きに応じて前記出力データを生成する、
請求項１乃至４の何れかに記載の会議システムの処理方法。

【請求項6】

前記処理部は、前記第２オブジェクトを拡大する画像処理を行う、
請求項１乃至５の何れかに記載の会議システムの処理方法。

【請求項7】

選択された前記第２オブジェクトの方向に前記マイクの指向性を向ける、
請求項１乃至６の何れかに記載の会議システムの処理方法。

【請求項8】

話者を認識し、
認識した前記話者の方向に前記マイクの指向性を向ける、
請求項１乃至６の何れかに記載の会議システムの処理方法。

【請求項9】

マイクと、カメラとを有する会議システムであって、
前記マイクで収音した音声データを取得し、
前記カメラで撮像した画像データを取得し、
取得した前記画像データに含まれる複数のオブジェクトのそれぞれの種類と位置とを検出し、
検出された前記複数のオブジェクトのうち、前記種類に応じて第１オブジェクトと、前記第１オブジェクトとは異なる１乃至複数の第２オブジェクトとを特定し、
前記第１オブジェクトの位置と、前記１乃至複数の第２オブジェクトのそれぞれとの相対位置を算出し、
前記１乃至複数の第２オブジェクトのうち、前記第１オブジェクトとの前記相対位置が、所定の条件を満たす第２オブジェクトを選択し、
選択した前記第２オブジェクトを基準にして前記画像データの画像処理又は前記カメラの制御を行い、
前記画像処理又は前記カメラの制御が行われた前記画像データ及び前記マイクで収音した音の音データに基づく出力データを生成する、
処理部を、
を備える、
会議システム。

【請求項10】

前記処理部は、
前記第１オブジェクトと、前記１乃至複数の第２オブジェクトのそれぞれとの距離を算出し、
前記第１オブジェクトからの前記距離が、所定の範囲内の第２オブジェクトを選択する、
請求項９に記載の会議システム。

【請求項11】

ユーザによる操作を受け付ける操作部を含む第１オブジェクトを備え、
前記処理部は、前記操作部で受け付けた前記操作をトリガに、前記第２オブジェクトを選択する、
請求項９又は１０に記載の会議システム。

【請求項12】

前記操作部は、前記１乃至複数の第２オブジェクトの種類を選択する選択操作を受け付け、
前記処理部は、前記選択操作によって選択された種類に属する１乃至複数の第２オブジェクトのうち、前記所定の条件を満たす第２オブジェクトを選択する、
請求項１１に記載の会議システム。

【請求項13】

前記操作部は、選択した前記第２オブジェクトを追尾する追尾操作を受け付け、
前記処理部は、前記追尾操作の対象となる第２オブジェクトの動きに応じて前記出力データを生成する、
請求項１１又は１２に記載の会議システム。

【請求項14】

前記処理部は、前記第２オブジェクトを拡大する画像処理を行う、
請求項９乃至１３の何れかに記載の会議システム。

【請求項15】

前記処理部は、選択された前記第２オブジェクトの方向に前記マイクの指向性を向ける、
請求項９乃至１４の何れかに記載の会議システム。

【請求項16】

話者を認識し、
前記処理部は、認識した前記話者の方向に前記マイクの指向性を向ける、
請求項９乃至１４の何れかに記載の会議システム。

【請求項17】

前記出力データを遠端側の機器に送信し、及び、前記遠端側の機器から前記画像データ及び前記音声データの少なくとも一方を含むデータを受信する通信部を備える、
請求項９乃至１６の何れかに記載の会議システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の一実施形態は、会議システムの処理方法及び会議システムに関する。

【背景技術】

【0002】

特許文献１には、カメラで撮像した画像から、画像に映る対象物として、人物（参加者）の顔、ホワイトボード、及び特定対象物の検出を行う端末装置がある。特許文献１に記載の端末装置は、人物の顔、ホワイトボード、及び特定対象物の優先順位を自動で検出し、優先順位の高い対象物に応じた画像補正を決定する。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１３－１６９３３号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

特許文献１の端末装置は、ユーザの意図とは関係なく、自動で対象物（オブジェクト）の優先順位を決定し、優先順位の高いものを優先して画像を補正していた。このように、自動でオブジェクトを検出する装置又は方法は、ユーザの意図を反映した画像を生成することができなかった。

【0005】

本発明の一実施形態は、オブジェクトを自動検出した場合であってもユーザの意図を反映した画像を出力することができる会議システムの処理方法を提供することを目的とする。

【課題を解決するための手段】

【0006】

本発明の一実施形態に係る会議システムの処理方法は、マイクと、カメラと、第１オブジェクトと、処理部と、を有する会議システムの処理方法であって、前記処理部は、前記カメラで撮像した画像の画像データを取得し、取得した前記画像データに含まれる複数のオブジェクトのそれぞれの種類と位置とを検出し、検出された前記複数のオブジェクトのうち、前記第１オブジェクトと、前記第１オブジェクトとは異なる１乃至複数の第２オブジェクトとを特定し、前記種類に応じて、前記第１オブジェクトの位置と、前記１乃至複数の第２オブジェクトのそれぞれとの相対位置を算出し、前記１乃至複数の第２オブジェクトのうち、前記第１オブジェクトとの前記相対位置が、所定の条件を満たす第２オブジェクトを選択し、選択した前記第２オブジェクトを基準にして前記画像データの画像処理又は前記カメラの制御を行い、前記画像処理又は前記カメラの制御が行われた前記画像データ及び前記マイクで収音した音の音データに基づく出力データを生成する。

【発明の効果】

【0007】

本発明の一実施形態によれば、オブジェクトを自動検出した場合であってもユーザの意図を反映した画像を出力することができる。

【図面の簡単な説明】

【0008】

【図1】会議システムの構成及び端末の構成の一例を示すブロック図である。

【図2】会議の様子をカメラで撮影した画像の一例を示す図である。

【図3】ＰＣの構成の一例を示すブロック図である

【図4】リモコンの構成の一例を示すブロック図である

【図5】操作部の概略外観図である。

【図6】処理部の機能的構成を示すブロック図である。

【図7】処理部の動作（画像生成処理）の一例を示すフローチャートである。

【図8】オブジェクトの境界ボックスを表示した画面である。

【図9】第２オブジェクト（試作品）を基準にした画像の一例である。

【図10】変形例１の操作部の概略外観図である。

【図11】変形例１の処理部の機能的構成を示すブロック図である。

【図12】変形例２の操作部の概略外観図である。

【図13】変形例２の処理部の動作の一例を示すフローチャートである。

【図14】変形例３の端末の構成を示すブロック図である。

【図15】変形例３の処理部の機能的構成を示すブロック図である。

【図16】変形例４の処理部の機能的構成を示すブロック図である。

【発明を実施するための形態】

【0009】

［実施形態１］
以下、実施形態１に係る会議システム１００について、図１、図２、図３、図４、図５、図６、図７、図８及び図９を参照して説明する。図１は、会議システム１００の構成及び端末１の構成の一例を示すブロック図である。図２は、カメラ１４で撮影した画像の一例を示す図である。会議システム１００は、遠隔地のＰＣ等の情報処理装置と接続してＷｅｂ会議を行うためのシステムである。会議システム１００は、端末１と、ＰＣ２と、リモートコントローラ３と、を備えている。リモートコントローラ３（以下リモコン３と称す）は、端末１を制御するためのものである。この例でいうリモコン３は、本発明の第１オブジェクトの一例である。

【0010】

端末１は、図１に示すように、ＵＳＢＩ／Ｆ１１と、処理部１２と、スピーカ１３と、カメラ１４と、通信Ｉ／Ｆ１５と、マイク１６とを備えている。

【0011】

カメラ１４は、参加者ｐ１、参加者ｐ２、及び参加者ｐ３が会議室で会議に参加している様子を撮像している。図２で示す例では、カメラ１４は、会議に参加する参加者ｐ１、参加者ｐ２、参加者ｐ３、と、参加者ｐ１、参加者ｐ２及び参加者ｐ３が囲むデスクの上にあるＰＣ２、リモコン３及び試作品４（ヘッドホン）を撮像している。

【0012】

マイク１６は、会議室の音を収音する。より具体的には、マイク１６は、話者の音声を収音する。

【0013】

ＵＳＢＩ／Ｆ１１は、ＰＣ２と接続されている。ＵＳＢＩ／Ｆ１１は、カメラ１４で撮像した画像の画像データ及びマイク１６で収音した音声の音データをＰＣ２に送信する。ＵＳＢＩ／Ｆ１１は、ＰＣ２によって受信された遠端側からの音データを、ＰＣ２から受信する。スピーカ１３は、ＵＳＢＩ／Ｆ１１を介して受信した音データに基づいて放音する。

【0014】

通信Ｉ／Ｆ１５は、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又は、ＷｉＦｉ（登録商標）等の無線通信、又は有線でリモコン３と接続される。通信Ｉ／Ｆ１５は、リモコン３が受け付けた種々の操作に応じたデータを受信する。

【0015】

処理部１２は、例えば、ＣＰＵからなり、端末１の動作を統括的に制御する。処理部１２の詳細な説明は後述する。

【0016】

ＰＣ２は、汎用のパーソナルコンピュータである。図３は、ＰＣ２の構成の一例を示すブロック図である。ＰＣ２は、図３に示すように、ＣＰＵ２１と、フラッシュメモリ２２と、ＲＡＭ２３と、ユーザＩ／Ｆ２４と、ＵＳＢＩ／Ｆ２５と、通信部２６と、表示器２７とを備えている。

【0017】

通信部２６は、無線ＬＡＮ又は有線ＬＡＮのネットワークインタフェースであり、ネットワークを介して遠隔地のＰＣに接続される。ＰＣ２は、遠隔地にあるＰＣに、端末１で撮像した画像（図２参照）の画像データ及び収音した音声の音データを、通信部２６を介して、送信する。また、ＰＣ２は、遠隔地にあるＰＣから、遠隔地で撮像された画像の画像データ及び収音された音声の音データを、通信部２６を介して受信する。

【0018】

ＣＰＵ２１は、フラッシュメモリ２２からＷｅｂ会議用のプログラムをＲＡＭ２３に読み出すことにより、遠隔地のＰＣにネットワークを介して接続してＷｅｂ会議を行う。ユーザＩ／Ｆ２４は、マウス及びキーボード等を含み、参加者の操作を受け付ける。参加者は、ユーザＩ／Ｆ２４を介して例えばＷｅｂ会議用のプログラムを起動する指示を行う。

【0019】

ＵＳＢＩ／Ｆ２５は、端末１に接続される。ＰＣ２は、ＵＳＢＩ／Ｆ２５を介して端末１から音データ及び画像データを含む出力データを受信する。

【0020】

ＰＣ２は、遠隔地のＰＣから受信した画像データ及び端末１から受信した画像データに基づいて、表示器２７にＷｅｂ会議に係る映像を表示する。

【0021】

リモコン３について図４及び図５を参照して説明する。図４は、リモコン３の構成の一例を示すブロック図である。図５は、操作部３２の概略外観図である。リモコン３は、図４に示すように、通信Ｉ／Ｆ３１と、操作部３２と、マイコン３３とを備えている。

【0022】

通信Ｉ／Ｆ３１は、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＷｉＦｉ（登録商標）の無線通信又は有線の通信手段によって、端末１に接続される。

【0023】

操作部３２は、参加者からの操作を受け付ける。操作部３２は、一例としてタッチパネル式の複数のキーを有する。操作部３２は、図５に示すように、電源オン／オフキー３２０、方向キー３２１、３２２、３２３、３２４と、ズームキー３２５と、音量キー３２６と、モード切替キー３２７とを備えている。操作部３２は、受け付けた操作に応じたデータを通信Ｉ／Ｆ３１を介して端末１に送信する。端末１の処理部１２は、操作部３２が受け付けた操作に応じて、種々の処理を行う。

【0024】

電源オン／オフキー３２０は、タッチ操作により、リモコン３の電源のオンオフ（スタンバイのオンオフも含む）を切り替える。

【0025】

方向キー３２１、３２２、３２３、３２４は、カメラ１４の撮像方向を変更するためのキーである。上方向を示す方向キー３２１及び下方向を示す方向キー３２２は、チルト機能に対応する。左方向を示す方向キー３２３及び右方向を示す方向キー３２４は、パン機能に対応する。すなわち、処理部１２は、方向キー３２１、３２２、３２３、３２４の操作に応じて、パン、又はチルト機能を実行する。ズームキー３２５は、ズームインの「＋」及びズームアウトの「－」キーを有する。ズームキー３２５は、カメラ１４の撮像範囲の変更を受け付ける。すなわち、処理部１２は、ズームキー３２５の操作に応じて、撮像範囲を変更する。

【0026】

音量キー３２６は、スピーカ１３の音量の変更を受け付ける。すなわち、処理部１２は、音量キー３２６の操作に応じて、スピーカ１３の音量レベルを変更する。

【0027】

モード切替キー３２７は、会議室全体を撮像するディフォルトモードと、方向キー３２１、３２２、３２３、３２４及びズームキー３２５が操作されることで撮像方向を変更する手動モードと、自動でオブジェクトを検出する自動オブジェクト検出モードとに切り替える切替操作を受け付ける。言い換えると、処理部１２は、モード切替キー３２７がタップされる毎に、ディフォルトモードと、手動モードと、自動オブジェクト検出モードとを切り替える。処理部１２は、モード切替キー３２７の操作をトリガに、ディフォルトモードから自動オブジェクト検出モードに切り替えて、参加者が所望するオブジェクト（この例では試作品４）を基準にした画像の画像データを生成する。

【0028】

ここでいう、オブジェクトとは、例えば、「リモコン」及び「リモコン以外の物体」を含む。言い換えると、「リモコン」及び「リモコン以外の物体」はオブジェクトの種類である。また、ここでいう物体とは、人物、例えば、参加者ｐ１、参加者ｐ２及び参加者ｐ３、と、人物以外の物、例えば、ＰＣ２及び試作品４、を含む。

【0029】

自動オブジェクト検出モードについて、詳細に説明する。会議システム１００において、参加者は、会議室全体を撮像したディフォルトモードの画像（図２を参照）から、所望するオブジェクト（例えば、試作品４）を基準にした画像の画像データを遠隔地のＰＣに送信したい場合がある。より詳細には、参加者は、試作品４を画面の中心に配置し、かつ試作品４の画像を拡大した画像データを生成したい場合がある。この場合、参加者は、リモコン３を試作品４の近くに配置する。

【0030】

会議システム１００において、リモコン３は、端末１に付随するものである。よって、リモコン３は、端末１に予め外観が特定されている。端末１は、検出した複数のオブジェクトのうち、リモコン３を第１オブジェクトとして特定する。一方、端末１が予め外観を特定していない「リモコン以外の物体」は、全て第２オブジェクトとして特定される。端末１は、リモコン３（第１オブジェクト）の近くに配置された第２オブジェクトを選択し、選択された第２オブジェクトを基準に画像データを生成する。ここでいう、「第１オブジェクトを特定する」とは、端末１に予め特定されている物体を認識することである。

【0031】

以下に、試作品４を基準にした画像データを含む出力データの生成処理における端末１の処理部１２の機能及び動作について、詳細に説明する。図６は、端末１の処理部１２の機能的構成を示すブロック図である。図７は、処理部１２の動作（出力データ生成処理）の一例を示すフローチャートである。図８は、オブジェクトの境界ボックスを表示した画面である。

【0032】

処理部１２は、図６に示すように、画像取得部１２１と、オブジェクト検出部１２２と、オブジェクト特定部１２３と、相対位置算出部１２４と、オブジェクト選択部１２５と、画像データ生成部１２６と、出力データ生成部１２７と、を機能的に含んでいる。画像取得部１２１と、オブジェクト検出部１２２と、オブジェクト特定部１２３と、相対位置算出部１２４と、オブジェクト選択部１２５と、画像データ生成部１２６と、出力データ生成部１２７とが、出力データ生成処理を実行する。

【0033】

画像取得部１２１は、カメラ１４で撮像した画像の画像データを取得する（Ｓ１１）。オブジェクト検出部１２２は、取得した画像データに含まれる複数のオブジェクト（参加者ｐ１、参加者ｐ２、参加者ｐ３、ＰＣ２、リモコン３及び試作品４）を検出する（Ｓ１２）。オブジェクト検出部１２２は、図２で示される画像の画像データから、参加者ｐ１、参加者ｐ２、参加者ｐ３の顔認識処理を行う。該認識処理は、例えばニューラルネットワーク等を用いた所定のアルゴリズムを用いることにより、顔の位置を認識する。また、オブジェクト検出部１２２は、ＰＣ２、リモコン３及び試作品４の認識処理を行う。物の認識処理も、例えばニューラルネットワーク等を用いた所定のアルゴリズムを用いることにより、ＰＣ４、リモコン３、及び試作品４の検出を行う。

【0034】

オブジェクト検出部１２２は、検出したオブジェクトのそれぞれの種類及び位置を検出する（Ｓ１３）。この例において、オブジェクト検出部１２２は、検出したオブジェクトそれぞれにラベリングする。ラベリングするとは、例えば、検出したオブジェクトに名前を対応付けて、記憶することである。より具体的には、オブジェクト検出部１２２は、参加者ｐ１、参加者ｐ２、及び参加者ｐ３を「人物」としてラベリングする。また、オブジェクト検出部１２２は、リモコン３を「端末１のリモコン」としてラベリングする。さらに、オブジェクト検出部１２２は、ＰＣ２を「ＰＣ」としてラベリングする。また、オブジェクト検出部１２２は、試作品４を「ヘッドホン」としてラベリングする。

【0035】

オブジェクト特定部１２３は、検出された６つのオブジェクト（参加者ｐ１、参加者ｐ２、参加者ｐ３、ＰＣ２、リモコン３、及び試作品４）のうち、第１オブジェクトと第２オブジェクトを特定する。オブジェクト特定部１２３は、「端末１のリモコン」であるリモコン３を第１オブジェクトとして特定する。また、オブジェクト特定部１２３は、第１オブジェクトとは異なるオブジェクト（「人物」、「ＰＣ」、及び「ヘッドホン」）である参加者ｐ１、参加者ｐ２、参加者ｐ３、ＰＣ２及び試作品４を第２オブジェクトとして特定する（Ｓ１４）。

【0036】

また、オブジェクト検出部１２２は、Ｓ１２において検出したオブジェクトのそれぞれの位置（例えば、ピクセルのＸ，Ｙ座標）を検出する。ここでいうオブジェクトとの位置とは、図８に示すように、例えば、四角で示す境界ボックス（ＢｏｕｎｄｉｎｇＢｏｘ）の中心の座標である。なお、境界ボックスは、顔を認証した場合、人物の顔の位置を含む範囲に設定される。また、オブジェクトが物の場合、境界ボックスは、人物以外の物を認証すれば、物全体を囲むように設定される。

【0037】

相対位置算出部１２４は、オブジェクト検出部１２２が検出した位置から、リモコン３（第１オブジェクト）と参加者ｐ１、参加者ｐ２、及び参加者ｐ３、ＰＣ２及び試作品４（第２オブジェクト）のそれぞれとの相対位置（位置関係）を算出する（Ｓ１５）。相対位置の算出方法を、より詳細に、図８で示される破線ｄ１、ｄ２、ｄ３で説明する。破線ｄ１は、第１オブジェクトであるリモコン３を囲む境界ボックスの中心（ピクセルの座標：ｘ１，ｙ１）と、試作品４を囲む境界ボックスの中心（ピクセルの座標：ｘ２，ｙ２）とを結ぶ。破線ｄ２は、リモコン３を囲む境界ボックスの中心（ピクセルの座標：ｘ１、ｙ１）と、ＰＣ２を囲む境界ボックスの中心（ピクセルの座標：ｘ３，ｙ３）とを結ぶ。破線ｄ３は、リモコン３を囲む境界ボックスの中心（ピクセルの座標：ｘ１、ｙ１）と、参加者ｐ１との顔を含む境界ボックスの中心（ピクセルの座標：ｘ４、ｙ４）とを結ぶ。相対位置算出部１２４は、破線ｄ１、ｄ２、ｄ３の長さを、ピクセルの座標から算出する。言い換えると、相対位置算出部１２４は、第１オブジェクト（リモコン３）と第２オブジェクトのそれぞれとの距離を算出する。なお、端末１は、破線ｄ１、ｄ２、ｄ３を画面上に表示する必要はない。

【0038】

オブジェクト選択部１２５は、算出された相対位置からリモコン３と最も近い試作品４を選択する（Ｓ１６）。言い換えると、オブジェクト選択部１２５は、破線ｄ１、ｄ２、ｄ３の長さを比較して、リモコン３と最も長さが短い破線で結ばれているオブジェクトを選択する。画像データ生成部１２６は、選択した試作品４を基準にして、画像データの画像処理を行う（Ｓ１７）。

【0039】

図９は、試作品４を基準にした画像の一例である。より具体的には、画像データ生成部１２６は、図９に示すように、試作品４が画面の中央になるように、かつ、試作品４の画像を拡大するように、画像処理を行う。画像データ生成部１２６は、例えば、試作品４が画面の中央になるようにパン、チルトを行う。画像データ生成部１２６は、さらに、試作品４の画面内の占有率が所定比率（例えば５０％）になるように、ズーミングを行う。これにより、画像データ生成部１２６は、試作品４を画面の中心に所定比率で表示した画像データを生成する。ここでいう、含有率は、例えば、境界ボックス内のピクセル数／画面全体のピクセル数で表される。

【0040】

出力データ生成部１２７は、画像処理が行われた画像データ及びマイク１６で収音した音の音データに基づく出力データを生成する（Ｓ１８）。

【0041】

従来の会議システムにおいても、自動でオブジェクトを検出する機能があった（いわゆる自動フレーミングモード）。自動フレーミングモードでは、人物の顔を大きく写すために、顔認証によって人物の顔を認識し、認識した人物の顔を基準に画像データを生成していた。このように、従来の会議システムでは、自動で参加者（人物）の顔を認識していた。ここで、参加者が、人物以外のオブジェクトを基準に画像データを生成したい場合に、従来の会議システムは、参加者がどのオブジェクトを基準にした画像データを生成したいのか、判断することができなかった。

【0042】

これに対して、本実施形態の会議システム１００は、予め端末１に特定されているリモコン３を「リモコン（第１オブジェクト）」、として特定する、また、会議システム１００は、リモコン３以外の物体を「リモコン以外の物体（第２オブジェクト）」として特定する。ここで、会議システム１００は、「リモコン」に最も近い「リモコン以外の物体」を基準に画像データを生成する。これにより、会議システム１００は、「リモコン」の近くにある、人物以外の物を基準に画像データを生成することができる。すなわち、会議システム１００は、予め端末１によって特定されていない物体（第２オブジェクト）であっても、該物体がリモコン３の近くにあれば、この物体を画面の中心になるように、かつ拡大した画像データを生成することができる。したがって、会議システム１００は、複数のオブジェクトを自動検出した場合であっても、ユーザの意図を反映した画像を出力することができる。

【0043】

また、会議システム１００は、操作部３２の操作を受け付けることで、参加者が所望するタイミングで、参加者ｐ１、参加者ｐ２、参加者ｐ３、ＰＣ２、リモコン３及び試作品４を含む会議室全体を撮像した画像と、選択した第２オブジェクト（試作品４）に基づいた画像とを容易に切り替えることができる。

【0044】

なお、上述の例では、処理部１２は、画像データ生成部１２６により選択された第２オブジェクト（上述の例では、試作品４）を基準にした画像データを生成するために画像処理を行う例を示した。しかし、画像データ生成部１２６は、選択された第２オブジェクトを基準にした画像データを生成するためにカメラ１４を制御してもよい。この場合も、画像データ生成部１２６は、例えば、パン、チルト又はズームによるフレーミングを行う。例えば、図９に示すように、試作品４が画面の中心になるように、カメラ１４を制御してパン及びチルトを行う。そして、画像データ生成部１２６は、試作品４の画面内の占有率が所定比率（例えば５０％）になるように、カメラ１４を制御してズームを行う。

【0045】

［変形例１］
変形例１の会議システム１００について、図１０及び図１１を参照して説明する。図１０は、変形例１の操作部３２の概略外観図である。図１１は、変形例１の処理部１２の機能的構成を示すブロック図である。

【0046】

変形例１の端末１は、複数の第２オブジェクトの種類のうち、基準にする種類の第２オブジェクトを選択する。ここでいう「基準にする種類」とは、第２オブジェクトであって、「人物」又は「人物以外の物」である。すなわち、変形例１では、複数の第２オブジェクトは、「人物」又は「人物以外の物」に分別される。「人物」は、図２で示される画像において、参加者ｐ１、参加者ｐ２、及び参加者ｐ３である。また、「人物以外の物」は、図２で示される画像において、ＰＣ２及び試作品４である。変形例１の端末１は、種類を選択する選択操作を受け付ける。さらに、変形例１の端末１は、該選択操作によって選択された「リモコン以外の物体」である１乃至複数の第２オブジェクトのうち、所定の条件を満たす第２オブジェクトを選択する。なお、実施形態１と同じ構成については、同じ符号を付して説明を省略する。

【0047】

リモコン３の操作部３２は、図１０に示すように、オブジェクト種類切替キー３２８を備えている。オブジェクト種類切替キー３２８は、第２オブジェクトのうち、基準にする種類を切り替える切替操作を受け付ける。言い換えると、オブジェクト種類切替キー３２８は、基準にしたい種類を「人物」又は「人物以外の物」に切り替える切替操作を受け付ける。オブジェクト特定部１２３は、図１１に示すように、オブジェクト種類切替キー３２８がタップされる毎に、第２オブジェクトのうち基準にする種類を、「人物」又は「人物以外の物」に切り替える。この例でいう「人物」とは、参加者ｐ１、参加者ｐ２、及び参加者ｐ３である。また、この例でいう「人物以外の物」とは、ＰＣ２及び試作品４である。

【0048】

オブジェクト検出部１２２は、図２の画像の画像データから、参加者ｐ１、参加者ｐ２、参加者ｐ３、ＰＣ２、リモコン３及び試作品４をオブジェクトとして検出する。オブジェクト特定部１２３は、第１オブジェクトをリモコン３として特定する。また、オブジェクト特定部１２３は、参加者ｐ１、参加者ｐ２、参加者ｐ３、ＰＣ２及び試作品４を第２オブジェクトとして特定する。さらに、オブジェクト特定部１２３は、参加者ｐ１、参加者ｐ２、及び参加者ｐ３を「人物」として特定し、ＰＣ２及び試作品４を「人物以外の物」として特定する。

【0049】

また、相対位置算出部１２４は、オブジェクト特定部１２３がオブジェクト種類切替キー３２８の操作により種類を「人物」に切り替えると、リモコン３と、参加者ｐ１、参加者ｐ２、及び参加者ｐ３との相対位置を算出する。オブジェクト選択部１２５は、算出結果から、例えば、リモコン３の最も近くにいる参加者ｐ１を選択する（図２参照）。

【0050】

また、相対位置算出部１２４は、オブジェクト特定部１２３がオブジェクト種類切替キー３２８の操作により、種類を「人物以外の物」に切り替えると、リモコン３と、ＰＣ２及び試作品４の相対位置を算出する。オブジェクト選択部１２５は、算出結果から、例えば、リモコン３の最も近くにある試作品４を選択する（図２参照）。

【0051】

このように、変形例１の会議システム１００は、オブジェクト種類切替キー３２８の操作により、第２オブジェクトのうち、基準にする種類を切り替える。したがって、変形例１の会議システム１００は、ユーザが所望するタイミングで、リモコン３に最も近い人物を基準にした画像と、リモコン３に最も近い物を基準にした画像とを切り替えることができる。すなわち、変形例１の会議システム１００は、オブジェクトを自動検出した場合であっても、ユーザの意図を反映した画像を出力することができる。

【0052】

また、変形例１の会議システム１００は、画像から検出した全ての第２オブジェクトと第１オブジェクトとの相対位置を算出する必要がない。これにより、会議システム１００は、算出に必要なメモリ領域を軽減することができる。

【0053】

［変形例２］
変形例２の会議システム１００について、図１２及び図１３を参照して説明する。図１２は、変形例２の操作部３２の概略外観図である。図１３は、変形例２の処理部１２の動作の一例を示すフローチャートである。変形例２の会議システム１００は、選択した第２オブジェクトを追尾する追尾操作を受け付ける。変形例２の会議システム１００は、追尾操作の対象となる第２オブジェクトの動きに応じて出力データを生成する。なお、実施形態１と同じ構成については、同じ符号を付して説明を省略する。また、以下の説明では参加者の選択した第２オブジェクトを試作品４として説明する。

【0054】

リモコン３の操作部３２は、図１２に示すように、追尾機能オンオフキー３２９を備えている。追尾機能オンオフキー３２９は、選択した第２オブジェクト（この例では、試作品４）を追尾するか否か選択する操作を受け付ける。画像データ生成部１２６は、追尾機能オンオフキー３２９がタップされる毎に、試作品４を追尾する（追尾機能オン）か否（追尾機能オフ）かを切り替える（Ｓ２１）。画像データ生成部１２６は、追尾機能がオンになり（Ｓ２１：Ｙｅｓ）、かつ、参加者が試作品４を動かしていた場合（Ｓ２２：Ｙｅｓ）、試作品４の移動に合わせて、試作品４が画面の中央になるように、パン、チルト、試作品４の画像が拡大するようにズーム機能を制御する（Ｓ２３）。言い換えると、画像データ生成部１２６は、モード（ディフォルトモード、手動モード、自動オブジェクト検出モード）が自動オブジェクト検出モードに切り替えられた時に選択した第２オブジェクトを、該第２オブジェクトの動きに応じて追従する画像処理を行う。

【0055】

また、画像データ生成部１２６は、追尾機能がオフであれば（Ｓ２１：Ｎｏ）、モード（ディフォルトモード、手動モード、自動オブジェクト検出モード）が自動オブジェクト検出モードに切り替えられた時のフレーミングを維持する。すなわち、画像データ生成部１２６は、モードが自動オブジェクト検出モードに切り替えられた時の画像処理に係る設定を維持する。したがって、画像データ生成部１２６は、追尾機能がオフであれば、例えば、参加者が試作品４を動かした場合であってもパン、チルト、及びズームを変化させない。

【0056】

変形例２の会議システム１００は、追尾機能オンの状態であれば、選択された第２オブジェクト（試作品４）の動きに合わせて、画像処理を行う。これにより、会議システム１００は、試作品４が移動している場合でも、試作品４の移動に伴って、試作品４を基準にした画像データを生成することができる。

【0057】

なお、変形例２では、選択した第２オブジェクト（上述の例では、試作品４）を基準にした画像データを生成するために画像処理を行う例を示した。しかし、画像データ生成部１２６は、選択した第２オブジェクトを基準にした画像データを生成するためにカメラ１４を制御してもよい。この場合も、画像データ生成部１２６は、例えば、パン、チルト又はズームによるフレーミングを行う。例えば、図９に示すように、試作品４が画面の中心になるように、カメラ１４を制御してパン、チルト及びズームを行う。

【0058】

［変形例３］
変形例３の端末１Ａについて、図１４及び図１５を参照して説明する。図１４は、変形例３の端末１Ａの構成を示すブロック図である。図１５は、変形例３の処理部１２Ａの機能的構成を示すブロック図である。変形例３の会議システム１００は、第２オブジェクトの方向にマイク１６Ａの指向性を向ける。なお、実施形態１と同じ構成については、同じ符号を付して説明を省略する。

【0059】

端末１Ａは、図１４に示すように、マイク１６Ａを備えている。マイク１６Ａは、複数のマイク１６０を有するマイクロフォンアレイである。また、端末１Ａの処理部１２は、図１５に示すように、指向性制御部１２８を備える。マイク１６Ａは、指向性制御部１２８の制御に従って、複数のマイク１６０の音信号にそれぞれ所定のディレイを付与して合成する。

【0060】

指向性制御部１２８は、例えば、複数のマイク１６０のそれぞれの音信号に付与するディレイ量を変更することで、オブジェクト選択部１２５が選択した第２オブジェクト（例えば、試作品４）に対応する方向の感度を上げる。言い換えると、指向性制御部１２８は、複数のマイク１６０のそれぞれの音信号の位相を制御して、選択した第２オブジェクトに対応する方向の感度を上げる。

【0061】

出力データ生成部１２７は、選択した第２オブジェクト（例えば、試作品４）を基準にした画像データ及び、マイク１６Ａで収音した第２オブジェクトの音の音データに基づく出力データを生成する。

【0062】

このように、変形例３の会議システム１００は、選択した第２オブジェクト（この例では、試作品４）から放音される音を強調して、不要な音（例えば、エアコンの音等のノイズ）を低減することができる。

【0063】

［変形例４］
変形例４の端末１Ａについて、図１６を参照して説明する。図１６は、変形例４の処理部１２Ｂの機能的構成を示すブロック図である。変形例４の処理部１２Ｂは、話者認識部１２９を有している点で変形例３の端末１Ａの処理部１２Ａと異なる。変形例４の会議システム１００は、話者を認識し、認識した話者の方向にマイク１６Ａの指向性を向ける。なお、実施形態１又は変形例３同じ構成については、同じ符号を付して説明を省略する。

【0064】

話者認識部１２９は、図１６に示すように、マイク１６Ａから音信号を取得する。話者認識部１２９は、取得した音信号から話者を認識する。より詳細には、話者認識部１２９は、複数のマイク１６０で取得した音信号の相互相関を求めることにより、話者の音声がマイク１６０のそれぞれに到達したタイミングを求める。話者認識部１２９は、複数のマイク１６０のそれぞれの相対位置及び音声の到達タイミングに基づいて、話者の音声の到来方向を求めることができる。

【0065】

処理部１２は、オブジェクト選択部１２５で選択した第２オブジェクトとは別に、話者認識部１２９によって話者を認識する。指向性制御部１２８は、認識された話者の方位に指向性を向けるようにマイク１６に対してディレイ設定を行う。

【0066】

出力データ生成部１２７は、選択した第２オブジェクト（例えば、試作品４）を基準にした画像データ及び、マイク１６Ａで収音した話者の音声の音声データに基づく出力データを生成する。

【0067】

変形例４の会議システム１００は、話者の方向にマイク１６Ａの指向性を向けることで、選択した第２オブジェクトを基準にした画像の画像データを出力しつつ、話者の声を強調した音声データを生成することができる。また、変形例４の会議システム１００は、選択した第２オブジェクト（例えば、試作品４）ではなく、話者にマイク１６Ａの指向性を向けることで、遠隔値の会議参加者にとって、より会議の内容が理解しやすい出力データを、生成することができる。

【0068】

なお、上述の例では、話者認識部１２９によって話者を認識する方法として、マイク１６Ａで収音した音声信号によって話者を認識したがこれに限定されない。話者認識部１２９は、画像データに基づいて、話者を認定してもよい。この場合、オブジェクト検出部１２２が検出したオブジェクトのうち、顔認証で認証された顔から口の動きに注目して、話者を認識してもよい。話者認識部１２９は、例えば、所定の時間において、口が動いている顔を話者として認識してもよい。

【0069】

［その他の変形例］
撮像方向の変更及び撮像範囲の変更は、カメラ１４で取得した画像データの画像処理を変更することで行ってもよいし、カメラ１４を機械的、光学的に制御することで行ってもよい。

【0070】

なお、ＰＣ２と端末１の接続は、ＵＳＢに限らない。ＰＣ２と端末１は、ＨＤＭＩ（登録商標）、ＬＡＮ、あるいはＢｌｕｅｔｏｏｔｈ（登録商標）等の他の通信手段で接続されてもよい。

【0071】

操作部３２は、タッチパネルに限らず、物理的なキースイッチであってもよい。

【0072】

端末１、１Ａは、例えば、一定の間にリモコン３が移動したことを検出すれば、モードを自動オブジェクト検出モードに切り替えてもよい。会議システム１００では、例えば、参加者がリモコン３を手で持つ等して移動した場合、端末１、１Ａは、リモコン３が所定の時間内に移動したことをトリガに自動オブジェクト検出モードに切り替えてもよい。

【0073】

上述の例では、第１オブジェクト（リモコン３）との相対位置が所定の条件を満たすオブジェクトとして、リモコン３に最も近いオブジェクトを選択したが、これに限定されない。会議システム１００は、リモコン３との相対位置において、例えば、画面上においてリモコン３と左右方向に並んでいる第２オブジェクトを選択してもよい。また、会議システム１００は、例えば、リモコン３の方向を規定して、規定された方向にある第２オブジェクトを選択してもよい。

【0074】

マイク１６は、複数であってもよい。

【0075】

第１オブジェクトは、リモコン３に限定されない。第１オブジェクトは、端末１に付随するものであればよい。また、第１オブジェクトは、例えば、レーザポインタでもよい。この場合、端末１は、レーザポインタを持つ人物を自動的に拡大する。したがって、端末１は、プレゼンテーションを行う人物（参加者）を自動的に拡大することができる。なお、この場合、端末１は、レーザポインタからレーザ（光）を受け付ける受光センサなどを備え、該受光センサによって、レーザを受け付けることで、モードを自動オブジェクト検出モードに切り替えてもよい。

【0076】

本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲を含む。

【符号の説明】

【0077】

１…端末
２…ＰＣ（第２オブジェクト）
３…リモコン（第１オブジェクト）
４…試作品（第２オブジェクト）
１２…処理部
１４…カメラ
１６…マイク
２６…通信部
１００…会議システム

【図1】