IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リコーの特許一覧

特開2024-77978会議システム、表示制御方法、及びプログラム
<>
  • 特開-会議システム、表示制御方法、及びプログラム 図1
  • 特開-会議システム、表示制御方法、及びプログラム 図2
  • 特開-会議システム、表示制御方法、及びプログラム 図3
  • 特開-会議システム、表示制御方法、及びプログラム 図4
  • 特開-会議システム、表示制御方法、及びプログラム 図5
  • 特開-会議システム、表示制御方法、及びプログラム 図6
  • 特開-会議システム、表示制御方法、及びプログラム 図7
  • 特開-会議システム、表示制御方法、及びプログラム 図8
  • 特開-会議システム、表示制御方法、及びプログラム 図9
  • 特開-会議システム、表示制御方法、及びプログラム 図10
  • 特開-会議システム、表示制御方法、及びプログラム 図11
  • 特開-会議システム、表示制御方法、及びプログラム 図12
  • 特開-会議システム、表示制御方法、及びプログラム 図13
  • 特開-会議システム、表示制御方法、及びプログラム 図14
  • 特開-会議システム、表示制御方法、及びプログラム 図15
  • 特開-会議システム、表示制御方法、及びプログラム 図16
  • 特開-会議システム、表示制御方法、及びプログラム 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024077978
(43)【公開日】2024-06-10
(54)【発明の名称】会議システム、表示制御方法、及びプログラム
(51)【国際特許分類】
   H04N 7/15 20060101AFI20240603BHJP
【FI】
H04N7/15
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022190251
(22)【出願日】2022-11-29
(71)【出願人】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100107515
【弁理士】
【氏名又は名称】廣田 浩一
(72)【発明者】
【氏名】小山田 圭
【テーマコード(参考)】
5C164
【Fターム(参考)】
5C164FA10
5C164VA21P
5C164VA51P
(57)【要約】
【課題】自拠点の発話者の映像をクローズアップする会議システムにおいて、ディスプレイに表示された他拠点の人物を、自拠点の話者と誤認識してクローズアップしてしまうことを抑制する。
【解決手段】会議システムは、カメラとマイクとを備えた第1の装置と、ディスプレイを備えた第2の装置とを含む会議システムであって、前記第1の装置は、前記マイクで取得した音声に基づいて、話者の方向を検知する方向検知部と、前記話者の方向に基づいて、前記カメラで撮影した画像から前記話者の画像を抽出する画像抽出部と、前記話者の画像をクローズアップして出力するクローズアップ部と、を有し、前記クローズアップ部は、前記話者の画像が前記ディスプレイに表示された画像である場合、前記話者の画像のクローズアップを中止する。
【選択図】図8
【特許請求の範囲】
【請求項1】
カメラとマイクとを備えた第1の装置と、ディスプレイを備えた第2の装置とを含む会議システムであって、
前記第1の装置は、
前記マイクで取得した音声に基づいて、話者の方向を検知する方向検知部と、
前記話者の方向に基づいて、前記カメラで撮影した画像から前記話者の画像を抽出する画像抽出部と、
前記話者の画像をクローズアップして出力するクローズアップ部と、
を有し、
前記クローズアップ部は、前記話者の画像が前記ディスプレイに表示された画像である場合、前記話者の画像のクローズアップを中止する、会議システム。
【請求項2】
前記第1の装置は、前記画像抽出部が抽出した第1の話者の画像と、前記第2の装置が前記ディスプレイに表示するディスプレイ画像に含まれる第2の話者の画像とを比較する比較部を有し、
前記クローズアップ部は、前記第1の話者の画像と前記第2の話者の画像との一致度が所定値以上である場合、前記第1の話者の画像のクローズアップを中止する、
請求項1に記載の会議システム。
【請求項3】
前記第1の装置は、前記第2の装置と通信する通信部を有し、
前記第2の装置は、前記ディスプレイに表示するディスプレイ画像を、前記第1の装置に送信する画像送信部を有する、
請求項2に記載の会議システム。
【請求項4】
前記第1の装置は、前記第2の装置と通信する通信部を有し、
前記第2の装置は、前記ディスプレイに表示するディスプレイ画像に含まれる前記第2の話者の画像を、前記第2の装置に送信する画像送信部を有する、
請求項2に記載の会議システム。
【請求項5】
前記画像送信部は、前記ディスプレイ画像に人が映っていない場合、前記第2の装置に前記第2の話者の画像を送信する処理を中止する、請求項4に記載の会議システム。
【請求項6】
前記第1の装置は、前記画像抽出部が抽出した第1の話者の画像と、予め記憶した自拠点の利用者の画像である第2の話者の画像とを比較する比較部を有し、
前記クローズアップ部は、前記第1の話者の画像と前記第2の話者の画像との一致度が所定値未満である場合、前記第1の話者の画像のクローズアップを中止する、
請求項1に記載の会議システム。
【請求項7】
前記第2の装置は、前記ディスプレイに前記第2の装置と接続するための接続情報を表す画像コードを表示する表示制御部を有し、
前記第1の装置は、前記カメラで撮影した前記画像コードを解析し、前記画像コードが表す前記接続情報を前記通信部に設定する画像コード解析部を有する、
請求項3又は4に記載の会議システム。
【請求項8】
前記第2の装置は、前記第2の装置と接続するための接続情報を表す音声コードを出力する音声出力部を有し、
前記第1の装置は、前記マイクで取得した前記音声コードを解析し、前記音声コードが表す前記接続情報を前記通信部に設定する音声コード解析部を有する、
請求項3又は4に記載の会議システム。
【請求項9】
カメラとマイクとを備えた第1の装置と、ディスプレイを備えた第2の装置とを含む会議システムにおいて、
前記第1の装置が、
前記マイクで取得した音声に基づいて、話者の方向を検知する検知処理と、
前記話者の方向に基づいて、前記カメラで撮影した画像から前記話者の画像を抽出する抽出処理と、
前記話者の画像をクローズアップして出力するクローズアップ処理と、
を実行し、
前記クローズアップ処理は、前記話者の画像が前記ディスプレイに表示された画像である場合、前記話者の画像のクローズアップを中止する、表示制御方法。
【請求項10】
カメラとマイクとを備えた第1の装置と、ディスプレイを備えた第2の装置とを含む会議システムにおいて、
前記第1の装置に、
前記マイクで取得した音声に基づいて、話者の方向を検知する検知処理と、
前記話者の方向に基づいて、前記カメラで撮影した画像から前記話者の画像を抽出する抽出処理と、
前記話者の画像をクローズアップするクローズアップ処理と、
を実行させ、
前記クローズアップ処理は、前記話者の画像が前記ディスプレイに表示された画像である場合、前記話者の画像のクローズアップを中止する、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、会議システム、表示制御方法、及びプログラムに関する。
【背景技術】
【0002】
マイクで取得した音声とカメラで撮影した画像とを、通信ネットワークを介して送受信して、遠隔会議を実現する会議システムが普及している。
【0003】
また、特許文献1には、パノラマカメラと、マイクアレイを組み合わせて、パノラマカメラで会議室全体を撮影し、発言者がいる場合に、自動的に発言者の映像をクローズアップして表示する技術が記載されている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、従来の技術では、例えば、IWB(Interactive White Board)等の大型のディスプレイを使ってウェブ会議を行うときに、ディスプレイに表示された他拠点の人物を、自拠点の話者と誤認識してクローズアップしてしまう場合がある。
【0005】
本発明の一実施の形態は、上記の課題に鑑みてなされたものであって、自拠点の発話者の映像をクローズアップする会議システムにおいて、ディスプレイに表示された他拠点の人物を、自拠点の話者と誤認識してクローズアップしてしまうことを抑制する。
【課題を解決するための手段】
【0006】
上記の課題を解決するため、本発明の一実施形態に係る会議システムは、カメラとマイクとを備えた第1の装置と、ディスプレイを備えた第2の装置とを含む会議システムであって、前記第1の装置は、前記マイクで取得した音声に基づいて、話者の方向を検知する方向検知部と、前記話者の方向に基づいて、前記カメラで撮影した画像から前記話者の画像を抽出する画像抽出部と、前記話者の画像をクローズアップして出力するクローズアップ部と、を有し、前記クローズアップ部は、前記話者の画像が前記ディスプレイに表示された画像である場合、前記話者の画像のクローズアップを中止する。
【発明の効果】
【0007】
本発明の一実施形態によれば、自拠点の発話者の映像をクローズアップする会議システムにおいて、ディスプレイに表示された他拠点の人物を、自拠点の話者と誤認識してクローズアップしてしまうことを抑制することができる。
【図面の簡単な説明】
【0008】
図1】一実施形態に係る通信システムのシステム構成の例を示す図である。
図2】一実施形態に係る会議システムの構成の別の一例を示す図である。
図3】一実施形態に係る処理の概要について説明するための図(1)である。
図4】一実施形態に係る処理の概要について説明するための図(2)である。
図5】一実施形態に係るIWBのハードウェア構成の例を示す図である。
図6】一実施形態に係るウェブ会議デバイスのハードウェア構成の例を示す図である。
図7】一実施形態に係るコンピュータのハードウェア構成の例を示す図である。
図8】一実施形態に係るウェブ会議デバイスの機能構成の例を示す図である。
図9】一実施形態に係るIWBの機能構成の例を示す図である。
図10】第1の実施形態に係るウェブ会議デバイスの処理の例を示すシーケンス図である。
図11】第1の実施形態に係るIWBの処理の例を示すシーケンス図である。
図12】第2の実施形態に係るウェブ会議デバイスの処理の例を示すシーケンス図である。
図13】第2の実施形態に係るIWBの処理の例を示すシーケンス図である。
図14】第3の実施形態に係るウェブ会議デバイスの機能構成の例を示す図である。
図15】第3の実施形態に係るウェブ会議デバイスの処理の例を示すシーケンス図である。
図16】第4の実施形態に係る接続情報の設定処理の例を示すシーケンス図(1)である。
図17】第4の実施形態に係る接続情報の設定処理の例を示すシーケンス図(2)である。
【発明を実施するための形態】
【0009】
以下、本発明の実施形態について、図面を参照しながら詳細に説明する。
【0010】
<システム構成>
図1は、一実施形態に係る通信システムのシステム構成の例を示す図である。通信システム1は、拠点Xの1人以上の利用者A、利用者B、・・・が、会議システム100を用いて、他の拠点Yの他の会議システム110を利用する利用者Cとウェブ会議を行うシステムである。図1の例では、通信システム1は、拠点Xに設けられた会議システム100と、他の拠点Yに設けられた他の会議システム110と、会議サーバ10とを含む。また、会議システム100、他の会議システム110、及び会議サーバ10とは、例えば、インターネット、及びLAN(Local Area Network)等の通信ネットワーク2に接続されている。
【0011】
例えば、利用者A、利用者B、・・・は、会議システム100を用いて、会議サーバ10が提供するウェブ会議に参加する。また、利用者Cは、他の会議システム110を用いて、会議サーバ10が提供する同じウェブ会議に参加する。これにより、会議システム100と、他の会議システム110は、会議サーバ10を介して、会議の音声と、会議画像(動画像、又は静止画像)とを含む会議映像を、互いに送受信して、ウェブ会議を行うことができる。
【0012】
なお、会議サーバ10が提供するウェブ会議は、会議映像を互いに送受信できるものであれば、任意のウェブ会議であってよい。また、会議システム100は、会議サーバ10を介さずに、通信ネットワーク2を介して、他の会議システム110と直接ウェブ会議を行うものであってもよい。
【0013】
図1の例では、会議システム100は、ウェブ会議デバイス101と、ウェブ会議デバイス101に接続されたIWB(Interactive White Board)102とを含む。ウェブ会議デバイス101は、カメラとマイクとを備えた第1の装置の一例である。また、IWB 102は、ディスプレイを備えた第2の装置の一例である。
【0014】
ウェブ会議デバイス(第1の装置)101は、例えば、複数のマイクを配列して構成されたマイク(マイクアレイ)を有しており、マイクアレイを用いて話者の方向を検知する機能を有している。また、ウェブ会議デバイス101は、ウェブ会議デバイスの周辺にいる利用者A、利用者B、・・・を撮影する1つ以上のカメラを有している。例えば、ウェブ会議デバイス101は、周囲360のパノラマ画像を撮影可能なパノラマカメラを有し、会議室全体を撮影するものであってもよい。或いは、複数のカメラで撮影した画像を組み合わせて、ウェブ会議デバイスの周辺にいる利用者A、利用者B、・・・を撮影するものであってもよい。
【0015】
IWB(第2の装置)102は、タッチセンサ搭載型のディスプレイであり、電子黒板とも呼ばれる。IWB102は、ディスプレイに表示した画面に、例えば、ペン、又は指等で直接書き込みができるほか、ディスプレイに表示した内容をデータとして保存することができる。また、IWB102は、プロジェクタのように、大型のディスプレイとしても用いることもできる。
【0016】
さらに、本実施形態に係るIWB102は、通信ネットワーク2に接続されており、会議サーバ10が提供するウェブ会議に参加するウェブ会議機能を有している。例えば、IWB102は、ウェブ会議デバイス101が取得した画像と音声とを含む会議映像を、会議サーバ10を介して、他の会議システム110に送信する。また、IWB102は、会議サーバ10を介して、他の会議システム110から受信した会議映像をディスプレイに表示する。また、IWB102は、スピーカを有しており、会議映像に含まれる会議音声を出力することができる。別の一例として、ウェブ会議デバイス101がスピーカを有しており、IWB102は、会議映像に含まれる音声データをウェブ会議デバイス101に出力し、ウェブ会議デバイス101が、会議音声を出力してもよい。
【0017】
ウェブ会議デバイス101とIWB102は、一例として、USB(Universal Serial Bus)ケーブル103で接続されている。この場合、ウェブ会議デバイス101は、会議画像(動画像)を、例えば、UVC(USB Video Class)プロトコルでIWB102に送信する。また、ウェブ会議デバイス101は、会議音声を、例えば、UAC(USB Audio Class)プロトコルでIWB102に送信する。また、IWB102は、Ethernet(登録商標) over USBでウェブ会議デバイス101に接続し、HTTPプロトコルで、ディスプレイに表示しているディスプレイ画像(動画、又は静止画)等をウェブ会議デバイス101に送信することができる。
【0018】
なお、ウェブ会議デバイス101がスピーカを備えている場合、IWB102は、会議の音声をUACでウェブ会議デバイス101に送信して、ウェブ会議デバイス101が備えるスピーカから出力させてもよい。また、ウェブ会議デバイス101とIWB102は、USB以外のインタフェースで、通信可能に接続されていてもよい。
【0019】
他の会議システム110は、会議サーバ10が提供するウェブ会議に参加し、会議システム100と会議映像を送受信することができるものであれば、任意の構成であってよい。例えば、他の会議システム110は、PC(Personal Computer)、タブレット端末、又はスマートフォン等の情報処理装置であってもよいし、ビデオ会議、又はIWB等のウェブ会議機能を備えた電子機器であってもよい。また、他の会議システム110は、会議システム100と同様の構成を備えていてもよい。
【0020】
図2は、一実施形態に係る会議システムの構成の別の一例を示す図である。図2の例では、通信ネットワーク2に接続されたPC201がウェブ会議機能を有している場合における、会議システム100の構成例を示している。この場合、ウェブ会議デバイス101は、USBケーブル103等でPC201に接続されており、会議画像、及び会議音声をPC201に送信する。また、IWB102は、例えば、HDMI(登録商標)(High-Definition Multimedia Interface)ケーブル202等でPC201に接続されており、PC201が出力する会議映像を表示する。
【0021】
図2の例では、ウェブ会議デバイス101、及びIWB102は、LAN203を介して通信可能に接続されており、IWB102は、ディスプレイに表示しているディスプレイ画像等をウェブ会議デバイス101に送信することができる。
【0022】
(処理の概要)
図3、4は、処理の概要について説明するための図である。ウェブ会議デバイス101は、マイク(マイクアレイ)で取得した音声に基づいて話者の方向を検知し、話者の方向に基づいてカメラで撮影した画像から話者の画像を抽出し、抽出した話者の画像をクローズアップして出力する機能を有している。この機能により、例えば、ウェブ会議中に、利用者Aが発話すると、拠点Yの他の会議システム110には、利用者Aの画像301がクローズアップ表示される。続いて、利用者Bが発話すると、他の拠点Yの他の会議システム110には、利用者Bの画像301がクローズアップ表示される。
【0023】
しかし、従来の技術では、例えば、IWB102等の大型のディスプレイに表示された他拠点Yの利用者Cの画像303が、拠点Xの話者と誤認識され、拠点Yの他の会議システム110にクローズアップ表示されてしまう場合がある。この問題は、例えば、図3に示すように、IWB102に、他の拠点Yの利用者Cが表示されているときに、騒音等のノイズが発生した場合、又はIWB102のスピーカから利用者Cの音声出力された場合等に起こり得る。
【0024】
そこで、本実施形態に係るウェブ会議デバイス101は、抽出した話者の画像が、ディスプレイに表示された画像である場合、話者の画像のクローズアップを中止する機能を有している。
【0025】
例えば、図4に示すように、IWB102のディスプレイに表示しているディスプレイ画像401には、利用者Cが写っているものとする。また、ウェブ会議デバイス101が、話者の方向に基づいて抽出した話者の画像が、利用者Aの画像301であるものとする。この場合、抽出した話者の画像は、ディスプレイに表示された画像ではないので、ウェブ会議デバイス101は、利用者Aの画像301のクローズアップを実行する。同様に、話者の方向に基づいて抽出した話者の画像が、利用者Bの画像302である場合、ウェブ会議デバイス101は、利用者Bの画像302のクローズアップを実行する。
【0026】
一方、話者の方向に基づいて抽出した話者の画像が、利用者Cの画像303であるものとする。この場合、抽出した話者の画像は、ディスプレイに表示された画像なので、ウェブ会議デバイス101は、利用者Cの画像303のクローズアップを中止する。
【0027】
例えば、ウェブ会議デバイス101は、IWB102のディスプレイに表示されているディスプレイ画像をIWB102から取得する。また、ウェブ会議デバイス101は、話者の方向に基づいて抽出した第1の話者の画像と、ディスプレイ画像に含まれる第2の話者の画像との一致度(類似度)を算出し、一致度が所定値以上である場合、第1の話者の画像がディスプレイに表示された画像と判断する。
【0028】
別の一例として、ウェブ会議デバイス101に、自拠点(拠点X)の利用者A、利用者B、・・・の画像を予め記憶しておく。また、ウェブ会議デバイス101は、抽出した第1の話者の画像と、自拠点の話者の画像である第2の話者の画像との一致度(又は類似度)を算出し、一致度が所定の値未満である場合、第1の話者の画像がディスプレイに表示された画像と判断してもよい。
【0029】
このように、ウェブ会議デバイス101は、話者の方向に基づいて抽出した話者の画像が、ディスプレイに表示された画像である場合、話者の画像のクローズアップを中止する。従って、本実施形態によれば、自拠点の発話者の映像をクローズアップする会議システム100において、ディスプレイに表示された他拠点の人物を、自拠点の話者と誤認識してクローズアップしてしまうことを抑制することができる。
【0030】
<ハードウェア構成>
続いて、本実施形態に係る各装置のハードウェア構成の例について説明する。
【0031】
(IWBのハードウェア構成)
図5は、一実施形態に係るIWBのハードウェア構成の例を示す図である。図2に示されているように、IWB102は、例えば、CPU(Central Processing Unit)501、ROM(Read Only Memory)502、RAM(Random Access Memory)503、SSD(Solid State Drive)504、ネットワークI/F(Interface)505、及び、外部機器接続I/F506等を備えている。
【0032】
これらのうち、CPU501は、IWB102全体の動作を制御する演算装置である。ROM502は、例えば、IPL(Initial Program Loader)等のCPU501の起動に用いられるプログラムを記憶する不揮発性のメモリである。RAM503は、例えば、CPU501のワークエリアとして使用される揮発性のメモリである。SSD504は、例えば、IWB102用のプログラム等の各種データを記憶する大容量で不揮発性の記憶装置である。
【0033】
ネットワークI/F505は、IWB102を通信ネットワーク2に接続し、他の装置と通信を行うための通信インタフェースである。外部機器接続I/F506は、例えば、ウェブ会議デバイス101、又はスピーカ550等の外部機器を接続するためのインタフェースである。なお、IWB102は、スピーカ550を内蔵していてもよい。
【0034】
また、IWB102は、キャプチャデバイス511、GPU(Graphics Processing Unit)512、ディスプレイコントローラ513、接触センサ514、センサコントローラ515、電子ペンコントローラ516、近距離通信回路519、及び近距離通信回路519のアンテナ519a、電源スイッチ517及び選択スイッチ類518等を備えている。
【0035】
これらのうち、キャプチャデバイス511は、ディスプレイ540に表示しているディスプレイ画像を、動画像、又は静止画像としてキャプチャ(取得)する。GPU512は、グラフィクスを専門に扱う半導体チップ(プロセッサ)である。ディスプレイコントローラ513は、GPU512からの出力画像をディスプレイ540等へ出力するために画面表示の制御及び管理を行う。接触センサ514は、ディスプレイ540上に電子ペン530やユーザの手H等が接触したことを検知する。センサコントローラ515は、接触センサ514の処理を制御する。
【0036】
接触センサ514は、例えば、赤外線遮断方式による座標の入力及び座標の検出を行う。この座標の入力及び座標の検出する方法は、ディスプレイ540の上側両端部に設置された2つ受発光装置が、ディスプレイ540に平行して複数の赤外線を放射し、ディスプレイ540の周囲に設けられた反射部材によって反射されて、受光素子が放射した光の光路と同一の光路上を戻って来る光を受光する方法である。接触センサ514は、物体によって遮断された2つの受発光装置が放射した赤外線のIDをセンサコントローラ515に出力し、センサコントローラ515が、物体の接触位置である座標位置を特定する。電子ペンコントローラ516は、電子ペン530と通信することで、ディスプレイ540へのペン先のタッチやペン尻のタッチの有無を判断する。近距離通信回路519は、アンテナ519aを介して、他の機器と近距離無線通信を行う通信回路である。
【0037】
電源スイッチ517は、IWB102の電源のオン/オフを切り換えるためのスイッチである。選択スイッチ類518は、例えば、ディスプレイ540の表示の明暗や色合い等を調整するためのスイッチ群である。
【0038】
さらに、IWB102は、バスライン520を備えている。バスライン520は、図5に示されているCPU501等の各構成要素を電気的に接続するためのアドレスバス、データバス、及び各種の制御信号等を含む。
【0039】
(ウェブ会議デバイスのハードウェア構成)
図6は、一実施形態に係るウェブ会議デバイスのハードウェア構成の例を示す図である。ウェブ会議デバイス101は、例えば、CPU601、ROM602、RAM603、SSD604、ネットワークI/F605、外部機器接続I/F606、操作部607、画像処理ユニット608、カメラ609a、609b、・・・、音処理ユニット610、マイクアレイ611、スピーカ612、及びバス613等を有する。
【0040】
CPU601は、所定のプログラムを実行することにより、ウェブ会議デバイス101が備える様々な機能を制御する演算装置(プロセッサ)である。ROM602は、例えば、CPU601の起動に用いられるプログラム等を記憶する不揮発性のメモリである。RAM603は、例えば、CPU601のワークエリア等として用いられる揮発性のメモリである。SSD604は、例えば、ウェブ会議デバイス101用のプログラム、データ、又は設定情報等を記憶する不揮発性で大容量の記憶装置である。
【0041】
ネットワークI/F605は、ウェブ会議デバイス101を、例えば、LAN203、又は通信ネットワーク2等に接続するための通信インタフェースである。外部機器接続I/F606は、例えば、IWB102、又はPC201等の外部機器を、ウェブ会議デバイス101に接続するためのインタフェースです。操作部607は、例えば、操作ボタン、スイッチ、又はタッチパネル等の、利用者の操作を受け付ける入力デバイスである。
【0042】
画像処理ユニット608は、1つ以上のカメラ609a、609b、・・・から、ウェブ会議デバイス101の周辺を撮影した画像を取得し、取得した画像に対して、例えば、画像合成、画質補正、又は歪み補正等の画像処理を行うデバイスである。カメラ609a、609b、・・・は、ウェブ会議デバイス101の周辺の画像を撮影する撮影装置である。
【0043】
音処理ユニット610は、例えば、マイクアレイ611を用いて、指向性を制御するビームフォーミング等の様々は音処理を実行するデバイスである。また、音処理ユニット610は、スピーカ612を用いて、会議音声等の様々な音を出力する音処理も実行する。バス613は、上記の各構成要素に共通に接続され、例えば、アドレス信号、データ信号、及び各種の制御信号等を伝送する。
【0044】
(コンピュータのハードウェア構成)
PC201は、例えば、図7に示すような、コンピュータ700のハードウェア構成を有している。また、会議サーバ10は、例えば、1つ以上のコンピュータ700によって構成される。
【0045】
図7は、一実施形態に係るコンピュータのハードウェア構成を示す図である。コンピュータ700は、例えば、CPU701、ROM702、RAM703、HD(Hard Disk)704、HDD(Hard Disk Drive)コントローラ705、ディスプレイ706、外部機器接続I/F707、ネットワークI/F708、キーボード709、ポインティングデバイス710、DVD-RW(Digital Versatile Disk ReWritable)ドライブ712、メディアI/F714、及び、バスライン715等を備えている。
【0046】
これらのうち、CPU701は、コンピュータ700の全体の動作を制御する演算装置である。ROM702は、IPL等のCPU701の駆動に用いられるプログラムを記憶する不揮発性のメモリである。RAM703は、CPU701のワークエリア等として使用される揮発性のメモリである。HD704は、OS(Operating System)やアプリケーション等のプログラムや、各種のデータ等を記憶する大容量の記憶装置である。HDDコントローラ705は、CPU701の制御にしたがってHD704に対する各種データの読み出し又は書き込みを制御する。
【0047】
ディスプレイ706は、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する。外部機器接続I/F707は、各種の外部機器を接続するためのインタフェースである。ネットワークI/F708は、通信ネットワークを利用してデータ通信をするための通信インタフェースである。キーボード709は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス710は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。
【0048】
DVD-RWドライブ712は、着脱可能な記録媒体の一例としてのDVD-RW711に対する各種データの読み出し又は書き込みを制御する。なお、DVD-RW711は、DVD-RWに限らず、他の着脱可能な記録媒体であっても良い。メディアI/F714は、フラッシュメモリ等のメディア713に対するデータの読み出し又は書き込み(記憶)を制御する。バスライン715は、図7に示されているCPU701等の各構成要素を電気的に接続するためのアドレスバス、データバス、及び各種の制御信号等を含む。
【0049】
<機能構成>
続いて、本実施形態に係るウェブ会議デバイス101、及びIWB102の機能構成の例について説明する。
【0050】
(ウェブ会議デバイスの機能構成)
図8は、一実施形態に係るウェブ会議デバイスの機能構成の例を示す図である。ウェブ会議デバイス(第1の装置)101は、例えば、CPU601が所定のプログラムを実行することにより、通信部801、音声取得部802、方向検知部803、画像取得部804、画像抽出部805、クローズアップ部806、比較部807、画像コード解析部808、音声コード解析部809、及びUI(User Interface)部810等を実現している。なお、上記の各機能構成のうち、少なくとも一部は、ハードウェアによって実現されるものであってもよい。
【0051】
通信部801は、例えば、外部機器接続I/F606等を用いて、ウェブ会議デバイス101に接続された、IWB102、又はPC201等と通信する通信処理を実行する。好ましくは、通信部801は、ネットワークI/F605等を用いて、ウェブ会議デバイス101に接続されたIWB102等と通信する通信処理も実行することができる。
【0052】
音声取得部802は、例えば、マイクアレイ611、及び音処理ユニット610等を用いて、ウェブ会議デバイス101の周辺の音声を取得する音声取得処理を実行する。また、音声取得部802は、例えば、マイクアレイ611によるビームフォーミング、取得した音声の音質調整、又は取得した音声の音量調整等も行う。なお、マイクアレイ611は、第1の装置が備えるマイクの一例である。また、ウェブ会議デバイス101は、第1の装置の一例である。
【0053】
方向検知部803は、音声取得部802が、マイクアレイ(マイク)611で取得した音声に基づいて、話者の方向を検知する方向検知処理を実行する。例えば、方向検知部803は、複数のマイクで取得した音声データを解析して、音源がどの方向にあるかを推定する。
【0054】
画像取得部804は、例えば、1つ以上のカメラ609a、609b、・・・、及び画像処理ユニット608等を用いて、ウェブ会議デバイス101の周辺の画像(動画像、又は静止画像)を取得する画像取得処理を実行する。また、画像取得部804は、例えば、取得した画像の画質補正、又は歪み補正等も行う。なお、ここでは、画像取得部804が取得する画像が動画像であるものとして、以下の説明を行う。
【0055】
画像抽出部805は、方向検知部803が検知した話者の方向に基づいて、画像取得部804が取得した画像から、話者の画像(第1の話者の画像)を抽出する画像抽出処理を実行する。例えば、画像抽出部805は、入力画像から、人物が映っている領域を推定するように、予め機械学習した学習済の機械学習モデル等を用いて、人物が映っている領域の画像(動画像)を抽出してもよい。或いは、画像抽出部805は、例えば、公知のパターン認識技術等を用いて、画像取得部804が取得した画像から、話者の画像を抽出してもよい。
【0056】
ここで、機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり、コンピュータが、データ識別等の判断に必要なアルゴリズムを、事前に取り込まれる学習データから自律的に生成し、新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習、深層学習のいずれかの方法でもよく、さらに、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。
【0057】
クローズアップ部806は、画像抽出部805が抽出した話者の画像をクローズアップして出力するクローズアップ処理を実行する。また、クローズアップ部806は、画像抽出部805が抽出した話者の画像が、ディスプレイに表示された画像である場合、話者の画像のクローズアップを中止する。
【0058】
比較部807は、第1の話者の画像と第2の話者の画像とを比較し、比較結果を出力する比較処理を実行する。例えば、比較部807は、画像抽出部805が抽出した第1の話者の画像と、クローズアップ部806が取得したディスプレイ画像に含まれる第2の話者の画像との一致度(又は類似度)を算出し、一致度が所定値以上であるか否かを示す比較結果を出力する。この場合、比較部807は、例えば、画像抽出部805を用いて、ディスプレイ画像から第2の話者の画像を抽出してもよい。
【0059】
他の実施形態では、比較部807は、画像抽出部805が抽出した第1の話者の画像と、クローズアップ部806が取得した第2の話者の画像との一致度を算出し、一致度が所定値以上であるか否かを示す比較結果を出力する。さらに他の実施形態では、比較部807は、画像抽出部805が抽出した第1の話者の画像と、予め記憶した自拠点の話者の画像である第2の話者の画像との一致度を算出し、一致度が所定値未満であるか否かを示す比較結果を出力する。
【0060】
画像コード解析部808は、画像取得部804がカメラで撮影した画像コードを解析して、画像コードが表す接続情報を抽出する画像コード解析処理を実行する。例えば、画像コード解析部808は、IWB102がディスプレイに表示した画像コードを解析して、画像コードが表すIWB102のIPアドレス等の接続情報を取得する。また、画像コード解析部808は、取得した接続情報を通信部801に設定する。
【0061】
音声コード解析部809は、音声取得部802が取得した音声コード(又は音コード)を解析して、音声コードが表す接続情報を抽出する音声コード解析処理を実行する。例えば、音声コード解析部809は、IWB102が出力した音声コードを解析して、音声コードが表すIWB102のIPアドレス等の接続情報を取得する。また、音声コード解析部809、取得した接続情報を通信部801に設定する。
【0062】
UI部810は、例えば、操作部607等を用いて、利用者によるウェブ会議デバイス101に対する様々な操作を受け付ける。別の一例として、UI部810は、利用者が利用するスマートフォン等の情報端末が表示するUI画面に対する利用者の操作を、無線通信で情報端末から受け付けるもの等であってもよい。
【0063】
(IWBの機能構成)
図9は、一実施形態に係るIWBの機能構成の例を示す図である。IWB(第2の装置)102、例えば、CPU501が所定のプログラムを実行することにより、第1の通信部901、会議制御部902、表示制御部903、音声出力部904、UI部905、第2の通信部906、画像送信部907、人物画像検知部908、画像コード生成部909、及び音声コード生成部910等を実現している。なお、上記の各機能構成のうち、少なくとも一部は、ハードウェアによって実現されるものであってもよい。
【0064】
第1の通信部901は、例えば、ネットワークI/F505を用いて、IWB102を通信ネットワーク2に接続し、会議サーバ10、又は他の会議システム110等と通信する第1の通信処理を実行する。また、図2に示すような会議システム100では、第1の通信部901は、ネットワークI/F505を用いて、IWB102をLAN203に接続し、ウェブ会議デバイス101と通信を行うこともできる。
【0065】
会議制御部902は、例えば、第1の通信部901を用いて、会議サーバ10に接続し、他の会議システム110とウェブ会議を行う会議制御処理を実行する。ウェブ会議中、会議制御部902は、例えば、ウェブ会議デバイス101から送信される会議音声、及び会議画像(動画像)を含む会議映像を、会議サーバ10を介して、他の会議システム110に送信する。また、会議制御部902は、会議サーバ10を介して、他の会議システム110から会議映像を受信する。なお、会議制御部902は、既存の様々なウェブ会議の仕組みを利用するものであってよい。
【0066】
表示制御部903は、会議制御部902が他の会議システム110から受信した会議映像に含まれる会議画像(動画像)を、ディスプレイコントローラ513等を用いて、ディスプレイ540に表示する表示制御処理を実行する。また、表示制御部903は、画像コード生成部909が生成した画像コード、又はUI部905のUI画面等をディスプレイ540に表示することもできる。
【0067】
音声出力部904は、会議制御部902が他の会議システム110から受信した会議映像に含まれる会議音声を、スピーカ550等を用いて出力する音声出力処理を実行する。また、音声出力部904は、音声コード生成部910が生成した音声コード等を出力することもできる。
【0068】
UI部905は、表示制御部903を用いて、UI画面をディスプレイ417等に表示させるとともに、センサコントローラ515、及び接触センサ514等を用いて、UI画面に対する利用者の操作を受け付ける。
【0069】
第2の通信部906は、例えば、外部機器接続I/F506等を用いて、ウェブ会議デバイス101等と通信する第2の通信処理を実行する。
【0070】
画像送信部907は、第2の通信部906を介して、ウェブ会議デバイス101から要求された画像を、ウェブ会議デバイス101に送信する画像送信処理を実行する。例えば、画像送信部907は、ウェブ会議デバイス101からの要求に応じて、表示制御部903がディスプレイ540に表示している会議画像をキャプチャしたディスプレイ画像(スナップショット)を取得し、ウェブ会議デバイス101に送信する。
【0071】
別の実施形態では、画像送信部907は、ウェブ会議デバイス101からの要求に応じて、人物画像検知部908が、ディスプレイ画像から検知した人物画像(第2の話者の画像)を、ウェブ会議デバイス101に送信する。
【0072】
人物画像検知部908は、画像送信部907がキャプチャしたディスプレイ画像から人物画像(第2の話者の画像)を検知する人物画像検知処理を実行する。例えば、人物画像検知部908は、ディスプレイ画像から、前述した画像抽出部805と同様の手法で、第2の話者の画像を抽出する。
【0073】
画像コード生成部909は、例えば、第1の通信部901のIPアドレス等、ネットワークを介してIWB102と通信するための接続情報を表す画像コード(2次元コード、又はバーコード等)を生成する画像コード生成処理を実行する。
【0074】
音声コード生成部910は、例えば、第1の通信部901のIPアドレス等、ネットワークを介してIWB102と通信するための接続情報を表す音声コード(又は音コード)を生成する音声コード生成処理を実行する。
【0075】
<処理の流れ>
続いて、本実施形態に係る表示制御方法の処理の流れについて説明する。
【0076】
[第1の実施形態]
図10は、第1の実施形態に係るウェブ会議デバイスの処理の例を示すシーケンス図である。この処理は、例えば、図1に示すような会議システム100において、ウェブ会議デバイス101が実行する処理の一例を示している。なお、図10に示す処理の開始時点において、会議システム100と、他の会議システム110との間でウェブ会議が行われているものとする。
【0077】
ステップS1001において、音声取得部802は、マイクアレイ611で取得したマイク音声(会議音声)を、方向検知部803に出力する。これに応じて、ステップS1002において、方向検知部803は、マイク音声から話者の方向を検知し、検知した話者の方向をクローズアップ部806に通知する。
【0078】
ステップS1003において、画像取得部804は、1つ以上のカメラ609a、609b、・・・で撮影したカメラ画像(会議画像)を、クローズアップ部806に出力する。
【0079】
ステップS1004において、クローズアップ部806は、画像取得部804から取得したカメラ画像と、方向検知部803から通知された話者の方向とを、画像抽出部805に入力する。これに応じて、ステップS1005において、画像抽出部805は、入力されたカメラ画像と話者の方向とに基づいて、カメラ画像から、発話している話者の画像である第1の話者の画像を抽出し、抽出した話者の画像をクローズアップ部806に出力する。
【0080】
ステップS1006、S1007において、クローズアップ部806は、通信部801を介して、IWB102に、ディスプレイ画像を要求する。これに応じて、ステップS1008、S1009において、IWB102は、ディスプレイ417等に表示している会議映像をキャプチャしたディスプレイ画像(スナップショット)を、ウェブ会議デバイス101に送信する。
【0081】
ステップS1010において、クローズアップ部806は、画像抽出部805から取得した第1の話者の画像と、IWB102から取得したディスプレイ画像とを、比較部807に入力する。これに応じて、ステップS1011において、比較部807は、入力された第1の話者の画像と、入力されたディスプレイ画像に含まれる第2の話者の画像とを比較し、比較結果をクローズアップ部806に出力する。この比較結果には、例えば、第1の話者の画像と、第2の話者の画像との一致度(又は類似度)が所定値以上であるか否かを示す情報等が含まれる。
【0082】
ウェブ会議デバイス101は、比較部807から通知された比較結果に基づいて、処理を分岐させる。例えば、第1の話者の画像と第2の話者の画像との一致度が所定値未満である場合、ウェブ会議デバイス101は、ステップS1021~S1023の処理を実行する。ステップS1021において、クローズアップ部806は、第1の話者の画像をクローズアップして会議画像(動画像)を作成する。また、ステップS1022、S1023において、クローズアップ部806は、作成した会議画像と会議音声とを含む会議映像を、通信部801を介して、IWB102に送信する。
【0083】
一方、第1の話者の画像と第2の話者の画像との一致度が所定値以上である場合、ウェブ会議デバイス101は、ステップS1031、S1032の処理を実行する。ステップS1031、S1032において、クローズアップ部806は、第1の話者のクローズアップを中止して、例えば、自拠点の会議室等を撮影した会議画像と、会議音声とを含む会議映像を、通信部801を介して、IWB102に送信する。
【0084】
(IWBの処理)
図11は、第1の実施形態に係るIWBの処理の例を示すシーケンス図である。この処理は、図10で説明したウェブ会議デバイス101の処理に対応するIWB102の処理の一例を示している。なお、図11のステップS1007、S1008の処理は、図10のステップS1007、S1008の処理に対応している。
【0085】
ステップS1007において、第2の通信部906が、ウェブ会議デバイス101からディスプレイ画像の要求を受け付けると、ステップS1101において、第2の通信部906は、画像送信部907にディスプレイ画像の取得要求を送信する。
【0086】
ステップS1102において、画像送信部907は、ディスプレイ画像の取得要求を受け付けると、表示制御部903がディスプレイ540に表示している会議画像をキャプチャしたディスプレイ画像(スナップショット)を取得する。また、ステップS1103において、画像送信部907は、取得したディスプレイ画像を第2の通信部906に送信する。
【0087】
ステップS1008において、第2の通信部906は、画像送信部907から受信したディスプレイ画像を、ウェブ会議デバイス101に送信する。
【0088】
また、ステップS1111において、第2の通信部906は、ウェブ会議デバイス101が送信した会議映像を受信すると、ステップS1112の処理を実行する。
【0089】
ステップS1112において、第2の通信部906は、ウェブ会議デバイス101から受信した会議映像を、会議制御部902に出力する。ステップS1113において、会議制御部902は、他の会議システム110に会議映像を送信する。例えば、会議制御部902は、第1の通信部901を介して、会議サーバ10に会議映像を送信することにより、他の会議システム110に会議映像を送信する。
【0090】
図10、11の処理により、自拠点の発話者の映像をクローズアップする会議システム100において、ディスプレイに表示された他拠点の人物を、自拠点の話者と誤認識してクローズアップしてしまうことを抑制することができる。
【0091】
[第2の実施形態]
第2の実施形態では、会議システム100の処理の別の一例について説明する。図12は、第2の実施形態に係るウェブ会議デバイスの処理の例を示すシーケンス図である。なお、図12に示す処理のうち、ステップS1001~S1006の処理は、図10で説明した第1の実施形態に係るウェブ会議デバイスの処理と同様なので、ここでは説明を省略する。また、ここでは、第1の実施形態と同様の処理内容に対する詳細な説明は省略する。
【0092】
ステップS1201、S1202において、クローズアップ部806は、通信部801を介して、IWB102に、ディスプレイ画像に含まれる第2の話者の画像を要求する。ここで、ウェブ会議デバイス101は、所定の時間内に、IWB102から第2の話者の画像を受信したか否かに応じて、処理を分岐させる。
【0093】
例えば、所定の時間内に、IWB102から第2の話者の画像を受信した場合、ウェブ会議デバイス101は、ステップS1211~S1214の処理を実行する。ステップS1211、S1212において、通信部801は、IWB102から受信した第2の話者の画像を、クローズアップ部806に出力する。ステップS1213において、クローズアップ部806は、画像抽出部805から取得した第1の話者の画像と、IWB102から取得した第2の話者の画像とを、比較部807に入力する。これに応じて、ステップS1214において、比較部807は、入力された第1の話者の画像と第2の話者の画像とを比較し、比較結果をクローズアップ部806に出力する。
【0094】
一方、所定の時間内に、IWB102から第2の話者の画像を受信できない場合、ウェブ会議デバイス101は、ステップS1221の処理を実行する。ステップS1221おいて、クローズアップ部806は、第1の話者の画像と第2話者の画像が一致しない(一致度が所定値未満)と判断する。
【0095】
ステップS1231において、ウェブ会議デバイス101は、第1の話者の画像と第2話者の画像との比較結果に応じた会議映像の送信処理を実行する。例えば、第1の話者の画像と第2の話者の画像との一致度が所定値未満である場合、ウェブ会議デバイス101は、図10のステップS1021~S1023の処理を実行する。一方、第1の話者の画像と第2の話者のとの一致度が所定値以上である場合、ウェブ会議デバイス101は、図10のステップS1031、S1032の処理を実行する。
【0096】
(IWBの処理)
図13は、第2の実施形態に係るIWBの処理の例を示すシーケンス図である。この処理は、図12で説明した、第2の実施形態に係るウェブ会議デバイスの処理に対応するIWB102の処理の一例を示している。なお、図13のステップS1202の処理は、
図12のステップS1202の処理に対応している。また、図13のステップS1211の処理は、図12のステップS1211の処理に対応している。また、図13のステップS1111~S1113の処理は、図11で説明したステップS1111~S1113の処理と同様なので、ここでは説明を省略する。
【0097】
ステップS1202において、第2の通信部906が、ウェブ会議デバイス101から第2の話者の画像の要求を受け付けると、ステップS1301において、第2の通信部906は、画像送信部907に第2の話者の画像の取得要求を送信する。
【0098】
ステップS1302において、画像送信部907は、第2の話者の画像の取得要求を受け付けると、表示制御部903がディスプレイ540に表示している会議画像をキャプチャしたディスプレイ画像(スナップショット)を取得する。また、ステップS1303において、画像送信部907は、取得したディスプレイ画像を人物画像検知部908に入力する。
【0099】
ステップS1304において、人物画像検知部908は、入力されたディスプレイ画像から、人物が映っている領域の画像(第2の話者の画像)を取得する。例えば、人物画像検知部908は、ディスプレイ画像から、人物が映っている領域の画像を抽出するように、予め機械学習した学習済の機械学習モデルを用いて、ディスプレイ画像から人物が映っている領域の画像(第2の話者の画像)を抽出する。
【0100】
ここで、人物画像検知部908が、ディスプレイ画像から第2の話者の画像を取得できた場合、IWB102は、ステップS1311、S1312、S1211の処理を実行する。一方、人物画像検知部908が、第2の話者の画像を取得できなかった場合、IWB102は、ステップS1311、S1312、S1211の処理の実行を中止する。
【0101】
ステップS1311において、人物画像検知部908は、取得した第2の話者の画像を画像送信部に出力する。これに応じて、ステップS1312、S1211において、画像送信部907は、第2の通信部906を介して、ウェブ会議デバイス101に、第2の話者の画像を送信する。
【0102】
図12、13の処理においても、自拠点の発話者の映像をクローズアップする会議システム100において、ディスプレイに表示された他拠点の人物を、自拠点の話者と誤認識してクローズアップしてしまうことを抑制することができる
[第3の実施形態]
第3の実施形態では、ウェブ会議デバイス101が、自拠点(拠点X)でウェブ会議に参加する利用者(利用者A、利用者B、・・・)の画像を、ウェブ会議デバイス101に登録する機能を有している場合における処理の例について説明する。
【0103】
<機能構成>
図14は、第3の実施形態に係るウェブ会議デバイスの機能構成の例を示す図である。図14に示すように、第3の実施形態に係るウェブ会議デバイス101は、図8で説明した一実施形態に係るウェブ会議デバイス101の機能構成に加えて、利用者画像登録部1401、及び利用者画像記憶部1402を有している。
【0104】
利用者画像登録部1401は、例えば、CPU601が実行するプログラムによって実現され、自拠点でウェブ会議に参加する利用者の画像を登録する利用者画像登録処理を実行する。例えば、利用者画像登録部1401は、UI部810が、利用者画像の登録操作を受け付けたとき等に、画像取得部804が取得した利用者の画像を、利用者画像記憶部1402等に記憶する。
【0105】
好ましくは、利用者画像登録部1401は、自拠点(例えば、拠点X)でウェブ会議に参加する全ての利用者A、利用者B、・・・の画像を、利用者画像記憶部1402に記憶する。
【0106】
別の一例として、利用者画像登録部1401は、ウェブ会議が始まる前に、ウェブ会議デバイス101の周辺にいる利用者A、利用者B、・・・の画像を自動的に取得し、利用者画像記憶部1402に記憶するもの等であってもよい。
【0107】
利用者画像記憶部1402は、例えば、CPU601が実行するプログラム、及びSSD604等によって実現され、利用者画像登録部1401が取得した利用者の画像を記憶する。
【0108】
<処理の流れ>
図15は、第3の実施形態に係るウェブ会議デバイスの処理の例を示すシーケンス図である。なお、図15に示す処理の開始時点において、自拠点(例えば拠点X)からウェブ会議に参加する利用者(例えば、利用者A、利用者B、・・・)の画像が、利用者画像記憶部1402に記憶されているものとする。また、図15のステップS1001~S1005の処理は、図10で説明した第1の実施形態に係るウェブ会議デバイスの処理と同様なので、ここでは説明を省略する。
【0109】
ステップS1501、S1502において、クローズアップ部806は、予め記憶した自拠点の利用者の画像である第2の話者の画像を取得する。この第2の話者の画像には、例えば、利用者Aの画像、利用者Bの画像、・・・等が含まれる。
【0110】
ステップS1503において、クローズアップ部806は、画像抽出部805から取得した第1の話者の画像と、利用者画像記憶部1402から取得した第2の話者の画像とを、比較部807に入力する。
【0111】
ステップS1504において、比較部807は、入力された第1の話者の画像と第2の話者の画像とを比較し、比較結果をクローズアップ部806に出力する。例えば、比較部807は、第1の話者の画像と、第2の話者の画像の各々との一致度(又は類似度)を算出し、算出した一致度の中に、所定値以上のものがある場合、一致度が所定値以上であることを示す比較結果をクローズアップ部806に出力する。一方、算出した一致度の中に、所定値以上のものがない場合、比較部807は、一致度が所定値未満であることを示す比較結果をクローズアップ部806に出力する。
【0112】
一致度が所定値以上である場合、ウェブ会議デバイス101は、ステップS1511~S1513の処理を実行する。ステップS1511において、クローズアップ部806は、第1の話者の画像をクローズアップして会議画像(動画像)を作成する。また、ステップS1512、S1513において、クローズアップ部806は、作成した会議画像と会議音声とを含む会議映像を、通信部801を介して、IWB102等に送信する。
【0113】
一方、一致度が所定の値未満である場合、ウェブ会議デバイス101は、ステップS1521、S1522の処理を実行する。ステップS1521、S1522において、クローズアップ部806は、第1の話者のクローズアップを中止して、例えば、自拠点の会議室を表示する会議画像と、会議音声とを含む会議映像を、通信部801を介して、IWB102等に送信する。
【0114】
なお、第3の実施形態では、IWB102の画像送信部907、及び人物画像検知部908等を使用しない。従って、第3の実施形態に係る会議システム100では、IWB102に代えて、例えば、大型のディスプレイ、プロジェクタ、又は画像送信部907、及び人物画像検知部908を有していないIWBの既存の表示装置を利用して、会議映像を表示できる。
【0115】
このように、第3の実施形態によれば、既存の表示装置を利用して、ディスプレイに表示された他拠点の人物を、自拠点の話者と誤認識してクローズアップしてしまうことを抑制することができる。
【0116】
[第4の実施形態]
第1~3の実施形態では、図1に示すように、ウェブ会議デバイス101と、IWB102との間の通信をUSBケーブル103等で行うものとして説明した。ただし、これに限られず、図2に示すように、ウェブ会議デバイス101と、IWB102との間の通信は、LAN203等のネットワークを用いて行うものであってよい。
【0117】
この場合、利用者は、例えば、図16、又は図17に示すような接続情報の設定処理を行うことにより、ウェブ会議デバイス101と、IWB102とを、ネットワークを介して通信可能に設定することができる。
【0118】
(接続情報の設定処理1)
図16は、第4の実施形態に係る接続情報の設定処理の例を示すシーケンス図(1)である。この処理は、例えば、図2に示すような会議システム100において、ウェブ会議デバイス101に、IWB102のIPアドレスを設定する処理の一例を示している。なお、IPアドレスは、IWB102に接続するための接続情報の一例である。
【0119】
ステップS1601、S1602において、IWB102のUI部905は、利用者による画像コードの表示操作を受け付けると、第1の通信部901からIPアドレスを取得する。
【0120】
ステップS1603において、IWB102のUI部905は、取得したIPアドレスを画像コード生成部909に入力する。これに応じて、ステップS1604において、画像コード生成部909は、入力されたIPアドレスを表す画像コードを生成し、生成した画像コードをUI部905に出力する。
【0121】
ステップS1605において、IWB102のUI部905は、生成された画像コードの表示を要求する画像コードの表示要求を、表示制御部903に送信する。これに応じて、ステップS1606において、表示制御部903は、第1の通信部901のIPアドレスを表す画像コードを、ディスプレイ540等に表示する。
【0122】
この状態から、ステップS1611において、利用者は、ウェブ会議デバイス101のUI部810に対して、IPアドレスの設定操作を行う。これに応じて、ステップS1612において、ウェブ会議デバイス101のUI部810は、画像取得部804に対して、撮影を指示する。
【0123】
ステップS1613、S1614において、画像取得部804は、IWB102が表示している画像コードを撮影し、撮影した画像コードを画像コード解析部808に入力する。なお、画像取得部804は、1つ以上のカメラ609a、609b、・・・を用いて、ウェブ会議デバイスの周辺(会議室全体)を撮影することができるので、利用者は、ウェブ会議デバイス101の向きの調整等は、特に行わなくてもよい。
【0124】
ステップS1615において、画像コード解析部808は、入力された画像コードを解析して、画像コードが表すIPアドレスを取得する。また、ステップS1616において、画像コード解析部808は、取得したIPアドレスを通信部801に設定する。これにより、通信部801は、例えば、ネットワークI/F605を用いて、IWB102と通信できるようになる。
【0125】
(接続情報の設定処理2)
図17は、第4の実施形態に係る接続情報の設定処理の例を示すシーケンス図(2)である。この処理は、例えば、図2に示すような会議システム100において、ウェブ会議デバイス101に、IWB102のIPアドレスを設定する処理の別の一例を示している。
【0126】
ステップS1701、S1702において、IWB102のUI部905は、利用者による画像コードの表示操作を受け付けると、第1の通信部901からIPアドレスを取得する。
【0127】
ステップS1703において、IWB102のUI部905は、取得したIPアドレスを音声コード生成部910に入力する。これに応じて、ステップS1704において、音声コード生成部910は、入力されたIPアドレスを表す音声コードを生成し、生成した音声コードをUI部905に出力する。
【0128】
ステップS1705において、IWB102のUI部905は、生成された音声コードの出力を要求する音声コードの出力要求を、音声出力部904に送信する。これに応じて、ステップS1706において、音声出力部904は、第1の通信部901のIPアドレスを表す音声コードを、スピーカ550等を用いて出力する。
【0129】
この状態から、ステップS1711において、利用者は、ウェブ会議デバイス101のUI部810に対して、IPアドレスの設定操作を行う。これに応じて、ステップS1712において、ウェブ会議デバイス101のUI部810は、音声取得部802に対して、音声の取得を指示する。
【0130】
ステップS1713、S1714において、音声取得部802は、IWB102が出力する音声コードを含む音声を取得し、取得した音声(音声データ)を音声コード解析部809に入力する。
【0131】
ステップS1715において、音声コード解析部809は、入力された音声を解析して、音声コードが表すIPアドレスを取得する。また、ステップS1716において、音声コード解析部809は、取得したIPアドレスを通信部801に設定する。これにより、通信部801は、例えば、ネットワークI/F605を用いて、IWB102と通信できるようになる。
【0132】
以上、本発明の各実施形態によれば、自拠点の発話者の映像をクローズアップする会議システム100において、ディスプレイに表示された他拠点の人物を、自拠点の話者と誤認識してクローズアップしてしまうことを抑制することができる。
【0133】
<補足>
上記で説明した各実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。
【0134】
<付記>
本明細書には、下記の各項の会議システム、表示制御方法、及びプログラムが開示されている。
(第1項)
カメラとマイクとを備えた第1の装置と、ディスプレイを備えた第2の装置とを含む会議システムであって、
前記第1の装置は、
前記マイクで取得した音声に基づいて、話者の方向を検知する方向検知部と、
前記話者の方向に基づいて、前記カメラで撮影した画像から前記話者の画像を抽出する画像抽出部と、
前記話者の画像をクローズアップして出力するクローズアップ部と、
を有し、
前記クローズアップ部は、前記話者の画像が前記ディスプレイに表示された画像である場合、前記話者の画像のクローズアップを中止する、会議システム。
(第2項)
前記第1の装置は、前記画像抽出部が抽出した第1の話者の画像と、前記第2の装置が前記ディスプレイに表示するディスプレイ画像に含まれる第2の話者の画像とを比較する比較部を有し、
前記クローズアップ部は、前記第1の話者の画像と前記第2の話者の画像との一致度が所定値以上である場合、前記第1の話者の画像のクローズアップを中止する、
第1項に記載の会議システム。
(第3項)
前記第1の装置は、前記第2の装置と通信する通信部を有し、
前記第2の装置は、前記ディスプレイに表示するディスプレイ画像を、前記第1の装置に送信する画像送信部を有する、
第1項又は第2項に記載の会議システム。
(第4項)
前記第1の装置は、前記第2の装置と通信する通信部を有し、
前記第2の装置は、前記ディスプレイに表示するディスプレイ画像に含まれる前記第2の話者の画像を、前記第2の装置に送信する画像送信部を有する、
第1項又は第2項に記載の会議システム。
(第5項)
前記画像送信部は、前記ディスプレイ画像に人が映っていない場合、前記第2の装置に前記第2の話者の画像を送信する処理を中止する、第4項に記載の会議システム。
(第6項)
前記第1の装置は、前記第1の話者の画像と、予め記憶した自拠点の利用者の画像である第2の話者の画像とを比較する比較部を有し、
前記クローズアップ部は、前記第1の話者の画像と前記第2の話者の画像との一致度が所定値未満である場合、前記第1の話者の画像のクローズアップを中止する、
第1項に記載の会議システム。
(第7項)
前記第2の装置は、前記ディスプレイに前記第2の装置と接続するための接続情報を表す画像コードを表示する表示制御部を有し、
前記第1の装置は、前記カメラで撮影した前記画像コードを解析し、前記画像コードが表す前記接続情報を前記通信部に設定する画像コード解析部を有する、
第3項又は第4項に記載の会議システム。
(第8項)
前記第2の装置は、前記第2の装置と接続するための接続情報を表す音声コードを出力する音声出力部を有し、
前記第1の装置は、前記マイクで取得した前記音声コードを解析し、前記音声コードが表す前記接続情報を前記通信部に設定する音声コード解析部を有する、
第3項、第4項、及び第7項のいずれかに記載の会議システム。
(第9項)
カメラとマイクとを備えた第1の装置と、ディスプレイを備えた第2の装置とを含む会議システムにおいて、
前記第1の装置が、
前記マイクで取得した音声に基づいて、話者の方向を検知する検知処理と、
前記話者の方向に基づいて、前記カメラで撮影した画像から前記話者の画像を抽出する抽出処理と、
前記話者の画像をクローズアップして出力するクローズアップ処理と、
を実行し、
前記クローズアップ処理は、前記話者の画像が前記ディスプレイに表示された画像である場合、前記話者の画像のクローズアップを中止する、表示制御方法。
(第10項)
カメラとマイクとを備えた第1の装置と、ディスプレイを備えた第2の装置とを含む会議システムにおいて、
前記第1の装置に、
前記マイクで取得した音声に基づいて、話者の方向を検知する検知処理と、
前記話者の方向に基づいて、前記カメラで撮影した画像から前記話者の画像を抽出する抽出処理と、
前記話者の画像をクローズアップするクローズアップ処理と、
を実行させ、
前記クローズアップ処理は、前記話者の画像が前記ディスプレイに表示された画像である場合、前記話者の画像のクローズアップを中止する、プログラム。
【0135】
以上、本発明の実施形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、様々な変形、及び応用が可能である。
【符号の説明】
【0136】
1 通信システム
100 会議システム
101 ウェブ会議デバイス(第1の装置の一例)
102 IWB(第2の装置の一例)
540 ディスプレイ
609a、609b カメラ
611 マイクアレイ(マイク)
801 通信部
803 方向検知部
805 画像抽出部
806 クローズアップ部
807 比較部
808 画像コード解析部
809 音声コード解析部
903 表示制御部
904 音声出力部
907 画像送信部
1402 利用者画像記憶部
【先行技術文献】
【特許文献】
【0137】
【特許文献1】特開2017-34502号公報
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17