(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024078382
(43)【公開日】2024-06-10
(54)【発明の名称】ビデオ会議システム、及び録画映像作成方法
(51)【国際特許分類】
H04N 7/15 20060101AFI20240603BHJP
H04N 21/231 20110101ALI20240603BHJP
【FI】
H04N7/15 150
H04N21/231
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023102537
(22)【出願日】2023-06-22
(31)【優先権主張番号】P 2022190715
(32)【優先日】2022-11-29
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】桑田 耕司
【テーマコード(参考)】
5C164
【Fターム(参考)】
5C164FA10
5C164PA43
5C164SB36P
5C164VA06S
5C164VA09P
5C164VA35P
5C164VA51S
(57)【要約】
【課題】直近の複数の発話者をクローズアップ表示するビデオ会議システムにおいて、クローズアップ表示される発話者の切り替え頻度を抑制した録画映像を提供する。
【解決手段】ビデオ会議システムは、ビデオ会議の映像を録画するビデオ会議システムであって、マイクアレイで取得した前記ビデオ会議の音声に基づいて音の方向を検知する方向検知部と、1つ以上のカメラで撮影した前記ビデオ会議の第1の映像から人物の画像を検知する画像検知部と、前記音の方向と前記人物の画像とに基づいて、前記ビデオ会議システムを利用して前記ビデオ会議に参加する利用者の発話順序を特定する特定部と、前記第1の映像を所定の時間遅延させた第2の映像から、前記発話順序に基づいて、新たに発話した第1の利用者を含む所定の数の利用者の画像を所定のエリアに表示する前記ビデオ会議の録画映像を作成する録画映像作成部と、を有する。
【選択図】
図8
【特許請求の範囲】
【請求項1】
ビデオ会議の映像を録画するビデオ会議システムであって、
マイクアレイで取得した前記ビデオ会議の音声に基づいて音の方向を検知する方向検知部と、
1つ以上のカメラで撮影した前記ビデオ会議の第1の映像から人物の画像を検知する画像検知部と、
前記音の方向と前記人物の画像とに基づいて、前記ビデオ会議システムを利用して前記ビデオ会議に参加する利用者の発話順序を特定する特定部と、
前記第1の映像を所定の時間遅延させた第2の映像から、前記発話順序に基づいて、新たに発話した第1の利用者を含む所定の数の利用者の画像を所定のエリアに表示する前記ビデオ会議の録画映像を作成する録画映像作成部と、
を有する、ビデオ会議システム。
【請求項2】
前記録画映像作成部は、前記第2の映像において、前記第1の利用者が発話したときに、前記第1の利用者の次に発話する第2の利用者の画像が前記所定のエリアに表示されている場合、少なくとも前記第1の利用者の画像と前記第2の利用者の画像とを前記所定のエリアに表示する前記録画映像を作成する、請求項1に記載のビデオ会議システム。
【請求項3】
前記録画映像作成部は、前記第2の映像において、前記第1の利用者が発話したときに、前記第1の利用者の次に発話する第2の利用者の次に発話する第3の利用者の画像が前記所定のエリアに表示されている場合、少なくとも前記第1の利用者の画像と前記第3の利用者の画像とを前記所定のエリアに表示する前記録画映像を作成する、請求項1又は2に記載のビデオ会議システム。
【請求項4】
前記録画映像作成部は、前記第2の映像において、前記第1の利用者が発話したときに、前記第1の利用者の画像が前記所定のエリアに表示されている場合、前記所定のエリアの表示を変更せずに、前記録画映像を作成する、請求項1に記載のビデオ会議システム。
【請求項5】
前記録画映像作成部は、前記第2の映像において、利用者の発話時間が所定の時間未満である場合、前記所定のエリアの表示を変更せずに、前記録画映像を作成する、請求項1に記載のビデオ会議システム。
【請求項6】
前記第1の映像から、他の利用者よりも後に発話した前記所定の数の利用者の画像を前記所定のエリアに表示する前記ビデオ会議の会議映像を作成する会議映像作成部を有する、請求項1に記載のビデオ会議システム。
【請求項7】
前記録画映像作成部は、前記所定のエリアに表示される利用者の画像の変化が、前記会議映像より少ない前記録画映像を作成する、請求項6に記載のビデオ会議システム。
【請求項8】
前記第1の映像を前記所定の時間保持した後に、前記第2の映像を出力する映像遅延バッファを有する、請求項1に記載のビデオ会議システム。
【請求項9】
ビデオ会議を制御する第1の装置と、マイクアレイと1つ以上のカメラとを備え、第1の装置に接続される第2の装置と、を含み前記ビデオ会議の映像を録画するビデオ会議システムであって、
前記第2の装置は、
前記マイクアレイで取得した音声に基づいて音の方向を検知する方向検知部と、
前記カメラで撮影した第1の映像から人物の画像を検知する画像検知部と、
前記音の方向と前記人物の画像とに基づいて、前記ビデオ会議システムを利用して前記ビデオ会議に参加する利用者の発話順序を特定する特定部と、
前記第1の映像を所定の時間遅延させた第2の映像から、前記発話順序に基づいて、新たに発話した第1の利用者を含む所定の数の利用者の画像を所定のエリアに表示する前記ビデオ会議の録画映像を作成する録画映像作成部と、
を有する、ビデオ会議システム。
【請求項10】
ビデオ会議の映像を録画するビデオ会議システムが、
マイクアレイで取得した前記ビデオ会議の音声に基づいて音の方向を検知する方向検知処理と、
1つ以上のカメラで撮影した前記ビデオ会議の第1の映像から人物の画像を検知する画像検知処理と、
前記音の方向と前記人物の画像とに基づいて、前記ビデオ会議システムを利用して前記ビデオ会議に参加する利用者の発話順序を特定する特定処理と、
前記第1の映像を所定の時間遅延させた第2の映像から、前記発話順序に基づいて、新たに発話した第1の利用者を含む所定の数の利用者の画像を所定のエリアに表示する前記ビデオ会議の録画映像を作成する録画映像作成処理と、
を実行する、録画映像作成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ビデオ会議システム、及び録画映像作成方法に関する。
【背景技術】
【0002】
マイクで取得した音声とカメラで撮影した画像とを、通信ネットワークを介して送受信して、遠隔会議を実現するビデオ会議システムが普及している。
【0003】
特許文献1には、入力画像からビデオ会議の会議画像を生成する際に、話者部分の領域を拡大、又は縮小することにより、話者が適切な大きさとなるように表示できる会議画像再生システムが開示されている。
【0004】
また、特許文献2には、ビデオ会議システムにおいて、パノラマカメラと、マイクアレイを組み合わせて、パノラマカメラで会議室全体を撮影し、発言者がいる場合に、自動的に発言者の映像をクローズアップして表示すること等が開示されている。
【発明の概要】
【発明が解決しようとする課題】
【0005】
自拠点の発話者の画像をクローズアップ表示するビデオ会議システムでは、発話者が頻繁に切り替わると、クローズアップ表示される発話者の画像の切り替わり頻度がめまぐるしくなるという問題がある。また、今までの、ビデオ会議システムでは、会議映像を録画する際に会議映像をそのまま録画しているため、録画映像においても、クローズアップ表示される発話者の画像の切り替わり頻度がめまぐるしくなるという問題がある。
【0006】
このような問題は、例えば、直近の複数の発話者をクローズアップ表示するビデオ会議システムにおいても存在する。
【0007】
本発明の一実施の形態は、上記の課題に鑑みてなされたものであって、直近の複数の発話者をクローズアップ表示するビデオ会議システムにおいて、クローズアップ表示される発話者の切り替え頻度を抑制した録画映像を提供する。
【課題を解決するための手段】
【0008】
上記の課題を解決するため、本発明の一実施形態に係るビデオ会議システムは、ビデオ会議の映像を録画するビデオ会議システムであって、マイクアレイで取得した前記ビデオ会議の音声に基づいて音の方向を検知する方向検知部と、1つ以上のカメラで撮影した前記ビデオ会議の第1の映像から人物の画像を検知する画像検知部と、前記音の方向と前記人物の画像とに基づいて、前記ビデオ会議システムを利用して前記ビデオ会議に参加する利用者の発話順序を特定する特定部と、前記第1の映像を所定の時間遅延させた第2の映像から、前記発話順序に基づいて、新たに発話した第1の利用者を含む所定の数の利用者の画像を所定のエリアに表示する前記ビデオ会議の録画映像を作成する録画映像作成部と、を有する。
【発明の効果】
【0009】
本発明の一実施形態によれば、直近の複数の発話者をクローズアップ表示するビデオ会議システムにおいて、クローズアップ表示される発話者の切り替え頻度を抑制した録画映像を提供することができる。
【図面の簡単な説明】
【0010】
【
図1】一実施形態に係る通信システムのシステム構成の例を示す図である。
【
図2】一実施形態に係るビデオ会議システムの別の構成例を示す図である。
【
図3】一実施形態に係るビデオ会議システムの会議映像のイメージを示す図である。
【
図4】一実施形態に係る会議映像の遷移の例を示す図である。
【
図5】一実施形態に係る録画映像の遷移の例を示す図である。
【
図6】一実施形態に係るビデオ会議端末のハードウェア構成の例を示す図である。
【
図7】一実施形態に係るコンピュータのハードウェア構成の例を示す図である。
【
図8】一実施形態に係るビデオ会議システムの機能構成の一例を示す図である。
【
図9】一実施形態に係るビデオ会議システムの機能構成の別の一例を示す図である。
【
図10】一実施形態に係る会議映像、及び録画映像の作成処理の例を示すフローチャートである。
【
図11】第1の実施形態に係る録画映像の作成処理の例を示すフローチャートである。
【
図12】第2の実施形態に係る録画映像の作成処理の例を示すフローチャートである。
【
図13】第3の実施形態に係る録画映像の作成処理の例を示すフローチャートである。
【
図14】第3の実施形態に係る優先度の決定処理の例を示すフローチャートである。
【
図15】一実施形態に係る会議映像の作成処理のイメージを示す図である。
【
図16】一実施形態に係る録画映像の作成処理のイメージを示す図である。
【発明を実施するための形態】
【0011】
以下、本発明の実施形態について、図面を参照しながら詳細に説明する。
【0012】
<システム構成>
図1は、一実施形態に係る通信システムのシステム構成の例を示す図である。通信システム1は、例えば、自拠点に設置されたビデオ会議システム100を利用して、1人以上の利用者A、利用者B、利用者C、利用者D、・・・が、他の拠点で他のビデオ会議システム110を利用する他の利用者とビデオ会議を行うシステムである。なお、ビデオ会議は、ウェブ会議と呼ばれる場合もある。また、本実施形態に係るビデオ会議システム100は、ビデオ会議の映像を録画する機能を有している。
【0013】
なお、以下の説明において、利用者A、利用者B、利用者C、利用者D、・・・のうち、任意の利用者を示す場合、「自拠点の利用者」を用いる。また、
図1に示した自拠点の利用者の数、及び他の拠点の他の利用者の数は一例である。
【0014】
図1の例では、通信システム1は、自拠点に設けられたビデオ会議システム100と、他の拠点に設けられた他のビデオ会議システム110と、会議サーバ10とを含む。また、ビデオ会議システム100、他のビデオ会議システム110、及び会議サーバ10は、例えば、インターネット、及びLAN(Local Area Network)等の通信ネットワーク2に接続されている。
【0015】
例えば、自拠点の利用者は、ビデオ会議システム100を用いて、会議サーバ10が提供するビデオ会議に参加する。また、他利用者は、他のビデオ会議システム110を用いて、会議サーバ10が提供する同じビデオ会議に参加する。これにより、ビデオ会議システム100と、他のビデオ会議システム110は、会議サーバ10を介して、会議映像を互いに送受信して、ビデオ会議を行うことができる。
【0016】
なお、会議サーバ10が提供するビデオ会議は、会議映像を互いに送受信する任意のビデオ会議(又はウェブ会議)であってよい。また、ビデオ会議システム100は、会議サーバ10を介さずに、通信ネットワーク2を介して、他のビデオ会議システム110と直接ビデオ会議を行うものであってもよい。
【0017】
図1の例では、ビデオ会議システム100は、ビデオ会議端末101と、ビデオ会議端末101に接続される表示装置102とを含む。
【0018】
ビデオ会議端末101は、例えば、複数のマイクを配列して構成されたマイクアレイ(マイクロフォンアレイ)を備え、マイクアレイを用いて話者の方向を検知する機能を有している。また、ビデオ会議端末101は、ビデオ会議端末101の周辺にいる利用者A、利用者B、利用者C、利用者D、・・・を撮影する1つ以上のカメラを有している。例えば、ビデオ会議システム100は、周囲360のパノラマ画像を撮影可能なパノラマカメラを有し、会議室全体を撮影するものであってもよい。或いは、ビデオ会議システム100は、複数のカメラを有し、複数のカメラで撮影した画像を組み合わせて、ビデオ会議端末101の周辺にいる利用者A、利用者B、利用者C、利用者D、・・・を撮影するものであってもよい。
【0019】
また、ビデオ会議端末101は、通信ネットワーク2に接続されており、会議サーバ10が提供するビデオ会議に参加するビデオ会議機能を有している。例えば、ビデオ会議端末101は、マイクアレイで取得した音声と、カメラで撮影した映像とに基づく会議映像を、会議サーバ10を介して、他のビデオ会議システム110に送信する。また、ビデオ会議端末101は、会議サーバ10を介して、他のビデオ会議システム110から受信した会議映像を表示装置102に表示する。また、ビデオ会議端末101は、スピーカを有しており、会議映像に含まれる会議音声を出力することができる。別の一例として、表示装置102がスピーカを備えており、ビデオ会議端末101は、表示装置102が備えるスピーカを用いて、会議の音声を出力してもよい。
【0020】
表示装置102は、ビデオ会議端末101が出力する表示画面を表示する装置である。表示装置102は、例えば、ディスプレイ、IWB(Interactive White Board)、又はプロジェクタ等、ビデオ会議端末101が出力する表示画面を表示可能な様々な装置であってよい。
【0021】
ここで、IWBは、タッチセンサ搭載型のディスプレイであり、電子黒板とも呼ばれる。IWBは、ディスプレイに表示した画面に、例えば、ペン、又は指等で直接書き込みができるほか、ディスプレイに表示した内容をデータとして保存することができる。また、IWBは、プロジェクタのように、大型のディスプレイとしても用いることもできる。
【0022】
他のビデオ会議システム110は、会議サーバ10が提供するビデオ会議に参加し、ビデオ会議システム100と会議映像を送受信することができるものであれば、任意の構成であってよい。例えば、他のビデオ会議システム110は、PC(Personal Computer)、タブレット端末、又はスマートフォン等の情報処理装置であってもよいし、ビデオ会議システム100と同様の構成であってもよい。
【0023】
図2は、一実施形態に係るビデオ会議システムの別の構成例を示す図である。ビデオ会議システム100は、例えば、
図2(A)に示すように、ビデオ会議機能を有するPC(Personal Computer)201と、マイクアレイ、1つ以上のカメラ、及びスピーカ等を備えたウェブ会議デバイス201とによって構成されるものであってもよい。
【0024】
ウェブ会議デバイス201は、
図1で説明したビデオ会議端末101と同様に、複数のマイクを配列して構成されたマイクアレイ(マイクロフォンアレイ)を備え、マイクアレイを用いて話者の方向を検知する機能を有している。また、ウェブ会議デバイス201は、ウェブ会議デバイス201の周辺にいる利用者A、利用者B、利用者C、利用者D、・・・を撮影する1つ以上のカメラを有している。さらに、ウェブ会議デバイス201は、スピーカを用いて、PC202から出力される会議音声の音声データに基づいて、会議音声を出力することができる。
【0025】
ウェブ会議デバイス201は、例えば、USB(Universal Serial Bus)ケーブル203等でPC202に接続されており、ビデオ会議端末101が作成する会議映像と同様の会議映像を作成し、作成した会議映像をPC202に送信する。また、PC202は、通信ネットワーク2に接続されており、ウェブ会議デバイス201から出力される会議映像を用いて、ビデオ会議を行う。
【0026】
また、ビデオ会議システム100は、例えば、
図2(B)に示すように、ビデオ会議機能を有するIWB211と、上述したウェブ会議デバイス201とによって構成されるものであってもよい。ウェブ会議デバイス201は、例えば、USBケーブル203等でIWB211に接続されており、ビデオ会議端末101が作成する会議映像と同様の会議映像を作成し、作成した会議映像をIWB211に送信する。また、IWB211は、通信ネットワーク2に接続されており、ウェブ会議デバイス201から出力される会議映像を用いて、他のビデオ会議システム110とビデオ会議を行う。
【0027】
(会議映像の例)
図3は、一実施形態に係るビデオ会議システムの会議映像の例を示す図である。この図は、例えば、
図1で説明したビデオ会議端末101、又は
図2(A)、(B)で説明したウェブ会議デバイス201が作成する会議映像のイメージを示す図である。
【0028】
図2に示すように、会議映像300は、例えば、ビデオ会議に参加する利用者の全体を表示する全体表示エリア301と、所定の数の利用者の画像をクローズアップ表示するクローズアップ表示エリア302とを含む。
【0029】
全体表示エリア301には、例えば、ビデオ会議端末101(又はウェブ会議デバイス201)が備えるカメラで、ビデオ会議が行われている会議室全体を撮影したパノラマ映像が表示される。また、クローズアップ表示エリア302には、直近の発話を行った所定の数の利用者が、クローズアップ表示される。
【0030】
図3の例では、クローズアップ表示エリア302には、3つの表示枠302-1、302-2、302-3が表示されている。この場合、例えば、
図1に示すような自拠点において、利用者A、利用者B、利用者Cの順に発話を行うと、クローズアップ表示エリア302には、利用者Aの画像、利用者Bの画像、及び利用者Cの画像がクローズアップ表示(拡大表示)される。なお、クローズアップ表示エリア302に表示する表示枠の数(所定の数)は、2つであってもよいし、4つ以上であってもよい。ここでは、クローズアップ表示エリア302に表示する表示枠の数が3つであるものとして、以下の説明を行う。
【0031】
このように、自拠点の発話者の画像をクローズアップ表示するビデオ会議システム100では、発話者が頻繁に切り替わると、クローズアップ表示される発話者の画像の切り替わり頻度がめまぐるしくなるという問題がある。
【0032】
図4は、一実施形態に係る会議映像の遷移の例を示す図である。なお、ビデオ会議システム100は、自拠点で新たな利用者が発話した場合、3つの表示枠302-1、302-2、302-3のうち、最も過去に発話した利用者の画像が表示されている表示枠に、新たに発話した利用者の画像を表示するものとする。
【0033】
例えば、ビデオ会議において、利用者A、利用者B、利用者Cの順に発話が行われ、ビデオ会議システム100は、
図3に示すような会議映像300を出力しているものとする。この状態で、新たに利用者Dが発話すると、ビデオ会議システム100は、
図4(A)に示すように、利用者A、利用者B、利用者Cのうち、最も過去に発話した利用者Aが表示されていた表示枠302-1に、利用者Dの画像を表示する会議映像410を出力する。
【0034】
また、この状態で、新たに利用者Aが発話すると、ビデオ会議システム100は、
図4(B)に示すように、利用者D、利用者B、利用者Cのうち、最も過去に発話した利用者Bが表示されていた表示枠302-2に、利用者Aの画像を表示する会議映像420を出力する。さらに、この状態で、新たに利用者Bが発話すると、ビデオ会議システム100は、
図4(C)に示すように、利用者D、利用者A、利用者Cのうち、最も過去に発話した利用者Cが表示されていた表示枠302-3に、利用者Bの画像を表示する会議映像430を出力する。同様に、この状態で、新たに利用者Cが発話すると、ビデオ会議システム100は、
図4(D)に示すように、利用者D、利用者A、利用者Bのうち、最も過去に発話した利用者Dが表示されていた表示枠302-1に、利用者Cの画像を表示する会議映像440を出力する。
【0035】
このように、自拠点の発話者の画像をクローズアップ表示するビデオ会議システム100では、発話者が頻繁に切り替わると、クローズアップ表示される発話者の画像の切り替わり頻度がめまぐるしくなる。また、今までの、ビデオ会議システムでは、会議映像を録画する際に会議映像をそのまま録画しているため、録画映像においても、クローズアップ表示される発話者の画像の切り替わり頻度がめまぐるしくなるという問題がある。
【0036】
そこで、ビデオ会議システム100は、カメラで撮影したビデオ会議の第1の映像を所定の時間遅延させた第2の映像と、第1の映像に基づいて特定した利用者の発話順序とに基づいて、発話者の切り替え頻度を抑制した録画映像を作成する機能を有している。ここで、所定の時間は、例えば、1分~5分程度、好ましくは、2分~3分程度の時間であるが、これに限られない。
【0037】
図5は、一実施形態に係る録画映像の遷移の例を示す図である。ここで、ビデオ会議システム100は、第2の映像において、新たな利用者が発話した場合、3つの表示枠302-1、302-2、302-3のうち、最も過去に発話した利用者の画像が表示されている表示枠を、新たに発話した利用者の画像に置き換えるものとする。ただし、ビデオ会議システム100は、第2の映像において新たに第1の利用者が発話した場合、次に発話する第2の利用者の画像が表示されている表示枠、及び次の次に発話する第3の利用者の画像が表示されている表示枠を、置き換えの対象から外す。また、ビデオ会議システム100は、第2の映像において新たに発話した第1の利用者が、クローズアップ表示エリア302に既に表示されている場合、クローズアップ表示エリア302のレイアウトを変更しない。
【0038】
例えば、所定の時間遅延させた第2の映像において、利用者A、利用者B、利用者Cの順に発話が行われ、ビデオ会議システム100は、
図3に示すような会議映像300を作成したものとする。また、ビデオ会議システム100は、遅延させていない第1の映像に基づいて、この後の発話順序が、利用者D、利用者A、利用者B、利用者Cの順序であることを特定したものとする。
【0039】
この状態で、第2の映像において、新たに利用者Dが発話すると、ビデオ会議システム100は、例えば、
図5(A)に示すような録画映像510を作成する。ここでは、利用者Dの次に発話する利用者Aの画像が表示枠302-1に表示されているので、ビデオ会議システム100は、表示枠302-1を置き換えの対象から外す。また、利用者Aの次に発話する利用者Bの画像が表示枠302-2に表示されているので、ビデオ会議システム100は、表示枠302-2も置き換えの対象から外す。これにより、ビデオ会議システム100は、残りの表示枠302-3に、新たに発話した利用者Dの画像を表示する。
【0040】
この状態で、第2の映像において、新たに利用者Aが発話すると、ビデオ会議システム100は、例えば、
図5(B)に示すような録画映像520を作成する。ここでは、録画映像510において、既に利用者Aの画像が表示されているので、ビデオ会議システム100は、クローズアップ表示エリア302のレイアウトを変更しない。
【0041】
また、この状態で、第2の映像において、新たに利用者Bが発話すると、ビデオ会議システム100は、例えば、
図5(C)に示すような録画映像530を作成する。ここでも、録画映像510において、既に利用者Bの画像が表示されているので、ビデオ会議システム100は、クローズアップ表示エリア302のレイアウトを変更しない。
【0042】
さらに、この状態で、第2の映像において、新たに利用者Cが発話すると、ビデオ会議システム100は、例えば、
図5(D)に示すような録画映像540を作成する。例えば、ビデオ会議システム100は、録画映像530のクローズアップ表示エリア302に表示している利用者A、利用者B、利用者Dのうち、最も過去に発話した利用者Dの画像が表示されていた表示枠302-3に、新たに発話した利用者Cの画像を表示する。
【0043】
このように、ビデオ会議システム100は、
図4で説明した会議映像410、420、430、440より、クローズアップ表示される発話者の切り替え頻度を抑制した録画映像510、520、530、540を作成し、録画することができる。
【0044】
<ハードウェア構成>
続いて、本実施形態に係る各装置のハードウェア構成の例について説明する。
【0045】
(ビデオ会議端末ハードウェア構成)
図6は、一実施形態に係るビデオ会議端末のハードウェア構成の例を示す図である。ビデオ会議端末101は、例えば、CPU(Central Processing Unit)601、ROM(Read Only Memory)602、RAM(Random Access Memory)603、SSD(Solid State Drive)604、ネットワークI/F(Interface)605、外部機器接続I/F606、ディスプレイI/F607、操作部608、映像コーデック609、音処理ユニット610、マイクアレイ611、スピーカ612、映像処理ユニット613、カメラ614a、614b、・・・、映像遅延バッファ615、及びバス616等を有する。
【0046】
CPU601は、所定のプログラムを実行することにより、ビデオ会議端末101が備える様々な機能を制御する演算装置(プロセッサ)である。ROM602は、例えば、CPU601の起動に用いられるプログラム等を記憶する不揮発性のメモリである。RAM603は、例えば、CPU601のワークエリア等として用いられる揮発性のメモリである。SSD604は、例えば、ビデオ会議端末101用のプログラム、データ、又は設定情報等を記憶するストレージデバイスの一例である。
【0047】
ネットワークI/F605は、ビデオ会議端末101を、例えば、通信ネットワーク2等に接続するための通信インタフェースである。外部機器接続I/F606は、ビデオ会議端末101に、様々な外部機器を接続するためのインタフェースである。ここで、外部機器には、例えば、ビデオ会議端末101が作成した録画映像を録画するための外部記憶装置等が含まれる。ディスプレイI/F607は、ビデオ会議端末101に表示装置102等を接続するためのインタフェースである。操作部608は、例えば、操作ボタン、スイッチ、又はタッチパネル等の、利用者の操作を受け付ける入力デバイスである。
【0048】
映像コーデック609は、例えば、ビデオ会議で送受信する会議映像を符号化するCoder、及び符号化された会議映像を復号するDecoder等を含む。なお、会議映像の符号化、及び復号はソフトウェアで行われるものであってもよい。
【0049】
音処理ユニット610は、例えば、マイクアレイ611を用いて、指向性を制御するビームフォーミング等の様々は音処理を実行するデバイスである。また、音処理ユニット610は、スピーカ612を用いて、会議音声等の様々な音を出力する音処理も実行する。
【0050】
映像処理ユニット613は、1つ以上のカメラ614a、614b、・・・から、ビデオ会議端末101の周辺を撮影した画像を取得し、取得した画像に対して、例えば、画像合成、画質補正、又は歪み補正等の画像処理を行うデバイスである。カメラ614a、614b、・・・は、ビデオ会議端末101の周辺の画像を撮影する撮影装置である。映像遅延バッファ615は、カメラで撮影したビデオ会議の第1の映像を所定の時間遅延させた第1映像を生成するバッファである。バス616は、上記の各構成要素に共通に接続され、例えば、アドレス信号、データ信号、及び各種の制御信号等を伝送する。
【0051】
(ウェブ会議デバイスのハードウェア構成)
ウェブ会議デバイス201は、例えば、
図6に示したビデオ会議端末101のハードウェア構成から、ディスプレイI/F607、映像コーデック609を省略したハードウェア構成を有している。ウェブ会議デバイス201は、例えば、外部機器接続I/F606を介して、PC202、又はIWB211に接続される。
【0052】
(コンピュータのハードウェア構成)
PC202は、例えば、
図7に示すような、コンピュータ700のハードウェア構成を有している。また、会議サーバ10は、例えば、1つ以上のコンピュータ700によって構成される。
【0053】
図7は、一実施形態に係るコンピュータのハードウェア構成を示す図である。コンピュータ700は、例えば、CPU701、ROM702、RAM703、HD(Hard Disk)704、HDD(Hard Disk Drive)コントローラ705、ディスプレイ706、外部機器接続I/F707、ネットワークI/F708、キーボード709、ポインティングデバイス710、DVD-RW(Digital Versatile Disk ReWritable)ドライブ712、メディアI/F714、及び、バスライン715等を備えている。
【0054】
これらのうち、CPU701は、コンピュータ700の全体の動作を制御する演算装置である。ROM702は、IPL等のCPU701の駆動に用いられるプログラムを記憶する不揮発性のメモリである。RAM703は、CPU701のワークエリア等として使用される揮発性のメモリである。HD704は、OS(Operating System)やアプリケーション等のプログラムや、各種のデータ等を記憶する大容量の記憶装置である。HDDコントローラ705は、CPU701の制御にしたがってHD704に対する各種データの読み出し又は書き込みを制御する。
【0055】
ディスプレイ706は、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する。外部機器接続I/F707は、各種の外部機器を接続するためのインタフェースである。ネットワークI/F708は、通信ネットワークを利用してデータ通信をするための通信インタフェースである。キーボード709は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス710は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。
【0056】
DVD-RWドライブ712は、着脱可能な記録媒体の一例としてのDVD-RW711に対する各種データの読み出し又は書き込みを制御する。なお、DVD-RW711は、DVD-RWに限らず、他の着脱可能な記録媒体であっても良い。メディアI/F714は、フラッシュメモリ等のメディア713に対するデータの読み出し又は書き込み(記憶)を制御する。バスライン715は、
図7に示されているCPU701等の各構成要素を電気的に接続するためのアドレスバス、データバス、及び各種の制御信号等を含む。
【0057】
<機能構成>
続いて、本実施形態に係るビデオ会議システム100の機能構成の例について説明する。
【0058】
図8は、一実施形態に係るウェブ会議システムの機能構成の一例を示す図である。
図8の例では、ビデオ会議システム100は、ビデオ会議端末101と、ビデオ会議端末101に接続される表示装置102とを含む。
【0059】
(ビデオ会議端末の機能構成)
ビデオ会議端末101は、例えば、通信部801、音声取得部802、方向検知部803、映像取得部804、画像検知部805、特定部806、映像遅延部807、録画映像作成部808、録画映像管理部809、会議映像作成部810、UI(User Interface)部811、会議制御部812、表示制御部813、及び音声出力部814等を有する。
【0060】
通信部801は、例えば、CPU601が実行するプログラム、及びネットワークI/F605等によって実現され、ビデオ会議端末101を通信ネットワーク2に接続し、会議サーバ10等の他の装置と通信する通信処理を実行する。
【0061】
音声取得部802は、例えば、CPU601が実行するプログラム、マイクアレイ611、及び音処理ユニット610等によって実現され、ビデオ会議端末101の周辺の音声を取得する音声取得処理を実行する。また、音声取得部802は、例えば、マイクアレイ611によるビームフォーミング、取得した音声の音質調整、又は取得した音声の音量調整等も行う。
【0062】
方向検知部803は、例えば、CPU601が実行するプログラム、及び音処理ユニット610等によって実現され、音声取得部802がマイクアレイ611で取得したビデオ会議の音声に基づいて音の方向を検知する方向検知処理を実行する。例えば、方向検知部803は、マイクアレイ611の複数のマイクで取得した音声データを解析して、音源がどの方向にあるかを推定する。
【0063】
映像取得部804は、例えば、CPU601が実行するプログラム、1つ以上のカメラ614a、614b、・・・、及び映像処理ユニット613等によって実現される。映像取得部804は、例えば、ビデオ会議端末101の周辺を撮影した第1の映像を取得する映像取得処理を実行する。また、映像取得部804は、取得した第1の映像の画質補正、又は歪み補正等も行う。
【0064】
画像検知部805は、例えば、CPU601が実行するプログラム、及び映像処理ユニット等によって実現され、映像取得部804が、1つ以上のカメラ614a、614b、・・・で撮影した第1の映像から人物の画像を検知する画像検知処理を実行する。例えば、画像検知部805は、入力した映像から、人物が映っている領域を推定するように、予め機械学習した学習済の機械学習モデル等を用いて、人物が映っている領域を推定することにより、人物の画像を検知してもよい。
【0065】
ここで、機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり、コンピュータが、データ識別等の判断に必要なアルゴリズムを、事前に取り込まれる学習データから自律的に生成し、新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習、深層学習のいずれかの方法でもよく、さらに、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。
【0066】
なお、画像検知部805は、例えば、公知のパターン認識技術等を用いて、映像取得部804が取得した第1の映像から、人物の画像を検知してもよい。
【0067】
特定部806は、例えば、CPU601が実行するプログラム等によって実現される。特定部806は、方向検知部803が検知した音の方向と、画像検知部805が検知した人物の画像とに基づいて、自拠点で発話した利用者、及び自拠点で発話した人物の発話順序を特定する特定処理を実行する。
【0068】
映像遅延部807は、例えば、CPU601が実行するプログラム、及び映像遅延バッファ615等によって実現され、映像取得部804が取得した第1の映像を所定の時間遅延させて、第2の映像を出力する映像遅延処理を実行する。例えば、映像遅延部807は、第1の映像を所定の時間保持した後に、第2の映像を出力する映像遅延バッファ615に、第1の映像を入力する。
【0069】
録画映像作成部808は、例えば、CPU601が実行するプログラム、及び映像処理ユニット等によって実現される。録画映像作成部808は、第1の映像を所定の時間遅延させた第2の映像から、特定部806が特定した発話順序に基づいて、例えば、
図5(A)~(D)で説明した録画映像510、520、530、540等を作成する録画映像作成処理を実行する。なお、録画映像作成部808が実行する録画映像作成処理については、複数の実施形態を例示して後述する。
【0070】
録画映像管理部809は、例えば、CPU601が実行するプログラム等によって実現され、録画映像作成部808が作成した録画映像を、例えば、SSD604、又は外部機器接続I/F606に接続した外部記憶装置等に録画(記憶)する。
【0071】
会議映像作成部810は、例えば、CPU601が実行するプログラム、及び映像処理ユニット等によって実現される。会議映像作成部810は、第1の映像から、例えば、
図4(A)~(D)で説明した会議映像410、420、430、440等を作成する会議映像作成処理を実行する。
【0072】
UI部811は、例えば、CPU601が実行するプログラム、及び操作部608等によって実現され、利用者によるビデオ会議端末101に対する様々な操作を受け付ける。
【0073】
会議制御部812は、例えば、CPU601が実行するプログラム、及び映像コーデック609等によって実現され、通信部801を介して会議サーバ10に接続し、他のビデオ会議システム110とビデオ会議を行う会議制御処理を実行する。例えば、会議制御部812は、ビデオ会議中に、会議映像作成部810が作成した会議映像を、会議サーバ10を介して、他のビデオ会議システム110に送信する。また、会議制御部812は、会議サーバ10を介して、他のビデオ会議システム110から会議映像を受信する。なお、会議制御部812は、既存の様々なビデオ会議、又はウェブ会議の仕組みを利用するものであってよい。
【0074】
表示制御部813は、例えば、CPU601が実行するプログラム、及びディスプレイI/F607等によって実現され、会議制御部812が他のビデオ会議システム110から受信した会議映像を、表示装置102等に表示させる。
【0075】
音声出力部814は、例えば、CPU601が実行するプログラム、音処理ユニット610、及びスピーカ612等によって実現される。音声出力部814は、例えば、会議制御部812が他のビデオ会議システム110から受信した会議映像に含まれる会議音声を出力する音声出力処理を実行する。なお、音声出力部814は、表示装置102が備えるスピーカ等によって実現されるものであってもよい。
【0076】
図9は、一実施形態に係るウェブ会議システムの機能構成の別の一例を示す図である。
図8で説明したビデオ会議端末101の各機能構成は、例えば、
図9に示すように、ウェブ会議デバイス201と、PC202に、分散して設けられていてもよい。また、PC202は、IWB211等のウェブ会議機能を有する電子機器であってもよい。
【0077】
(ウェブ会議デバイスの機能構成)
ウェブ会議デバイス201は、例えば、通信部911、音声取得部802、方向検知部803、映像取得部804、画像検知部805、特定部806、映像遅延部807、録画映像作成部808、録画映像管理部809、会議映像作成部810、UI部811、及び音声出力部814等を有する。これらの各機能構成のうち、通信部911以外の機能構成は、
図8で説明した各機能構成と同様なので、ここでは説明を省略する。
【0078】
通信部911は、例えば、ウェブ会議デバイス201が備えるCPUが実行するプログラム、及び外部機器接続I/F等によって実現され、PC202(又はIWB211等)と通信する通信処理を実行する。例えば、通信部911は、会議映像作成部810が作成した会議映像を、PC202等に送信する。また、通信部911は、PC202等から他のビデオ会議システム110からの会議映像に含まれる会議音声を受信し、音声出力部814に出力する。
【0079】
(PCの機能構成)
PC202は、例えば、第1の通信部901、第2の通信部902、UI部903、会議制御部812、及び表示制御部813等を有する。
【0080】
第1の通信部901は、例えば、CPU701が実行するプログラム、及びネットワークI/F708等によって実現され、PC202を通信ネットワーク2に接続し、会議サーバ10等の他の装置と通信する第1の通信処理を実行する。
【0081】
第2の通信部902は、例えば、CPU701が実行するプログラム、及び外部機器接続I/F707等によって実現され、外部機器接続I/F707に接続されたウェブ会議デバイス201等と通信する第2の通信処理を実行する。
【0082】
UI部903は、例えば、CPU701が実行するプログラム等によって実現され、PC202に対する利用者の操作を受け付ける。
【0083】
会議制御部812は、例えば、CPU701が実行するプログラム等によって実現され、第1の通信部901を介して会議サーバ10に接続し、他のビデオ会議システム110とビデオ会議を行う会議制御処理を実行する。例えば、会議制御部812は、第2の通信部902が、ウェブ会議デバイス201から受信した会議映像を、会議サーバ10を介して、他のビデオ会議システム110に送信する。また、会議制御部812は、会議サーバ10を介して、他のビデオ会議システム110から会議映像を受信し、受信した会議映像を表示制御部813に表示させる。さらに、会議制御部812は、受信した会議映像に含まれる会議音声をウェブ会議デバイス201に送信して、会議音声を出力させる。
【0084】
なお、
図8、9に示したビデオ会議システム100の機能構成は一例である。例えば、
図8、9に示した各装置が備える各機能構成は、ビデオ会議システム100に含まれるいずれの装置が備えていてもよい。
【0085】
<処理の流れ>
続いて、本実施形態に係る録画映像作成方法の処理の流れについて説明する。
【0086】
(会議映像、及び録画映像の作成処理)
図10は、一実施形態に係る会議映像、及び録画映像の作成処理の例を示すフローチャートである。この処理は、他のビデオ会議システム110とビデオ会議中に、ビデオ会議システム100が実行する会議映像の作成処理、及び録画映像の作成処理の概要を示している。
【0087】
ステップS1001において、方向検知部803は、音声取得部802がマイクアレイ611で取得した音声に基づいて音の方向を検知する。
【0088】
ステップS1102において、画像検知部805は、1つ以上のカメラ614a、614b、・・・で撮影した第1の映像から人物の画像を検知する。例えば、画像検知部805は、自拠点でビデオ会議に参加している人物の画像を検知する。
【0089】
ステップS1103において、特定部806は、方向検知部803が検知した音の方向と、画像検知部805が検知した人物の画像とに基づいて、自拠点で発話した利用者、及び自拠点で発話した人物の発話順序を特定する。
【0090】
ステップS1104において、会議映像作成部810は、第1の映像から、他の利用者より後に発話した所定の数の利用者の画像をクローズアップ表示エリア302に表示する会議映像を作成する。なお、ここでは、所定の数が「3」であるものとして以下の説明を行う。
【0091】
例えば、
図1の自拠点において、利用者A、利用者B、利用者Cの順に発話したものとする。この場合、会議映像作成部810は、
図3に示すように、他の利用者(利用者D)より後に発話した3人の利用者(利用者A、利用者B、利用者C)の画像をクローズアップ表示エリア302に表示する会議映像300を作成する。
【0092】
ステップS1005において、会議映像作成部810は、作成した会議映像を、例えば、会議制御部812に出力する。これにより、会議制御部812は、会議映像作成部810が出力した会議映像を、自拠点の会議映像として、会議サーバ10を介して他のビデオ会議システム110に送信する。
【0093】
また、録画映像作成部808は、ステップS1004、S1005の処理とは別に、ステップS1006の処理を実行する。ステップS1006において、録画映像作成部808は、第1の映像を遅延させた第2の映像から、発話順序に基づいて、新たに発話した第1の利用者を含む所定の数の利用者の画像をクローズアップ表示エリア302に表示する録画映像を作成する。例えば、録画映像作成部808は、
図5(A)~(D)で説明した録画映像510、520、530、540等を作成する。
【0094】
ステップS1007において、録画映像管理部809は、録画映像作成部808が作成した録画映像を、例えば、SSD604、又は外部機器接続I/F606に接続された外部記憶装置等に録画(記憶)する。
【0095】
図10の処理により、ビデオ会議システム100は、第1の映像に基づいて、例えば、
図4(A)~(D)で説明した会議映像を作成するとともに、第2の映像に基づいて、例えば、
図5(A)~(D)で説明した録画映像を作成する。
【0096】
(録画映像の作成処理)
続いて、例えば、
図10のステップS1006において、ビデオ会議システム100が実行する録画映像の作成処理の例について、複数の実施形態を例示して説明する。
【0097】
[第1の実施形態]
図11は、第1の実施形態に係る録画映像の作成処理の例を示すフローチャートである。この処理は、例えば、
図10のステップS1006において、録画映像作成部808が実行する録画映像の作成処理の一例を示している。
【0098】
ステップS1101において、第1の映像を所定の時間遅延させた第2の映像において、新たに第1の利用者が発話すると、録画映像作成部808は、ステップS1102以降の処理を実行する。
【0099】
ステップS1102において、録画映像作成部808は、所定のエリアの表示枠に空きがあるか否かを判断する。例えば、録画映像作成部808は、
図5(A)に示すような録画映像510のクローズアップ表示エリア302に空きがあるか否かを判断する。なお、クローズアップ表示エリア302は、所定のエリアの一例である。
図5(A)の例では、全ての表示枠302-1、302-2、302-3に利用者が表示されているので、録画映像作成部808は空きがないと判断する。
【0100】
所定のエリアの表示枠に空きがある場合、録画映像作成部808は、処理をステップS1103に移行させる。一方、所定のエリアの表示枠に空きがない場合、録画映像作成部808は、処理をステップS1104に移行させる。
【0101】
ステップS1103に移行すると、録画映像作成部808は、空いている表示枠に第1の利用者の画像をクローズアップ表示した録画映像を作成する。
【0102】
一方、ステップS1104に移行すると、録画映像作成部808は、第1の利用者の画像が所定のエリアに表示されているか否かを判断する。例えば、
図5(A)に示すような録画映像510の状態から、第2の映像において新たに利用者Aが発話したものとする。この場合、クローズアップ表示エリア302には、既に利用者Aの画像が表示されているので、録画映像作成部808は、第1の利用者の画像が所定のエリアに表示されていると判断する。
【0103】
第1の利用者の画像が所定のエリアに表示されている場合、録画映像作成部808は、処理をステップS1105に移行させる。一方、第1の利用者の画像が所定のエリアに表示されていない場合、録画映像作成部808は、処理をステップS1106に移行させる。
【0104】
ステップS1105に移行すると、録画映像作成部808は、現在の所定のエリアのレイアウトを維持して、録画映像を作成する。例えば、
図5(B)に示すような録画映像520の状態から、第2の映像において新たに利用者Aが発話したものとする。この場合、録画映像作成部808は、クローズアップ表示エリア302のレイアウトを変更せずに、例えば、
図5(C)に示すような録画映像530を作成する。
【0105】
一方、ステップS1106に移行すると、録画映像作成部808は、特定部806が特定した発話順序に基づいて、第1の利用者の次に発話する第2の利用者の画像が、所定のエリアに表示されているか否かを判断する。第2の利用者の画像が、所定のエリア(クローズアップ表示エリア302)に表示されている場合、録画映像作成部808は、処理をステップS1107に移行させる。一方、第2の利用者の画像が、所定のエリアに表示されていない場合、録画映像作成部808は、処理をステップS1108に移行させる。
【0106】
ステップS1107に移行すると、録画映像作成部808は、第2の利用者の画像の表示枠を維持する。
【0107】
ステップS1108に移行すると、録画映像作成部808は、特定部806が特定した発話順序に基づいて、第2の利用者の次に発話する第3の利用者の画像が、所定のエリアに表示されているか否かを判断する。第3の利用者の画像が、所定のエリア(クローズアップ表示エリア302)に表示されている場合、録画映像作成部808は、処理をステップS1109に移行させる。一方、第3の利用者の画像が、所定のエリアに表示されていない場合、録画映像作成部808は、処理をステップS1110に移行させる。
【0108】
ステップS1109に移行すると、録画映像作成部808は、第3の利用者の画像の表示枠を維持する。
【0109】
ステップS1110において、録画映像作成部808は、残りの表示枠のうち、タイムスタンプが最も古い表示枠に、第1の利用者の画像をクローズアップ表示する録画映像を作成する。例えば、各表示枠には、最後に画像を更新した時刻を示すタイムスタンプ等が付加されているものとする。
【0110】
図12の処理により、録画映像作成部808は、第1の利用者が発話したときに、第2の利用者の画像が所定のエリアに表示されている場合、少なくとも第1の利用者の画像と第2の利用者画像とを所定のエリアに表示する録画映像を作成する。
【0111】
また、録画映像作成部808は、第1の利用者が発話したときに、第3の利用者の画像が所定のエリアに表示されている場合、少なくとも第1の利用者の画像と第3の利用者画像とを所定のエリアに表示する録画映像を作成する。
【0112】
さらに、録画映像作成部808は、第1の利用者が発話したときに、第2の利用者の画像と第3の利用者の画像が所定のエリアに表示されている場合、第1の利用者の画像と第2の利用者画像と第3の利用者の画像とを所定のエリアに表示する録画映像を作成する。
【0113】
また、録画映像作成部808は、第1の利用者が発話したときに、第1の利用者の画像が所定のエリアに表示されている場合、所定のエリアの表示を変更せずに、録画映像を作成する。
【0114】
[第2の実施形態]
図12は、第2の実施形態に係る録画映像の作成処理の例を示すフローチャートである。この処理は、例えば、
図10のステップS1006において、録画映像作成部808が実行する録画映像の作成処理の別の一例を示している。この処理は、
図11で説明した第1実施形態に係る録画映像の作成処理のステップS1101の次に、ステップS1201の処理が追加されている。なお、ステップS1102以降の処理は、第1の実施形態に係る録画映像の作成処理と同様なので、ここでは説明を省略する。
【0115】
ステップS1101において、第1の映像を所定の時間遅延させた第2の映像において、新たに第1の利用者が発話すると、録画映像作成部808は、ステップS1201の処理を実行する。
【0116】
ステップS1201において、録画映像作成部808は、第2の映像における第1の利用者の発話時間が所定の時間(例えば、1秒~3秒程度)未満であるか否かを判断する。ここで、第2の映像は、第1の映像を遅延させた映像なので、ビデオ会議システム100は、第1の映像に基づいて、第1利用者の発話時間を予め取得しておくことができる。また、録画映像の作成には即時性は求められないため、録画映像作成部808は、所定の時間待機することにより、第2の映像から第1の利用者の発話時間が、所定の時間未満であるか否かを判断してもよい。
【0117】
発話時間が所定の時間未満でない場合、録画映像作成部808は、ステップS1102以降の処理を実行する。一方、発話時間が所定の時間未満である場合、録画映像作成部808は、処理をステップS1105に移行させる。
【0118】
図12の処理により、ビデオ会議システム100は、第1の利用者の発話時間が所定の時間未満である場合、クローズアップ表示エリア302のレイアウトを維持して録画映像を作成する。従って、所定の時間に適切な時間を設定することにより、ビデオ会議システム100は、例えば、「はい」、「いいえ」等の短い発話により、クローズアップ表示される発話者が頻繁に切り替わることを抑制することができる。
【0119】
[第3の実施形態]
図13は、第3の実施形態に係る録画映像の作成処理の例を示すフローチャートである。この処理は、例えば、
図10のステップS1006において、ビデオ会議システム100が実行する録画映像の作成処理のより具体的な処理の一例を示している。なお、ここでは、ビデオ会議システム100が、
図8に示すように、ビデオ会議端末101と表示装置によって構成されているものとして、以下の説明を行う。
【0120】
ステップS1301において、ビデオ会議システム100は、システムを初期設定する。例えば、ビデオ会議システム100は、ビデオ会議端末101を初期化する。
【0121】
ステップS1302において、ビデオ会議端末101は、カメラ614-1、614-2、・・・、マイクアレイ611、及びスピーカ612等を初期化する。
【0122】
ステップS1303において、ビデオ会議端末101は、他のビデオ会議システム100との接続を確認して、ビデオ会議を開始する。また、ビデオ会議端末101は、録画条件を設定して録画を開始する。好ましくは、録画は任意のタイミングで中断、又は中止することができる。
【0123】
ステップS1304、ステップS1305において、第2の映像で利用者Aが発話すると、ビデオ会議端末101は、録画映像において、利用者Aをクローズアップ表示エリア302にクローズアップ表示する。なお、ここでは、クローズアップ表示エリア302に、3つ表示枠があるものとする。
【0124】
ステップS1306、S1307において、第2の映像で利用者Bが発話すると、ビデオ会議端末101は、録画映像において、利用者Bをクローズアップ表示エリア302にクローズアップ表示する。
【0125】
ステップS1308、S1309において、第2の映像で利用者Cが発話すると、ビデオ会議端末101は、録画映像において、利用者Cをクローズアップ表示エリア302にクローズアップ表示する。ここで、録画映像のクローズアップ表示エリア302には、利用者Aの画像、利用者Bの画像、及び利用者Cの画像が表示される。
【0126】
ステップS1310において、ビデオ会議端末101は、クローズアップ表示エリア302の全ての表示枠に利用者が表示されると、特定部806が特定した発話順序を取得し、クローズアップ表示エリア302の優先度を決定(更新)するものとする。なお、
図13において、発話順序(-->D-->A)は、次に発話する利用者が利用者Dであり、利用者Dの次に発話する利用者が利用者Aであることを示している。ここでは、今後の話者が、D-->A-->B-->C-->E-->Aの順に推移するものとして以下の説明を行う。また、優先度(B>A>C)は、利用者Bの画像が表示されている表示枠の優先度が最も高く、利用者Cの画像が表示されている表示枠の優先度が最も低いことを表している。
【0127】
ステップS1311、S1312において、第2の映像で利用者Dが発話すると、ビデオ会議端末101は、発話順序(-->A-->B)を取得し、利用者A、B、Cの優先度を決定する。例えば、発話順序(-->A-->B)から、利用者A、Bの優先度は利用者Cより高くすべきであり、AがBより先に発話することから、ビデオ会議端末101は、優先度を(A>B>C)に決定する。
【0128】
ステップS1313において、ビデオ会議端末101は、優先度がもっとも低い、利用者Cの画像が表示されている表示枠302-3に、利用者Dの画像をクローズアップ表示する。これにより、例えば、
図5(A)に示すような録画映像510が作成される。また、ステップS1314において、ビデオ会議端末101は、優先度を(A>B>D)に更新する。
【0129】
ステップS1315、S1316において、第2の映像で利用者Aが発話すると、録画映像510のクローズアップ表示エリア302に、利用者Aの画像が既に表示されているので、ビデオ会議端末101は、クローズアップ表示エリア302のレイアウトを維持する。これにより、例えば、
図5(B)に示すような録画映像520が作成される。
【0130】
ステップS1317において、ビデオ会議端末101は、発話順序(-->B-->C)を取得し、利用者A、B、Dの優先度を決定する。例えば、発話順序(-->B-->C)から、利用者Bの優先度は利用者A、Dより高くすべきであり、利用者Dは、利用者Aより過去の発話者になるので、ビデオ会議端末101は、優先度を(B>A>D)に更新する。
【0131】
ステップS1318、S1319において、第2の映像で利用者Bが発話すると、録画映像510のクローズアップ表示エリア302に、利用者Bの画像が既に表示されているので、ビデオ会議端末101は、クローズアップ表示エリア302のレイアウトを維持する。これにより、例えば、
図5(C)に示すような録画映像530が作成される。
【0132】
ステップS1320において、ビデオ会議端末101は、発話順序(-->C-->E)を取得し、利用者A、B、Dの優先度を決定する。例えば、発話順序(-->C-->E)から、優先度を高くすべき利用者はいないので、ビデオ会議端末101は、過去の発話順序が遅い順に、優先度を(B>A>D)に更新する。
【0133】
ステップS1321、S1322において、第2の映像で利用者Cが発話すると、ビデオ会議端末101は、発話順序(-->E-->A)を取得し、利用者A、B、Dの優先度を決定する。例えば、発話順序(-->E-->A)から、利用者Aの優先度は利用者B、Dより高くすべきであり、利用者Dは、利用者Bより過去の発話者になるので、ビデオ会議端末101は、優先度を(A>B>D)に決定する。
【0134】
ステップS1323において、ビデオ会議端末101は、優先度がもっとも低い、利用者Dの画像が表示されている表示枠302-3に、利用者Cの画像をクローズアップ表示する。これにより、例えば、
図5(D)に示すような録画映像540が作成される。また、ステップS1324において、ビデオ会議端末101は、利用者A、B、Cの優先度を更新する。好ましくは、利用者Bは、利用者Cより過去の発話者になるので、ビデオ会議端末101は、優先度を(A>C>B)に更新する。
ビデオ会議端末101は、録画完了まで、同様の処理を繰り返し実行する。
【0135】
(優先度の決定処理)
図14は、第3の実施形態にかかる優先度の決定処理の例を示すフローチャートである。この処理は、例えば、
図13のステップS1310、S1313、S1316、S1319等において、ビデオ会議端末101が実行する優先度の決定処理の一例を示している。
【0136】
なお、
図14に示す処理の開始時点において、利用者Zが新たにクローズアップ表示エリア302に表示され、クローズアップ表示エリア302に利用者Xの画像、利用者Yの画像、利用者Zの画像が表示されている状態であるものとする。
【0137】
ステップS1401において、ビデオ会議端末101は、利用者X、又は利用者Yが次の発話者であるか否かを判断する。利用者X、又は利用者Yが次の発話者である場合、ビデオ会議端末101は、処理をステップS1402に移行させる。一方、利用者Xも利用者Yも次の発話者でない場合、ビデオ会議端末101は、処理をステップS1405に移行させる。
【0138】
ステップS1402に移行すると、ビデオ会議端末101は、利用者X、又は利用者Yが次の次の発話者であるか否かを判断する。利用者X、又は利用者Yが次の次の発話者である場合、ビデオ会議端末101は、処理をステップS1403に移行させる。一方、利用者Xも利用者Yも次の次の発話者でない場合、ビデオ会議端末101は、処理をステップS1404に移行させる。
【0139】
ステップS1403に移行すると、ビデオ会議端末101は、利用者Xが次の発話者であるか否かを判断する。利用者Xが次の発話者である場合、ビデオ会議端末101は、優先度を「X>Y>Z」に決定する。一方、利用者Xが次の発話者でない場合、ビデオ会議端末101は、優先度を「Y>X>Z」に決定する。
【0140】
ステップS1404に移行すると、ビデオ会議端末101は、利用者Xが次の発話者であるか否かを判断する。利用者Xが次の発話者である場合、ビデオ会議端末101は、優先度を「X>Z>Y」に決定する。一方、利用者Xが次の発話者でない場合、ビデオ会議端末101は、優先度を「Y>Z>X」に決定する。
【0141】
ステップS1405に移行すると、ビデオ会議端末101は、利用者X、又は利用者Yが次の次の発話者であるか否かを判断する。利用者X、又は利用者Yが次の次の発話者である場合、ビデオ会議端末101は、処理をステップS1406に移行させる。一方、利用者Xも利用者Yも次の次の発話者でない場合、ビデオ会議端末101は、処理をステップS1407に移行させる。
【0142】
ステップS1406に移行すると、ビデオ会議端末101は、利用者Xが次の次の発話者であるか否かを判断する。利用者Xが次の次の発話者である場合、ビデオ会議端末101は、優先度を「X>Z>Y」に決定する。一方、利用者Xが次の次の発話者でない場合、ビデオ会議端末101は、優先度を「Y>Z>X」に決定する。
【0143】
ステップS1407に移行すると、ビデオ会議端末101は、利用者Yが利用者Xより過去の発話者であるか否かを判断する。利用者Yが利用者Xより過去の発話者である場合、ビデオ会議端末101は、優先度を「Z>X>Y」に決定する。一方、利用者Yが利用者Xより過去の発話者でない場合、ビデオ会議端末101は、優先度を「Z>Y>X」に決定する。
【0144】
図13の処理により、ビデオ会議端末101は、発話順序に基づいて、次の発話者と、次の次の発話者が優先順位の上位にくるように、利用者X、利用者Y、利用者Zの優先順位を決定(更新)することができる。ただし、
図13に示した処理は一例である。ビデオ会議端末101は、発話順序に基づいて、次の発話者と次の次の発話者が優先順位の上位にくるように、他の方法で利用者の優先順位を決定してもよい。
【0145】
(会議映像、及び録画映像のイメージ)
図15は、一実施形態に係る会議映像の作成処理のイメージを示す図である。会議映像作成部810は、例えば、
図15に示すように、音声データ、及びカメラ映像ストリームと同じタイミングで会議映像を作成する。今までは、この会議映像をそのまま録画していたため、例えば、クローズアップ表示エリア302に表示される利用者の画像が頻繁に切り替わるという問題がある。また、この方法では、話者検知に要する時間t等により、新たに発話した話者が、クローズアップ表示されるまでに遅延が発生するという問題もある。
【0146】
図16は、一実施形態に係る録画映像の作成処理のイメージを示す図である。録画映像作成部808は、例えば、
図16に示すように、カメラ映像ストリームを所定の時間(録画映像遅延時間)遅延させたカメラ映像ストリームを用いて、録画映像のレイアウトを行う。これにより、録画映像作成部808は、予め特定した発話順序に基づいて、クローズアップ表示エリア302に表示される利用者の画像の切り替わり頻度が少なくなるように、録画映像のレイアウトを行うことができる。また、この方法では、話者検知に要する時間tの影響を受けないので、新たに発話した話者が、クローズアップ表示されるまでに遅延も解消することができる。
【0147】
以上、本発明の各実施形態によれば、直近の複数の発話者をクローズアップ表示するビデオ会議システム100において、クローズアップ表示される発話者の切り替え頻度を抑制した録画映像を提供することができる。
【0148】
<補足>
上記で説明した各実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。
【0149】
<付記>
本明細書には、下記の各項のビデオ会議システム、及び録画映像作成方法が開示されている。
(第1項)
ビデオ会議の映像を録画するビデオ会議システムであって、
マイクアレイで取得した前記ビデオ会議の音声に基づいて音の方向を検知する方向検知部と、
1つ以上のカメラで撮影した前記ビデオ会議の第1の映像から人物の画像を検知する画像検知部と、
前記音の方向と前記人物の画像とに基づいて、前記ビデオ会議システムを利用して前記ビデオ会議に参加する利用者の発話順序を特定する特定部と、
前記第1の映像を所定の時間遅延させた第2の映像から、前記発話順序に基づいて、新たに発話した第1の利用者を含む所定の数の利用者の画像を所定のエリアに表示する前記ビデオ会議の録画映像を作成する録画映像作成部と、
を有する、ビデオ会議システム。
(第2項)
前記録画映像作成部は、前記第2の映像において、前記第1の利用者が発話したときに、前記第1の利用者の次に発話する第2の利用者の画像が前記所定のエリアに表示されている場合、少なくとも前記第1の利用者の画像と前記第2の利用者画像とを前記所定のエリアに表示する前記録画映像を作成する、第1項に記載のビデオ会議システム。
(第3項)
前記録画映像作成部は、前記第2の映像において、前記第1の利用者が発話したときに、前記第1の利用者の次に発話する第2の利用者の次に発話する第3の利用者の画像が前記所定のエリアに表示されている場合、少なくとも前記第1の利用者の画像と前記第3の利用者の画像とを前記所定のエリアに表示する前記録画映像を作成する、第1項又は第2項に記載のビデオ会議システム。
(第4項)
前記録画映像作成部は、前記第2の映像において、前記第1の利用者が発話したときに、前記第1の利用者の画像が前記所定のエリアに表示されている場合、前記所定のエリアの表示を変更せずに、前記録画映像を作成する、第1項~第3項のいずれかに記載のビデオ会議システム。
(第5項)
前記録画映像作成部は、前記第2の映像において、利用者の発話時間が所定の時間未満である場合、前記所定のエリアの表示を変更せずに、前記録画映像を作成する、第1項~第4項のいずれかに記載のビデオ会議システム。
(第6項)
前記第1の映像から、他の利用者よりも後に発話した前記所定の数の利用者の画像を前記所定のエリアに表示する前記ビデオ会議の会議映像を作成する会議映像作成部を有する、第1項~第5項のいずれかに記載のビデオ会議システム。
(第7項)
前記録画映像作成部は、前記所定のエリアに表示される利用者の画像の変化が、前記会議映像より少ない前記録画映像を作成する、第6項に記載のビデオ会議システム。
(第8項)
前記第1の映像を前記所定の時間保持した後に、前記第2の映像を出力する遅延バッファを有する、第1項~第7項のいずれかに記載のビデオ会議システム。
(第9項)
ビデオ会議を制御する第1の装置と、マイクアレイと1つ以上のカメラとを備え、第1の装置に接続される第2の装置と、を含み前記ビデオ会議の映像を録画するビデオ会議システムであって、
前記第2の装置は、
前記マイクアレイで取得した音声に基づいて音の方向を検知する方向検知部と、
前記カメラで撮影した第1の映像から人物の画像を検知する画像検知部と、
前記音の方向と前記人物の画像とに基づいて、前記ビデオ会議システムを利用して前記ビデオ会議に参加する利用者の発話順序を特定する特定部と、
前記第1の映像を所定の時間遅延させた第2の映像から、前記発話順序に基づいて、新たに発話した第1の利用者を含む所定の数の利用者の画像を所定のエリアに表示する前記ビデオ会議の録画映像を作成する録画映像作成部と、
を有する、ビデオ会議システム。
(第10項)
ビデオ会議の映像を録画するビデオ会議システムが、
マイクアレイで取得した前記ビデオ会議の音声に基づいて音の方向を検知する方向検知処理と、
1つ以上のカメラで撮影した前記ビデオ会議の第1の映像から人物の画像を検知する画像検知処理と、
前記音の方向と前記人物の画像とに基づいて、前記ビデオ会議システムを利用して前記ビデオ会議に参加する利用者の発話順序を特定する特定処理と、
前記第1の映像を所定の時間遅延させた第2の映像から、前記発話順序に基づいて、新たに発話した第1の利用者を含む所定の数の利用者の画像を所定のエリアに表示する前記ビデオ会議の録画映像を作成する録画映像作成処理と、
を実行する、録画映像作成方法。
【0150】
以上、本発明の実施形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、様々な変形、及び応用が可能である。
【符号の説明】
【0151】
1 通信システム
10 会議サーバ
100 ビデオ会議システム
101 ビデオ会議端末
201 ウェブ会議デバイス(第2の装置)
202 PC(第1の装置)
211 IWB(第1の装置)
302 クローズアップ表示エリア(所定のエリア)
611 マイクアレイ
614-1、614-2 カメラ
615 映像遅延バッファ
803 方向検知部
805 画像検知部
806 特定部
807 映像遅延部
808 録画映像作成部
810 会議映像作成部
【先行技術文献】
【特許文献】
【0152】
【特許文献1】特開2009-182980号公報
【特許文献2】特開2017-34502号公報