IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7400886ビデオ会議システム、ビデオ会議方法、およびプログラム
<>
  • 特許-ビデオ会議システム、ビデオ会議方法、およびプログラム 図1
  • 特許-ビデオ会議システム、ビデオ会議方法、およびプログラム 図2
  • 特許-ビデオ会議システム、ビデオ会議方法、およびプログラム 図3
  • 特許-ビデオ会議システム、ビデオ会議方法、およびプログラム 図4
  • 特許-ビデオ会議システム、ビデオ会議方法、およびプログラム 図5
  • 特許-ビデオ会議システム、ビデオ会議方法、およびプログラム 図6
  • 特許-ビデオ会議システム、ビデオ会議方法、およびプログラム 図7
  • 特許-ビデオ会議システム、ビデオ会議方法、およびプログラム 図8
  • 特許-ビデオ会議システム、ビデオ会議方法、およびプログラム 図9
  • 特許-ビデオ会議システム、ビデオ会議方法、およびプログラム 図10
  • 特許-ビデオ会議システム、ビデオ会議方法、およびプログラム 図11
  • 特許-ビデオ会議システム、ビデオ会議方法、およびプログラム 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-11
(45)【発行日】2023-12-19
(54)【発明の名称】ビデオ会議システム、ビデオ会議方法、およびプログラム
(51)【国際特許分類】
   H04N 7/15 20060101AFI20231212BHJP
   H04N 21/442 20110101ALI20231212BHJP
   H04M 3/56 20060101ALI20231212BHJP
【FI】
H04N7/15
H04N21/442
H04M3/56 C
【請求項の数】 11
(21)【出願番号】P 2022108957
(22)【出願日】2022-07-06
(62)【分割の表示】P 2018065249の分割
【原出願日】2018-03-29
(65)【公開番号】P2022136115
(43)【公開日】2022-09-15
【審査請求日】2022-07-06
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100110928
【弁理士】
【氏名又は名称】速水 進治
(72)【発明者】
【氏名】合川 直志
(72)【発明者】
【氏名】木村 智
(72)【発明者】
【氏名】佐藤 伸正
【審査官】鈴木 順三
(56)【参考文献】
【文献】特開2011-004007(JP,A)
【文献】特開2013-207356(JP,A)
【文献】特開2011-244455(JP,A)
【文献】特開平10-137225(JP,A)
【文献】特開2009-069172(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 7/14 - 7/173
H04N 21/00 - 21/858
H04M 3/38 - 3/58
(57)【特許請求の範囲】
【請求項1】
第1の取得装置により生成された、会議の参加人物を特定するための第1の情報を取得する情報取得手段と、
前記第1の情報を解析して、前記第1の情報に含まれる人物を特定する人物特定処理を実行する人物特定手段と、
前記人物特定処理で特定できなかった場合、解析することで未特定人物を特定することが可能な第2の情報を取得する所定処理を実行する処理実行手段と、
を備えるビデオ会議システム。
【請求項2】
前記人物特定処理で特定できなかった前記未特定人物の特定情報を検出する特定情報検出手段、をさらに備え、
前記処理実行手段は、検出された前記特定情報を用いて、前記所定処理を実行する、
請求項1に記載のビデオ会議システム。
【請求項3】
前記人物特定手段は、前記第2の情報を解析して、前記第2の情報に含まれる人物を特定する人物特定処理を実行する
ことを特徴とする請求項1又は2に記載のビデオ会議システム。
【請求項4】
前記第1の情報と前記第2の情報は、顔情報及び音声の少なくとも一方を含む生体情報を含んでおり、
前記特定情報は、位置及び音声の少なくとも一方を含む
ことを特徴とする請求項2に記載のビデオ会議システム。
【請求項5】
前記処理実行手段は、移動型の撮像装置の撮影位置または被写体を特定するための情報を前記未特定人物の前記特定情報に基づいて生成して出力する処理を前記所定処理として実行し、
前記情報取得手段は、前記移動型の撮像装置により生成された追加画像を取得し、
前記人物特定手段は、前記移動型の撮像装置により生成された追加画像を解析して前記未特定人物を特定する、
請求項2又は4のいずれか1項に記載のビデオ会議システム。
【請求項6】
前記移動型の撮像装置は、自律移動可能なロボットに組み込まれており、
前記処理実行手段は、
前記未特定人物の前記特定情報に基づいて、前記移動型の撮像装置の撮影位置を特定するための情報を生成し、
前記撮影位置を特定するための情報を前記ロボットに出力することにより、当該情報により特定される位置に前記ロボットを誘導して撮影を実行させる、
請求項5に記載のビデオ会議システム。
【請求項7】
前記移動型の撮像装置は、前記会議の参加人物が所有する携帯型端末に組み込まれており、
前記処理実行手段は、
前記未特定人物の前記特定情報に基づいて、前記移動型の撮像装置の被写体を特定するための情報を生成し、
前記被写体を特定するための情報を表示装置に出力する、
請求項5に記載のビデオ会議システム。
【請求項8】
前記人物特定手段によって特定された人物のリストを作成するリスト作成手段を更に備える、
請求項1から7のいずれか1項に記載のビデオ会議システム。
【請求項9】
音声データを取得する音声取得手段と、
前記音声データまたは前記音声データと同期して取得された画像を解析することによって、前記音声データに関する発言者を特定する発言者特定手段と、
前記発言者の特定結果と前記音声データに基づいて生成されたテキストデータとを対応付けることにより、議事録データを生成する議事録作成手段と、を更に備える、
請求項1から8のいずれか1項に記載のビデオ会議システム。
【請求項10】
コンピュータが、
第1の取得装置により生成された、会議の参加人物を特定するための第1の情報を取得し、
前記第1の情報を解析して、前記第1の情報に含まれる人物を特定する人物特定処理を実行し、
前記人物特定処理で特定できなかった場合、解析することで未特定人物を特定することが可能な第2の情報を取得する所定処理を実行する、
ことを含むビデオ会議方法。
【請求項11】
コンピュータに、請求項10に記載のビデオ会議方法を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ビデオ会議システム、ビデオ会議方法、およびプログラムに関する。
【背景技術】
【0002】
離れた場所にいる人物と会議を行う方法の1つとして、ビデオ会議システムが利用されている。ビデオ会議システムでは、それぞれの場所で撮影された映像を互いにやり取りすることにより、互いに離れた場所にいる人物同士で会議を行うことができる。
【0003】
上述のビデオ会議システムに関連する技術が、例えば、下記特許文献1に開示されている。下記特許文献1には、(1)遠隔会議の参加者の画像を用いて各参加者の認証を行い、(2)認証された参加者の数が必要数に達した場合に、アクション許可処理(会議を開始できることを通知する処理)を実行する技術が開示されている。
【0004】
また、下記特許文献2には、(1)ディスプレイに設けられた複数の撮像装置の画像を使って当該ディスプレイの前に存在するユーザを検知し、(2)ユーザの検知結果に基づいて、ディスプレイの位置を上下左右方向に移動させることにより、全てのユーザが見やすい位置にディスプレイを配置する技術が開示されている。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2009-171119号公報
【文献】特開2016-004207号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
上述の特許文献1では、会議の参加人物が写る画像を用いて、個々の人物を特定(認証)している。ここで、会議の参加人物は、それぞれ、設けられたカメラに対して異なる向きまたは姿勢でいる場合がほとんどである。そのため、会議の参加人物の少なくとも一部が、画像から特定できない可能性がある。また、会議という場の性質に鑑みて、会議の参加人物が個人として特定されていないままとなっていることは好ましくない。
【0007】
本発明は、上記の課題に鑑みてなされたものである。本発明の目的の一つは、ビデオ会議システムにおいて、会議の参加人物を特定する技術を提供することである。
【課題を解決するための手段】
【0008】
本発明のビデオ会議システムは、
第1の取得装置により生成された、会議の参加人物を特定するための第1の情報を取得する情報取得手段と、
前記第1の情報を解析して、前記第1の情報に含まれる人物を特定する人物特定処理を実行する人物特定手段と、
前記人物特定処理で特定できなかった場合、解析することで未特定人物を特定することが可能な第2の情報を取得する所定処理を実行する処理実行手段と、
を備える。
【0009】
本発明のビデオ会議方法は、
コンピュータが、
第1の取得装置により生成された、会議の参加人物を特定するための第1の情報を取得し、
前記第1の情報を解析して、前記第1の情報に含まれる人物を特定する人物特定処理を実行し、
前記人物特定処理で特定できなかった場合、解析することで未特定人物を特定することが可能な第2の情報を取得する所定処理を実行する、
ことを含む。
【0010】
本発明のプログラムは、コンピュータに上述のビデオ会議方法を実行させる。
【発明の効果】
【0011】
本発明によれば、ビデオ会議システムにおいて、会議の参加人物を特定することができる。
【図面の簡単な説明】
【0012】
図1】第1実施形態におけるビデオ会議システムの構成例を示す図である。
図2】ビデオ会議システムのハードウエア構成を例示するブロック図である。
図3】第1実施形態のビデオ会議システムにより実行される処理の流れを例示するフローチャートである。
図4】第1実施形態のビデオ会議システムにより実行される処理の流れを例示するフローチャートである。
図5】第2実施形態のビデオ会議システムの構成例を示す図である。
図6】第3実施形態のビデオ会議システムの構成例を示す図である。
図7】表示装置に表示される、被写体を特定するための情報の一例を示す図である。
図8】第4実施形態におけるビデオ会議システムの構成例を示す図である。
図9】第4実施形態のビデオ会議システムにより実行される処理の流れを例示するフローチャートである。
図10】第5実施形態におけるビデオ会議システムの構成例を示す図である。
図11】第5実施形態におけるビデオ会議システムのハードウエア構成を例示する図である。
図12】第5実施形態のビデオ会議システムにより実行される処理の流れを例示するフローチャートである。
【発明を実施するための形態】
【0013】
以下、本発明の実施形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。また、特に説明する場合を除き、各ブロック図において、各ブロックは、ハードウエア単位の構成ではなく、機能単位の構成を表している。
【0014】
[第1実施形態]
〔システム構成例〕
図1は、第1実施形態におけるビデオ会議システム1の構成例を示す図である。図1に例示されるビデオ会議システム1では、サーバ装置10と、会議が開催される各地点にそれぞれ設けられた、複数の通信端末20とが互いに通信可能に接続されている。ビデオ会議は、サーバ装置10を経由して、各通信端末20の間で実行される。
【0015】
通信端末20には、撮像装置30および表示装置40が接続されている。撮像装置30は、その撮像装置30が設けられている地点にいる会議の参加人物を撮影して、ビデオ会議の相手側の地点に設けられた表示装置40に表示させる画像M(以下、「メイン画像」と表記)を生成する。表示装置40は、ビデオ会議の相手側の地点に設けられた撮像装置30により撮影された、相手側のメイン画像Mを表示する。また、相手側の表示装置40に表示されるメイン画像Mには、そのメイン画像Mを用いて特定された参加人物の情報(例えば、氏名、所属など)が重畳表示される。また、ビデオ会議システム1では、撮像装置30とは別に、移動型の撮像装置35が備えられている。一例として、撮像装置35は、自律移動可能なロボットに組み込まれている。他の一例として、撮像装置35は、スマートフォン、タブレット、ノート型パソコンといった、携帯型端末に組み込まれている。撮像装置35は、撮像装置30により生成されたメイン画像Mを用いて特定できなかった人物が存在する場合、その人物を特定するために利用する画像S(以下、「サブ画像」と表記)を生成する。
【0016】
図1に示されるように、ビデオ会議システム1は、画像取得部110、人物特定部120、位置検出部130、および処理実行部140をそなえる。図1の例において、これらの処理部は、1台のサーバ装置10に備えられているが、ビデオ会議システム1の構成は図1の例に制限されない。図示されていないが、これらの処理部の全部または一部は、複数のサーバ装置に分散して或いは重複して設けられていてもよい。
【0017】
画像取得部110は、撮像装置30(第1の撮像装置)により生成された、会議の参加人物が写る画像を取得する。図1の例では、画像取得部110は、撮像装置30により生成された、会議の参加人物が写る画像を、ネットワークを介して接続された通信端末20から取得することができる。また、画像取得部110は、図示しない他の通信端末に接続された撮像装置(第1の撮像装置)から、当該他の通信端末が設けられた場所で会議に参加している人物の画像を取得することができる。
【0018】
人物特定部120は、画像取得部110により取得された画像を解析して、当該画像に含まれる人物を特定する人物特定処理を実行する。言い換えると、人物特定部120は、画像取得部110により取得された画像に写る参加人物を個々に特定(認証)する。
【0019】
人物特定部120は、例えば、次のように動作する。まず、人物特定部120は、画像取得部110により取得された画像の中から、人物と認識される領域を検出する。人物特定部120は、既知の一般物体検出アルゴリズムを利用して、「人物」と認識(分類)される領域を検出することができる。また、人物特定部120は、例えば、動きのある物体の領域を、人物の領域として検出してもよい。人物特定部120は、「動きのある物体」を、例えば、時系列で並ぶ複数の画像間での特徴点の移動量に基づいて判断することができる。具体的には、人物特定部120は、時系列で並ぶ複数の画像間において、基準値以上移動している特徴点が含まれる物体の領域を、人物の領域として推定することができる。そして、人物特定部120は、検出された領域から抽出される特徴量と、予め登録された参加人物の特徴量とを照合した結果に基づいて、各領域に含まれる人物が誰であるかを特定することができる。なお、会議の参加人物の特徴量は、その参加人物の情報(氏名、所属など)と対応付けて、サーバ装置10のストレージデバイスなどに予め記憶されている。ここで、人物特定部120は、検出された領域に含まれる人物が特定できなかった場合、その領域に含まれる人物が特定できなかったことを示す情報(特定失敗情報)をその領域に関連付ける。なお、「人物が特定できなかった場合」とは、例えば、照合の結果として算出されるスコアが基準値以上となる人物が存在しなかった場合などである。
【0020】
位置検出部130は、人物特定部120により実行された人物特定処理で特定できなかった人物(以下、「未特定人物」と表記)が存在する場合、その未特定人物の位置を検出する。図1の例では、画像取得部110により取得されたメイン画像Mを用いた人物特定処理の結果、4人の参加人物のうち、3人の人物(Jane、John、Nancy)が特定された一方で、残りの1人の人物が特定できず未特定人物と判断された場合が描かれている。この場合、位置検出部130は、特定できなかった残り1人の未特定人物の位置を検出する。一例として、位置検出部130は、メイン画像Mの座標系での未特定人物の座標(位置)をそのまま検出することができる。また他の一例として、位置検出部130は、メイン画像Mの座標系での未特定人物の座標(位置)を基に他の座標系(例えば、会議が開催される場所のマップデータでの座標系)での未特定人物の座標(位置)を検出してもよい。この場合、メイン画像Mの座標系での座標を別の座標系での座標に変換するルール(変換パラメータ)は、例えば、サーバ装置10のメモリやストレージデバイスなどに予め用意されている。メイン画像Mの座標系での座標を別の座標系での座標に変換するルール(変換パラメータ)は、例えば、会議が行われる場所に設けられる撮像装置30の撮像範囲と、その場所の座席位置を含むマップデータと、を基に生成することができる。変換ルール(変換パラメータ)を生成するための情報は、例えば、各地点の参加人物が利用する端末(図示せず)などからサーバ装置10に対して会議の開催前に送信される。一例として、サーバ装置10は、ロボット60が保持するマップデータおよび撮像装置30により生成された画像を並べて或いは切替可能に表示装置40上に表示し、画像内での各座席の位置とマップデータ内の座席の位置とを対応付ける入力を受け付ける。サーバ装置10は、この入力に基づいて、画像の座標系をマップデータの座標系に変換するルール(変換パラメータ)を生成することができる。
【0021】
処理実行部140は、位置検出部130により検出された未特定人物の位置を用いて、当該未特定人物を特定するための所定処理を実行する。処理実行部140により実行される所定処理の詳細については、後述する。処理実行部140の所定処理により、画像取得部110が、撮像装置35によりサブ画像Sを取得することができる。そして、人物特定部120が、そのサブ画像Sを用いた人物特定処理を実行することで、未特定人物が特定される。
【0022】
〔ハードウエア構成例〕
ビデオ会議システム1の各機能構成部は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、ビデオ会議システム1の各機能構成部が、サーバ装置10においてハードウエアとソフトウエアとの組み合わせによって実現される場合について、さらに説明する。
【0023】
図2は、ビデオ会議システム1のハードウエア構成を例示するブロック図である。図2の例において、サーバ装置10は、バス1010、プロセッサ1020、メモリ1030、ストレージデバイス1040、入出力インタフェース1050、及びネットワークインタフェース1060を有する。
【0024】
バス1010は、プロセッサ1020、メモリ1030、ストレージデバイス1040、入出力インタフェース1050、及びネットワークインタフェース1060が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ1020などを互いに接続する方法は、バス接続に限定されない。
【0025】
プロセッサ1020は、CPU(Central Processing Unit) やGPU(Graphics Processing Unit)などで実現されるプロセッサである。
【0026】
メモリ1030は、RAM(Random Access Memory)などで実現される主記憶装置である。
【0027】
ストレージデバイス1040は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、メモリカード、又はROM(Read Only Memory)などで実現される補助記憶装置である。ストレージデバイス1040はビデオ会議システム1の各機能(画像取得部110、人物特定部120、位置検出部130、および処理実行部140など)を実現するプログラムモジュールを記憶している。プロセッサ1020がこれら各プログラムモジュールをメモリ1030上に読み込んで実行することで、そのプログラムモジュールに対応する各機能が実現される。
【0028】
入出力インタフェース1050は、サーバ装置10と各種入出力デバイスとを接続するためのインタフェースである。入出力インタフェース1050には、キーボードやマウスといった入力装置(図示せず)、または、ディスプレイやスピーカーといった出力装置(図示せず)などが接続され得る。
【0029】
ネットワークインタフェース1060は、サーバ装置10をネットワークに接続するためのインタフェースである。このネットワークは、例えばLAN(Local Area Network)やWAN(Wide Area Network)である。ネットワークインタフェース1060がネットワークに接続する方法は、無線接続であってもよいし、有線接続であってもよい。図示されるように、サーバ装置10は、ネットワークインタフェース1060を介して、ビデオ会議が開催される各地点に設けられた、複数の通信端末20と通信可能に接続されている。各通信端末20には、会議の参加人物を撮影するための撮像装置30、各撮像装置30により生成された画像を表示させるための表示装置40、および、会議中の音声を拾うための集音装置50が接続されている。また、各通信端末20には、会議の音声を出力するための音声出力装置(図示せず)が更に接続されている。また、サーバ装置10は、ネットワークインタフェース1060を介して、メイン画像Mを生成する撮像装置30(第1の撮像装置)とは別の撮像装置35と接続されている。
【0030】
画像取得部110は、ネットワークインタフェース1060を介して各通信端末20から会議の参加人物が写る画像を取得することができる。また、サーバ装置10は、ネットワークインタフェース1060を介して、各通信端末20に相手の参加人物の画像を送信することができる。また、サーバ装置10は、ネットワークインタフェース1060を介して、各通信端末20にその通信端末20が備えられている地点の参加人物の画像を送信することができる。
【0031】
〔処理の流れ〕
図3および図4を用いて、第1実施形態のビデオ会議システム1により実行される処理の流れについて説明する。図3および図4は、第1実施形態のビデオ会議システム1により実行される処理の流れを例示するフローチャートである。
【0032】
まず、画像取得部110は、通信端末20から、ある地点における会議の参加人物が写るメイン画像Mを取得する(S102)。画像取得部110は、ネットワークインタフェース1060を介して、撮像装置30により生成された、メイン画像Mを取得することができる。
【0033】
人物特定部120は、S102の処理で取得されたメイン画像Mの中から、人物と認識される領域を検出する(S104)。そして、人物特定部120は、S104の処理で検出された領域について、人物特定処理を実行する(S106)。人物特定部120は、人物が特定できなかった場合(S108:NO)、人物特定処理の対象となった領域に対して、その領域に含まれる人物が特定できなかったことを示す情報(特定失敗情報)を関連付ける(S110)。一方、人物が特定できた場合(S108:YES)、人物特定部120は、特定した人物の氏名を含む人物情報を取得し、その人物の領域に関連付ける(S112)。なお、人物情報は、会議の開催前に参加人物の特徴量と関連付けて取得され、ストレージデバイス1040などに事前に登録されている。人物情報は、人物の氏名のほか、その人物が所属するグループ(会社や部署など)の名称、その人物の役職名などを含んでいる。なお、S106からS110の処理は、S104の処理で検出された人物の領域の全てが処理されるまで繰り返される(S114:NO)。
【0034】
S104の処理で検出された人物の領域の全てが処理された後(S114:YES)、サーバ装置10は、S112の処理で関連付けられた各人物の人物情報を、その人物情報が関連付けられた領域の位置に合わせてメイン画像Mに重畳させて、他の地点の通信端末20に送信する。これにより、ある地点でのメイン画像Mを用いた人物特定処理の結果が、そのメイン画像Mと共に他の地点の表示装置40に表示される(S116)。
【0035】
また、位置検出部130は、未特定人物が存在するか否かを判定する(S118)。ここで、位置検出部130は、特定失敗情報が関連付けられた領域が存在するか否かによって、未特定人物が存在するか否かを判断することができる。未特定人物が存在しない場合(S118:NO)、以降の処理は実行されない。
【0036】
未特定人物が存在する場合(S118:YES)、位置検出部130は、未特定人物の位置を検出する(S120)。ここで、位置検出部130は、メイン画像Mの座標系での未特定人物の座標(位置)を検出してもよいし、メイン画像Mの座標系での未特定人物の座標(位置)を基に他の座標系での未特定人物の座標(位置)を検出してもよい。
【0037】
そして、処理実行部140は、位置検出部130により検出された未特定人物の位置を用いて、その未特定人物を特定するための所定処理を実行する(S122)。なお、未特定人物は、撮像装置30とは異なる、移動型の撮像装置35により生成されたサブ画像Sを用いて特定される。処理実行部140により実行される所定処理は、別の観点では、メイン画像Mとは異なる写り方で未特定人物が写るサブ画像Sを取得するための処理とも言える。一例として、処理実行部140は、移動型の撮像装置35が組み込まれた自律移動可能なロボットに対して、撮影位置(撮像装置35が撮影動作を実行すべき位置)を特定するための情報を生成して出力する処理を、所定処理として実行する。他の一例として、処理実行部140は、撮像装置35の被写体(未特定人物)を特定するための情報を生成して出力する処理を、所定処理として実行する。
【0038】
画像取得部110は、処理実行部140の所定処理に応じて撮像装置35で生成された追加の画像(サブ画像S)を、当該撮像装置35が組み込まれた装置から取得する(S124)。そして、人物特定部120は、サブ画像Sを解析することによって、未特定人物を特定する(S126)。ここで、人物特定部120は、ストレージデバイス1040などに予め登録された人物情報の中から、サブ画像Sを用いて特定された参加人物の人物情報を取得する。そして、人物特定部120は、メイン画像Mでの未特定人物の領域に、取得した人物情報を関連付ける(S128)。サーバ装置10は、S128の処理で取得された人物情報を、その人物情報が関連付けられた領域の位置に合わせてメイン画像Mに重畳させて、他の地点の通信端末20に送信する。これにより、サブ画像Sを用いた人物特定処理の結果が、他の地点の表示装置40に追加表示される(S130)。
【0039】
なお、撮影時の環境などにより、未特定人物が不鮮明なサブ画像Sが取得される可能性もある。人物特定部120は、サブ画像Sを解析しても未特定人物が特定できなかった場合、サブ画像Sの取り直し指示を、撮像装置35が組み込まれた装置に対して出力してもよい。また、人物特定部120は、サブ画像Sの取り直しを予め決められた回数行ったにもかかわらず未特定人物が特定できなかった場合、その未特定人物を部外者(会議の参加人物として予め登録された人物以外の人物)と判断してもよい。この場合、人物特定部120は、表示装置40や図示しないスピーカーなどを用いて、部外者の存在を報知する処理を実行してもよい。
【0040】
以上、本実施形態では、メイン画像Mを用いて特定できなかった人物が存在する場合、メイン画像Mを生成した撮像装置30とは異なる、移動型の撮像装置35により生成されたサブ画像Sを用いてその未特定人物を特定する処理が実行される。これにより、未特定人物が、会議の場で特定されないままの状態となることを防止できる。また、本実施形態によれば、会議の参加人物が、会議の場に紛れ込んだ部外者の存在を認識することができる。
【0041】
[第2実施形態]
本実施形態では、撮像装置35が、自律移動可能なロボットに組み込まれている場合の処理について説明する。本実施形態は、以下で説明する点を除き、第1実施形態と同様である。
【0042】
〔システム構成例〕
図5は、第2実施形態のビデオ会議システム1の構成例を示す図である。図5に示されるように、本実施形態の撮像装置35は、自律移動可能なロボット60に組み込まれている。また、本実施形態において、処理実行部140は、未特定人物の位置に基づいて、撮像装置35の撮影位置を特定するための情報を生成する。また、処理実行部140は、撮像装置35の撮影位置を特定するための情報をロボット60に出力することにより、その情報により特定される位置に当該ロボット60を誘導して撮影を実行させる。
【0043】
処理実行部140は、位置検出部130により検出された未特定人物の位置から、ロボット60に組み込まれた撮像装置35の撮影位置を特定する。ここで、処理実行部140は、撮像装置35の撮影位置を、ロボット60が保持するマップデータ上での位置として算出する。なお、本実施形態において、位置検出部130は、メイン画像Mの座標系での未特定人物の座標(位置)を検出してもよいし、メイン画像Mの座標系での未特定人物の座標(位置)を基にマップデータの座標系での未特定人物の座標(位置)を検出してもよい。前者の場合、処理実行部140は、メイン画像Mの座標系での未特定人物の座標(位置)をマップデータの座標系での座標(位置)に変換するルール(変換パラメータ)を用いて、撮像装置35の撮影位置を算出する。そして、算出した撮影位置を特定する情報をロボット60に出力する。後者の場合、処理実行部140は、位置検出部130により検出された位置を特定する情報をロボット60に出力すればよい。また、処理実行部140は、ロボット60に撮影時の角度を示す情報(撮像装置35をどの方向にどの程度傾けるかを示す情報)を生成し、撮影位置に対応付けて出力することができる。具体的には、処理実行部140は、メイン画像M内での未特定人物の顔の位置(高さ)を更に判定し、その顔の位置および撮影位置を基準とする撮像装置35の撮像可能範囲に基づいて、撮影時の角度を算出することができる。
【0044】
ロボット60は、処理実行部140から取得した情報により特定される位置まで移動する。なお、ロボット60は、既知の自己位置推定アルゴリズムを使って自己位置を算出して、目的とする位置(処理実行部140から取得した情報により特定される位置)まで移動することができる。ロボット60は、目的とする位置に到達すると、撮像装置35に撮影動作を実行させる。これにより、メイン画像Mを用いて特定されなかった未特定人物が写るサブ画像Sが生成される。また、ロボット60は、撮像装置35により生成されたサブ画像Sを画像取得部110に送信する。その結果、第1実施形態で説明したように、サブ画像Sを用いた人物特定処理が実行可能となる。
【0045】
また、ロボット60の動きを人が操作できるようにしてもよい。例えば、会議の参加人物が、携帯型端末(スマートフォンやノートパソコンなど)、或いは、専用のリモートコントローラを操作して、ロボット60に対して移動指示を送信してもよい。ロボット60の動作は、携帯型端末や専用のリモートコントローラから受信した移動指示によって制御される。なおこの場合において、会議の参加人物は、後述の第3実施形態で説明するような被写体を特定するための情報(表示装置40上に出力される情報)を確認することにより、ロボット60を移動させるべき位置を判断することができる。
【0046】
以上、本実施形態によれば、第1実施形態で説明した効果が得られる。また、本実施形態では、未特定人物が写るサブ画像Sを自律移動可能なロボット60が自動的に取得してくれる。そのため、会議の参加人物は、未特定人物を特定するために何らかの特別なアクションを会議中に起こさなくてもよくなる。つまり、未特定人物を特定する際の手間を省くことができ、ビデオ会議システム1の利便性が向上する。
【0047】
[第3実施形態]
本実施形態では、撮像装置35が、会議の参加人物が所有する携帯型装置(例えば、スマートフォン、タブレット、ノート型パソコンなど)に組み込まれている場合の処理について説明する。本実施形態は、以下の点を除き、第1実施形態と同様である。
【0048】
図6は、第3実施形態のビデオ会議システム1の構成例を示す図である。図6に示されるように、本実施形態の撮像装置35は、会議の参加人物が所有する携帯型端末70に組み込まれている。携帯型端末70は、例えば、スマートフォン、タブレット、ノート型パソコンなどである。また、本実施形態において、処理実行部140は、位置検出部130により検出された未特定人物の位置に基づいて、撮像装置35の被写体(未特定人物)を特定するための情報を生成する。具体的には、処理実行部140は、位置検出部130により検出された、メイン画像Mにおける未特定人物の位置に合わせて、その人物が未特定人物であることを示す情報をメイン画像Mに重畳させたデータを生成する。そして、処理実行部140は、このように生成された、撮像装置35の被写体を特定するための情報を表示装置40(メイン画像Mの撮影地点に設けられた表示装置40)に出力する(例:図7)。
【0049】
図7は、表示装置40に表示される、被写体を特定するための情報の一例を示す図である。図7では、特定済みの参加人物の氏名を示す情報に加えて、「Unknown」という文字情報が、メイン画像Mに重畳表示されている様子が描かれている。図7の例では、この「Unknown」という文字情報が、未特定人物であることを示す情報である。メイン画像Mの撮影地点にいる会議の参加人物は、図7に示されるような情報(「Unknown」という文字情報)を確認することにより、撮像装置35を使ってどの人物を撮影すればよいかを把握することができる。そして、未特定人物と判断された参加人物本人または他の参加人物が、携帯型端末70に備えられている撮像装置35を未特定人物と判断された参加人物に向けて撮影操作を実行する。これにより、メイン画像Mを用いて特定されなかった未特定人物が写るサブ画像Sが生成される。ここで、メイン画像Mの中に複数の未特定人物が存在する場合もある。この場合には、携帯型端末70により撮影されたサブ画像Sがどの未特定人物に対応する画像かを示す情報が必要となる。そこで、メイン画像Mの中に複数の未特定人物が存在する場合、一例として、携帯型端末70は、サブ画像Sに対応する未特定人物を指定する操作を更に受け付けてもよい。例えば、携帯型端末70は、サブ画像Sの撮影前または撮影後にメイン画像Mを表示画面上に表示させ、その中から未特定人物を選択する操作を受け付けてもよい。そして、携帯型端末70は、撮影動作に応じて、或いは、その端末を操作している人物の更なる操作に応じて、生成されたサブ画像Sをサーバ装置10に送信する。その結果、第1実施形態で説明したように、サブ画像Sを用いた人物特定処理が実行可能となる。
【0050】
以上、本実施形態によれば、第1実施形態で説明した効果が得られる。
【0051】
[第4実施形態]
本実施形態では、自動的に議事録を作成する機能を更に有する点を除き、上述の各実施形態と同様の構成を有する。
【0052】
図8は、第4実施形態におけるビデオ会議システム1の構成例を示す図である。図8に例示されるビデオ会議システム1は、リスト作成部150、音声取得部160、発言者特定部170、議事録作成部180を更に備える。
【0053】
リスト作成部150は、人物特定部120の人物特定処理によって特定された人物のリストを作成する。リスト作成部150は、例えば次のように動作する。まず、リスト作成部150は、人物特定部120の人物特定処理で人物が特定された場合に、人物特定部120からその結果を取得する。そして、リスト作成部150は、人物特定部120から取得した人物の特定結果を、メモリ1030などに保持されるリストに追加する。これにより、ビデオ会議システム1を利用して開催される会議の参加者のリストを自動的に生成することができる。
【0054】
音声取得部160は、図示しないマイクにより生成された、会議中の会話の音声データを取得する。発言者特定部170は、音声取得部160により取得された音声データに関する発言者を特定する。一例として、発言者特定部170は、例えば会議の開催前にストレージデバイス1040などに予め登録された各参加人物の声紋データとの照合を行うことにより、音声取得部160が取得した音声データに関する発言者を特定することができる。他の一例として、発言者特定部170は、音声データと同期して取得される画像(撮像装置30により生成される画像)を解析することによって、音声取得部160が取得した音声データに関する発言者を特定することができる。具体的には、発言者特定部170は、音声データと同期して取得された画像を解析した結果、口の部分が動いている人物の領域を特定する。そして、口の部分が動いている人物の領域についての人物特定処理の結果から、その発話者を特定することができる。議事録作成部180は、発言者特定部170による発言者の特定結果と、音声取得部160により取得された音声データに基づいて生成されたテキストデータとを対応付けることにより、議事録データを生成する。また、議事録作成部180は、リスト作成部150により生成された人物のリストを、会議の参加者として議事録データに付加することができる。
【0055】
〔ハードウエア構成例〕
本実施形態のビデオ会議システム1は、第1実施形態と同様のハードウエア構成(例:図2)を有する。本実施形態のストレージデバイス1040は、上述のリスト作成部150、音声取得部160、発言者特定部170および議事録作成部180の機能を実現するためのプログラムモジュールを更に記憶している。プロセッサ1020が、これらのプログラムモジュールをメモリ1030上に読み出して実行することにより、上述の本実施形態の各機能が実現される。
【0056】
〔処理の流れ〕
図9を用いて、本実施形態のビデオ会議システム1により実行される処理の流れについて説明する。図9は、第4実施形態のビデオ会議システム1により実行される処理の流れを例示するフローチャートである。
【0057】
まず、音声取得部160は会議の音声データを取得する(S202)。会議の音声データは、各地点に設けられている集音装置50により生成される。集音装置50は、通信端末20に接続されている。音声取得部160は、ネットワークインタフェース1060を介して各地点の通信端末20と通信して、その地点の集音装置50により生成された音声データを取得することができる。
【0058】
そして、発言者特定部170は、音声取得部160により取得された音声データに関する発言者を特定する(S204)。一例として、発言者特定部170は、次のようにして、音声取得部160により取得された音声データに関する発言者を特定することができる。まず、発言者特定部170は、ストレージデバイス1040などに事前に登録された各参加人物の声紋データと音声データとを照合して、当該音声データの声紋との一致度が基準を満たす声紋データを特定する。そして、発言者特定部170は、特定した声紋データに関連付けられている参加人物の識別情報(人物の氏名、または、人物毎に割り当てられたIDなど)を取得することにより、音声取得部160により取得された音声データの発言者を特定することができる。他の一例として、発言者特定部170は、次のようにして、音声取得部160により取得された音声データに関する発言者を特定することができる。まず、発言者特定部170は、音声データと同期して画像取得部110により取得された画像を解析する。具体的には、発言者特定部170は、画像の中から人物の口の領域を検出し、その領域(すなわち、口)が時系列で並ぶ複数の画像間で動いているか否かを判定する。そして、発言者特定部170は、口の領域が動いていると判定された人物の領域について、人物特定部120の人物特定処理の結果を取得することにより、音声取得部160により取得された音声データの発言者を特定することができる。また、発言者特定部170は、既知の話者追尾方法(例えば、センサーマイクと顔検出技術とを組み合わせて、音源が位置する方向と人物(顔)の検出位置に基づいて話者を特定する方法)を利用して、発言者を特定してもよい。なお、ここでは、例えば、上述の各実施形態で説明したような処理によって、全ての人物が特定されているものと仮定している。
【0059】
議事録作成部180は、音声取得部160および発言者特定部170の処理結果に基づいて、議事録データを生成する(S206)。具体的には、議事録作成部180は、音声データをテキスト化するAPI(Application Programming Interface)などを利用して、音声取得部160により取得された音声データをテキストデータ化する。また、議事録作成部180は、発言者特定部170によって特定された、当該音声データの発言者の情報(例えば、発言者の氏名など)を取得する。そして、議事録作成部180は、音声取得部160により取得された音声データから生成されたテキストデータと、その音声データに関する発言者として特定された人物の情報とを対応付けて、議事録データに追加する。また、議事録作成部180は、リスト作成部150により生成された、会議の参加人物リストを読み出し、議事録データに参加人物の情報を付加してもよい。
【0060】
以上、本実施形態の構成によれば、ビデオ会議システム1を利用した開催される会議の議事録を、自動で作成することができる。これにより、会議の参加人物が議事録の作成する手間を削減することができる。
【0061】
[第5実施形態]
本実施形態は、以下の点で、上述の各実施形態と異なる。
【0062】
〔システム構成例〕
図10は、第5実施形態におけるビデオ会議システム1の構成例を示す図である。図10に例示されるように、本実施形態のビデオ会議システム1は、位置検出部130および撮像装置35を備えていない。その代わりに、本実施形態のビデオ会議システム1は、音声取得部160および発言者特定部170を備えている。音声取得部160および発言者特定部170の動作は、第4実施形態で説明した動作と同様である。本実施形態の処理実行部140は、音声データと同期して取得されたメイン画像Mを解析することによって、未特定人物が音声データに関する発話者か否かを特定する。本実施形態では、メイン画像Mに基づく個人認証処理と、音声データに基づく個人認証処理が並行して実行される。
【0063】
〔ハードウエア構成例〕
図11は、第5実施形態におけるビデオ会議システム1のハードウエア構成を例示する図である。図11に例示されるハードウエア構成は、撮像装置35が備えられていない点で、図2に例示されるハードウエア構成と異なる。また、本実施形態のストレージデバイス1040は、位置検出部130の機能を実現するプログラムモジュールを記憶していない。その代わりに、本実施形態のストレージデバイス1040は、音声取得部160および発言者特定部170を実現するためのプログラムモジュールを更に記憶している。また、本実施形態のストレージデバイス1040に記憶される処理実行部140のプログラムモジュールは、上述した本実施形態の処理実行部140の機能を実現する。
【0064】
〔処理の流れ〕
図12を用いて、本実施形態のビデオ会議システム1により実行される処理の流れについて説明する。図12は、第5実施形態のビデオ会議システム1により実行される処理の流れを例示するフローチャートである。なお、ここでは、図3のS102からS114までの処理(メイン画像Mに基づく個人認証処理)が並行して実施されている。
【0065】
まず、処理実行部140は、並行して実行されるメイン画像Mに基づく個人認証処理で、未特定人物が検出されたか否かを判定する(S302)。未特定人物が検出されなかった場合(S302:NO)、以降の処理は実行されない。
【0066】
一方、未特定人物が検出された場合(S302:YES)、発言者特定部170は、音声取得部160により取得される音声データを用いて、その音声データに関する発言者を特定する処理を開始する(S304)。このS304の処理の具体的な流れは、図9のS304の処理と同様である。
【0067】
また、処理実行部140は、上述の音声データと同期して取得されたメイン画像Mを解析して、S304の処理で特定された発言者が未特定人物と一致するか否かを判定する(S306)。処理実行部140は、メイン画像Mの中で口の部分が動いている人物の領域に特定失敗情報が関連付けられているか否かに基づいて、発言者が未特定人物か否かを判定することができる。発言者が未特定人物である場合(S306:YES)、処理実行部140は、メイン画像Mの未特定人物の領域に、発言者として特定された参加人物の人物情報を関連付ける(S308)。この関連付けにより、メイン画像M上では、未特定人物を示す情報に代わって、その参加人物の人物情報が表示される。
【0068】
本実施形態では、サブ画像Sを生成する撮像装置35を用いる代わりに、音声認証技術を用いて未特定人物が特定することができる。
【0069】
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
【0070】
また、上述の説明で用いた複数のフローチャートでは、複数の工程(処理)が順番に記載されているが、各実施形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態は、内容が相反しない範囲で組み合わせることができる。
【0071】
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
1.
第1の撮像装置により生成された、会議の参加人物が写る画像を取得する画像取得手段と、
前記画像を解析して、前記画像に含まれる人物を特定する人物特定処理を実行する人物特定手段と、
前記人物特定処理で特定できなかった未特定人物の位置を検出する位置検出手段と、
検出された前記未特定人物の位置を用いて、前記未特定人物を特定するための所定処理を実行する処理実行手段と、
を備えるビデオ会議システム。
2.
前記処理実行手段は、移動型の撮像装置である第2の撮像装置の撮影位置または被写体を特定するための情報を前記未特定人物の位置に基づいて生成して出力する処理を前記所定処理として実行し、
前記画像取得手段は、前記第2の撮像装置により生成された追加画像を取得し、
前記人物特定手段は、前記第2の撮像装置により生成された追加画像を解析して前記未特定人物を特定する、
1.に記載のビデオ会議システム。
3.
前記第2の撮像装置は、自律移動可能なロボットに組み込まれており、
前記処理実行手段は、
前記未特定人物の位置に基づいて、前記第2の撮像装置の撮影位置を特定するための情報を生成し、
前記撮影位置を特定するための情報を前記ロボットに出力することにより、当該情報により特定される位置に前記ロボットを誘導して撮影を実行させる、
2.に記載のビデオ会議システム。
4.
前記第2の撮像装置は、前記会議の参加人物が所有する携帯型端末に組み込まれており、
前記処理実行手段は、
前記未特定人物の位置に基づいて、前記第2の撮像装置の被写体を特定するための情報を生成し、
前記被写体を特定するための情報を表示装置に出力する、
2.に記載のビデオ会議システム。
5.
前記人物特定手段によって特定された人物のリストを作成するリスト作成手段を更に備える、
1.から4.のいずれか1つに記載のビデオ会議システム。
6.
音声データを取得する音声取得手段と、
前記音声データまたは前記音声データと同期して取得された画像を解析することによって、前記音声データに関する発言者を特定する発言者特定手段と、
前記発言者の特定結果と前記音声データに基づいて生成されたテキストデータとを対応付けることにより、議事録データを生成する議事録作成手段と、を更に備える、
1.から5.のいずれか1つに記載のビデオ会議システム。
7.
コンピュータが、
第1の撮像装置により生成された、会議の参加人物が写る画像を取得し、
前記画像を解析して、前記画像に含まれる人物を特定する人物特定処理を実行し、
前記人物特定処理で特定できなかった未特定人物の位置を検出し、
検出された前記未特定人物の位置を用いて、前記未特定人物を特定するための所定処理を実行する、
ことを含むビデオ会議方法。
8.
前記コンピュータが、
移動型の撮像装置である第2の撮像装置の撮影位置または被写体を特定するための情報を前記未特定人物の位置に基づいて生成して出力する処理を前記所定処理として実行し、
前記第2の撮像装置により生成された追加画像を取得し、
前記第2の撮像装置により生成された追加画像を解析して前記未特定人物を特定する、
ことを含む7.に記載のビデオ会議方法。
9.
前記第2の撮像装置は、自律移動可能なロボットに組み込まれており、
前記コンピュータが、
前記未特定人物の位置に基づいて、前記第2の撮像装置の撮影位置を特定するための情報を生成し、
前記撮影位置を特定するための情報を前記ロボットに出力することにより、当該情報により特定される位置に前記ロボットを誘導して撮影を実行させる、
ことを含む8.に記載のビデオ会議方法。
10.
前記第2の撮像装置は、前記会議の参加人物が所有する携帯型端末に組み込まれており、
前記コンピュータが、
前記未特定人物の位置に基づいて、前記第2の撮像装置の被写体を特定するための情報を生成し、
前記被写体を特定するための情報を表示装置に出力する、
ことを含む8.に記載のビデオ会議方法。
11.
前記コンピュータが、
前記人物特定手段によって特定された人物のリストを作成する、
ことを含む7.から10.のいずれか1つに記載のビデオ会議方法。
12.
前記コンピュータが、
音声データを取得し、
前記音声データまたは前記音声データと同期して取得された画像を解析することによって、前記音声データに関する発言者を特定し、
前記発言者の特定結果と前記音声データに基づいて生成されたテキストデータとを対応付けることにより、議事録データを生成する、
ことを含む7.から11.のいずれか1つに記載のビデオ会議方法。
13.
コンピュータに、7.から12.のいずれか1つに記載のビデオ会議方法を実行させるためのプログラム。
【符号の説明】
【0072】
1 ビデオ会議システム
10 サーバ装置
1010 バス
1020 プロセッサ
1030 メモリ
1040 ストレージデバイス
1050 入出力インタフェース
1060 ネットワークインタフェース
110 画像取得部
120 人物特定部
130 位置検出部
140 処理実行部
150 リスト作成部
160 音声取得部
170 発言者特定部
180 議事録作成部
20 通信端末
30 撮像装置
30 第1の撮像装置
35 撮像装置
40 表示装置
50 集音装置
60 ロボット
70 携帯型端末
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12