特許7400886 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 日本電気株式会社の特許一覧

特許7400886ビデオ会議システム、ビデオ会議方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-12-11

(45)【発行日】2023-12-19

(54)【発明の名称】ビデオ会議システム、ビデオ会議方法、およびプログラム

(51)【国際特許分類】

H04N 7/15 20060101AFI20231212BHJP

H04N 21/442 20110101ALI20231212BHJP

H04M 3/56 20060101ALI20231212BHJP

【ＦＩ】

H04N7/15

H04N21/442

H04M3/56 C

【請求項の数】 11

(21)【出願番号】P 2022108957

(22)【出願日】2022-07-06

(62)【分割の表示】P 2018065249の分割

【原出願日】2018-03-29

(65)【公開番号】P2022136115

(43)【公開日】2022-09-15

【審査請求日】2022-07-06

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100110928

【弁理士】

【氏名又は名称】速水進治

(72)【発明者】

【氏名】合川直志

(72)【発明者】

【氏名】木村智

(72)【発明者】

【氏名】佐藤伸正

【審査官】鈴木順三

(56)【参考文献】

【文献】特開２０１１－００４００７（ＪＰ，Ａ）

【文献】特開２０１３－２０７３５６（ＪＰ，Ａ）

【文献】特開２０１１－２４４４５５（ＪＰ，Ａ）

【文献】特開平１０－１３７２２５（ＪＰ，Ａ）

【文献】特開２００９－０６９１７２（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ７／１４－７／１７３

Ｈ０４Ｎ２１／００－２１／８５８

Ｈ０４Ｍ３／３８－３／５８

(57)【特許請求の範囲】

【請求項1】

第１の取得装置により生成された、会議の参加人物を特定するための第１の情報を取得する情報取得手段と、
前記第１の情報を解析して、前記第１の情報に含まれる人物を特定する人物特定処理を実行する人物特定手段と、
前記人物特定処理で特定できなかった場合、解析することで未特定人物を特定することが可能な第２の情報を取得する所定処理を実行する処理実行手段と、
を備えるビデオ会議システム。

【請求項2】

前記人物特定処理で特定できなかった前記未特定人物の特定情報を検出する特定情報検出手段、をさらに備え、
前記処理実行手段は、検出された前記特定情報を用いて、前記所定処理を実行する、
請求項１に記載のビデオ会議システム。

【請求項3】

前記人物特定手段は、前記第２の情報を解析して、前記第２の情報に含まれる人物を特定する人物特定処理を実行する
ことを特徴とする請求項１又は２に記載のビデオ会議システム。

【請求項4】

前記第１の情報と前記第２の情報は、顔情報及び音声の少なくとも一方を含む生体情報を含んでおり、
前記特定情報は、位置及び音声の少なくとも一方を含む
ことを特徴とする請求項２に記載のビデオ会議システム。

【請求項5】

前記処理実行手段は、移動型の撮像装置の撮影位置または被写体を特定するための情報を前記未特定人物の前記特定情報に基づいて生成して出力する処理を前記所定処理として実行し、
前記情報取得手段は、前記移動型の撮像装置により生成された追加画像を取得し、
前記人物特定手段は、前記移動型の撮像装置により生成された追加画像を解析して前記未特定人物を特定する、
請求項２又は４のいずれか１項に記載のビデオ会議システム。

【請求項6】

前記移動型の撮像装置は、自律移動可能なロボットに組み込まれており、
前記処理実行手段は、
前記未特定人物の前記特定情報に基づいて、前記移動型の撮像装置の撮影位置を特定するための情報を生成し、
前記撮影位置を特定するための情報を前記ロボットに出力することにより、当該情報により特定される位置に前記ロボットを誘導して撮影を実行させる、
請求項５に記載のビデオ会議システム。

【請求項7】

前記移動型の撮像装置は、前記会議の参加人物が所有する携帯型端末に組み込まれており、
前記処理実行手段は、
前記未特定人物の前記特定情報に基づいて、前記移動型の撮像装置の被写体を特定するための情報を生成し、
前記被写体を特定するための情報を表示装置に出力する、
請求項５に記載のビデオ会議システム。

【請求項8】

前記人物特定手段によって特定された人物のリストを作成するリスト作成手段を更に備える、
請求項１から７のいずれか１項に記載のビデオ会議システム。

【請求項9】

音声データを取得する音声取得手段と、
前記音声データまたは前記音声データと同期して取得された画像を解析することによって、前記音声データに関する発言者を特定する発言者特定手段と、
前記発言者の特定結果と前記音声データに基づいて生成されたテキストデータとを対応付けることにより、議事録データを生成する議事録作成手段と、を更に備える、
請求項１から８のいずれか１項に記載のビデオ会議システム。

【請求項10】

コンピュータが、
第１の取得装置により生成された、会議の参加人物を特定するための第１の情報を取得し、
前記第１の情報を解析して、前記第１の情報に含まれる人物を特定する人物特定処理を実行し、
前記人物特定処理で特定できなかった場合、解析することで未特定人物を特定することが可能な第２の情報を取得する所定処理を実行する、
ことを含むビデオ会議方法。

【請求項11】

コンピュータに、請求項１０に記載のビデオ会議方法を実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ビデオ会議システム、ビデオ会議方法、およびプログラムに関する。

【背景技術】

【0002】

離れた場所にいる人物と会議を行う方法の１つとして、ビデオ会議システムが利用されている。ビデオ会議システムでは、それぞれの場所で撮影された映像を互いにやり取りすることにより、互いに離れた場所にいる人物同士で会議を行うことができる。

【0003】

上述のビデオ会議システムに関連する技術が、例えば、下記特許文献１に開示されている。下記特許文献１には、（１）遠隔会議の参加者の画像を用いて各参加者の認証を行い、（２）認証された参加者の数が必要数に達した場合に、アクション許可処理（会議を開始できることを通知する処理）を実行する技術が開示されている。

【0004】

また、下記特許文献２には、（１）ディスプレイに設けられた複数の撮像装置の画像を使って当該ディスプレイの前に存在するユーザを検知し、（２）ユーザの検知結果に基づいて、ディスプレイの位置を上下左右方向に移動させることにより、全てのユーザが見やすい位置にディスプレイを配置する技術が開示されている。

【先行技術文献】

【特許文献】

【0005】

【文献】特開２００９－１７１１１９号公報

【文献】特開２０１６－００４２０７号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

上述の特許文献１では、会議の参加人物が写る画像を用いて、個々の人物を特定（認証）している。ここで、会議の参加人物は、それぞれ、設けられたカメラに対して異なる向きまたは姿勢でいる場合がほとんどである。そのため、会議の参加人物の少なくとも一部が、画像から特定できない可能性がある。また、会議という場の性質に鑑みて、会議の参加人物が個人として特定されていないままとなっていることは好ましくない。

【0007】

本発明は、上記の課題に鑑みてなされたものである。本発明の目的の一つは、ビデオ会議システムにおいて、会議の参加人物を特定する技術を提供することである。

【課題を解決するための手段】

【0008】

本発明のビデオ会議システムは、
第１の取得装置により生成された、会議の参加人物を特定するための第１の情報を取得する情報取得手段と、
前記第１の情報を解析して、前記第１の情報に含まれる人物を特定する人物特定処理を実行する人物特定手段と、
前記人物特定処理で特定できなかった場合、解析することで未特定人物を特定することが可能な第２の情報を取得する所定処理を実行する処理実行手段と、
を備える。

【0009】

本発明のビデオ会議方法は、
コンピュータが、
第１の取得装置により生成された、会議の参加人物を特定するための第１の情報を取得し、
前記第１の情報を解析して、前記第１の情報に含まれる人物を特定する人物特定処理を実行し、
前記人物特定処理で特定できなかった場合、解析することで未特定人物を特定することが可能な第２の情報を取得する所定処理を実行する、
ことを含む。

【0010】

本発明のプログラムは、コンピュータに上述のビデオ会議方法を実行させる。

【発明の効果】

【0011】

本発明によれば、ビデオ会議システムにおいて、会議の参加人物を特定することができる。

【図面の簡単な説明】

【0012】

【図1】第１実施形態におけるビデオ会議システムの構成例を示す図である。

【図2】ビデオ会議システムのハードウエア構成を例示するブロック図である。

【図3】第１実施形態のビデオ会議システムにより実行される処理の流れを例示するフローチャートである。

【図4】第１実施形態のビデオ会議システムにより実行される処理の流れを例示するフローチャートである。

【図5】第２実施形態のビデオ会議システムの構成例を示す図である。

【図6】第３実施形態のビデオ会議システムの構成例を示す図である。

【図7】表示装置に表示される、被写体を特定するための情報の一例を示す図である。

【図8】第４実施形態におけるビデオ会議システムの構成例を示す図である。

【図9】第４実施形態のビデオ会議システムにより実行される処理の流れを例示するフローチャートである。

【図10】第５実施形態におけるビデオ会議システムの構成例を示す図である。

【図11】第５実施形態におけるビデオ会議システムのハードウエア構成を例示する図である。

【図12】第５実施形態のビデオ会議システムにより実行される処理の流れを例示するフローチャートである。

【発明を実施するための形態】

【0013】

以下、本発明の実施形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。また、特に説明する場合を除き、各ブロック図において、各ブロックは、ハードウエア単位の構成ではなく、機能単位の構成を表している。

【0014】

［第１実施形態］
〔システム構成例〕
図１は、第１実施形態におけるビデオ会議システム１の構成例を示す図である。図１に例示されるビデオ会議システム１では、サーバ装置１０と、会議が開催される各地点にそれぞれ設けられた、複数の通信端末２０とが互いに通信可能に接続されている。ビデオ会議は、サーバ装置１０を経由して、各通信端末２０の間で実行される。

【0015】

通信端末２０には、撮像装置３０および表示装置４０が接続されている。撮像装置３０は、その撮像装置３０が設けられている地点にいる会議の参加人物を撮影して、ビデオ会議の相手側の地点に設けられた表示装置４０に表示させる画像Ｍ（以下、「メイン画像」と表記）を生成する。表示装置４０は、ビデオ会議の相手側の地点に設けられた撮像装置３０により撮影された、相手側のメイン画像Ｍを表示する。また、相手側の表示装置４０に表示されるメイン画像Ｍには、そのメイン画像Ｍを用いて特定された参加人物の情報（例えば、氏名、所属など）が重畳表示される。また、ビデオ会議システム１では、撮像装置３０とは別に、移動型の撮像装置３５が備えられている。一例として、撮像装置３５は、自律移動可能なロボットに組み込まれている。他の一例として、撮像装置３５は、スマートフォン、タブレット、ノート型パソコンといった、携帯型端末に組み込まれている。撮像装置３５は、撮像装置３０により生成されたメイン画像Ｍを用いて特定できなかった人物が存在する場合、その人物を特定するために利用する画像Ｓ（以下、「サブ画像」と表記）を生成する。

【0016】

図１に示されるように、ビデオ会議システム１は、画像取得部１１０、人物特定部１２０、位置検出部１３０、および処理実行部１４０をそなえる。図１の例において、これらの処理部は、１台のサーバ装置１０に備えられているが、ビデオ会議システム１の構成は図１の例に制限されない。図示されていないが、これらの処理部の全部または一部は、複数のサーバ装置に分散して或いは重複して設けられていてもよい。

【0017】

画像取得部１１０は、撮像装置３０（第１の撮像装置）により生成された、会議の参加人物が写る画像を取得する。図１の例では、画像取得部１１０は、撮像装置３０により生成された、会議の参加人物が写る画像を、ネットワークを介して接続された通信端末２０から取得することができる。また、画像取得部１１０は、図示しない他の通信端末に接続された撮像装置（第１の撮像装置）から、当該他の通信端末が設けられた場所で会議に参加している人物の画像を取得することができる。

【0018】

人物特定部１２０は、画像取得部１１０により取得された画像を解析して、当該画像に含まれる人物を特定する人物特定処理を実行する。言い換えると、人物特定部１２０は、画像取得部１１０により取得された画像に写る参加人物を個々に特定（認証）する。

【0019】

人物特定部１２０は、例えば、次のように動作する。まず、人物特定部１２０は、画像取得部１１０により取得された画像の中から、人物と認識される領域を検出する。人物特定部１２０は、既知の一般物体検出アルゴリズムを利用して、「人物」と認識（分類）される領域を検出することができる。また、人物特定部１２０は、例えば、動きのある物体の領域を、人物の領域として検出してもよい。人物特定部１２０は、「動きのある物体」を、例えば、時系列で並ぶ複数の画像間での特徴点の移動量に基づいて判断することができる。具体的には、人物特定部１２０は、時系列で並ぶ複数の画像間において、基準値以上移動している特徴点が含まれる物体の領域を、人物の領域として推定することができる。そして、人物特定部１２０は、検出された領域から抽出される特徴量と、予め登録された参加人物の特徴量とを照合した結果に基づいて、各領域に含まれる人物が誰であるかを特定することができる。なお、会議の参加人物の特徴量は、その参加人物の情報（氏名、所属など）と対応付けて、サーバ装置１０のストレージデバイスなどに予め記憶されている。ここで、人物特定部１２０は、検出された領域に含まれる人物が特定できなかった場合、その領域に含まれる人物が特定できなかったことを示す情報（特定失敗情報）をその領域に関連付ける。なお、「人物が特定できなかった場合」とは、例えば、照合の結果として算出されるスコアが基準値以上となる人物が存在しなかった場合などである。

【0020】

位置検出部１３０は、人物特定部１２０により実行された人物特定処理で特定できなかった人物（以下、「未特定人物」と表記）が存在する場合、その未特定人物の位置を検出する。図１の例では、画像取得部１１０により取得されたメイン画像Ｍを用いた人物特定処理の結果、４人の参加人物のうち、３人の人物（Ｊａｎｅ、Ｊｏｈｎ、Ｎａｎｃｙ）が特定された一方で、残りの１人の人物が特定できず未特定人物と判断された場合が描かれている。この場合、位置検出部１３０は、特定できなかった残り１人の未特定人物の位置を検出する。一例として、位置検出部１３０は、メイン画像Ｍの座標系での未特定人物の座標（位置）をそのまま検出することができる。また他の一例として、位置検出部１３０は、メイン画像Ｍの座標系での未特定人物の座標（位置）を基に他の座標系（例えば、会議が開催される場所のマップデータでの座標系）での未特定人物の座標（位置）を検出してもよい。この場合、メイン画像Ｍの座標系での座標を別の座標系での座標に変換するルール（変換パラメータ）は、例えば、サーバ装置１０のメモリやストレージデバイスなどに予め用意されている。メイン画像Ｍの座標系での座標を別の座標系での座標に変換するルール（変換パラメータ）は、例えば、会議が行われる場所に設けられる撮像装置３０の撮像範囲と、その場所の座席位置を含むマップデータと、を基に生成することができる。変換ルール（変換パラメータ）を生成するための情報は、例えば、各地点の参加人物が利用する端末（図示せず）などからサーバ装置１０に対して会議の開催前に送信される。一例として、サーバ装置１０は、ロボット６０が保持するマップデータおよび撮像装置３０により生成された画像を並べて或いは切替可能に表示装置４０上に表示し、画像内での各座席の位置とマップデータ内の座席の位置とを対応付ける入力を受け付ける。サーバ装置１０は、この入力に基づいて、画像の座標系をマップデータの座標系に変換するルール（変換パラメータ）を生成することができる。

【0021】

処理実行部１４０は、位置検出部１３０により検出された未特定人物の位置を用いて、当該未特定人物を特定するための所定処理を実行する。処理実行部１４０により実行される所定処理の詳細については、後述する。処理実行部１４０の所定処理により、画像取得部１１０が、撮像装置３５によりサブ画像Ｓを取得することができる。そして、人物特定部１２０が、そのサブ画像Ｓを用いた人物特定処理を実行することで、未特定人物が特定される。

【0022】

〔ハードウエア構成例〕
ビデオ会議システム１の各機能構成部は、各機能構成部を実現するハードウエア（例：ハードワイヤードされた電子回路など）で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ（例：電子回路とそれを制御するプログラムの組み合わせなど）で実現されてもよい。以下、ビデオ会議システム１の各機能構成部が、サーバ装置１０においてハードウエアとソフトウエアとの組み合わせによって実現される場合について、さらに説明する。

【0023】

図２は、ビデオ会議システム１のハードウエア構成を例示するブロック図である。図２の例において、サーバ装置１０は、バス１０１０、プロセッサ１０２０、メモリ１０３０、ストレージデバイス１０４０、入出力インタフェース１０５０、及びネットワークインタフェース１０６０を有する。

【0024】

バス１０１０は、プロセッサ１０２０、メモリ１０３０、ストレージデバイス１０４０、入出力インタフェース１０５０、及びネットワークインタフェース１０６０が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ１０２０などを互いに接続する方法は、バス接続に限定されない。

【0025】

プロセッサ１０２０は、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）などで実現されるプロセッサである。

【0026】

メモリ１０３０は、ＲＡＭ（Random Access Memory）などで実現される主記憶装置である。

【0027】

ストレージデバイス１０４０は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、メモリカード、又はＲＯＭ（Read Only Memory）などで実現される補助記憶装置である。ストレージデバイス１０４０はビデオ会議システム１の各機能（画像取得部１１０、人物特定部１２０、位置検出部１３０、および処理実行部１４０など）を実現するプログラムモジュールを記憶している。プロセッサ１０２０がこれら各プログラムモジュールをメモリ１０３０上に読み込んで実行することで、そのプログラムモジュールに対応する各機能が実現される。

【0028】

入出力インタフェース１０５０は、サーバ装置１０と各種入出力デバイスとを接続するためのインタフェースである。入出力インタフェース１０５０には、キーボードやマウスといった入力装置（図示せず）、または、ディスプレイやスピーカーといった出力装置（図示せず）などが接続され得る。

【0029】

ネットワークインタフェース１０６０は、サーバ装置１０をネットワークに接続するためのインタフェースである。このネットワークは、例えばＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）である。ネットワークインタフェース１０６０がネットワークに接続する方法は、無線接続であってもよいし、有線接続であってもよい。図示されるように、サーバ装置１０は、ネットワークインタフェース１０６０を介して、ビデオ会議が開催される各地点に設けられた、複数の通信端末２０と通信可能に接続されている。各通信端末２０には、会議の参加人物を撮影するための撮像装置３０、各撮像装置３０により生成された画像を表示させるための表示装置４０、および、会議中の音声を拾うための集音装置５０が接続されている。また、各通信端末２０には、会議の音声を出力するための音声出力装置（図示せず）が更に接続されている。また、サーバ装置１０は、ネットワークインタフェース１０６０を介して、メイン画像Ｍを生成する撮像装置３０（第１の撮像装置）とは別の撮像装置３５と接続されている。

【0030】

画像取得部１１０は、ネットワークインタフェース１０６０を介して各通信端末２０から会議の参加人物が写る画像を取得することができる。また、サーバ装置１０は、ネットワークインタフェース１０６０を介して、各通信端末２０に相手の参加人物の画像を送信することができる。また、サーバ装置１０は、ネットワークインタフェース１０６０を介して、各通信端末２０にその通信端末２０が備えられている地点の参加人物の画像を送信することができる。

【0031】

〔処理の流れ〕
図３および図４を用いて、第１実施形態のビデオ会議システム１により実行される処理の流れについて説明する。図３および図４は、第１実施形態のビデオ会議システム１により実行される処理の流れを例示するフローチャートである。

【0032】

まず、画像取得部１１０は、通信端末２０から、ある地点における会議の参加人物が写るメイン画像Ｍを取得する（Ｓ１０２）。画像取得部１１０は、ネットワークインタフェース１０６０を介して、撮像装置３０により生成された、メイン画像Ｍを取得することができる。

【0033】

人物特定部１２０は、Ｓ１０２の処理で取得されたメイン画像Ｍの中から、人物と認識される領域を検出する（Ｓ１０４）。そして、人物特定部１２０は、Ｓ１０４の処理で検出された領域について、人物特定処理を実行する（Ｓ１０６）。人物特定部１２０は、人物が特定できなかった場合（Ｓ１０８：ＮＯ）、人物特定処理の対象となった領域に対して、その領域に含まれる人物が特定できなかったことを示す情報（特定失敗情報）を関連付ける（Ｓ１１０）。一方、人物が特定できた場合（Ｓ１０８：ＹＥＳ）、人物特定部１２０は、特定した人物の氏名を含む人物情報を取得し、その人物の領域に関連付ける（Ｓ１１２）。なお、人物情報は、会議の開催前に参加人物の特徴量と関連付けて取得され、ストレージデバイス１０４０などに事前に登録されている。人物情報は、人物の氏名のほか、その人物が所属するグループ（会社や部署など）の名称、その人物の役職名などを含んでいる。なお、Ｓ１０６からＳ１１０の処理は、Ｓ１０４の処理で検出された人物の領域の全てが処理されるまで繰り返される（Ｓ１１４：ＮＯ）。

【0034】

Ｓ１０４の処理で検出された人物の領域の全てが処理された後（Ｓ１１４：ＹＥＳ）、サーバ装置１０は、Ｓ１１２の処理で関連付けられた各人物の人物情報を、その人物情報が関連付けられた領域の位置に合わせてメイン画像Ｍに重畳させて、他の地点の通信端末２０に送信する。これにより、ある地点でのメイン画像Ｍを用いた人物特定処理の結果が、そのメイン画像Ｍと共に他の地点の表示装置４０に表示される（Ｓ１１６）。

【0035】

また、位置検出部１３０は、未特定人物が存在するか否かを判定する（Ｓ１１８）。ここで、位置検出部１３０は、特定失敗情報が関連付けられた領域が存在するか否かによって、未特定人物が存在するか否かを判断することができる。未特定人物が存在しない場合（Ｓ１１８：ＮＯ）、以降の処理は実行されない。

【0036】

未特定人物が存在する場合（Ｓ１１８：ＹＥＳ）、位置検出部１３０は、未特定人物の位置を検出する（Ｓ１２０）。ここで、位置検出部１３０は、メイン画像Ｍの座標系での未特定人物の座標（位置）を検出してもよいし、メイン画像Ｍの座標系での未特定人物の座標（位置）を基に他の座標系での未特定人物の座標（位置）を検出してもよい。

【0037】

そして、処理実行部１４０は、位置検出部１３０により検出された未特定人物の位置を用いて、その未特定人物を特定するための所定処理を実行する（Ｓ１２２）。なお、未特定人物は、撮像装置３０とは異なる、移動型の撮像装置３５により生成されたサブ画像Ｓを用いて特定される。処理実行部１４０により実行される所定処理は、別の観点では、メイン画像Ｍとは異なる写り方で未特定人物が写るサブ画像Ｓを取得するための処理とも言える。一例として、処理実行部１４０は、移動型の撮像装置３５が組み込まれた自律移動可能なロボットに対して、撮影位置（撮像装置３５が撮影動作を実行すべき位置）を特定するための情報を生成して出力する処理を、所定処理として実行する。他の一例として、処理実行部１４０は、撮像装置３５の被写体（未特定人物）を特定するための情報を生成して出力する処理を、所定処理として実行する。

【0038】

画像取得部１１０は、処理実行部１４０の所定処理に応じて撮像装置３５で生成された追加の画像（サブ画像Ｓ）を、当該撮像装置３５が組み込まれた装置から取得する（Ｓ１２４）。そして、人物特定部１２０は、サブ画像Ｓを解析することによって、未特定人物を特定する（Ｓ１２６）。ここで、人物特定部１２０は、ストレージデバイス１０４０などに予め登録された人物情報の中から、サブ画像Ｓを用いて特定された参加人物の人物情報を取得する。そして、人物特定部１２０は、メイン画像Ｍでの未特定人物の領域に、取得した人物情報を関連付ける（Ｓ１２８）。サーバ装置１０は、Ｓ１２８の処理で取得された人物情報を、その人物情報が関連付けられた領域の位置に合わせてメイン画像Ｍに重畳させて、他の地点の通信端末２０に送信する。これにより、サブ画像Ｓを用いた人物特定処理の結果が、他の地点の表示装置４０に追加表示される（Ｓ１３０）。

【0039】

なお、撮影時の環境などにより、未特定人物が不鮮明なサブ画像Ｓが取得される可能性もある。人物特定部１２０は、サブ画像Ｓを解析しても未特定人物が特定できなかった場合、サブ画像Ｓの取り直し指示を、撮像装置３５が組み込まれた装置に対して出力してもよい。また、人物特定部１２０は、サブ画像Ｓの取り直しを予め決められた回数行ったにもかかわらず未特定人物が特定できなかった場合、その未特定人物を部外者（会議の参加人物として予め登録された人物以外の人物）と判断してもよい。この場合、人物特定部１２０は、表示装置４０や図示しないスピーカーなどを用いて、部外者の存在を報知する処理を実行してもよい。

【0040】

以上、本実施形態では、メイン画像Ｍを用いて特定できなかった人物が存在する場合、メイン画像Ｍを生成した撮像装置３０とは異なる、移動型の撮像装置３５により生成されたサブ画像Ｓを用いてその未特定人物を特定する処理が実行される。これにより、未特定人物が、会議の場で特定されないままの状態となることを防止できる。また、本実施形態によれば、会議の参加人物が、会議の場に紛れ込んだ部外者の存在を認識することができる。

【0041】

［第２実施形態］
本実施形態では、撮像装置３５が、自律移動可能なロボットに組み込まれている場合の処理について説明する。本実施形態は、以下で説明する点を除き、第１実施形態と同様である。

【0042】

〔システム構成例〕
図５は、第２実施形態のビデオ会議システム１の構成例を示す図である。図５に示されるように、本実施形態の撮像装置３５は、自律移動可能なロボット６０に組み込まれている。また、本実施形態において、処理実行部１４０は、未特定人物の位置に基づいて、撮像装置３５の撮影位置を特定するための情報を生成する。また、処理実行部１４０は、撮像装置３５の撮影位置を特定するための情報をロボット６０に出力することにより、その情報により特定される位置に当該ロボット６０を誘導して撮影を実行させる。

【0043】

処理実行部１４０は、位置検出部１３０により検出された未特定人物の位置から、ロボット６０に組み込まれた撮像装置３５の撮影位置を特定する。ここで、処理実行部１４０は、撮像装置３５の撮影位置を、ロボット６０が保持するマップデータ上での位置として算出する。なお、本実施形態において、位置検出部１３０は、メイン画像Ｍの座標系での未特定人物の座標（位置）を検出してもよいし、メイン画像Ｍの座標系での未特定人物の座標（位置）を基にマップデータの座標系での未特定人物の座標（位置）を検出してもよい。前者の場合、処理実行部１４０は、メイン画像Ｍの座標系での未特定人物の座標（位置）をマップデータの座標系での座標（位置）に変換するルール（変換パラメータ）を用いて、撮像装置３５の撮影位置を算出する。そして、算出した撮影位置を特定する情報をロボット６０に出力する。後者の場合、処理実行部１４０は、位置検出部１３０により検出された位置を特定する情報をロボット６０に出力すればよい。また、処理実行部１４０は、ロボット６０に撮影時の角度を示す情報（撮像装置３５をどの方向にどの程度傾けるかを示す情報）を生成し、撮影位置に対応付けて出力することができる。具体的には、処理実行部１４０は、メイン画像Ｍ内での未特定人物の顔の位置（高さ）を更に判定し、その顔の位置および撮影位置を基準とする撮像装置３５の撮像可能範囲に基づいて、撮影時の角度を算出することができる。

【0044】

ロボット６０は、処理実行部１４０から取得した情報により特定される位置まで移動する。なお、ロボット６０は、既知の自己位置推定アルゴリズムを使って自己位置を算出して、目的とする位置（処理実行部１４０から取得した情報により特定される位置）まで移動することができる。ロボット６０は、目的とする位置に到達すると、撮像装置３５に撮影動作を実行させる。これにより、メイン画像Ｍを用いて特定されなかった未特定人物が写るサブ画像Ｓが生成される。また、ロボット６０は、撮像装置３５により生成されたサブ画像Ｓを画像取得部１１０に送信する。その結果、第１実施形態で説明したように、サブ画像Ｓを用いた人物特定処理が実行可能となる。

【0045】

また、ロボット６０の動きを人が操作できるようにしてもよい。例えば、会議の参加人物が、携帯型端末（スマートフォンやノートパソコンなど）、或いは、専用のリモートコントローラを操作して、ロボット６０に対して移動指示を送信してもよい。ロボット６０の動作は、携帯型端末や専用のリモートコントローラから受信した移動指示によって制御される。なおこの場合において、会議の参加人物は、後述の第３実施形態で説明するような被写体を特定するための情報（表示装置４０上に出力される情報）を確認することにより、ロボット６０を移動させるべき位置を判断することができる。

【0046】

以上、本実施形態によれば、第１実施形態で説明した効果が得られる。また、本実施形態では、未特定人物が写るサブ画像Ｓを自律移動可能なロボット６０が自動的に取得してくれる。そのため、会議の参加人物は、未特定人物を特定するために何らかの特別なアクションを会議中に起こさなくてもよくなる。つまり、未特定人物を特定する際の手間を省くことができ、ビデオ会議システム１の利便性が向上する。

【0047】

［第３実施形態］
本実施形態では、撮像装置３５が、会議の参加人物が所有する携帯型装置（例えば、スマートフォン、タブレット、ノート型パソコンなど）に組み込まれている場合の処理について説明する。本実施形態は、以下の点を除き、第１実施形態と同様である。

【0048】

図６は、第３実施形態のビデオ会議システム１の構成例を示す図である。図６に示されるように、本実施形態の撮像装置３５は、会議の参加人物が所有する携帯型端末７０に組み込まれている。携帯型端末７０は、例えば、スマートフォン、タブレット、ノート型パソコンなどである。また、本実施形態において、処理実行部１４０は、位置検出部１３０により検出された未特定人物の位置に基づいて、撮像装置３５の被写体（未特定人物）を特定するための情報を生成する。具体的には、処理実行部１４０は、位置検出部１３０により検出された、メイン画像Ｍにおける未特定人物の位置に合わせて、その人物が未特定人物であることを示す情報をメイン画像Ｍに重畳させたデータを生成する。そして、処理実行部１４０は、このように生成された、撮像装置３５の被写体を特定するための情報を表示装置４０（メイン画像Ｍの撮影地点に設けられた表示装置４０）に出力する（例：図７）。

【0049】

図７は、表示装置４０に表示される、被写体を特定するための情報の一例を示す図である。図７では、特定済みの参加人物の氏名を示す情報に加えて、「Ｕｎｋｎｏｗｎ」という文字情報が、メイン画像Ｍに重畳表示されている様子が描かれている。図７の例では、この「Ｕｎｋｎｏｗｎ」という文字情報が、未特定人物であることを示す情報である。メイン画像Ｍの撮影地点にいる会議の参加人物は、図７に示されるような情報（「Ｕｎｋｎｏｗｎ」という文字情報）を確認することにより、撮像装置３５を使ってどの人物を撮影すればよいかを把握することができる。そして、未特定人物と判断された参加人物本人または他の参加人物が、携帯型端末７０に備えられている撮像装置３５を未特定人物と判断された参加人物に向けて撮影操作を実行する。これにより、メイン画像Ｍを用いて特定されなかった未特定人物が写るサブ画像Ｓが生成される。ここで、メイン画像Ｍの中に複数の未特定人物が存在する場合もある。この場合には、携帯型端末７０により撮影されたサブ画像Ｓがどの未特定人物に対応する画像かを示す情報が必要となる。そこで、メイン画像Ｍの中に複数の未特定人物が存在する場合、一例として、携帯型端末７０は、サブ画像Ｓに対応する未特定人物を指定する操作を更に受け付けてもよい。例えば、携帯型端末７０は、サブ画像Ｓの撮影前または撮影後にメイン画像Ｍを表示画面上に表示させ、その中から未特定人物を選択する操作を受け付けてもよい。そして、携帯型端末７０は、撮影動作に応じて、或いは、その端末を操作している人物の更なる操作に応じて、生成されたサブ画像Ｓをサーバ装置１０に送信する。その結果、第１実施形態で説明したように、サブ画像Ｓを用いた人物特定処理が実行可能となる。

【0050】

以上、本実施形態によれば、第１実施形態で説明した効果が得られる。

【0051】

［第４実施形態］
本実施形態では、自動的に議事録を作成する機能を更に有する点を除き、上述の各実施形態と同様の構成を有する。

【0052】

図８は、第４実施形態におけるビデオ会議システム１の構成例を示す図である。図８に例示されるビデオ会議システム１は、リスト作成部１５０、音声取得部１６０、発言者特定部１７０、議事録作成部１８０を更に備える。

【0053】

リスト作成部１５０は、人物特定部１２０の人物特定処理によって特定された人物のリストを作成する。リスト作成部１５０は、例えば次のように動作する。まず、リスト作成部１５０は、人物特定部１２０の人物特定処理で人物が特定された場合に、人物特定部１２０からその結果を取得する。そして、リスト作成部１５０は、人物特定部１２０から取得した人物の特定結果を、メモリ１０３０などに保持されるリストに追加する。これにより、ビデオ会議システム１を利用して開催される会議の参加者のリストを自動的に生成することができる。

【0054】

音声取得部１６０は、図示しないマイクにより生成された、会議中の会話の音声データを取得する。発言者特定部１７０は、音声取得部１６０により取得された音声データに関する発言者を特定する。一例として、発言者特定部１７０は、例えば会議の開催前にストレージデバイス１０４０などに予め登録された各参加人物の声紋データとの照合を行うことにより、音声取得部１６０が取得した音声データに関する発言者を特定することができる。他の一例として、発言者特定部１７０は、音声データと同期して取得される画像（撮像装置３０により生成される画像）を解析することによって、音声取得部１６０が取得した音声データに関する発言者を特定することができる。具体的には、発言者特定部１７０は、音声データと同期して取得された画像を解析した結果、口の部分が動いている人物の領域を特定する。そして、口の部分が動いている人物の領域についての人物特定処理の結果から、その発話者を特定することができる。議事録作成部１８０は、発言者特定部１７０による発言者の特定結果と、音声取得部１６０により取得された音声データに基づいて生成されたテキストデータとを対応付けることにより、議事録データを生成する。また、議事録作成部１８０は、リスト作成部１５０により生成された人物のリストを、会議の参加者として議事録データに付加することができる。

【0055】

〔ハードウエア構成例〕
本実施形態のビデオ会議システム１は、第１実施形態と同様のハードウエア構成（例：図２）を有する。本実施形態のストレージデバイス１０４０は、上述のリスト作成部１５０、音声取得部１６０、発言者特定部１７０および議事録作成部１８０の機能を実現するためのプログラムモジュールを更に記憶している。プロセッサ１０２０が、これらのプログラムモジュールをメモリ１０３０上に読み出して実行することにより、上述の本実施形態の各機能が実現される。

【0056】

〔処理の流れ〕
図９を用いて、本実施形態のビデオ会議システム１により実行される処理の流れについて説明する。図９は、第４実施形態のビデオ会議システム１により実行される処理の流れを例示するフローチャートである。

【0057】

まず、音声取得部１６０は会議の音声データを取得する（Ｓ２０２）。会議の音声データは、各地点に設けられている集音装置５０により生成される。集音装置５０は、通信端末２０に接続されている。音声取得部１６０は、ネットワークインタフェース１０６０を介して各地点の通信端末２０と通信して、その地点の集音装置５０により生成された音声データを取得することができる。

【0058】

そして、発言者特定部１７０は、音声取得部１６０により取得された音声データに関する発言者を特定する（Ｓ２０４）。一例として、発言者特定部１７０は、次のようにして、音声取得部１６０により取得された音声データに関する発言者を特定することができる。まず、発言者特定部１７０は、ストレージデバイス１０４０などに事前に登録された各参加人物の声紋データと音声データとを照合して、当該音声データの声紋との一致度が基準を満たす声紋データを特定する。そして、発言者特定部１７０は、特定した声紋データに関連付けられている参加人物の識別情報（人物の氏名、または、人物毎に割り当てられたＩＤなど）を取得することにより、音声取得部１６０により取得された音声データの発言者を特定することができる。他の一例として、発言者特定部１７０は、次のようにして、音声取得部１６０により取得された音声データに関する発言者を特定することができる。まず、発言者特定部１７０は、音声データと同期して画像取得部１１０により取得された画像を解析する。具体的には、発言者特定部１７０は、画像の中から人物の口の領域を検出し、その領域（すなわち、口）が時系列で並ぶ複数の画像間で動いているか否かを判定する。そして、発言者特定部１７０は、口の領域が動いていると判定された人物の領域について、人物特定部１２０の人物特定処理の結果を取得することにより、音声取得部１６０により取得された音声データの発言者を特定することができる。また、発言者特定部１７０は、既知の話者追尾方法（例えば、センサーマイクと顔検出技術とを組み合わせて、音源が位置する方向と人物（顔）の検出位置に基づいて話者を特定する方法）を利用して、発言者を特定してもよい。なお、ここでは、例えば、上述の各実施形態で説明したような処理によって、全ての人物が特定されているものと仮定している。

【0059】

議事録作成部１８０は、音声取得部１６０および発言者特定部１７０の処理結果に基づいて、議事録データを生成する（Ｓ２０６）。具体的には、議事録作成部１８０は、音声データをテキスト化するＡＰＩ（Application Programming Interface）などを利用して、音声取得部１６０により取得された音声データをテキストデータ化する。また、議事録作成部１８０は、発言者特定部１７０によって特定された、当該音声データの発言者の情報（例えば、発言者の氏名など）を取得する。そして、議事録作成部１８０は、音声取得部１６０により取得された音声データから生成されたテキストデータと、その音声データに関する発言者として特定された人物の情報とを対応付けて、議事録データに追加する。また、議事録作成部１８０は、リスト作成部１５０により生成された、会議の参加人物リストを読み出し、議事録データに参加人物の情報を付加してもよい。

【0060】

以上、本実施形態の構成によれば、ビデオ会議システム１を利用した開催される会議の議事録を、自動で作成することができる。これにより、会議の参加人物が議事録の作成する手間を削減することができる。

【0061】

［第５実施形態］
本実施形態は、以下の点で、上述の各実施形態と異なる。

【0062】

〔システム構成例〕
図１０は、第５実施形態におけるビデオ会議システム１の構成例を示す図である。図１０に例示されるように、本実施形態のビデオ会議システム１は、位置検出部１３０および撮像装置３５を備えていない。その代わりに、本実施形態のビデオ会議システム１は、音声取得部１６０および発言者特定部１７０を備えている。音声取得部１６０および発言者特定部１７０の動作は、第４実施形態で説明した動作と同様である。本実施形態の処理実行部１４０は、音声データと同期して取得されたメイン画像Ｍを解析することによって、未特定人物が音声データに関する発話者か否かを特定する。本実施形態では、メイン画像Ｍに基づく個人認証処理と、音声データに基づく個人認証処理が並行して実行される。

【0063】

〔ハードウエア構成例〕
図１１は、第５実施形態におけるビデオ会議システム１のハードウエア構成を例示する図である。図１１に例示されるハードウエア構成は、撮像装置３５が備えられていない点で、図２に例示されるハードウエア構成と異なる。また、本実施形態のストレージデバイス１０４０は、位置検出部１３０の機能を実現するプログラムモジュールを記憶していない。その代わりに、本実施形態のストレージデバイス１０４０は、音声取得部１６０および発言者特定部１７０を実現するためのプログラムモジュールを更に記憶している。また、本実施形態のストレージデバイス１０４０に記憶される処理実行部１４０のプログラムモジュールは、上述した本実施形態の処理実行部１４０の機能を実現する。

【0064】

〔処理の流れ〕
図１２を用いて、本実施形態のビデオ会議システム１により実行される処理の流れについて説明する。図１２は、第５実施形態のビデオ会議システム１により実行される処理の流れを例示するフローチャートである。なお、ここでは、図３のＳ１０２からＳ１１４までの処理（メイン画像Ｍに基づく個人認証処理）が並行して実施されている。

【0065】

まず、処理実行部１４０は、並行して実行されるメイン画像Ｍに基づく個人認証処理で、未特定人物が検出されたか否かを判定する（Ｓ３０２）。未特定人物が検出されなかった場合（Ｓ３０２：ＮＯ）、以降の処理は実行されない。

【0066】

一方、未特定人物が検出された場合（Ｓ３０２：ＹＥＳ）、発言者特定部１７０は、音声取得部１６０により取得される音声データを用いて、その音声データに関する発言者を特定する処理を開始する（Ｓ３０４）。このＳ３０４の処理の具体的な流れは、図９のＳ３０４の処理と同様である。

【0067】

また、処理実行部１４０は、上述の音声データと同期して取得されたメイン画像Ｍを解析して、Ｓ３０４の処理で特定された発言者が未特定人物と一致するか否かを判定する（Ｓ３０６）。処理実行部１４０は、メイン画像Ｍの中で口の部分が動いている人物の領域に特定失敗情報が関連付けられているか否かに基づいて、発言者が未特定人物か否かを判定することができる。発言者が未特定人物である場合（Ｓ３０６：ＹＥＳ）、処理実行部１４０は、メイン画像Ｍの未特定人物の領域に、発言者として特定された参加人物の人物情報を関連付ける（Ｓ３０８）。この関連付けにより、メイン画像Ｍ上では、未特定人物を示す情報に代わって、その参加人物の人物情報が表示される。

【0068】

本実施形態では、サブ画像Ｓを生成する撮像装置３５を用いる代わりに、音声認証技術を用いて未特定人物が特定することができる。

【0069】

以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。

【0070】

また、上述の説明で用いた複数のフローチャートでは、複数の工程（処理）が順番に記載されているが、各実施形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態は、内容が相反しない範囲で組み合わせることができる。

【0071】

上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
１．
第１の撮像装置により生成された、会議の参加人物が写る画像を取得する画像取得手段と、
前記画像を解析して、前記画像に含まれる人物を特定する人物特定処理を実行する人物特定手段と、
前記人物特定処理で特定できなかった未特定人物の位置を検出する位置検出手段と、
検出された前記未特定人物の位置を用いて、前記未特定人物を特定するための所定処理を実行する処理実行手段と、
を備えるビデオ会議システム。
２．
前記処理実行手段は、移動型の撮像装置である第２の撮像装置の撮影位置または被写体を特定するための情報を前記未特定人物の位置に基づいて生成して出力する処理を前記所定処理として実行し、
前記画像取得手段は、前記第２の撮像装置により生成された追加画像を取得し、
前記人物特定手段は、前記第２の撮像装置により生成された追加画像を解析して前記未特定人物を特定する、
１．に記載のビデオ会議システム。
３．
前記第２の撮像装置は、自律移動可能なロボットに組み込まれており、
前記処理実行手段は、
前記未特定人物の位置に基づいて、前記第２の撮像装置の撮影位置を特定するための情報を生成し、
前記撮影位置を特定するための情報を前記ロボットに出力することにより、当該情報により特定される位置に前記ロボットを誘導して撮影を実行させる、
２．に記載のビデオ会議システム。
４．
前記第２の撮像装置は、前記会議の参加人物が所有する携帯型端末に組み込まれており、
前記処理実行手段は、
前記未特定人物の位置に基づいて、前記第２の撮像装置の被写体を特定するための情報を生成し、
前記被写体を特定するための情報を表示装置に出力する、
２．に記載のビデオ会議システム。
５．
前記人物特定手段によって特定された人物のリストを作成するリスト作成手段を更に備える、
１．から４．のいずれか１つに記載のビデオ会議システム。
６．
音声データを取得する音声取得手段と、
前記音声データまたは前記音声データと同期して取得された画像を解析することによって、前記音声データに関する発言者を特定する発言者特定手段と、
前記発言者の特定結果と前記音声データに基づいて生成されたテキストデータとを対応付けることにより、議事録データを生成する議事録作成手段と、を更に備える、
１．から５．のいずれか１つに記載のビデオ会議システム。
７．
コンピュータが、
第１の撮像装置により生成された、会議の参加人物が写る画像を取得し、
前記画像を解析して、前記画像に含まれる人物を特定する人物特定処理を実行し、
前記人物特定処理で特定できなかった未特定人物の位置を検出し、
検出された前記未特定人物の位置を用いて、前記未特定人物を特定するための所定処理を実行する、
ことを含むビデオ会議方法。
８．
前記コンピュータが、
移動型の撮像装置である第２の撮像装置の撮影位置または被写体を特定するための情報を前記未特定人物の位置に基づいて生成して出力する処理を前記所定処理として実行し、
前記第２の撮像装置により生成された追加画像を取得し、
前記第２の撮像装置により生成された追加画像を解析して前記未特定人物を特定する、
ことを含む７．に記載のビデオ会議方法。
９．
前記第２の撮像装置は、自律移動可能なロボットに組み込まれており、
前記コンピュータが、
前記未特定人物の位置に基づいて、前記第２の撮像装置の撮影位置を特定するための情報を生成し、
前記撮影位置を特定するための情報を前記ロボットに出力することにより、当該情報により特定される位置に前記ロボットを誘導して撮影を実行させる、
ことを含む８．に記載のビデオ会議方法。
１０．
前記第２の撮像装置は、前記会議の参加人物が所有する携帯型端末に組み込まれており、
前記コンピュータが、
前記未特定人物の位置に基づいて、前記第２の撮像装置の被写体を特定するための情報を生成し、
前記被写体を特定するための情報を表示装置に出力する、
ことを含む８．に記載のビデオ会議方法。
１１．
前記コンピュータが、
前記人物特定手段によって特定された人物のリストを作成する、
ことを含む７．から１０．のいずれか１つに記載のビデオ会議方法。
１２．
前記コンピュータが、
音声データを取得し、
前記音声データまたは前記音声データと同期して取得された画像を解析することによって、前記音声データに関する発言者を特定し、
前記発言者の特定結果と前記音声データに基づいて生成されたテキストデータとを対応付けることにより、議事録データを生成する、
ことを含む７．から１１．のいずれか１つに記載のビデオ会議方法。
１３．
コンピュータに、７．から１２．のいずれか１つに記載のビデオ会議方法を実行させるためのプログラム。

【符号の説明】

【0072】

１ビデオ会議システム
１０サーバ装置
１０１０バス
１０２０プロセッサ
１０３０メモリ
１０４０ストレージデバイス
１０５０入出力インタフェース
１０６０ネットワークインタフェース
１１０画像取得部
１２０人物特定部
１３０位置検出部
１４０処理実行部
１５０リスト作成部
１６０音声取得部
１７０発言者特定部
１８０議事録作成部
２０通信端末
３０撮像装置
３０第１の撮像装置
３５撮像装置
４０表示装置
５０集音装置
６０ロボット
７０携帯型端末

【図1】