(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024014888
(43)【公開日】2024-02-01
(54)【発明の名称】情報処理装置、情報処理プログラム、情報処理システム、情報処理方法
(51)【国際特許分類】
H04N 7/15 20060101AFI20240125BHJP
H04N 21/431 20110101ALI20240125BHJP
H04L 51/10 20220101ALI20240125BHJP
G06F 3/04842 20220101ALI20240125BHJP
【FI】
H04N7/15
H04N21/431
H04L51/10
G06F3/04842
【審査請求】有
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2023188134
(22)【出願日】2023-11-02
(62)【分割の表示】P 2019140261の分割
【原出願日】2019-07-30
(71)【出願人】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】桑田 耕司
(57)【要約】
【課題】発話者が重視すべき相手を通知することを目的とする。
【解決手段】検知対象の表情を示す設定内容を受け付ける全体処理部と、前記設定内容を他の情報処理装置に通知するネットワーク処理部と、を有し、前記全体処理部は、前記他の情報処理装置が取得した画像データから前記検知対象の表情が検知されたことを示す通知を受けて、前記通知を表示部に出力する。
【選択図】
図6
【特許請求の範囲】
【請求項1】
検知対象の表情を示す設定内容を受け付ける全体処理部と、
前記設定内容を他の情報処理装置に通知するネットワーク処理部と、を有し、
前記全体処理部は、
前記他の情報処理装置が取得した画像データから前記検知対象の表情が検知されたことを示す通知を受けて、前記通知を表示部に出力する、情報処理装置。
【請求項2】
撮像部から取得した画像データから認識された顔画像の表情を推定する表情推定部を有し、
前記全体処理部は、
前記他の情報処理装置から前記設定内容を受け付け、前記表情推定部により推定された表情が、前記検知対象の表情であると推定された場合に、前記他の情報処理装置に、前記検知対象の表情を検知したことを通知する、請求項1記載の情報処理装置。
【請求項3】
前記通知は、
前記他の情報処理装置の表示部に、前記検知対象の表情を検知したことを示すメッセージとして表示される、請求項2記載の情報処理装置。
【請求項4】
前記全体処理部は、
前記他の情報処理装置から、前記検知対象の表情が検知されたことを示す通知を受けたとき、前記他の情報処理装置から受信した画像データが表示部に表示されていない場合に、前記他の情報処理装置から受信した画像データを前記表示部に表示させる、請求項1乃至3の何れか一項に記載の情報処理装置。
【請求項5】
前記全体処理部は、
前記検知対象の表情が検知されたことを示す通知を送信した前記他の情報処理装置から受信した画像データを、前記表示部に表示される他の画像データの領域よりも大きい領域に表示させる、請求項4記載の情報処理装置。
【請求項6】
前記設定内容は、検出対象の動作を含み、
撮像部から取得した画像データから認識された人物の動作を検出する動作検出部を有する、請求項1乃至5の何れか一項に記載の情報処理装置。
【請求項7】
前記設定内容は、前記検知対象の表情と前記検出対象の動作と、に対して付与された優先順位を含み、
前記全体処理部は、
前記他の情報処理装置から受信した画像データから検出された設定内容に付与された優先順位に応じて、前記表示部に表示される前記画像データを表示させる、請求項6記載の情報処理装置。
【請求項8】
検知対象の表情を示す設定内容を受け付け、
前記設定内容を他の情報処理装置に通知し、
前記他の情報処理装置が取得した画像データから前記検知対象の表情が検知されたことを示す通知を受けて、前記通知を表示部に出力する処理と、情報処理装置に実行させる情報処理プログラム。
【請求項9】
複数の情報処理装置と、サーバ装置とを有する情報処理システムであって、
検知対象の表情を示す設定内容を受け付ける全体処理部と、
前記設定内容を他の情報処理装置に通知するネットワーク処理部と、を有し、
前記全体処理部は、
前記他の情報処理装置が取得した画像データから前記検知対象の表情が検知されたことを示す通知を受けて、前記通知を表示部に出力する、情報処理システム。
【請求項10】
情報処理装置による情報処理方法であって、前記情報処理装置が、
検知対象の表情を示す設定内容を受け付け、
前記設定内容を他の情報処理装置に通知し、
前記他の情報処理装置が取得した画像データから前記検知対象の表情が検知されたことを示す通知を受けて、前記通知を表示部に出力する、情報処理方法。
【請求項11】
複数の情報処理装置と、サーバ装置とを有する情報処理システムによる情報処理方法であって、前記情報処理システムが、
検知対象の表情を示す設定内容を受け付ける全体処理部と、
前記設定内容を他の情報処理装置に通知するネットワーク処理部と、を有し、
前記全体処理部は、
前記他の情報処理装置が取得した画像データから前記検知対象の表情が検知されたことを示す通知を受けて、前記通知を表示部に出力する、情報処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理プログラム、情報処理システム、情報処理方法に関する。
【背景技術】
【0002】
従来から、互いに離れた複数の地点の間で遠隔会議を行うための会議システムが知られている。この会議システムでは、例えば、参加者の映像データから発話欲求があると想定される所定の動作を検出すると、会議映像に参加者の発話欲求レベルを示す情報を設定する技術が知られている。
【発明の概要】
【発明が解決しようとする課題】
【0003】
上述した従来の技術では、例えば、発話者の話の内容が理解できていない参加者や、話の内容に興味を示していない参加者等のように、発話者が重視すべき相手を見つけることができない。
【0004】
開示の技術は、発話者が重視すべき相手を通知することを目的とする。
【課題を解決するための手段】
【0005】
開示の技術は、検知対象の表情を示す設定内容を受け付ける全体処理部と、前記設定内容を他の情報処理装置に通知するネットワーク処理部と、を有し、前記全体処理部は、前記他の情報処理装置が取得した画像データから前記検知対象の表情が検知されたことを示す通知を受けて、前記通知を表示部に出力する。
【発明の効果】
【0006】
発話者が重視すべき相手を通知することができる。
【図面の簡単な説明】
【0007】
【
図1】第一の実施形態の情報処理システムのシステム構成の一例を示す図である。
【
図2】第一の実施形態のサーバのハードウェア構成の一例を示す図である。
【
図3】通信端末のハードウェア構成の一例を示す図である。
【
図4】第一の実施形態の通信端末の機能を説明する図である。
【
図5】第一の実施形態の通信端末の動作を説明するフローチャートである。
【
図6】第一の実施形態の通信端末の表示レイアウトの一例を示す図である。
【
図7】第一の実施形態の通信端末の表示レイアウトの他の例を示す図である。
【
図8】電子黒板のハードウェア構成について説明する図である。
【
図9】スマートフォンのハードウェア構成の一例を示す図である。
【
図10】第二の実施形態の情報処理システムのシステム構成を説明する図である。
【発明を実施するための形態】
【0008】
(第一の実施形態)
以下に、図面を参照して第一の実施形態について説明する。
図1は、第一の実施形態の情報処理システムのシステム構成の一例を示す図である。
【0009】
本実施形態の情報処理システム100は、サーバ200と、複数の通信端末300-1、300-2、・・・、300-Nを含む。情報処理システム100において、サーバ200と、通信端末300-1、300-2、・・・、300-Nとは、インターネット、イントラネット、LAN(Local Area Network)等のネットワークNを介して接続される。以下の説明では、通信端末300-1、300-2、・・・、300-Nを区別しない場合には、通信端末300と呼ぶ。本実施形態の通信端末300は、CPU(Central Processing Unit)とメモリとを有する情報処理装置の一例である。
【0010】
本実施形態の情報処理システム100では、これら複数の装置により、複数の拠点間でいわゆるビデオ会議を行う。
【0011】
本実施形態のサーバ200は、通信端末300によるビデオ会議に関する各種制御を行う。例えば、サーバ200は、ビデオ会議の開始時においては、各通信端末300とサーバ200との通信接続状態の監視、各通信端末300に対する呼び出し等を行う。また、サーバ200は、ビデオ会議中においては、複数の通信端末300の間における各種データ(例えば、映像データ、音声データ、描画データ等)の転送処理等を行う。
【0012】
本実施形態の通信端末300は、映像処理装置、撮像装置の一例である。通信端末300は、ビデオ会議が行われる各拠点に設置され、ビデオ会議の参加者によって使用される。例えば、通信端末300は、ビデオ会議において入力された各種データ(例えば、映像データ、音声データ、描画データ等)を、ネットワークN及びサーバ200を介して、他の通信端末300へ送信する。
【0013】
また、例えば、通信端末300は、他の通信端末300から受信した各種データを、データの種類に応じた出力方法(例えば、表示、音声出力等)によって出力することにより、ビデオ会議の参加者へ呈示する。
【0014】
また、本実施形態の通信端末300-1、300-2、・・・、300-Nのそれぞれは、本実施形態の主要な処理を実現する機能部として、映像解析部310-1、310-2、・・・、310-N、映像生成部320-1、320-2、・・・、320-Nを有する。
【0015】
本実施形態の映像解析部310-1、310-2、・・・、310-Nは、それぞれが同様の機能を実現するものである。以下の説明では、映像解析部310-1、310-2、・・・、310-Nを区別しない場合には、映像解析部310と呼ぶ。また、本実施形態の映像生成部320-1、320-2、・・・、320-Nは、それぞれが同様の機能を実現するものである。以下の説明では、映像生成部320-1、320-2、・・・、320-Nを区別しない場合には、映像生成部320と呼ぶ。
【0016】
本実施形態の通信端末300において、映像解析部310は、複数の通信端末300のそれぞれが撮像部から取得した画像データを解析し、画像データから認識される人物の顔画像から人物の表情を推定する。画像データから認識される人物とは、通信端末300が設置された拠点における会議の参加者である。
【0017】
また、映像解析部310は、他の通信端末300から、特定の表情の検知の要求を受け付ける。ここでは、他の通信端末300とは、参加者が発話している拠点に設置された通信端末300である。以下の説明では、参加者が発話している拠点に設置された通信端末300を発話者端末300と呼ぶ場合がある。
【0018】
そして、映像解析部310は、画像データから特定の表情が推定されると、撮像部が取得した画像データと共に、特定の表情が推定されたことを示す情報を発話者端末300に送信する。本実施形態の特定の表情とは、例えば、不安そうな表情、無関心な表情、眠そうな表情等であっても良い。
【0019】
本実施形態の映像生成部320は、自機が発話者端末300である場合、他の通信端末300から、特定の表情が推定されたことを示す情報と共に画像データを受信すると、この画像データと、画像データの送信元の拠点の参加者の表情を通知する情報とを含む画像データを生成し、表示部に表示させる。
【0020】
このように、本実施形態の通信端末300は、自機が発話者端末300でない場合には、参加者の表情を推定し、発話者端末300から検知の要求があった表情が推定された場合に、推定結果を発話者端末300へ送信する。
【0021】
また、本実施形態の通信端末300は、自機が発話者端末300である場合には、他の通信端末300から、参加者から特定の表情が推定されたことを示す通知を受けて、この参加者の画像データと、特定の表情であることを示す通知と、出力する。
【0022】
したがって、本実施形態によれば、例えば、話者の話の内容が理解できずに困っている参加者や、話の内容に興味を持ってもらいたい参加者等のように、発話者が重視すべき聞き手を見つけ、発話者に通知することができる。また、本実施形態では、発話者が重視すべき聞き手を画面に表示させることで、この聞き手の様子を発話者に把握させることができる。
【0023】
以下に、本実施形態の情報処理システム100の有する各装置のハードウェア構成について説明する。
【0024】
図2は、第一の実施形態のサーバのハードウェア構成の一例を示す図である。本実施形態のサーバ200は、コンピュータによって構築されており、CPU231、ROM232、RAM233、HD234、HDD(Hard Disk Drive)コントローラ235、ディスプレイ236、外部機器接続I/F(Interface)238、ネットワークI/F239、データバスB、キーボード241、ポインティングデバイス242、DVD-RW(Digital Versatile Disk Rewritable)ドライブ244、メディアI/F246を備えている。
【0025】
これらのうち、CPU231は、サーバ5全体の動作を制御する。ROM232は、IPL(Initial Program Loader)等のCPU231の駆動に用いられるプログラムを記憶する。RAM233は、CPU231のワークエリアとして使用される。HD234は、プログラム等の各種データを記憶する。HDDコントローラ235は、CPU231の制御にしたがってHD234に対する各種データの読み出し又は書き込みを制御する。ディスプレイ236は、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する。
【0026】
外部機器接続I/F238は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、USB(Universal Serial Bus)メモリやプリンタ等である。ネットワークI/F239は、ネットワークNを利用してデータ通信をするためのインターフェースである。バスラインBは、
図3に示されているCPU231等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
【0027】
また、キーボード241は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス242は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。DVD-RWドライブ244は、着脱可能な記録媒体の一例としてのDVD-RW243に対する各種データの読み出し又は書き込みを制御する。尚、DVD-RWに限らず、DVD-R等であってもよい。メディアI/F246は、フラッシュメモリ等の記録メディア245に対するデータの読み出し又は書き込み(記憶)を制御する。
【0028】
図3は、通信端末のハードウェア構成の一例を示す図である。
図3では、通信端末300をビデオ会議端末の一例とした場合の通信端末300のハードウェア構成を示している。
【0029】
尚、ビデオ会議端末7は、通信端末300の一例であり、通信端末300は、ビデオ会議端末7に限定されない。通信端末300の他の例は、後述する。
【0030】
ビデオ会議端末7は、CPU701、ROM702、RAM703、フラッシュメモリ704、SSD705、メディアI/F707、操作ボタン708、電源スイッチ709、バスライン710、ネットワークI/F711、CMOS(Complementary Metal Oxide Semiconductor)センサ712、撮像素子I/F713、マイク714、スピーカ715、音入出力I/F716、ディスプレイI/F717、外部機器接続I/F(Interface)718、近距離通信回路719、近距離通信回路719のアンテナ719aを備えている。
【0031】
これらのうち、CPU701は、ビデオ会議端末7全体の動作を制御する。ROM702は、IPL等のCPU701の駆動に用いられるプログラムを記憶する。RAM703は、CPU701のワークエリアとして使用される。フラッシュメモリ704は、通信用プログラム、画像データ、及び音データ等の各種データを記憶する。尚、フラッシュメモリ704はSSD705の内部に搭載されたフラッシュメモリであってもよい。
【0032】
SSD705は、CPU701の制御にしたがってフラッシュメモリ704に対する各種データの読み出し又は書き込みを制御する。尚、SSDに代えてHDDを用いてもよい。メディアI/F707は、フラッシュメモリ等の記録メディア706に対するデータの読み出し又は書き込み(記憶)を制御する。操作ボタン708は、ビデオ会議端末7の宛先を選択する場合などに操作されるボタンである。電源スイッチ709は、ビデオ会議端末7の電源のON/OFFを切り換えるためのスイッチである。
【0033】
また、ネットワークI/F711は、インターネット等のネットワークNを利用してデータ通信をするためのインターフェースである。CMOSセンサ712は、CPU701の制御に従って被写体を撮像して画像データを得る内蔵型の撮像手段の一種である。尚、CMOSセンサではなく、CCD(Charge Coupled Device)センサ等の撮像手段であってもよい。
【0034】
撮像素子I/F713は、CMOSセンサ712の駆動を制御する回路である。マイク714は、音を電気信号に変える内蔵型の回路である。スピーカ715は、電気信号を物理振動に変えて音楽や音声などの音を生み出す内蔵型の回路である。音入出力I/F716は、CPU701の制御に従ってマイク714及びスピーカ715との間で音信号の入出力を処理する回路である。
【0035】
ディスプレイI/F717は、CPU701の制御に従って外付けのディスプレイに画像データを送信する回路である。外部機器接続I/F718は、各種の外部機器を接続するためのインターフェースである。近距離通信回路719は、NFC(Near Field Communication)やBluetooth(登録商標)等の通信回路である。
【0036】
また、バスライン710は、
図3に示されているCPU701等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
【0037】
ディスプレイI/F717と接続されるディスプレイは、被写体の画像や操作用アイコン等を表示する液晶や有機EL(Electro Luminescence)等によって構成された表示手段の一種である。また、ディスプレイは、ケーブルによってディスプレイI/F717と接続される。このケーブルは、アナログRGB(VGA)信号用のケーブルであってもよいし、コンポーネントビデオ用のケーブルであってもよいし、HDMI(High-Definition Multimedia Interface)(登録商標)やDVI(Digital Video Interactive)信号用のケーブルであってもよい。
【0038】
尚、CMOS(Complementary Metal Oxide Semiconductor)センサ712は、CPU701の制御に従って被写体を撮像して画像データを得る内蔵型の撮像手段の一種である。尚、CMOSセンサではなく、CCD(Charge Coupled Device)センサ等の撮像手段であってもよい。外部機器接続I/F718には、USBケーブル等によって、外付けカメラ、外付けマイク、及び外付けスピーカ等の外部機器がそれぞれ接続可能である。
【0039】
外付けカメラが接続された場合には、CPU701の制御に従って、内蔵型のCMOSセンサ712に優先して、外付けカメラが駆動する。同じく、外付けマイクが接続された場合や、外付けスピーカが接続された場合には、CPU701の制御に従って、それぞれが内蔵型のマイク714や内蔵型のスピーカ715に優先して、外付けマイクや外付けスピーカが駆動する。
【0040】
また、記録メディア706は、ビデオ会議端末7に対して着脱自在な構成となっている。また、CPU701の制御にしたがってデータの読み出し又は書き込みを行う不揮発性メモリであれば、フラッシュメモリ704に限らず、EEPROM等を用いてもよい。
【0041】
次に、
図4を参照して、本実施形態の通信端末300の機能について説明する。
図4は、第一の実施形態の通信端末の機能を説明する図である。
【0042】
本実施形態の通信端末300は、映像解析部310、映像生成部320、映像編集部330、音声処理部340、全体処理部350、撮像部361、集音部362、音声出力部
363、ネットワーク処理部364、コーデック部365、操作部366、録画部367を有する。上述した各部は、CPU701が、ROM702等に格納されたプログラムを読み出して実行することで、実現される。また、本実施形態の通信端末300は、記憶部368を有する。記憶部368は、例えば、RAM等に設けられた記憶領域である。
【0043】
映像解析部310は、画像データに含まれる顔画像の認識や、表情の推定を行う。映像解析部310の詳細は後述する。
【0044】
尚、本実施形態の画像は静止画と動画を含み、本実施形態の画像データは静止画データと動画データを含む。本実施形態では、情報処理システム100において、ビデオ会議中に撮像部361で撮像される画像データは、動画データとする。また、以下の説明では、動画データと音声データとを同期させたデータを映像データと呼ぶ場合がある。
【0045】
映像生成部320は、映像解析部310の処理結果に応じた画像データを生成する。映像編集部330は、ビデオ会議に参加している他の拠点に設置された他の通信端末300から転送されてくる映像データを、ネットワーク処理部364を介して取り込み、映像生成部320で生成された画像データと合成して表示部370に表示させる。
【0046】
表示部370は、例えば、通信端末300と接続されるモニタ装置等であって良い。また、表示部370は、通信端末300に含まれていても良い。
【0047】
音声処理部340は、ネットワーク処理部364を介して受信した音声データを取得すると、コーデック処理、ノイズキャンセル等、音声データ処理では一般的とされている処理を行い、音声出力部363に転送する。また、音声処理部340は、集音部362に回り込んで入力される音声データに対してエコーキャンセル(EC)処理を行う。
【0048】
また、本実施形態の音声処理部340は、話者追従検知部341を有する。話者追従検知部341は、集音部362が集音した音声データと、映像解析部310によって検知された人物の顔画像と、に基づき、話者を検知し、追従する。本実施形態の話者追従検知部341は、話者を追従している間は、ネットワーク処理部364を介して、発話者を特定する情報を他の拠点の通信端末300へ送信しても良い。
【0049】
全体処理部350は、通信端末300全体の制御を司る。また、全体処理部350は、会議の参加者等の指示に従って各ジュールやブロックのモード設定やステータス管理を行う。
【0050】
具体的には、全体処理部350は、例えば、集音部362から音声処理部340に音声データが入力された場合には、自機が発話者端末300となったものとする。
【0051】
また、全体処理部350は、例えば、自機が発話者端末300となった場合に、他の通信端末300において、検知を要求する参加者の表情の設定等を受け付ける、そして、全体処理部350は、自機が発話者端末300となった場合に、設定された表情の検知を他の通信端末300に要求する。
【0052】
また、本実施形態の全体処理部350は、表示部370の表示に関わるにレイアウト設定や指示を映像生成部320に対して行い、画面レイアウト制御の状況に合わせて、他の通信端末300に送信するメッセージの生成や選択を行う。
【0053】
具体的には、全体処理部350は、他の通信端末300から、要求した表情が検知されたことを示す通知を受けると、この通知の送信元から送信される画像データと、この通知とが表示部370に表示されるように、レイアウトを制御する。
【0054】
撮像部361は、カメラモジュールであり、CMOSセンサ712、撮像素子I/F等によって撮像された画像の画像データを取得する。撮像部361は、会議シーンの画像データ(動画データ)の入力を行う。撮像部361は、例えば、レンズ、及びレンズを介して集光された映像を電気信号に変換するイメージセンサ、イメージセンサから転送されたRAWデータに対して、DSP(digital signal processor)により、既知となっている各種の処理を加えて、YUVデータを生成する。
【0055】
集音部362は、マイクに入力された音声の音声データを取得する。集音部362は、会議における発話者の音声データを集音すると、集音した音声データをデジタルデータに変換して音声処理部340へ転送する。尚、集音部362は、複数のマイクをアレイ形式から集音する形態としても良い。
【0056】
音声出力部363は、他の拠点に設置された他の通信端末300から受信した音声データを、アナログ信号に変換して、スピーカに出力する。
【0057】
ネットワーク処理部364は、送信する画像データについては、コーデック部365から転送されてきた符号化データを、ネットワークを介して送信先の通信端末300に転送する。
【0058】
また、ネットワーク処理部364は、他の通信端末300から転送される符号化データについては、ネットワークを介して符号化データを取得し、その符号データをコーデック部365に転送する。尚、ネットワーク処理部364は、符号化パラメータ(QP値等)を決めるために、ネットワークの帯域を監視する機能を有しても良い。また、通信端末300は、符号化パラメータや送信モードの設定を最適化するために、他の通信端末300の機能や性能に関する情報を入力する機能が設けられていても良い。
【0059】
コーデック部365は、送受信される画像データのエンコード/デコード処理を行うためのコーデック回路又はソフトウェアによって実現される。
【0060】
コーデック部365は、送信する画像データについては、映像解析部310から入力された画像データに対して符号化処理を行い、符号化された画像データをネットワーク処理部364に転送する。また、コーデック部365は、受信する画像データについては、他の通信端末300から、ネットワーク処理部364を経由して符号化された画像データを受信し、符号化された画像データに対して復号処理して、映像生成部320に転送する。
【0061】
操作部366は、会議の参加者等による、パン/チルト操作を受け付ける。また、操作部366は、各種の設定や会議の参加者の呼び出し等のオペレーション操作が行われる。
【0062】
録画部367は、映像生成部320、音声処理部340から、会議中の音声データや映像データを取得し、会議シーンの映像を録画する。本実施形態では、音声処理部340、映像生成部320に録画データを出力し、会議シーンを再生することができる。
【0063】
記憶部368は、例えば、RAM等で実現されるものであり、映像解析部310の処理結果が一時される。
【0064】
次に、本実施形態の映像解析部310についてさらに説明する。本実施形態の映像解析部310は、顔検知部311、動作検出部312、表情推定部313、判定部314を有する。
【0065】
本実施形態の顔検知部311は、撮像部361が撮像した画像データ(動画データ)から、人物の顔を検知する。また、顔検知部311は、人物の顔が検知された領域の位置を示す情報を動作検出部312へ提供する。
【0066】
動作検出部312は、顔検知部311から提供された位置情報に基づき、人物の画像データを取得して、動きを分析する。具体的には、動作検出部312は、挙手をしている、頷いている、モニタ(表示部370)を見ている又は見ていない、寝ている、等の動きを検出し、検出結果を記憶部368に格納する。
【0067】
表情推定部313は、取得した画像データに基づき、人物の表情を推定し、推定結果を記憶部368へ格納する。具体的には、表情推定部313は、例えば、人物の顔画像の変化から、喜び・驚き・怒り・悲しみ・不安等の表情を推定しても良い。
【0068】
判定部314は、記憶部368を参照し、表情推定部313による推定結果や、動作検出部312による検知結果が、発話者端末300から要求された表情であるか否かを判定し、判定結果を全体処理部350へ通知する。
【0069】
具体的には、例えば、発話者端末300から要求された表情が「不安」であった場合、判定部314は、表情推定部313によって推定された表情が「不安」であるか否かを判定する。そして、判定部314は、推定された表情が「不安」であった場合には、要求された表情が検知されたことを全体処理部350へ通知する。
【0070】
次に、
図5を参照して、本実施形態の通信端末300の動作について説明する。
図5は、第一の実施形態の通信端末の動作を説明するフローチャートである。
【0071】
本実施形態の通信端末300は、全体処理部350により、起動時に各モジュールの初期設定を行い、撮像部361での撮影が可能な状態とする(ステップS501)。
【0072】
続いて、通信端末300は、遠隔会議に参加している参加者の情報を取得する(ステップS502)。
【0073】
具体的には、通信端末300は、顔認証機能を有していても良い。この場合、通信端末300は、他の拠点に設置された通信端末300から、参加者の顔画像に参加者名が付与された画像データを取得しても良い。
【0074】
また、本実施形態では、サーバ200において、遠隔会議の参加者の顔認証を行い、サーバ200が各拠点の通信端末300に参加者の顔画像に参加者名が付与された画像データを配信しても良い。
【0075】
さらに、通信端末300やサーバ200に顔認証機能が備えられていない場合には、各拠点において、遠隔会議の参加者が自身の氏名を参加者情報として入力し、他の拠点の通信端末300へ送信しても良い。
【0076】
続いて、通信端末300は、遠隔会議を開始させ、タイマを初期化してカウントを開始させる(ステップS503)。尚、タイマのカウント値は、表示部370の画面レイアウトが更新(変更)されてからの時間を示す。また、例えば、タイマは、全体処理部350の機能の一部として有していても良い。
【0077】
続いて、通信端末300は、表示部370の表示に関する設定の変更を行うか否を判定する(ステップS504)。尚、遠隔会議の開始直後の表示部370の表示レイアウトは、デフォルトの設定のままか、又は、最後に設定された表示レイアウトが維持されているものとする。
【0078】
ステップS504において、設定の変更を行わない場合、通信端末300は、後述するステップS507へ進む。
【0079】
ステップS504において、表示部370の表示レイアウトに関する設定内容の変更を行う場合、通信端末300は、操作部366により、設定内容の変更を受け付ける画面を表示させ、全体処理部350により、受け付けた設定を行う(ステップS505)。
【0080】
本実施形態の表示レイアウトに関する設定内容には、検知すべき表情(検知対象の表情)や、検知すべき動作を示す情報を含む。
【0081】
また、設定内容は、表示部370に画面を表示する拠点の数や、拠点毎の画像の大きさ(画素数)、拠点毎の画像のレイアウトの指定を示す情報を含む。また、設定内容は、拠点毎に付与する優先順位の付与の仕方を示す情報を含む。
【0082】
具体的には、例えば、設定内容は、以下の例が考えられる。
例1)参加者が発言中である拠点の優先順位を最も高くし、その前に発言した参加者がいる拠点の優先順位を、その次とするように、過去の参加者の発言順に応じて拠点に優先順位を付与する。
例2)参加者が発言中である拠点の優先順位を最も高くし、次に、発言時間の累計順に優先順位を付与する。
例3)映像解析部310の表情推定部313によって、参加者の表情が「不安」と推定された拠点を抽出し、優先順位を付与する。この場合には、例えば、拠点毎に、参加者の表情が「不安」と推定される頻度をログ情報として記憶部368に保持しておき、この頻度が高い拠点から順に優先順位を付与する。
例4)参加者が発言中である拠点の優先順位を最も高くし、参加者の表情が「不安」と推定された拠点に対し、次に高い優先順位を付与する。
【0083】
尚、表示レイアウトに関する設定内容は、上述した例に限定されず、拠点毎に通信端末300の利用者(参加者)によって、任意に設定されて良い。
【0084】
続いて、通信端末300は、ネットワーク処理部364を介して、設定内容を各拠点の他の通信端末300に通知し、タイマを再び初期化してカウントを開始させる(ステップS506)。
【0085】
通信端末300において、例えば、表示レイアウトに関する設定内容が、例1に示す内容であったとする。この場合、他の通信端末300は、自機の判定部314により記憶部368を参照し、動作検出部312の検出結果が「発話」であるか否かを判定する。
【0086】
そして、他の通信端末300は、動作検出部312の検出結果が「発話」である場合、参加者の画像データと共に、「発話」を検出したことを示す情報を通信端末300へ送信する。
【0087】
また、通信端末300において、例えば、表示レイアウトに関する設定内容として、例3の設定がなされたとする。この場合、通信端末300は、他の拠点に設置された他の通信端末300に対し、参加者の「不安」という表情を検知すべき情報として通知する。
【0088】
この通知を受けた他の通信端末300は、自機の判定部314により記憶部368を参照し、表情推定部313の推定結果が「不安」であるか否かを判定する。
【0089】
そして、他の通信端末300は、推定結果が「不安」である場合に、参加者の画像データと共に、「不安」という表情を検知したことを示す情報を通信端末300へ送信する。
【0090】
続いて、通信端末300は、タイマのカウント値から、時間Tmが経過したか否かを判定する(ステップS507)。ステップS507において、時間Tmが経過していない場合、通信端末300は、後述するステップS513へ進む。
【0091】
ステップS507において、時間Tmが経過した場合、通信端末300は、レイアウトを変更するか否かを判定する(ステップS508)。
【0092】
ステップS508において、レイアウトを変更すると判定された場合、通信端末300は、表示部370の表示レイアウトを設定に従って変更し(ステップS509)、後述するステップS512へ進む。
【0093】
以下に、ステップS508とステップS509の処理について説明する。
【0094】
本実施形態の通信端末300は、ステップS508において、各拠点において、検知すべき情報が検知されたか否かを判定している。
【0095】
例えば、表示レイアウトに関する設定内容として、例1の設定がなされた場合、通信端末300は、各拠点から、画像データと共に「発話」という動作が検知されたことを示す情報を受信したか否かを判定する。
【0096】
具体的には、通信端末300は、全体処理部350により、所定時間の間に「発話」という動作が所定回数以上検知された拠点に対して、この拠点の参加者は「発話」中であると判定する。そして、全体処理部350は、参加者が「発話」中であると判定された拠点に対して最も高い優先順位を付与し、この拠点から送信される画像データが最も大きく表示されるように、表示部370の表示レイアウトを変更する。
【0097】
また、例えば、表示レイアウトに関する設定内容として、例4の設定がなされた場合、通信端末300は、画像データと共に「発話」という動作が検知されたことを示す情報を送信した拠点の有無と、画像データと共に「不安」な表情が検知されたことを示す情報を送信した拠点の有無とを判定する。
【0098】
具体的には、通信端末300は、所定時間の間に「発話」という動作が所定回数以上検知された拠点に対して、この拠点の参加者は「発話」中であると判定する。
【0099】
また、通信端末300は、所定時間の間に「不安」な表情が所定回数以上検知された拠点に対して、この拠点の参加者は「不安」な表情をしていると判定する。
【0100】
通信端末300は、参加者が発話中である拠点と、参加者が不安な表情である拠点とが有る場合に、参加者が発話中である拠点に対して、最も高い優先順位を付与し、参加者が不安な表情である拠点に対して、2番目に高い優先順位を付与する。
【0101】
そして、通信端末300は、優先順位が高い拠点から順に、送信される画像データが大きく表示されるように、表示部370の表示レイアウトを変更する。
【0102】
尚、通信端末300は、例えば、全体処理部350により、表示レイアウトに対応したメッセージを、優先順位が付与された拠点の通信端末300に送信しても良い。
【0103】
ステップS508において、レイアウトを変更しない判定された場合、通信端末300は、表示部370の表示レイアウトがデフォルトの状態であるいか否かを判定する(ステップS510)。
【0104】
ステップS510において、表示レイアウトがデフォルトの状態である場合、通信端末300は、後述するステップS513へ進む。ステップS510において、表示レイアウトがデフォルトの状態でない場合、通信端末300は、表示レイアウトをデフォルトの状態に戻す(ステップS511)。
【0105】
続いて、通信端末300は、タイマをリセットし、再度カウントを開始させる(ステップS512)。続いて、通信端末300は、遠隔会議が継続されているか否かを判定する(ステップS513)。具体的には、通信端末300は、遠隔会議の終了指示を受け付けたか否かを判定している。
【0106】
ステップS513において、遠隔会議が継続している場合、通信端末300は、ステップS504へ戻る。ステップS513において、遠隔会議が終了する場合、通信端末300は、処理を終了する。
【0107】
以上のように、本実施形態では、参加者の表情を含む設定内容に応じて、表示部のレイアウトを変更することができる。また、本実施形態では、タイマを設定して時間Tmをカウントすることで、各拠点での参加者の挙動に応じて表示レイアウトが頻繁に変更され、参加者に不快感を与えることを抑制している。
【0108】
次に、
図6を参照して、本実施形態の通信端末300の表示レイアウトについて説明する。
図6は、第一の実施形態の通信端末の表示レイアウトの一例を示す図である。
【0109】
図6の例では、拠点A~Dのそれぞれに、通信端末300-A、300-B、300-C、300-Dが設定されて、遠隔会議が開催されている。
【0110】
また、
図6の例では、拠点Aの参加者が発話者であり、これまでの発話時間の累計は、拠点Aの参加者、拠点Cの参加者、拠点Bの参加者、拠点Dの参加者である。
【0111】
そして、
図6の例では、拠点Aの通信端末300-Aでは、表示レイアウトに関する設定として、参加者の表情が「不安」と推定された拠点の優先順位を最も高くし、且つ、2拠点の画像を表示させる設定がされていたとする。
【0112】
そして、拠点B、C、Dでは、表示レイアウトに関する設定として、参加者が発話中の拠点の優先順位を最も高くし、且つ、2拠点の画像を表示させる設定がされていたとする。
【0113】
この場合、拠点Aの通信端末300-Aは、拠点B~Dの通信端末300-B、300-C、300-Dに対し、参加者の表情が「不安」であることを検知したことを通知するように要求する。
【0114】
そして、拠点Aの通信端末300-Aは、拠点Dの通信端末300-Dから、画像データと共に、参加者の「不安」な表情を検知したことを示す情報を、所定時間内に所定回数以上受信すると、表示部370Aの表示レイアウトを
図6に示すように変更する。
【0115】
具体的には、通信端末300-Aは、表示部370Aに、拠点Dの参加者の画像371を表示させる。
【0116】
また、拠点B、C、Dの通信端末300は、他の拠点の通信端末300に対し、参加者の「発話」を検知したことを通知するように要求する。したがって、拠点B、C、Dの通信端末300には、拠点Aの参加者に画像が表示され、次に、発話時間の累積が大きい拠点の画像が優先的に表示される。
【0117】
このように、本実施形態では、遠隔会議において、発言をしていなかったり、発言欲求をしていない参加者であっても、その参加者の画像を優先的に表示部370に表示させることができる。
【0118】
言い換えれば、本実施形態では、遠隔会議において、積極的に会話に参加できていない参加者や、話の内容を理解できていない様子の参加者を、参加者の表情から検知し、話者に通知することができる。
【0119】
図7は、第一の実施形態の通信端末の表示レイアウトの他の例を示す図である。
図7の例では、拠点Aの参加者が発話中であるものとする。また、
図7の例では、通信端末300-Aでは、表示レイアウトに関する設定として、発言時間の累計順に優先順位を付与し、且つ、参加者の表情が「不安」と検知された拠点が存在する場合には、その拠点を通知する設定がされていた場合を示している。
【0120】
この場合、拠点Aの表示部370Aでは、発言時間の累積が最も多い順に、拠点Bの参加者の画像と拠点Cの参加者の画像とが表示される。また、表示部370Aでは、拠点邸Dにおいて、参加者の表情が「不安」と推定されたことを示すメッセージ372Aが表示される。
【0121】
本実施形態では、このように、参加者の表情が「不安」と推定された拠点の存在を、発話中の拠点Aの参加者に通知することができる。これにより、例えば、拠点Aの参加者は、拠点Dの参加者に対して、質問の有無や、話の内容に対する意見の有無等を訪ねる、といった声かけを行うことができ、会議を活性化できる。
【0122】
尚、本実施形態では、通信端末300をビデオ会議端末7として説明したが、これに限定されない。通信端末300は、例えば、電子黒板等であっても良いし、スマートフォン等であっても良い。
【0123】
通信端末300が、電子黒板(Interactive White Board:相互通信が可能な電子式の黒板機能を有する白板)やスマートフォンである場合には、通信端末300に表示部370(
図4参照)が含まれるようになる。
【0124】
以下に、通信端末300の一例である電子黒板のハードウェア構成について説明する。
図8は、電子黒板のハードウェア構成について説明する図である。
【0125】
電子黒板2は、CPU(Central Processing Unit)201、ROM(Read Only Memory)202、RAM(Random Access Memory)203、SSD(Solid State Drive)204、ネットワークI/F205、及び、外部機器接続I/F(Interface)206を備えている。
【0126】
これらのうち、CPU201は、電子黒板2全体の動作を制御する。ROM202は、CPU201やIPL(Initial Program Loader)等のCPU201の駆動に用いられるプログラムを記憶する。RAM203は、CPU201のワークエリアとして使用される。SSD204は、電子黒板用のプログラム等の各種データを記憶する。ネットワークI/F205は、ネットワークNとの通信を制御する。外部機器接続I/F206は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、USB(Universal Serial Bus)メモリ230、外付け機器(マイク240、スピーカ250、カメラ260)である。
【0127】
また、電子黒板2は、キャプチャデバイス211、GPU212、ディスプレイコントローラ213、接触センサ214、センサコントローラ215、電子ペンコントローラ216、近距離通信回路219、及び近距離通信回路219のアンテナ219a、電源スイッチ222及び選択スイッチ類223を備えている。
【0128】
これらのうち、キャプチャデバイス211は、外付けのPC(Personal Computer))270のディスプレイに対して映像情報を静止画または動画として表示させる。GPU(Graphics Processing Unit)212は、グラフィクスを専門に扱う半導体チップである。ディスプレイコントローラ213は、GPU212からの出力画像をディスプレイ280等へ出力するために画面表示の制御及び管理を行う。
【0129】
接触センサ214は、ディスプレイ280上に電子ペン290やユーザの手H等が接触したことを検知する。センサコントローラ215は、接触センサ214の処理を制御する。接触センサ214は、赤外線遮断方式による座標の入力及び座標の検出を行う。
【0130】
この座標の入力及び座標の検出する方法は、ディスプレイ280の上側両端部に設置された2つ受発光装置が、ディスプレイ280に平行して複数の赤外線を放射し、ディスプレイ280の周囲に設けられた反射部材によって反射されて、受光素子が放射した光の光路と同一の光路上を戻って来る光を受光する方法である。
【0131】
接触センサ214は、物体によって遮断された2つの受発光装置が放射した赤外線のIDをセンサコントローラ215に出力し、センサコントローラ215が、物体の接触位置である座標位置を特定する。電子ペンコントローラ216は、電子ペン290と通信することで、ディスプレイ280へのペン先のタッチやペン尻のタッチの有無を判断する。近距離通信回路219は、NFC(Near Field Communication)やBluetooth(登録商標)等の通信回路である。電源スイッチ222は、電子黒板2の電源のON/OFFを切り換えるためのスイッチである。選択スイッチ類223は、例えば、ディスプレイ280の表示の明暗や色合い等を調整するためのスイッチ群である。
【0132】
更に、電子黒板2は、バスライン210を備えている。バスライン210は、
図11に示されているCPU201等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
【0133】
尚、接触センサ214は、赤外線遮断方式に限らず、静電容量の変化を検知することにより接触位置を特定する静電容量方式のタッチパネル、対向する2つの抵抗膜の電圧変化によって接触位置を特定する抵抗膜方式のタッチパネル、接触物体が表示部に接触することによって生じる電磁誘導を検知して接触位置を特定する電磁誘導方式のタッチパネルなどの種々の検出手段を用いてもよい。また、電子ペンコントローラ216が、電子ペン290のペン先及びペン尻だけでなく、電子ペン290のユーザが握る部分や、その他の電子ペンの部分のタッチの有無を判断するようにしてもよい。
【0134】
次に、
図9を参照して、本実施形態の通信端末300の一例であるスマートフォンのハードウェア構成について説明する。
図9は、スマートフォンのハードウェア構成の一例を示す図である。
【0135】
スマートフォン4は、CPU401、ROM402、RAM403、EEPROM404、CMOSセンサ405、撮像素子I/F406、加速度・方位センサ407、メディアI/F409、GPS受信部411を備えている。
【0136】
これらのうち、CPU401は、スマートフォン4全体の動作を制御する。ROM402は、CPU401やIPL等のCPU401の駆動に用いられるプログラムを記憶する。RAM403は、CPU401のワークエリアとして使用される。EEPROM404は、CPU401の制御にしたがって、スマートフォン用プログラム等の各種データの読み出し又は書き込みを行う。
【0137】
CMOS(Complementary Metal Oxide Semiconductor)センサ405は、CPU401の制御に従って被写体(主に自画像)を撮像して画像データを得る内蔵型の撮像手段の一種である。尚、CMOSセンサではなく、CCD(Charge Coupled Device)センサ等の撮像手段であってもよい。撮像素子I/F406は、CMOSセンサ405の駆動を制御する回路である。
【0138】
加速度・方位センサ407は、地磁気を検知する電子磁気コンパスやジャイロコンパス、加速度センサ等の各種センサである。メディアI/F409は、フラッシュメモリ等の記録メディア408に対するデータの読み出し又は書き込み(記憶)を制御する。GPS受信部411は、GPS衛星からGPS信号を受信する。
【0139】
また、スマートフォン4は、遠距離通信回路412、CMOSセンサ413、撮像素子I/F414、マイク415、スピーカ416、音入出力I/F417、ディスプレイ418、外部機器接続I/F(Interface)419、近距離通信回路420、近距離通信回路420のアンテナ420a、及びタッチパネル421を備えている。
【0140】
これらのうち、遠距離通信回路412は、ネットワークNを介して、他の機器と通信する回路である。CMOSセンサ413は、CPU401の制御に従って被写体を撮像して画像データを得る内蔵型の撮像手段の一種である。撮像素子I/F414は、CMOSセンサ413の駆動を制御する回路である。
【0141】
マイク415は、音を電気信号に変える内蔵型の回路である。スピーカ416は、電気信号を物理振動に変えて音楽や音声などの音を生み出す内蔵型の回路である。音入出力I/F417は、CPU401の制御に従ってマイク415及びスピーカ416との間で音信号の入出力を処理する回路である。
【0142】
ディスプレイ418は、被写体の画像や各種アイコン等を表示する液晶や有機EL(Electro Luminescence)などの表示手段の一種である。外部機器接続I/F419は、各種の外部機器を接続するためのインターフェースである。近距離通信回路420は、NFC(Near Field Communication)やBluetooth(登録商標)等の通信回路である。タッチパネル421は、利用者がディスプレイ418を押下することで、スマートフォン4を操作する入力手段の一種である。
【0143】
また、スマートフォン4は、バスライン410を備えている。バスライン410は、
図4に示されているCPU401等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
【0144】
また、本実施形態の通信端末300は、通信機能を備えた装置であれば良い。通信端末300は、例えば、PJ(Projector:プロジェクタ)、デジタルサイネージ等の出力装置、HUD(Head Up Display)装置、産業機械、医療機器、ネットワーク家電、自動車(Connected Car)、ノートPC(Personal Computer)、携帯電話、タブレット端末、ゲーム機、PDA(Personal Digital Assistant)、デジタルカメラ、ウェアラブルPCまたはデスクトップPC等であってもよい。
【0145】
(第二の実施形態)
以下に図面を参照して、第二の実施形態について説明する。第二の実施形態は、サーバ側に映像解析部の機能を設けた点が、第一の実施形態と相違する。よって、以下の第二の実施形態の説明では、第一の実施形態との相違点についてのみ説明し、第一の実施形態と同様の機能構成を有するものには、第一の実施形態の説明で用いた符号と同様の符号を付与し、その説明を省略する。
【0146】
図10は、第二の実施形態の情報処理システムのシステム構成を説明する図である。本実施形態の情報処理システム100Aは、サーバ200Aと、通信端末300Aとを有する。
【0147】
本実施形態のサーバ200Aは、映像解析部310と、映像生成指示部320Aとを有する。また、本実施形態の通信端末300Aは、映像解析部310を有していない。
【0148】
本実施形態のサーバ200Aの映像解析部310は、各通信端末300Aで行われた表示レイアウトに関する設定内容を示す情報を保持している。
【0149】
そして、映像解析部310は、各通信端末300Aから送信される画像データを解析し、映像生成指示部320Aにより、各通信端末300Aに対し、表示レイアウトの関する設定内容に応じて選択された拠点の画像を含む画像データの生成指示を行う。
【0150】
本実施形態では、このように、映像解析部310をサーバ200Aに設けることで、通信端末300Aの処理の負荷を軽減できる。また、サーバ200Aには、複数の通信端末300Aから送信される画像データの解析結果が蓄積されていくため、例えば、表情の推定の精度を向上させることができる。
【0151】
尚、上述した各実施形態の通信端末は、通信機能を備えた装置であれば良い。通信端末300は、例えば、PJ(Projector:プロジェクタ)、デジタルサイネージ等の出力装置、HUD(Head Up Display)装置、産業機械、医療機器、ネットワーク家電、自動車(Connected Car)、ノートPC(Personal Computer)、携帯電話、タブレット端末、ゲーム機、PDA(Personal Digital Assistant)、デジタルカメラ、ウェアラブルPCまたはデスクトップPC等であってもよい。
【0152】
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。
【0153】
以上、各実施形態に基づき本発明の説明を行ってきたが、上記実施形態に示した要件に本発明が限定されるものではない。これらの点に関しては、本発明の主旨をそこなわない範囲で変更することができ、その応用形態に応じて適切に定めることができる。
【符号の説明】
【0154】
100、100A 情報処理システム
200、200A サーバ
300、300A 通信端末
310 映像解析部
311 顔検知部
312 動作検出部
313 表情推定部
314 判定部
320 映像生成部
350 全体処理部
370 表示部
【先行技術文献】
【特許文献】
【0155】