特許第5967848号(P5967848)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社アルブレインの特許一覧

<>
  • 特許5967848-会議システム 図000002
  • 特許5967848-会議システム 図000003
  • 特許5967848-会議システム 図000004
  • 特許5967848-会議システム 図000005
  • 特許5967848-会議システム 図000006
  • 特許5967848-会議システム 図000007
  • 特許5967848-会議システム 図000008
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】5967848
(24)【登録日】2016年7月15日
(45)【発行日】2016年8月10日
(54)【発明の名称】会議システム
(51)【国際特許分類】
   H04N 7/15 20060101AFI20160728BHJP
   H04M 3/56 20060101ALI20160728BHJP
【FI】
   H04N7/15 630Z
   H04M3/56 C
【請求項の数】7
【全頁数】23
(21)【出願番号】特願2015-62109(P2015-62109)
(22)【出願日】2015年3月25日
【審査請求日】2015年3月25日
(73)【特許権者】
【識別番号】501445302
【氏名又は名称】株式会社アルブレイン
(74)【代理人】
【識別番号】110001737
【氏名又は名称】特許業務法人スズエ国際特許事務所
(72)【発明者】
【氏名】西村 和雄
【審査官】 松元 伸次
(56)【参考文献】
【文献】 特許第5508605(JP,B1)
【文献】 特開2012−175136(JP,A)
【文献】 特開2009−038466(JP,A)
【文献】 特開平11−163934(JP,A)
【文献】 特開平06−197337(JP,A)
【文献】 特開2006−246110(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04M3/00
3/16−3/20
3/38−3/58
7/00−7/16
11/00−11/10
H04N7/10
7/14−7/173
7/20−7/56
21/00−21/858
(57)【特許請求の範囲】
【請求項1】
会議ロボットと、
前記会議ロボットと通信可能に接続されている端末と、
を具備し、
前記会議ロボットは、
垂直方向の回転軸を持つ頭部と、
前記頭部を水平方向に回転可能に支持する胴部と、
ステレオ方式又はバイノーラル方式の第1の音声データを入力する第1の音声入力部と、
前記頭部に備えられ、前記第1の音声データに対応する映像データを入力する映像入力部と、
前記第1の音声データと前記映像データとを格納するメモリと、
前記第1の音声データの通信が正常か否か判断する判断部と、
前記メモリに格納されている前記第1の音声データと前記第1の音声データに対応する前記映像データとを前記端末へ順次送信し、前記判断部によって前記通信が正常でないと判断された場合に、前記メモリに格納されており前記通信が正常でないと判断された前記第1の音声データに対応する再送音声データを前記端末へ順次送信する第1の送信部と、
前記第1の音声入力部に入力された前記第1の音声データに基づいて音声発生方向を認識し、前記映像入力部を前記音声発生方向へ向ける制御を実行する制御部と、
受信された前記端末のユーザの第2の音声データを出力する第1の音声出力部と、
を具備し、
前記端末は、
受信された前記第1の音声データを出力し、前記再送音声データが受信された場合に前記再送音声データを出力する第2の音声出力部と、
会議の経過時間を表示し、前記再送音声データが前記第2の音声出力部によって出力されている場合に前記再送音声データの生成された時間を表示するタイムゲージを生成する映像処理部と、
前記映像データと前記タイムゲージとを出力する映像出力部と、
前記ユーザの前記第2の音声データを入力する第2の音声入力部と、
前記第2の音声データを前記会議ロボットへ送信する第2の送信部と、
を具備する、
会議システム。
【請求項2】
前記第1の送信部は、前記判断部によって前記通信が正常と判断された場合に、前記第1の音声データと前記第1の音声データに対応する前記映像データとを同期して送信し、前記判断部によって前記通信が正常でないと判断された場合に、前記再送音声データを、前記映像データと非同期で送信する、
請求項に記載の会議システム
【請求項3】
前記第1の送信部は、前記再送音声データに会話が含まれていないと判断された場合に、前記再送音声データの送信を飛ばす、
請求項又は請求項に記載の会議システム
【請求項4】
前記会議ロボットは、前記映像データのデータ量を削減する第2の映像処理部をさらに具備し、
前記第1の送信部は、前記第1の音声データと、前記第1の音声データに対応するデータ量の削減された前記映像データとを順次送信する、
請求項乃至請求項のいずれか1項に記載の会議システム
【請求項5】
前記第2の映像処理部は、前記第1の音声データに会話が含まれている場合に、前記第1の音声データに対応する前記映像データの解像度を削減する、
請求項に記載の会議システム
【請求項6】
前記第2の映像処理部は、前記映像データを動画領域と静止画領域とに分離し、前記動画領域のデータ量を削減し、前記静止画領域の解像度を所定値以上にする
請求項又は請求項に記載の会議システム
【請求項7】
会議場に設置するための第1の端末と、
前記第1の端末と通信可能に接続される第2の端末と、
を具備し、
前記第1の端末は、
第1の音声データを入力する第1の音声入力部と、
前記第1の音声データに対応する映像データを入力する映像入力部と、
前記第1の音声データと前記映像データとを格納するメモリと、
前記第1の音声データの通信が正常か否か判断する判断部と、
前記メモリに格納されている前記第1の音声データと前記第1の音声データに対応する前記映像データとを前記第2の端末へ順次送信し、前記判断部によって前記通信が正常でないと判断された場合に、前記メモリに格納されており前記通信が正常でないと判断された前記第1の音声データに対応する再送音声データを前記第2の端末へ順次送信する第1の送信部と、
前記第2の端末から受信された前記第2の端末のユーザの第2の音声データを出力する第1の音声出力部と、
を具備し、
前記第2の端末は、
受信された前記第1の音声データを出力し、前記再送音声データが受信された場合に前記再送音声データを出力する第2の音声出力部と、
会議の経過時間を表示し、前記再送音声データが前記第2の音声出力部によって出力されている場合に前記再送音声データの生成された時間を表示するタイムゲージを生成する映像処理部と、
前記映像データと前記タイムゲージとを出力する映像出力部と、
前記ユーザの前記第2の音声データを入力する第2の音声入力部と、
前記第2の音声データを前記第1の端末へ送信する第2の送信部と、
を具備する、
会議システム
【発明の詳細な説明】
【技術分野】
【0001】
本実施形態は、会議システムに関する。
【背景技術】
【0002】
会議システムは、例えばインターネットなどの通信ネットワークを介して、複数の拠点間で映像データ及び音声データを通信するシステムである。会議システムは、遠隔地のユーザが会議に参加することを可能とし、例えば会議参加者の会議の経済的及び時間的コストを削減可能である。
【0003】
会議システムの通信端末として、例えば人型のロボットが利用される場合がある。ロボットには、例えば頭部にカメラが設けられており、ロボットを遠隔地のユーザが操作することで、カメラの向き、すなわちロボットの視線が調整される。
【0004】
一般に、会議システムで送受信される音声データの品質及び映像データの品質は、通信ネットワークの状態の影響を受ける。例えば、通信ネットワークに輻輳が生じると、ストリーミング再生中の映像及び音声が途切れ、会議内容を正確に把握することが困難になる場合がある。
【0005】
リアルタイム性を確保しつつ、音声及び映像の途切れを抑制する方法の一つとして、データの品質を落とし、データ量を下げることで通信ネットワークへの負荷を軽減する方法がある。
【0006】
一方、リアルタイム性を最優先としないことで音声の途切れを抑制する方法としては、例えば特開2013−207465号公報に開示されているように、通信ネットワークの状態が悪いと判断された場合に、例えば10秒程度の所定量の音声データを録音し、録音した音声データを送信する方法がある。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2013−207465号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
上記のように、通信ネットワークの状態が変化する場合に、音声データ及び映像データを確実に送信するための方法が開発されている。しかしながら、通信ネットワークへの負荷を軽減するためにデータ品質を落とす場合、例えば音声の明瞭性が失われかねない。また、データ量を下げた場合であっても、通信ネットワークの状態によっては音声が途切れる場合がある。
【0009】
さらに、特開2013−207465号公報に開示された会議システムでは、通信状態が悪いと判断された後に、音声を録音する必要があるため、円滑な会議の進行が妨げられる場合がある。
【0010】
さらに、ロボットを使用した会議システムにおいては、目線を合わせること以外にノンバーバルコミュニケーションをロボットによって表現することは未だ十分になされていない。例えば、モータ等を用いて人と同じようにロボットを駆動させることは、構造的及びコスト的に困難である。
【0011】
本発明は、以上のような事情に鑑みてなされており、ロボットを用い、低コストで良好な音声品質を実現する会議システムの提供を目的とする。
【課題を解決するための手段】
【0012】
本実施形態の会議システムは、会議ロボットと端末とを含む。
【0013】
会議ロボットは、頭部、胴部、第1の音声入力部、映像入力部、メモリ、判断部、第1の送信部、制御部、第1の音声出力部を含む。
【0014】
頭部は、垂直方向の回転軸を持つ。胴部は、頭部を水平方向に回転可能に支持する。第1の音声入力部は、ステレオ方式又はバイノーラル方式の第1の音声データを入力する。映像入力部は、頭部に備えられ、第1の音声データに対応する映像データを入力する。メモリは、第1の音声データと映像データとを格納する。判断部は、第1の音声データの通信が正常か否か判断する。第1の送信部は、メモリに格納されている第1の音声データと第1の音声データに対応する映像データとを端末へ順次送信し、判断部によって通信が正常でないと判断された場合に、メモリに格納されており通信が正常でないと判断された第1の音声データに対応する再送音声データを端末へ順次送信する。制御部は、第1の音声入力部に入力された第1の音声データに基づいて音声発生方向を認識し、映像入力部を音声発生方向へ向ける制御を実行する。第1の音声出力部は、受信された端末のユーザの第2の音声データを出力する。
【0015】
端末は、第2の音声出力部、映像処理部、映像出力部、第2の音声入力部、第2の送信部を含む。
【0016】
第2の音声出力部は、受信された第1の音声データを出力し、再送音声データが受信された場合に再送音声データを出力する。映像処理部は、会議の経過時間を表示し、再送音声データが第2の音声出力部によって出力されている場合に会議において再送音声データの生成された時間を表示するタイムゲージを生成する。映像出力部は、映像データとタイムゲージとを出力する。第2の音声入力部は、ユーザの第2の音声データを入力する。第2の送信部は、第2の音声データを会議ロボットへ送信する。
【発明の効果】
【0017】
本実施形態においては、ロボットを用いて低コストで良好な音声品質を実現する会議システムを提供することができる。
【図面の簡単な説明】
【0018】
図1】第1の実施形態に係る会議システムの構成の一例を示すブロック図。
図2】第1の実施形態に係るストリーミングと再送ストリーミングとの一例を示す図である。
図3】第1の実施形態に係る会議ロボットのデータ送信処理の一例を示すフローチャート。
図4】第1の実施形態に係るストリーミングの一例を示すフローチャート。
図5】第1の実施形態に係る遠隔者端末の映像出力部における表示画面の一例を示す図。
図6】第2の実施形態に係る会議システムの構成の一例を示すブロック図。
図7】第2の実施形態に係る会議ロボットの映像データ受信処理の一例を示すフローチャート。
【発明を実施するための形態】
【0019】
以下、実施形態について、図面を参照して説明する。なお、以下の説明において、同一又は実質的に同一の機能及び構成要素については、同一符号を付し、必要に応じて説明を行う。
【0020】
[第1の実施形態]
本実施形態では、ステレオ方式又はバイノーラル方式の音声データと、映像データのストリーミングを実行する。本実施形態のストリーミングでは、映像データの品質を意図的に落とし、音声データの品質を優先させる。
【0021】
本実施形態では、音声データと映像データとが同期する場合もあり、映像データよりも音声データの品質を優先させる場合には音声データと映像データとが非同期となる場合もある。
【0022】
本実施形態では、ストリーミングのリアルタイム性を低下させて、音声データの品質を優先させる場合がある。音声品質が所定のレベルを下回った場合には、例えば自動で、又は、ユーザの操作に基づいて、所定のレベル以上の音声品質の音声データを再生する。この音声品質の高い音声データの再生は、会議ロボット側及び遠隔地端末側の双方で実行可能である。
【0023】
本実施形態においては、音声品質を所定のレベル以上とするために、映像データの画質を可変とする。例えば、会議ロボットと遠隔地端末との間で音声データが通信されている場合に、映像データの解像度を落とし、フレームレートを解像度よりも優先させてもよい。ここで、フレームレートとは、映像データにおいて、単位時間当たりに処理されるフレーム数である。例えば、会議ロボットと遠隔地端末との間で音声データが通信されていない場合に、映像データの解像度を高くする。例えば、会議ロボットによって撮影された映像データのうち、静止部分については静止画データとして会議ロボットから遠隔地端末へ送信し、動く部分については動画データとして会議ロボットから遠隔地端末へ送信する。そして、遠隔地端末は、静止画データと動画データとを合成する。静止画データは、送信回数を少なくし、その代わりに解像度は高くてもよい。例えば、会議場のホワイトボードの映像データは、重要度が高いため、解像度を高くし、静止画データとして会議ロボットから遠隔地端末へ送信されてもよい。映像データは、更新された場合に解像度が高く、その後解像度が低くなるように変更されてもよい。
【0024】
例えば、会議ロボットは、音の指向性を検出可能であり、会議場の音声発生方向を検出し、音声発生方向が映像データの中央部分になるように頭部の水平方向の回転を制御してもよい。このように、映像入力部4が音声発生方向を自動で向くように頭部の水平方向回転が制御されることにより、遠隔地端末のユーザの操作負荷を抑制することができる。例えば、会議ロボットは、映像データのうちの音声発生方向に相当する領域の解像度又はフレームレートを高くし、音声発生方向から外れている領域の解像度又はフレームレートを低くしてもよい。また、会議ロボットは、音声発生方向から外れている領域を静止画データとしてもよい。
【0025】
本実施形態において、会議ロボットは、映像データから会議の参加者の映像領域を検出し、この参加者の映像領域を、解像度よりもフレームレートを優先させて(解像度を所定のレベル以下とし、フレームレートを所定のレベル以上として)送信してもよい。
【0026】
本実施形態において、会議ロボットは、映像データから会議場におけるプレゼンテーションデータの表示部分、ホワイトボード等の映像領域(以下、資料データという)を検出し、この資料データをフレームレートよりも解像度を優先させて(フレームレートを所定のレベル以下とし、解像度を所定のレベル以上として)、送信してもよい。資料データの検出は、ユーザが手動で映像データに対してキャプチャ操作をすることで実現してもよく、画像認識処理によって実現してもよい。遠隔地端末のユーザは、資料データを自由に閲覧可能としてもよい。
【0027】
会議ロボットは、会議前に会議場に固定的に設置され、会議場の映像データに基づいて、例えば、参加者の位置、ホワイトボードの位置など、会議前に必要なデータを画像認識により生成する。
【0028】
本実施形態において、会議ロボットは、会議中は所定の位置に設置される。会議ロボットの頭部は、垂直方向の回転軸を持ち、水平方向に回転する。会議ロボットの頭部は、駆動機構の単純化とコスト低減のために、上下には回転しないが、頭部に搭載されている映像入力部は上下に回転可能としてもよい。この結果、会議ロボットは、会議場を球状に認識可能である。
【0029】
図1は、第1の実施形態に係る会議システム100の構成の一例を示すブロック図である。図1において、会議場に設置された会議ロボット101と遠隔地に設置された遠隔地端末102とは、通信ネットワークNWを介して通信可能に接続されている。以下では、遠隔地端末102は例えばパーソナルコンピュータであるとして説明する。しかしながら、遠隔地端末102は、例えばタブレット型端末、スマートフォン等の情報処理装置であってもよい。通信ネットワークNWには、電話回線、インターネットなどの各種の無線又は有線の通信回線を適用可能である。
【0030】
会議ロボット101は、会議場の映像データのデータ量、会議場の音声データのデータ量、遠隔地端末102から受信した音声データのデータ量を検出し、検出された各種のデータ量に基づいて、会議ロボット101と遠隔地端末102との間で通信される音声データ及び映像データのプロトコルを切り替え、インジケータの発光を制御し、音声データの品質を維持するための通信状態の変更を行う。
【0031】
例えば、会議ロボット101は、データ量が多くなった場合(所定のレベル以上になった場合)には、インジケータにより警告を表す所定の色を発光してその旨を会議の参加者に通知し、映像データの解像度又はフレームレートを削減し、音声データの品質を維持する。会議ロボット101は、音声データが正常に通信されなかった場合には、自動で、又は、手動で、正常に通信されていない音声データに対応する再送のための音声データ(以下、再送音声データという)を送信する。
【0032】
会議ロボット101は、再送音声データの再送ストリーミングにおいて、それぞれの再送音声データについて会議場の参加者の音声が含まれているか否か判断し、会議場の参加者の音声が含まれていない再送音声データの送信を飛ばす(スキップする)。これにより、音声の巻き戻しが発生した後に、会話のない部分で自動で早送りが実現され、現在の会議場の音声データまで音声の再生を進めることができる。
【0033】
本実施形態において、会議ロボット101と遠隔地端末102との間の通信状態は、会議場の参加者が理解可能となるように会議ロボット101が音声又はインジケータの表示により出力する。また、通信状態は、遠隔地端末101のユーザが理解可能となるように遠隔地端末120が音声出力又は表示する。
【0034】
会議ロボット101は、例えば人型を模した頭部1と胴部2とを含む。頭部1と胴部2とは、例えば垂直方向の軸を中心として回転可能に接続されている。頭部1は、例えばモータにより駆動される。
【0035】
会議ロボット101は、さらに、音声入力部(マイクロフォン)3、映像入力部(カメラ)4、音声出力部(スピーカ)5、音声バッファメモリ6、映像バッファメモリ7、コントローラ8、送信部16、受信部17、作業メモリ25を含む。
【0036】
音声入力部3、映像入力部4、音声出力部5は、例えば頭部1に設けられる。音声入力部3は、例えば、頭部1の2か所に設けられているとしてもよく、ステレオマイクロフォンが頭部1に設けられているとしてもよい。
【0037】
映像入力部4は、会議ロボット101の目に相当する部分に配置される。映像入力部4は、例えば、頭部1の正面で、2つの音声入力部3の間に設けられる。本実施形態では、頭部1は、水平方向に回転可能であるが、垂直方向には回転しない。しかしながら、頭部1に搭載されている映像入力部4は、撮影方向を上下に変更可能としてもよい。
【0038】
音声出力部5は、例えば、映像入力部4の下方に設けられる。
【0039】
音声バッファメモリ6、映像バッファメモリ7、コントローラ8、送信部16、受信部17、作業メモリ25のうちの一部又は全部は、例えば頭部1又は胴部2内に設けられていてもよく、頭部1及び胴部2の外部に設けられていてもよい。
【0040】
音声入力部3は、ステレオ方式又はバイノーラル方式の音声データを生成し、音声データを音声バッファメモリ6に格納する。
【0041】
映像入力部4は、映像データを生成し、映像データを映像バッファメモリ7に格納する。
【0042】
音声出力部5は、遠隔地端末102から通信ネットワークNW経由で会議ロボット101に受信された音声データを再生する。
【0043】
コントローラ8は、設定部9、データ管理部10、映像処理部11、ストリーミング部12、判断部13、再送指示部14、ロボット制御部15を備える。コントローラ8Aは、図示せぬメモリ内のプログラムを実行することにより、設定部9、データ管理部10、映像処理部11、ストリーミング部12、判断部13、再送指示部14、ロボット制御部15として機能するとしてもよい。
【0044】
設定部9は、会議ロボット101と通信ネットワークNWとの接続設定を行う。
【0045】
また、設定部9は、会議場の映像データに基づいて、例えば、参加者の位置、ホワイトボードの位置など、会議前に必要なデータを画像認識により生成し、作業メモリ25に格納してもよい。
【0046】
データ管理部10は、音声バッファメモリ6、映像バッファメモリ7、作業メモリ25のデータを管理する。例えば、データ管理部10は、音声バッファメモリ6に格納された音声データを分割し、分割された音声データにデータ識別情報、会議名、データ種別、再生順序、時間データ等の情報を含む音声データ情報を付加し、会議ロボット101からの送信及び遠隔地端末102での受信が正常に行われたか判断する送信単位の音声データを生成し、生成された音声データを作業メモリ25に格納する。また、データ管理部10は、映像バッファメモリ7に格納された映像データを、音声データの送信単位に対応するように分割し、分割された映像データにデータ識別情報、会議名、データ種別、再生順序、時間データ等の情報を含む映像データ情報を付加した送信単位の映像データを生成し、生成された映像データを作業メモリ25に格納する。音声データ情報及び映像データ情報を参照することで、音声データと対応する映像データを特定することが可能となる。
【0047】
本実施形態において、データ管理部10は、判断部13から音声データが正常に通信されたことを示す通知を受けた場合に、正常に通信された音声データを作業メモリ25から削除する。また、データ管理部10は、正常に通信された音声データの音声データ情報と対応する映像データ情報を有する映像データを、作業メモリ25から削除する。しかしながら、データ管理部10は、例えばバックアップ又は証拠用として、正常に通信された音声データ及び対応する映像データを削除することなく作業メモリ25に維持してもよい。また、データ管理部10は、音声バッファメモリ6及び映像バッファメモリ7を適宜解放する。
【0048】
データ管理部10は、再送指示部14から削除停止の指示を受けた場合に、作業メモリ25から音声データ及び映像データが削除されることを停止する。データ管理部10は、再送指示部14から削除処理の再開の指示を受けた場合に、削除処理を再開する。
【0049】
本実施形態において、データ管理部10は、音声バッファメモリ6に格納されたハイレゾリューション音声データを分割し、分割されたハイレゾリューション音声データに音声データ情報を付加し、生成されたハイレゾリューション音声データを作業メモリ25に格納する。
【0050】
また、データ管理部10は、映像バッファメモリ7に格納されたハイレゾリューション映像データを分割し、分割されたハイレゾリューション映像データに映像データ情報を付加し、生成されたハイレゾリューション映像データを作業メモリ25に格納してもよい。このハイレゾリューション映像データは、ハイレゾリューション音声データとともに会議議事録データとして会議ロボット101と遠隔地端末とのうちの少なくとも一方に保存される。ハイレゾリューション映像データは、例えば、会議終了後又は会議中であるが通信されるデータ量が少ない場合に、送信部16によって会議ロボット101から遠隔地端末102へ送信されてもよい。
【0051】
例えば、データ管理部10は、音声データに基づいて、音声発生方向を検出してもよい。さらに、データ管理部10は、会議場の映像データのデータ量、会議場の音声データのデータ量、遠隔地端末102から受信した音声データのデータ量を検出してもよい。
【0052】
映像処理部11は、作業メモリ25に格納された映像データの処理を行う。例えば、映像処理部11は、作業メモリ25の映像データを変換し、変換後の映像データによって作業メモリ25の映像データを更新する。
【0053】
例えば、映像処理部11は、音声入力部3への音声入力の有無に基づいて、映像データの解像度を調整する。具体的には、映像処理部11は、音声データ情報及び映像データ情報に基づいて音声データに対応する映像データを作業メモリ25から読み出し、音声データに基づく音声認識を実行し、音声データが会話(会議において意味のある音声)のある状態の場合に、当該音声データと対応する映像データの解像度を落とし、映像データのデータ量を下げる。
【0054】
例えば、映像処理部11は、映像データに対して画像解析を実行し、映像データが静止画領域と動画領域とに分離できると判断した場合に、映像データを静止画データと動画データとに分離する。例えば、映像処理部11は、映像データに対して画像解析を実行し、会議室の映像のうちの背景と人物とを識別し、背景の映像データを静止画データに変換し、人物の映像データを動画データに変換する。例えば、映像処理部11は、映像データからホワイトボード、スライド、配布資料、ディスプレイの画面等の資料データを検出した場合に、検出された資料データを解像度の高い静止画データに変換してもよい。
【0055】
例えば、映像処理部11は、映像データと、この映像データから検出された資料データとを区別可能な状態としてもよい。これにより、遠隔地端末102では、映像データと資料データとを、並べて、又は、選択的に表示することができる。
【0056】
例えば、映像処理部11は、映像データのうち背景を検出し、検出された背景を静止画データとし、背景が更新された場合にのみ背景の静止画データを高解像度としてもよい。
【0057】
例えば、映像処理部11は、映像データのうちデータ管理部10で検出された音声発生方向の領域のフレームレートと解像度とのうちの少なくとも一方を、他の領域よりも高くしてもよい。
【0058】
映像処理部11は、データ管理部10によって検出された会議場の映像データのデータ量、会議場の音声データのデータ量、遠隔地端末102から受信した音声データのデータ量に基づいて、映像データのデータ量を適宜調整する。これにより、音声データの品質を高く維持した状態で、スムーズに、音声データを会議ロボット101から通信ネットワークNW経由で遠隔地端末102へ順次送信することができる。
【0059】
ストリーミング部12は、作業メモリ25に格納されている音声データと、当該音声データに対応する映像データとを読み出し、当該音声データと映像データとを、順次又は所定の時間間隔で送信部16へ送る。
【0060】
ストリーミング部12は、再送指示部14からの指示を受けるまで、この処理を継続する。ストリーミング部12は、再送指示部14から、正常に送信又は受信されなかった音声データの再送信の指示を受けた場合に、それまでのストリーミングを停止し、正常に送信又は受信されなかった音声データとそれ以降の音声データを、再送音声データとして、順次又は所定の時間間隔で送信部16へ送る再送ストリーミングを実行する。また、ストリーミング部12は、再送ストリーミングにおいて、再送音声データに対応する映像データを送信可能であれば、当該映像データも再送ストリーミングに含める。
【0061】
判断部13は、音声データが、会議ロボット101から正常に送信されたか、及び、当該音声データが遠隔地端末102によって正常に受信されたか、を判断する。
【0062】
例えば、判断部13は、送信部16が送信を完了した場合に、送信部16から送信を完了したことを示す送信完了信号を受信する。所定時間内に送信部16より送信完了信号を受信しない場合、判断部13は、音声データが正常に送信されなかったと判断する。
【0063】
例えば、判断部13は、会議ロボット101から通信ネットワークNW経由で遠隔地端末102に送信された音声データに対応する応答信号を、所定時間内に、会議ロボット101が通信ネットワークNW経由で遠隔地端末102から受信していない場合、判断部13は、音声データが正常に受信されなかったと判断する。
【0064】
例えば、判断部13は、送信部16から送信完了信号を受け、受信部17から応答信号を受けた場合に、送信完了信号の受付タイミングと応答信号の受付タイミングとの時間差を算出する。算出した時間差が所定の値を越える場合に、判断部13は、音声データの送通信に遅延が生じ、当該音声データが正常に通信されなかったと判断する。算出した時間差が所定の値以下である場合に、判断部13は、音声データが正常に通信されたと判断する。
【0065】
判断部13は、音声データが正常に通信されたと判断した場合に、正常に通信された音声データの音声データ情報をデータ管理部10へ通知する。
【0066】
判断部13は、音声データが正常に通信されなかったと判断した場合に、エラー通知と正常に通信されなかった音声データの音声データ情報とを、再送指示部14へ通知する。
【0067】
再送指示部14は、判断部13からエラー通知を受けた場合に、データ管理部10によるデータ削除処理を停止するための指示をデータ管理部10に送り、正常に通信されなかった音声データに対応する再送音声データを順次再送するための指示をストリーミング部12に送る。
【0068】
すなわち、再送指示部14は、判断部13からの通知に基づいて、正常に通信されなかった音声データの音声データ情報をストリーミング部12に通知し、再送音声データの再送ストリーミングを指示する。
【0069】
これにより、通信エラーの生じた音声データまで遡って、正常に通信されなかった音声データと、正常に通信されなかった音声データよりも後に送信されるべき音声データとが再送信される。
【0070】
再送指示部14は、映像データの送信が可能であると判断した場合に、音声データと同期した映像データの送信の再開を指示する。例えば、再送指示部14は、音声データが所定の回数正常に通信された場合に、映像データの送信が可能であると判断する。
【0071】
映像データの送信が可能であると判断した場合に、再送指示部14は、音声データの音声データ情報と対応する映像データ情報を有する映像データを送信部16へ送るようにストリーミング部12に指示する。
【0072】
なお、本実施形態において、再送指示部14は、再送ストリーミングの指示の前に、テスト用データを用いて通信状態のエラー(通信エラー)が解消されたか否かを判断するとしてもよい。この場合、例えば、再送指示部14は、ストリーミング部12、及び送信部16を介してテスト用データを送信し、判断部13が受信したテスト用データの送信完了信号と応答信号との時間差が所定の値以下であるか否かを判断する。再送指示部14は、判断部13による判断の結果、テスト用データの送信完了信号と応答信号との時間差が所定の値以下であると判断された場合に、通信エラーが解消されたと判断する。
【0073】
本実施形態において、再送指示部14は、再送音声データの再送ストリーミングの開始後、再送音声データに会議場の参加者の音声が含まれているか否か判断し、会議場の参加者の音声が含まれていない再送音声データの送信を飛ばす。これにより、音声の巻き戻しが発生した後に、会話のない部分で早送りが実現され、現在の会議場の音声データまで音声の再生を進めることができる。
【0074】
加えて、再送指示部14は、音声データ及び映像データの送信においてデータ量が所定の値以下であり、通信に余裕がある場合に、作業メモリ25に格納されているハイレゾリューション音声データを送信部16へ送るようにストリーミング部12に指示する。
【0075】
会議は、緩急があるため、通信ネットワークNWの通信負荷の軽い時間がある。この通信ネットワークNWの通信負荷の軽い時間に、ハイレゾリューション音声データを会議ロボット101から遠隔地端末102に送る。例えば、再送指示部14は、バックグラウンドの処理で、事後的にハイレゾリューション音声データを送信させる。これにより、遠隔地端末102では、ある程度の時間が経過すると、ハイレゾリューション音声データで会議場の音声を再生することができる。
【0076】
ロボット制御部15は、受信部17が受信したロボット制御情報に基づいてロボットを制御する。例えば、ロボット制御部15は、遠隔地ユーザが遠隔地端末102の後述の操作部を操作し、遠隔地端末102の後述のロボット制御部で生成されたロボット制御情報に基づいて、モータによる会議ロボット101の頭部1、及び頭部1に設けられた映像入力部4の角度を制御する。
【0077】
また、ロボット制御部15は、音声データの品質、映像データの品質、データ管理部10によって検出された各種のデータ量に基づいて、通信状態が会議場の参加者に理解可能なように、会議ロボット101のインジケータを制御し、又は、音声出力部5から音を出力する。
【0078】
さらに、ロボット制御部15は、音声データの品質、映像データの品質、データ管理部10によって検出された各種のデータ量に基づいて、遠隔地端末のユーザが通信状態を理解可能なように、状態データを送信部16経由で、遠隔地端末102に送信する。
【0079】
本実施形態において、ロボット制御部15は、自動で頭部1の横方向の角度を制御可能とする。例えば、ロボット制御部15は、会議の開始前又は会議中に、映像データに基づいて顔認識技術などにより会議の参加者の位置を認識し、ホワイトボードの位置を認識し、会議ロボット101の頭部1の映像入力部4が認識された位置を自動で向くように制御する。例えば、ロボット制御部15は、音声発生方向が映像データの中央部分になるように頭部1の水平方向の回転を制御する。これにより、通信ネットワークNWの遅延が発生する中で遠隔地ユーザが手動で映像入力部4の向きを微調整するよりも適切かつ迅速に、映像入力部4の向きを変えることができる。
【0080】
例えば、ロボット制御部15は、通信される各種データのデータ量が多くなった場合(所定のレベル以上になった場合)には、インジケータにより警告を表す所定の色を発光する(例えば頭部1を赤くする)。
【0081】
送信部16は、ストリーミング部12からの音声データ及び映像データを、受け付けた順に、送信先の遠隔地端末102に送信する。
【0082】
送信部16は、音声データの送信が完了した場合に、送信が完了した音声データの音声データ情報とともに送信完了信号を判断部13に送る。
【0083】
送信部16は、受信部17が遠隔地端末102から音声データを受信した場合に、当該音声データを受信したことを示す応答信号を遠隔地端末102へ送信する。
【0084】
受信部17は、遠隔地端末102から通信ネットワークNW経由で音声データを受信する。
【0085】
受信部17は、送信部16が送信した音声データが遠隔地端末102によって受信されたことを示す応答信号を受信し、応答信号を判断部13に送る。
【0086】
遠隔地端末102は、音声入力部3A、音声出力部5A、音声バッファメモリ6A、コントローラ8A、ロボット制御部15A、送信部16A、受信部17A、操作部18A、映像出力部19A、作業メモリ25Aを備える。
【0087】
コントローラ8Aは、例えばCPU(Central Processing Unit)などのプロセッサに相当する。コントローラ8Aは、設定部9A、データ管理部10A、映像処理部11A、ストリーミング部12A、判断部13A、再送指示部14A、を備える。
【0088】
コントローラ8Aは、図示せぬメモリ内のプログラムを実行することにより、設定部9A、データ管理部10A、映像処理部11A、ストリーミング部12A、判断部13A、再送指示部14A、として機能するとしてもよい。
【0089】
映像処理部11Aは、受信部17Aが受信した映像データを加工する。例えば、映像処理部11Aは、受信部17Aが受信した静止画データと動画データとを合成し、合成した映像データを映像出力部19Aにより出力する。
【0090】
例えば、映像処理部11Aは、映像データ、資料データを表示するための画面データを生成し、画面データを映像出力部19Aにより出力する。
【0091】
例えば、映像処理部11Aは、会議の経過時間、再生中の再送音声データの生成時間、受信されたハイレゾリューション音声データの生成時間を示すタイムゲージを、映像出力部19Aにより出力する。タイムゲージは、再生中の音声データ又は再送音声データの再生状態、再生可能なハイレゾリューション音声データの受信状態を示す。
【0092】
例えば、映像処理部11Aは、状態データに基づいて、音声データの品質、映像データの品質、通信状態を、遠隔地端末102のユーザが理解可能なように、表示する。
【0093】
音声出力部5Aは、会議ロボット101から通信ネットワークNW経由で遠隔地端末102に受信された音声データを再生する。
【0094】
また、音声出力部5Aは、状態データに基づいて、音声データの品質、映像データの品質、通信状態を、遠隔地端末102のユーザが理解可能なように、音を出力する。
【0095】
操作部18Aは、例えばキーボード、マウス等を介して遠隔地ユーザの操作を受け付ける。
【0096】
例えば、判断部13Aは、音声品質が乱れたと判断した場合に、リトライマークを映像出力部19Aに表示してもよい。操作部18Aは、遠隔地ユーザからリトライ指示を受けた場合に、再送ストリーミングを開始する指示を、再送指示部14A、及び、会議ロボット101の再送指示部14に送る。
【0097】
ロボット制御部15Aは、遠隔地ユーザの操作部18Aの操作に基づいて、ロボット制御情報を生成し、ロボット制御情報を会議ロボット101に送信することを送信部16Aに指示する。
【0098】
映像出力部19Aは、映像処理部11Aにより加工された映像データを出力する。
【0099】
遠隔地端末102のその他の構成及び機能は、会議ロボット101における音声データに対する構成及び機能と同様であるため、説明を省略する。
【0100】
図2は、第1の実施形態に係るストリーミングと再送ストリーミングとの一例を示す図である。
【0101】
音声データSD0〜SDNと映像データDD0〜DDNとは、互いに対応付けられている。本実施形態において、映像データDD0〜DDNは、データ量を削減するための加工がなされていてもよい。
【0102】
まず、音声データSD0及び映像データDD0から順に、ストリーミングが実行される。ここで、音声データSDKまで送信された時点で、音声データSDKより前に送信された音声データSD1に品質低下(エラー)が検出されたとする。この場合、本実施形態では、このエラーの発生した音声データSD1から再送ストリーミングが開始される。再送ストリーミングでは、映像データDD1以降の映像データの送信の優先度は、音声データSD1の優先度より低い。例えば、再送ストリーミングにおいて、映像データDD1以降の映像データの送信は、停止されてもよく、間引かれてもよい。通信状態が正常に戻った場合には、映像データの送信が通常の状態に戻される。
【0103】
図3は、本実施形態に係る会議ロボット101のデータ送信処理の一例を示すフローチャートである。
【0104】
ステップ301において、設定部9は、会議ロボット101と通信ネットワークNWとの接続設定を行う。
【0105】
ステップ302において、音声入力部3は、音声入力を開始し、データ管理部10は、音声データ情報を含む音声データを生成し、音声データを作業メモリ25に格納し、映像入力部4は、映像入力を開始し、データ管理部10は、映像データ情報を含む映像データを生成し、映像データを作業メモリ25に格納する。
【0106】
ステップ303において、映像処理部11は、作業メモリ25から映像データを読み出す。
【0107】
ステップ304において、映像処理部11は、読み出した映像データの映像データ情報を参照し、読み出した映像データに対応する音声データを作業メモリ25から読み出し、読み出された音声データに会話、すなわち意味のある音声が含まれているか否かを判断する。読み出した映像データに会話が含まれていない場合、処理はステップ308へ進む。
【0108】
読み出した映像データに会話が含まれている場合、処理はステップ305へ進む。
【0109】
ステップ305において、映像処理部11は、映像データの各フレームに基づいて、静止画領域と動画領域とを分離する。
【0110】
ステップ306において、映像処理部11は、静止画領域に基づいて、静止画データを生成する。例えば、映像処理部11は、単位時間当たりのフレーム数を削減する。例えば、映像処理部11は、各フレームの解像度を落とす。尚、フレームの解像度は、例えば映像が更新されたときは高いままでもよい。
【0111】
ステップ307において、映像処理部11は、動画領域に基づいて、動画データを生成する。例えば、映像処理部11は、静止画領域のフレーム数よりも多いフレーム数の範囲で、動画データの単位時間当たりのフレーム数を削減する。例えば、映像処理部11は、動画データの各フレームの解像度を落とす。
【0112】
ステップ308において、映像処理部11は、映像データを作業メモリ25に格納する。
【0113】
ステップ309において、会議が継続される場合、処理はステップ303へ戻る。会議が継続されない場合、処理は終了する。
【0114】
尚、ステップ306とステップ307とは、順序が入れ替えられてもよく、並列に処理されてもよく、どちらか一方のみが処理されてもよい。
【0115】
図4は、第1の実施形態に係るストリーミングの一例を示すフローチャートである。
【0116】
ステップ401において、ストリーミング部12は、作業メモリ25の音声データと映像データの送信部16への送信(ストリーミング送信)を開始する。
【0117】
送信部16は、ストリーミング部12より高品質の音声データ及びデータ量の調整された映像データを送信する。送信部16は、音声データの送信が完了した場合に、送信が完了したことを示す送信完了信号を判断部13へ送る。
【0118】
受信部17は、遠隔地端末102から音声データを受信したことを示す応答信号を受信した場合に、応答信号を判断部13へ送る。
【0119】
ステップ402において、判断部13は、通信状態を判断する。例えば、判断部13は、送信部16から送信完了信号を受けたか否かを判断する。例えば、判断部13は、受信部17から応答信号を受けたか否かを判断する。例えば、判断部13は、送信完了信号を受けてから応答信号を受けるまでの時間差が、所定の値以下であるか否かを判断する。
【0120】
送信部16より送信完了信号を受けない場合、受信部17より応答信号を受けない場合、又は、送信完了信号の受付時刻と応答信号の受付時刻との時間差が所定の値を越える場合に、判断部13は、音声データが正常に通信されなかったと判断する。
【0121】
送信完了信号の受付時刻と応答信号の受付時刻との時間差が所定の値以下である場合に、判断部13は、音声データが正常に通信されたと判断する。
【0122】
音声データが正常に通信されたと判断された場合、処理はステップ410に進む。
【0123】
音声データが正常に通信されなかったと判断された場合、ステップ403において、判断部13は、エラー通知と正常に通信されなかった音声データの音声データ情報とを再送指示部14へ送信する。
【0124】
ステップ404において、再送指示部14は、データ管理部10による音声データのデータ削除処理を停止する。
【0125】
ステップ405において、再送指示部14は、エラーデータの音声データ情報をストリーミング部12に通知する。
【0126】
ステップ406において、再送指示部14は、通信エラーが解消されたか否かを判断する。例えば、再送指示部14は、ストリーミング部12、及び送信部16を介してテスト用データを送信し、判断部13が受けたテスト用データの送信完了信号と応答信号との時間差が所定の値以下であるか否かを判断する。再送指示部14は、テスト用データの送信完了信号と応答信号との時間差が所定の値以下である場合に、通信エラーが解消されたと判断する。
【0127】
通信状態のエラーが解消されていない場合、ステップ406の判断は繰り返される。
【0128】
通信状態のエラーが解消されたと判断した場合、ステップ407において、再送指示部14は、通信エラーの生じた音声データまで遡って、音声データの送信部16への送信を再開するようにストリーミング部12に指示する。
【0129】
ステップ408において、再送指示部14は、映像データの通信が可能であるか否かを判断する。例えば、再送指示部14は、音声データが所定の回数正常に通信された場合に、通信ネットワークNWの状態が良好であり、映像データの通信が可能であると判断する。
【0130】
映像データの通信が可能でないと判断された場合、ステップ408の判断は繰り返される。
【0131】
映像データの通信が可能であると判断された場合、ステップ409において、再送指示部14は、音声データ情報及び映像データ情報に基づいて、音声データと同期した映像データの送信を開始する。
【0132】
すなわち、再送指示部14は、ストリーミング部12により、音声データの音声データ情報と対応する映像データ情報を有する映像データの送信部16への送信を開始する。
【0133】
また、再送指示部14は、データ管理部10によるデータ削除処理を開始する。
【0134】
ステップ410において、会議が終了される場合、処理は終了する。会議が終了されない場合、処理はステップ402へ戻る。
【0135】
尚、音声データが正常に通信されなかった場合に、再送指示部14は、正常に通信されなかった音声データより所定の時間だけ前の音声データから再送信するように指示してもよい。
【0136】
上記ステップ402における判断部13による通信状態の判断結果に基づいて、図3のステップ305〜307における映像データ加工(データ量の削減)が実行されるか否か決定されてもよい。例えば、ステップ402において、判断部13が所定の時間内に所定数以上の通信エラーを確認した場合に、映像処理部11は、映像データの圧縮率を上げてもよい。
【0137】
図5は、第1の実施形態に係る遠隔者端末102の映像出力部19Aにおける表示画面の一例を示す図である。
【0138】
画面26は、映像データの表示領域27と、キャプチャされた資料データの表示領域28と、再生タイムゲージ29とを含む。
【0139】
映像データの中央部27aには、会議場で発言している参加者が移されており、この中央部27aの解像度とフレームレートとのうちの少なくとも一方は、映像データの他の部分27bよりも高い。中央部27aは、音声発生方向に相当する領域である。
【0140】
表示領域2に表示される資料データは、映像データの中央部27a及び他の部分27bよりも高解像度であることが好ましく、フレームレートは低くてよい。
【0141】
再生タイムケージ29は、会議が始まってから経過した時間29a、現在の音声再生中の時間29b、ハイレゾリューション音声データの受信済みの時間29cを表示する。
【0142】
例えば、音声データが巻き戻されることなく通常状態でストリーミングされており、再送ストリーミングが発生していない場合には、会議が始まってから経過した時間29aと現在の音声再生中の時間29bとは一致する。
【0143】
例えば、音声データの再送ストリーミングが発生した場合には、会議が始まってから経過した時間29aより前の時間を表す位置に、現在の音声再生中の時間29bが表示される。再送ストリーミングが音声のない再送音声データを飛ばしながら進むと、会議が始まってから経過した時間29aと現在の音声再生中の時間29bとは再び一致する。
【0144】
ハイレゾリューション音声データは、会議ロボット101と遠隔地端末102との間のデータ通信量が所定値より少なく、無理なくハイレゾリューション音声データが通信可能な時間に、会議ロボット101から遠隔地端末102へ送信される。このため、ハイレゾリューション音声データの受信済みの時間29cは、会議が始まってから経過した時間29a及び現在の音声再生中の時間より前の時間を示す位置に表示される。
【0145】
以上説明した第1の実施形態においては、会議ロボット101の目に相当する位置に、映像入力部4が配置される。このため、会議の参加者が会議ロボット101の頭部1を見て話した場合に、遠隔地端末102のユーザは、自分が話しかけられたことを違和感なく容易に理解することができる。また、会議参加者は、会議場に設置された会議ロボットの向きから遠隔地のユーザの注目箇所を把握することができる。
【0146】
第1の実施形態によれば、判断部13により、音声データが正常に通信されたか否かが判断され、音声データが正常に通信されなかった場合に、正常に通信されなかったエラーデータを特定し、通信エラーの解消された後、エラーデータまで遡って音声データが再送信される。したがって、通信ネットワークNWに例えば輻輳が生じた場合であっても、音声を途切れさせることなく、品質の高い音声データを確実に送信することができる。
【0147】
さらに、第1の実施形態によれば、再送信の指示に応じて、又は、自動的に、既に作業メモリ25に格納されている音声データの中から、正常に通信されなかった音声データが読み出され、再送信されるので、例えば、通信エラーが確認されてから送信用の音声データを録音し、送信する場合と比較して、音声データの発信者(発言者)の負担を軽くすることができ、円滑な会議を実現することができる。
【0148】
さらに、第1の実施形態によれば、映像データは、映像データに含まれる領域の重要度、映像データの種類、音声の有無、通信ネットワークNWの状態に応じて映像処理部11により適宜にデータ量が削減される。したがって、映像データの通信によって通信ネットワークNWの負荷が増すことを防止することができ、映像データの品質よりも音声データの品質を優先してステレオ方式又はバイノーラル方式の音声データを送信することができる。
【0149】
第1の実施形態において、例えば、ロボットの頭部1は水平方向にのみ回転可能とする。本実施形態において、映像入力部4の撮影方向を上下に変更する必要がある場合には、例えば、頭部1を上下に回転させるのではなく、頭部1に備えられている映像入力部4の撮影方向を上下に変更する。これにより、ロボットの駆動及び操作を簡略化することができ、製造及びメンテナンスのコストを抑制することができる。
【0150】
[第2の実施形態]
本実施形態においては、上記第1の実施形態の変形例について説明する。
【0151】
図6は、第2の実施形態に係る会議システム110の構成の一例を示すブロック図である。上記の第1の実施形態では、会議ロボット101は、音声データのみを受信したが、第2の実施形態では、会議ロボット111は、音声データと映像データとを受信する。
【0152】
本実施形態では、遠隔地端末112は、映像入力部4A及び映像バッファメモリ7Aをさらに備える。
【0153】
会議ロボット111は、インジケータ20a,20b,20c,20d、モーションキャプチャ部21、インジケータ制御部22、動作モデル記憶部23、映像出力端子24をさらに備える。
【0154】
インジケータ20a,20b,20c,20dは、例えばLED等の複数の発光素子を含む。インジケータ20aは、例えば垂直方向(縦方向)に配置された発光素子を含む。インジケータ20bは、例えば水平方向(横方向)に配置された発光素子を含む。インジケータ20cは、例えば楕円状又は円状に配置された発光素子を含む。インジケータ20dは、例えば垂直方向(縦方向)に配置された発光素子を含む。
【0155】
動作モデル記憶部23は、例えば、「頷き」、「首振り」、「考え中」等の動作をインジケータ20a,20b,20c,20dを用いて表現する動作モデルデータを記憶する。「頷き」は、例えば首を縦に振る動作を示す。「首振り」は、例えば首を横に振る動作を示す。「考え中」は、例えば首を傾げる動作を示す。
【0156】
動作モデルデータは、特定の動作に対し、例えば人体の所定の位置に付されたマーカーの典型的な変位を示す情報(マーカー変位情報)を含む。
【0157】
例えば、「頷き」を示す動作モデルデータは、人体の頭部に付されたマーカーが垂直方向(縦方向)に反復動作することを示すマーカー変位情報を含む。
【0158】
例えば、「首振り(横振り)」を示す動作モデルデータは、人体の頭部に付されたマーカーが水平方向(横方向)に反復動作することを示すマーカー変位情報を含む。
【0159】
例えば、「考え中」を示す動作モデルデータは、人体の頭部に付されたマーカーが所定の点を中心として円弧を描く動作を示すマーカー変位情報を含む。
【0160】
モーションキャプチャ部21は、受信部17が受信した遠隔地端末112のユーザの映像データを解析し、遠隔地ユーザの動作情報を検出する。例えば、モーションキャプチャ部21は、受信した映像データから遠隔地ユーザの動作を検出し、検出された動作と動作モデル記憶部23に格納されている動作モデルデータが示す動作(「頷き」、「首振り」、「考え中」)とを比較する。
【0161】
映像データから検出された動作が、動作モデルデータが示す動作のいずれかと類似している場合、モーションキャプチャ部21は、抽出された動作と類似した動作を示す動作モデルデータの情報を、動作情報としてインジケータ制御部22に通知する。
【0162】
インジケータ制御部22は、モーションキャプチャ部21から送信された動作情報に基づいて、インジケータ20a,20b,20c,20dを制御する。
【0163】
例えば、インジケータ制御部22は、モーションキャプチャ部21から「頷き」の動作情報を受信した場合に、インジケータ20aの発光素子に青色の光を点灯し、「頷き」の動作を表現する。例えば、インジケータ制御部22は、発光素子の配置にそって発光素子を順次点滅させ、青色の光が縦方向に振動する様子を表現する。
【0164】
例えば、インジケータ制御部22は、モーションキャプチャ部21から「首振り」の動作情報を受信した場合に、インジケータ20bの発光素子に赤色の光を点灯し、「首振り」の動作を表現する。例えば、インジケータ制御部22は、発光素子の配置にそって発光素子を順次点滅させ、赤色の光が横方向に振動する様子を表現する。
【0165】
例えば、インジケータ制御部22は、モーションキャプチャ部21から「考え中」の動作情報を受信した場合に、インジケータ20cの発光素子に黄色の光を点灯し、「考え中」の動作を表現する。例えば、インジケータ制御部22は、発光素子の配置にそって発光素子を順次点滅させ、黄色の光が周回する様子を表現する。
【0166】
また、インジケータ制御部22は、音声データの通信状態に応じて、インジケータ20dを制御する。
【0167】
例えば、インジケータ制御部22は、会議ロボット111が音声データを受信した場合に、インジケータ20dの発光素子を点灯する。インジケータ制御部22は、例えば音声の大きさに応じてインジケータ20dの発光強度を制御してもよい。
【0168】
例えば、インジケータ制御部22は、会議場の参加者が話をしており、会議ロボット111の映像入力部4がその話をしている参加者の方向を向いている場合に、音声入力に応じて、自動で頷きを表現するインジケータ20aを発光させる。
【0169】
尚、インジケータ20a,20b,20c,20dの形状、配置、表示方法は、適宜に変更可能である。
【0170】
図7は、第2の実施形態に係る会議ロボット111の映像データ受信処理の一例を示すフローチャートである。
【0171】
ステップ701において、受信部17は、映像データを受信し、受信した映像データを映像処理部11に送る。
【0172】
ステップ702において、映像処理部11は、受信した映像データが静止画データか否かを判断する。
【0173】
受信した映像データが静止画データであると判断した場合、ステップ703において、映像処理部11は、映像出力端子24に接続されたディスプレイ装置によって静止画データを出力する。その後、処理はステップ708に進む。
【0174】
受信した映像データが静止画データでないと判断した場合、ステップ704において、映像処理部11は、映像データ(動画データ)をモーションキャプチャ部21に送信し、モーションキャプチャ部21は、映像データから動作情報を抽出する。
【0175】
ステップ705において、モーションキャプチャ部21は、映像データから抽出した動作が、動作モデル記憶部23に格納されている動作モデルデータが示す動作のいずれかと類似しているか否かを判断する。
【0176】
映像データから抽出した動作が、動作モデルデータが示す動作のいずれかとも類似していない場合、処理はステップ708に進む。
【0177】
映像データから抽出した動作が、動作モデルデータが示す動作のいずれかと類似している場合、ステップ706において、モーションキャプチャ部21は、抽出した動作と類似した動作を示す動作モデルデータの情報を動作情報としてインジケータ制御部22に通知する。
【0178】
ステップ707において、インジケータ制御部22は、通知された動作情報に基づいて、インジケータ20a,20b,20c,20dの表示を制御する。
【0179】
ステップ708において、映像データの受信が終了している場合、処理は終了する。映像データの受信が終了していない場合、処理はステップ702に戻る。
【0180】
第2の実施形態によれば、会議ロボット111が受信した映像データから例えば遠隔地ユーザの動作情報が抽出され、動作情報と音声データとに基づいてインジケータ20a,20b,20c,20dの表示が制御される。したがって、会議場の会議参加者は、会議ロボット111の視線のみならず、インジケータ20a,20b,20c,20dの表示からも遠隔地ユーザのノンバーバルな表現を把握することができる。
【0181】
さらに、第2の実施形態によれば、例えばモータにより会議ロボットを実際に駆動させる場合と比較して、低コスト且つ容易に遠隔地ユーザの動作及び表情を表現することができる。
【0182】
さらに、第2の実施形態においては、会議ロボット111が、遠隔地端末102のユーザの操作及び動作に基づく動作に加えて、自動で頭部1の方向、インジケータ20a,20b,20c,20dの発光を制御する。このように、手動の動作及び自動の動作を融合させることで、遠隔地端末102のユーザの操作負担を軽減するとともに、会議ロボット111の迅速かつ自然な挙動を実現できる。
【0183】
尚、モーションキャプチャ部21、インジケータ制御部22、及び動作モデル記憶部23は、遠隔地端末112に備えられていてもよい。この場合、インジケータ制御部22は、インジケータ20a,20b,20c,20dの制御情報を、送信部16A経由で会議ロボット111に送信する。これにより、会議ロボット111の製造コスト及び動作負荷を低減することができる。
【0184】
また、インジケータ制御部22は、例えば、遠隔地端末112の操作部18Aを介して遠隔地ユーザにより入力されたロボット制御情報に基づいてインジケータ20a,20b,20c,20dを制御してもよい。
【0185】
インジケータ制御部22は、ロボット制御部15に含まれているとしてもよい。
【0186】
また、インジケータ20a,20b,20c,20dは、遠隔地ユーザの動作に加えて、遠隔地ユーザの表情に基づいて、制御されてもよい。例えば、モーションキャプチャ部21は、受信した映像データから、遠隔地ユーザの表情を抽出し、表情情報をインジケータ制御部22に送り、インジケータ制御部22は、受けた表情情報に基づいて、インジケータインジケータ20a,20b,20c,20dを制御してもよい。
【0187】
上記の各実施形態は、発明の趣旨が変わらない範囲で様々に変更して適用することができる。例えば、各構成要素は、適宜、組み合わされてもよく、分離されてもよい。
【符号の説明】
【0188】
1…頭部、2…胴部、3,3A…音声入力部、4,4A…映像入力部、5,5A…音声出力部、6,6A…音声バッファメモリ、7,7A…映像バッファメモリ、8,8A…コントローラ、9,9A…設定部、10,10A…データ管理部、11,11A…映像処理部、12,12A…ストリーミング部、13,13A…判断部、14,14A…再送指示部、15,15A…ロボット制御部、16,16A…送信部、17,17A…受信部、18A…操作部、19A…映像出力部、20a,20b,20c,20d…インジケータ、21…モーションキャプチャ部、22…インジケータ制御部、23…動作モデル制御部、24…映像出力端子。
【要約】
【課題】低コストで良好な音声品質を実現する会議システムを提供する。
【解決手段】本実施形態に係る会議システムは、会議ロボットと端末とを含む。会議ロボットは、メモリと、判断部と、送信部とを含む。メモリは、ステレオ方式又はバイノーラル方式の音声データと、音声データに対応し頭部に備えられた映像入力部によって入力された映像データとを格納する。判断部は、音声データの通信が正常か否か判断する。送信部は、メモリに格納されている音声データと音声データに対応する映像データとを順次送信し、判断部によって通信が正常でないと判断された場合に、メモリに格納されており通信が正常でないと判断された音声データに対応する再送音声データを順次送信する。
【選択図】図1
図1
図2
図3
図4
図5
図6
図7