(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-04-30
(45)【発行日】2025-05-12
(54)【発明の名称】遠隔会議方法、及び遠隔会議システム
(51)【国際特許分類】
H04N 7/15 20060101AFI20250501BHJP
H04M 3/56 20060101ALI20250501BHJP
【FI】
H04N7/15
H04M3/56 C
(21)【出願番号】P 2021125635
(22)【出願日】2021-07-30
【審査請求日】2024-03-21
(73)【特許権者】
【識別番号】000005049
【氏名又は名称】シャープ株式会社
(74)【代理人】
【識別番号】100147304
【氏名又は名称】井上 知哉
(74)【代理人】
【識別番号】100148493
【氏名又は名称】加藤 浩二
(74)【代理人】
【識別番号】100168583
【氏名又は名称】前井 宏之
(72)【発明者】
【氏名】米田 明日香
【審査官】富樫 明
(56)【参考文献】
【文献】特開2014-168135(JP,A)
【文献】特開2015-046822(JP,A)
【文献】特開2004-072741(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 7/14-7/15
H04M 3/56
(57)【特許請求の範囲】
【請求項1】
遠隔会議に参加する少なくとも3人以上の参加者の会議端末ごとに、前記参加者の音声を取得し、取得した音声から音量情報を含む音声データを生成する第1生成ステップと、
前記参加者の会議端末ごとに、前記参加者の会議中の映像を取得して映像データを生成する第2生成ステップと、
前記参加者の会議端末ごとに、前記参加者ごとの仮想空間上の座席を示す座席情報を表示する表示ステップと、
前記参加者の会議端末ごとに、前記座席情報と、当該参加者の前記音声データの前記音量情報及び前記映像データとに基づいて、当該参加者の音声データの送信先を決定する決定ステップと、
前記参加者の会議端末ごとに、当該参加者の前記音声データに対して決定された前記送信先に基づいて、当該参加者の前記音声データを送信する送信ステップと
を含む遠隔会議方法。
【請求項2】
前記送信ステップは、前記参加者ごとの前記音声データの送信元に基づき、前記各参加者の会議端末に対し、当該参加者以外の他の参加者の会議端末からの前記映像データを送信する、請求項1に記載の遠隔会議方法。
【請求項3】
前記決定ステップは、前記音声データの送信先として、全ての前記参加者の会議端末を示す第1送信先と、前記全ての参加者の会議端末うち一の参加者の会議端末を示す第2送信先とのいずれか一方を設定し、
前記第1送信先は、前記音声データの前記音量情報が所定の閾値より大きい場合に設定され、
前記第2送信先は、前記音声データの前記音量情報が前記所定の閾値以下の場合に設定され、
前記一の参加者の会議端末は、前記座席情報において、前記音声データと共に取得された前記映像データに映る前記参加者の顔の向きに対応する会議端末である、請求項2に記載の遠隔会議方法。
【請求項4】
前記参加者の会議端末ごとに、他の前記参加者の前記音声データを受信して前記音声データを再生する再生ステップをさらに含み、
前記再生ステップにおいて受信した前記音声データの中に、前記第1送信先を含む音声データと、前記第2送信先を含む音声データとが含まれる場合、前記再生ステップは、前記第1送信先を含む音声データを、前記第2送信先を含む音声データよりも音量を小さくして再生する、請求項3に記載の遠隔会議方法。
【請求項5】
前記再生ステップは、前記他の会議端末の前記映像データを受信し、
前記表示ステップは、前記座席情報に基づいて、前記第2生成ステップで生成された前記映像データと、前記再生ステップで受信された前記他の会議端末の前記映像データとを表示する、請求項4に記載の遠隔会議方法。
【請求項6】
前記再生ステップは、前記他の会議端末の前記音声データとともに、当該音声データの送信元を示す送信元情報を受信し、
前記表示ステップは、前記再生ステップで受信された前記音声データに前記第2送信先が含まれる場合、前記第2送信先を含む音声データの前記送信元情報に対応する前記映像データと、他の前記映像データとを識別可能に表示する、請求項5に記載の遠隔会議方法。
【請求項7】
前記参加者の会議端末ごとに、前記表示ステップで表示された前記座席情報において前記参加者の選択を受け付ける選択受付ステップをさらに含み、
前記決定ステップは、前記選択受付ステップで受け付けられた前記参加者の選択と前記映像データとに基づいて、前記音声データの送信先を決定する、請求項1から6のいずれか一項に記載の遠隔会議方法。
【請求項8】
遠隔会議に参加する少なくとも3人以上の参加者ごとの会議端末と、
前記参加者ごとの前記会議端末と通信回線を介して接続されたサーバと
を備え、
前記会議端末は、
前記参加者ごとの仮想空間上の座席を示す座席情報を記憶する記憶部と、
前記座席情報を表示する表示部と、
前記参加者の音声を取得し、取得した音声から音量情報を含む音声データを生成する音声データ生成部と、
前記参加者の会議中の映像を取得して映像データを生成する映像データ生成部と、
前記座席情報と、前記音声データの前記音量情報及び前記映像データとに基づいて、前記音声データの送信先を決定する決定部と、
決定された前記送信先を示す送信先情報を対応づけた前記音声データを含む音声情報と、前記映像データを含む映像情報とを、自端末を示す送信元情報とともに前記サーバへ送信する第1送信部と、
を含み、
前記サーバは、
各会議端末から前記音声情報、前記映像情報及び前記送信元情報を取得する取得部と、
前記各会議端末に対し、取得した前記各会議端末からの前記音声情報の前記送信先情報に基づき、当該会議端末に対する前記音声情報を送信する第2送信部と
を含む、遠隔会議システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、遠隔会議方法、及び遠隔会議システムに関する。
【背景技術】
【0002】
近年、インターネットや専用回線等の通信回線を介したテレビ会議システムの利用が高まっている。下記特許文献1には、離れた場所にいる複数(3人以上)の人が電話回線などを使って音声による会議を行う場合の会話制御方法が開示されている。この会話制御方法は、仮想のレイアウトにおける会議の参加者の位置と、参加者の向き等とに基づいて、参加者ごとに立体音声データを生成することで、各参加者が、誰が誰に向かって話しているのか等の状況を掴みやすくする。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、対面で行う会議の場においては、隣にいる参加者同士が小声で会話する場合がある。テレビ会議等の遠隔会議においても、会議に参加しながら一部の参加者同士で会話したいというニーズがある。
【0005】
本発明は、遠隔会議の進行を妨げることなく、一部の参加者同士で会話を行い得る技術を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明に係る遠隔会議方法は、第1生成ステップ、第2生成ステップ、表示ステップ、決定ステップ、及び送信ステップを含む。第1生成ステップは、遠隔会議に参加する少なくとも3人以上の参加者の会議端末ごとに、参加者の音声を取得し、取得した音声から音量情報を含む音声データを生成する。第2生成ステップは、参加者の会議端末ごとに、参加者の会議中の映像を取得して映像データを生成する。表示ステップは、参加者の会議端末ごとに、参加者ごとの仮想空間上の座席を示す座席情報を表示する。決定ステップは、参加者の会議端末ごとに、座席情報と、当該参加者の前記音声データの音量情報及び映像データとに基づいて、当該参加者の音声データの送信先を決定する。送信ステップは、参加者の会議端末ごとに、当該参加者の前記音声データに対して決定された送信先に基づいて、当該参加者の前記音声データを送信する。
【0007】
また、本発明に係る遠隔会議システムは、会議端末とサーバとを備える。会議端末は、遠隔会議に参加する少なくとも3人以上の参加者ごとの会議端末である。サーバは、参加者ごとの会議端末と通信回線を介して接続される。会議端末は、記憶部、表示部、音声データ生成部、映像データ生成部、決定部、及び第1送信部を備える。記憶部は、参加者ごとの仮想空間上の座席を示す座席情報を記憶する。表示部は、座席情報を表示する。音声データ生成部は、参加者の音声を取得し、取得した音声から音量情報を含む音声データを生成する。映像データ生成部は、参加者の会議中の映像を取得して映像データを生成する。決定部は、座席情報と、音声データの前記音量情報及び前記映像データとに基づいて、音声データの送信先を決定する。第1送信部は、決定された送信先を示す送信先情報を対応づけた音声データを含む音声情報と、映像データを含む映像情報とを、自端末を示す送信元情報とともにサーバへ送信する。サーバは、取得部と第2送信部とを備える。取得部は、各会議端末から前記音声情報、前記映像情報及び前記送信元情報を取得する。第2送信部は、各会議端末に対し、取得した各会議端末からの音声情報の前記送信先情報に基づき、当該会議端末に対する音声情報を送信する。
【発明の効果】
【0008】
本発明に係る遠隔会議方法、及び遠隔会議システムによれば、遠隔会議の進行を妨げることなく、一部の参加者同士で会話を行うことができる。
【図面の簡単な説明】
【0009】
【
図1】
図1は、実施形態におけるテレビ会議システムの構成を示す模式図である。
【
図2】
図2は、実施形態における会議端末の概略構成を示すブロック図である。
【
図4】
図4は、実施形態におけるサーバの概略構成を示すブロック図である。
【
図5A】
図5Aは、会議端末及びサーバにおける音声データ及び映像データの送受信処理を示す動作フローである。
【
図5B】
図5Bは、会議端末におけるサーバから送信された映像データ及び音声データの再生処理を示す動作フローである。
【発明を実施するための形態】
【0010】
以下、図面を参照して、実施形態に係る遠隔会議システム及び遠隔会議方法について説明する。なお、図中、同一又は相当部分については同一の参照符号を付して説明を繰り返さない。
【0011】
図1は、本実施形態におけるテレビ会議システム1(遠隔会議システムの一例)の構成を示す模式図である。
図1に示すように、テレビ会議システム1は、テレビ会議に参加する複数の参加者それぞれの会議端末10とサーバ20とを備える。本実施形態において、テレビ会議には、4人の参加者A~Dが参加するものとする。参加者A~Dの会議端末10を区別する場合、会議端末10A~10Dと記載する。なお、テレビ会議の参加者の人数は4人に限定されず、少なくとも3人以上であればよい。
【0012】
会議端末10とサーバ20とは、公衆回線又は専用回線等の通信回線Nに接続されている。参加者は、会議端末10を用い、離れた場所にいる他の参加者と通信し、テレビ会議を行う。各参加者は、予め設定された仮想空間上の座席表で指定された座席に着座しているものとしてテレビ会議に参加する。以下、テレビ会議システム1の構成について具体的に説明する。
【0013】
(会議端末10(10A~10D))
図2は、会議端末10の概略構成を示すブロック図である。会議端末10は、本実施形態において、PC(Personal Computer)、タブレット端末、又はスマートフォン等の装置であってもよい。以下、参加者Aの会議端末10Aを例に会議端末10の構成を説明する。
【0014】
会議端末10Aは、
図2に示すように、マイク11、カメラ12、スピーカ13、通信部14(第1送信部及び受信部の一例)、操作部15(選択受付部の一例)、記憶部16、表示部17、及び制御部18を備える。
【0015】
マイク11は、参加者Aの音声を集音し、集音した音声の音声信号を制御部18へ出力する。
【0016】
カメラ12は、被写体として参加者Aを撮像し、撮像信号を制御部18へ出力する。
【0017】
スピーカ13は、制御部18から出力された音声信号をD/A変換し、増幅して放音する。
【0018】
通信部14は、通信回線Nを介してサーバ20と通信するための通信インタフェースである。通信部14は、制御部18の制御の下、例えばRTP(Real-time Transport Protocol)等の通信プロトコルを用い、サーバ20との間で通信を確立し、映像データ及び音声データを送受信する。具体的には、通信部14は、サーバ20から受信した映像データ及び音声データを制御部18へ出力する。また、通信部14は、制御部18から入力される映像データ及び音声データをサーバ20へ送信する。
【0019】
操作部15は、マウス、キーボード、又はタッチパネル等を含む。操作部15は、参加者Aの操作を受け付け、受け付けた操作を示す操作信号を制御部18へ出力する。
【0020】
記憶部16は、ハードディスク等の不揮発性記憶媒体を含む。記憶部16は、座席表100a及び座席情報100bを記憶する。
図3Aは、座席表100aの一例を示す図である。座席表100aは、仮想空間上の参加者A~Dの座席を示す。具体的には、座席表100aは、円形の仮想テーブルTを囲む座席S1~S4に参加者を識別する識別情報(例えば氏名)が記載されている。参加者A~Dの座席は、参加者A~Dと同じアルファベットが付された座席である。座席表100aは、テレビ会議の間、表示部17に表示される。
【0021】
図3Bは、座席情報100bの一例を示す図である。座席情報100bは、参加者A~Dの仮想空間上の位置を示す情報であり、
図3Aに示す座席表100a対応している。
図3Bに示すように、座席情報100bは、参加者ごとに、参加者の左側及び右側に着席する参加者の会議端末10を示す情報(IPアドレス等)が記憶される。
【0022】
表示部17は、表示パネルと、表示パネルを駆動する駆動回路とを含む(いずれも図示略)。駆動回路は、制御部18の制御の下、座席表100a及び参加者A~Dの映像等の各種画像を表示するための駆動信号を表示パネルに供給する。
【0023】
制御部18は、CPU(Central Processing Unit)及びメモリ(ROM(Read Only Memory)及びRAM(Random Access Memory))を含む。制御部18は、CPUがROMに記憶された制御プログラムを実行することにより、音声・映像処理部181(音声データ生成部及び映像データ生成部の一例)、決定部182、表示制御部183、及び音量調整部184として機能する。
【0024】
音声・映像処理部181は、CODECを含む。音声・映像処理部181は、通信部21を介して、テレビ会議中の映像データ及び音声データのパケット(映像情報及び音声情報の一例)をサーバ20との間で逐次送受信する。
【0025】
具体的には、音声・映像処理部181は、マイク11から入力される一定時間ごとの音声信号と、カメラ12から入力される一定時間ごとの映像信号とを、テレビ会議システムの規格(例えばH.323)に従ってデジタルデータに変換する。そして、音声・映像処理部181は、このデジタルデータをエンコードして音声データ及び映像データを生成し、決定部182へ出力する。
【0026】
また、音声・映像処理部181は、通信部14から逐次入力されるサーバ20からの映像データ及び音声データをデコードする。サーバ20からの映像データ及び音声データは、他の会議端末B~Dの映像データ及び音声データが多重化されている。音声・映像処理部181は、サーバ20からの映像データ及び音声データをデコードし、会議端末B~Dそれぞれの映像データ及び音声データのパケットに分離する。会議端末B~Dの音声データには音量情報が含まれ、音声データには送信先情報、送信元情報、タイムスタンプ等の情報が付加されている。送信元情報は、音声データの送信元である会議端末10のIPアドレスである。送信先情報は、第1送信先情報と第2送信先情報のいずれかを含む。第1送信先情報は、自端末を除く全ての会議端末10のIPアドレスであり、第2送信先情報は、他の一の会議端末10のIPアドレスである。
【0027】
以下、第1送信先情報を含む音声データを第1音声データ、第2送信先情報を含む音声データを第2音声データと記載する場合がある。
【0028】
音声・映像処理部181は、デコードして分離された会議端末10ごとの音声データをタイムスタンプの順に並べて音量調整部184へ出力する。
【0029】
音量調整部184は、会議端末10ごとの音声データに含まれる送信先情報及び音量情報に基づいて、各音声データに対してゲイン調整を行った各音声信号をミキシングしてスピーカ13から出力する。具体的には、音量調整部184は、会議端末B~Dからの各音声データ(以下、音声データB~D)がいずれも第1音声データである場合、通常モードで動作する。通常モードは、各音声データの音量情報を基に、全体の音声を均一な音量に調整した音声信号をミキシングしてスピーカ13に入力するモードである。また、音量調整部184は、音声データB~Dのいずれかが第2音声データである場合、すなわち、第1音声データと第2音声データとが含まれる場合、特定モードで動作する。特定モードは、第1音声データの音量が第2音声データの音量より小さくなるようにゲイン調整を行った音声信号をミキシングしてスピーカ13に入力するモードである。本実施形態において、音声・映像処理部181、音量調整部184、及びスピーカ13は、再生部の一例である。
【0030】
決定部182は、音声・映像処理部181から入力される映像データ及び音声データと、座席情報100bとに基づいて、音声データの送信先を決定する。そして、決定部182は、決定した送信先を示す送信先情報等を含むヘッダ情報を付加した音声データのパケットと、他の全ての会議端末10を示す送信先情報等を含むヘッダ情報を付加した映像データのパケットを生成して通信部14へ出力する。
【0031】
具体的には、決定部182は、音声・映像処理部181から入力された参加者Aの音声データ(以下、音声データA)の音量が閾値以上である場合、音声データAの送信先情報として、他の全ての会議端末10のIPアドレスを示す第1送信先情報を設定する。
【0032】
また、音声データAの音量が閾値未満の場合、決定部182は、音声データAと略同じタイミングで入力された映像データの画像解析を行い、音声データAの送信先情報として、一の会議端末10のIPアドレスを示す第2送信先情報を設定する。一の会議端末10は、映像データに映る参加者Aの顔の向き及び座席情報100bに基づいて決定される。つまり、決定部182は、参加者Aの隣の参加者B又は参加者Dのうち、参加者Aの顔が向いている方向(左又は右)に着座する参加者の会議端末10B又は10Dを送信先として決定する。例えば、参加者Aが右隣の参加者D(
図3A参照)の方に顔を向け、音量が閾値未満となる小声で話かけた場合、第2送信先情報として会議端末10DのIPアドレスが設定される。
【0033】
表示制御部183は、音声・映像処理部181から入力される参加者A~Dの各映像データを表示部17に出力し、表示部17に参加者A~Dの映像を表示させる。また、表示制御部183は、テレビ会議の間、
図3Aに示す座席表100aを表示部17に表示させる。なお、参加者A~Dの映像は、座席表100aにおける参加者A~Dの配置と同じ配置となるように表示されてもよい。本実施形態において、表示制御部183及び表示部17は、再生部の一例である。
【0034】
(サーバ20)
図4は、サーバ20の概略構成を示すブロック図である。
図4に示すように、サーバ20は、通信部21(取得部及び第2送信部の一例)、制御部22、及び記憶部23を備える。
【0035】
通信部21は、通信回線Nを介して会議端末10A~10Dと通信する通信インタフェースである。通信部21は、制御部22の制御の下、RTP等の所定の通信プロトコルを用い、会議端末10A~10Dとの間で通信を確立し、映像データ及び音声データを送受信する。
【0036】
記憶部23は、ハードディスク等の不揮発性記憶媒体を含む。記憶部23は、会議端末10A~10Dの識別情報(IPアドレス等)を含む会議端末情報(図示略)を記憶する。
【0037】
制御部22は、CPU及びメモリ(ROM及びRAM)を含む。制御部22は、CPUが、ROMに記憶された制御プログラムを実行することにより、通信部21を介して、各会議端末10との間で通信する。具体的には、制御部22は、各会議端末10から送信された音声データ(第1音声データ又は第2音声データ)及び映像データのパケットを取得し、音声データ及び映像データのパケットの送信元と異なる他の会議端末10に対して送信する。
【0038】
つまり、会議端末10Aに送信される映像データは、会議端末10B~10Dから送信される映像データB~Dが多重化された映像データである。また、会議端末10A~10Dから取得した音声データA~Dが第1音声データである場合、会議端末10Aには、音声データB~Dを多重化した音声データが送信される。また、音声データA~Dのうち、例えば音声データAが第2音声データあり、音声データAに会議端末10Dを示す第2送信先情報が含まれる場合、会議端末10Dに対し、音声データB、C(第1音声データ)と、音声データA(第2音声データ)とが多重化された音声データが送信される。この場合、会議端末10Aには、音声データB~D(第1音声データ)を多重化した音声データが送信される。会議端末10Bには、音声データC、D(第1音声データ)を多重化した音声データが送信される。会議端末10Cには、音声データB、D(第1音声データ)を多重化した音声データが送信される。
【0039】
(動作)
図5Aは、会議端末10A及びサーバ20における音声データ及び映像データの送受信処理を示す動作フローである。
図5Bは、会議端末10Dにおけるサーバ20からの映像データ及び音声データの再生処理を示す動作フローである。なお、
図5A及び
図5Bにおいて、各会議端末10の表示部17には、
図3Aに示す座席表100aが表示されているものとする。
【0040】
図5Aにおいて、会議端末10Aは、テレビ会議の間、マイク11により参加者Aの音声を集音し、カメラ12により参加者Aを撮影する。会議端末10Aにおける制御部18は、マイク11で集音された音声信号と、カメラ12で撮影された映像信号とを音声・映像処理部181でA/D変換してエンコードすることにより、音声データAと映像データAとを逐次取得する(ステップS11)。
【0041】
制御部18は、音声データAの音量が閾値以上である場合(ステップS12:Yes)、決定部182により、会議端末10B~10Dを示す第1送信先情報、自端末を示す送信元情報等を付加した音声データA(第1音声データ)及び映像データAのパケットを生成し、通信部14を介してサーバ20に送信する(ステップS13)。
【0042】
また、制御部18は、音声データAの音量が閾値以上でない場合(ステップS12:No)、決定部182により、第2音声データ及び映像データAのパケットを生成し、通信部14を介してサーバ20へ送信する(ステップS14)。
【0043】
具体的には、決定部182は、座席情報100b(
図3B)を参照し、取得した映像データの画像解析を行って、参加者Aの顔の向きに対応する会議端末10を送信先として決定する。そして、決定部182は、決定した会議端末10のIPアドレスを示す第2送信先情報、及び自端末を示す送信元情報等を付加した音声データA(第2音声データ)のパケットを生成する。また、決定部182は、他の全ての会議端末10のIPアドレスを示す送信先情報、及び自端末を示す送信元情報等を付加した映像データAのパケットを生成する。決定部182は、音声データA及び映像データAのパケットを通信部14に入力する。通信部14は、決定部182から入力された音声データA(第2音声データ)及び映像データAのパケットをサーバ20に送信する。
【0044】
つまり、例えば、テレビ会議中に、参加者Aが参加者Dに話しかけたい場合、参加者Aは顔を右側に向けて小声で話しかける。この場合、参加者Aの音声データ(音声データA)に対する送信先として会議端末10Dが決定され、会議端末10DのIPアドレスを示す第2送信先情報等が付加された音声データA(第2音声データ)のパケットが、映像データAのパケットとともにサーバ20に送信される。
【0045】
制御部18は、テレビ会議が終了されるまで(ステップS15:No)、ステップS11以下の処理を繰り返し、テレビ会議が終了されると(ステップS15:Yes)、処理を終了する。
【0046】
サーバ20は、通信部21を介して会議端末10A~10Dから音声データ(音声データA~D)及び映像データ(映像データA~D)を逐次取得する(ステップS21)。
【0047】
制御部22は、取得した音声データA~Dの中に第2音声データのパケットが含まれる場合(ステップS22:Yes)、第2音声データのパケットにおける第2送信先情報が示す会議端末10に対し、第2音声データ及び第1音声データのパケットを多重化して送信し、他の会議端末10に対し、第1音声データのパケットを多重化して送信する(ステップS23)。
【0048】
つまり、音声データAのパケットに会議端末10DのIPアドレスを示す第2送信先情報が含まれている場合、会議端末10Dには、音声データA(第2音声データ)のパケットと音声データB~D(第1音声データ)のパケットとが多重化された音声データと、映像データA~Cのパケットが多重化された映像データとが送信される。会議端末10Aには、音声データB~D及び映像データB~Dのパケットをそれぞれ多重化した音声データ及び映像データが送信される。会議端末10Bには、音声データC、D及び映像データA、C、Dのパケットをそれぞれ多重化した音声データ及び映像データが送信される。会議端末10Cには、音声データB、D、及び映像データA、B、Dのパケットをそれぞれ多重化した音声データ及び映像データが送信される。このように、第2音声データの送信先でない会議端末10には、自端末以外の会議端末10からの第1音声データのパケットのみが多重化されて送信される。
【0049】
そして、制御部22は、各会議端末10に対し、他の会議端末10から取得した映像データのパケットを多重化した映像データを、通信部21を介して送信する(ステップS24)。つまり、会議端末10Aには、映像データB~Dのパケットを多重化した映像データが送信され、会議端末10Bには、映像データA、C、Dのパケットを多重化した映像データが送信される。また、会議端末10Cには、映像データA、B、Dのパケットを多重化した映像データが送信され、会議端末10Dには、映像データA~Cのパケットを多重化した映像データが送信される。
【0050】
また、制御部22は、取得した音声データA~Dのパケットの中に第2音声データのパケットが含まれない場合(ステップS22:No)、すなわち、第1音声データのパケットのみを取得した場合、各会議端末10に対し、他の会議端末10から取得した音声データのパケットを多重化した音声データを、通信部21を介して送信する(ステップS25)。つまり、会議端末10Aには、音声データB~Dのパケットを多重化した音声データが送信され、会議端末10Bには、音声データA、C、Dのパケットを多重化した音声データが送信される。また、会議端末10Cには、音声データA、B、Dのパケットを多重化した音声データが送信され、会議端末10Dには、音声データA~Cのパケットを多重化した音声データが送信される。
【0051】
制御部22は、テレビ会議が終了するまで(ステップS26:No)、ステップS21以下の処理を繰り返し、テレビ会議が終了されると(ステップS26:Yes)、処理を終了する。
【0052】
なお、
図5Aでは、説明の便宜上、会議端末10Aを例に説明したが、会議端末10B~10Dも、参加者B~Dの発話に応じて、会議端末10Aと同様の処理を行う。
【0053】
続いて、
図5Bを参照し、会議端末10Dにおける音声及び映像の再生処理について説明する。会議端末10Dは、通信部14を介して、サーバ20から多重化された音声データ及び映像データを逐次取得する(ステップS31)。
【0054】
会議端末10Dの制御部18は、音声・映像処理部181において、取得した音声データ及び映像データをデコードし、音声データA~C及び映像データA~Cのパケットをそれぞれ分離する(ステップS32)。
【0055】
音声データA~Cのパケットに第1音声データのパケットのみが含まれる場合(ステップS33:Yes)、制御部18は、音量調整部184を通常モードで動作させる(ステップS33)。つまり、音量調整部184は、音声データA~Cの各音量が均一となるように各音声データのゲインを調整した音声信号をミキシングしてスピーカ13から出力する。
【0056】
ステップS33において、音声データA~Cのパケットに第2音声データのパケットが含まれる場合(ステップS33:No)、制御部18は、音量調整部184を特定モードで動作させる(ステップS35)。音声データAは、会議端末Dを送信先とする第2音声データである。音量調整部184は、音声データB及びCの音量が音声データAの音量よりも小さくなるように音声データA~Cのゲイン調整を行った音声信号をミキシングし、スピーカ13に入力する。スピーカ13は、音量調整部184から入力された音声信号を増幅して出力する。これにより、参加者Dは、参加者Aの音声を聞き取りやすく、参加者A以外の参加者B及びCの音声も聞くことができる。
【0057】
そして、制御部18は、音声・映像処理部181により各映像データA~Cを表示制御部183へ出力し、表示部17に参加者A~Cの映像をそれぞれ表示させる(ステップS36)。
【0058】
制御部18は、テレビ会議が終了するまで(ステップS37:No)、ステップS31以下の処理を繰り返し、テレビ会議が終了した場合(ステップS37:Yes)、再生処理を終了する。
【0059】
図5Bでは、説明の便宜上、会議端末10Dを例に説明したが、会議端末10A~10Cも、サーバ20から取得する音声データに応じて、会議端末10Dと同様の処理を行う。
【0060】
本実施形態では、テレビ会議中に、各参加者は、仮想空間における隣の参加者の方に顔を向けて小声で話すことで、その音声を特定の参加者のみに送ることができる。そのため、テレビ会議の進行を妨げることなく、一部の会議参加者同士で会話することができる。また、一部の参加者同士の会話の音声よりも他の参加者の音声が小さく再生されるため、一部の参加者同士の会話が聞き取りやすい。テレビ会議中の音声も聞きながら、一部の会議参加者同士で会話ができるため、テレビ会議中の音声が全く聞こえない場合と比べ、実際に対面で行う会議のような臨場感を得ることができる。
【0061】
以上、本発明に係る遠隔会議システム及び遠隔会議方法の実施形態について説明した。但し、遠隔会議システム及び遠隔会議方法は、上記の実施形態に限られるものではなく、その要旨を逸脱しない範囲で種々の態様において実施することが可能である。図面は、理解しやすくするために、それぞれの構成要素を主体に模式的に示しており、図示された各構成要素の厚み、長さ、個数等は、図面作成の都合上から実際とは異なる。また、上記の実施形態で示す各構成要素の形状、寸法等は一例であって、特に限定されるものではなく、本発明の効果から実質的に逸脱しない範囲で種々の変更が可能である。以下、上記実施形態の変形例を説明する。
【0062】
[変形例]
(1)会議端末10において、第2音声データを再生する際、第2音声データの送信元を認識できるように、表示部17に表示された各参加者の映像の表示態様を変えてもよい。つまり、例えば、第2音声データの送信元に対応する参加者の映像を他の参加者の映像より大きく表示させてもよいし、第2音声データの送信元に対応する参加者の映像に、第2音声データの再生中であることを示すマークを重畳して表示させてもよい。
【0063】
(2)決定部182は、音声データの音量が閾値以下である場合、映像データに映る参加者の顔の向きに加え、操作部15を介した参加者の操作に基づいて、音声データの送信先を決定してもよい。参加者の操作は、例えば、表示部17に表示された座席表100aにおける座席S1~S4のいずれかをマウス等で指定する操作であってもよい。このように構成することで、音声データの送信先をより確実且つ柔軟に決定することができる。
【0064】
(3)サーバ20から会議端末10に送信される音声データに、互いに異なる複数の会議端末10から送信された第2音声データが含まれていてもよい。例えば、参加者Aと参加者Cがそれぞれ参加者Dに小声で話しかけた場合、会議端末10Dに対し、サーバ20から、音声データA及び音声データC(第2音声データ)の各パケットと、音声データB(第1音声データ)のパケットとを多重化した音声データが送信される。会議端末10Dは、音量調整部184において、音声データBの音量が音声データAと音声データCの各音量よりも小さくなるようにゲイン調整し、ゲイン調整した音声データA~Cの音声信号をミキシングしてスピーカ13から出力する。なお、音声データAと音声データCのいずれか一方の音量を、予め定めた優先度に従って他方の音量よりも大きくしてもよい。
【0065】
(4)会議端末10における音量調整をサーバ20で行い、音量調整後の音声データを多重化して各会議端末10に送信してもよい。
【0066】
(5)テレビ会議システム1は、インターネットを介して会議端末10とサーバ20とが接続されたWEB会議システム(遠隔会議システムの一例)に適用されてもよい。この場合、各会議端末10は、テレビ会議を行う他の会議端末10との間でRTPセッションを確立し、映像データ及び音声データをエンコードして所定の暗号化処理を行った映像データ及び音声データを含むRTPパケットをサーバ20へ送信する。各会議端末10は、サーバ20からの多重化された音声データ及び映像データをデコードして分離し、復号化処理を行って音声データ及び映像データを再生する。
【0067】
(6)会議端末10において、音声データのパケットを生成する際、音声データの音声が無音である場合、無音であることを示す無音情報を音声データに付加してもよい。この場合、例えば、会議端末10Dは、ステップS33において、会議端末10Aからの第2音声データを含む音声データをサーバ20から受信した後、無音情報が付加された第2音声データのパケットを連続して所定数受信するまで特定モードで動作してもよい。会議端末10Aは、無音情報が付加された第2音声データのパケットを連続して所定数受信した場合、特定モードを終了する。
【0068】
(7)会議端末10において、例えば、参加者により、サーバ20に映像を送信しないビデオオフ操作がなされた場合、会議端末10は、参加者又は会議端末10を示す識別情報を含む所定の画像信号、もしくはビデオオフを示すビデオオフ信号をサーバ20に送信してもよい。サーバ20は、会議端末10から受信した所定の画像信号又はビデオオフ信号を他の会議端末10に対して送信し、他の会議端末10において、所定の画像信号又はビデオオフ信号に応じた画像を表示させてもよい。
【産業上の利用可能性】
【0069】
本発明は、少なくとも3人以上の参加者の端末を用いたテレビ会議やWEB会議等の遠隔会議に利用可能である。
【符号の説明】
【0070】
1 テレビ会議システム
10,10A~10D 会議端末
11 マイク
12 カメラ
13 スピーカ
14、21 通信部
15 操作部
16、23 記憶部
17 表示部
18、22 制御部
20 サーバ
181 音声・映像処理部
182 決定部
183 表示制御部
184 音量調整部