IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 沖電気工業株式会社の特許一覧

特開2022-114044遠隔会議装置、遠隔会議方法、遠隔会議端末および遠隔会議システム
<>
  • 特開-遠隔会議装置、遠隔会議方法、遠隔会議端末および遠隔会議システム 図1
  • 特開-遠隔会議装置、遠隔会議方法、遠隔会議端末および遠隔会議システム 図2
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022114044
(43)【公開日】2022-08-05
(54)【発明の名称】遠隔会議装置、遠隔会議方法、遠隔会議端末および遠隔会議システム
(51)【国際特許分類】
   H04N 7/15 20060101AFI20220729BHJP
   H04M 3/56 20060101ALI20220729BHJP
【FI】
H04N7/15 120
H04M3/56 Z
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2021010152
(22)【出願日】2021-01-26
(71)【出願人】
【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
(74)【代理人】
【識別番号】100140958
【弁理士】
【氏名又は名称】伊藤 学
(74)【代理人】
【識別番号】100137888
【弁理士】
【氏名又は名称】大山 夏子
(74)【代理人】
【識別番号】100190942
【弁理士】
【氏名又は名称】風間 竜司
(72)【発明者】
【氏名】片桐 一浩
【テーマコード(参考)】
5C164
5K201
【Fターム(参考)】
5C164FA10
5C164PA41
5C164SB04S
5C164SB41S
5C164TA08S
5C164VA13P
5C164YA12
5K201BB09
5K201CA01
5K201CA06
5K201DC05
5K201EC06
5K201ED05
5K201ED07
5K201EF03
(57)【要約】
【課題】複数の参加者による遠隔会議をよりスムーズに進行させることを可能にする技術が提供されることが望まれる。
【解決手段】第1の遠隔会議端末から受信された音データから発話を検出する発話検出部と、前記音データから前記発話が検出されたことに基づいて、前記発話が開始したことを示す発話開始データを前記音データの前に挿入する発話情報生成部と、前記発話開始データの挿入に基づいて、前記音データの第1の速度を調整する速度調整部と、前記発話開始データを第2の遠隔会議端末に送信するようにデータ送信部を制御した後、前記第1の速度が調整された後の音データを前記第2の遠隔会議端末に送信するように前記データ送信部を制御する送信制御部と、を備える、遠隔会議装置が提供される。
【選択図】図1
【特許請求の範囲】
【請求項1】
第1の遠隔会議端末から受信された音データから発話を検出する発話検出部と、
前記音データから前記発話が検出されたことに基づいて、前記発話が開始したことを示す発話開始データを前記音データの前に挿入する発話情報生成部と、
前記発話開始データの挿入に基づいて、前記音データの第1の速度を調整する速度調整部と、
前記発話開始データを第2の遠隔会議端末に送信するようにデータ送信部を制御した後、前記第1の速度が調整された後の音データを前記第2の遠隔会議端末に送信するように前記データ送信部を制御する送信制御部と、
を備える、遠隔会議装置。
【請求項2】
前記発話情報生成部は、前記発話が検出されたことに基づいて、前記発話開始データを前記音データおよび前記第1の遠隔会議端末から前記音データとともに受信された映像データの前に挿入し、
前記速度調整部は、前記発話開始データの挿入に基づいて、前記音データの前記第1の速度および前記映像データの第2の速度を調整された後の第1の速度と合うように調整し、
前記送信制御部は、前記発話開始データを前記第2の遠隔会議端末に送信するように前記データ送信部を制御した後、前記第1の速度が調整された後の音データ、および、前記第2の速度が調整された後の映像データを前記第2の遠隔会議端末に送信するように前記データ送信部を制御する、
請求項1に記載の遠隔会議装置。
【請求項3】
前記速度調整部は、前記発話開始データの挿入による音データの遅延が解消されるまで、前記第1の速度を前記発話開始データの挿入前よりも高くすることによって、前記第1の速度を調整する、
請求項1または2に記載の遠隔会議装置。
【請求項4】
前記速度調整部は、前記遅延が解消されるまで、前記第1の速度を前記発話開始データの挿入前よりも高くしつつ徐々に低くすることによって、前記第1の速度を調整する、
請求項3に記載の遠隔会議装置。
【請求項5】
前記速度調整部は、前記発話開始データの挿入後の音データの一部を削除することによって、前記第1の速度を調整する、
請求項1または2に記載の遠隔会議装置。
【請求項6】
前記速度調整部は、前記発話開始データの挿入後の音データのうち、非音声区間の音データを削除し、削除によって空いた区間に前記非音声区間の後の音データを詰めることによって、前記第1の速度を調整する、
請求項5に記載の遠隔会議装置。
【請求項7】
第1の遠隔会議端末から受信された音データから発話を検出することと、
前記音データから前記発話が検出されたことに基づいて、前記発話が開始したことを示す発話開始データを前記音データの前に挿入することと、
前記発話開始データの挿入に基づいて、前記音データの第1の速度を調整することと、
前記発話開始データを第2の遠隔会議端末に送信するようにデータ送信部を制御した後、前記第1の速度が調整された後の音データを前記第2の遠隔会議端末に送信するように前記データ送信部を制御することと、
を備える、遠隔会議方法。
【請求項8】
他の遠隔会議端末から送信された音データから発話が検出されたことに基づいて前記音データの前に挿入された、前記発話が開始したことを示すデータである発話開始データを遠隔会議装置から取得し、前記発話開始データの挿入に基づいて第1の速度が調整された後の音データを前記遠隔会議装置から取得する取得部と、
前記発話開始データが取得されたことに基づいて、前記発話が開始したことを示す提示データを提示するように提示部を制御し、前記第1の速度が調整された後の音データを提示するように前記提示部を制御する提示制御部と、
を備える、遠隔会議端末。
【請求項9】
前記取得部は、前記発話が検出されたことに基づいて前記音データおよび前記他の遠隔会議端末から前記音データとともに送信された映像データの前に挿入された、前記発話開始データを前記遠隔会議装置から取得し、前記発話開始データの挿入に基づいて、第1の速度が調整された後の音データ、および、調整された後の第1の速度と合うように第2の速度が調整された後の映像データを前記遠隔会議装置から取得し、
前記提示制御部は、前記発話開始データが取得されたことに基づいて、前記提示データを提示するように前記提示部を制御し、前記第1の速度が調整された後の音データおよび前記第2の速度が調整された後の映像データを提示するように前記提示部を制御する、
請求項8に記載の遠隔会議端末。
【請求項10】
前記提示データは、所定の画像データを含み、
前記提示制御部は、前記提示データとして前記所定の画像データが表示されるようにモニタを制御する、
請求項8または9に記載の遠隔会議端末。
【請求項11】
前記提示データは、所定の音データを含み、
前記提示制御部は、前記提示データとして前記所定の音データが表示されるようにスピーカを制御する、
請求項8または9に記載の遠隔会議端末。
【請求項12】
他の遠隔会議端末から送信された音データから発話が検出されたことに基づいて前記音データの前に挿入された、前記発話が開始したことを示すデータである発話開始データを遠隔会議装置から取得し、前記発話開始データの挿入に基づいて第1の速度が調整された後の音データを前記遠隔会議装置から取得することと、
前記発話開始データが取得されたことに基づいて、前記発話が開始したことを示す提示データを提示するように提示部を制御し、前記第1の速度が調整された後の音データを提示するように前記提示部を制御することと、
を備える、遠隔会議方法。
【請求項13】
第1の遠隔会議端末と、遠隔会議装置と、第2の遠隔会議端末とを備える、遠隔会議システムであって、
前記第1の遠隔会議端末は、
音データを送信するようにデータ送信部を制御する送信制御部を備え、
前記遠隔会議装置は、
前記第1の遠隔会議端末から受信された音データから発話を検出する発話検出部と、
前記音データから前記発話が検出されたことに基づいて、前記発話が開始したことを示す発話開始データを前記音データの前に挿入する発話情報生成部と、
前記発話開始データの挿入に基づいて、前記音データの第1の速度を調整する速度調整部と、
前記発話開始データを第2の遠隔会議端末に送信するようにデータ送信部を制御した後、前記第1の速度が調整された後の音データを前記第2の遠隔会議端末に送信するように前記データ送信部を制御する送信制御部と、
を備え、
前記第2の遠隔会議端末は、
前記発話開始データを前記遠隔会議装置から取得し、前記第1の速度が調整された後の音データを前記遠隔会議装置から取得する取得部と、
前記発話開始データが取得されたことに基づいて、前記発話が開始したことを示す提示データを提示するように提示部を制御し、前記第1の速度が調整された後の音データを提示するように前記提示部を制御する提示制御部と、
を備える、遠隔会議システム。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、遠隔会議装置、遠隔会議方法、遠隔会議端末および遠隔会議システムに関する。
【背景技術】
【0002】
近年、ICT(Information and Communication Technology)の発達とワークスタイルの変化に伴い、少人数のサテライトオフィスの設置およびテレワークへの移行が急速に進んでいる。複数のワーカは、遠隔地に散らばっている場合には、1つのオフィスに集まっている場合に比べて、お互いの状況をあまり詳細に知ることができないことがある。そのため、各ワーカが遠隔地にいる他のワーカと円滑にコミュニケーションを取ることが難しくなる恐れがある。
【0003】
そこで、離れた場所に存在する複数のオフィス間が、映像、音および各種センサ情報などによって相互に接続され、遠隔地にいるユーザと円滑にコミュニケーションを取ることを可能にするテレワークシステムが提案されている(例えば、非特許文献1参照)。
【0004】
このシステムでは、オフィス内の複数箇所それぞれにカメラとマイクロフォンが設置されており、これらのカメラおよびマイクロフォンから得られる映像データおよび音データが当該オフィスから離れた他のオフィスへ伝送される。当該他のオフィスにいるユーザは、遠隔地に設置された複数のカメラ間で注目するカメラを自由に切り替えることができ、ユーザがカメラを切り替える度に切り替え先のカメラの近くに設置されているマイクロフォンにより収集された音が再生される。
【0005】
これによって、ユーザはリアルタイムに遠隔地の状況を知ることができる。そして、離れた場所にいるユーザ同士がお互いの状況を理解した上でコミュニケーションを取ることが可能となる。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2013-017027号公報
【特許文献2】特開2012-215600号公報
【特許文献3】特開2017-135669号公報
【非特許文献】
【0007】
【非特許文献1】野中 他,“複数の映像・音・センサ情報を利用するオフィスコミュニケーションシステム”,ヒューマンインタフェース学会研究報告集Vol.13 No.10,2011.
【非特許文献2】叶 他,“遠隔複数人会話をわかりやすくするための音像定位の検討”,情報処理学会研究報告,Vol.2014-GN-91,NO.45,2014.
【非特許文献3】森田,板倉、“ポインター移動量制御による重複加算法(PICOLA)を用いた音声の時間軸での伸長圧縮とその評価”,日本音響学会講演論文集,1986.
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかし、複数の参加者による遠隔会議をよりスムーズに進行させることを可能にする技術が提供されることが望まれる。
【課題を解決するための手段】
【0009】
上記問題を解決するために、本発明のある観点によれば、第1の遠隔会議端末から受信された音データから発話を検出する発話検出部と、前記音データから前記発話が検出されたことに基づいて、前記発話が開始したことを示す発話開始データを前記音データの前に挿入する発話情報生成部と、前記発話開始データの挿入に基づいて、前記音データの第1の速度を調整する速度調整部と、前記発話開始データを第2の遠隔会議端末に送信するようにデータ送信部を制御した後、前記第1の速度が調整された後の音データを前記第2の遠隔会議端末に送信するように前記データ送信部を制御する送信制御部と、を備える、遠隔会議装置が提供される。
【0010】
前記発話情報生成部は、前記発話が検出されたことに基づいて、前記発話開始データを前記音データおよび前記第1の遠隔会議端末から前記音データとともに受信された映像データの前に挿入し、前記速度調整部は、前記発話開始データの挿入に基づいて、前記音データの前記第1の速度および前記映像データの第2の速度を調整された後の第1の速度と合うように調整し、前記送信制御部は、前記発話開始データを前記第2の遠隔会議端末に送信するように前記データ送信部を制御した後、前記第1の速度が調整された後の音データ、および、前記第2の速度が調整された後の映像データを前記第2の遠隔会議端末に送信するように前記データ送信部を制御してもよい。
【0011】
前記速度調整部は、前記発話開始データの挿入による音データの遅延が解消されるまで、前記第1の速度を前記発話開始データの挿入前よりも高くすることによって、前記第1の速度を調整してもよい。
【0012】
前記速度調整部は、前記遅延が解消されるまで、前記第1の速度を前記発話開始データの挿入前よりも高くしつつ徐々に低くすることによって、前記第1の速度を調整してもよい。
【0013】
前記速度調整部は、前記発話開始データの挿入後の音データの一部を削除することによって、前記第1の速度を調整してもよい。
【0014】
前記速度調整部は、前記発話開始データの挿入後の音データのうち、非音声区間の音データを削除し、削除によって空いた区間に前記非音声区間の後の音データを詰めることによって、前記第1の速度を調整してもよい。
【0015】
また、本発明の他の観点によれば、第1の遠隔会議端末から受信された音データから発話を検出することと、前記音データから前記発話が検出されたことに基づいて、前記発話が開始したことを示す発話開始データを前記音データの前に挿入することと、前記発話開始データの挿入に基づいて、前記音データの第1の速度を調整することと、前記発話開始データを第2の遠隔会議端末に送信するようにデータ送信部を制御した後、前記第1の速度が調整された後の音データを前記第2の遠隔会議端末に送信するように前記データ送信部を制御することと、を備える、遠隔会議方法が提供される。
【0016】
また、本発明の他の観点によれば、他の遠隔会議端末から送信された音データから発話が検出されたことに基づいて前記音データの前に挿入された、前記発話が開始したことを示すデータである発話開始データを遠隔会議装置から取得し、前記発話開始データの挿入に基づいて第1の速度が調整された後の音データを前記遠隔会議装置から取得する取得部と、前記発話開始データが取得されたことに基づいて、前記発話が開始したことを示す提示データを提示するように提示部を制御し、前記第1の速度が調整された後の音データを提示するように前記提示部を制御する提示制御部と、を備える、遠隔会議端末が提供される。
【0017】
また、本発明の他の観点によれば、前記取得部は、前記発話が検出されたことに基づいて前記音データおよび前記他の遠隔会議端末から前記音データとともに送信された映像データの前に挿入された、前記発話開始データを前記遠隔会議装置から取得し、前記発話開始データの挿入に基づいて、第1の速度が調整された後の音データ、および、調整された後の第1の速度と合うように第2の速度が調整された後の映像データを前記遠隔会議装置から取得し、前記提示制御部は、前記発話開始データが取得されたことに基づいて、前記提示データを提示するように前記提示部を制御し、前記第1の速度が調整された後の音データおよび前記第2の速度が調整された後の映像データを提示するように前記提示部を制御してもよい。
【0018】
前記提示データは、所定の画像データを含み、前記提示制御部は、前記提示データとして前記所定の画像データが表示されるようにモニタを制御してもよい。
【0019】
前記提示データは、所定の音データを含み、前記提示制御部は、前記提示データとして前記所定の音データが表示されるようにスピーカを制御してもよい。
【0020】
また、本発明の他の観点によれば、他の遠隔会議端末から送信された音データから発話が検出されたことに基づいて前記音データの前に挿入された、前記発話が開始したことを示すデータである発話開始データを遠隔会議装置から取得し、前記発話開始データの挿入に基づいて第1の速度が調整された後の音データを前記遠隔会議装置から取得することと、前記発話開始データが取得されたことに基づいて、前記発話が開始したことを示す提示データを提示するように提示部を制御し、前記第1の速度が調整された後の音データを提示するように前記提示部を制御することと、を備える、遠隔会議方法が提供される。
【0021】
また、本発明の他の観点によれば、第1の遠隔会議端末と、遠隔会議装置と、第2の遠隔会議端末とを備える、遠隔会議システムであって、前記第1の遠隔会議端末は、音データを送信するようにデータ送信部を制御する送信制御部を備え、前記遠隔会議装置は、前記第1の遠隔会議端末から受信された音データから発話を検出する発話検出部と、前記音データから前記発話が検出されたことに基づいて、前記発話が開始したことを示す発話開始データを前記音データの前に挿入する発話情報生成部と、前記発話開始データの挿入に基づいて、前記音データの第1の速度を調整する速度調整部と、前記発話開始データを第2の遠隔会議端末に送信するようにデータ送信部を制御した後、前記第1の速度が調整された後の音データを前記第2の遠隔会議端末に送信するように前記データ送信部を制御する送信制御部と、を備え、前記第2の遠隔会議端末は、前記発話開始データを前記遠隔会議装置から取得し、前記第1の速度が調整された後の音データを前記遠隔会議装置から取得する取得部と、前記発話開始データが取得されたことに基づいて、前記発話が開始したことを示す提示データを提示するように提示部を制御し、前記第1の速度が調整された後の音データを提示するように前記提示部を制御する提示制御部と、を備える、遠隔会議システムが提供される。
【発明の効果】
【0022】
以上説明したように本発明によれば、複数の参加者による遠隔会議をよりスムーズに進行させることを可能にする技術が提供される。
【図面の簡単な説明】
【0023】
図1】本発明の実施形態に係る遠隔会議システムの構成の一例を示すブロック図である。
図2】本発明の実施形態に係る装置のハードウェア構成の一例を示すブロック図である。
【発明を実施するための形態】
【0024】
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0025】
また、本明細書及び図面において、実質的に同一または類似の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する。ただし、実質的に同一または類似の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。
【0026】
(0.背景)
まず、本発明の実施形態の背景について説明する。上記したように、非特許文献1においては、離れた場所に存在する複数のオフィス間が、映像、音および各種センサ情報などによって相互に接続され、遠隔地にいるユーザと円滑にコミュニケーションを取ることを可能にするテレワークシステムが提案されている。非特許文献1に記載の手法を用いれば、ユーザに遠隔地の様々な場所の現在の状況を臨場感豊かに体感させることができる。
【0027】
しかしながら、ユーザがテレワークで働く場合など(例えば、ユーザが自宅で働く場合など)においては、臨場感を生み出すための機器の設置が難しい場合がある。あるいは、ネットワークの帯域が制限されてしまう場合がある。かかる問題が生じ得るために、複数の参加者が会議を行う際には、複数の参加者それぞれの映像および音声を集約するシステム(遠隔会議システム)が使用されるのが一般的である。
【0028】
しかし、遠隔会議に多くの人が参加する場合には、各参加者にとって他の参加者の状況および雰囲気などを知ることが難しい状況に陥ることがある。特に、他の参加者がネットワークの帯域を確保するために映像の送信機能をOFFにしている場合には、各参加者にとって他の参加者の状況および雰囲気などを知ることが難しい状況に陥りやすくなる。
【0029】
そして、かかる状況では、二人以上の参加者それぞれの発話の時間的な区間の少なくとも一部が重なってしまうこと(以下、単に「発話区間の重複」とも言う。)がある。これによって、二人以上の参加者それぞれの発話による音声(発話音声)が聞き取りにくくなる恐れがある。また、発話区間が重複してしまう度に、二人以上の参加者それぞれが発話を中断してしまい、遠隔会議がスムーズに進行しなくなる恐れがある。
【0030】
この問題に対し、特許文献1においては、参加者の音声に音像定位処理を行い、二人以上の参加者それぞれの発話音声が別々の方向から聞こえるようにする手法が提案されている。かかる手法によれば、発話区間が重複してしまったとしても二人以上の参加者それぞれの発話音声が聞き取りやすくなる。また、音声の聞こえ方に方向感を出すことによって享受される効果については、非特許文献2において説明されている。
【0031】
しかしながら、音像を定位させる方向の種類(音像定位処理の分解能)には限界があるため、多くの参加者が同時に発話してしまうと、やはり多くの参加者それぞれの発話音声が聞き取りにくくなってしまう。また、たとえ同時に発話した参加者が少人数であったとしても、二人以上の参加者によって同時に発話された音声を聞き分けることが難しいことには変わりない。そのため、たとえ少人数の参加者によって同時に発話された音声を聞き取ることができたとしても聞き取った参加者がストレスを感じてしまう恐れがある。
【0032】
そこで、本明細書においては、複数の参加者それぞれの発話区間が重複してしまう可能性を低減する技術について主に提案する。複数の参加者それぞれの発話区間が重複してしまう可能性が低減されることによって、複数の参加者による遠隔会議がよりスムーズに進行されるようになる。
【0033】
(1.実施形態の詳細)
続いて、本発明の実施形態の詳細について説明する。
【0034】
(1-1.システム構成)
図1は、本発明の実施形態に係る遠隔会議システムの構成の一例を示すブロック図である。図1を参照すると、本発明の実施形態に係る遠隔会議システム1は、遠隔会議サーバ10と、N台(Nは2以上の整数)の遠隔会議クライアント20と、ネットワーク40とを有する。遠隔会議サーバ10およびN台の遠隔会議クライアント20は、ネットワーク40に接続されており、ネットワーク40を介して相互に通信可能である。遠隔会議サーバ10は、遠隔会議装置の例として機能し得る。また、遠隔会議クライアント20は、遠隔会議端末の例として機能し得る。
【0035】
N台の遠隔会議クライアント20それぞれは、対応する参加者(利用者)によって利用される。一例として、遠隔会議クライアント20と利用者とは、1対1に対応している。なお、以下の説明においては、N台の遠隔会議クライアント20を区別する場合に、N台の遠隔会議クライアント20を遠隔会議クライアント20-1~20-Nと称する。
【0036】
また、本発明の実施形態では、遠隔会議クライアント20が、PC(Personal Computer)である場合を主に想定する。しかし、遠隔会議クライアント20の形態は限定されない。例えば、遠隔会議クライアント20は、スマートフォンなどの携帯端末であってもよいし、家庭内などに設置される音声入出力装置などであってもよい。例えば、音声入出力装置は、AI(Artificial Intelligence)スピーカなどであってもよい。
【0037】
(1-2.遠隔会議サーバの機能構成)
図1を参照すると、遠隔会議サーバ10は、データ受信部110、デコーダ120、発話検出部130、発話情報生成部140、メディア速度調整部150、エンコーダ160およびデータ送信部170を備える。メディア速度調整部150は、速度調整部の例として機能し得る。エンコーダ160は、送信制御部の例として機能し得る。
【0038】
(1-3.遠隔会議クライアントの機能構成)
図1を参照すると、遠隔会議クライアント20は、エンコーダ210、データ送信部220、データ受信部230、デコーダ240および映像・音声再生部250を備える。エンコーダ210には、マイク31(マイクロフォン)およびカメラ32が接続されている。エンコーダ210は、取得部の例として機能し得る。なお、以下の説明においては、N台の遠隔会議クライアント20を区別する場合に、N台の遠隔会議クライアント20のエンコーダ210それぞれに接続されるマイク31およびカメラ32をマイク31-1~31-Nおよびカメラ32-1~32‐Nと称する。
【0039】
また、映像・音声再生部250には、スピーカ33およびモニタ34が接続されている。スピーカ33およびモニタ34それぞれは、提示部の例として機能し得る。映像・音声再生部250は、提示制御部の例として機能し得る。なお、以下の説明においては、N台の遠隔会議クライアント20を区別する場合に、N台の遠隔会議クライアント20の映像・音声再生部250それぞれに接続されるスピーカ33およびモニタ34をスピーカ33-1~33-Nおよびモニタ34-1~34-Nと称する。
【0040】
(1-4.遠隔会議システムの動作例)
続いて、図1を参照しながら、本発明の実施形態に係る遠隔会議システム1の動作例について説明する。
【0041】
なお、以下の説明では、遠隔会議クライアント20-1において、音データの送信機能がONにされている場合を想定する。かかる場合には、遠隔会議クライアント20-1のマイク31-1によって得られた音データが、遠隔会議サーバ10を介して遠隔会議クライアント20-1以外の遠隔会議クライアント20-2~20-Nに送信され、スピーカ33-2~33-Nによって出力される。これによって、遠隔会議クライアント20-1を利用する参加者は、自身の発話音声を遠隔会議クライアント20-2~20-Nそれぞれを利用する他の参加者に聞かせることができる。
【0042】
同様に、遠隔会議クライアント20-2~20-Nそれぞれにおいても、音データの送信機能がONにされている場合を想定する。これによって、遠隔会議クライアント20-2~20-Nそれぞれを利用する参加者は、自身の発話音声を他の参加者に聞かせることができる。このようにして参加者間において発話音声を聞かせ合うことによって会議が進行する。しかし、必ずしも遠隔会議クライアント20-1~20-Nの全部において音データの送信機能がONにされていなくてもよい。例えば、遠隔会議クライアント20-1~20-Nの中には、音データの送信機能がOFFにされている遠隔会議クライアント20が1または複数台存在してもよい。
【0043】
また、以下の説明では、遠隔会議クライアント20-1において、映像データの送信機能がONにされている場合を想定する。かかる場合には、遠隔会議クライアント20-1のカメラ32-1によって得られた映像データが、遠隔会議サーバ10を介して遠隔会議クライアント20-1以外の遠隔会議クライアント20-2~20-Nに送信され、モニタ34-2~34-Nによって出力される。これによって、遠隔会議クライアント20-1を利用する参加者は、自身を被写体とする映像を遠隔会議クライアント20-2~20-Nそれぞれを利用する他の参加者に見せることができる。なお、遠隔会議クライアント20-1のカメラ32-1によって得られた映像データが、遠隔会議サーバ10を介して遠隔会議クライアント20-1にも送信され、モニタ34-1によって出力されてもよい。
【0044】
同様に、遠隔会議クライアント20-2~20-Nそれぞれにおいても、映像データの送信機能がONにされている場合を想定する。これによって、遠隔会議クライアント20-2~20-Nそれぞれを利用する参加者は、自身を被写体とする映像を他の参加者に見せることができる。このようにして参加者間において映像を見せ合うことによって、他の参加者の状況および雰囲気などが各参加者によって把握されやすくなる。しかし、必ずしも遠隔会議クライアント20-1~20-Nの全部において映像データの送信機能がONにされていなくてもよい。例えば、遠隔会議クライアント20-1~20-Nの一部または全部において、映像データの送信機能がOFFにされていてもよい。
【0045】
以下では、説明を簡便にするため、遠隔会議クライアント20-1から音データおよび映像データが、遠隔会議サーバ10を介して遠隔会議クライアント20-2~20-Nそれぞれに送信される例について主に説明する。このとき、遠隔会議クライアント20-1は、第1の遠隔会議端末として機能し、遠隔会議クライアント20-2~20-Nそれぞれは、第2の遠隔会議端末として機能する。しかし、かかる例は、遠隔会議クライアント20-2~20-Nから音データおよび映像データが遠隔会議サーバ10に送信される場合に対しても、同様に適用され得る。
【0046】
(エンコーダ210)
まず、遠隔会議クライアント20-1において、エンコーダ210は、マイク31-1によって得られた映像データおよびカメラ32-1によって得られた音データに対して、任意のコーデックによりエンコードを行う。
【0047】
(データ送信部220)
データ送信部220は、エンコーダ210によってエンコードされた後の映像データおよび音声データを、ネットワーク40を介して遠隔会議サーバ10に送信する。
【0048】
(データ受信部110)
遠隔会議サーバ10において、データ受信部110は、遠隔会議クライアント20-1からネットワーク40を介してエンコードされた後の映像データおよび音データを受信する。
【0049】
(デコーダ120)
デコーダ120は、エンコードされた後の映像データおよび音データに対して、任意のコーデックによりデコードを行い、デコードされた後の映像データおよび音データを得る。
【0050】
(発話検出部130)
発話検出部130は、デコーダ120によってデコードされた後の音データから発話の検出を試みる。より詳細に、発話検出部130は、デコードされた後の音データに基づいて、参加者による発話が開始されたか否かを検出する。
【0051】
なお、発話の検出手法は特定の手法に限定されない。一例として、発話の検出手法としては、音声区間検出技術を使い、音データから判定される区間が雑音などの非音声区間から音声区間に変わったときに、発話が開始されたと判定する手法が用いられてもよい。例えば、音声区間の検出手法としては、振幅の変動または音響特徴量の変化などに基づいて音声区間を判定する手法が用いられてもよいし、特許文献2に示されている手法が用いられてもよい。
【0052】
(発話情報生成部140)
発話情報生成部140は、発話検出部130によって音データから発話が検出されたことに基づいて(すなわち、発話の開始が検出されたことに基づいて)、発話が開始したことを示す発話開始データを音データおよび映像データの前に挿入する。発話開始データは、遠隔会議クライアント20-2~20-Nに対して、発話が開始したことを示す提示データを提示する処理を行わせるためのトリガー信号となり得る。提示データの例については、後に詳細に説明する。
【0053】
なお、発話情報生成部140は、遠隔会議クライアント20-1から映像データが送信されない場合には、発話検出部130によって音データから発話が検出されたことに基づいて、発話開始データを音データの前に挿入すればよい。また、発話開始データの時間的な長さは、音データの遅延時間が大きくなりすぎない程度に設定されるのが望ましい(例えば、100ミリ秒から2000ミリ秒までの間に設定されてよい)。
【0054】
(メディア速度調整部150)
メディア速度調整部150は、発話情報生成部140による発話開始データの挿入に基づいて、音データの速度(第1の速度)を調整する。より詳細に、音データの前に発話開始データが挿入されることによって、少なくとも発話開始データの時間的な長さの分だけ音データの遅延が発生してしまう。したがって、メディア速度調整部150は、音データの遅延が解消されるまで(すなわち、音データの遅延が発話開始データの時間的な長さの分だけ回復するまで)、音データの速度を発話開始データの挿入前よりも高くすることによって(すなわち、音声データの速度を倍速にすることによって)、音データの速度を調整するのが望ましい。
【0055】
ここで、音データの速度を調整する手法は、特定の手法に限定されない。例えば、音データの速度を調整する手法としては、非特許文献3に示されているPICOLA(Pointer Interval Control OverLap and Add)に代表される各人の声質を保ったまま話速を変える話速変換技術が使用され得る。
【0056】
また、音データの速度を具体的にどのようなタイミングでどの程度の高さに調整するかも限定されない。例えば、音データの速度を高めすぎてしまうと音を聞いている参加者に違和感を与えてしまう可能性がある。そこで、メディア速度調整部150は、音データの速度をある程度以下に抑えてもよい。一例として、メディア速度調整部150は、調整後の音データの速度が、発話開始データ挿入前の音データの速度の1.1倍から1.5倍の間に収まるように音データの速度を調整してもよい。
【0057】
また、メディア速度調整部150は、音データの遅延が解消された場合には、音データの速度を発話開始データ挿入前の音データの速度に戻す。このとき、音データの速度が突然戻ってしまうと音を聞いている参加者に違和感を与えてしまう可能性がある。そこで、メディア速度調整部150は、音データの遅延が解消されるまで、音データの速度を発話開始データの挿入前よりも高くしつつ音データの速度を徐々に低くしてもよい。
【0058】
一例として、メディア速度調整部150は、発話開始データの直後は音データの速度が発話開始データの挿入前の音データの速度の1.5倍となるように音データの速度を調整してもよい。そして、メディア速度調整部150は、音データの遅延時間が小さくなるにつれて、音データの速度が発話開始データ挿入前の音データの速度の1.3倍,1.1倍となるように、音データの速度を徐々に低くしてもよい。
【0059】
また、メディア速度調整部150は、発話開始データ挿入後の音データの一部を削除してもよい。これによっても、音データの遅延が解消され得る。例えば、メディア速度調整部150は、発話開始データ挿入後の音データのうち、発話検出部130によって検出された非音声区間の音データを削除し、削除によって空いた区間に非音声区間後の音データを詰めてもよい。
【0060】
また、メディア速度調整部150は、発話開始データの挿入に基づいて、映像データの速度(第2の速度)を調整された後の音データの速度(第1の速度)と合うように調整する。これによって、発話した参加者の音声と映像とを他の参加者が違和感なく知覚することが可能となる。メディア速度調整部150は、音データの速度の調整と同様に、映像データの速度を高めることによって(すなわち、映像データの速度を倍速にすることによって)、映像データの速度を調整すればよい。
【0061】
また、メディア速度調整部150は、非音声区間の音データを削除した場合には、非音声区間の映像データも削除し、削除によって空いた区間に非音声区間後の映像データを詰めてもよい。このとき、メディア速度調整部150は、削除された区間の前後の映像データに生じる違和感を抑制するために、例えば映像データに対してモーフィング処理などを行ってもよい。なお、メディア速度調整部150は、遠隔会議クライアント20-1から映像データが送信されない場合には、映像データの速度の調整は行わなくてよい。
【0062】
(エンコーダ160)
エンコーダ160は、発話情報生成部140によって音データおよび映像データの前に挿入された発話開始データに対して、任意のコーデックによりエンコードを行う。そして、エンコーダ160は、エンコードされた後の発話開始データをデータ送信部170に出力する。これによって、エンコードされた後の発話開始データのデータ送信部170による送信が制御される。
【0063】
続いて、エンコーダ160は、メディア速度調整部150によって速度が調整された後の音データおよび映像データに対して、任意のコーデックによりエンコードを行う。そして、エンコーダ160は、エンコードされた後の音データおよび映像データをデータ送信部170に出力する。これによって、エンコードされた後の音データおよび映像データのデータ送信部170による送信が制御される。
【0064】
(データ送信部170)
データ送信部170は、エンコーダ160によってエンコードされた後の発話開始データを、ネットワーク40を介して遠隔会議クライアント20-1以外の遠隔会議クライアント20-2~20-Nそれぞれに送信する。続いて、データ送信部170は、エンコーダ160によってエンコードされた後の音データおよび映像データを、ネットワーク40を介して遠隔会議クライアント20-1以外の遠隔会議クライアント20-2~20-Nそれぞれに送信する。
【0065】
(データ受信部230)
遠隔会議クライアント20-2~20-Nにおいて、データ受信部230は、遠隔会議サーバ10から送信されたエンコードされた後の発話開始データを受信する。続いて、データ受信部230は、遠隔会議サーバ10から送信されたエンコードされた後の音データおよび映像データを受信する。
【0066】
(デコーダ240)
デコーダ240は、データ受信部230によって受信されたエンコードされた後の発話開始データに対して任意のコーデックによりデコードを行い、デコードされた後の発話開始データを得る。また、デコーダ240は、データ受信部230によって受信されたエンコードされた後の音データおよび映像データに対して任意のコーデックによりデコードを行い、デコードされた後の音データおよび映像データを得る。
【0067】
(映像・音声再生部250)
映像・音声再生部250は、デコーダ240によってデコードされた後の発話開始データが得られたことに基づいて、発話が開始したことを示す提示データを提示するように制御する。ここで、提示データの種類は特定の提示データに限定されない。例えば、提示データは、所定の画像データ(静止画像データまたは動画像データ)を含んでもよい。静止画像データには、アイコンが含まれ得る。また、動画像データには、アニメーションが含まれ得る。かかる場合には、映像・音声再生部250は、所定の画像が提示データの例として表示されるようにモニタ34を制御する。
【0068】
あるいは、提示データは、所定の音データを含んでもよい。かかる場合には、映像・音声再生部250は、所定の音データが提示データの例として出力されるようにスピーカ33を制御する。
【0069】
また、映像・音声再生部250は、デコーダ240によってデコードされた後の音データおよび映像データが得られたことに基づいて、デコードされた後の音データおよび映像データを再生する。映像・音声再生部250は、再生した音データをスピーカ33に出力する。これによって、スピーカ33によって音データが出力される。また、映像・音声再生部250は、再生した映像データをモニタ34に出力する。これによって、モニタ34によって映像データが出力される。
【0070】
以上、本発明の実施形態に係る遠隔会議システム1の動作例について説明した。
【0071】
(2.ハードウェア構成)
図2は、本発明の実施形態に係る遠隔会議サーバ10および遠隔会議クライアント20(以下、遠隔会議サーバ10および遠隔会議クライアント20それぞれを区別せずに「本実施形態に係る装置」と言う場合がある。)のハードウェア構成の一例を示すブロック図である。
【0072】
なお、遠隔会議サーバ10および遠隔会議クライアント20それぞれに下記のハードウェア構成のすべてが備えられている必要はなく(例えば、遠隔会議サーバ10に直接的にセンサが備えられている必要はない)、各装置の機能構成を実現できるハードウェアモジュールが適宜限定して備えられてもよい。
【0073】
図2を参照すると、本実施形態に係る装置は、バス801、CPU(Central Processing Unit)803、ROM(Read Only Memory)805、RAM(Random Access Memory)807、記憶装置809、通信インタフェース811、センサ813、入力装置815、表示装置817、スピーカ819を備える。
【0074】
CPU803は、本実施形態に係る装置における様々な処理を実行する。また、ROM805は、本実施形態に係る装置における処理をCPU803に実行させるためのプログラム及びデータを記憶する。また、RAM807は、CPU803の処理の実行時に、プログラム及びデータを一時的に記憶する。
【0075】
バス801は、CPU803、ROM805及びRAM807を相互に接続する。バス801には、さらに、記憶装置809、通信インタフェース811、センサ813、入力装置815、表示装置817及びスピーカ819が接続される。バス801は、例えば、複数の種類のバスを含む。一例として、バス801は、CPU803、ROM805及びRAM807を接続する高速バスと、該高速バスよりも低速の1つ以上の別のバスを含む。
【0076】
記憶装置809は、本実施形態に係る装置内で一時的または恒久的に保存すべきデータを記憶する。記憶装置809は、例えば、ハードディスク(Hard Disk)等の磁気記憶装置であってもよく、または、EEPROM(Electrically Erasable and Programmable Read Only Memory)、フラッシュメモリ(flash memory)、MRAM(Magnetoresistive Random Access Memory)、FeRAM(Ferroelectric Random Access Memory)及びPRAM(Phase change Random Access Memory)等の不揮発性メモリ(nonvolatile memory)であってもよい。
【0077】
通信インタフェース811は、本実施形態に係る装置が備える通信手段であり、ネットワークを介して(あるいは直接的に)外部装置と通信する。通信インタフェース811は、無線通信用のインタフェースであってもよく、この場合に、例えば、通信アンテナ、RF回路及びその他の通信処理用の回路を含んでもよい。また、通信インタフェース811は、有線通信用のインタフェースであってもよく、この場合に、例えば、LAN端子、伝送回路及びその他の通信処理用の回路を含んでもよい。
【0078】
センサ813は、例えばカメラ、マイクロフォン、生体センサ、その他のセンサまたはそれらの複合である。カメラは、被写体を撮像するもので、例えば光学系、撮像素子及び画像処理回路を含む。マイクロフォンは、周囲の音を収音するもので、該音を電気信号へ変換し該電気信号をデジタルデータに変換する。
【0079】
入力装置815は、タッチパネル、マウス、カメラなどの視線検出装置、マイクロフォン等である。表示装置817は、本実施形態に係る装置からの出力画像(すなわち表示画面)を表示するもので、例えば液晶、有機EL(Organic Light-Emitting Diode)、CRT(Cathode Ray Tube)等を用いて実現され得る。スピーカ819は、音声を出力するもので、デジタルデータを電気信号に変換し該電気信号を音声に変換する。
【0080】
以上、本実施形態に係る装置のハードウェア構成例について説明した。
【0081】
(3.まとめ)
以上に説明したように、本発明の実施形態に係る遠隔会議サーバ10は、遠隔会議クライアント20-1から受信された音データから発話を検出する発話検出部130と、音データから発話が検出されたことに基づいて、発話が開始したことを示す発話開始データを音データの前に挿入する発話情報生成部140と、発話開始データの挿入に基づいて、音データの第1の速度を調整するメディア速度調整部150と、発話開始データを遠隔会議クライアント20-2~20-Nに送信するようにデータ送信部170を制御した後、第1の速度が調整された後の音データを遠隔会議クライアント20-2~20-Nに送信するようにデータ送信部170を制御するエンコーダ160と、を備える。
【0082】
かかる構成によれば、音データの前に発話開始データが配信される。これによって、参加者は、他の参加者の発話に早く気付くことが可能となるため、自分が発話しようとしても発話の直前で発話するのを止めることができる。したがって、参加者が他の参加者の発話を阻害してしまう可能性が低減される(すなわち、複数の参加者それぞれの発話区間が重複してしまう可能性が低減される)。これによって、複数の参加者による遠隔会議をよりスムーズに進行させることが可能となる。
【0083】
音データの前に発話開始データが配信されることによって、参加者が他の参加者の発話に早く気付くことが可能となる理由は、以下の通りである。すなわち、参加者は、他の参加者が存在する遠隔地から流れてくる音を聞いて他の参加者が発話したことを認識する場合、音をある程度の長さ(例えば、1秒以上)聞いてからでなければ、その音に他の参加者による発話音声が含まれると認識できないのが通常である。そのため、参加者は、他の参加者が発話したことを認識した時点で既に自分も発話し始めてしまっているという状況が起こりやすいため、参加者が他の参加者の発話を阻害してしまう事態が生じやすい。
【0084】
それに対して、本発明の実施形態のように、発話開始データが視覚情報として参加者に提示されることによって、遠隔地から流れてくる音に基づいて他の参加者が発話したことを認識する場合と比較して、参加者は、他の参加者が発話を開始したことを早く認識することが可能となる。発話開始データが所定の音データ(例えば、あらかじめ用意された特殊な音データ)として提示される場合にも、参加者は、他の参加者が発話を開始したことを早く認識することが可能となる(例えば、数ミリ秒で認識することが可能となる)。なお、特殊な音データは、人間の発する声以外の音であれば限定されず、所定の警告音であってもよい。
【0085】
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
【0086】
例えば、上記のように、本発明の実施形態によれば、複数の参加者それぞれの発話区間が重複してしまう可能性が低減される。しかし、複数の参加者によって同時に発話が行われてしまい、遠隔会議クライアント20において、遠隔会議サーバ10から複数の発話開始データが受信される場合も想定され得る。かかる場合には、映像・音声再生部250は、特許文献3に示されている手法などの音像定位処理を行い、複数の参加者による発話音声に方向感を付けて再生してもよい。
【符号の説明】
【0087】
1 遠隔会議システム
10 遠隔会議サーバ
110 データ受信部
120 デコーダ
130 発話検出部
140 発話情報生成部
150 メディア速度調整部
160 エンコーダ
170 データ送信部
20 遠隔会議クライアント
210 エンコーダ
220 データ送信部
230 データ受信部
240 デコーダ
250 映像・音声再生部
31 マイク
32 カメラ
33 スピーカ
34 モニタ
40 ネットワーク
図1
図2