(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024147282
(43)【公開日】2024-10-16
(54)【発明の名称】遠隔会議支援プログラム、遠隔会議支援装置、及び遠隔会議支援方法
(51)【国際特許分類】
H04N 7/15 20060101AFI20241008BHJP
G10L 15/10 20060101ALI20241008BHJP
【FI】
H04N7/15 150
H04N7/15
G10L15/10 200W
G10L15/10 500N
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2023060202
(22)【出願日】2023-04-03
(71)【出願人】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(74)【代理人】
【識別番号】110003708
【氏名又は名称】弁理士法人鈴榮特許綜合事務所
(72)【発明者】
【氏名】籠嶋 岳彦
(72)【発明者】
【氏名】白川 悠太
(72)【発明者】
【氏名】山地 雄土
(72)【発明者】
【氏名】山根 恵和
(72)【発明者】
【氏名】浅野 三恵子
【テーマコード(参考)】
5C164
【Fターム(参考)】
5C164FA10
5C164PA43
5C164UB08S
5C164UB81S
5C164VA07P
5C164VA11P
(57)【要約】
【課題】遠隔会議における円滑なコミュニケーションを促進すること。
【解決手段】実施形態に係る遠隔会議支援プログラムは、コンピュータに、取得機能と、検出機能と、送信機能とを実現させる。取得機能は、ユーザの音声又は映像に関するメディア信号と、前記メディア信号の制御情報とを取得する。検出機能は、前記メディア信号に信号モデルを適用することで、前記メディア信号から前記信号モデルに対応する検出信号を検出する。送信機能は、前記制御情報により前記メディア信号が外部装置に送信されない場合、前記検出信号又は前記検出信号に対応するメディアファイルを前記外部装置に送信する。
【選択図】
図6
【特許請求の範囲】
【請求項1】
コンピュータに、
ユーザの音声又は映像に関するメディア信号と、前記メディア信号の制御情報とを取得する取得機能と、
前記メディア信号に信号モデルを適用することで、前記メディア信号から前記信号モデルに対応する検出信号を検出する検出機能と、
前記制御情報により前記メディア信号が外部装置に送信されない場合、前記検出信号又は前記検出信号に対応するメディアファイルを前記外部装置に送信する送信機能と、
を実現させる遠隔会議支援プログラム。
【請求項2】
前記取得機能は、前記ユーザの音声に関する音声入力信号を取得し、
前記検出機能は、前記音声入力信号にキーワードモデルを適用することで、前記音声入力信号から所定のキーワード発話に対応する音声信号を検出する、
請求項1に記載の遠隔会議支援プログラム。
【請求項3】
前記送信機能は、前記制御情報により前記音声入力信号が前記外部装置に送信されない場合、前記検出された音声信号又は前記検出された音声信号に対応する前記メディアファイルを前記外部装置に送信する、
請求項2に記載の遠隔会議支援プログラム。
【請求項4】
前記取得機能は、前記ユーザの音声に関する音声入力信号を取得し、
前記検出機能は、前記音声入力信号に感情モデルを適用することで、前記音声入力信号から所定の感情に対応する感情信号を検出する、
請求項1に記載の遠隔会議支援プログラム。
【請求項5】
前記送信機能は、前記制御情報により前記音声入力信号が前記外部装置に送信されない場合、前記検出された感情信号に対応する前記メディアファイルを前記外部装置に送信する、
請求項4に記載の遠隔会議支援プログラム。
【請求項6】
前記取得機能は、前記ユーザの映像に関する映像入力信号を取得し、
前記検出機能は、前記映像入力信号にジェスチャーモデルを適用することで、前記映像入力信号から所定のジェスチャーに対応するジェスチャー信号を検出する、
請求項1に記載の遠隔会議支援プログラム。
【請求項7】
前記送信機能は、前記制御情報により前記映像入力信号が前記外部装置に送信されない場合、前記検出されたジェスチャー信号に対応する前記メディアファイルを前記外部装置に送信する、
請求項6に記載の遠隔会議支援プログラム。
【請求項8】
前記取得機能は、前記ユーザの映像に関する映像入力信号を取得し、
前記検出機能は、前記映像入力信号に表情モデルを適用することで、前記映像入力信号から所定の表情に対応する表情信号を検出する、
請求項1に記載の遠隔会議支援プログラム。
【請求項9】
前記送信機能は、前記制御情報により前記映像入力信号が前記外部装置に送信されない場合、前記検出された表情信号に対応する前記メディアファイルを前記外部装置に送信する、
請求項8に記載の遠隔会議支援プログラム。
【請求項10】
前記取得機能は、前記ユーザが入力した操作パターンに関する操作入力信号を取得し、
前記検出機能は、前記操作入力信号から所定の操作パターンを検出し、
前記送信機能は、前記制御情報により前記メディア信号が前記外部装置に送信されない場合、前記検出された操作パターンに対応するメディアファイルを前記外部装置に送信する、
請求項1に記載の遠隔会議支援プログラム。
【請求項11】
前記メディアファイルは、テキスト、画像、音楽、音声又は映像である、
請求項1に記載の遠隔会議支援プログラム。
【請求項12】
ユーザの音声又は映像に関するメディア信号と、前記メディア信号の制御情報とを取得する取得部と、
前記メディア信号に信号モデルを適用することで、前記メディア信号から前記信号モデルに対応する検出信号を検出する検出部と、
前記制御情報により前記メディア信号が外部装置に送信されない場合、前記検出信号又は前記検出信号に対応するメディアファイルを前記外部装置に送信する送信部と、
を具備する遠隔会議支援装置。
【請求項13】
ユーザの音声又は映像に関するメディア信号と、前記メディア信号の制御情報とを取得することと、
前記メディア信号に信号モデルを適用することで、前記メディア信号から前記信号モデルに対応する検出信号を検出することと、
前記制御情報により前記メディア信号が外部装置に送信されない場合、前記検出信号又は前記検出信号に対応するメディアファイルを前記外部装置に送信することと、
を具備する遠隔会議支援方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、遠隔会議支援プログラム、遠隔会議支援装置、及び遠隔会議支援方法に関する。
【背景技術】
【0002】
遠隔会議システムにおいて、互いに地理的に離れた各参加者は、自身の通信端末を用いて音声及び映像を通信する。各参加者は、会議中にプライバシーの保護などの観点から、自身の通信端末に搭載されたマイク及びカメラを無効(OFF)に設定することがある。
【0003】
しかしながら、参加者がマイク及びカメラを無効化している間、当該参加者は他の参加者との間で円滑なコミュニケーションを行うことができない。例えば、当該参加者は、他の参加者から回答を求められた場合、即座に返答できない。一方、他の参加者は、当該参加者の同意が得られたか否かを判断できない。したがって、各参加者のプライバシーを確保し、各参加者間で円滑なコミュニケーションを促進する遠隔会議システムが望まれる。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明が解決しようとする課題は、遠隔会議における円滑なコミュニケーションを促進することである。
【課題を解決するための手段】
【0006】
実施形態に係る遠隔会議支援プログラムは、コンピュータに、取得機能と、検出機能と、送信機能とを実現させる。取得機能は、ユーザの音声又は映像に関するメディア信号と、前記メディア信号の制御情報とを取得する。検出機能は、前記メディア信号に信号モデルを適用することで、前記メディア信号から前記信号モデルに対応する検出信号を検出する。送信機能は、前記制御情報により前記メディア信号が外部装置に送信されない場合、前記検出信号又は前記検出信号に対応するメディアファイルを前記外部装置に送信する。
【図面の簡単な説明】
【0007】
【
図1】第1実施形態に係る遠隔会議システムの構成例を示すブロック図。
【
図2】第1実施形態に係る通信端末の機能構成例を示すブロック図。
【
図3】第1実施形態に係る送信制御部の機能構成例を示すブロック図。
【
図4】第1実施形態に係る通信端末の表示画面の第1例を示す図。
【
図5】第1実施形態に係るキーワード情報の例を示す図。
【
図6】第1実施形態に係る通信端末の表示画面の第2例を示す図。
【
図7】第2実施形態に係る送信制御部の機能構成例を示すブロック図。
【
図8】第2実施形態に係るキーワードリストの例を示す図。
【
図9】第2実施形態に係る音声入力信号の例を示す図。
【
図10】第3実施形態に係る送信制御部の機能構成例を示すブロック図。
【
図11】第3実施形態に係るジェスチャー情報の例を示す図。
【
図12】第3実施形態に係る通信端末の表示画面の例を示す図。
【
図13】第4実施形態に係る送信制御部の機能構成例を示すブロック図。
【
図14】第4実施形態に係る操作情報の例を示す図。
【
図15】第4実施形態に係る通信端末の表示画面の例を示す図。
【
図16】第5実施形態に係る信号処理装置の構成例を示すブロック図。
【
図17】第5実施形態に係る信号処理装置の動作例を示すフローチャート。
【発明を実施するための形態】
【0008】
以下、図面を参照しながら実施形態に係る遠隔会議支援プログラム、遠隔会議支援装置、及び遠隔会議支援方法について説明する。以下の実施形態では、同一の参照符号を付した部分は同様の動作を行うものとして、重複する説明を適宜、省略する。
【0009】
(第1実施形態)
図1は、第1実施形態に係る遠隔会議システム100の構成例を示すブロック図である。遠隔会議システム100は、遠隔会議を実施するためのシステムである。遠隔会議システム100は、遠隔会議装置101、インターネット102及び複数の通信端末103を含む。遠隔会議装置101及び通信端末103は、インターネット102を介して互いに通信可能に接続される。
【0010】
遠隔会議装置101は、遠隔会議を実施するための装置である。遠隔会議装置101は、遠隔会議システム100におけるサーバとして機能する。遠隔会議装置101は、高速な情報処理を実行し得るワークステーションでもよい。遠隔会議装置101は、有線又は無線によりインターネット102に接続される。遠隔会議装置101は、インターネット102を介して、通信端末103から送信された送信データT(例:映像、音声、テキスト)を受信する。遠隔会議装置101は、受信した送信データTを必要に応じて加工した後、加工後の送信データTを通信端末103に送信する。
【0011】
通信端末103は、遠隔会議装置101との間で各種のデータ又は情報を通信する端末である。通信端末103は、遠隔会議システム100におけるクライアントとして機能する。通信端末103は、パーソナルコンピュータ(PC)、タブレット端末又はスマートフォンでもよい。通信端末103は、有線又は無線によりインターネット102に接続される。通信端末103は、インターネット102を介して、ユーザに関する送信データTを遠隔会議装置101に送信する。通信端末103は、遠隔会議装置101から送信された加工後の送信データTを受信データRとして受信する。通信端末103は、受信した受信データRを、ユーザに対して所定の方法で提示する。通信端末103は、「遠隔会議支援装置」の一例である。
【0012】
図2は、第1実施形態に係る通信端末103の機能構成例を示すブロック図である。通信端末103は、通信部201、送信制御部202、映像入力部203A、操作入力部203B、音声入力部203C、受信制御部204、映像出力部205A、テキスト出力部205B及び音声出力部205Cを含む。
【0013】
通信部201は、インターネット102を介して、遠隔会議装置101との間で通信を確立する。通信の確立後、通信部201は、送信制御部202から出力された送信データTを遠隔会議装置101に送信する。通信部201は、遠隔会議装置101から送信された加工後の送信データTを受信データRとして受信し、受信した受信データRを受信制御部204に出力する。通信部201は、送信部又は受信部の一例である。
【0014】
送信制御部202は、各種の入力信号(例:映像入力信号VI、操作入力信号OI、音声入力信号AI)を必要に応じて選択し、又は加工することで、送信データTを生成する。送信制御部202は、生成した送信データTを通信部201に出力する。送信制御部202は、検出部の一例である(
図3参照)。
【0015】
映像入力部203Aは、カメラから入力されたユーザ及び当該ユーザの背景映像を取得することで、映像入力信号VIを生成する。映像入力部203Aは、生成した映像入力信号VIを送信制御部202に出力する。当該カメラは、通信端末103に搭載された内蔵のカメラでもよいし、通信端末103に接続された外付けのカメラでもよい。映像入力部203Aは、取得部の一例である。
【0016】
操作入力部203Bは、入力装置から入力されたユーザの操作入力を取得することで、操作入力信号OIを生成する。操作入力部203Bは、生成した操作入力信号OIを送信制御部202に出力する。操作入力信号OIは、マウスの移動若しくはクリック、キーボードからのキー入力、タッチスクリーンからのタップ若しくはフリック、又はペンタブレットからのペン入力に係る信号でもよい。当該入力装置は、通信端末103に搭載された内蔵の入力装置でもよいし、通信端末103に接続された外付けの入力装置でもよい。操作入力部203Bは、取得部の一例である。
【0017】
音声入力部203Cは、マイクから入力されたユーザの音声及び当該ユーザの周囲の環境音を取得することで、音声入力信号AIを生成する。音声入力部203Cは、生成した音声入力信号AIを送信制御部202に出力する。当該マイクは、通信端末103に搭載された内蔵のマイクでもよいし、通信端末103に接続された外付けのマイクでもよい。音声入力部203Cは、取得部の一例である。
【0018】
受信制御部204は、通信部201から出力された受信データRを分解することで、各種の出力信号(例:映像出力信号VO、テキスト出力信号TO、音声出力信号AO)を生成する。受信制御部204は、生成した出力信号を映像出力部205A、テキスト出力部205B又は音声出力部205Cに出力する。
【0019】
映像出力部205Aは、受信制御部204から出力された映像出力信号VOを必要に応じて加工し、又は再構成することで、出力映像を生成する。映像出力部205Aは、生成した出力映像を表示装置に出力する。当該表示装置は、通信端末103に搭載された内蔵の表示装置でもよいし、通信端末103に接続された外付けの表示装置でもよい。
【0020】
テキスト出力部205Bは、受信制御部204から出力されたテキスト出力信号TOに基づいて、所定のテキストを表示装置に出力する。上記と同様に、当該表示装置は、通信端末103に搭載された内蔵の表示装置でもよいし、通信端末103に接続された外付けの表示装置でもよい。
【0021】
音声出力部205Cは、受信制御部204から出力された音声出力信号AOを必要に応じて加工し、又は再構成することで、出力音声を生成する。音声出力部205Cは、生成した出力音声を音響装置に出力する。当該音響装置は、通信端末103に搭載された内蔵の音響装置でもよいし、通信端末103に接続された外付けの音響装置でもよい。
【0022】
図3は、第1実施形態に係る送信制御部202の機能構成例を示すブロック図である。送信制御部202は、操作検出部301、映像制御部302、音声制御部303、キーワード発話検出部304、キーワードモデル記憶部305、キーワード出力制御部306、キーワード情報記憶部307及び統合部308を含む。
【0023】
操作検出部301は、操作入力部203Bから出力された操作入力信号OIを分解することで、映像制御情報VC、送信テキスト情報TX及び音声制御情報ACを生成する。操作検出部301は、生成した映像制御情報VCを映像制御部302に出力する。操作検出部301は、生成した送信テキスト情報TXを統合部308に出力する。操作検出部301は、生成した音声制御情報ACを音声制御部303及びキーワード出力制御部306に出力する。
【0024】
映像制御部302は、操作検出部301から出力された映像制御情報VCに応じて、映像入力部203Aから出力された映像入力信号VIの出力を制御する。映像制御部302は、映像制御情報VCが「ON」である場合、映像入力信号VIを統合部308に出力する。反対に、映像制御部302は、映像制御情報VCが「OFF」である場合、映像入力信号VIの出力を停止する。すなわち、映像制御部302は、映像入力信号VIを出力するか否かを決定する「ゲート」として機能する。
【0025】
音声制御部303は、操作検出部301から出力された音声制御情報ACに応じて、音声入力部203Cから出力された音声入力信号AIの出力を制御する。音声制御部303は、音声制御情報ACが「ON」である場合、音声入力信号AIを統合部308に出力する。反対に、音声制御部303は、音声制御情報ACが「OFF」である場合、音声入力信号AIの出力を停止する。すなわち、音声制御部303は、音声入力信号AIを出力するか否かを決定する「ゲート」として機能する。
【0026】
キーワード発話検出部304は、音声入力部203Cから出力された音声入力信号AIに対して、キーワードモデル記憶部305に記憶されたキーワードモデルを適用することで、音声入力信号AIから所定のキーワード発話に対応する音声信号を検出する。キーワード発話検出部304は、当該音声信号が検出された場合、検出された音声信号に対応するIDをキーワード出力制御部306に出力する。
【0027】
キーワードモデル記憶部305は、キーワード発話検出部304により適用されるキーワードモデルを記憶する。キーワードモデルは、機械学習モデル(例:線形回帰、ロジスティック回帰、ランダムフォレスト、決定木、k近傍法、サポートベクターマシーン、ナイーブベイズ、正則化、ニューラルネットワーク)でもよい。例えば、キーワードモデルは、所定のキーワード発話に含まれる各キーワードを検出する。特に、キーワードモデルは、各キーワードの発音を構成する音素列又は音節列を検出し、検出した音素列又は音節列に基づいて、所定のキーワード発話の有無を判定してもよい。なお、ニューラルネットワークの構造は、既知の構造(例:全結合型、畳み込み型、再帰型)でもよい。
【0028】
キーワードモデルは、事前に訓練データにより訓練されていてもよい。訓練データは、大量の語彙を含む音声コーパスでもよいし、典型的なキーワードに係るキーワード発声を収集した音声データでもよい。この音声データは、通信端末103のユーザによるキーワード発声を含んでもよい。もちろん、訓練済みのキーワードモデルは、新たな訓練データにより再度、訓練されてもよい。訓練済みのキーワードモデルは、ユーザのキーワード発話を高精度に検出できる。
【0029】
キーワード出力制御部306は、第一に、キーワード発話検出部304から出力されたIDに対応する送信テキスト情報TXを、キーワード情報記憶部307から読み出す。キーワード出力制御部306は、第二に、操作検出部301から出力された音声制御情報ACに応じて、読み出した送信テキスト情報TXの出力を制御する。キーワード出力制御部306は、音声制御情報ACが「ON」である場合、送信テキスト情報TXの出力を停止する。反対に、キーワード出力制御部306は、音声制御情報ACが「OFF」である場合、送信テキスト情報TXを統合部308に出力する。
【0030】
すなわち、音声制御情報ACが「ON」である場合、音声制御部303は音声入力信号AIを統合部308に出力し、キーワード出力制御部306は送信テキスト情報TXを出力しない。反対に、音声制御情報ACが「OFF」である場合、音声制御部303は音声入力信号AIを出力せず、キーワード出力制御部306は送信テキスト情報TXを統合部308に出力する。これにより、音声制御情報ACの「ON」又は「OFF」に応じて、音声入力信号AI又は送信テキスト情報TXのいずれか一方が出力される。
【0031】
キーワード情報記憶部307は、キーワード発話検出部304から出力されたIDに対応する発音及び送信テキスト情報TXを対応付けたキーワード情報を記憶する(
図5参照)。
【0032】
統合部308は、操作検出部301又はキーワード出力制御部306から出力された送信テキスト情報TXと、映像制御部302から出力された映像入力信号VIと、音声制御部303から出力された音声入力信号AIとを統合することで、送信データTを生成する。統合部308は、生成した送信データTを通信部201に出力する。
【0033】
図4は、第1実施形態に係る通信端末103の表示画面の第1例を示す図である。以下では、4名のユーザ(S、Y、K、T)が自身の通信端末103を用いて遠隔会議に参加している場合を想定する。表示画面400Aは、ユーザSの通信端末103の表示画面を示す。表示画面400Bは、ユーザTの通信端末103の表示画面を示す。
【0034】
表示画面400A及び400Bには、遠隔会議アプリケーションのウィンドウ401が表示される。ウィンドウ401は、映像制御ボタン402、音声制御ボタン403、表示名404、音声停止マーク405、映像停止マーク406、参加者映像407、会議チャット表示欄408及び会議チャット入力欄409を含む。
【0035】
映像制御ボタン402は、ユーザが自身の通信端末103から映像を送信するか否かを切り替えるためのボタンである。ユーザは、映像制御ボタン402をクリック操作などによりトグルすることで、「映像送信状態」及び「映像停止状態」を切り替えることができる。これにより、映像制御情報VCが「ON」又は「OFF」に切り替えられる。
【0036】
音声制御ボタン403は、ユーザが自身の通信端末103から音声を送信するか否かを切り替えるためのボタンである。ユーザは、音声制御ボタン403をクリック操作などによりトグルすることで、「音声送信状態」及び「音声停止状態」を切り替えることができる。これにより、音声制御情報ACが「ON」又は「OFF」に切り替えられる。
【0037】
表示画面400Aは、「映像送信状態」及び「音声送信状態」を示す。このとき、映像制御情報VC及び音声制御情報ACは「ON」であり、ユーザSの映像及び音声が他のユーザに送信されている。表示画面400Bは、「映像停止状態」及び「音声停止状態」を示す。このとき、映像制御情報VC及び音声制御情報ACは「OFF」であり、ユーザTの映像又は音声が他のユーザに送信されていない。
【0038】
表示名404は、ユーザが事前に登録した名称を示す。音声停止マーク405は、ユーザが「音声停止状態」であることを示す。映像停止マーク406は、ユーザが「映像停止状態」であることを示す。参加者映像407は、ユーザが「映像送信状態」である場合に、映像停止マーク406に代えて、当該ユーザから送信された映像を示す。
【0039】
会議チャット表示欄408は、ユーザが会議チャット入力欄409に入力したテキストを、当該ユーザの表示名404とともに表示する。これにより、ユーザが入力したテキストが他のユーザに共有される。
【0040】
会議チャット入力欄409は、ユーザがテキストを入力するための欄である。ユーザは、会議チャット入力欄409に対してキーボード操作などにより、所望のテキストを入力する。入力されたテキストは、送信テキスト情報TXとして出力される。
【0041】
図5は、第1実施形態に係るキーワード情報の例を示す図である。本例によれば、テーブル200Aは、キーワード情報として6つのレコードを登録する。例えば、ID「1」に係るレコードは、発音「おーけーです」に対応する送信テキスト情報TXとして、「OKです」を含む。同様に、ID「2」-「6」に係るレコードのそれぞれは、固有の発音及び固有の送信テキスト情報TXを含む。
【0042】
キーワード情報は、通信端末103のユーザにより選択され、編集され、又は登録されてもよい。送信テキスト情報TXは、HTML(HyperText Markup Language)などの形式により、文字修飾(例:サイズ、フォント、色)に係る属性を含んでもよい。さらに、送信テキスト情報TXに代えて、各通信端末103が共通に参照し得る画像又は映像のID又はURL(Uniform Resource Locator)が登録されてもよい。
【0043】
図6は、第1実施形態に係る通信端末103の表示画面の第2例を示す図である。以下では、ユーザSが他のユーザ(Y、K、T)に対して、「みなさん、これでよろしいですか?」と発話した場合を想定する。この問い掛けに対して、ユーザYは「だいじょーぶです」、ユーザKは「おーけーです」、ユーザTは「いいね」と発話したと想定する。表示画面400C及び400Dは、上記の場合におけるユーザSの通信端末103の表示画面を示す。
【0044】
表示画面400C及び400Dによれば、ユーザSの音声制御情報ACは「ON」であるから、ユーザSの発話は、他のユーザに送信されて再生される。同様に、ユーザKの音声制御情報ACは「ON」であるから、ユーザKの発話は、他のユーザに送信されて再生される。一方、ユーザ(Y、T)の音声制御情報ACは「OFF」であるから、ユーザ(Y、T)の発話は、他のユーザに送信されない。
【0045】
このとき、ユーザYの通信端末103は、以下のように動作する。キーワード発話検出部304は、ユーザYの発話「だいじょーぶです」に対応するIDとして「2」を検出する。キーワード出力制御部306は、テーブル200Aを参照することで、ID「2」に対応する送信テキスト情報TXとして「大丈夫です」を出力する。統合部308は、送信テキスト情報TXを含む送信データTを生成し、生成した送信データTを通信部201に出力する。
【0046】
一方、ユーザTの通信端末103は、以下のように動作する。キーワード発話検出部304は、ユーザTの発話「いいね」に対応するIDとして「4」を検出する。キーワード出力制御部306は、テーブル200Aを参照することで、ID「4」に対応する送信テキスト情報TXとして「いいね!」を出力する。統合部308は、送信テキスト情報TXを含む送信データTを生成し、生成した送信データTを通信部201に出力する。
【0047】
上記の動作の結果、表示画面400Cに示すように、ユーザ(Y、T)の発話は、各ユーザの通信端末103の会議チャット表示欄408に表示される。会議チャット表示欄408には、ユーザ(Y、T)の表示名404と、送信テキスト情報TXとが表示される。
【0048】
あるいは、表示画面400Dに示すように、ユーザ(Y、T)の発話は、ボックス450として、ユーザ(Y、T)の映像停止マーク406(又は参加者映像407)に重畳表示される。ボックス450は、送信テキスト情報TXを含み、所定の時間にわたり表示される。これにより、各ユーザは、どのユーザが発話したかを直感的に理解できる。なお、送信テキスト情報TXが画像のID又はURLである場合、当該画像が映像停止マーク406(又は参加者映像407)に重畳表示されてもよい。画像が表示されることで、ユーザは言語情報に加えて、感情又はニュアンスなどを表現できる。
【0049】
以上説明した第1実施形態によれば、ユーザの通信端末103は、音声制御情報ACが「OFF」である場合、当該ユーザの音声入力信号AIから所定のキーワード発話を検出する。通信端末103は、音声入力信号AIに代えて、検出されたキーワード発話に対応する送信テキスト情報TXなどを送信データTとして、遠隔会議装置101に送信する。
【0050】
したがって、音声制御情報ACが「OFF」であるユーザ(Y、T)は、所定のキーワードを発話することにより、問い掛けたユーザSに対して即座に返答できる。一方、ユーザSは、他のユーザ(Y、K、T)との間で合意形成を速やかに確認し、円滑に会議を進行できる。さらに、ユーザ(Y、T)は、自身の周囲の環境音が送信されることによるプライバシーの不安又は会議を妨げる懸念を感じることがない。ユーザ(Y、T)は、音声制御ボタン403を「ON」に切り替えてから発話する手間を要しないので、タイムリーに自身の意図を他のユーザに伝達できる。
【0051】
加えて、ユーザは、事前にテーブル200Aを確認することで、検出されるキーワードの発音及び送信テキスト情報TXを把握できる。これにより、ユーザは、自身が意図しない発話が検出されて、自身が意図しない送信テキスト情報TXが送信されないように注意できる。すなわち、ユーザは、安心して会議に参加できる。
【0052】
なお、通信端末103は、検出されたキーワードを送信する前に、確認ウィンドウを表示してもよい。例えば、確認ウィンドウは、「『いいね!』を送信します。よろしいですか?」というテキストと、GUIボタン「はい」「いいえ」とを含む。通信端末103は、ユーザがGUIボタン「はい」を選択した場合、「いいね!」を送信する。反対に、通信端末103は、ユーザがGUIボタン「いいえ」を選択した場合、「いいね!」を送信しない。これにより、通信端末103は、誤検出されたキーワードを送信するリスクを低減できる。すなわち、ユーザは、より安心して会議に参加できる。
【0053】
なお、通信端末103は、ユーザの音声入力信号AIから当該ユーザの感情を検出してもよい。例えば、キーワードモデル記憶部305は、笑い声又は怒り声を検出するための感情モデルを記憶する。キーワード発話検出部304は、音声入力信号AIに感情モデルを適用することで、笑い声を検出した場合にはID「1」を出力し、怒り声を検出した場合にはID「2」を出力する。
【0054】
例えば、キーワード情報記憶部307は、ID「1」に対応する送信テキスト情報TXとして「(笑)」を登録し、ID「2」に対応する送信テキスト情報TXとして「(怒)」を登録する。キーワード出力制御部306は、キーワード発話検出部304から出力されたIDに対応する送信テキスト情報TXを出力する。
【0055】
例えば、ユーザが冗談を言い、他のユーザが音声制御情報AC「OFF」の状態で笑った場合を想定する。この場合、他のユーザの笑い声が検出され、会議チャット表示欄408には、他のユーザの表示名404とともに、テキスト「(笑)」が表示される。これにより、冗談を言ったユーザに他のユーザのリアクションが伝達され、円滑なコミュニケーションが促進される。
【0056】
(第2実施形態)
図7は、第2実施形態に係る送信制御部202の機能構成例を示すブロック図である。第2実施形態によれば、送信制御部202は、一定時間の音声入力信号AIを記憶する。送信制御部202は、所定のキーワード発話が検出された場合、このキーワード発話が含まれる区間の音声信号を、記憶された音声入力信号AIから読み出して送信する。
【0057】
送信制御部202は、操作検出部301、映像制御部302、音声制御部303、キーワード発話検出部501、キーワードモデル記憶部502、キーワード出力制御部503、入力音声記憶部504及び統合部308を含む。
【0058】
キーワード発話検出部501は、音声入力部203Cから出力された音声入力信号AIに対して、キーワードモデル記憶部502に記憶されたキーワードモデルを適用することで、音声入力信号AIから所定のキーワード発話に対応する発話区間情報を検出する。例えば、発話の開始時刻が「1.7秒前」であり、発話の終了時刻が「0.3秒前」である場合、キーワード発話検出部501は、発話区間情報[1.7,0.3]をキーワード出力制御部503に出力する。
【0059】
キーワードモデル記憶部502は、第一に、キーワード発話検出部501により適用されるキーワードモデルを記憶する。キーワードモデル記憶部502に記憶されるキーワードモデルは、キーワードモデル記憶部305に記憶されるキーワードモデルと同様である。キーワードモデル記憶部502は、第二に、キーワードモデルが検出すべきキーワードのリストを記憶する(
図8参照)。
【0060】
キーワード出力制御部503は、第一に、キーワード発話検出部501から出力された発話区間情報に対応する音声信号(検出音声信号DA)を、入力音声記憶部504に記憶された音声入力信号AIから読み出す。キーワード出力制御部503は、第二に、操作検出部301から出力された音声制御情報ACに応じて、検出音声信号DAの出力を制御する。キーワード出力制御部503は、音声制御情報ACが「ON」である場合、検出音声信号DAの出力を停止する。反対に、キーワード出力制御部503は、音声制御情報ACが「OFF」である場合、検出音声信号DAを統合部308に出力する。
【0061】
すなわち、音声制御情報ACが「ON」である場合、音声制御部303は音声入力信号AIを統合部308に出力し、キーワード出力制御部503は検出音声信号DAを出力しない。反対に、音声制御情報ACが「OFF」である場合、音声制御部303は音声入力信号AIを出力せず、キーワード出力制御部503は検出音声信号DAを統合部308に出力する。これにより、音声制御情報ACの「ON」又は「OFF」に応じて、音声入力信号AI又は検出音声信号DAのいずれか一方が出力される。
【0062】
入力音声記憶部504は、現在時刻から所定の時間前までの音声入力信号AIを記憶し、順次、その記憶内容を更新する。入力音声記憶部504は、キーワードモデル記憶部502に記憶されたキーワードの文字数又は音節数に基づいて、音声入力信号AIの記憶時間を設定する。特に、入力音声記憶部504は、キーワード全体の音声を記憶し得るように、記憶時間を設定する。典型的には、記憶時間は「4.0秒」である(
図9参照)。
【0063】
統合部308は、操作検出部301から出力された送信テキスト情報TXと、映像制御部302から出力された映像入力信号VIと、音声制御部303から出力された音声入力信号AI又はキーワード出力制御部503から出力された検出音声信号DAとを統合することで、送信データTを生成する。統合部308は、生成した送信データTを通信部201に出力する。
【0064】
図8は、第2実施形態に係るキーワードリストの例を示す図である。本例によれば、テーブル200Bは、キーワードリストとして6つのレコードを登録する。例えば、ID「1」に係るレコードは、発音「おーけーです」を含む。同様に、ID「2」-「6」に係るレコードのそれぞれは、固有の発音を含む。
【0065】
図9は、第2実施形態に係る音声入力信号AIの例を示す図である。本例によれば、波形データ500は、一定時間にわたるユーザの音声入力信号AIを示す。波形データ500は、「4.0秒前」から「0秒前」(現在時刻)までの区間510に及ぶ波形データである。波形データ500について、横軸方向は時間を示し、縦軸方向は振幅を示す。波形データ500は、入力音声記憶部504に記憶される。
【0066】
例えば、発話「だいじょーぶです」に対応する発話区間情報が[1.7,0.3]である場合を想定する。この場合、キーワード出力制御部503は、区間510のうち、発話区間情報[1.7,0.3]に対応する区間520を特定する。キーワード出力制御部503は、特定した区間520における検出音声信号DAを読み出す。なお、キーワード出力制御部503は、発話区間情報の誤差を考慮して、検出音声信号DAを読み出す区間を時間的に拡張してもよい。上記の例において、キーワード出力制御部503は、「0.2秒」の誤差を考慮する場合、「1.9秒前」から「0.1秒前」の区間における検出音声信号DAを読み出す。これにより、検出音声信号DAの全体が確実に検出され得る。
【0067】
再び
図6を参照して、第2実施形態に係る通信端末103の表示画面の例を説明する。以下では、第1実施形態と同様に、ユーザSが他のユーザ(Y、K、T)に対して、「みなさん、これでよろしいですか?」と発話した場合を想定する。この問い掛けに対して、ユーザYは「だいじょーぶです」、ユーザKは「おーけーです」、ユーザTは「いいね」と発話したと想定する。表示画面400C及び400Dは、上記の場合におけるユーザSの通信端末103の表示画面を示す。
【0068】
表示画面400C及び400Dによれば、ユーザSの音声制御情報ACは「ON」であるから、ユーザSの発話は、他のユーザに送信されて再生される。同様に、ユーザKの音声制御情報ACは「ON」であるから、ユーザKの発話は、他のユーザに送信されて再生される。一方、ユーザ(Y、T)の音声制御情報ACは「OFF」である。
【0069】
このとき、ユーザYの通信端末103は、以下のように動作する。キーワード発話検出部501は、ユーザYの発話「だいじょーぶです」に対応する発話区間情報[1.7,0.3]を検出する。キーワード出力制御部503は、波形データ500を参照することで、この発話区間情報に対応する区間520の検出音声信号DAを読み出す。統合部308は、検出音声信号DAを含む送信データTを生成し、生成した送信データTを通信部201に出力する。
【0070】
一方、ユーザTの通信端末103は、以下のように動作する。キーワード発話検出部501は、ユーザTの発話「いいね」に対応する発話区間情報を検出する。キーワード出力制御部503は、入力音声記憶部504から、この発話区間情報に対応する区間の検出音声信号DAを読み出す。統合部308は、検出音声信号DAを含む送信データTを生成し、生成した送信データTを通信部201に出力する。
【0071】
上記の動作の結果、表示画面400C及び400Dにおいて、ユーザ(Y、T)の発話は、他のユーザに送信されて再生される。
【0072】
以上説明した第2実施形態によれば、ユーザの通信端末103は、音声制御情報ACが「OFF」である場合、当該ユーザの音声入力信号AIから所定のキーワード発話に対応する検出音声信号DAを検出する。通信端末103は、音声入力信号AIに代えて、検出音声信号DAを送信データTとして、遠隔会議装置101に送信する。
【0073】
したがって、音声制御情報ACが「OFF」であるユーザ(Y、T)は、所定のキーワードを発話することにより、あたかも音声制御情報ACを「ON」に切り替えて発話したかのように、問い掛けたユーザSに対して即座に返答できる。一方、ユーザSは、他のユーザ(Y、K、T)との間で合意形成を速やかに確認し、円滑に会議を進行できる。ユーザ(Y、T)が発話した音声の抑揚又は調子などが送信されるため、ユーザ(Y、T)は、テキストなどの言語情報では伝達できないニュアンスを他のユーザに伝達できる。
【0074】
加えて、ユーザ(Y、T)が所定のキーワードを発話しない間、当該ユーザの周囲の環境音が他のユーザに送信されない。すなわち、上記の間、ユーザ(Y、T)は、自身の周囲の環境音が送信されることによるプライバシーの不安又は会議を妨げる懸念を感じることがない。ユーザ(Y、T)は、音声制御ボタン403を「ON」に切り替えてから発話する手間を要しないので、タイムリーに自身の意図を他のユーザに伝達できる。
【0075】
(第3実施形態)
図10は、第3実施形態に係る送信制御部202の機能構成例を示すブロック図である。第3実施形態によれば、送信制御部202は、映像入力信号VIから所定のジェスチャーを検出し、検出されたジェスチャーに対応する送信テキスト情報TXを送信する。
【0076】
送信制御部202は、操作検出部301、映像制御部302、音声制御部303、ジェスチャー検出部601、ジェスチャーモデル記憶部602、ジェスチャー出力制御部603、ジェスチャー情報記憶部604及び統合部308を含む。
【0077】
ジェスチャー検出部601は、映像入力部203Aから出力された映像入力信号VIに対して、ジェスチャーモデル記憶部602に記憶されたジェスチャーモデルを適用することで、映像入力信号VIから所定のジェスチャーに対応するジェスチャー信号を検出する。ジェスチャー検出部601は、当該ジェスチャー信号が検出された場合、検出されたジェスチャー信号に対応するIDをジェスチャー出力制御部603に出力する。
【0078】
ジェスチャーモデル記憶部602は、ジェスチャー検出部601により適用されるジェスチャーモデルを記憶する。ジェスチャーモデルは、キーワードモデルと同様に、機械学習モデルでもよい。例えば、ジェスチャーモデルは、所定のジェスチャーを構成するポーズの系列を検出し、検出されたポーズの系列に基づいて、所定のジェスチャーの有無を判定してもよい。
【0079】
ジェスチャーモデルは、事前に訓練データにより訓練されていてもよい。訓練データは、大量のジェスチャーを含む映像コーパスでもよいし、典型的なジェスチャーに係るジェスチャー映像を収集した映像データでもよい。この映像データは、通信端末103のユーザによるジェスチャー映像を含んでもよい。もちろん、訓練済みのジェスチャーモデルは、新たな訓練データにより再度、訓練されてもよい。訓練済みのジェスチャーモデルは、ユーザのジェスチャーを高精度に検出できる。
【0080】
ジェスチャー出力制御部603は、第一に、ジェスチャー検出部601から出力されたIDに対応する送信テキスト情報TXを、ジェスチャー情報記憶部604から読み出す。ジェスチャー出力制御部603は、第二に、操作検出部301から出力された映像制御情報VCに応じて、読み出した送信テキスト情報TXの出力を制御する。ジェスチャー出力制御部603は、映像制御情報VCが「ON」である場合、送信テキスト情報TXの出力を停止する。反対に、ジェスチャー出力制御部603は、映像制御情報VCが「OFF」である場合、送信テキスト情報TXを統合部308に出力する。
【0081】
すなわち、映像制御情報VCが「ON」である場合、映像制御部302は映像入力信号VIを統合部308に出力し、ジェスチャー出力制御部603は送信テキスト情報TXを出力しない。反対に、映像制御情報VCが「OFF」である場合、映像制御部302は映像入力信号VIを出力せず、ジェスチャー出力制御部603は送信テキスト情報TXを統合部308に出力する。これにより、映像制御情報VCの「ON」又は「OFF」に応じて、映像入力信号VI又は送信テキスト情報TXのいずれか一方が出力される。
【0082】
ジェスチャー情報記憶部604は、ジェスチャー検出部601から出力されたIDに対応するジェスチャーの内容及び送信テキスト情報TXを対応付けたジェスチャー情報を記憶する(
図11参照)。
【0083】
統合部308は、操作検出部301又はジェスチャー出力制御部603から出力された送信テキスト情報TXと、映像制御部302から出力された映像入力信号VIと、音声制御部303から出力された音声入力信号AIとを統合することで、送信データTを生成する。統合部308は、生成した送信データTを通信部201に出力する。
【0084】
図11は、第3実施形態に係るジェスチャー情報の例を示す図である。本例によれば、テーブル200Cは、ジェスチャー情報として3つのレコードを登録する。例えば、ID「1」に係るレコードは、ジェスチャー「首を上下に2回振る」に対応する送信テキスト情報TXとして、「うんうん」を含む。同様に、ID「2」及び「3」に係るレコードのそれぞれは、固有のジェスチャー及び固有の送信テキスト情報TXを含む。
【0085】
ジェスチャー情報は、通信端末103のユーザにより選択され、編集され、又は登録されてもよい。送信テキスト情報TXは、HTMLなどの形式により、文字修飾に係る属性を含んでもよい。さらに、送信テキスト情報TXに代えて、各通信端末103が共通に参照し得る画像又は映像のID又はURLが登録されてもよい。
【0086】
図12は、第3実施形態に係る通信端末103の表示画面の例を示す図である。以下では、ユーザSが他のユーザ(Y、K、T)に対して、「みなさん、これでよろしいですか?」と発話した場合を想定する。この問い掛けに対して、ユーザ(K、T)は「首を上下に2回振る」動作を行い、ユーザYは「親指を立てて拳を突き出す」動作を行ったと想定する。表示画面400E及び400Fは、上記の場合におけるユーザSの通信端末103の表示画面を示す。
【0087】
表示画面400E及び400Fによれば、ユーザSの音声制御情報ACは「ON」であるから、ユーザSの発話は、他のユーザに送信されて再生される。一方、ユーザKの映像制御情報VCは「ON」であるから、ユーザKの映像は、他のユーザに送信されて再生される。一方、ユーザ(Y、T)の映像制御情報VCは「OFF」であるから、ユーザ(Y、T)の映像は、他のユーザに送信されない。
【0088】
このとき、ユーザYの通信端末103は、以下のように動作する。ジェスチャー検出部601は、ユーザYの動作「親指を立てて拳を突き出す」に対応するIDとして「3」を検出する。ジェスチャー出力制御部603は、テーブル200Cを参照することで、ID「3」に対応する送信テキスト情報TXとして「いいね!」を出力する。統合部308は、送信テキスト情報TXを含む送信データTを生成し、生成した送信データTを通信部201に出力する。
【0089】
一方、ユーザTの通信端末103は、以下のように動作する。ジェスチャー検出部601は、ユーザTの動作「首を上下に2回振る」に対応するIDとして「1」を検出する。ジェスチャー出力制御部603は、テーブル200Cを参照することで、ID「1」に対応する送信テキスト情報TXとして「うんうん」を出力する。統合部308は、送信テキスト情報TXを含む送信データTを生成し、生成した送信データTを通信部201に出力する。
【0090】
上記の動作の結果、表示画面400Eに示すように、ユーザ(Y、T)の動作は、各ユーザの通信端末103の会議チャット表示欄408に表示される。会議チャット表示欄408には、ユーザ(Y、T)の表示名404と、送信テキスト情報TXとが表示される。
【0091】
あるいは、表示画面400Fに示すように、ユーザ(Y、T)の動作は、ジェスチャー映像460として、ユーザ(Y、T)の映像停止マーク406(又は参加者映像407)に重畳表示される。例えば、ユーザYの映像停止マーク406には、親指を立てて拳を突き出すジェスチャー映像460が重畳表示される。一方、ユーザTの映像停止マーク406には、首を上下に2回振るジェスチャー映像460が重畳表示される。ジェスチャー映像460は、所定の時間にわたり再生される。これにより、各ユーザは、どのユーザがジェスチャーを行ったかを直感的に理解できる。ユーザのジェスチャー映像460が再生されることで、当該ユーザは、感情又はニュアンスなどを他のユーザに伝達できる。
【0092】
以上説明した第3実施形態によれば、ユーザの通信端末103は、映像制御情報VCが「OFF」である場合、当該ユーザの映像入力信号VIから所定のジェスチャーを検出する。通信端末103は、映像入力信号VIに代えて、検出されたジェスチャーに対応する送信テキスト情報TXなどを送信データTとして、遠隔会議装置101に送信する。
【0093】
したがって、映像制御情報VCが「OFF」であるユーザ(Y、T)は、所定のジェスチャーを行うことにより、問い掛けたユーザSに対して即座に返答できる。一方、ユーザSは、他のユーザ(Y、K、T)との間で合意形成を速やかに確認し、円滑に会議を進行できる。さらに、ユーザ(Y、T)は、自身の周囲の映像が送信されることによるプライバシーの不安又は会議を妨げる懸念を感じることがない。ユーザ(Y、T)は、映像制御ボタン402を「ON」に切り替えてからジェスチャーを行う手間を要しないので、タイムリーに自身の意図を他のユーザに伝達できる。
【0094】
加えて、ユーザは、事前にテーブル200Cを確認することで、検出されるジェスチャー及び送信テキスト情報TXを把握できる。これにより、ユーザは、自身が意図しないジェスチャーが検出されて、自身が意図しない送信テキスト情報TXが送信されないように注意できる。すなわち、ユーザは、安心して会議に参加できる。
【0095】
なお、通信端末103は、ユーザの映像入力信号VIから当該ユーザの顔の表情を検出してもよい。例えば、ジェスチャーモデル記憶部602は、笑い顔又は怒り顔を検出するための表情モデルを記憶する。ジェスチャー検出部601は、映像入力信号VIに表情モデルを適用することで、笑い顔を検出した場合にはID「1」を出力し、怒り顔を検出した場合にはID「2」を出力する。
【0096】
例えば、ジェスチャー情報記憶部604は、ID「1」に対応する送信テキスト情報TXとして「(笑)」を登録し、ID「2」に対応する送信テキスト情報TXとして「(怒)」を登録する。ジェスチャー出力制御部603は、ジェスチャー検出部601から出力されたIDに対応する送信テキスト情報TXを出力する。
【0097】
例えば、ユーザが冗談を言い、他のユーザが映像制御情報VC「OFF」の状態で笑った場合を想定する。この場合、他のユーザの笑い顔が検出され、会議チャット表示欄408には、他のユーザの表示名404とともに、テキスト「(笑)」が表示される。これにより、冗談を言ったユーザに他のユーザのリアクションが伝達され、円滑なコミュニケーションが促進される。
【0098】
(第4実施形態)
図13は、第4実施形態に係る送信制御部202の機能構成例を示すブロック図である。第4実施形態によれば、送信制御部202は、操作入力信号OIから所定の操作パターンを検出し、検出された操作パターンに対応する送信テキスト情報TXを送信する。
【0099】
送信制御部202は、操作検出部701、操作情報記憶部702、映像制御部302、音声制御部303及び統合部308を含む。
【0100】
操作検出部701は、第一に、操作入力部203Bから出力された操作入力信号OIを分解することで、映像制御信号VC、送信テキスト情報TX及び音声制御情報ACを生成する。操作検出部701は、第二に、操作入力信号OIから所定の操作パターンに対応するIDを検出し、検出したIDに対応する送信テキスト情報TXを統合部308に出力する。すなわち、送信テキスト情報TXは、(i)会議チャット入力欄409にテキストが入力された場合と、(ii)操作入力信号OIから所定の操作パターンが検出された場合とに出力される。
【0101】
操作情報記憶部702は、操作検出部701が操作入力信号OIから検出すべき操作パターンと、当該操作パターンに対応するID及び送信テキスト情報TXとを対応付けた操作情報を記憶する(
図14参照)。
【0102】
統合部308は、操作検出部701から出力された送信テキスト情報TXと、映像制御部302から出力された映像入力信号VIと、音声制御部303から出力された音声入力信号AIとを統合することで、送信データTを生成する。統合部308は、生成した送信データTを通信部201に出力する。
【0103】
図14は、第4実施形態に係る操作情報の例を示す図である。本例によれば、テーブル200Dは、操作情報として4つのレコードを登録する。例えば、ID「1」に係るレコードは、操作パターン「Ctrl+O,Ctrl+K」に対応する送信テキスト情報TXとして、「OKです」を含む。同様に、ID「2」-「4」に係るレコードのそれぞれは、固有の操作パターン及び固有の送信テキスト情報TXを含む。
【0104】
操作パターンの「Ctrl」はキーボードのコントロールキーを意味し、英文字「O,K,D,J,A,R」はキーボードの各キーを意味する。操作パターンの「ML」はマウスの左ボタンを意味し、「MR」はマウスの右ボタンを意味する。プラス記号「+」は、当該記号の左右の操作を同時に行うことを意味し、コンマ記号「,」は、当該記号の左の操作を行った後、当該記号の右の操作を行うことを意味する。さらに、操作情報は、通信端末103のユーザにより選択され、編集され、又は登録されてもよい。
【0105】
なお、テーブル200Dは、キーボード及びマウス以外の入力装置による操作パターンを登録してもよい。例えば、テーブル200Dは、マウスポインタによる操作パターン、タッチスクリーン上でのタップ又はフリックによる操作パターンなどを登録してもよい。
【0106】
図15は、第4実施形態に係る通信端末103の表示画面の例を示す図である。以下では、ユーザSが他のユーザ(Y、K、T)に対して、「みなさん、これでよろしいですか?」と発話した場合を想定する。この問い掛けに対して、ユーザYは「大丈夫です」と発話し、ユーザKは「ML+MR」の操作を行い、ユーザTは「Ctrl+O,Ctrl+K」の操作を行ったと想定する。表示画面400Gは、上記の場合におけるユーザSの通信端末103の表示画面を示す。
【0107】
表示画面400Gによれば、ユーザSの音声制御情報ACは「ON」であるから、ユーザSの発話は、他のユーザに送信されて再生される。同様に、ユーザYの音声制御情報ACは「ON」であるから、ユーザYの発話は、他のユーザに送信されて再生される。一方、ユーザ(K、T)の音声制御情報ACは「OFF」である。
【0108】
このとき、ユーザKの通信端末103は、以下のように動作する。操作検出部701は、ユーザKの操作「ML+MR」に対応するIDとして「4」を検出する。操作検出部701は、テーブル200Dを参照することで、ID「4」に対応する送信テキスト情報TXとして「いいね!」を出力する。統合部308は、送信テキスト情報TXを含む送信データTを生成し、生成した送信データTを通信部201に出力する。
【0109】
一方、ユーザTの通信端末103は、以下のように動作する。操作検出部701は、ユーザTの操作「Ctrl+O,Ctrl+K」に対応するIDとして「1」を検出する。操作検出部701は、テーブル200Dを参照することで、ID「1」に対応する送信テキスト情報TXとして「OKです」を出力する。統合部308は、送信テキスト情報TXを含む送信データTを生成し、生成した送信データTを通信部201に出力する。
【0110】
上記の動作の結果、表示画面400Gに示すように、ユーザ(K、T)の操作は、各ユーザの通信端末103の会議チャット表示欄408に表示される。会議チャット表示欄408には、ユーザ(K、T)の表示名404と、送信テキスト情報TXとが表示される。
【0111】
以上説明した第4実施形態によれば、ユーザの通信端末103は、音声制御情報ACが「OFF」である場合、当該ユーザの操作入力信号OIから所定の操作パターンを検出する。通信端末103は、音声入力信号AIに代えて、検出された操作パターンに対応する送信テキスト情報TXなどを送信データTとして、遠隔会議装置101に送信する。
【0112】
したがって、音声制御情報ACが「OFF」であるユーザ(K、T)は、所定の操作パターンを入力することにより、問い掛けたユーザSに対して即座に返答できる。一方、ユーザSは、他のユーザ(Y、K、T)との間で合意形成を速やかに確認し、円滑に会議を進行できる。さらに、ユーザ(K、T)は、自身の周囲の環境音が送信されることによるプライバシーの不安又は会議を妨げる懸念を感じることがない。ユーザ(K、T)は、会議チャット入力欄409にテキストを入力する手間を要しないので、タイムリーに自身の意図を他のユーザに伝達できる。特に、通信端末103は、信号モデルに代えて、ユーザの操作入力を使用するので、誤検出が生じるリスクを低減できる。
【0113】
以上説明した第1実施形態から第4実施形態によれば、通信端末103は、3種類の入力信号(映像入力信号VI、操作入力信号OI、音声入力信号AI)のいずれかから、信号モデル又は操作パターンに対応する検出信号を検出する。本例に限らず、通信端末103は、これら3種類の入力信号から任意の組み合わせで複数の検出信号を検出してもよい。これにより、ユーザは、自身が使いやすい方法を選択し、選択した方法で自身の意図を他のユーザに伝達できるので、より円滑なコミュニケーションが促進される。
【0114】
(第5実施形態)
図16は、第5実施形態に係る信号処理装置800の構成例を示すブロック図である。信号処理装置800は、各種の信号を処理する装置である。信号処理装置800は、パーソナルコンピュータ(PC)、タブレット端末又はスマートフォンでもよい。信号処理装置800は、通信端末103に搭載されてもよいし、通信端末103そのものでもよい。信号処理装置800は、「遠隔会議支援装置」の一例である。
【0115】
信号処理装置800は、各構成として、処理回路81、記憶装置82、入力装置83、出力装置84及び通信装置85を含む。各構成は、共通の信号通信路であるバス(BUS)を介して、互いに通信可能に接続される。
【0116】
処理回路81は、信号処理装置800の全体の動作を制御する回路である。処理回路81は、少なくとも1つのプロセッサを含む。プロセッサは、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、プログラマブル論理デバイス(例:単純プログラマブル論理デバイス(SPLD:Simple Programmable Logic Device)、複合プログラマブル論理デバイス(CPLD:Complex Programmable Logic Device)、フィールドプログラマブルゲートアレイ(FPGA:Field Programmable Gate Array))などの回路を意味する。プロセッサがCPUである場合、CPUは記憶装置82に記憶された各プログラムを読み出して実行することで、各機能を実現する。プロセッサがASICである場合、各機能がASICに論理回路として直接組み込まれる。プロセッサは、単一の回路として構成されてもよいし、独立した複数の回路を互いに組み合わせて構成されてもよい。処理回路81は、各部(取得部811、検出部812、送信部813、システム制御部814)を実現する。処理回路81は、処理部の一例である。
【0117】
取得部811は、各種のデータ又は情報を取得する。取得部811は、第一に、ユーザの音声又は映像に関するメディア信号(例:映像入力信号VI、音声入力信号AI)を取得する。取得部811は、第二に、メディア信号の制御情報(例:映像制御情報VC、音声制御情報AC)を取得する。
【0118】
検出部812は、各種のデータ又は情報を検出する。例えば、検出部812は、取得部811により取得されたメディア信号に信号モデル(例:キーワードモデル、感情モデル、ジェスチャーモデル、表情モデル)を適用することで、当該メディア信号から当該信号モデルに対応する検出信号(例:音声信号、感情信号、ジェスチャー信号、表情信号)を検出する。
【0119】
送信部813は、各種のデータ又は情報を送信する。例えば、送信部813は、取得部811により取得された制御情報に応じて、取得部811により取得されたメディア信号、又は検出部812により検出された検出信号を外部装置に送信する。制御情報が「ON」である場合、送信部813は、メディア信号を外部装置に送信する。反対に、制御情報が「OFF」である場合、送信部813は、検出信号又は検出信号に対応するメディアファイル(例:テキスト、画像、音楽、音声、映像)を外部装置に送信する。
【0120】
システム制御部814は、処理回路81が行う各種の動作を制御する機能である。例えば、システム制御部814は、処理回路81が各部(取得部811、検出部812、送信部813)を実現するためのオペレーティングシステム(OS)を提供する。
【0121】
記憶装置82は、各種のデータ又は情報を記憶する。記憶装置82は、プロセッサにより読取可能な記憶媒体(例:磁気的記憶媒体、電磁的記憶媒体、光学的記憶媒体、半導体メモリ)でもよいし、記憶媒体との間でデータ又は情報を読み書きする駆動装置でもよい。記憶装置82は、処理回路81に各部(取得部811、検出部812、送信部813、システム制御部814)を実現させる各プログラムを記憶する。記憶装置82は、各種の信号(メディア信号、検出信号)又はメディアファイルを記憶してもよい。記憶装置82は、記憶部の一例である。
【0122】
入力装置83は、信号処理装置800に各種のデータ又は情報を入力する装置である。入力装置83は、マウス、キーボード、ボタン、パネルスイッチ、スライダースイッチ、トラックボール、操作パネル、タッチスクリーン、ペンタブレット、カメラ又はマイクでもよい。入力装置83は、入力部の一例である。
【0123】
出力装置84は、各種のデータ又は情報を出力する装置である。出力装置84は、ディスプレイ、スピーカ又はイヤフォンでもよい。出力装置84がディスプレイである場合、当該ディスプレイは、GUIボタンなどにより表示されたデータ又は情報に対する各種の操作を受け付けてもよい。出力装置84は、出力部、表示部又は音響部の一例である。
【0124】
通信装置85は、外部装置との間で、各種のデータ又は情報を通信する装置である。外部装置は、遠隔会議装置101でもよい。通信装置85は、通信部の一例である。
【0125】
なお、処理回路81、記憶装置82、入力装置83、出力装置84又は通信装置85は、第1実施形態から第4実施形態に係る通信端末103の各部を実現してもよい。
【0126】
図17は、第5実施形態に係る信号処理装置800の動作例を示すフローチャートである。本動作例は、ユーザからの開始指示に応じて開始されてもよい。
【0127】
(ステップS1)まず、信号処理装置800は取得部811により、メディア信号及び制御情報を取得する。具体的には、取得部811は、入力装置83からメディア信号及び制御情報を取得する。
【0128】
(ステップS2)次に、信号処理装置800は検出部812により、ステップS1で取得されたメディア信号から検出信号を検出する。具体的には、検出部812は、メディア信号に信号モデルを適用することで、メディア信号から信号モデルに対応する検出信号を検出する。
【0129】
(ステップS3)ここで、信号処理装置800は送信部813により、ステップS1で取得された制御情報の信号状態を判定する。信号状態が「ON」である場合(ステップS3-ON)、処理はステップS4Aに進む。信号状態が「OFF」である場合(ステップS3-OFF)、処理はステップS4Bに進む。
【0130】
(ステップS4A)この場合、信号処理装置800は送信部813により、ステップS1で取得されたメディア信号を外部装置に送信する。ステップS4Aの後、信号処理装置800は一連の動作を終了する。
【0131】
(ステップS4B)この場合、信号処理装置800は送信部813により、ステップS2で検出された検出信号、又は検出信号に対応するメディアファイルを外部装置に送信する。ステップS4Bの後、信号処理装置800は一連の動作を終了する。
【0132】
以上説明した第5実施形態によれば、信号処理装置800は、第1実施形態から第4実施形態に係る通信端末103と同様な動作を実現できる。すなわち、信号処理装置800は、通信端末103の動作による効果と同様な効果を奏し得る。
【0133】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0134】
81…処理回路、82…記憶装置、83…入力装置、84…出力装置、85…通信装置、100…遠隔会議システム、101…遠隔会議装置、102…インターネット、103…通信端末、200A,200B,200C,200D…テーブル、201…通信部、202…送信制御部、203A…映像入力部、203B…操作入力部、203C…音声入力部、204…受信制御部、205A…映像出力部、205B…テキスト出力部、205C…音声出力部、301,701…操作検出部、302…映像制御部、303…音声制御部、304,501…キーワード発話検出部、305,502…キーワードモデル記憶部、306,503…キーワード出力制御部、307…キーワード情報記憶部、308…統合部、400A,400B,400C,400D,400E,400F,400G…表示画面、401…ウィンドウ、402…映像制御ボタン、403…音声制御ボタン、404…表示名、405…音声停止マーク、406…映像停止マーク、407…参加者映像、408…会議チャット表示欄、409…会議チャット入力欄、450…ボックス、460…ジェスチャー映像、500…波形データ、504…入力音声記憶部、510,520…区間、601…ジェスチャー検出部、602…ジェスチャーモデル記憶部、603…ジェスチャー出力制御部、604…ジェスチャー情報記憶部、702…操作情報記憶部、800…信号処理装置、811…取得部、812…検出部、813…送信部、814…システム制御部