特開2024-147282 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧

特開2024-147282遠隔会議支援プログラム、遠隔会議支援装置、及び遠隔会議支援方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024147282

(43)【公開日】2024-10-16

(54)【発明の名称】遠隔会議支援プログラム、遠隔会議支援装置、及び遠隔会議支援方法

(51)【国際特許分類】

H04N 7/15 20060101AFI20241008BHJP

G10L 15/10 20060101ALI20241008BHJP

【ＦＩ】

H04N7/15 150

H04N7/15

G10L15/10 200W

G10L15/10 500N

【審査請求】未請求

【請求項の数】13

【出願形態】ＯＬ

(21)【出願番号】P 2023060202

(22)【出願日】2023-04-03

(71)【出願人】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(74)【代理人】

【識別番号】110003708

【氏名又は名称】弁理士法人鈴榮特許綜合事務所

(72)【発明者】

【氏名】籠嶋岳彦

(72)【発明者】

【氏名】白川悠太

(72)【発明者】

【氏名】山地雄土

(72)【発明者】

【氏名】山根恵和

(72)【発明者】

【氏名】浅野三恵子

【テーマコード（参考）】

5C164

【Ｆターム（参考）】

5C164FA10

5C164PA43

5C164UB08S

5C164UB81S

5C164VA07P

5C164VA11P

(57)【要約】

【課題】遠隔会議における円滑なコミュニケーションを促進すること。
【解決手段】実施形態に係る遠隔会議支援プログラムは、コンピュータに、取得機能と、検出機能と、送信機能とを実現させる。取得機能は、ユーザの音声又は映像に関するメディア信号と、前記メディア信号の制御情報とを取得する。検出機能は、前記メディア信号に信号モデルを適用することで、前記メディア信号から前記信号モデルに対応する検出信号を検出する。送信機能は、前記制御情報により前記メディア信号が外部装置に送信されない場合、前記検出信号又は前記検出信号に対応するメディアファイルを前記外部装置に送信する。
【選択図】図６

【特許請求の範囲】

【請求項1】

コンピュータに、
ユーザの音声又は映像に関するメディア信号と、前記メディア信号の制御情報とを取得する取得機能と、
前記メディア信号に信号モデルを適用することで、前記メディア信号から前記信号モデルに対応する検出信号を検出する検出機能と、
前記制御情報により前記メディア信号が外部装置に送信されない場合、前記検出信号又は前記検出信号に対応するメディアファイルを前記外部装置に送信する送信機能と、
を実現させる遠隔会議支援プログラム。

【請求項2】

前記取得機能は、前記ユーザの音声に関する音声入力信号を取得し、
前記検出機能は、前記音声入力信号にキーワードモデルを適用することで、前記音声入力信号から所定のキーワード発話に対応する音声信号を検出する、
請求項１に記載の遠隔会議支援プログラム。

【請求項3】

前記送信機能は、前記制御情報により前記音声入力信号が前記外部装置に送信されない場合、前記検出された音声信号又は前記検出された音声信号に対応する前記メディアファイルを前記外部装置に送信する、
請求項２に記載の遠隔会議支援プログラム。

【請求項4】

前記取得機能は、前記ユーザの音声に関する音声入力信号を取得し、
前記検出機能は、前記音声入力信号に感情モデルを適用することで、前記音声入力信号から所定の感情に対応する感情信号を検出する、
請求項１に記載の遠隔会議支援プログラム。

【請求項5】

前記送信機能は、前記制御情報により前記音声入力信号が前記外部装置に送信されない場合、前記検出された感情信号に対応する前記メディアファイルを前記外部装置に送信する、
請求項４に記載の遠隔会議支援プログラム。

【請求項6】

前記取得機能は、前記ユーザの映像に関する映像入力信号を取得し、
前記検出機能は、前記映像入力信号にジェスチャーモデルを適用することで、前記映像入力信号から所定のジェスチャーに対応するジェスチャー信号を検出する、
請求項１に記載の遠隔会議支援プログラム。

【請求項7】

前記送信機能は、前記制御情報により前記映像入力信号が前記外部装置に送信されない場合、前記検出されたジェスチャー信号に対応する前記メディアファイルを前記外部装置に送信する、
請求項６に記載の遠隔会議支援プログラム。

【請求項8】

前記取得機能は、前記ユーザの映像に関する映像入力信号を取得し、
前記検出機能は、前記映像入力信号に表情モデルを適用することで、前記映像入力信号から所定の表情に対応する表情信号を検出する、
請求項１に記載の遠隔会議支援プログラム。

【請求項9】

前記送信機能は、前記制御情報により前記映像入力信号が前記外部装置に送信されない場合、前記検出された表情信号に対応する前記メディアファイルを前記外部装置に送信する、
請求項８に記載の遠隔会議支援プログラム。

【請求項10】

前記取得機能は、前記ユーザが入力した操作パターンに関する操作入力信号を取得し、
前記検出機能は、前記操作入力信号から所定の操作パターンを検出し、
前記送信機能は、前記制御情報により前記メディア信号が前記外部装置に送信されない場合、前記検出された操作パターンに対応するメディアファイルを前記外部装置に送信する、
請求項１に記載の遠隔会議支援プログラム。

【請求項11】

前記メディアファイルは、テキスト、画像、音楽、音声又は映像である、
請求項１に記載の遠隔会議支援プログラム。

【請求項12】

ユーザの音声又は映像に関するメディア信号と、前記メディア信号の制御情報とを取得する取得部と、
前記メディア信号に信号モデルを適用することで、前記メディア信号から前記信号モデルに対応する検出信号を検出する検出部と、
前記制御情報により前記メディア信号が外部装置に送信されない場合、前記検出信号又は前記検出信号に対応するメディアファイルを前記外部装置に送信する送信部と、
を具備する遠隔会議支援装置。

【請求項13】

ユーザの音声又は映像に関するメディア信号と、前記メディア信号の制御情報とを取得することと、
前記メディア信号に信号モデルを適用することで、前記メディア信号から前記信号モデルに対応する検出信号を検出することと、
前記制御情報により前記メディア信号が外部装置に送信されない場合、前記検出信号又は前記検出信号に対応するメディアファイルを前記外部装置に送信することと、
を具備する遠隔会議支援方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、遠隔会議支援プログラム、遠隔会議支援装置、及び遠隔会議支援方法に関する。

【背景技術】

【0002】

遠隔会議システムにおいて、互いに地理的に離れた各参加者は、自身の通信端末を用いて音声及び映像を通信する。各参加者は、会議中にプライバシーの保護などの観点から、自身の通信端末に搭載されたマイク及びカメラを無効（ＯＦＦ）に設定することがある。

【0003】

しかしながら、参加者がマイク及びカメラを無効化している間、当該参加者は他の参加者との間で円滑なコミュニケーションを行うことができない。例えば、当該参加者は、他の参加者から回答を求められた場合、即座に返答できない。一方、他の参加者は、当該参加者の同意が得られたか否かを判断できない。したがって、各参加者のプライバシーを確保し、各参加者間で円滑なコミュニケーションを促進する遠隔会議システムが望まれる。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特許第７０３６４６３号

【発明の概要】

【発明が解決しようとする課題】

【0005】

本発明が解決しようとする課題は、遠隔会議における円滑なコミュニケーションを促進することである。

【課題を解決するための手段】

【0006】

実施形態に係る遠隔会議支援プログラムは、コンピュータに、取得機能と、検出機能と、送信機能とを実現させる。取得機能は、ユーザの音声又は映像に関するメディア信号と、前記メディア信号の制御情報とを取得する。検出機能は、前記メディア信号に信号モデルを適用することで、前記メディア信号から前記信号モデルに対応する検出信号を検出する。送信機能は、前記制御情報により前記メディア信号が外部装置に送信されない場合、前記検出信号又は前記検出信号に対応するメディアファイルを前記外部装置に送信する。

【図面の簡単な説明】

【0007】

【図1】第１実施形態に係る遠隔会議システムの構成例を示すブロック図。

【図2】第１実施形態に係る通信端末の機能構成例を示すブロック図。

【図3】第１実施形態に係る送信制御部の機能構成例を示すブロック図。

【図4】第１実施形態に係る通信端末の表示画面の第１例を示す図。

【図5】第１実施形態に係るキーワード情報の例を示す図。

【図6】第１実施形態に係る通信端末の表示画面の第２例を示す図。

【図7】第２実施形態に係る送信制御部の機能構成例を示すブロック図。

【図8】第２実施形態に係るキーワードリストの例を示す図。

【図9】第２実施形態に係る音声入力信号の例を示す図。

【図10】第３実施形態に係る送信制御部の機能構成例を示すブロック図。

【図11】第３実施形態に係るジェスチャー情報の例を示す図。

【図12】第３実施形態に係る通信端末の表示画面の例を示す図。

【図13】第４実施形態に係る送信制御部の機能構成例を示すブロック図。

【図14】第４実施形態に係る操作情報の例を示す図。

【図15】第４実施形態に係る通信端末の表示画面の例を示す図。

【図16】第５実施形態に係る信号処理装置の構成例を示すブロック図。

【図17】第５実施形態に係る信号処理装置の動作例を示すフローチャート。

【発明を実施するための形態】

【0008】

以下、図面を参照しながら実施形態に係る遠隔会議支援プログラム、遠隔会議支援装置、及び遠隔会議支援方法について説明する。以下の実施形態では、同一の参照符号を付した部分は同様の動作を行うものとして、重複する説明を適宜、省略する。

【0009】

（第１実施形態）
図１は、第１実施形態に係る遠隔会議システム１００の構成例を示すブロック図である。遠隔会議システム１００は、遠隔会議を実施するためのシステムである。遠隔会議システム１００は、遠隔会議装置１０１、インターネット１０２及び複数の通信端末１０３を含む。遠隔会議装置１０１及び通信端末１０３は、インターネット１０２を介して互いに通信可能に接続される。

【0010】

遠隔会議装置１０１は、遠隔会議を実施するための装置である。遠隔会議装置１０１は、遠隔会議システム１００におけるサーバとして機能する。遠隔会議装置１０１は、高速な情報処理を実行し得るワークステーションでもよい。遠隔会議装置１０１は、有線又は無線によりインターネット１０２に接続される。遠隔会議装置１０１は、インターネット１０２を介して、通信端末１０３から送信された送信データＴ（例：映像、音声、テキスト）を受信する。遠隔会議装置１０１は、受信した送信データＴを必要に応じて加工した後、加工後の送信データＴを通信端末１０３に送信する。

【0011】

通信端末１０３は、遠隔会議装置１０１との間で各種のデータ又は情報を通信する端末である。通信端末１０３は、遠隔会議システム１００におけるクライアントとして機能する。通信端末１０３は、パーソナルコンピュータ（ＰＣ）、タブレット端末又はスマートフォンでもよい。通信端末１０３は、有線又は無線によりインターネット１０２に接続される。通信端末１０３は、インターネット１０２を介して、ユーザに関する送信データＴを遠隔会議装置１０１に送信する。通信端末１０３は、遠隔会議装置１０１から送信された加工後の送信データＴを受信データＲとして受信する。通信端末１０３は、受信した受信データＲを、ユーザに対して所定の方法で提示する。通信端末１０３は、「遠隔会議支援装置」の一例である。

【0012】

図２は、第１実施形態に係る通信端末１０３の機能構成例を示すブロック図である。通信端末１０３は、通信部２０１、送信制御部２０２、映像入力部２０３Ａ、操作入力部２０３Ｂ、音声入力部２０３Ｃ、受信制御部２０４、映像出力部２０５Ａ、テキスト出力部２０５Ｂ及び音声出力部２０５Ｃを含む。

【0013】

通信部２０１は、インターネット１０２を介して、遠隔会議装置１０１との間で通信を確立する。通信の確立後、通信部２０１は、送信制御部２０２から出力された送信データＴを遠隔会議装置１０１に送信する。通信部２０１は、遠隔会議装置１０１から送信された加工後の送信データＴを受信データＲとして受信し、受信した受信データＲを受信制御部２０４に出力する。通信部２０１は、送信部又は受信部の一例である。

【0014】

送信制御部２０２は、各種の入力信号（例：映像入力信号ＶI、操作入力信号ＯＩ、音声入力信号ＡＩ）を必要に応じて選択し、又は加工することで、送信データＴを生成する。送信制御部２０２は、生成した送信データＴを通信部２０１に出力する。送信制御部２０２は、検出部の一例である（図３参照）。

【0015】

映像入力部２０３Ａは、カメラから入力されたユーザ及び当該ユーザの背景映像を取得することで、映像入力信号ＶＩを生成する。映像入力部２０３Ａは、生成した映像入力信号ＶＩを送信制御部２０２に出力する。当該カメラは、通信端末１０３に搭載された内蔵のカメラでもよいし、通信端末１０３に接続された外付けのカメラでもよい。映像入力部２０３Ａは、取得部の一例である。

【0016】

操作入力部２０３Ｂは、入力装置から入力されたユーザの操作入力を取得することで、操作入力信号ＯＩを生成する。操作入力部２０３Ｂは、生成した操作入力信号ＯＩを送信制御部２０２に出力する。操作入力信号ＯＩは、マウスの移動若しくはクリック、キーボードからのキー入力、タッチスクリーンからのタップ若しくはフリック、又はペンタブレットからのペン入力に係る信号でもよい。当該入力装置は、通信端末１０３に搭載された内蔵の入力装置でもよいし、通信端末１０３に接続された外付けの入力装置でもよい。操作入力部２０３Ｂは、取得部の一例である。

【0017】

音声入力部２０３Ｃは、マイクから入力されたユーザの音声及び当該ユーザの周囲の環境音を取得することで、音声入力信号ＡＩを生成する。音声入力部２０３Ｃは、生成した音声入力信号ＡＩを送信制御部２０２に出力する。当該マイクは、通信端末１０３に搭載された内蔵のマイクでもよいし、通信端末１０３に接続された外付けのマイクでもよい。音声入力部２０３Ｃは、取得部の一例である。

【0018】

受信制御部２０４は、通信部２０１から出力された受信データＲを分解することで、各種の出力信号（例：映像出力信号ＶＯ、テキスト出力信号ＴＯ、音声出力信号ＡＯ）を生成する。受信制御部２０４は、生成した出力信号を映像出力部２０５Ａ、テキスト出力部２０５Ｂ又は音声出力部２０５Ｃに出力する。

【0019】

映像出力部２０５Ａは、受信制御部２０４から出力された映像出力信号ＶＯを必要に応じて加工し、又は再構成することで、出力映像を生成する。映像出力部２０５Ａは、生成した出力映像を表示装置に出力する。当該表示装置は、通信端末１０３に搭載された内蔵の表示装置でもよいし、通信端末１０３に接続された外付けの表示装置でもよい。

【0020】

テキスト出力部２０５Ｂは、受信制御部２０４から出力されたテキスト出力信号ＴＯに基づいて、所定のテキストを表示装置に出力する。上記と同様に、当該表示装置は、通信端末１０３に搭載された内蔵の表示装置でもよいし、通信端末１０３に接続された外付けの表示装置でもよい。

【0021】

音声出力部２０５Ｃは、受信制御部２０４から出力された音声出力信号ＡＯを必要に応じて加工し、又は再構成することで、出力音声を生成する。音声出力部２０５Ｃは、生成した出力音声を音響装置に出力する。当該音響装置は、通信端末１０３に搭載された内蔵の音響装置でもよいし、通信端末１０３に接続された外付けの音響装置でもよい。

【0022】

図３は、第１実施形態に係る送信制御部２０２の機能構成例を示すブロック図である。送信制御部２０２は、操作検出部３０１、映像制御部３０２、音声制御部３０３、キーワード発話検出部３０４、キーワードモデル記憶部３０５、キーワード出力制御部３０６、キーワード情報記憶部３０７及び統合部３０８を含む。

【0023】

操作検出部３０１は、操作入力部２０３Ｂから出力された操作入力信号ＯＩを分解することで、映像制御情報ＶＣ、送信テキスト情報ＴＸ及び音声制御情報ＡＣを生成する。操作検出部３０１は、生成した映像制御情報ＶＣを映像制御部３０２に出力する。操作検出部３０１は、生成した送信テキスト情報ＴＸを統合部３０８に出力する。操作検出部３０１は、生成した音声制御情報ＡＣを音声制御部３０３及びキーワード出力制御部３０６に出力する。

【0024】

映像制御部３０２は、操作検出部３０１から出力された映像制御情報ＶＣに応じて、映像入力部２０３Ａから出力された映像入力信号ＶＩの出力を制御する。映像制御部３０２は、映像制御情報ＶＣが「ＯＮ」である場合、映像入力信号ＶＩを統合部３０８に出力する。反対に、映像制御部３０２は、映像制御情報ＶＣが「ＯＦＦ」である場合、映像入力信号ＶＩの出力を停止する。すなわち、映像制御部３０２は、映像入力信号ＶＩを出力するか否かを決定する「ゲート」として機能する。

【0025】

音声制御部３０３は、操作検出部３０１から出力された音声制御情報ＡＣに応じて、音声入力部２０３Ｃから出力された音声入力信号ＡＩの出力を制御する。音声制御部３０３は、音声制御情報ＡＣが「ＯＮ」である場合、音声入力信号ＡＩを統合部３０８に出力する。反対に、音声制御部３０３は、音声制御情報ＡＣが「ＯＦＦ」である場合、音声入力信号ＡＩの出力を停止する。すなわち、音声制御部３０３は、音声入力信号ＡＩを出力するか否かを決定する「ゲート」として機能する。

【0026】

キーワード発話検出部３０４は、音声入力部２０３Ｃから出力された音声入力信号ＡＩに対して、キーワードモデル記憶部３０５に記憶されたキーワードモデルを適用することで、音声入力信号ＡＩから所定のキーワード発話に対応する音声信号を検出する。キーワード発話検出部３０４は、当該音声信号が検出された場合、検出された音声信号に対応するＩＤをキーワード出力制御部３０６に出力する。

【0027】

キーワードモデル記憶部３０５は、キーワード発話検出部３０４により適用されるキーワードモデルを記憶する。キーワードモデルは、機械学習モデル（例：線形回帰、ロジスティック回帰、ランダムフォレスト、決定木、ｋ近傍法、サポートベクターマシーン、ナイーブベイズ、正則化、ニューラルネットワーク）でもよい。例えば、キーワードモデルは、所定のキーワード発話に含まれる各キーワードを検出する。特に、キーワードモデルは、各キーワードの発音を構成する音素列又は音節列を検出し、検出した音素列又は音節列に基づいて、所定のキーワード発話の有無を判定してもよい。なお、ニューラルネットワークの構造は、既知の構造（例：全結合型、畳み込み型、再帰型）でもよい。

【0028】

キーワードモデルは、事前に訓練データにより訓練されていてもよい。訓練データは、大量の語彙を含む音声コーパスでもよいし、典型的なキーワードに係るキーワード発声を収集した音声データでもよい。この音声データは、通信端末１０３のユーザによるキーワード発声を含んでもよい。もちろん、訓練済みのキーワードモデルは、新たな訓練データにより再度、訓練されてもよい。訓練済みのキーワードモデルは、ユーザのキーワード発話を高精度に検出できる。

【0029】

キーワード出力制御部３０６は、第一に、キーワード発話検出部３０４から出力されたＩＤに対応する送信テキスト情報ＴＸを、キーワード情報記憶部３０７から読み出す。キーワード出力制御部３０６は、第二に、操作検出部３０１から出力された音声制御情報ＡＣに応じて、読み出した送信テキスト情報ＴＸの出力を制御する。キーワード出力制御部３０６は、音声制御情報ＡＣが「ＯＮ」である場合、送信テキスト情報ＴＸの出力を停止する。反対に、キーワード出力制御部３０６は、音声制御情報ＡＣが「ＯＦＦ」である場合、送信テキスト情報ＴＸを統合部３０８に出力する。

【0030】

すなわち、音声制御情報ＡＣが「ＯＮ」である場合、音声制御部３０３は音声入力信号ＡＩを統合部３０８に出力し、キーワード出力制御部３０６は送信テキスト情報ＴＸを出力しない。反対に、音声制御情報ＡＣが「ＯＦＦ」である場合、音声制御部３０３は音声入力信号ＡＩを出力せず、キーワード出力制御部３０６は送信テキスト情報ＴＸを統合部３０８に出力する。これにより、音声制御情報ＡＣの「ＯＮ」又は「ＯＦＦ」に応じて、音声入力信号ＡＩ又は送信テキスト情報ＴＸのいずれか一方が出力される。

【0031】

キーワード情報記憶部３０７は、キーワード発話検出部３０４から出力されたＩＤに対応する発音及び送信テキスト情報ＴＸを対応付けたキーワード情報を記憶する（図５参照）。

【0032】

統合部３０８は、操作検出部３０１又はキーワード出力制御部３０６から出力された送信テキスト情報ＴＸと、映像制御部３０２から出力された映像入力信号ＶＩと、音声制御部３０３から出力された音声入力信号ＡＩとを統合することで、送信データＴを生成する。統合部３０８は、生成した送信データＴを通信部２０１に出力する。

【0033】

図４は、第１実施形態に係る通信端末１０３の表示画面の第１例を示す図である。以下では、４名のユーザ（Ｓ、Ｙ、Ｋ、Ｔ）が自身の通信端末１０３を用いて遠隔会議に参加している場合を想定する。表示画面４００Ａは、ユーザＳの通信端末１０３の表示画面を示す。表示画面４００Ｂは、ユーザＴの通信端末１０３の表示画面を示す。

【0034】

表示画面４００Ａ及び４００Ｂには、遠隔会議アプリケーションのウィンドウ４０１が表示される。ウィンドウ４０１は、映像制御ボタン４０２、音声制御ボタン４０３、表示名４０４、音声停止マーク４０５、映像停止マーク４０６、参加者映像４０７、会議チャット表示欄４０８及び会議チャット入力欄４０９を含む。

【0035】

映像制御ボタン４０２は、ユーザが自身の通信端末１０３から映像を送信するか否かを切り替えるためのボタンである。ユーザは、映像制御ボタン４０２をクリック操作などによりトグルすることで、「映像送信状態」及び「映像停止状態」を切り替えることができる。これにより、映像制御情報ＶＣが「ＯＮ」又は「ＯＦＦ」に切り替えられる。

【0036】

音声制御ボタン４０３は、ユーザが自身の通信端末１０３から音声を送信するか否かを切り替えるためのボタンである。ユーザは、音声制御ボタン４０３をクリック操作などによりトグルすることで、「音声送信状態」及び「音声停止状態」を切り替えることができる。これにより、音声制御情報ＡＣが「ＯＮ」又は「ＯＦＦ」に切り替えられる。

【0037】

表示画面４００Ａは、「映像送信状態」及び「音声送信状態」を示す。このとき、映像制御情報ＶＣ及び音声制御情報ＡＣは「ＯＮ」であり、ユーザＳの映像及び音声が他のユーザに送信されている。表示画面４００Ｂは、「映像停止状態」及び「音声停止状態」を示す。このとき、映像制御情報ＶＣ及び音声制御情報ＡＣは「ＯＦＦ」であり、ユーザＴの映像又は音声が他のユーザに送信されていない。

【0038】

表示名４０４は、ユーザが事前に登録した名称を示す。音声停止マーク４０５は、ユーザが「音声停止状態」であることを示す。映像停止マーク４０６は、ユーザが「映像停止状態」であることを示す。参加者映像４０７は、ユーザが「映像送信状態」である場合に、映像停止マーク４０６に代えて、当該ユーザから送信された映像を示す。

【0039】

会議チャット表示欄４０８は、ユーザが会議チャット入力欄４０９に入力したテキストを、当該ユーザの表示名４０４とともに表示する。これにより、ユーザが入力したテキストが他のユーザに共有される。

【0040】

会議チャット入力欄４０９は、ユーザがテキストを入力するための欄である。ユーザは、会議チャット入力欄４０９に対してキーボード操作などにより、所望のテキストを入力する。入力されたテキストは、送信テキスト情報ＴＸとして出力される。

【0041】

図５は、第１実施形態に係るキーワード情報の例を示す図である。本例によれば、テーブル２００Ａは、キーワード情報として６つのレコードを登録する。例えば、ＩＤ「１」に係るレコードは、発音「おーけーです」に対応する送信テキスト情報ＴＸとして、「ＯＫです」を含む。同様に、ＩＤ「２」－「６」に係るレコードのそれぞれは、固有の発音及び固有の送信テキスト情報ＴＸを含む。

【0042】

キーワード情報は、通信端末１０３のユーザにより選択され、編集され、又は登録されてもよい。送信テキスト情報ＴＸは、ＨＴＭＬ（HyperText Markup Language）などの形式により、文字修飾（例：サイズ、フォント、色）に係る属性を含んでもよい。さらに、送信テキスト情報ＴＸに代えて、各通信端末１０３が共通に参照し得る画像又は映像のＩＤ又はＵＲＬ（Uniform Resource Locator）が登録されてもよい。

【0043】

図６は、第１実施形態に係る通信端末１０３の表示画面の第２例を示す図である。以下では、ユーザＳが他のユーザ（Ｙ、Ｋ、Ｔ）に対して、「みなさん、これでよろしいですか？」と発話した場合を想定する。この問い掛けに対して、ユーザＹは「だいじょーぶです」、ユーザＫは「おーけーです」、ユーザＴは「いいね」と発話したと想定する。表示画面４００Ｃ及び４００Ｄは、上記の場合におけるユーザＳの通信端末１０３の表示画面を示す。

【0044】

表示画面４００Ｃ及び４００Ｄによれば、ユーザＳの音声制御情報ＡＣは「ＯＮ」であるから、ユーザＳの発話は、他のユーザに送信されて再生される。同様に、ユーザＫの音声制御情報ＡＣは「ＯＮ」であるから、ユーザＫの発話は、他のユーザに送信されて再生される。一方、ユーザ（Ｙ、Ｔ）の音声制御情報ＡＣは「ＯＦＦ」であるから、ユーザ（Ｙ、Ｔ）の発話は、他のユーザに送信されない。

【0045】

このとき、ユーザＹの通信端末１０３は、以下のように動作する。キーワード発話検出部３０４は、ユーザＹの発話「だいじょーぶです」に対応するＩＤとして「２」を検出する。キーワード出力制御部３０６は、テーブル２００Ａを参照することで、ＩＤ「２」に対応する送信テキスト情報ＴＸとして「大丈夫です」を出力する。統合部３０８は、送信テキスト情報ＴＸを含む送信データＴを生成し、生成した送信データＴを通信部２０１に出力する。

【0046】

一方、ユーザＴの通信端末１０３は、以下のように動作する。キーワード発話検出部３０４は、ユーザＴの発話「いいね」に対応するＩＤとして「４」を検出する。キーワード出力制御部３０６は、テーブル２００Ａを参照することで、ＩＤ「４」に対応する送信テキスト情報ＴＸとして「いいね！」を出力する。統合部３０８は、送信テキスト情報ＴＸを含む送信データＴを生成し、生成した送信データＴを通信部２０１に出力する。

【0047】

上記の動作の結果、表示画面４００Ｃに示すように、ユーザ（Ｙ、Ｔ）の発話は、各ユーザの通信端末１０３の会議チャット表示欄４０８に表示される。会議チャット表示欄４０８には、ユーザ（Ｙ、Ｔ）の表示名４０４と、送信テキスト情報ＴＸとが表示される。

【0048】

あるいは、表示画面４００Ｄに示すように、ユーザ（Ｙ、Ｔ）の発話は、ボックス４５０として、ユーザ（Ｙ、Ｔ）の映像停止マーク４０６（又は参加者映像４０７）に重畳表示される。ボックス４５０は、送信テキスト情報ＴＸを含み、所定の時間にわたり表示される。これにより、各ユーザは、どのユーザが発話したかを直感的に理解できる。なお、送信テキスト情報ＴＸが画像のＩＤ又はＵＲＬである場合、当該画像が映像停止マーク４０６（又は参加者映像４０７）に重畳表示されてもよい。画像が表示されることで、ユーザは言語情報に加えて、感情又はニュアンスなどを表現できる。

【0049】

以上説明した第１実施形態によれば、ユーザの通信端末１０３は、音声制御情報ＡＣが「ＯＦＦ」である場合、当該ユーザの音声入力信号ＡＩから所定のキーワード発話を検出する。通信端末１０３は、音声入力信号ＡＩに代えて、検出されたキーワード発話に対応する送信テキスト情報ＴＸなどを送信データＴとして、遠隔会議装置１０１に送信する。

【0050】

したがって、音声制御情報ＡＣが「ＯＦＦ」であるユーザ（Ｙ、Ｔ）は、所定のキーワードを発話することにより、問い掛けたユーザＳに対して即座に返答できる。一方、ユーザＳは、他のユーザ（Ｙ、Ｋ、Ｔ）との間で合意形成を速やかに確認し、円滑に会議を進行できる。さらに、ユーザ（Ｙ、Ｔ）は、自身の周囲の環境音が送信されることによるプライバシーの不安又は会議を妨げる懸念を感じることがない。ユーザ（Ｙ、Ｔ）は、音声制御ボタン４０３を「ＯＮ」に切り替えてから発話する手間を要しないので、タイムリーに自身の意図を他のユーザに伝達できる。

【0051】

加えて、ユーザは、事前にテーブル２００Ａを確認することで、検出されるキーワードの発音及び送信テキスト情報ＴＸを把握できる。これにより、ユーザは、自身が意図しない発話が検出されて、自身が意図しない送信テキスト情報ＴＸが送信されないように注意できる。すなわち、ユーザは、安心して会議に参加できる。

【0052】

なお、通信端末１０３は、検出されたキーワードを送信する前に、確認ウィンドウを表示してもよい。例えば、確認ウィンドウは、「『いいね！』を送信します。よろしいですか？」というテキストと、ＧＵＩボタン「はい」「いいえ」とを含む。通信端末１０３は、ユーザがＧＵＩボタン「はい」を選択した場合、「いいね！」を送信する。反対に、通信端末１０３は、ユーザがＧＵＩボタン「いいえ」を選択した場合、「いいね！」を送信しない。これにより、通信端末１０３は、誤検出されたキーワードを送信するリスクを低減できる。すなわち、ユーザは、より安心して会議に参加できる。

【0053】

なお、通信端末１０３は、ユーザの音声入力信号ＡＩから当該ユーザの感情を検出してもよい。例えば、キーワードモデル記憶部３０５は、笑い声又は怒り声を検出するための感情モデルを記憶する。キーワード発話検出部３０４は、音声入力信号ＡＩに感情モデルを適用することで、笑い声を検出した場合にはＩＤ「１」を出力し、怒り声を検出した場合にはＩＤ「２」を出力する。

【0054】

例えば、キーワード情報記憶部３０７は、ＩＤ「１」に対応する送信テキスト情報ＴＸとして「（笑）」を登録し、ＩＤ「２」に対応する送信テキスト情報ＴＸとして「（怒）」を登録する。キーワード出力制御部３０６は、キーワード発話検出部３０４から出力されたＩＤに対応する送信テキスト情報ＴＸを出力する。

【0055】

例えば、ユーザが冗談を言い、他のユーザが音声制御情報ＡＣ「ＯＦＦ」の状態で笑った場合を想定する。この場合、他のユーザの笑い声が検出され、会議チャット表示欄４０８には、他のユーザの表示名４０４とともに、テキスト「（笑）」が表示される。これにより、冗談を言ったユーザに他のユーザのリアクションが伝達され、円滑なコミュニケーションが促進される。

【0056】

（第２実施形態）
図７は、第２実施形態に係る送信制御部２０２の機能構成例を示すブロック図である。第２実施形態によれば、送信制御部２０２は、一定時間の音声入力信号ＡＩを記憶する。送信制御部２０２は、所定のキーワード発話が検出された場合、このキーワード発話が含まれる区間の音声信号を、記憶された音声入力信号ＡＩから読み出して送信する。

【0057】

送信制御部２０２は、操作検出部３０１、映像制御部３０２、音声制御部３０３、キーワード発話検出部５０１、キーワードモデル記憶部５０２、キーワード出力制御部５０３、入力音声記憶部５０４及び統合部３０８を含む。

【0058】

キーワード発話検出部５０１は、音声入力部２０３Ｃから出力された音声入力信号ＡＩに対して、キーワードモデル記憶部５０２に記憶されたキーワードモデルを適用することで、音声入力信号ＡＩから所定のキーワード発話に対応する発話区間情報を検出する。例えば、発話の開始時刻が「１．７秒前」であり、発話の終了時刻が「０．３秒前」である場合、キーワード発話検出部５０１は、発話区間情報［１．７，０．３］をキーワード出力制御部５０３に出力する。

【0059】

キーワードモデル記憶部５０２は、第一に、キーワード発話検出部５０１により適用されるキーワードモデルを記憶する。キーワードモデル記憶部５０２に記憶されるキーワードモデルは、キーワードモデル記憶部３０５に記憶されるキーワードモデルと同様である。キーワードモデル記憶部５０２は、第二に、キーワードモデルが検出すべきキーワードのリストを記憶する（図８参照）。

【0060】

キーワード出力制御部５０３は、第一に、キーワード発話検出部５０１から出力された発話区間情報に対応する音声信号（検出音声信号ＤＡ）を、入力音声記憶部５０４に記憶された音声入力信号ＡＩから読み出す。キーワード出力制御部５０３は、第二に、操作検出部３０１から出力された音声制御情報ＡＣに応じて、検出音声信号ＤＡの出力を制御する。キーワード出力制御部５０３は、音声制御情報ＡＣが「ＯＮ」である場合、検出音声信号ＤＡの出力を停止する。反対に、キーワード出力制御部５０３は、音声制御情報ＡＣが「ＯＦＦ」である場合、検出音声信号ＤＡを統合部３０８に出力する。

【0061】

すなわち、音声制御情報ＡＣが「ＯＮ」である場合、音声制御部３０３は音声入力信号ＡＩを統合部３０８に出力し、キーワード出力制御部５０３は検出音声信号ＤＡを出力しない。反対に、音声制御情報ＡＣが「ＯＦＦ」である場合、音声制御部３０３は音声入力信号ＡＩを出力せず、キーワード出力制御部５０３は検出音声信号ＤＡを統合部３０８に出力する。これにより、音声制御情報ＡＣの「ＯＮ」又は「ＯＦＦ」に応じて、音声入力信号ＡＩ又は検出音声信号ＤＡのいずれか一方が出力される。

【0062】

入力音声記憶部５０４は、現在時刻から所定の時間前までの音声入力信号ＡＩを記憶し、順次、その記憶内容を更新する。入力音声記憶部５０４は、キーワードモデル記憶部５０２に記憶されたキーワードの文字数又は音節数に基づいて、音声入力信号ＡＩの記憶時間を設定する。特に、入力音声記憶部５０４は、キーワード全体の音声を記憶し得るように、記憶時間を設定する。典型的には、記憶時間は「４．０秒」である（図９参照）。

【0063】

統合部３０８は、操作検出部３０１から出力された送信テキスト情報ＴＸと、映像制御部３０２から出力された映像入力信号ＶＩと、音声制御部３０３から出力された音声入力信号ＡＩ又はキーワード出力制御部５０３から出力された検出音声信号ＤＡとを統合することで、送信データＴを生成する。統合部３０８は、生成した送信データＴを通信部２０１に出力する。

【0064】

図８は、第２実施形態に係るキーワードリストの例を示す図である。本例によれば、テーブル２００Ｂは、キーワードリストとして６つのレコードを登録する。例えば、ＩＤ「１」に係るレコードは、発音「おーけーです」を含む。同様に、ＩＤ「２」－「６」に係るレコードのそれぞれは、固有の発音を含む。

【0065】

図９は、第２実施形態に係る音声入力信号ＡＩの例を示す図である。本例によれば、波形データ５００は、一定時間にわたるユーザの音声入力信号ＡＩを示す。波形データ５００は、「４．０秒前」から「０秒前」（現在時刻）までの区間５１０に及ぶ波形データである。波形データ５００について、横軸方向は時間を示し、縦軸方向は振幅を示す。波形データ５００は、入力音声記憶部５０４に記憶される。

【0066】

例えば、発話「だいじょーぶです」に対応する発話区間情報が［１．７，０．３］である場合を想定する。この場合、キーワード出力制御部５０３は、区間５１０のうち、発話区間情報［１．７，０．３］に対応する区間５２０を特定する。キーワード出力制御部５０３は、特定した区間５２０における検出音声信号ＤＡを読み出す。なお、キーワード出力制御部５０３は、発話区間情報の誤差を考慮して、検出音声信号ＤＡを読み出す区間を時間的に拡張してもよい。上記の例において、キーワード出力制御部５０３は、「０．２秒」の誤差を考慮する場合、「１．９秒前」から「０．１秒前」の区間における検出音声信号ＤＡを読み出す。これにより、検出音声信号ＤＡの全体が確実に検出され得る。

【0067】

再び図６を参照して、第２実施形態に係る通信端末１０３の表示画面の例を説明する。以下では、第１実施形態と同様に、ユーザＳが他のユーザ（Ｙ、Ｋ、Ｔ）に対して、「みなさん、これでよろしいですか？」と発話した場合を想定する。この問い掛けに対して、ユーザＹは「だいじょーぶです」、ユーザＫは「おーけーです」、ユーザＴは「いいね」と発話したと想定する。表示画面４００Ｃ及び４００Ｄは、上記の場合におけるユーザＳの通信端末１０３の表示画面を示す。

【0068】

【0069】

このとき、ユーザＹの通信端末１０３は、以下のように動作する。キーワード発話検出部５０１は、ユーザＹの発話「だいじょーぶです」に対応する発話区間情報［１．７，０．３］を検出する。キーワード出力制御部５０３は、波形データ５００を参照することで、この発話区間情報に対応する区間５２０の検出音声信号ＤＡを読み出す。統合部３０８は、検出音声信号ＤＡを含む送信データＴを生成し、生成した送信データＴを通信部２０１に出力する。

【0070】

一方、ユーザＴの通信端末１０３は、以下のように動作する。キーワード発話検出部５０１は、ユーザＴの発話「いいね」に対応する発話区間情報を検出する。キーワード出力制御部５０３は、入力音声記憶部５０４から、この発話区間情報に対応する区間の検出音声信号ＤＡを読み出す。統合部３０８は、検出音声信号ＤＡを含む送信データＴを生成し、生成した送信データＴを通信部２０１に出力する。

【0071】

上記の動作の結果、表示画面４００Ｃ及び４００Ｄにおいて、ユーザ（Ｙ、Ｔ）の発話は、他のユーザに送信されて再生される。

【0072】

以上説明した第２実施形態によれば、ユーザの通信端末１０３は、音声制御情報ＡＣが「ＯＦＦ」である場合、当該ユーザの音声入力信号ＡＩから所定のキーワード発話に対応する検出音声信号ＤＡを検出する。通信端末１０３は、音声入力信号ＡＩに代えて、検出音声信号ＤＡを送信データＴとして、遠隔会議装置１０１に送信する。

【0073】

したがって、音声制御情報ＡＣが「ＯＦＦ」であるユーザ（Ｙ、Ｔ）は、所定のキーワードを発話することにより、あたかも音声制御情報ＡＣを「ＯＮ」に切り替えて発話したかのように、問い掛けたユーザＳに対して即座に返答できる。一方、ユーザＳは、他のユーザ（Ｙ、Ｋ、Ｔ）との間で合意形成を速やかに確認し、円滑に会議を進行できる。ユーザ（Ｙ、Ｔ）が発話した音声の抑揚又は調子などが送信されるため、ユーザ（Ｙ、Ｔ）は、テキストなどの言語情報では伝達できないニュアンスを他のユーザに伝達できる。

【0074】

加えて、ユーザ（Ｙ、Ｔ）が所定のキーワードを発話しない間、当該ユーザの周囲の環境音が他のユーザに送信されない。すなわち、上記の間、ユーザ（Ｙ、Ｔ）は、自身の周囲の環境音が送信されることによるプライバシーの不安又は会議を妨げる懸念を感じることがない。ユーザ（Ｙ、Ｔ）は、音声制御ボタン４０３を「ＯＮ」に切り替えてから発話する手間を要しないので、タイムリーに自身の意図を他のユーザに伝達できる。

【0075】

（第３実施形態）
図１０は、第３実施形態に係る送信制御部２０２の機能構成例を示すブロック図である。第３実施形態によれば、送信制御部２０２は、映像入力信号ＶＩから所定のジェスチャーを検出し、検出されたジェスチャーに対応する送信テキスト情報ＴＸを送信する。

【0076】

送信制御部２０２は、操作検出部３０１、映像制御部３０２、音声制御部３０３、ジェスチャー検出部６０１、ジェスチャーモデル記憶部６０２、ジェスチャー出力制御部６０３、ジェスチャー情報記憶部６０４及び統合部３０８を含む。

【0077】

ジェスチャー検出部６０１は、映像入力部２０３Ａから出力された映像入力信号ＶＩに対して、ジェスチャーモデル記憶部６０２に記憶されたジェスチャーモデルを適用することで、映像入力信号ＶＩから所定のジェスチャーに対応するジェスチャー信号を検出する。ジェスチャー検出部６０１は、当該ジェスチャー信号が検出された場合、検出されたジェスチャー信号に対応するＩＤをジェスチャー出力制御部６０３に出力する。

【0078】

ジェスチャーモデル記憶部６０２は、ジェスチャー検出部６０１により適用されるジェスチャーモデルを記憶する。ジェスチャーモデルは、キーワードモデルと同様に、機械学習モデルでもよい。例えば、ジェスチャーモデルは、所定のジェスチャーを構成するポーズの系列を検出し、検出されたポーズの系列に基づいて、所定のジェスチャーの有無を判定してもよい。

【0079】

ジェスチャーモデルは、事前に訓練データにより訓練されていてもよい。訓練データは、大量のジェスチャーを含む映像コーパスでもよいし、典型的なジェスチャーに係るジェスチャー映像を収集した映像データでもよい。この映像データは、通信端末１０３のユーザによるジェスチャー映像を含んでもよい。もちろん、訓練済みのジェスチャーモデルは、新たな訓練データにより再度、訓練されてもよい。訓練済みのジェスチャーモデルは、ユーザのジェスチャーを高精度に検出できる。

【0080】

ジェスチャー出力制御部６０３は、第一に、ジェスチャー検出部６０１から出力されたＩＤに対応する送信テキスト情報ＴＸを、ジェスチャー情報記憶部６０４から読み出す。ジェスチャー出力制御部６０３は、第二に、操作検出部３０１から出力された映像制御情報ＶＣに応じて、読み出した送信テキスト情報ＴＸの出力を制御する。ジェスチャー出力制御部６０３は、映像制御情報ＶＣが「ＯＮ」である場合、送信テキスト情報ＴＸの出力を停止する。反対に、ジェスチャー出力制御部６０３は、映像制御情報ＶＣが「ＯＦＦ」である場合、送信テキスト情報ＴＸを統合部３０８に出力する。

【0081】

すなわち、映像制御情報ＶＣが「ＯＮ」である場合、映像制御部３０２は映像入力信号ＶＩを統合部３０８に出力し、ジェスチャー出力制御部６０３は送信テキスト情報ＴＸを出力しない。反対に、映像制御情報ＶＣが「ＯＦＦ」である場合、映像制御部３０２は映像入力信号ＶＩを出力せず、ジェスチャー出力制御部６０３は送信テキスト情報ＴＸを統合部３０８に出力する。これにより、映像制御情報ＶＣの「ＯＮ」又は「ＯＦＦ」に応じて、映像入力信号ＶＩ又は送信テキスト情報ＴＸのいずれか一方が出力される。

【0082】

ジェスチャー情報記憶部６０４は、ジェスチャー検出部６０１から出力されたＩＤに対応するジェスチャーの内容及び送信テキスト情報ＴＸを対応付けたジェスチャー情報を記憶する（図１１参照）。

【0083】

統合部３０８は、操作検出部３０１又はジェスチャー出力制御部６０３から出力された送信テキスト情報ＴＸと、映像制御部３０２から出力された映像入力信号ＶＩと、音声制御部３０３から出力された音声入力信号ＡＩとを統合することで、送信データＴを生成する。統合部３０８は、生成した送信データＴを通信部２０１に出力する。

【0084】

図１１は、第３実施形態に係るジェスチャー情報の例を示す図である。本例によれば、テーブル２００Ｃは、ジェスチャー情報として３つのレコードを登録する。例えば、ＩＤ「１」に係るレコードは、ジェスチャー「首を上下に２回振る」に対応する送信テキスト情報ＴＸとして、「うんうん」を含む。同様に、ＩＤ「２」及び「３」に係るレコードのそれぞれは、固有のジェスチャー及び固有の送信テキスト情報ＴＸを含む。

【0085】

ジェスチャー情報は、通信端末１０３のユーザにより選択され、編集され、又は登録されてもよい。送信テキスト情報ＴＸは、ＨＴＭＬなどの形式により、文字修飾に係る属性を含んでもよい。さらに、送信テキスト情報ＴＸに代えて、各通信端末１０３が共通に参照し得る画像又は映像のＩＤ又はＵＲＬが登録されてもよい。

【0086】

図１２は、第３実施形態に係る通信端末１０３の表示画面の例を示す図である。以下では、ユーザＳが他のユーザ（Ｙ、Ｋ、Ｔ）に対して、「みなさん、これでよろしいですか？」と発話した場合を想定する。この問い掛けに対して、ユーザ（Ｋ、Ｔ）は「首を上下に２回振る」動作を行い、ユーザＹは「親指を立てて拳を突き出す」動作を行ったと想定する。表示画面４００Ｅ及び４００Ｆは、上記の場合におけるユーザＳの通信端末１０３の表示画面を示す。

【0087】

表示画面４００Ｅ及び４００Ｆによれば、ユーザＳの音声制御情報ＡＣは「ＯＮ」であるから、ユーザＳの発話は、他のユーザに送信されて再生される。一方、ユーザＫの映像制御情報ＶＣは「ＯＮ」であるから、ユーザＫの映像は、他のユーザに送信されて再生される。一方、ユーザ（Ｙ、Ｔ）の映像制御情報ＶＣは「ＯＦＦ」であるから、ユーザ（Ｙ、Ｔ）の映像は、他のユーザに送信されない。

【0088】

このとき、ユーザＹの通信端末１０３は、以下のように動作する。ジェスチャー検出部６０１は、ユーザＹの動作「親指を立てて拳を突き出す」に対応するＩＤとして「３」を検出する。ジェスチャー出力制御部６０３は、テーブル２００Ｃを参照することで、ＩＤ「３」に対応する送信テキスト情報ＴＸとして「いいね！」を出力する。統合部３０８は、送信テキスト情報ＴＸを含む送信データＴを生成し、生成した送信データＴを通信部２０１に出力する。

【0089】

一方、ユーザＴの通信端末１０３は、以下のように動作する。ジェスチャー検出部６０１は、ユーザＴの動作「首を上下に２回振る」に対応するＩＤとして「１」を検出する。ジェスチャー出力制御部６０３は、テーブル２００Ｃを参照することで、ＩＤ「１」に対応する送信テキスト情報ＴＸとして「うんうん」を出力する。統合部３０８は、送信テキスト情報ＴＸを含む送信データＴを生成し、生成した送信データＴを通信部２０１に出力する。

【0090】

上記の動作の結果、表示画面４００Ｅに示すように、ユーザ（Ｙ、Ｔ）の動作は、各ユーザの通信端末１０３の会議チャット表示欄４０８に表示される。会議チャット表示欄４０８には、ユーザ（Ｙ、Ｔ）の表示名４０４と、送信テキスト情報ＴＸとが表示される。

【0091】

あるいは、表示画面４００Ｆに示すように、ユーザ（Ｙ、Ｔ）の動作は、ジェスチャー映像４６０として、ユーザ（Ｙ、Ｔ）の映像停止マーク４０６（又は参加者映像４０７）に重畳表示される。例えば、ユーザＹの映像停止マーク４０６には、親指を立てて拳を突き出すジェスチャー映像４６０が重畳表示される。一方、ユーザＴの映像停止マーク４０６には、首を上下に２回振るジェスチャー映像４６０が重畳表示される。ジェスチャー映像４６０は、所定の時間にわたり再生される。これにより、各ユーザは、どのユーザがジェスチャーを行ったかを直感的に理解できる。ユーザのジェスチャー映像４６０が再生されることで、当該ユーザは、感情又はニュアンスなどを他のユーザに伝達できる。

【0092】

以上説明した第３実施形態によれば、ユーザの通信端末１０３は、映像制御情報ＶＣが「ＯＦＦ」である場合、当該ユーザの映像入力信号ＶＩから所定のジェスチャーを検出する。通信端末１０３は、映像入力信号ＶＩに代えて、検出されたジェスチャーに対応する送信テキスト情報ＴＸなどを送信データＴとして、遠隔会議装置１０１に送信する。

【0093】

したがって、映像制御情報ＶＣが「ＯＦＦ」であるユーザ（Ｙ、Ｔ）は、所定のジェスチャーを行うことにより、問い掛けたユーザＳに対して即座に返答できる。一方、ユーザＳは、他のユーザ（Ｙ、Ｋ、Ｔ）との間で合意形成を速やかに確認し、円滑に会議を進行できる。さらに、ユーザ（Ｙ、Ｔ）は、自身の周囲の映像が送信されることによるプライバシーの不安又は会議を妨げる懸念を感じることがない。ユーザ（Ｙ、Ｔ）は、映像制御ボタン４０２を「ＯＮ」に切り替えてからジェスチャーを行う手間を要しないので、タイムリーに自身の意図を他のユーザに伝達できる。

【0094】

加えて、ユーザは、事前にテーブル２００Ｃを確認することで、検出されるジェスチャー及び送信テキスト情報ＴＸを把握できる。これにより、ユーザは、自身が意図しないジェスチャーが検出されて、自身が意図しない送信テキスト情報ＴＸが送信されないように注意できる。すなわち、ユーザは、安心して会議に参加できる。

【0095】

なお、通信端末１０３は、ユーザの映像入力信号ＶＩから当該ユーザの顔の表情を検出してもよい。例えば、ジェスチャーモデル記憶部６０２は、笑い顔又は怒り顔を検出するための表情モデルを記憶する。ジェスチャー検出部６０１は、映像入力信号ＶＩに表情モデルを適用することで、笑い顔を検出した場合にはＩＤ「１」を出力し、怒り顔を検出した場合にはＩＤ「２」を出力する。

【0096】

例えば、ジェスチャー情報記憶部６０４は、ＩＤ「１」に対応する送信テキスト情報ＴＸとして「（笑）」を登録し、ＩＤ「２」に対応する送信テキスト情報ＴＸとして「（怒）」を登録する。ジェスチャー出力制御部６０３は、ジェスチャー検出部６０１から出力されたＩＤに対応する送信テキスト情報ＴＸを出力する。

【0097】

例えば、ユーザが冗談を言い、他のユーザが映像制御情報ＶＣ「ＯＦＦ」の状態で笑った場合を想定する。この場合、他のユーザの笑い顔が検出され、会議チャット表示欄４０８には、他のユーザの表示名４０４とともに、テキスト「（笑）」が表示される。これにより、冗談を言ったユーザに他のユーザのリアクションが伝達され、円滑なコミュニケーションが促進される。

【0098】

（第４実施形態）
図１３は、第４実施形態に係る送信制御部２０２の機能構成例を示すブロック図である。第４実施形態によれば、送信制御部２０２は、操作入力信号ＯＩから所定の操作パターンを検出し、検出された操作パターンに対応する送信テキスト情報ＴＸを送信する。

【0099】

送信制御部２０２は、操作検出部７０１、操作情報記憶部７０２、映像制御部３０２、音声制御部３０３及び統合部３０８を含む。

【0100】

操作検出部７０１は、第一に、操作入力部２０３Ｂから出力された操作入力信号ＯＩを分解することで、映像制御信号ＶＣ、送信テキスト情報ＴＸ及び音声制御情報ＡＣを生成する。操作検出部７０１は、第二に、操作入力信号ＯＩから所定の操作パターンに対応するＩＤを検出し、検出したＩＤに対応する送信テキスト情報ＴＸを統合部３０８に出力する。すなわち、送信テキスト情報ＴＸは、（i）会議チャット入力欄４０９にテキストが入力された場合と、（ii）操作入力信号ＯＩから所定の操作パターンが検出された場合とに出力される。

【0101】

操作情報記憶部７０２は、操作検出部７０１が操作入力信号ＯＩから検出すべき操作パターンと、当該操作パターンに対応するＩＤ及び送信テキスト情報ＴＸとを対応付けた操作情報を記憶する（図１４参照）。

【0102】

統合部３０８は、操作検出部７０１から出力された送信テキスト情報ＴＸと、映像制御部３０２から出力された映像入力信号ＶＩと、音声制御部３０３から出力された音声入力信号ＡＩとを統合することで、送信データＴを生成する。統合部３０８は、生成した送信データＴを通信部２０１に出力する。

【0103】

図１４は、第４実施形態に係る操作情報の例を示す図である。本例によれば、テーブル２００Ｄは、操作情報として４つのレコードを登録する。例えば、ＩＤ「１」に係るレコードは、操作パターン「Ｃｔｒｌ＋Ｏ，Ｃｔｒｌ＋Ｋ」に対応する送信テキスト情報ＴＸとして、「ＯＫです」を含む。同様に、ＩＤ「２」－「４」に係るレコードのそれぞれは、固有の操作パターン及び固有の送信テキスト情報ＴＸを含む。

【0104】

操作パターンの「Ｃｔｒｌ」はキーボードのコントロールキーを意味し、英文字「Ｏ，Ｋ，Ｄ，Ｊ，Ａ，Ｒ」はキーボードの各キーを意味する。操作パターンの「ＭＬ」はマウスの左ボタンを意味し、「ＭＲ」はマウスの右ボタンを意味する。プラス記号「＋」は、当該記号の左右の操作を同時に行うことを意味し、コンマ記号「，」は、当該記号の左の操作を行った後、当該記号の右の操作を行うことを意味する。さらに、操作情報は、通信端末１０３のユーザにより選択され、編集され、又は登録されてもよい。

【0105】

なお、テーブル２００Ｄは、キーボード及びマウス以外の入力装置による操作パターンを登録してもよい。例えば、テーブル２００Ｄは、マウスポインタによる操作パターン、タッチスクリーン上でのタップ又はフリックによる操作パターンなどを登録してもよい。

【0106】

図１５は、第４実施形態に係る通信端末１０３の表示画面の例を示す図である。以下では、ユーザＳが他のユーザ（Ｙ、Ｋ、Ｔ）に対して、「みなさん、これでよろしいですか？」と発話した場合を想定する。この問い掛けに対して、ユーザＹは「大丈夫です」と発話し、ユーザＫは「ＭＬ＋ＭＲ」の操作を行い、ユーザＴは「Ｃｔｒｌ＋Ｏ，Ｃｔｒｌ＋Ｋ」の操作を行ったと想定する。表示画面４００Ｇは、上記の場合におけるユーザＳの通信端末１０３の表示画面を示す。

【0107】

表示画面４００Ｇによれば、ユーザＳの音声制御情報ＡＣは「ＯＮ」であるから、ユーザＳの発話は、他のユーザに送信されて再生される。同様に、ユーザＹの音声制御情報ＡＣは「ＯＮ」であるから、ユーザＹの発話は、他のユーザに送信されて再生される。一方、ユーザ（Ｋ、Ｔ）の音声制御情報ＡＣは「ＯＦＦ」である。

【0108】

このとき、ユーザＫの通信端末１０３は、以下のように動作する。操作検出部７０１は、ユーザＫの操作「ＭＬ＋ＭＲ」に対応するＩＤとして「４」を検出する。操作検出部７０１は、テーブル２００Ｄを参照することで、ＩＤ「４」に対応する送信テキスト情報ＴＸとして「いいね！」を出力する。統合部３０８は、送信テキスト情報ＴＸを含む送信データＴを生成し、生成した送信データＴを通信部２０１に出力する。

【0109】

一方、ユーザＴの通信端末１０３は、以下のように動作する。操作検出部７０１は、ユーザＴの操作「Ｃｔｒｌ＋Ｏ，Ｃｔｒｌ＋Ｋ」に対応するＩＤとして「１」を検出する。操作検出部７０１は、テーブル２００Ｄを参照することで、ＩＤ「１」に対応する送信テキスト情報ＴＸとして「ＯＫです」を出力する。統合部３０８は、送信テキスト情報ＴＸを含む送信データＴを生成し、生成した送信データＴを通信部２０１に出力する。

【0110】

上記の動作の結果、表示画面４００Ｇに示すように、ユーザ（Ｋ、Ｔ）の操作は、各ユーザの通信端末１０３の会議チャット表示欄４０８に表示される。会議チャット表示欄４０８には、ユーザ（Ｋ、Ｔ）の表示名４０４と、送信テキスト情報ＴＸとが表示される。

【0111】

以上説明した第４実施形態によれば、ユーザの通信端末１０３は、音声制御情報ＡＣが「ＯＦＦ」である場合、当該ユーザの操作入力信号ＯＩから所定の操作パターンを検出する。通信端末１０３は、音声入力信号ＡＩに代えて、検出された操作パターンに対応する送信テキスト情報ＴＸなどを送信データＴとして、遠隔会議装置１０１に送信する。

【0112】

したがって、音声制御情報ＡＣが「ＯＦＦ」であるユーザ（Ｋ、Ｔ）は、所定の操作パターンを入力することにより、問い掛けたユーザＳに対して即座に返答できる。一方、ユーザＳは、他のユーザ（Ｙ、Ｋ、Ｔ）との間で合意形成を速やかに確認し、円滑に会議を進行できる。さらに、ユーザ（Ｋ、Ｔ）は、自身の周囲の環境音が送信されることによるプライバシーの不安又は会議を妨げる懸念を感じることがない。ユーザ（Ｋ、Ｔ）は、会議チャット入力欄４０９にテキストを入力する手間を要しないので、タイムリーに自身の意図を他のユーザに伝達できる。特に、通信端末１０３は、信号モデルに代えて、ユーザの操作入力を使用するので、誤検出が生じるリスクを低減できる。

【0113】

以上説明した第１実施形態から第４実施形態によれば、通信端末１０３は、３種類の入力信号（映像入力信号ＶＩ、操作入力信号ＯＩ、音声入力信号ＡＩ）のいずれかから、信号モデル又は操作パターンに対応する検出信号を検出する。本例に限らず、通信端末１０３は、これら３種類の入力信号から任意の組み合わせで複数の検出信号を検出してもよい。これにより、ユーザは、自身が使いやすい方法を選択し、選択した方法で自身の意図を他のユーザに伝達できるので、より円滑なコミュニケーションが促進される。

【0114】

（第５実施形態）
図１６は、第５実施形態に係る信号処理装置８００の構成例を示すブロック図である。信号処理装置８００は、各種の信号を処理する装置である。信号処理装置８００は、パーソナルコンピュータ（ＰＣ）、タブレット端末又はスマートフォンでもよい。信号処理装置８００は、通信端末１０３に搭載されてもよいし、通信端末１０３そのものでもよい。信号処理装置８００は、「遠隔会議支援装置」の一例である。

【0115】

信号処理装置８００は、各構成として、処理回路８１、記憶装置８２、入力装置８３、出力装置８４及び通信装置８５を含む。各構成は、共通の信号通信路であるバス（ＢＵＳ）を介して、互いに通信可能に接続される。

【0116】

処理回路８１は、信号処理装置８００の全体の動作を制御する回路である。処理回路８１は、少なくとも１つのプロセッサを含む。プロセッサは、ＣＰＵ（Central Processing Unit）、ＧＰＵ(Graphics Processing Unit)、特定用途向け集積回路（ＡＳＩＣ：Application Specific Integrated Circuit）、プログラマブル論理デバイス（例：単純プログラマブル論理デバイス（ＳＰＬＤ：Simple Programmable Logic Device）、複合プログラマブル論理デバイス（ＣＰＬＤ：Complex Programmable Logic Device）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：Field Programmable Gate Array））などの回路を意味する。プロセッサがＣＰＵである場合、ＣＰＵは記憶装置８２に記憶された各プログラムを読み出して実行することで、各機能を実現する。プロセッサがＡＳＩＣである場合、各機能がＡＳＩＣに論理回路として直接組み込まれる。プロセッサは、単一の回路として構成されてもよいし、独立した複数の回路を互いに組み合わせて構成されてもよい。処理回路８１は、各部（取得部８１１、検出部８１２、送信部８１３、システム制御部８１４）を実現する。処理回路８１は、処理部の一例である。

【0117】

取得部８１１は、各種のデータ又は情報を取得する。取得部８１１は、第一に、ユーザの音声又は映像に関するメディア信号（例：映像入力信号ＶＩ、音声入力信号ＡＩ）を取得する。取得部８１１は、第二に、メディア信号の制御情報（例：映像制御情報ＶＣ、音声制御情報ＡＣ）を取得する。

【0118】

検出部８１２は、各種のデータ又は情報を検出する。例えば、検出部８１２は、取得部８１１により取得されたメディア信号に信号モデル（例：キーワードモデル、感情モデル、ジェスチャーモデル、表情モデル）を適用することで、当該メディア信号から当該信号モデルに対応する検出信号（例：音声信号、感情信号、ジェスチャー信号、表情信号）を検出する。

【0119】

送信部８１３は、各種のデータ又は情報を送信する。例えば、送信部８１３は、取得部８１１により取得された制御情報に応じて、取得部８１１により取得されたメディア信号、又は検出部８１２により検出された検出信号を外部装置に送信する。制御情報が「ＯＮ」である場合、送信部８１３は、メディア信号を外部装置に送信する。反対に、制御情報が「ＯＦＦ」である場合、送信部８１３は、検出信号又は検出信号に対応するメディアファイル（例：テキスト、画像、音楽、音声、映像）を外部装置に送信する。

【0120】

システム制御部８１４は、処理回路８１が行う各種の動作を制御する機能である。例えば、システム制御部８１４は、処理回路８１が各部（取得部８１１、検出部８１２、送信部８１３）を実現するためのオペレーティングシステム（ＯＳ）を提供する。

【0121】

記憶装置８２は、各種のデータ又は情報を記憶する。記憶装置８２は、プロセッサにより読取可能な記憶媒体（例：磁気的記憶媒体、電磁的記憶媒体、光学的記憶媒体、半導体メモリ）でもよいし、記憶媒体との間でデータ又は情報を読み書きする駆動装置でもよい。記憶装置８２は、処理回路８１に各部（取得部８１１、検出部８１２、送信部８１３、システム制御部８１４）を実現させる各プログラムを記憶する。記憶装置８２は、各種の信号（メディア信号、検出信号）又はメディアファイルを記憶してもよい。記憶装置８２は、記憶部の一例である。

【0122】

入力装置８３は、信号処理装置８００に各種のデータ又は情報を入力する装置である。入力装置８３は、マウス、キーボード、ボタン、パネルスイッチ、スライダースイッチ、トラックボール、操作パネル、タッチスクリーン、ペンタブレット、カメラ又はマイクでもよい。入力装置８３は、入力部の一例である。

【0123】

出力装置８４は、各種のデータ又は情報を出力する装置である。出力装置８４は、ディスプレイ、スピーカ又はイヤフォンでもよい。出力装置８４がディスプレイである場合、当該ディスプレイは、ＧＵＩボタンなどにより表示されたデータ又は情報に対する各種の操作を受け付けてもよい。出力装置８４は、出力部、表示部又は音響部の一例である。

【0124】

通信装置８５は、外部装置との間で、各種のデータ又は情報を通信する装置である。外部装置は、遠隔会議装置１０１でもよい。通信装置８５は、通信部の一例である。

【0125】

なお、処理回路８１、記憶装置８２、入力装置８３、出力装置８４又は通信装置８５は、第１実施形態から第４実施形態に係る通信端末１０３の各部を実現してもよい。

【0126】

図１７は、第５実施形態に係る信号処理装置８００の動作例を示すフローチャートである。本動作例は、ユーザからの開始指示に応じて開始されてもよい。

【0127】

（ステップＳ１）まず、信号処理装置８００は取得部８１１により、メディア信号及び制御情報を取得する。具体的には、取得部８１１は、入力装置８３からメディア信号及び制御情報を取得する。

【0128】

（ステップＳ２）次に、信号処理装置８００は検出部８１２により、ステップＳ１で取得されたメディア信号から検出信号を検出する。具体的には、検出部８１２は、メディア信号に信号モデルを適用することで、メディア信号から信号モデルに対応する検出信号を検出する。

【0129】

（ステップＳ３）ここで、信号処理装置８００は送信部８１３により、ステップＳ１で取得された制御情報の信号状態を判定する。信号状態が「ＯＮ」である場合（ステップＳ３－ＯＮ）、処理はステップＳ４Ａに進む。信号状態が「ＯＦＦ」である場合（ステップＳ３－ＯＦＦ）、処理はステップＳ４Ｂに進む。

【0130】

（ステップＳ４Ａ）この場合、信号処理装置８００は送信部８１３により、ステップＳ１で取得されたメディア信号を外部装置に送信する。ステップＳ４Ａの後、信号処理装置８００は一連の動作を終了する。

【0131】

（ステップＳ４Ｂ）この場合、信号処理装置８００は送信部８１３により、ステップＳ２で検出された検出信号、又は検出信号に対応するメディアファイルを外部装置に送信する。ステップＳ４Ｂの後、信号処理装置８００は一連の動作を終了する。

【0132】

以上説明した第５実施形態によれば、信号処理装置８００は、第１実施形態から第４実施形態に係る通信端末１０３と同様な動作を実現できる。すなわち、信号処理装置８００は、通信端末１０３の動作による効果と同様な効果を奏し得る。

【0133】

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【符号の説明】

【0134】

８１…処理回路、８２…記憶装置、８３…入力装置、８４…出力装置、８５…通信装置、１００…遠隔会議システム、１０１…遠隔会議装置、１０２…インターネット、１０３…通信端末、２００Ａ，２００Ｂ，２００Ｃ，２００Ｄ…テーブル、２０１…通信部、２０２…送信制御部、２０３Ａ…映像入力部、２０３Ｂ…操作入力部、２０３Ｃ…音声入力部、２０４…受信制御部、２０５Ａ…映像出力部、２０５Ｂ…テキスト出力部、２０５Ｃ…音声出力部、３０１，７０１…操作検出部、３０２…映像制御部、３０３…音声制御部、３０４，５０１…キーワード発話検出部、３０５，５０２…キーワードモデル記憶部、３０６，５０３…キーワード出力制御部、３０７…キーワード情報記憶部、３０８…統合部、４００Ａ，４００Ｂ，４００Ｃ，４００Ｄ，４００Ｅ，４００Ｆ，４００Ｇ…表示画面、４０１…ウィンドウ、４０２…映像制御ボタン、４０３…音声制御ボタン、４０４…表示名、４０５…音声停止マーク、４０６…映像停止マーク、４０７…参加者映像、４０８…会議チャット表示欄、４０９…会議チャット入力欄、４５０…ボックス、４６０…ジェスチャー映像、５００…波形データ、５０４…入力音声記憶部、５１０，５２０…区間、６０１…ジェスチャー検出部、６０２…ジェスチャーモデル記憶部、６０３…ジェスチャー出力制御部、６０４…ジェスチャー情報記憶部、７０２…操作情報記憶部、８００…信号処理装置、８１１…取得部、８１２…検出部、８１３…送信部、８１４…システム制御部

【図1】