IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ シャープ株式会社の特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025015230
(43)【公開日】2025-01-30
(54)【発明の名称】テレビ会議システム
(51)【国際特許分類】
   G06F 3/0481 20220101AFI20250123BHJP
   G06F 3/16 20060101ALI20250123BHJP
   H04N 7/15 20060101ALI20250123BHJP
   G10L 15/00 20130101ALI20250123BHJP
   G10L 15/22 20060101ALI20250123BHJP
【FI】
G06F3/0481
G06F3/16 620
G06F3/16 650
H04N7/15
G10L15/00 200U
G10L15/22 460Z
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2023118504
(22)【出願日】2023-07-20
(71)【出願人】
【識別番号】000005049
【氏名又は名称】シャープ株式会社
(74)【代理人】
【識別番号】100103034
【弁理士】
【氏名又は名称】野河 信久
(74)【代理人】
【識別番号】100159385
【弁理士】
【氏名又は名称】甲斐 伸二
(74)【代理人】
【識別番号】100163407
【弁理士】
【氏名又は名称】金子 裕輔
(74)【代理人】
【識別番号】100166936
【弁理士】
【氏名又は名称】稲本 潔
(74)【代理人】
【識別番号】100174883
【弁理士】
【氏名又は名称】冨田 雅己
(74)【代理人】
【識別番号】100189429
【弁理士】
【氏名又は名称】保田 英樹
(74)【代理人】
【識別番号】100213849
【弁理士】
【氏名又は名称】澄川 広司
(72)【発明者】
【氏名】霜田 衛
【テーマコード(参考)】
5C164
5E555
【Fターム(参考)】
5C164FA10
5C164PA44
5C164VA09P
5E555AA09
5E555AA59
5E555AA71
5E555BA13
5E555BA45
5E555BA82
5E555BA87
5E555BB13
5E555BD09
5E555CA42
5E555CA47
5E555CB64
5E555CB66
5E555DB41
5E555DB57
5E555EA22
5E555EA23
5E555FA00
(57)【要約】      (修正有)
【課題】受話者が注視しやすいように適切なタイミングで文字表示を行うテレビ会議システムを提供する。
【解決手段】サーバとネットワークを通じて接続された複数のユーザー端末を介して画像および音声が共有されるテレビ会議システムであって、ユーザー端末は、ユーザーの顔画像を撮像する撮像部と、ユーザーの音声を取得する音声取得部と、他のユーザー端末と画像および音声のデータを含む各種データを送受信する通信部と、ユーザーの顔画像をテレビ会議の画面に表示する表示部と、ユーザーの音声を出力する音声出力部と、ユーザーの音声を文字に変換して表示部に表示させる音声表示部と、撮像部、音声取得部、通信部、表示部、音声出力部および音声表示部を制御する制御部とを備える。制御部は、テレビ会議中に予め定められた音声表示条件が満たされた場合に、音声表示部に発話中のユーザーの音声を文字に変換させて表示部に表示させる。
【選択図】図2
【特許請求の範囲】
【請求項1】
ネットワークを通じて接続された複数のユーザー端末を介して画像および音声が共有されるテレビ会議システムであって、
前記ユーザー端末は、ユーザーの顔画像を撮像する撮像部と、前記ユーザーの音声を取得する音声取得部と、他の前記ユーザー端末と画像および音声のデータを含む各種データを送受信する通信部と、前記ユーザーの顔画像をテレビ会議の画面に表示する表示部と、前記ユーザーの音声を出力する音声出力部と、前記ユーザーの音声を文字に変換して前記表示部に表示させる音声表示部と、前記撮像部、前記音声取得部、前記通信部、前記表示部、前記音声出力部および前記音声表示部を制御する制御部とを備え、
前記制御部は、テレビ会議中に予め定められた音声表示条件が満たされた場合に、前記音声表示部に発話中の前記ユーザーの音声を文字に変換させて前記表示部に表示させることを特徴とするテレビ会議システム。
【請求項2】
前記撮像部は、前記ユーザーの動作を撮像し、
前記制御部は、受話者である前記ユーザーが予め定められた動作を行ったことを検出した場合に、前記音声表示条件が満たされたものと判定する、請求項1に記載のテレビ会議システム。
【請求項3】
前記制御部は、予め定められた前記ユーザーが発話したことを検出した場合に、前記音声表示条件が満たされたものと判定する、請求項1に記載のテレビ会議システム。
【請求項4】
前記制御部は、予め定められたワードが発話されたことを検出した場合に、前記音声表示条件が満たされたものと判定する、請求項1に記載のテレビ会議システム。
【請求項5】
前記制御部は、予め定められたボタンが押下されたことを検出した場合に、前記音声表示条件が満たされたものと判定する、請求項1に記載のテレビ会議システム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、テレビ会議システムに関する。
【背景技術】
【0002】
テレビ会議やWeb会議において、会議中に他のユーザーが話しているのに聞こえない場合や、音声を聞き逃したりする場合がある。
【0003】
このような問題を解決する方法として、従来、発話の書き起こしである第1のテキストデータに含まれる特定の領域を抽出する領域抽出手段と、抽出された前記特定の領域に基づいて、前記第1のテキストデータを第2のテキストデータに変換するテキスト変換手段と、を備え、変換された前記第2のテキストデータを前記音声認識エンジンの機械学習に用いる音声認識システムが提案されている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2022-142374号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来のテレビ会議システムでは、画面に文字が常に表示され続けていると、ユーザーが当該文字表示を注視しなくなってしまうおそれがある。
また、受話者が重要な情報や必要な情報を聞き逃したとき、当該文字表示も見落としている可能性が高い。
【0006】
また、従来のテレビ会議システムでは、受話者が一時的に離席した場合、文字表示も見ることができないので、この場合も受話者が重要な情報や必要な情報を聞き逃してしまうおそれがある。
【0007】
一方、従来のテレビ会議システムでは、会議終了後に文字データの全履歴を確認する方法もあるが、全履歴の中から、受話者が聞き逃した内容のうち重要な情報や必要な情報を探し出すのに時間と手間がかかってしまう。
【0008】
この開示は、以上のような事情を考慮してなされたものであって、受話者が注視しやすいように従来よりも適切なタイミングで文字表示を行うテレビ会議システムを提供するものである。
【課題を解決するための手段】
【0009】
この開示によるテレビ会議システムは、ネットワークを通じて接続された複数のユーザー端末を介して画像および音声が共有されるテレビ会議システムであって、前記ユーザー端末は、ユーザーの顔画像を撮像する撮像部と、前記ユーザーの音声を取得する音声取得部と、他の前記ユーザー端末と画像および音声のデータを含む各種データを送受信する通信部と、前記ユーザーの顔画像をテレビ会議の画面に表示する表示部と、前記ユーザーの音声を出力する音声出力部と、前記ユーザーの音声を文字に変換して前記表示部に表示させる音声表示部と、前記撮像部、前記音声取得部、前記通信部、前記表示部、前記音声出力部および前記音声表示部を制御する制御部とを備え、前記制御部は、テレビ会議中に予め定められた音声表示条件が満たされた場合に、前記音声表示部に発話中の前記ユーザーの音声を文字に変換させて前記表示部に表示させることを特徴とする。
【発明の効果】
【0010】
この開示によれば、所定の音声表示条件が満たされた場合に、発話中のユーザーの音声を文字に変換して表示するため、受話者が注視しやすいように従来よりも適切なタイミングで文字表示を行うテレビ会議システムを実現できる。
【図面の簡単な説明】
【0011】
図1】この開示のテレビ会議システムの構成の一例を示す説明図である。
図2図1のユーザー端末の概略構成を示すブロック図である。
図3図1のサーバーの概略構成を示すブロック図である。
図4図1のテレビ会議システムの音声データ表示処理の一例を示すフローチャートである。
図5図1のテレビ会議システムにおいて、ユーザー端末の表示部に表示されたテレビ会議画面の例を示す。
図6図1のテレビ会議システムにおいて、ユーザー端末の表示部に表示された聞き逃し機能用の設定ボタンを押下した場合の設定画面の表示の例を示す。
図7図1のテレビ会議システムにおいて、ユーザー端末の表示部に表示された聞き逃し機能用の設定画面の一例を示す。
図8図7の聞き逃し機能用の設定画面において「動作」ボタンを選択した場合の動作設定画面の一例を示す。
図9図7の聞き逃し機能用の設定画面において「人物」ボタンを選択した場合の人物設定画面の一例を示す。
図10図7の聞き逃し機能用の設定画面において「ワード」ボタンを選択した場合のワード設定画面の一例を示す。
図11図7の聞き逃し機能用の設定画面において「環境」ボタンを選択した場合の環境設定画面の一例を示す。
図12図7の聞き逃し機能用の設定画面において「履歴」ボタンを選択した場合の履歴設定画面の一例を示す。
図13図1のテレビ会議システムにおいて、ユーザー端末の表示部に表示されたテレビ会議画面の聞き逃し結果の履歴確認表示の一例を示す。
図14図1のテレビ会議システムにおいて、ユーザー端末の表示部に表示されたテレビ会議画面の聞き逃し結果の履歴表示の一例を示す。
図15図1のテレビ会議システムにおいて、ユーザー端末の表示部に表示されたテレビ会議画面の聞き逃し結果の履歴表示の別の一例を示す。
図16】この開示の実施形態2のテレビ会議システムの音声データ表示処理の一例を示すフローチャートである。
図17】この開示の実施形態2のテレビ会議システムにおいて、ユーザー端末の表示部に表示されたテレビ会議画面の例を示す。
図18】この開示の実施形態3のテレビ会議システムにおいて、ユーザー端末の表示部に表示された聞き逃し機能用の設定画面の一例を示す。
図19図18の聞き逃し機能用の設定画面において「発話」ボタンを選択した場合の動作設定画面の一例を示す。
図20】この開示の実施形態3のテレビ会議システムにおいて、ユーザー端末の表示部に表示されたテレビ会議画面の音声データの表示の一例を示す。
図21】この開示の実施形態3のテレビ会議システムにおいて、複数の発話者が同時に発話した場合のユーザー端末の表示部に表示されたテレビ会議画面の音声データの表示の一例を示す。
図22】この開示の実施形態3のテレビ会議システムにおいて、発話者がマスクをしている場合のユーザー端末の表示部に表示されたテレビ会議画面の音声データの表示の一例を示す。
図23】この開示の実施形態3のテレビ会議システムにおいて、発話者が資料を表示しながら発話している場合のユーザー端末の表示部に表示されたテレビ会議画面の音声データの表示の一例を示す。
【発明を実施するための形態】
【0012】
さらに、この開示の好ましい態様について説明する。
【0013】
前記撮像部は、前記ユーザーの動作を撮像し、前記制御部は、受話者である前記ユーザーが予め定められた動作を行ったことを検出した場合に、前記音声表示条件が満たされたものと判定するものであってもよい。
【0014】
「受話者である前記ユーザーが予め定められた動作を行ったことを検出した場合」は、例えば、受話者がヘッドホン・イヤホンを外した場合、席を外した場合、所定時間視線をそらした場合などがあげられる。
この場合、当該受話者のユーザー端末において、発話中のユーザーの音声をすべて文字に変換して表示部に表示させる。
【0015】
このようにすれば、ヘッドホン・イヤホンを外すなど、受話者が聞き逃しをするおそれがあるタイミングでユーザーの音声を文字に変換して表示部に表示するため、受話者が注視しやすいように従来よりも適切なタイミングで文字表示を行うテレビ会議システムを実現できる。
【0016】
前記制御部は、予め定められた前記ユーザーが発話したことを検出した場合に、前記音声表示条件が満たされたものと判定するものであってもよい。
【0017】
このようにすれば、所定の発話者が発話したタイミングで当該発話者であるユーザーの音声を文字に変換して表示部に表示するため、受話者が注視しやすいように従来よりも適切なタイミングで文字表示を行うテレビ会議システムを実現できる。
【0018】
前記制御部は、予め定められたワードが発話されたことを検出した場合に、前記音声表示条件が満たされたものと判定するものであってもよい。
【0019】
「予め定められたワード」は、例えば、受話者本人の情報(氏名、部署名、担当業務等)のワード、日時に関連するワード、「よろしいでしょうか。」等の確認を促すワードなどがあげられる。
【0020】
このようにすれば、所定のワードが発話されたタイミングで、ユーザーの音声を文字に変換して表示部に表示するため、受話者が注視しやすいように従来よりも適切なタイミングで文字表示を行うテレビ会議システムを実現できる。
【0021】
前記制御部は、予め定められたボタンが押下されたことを検出した場合に、前記音声表示条件が満たされたものと判定するものであってもよい。
【0022】
「予め定められたボタン」とは、例えば、「聞き逃し機能開始」ボタンや「注目機能開始」ボタンなどがあげられる。
なお、所定のボタンが押下された後、さらに所定の条件が満たされたタイミングで音声データを表示するようにしてもよい。
【0023】
このようにすれば、所定のボタンが押下されたタイミングで、ユーザーの音声を文字に変換して表示部に表示するため、受話者が注視しやすいように従来よりも適切なタイミングで文字表示を行うテレビ会議システムを実現できる。
【0024】
以下、図面を用いてこの開示をさらに詳述する。なお、以下の説明は、すべての点で例示であって、この開示を限定するものと解されるべきではない。
【0025】
〔実施形態1〕
図1図3に基づき、この開示の画像表示装置の一実施形態であるユーザー端末1A~1Dを含むテレビ会議システム100の概略構成について説明する。
【0026】
図1は、この開示のテレビ会議システム100の構成の一例を示す説明図である。
【0027】
図1に示すように、この開示のテレビ会議システム100は、ネットワーク3を通じて接続されたユーザー端末1A~1Dおよびサーバー2から構成される。
ユーザー端末1A~1Dは、サーバー2を経由して、リアルタイムで情報をやりとりする。
【0028】
なお、以下の説明において、ユーザー端末1A~1Dをまとめてユーザー端末1として説明する。
【0029】
<ユーザー端末1の概略構成>
次に、図2に基づき、ユーザー端末1の概略構成を説明する。
【0030】
図2は、図1のユーザー端末1の概略構成を示すブロック図である。
図2に示すように、ユーザー端末1は、制御部10、記憶部11、画像処理部12、通信部13、表示部14、操作部15、撮像部16、音声取得部17、音声出力部18および音声表示部19を備える。
【0031】
以下、ユーザー端末1の各構成要素について説明する。
【0032】
制御部10は、ユーザー端末1を統合的に制御するものであって、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read only memory)、各種のインターフェース回路等からなる。
【0033】
制御部10は、ユーザー端末1全体の動作をコントロールするために、各センサの検知、操作部15等、あらゆる負荷の監視・制御を行う。
【0034】
記憶部11は、ユーザー端末1の各種機能を実現するために必要な情報や、制御プログラムなどを記憶する素子や記憶媒体である。例えば、RAMやROM等の半導体素子、ハードディスク、フラッシュ記憶部、SSD(Solid State Drive)等の記憶媒体が用いられる。
【0035】
なお、データを保持する領域をハードディスクドライブで、プログラムを保持する領域をフラッシュ記憶部で構成するといったように、プログラムとデータが異なる装置に保持されてもよい。
【0036】
画像処理部12は、画像データを適正な電気信号に変換して拡大・縮小等の出力に適するように処理を行う部分である。
【0037】
通信部13は、ネットワーク3を介して、他のユーザー端末1や外部のサーバー2と通信を行い、テレビ会議で表示すべき資料や文書等の画像データ、ユーザーの顔画像データや音声データなどの種々のデータを送受信する部分である。
【0038】
表示部14は、ユーザー端末1の各種情報の表示を行う部分である。
表示部14は、例えば、CRTディスプレイ、液晶ディスプレイ、ELディスプレイなどで構成され、オペレーティングシステムやアプリケーションソフトウェアが処理状態など電子的なデータを表示するためのモニタやラインディスプレイなどの表示装置である。
【0039】
制御部10は、表示部14を通じて、ユーザー端末1の動作および状態の表示を行う。
【0040】
操作部15は、ユーザー端末1を操作するためのインターフェースであり、ユーザーからの各種指令を受け付ける部分である。
【0041】
なお、表示部14および操作部15は、液晶パネル等から構成された表示パネルと、表示パネルに重ねて配置され、指がタッチされた位置を検出する静電容量方式等のタッチパネルとから構成されるものであってもよい。
【0042】
撮像部16は、ユーザー端末1のユーザーの顔および動作を撮像することによりユーザーの顔画像および動作の画像を取得する部分であり、例えばカメラが利用される。
【0043】
音声取得部17は、ユーザー端末1のマイクによって入力されたユーザーの声あるいは音(以下、まとめて音声と呼ぶ)を取得する部分である。
また、音声取得部17は、他のユーザー端末1から通信部13を介して他のユーザーの音声を取得する。
【0044】
音声出力部18は、動画アプリやオーディオアプリ等の音声を出力する部分であり、例えばスピーカーが利用される。
【0045】
音声表示部19は、ユーザー端末1のマイクによって入力されたユーザーの音声データや他のユーザー端末1から通信部13を介して取得した他のユーザーの音声データを文字データに変換した上で表示部14に表示する部分である。
【0046】
<サーバー2の概略構成>
次に、図3に基づき、サーバー2の概略構成を説明する。
【0047】
図3は、図1のサーバー2の概略構成を示すブロック図である。
図3に示すように、サーバー2は、制御部20、記憶部21、画像処理部22、通信部23、表示部24、操作部25およびテレビ会議システム管理部26を備える。
【0048】
以下、サーバー2の各構成要素について説明する。
【0049】
制御部20は、サーバー2を統合的に制御するものであって、CPU、RAM、ROM、各種のインターフェース回路等からなる。
【0050】
制御部20は、サーバー2全体の動作をコントロールするために、各センサの検知、操作部25等、あらゆる負荷の監視・制御を行う。
【0051】
記憶部21は、サーバー2の各種機能を実現するために必要な情報や、制御プログラムなどを記憶する素子や記憶媒体である。例えば、RAMやROM等の半導体素子、ハードディスク、フラッシュ記憶部、SSD等の記憶媒体が用いられる。
【0052】
記憶部21は、テレビ会議システム100に関する情報や画像データなどテレビ会議の実行に必要なデータを記憶する。
また、記憶部21は、予め定められた音声表示条件を記憶する。
【0053】
なお、データを保持する領域をハードディスクドライブで、プログラムを保持する領域をフラッシュ記憶部で構成するといったように、プログラムとデータが異なる装置に保持されてもよい。
【0054】
画像処理部22は、画像データを適正な電気信号に変換して拡大・縮小等の出力に適するように処理を行う部分である。
【0055】
通信部23は、ネットワーク3を介して、外部のユーザー端末1と通信を行い、テレビ会議システム100の資料データ等を送受信する部分である。
【0056】
表示部24は、サーバー2の各種情報の表示を行う部分である。
表示部24は、例えば、CRTディスプレイ、液晶ディスプレイ、ELディスプレイなどで構成され、オペレーティングシステムやアプリケーションソフトウェアが処理状態など電子的なデータを表示するためのモニタやラインディスプレイなどの表示装置である。
【0057】
制御部20は、表示部24を通じて、サーバー2の動作および状態の表示を行う。
【0058】
操作部25は、サーバー2を操作するためのインターフェースであり、ユーザーからの指令を受け付ける部分である。
【0059】
なお、表示部24および操作部25は、液晶パネル等から構成された表示パネルと、表示パネルに重ねて配置され、指がタッチされた位置を検出する静電容量方式等のタッチパネルとから構成されるものであってもよい。
【0060】
テレビ会議システム管理部26は、ネットワーク3を介して複数のユーザー端末1間でテレビ会議を実行するためのシステムを管理する部分である。
【0061】
<この開示の実施形態1のテレビ会議システム100の音声データ表示処理の一例>
次に、図4および図5に基づき、この開示の実施形態1のテレビ会議システム100の音声データ表示処理の一例について説明する。
【0062】
図4は、図1のテレビ会議システム100の音声データ表示処理の一例を示すフローチャートである。
【0063】
テレビ会議が開始した後、図4のステップS1において、ユーザー端末1の制御部10は、撮像部16にユーザーの顔および動作を撮像させるカメラ画像認識と、音声取得部17にユーザーの音声を取得させる音声入力検知を開始する(ステップS1)。
【0064】
次に、ステップS2において、制御部10は、表示部14に表示された聞き逃し機能開始ボタンが押下されたか否かを判定する(ステップS2)。
【0065】
図5は、図1のテレビ会議システム100において、ユーザー端末1の表示部14に表示されたテレビ会議画面の例を示す。
図5(A)は、聞き逃し機能開始ボタンを押下する前のテレビ会議画面の例を示す。
【0066】
図5の例では、発話者であるユーザーAが大画面(メイン画面)に表示され、受話者であるユーザーB,C,DおよびEが画面右側の各小画面(サブ画面)に表示されている。
【0067】
図5(A)に示すように、ユーザー端末1の表示部14に表示されたテレビ会議画面の左上部分に「聞き逃し機能開始」ボタンおよび「設定」ボタンが表示される。
【0068】
聞き逃し機能開始ボタンが押下されなかった場合(ステップS2の判定がNoの場合)、ステップS7において、制御部10は、テレビ会議が終了したか否かを判定する(ステップS7)。
【0069】
テレビ会議が終了した場合(ステップS7の判定がYesの場合)、制御部10は、処理を終了する。
一方、テレビ会議が終了していない場合(ステップS7の判定がNoの場合)、制御部10は、ステップS2の判定に処理を戻す。
【0070】
聞き逃し機能開始ボタンが押下された場合(ステップS2の判定がYesの場合)、ステップS3において、制御部10は、予め定められた音声データ表示条件が満たされたか否かを判定する(ステップS3)。
【0071】
音声データ表示条件としては、例えば、受話者であるユーザーがヘッドホンを外した場合などがあげられる。
なお、音声データ表示条件の詳細については、図6図12の説明において後述する。
【0072】
音声データ表示条件が満たされた場合(ステップS3の判定がYesの場合)、ステップS4において、制御部10は、音声データ表示を開始する(ステップS4)。
【0073】
図5(B)は、聞き逃し機能開始ボタンを押下した後のテレビ会議画面の例を示す。
図5(B)に示すように、受話者であるユーザーCが14:05にヘッドホンを外す動作を行うと、聞き逃しの可能性があるものとして、発話者であるユーザーAの音声データ「PM2:05:[Aさん]本日の議題の一つ、XXについて説明します。」がユーザーCのユーザー端末1の画面に表示される。
また、当該音声データの検知時刻「14:05」がスライドバー上に表示される。
【0074】
当該音声データ表示は、ヘッドホンを外したユーザーCのユーザー端末1においてのみ表示される。
【0075】
なお、ユーザーがヘッドホンを外し続けているなど、音声データ表示条件が満たされている状態が続く場合は、進行中の会議に合わせてリアルタイムに音声データが表示されつづける。
【0076】
一方、音声データ表示条件が満たされていない場合(ステップS3の判定がNoの場合)、制御部10は、ステップS5の判定を行う。
【0077】
次に、ステップS5において、制御部10は、聞き逃し機能終了ボタンが押下されたか否かを判定する(ステップS5)。
【0078】
図5(B)に示すように、聞き逃し機能開始ボタンを押下した後、当該聞き逃し機能開始ボタンは、聞き逃し機能終了ボタンに変わる。
なお、聞き逃し機能終了ボタンをハイライト表示することで、聞き逃し機能が実行中であることをユーザーが認識しやすいようにしてもよい。
【0079】
聞き逃し機能終了ボタンが押下された場合(ステップS5の判定がYesの場合)、ステップS6において、制御部10は、音声データ表示を終了する(ステップS6)。
その後、制御部10は、ステップS2の判定に処理を戻す。
【0080】
<この開示の実施形態1のテレビ会議システム100の聞き逃し機能の設定例>
次に、図6図12に基づき、この開示の実施形態1のテレビ会議システム100の聞き逃し機能の設定例について説明する。
図6は、図1のテレビ会議システム100において、ユーザー端末1の表示部14に表示された聞き逃し機能用の設定ボタンを押下した場合の設定画面の表示の例を示す。
【0081】
図6(A)に示すように、ユーザーが「設定」ボタンを押下すると、図6(B)に示すように、聞き逃し機能用の設定画面が子画面表示される。
【0082】
図7は、図1のテレビ会議システム100において、ユーザー端末1の表示部14に表示された聞き逃し機能用の設定画面の一例を示す。
【0083】
図7の例では、聞き逃し機能用の音声データ表示条件を設定する設定ボタン、すなわち「動作」、「人物」、「ワード」および「環境」ボタンが表示されている。
また、過去のテレビ会議等の履歴に基づき自動で設定を行う「履歴」ボタンおよび設定を終了する「完了」ボタンも表示されている。
【0084】
図8は、図7の聞き逃し機能用の設定画面において「動作」ボタンを選択した場合の動作設定画面の一例を示す。
当該動作設定画面は、図6(B)の設定画面と同様に子画面表示される。
他の設定画面についても同様である。
【0085】
図7の設定画面において「動作」ボタンを選択すると、図8の画面が表示される。
図8の例では、動作1「ヘッドホン・イヤホンを外す」、動作2「席を外す」、動作3「視線をそらす(1分以上)」がそれぞれ設定されている。
【0086】
聞き逃し機能開始ボタンが押下された後、これらの動作1~3のいずれかを受話者が行ったことが検知されたとき、音声データ表示を開始する。
また、受話者がヘッドオン・イヤホンを再び装着したり、席についたり、視線を戻した場合に、音声データの表示を終了するようにしてもよい。
【0087】
なお、音声データの開始および終了は、聞き逃し機能開始ボタンおよび終了ボタンが押下された時刻に必ずしも一致する必要はなくてもよい。
たとえば、受話者がヘッドホンを外している間の発話者の発話が途中でぶつ切れにならないように、時間が多少前後しても、発話者のひとまとまりの発話内容を音声データに表示するようにしてもよい。
【0088】
また、ユーザーは、動作リスト右の三角ボタンを押下して表示されるドロップダウンリストの予め想定される動作から所望の動作を選択した上で、右下の「完了」ボタンを押下して設定する。
あるいは、ユーザーは直接フォームに所望の動作を入力するようにしてもよい。
【0089】
図9は、図7の聞き逃し機能用の設定画面において「人物」ボタンを選択した場合の人物設定画面の一例を示す。
【0090】
図7の設定画面において「人物」ボタンを選択すると、図9の画面が表示される。
図9の例では、氏名1「Yamada部長」、氏名2「Kato課長」および氏名3「Tanaka担当」がそれぞれ設定されている。
【0091】
氏名のリストは、会議情報(会議名、参加者、部署名、会議資料等)から自動抽出された氏名がリスト化され、ユーザーが所望の氏名をドロップダウンリストから選択できるようにする。
【0092】
聞き逃し機能開始ボタンが押下された後、これらの氏名1~3のいずれの発話者が発話を行ったとき、音声データ表示を開始する。
【0093】
なお、音声データの開始および終了は、対象の氏名の発話者が発話している時間に必ずしも一致する必要はなくてもよい。
たとえば、発話者の発話の前や途中で他の人から質問などがあったとき、それらの質問を含めて発話者の発話をまとめて音声データに表示するようにしてもよい。
【0094】
このようにして、上位者や同僚、関係者などの受話者にとって聞き逃しを防ぎたい人物の氏名を設定しておき、当該人物が発話した場合に音声データを表示することで聞き逃し機能を向上させることが可能なテレビ会議システム100を実現できる。
【0095】
図10は、図7の聞き逃し機能用の設定画面において「ワード」ボタンを選択した場合のワード設定画面の一例を示す。
【0096】
図7の設定画面において「ワード」ボタンを選択すると、図10の画面が表示される。
図10の例では、ワード1「本人」、ワード2「日時」およびワード3「よろしいでしょうか」がそれぞれ設定されている。
【0097】
ここで、「本人」を設定した場合、受話者本人の情報(氏名、部署名、担当業務等)のワードを判定条件とする。
「日時」を設定した場合、日時に関連するワード、例えば「MM月DD日」、「来週」等を判定条件とする。
【0098】
聞き逃し機能開始ボタンが押下された後、これらのワード1~3のいずれを含む発話を発話者が行ったとき、音声データ表示を開始する。
【0099】
なお、「よろしいでしょうか」というワードが設定されている場合、当該ワードのほかに、「よいでしょうか」、「かまいませんか」、「可能でしょうか」など、同じような意味で用いられる類義語も判定条件に入れるものとする。
【0100】
ワードのリストは、会議情報(会議名、参加者、部署名、会議資料等)から自動抽出されたワードがリスト化され、ユーザーが所望のワードをドロップダウンリストから選択できるようにする。
あるいは、ユーザーが直接フォームに所望のワードを入力するようにしてもよい。
【0101】
図11は、図7の聞き逃し機能用の設定画面において「環境」ボタンを選択した場合の環境設定画面の一例を示す。
【0102】
図7の設定画面において「環境」ボタンを選択すると、図11の画面が表示される。
図11の例では、環境1「スピーカーミュート」および環境2「通信品質低下」がそれぞれ設定されている。
【0103】
ここで、「通信品質低下」の場合とは、受話者側の通信環境が悪いことにより、画面表示や音声出力ができないか不安定な場合である。
ただし、発話者側の通信環境に問題がなく、発話者の発話の音声データがすべて表示可能である場合にかぎられるものとする。
【0104】
なお、「通信品質低下」の場合は、リアルタイムで音声データを表示できない場合もあるため、通信品質回復後に通信品質低下期間の音声データを履歴表示できるようにしてもよい。
【0105】
環境のリストは、予め想定される環境条件がリスト化され、ユーザーが所望の環境条件をドロップダウンリストから選択できるようにする。
あるいは、ユーザーが直接フォームに所望の環境条件を入力するようにしてもよい。
【0106】
図12は、図7の聞き逃し機能用の設定画面において「履歴」ボタンを選択した場合の履歴設定画面の一例を示す。
【0107】
図7の設定画面において「履歴」ボタンを選択すると、図12の画面が表示される。
図12の例では、履歴1「20Y1年M1月D1日「営業会議」」および履歴2「20Y2年M2月D2日「定例報告会」」がそれぞれ設定されている。
【0108】
この場合、これらの過去の会議や報告会で設定された判定条件(動作、人物、ワードおよび環境)が判定条件に反映されるものとする。
【0109】
このようにすることで、現在のテレビ会議に関連する過去の会議や報告会で受話者にとって聞き逃しを防ぎたい項目が類似する会議の場合に、各項目の条件を毎回設定する手間を省くことができる。
【0110】
これらの「動作」、「人物」、「ワード」、「環境」および「履歴」ボタンを組み合わせて設定を行ってもよく、このように複数の条件を任意に組み合わせて設定することで、受話者が聞き逃したくない情報をピンポイントで設定できる。
【0111】
なお、これらの設定は、個々の受話者のユーザー端末1のみに適用されるものであってもよく、また、管理ユーザーにより、複数のユーザー端末1に共通に適用されるようにしてもよく、それらの組み合わせであってもよい。
【0112】
<この開示の実施形態1のテレビ会議システム100の聞き逃し結果の履歴表示の例>
次に、図13図15に基づき、この開示の実施形態1のテレビ会議システム100の聞き逃し結果の履歴表示の例について説明する。
【0113】
図13は、図1のテレビ会議システム100において、ユーザー端末1の表示部14に表示されたテレビ会議画面の聞き逃し結果の履歴確認表示の一例を示す。
【0114】
聞き逃しが発生した可能性がある場合、制御部10は、聞き逃し結果の履歴確認表示を行う。
図13の例では、「ヘッドホンを外していた期間の発話履歴を確認しますか?」というメッセージとともに「はい」「いいえ」ボタンが表示されている。
【0115】
図14は、図1のテレビ会議システム100において、ユーザー端末1の表示部14に表示されたテレビ会議画面の聞き逃し結果の履歴表示の一例を示す。
【0116】
図14の例では、受話者であるユーザーCのユーザー端末1において、聞き逃しの判定条件として、ワード「本人」および「日時」を設定した場合を想定している。
【0117】
この場合、図14に示すように、「XXについては「CさんとEさん」に対応してもらいます。」「来週中までに各自YY資料を作成しておくこと。」という音声データの履歴が表示される。
【0118】
また、ユーザーが画面右下の「表示終了」ボタンを押下すると、元の画面構成に戻る。
【0119】
図15は、図1のテレビ会議システム100において、ユーザー端末1の表示部14に表示されたテレビ会議画面の聞き逃し結果の履歴表示の別の一例を示す。
【0120】
図15の例では、受話者であるユーザーCのユーザー端末1において、聞き逃しの判定条件として、ワード「本人」を設定した場合を想定している。
【0121】
この場合、図15に示すように、音声データの履歴がタイムライン表示され、聞き逃しが発生した時刻(「2:13」および「2:25」)が赤丸印で強調表示される。
ユーザーCが強調表示された赤丸印にマウスカーソルをのせると、「XXについては「CさんとEさん」に対応してもらいます。」という音声データの履歴が表示されるため、聞き逃しが発生した箇所の内容の確認が容易となる。
【0122】
このようにして、所定の音声表示条件が満たされた場合に、発話中のユーザーの音声を文字に変換して表示するため、受話者が注視しやすいように従来よりも適切なタイミングで文字表示を行うテレビ会議システム100を実現できる。
【0123】
〔実施形態2〕
<この開示の実施形態2のテレビ会議システム100の音声データ表示処理の一例>
次に、図16および図17に基づき、この開示の実施形態2のテレビ会議システム100の音声データ表示処理の一例について説明する。
【0124】
実施形態1では、テレビ会議において、受話者が聞き逃し機能開始ボタンを押下した上で所定条件が満たされると、音声データ表示を開始する点に特徴がある。
【0125】
これに対して、実施形態2では、受話者のユーザー端末1への音声データ表示を発話者が開始する場合について説明する。
【0126】
この開示の実施形態2に係るテレビ会議システム100の概略構成は、実施形態1(図1図3)と同一であるため、説明を省略する。
【0127】
図16は、この開示の実施形態2のテレビ会議システム100の音声データ表示処理の一例を示すフローチャートである。
【0128】
ユーザー端末1がテレビ会議を開始した後、図16のステップS11において、ユーザー端末1の制御部10は、撮像部16にユーザーの顔を撮像させるカメラ画像認識と、音声取得部17にユーザーの音声を取得させる音声入力検知を開始する(ステップS11)。
【0129】
次に、ステップS12において、制御部10は、注目機能開始ボタンが押下されたか否かを判定する(ステップS12)。
【0130】
図17は、この開示の実施形態2のテレビ会議システムにおいて、ユーザー端末1の表示部14に表示されたテレビ会議画面の例を示す。
【0131】
図17(A)は、注目機能開始ボタンを押下する前のテレビ会議画面の例を示す。
【0132】
図17の例では、発話者であるユーザーAが大画面に表示され、受話者であるユーザーB,C,DおよびEを画面右側の各小画面に表示されている。
【0133】
図17(A)に示すように、ユーザー端末1の表示部14に表示されたテレビ会議画面の左上部分に「注目機能開始」が表示される。
【0134】
注目機能開始ボタンが押下されなかった場合(ステップS12の判定がNoの場合)、ステップS16において、制御部10は、テレビ会議が終了したか否かを判定する(ステップS16)。
【0135】
テレビ会議が終了した場合(ステップS16の判定がYesの場合)、制御部10は、処理を終了する。
一方、テレビ会議が終了していない場合(ステップS16の判定がNoの場合)、制御部10は、ステップS12の判定に処理を戻す。
【0136】
一方、注目機能開始ボタンが押下された場合(ステップS12の判定がYesの場合)、ステップS13において、制御部10は、音声データ表示を開始する(ステップS13)。
【0137】
図17(B)は、注目機能開始ボタンを押下した後のテレビ会議画面の例を示す。
図1(B)に示すように、発話者であるユーザーAの音声データ「PM2:05:[Aさん]本日の議題の一つ、XXについて説明します。」が画面に表示される。
【0138】
次に、ステップS14において、制御部10は、注目機能終了ボタンが押下されたか否かを判定する(ステップS14)。
注目機能終了ボタンが押下された場合(ステップS14の判定がYesの場合)、ステップS15において、制御部10は、音声データ表示を終了する(ステップS15)。
その後、制御部10は、ステップS12の判定に処理を戻す。
【0139】
なお、注目機能開始ボタンは、発話者が押下する場合に限られず、受話者が押下してもよい。
また、ユーザーのうちの誰かが注目機能開始ボタンを押下することで、他のユーザーに対して重要な発話を注目させるようにしてもよい。
【0140】
このようにして、発話者が注目機能開始ボタンを押下した場合に、当該発話者の音声を文字に変換して表示させるため、受話者が注視しやすいように従来よりも適切なタイミングで文字表示を行うテレビ会議システム100を実現できる。
【0141】
〔実施形態3〕
<この開示の実施形態3のテレビ会議システム100の音声データ表示処理の一例>
次に、図18図25に基づき、この開示の実施形態3のテレビ会議システム100の音声データ表示処理の一例について説明する。
【0142】
図18は、この開示の実施形態3のテレビ会議システム100において、ユーザー端末1の表示部14に表示された聞き逃し機能用の設定画面の一例を示す。
【0143】
図18の例では、聞き逃し機能用の音声データ表示条件を設定する設定ボタン、すなわち「動作」、「人物」、「ワード」、「環境」ボタンの他に「発話」ボタンも表示されている。
【0144】
図19は、図18の聞き逃し機能用の設定画面において「発話」ボタンを選択した場合の動作設定画面の一例を示す。
【0145】
図18の設定画面において「発話」ボタンを選択すると、図19の画面が表示される。
図19の例では、発話1「発話者の声が小さい」、発話2「複数の発話者が同時に発話した」、発話3「発話者がマスクをしている」および発話4「発話者が資料を表示中」がそれぞれ設定されている。
【0146】
図20は、この開示の実施形態3のテレビ会議システム100において、ユーザー端末1の表示部14に表示されたテレビ会議画面の音声データの表示の一例を示す。
【0147】
図20の例に示すように、発話者であるユーザーAの声が予め定められた音量よりも小さい場合、「本日の話題はXXです。」という音声データが表示される。
【0148】
図21は、この開示の実施形態3のテレビ会議システム100において、複数の発話者が同時に発話した場合のユーザー端末1の表示部14に表示されたテレビ会議画面の音声データの表示の一例を示す。
【0149】
図21において、3人のユーザーA,B,Dが同時に発話した場合を想定している。
この場合、図21(A)の例に示すように、同時に発話したユーザーA,B,Dのみを画面に分割して表示した上で、ユーザーA,B,Dの音声データをそれぞれ表示する。
【0150】
そして、ユーザーが「表示終了」ボタンを押下するか、次の発話者が発話した場合に音声データの表示を終了させる。
【0151】
また、図21(B)の例に示すように、現在のテレビ会議の画面の構成を維持しつつ、同時に発話したユーザーA,B,Dの音声データをそれぞれ発話順に表示するようにしてもよい。
なお、ほぼ複数のユーザーがほぼ同時に発話した場合は、名前順など予め定められたユーザーの順に音声データを表示させる。
【0152】
図22は、この開示の実施形態3のテレビ会議システム100において、発話者がマスクをしている場合のユーザー端末1の表示部14に表示されたテレビ会議画面の音声データの表示の一例を示す。
【0153】
図22の例に示すように、マスクをした発話者を検出した場合、音声データを表示する。
この場合、音声テキストを発話者の口の部分から吹き出し表示させるようにしてもよい。
【0154】
なお、マスクをしている場合に限らず、声が小さい、同時に発話があった等の他の条件が満たされた場合に、誰が発話したのかを明示するために当該吹き出し表示を行うようにしてもよい。
【0155】
図23は、この開示の実施形態3のテレビ会議システム100において、発話者が資料を表示しながら発話している場合のユーザー端末1の表示部14に表示されたテレビ会議画面の音声データの表示の一例を示す。
【0156】
発話者であるユーザーAが資料を表示しながら発話を行っている場合、図23(A)の例に示すように、音声データを資料の文字や図形に重ならないように拡大・縮小・縦書き・横書き表示して表示させる。
【0157】
そして、ユーザーが「表示終了」ボタンを押下するか、次の発話者が発話した場合に音声データの表示を終了させる。
【0158】
また、図23(B)の例に示すように、資料を拡大表示することでメインの画面上に音声データを表示できない場合、その横のサブ画面に音声データを表示させるようにしてもよい。
【0159】
このようにして、発話者が所定の音声表示条件を満たした場合に、前記音声表示条件を満たしたユーザーの音声を文字に変換して表示するため、受話者が注視しやすいように従来よりも適切なタイミングで文字表示を行うテレビ会議システム100を実現できる。
【0160】
この開示の好ましい態様には、上述した複数の態様のうちの何れかを組み合わせたものも含まれる。
【0161】
前述した実施の形態の他にも、この開示について種々の変形例があり得る。それらの変形例は、この開示の範囲に属さないと解されるべきものではない。この開示には、請求の範囲と均等の意味および前記範囲内でのすべての変形とが含まれるべきである。
【符号の説明】
【0162】
1,1A,1B,1C,1D:ユーザー端末、 2:サーバー、 3:ネットワーク、 10,20:制御部、 11,21:記憶部、 12,22:画像処理部、 13,23:通信部、 14,24:表示部、 15,25:操作部、 16:撮像部、 17:音声取得部、 18:音声出力部、 19:音声表示部、 26:テレビ会議システム管理部、 100:テレビ会議システム
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23