特開2024-47807 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士ゼロックス株式会社の特許一覧

特開2024-47807プログラム及びウェブ会議システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024047807

(43)【公開日】2024-04-08

(54)【発明の名称】プログラム及びウェブ会議システム

(51)【国際特許分類】

G06Q 10/10 20230101AFI20240401BHJP

【ＦＩ】

G06Q10/10

【審査請求】未請求

【請求項の数】22

【出願形態】ＯＬ

(21)【出願番号】P 2022153503

(22)【出願日】2022-09-27

(71)【出願人】

【識別番号】000005496

【氏名又は名称】富士フイルムビジネスイノベーション株式会社

(74)【代理人】

【識別番号】100104880

【弁理士】

【氏名又は名称】古部次郎

(74)【代理人】

【識別番号】100125346

【弁理士】

【氏名又は名称】尾形文雄

(72)【発明者】

【氏名】中山英知

【テーマコード（参考）】

5L049

【Ｆターム（参考）】

5L049AA11

(57)【要約】

【課題】ウェブ会議への参加者の一部が１つのマイクを共用する状況でも、実際の話者の特定を可能にする。
【解決手段】ウェブ会議システムのサーバとして動作するコンピュータに、音声入力に使用するマイクを共用する参加者の集合を特定する機能と、集合からの音声の入力中に、集合に属する参加者の端末から基準値以上の音量を示す情報が入力されたとき、端末の参加者を話者として特定する機能と、を実現させるためのプログラムを提供する。
【選択図】図１１

【特許請求の範囲】

【請求項1】

ウェブ会議システムのサーバとして動作するコンピュータに、
音声入力に使用するマイクを共用する参加者の集合を特定する機能と、
集合からの音声の入力中に、集合に属する参加者の端末のうち、前記マイクと接続されていない端末から基準値以上の音量を示す情報が入力されたとき、当該情報の送信元に対応する端末の参加者を話者として特定する機能と、
を実現させるためのプログラム。

【請求項2】

前記端末に対応する参加者の情報を共有画面に表示する機能、
を更に実現させる請求項１に記載のプログラム。

【請求項3】

前記表示する機能は、話者に特定された参加者が集合に属する場合、話者に特定された参加者が集合に属さない場合とは異なる態様で表示する、
請求項２に記載のプログラム。

【請求項4】

集合に属する参加者の情報を、集合に属さない他の参加者とは異なる態様で表示する機能、
を更に実現させる請求項１に記載のプログラム。

【請求項5】

集合が複数含まれる場合、前記表示する機能は、集合の違いを表示する、
請求項４に記載のプログラム。

【請求項6】

ウェブ会議への参加を開始する画面に、音量を示す情報の送信を設定するボタンを表示する機能、
を更に実現させる請求項１に記載のプログラム。

【請求項7】

前記ボタンを、音声入力の設定がオフに設定された場合に表示する、
請求項６に記載のプログラム。

【請求項8】

音声入力の設定がオンに設定されている場合、前記ボタンを、操作を受け付けない態様で表示する、
請求項６に記載のプログラム。

【請求項9】

マイクを他の参加者と共用するモードが選択された場合、前記ボタンを表示する、
請求項６に記載のプログラム。

【請求項10】

前記集合を特定する機能は、ウェブ会議への参加を開始する画面において、音量を示す情報を送信する設定が有効化された端末の参加者を集合に紐づける、
請求項１に記載のプログラム。

【請求項11】

前記集合を特定する機能は、集合に紐付けられた参加者の端末のネットワーク上の位置に基づいて、各参加者が属する集合を特定する、
請求項１０に記載のプログラム。

【請求項12】

前記話者として特定する機能は、同じ集合内で最も大きい音量を示す情報を送信した端末の参加者を話者として特定する、
請求項１に記載のプログラム。

【請求項13】

前記話者として特定する機能は、集合から音声の入力中に、集合に属する参加者の端末から基準値以上の音量を示す情報が入力されないとき、音声を送信した端末に紐付けられている参加者を話者として特定する、
請求項１に記載のプログラム。

【請求項14】

前記話者として特定する機能は、集合に属さない参加者からの音声入力が検出された場合、当該参加者を話者として特定する、
請求項１に記載のプログラム。

【請求項15】

同じ集合に属する参加者の端末間でマイクの感度を揃える機能、
を更に実現させる請求項１に記載のプログラム。

【請求項16】

集合に属する参加者の端末から音量を示す情報の入力が検出されるが、同じ集合からの音声の入力が検出されない場合、
参加者の音声が検出されない旨を通知する機能、
を更に実現させる請求項１に記載のプログラム。

【請求項17】

集合に属する参加者の端末のうち、音声入力の設定がオンに設定されている端末以外の端末に対し、音声入力をオフに設定する指示と、音量を示す情報をオンに設定する指示を送信する機能、
を更に実現させる請求項１に記載のプログラム。

【請求項18】

前記端末に対応する参加者の情報を、音声に関連付けて記録する機能、
を更に実現する請求項１に記載のプログラム。

【請求項19】

ウェブ会議システムの参加者の端末として動作するコンピュータに、
音声入力がオフに設定されている場合、音量を示す情報をサーバに送信する機能、
を実現させるためのプログラム。

【請求項20】

自端末のカメラで撮像された参加者の表情を処理して発話の有無を検出する機能と、
参加者の発話が検出される一方で、基準値以上の音量を示す情報が検出されていない場合、前記サーバに発話の発生を示す情報を送信する機能と、
を更に実現させる請求項１９に記載のプログラム。

【請求項21】

前記発話の有無を検出する機能は、前記カメラで撮像された画像の前記サーバへの送信がオフに設定されている状態でも実行される、
請求項２０に記載のプログラム。

【請求項22】

ウェブ会議の参加者の端末と、当該端末間の通信を実現するサーバとを有し、
前記端末は、音声入力がオンに設定されている場合には、音声を前記サーバに送信する一方、音声入力がオフに設定されている場合には、音量を示す情報を当該サーバに送信し、
前記サーバは、音声入力に使用するマイクを共用する参加者の集合からの音声の入力中に、集合に属する参加者の端末のうち、当該マイクと接続されていない端末から基準値以上の音量を示す情報が入力されたとき、当該情報の送信元に対応する端末の参加者を話者として特定する、
ウェブ会議システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、プログラム及びウェブ会議システムに関する。

【背景技術】

【0002】

リモートワーク等の普及に伴い、ウェブ会議の需要が増えている。ウェブ会議は、参加者の端末をインターネットに接続することで実現される。
ところで、ウェブ会議の開催形態は様々であり、参加者の全員が異なる地点にいるとは限らない。例えば４人の参加者Ａ、Ｂ、Ｃ、Ｄのうち参加者Ａは自宅から参加するが、参加者Ｂ、Ｃ、Ｄは会議室に集まって参加することがある。この場合、２地点間でウェブ会議が開催される。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１７－１６８９０３号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

複数人が同じ地点からウェブ会議に参加する場合、スピーカーフォンを使用することがある。スピーカーフォンは、スピーカーとマイクを一体化した装置であり、ハウリングや音声の途切れの低減に効果を発揮する。一方で、スピーカーフォンを使用すると、スピーカーフォンから入力された音声の全てが、スピーカーフォンが接続された端末に紐づけされる。例えば参加者Ｄの発言も、スピーカーフォンが接続された端末に対応する参加者Ｂの発言とみなされる。

【0005】

本開示は、ウェブ会議への参加者の一部が１つのマイクを共用する状況でも、実際の話者の特定を可能にすることを目的とする。

【課題を解決するための手段】

【0006】

請求項１に記載の発明は、ウェブ会議システムのサーバとして動作するコンピュータに、音声入力に使用するマイクを共用する参加者の集合を特定する機能と、集合からの音声の入力中に、集合に属する参加者の端末のうち、前記マイクと接続されていない端末から基準値以上の音量を示す情報が入力されたとき、当該情報の送信元に対応する端末の参加者を話者として特定する機能と、を実現させるためのプログラムである。
請求項２に記載の発明は、前記端末に対応する参加者の情報を共有画面に表示する機能、を更に実現させる請求項１に記載のプログラムである。
請求項３に記載の発明は、前記表示する機能は、話者に特定された参加者が集合に属する場合、話者に特定された参加者が集合に属さない場合とは異なる態様で表示する、請求項２に記載のプログラムである。
請求項４に記載の発明は、集合に属する参加者の情報を、集合に属さない他の参加者とは異なる態様で表示する機能、を更に実現させる請求項１に記載のプログラムである。
請求項５に記載の発明は、集合が複数含まれる場合、前記表示する機能は、集合の違いを表示する、請求項４に記載のプログラムである。
請求項６に記載の発明は、ウェブ会議への参加を開始する画面に、音量を示す情報の送信を設定するボタンを表示する機能、を更に実現させる請求項１に記載のプログラムである。
請求項７に記載の発明は、前記ボタンを、音声入力の設定がオフに設定された場合に表示する、請求項６に記載のプログラムである。
請求項８に記載の発明は、音声入力の設定がオンに設定されている場合、前記ボタンを、操作を受け付けない態様で表示する、請求項６に記載のプログラムである。
請求項９に記載の発明は、マイクを他の参加者と共用するモードが選択された場合、前記ボタンを表示する、請求項６に記載のプログラムである。
請求項１０に記載の発明は、前記集合を特定する機能は、ウェブ会議への参加を開始する画面において、音量を示す情報を送信する設定が有効化された端末の参加者を集合に紐づける、請求項１に記載のプログラムである。
請求項１１に記載の発明は、前記集合を特定する機能は、集合に紐付けられた参加者の端末のネットワーク上の位置に基づいて、各参加者が属する集合を特定する、請求項１０に記載のプログラムである。
請求項１２に記載の発明は、前記話者として特定する機能は、同じ集合内で最も大きい音量を示す情報を送信した端末の参加者を話者として特定する、請求項１に記載のプログラムである。
請求項１３に記載の発明は、前記話者として特定する機能は、集合から音声の入力中に、集合に属する参加者の端末から基準値以上の音量を示す情報が入力されないとき、音声を送信した端末に紐付けられている参加者を話者として特定する、請求項１に記載のプログラムである。
請求項１４に記載の発明は、前記話者として特定する機能は、集合に属さない参加者からの音声入力が検出された場合、当該参加者を話者として特定する、請求項１に記載のプログラムである。
請求項１５に記載の発明は、同じ集合に属する参加者の端末間でマイクの感度を揃える機能、を更に実現させる請求項１に記載のプログラムである。
請求項１６に記載の発明は、集合に属する参加者の端末から音量を示す情報の入力が検出されるが、同じ集合からの音声の入力が検出されない場合、参加者の音声が検出されない旨を通知する機能、を更に実現させる請求項１に記載のプログラムである。
請求項１７に記載の発明は、集合に属する参加者の端末のうち、音声入力の設定がオンに設定されている端末以外の端末に対し、音声入力をオフに設定する指示と、音量を示す情報をオンに設定する指示を送信する機能、を更に実現させる請求項１に記載のプログラムである。
請求項１８に記載の発明は、前記端末に対応する参加者の情報を、音声に関連付けて記録する機能、を更に実現する請求項１に記載のプログラムである。
請求項１９に記載の発明は、ウェブ会議システムの参加者の端末として動作するコンピュータに、音声入力がオフに設定されている場合、音量を示す情報をサーバに送信する機能、を実現させるためのプログラムである。
請求項２０に記載の発明は、自端末のカメラで撮像された参加者の表情を処理して発話の有無を検出する機能と、参加者の発話が検出される一方で、基準値以上の音量を示す情報が検出されていない場合、前記サーバに発話の発生を示す情報を送信する機能と、を更に実現させる請求項１９に記載のプログラムである。
請求項２１に記載の発明は、前記発話の有無を検出する機能は、前記カメラで撮像された画像の前記サーバへの送信がオフに設定されている状態でも実行される、請求項２０に記載のプログラムである。
請求項２２に記載の発明は、ウェブ会議の参加者の端末と、当該端末間の通信を実現するサーバとを有し、前記端末は、音声入力がオンに設定されている場合には、音声を前記サーバに送信する一方、音声入力がオフに設定されている場合には、音量を示す情報を当該サーバに送信し、前記サーバは、音声入力に使用するマイクを共用する参加者の集合からの音声の入力中に、集合に属する参加者の端末のうち、当該マイクと接続されていない端末から基準値以上の音量を示す情報が入力されたとき、当該情報の送信元に対応する端末の参加者を話者として特定する、ウェブ会議システムである。

【発明の効果】

【0007】

請求項１記載の発明によれば、ウェブ会議への参加者の一部が１つのマイクを共用する状況でも、実際の話者を特定できる。
請求項２記載の発明によれば、参加者の間で話者の情報を共有できる。
請求項３記載の発明によれば、特定された話者の確度の違いを表示できる。
請求項４記載の発明によれば、参加の形態の違いに関する情報を共有できる。
請求項５記載の発明によれば、参加者が属する集合の違いを表示できる。
請求項６記載の発明によれば、音声入力に使用しない端末に必要な設定を可能にできる。
請求項７記載の発明によれば、音声入力と重複した設定を回避できる。
請求項８記載の発明によれば、音声入力と重複した設定を回避できる。
請求項９記載の発明によれば、音声入力に使用しない端末に必要な設定を可能にできる。
請求項１０記載の発明によれば、集合に属する参加者を特定できる。
請求項１１記載の発明によれば、同じ集合に属する参加者を特定できる。
請求項１２記載の発明によれば、同じ集合内に複数の話者がいても主要な話者を特定できる。
請求項１３記載の発明によれば、ウェブ会議への参加者の一部が１つのマイクを共用する状況でも、実際の話者の特定できる。
請求項１４記載の発明によれば、ウェブ会議への参加者全員を対象として実際の話者を特定できる。
請求項１５記載の発明によれば、種類が異なる端末を使用する場合でも話者を正確に特定できる。
請求項１６記載の発明によれば、音声入力の異常を参加者に通知できる。
請求項１７記載の発明によれば、参加者による設定漏れを予防できる。
請求項１８記載の発明によれば、話者と音声の対応関係を事後的に特定できる。
請求項１９記載の発明によれば、集合内で音声入力に使用しない端末に対応する参加者を話者として特定可能にできる。
請求項２０記載の発明によれば、集合に属する参加者のマイクが故障していても話者の特定を可能にできる。
請求項２１記載の発明によれば、集合に属する参加者のマイクが故障していても話者の特定を可能にできる。
請求項２２記載の発明によれば、ウェブ会議への参加者の一部が１つのマイクを共用する状況でも、実際の話者を特定できる。

【図面の簡単な説明】

【0008】

【図1】ウェブ会議システムの構成例を示す図である。

【図2】サーバのハードウェア構成の一例を示す図である。

【図3】プロセッサにより実現される機能構成の一例を示す図である。

【図4】ウェブ会議室に入室したユーザの情報を記録する参加者テーブルのデータ構成の一例を説明する図である。

【図5】会話履歴テーブルのデータ構成の一例を説明する図である。

【図6】ウェブ会議について作成された会話履歴の一例を説明する図である。

【図7】ユーザ端末のハードウェア構成の一例を示す図である。

【図8】プロセッサにより実現される機能構成の一例を示す図である。

【図9】音声入力モードと音量入力モードの違いを説明する図である。

【図10】スピーカーフォンのハードウェア構成の一例を示す図である。

【図11】サーバとユーザ端末との協働による話者の特定処理を説明するシーケンス図である。

【図12】設定画面の一例を説明する図である。

【図13】会議室に集合してウェブ会議に参加するＢさん、Ｃさん、Ｄさんの設定画面を説明する図である。

【図14】参加を受け付けた段階における共有画面の表示例を説明する図である。

【図15】集合に属していないＡさんが発話した場合を説明する図である。

【図16】集合に属するＢさんが発話した場合を説明する図である。

【図17】集合に属するＣさんが発話した場合を説明する図である。

【図18】集合に属するＣさんとＤさんが同時に発話した場合を説明する図である。

【図19】サーバで実行される他の処理動作の一部分を説明する図である。

【図20】サーバで実行される他の処理動作の残りの部分を説明する図である。

【図21】集合に属していないＣさんが発話した場合の他の例を説明する図である。

【図22】集合に属していないＣさんとＤさんが同時に発話した場合の他の例を説明する図である。

【図23】集合に属するＣさんが発話したがＣさんの音声情報がサーバで受信されない例を説明する図である。

【図24】サーバで実行される他の処理動作の一例を説明する図である。

【図25】同じ集合に属さない２人のユーザの間で話者を特定する例を説明する図である。

【図26】設定画面の一例を説明する図である。

【図27】ウェブ会議への参加の形態の受付に使用する画面例を説明する図である。

【図28】受付画面に対するユーザの操作を受け付けた場合におけるサーバのリモート制御例を説明するフローチャートである。

【図29】参加の形態の表示例を説明する図である。

【図30】ウェブ会議の参加者に複数の集合が含まれる場合の共有画面の表示例を説明する図である。

【発明を実施するための形態】

【0009】

以下、図面を参照して、本発明の実施の形態を説明する。
＜システム構成＞
図１は、ウェブ会議システム１の構成例を示す図である。
図１に示すウェブ会議システム１は、ウェブ会議のサービスを提供する会議サーバ（以下「サーバ」という。）１０と、ウェブ会議に参加する各ユーザに紐づけられたユーザ端末２０と、複数人のユーザが共用するスピーカーフォン３０と、これらを接続するネットワークＮとで構成されている。

【0010】

「ウェブ会議」は、ネットワーク上での通信を通じて実現される会議をいう。参加者に対する映像、音声その他のデータの配信には、ストリーミング技術が使用される。事前に招待メールを受け取った又は認証された特定のユーザだけにウェブ会議への参加が許される。
「共用」は、複数人が１つの機器を共同で使用することをいう。本実施の形態では、共用する機器としてスピーカーフォン３０を想定する。

【0011】

図１に示すウェブ会議には、「Ａさん」、「Ｂさん」、「Ｃさん」、「Ｄさん」の４人が参加している。言うまでもなく、参加者の人数等は一例である。
図１の場合、「Ａさん」は、自宅等から一人でウェブ会議に参加している。「Ｂさん」、「Ｃさん」、「Ｄさん」の３人は、会社等の会議室に集まってウェブ会議に参加している。図１では、スピーカーフォン３０を共用する「Ｂさん」、「Ｃさん」、「Ｄさん」の集まりを集合＃１と表記している。

【0012】

図１の場合、「Ｂさん」、「Ｃさん」、「Ｄさん」の声は、スピーカーフォン３０で集音され、スピーカーフォン３０が接続された「Ｂさん」のユーザ端末２０及びサーバ１０を経て、「Ａさん」のユーザ端末２０に配信される。
一方、「Ａさん」の声は、「Ａさん」のユーザ端末２０に設けられているマイクで集音され、サーバ１０を経てスピーカーフォン３０に配信される。
なお、広義には、「Ａさん」は、構成人数が一人の集合とみなすことも可能である。ただし、「Ａさん」とマイクは１対１であり、１つのマイクを他のユーザと共用していない。
このため、本実施の形態では、マイクが複数人で共用される場合と、１人によってマイクが専用される場合とを区別する目的で「集合」との表現を使用する。

【0013】

図１では、「Ａさん」が居る空間と「Ｂさん」、「Ｃさん」、「Ｄさん」が居る空間が物理的に異なる場合を表しているが、「Ａさん」、「Ｂさん」、「Ｃさん」、「Ｄさん」の４人全員が同じ空間に居てもよい。この場合、「Ａさん」の音声だけが「Ａさん」用のマイクで集音され、「Ｂさん」、「Ｃさん」、「Ｄさん」の音声はスピーカーフォン３０で集音されるのであれば、「Ａさん」、「Ｂさん」、「Ｃさん」、「Ｄさん」が同じ空間に居てもよい。
ネットワークＮは、インターネットやＬＡＮ（＝Local Area Network）を想定する。また、ネットワークＮの一部は、５Ｇその他の移動体通信システムでもよい。言うまでもなく、ネットワークＮは、有線ネットワークでも無線ネットワークでもよい。

【0014】

＜各端末の構成＞
＜サーバの構成＞
図２は、サーバ１０のハードウェア構成の一例を示す図である。
サーバ１０は、ウェブ会議の参加者が使用するユーザ端末２０（図１参照）と接続される端末であり、ウェブ会議の実現に必要な設定や通信を実現する。サーバ１０は、オンプレミス型でもクラウド型でもよい。
図２に示すサーバ１０は、プロセッサ１１と、ＢＩＯＳ（＝Basic Input Output System）等が記憶されたＲＯＭ（＝Read Only Memory）１２と、プロセッサ１１のワークエリアとして用いられるＲＡＭ（＝Random Access Memory）１３と、補助記憶装置１４と、通信インタフェース１５と、を有している。各デバイスは、バスその他の信号線１６を通じて接続されている。

【0015】

プロセッサ１１は、プログラムの実行を通じて各種の機能を実現するデバイスである。
プロセッサ１１、ＲＯＭ１２、ＲＡＭ１３は、コンピュータとして機能する。
補助記憶装置１４は、例えばハードディスク装置や半導体ストレージで構成される。補助記憶装置１４には、プログラムや各種のデータが記憶される。ここでのプログラムは、ＯＳ（＝Operating System）やアプリケーションプログラムの総称として使用する。アプリケーションプログラムの１つにウェブ会議に関するプログラムがある。
本実施の形態では、補助記憶装置１４がサーバ１０に内蔵されているが、サーバ１０に対して外付けされてもよいし、ネットワークＮ（図１参照）上に存在してもよい。

【0016】

通信インタフェース１５は、ネットワークＮを通じてユーザ端末２０（図１参照）と通信するためのインタフェースである。通信インタフェース１５は、各種の通信規格に対応する。ここでの通信規格には、例えばイーサネット（登録商標）、Ｗｉ－Ｆｉ（登録商標）、移動体通信システムがある。

【0017】

図３は、プロセッサ１１により実現される機能構成の一例を示す図である。図３に示す機能部は、プロセッサ１１によるプログラムの実行を通じて実現される。
図３に示す機能部は、オンライン接続管理部１１１と、集合特定部１１２と、音声情報受信部１１３と、音声情報配信部１１４と、音量情報受信部１１５と、話者特定部１１６と、情報提供部１１７と、マイク感度キャリブレーション部１１８と、音声異常通知部１１９と、設定支援部１２０と、音声／文字変換部１２１と、会話履歴記録部１２２である。

【0018】

オンライン接続管理部１１１は、ウェブ会議に参加するユーザとの接続を管理する機能部である。例えばウェブ会議のために用意されたＵＲＬ（＝Uniform Resource Locator）への接続を受け付けた場合、オンライン接続管理部１１１は、接続元であるユーザ端末２０に対応するユーザの「入室」を記録する。また、接続の切断を検出した場合、オンライン接続管理部１１１は、ユーザ端末２０に対応するユーザの「退室」を記録する。ここでの「入室」と「退出」は、例えば補助記憶装置１４（図２参照）に記憶される。
ウェブ会議への参加を開始する画面では、後述する「音量情報」を送信するモードの設定も受け付ける。

【0019】

なお、「音量情報」を送信するモードに設定するボタンは、後述する「音声情報」を送信するモードの設定がオフの場合にのみ表示されるようにしてもよい。少なくとも「音声情報」が設定される場合には、「音量情報」を送信しなくても話者の特定が可能なためである。
また、「音声情報」を送信するモードの設定がオンの場合、「音量情報」を送信するモードに設定するボタンの操作を受け付けない態様で表示してもよい。
また、「音量情報」を送信するモードに設定するボタンは、スピーカーフォン３０を他のユーザと共用するモードが選択された場合にのみ画面上に表示してもよい。

【0020】

集合特定部１１２は、スピーカーフォン３０（図１参照）を共用するユーザの集合を特定する機能部である。集合特定部１１２は、入室したユーザに対応するユーザ端末２０のＩＰアドレス等を参照して、ユーザが属する集合を特定する。ＩＰアドレス等は、参加者テーブル１４１（図４参照）に記録されている。
図４は、ウェブ会議室に入室したユーザの情報を記録する参加者テーブル１４１のデータ構成の一例を説明する図である。参加者テーブル１４１は、ウェブ会議毎に用意される。
参加者テーブル１４１は、ユーザＩＤ１４１Ａと、ユーザ名１４１Ｂと、ＩＰアドレス１４１Ｃと、マイクモード１４１Ｄと、集合ＩＤ１４１Ｅ等で構成される。

【0021】

ユーザＩＤ１４１Ａは、ウェブ会議に参加するユーザＡ、Ｂ、Ｃ、Ｄの識別に使用される。
ユーザ名１４１Ｂは、ウェブ会議に参加するユーザへの提示に使用される。ユーザ名１４１Ｂは、オンライン接続の際にユーザにより登録される。
ＩＰアドレス１４１Ｃは、サーバ１０に接続したユーザ端末２０のＩＰアドレスである。ここでのＩＰアドレスは、グローバルＩＰアドレスを想定する。もっとも、ウェブ会議システム１が同じＬＡＮ上で構築される場合には、プライベートＩＰアドレスが登録される。ＩＰアドレスは、ネットワーク上の位置を表す情報の一例である。

【0022】

マイクモード１４１Ｄは、ウェブ会議に使用するユーザ端末２０におけるマイクの動作モードである。詳細については後述するが、マイクで集音された音をアップロードする「音声入力」モードと、マイクで集音された音のレベル（すなわち音量）をアップロードする「音量入力」モードがある。
例えば集合特定部１１２（図３参照）は、「音量入力」モードに設定されたユーザ端末２０（図１参照）のユーザをいずれかの集合に紐づける。換言すると、集合特定部１１２「音量入力」モードに設定されたユーザ端末２０のユーザを、「音声入力」モードに設定されたユーザ端末２０のいずれかのユーザに紐づける。

【0023】

集合ＩＤ１４１Ｅは、集合特定部１１２（図２参照）による特定の結果が記録される。本実施の形態の場合、グローバルＩＰアドレスが共通のユーザは同じ集合に属すると特定される。図４では、ユーザＩＤ１４１Ａの「０００２」～「０００４」の３名に対して集合＃１が記録されている。
なお、ＩＰアドレスがプライベートＩＰアドレスの場合には、参加者による申告や問い合わせに画面に対する入力に基づいて、集合に属する参加者を特定してもよい。
本実施の形態の場合、集合は、音声入力モードで動作する１台のユーザ端末２０と、音量入力モードで動作する１又は複数台のユーザ端末２０とで構成される。

【0024】

図３の説明に戻る。
音声情報受信部１１３は、「音声入力」モードに設定されたユーザ端末２０から音声情報を受信する機能部である。本実施の形態では、音声情報として、例えばユーザ端末２０に内蔵されたマイクやスピーカーフォン３０によって集音された音の符号化データを想定する。なお、同一の話者に関連する符号化データは音声ファイルとして補助記憶装置１４（図２参照）に記録される。
音声情報配信部１１４は、受信した音声情報を送信元以外のユーザに配信する機能部である。本実施の形態における音声情報配信部１１４は、「音声入力」モードで動作するユーザ端末２０を配信先とする。
音量情報受信部１１５は、「音量入力」モードに設定されたユーザ端末２０から音量情報を受信する機能部である。本実施の形態では、音量情報として、例えば音のレベル（すなわち音量）を表す数値を想定する。

【0025】

話者特定部１１６は、ウェブ会議で発言したユーザ（すなわち話者）を特定する機能部である。
例えば話者特定部１１６は、集合に属さないユーザ端末２０から音声情報を受信した場合、該当するユーザを話者として特定する。図１の例であれば、音声情報が「Ａさん」に対応するユーザ端末２０から受信された場合、話者として「Ａさん」が特定される。
また、話者特定部１１６は、集合に属するユーザ端末２０からの音声情報の入力中に、スピーカーフォン３０と接続されていないユーザ端末２０から基準値以上の音量情報が受信された場合、音量情報の送信元に対応するユーザ端末２０のユーザを話者として特定する。図１の例であれば、音量情報が「Ｃさん」に対応するユーザ端末２０から受信された場合、話者として「Ｃさん」が特定される。

【0026】

なお、集合からの音声情報の入力中に、同じ集合に属するユーザ端末２０から音量情報が受信される場合、話者特定部１１６は、最も大きい音量情報を送信したユーザ端末２０に対応するユーザを話者として特定する。例えば「Ｃさん」の音量情報がレベル４であり、「Ｄさん」の音量情報がレベル２の場合、話者特定部１１６は、「Ｃさん」を話者として特定する。
また、集合から音声情報の入力中に、同じ集合に属するユーザ端末２０から基準値以上の音量情報が入力されない場合、話者特定部１１６は、音声情報を送信したユーザ端末２０に紐付けられているユーザを話者として特定する。図１の例であれば、音声情報が「Ｂさん」に対応するユーザ端末２０から受信される場合に、「Ｃさん」等に対応するユーザ端末２０から音量情報が受信されていないとき、話者として「Ｂさん」が特定される。

【0027】

この他、話者特定部１１６は、ユーザを撮像した画像の解析を通じ、話者を推定する機能を有してもよい。ここでの話者の推定は、対象とするユーザ端末２０で撮像された画像の利用が可能であるときに実行が可能である。
画像の解析では、例えばユーザの表情に基づいて発話の可能性が推定される。表情には、口元の動きだけでなく、身振りや顔全体の動きも含まれる。

【0028】

なお、この機能による話者の特定は、ユーザがユーザ端末２０の設定画面でカメラをオンに設定している場合に限ってもよい。
もっとも、この機能による話者の特定は、ユーザがユーザ端末２０の設定画面でカメラをオフに設定した場合にも実行可能としてもよい。この場合、ウェブ会議に参加している他のユーザとの間で対象ユーザの画像は共有されないが、サーバ１０には画像が届いているので、画像の解析による話者の特定が実現される。もっとも、この話者の特定を可能にするには、ウェブ会議に参加するユーザから同意を必要とする。

【0029】

情報提供部１１７は、ウェブ会議に関する各種の情報をウェブ会議に参加する各ユーザが使用するユーザ端末２０に提供する機能部である。情報の提供は、各ユーザ端末２０に表示される画面（以下「共有画面」という。）を通じて実現される。なお、共有画面は、ストリーミング形式で配信される。
提供される情報の１つには、ウェブ会議に参加しているユーザの情報がある。この情報の提供を通じ、ウェブ会議に入室している各ユーザは、入室している他のユーザの情報を知ることが可能になる。
なお、情報提供部１１７は、集合に属するユーザの情報を、集合に属さない他のユーザとは異なる態様で表示する。例えば集合に属するユーザにはマークや記号を付けるが、集合に属さない他のユーザにはマーク等を付けない。また例えば集合に属するユーザは枠で囲んで表示する。当然ではあるが、集合に属さないユーザは枠の外に表示される。

【0030】

また、ウェブ会議内に集合が複数含まれる場合、情報提供部１１７は、集合の違いを共有画面に表示する。この機能により、各ユーザは、他のユーザの参加の形態を容易に理解することが可能になる。
また、情報提供部１１７は、話者に特定されたユーザが集合に属する場合、話者に特定されたユーザが集合に属さない場合とは異なる態様で表示する。例えば話者であることを示す記号、輝度、色、枠の種類、太さ、形状の１つ又は複数を変化させる。
もっとも、集合に属する場合と集合に属さない場合とで同じ表示の態様を採用することも可能である。

【0031】

マイク感度キャリブレーション部１１８は、同じ集合に属するユーザのユーザ端末２０間でマイク感度を揃える機能部である。
前述したように、話者特定部１１６は、同じ集合に属するユーザ端末２０から複数の音量情報が受信される場合、最も大きい音量情報を送信したユーザ端末２０に対応するユーザを話者として特定する。
このため、ユーザ端末２０のマイク感度が異なると、話者特定部１１６による話者の特定が誤る可能性がある。例えば感度が低いマイクの場合、ユーザが大きな声で発言しても音量情報の数値は実際の音量よりも小さくなる。一方、感度が高いマイクの場合、ユーザが小さい声で発言しても音量情報の数値は実際の音量よりも大きくなる。結果的に、大きな声で発言したユーザではなく、小さい声で発言したユーザが話者と特定される可能性が生じる。

【0032】

そこで、マイク感度キャリブレーション部１１８は、例えばウェブ会議が開始される前又はウェブ会議の初期の段階で、各ユーザ端末２０からマイクの選択や感度の設定に関する情報を収集し、送信される音量情報のキャリブレーションを実行する。
例えばマイク感度キャリブレーション部１１８は、同じ集合に属するユーザ端末２０のうち音量入力モードに設定された複数のユーザ端末が選択するマイクの種類が異なる場合、同じマイクの選択を対象とするユーザ端末２０に指示する。
また、マイク感度キャリブレーション部１１８は、マイクの感度の設定が異なる場合、同じ感度になるように対象となるユーザ端末２０に指示する。

【0033】

音声異常通知部１１９は、音声情報や音量情報に基づいて検知された異常をユーザ端末２０に通知する機能部である。
例えば集合に属するユーザのユーザ端末から音量情報の受信又は入力が検出されるが、同じ集合からの音声情報の受信又は入力が検出されない場合、集合に属するユーザに宛てて音声が検出されていない旨を通知する。もっとも、通知の宛先は、話者の可能性が高いユーザのみとしてもよい。

【0034】

通知が必要になる場合には、例えばスピーカーフォン３０の電源がオフになっている場合、スピーカーフォン３０と音声入力モードのユーザ端末２０との通信に問題がある場合、音量入力モードで参加しているユーザとスピーカーフォン３０との距離が遠く音声を拾えていない場合がある。なお、通信の問題には、ケーブルの接続忘れ、ケーブルの断線、ペアリング不良等がある。
なお、ユーザ端末２０に搭載された又は接続されたカメラによって撮像された画像の解析により話者が特定された場合に、話者に対応するユーザ端末２０から音量情報が受信又は入力されないとき、音声異常通知部１１９は、対象とするユーザに宛てて、ユーザ端末２０に内蔵されている又は接続されているマイクの故障の可能性を通知してもよい。

【0035】

設定支援部１２０は、集合に属するユーザに対応するユーザ端末２０のうち、音声入力の設定がオンに設定されているユーザ端末２０以外のユーザ端末２０に対し、音声入力モードをオフに設定する指示と、音量入力モードをオンに設定する指示を送信する機能部である。スピーカーフォン３０を接続していないユーザが誤って音声入力モードをオンに設定した場合にも、正しい設定に変更することが可能になる。これにより、ハウリングの発生を未然に防止できる。
音声／文字変換部１２１は、音声ファイルに含まれる音声を文字に変換する機能部である。本実施の形態の場合、サーバ１０で実行しているが、他のサーバとの連携により文字への変換を実現してもよい。

【0036】

会話履歴記録部１２２は、ユーザ端末２０に対応するユーザの情報を、音声に関連付けて記録する機能部である。いわゆる議事録の作成機能である。
図５は、会話履歴テーブル１４２のデータ構成の一例を説明する図である。会話履歴テーブル１４２は、ウェブ会議毎に記録される。
会話履歴テーブル１４２は、開始時刻１４２Ａ、終了時刻１４２Ｂ、ファイルＩＤ１４２Ｃ、ファイル名１４２Ｄ、話者ＩＤ１４２Ｅ、テキスト１４２Ｆ等で構成される。
開始時刻１４２Ａは、音声情報の受信を開始した時刻である。話者が特定されない場合にも、音声情報を受信した時刻は記録される。
終了時刻１４２Ｂは、音声情報の受信が終了した時刻である。

【0037】

ファイルＩＤ１４２Ｃは、音声ファイルを識別する情報である。このファイルＩＤ１４２Ｃを通じ、補助記憶装置１４（図２参照）に記録されている音声ファイルとの紐づけが可能になる。
ファイル名１４２Ｄは、ファイルＩＤ１４２Ｃに紐づけられている音声ファイルのファイル名である。
話者ＩＤ１４２Ｅは、話者として特定されたユーザのＩＤである。なお、話者として特定されたユーザの名前を記録してもよい。
テキスト１４２Ｆは、音声ファイルから変換された文字列である。

【0038】

図６は、ウェブ会議について作成された会話履歴１２２０の一例を説明する図である。なお、図６に示す会話履歴１２２０は、ユーザ端末２０（図１参照）で閲覧される場合を想定している。
会話履歴１２２０は、会議名１２２１と、開始日時１２２２と、終了日時１２２３と、発話内容１２２４と、再生ボタン１２２５を有している。
図６の場合、会議名１２２１は「会議Ａ」である。また、開始日時１２２２と終了日時１２２３には、会議Ａが、２０２２年５月３１日の１０時から１１時まで開かれたことが記録されている。
また、発話内容１２２４には、発言者とテキストの内容が時系列に記録されている。
なお、再生ボタン１２２５は、音声ファイルの再生のために配置されている。再生ボタン１２２５の操作があると、対応する音声ファイルが再生される。

【0039】

＜ユーザ端末の構成＞
図７は、ユーザ端末２０のハードウェア構成の一例を示す図である。
図７に示すユーザ端末２０は、プロセッサ２１と、ＢＩＯＳ等が記憶されたＲＯＭ２２と、プロセッサ２１のワークエリアとして用いられるＲＡＭ２３と、補助記憶装置２４と、ディスプレイ２５と、カメラ２６と、マイク２７と、スピーカー２８と、通信インタフェース２９と、を有している。各デバイスは、バスその他の信号線２９Ａを通じて接続されている。

【0040】

プロセッサ２１は、プログラムの実行を通じて各種の機能を実現するデバイスである。
プロセッサ２１、ＲＯＭ２２、ＲＡＭ２３は、コンピュータとして機能する。
補助記憶装置２４は、例えばハードディスク装置や半導体ストレージで構成される。補助記憶装置２４には、プログラムや関する各種のデータが記憶される。ここでのプログラムには、ＯＳやアプリケーションプログラムが含まれる。アプリケーションプログラムの１つがウェブ会議に関するプログラムである。
ディスプレイ２５は、例えば液晶ディスプレイや有機ＥＬ（＝ElectroLuminescent）ディスプレイである。

【0041】

カメラ２６は、例えばディスプレイ２５の周囲に配置され、又は、取り付けられる。本実施の形態の場合、カメラ２６は、ユーザの撮像に使用される。
マイク２７は、音を電気信号の形式に変換する音響機器である。
スピーカー２８は、音を表現した電気信号を音に変換しする音響機器である。
通信インタフェース２９は、ネットワークＮを通じてサーバ１０（図１参照）と通信するためのインタフェースである。通信インタフェース２９は、各種の通信規格に対応する。

【0042】

図８は、プロセッサ２１により実現される機能構成の一例を示す図である。図８に示す機能部は、プロセッサ２１（図７参照）によるプログラムの実行を通じて実現される。
図８に示す機能部は、オンライン接続部２１１と、マイク感度設定部２１２と、マイクモード設定部２１３と、音声入力受付部２１４と、音声情報送信部２１５と、音量数値化部２１６と、音量判定部２１７と、音量情報送信２１８と、音声情報受信部２１９と、音声情報再生部２２０とである。

【0043】

オンライン接続部２１１は、ウェブ会議について発行されたＵＲＬに接続する処理を実行する機能部である。ここでのＵＲＬは、電子メールやショートメッセージ等を通じて取得される他、ブラウザ画面に表示される会議室の選択を通じて取得が可能である。
マイク感度設定部２１２は、ユーザによる操作又はサーバ１０（図１参照）からの指示に基づき、マイク２７（図７参照）から出力される電気信号の最大振幅を設定する機能部である。
マイクモード設定部２１３は、マイク２７から出力される電気信号の扱いを決定する機能部である。換言すると、ユーザ端末２０の動作モードを設定する機能部である。

【0044】

本実施の形態の場合、マイクモードは、「音声入力」モードと「音量入力」モードの２種類である。
図９は、「音声入力」モードと「音量入力」モードの違いを説明する図である。
「音声入力」モードの場合、ユーザ端末２０は、音声の入出力が許可されるが、音量の出力は不可である。ここで、音声の入出力が許可されるとは、マイク２７又はスピーカーフォン３０（図１参照）で集音された音が音声情報Ｘとしてサーバ１０にアップロードされるとともに、サーバ１０から受信した音声情報Ｘがスピーカー２８（図７参照）又はスピーカーフォン３０から音として出力されることを意味する。

【0045】

「音量入力」モードの場合、ユーザ端末２０は、音量の出力が許可されるが、音声の入出力は不可である。ここで音量の出力が許可されるとは、マイク２７で集音された音の音量が音量情報Ｙとしてサーバ１０にアップロードされることを意味する。
なお、マイクモードの設定は、ディスプレイ２５に表示される操作画面上でマイクボリュームの調整による方法やモードの選択ボタンの操作による方法がある。
例えばマイクボリュームを「０」に設定すると、「音量入力」モードに設定してもよい。なお、「音量入力」モードの選択ボタンは、マイクボリュームが「０」に設定されると画面上に表示される設定としてもよい。

【0046】

音声入力受付部２１４は、マイク２７で集音された音に対応する電気信号を受け付ける機能部である。
音声情報送信部２１５は、マイク２７から入力した電気信号を符号化した符号化データを音声情報Ｘとしてサーバ１０にアップロードする機能部である。
音量数値化部２１６は、マイク２７で集音された音の大きさを数値化する機能部である。
音量判定部２１７は、音の数値と基準値ＲＥＦとを比較する機能部である。本実施の形態の場合、基準値ＲＥＦとの比較により、自端末を操作するユーザの発話と環境音とを区別する。環境音には、他のユーザ端末２０に対応する他のユーザの音声や周囲の音が含まれる。

【0047】

音量情報送信２１８は、基準値ＲＥＦを超える大きさの音が検出された場合、対応するユーザの発話を表す音量情報Ｙをサーバ１０にアップロードする機能部である。
音声情報受信部２１９は、サーバ１０から音声情報Ｘを受信する機能部である。
音声情報再生部２２０は、サーバ１０から受信した音声情報Ｘをスピーカー２８又はスピーカーフォン３０から再生する機能部である。

【0048】

＜スピーカーフォンの構成＞
図１０は、スピーカーフォン３０のハードウェア構成の一例を示す図である。
図１０に示すスピーカーフォン３０は、プロセッサ３１と、ＢＩＯＳやファームウェア等が記憶されたＲＯＭ３２と、プロセッサ３１のワークエリアとして用いられるＲＡＭ３３と、マイク３４と、スピーカー３５と、通信インタフェース３６と、ＬＥＤ（＝Light Emitting Diode）３７と、スイッチ３８と、を有している。各デバイスは、バスその他の信号線３９を通じて接続されている。

【0049】

プロセッサ３１は、ファームウェア等のプログラムの実行を通じて音の符号化や音声情報の復号化等を実行するデバイスである。なお、音の符号化や音声情報Ｘの復号化は、ＡＳＩＣ（＝Application Specific Integrated Circuit）により実現してもよい。
プロセッサ３１、ＲＯＭ３２、ＲＡＭ３３は、コンピュータとして機能する。
マイク３４は、音を電気信号の形式に変換する音響機器である。
スピーカー３５は、音を表現した電気信号を音に変換する音響機器である。
通信インタフェース３６は、接続されたユーザ端末２０（図１参照）と通信するためのインタフェースである。通信インタフェース３６は、各種の通信規格に対応する。
ＬＥＤ３７は、動作の状態をユーザに通知する発光素子である。
スイッチ３８は、電源のオン又はオフのためのスイッチ等である。

【0050】

＜話者の特定処理＞
図１１は、サーバ１０とユーザ端末２０との協働による話者の特定処理を説明するシーケンス図である。なお、図１１に示すシーケンス図は、処理動作の一例である。また、図１１における記号のＳはステップを意味する。
ここでも、ウェブ会議への参加者は、Ａさん、Ｂさん、Ｃさん、Ｄさんの４名とする。また、各参加者による参加の形態は、図１に示した通りとする。なお、Ａさん、Ｂさん、Ｃさん、Ｄさんを区別しない場合には「ユーザ」という。

【0051】

すなわち、Ａさんは自宅等から参加し、Ｂさん、Ｃさん、Ｄさんは会社等の会議室に集まって参加する。また、Ｂさん、Ｃさん、Ｄさんは、スピーカーフォン３０（図１参照）を使用して会議に参加する。なお、スピーカーフォン３０（図１参照）は、Ｂさんのユーザ端末２０に接続されている。
なお、紙面の都合により、図１１では、Ａさんのユーザ端末２０とＢさんのユーザ端末２０を同じ時間軸に対応付け、Ｃさんのユーザ端末２０とＤさんのユーザ端末２０を同じ時間軸に対応付ける。

【0052】

まず、各ユーザは、カメラやマイクの設定後にサーバ１０が管理するウェブ会議のＵＲＬにアクセスする。
図１２は、設定画面の一例を説明する図である。図１２には、マイク２７（図７参照）の設定状態が異なる２つの設定画面２５１、２５２を表している。
設定画面２５１は、マイク２７の設定がオンの画面例であり、設定画面２５２は、マイク２７の設定がオフの画面例である。
ここでの設定画面２５１は、前述した「音声入力」モードに対応し、設定画面２５２は、「音量入力」モードに対応する。

【0053】

設定画面２５１、２５２の上部には、説明文２５１Ａ、２５２Ａが配置されている。図１２の場合、いずれも「ビデオと音声のオプションを選択してください」と表示されている。
カメラ設定欄２５１Ｂ、２５２Ｂでは、カメラ２６（図７参照）で撮像された画像を他の参加者に配信可能とするか否かの設定が可能である。図１２の場合、「カメラはオフになっています」と表示されている。ただし、本実施の形態では、カメラ設定欄２５１Ｂ、２５２Ｂの設定がオフの場合でも、カメラ２６による画像の撮像まではオフにならず、撮像された画像はサーバ１０にアップロードされる。

【0054】

マイク設定欄２５１Ｃ、２５２Ｃでは、マイク２７で集音された音を他の参加者に配信可能とするか否かの設定が可能である。
設定画面２５１では、マイクのオン／オフの切り替えに使用するスイッチ２５１Ｃ１がオンの位置にある。このため、音量の調整に使用するスライダー２５１Ｃ２は、操作の受付が可能な状態で表示される。この音量の調整は、マイク感度の調整に相当する。

【0055】

設定画面２５２では、マイク２７のオン／オフの切り替えに使用するスイッチ２５２Ｃ１がオフの位置にある。このため、音量の調整に使用するスライダー２５２Ｃ２は、操作が無効な状態で表示される。
この他、スライダー２５２Ｃ２の右隣には「音量入力」モードの設定ボタン２５２Ｃ３が表示されている。図１２の場合、設定ボタン２５２Ｃ３には「音量モード」のラベルが付されている。また、設定ボタン２５２Ｃ３の設定はオンである。
「音量入力」モードの設定がオンの場合、内蔵又は接続されたマイク２７で集音された音の音量を表す音量情報Ｙがサーバ１０（図１参照）に送信される。前述したように、本実施の形態では、音量が基準値ＲＥＦを超える場合に限り、音量情報Ｙのサーバ１０へのアップロードが実行される。

【0056】

因みに、「音量入力」モードの設定がオフの場合、音量情報Ｙのサーバ１０へのアップロードも停止される。
設定画面２５１、２５２の下部には、「キャンセル」ボタン２５１Ｄ、２５２Ｄと、「今すぐ参加」ボタン２５１Ｅ、２５２Ｅが配置されている。「キャンセル」ボタン２５１Ｄ、２５２Ｄが操作された場合、カメラ設定欄２５１Ｂ、２５２Ｂに対する設定とマイク設定欄２５１Ｃ、２５２Ｃに対する設定がキャンセルされる。「今すぐ参加」ボタン２５１Ｅ、２５２Ｅが操作された場合、各設定を有効としてウェブ会議への参加がサーバ１０に通知される。

【0057】

図１３は、会議室に集合してウェブ会議に参加するＢさん、Ｃさん、Ｄさんの設定画面を説明する図である。
Ｂさんのユーザ端末２０には、スピーカーフォン３０が接続されている。このため、Ｂさんのユーザ端末２０は、スピーカーフォン３０から入力される音声をストリーミング形式でサーバ１０にアップロードする必要がある。このため、Ｂさんのユーザ端末２０では、マイク設定欄２５１Ｃのスイッチ２５１Ｃ１がオンに設定されている。
一方、ＣさんとＤさんは、スピーカーフォン３０を通じて、自身の音声をサーバ１０にアップロードする。このため、対応するユーザ端末２０では、マイク設定欄２５１Ｃのスイッチ２５２Ｃ１がオフに設定されている。

【0058】

図１１の説明に戻る。
本実施の形態の場合、ＡさんとＢさんは、ユーザ端末２０を「音声入力」モードに設定し、参加を申請する（ステップ１）。また、ＣさんとＤさんは、ユーザ端末２０を「音量入力」モードに設定し、参加を申請する（ステップ２）。
申請を受け付けたサーバ１０は、対応するユーザ端末２０との接続を開始する（ステップ３）。続いて、サーバ１０は、参加者の情報を含む共有画面を参加者全員に通知する（ステップ４）。

【0059】

図１４は、参加を受け付けた段階における共有画面２５３の表示例を説明する図である。図１４には、図１との対応部分に対応する符号を付して示している。図１４に示す共有画面２５３には、Ａさん、Ｂさん、Ｃさん、Ｄさんの参加が確認される。
共有画面２５３には、集合としての参加か否かは表示されない。
図１１の説明に戻る。
続いて、サーバ１０は、各ユーザのマイクモードを取得する（ステップ５）。この例の場合、ＡさんとＢさんのマイクモードは「音声入力」モードであり、ＣさんとＤさんのマイクモードは「音量入力」モードである。

【0060】

さらに、サーバ１０は、ユーザが参加する集合を特定する（ステップ６）。集合の特定には、例えばユーザ端末２０のＩＰアドレス等を使用する。本実施の形態では、Ｂさん、Ｃさん、Ｄさんが同じ集合に属すると特定される。
集合が特定されると、集合に属する話者の特定が可能になる。
Ａさん又は集合内の誰かが発言した場合、「音声入力」モードのユーザ端末２０は、音声情報Ｘを取得し（ステップ７）、取得した音声情報Ｘをサーバ１０にアップロードする（ステップ８）。仮にＣさんが発話した場合にも、Ｂさんのユーザ端末２０が音声情報Ｘをサーバ１０にアップロードする。
なお、Ａさん又はＢさんが発話した場合、後述するステップ９～１１は実行されない。

【0061】

集合内のＣさん又はＤさんが発話した場合、対応するユーザ端末２０では、音量を取得する（ステップ９）。次に、対応するユーザ端末２０は、取得された音量が基準値ＲＥＦより大きいか否かを判定する（ステップ１０）。
音量が基準値ＲＥＦ以下の場合には、発言ではない可能性が高いのでステップ９で否定結果が得られる。この場合、ユーザ端末２０は、ステップ９に戻る。
一方、音量が基準値ＲＥＦより大きい場合、ステップ１０で肯定結果が得られる。この場合、ユーザ端末２０は、音量情報Ｙをサーバ１０にアップロードする（ステップ１１）。

【0062】

サーバ１０は、音声情報Ｘ、又は、音声情報Ｘと音量情報Ｙを受信する（ステップ１２）。因みに、音声情報Ｘのアップロード元は、Ａさん又はＢさんに対応するユーザ端末２０に限られ、音量情報Ｙのアップロード元は、Ｃさん又はＤさんに対応するユーザ端末２０に限られる。
Ａさん又はＢさんが話者の場合、サーバ１０は、音声情報Ｘのみを受信する。一方、Ｃさん又はＤさんが話者の場合、サーバ１０は、音声情報Ｘに加え、音量情報Ｙも受信する。
いずれにしても、サーバ１０は、受信した音声情報Ｘを「音声入力」モードで動作するユーザ端末２０に配信する（ステップ１３）。この配信により、全ユーザ間で、他のユーザの音声の共有が実現される。

【0063】

次に、サーバ１０は、音量情報Ｙを受信したか否かを判定する（ステップ１４）。換言すると、音声情報Ｘと音量情報Ｙの同時受信か否かが判定される。
音声情報Ｘのみの受信であり、音量情報Ｙの受信がない場合、ステップ１４で否定結果が得られる。この場合、サーバ１０は、音声情報Ｘを送信したユーザ端末２０のユーザを話者に特定する（ステップ１５）。
これに対し、音量情報Ｙの受信がある場合、ステップ１４で肯定結果が得られる。この場合、サーバ１０は、音量情報Ｙの最大値に対応するユーザを特定する（ステップ１６）。この処理は、音量情報Ｙのアップロード元が複数の場合にも話者の特定を可能にするために設けられている。
次に、サーバ１０は、特定されたユーザを話者に特定する（ステップ１７）。

【0064】

ステップ１５又はステップ１７において話者が特定されると、サーバ１０は、共有画面の話者の表示を更新して参加者全員に通知する（ステップ１８）。
Ａさん、Ｂさん、Ｃさん、Ｄさんに対応するユーザ端末２０は、通知された共有画面を表示する（ステップ１９）。
なお、サーバ１０は、音声情報と話者とを紐づけた会話履歴を記録する（ステップ２０）。
この後、ウェブ会議が終了するまで、ステップ７～ステップ２０が繰り返される。

【0065】

＜話者の特定例＞
以下では、図１５～図１８を使用してウェブ会議で発言したユーザ、すなわち話者を特定する処理の具体例を説明する。
図１５は、集合に属していないＡさんが発話した場合を説明する図である。図１５には、図１との対応部分に対応する符号を付して示している。
Ａさんは、集合に属していないので、ユーザ端末２０を「音声入力」モードに設定している。このため、Ａさんのユーザ端末２０からサーバ１０には、音声情報Ｘがアップロードされている。
このとき、サーバ１０は、音声情報Ｘのみを受信するのでステップ１４（図１１参照）で否定結果を得、音声情報Ｘのアップロード元であるＡさんを話者に特定する。
このため、サーバ１０は、Ａさんを話者として全てのユーザ端末２０に配信している。
従って、各ユーザ端末２０の共有画面２５３では、Ａさんの位置に話者を示すマークＭが表示されている。

【0066】

図１６は、集合に属するＢさんが発話した場合を説明する図である。図１６にも、図１との対応部分に対応する符号を付して示している。
Ｂさんは、集合に属しているが、自身のユーザ端末２０にスピーカーフォン３０に接続している。このため、自身のユーザ端末２０を「音声入力」モードに設定している。このため、Ｂさんのユーザ端末２０からサーバ１０には、音声情報Ｘがアップロードされている。
このとき、サーバ１０は、音声情報Ｘのみを受信するのでステップ１４（図１１参照）で否定結果を得、音声情報Ｘのアップロード元であるＢさんを話者に特定する。
このため、サーバ１０は、Ｂさんを話者として全てのユーザ端末２０に配信している。
従って、各ユーザ端末２０の共有画面２５３では、Ｂさんの位置に話者を示すマークＭが表示されている。

【0067】

図１７は、集合に属するＣさんが発話した場合を説明する図である。図１７にも、図１５との対応部分に対応する符号を付して示している。
Ｃさんは、集合に属しており、かつ、自身のユーザ端末２０にスピーカーフォン３０が接続されていない。このため、自身のユーザ端末２０を「音量入力」モードに設定している。このため、Ｃさんのユーザ端末２０からサーバ１０には、音量情報Ｙがアップロードされている。なお、Ｃさんの音声に対応する音声情報Ｘは、スピーカーフォン３０からＢさんのユーザ端末２０経由でサーバ１０にアップロードされる。

【0068】

この場合、サーバ１０は、音声情報Ｘと音量情報Ｙの両方を受信するのでステップ１４（図１１参照）で肯定結果を得る。図１７の場合、音量情報Ｙをアップロードしたユーザ端末２０は、Ｃさんに紐づけられている。そこで、サーバ１０は、音量情報Ｙのアップロード元であるＣさんを話者に特定する。
このため、サーバ１０は、Ｃさんを話者として全てのユーザ端末２０に配信している。
従って、各ユーザ端末２０の共有画面２５３では、Ｃさんの位置に話者を示すマークＭ１が表示されている。なお、マークＭ１は、ＡさんやＢさんが話者の場合とは異なっている。その理由は、話者の特定に音量情報Ｙを使用したことを表示するためである。もっとも、Ｃさんが話者であることを、ＡさんやＢさんが話者の場合と同じマークＭを用いて表示することも可能である。

【0069】

図１８は、集合に属するＣさんとＤさんが同時に発話した場合を説明する図である。図１８にも、図１５との対応部分に対応する符号を付して示している。
ＣさんとＤさんは、同じ集合に属しており、かつ、自身のユーザ端末２０にスピーカーフォン３０が接続されていない。このため、ＣさんとＤさんは、共に自身のユーザ端末２０を「音量入力」モードに設定している。このため、Ｃさんのユーザ端末２０とＤさんのユーザ端末２０の両方からサーバ１０に対し、音量情報Ｙがアップロードされている。なお、ＣさんとＤさんの音声に対応する音声情報Ｘは、スピーカーフォン３０からＢさんのユーザ端末２０経由でサーバ１０にアップロードされる。

【0070】

この場合、サーバ１０は、音声情報Ｘと音量情報Ｙの両方を受信するのでステップ１４（図１１参照）で肯定結果を得る。
ところで、図１８の場合、Ｃさんの声がＤさんの声よりも大きい。図１８では、吹き出しの大きさで声の大きさを表現している。
図１８の場合、音量情報Ｙをアップロードしたユーザ端末２０は、ＣさんとＤさんにそれぞれ紐づけられている。しかし、音量情報Ｙの数値は、Ｃさんに対応するユーザ端末２０から入力される方が大きい。
そこで、サーバ１０は、音量情報Ｙのアップロード元であるＣさんを話者に特定する。
このため、サーバ１０は、Ｃさんを話者として全てのユーザ端末２０に配信している。
従って、各ユーザ端末２０の共有画面２５３では、Ｃさんの位置に話者を示すマークＭ１が表示されている。

【0071】

＜他の特定例１＞
ここでは、音声情報Ｘや音量情報Ｙがサーバ１０（図１参照）に対して正常に届かない状況における話者の特定又は推定について説明する。
図１９は、サーバ１０で実行される他の処理動作の一部分を説明する図である。図２０は、サーバ１０で実行される他の処理動作の残りの部分を説明する図である。なお、図１９及び図２０には、図１１との対応部分に対応する符号を付して示している。また、図１１と共通する処理動作の重複的な説明は省略する。

【0072】

図１９の場合、サーバ１０は、ステップ３～ステップ６の実行後にステップ１４を実行する。すなわち、サーバ１０は、ステップ１２とステップ１３を実行しない。
ステップ１４で否定結果が得られた場合、サーバ１０は、音声情報Ｘを受信したか否かを判定する（ステップ２１）。
ステップ２１で否定結果が得られた場合、すなわち音声情報Ｘも音量情報Ｙも受信されていない場合、サーバ１０は、話者なしに設定し（ステップ２２）、ステップ１８、ステップ２０を順番に実行する。具体的には、共有画面の話者の表示を更新して参加者全員に配信し、その後、音声情報Ｘと話者とを紐づけた会話履歴を記録する。

【0073】

これに対し、ステップ２１で肯定結果が得られた場合（すなわち、音声情報Ｘは受信されているが音量情報Ｙを受信していない場合）、サーバ１０は、ステップ１３を実行する。すなわち、受信した音声情報Ｘを「音声入力」モードで動作するユーザ端末２０に配信する。
続いて、サーバ１０は、「音量入力」モードのユーザ端末２０からアップロードされた画像を解析する（ステップ２３）。
次に、サーバ１０は、発話の表情を検知したか否かを判定する（ステップ２４）。発話の表情が検知されない場合、サーバ１０は、ステップ２４で否定結果を得る。この場合、サーバ１０は、ステップ１５、ステップ１８、ステップ２０を順番に実行する。

【0074】

一方、発話の表情が検出された場合、サーバ１０は、ステップ２４で肯定結果を得る。この場合、サーバ１０は、該当するユーザ端末２０にマイクの故障の可能性を通知する（ステップ２５）。
さらに、サーバ１０は、検知されたユーザが一人か否かを判定する（ステップ２６）。
一人であった場合、ステップ２６で肯定結果が得られる。この場合、サーバ１０は、該当するユーザを話者として特定する（ステップ２７）。
複数人であった場合、ステップ２６で否定結果が得られる。この場合、サーバ１０は、口に動きがあった複数のユーザを話者の候補として設定する（ステップ２８）。今回の場合、音量情報Ｙが同じ集合内のいずれのユーザ端末２０から受信されておらず、音量の違いにより話者が一人のユーザに特定し得ないためである。

【0075】

ところで、ステップ１４で肯定結果が得られた場合（すなわち、音量情報Ｙが受信されている場合）、サーバ１０は、音声情報Ｘを受信したか否かを判定する（ステップ２９）。
ステップ２９で肯定結果が得られた場合（すなわち、音声情報Ｘと音量情報Ｙの両方が受信された場合）、サーバ１０は、ステップ１３、ステップ１６、ステップ１７を順番に実行し、その後、ステップ１８に移行する。
一方、ステップ２９で否定結果が得られた場合（すなわち、音量情報Ｙは受信されているが、音声情報Ｘは受信されていない場合）、サーバ１０は、音量情報Ｙの送信元であるユーザと同じ集合に属する「音声入力」モードのユーザ端末２０に音声情報Ｘの未検知を通知する（ステップ３０）。

【0076】

音声情報Ｘが受信されない原因は様々であるが、例えばスピーカーフォン３０（図１参照）の電源がオフになっている場合、スピーカーフォン３０とユーザ端末２０との通信に問題がある場合、話者であるユーザとスピーカーフォン３０との距離が遠すぎる場合がある。
この通知の後、サーバ１０は、ステップ２７に移行して話者又は話者の候補を特定する。
以下では、図面を用いて具体例を説明する。

【0077】

図２１は、集合に属していないＣさんが発話した場合の他の例を説明する図である。図２１には、図１７との対応部分に対応する符号を付して示している。
図２１の場合、話者であるＣさんのユーザ端末２０からサーバ１０に対し、音量情報Ｙがアップロードされていない。
しかし、Ｃさんのユーザ端末２０からは、カメラ２６（図７参照）で撮像された画像がサーバ１０に対してアップロードされている。
図２１の場合には、アップロードされた画像の解析からＣさんの口の動きが検出されている。
その結果、サーバ１０は、Ｃさんを話者として全てのユーザ端末２０に配信する一方、音量情報Ｙがアップロードされない原因としてマイクの故障を推定する。

【0078】

このため、Ｃさんのユーザ端末２０には、共有画面２５３のＣさんの位置に話者を示すマークＭ１が表示されるとともに、注意文２５３Ａが表示されている。図２１の場合、注意文２５３Ａとして「内蔵マイクが故障している可能性があります。」、「音量を取得できません。」が表示されている。
なお、図２１の場合、Ａさん、Ｂさん、Ｄさんのユーザ端末２０には、共有画面２５３のＣさんの位置に話者を示すマークＭ１のみが表示される。
もっとも、同じ集合に属するＢさんとＤさんには、Ｃさんに対応するユーザ端末２０の不調を表示してもよい。

【0079】

図２２は、集合に属していないＣさんとＤさんが同時に発話した場合の他の例を説明する図である。図２２には、図２１との対応部分に対応する符号を付して示している。
図２２では、話者であるＣさんのユーザ端末２０とＤさんのユーザ端末２０の両方からサーバ１０に対し、音量情報Ｙがアップロードされていない。
しかし、Ｃさんのユーザ端末２０とＤさんのユーザ端末２０のそれぞれからは、カメラ２６（図７参照）で撮像された画像がサーバ１０に対してアップロードされている。
図２２の場合には、アップロードされた画像の解析からＣさんとＤさんの両方について口の動きが検出されている。

【0080】

この場合、サーバ１０には、Ｃさんの発話の音量とＤさんの発話の音量の違いが分からない。このため、話者が一人に特定されない。
そこで、Ａさん、Ｂさん、Ｃさん、Ｄさんのユーザ端末２０の共有画面２５３には、ＣさんとＤさんの各位置に話者を示すマークＭ２が表示されている。ここでのマークＭ２は、集合内のユーザが話者であることを示すマークＭ１とも表示の形態が異なっている。その理由は、話者の可能性があることは確かであるが、話者が一人に特定される場合に比してその信頼性が低いためである。なお、表示の形態の違いは、色、輝度、記号の形状によって表現してもよい。
なお、この場合も、ＣさんとＤさんに対応するユーザ端末２０には、注意文２５３Ａが表示されている。

【0081】

図２３は、集合に属するＣさんが発話したがＣさんの音声情報Ｘがサーバ１０で受信されない例を説明する図である。図２３には、図１７との対応部分に対応する符号を付して示している。
図２３の場合、話者であるＣさんのユーザ端末２０からサーバ１０には音量情報Ｙがアップロードされている。しかし、Ｃさんと同じ集合に属するＡさんのユーザ端末２０からサーバ１０にはＣさんの音声情報Ｘがアップロードされていない。
この場合でも、Ｃさんと同じ集合からＣさん以外の音量情報Ｙから受信されていないので、サーバ１０は、話者をＣさんと特定することが可能である。

【0082】

しかし、Ｃさんの音声情報Ｘを受信できない状態ではウェブ会議が成立しない。そこで、サーバ１０は、スピーカーフォン３０が接続されているユーザ端末２０に対し、音声情報Ｘが受信されていない旨を通知する。
このため、Ｂさんのユーザ端末２０における共有画面２５３には、注意文２５３Ｂが表示されている。図２３の場合、注意文２５３Ｂとして「音声が検出されていません。」、「スピーカーフォンの電源をオフにしてませんか？」が表示されている。なお、スピーカーフォン３０の電源のオフは、音声情報Ｘのアップロードが成功しない原因の１つにすぎない。このため、他の可能性についても順番に又は一括して表示してもよい。

【0083】

＜他の特定例２＞
ここでは、複数のユーザ端末２０から音声情報Ｘが同時にアップロードされる場合における話者の特定について説明する。
図２４は、サーバ１０で実行される他の処理動作の一例を説明する図である。なお、図２４には、図１１、図１９、図２０との対応部分に対応する符号を付して示している。また、図１１と共通する処理動作の重複的な説明は省略する。

【0084】

図２４の場合、サーバ１０は、ステップ３～ステップ６の実行後にステップ１４を実行する。すなわち、サーバ１０は、ステップ１２とステップ１３を実行しない。
ステップ１４で否定結果が得られた場合（すなわち、音量情報Ｙが受信されない場合）、サーバ１０は、ステップ２１に移行する。ステップ２１以後の処理動作は図１９と同じである。
ステップ１４で肯定結果が得られた場合（すなわち、音量情報Ｙが受信された場合）、サーバ１０は、音声情報Ｘを受信したか否かを判定する（ステップ２９）。
ステップ２９で否定結果が得られた場合（すなわち、音量情報Ｙは受信されているが、音声情報Ｘは受信されない場合）、サーバ１０は、ステップ３０に移行し、音声情報Ｘの未検知を対象とするユーザ端末２０に通知する。

【0085】

ステップ２９で肯定結果が得られた場合、サーバ１０は、ステップ１３を実行する。すなわち、受信した音声情報Ｘを「音声入力」モードで動作するユーザ端末に配信する。
続いて、サーバ１０は、音声情報Ｘが複数か否かを判定する（ステップ３１）。
ステップ３１で否定結果が得られた場合（音声情報Ｘが１つの場合）、サーバ１０は、ステップ１５、ステップ１８、ステップ２０を順番に実行する。
ステップ３１で肯定結果が得られた場合（音声情報Ｘが複数の場合）、サーバ１０は、アップロード元が同じ集合に属するか否かを判定する（ステップ３２）。

【0086】

ステップ３２で肯定結果が得られた場合（複数の音声情報Ｘが同じ集合からアップロードされている場合）、サーバ１０は、ステップ１６、ステップ１７、ステップ１８、ステップ２０を順番に実行する。
ステップ３２で否定結果が得られた場合（複数の音声情報Ｘが同じ集合からアップロードされていない場合）、サーバ１０は、「音声入力」モードのユーザ端末２０に対応するユーザを話者に特定する（ステップ３３）。この後、サーバ１０は、ステップ１８、ステップ２０を順番に実行する。

【0087】

図２５は、同じ集合に属さない２人のユーザの間で話者を特定する例を説明する図である。図２５には、図１５との対応部分に対応する符号を付して示している。
図２５の場合、ＡさんとＣさんが同時に発話している。ただし、Ｃさんは集合に属しているが、Ａさんは属していない。
この場合、サーバ１０には、Ａさんのユーザ端末２０から音声情報Ｘが受信される。また、Ｂさんのユーザ端末２０からは音声情報Ｘが受信され、Ｃさんのユーザ端末２０からは音量情報Ｙが受信される。ＢさんとＣさんは同じ集合に属しているので、集合内で発話したのはＣさんと特定される。
ただし、図２４で説明したステップ３３では、話者としてＡさんが特定される。このため、共有画面２５３におけるＡさんの位置にはマークＭが表示されている。

【0088】

＜他の実施の形態＞
（１）以上、本発明の実施の形態について説明したが、本発明の技術的範囲は前述した実施の形態に記載の範囲に限定されない。前述した実施の形態に、種々の変更又は改良を加えたものも、本発明の技術的範囲に含まれることは、特許請求の範囲の記載から明らかである。

【0089】

（２）前述の実施の形態では、「音量入力」モードで動作するユーザ端末２０が基準値以上の音量を検出した場合に限り、音量情報をサーバ１０にアップロードする場合について説明したが、音のレベルが基準値以上か否かの判定をサーバ１０が実行してもよい。この場合、「音量入力」モードで動作するユーザ端末２０は、内蔵するマイク等で集音された音のレベルを表す音量情報をサーバ１０に対して常にアップロードする。

【0090】

（３）前述の実施の形態では、ブラウザの画面を通じてウェブ会議におけるビデオや音声の設定を受け付ける例を説明したが、ユーザ端末２０で実行されるプログラムが提供する設定用の画面を通じてウェブ会議におけるビデオや音声の設定を受け付けてもよい。

【0091】

（４）前述の実施の形態では、音量モードの設定ボタン２５２Ｃ３（図１２参照）は、マイク２７（図７参照）の設定がオフの場合にのみマイク設定欄２５２Ｃに表示されているが、マイクの設定がオンの場合でもマイク設定欄２５１Ｃに表示してもよい。
図２６は、設定画面の一例を説明する図である。図２６には、図１２との対応部分に対応する符号を付して示している。
図２６に示す設定画面２５１の場合、マイク２７の設定がオンである。このため、スイッチ２５１Ｃ１はオンの位置にあり、右隣のスライダー２５１Ｃ２も操作が有効な状態である。
ただし、図２６示す設定画面２５１の下部には、音量モードの表示欄２５１Ｃ３が追加されている。音量モードは、マイク２７がオフの場合にのみ有効であるので、図２６における表示欄２５１Ｃ３には「オフ（変更不可）」と表示されている。

【0092】

（５）前述の実施の形態では、設定画面２５１、２５２（図１２）によるマイク２７（図７参照）の設定に応じて入力モードが決定されているが、ユーザによるウェブ会議への参加の形態の選択に応じて入力モードが決定されてもよい。
図２７は、ウェブ会議への参加の形態の受付に使用する画面例を説明する図である。
受付画面２５４には、説明文２５４Ａと、３種類の選択ボタン２５４Ｂ、２５４Ｃ、２５４Ｄとが設けられている。
図２７の場合、説明文２５４Ａには「参加の形態を選択してください」等の選択を促す文言が記載されている。

【0093】

選択ボタン２５４Ｂには、「内蔵マイクで単独で参加」とのラベルが付いている。この選択ボタン２５４Ｂは、図１におけるＡさんのように周囲に他のユーザが居ない環境でウェブ会議に参加する場合や同じ室内に他のユーザが居るがスピーカーフォン３０を使用せずに音声情報Ｘをサーバ１０にアップロードする場合を想定している。
選択ボタン２５４Ｃには、「スピーカーフォンを自端末に接続して参加」とのラベルが付いている。この選択ボタン２５４Ｃは、図１におけるＢさんとしての参加を想定している。
選択ボタン２５４Ｄには、「スピーカーフォンを共用して参加」とのラベルが付いている。この選択ボタン２５４Ｄは、図１におけるＣさんやＤさんのように、スピーカーフォン３０が自端末に接続されないユーザを想定している。

【0094】

図２８は、受付画面２５４に対するユーザの操作を受け付けた場合におけるサーバ１０のリモート制御例を説明するフローチャートである。
まず、サーバ１０は、集合に属するユーザか否かを判定する（ステップ４１）。
例えばユーザが選択ボタン２５４Ｂ（図２７参照）を操作していた場合、サーバ１０は、ステップ４１で否定結果を得る。
この場合、サーバ１０は、対応するユーザ端末２０の「音声入力」モードをオンに設定し、「音量入力」モードをオフに設定する（ステップ４２）。
この後、サーバ１０は、スピーカー２８（図７参照）の出力をオンに設定する（ステップ４３）。これにより、対応するユーザの音声の入力と他のユーザの音声の出力がユーザ端末２０で実行される。

【0095】

これに対し、ユーザが選択ボタン２５４Ｃ（図２７参照）又は２５４Ｄ（図２７参照）を操作していた場合、サーバ１０は、スピーカーフォン３０が接続されるか否かを判定する（ステップ４４）。
スピーカーフォン３０が接続されるユーザの場合（選択ボタン２５４Ｃを操作したユーザの場合）、サーバ１０は、ステップ４４で肯定結果を得る。この場合、サーバ１０は、対応するユーザ端末の「音声入力」モードをオンに設定し、「音量入力」モードをオフに設定する（ステップ４５）。
この後、サーバ１０は、スピーカーフォン３０の出力をオンに設定する（ステップ４６）。

【0096】

スピーカーフォン３０が接続されないユーザの場合（選択ボタン２５４Ｄを操作したユーザの場合）、サーバ１０は、ステップ４４で否定結果を得る。この場合、サーバ１０は、対応するユーザ端末の「音声入力」モードをオフに設定し、「音量入力」モードをオンに設定する（ステップ４７）。
この後、サーバ１０は、スピーカー２８の出力をオフに設定する（ステップ４８）。
このリモート制御は、ユーザによるユーザ端末２０の設定を支援する機能であり、設定の誤りが低減される。その結果、話者の特定の精度が向上するのはもちろん、ハウリングも低減される。

【0097】

（６）前述の実施の形態では、共有画面２５３（図１４参照）にはウェブ会議に参加しているユーザ名の一覧が表示されるものの、各ユーザの参加の形態は表示されていなかった。すなわち、どのユーザが同じ集合に属し、どのユーザが集合に属していないかは共有画面２５３上に表示されていなかった。
図２９は、参加の形態の表示例を説明する図である。図２９には、図１４との対応部分に対応する符号を付して示している。
図２９に示す共有画面２５３には、ウェブ会議に参加しているＡさん、Ｂさん、Ｃさん、Ｄさんの一覧に加え、同じ集合に属するＢさん、Ｃさん、Ｄさんが１つの枠２５５で囲まれて表示されている。枠２５５が表示されることで、Ａさんが集合に属さないことが分かる。図２９に示す共有画面２５３は、集合に属する参加者の情報を、集合に属さない他の参加者とは異なる態様で表示する例である。

【0098】

なお、枠２５５とは異なる表示に態様を採用してもよい。例えばＢさん、Ｃさん、Ｄさんの背景色を、Ａさんの背景色とは異なる色で共通化してもよい。また例えばＢさん、Ｃさん、Ｄさんの表示色を、Ａさんの表示色とは異なる色で共通化してもよい。また例えばＢさん、Ｃさん、Ｄさんの位置にだけ、スピーカーフォン３０のアイコン、記号、マーク等を付して表示してもよい。また例えばＢさん、Ｃさん、Ｄさんの表示の形態をＡさんの表示の形態と異ならせてもよい。
この他、集合内での参加の形態の違いを表現してもよい。例えばスピーカーフォン３０が自端末に接続されるＢさんと、スピーカーフォン３０が自端末に接続されないＣさん、Ｄさんでは表示の形態を異ならせてもよい。

【0099】

図３０は、ウェブ会議の参加者に複数の集合が含まれる場合の共有画面２５３の表示例を説明する図である。図３０には、図１及び図２９との対応部分に対応する符号を付して示している。
図３０の場合、ウェブ会議には、Ａさん、Ｂさん、Ｃさん、Ｄさん、Ｅさん、Ｆさんの６名が参加している。
Ａさんは単独でウェブ会議に参加し、Ｂさん、Ｃさん、Ｄさんは１つの部屋に集合した状態でウェブ会議に参加し、Ｅさん、ＦさんはＢさん達とは別の１つの部屋に集合した状態でウェブ会議に参加している。
このため、図３０に示す共有画面２５３では、枠２５５が２つ表示されている。１つの枠２５５にはＢさん、Ｃさん、Ｄさんが配置され、別の枠２５５にはＥさん、Ｆさんが配置される。

【0100】

（７）前述した実施の形態におけるプロセッサは、広義的な意味でのプロセッサを指し、汎用的なプロセッサ（例えばＣＰＵ等）の他、専用的なプロセッサ（例えばＧＰＵ（＝Graphical Processing Unit）、ＡＳＩＣ、ＦＰＧＡ（＝Field Programmable Gate Array）、プログラム論理デバイス等）を含む。
また、前述した各実施の形態におけるプロセッサの動作は、１つのプロセッサが単独で実行してもよいが、物理的に離れた位置に存在する複数のプロセッサが協働して実行してもよい。また、プロセッサにおける各動作の実行の順番は、前述した各実施の形態に記載した順番のみに限定されるものでなく、個別に変更してもよい。

【0101】

＜付記＞
(((1)))
ウェブ会議システムのサーバとして動作するコンピュータに、音声入力に使用するマイクを共用する参加者の集合を特定する機能と、集合からの音声の入力中に、集合に属する参加者の端末のうち、前記マイクと接続されていない端末から基準値以上の音量を示す情報が入力されたとき、当該情報の送信元に対応する端末の参加者を話者として特定する機能と、
を実現させるためのプログラム。
(((2)))
前記端末に対応する参加者の情報を共有画面に表示する機能、を更に実現させる(((1)))に記載のプログラム。
(((3)))
前記表示する機能は、話者に特定された参加者が集合に属する場合、話者に特定された参加者が集合に属さない場合とは異なる態様で表示する、(((2)))に記載のプログラム。
(((4)))
集合に属する参加者の情報を、集合に属さない他の参加者とは異なる態様で表示する機能、を更に実現させる(((1)))から(((3)))のいずれか１つに記載のプログラム。
(((5)))
集合が複数含まれる場合、前記表示する機能は、集合の違いを表示する、(((4)))に記載のプログラム。
(((6)))
ウェブ会議への参加を開始する画面に、音量を示す情報の送信を設定するボタンを表示する機能、を更に実現させる(((1)))から(((5))))のいずれか１つに記載のプログラム。
(((7)))
前記ボタンを、音声入力の設定がオフに設定された場合に表示する、(((6)))に記載のプログラム。
(((8)))
前記ボタンは、音声入力の設定がオンに設定されている場合、操作を受け付けない態様で表示される、(((6)))に記載のプログラム。
(((9)))
マイクを他の参加者と共用するモードが選択された場合、前記ボタンを表示する、(((６)))に記載のプログラム。
(((10)))
前記集合を特定する機能は、ウェブ会議への参加を開始する画面において、音量を示す情報を送信する設定が有効化された端末の参加者を集合に紐づける、(((1)))から(((9)))のいずれか１つに記載のプログラム。
(((11)))
前記集合を特定する機能は、集合に紐付けられた参加者の端末のネットワーク上の位置に基づいて、各参加者が属する集合を特定する、(((10)))に記載のプログラム。
(((12)))
前記話者として特定する機能は、同じ集合内で最も大きい音量を示す情報を送信した端末の参加者を話者として特定する、(((1)))から(((11)))のいずれか１つに記載のプログラム。
(((13)))
前記話者として特定する機能は、集合から音声の入力中に、集合に属する参加者の端末から基準値以上の音量を示す情報が入力されないとき、音声を送信した端末に紐付けられている参加者を話者として特定する、(((1)))から(((12)))のいずれか１つに記載のプログラム。
(((14)))
前記話者として特定する機能は、集合に属さない参加者からの音声入力が検出された場合、当該参加者を話者として特定する、請求項(((1)))から(((13))のいずれか１つに記載のプログラム。
(((15)))
同じ集合に属する参加者の端末間でマイクの感度を揃える機能、を更に実現させる(((1)))から(((14)))のいずれか１つに記載のプログラム。
(((16)))
集合に属する参加者の端末から音量を示す情報の入力が検出されるが、同じ集合からの音声の入力が検出されない場合、参加者の音声が検出されない旨を通知する機能、を更に実現させる(((1)))から(((15)))のいずれか１つに記載のプログラム。
(((17)))
集合に属する参加者の端末のうち、音声入力の設定がオンに設定されている端末以外の端末に対し、音声入力をオフに設定する指示と、音量を示す情報をオンに設定する指示を送信する機能、を更に実現させる(((1)))から(((16)))のいずれか１つに記載のプログラム。
(((18)))
前記端末に対応する参加者の情報を、音声に関連付けて記録する機能、を更に実現する(((1)))から(((17)))のいずれか１つに記載のプログラム。
(((19)))
ウェブ会議システムの参加者の端末として動作するコンピュータに、音声入力がオフに設定されている場合、音量を示す情報をサーバに送信する機能、を実現させるためのプログラム。
(((20)))
自端末のカメラで撮像された参加者の表情を処理して発話の有無を検出する機能と、参加者の発話が検出される一方で、基準値以上の音量を示す情報が検出されていない場合、前記サーバに発話の発生を示す情報を送信する機能と、を更に実現させる(((19)))に記載のプログラム。
(((21)))
前記発話の有無を検出する機能は、前記カメラで撮像された画像の前記サーバへの送信がオフに設定されている状態でも実行される、(((20)))に記載のプログラム。
(((22)))
ウェブ会議の参加者の端末と、当該端末間の通信を実現するサーバとを有し、前記端末は、音声入力がオンに設定されている場合には、音声を前記サーバに送信する一方、音声入力がオフに設定されている場合には、音量を示す情報を当該サーバに送信し、前記サーバは、音声入力に使用するマイクを共用する参加者の集合からの音声の入力中に、集合に属する参加者の端末のうち、当該マイクと接続されていない端末から基準値以上の音量を示す情報が入力されたとき、当該情報の送信元に対応する端末の参加者を話者として特定する、、ウェブ会議システム。

【0102】

(((1)))に係るプログラムによれば、ウェブ会議への参加者の一部が１つのマイクを共用する状況でも、実際の話者を特定できる。
(((2)))に係るプログラムによれば、参加者の間で話者の情報を共有できる。
(((3)))に係るプログラムによれば、特定された話者の確度の違いを表示できる。
(((4)))に係るプログラムによれば、参加の形態の違いに関する情報を共有できる。
(((5)))に係るプログラムによれば、参加者が属する集合の違いを表示できる。
(((6)))に係るプログラムによれば、音声入力に使用しない端末に必要な設定を可能にできる。
(((7)))に係るプログラムによれば、音声入力と重複した設定を回避できる。
(((8)))に係るプログラムによれば、音声入力と重複した設定を回避できる。
(((9)))に係るプログラムによれば、音声入力に使用しない端末に必要な設定を可能にできる。
(((10)))に係るプログラムによれば、集合に属する参加者を特定できる。
(((11)))に係るプログラムによれば、同じ集合に属する参加者を特定できる。
(((12)))に係るプログラムによれば、同じ集合内に複数の話者いても主要な話者を特定できる。
(((13)))に係るプログラムによれば、ウェブ会議への参加者の一部が１つのマイクを共用する状況でも、実際の話者の特定できる。
(((14)))に係るプログラムによれば、ウェブ会議への参加者全員を対象として実際の話者を特定できる。
(((15)))に係るプログラムによれば、種類が異なる端末を使用する場合でも話者を正確に特定できる。
(((16)))に係るプログラムによれば、音声入力の異常を参加者に通知できる。
(((17)))に係るプログラムによれば、参加者による設定漏れを予防できる。
(((18)))に係るプログラムによれば、話者と音声の対応関係を事後的に特定できる。
(((19)))に係るプログラムによれば、集合内で音声入力に使用しない端末に対応する参加者を話者として特定可能にできる。
(((20)))に係るプログラムによれば、集合に属する参加者のマイクが故障していても話者の特定を可能にできる。
(((21)))に係るプログラムによれば、集合に属する参加者のマイクが故障していても話者の特定を可能にできる。
(((22)))に係るウェブ会議システムによれば、ウェブ会議への参加者の一部が１つのマイクを共用する状況でも、実際の話者を特定できる。

【符号の説明】

【0103】

１…ウェブ会議システム、１０…サーバ、２０…ユーザ端末、１１、２１、３１…プロセッサ、２５…ディスプレイ、２６…カメラ、２７、３４…マイク、２８、３５…スピーカー、３０…スピーカーフォン、３７…ＬＥＤ、３８…スイッチ、１１１…オンライン接続管理部、１１２…集合特定部、１１３、２１９…音声情報受信部、１１４…音声情報配信部、１１５…音量情報受信部、１１６…話者特定部、１１７…情報提供部、１１８…マイク感度キャリブレーション部、１１９…音声異常通知部、１２０…設定支援部、１２１…音声／文字変換部、１２２…会話履歴記録部、２１１…オンライン接続部、２１２…マイク感度設定部、２１３…マイクモード設定部、２１４…音声入力受付部、２１５…音声情報送信部、２１６…音量数値化部、２１７…音量判定部、２１８…音量情報送信、２２０…音声情報再生部

【図1】