IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士ゼロックス株式会社の特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024047807
(43)【公開日】2024-04-08
(54)【発明の名称】プログラム及びウェブ会議システム
(51)【国際特許分類】
   G06Q 10/10 20230101AFI20240401BHJP
【FI】
G06Q10/10
【審査請求】未請求
【請求項の数】22
【出願形態】OL
(21)【出願番号】P 2022153503
(22)【出願日】2022-09-27
(71)【出願人】
【識別番号】000005496
【氏名又は名称】富士フイルムビジネスイノベーション株式会社
(74)【代理人】
【識別番号】100104880
【弁理士】
【氏名又は名称】古部 次郎
(74)【代理人】
【識別番号】100125346
【弁理士】
【氏名又は名称】尾形 文雄
(72)【発明者】
【氏名】中山 英知
【テーマコード(参考)】
5L049
【Fターム(参考)】
5L049AA11
(57)【要約】
【課題】ウェブ会議への参加者の一部が1つのマイクを共用する状況でも、実際の話者の特定を可能にする。
【解決手段】ウェブ会議システムのサーバとして動作するコンピュータに、音声入力に使用するマイクを共用する参加者の集合を特定する機能と、集合からの音声の入力中に、集合に属する参加者の端末から基準値以上の音量を示す情報が入力されたとき、端末の参加者を話者として特定する機能と、を実現させるためのプログラムを提供する。
【選択図】図11
【特許請求の範囲】
【請求項1】
ウェブ会議システムのサーバとして動作するコンピュータに、
音声入力に使用するマイクを共用する参加者の集合を特定する機能と、
集合からの音声の入力中に、集合に属する参加者の端末のうち、前記マイクと接続されていない端末から基準値以上の音量を示す情報が入力されたとき、当該情報の送信元に対応する端末の参加者を話者として特定する機能と、
を実現させるためのプログラム。
【請求項2】
前記端末に対応する参加者の情報を共有画面に表示する機能、
を更に実現させる請求項1に記載のプログラム。
【請求項3】
前記表示する機能は、話者に特定された参加者が集合に属する場合、話者に特定された参加者が集合に属さない場合とは異なる態様で表示する、
請求項2に記載のプログラム。
【請求項4】
集合に属する参加者の情報を、集合に属さない他の参加者とは異なる態様で表示する機能、
を更に実現させる請求項1に記載のプログラム。
【請求項5】
集合が複数含まれる場合、前記表示する機能は、集合の違いを表示する、
請求項4に記載のプログラム。
【請求項6】
ウェブ会議への参加を開始する画面に、音量を示す情報の送信を設定するボタンを表示する機能、
を更に実現させる請求項1に記載のプログラム。
【請求項7】
前記ボタンを、音声入力の設定がオフに設定された場合に表示する、
請求項6に記載のプログラム。
【請求項8】
音声入力の設定がオンに設定されている場合、前記ボタンを、操作を受け付けない態様で表示する、
請求項6に記載のプログラム。
【請求項9】
マイクを他の参加者と共用するモードが選択された場合、前記ボタンを表示する、
請求項6に記載のプログラム。
【請求項10】
前記集合を特定する機能は、ウェブ会議への参加を開始する画面において、音量を示す情報を送信する設定が有効化された端末の参加者を集合に紐づける、
請求項1に記載のプログラム。
【請求項11】
前記集合を特定する機能は、集合に紐付けられた参加者の端末のネットワーク上の位置に基づいて、各参加者が属する集合を特定する、
請求項10に記載のプログラム。
【請求項12】
前記話者として特定する機能は、同じ集合内で最も大きい音量を示す情報を送信した端末の参加者を話者として特定する、
請求項1に記載のプログラム。
【請求項13】
前記話者として特定する機能は、集合から音声の入力中に、集合に属する参加者の端末から基準値以上の音量を示す情報が入力されないとき、音声を送信した端末に紐付けられている参加者を話者として特定する、
請求項1に記載のプログラム。
【請求項14】
前記話者として特定する機能は、集合に属さない参加者からの音声入力が検出された場合、当該参加者を話者として特定する、
請求項1に記載のプログラム。
【請求項15】
同じ集合に属する参加者の端末間でマイクの感度を揃える機能、
を更に実現させる請求項1に記載のプログラム。
【請求項16】
集合に属する参加者の端末から音量を示す情報の入力が検出されるが、同じ集合からの音声の入力が検出されない場合、
参加者の音声が検出されない旨を通知する機能、
を更に実現させる請求項1に記載のプログラム。
【請求項17】
集合に属する参加者の端末のうち、音声入力の設定がオンに設定されている端末以外の端末に対し、音声入力をオフに設定する指示と、音量を示す情報をオンに設定する指示を送信する機能、
を更に実現させる請求項1に記載のプログラム。
【請求項18】
前記端末に対応する参加者の情報を、音声に関連付けて記録する機能、
を更に実現する請求項1に記載のプログラム。
【請求項19】
ウェブ会議システムの参加者の端末として動作するコンピュータに、
音声入力がオフに設定されている場合、音量を示す情報をサーバに送信する機能、
を実現させるためのプログラム。
【請求項20】
自端末のカメラで撮像された参加者の表情を処理して発話の有無を検出する機能と、
参加者の発話が検出される一方で、基準値以上の音量を示す情報が検出されていない場合、前記サーバに発話の発生を示す情報を送信する機能と、
を更に実現させる請求項19に記載のプログラム。
【請求項21】
前記発話の有無を検出する機能は、前記カメラで撮像された画像の前記サーバへの送信がオフに設定されている状態でも実行される、
請求項20に記載のプログラム。
【請求項22】
ウェブ会議の参加者の端末と、当該端末間の通信を実現するサーバとを有し、
前記端末は、音声入力がオンに設定されている場合には、音声を前記サーバに送信する一方、音声入力がオフに設定されている場合には、音量を示す情報を当該サーバに送信し、
前記サーバは、音声入力に使用するマイクを共用する参加者の集合からの音声の入力中に、集合に属する参加者の端末のうち、当該マイクと接続されていない端末から基準値以上の音量を示す情報が入力されたとき、当該情報の送信元に対応する端末の参加者を話者として特定する、
ウェブ会議システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、プログラム及びウェブ会議システムに関する。
【背景技術】
【0002】
リモートワーク等の普及に伴い、ウェブ会議の需要が増えている。ウェブ会議は、参加者の端末をインターネットに接続することで実現される。
ところで、ウェブ会議の開催形態は様々であり、参加者の全員が異なる地点にいるとは限らない。例えば4人の参加者A、B、C、Dのうち参加者Aは自宅から参加するが、参加者B、C、Dは会議室に集まって参加することがある。この場合、2地点間でウェブ会議が開催される。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2017-168903号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
複数人が同じ地点からウェブ会議に参加する場合、スピーカーフォンを使用することがある。スピーカーフォンは、スピーカーとマイクを一体化した装置であり、ハウリングや音声の途切れの低減に効果を発揮する。一方で、スピーカーフォンを使用すると、スピーカーフォンから入力された音声の全てが、スピーカーフォンが接続された端末に紐づけされる。例えば参加者Dの発言も、スピーカーフォンが接続された端末に対応する参加者Bの発言とみなされる。
【0005】
本開示は、ウェブ会議への参加者の一部が1つのマイクを共用する状況でも、実際の話者の特定を可能にすることを目的とする。
【課題を解決するための手段】
【0006】
請求項1に記載の発明は、ウェブ会議システムのサーバとして動作するコンピュータに、音声入力に使用するマイクを共用する参加者の集合を特定する機能と、集合からの音声の入力中に、集合に属する参加者の端末のうち、前記マイクと接続されていない端末から基準値以上の音量を示す情報が入力されたとき、当該情報の送信元に対応する端末の参加者を話者として特定する機能と、を実現させるためのプログラムである。
請求項2に記載の発明は、前記端末に対応する参加者の情報を共有画面に表示する機能、を更に実現させる請求項1に記載のプログラムである。
請求項3に記載の発明は、前記表示する機能は、話者に特定された参加者が集合に属する場合、話者に特定された参加者が集合に属さない場合とは異なる態様で表示する、請求項2に記載のプログラムである。
請求項4に記載の発明は、集合に属する参加者の情報を、集合に属さない他の参加者とは異なる態様で表示する機能、を更に実現させる請求項1に記載のプログラムである。
請求項5に記載の発明は、集合が複数含まれる場合、前記表示する機能は、集合の違いを表示する、請求項4に記載のプログラムである。
請求項6に記載の発明は、ウェブ会議への参加を開始する画面に、音量を示す情報の送信を設定するボタンを表示する機能、を更に実現させる請求項1に記載のプログラムである。
請求項7に記載の発明は、前記ボタンを、音声入力の設定がオフに設定された場合に表示する、請求項6に記載のプログラムである。
請求項8に記載の発明は、音声入力の設定がオンに設定されている場合、前記ボタンを、操作を受け付けない態様で表示する、請求項6に記載のプログラムである。
請求項9に記載の発明は、マイクを他の参加者と共用するモードが選択された場合、前記ボタンを表示する、請求項6に記載のプログラムである。
請求項10に記載の発明は、前記集合を特定する機能は、ウェブ会議への参加を開始する画面において、音量を示す情報を送信する設定が有効化された端末の参加者を集合に紐づける、請求項1に記載のプログラムである。
請求項11に記載の発明は、前記集合を特定する機能は、集合に紐付けられた参加者の端末のネットワーク上の位置に基づいて、各参加者が属する集合を特定する、請求項10に記載のプログラムである。
請求項12に記載の発明は、前記話者として特定する機能は、同じ集合内で最も大きい音量を示す情報を送信した端末の参加者を話者として特定する、請求項1に記載のプログラムである。
請求項13に記載の発明は、前記話者として特定する機能は、集合から音声の入力中に、集合に属する参加者の端末から基準値以上の音量を示す情報が入力されないとき、音声を送信した端末に紐付けられている参加者を話者として特定する、請求項1に記載のプログラムである。
請求項14に記載の発明は、前記話者として特定する機能は、集合に属さない参加者からの音声入力が検出された場合、当該参加者を話者として特定する、請求項1に記載のプログラムである。
請求項15に記載の発明は、同じ集合に属する参加者の端末間でマイクの感度を揃える機能、を更に実現させる請求項1に記載のプログラムである。
請求項16に記載の発明は、集合に属する参加者の端末から音量を示す情報の入力が検出されるが、同じ集合からの音声の入力が検出されない場合、参加者の音声が検出されない旨を通知する機能、を更に実現させる請求項1に記載のプログラムである。
請求項17に記載の発明は、集合に属する参加者の端末のうち、音声入力の設定がオンに設定されている端末以外の端末に対し、音声入力をオフに設定する指示と、音量を示す情報をオンに設定する指示を送信する機能、を更に実現させる請求項1に記載のプログラムである。
請求項18に記載の発明は、前記端末に対応する参加者の情報を、音声に関連付けて記録する機能、を更に実現する請求項1に記載のプログラムである。
請求項19に記載の発明は、ウェブ会議システムの参加者の端末として動作するコンピュータに、音声入力がオフに設定されている場合、音量を示す情報をサーバに送信する機能、を実現させるためのプログラムである。
請求項20に記載の発明は、自端末のカメラで撮像された参加者の表情を処理して発話の有無を検出する機能と、参加者の発話が検出される一方で、基準値以上の音量を示す情報が検出されていない場合、前記サーバに発話の発生を示す情報を送信する機能と、を更に実現させる請求項19に記載のプログラムである。
請求項21に記載の発明は、前記発話の有無を検出する機能は、前記カメラで撮像された画像の前記サーバへの送信がオフに設定されている状態でも実行される、請求項20に記載のプログラムである。
請求項22に記載の発明は、ウェブ会議の参加者の端末と、当該端末間の通信を実現するサーバとを有し、前記端末は、音声入力がオンに設定されている場合には、音声を前記サーバに送信する一方、音声入力がオフに設定されている場合には、音量を示す情報を当該サーバに送信し、前記サーバは、音声入力に使用するマイクを共用する参加者の集合からの音声の入力中に、集合に属する参加者の端末のうち、当該マイクと接続されていない端末から基準値以上の音量を示す情報が入力されたとき、当該情報の送信元に対応する端末の参加者を話者として特定する、ウェブ会議システムである。
【発明の効果】
【0007】
請求項1記載の発明によれば、ウェブ会議への参加者の一部が1つのマイクを共用する状況でも、実際の話者を特定できる。
請求項2記載の発明によれば、参加者の間で話者の情報を共有できる。
請求項3記載の発明によれば、特定された話者の確度の違いを表示できる。
請求項4記載の発明によれば、参加の形態の違いに関する情報を共有できる。
請求項5記載の発明によれば、参加者が属する集合の違いを表示できる。
請求項6記載の発明によれば、音声入力に使用しない端末に必要な設定を可能にできる。
請求項7記載の発明によれば、音声入力と重複した設定を回避できる。
請求項8記載の発明によれば、音声入力と重複した設定を回避できる。
請求項9記載の発明によれば、音声入力に使用しない端末に必要な設定を可能にできる。
請求項10記載の発明によれば、集合に属する参加者を特定できる。
請求項11記載の発明によれば、同じ集合に属する参加者を特定できる。
請求項12記載の発明によれば、同じ集合内に複数の話者がいても主要な話者を特定できる。
請求項13記載の発明によれば、ウェブ会議への参加者の一部が1つのマイクを共用する状況でも、実際の話者の特定できる。
請求項14記載の発明によれば、ウェブ会議への参加者全員を対象として実際の話者を特定できる。
請求項15記載の発明によれば、種類が異なる端末を使用する場合でも話者を正確に特定できる。
請求項16記載の発明によれば、音声入力の異常を参加者に通知できる。
請求項17記載の発明によれば、参加者による設定漏れを予防できる。
請求項18記載の発明によれば、話者と音声の対応関係を事後的に特定できる。
請求項19記載の発明によれば、集合内で音声入力に使用しない端末に対応する参加者を話者として特定可能にできる。
請求項20記載の発明によれば、集合に属する参加者のマイクが故障していても話者の特定を可能にできる。
請求項21記載の発明によれば、集合に属する参加者のマイクが故障していても話者の特定を可能にできる。
請求項22記載の発明によれば、ウェブ会議への参加者の一部が1つのマイクを共用する状況でも、実際の話者を特定できる。
【図面の簡単な説明】
【0008】
図1】ウェブ会議システムの構成例を示す図である。
図2】サーバのハードウェア構成の一例を示す図である。
図3】プロセッサにより実現される機能構成の一例を示す図である。
図4】ウェブ会議室に入室したユーザの情報を記録する参加者テーブルのデータ構成の一例を説明する図である。
図5】会話履歴テーブルのデータ構成の一例を説明する図である。
図6】ウェブ会議について作成された会話履歴の一例を説明する図である。
図7】ユーザ端末のハードウェア構成の一例を示す図である。
図8】プロセッサにより実現される機能構成の一例を示す図である。
図9】音声入力モードと音量入力モードの違いを説明する図である。
図10】スピーカーフォンのハードウェア構成の一例を示す図である。
図11】サーバとユーザ端末との協働による話者の特定処理を説明するシーケンス図である。
図12】設定画面の一例を説明する図である。
図13】会議室に集合してウェブ会議に参加するBさん、Cさん、Dさんの設定画面を説明する図である。
図14】参加を受け付けた段階における共有画面の表示例を説明する図である。
図15】集合に属していないAさんが発話した場合を説明する図である。
図16】集合に属するBさんが発話した場合を説明する図である。
図17】集合に属するCさんが発話した場合を説明する図である。
図18】集合に属するCさんとDさんが同時に発話した場合を説明する図である。
図19】サーバで実行される他の処理動作の一部分を説明する図である。
図20】サーバで実行される他の処理動作の残りの部分を説明する図である。
図21】集合に属していないCさんが発話した場合の他の例を説明する図である。
図22】集合に属していないCさんとDさんが同時に発話した場合の他の例を説明する図である。
図23】集合に属するCさんが発話したがCさんの音声情報がサーバで受信されない例を説明する図である。
図24】サーバで実行される他の処理動作の一例を説明する図である。
図25】同じ集合に属さない2人のユーザの間で話者を特定する例を説明する図である。
図26】設定画面の一例を説明する図である。
図27】ウェブ会議への参加の形態の受付に使用する画面例を説明する図である。
図28】受付画面に対するユーザの操作を受け付けた場合におけるサーバのリモート制御例を説明するフローチャートである。
図29】参加の形態の表示例を説明する図である。
図30】ウェブ会議の参加者に複数の集合が含まれる場合の共有画面の表示例を説明する図である。
【発明を実施するための形態】
【0009】
以下、図面を参照して、本発明の実施の形態を説明する。
<システム構成>
図1は、ウェブ会議システム1の構成例を示す図である。
図1に示すウェブ会議システム1は、ウェブ会議のサービスを提供する会議サーバ(以下「サーバ」という。)10と、ウェブ会議に参加する各ユーザに紐づけられたユーザ端末20と、複数人のユーザが共用するスピーカーフォン30と、これらを接続するネットワークNとで構成されている。
【0010】
「ウェブ会議」は、ネットワーク上での通信を通じて実現される会議をいう。参加者に対する映像、音声その他のデータの配信には、ストリーミング技術が使用される。事前に招待メールを受け取った又は認証された特定のユーザだけにウェブ会議への参加が許される。
「共用」は、複数人が1つの機器を共同で使用することをいう。本実施の形態では、共用する機器としてスピーカーフォン30を想定する。
【0011】
図1に示すウェブ会議には、「Aさん」、「Bさん」、「Cさん」、「Dさん」の4人が参加している。言うまでもなく、参加者の人数等は一例である。
図1の場合、「Aさん」は、自宅等から一人でウェブ会議に参加している。「Bさん」、「Cさん」、「Dさん」の3人は、会社等の会議室に集まってウェブ会議に参加している。図1では、スピーカーフォン30を共用する「Bさん」、「Cさん」、「Dさん」の集まりを集合#1と表記している。
【0012】
図1の場合、「Bさん」、「Cさん」、「Dさん」の声は、スピーカーフォン30で集音され、スピーカーフォン30が接続された「Bさん」のユーザ端末20及びサーバ10を経て、「Aさん」のユーザ端末20に配信される。
一方、「Aさん」の声は、「Aさん」のユーザ端末20に設けられているマイクで集音され、サーバ10を経てスピーカーフォン30に配信される。
なお、広義には、「Aさん」は、構成人数が一人の集合とみなすことも可能である。ただし、「Aさん」とマイクは1対1であり、1つのマイクを他のユーザと共用していない。
このため、本実施の形態では、マイクが複数人で共用される場合と、1人によってマイクが専用される場合とを区別する目的で「集合」との表現を使用する。
【0013】
図1では、「Aさん」が居る空間と「Bさん」、「Cさん」、「Dさん」が居る空間が物理的に異なる場合を表しているが、「Aさん」、「Bさん」、「Cさん」、「Dさん」の4人全員が同じ空間に居てもよい。この場合、「Aさん」の音声だけが「Aさん」用のマイクで集音され、「Bさん」、「Cさん」、「Dさん」の音声はスピーカーフォン30で集音されるのであれば、「Aさん」、「Bさん」、「Cさん」、「Dさん」が同じ空間に居てもよい。
ネットワークNは、インターネットやLAN(=Local Area Network)を想定する。また、ネットワークNの一部は、5Gその他の移動体通信システムでもよい。言うまでもなく、ネットワークNは、有線ネットワークでも無線ネットワークでもよい。
【0014】
<各端末の構成>
<サーバの構成>
図2は、サーバ10のハードウェア構成の一例を示す図である。
サーバ10は、ウェブ会議の参加者が使用するユーザ端末20(図1参照)と接続される端末であり、ウェブ会議の実現に必要な設定や通信を実現する。サーバ10は、オンプレミス型でもクラウド型でもよい。
図2に示すサーバ10は、プロセッサ11と、BIOS(=Basic Input Output System)等が記憶されたROM(=Read Only Memory)12と、プロセッサ11のワークエリアとして用いられるRAM(=Random Access Memory)13と、補助記憶装置14と、通信インタフェース15と、を有している。各デバイスは、バスその他の信号線16を通じて接続されている。
【0015】
プロセッサ11は、プログラムの実行を通じて各種の機能を実現するデバイスである。
プロセッサ11、ROM12、RAM13は、コンピュータとして機能する。
補助記憶装置14は、例えばハードディスク装置や半導体ストレージで構成される。補助記憶装置14には、プログラムや各種のデータが記憶される。ここでのプログラムは、OS(=Operating System)やアプリケーションプログラムの総称として使用する。アプリケーションプログラムの1つにウェブ会議に関するプログラムがある。
本実施の形態では、補助記憶装置14がサーバ10に内蔵されているが、サーバ10に対して外付けされてもよいし、ネットワークN(図1参照)上に存在してもよい。
【0016】
通信インタフェース15は、ネットワークNを通じてユーザ端末20(図1参照)と通信するためのインタフェースである。通信インタフェース15は、各種の通信規格に対応する。ここでの通信規格には、例えばイーサネット(登録商標)、Wi-Fi(登録商標)、移動体通信システムがある。
【0017】
図3は、プロセッサ11により実現される機能構成の一例を示す図である。図3に示す機能部は、プロセッサ11によるプログラムの実行を通じて実現される。
図3に示す機能部は、オンライン接続管理部111と、集合特定部112と、音声情報受信部113と、音声情報配信部114と、音量情報受信部115と、話者特定部116と、情報提供部117と、マイク感度キャリブレーション部118と、音声異常通知部119と、設定支援部120と、音声/文字変換部121と、会話履歴記録部122である。
【0018】
オンライン接続管理部111は、ウェブ会議に参加するユーザとの接続を管理する機能部である。例えばウェブ会議のために用意されたURL(=Uniform Resource Locator)への接続を受け付けた場合、オンライン接続管理部111は、接続元であるユーザ端末20に対応するユーザの「入室」を記録する。また、接続の切断を検出した場合、オンライン接続管理部111は、ユーザ端末20に対応するユーザの「退室」を記録する。ここでの「入室」と「退出」は、例えば補助記憶装置14(図2参照)に記憶される。
ウェブ会議への参加を開始する画面では、後述する「音量情報」を送信するモードの設定も受け付ける。
【0019】
なお、「音量情報」を送信するモードに設定するボタンは、後述する「音声情報」を送信するモードの設定がオフの場合にのみ表示されるようにしてもよい。少なくとも「音声情報」が設定される場合には、「音量情報」を送信しなくても話者の特定が可能なためである。
また、「音声情報」を送信するモードの設定がオンの場合、「音量情報」を送信するモードに設定するボタンの操作を受け付けない態様で表示してもよい。
また、「音量情報」を送信するモードに設定するボタンは、スピーカーフォン30を他のユーザと共用するモードが選択された場合にのみ画面上に表示してもよい。
【0020】
集合特定部112は、スピーカーフォン30(図1参照)を共用するユーザの集合を特定する機能部である。集合特定部112は、入室したユーザに対応するユーザ端末20のIPアドレス等を参照して、ユーザが属する集合を特定する。IPアドレス等は、参加者テーブル141(図4参照)に記録されている。
図4は、ウェブ会議室に入室したユーザの情報を記録する参加者テーブル141のデータ構成の一例を説明する図である。参加者テーブル141は、ウェブ会議毎に用意される。
参加者テーブル141は、ユーザID141Aと、ユーザ名141Bと、IPアドレス141Cと、マイクモード141Dと、集合ID141E等で構成される。
【0021】
ユーザID141Aは、ウェブ会議に参加するユーザA、B、C、Dの識別に使用される。
ユーザ名141Bは、ウェブ会議に参加するユーザへの提示に使用される。ユーザ名141Bは、オンライン接続の際にユーザにより登録される。
IPアドレス141Cは、サーバ10に接続したユーザ端末20のIPアドレスである。ここでのIPアドレスは、グローバルIPアドレスを想定する。もっとも、ウェブ会議システム1が同じLAN上で構築される場合には、プライベートIPアドレスが登録される。IPアドレスは、ネットワーク上の位置を表す情報の一例である。
【0022】
マイクモード141Dは、ウェブ会議に使用するユーザ端末20におけるマイクの動作モードである。詳細については後述するが、マイクで集音された音をアップロードする「音声入力」モードと、マイクで集音された音のレベル(すなわち音量)をアップロードする「音量入力」モードがある。
例えば集合特定部112(図3参照)は、「音量入力」モードに設定されたユーザ端末20(図1参照)のユーザをいずれかの集合に紐づける。換言すると、集合特定部112「音量入力」モードに設定されたユーザ端末20のユーザを、「音声入力」モードに設定されたユーザ端末20のいずれかのユーザに紐づける。
【0023】
集合ID141Eは、集合特定部112(図2参照)による特定の結果が記録される。本実施の形態の場合、グローバルIPアドレスが共通のユーザは同じ集合に属すると特定される。図4では、ユーザID141Aの「0002」~「0004」の3名に対して集合#1が記録されている。
なお、IPアドレスがプライベートIPアドレスの場合には、参加者による申告や問い合わせに画面に対する入力に基づいて、集合に属する参加者を特定してもよい。
本実施の形態の場合、集合は、音声入力モードで動作する1台のユーザ端末20と、音量入力モードで動作する1又は複数台のユーザ端末20とで構成される。
【0024】
図3の説明に戻る。
音声情報受信部113は、「音声入力」モードに設定されたユーザ端末20から音声情報を受信する機能部である。本実施の形態では、音声情報として、例えばユーザ端末20に内蔵されたマイクやスピーカーフォン30によって集音された音の符号化データを想定する。なお、同一の話者に関連する符号化データは音声ファイルとして補助記憶装置14(図2参照)に記録される。
音声情報配信部114は、受信した音声情報を送信元以外のユーザに配信する機能部である。本実施の形態における音声情報配信部114は、「音声入力」モードで動作するユーザ端末20を配信先とする。
音量情報受信部115は、「音量入力」モードに設定されたユーザ端末20から音量情報を受信する機能部である。本実施の形態では、音量情報として、例えば音のレベル(すなわち音量)を表す数値を想定する。
【0025】
話者特定部116は、ウェブ会議で発言したユーザ(すなわち話者)を特定する機能部である。
例えば話者特定部116は、集合に属さないユーザ端末20から音声情報を受信した場合、該当するユーザを話者として特定する。図1の例であれば、音声情報が「Aさん」に対応するユーザ端末20から受信された場合、話者として「Aさん」が特定される。
また、話者特定部116は、集合に属するユーザ端末20からの音声情報の入力中に、スピーカーフォン30と接続されていないユーザ端末20から基準値以上の音量情報が受信された場合、音量情報の送信元に対応するユーザ端末20のユーザを話者として特定する。図1の例であれば、音量情報が「Cさん」に対応するユーザ端末20から受信された場合、話者として「Cさん」が特定される。
【0026】
なお、集合からの音声情報の入力中に、同じ集合に属するユーザ端末20から音量情報が受信される場合、話者特定部116は、最も大きい音量情報を送信したユーザ端末20に対応するユーザを話者として特定する。例えば「Cさん」の音量情報がレベル4であり、「Dさん」の音量情報がレベル2の場合、話者特定部116は、「Cさん」を話者として特定する。
また、集合から音声情報の入力中に、同じ集合に属するユーザ端末20から基準値以上の音量情報が入力されない場合、話者特定部116は、音声情報を送信したユーザ端末20に紐付けられているユーザを話者として特定する。図1の例であれば、音声情報が「Bさん」に対応するユーザ端末20から受信される場合に、「Cさん」等に対応するユーザ端末20から音量情報が受信されていないとき、話者として「Bさん」が特定される。
【0027】
この他、話者特定部116は、ユーザを撮像した画像の解析を通じ、話者を推定する機能を有してもよい。ここでの話者の推定は、対象とするユーザ端末20で撮像された画像の利用が可能であるときに実行が可能である。
画像の解析では、例えばユーザの表情に基づいて発話の可能性が推定される。表情には、口元の動きだけでなく、身振りや顔全体の動きも含まれる。
【0028】
なお、この機能による話者の特定は、ユーザがユーザ端末20の設定画面でカメラをオンに設定している場合に限ってもよい。
もっとも、この機能による話者の特定は、ユーザがユーザ端末20の設定画面でカメラをオフに設定した場合にも実行可能としてもよい。この場合、ウェブ会議に参加している他のユーザとの間で対象ユーザの画像は共有されないが、サーバ10には画像が届いているので、画像の解析による話者の特定が実現される。もっとも、この話者の特定を可能にするには、ウェブ会議に参加するユーザから同意を必要とする。
【0029】
情報提供部117は、ウェブ会議に関する各種の情報をウェブ会議に参加する各ユーザが使用するユーザ端末20に提供する機能部である。情報の提供は、各ユーザ端末20に表示される画面(以下「共有画面」という。)を通じて実現される。なお、共有画面は、ストリーミング形式で配信される。
提供される情報の1つには、ウェブ会議に参加しているユーザの情報がある。この情報の提供を通じ、ウェブ会議に入室している各ユーザは、入室している他のユーザの情報を知ることが可能になる。
なお、情報提供部117は、集合に属するユーザの情報を、集合に属さない他のユーザとは異なる態様で表示する。例えば集合に属するユーザにはマークや記号を付けるが、集合に属さない他のユーザにはマーク等を付けない。また例えば集合に属するユーザは枠で囲んで表示する。当然ではあるが、集合に属さないユーザは枠の外に表示される。
【0030】
また、ウェブ会議内に集合が複数含まれる場合、情報提供部117は、集合の違いを共有画面に表示する。この機能により、各ユーザは、他のユーザの参加の形態を容易に理解することが可能になる。
また、情報提供部117は、話者に特定されたユーザが集合に属する場合、話者に特定されたユーザが集合に属さない場合とは異なる態様で表示する。例えば話者であることを示す記号、輝度、色、枠の種類、太さ、形状の1つ又は複数を変化させる。
もっとも、集合に属する場合と集合に属さない場合とで同じ表示の態様を採用することも可能である。
【0031】
マイク感度キャリブレーション部118は、同じ集合に属するユーザのユーザ端末20間でマイク感度を揃える機能部である。
前述したように、話者特定部116は、同じ集合に属するユーザ端末20から複数の音量情報が受信される場合、最も大きい音量情報を送信したユーザ端末20に対応するユーザを話者として特定する。
このため、ユーザ端末20のマイク感度が異なると、話者特定部116による話者の特定が誤る可能性がある。例えば感度が低いマイクの場合、ユーザが大きな声で発言しても音量情報の数値は実際の音量よりも小さくなる。一方、感度が高いマイクの場合、ユーザが小さい声で発言しても音量情報の数値は実際の音量よりも大きくなる。結果的に、大きな声で発言したユーザではなく、小さい声で発言したユーザが話者と特定される可能性が生じる。
【0032】
そこで、マイク感度キャリブレーション部118は、例えばウェブ会議が開始される前又はウェブ会議の初期の段階で、各ユーザ端末20からマイクの選択や感度の設定に関する情報を収集し、送信される音量情報のキャリブレーションを実行する。
例えばマイク感度キャリブレーション部118は、同じ集合に属するユーザ端末20のうち音量入力モードに設定された複数のユーザ端末が選択するマイクの種類が異なる場合、同じマイクの選択を対象とするユーザ端末20に指示する。
また、マイク感度キャリブレーション部118は、マイクの感度の設定が異なる場合、同じ感度になるように対象となるユーザ端末20に指示する。
【0033】
音声異常通知部119は、音声情報や音量情報に基づいて検知された異常をユーザ端末20に通知する機能部である。
例えば集合に属するユーザのユーザ端末から音量情報の受信又は入力が検出されるが、同じ集合からの音声情報の受信又は入力が検出されない場合、集合に属するユーザに宛てて音声が検出されていない旨を通知する。もっとも、通知の宛先は、話者の可能性が高いユーザのみとしてもよい。
【0034】
通知が必要になる場合には、例えばスピーカーフォン30の電源がオフになっている場合、スピーカーフォン30と音声入力モードのユーザ端末20との通信に問題がある場合、音量入力モードで参加しているユーザとスピーカーフォン30との距離が遠く音声を拾えていない場合がある。なお、通信の問題には、ケーブルの接続忘れ、ケーブルの断線、ペアリング不良等がある。
なお、ユーザ端末20に搭載された又は接続されたカメラによって撮像された画像の解析により話者が特定された場合に、話者に対応するユーザ端末20から音量情報が受信又は入力されないとき、音声異常通知部119は、対象とするユーザに宛てて、ユーザ端末20に内蔵されている又は接続されているマイクの故障の可能性を通知してもよい。
【0035】
設定支援部120は、集合に属するユーザに対応するユーザ端末20のうち、音声入力の設定がオンに設定されているユーザ端末20以外のユーザ端末20に対し、音声入力モードをオフに設定する指示と、音量入力モードをオンに設定する指示を送信する機能部である。スピーカーフォン30を接続していないユーザが誤って音声入力モードをオンに設定した場合にも、正しい設定に変更することが可能になる。これにより、ハウリングの発生を未然に防止できる。
音声/文字変換部121は、音声ファイルに含まれる音声を文字に変換する機能部である。本実施の形態の場合、サーバ10で実行しているが、他のサーバとの連携により文字への変換を実現してもよい。
【0036】
会話履歴記録部122は、ユーザ端末20に対応するユーザの情報を、音声に関連付けて記録する機能部である。いわゆる議事録の作成機能である。
図5は、会話履歴テーブル142のデータ構成の一例を説明する図である。会話履歴テーブル142は、ウェブ会議毎に記録される。
会話履歴テーブル142は、開始時刻142A、終了時刻142B、ファイルID142C、ファイル名142D、話者ID142E、テキスト142F等で構成される。
開始時刻142Aは、音声情報の受信を開始した時刻である。話者が特定されない場合にも、音声情報を受信した時刻は記録される。
終了時刻142Bは、音声情報の受信が終了した時刻である。
【0037】
ファイルID142Cは、音声ファイルを識別する情報である。このファイルID142Cを通じ、補助記憶装置14(図2参照)に記録されている音声ファイルとの紐づけが可能になる。
ファイル名142Dは、ファイルID142Cに紐づけられている音声ファイルのファイル名である。
話者ID142Eは、話者として特定されたユーザのIDである。なお、話者として特定されたユーザの名前を記録してもよい。
テキスト142Fは、音声ファイルから変換された文字列である。
【0038】
図6は、ウェブ会議について作成された会話履歴1220の一例を説明する図である。なお、図6に示す会話履歴1220は、ユーザ端末20(図1参照)で閲覧される場合を想定している。
会話履歴1220は、会議名1221と、開始日時1222と、終了日時1223と、発話内容1224と、再生ボタン1225を有している。
図6の場合、会議名1221は「会議A」である。また、開始日時1222と終了日時1223には、会議Aが、2022年5月31日の10時から11時まで開かれたことが記録されている。
また、発話内容1224には、発言者とテキストの内容が時系列に記録されている。
なお、再生ボタン1225は、音声ファイルの再生のために配置されている。再生ボタン1225の操作があると、対応する音声ファイルが再生される。
【0039】
<ユーザ端末の構成>
図7は、ユーザ端末20のハードウェア構成の一例を示す図である。
図7に示すユーザ端末20は、プロセッサ21と、BIOS等が記憶されたROM22と、プロセッサ21のワークエリアとして用いられるRAM23と、補助記憶装置24と、ディスプレイ25と、カメラ26と、マイク27と、スピーカー28と、通信インタフェース29と、を有している。各デバイスは、バスその他の信号線29Aを通じて接続されている。
【0040】
プロセッサ21は、プログラムの実行を通じて各種の機能を実現するデバイスである。
プロセッサ21、ROM22、RAM23は、コンピュータとして機能する。
補助記憶装置24は、例えばハードディスク装置や半導体ストレージで構成される。補助記憶装置24には、プログラムや関する各種のデータが記憶される。ここでのプログラムには、OSやアプリケーションプログラムが含まれる。アプリケーションプログラムの1つがウェブ会議に関するプログラムである。
ディスプレイ25は、例えば液晶ディスプレイや有機EL(=ElectroLuminescent)ディスプレイである。
【0041】
カメラ26は、例えばディスプレイ25の周囲に配置され、又は、取り付けられる。本実施の形態の場合、カメラ26は、ユーザの撮像に使用される。
マイク27は、音を電気信号の形式に変換する音響機器である。
スピーカー28は、音を表現した電気信号を音に変換しする音響機器である。
通信インタフェース29は、ネットワークNを通じてサーバ10(図1参照)と通信するためのインタフェースである。通信インタフェース29は、各種の通信規格に対応する。
【0042】
図8は、プロセッサ21により実現される機能構成の一例を示す図である。図8に示す機能部は、プロセッサ21(図7参照)によるプログラムの実行を通じて実現される。
図8に示す機能部は、オンライン接続部211と、マイク感度設定部212と、マイクモード設定部213と、音声入力受付部214と、音声情報送信部215と、音量数値化部216と、音量判定部217と、音量情報送信218と、音声情報受信部219と、音声情報再生部220とである。
【0043】
オンライン接続部211は、ウェブ会議について発行されたURLに接続する処理を実行する機能部である。ここでのURLは、電子メールやショートメッセージ等を通じて取得される他、ブラウザ画面に表示される会議室の選択を通じて取得が可能である。
マイク感度設定部212は、ユーザによる操作又はサーバ10(図1参照)からの指示に基づき、マイク27(図7参照)から出力される電気信号の最大振幅を設定する機能部である。
マイクモード設定部213は、マイク27から出力される電気信号の扱いを決定する機能部である。換言すると、ユーザ端末20の動作モードを設定する機能部である。
【0044】
本実施の形態の場合、マイクモードは、「音声入力」モードと「音量入力」モードの2種類である。
図9は、「音声入力」モードと「音量入力」モードの違いを説明する図である。
「音声入力」モードの場合、ユーザ端末20は、音声の入出力が許可されるが、音量の出力は不可である。ここで、音声の入出力が許可されるとは、マイク27又はスピーカーフォン30(図1参照)で集音された音が音声情報Xとしてサーバ10にアップロードされるとともに、サーバ10から受信した音声情報Xがスピーカー28(図7参照)又はスピーカーフォン30から音として出力されることを意味する。
【0045】
「音量入力」モードの場合、ユーザ端末20は、音量の出力が許可されるが、音声の入出力は不可である。ここで音量の出力が許可されるとは、マイク27で集音された音の音量が音量情報Yとしてサーバ10にアップロードされることを意味する。
なお、マイクモードの設定は、ディスプレイ25に表示される操作画面上でマイクボリュームの調整による方法やモードの選択ボタンの操作による方法がある。
例えばマイクボリュームを「0」に設定すると、「音量入力」モードに設定してもよい。なお、「音量入力」モードの選択ボタンは、マイクボリュームが「0」に設定されると画面上に表示される設定としてもよい。
【0046】
音声入力受付部214は、マイク27で集音された音に対応する電気信号を受け付ける機能部である。
音声情報送信部215は、マイク27から入力した電気信号を符号化した符号化データを音声情報Xとしてサーバ10にアップロードする機能部である。
音量数値化部216は、マイク27で集音された音の大きさを数値化する機能部である。
音量判定部217は、音の数値と基準値REFとを比較する機能部である。本実施の形態の場合、基準値REFとの比較により、自端末を操作するユーザの発話と環境音とを区別する。環境音には、他のユーザ端末20に対応する他のユーザの音声や周囲の音が含まれる。
【0047】
音量情報送信218は、基準値REFを超える大きさの音が検出された場合、対応するユーザの発話を表す音量情報Yをサーバ10にアップロードする機能部である。
音声情報受信部219は、サーバ10から音声情報Xを受信する機能部である。
音声情報再生部220は、サーバ10から受信した音声情報Xをスピーカー28又はスピーカーフォン30から再生する機能部である。
【0048】
<スピーカーフォンの構成>
図10は、スピーカーフォン30のハードウェア構成の一例を示す図である。
図10に示すスピーカーフォン30は、プロセッサ31と、BIOSやファームウェア等が記憶されたROM32と、プロセッサ31のワークエリアとして用いられるRAM33と、マイク34と、スピーカー35と、通信インタフェース36と、LED(=Light Emitting Diode)37と、スイッチ38と、を有している。各デバイスは、バスその他の信号線39を通じて接続されている。
【0049】
プロセッサ31は、ファームウェア等のプログラムの実行を通じて音の符号化や音声情報の復号化等を実行するデバイスである。なお、音の符号化や音声情報Xの復号化は、ASIC(=Application Specific Integrated Circuit)により実現してもよい。
プロセッサ31、ROM32、RAM33は、コンピュータとして機能する。
マイク34は、音を電気信号の形式に変換する音響機器である。
スピーカー35は、音を表現した電気信号を音に変換する音響機器である。
通信インタフェース36は、接続されたユーザ端末20(図1参照)と通信するためのインタフェースである。通信インタフェース36は、各種の通信規格に対応する。
LED37は、動作の状態をユーザに通知する発光素子である。
スイッチ38は、電源のオン又はオフのためのスイッチ等である。
【0050】
<話者の特定処理>
図11は、サーバ10とユーザ端末20との協働による話者の特定処理を説明するシーケンス図である。なお、図11に示すシーケンス図は、処理動作の一例である。また、図11における記号のSはステップを意味する。
ここでも、ウェブ会議への参加者は、Aさん、Bさん、Cさん、Dさんの4名とする。また、各参加者による参加の形態は、図1に示した通りとする。なお、Aさん、Bさん、Cさん、Dさんを区別しない場合には「ユーザ」という。
【0051】
すなわち、Aさんは自宅等から参加し、Bさん、Cさん、Dさんは会社等の会議室に集まって参加する。また、Bさん、Cさん、Dさんは、スピーカーフォン30(図1参照)を使用して会議に参加する。なお、スピーカーフォン30(図1参照)は、Bさんのユーザ端末20に接続されている。
なお、紙面の都合により、図11では、Aさんのユーザ端末20とBさんのユーザ端末20を同じ時間軸に対応付け、Cさんのユーザ端末20とDさんのユーザ端末20を同じ時間軸に対応付ける。
【0052】
まず、各ユーザは、カメラやマイクの設定後にサーバ10が管理するウェブ会議のURLにアクセスする。
図12は、設定画面の一例を説明する図である。図12には、マイク27(図7参照)の設定状態が異なる2つの設定画面251、252を表している。
設定画面251は、マイク27の設定がオンの画面例であり、設定画面252は、マイク27の設定がオフの画面例である。
ここでの設定画面251は、前述した「音声入力」モードに対応し、設定画面252は、「音量入力」モードに対応する。
【0053】
設定画面251、252の上部には、説明文251A、252Aが配置されている。図12の場合、いずれも「ビデオと音声のオプションを選択してください」と表示されている。
カメラ設定欄251B、252Bでは、カメラ26(図7参照)で撮像された画像を他の参加者に配信可能とするか否かの設定が可能である。図12の場合、「カメラはオフになっています」と表示されている。ただし、本実施の形態では、カメラ設定欄251B、252Bの設定がオフの場合でも、カメラ26による画像の撮像まではオフにならず、撮像された画像はサーバ10にアップロードされる。
【0054】
マイク設定欄251C、252Cでは、マイク27で集音された音を他の参加者に配信可能とするか否かの設定が可能である。
設定画面251では、マイクのオン/オフの切り替えに使用するスイッチ251C1がオンの位置にある。このため、音量の調整に使用するスライダー251C2は、操作の受付が可能な状態で表示される。この音量の調整は、マイク感度の調整に相当する。
【0055】
設定画面252では、マイク27のオン/オフの切り替えに使用するスイッチ252C1がオフの位置にある。このため、音量の調整に使用するスライダー252C2は、操作が無効な状態で表示される。
この他、スライダー252C2の右隣には「音量入力」モードの設定ボタン252C3が表示されている。図12の場合、設定ボタン252C3には「音量モード」のラベルが付されている。また、設定ボタン252C3の設定はオンである。
「音量入力」モードの設定がオンの場合、内蔵又は接続されたマイク27で集音された音の音量を表す音量情報Yがサーバ10(図1参照)に送信される。前述したように、本実施の形態では、音量が基準値REFを超える場合に限り、音量情報Yのサーバ10へのアップロードが実行される。
【0056】
因みに、「音量入力」モードの設定がオフの場合、音量情報Yのサーバ10へのアップロードも停止される。
設定画面251、252の下部には、「キャンセル」ボタン251D、252Dと、「今すぐ参加」ボタン251E、252Eが配置されている。「キャンセル」ボタン251D、252Dが操作された場合、カメラ設定欄251B、252Bに対する設定とマイク設定欄251C、252Cに対する設定がキャンセルされる。「今すぐ参加」ボタン251E、252Eが操作された場合、各設定を有効としてウェブ会議への参加がサーバ10に通知される。
【0057】
図13は、会議室に集合してウェブ会議に参加するBさん、Cさん、Dさんの設定画面を説明する図である。
Bさんのユーザ端末20には、スピーカーフォン30が接続されている。このため、Bさんのユーザ端末20は、スピーカーフォン30から入力される音声をストリーミング形式でサーバ10にアップロードする必要がある。このため、Bさんのユーザ端末20では、マイク設定欄251Cのスイッチ251C1がオンに設定されている。
一方、CさんとDさんは、スピーカーフォン30を通じて、自身の音声をサーバ10にアップロードする。このため、対応するユーザ端末20では、マイク設定欄251Cのスイッチ252C1がオフに設定されている。
【0058】
図11の説明に戻る。
本実施の形態の場合、AさんとBさんは、ユーザ端末20を「音声入力」モードに設定し、参加を申請する(ステップ1)。また、CさんとDさんは、ユーザ端末20を「音量入力」モードに設定し、参加を申請する(ステップ2)。
申請を受け付けたサーバ10は、対応するユーザ端末20との接続を開始する(ステップ3)。続いて、サーバ10は、参加者の情報を含む共有画面を参加者全員に通知する(ステップ4)。
【0059】
図14は、参加を受け付けた段階における共有画面253の表示例を説明する図である。図14には、図1との対応部分に対応する符号を付して示している。図14に示す共有画面253には、Aさん、Bさん、Cさん、Dさんの参加が確認される。
共有画面253には、集合としての参加か否かは表示されない。
図11の説明に戻る。
続いて、サーバ10は、各ユーザのマイクモードを取得する(ステップ5)。この例の場合、AさんとBさんのマイクモードは「音声入力」モードであり、CさんとDさんのマイクモードは「音量入力」モードである。
【0060】
さらに、サーバ10は、ユーザが参加する集合を特定する(ステップ6)。集合の特定には、例えばユーザ端末20のIPアドレス等を使用する。本実施の形態では、Bさん、Cさん、Dさんが同じ集合に属すると特定される。
集合が特定されると、集合に属する話者の特定が可能になる。
Aさん又は集合内の誰かが発言した場合、「音声入力」モードのユーザ端末20は、音声情報Xを取得し(ステップ7)、取得した音声情報Xをサーバ10にアップロードする(ステップ8)。仮にCさんが発話した場合にも、Bさんのユーザ端末20が音声情報Xをサーバ10にアップロードする。
なお、Aさん又はBさんが発話した場合、後述するステップ9~11は実行されない。
【0061】
集合内のCさん又はDさんが発話した場合、対応するユーザ端末20では、音量を取得する(ステップ9)。次に、対応するユーザ端末20は、取得された音量が基準値REFより大きいか否かを判定する(ステップ10)。
音量が基準値REF以下の場合には、発言ではない可能性が高いのでステップ9で否定結果が得られる。この場合、ユーザ端末20は、ステップ9に戻る。
一方、音量が基準値REFより大きい場合、ステップ10で肯定結果が得られる。この場合、ユーザ端末20は、音量情報Yをサーバ10にアップロードする(ステップ11)。
【0062】
サーバ10は、音声情報X、又は、音声情報Xと音量情報Yを受信する(ステップ12)。因みに、音声情報Xのアップロード元は、Aさん又はBさんに対応するユーザ端末20に限られ、音量情報Yのアップロード元は、Cさん又はDさんに対応するユーザ端末20に限られる。
Aさん又はBさんが話者の場合、サーバ10は、音声情報Xのみを受信する。一方、Cさん又はDさんが話者の場合、サーバ10は、音声情報Xに加え、音量情報Yも受信する。
いずれにしても、サーバ10は、受信した音声情報Xを「音声入力」モードで動作するユーザ端末20に配信する(ステップ13)。この配信により、全ユーザ間で、他のユーザの音声の共有が実現される。
【0063】
次に、サーバ10は、音量情報Yを受信したか否かを判定する(ステップ14)。換言すると、音声情報Xと音量情報Yの同時受信か否かが判定される。
音声情報Xのみの受信であり、音量情報Yの受信がない場合、ステップ14で否定結果が得られる。この場合、サーバ10は、音声情報Xを送信したユーザ端末20のユーザを話者に特定する(ステップ15)。
これに対し、音量情報Yの受信がある場合、ステップ14で肯定結果が得られる。この場合、サーバ10は、音量情報Yの最大値に対応するユーザを特定する(ステップ16)。この処理は、音量情報Yのアップロード元が複数の場合にも話者の特定を可能にするために設けられている。
次に、サーバ10は、特定されたユーザを話者に特定する(ステップ17)。
【0064】
ステップ15又はステップ17において話者が特定されると、サーバ10は、共有画面の話者の表示を更新して参加者全員に通知する(ステップ18)。
Aさん、Bさん、Cさん、Dさんに対応するユーザ端末20は、通知された共有画面を表示する(ステップ19)。
なお、サーバ10は、音声情報と話者とを紐づけた会話履歴を記録する(ステップ20)。
この後、ウェブ会議が終了するまで、ステップ7~ステップ20が繰り返される。
【0065】
<話者の特定例>
以下では、図15図18を使用してウェブ会議で発言したユーザ、すなわち話者を特定する処理の具体例を説明する。
図15は、集合に属していないAさんが発話した場合を説明する図である。図15には、図1との対応部分に対応する符号を付して示している。
Aさんは、集合に属していないので、ユーザ端末20を「音声入力」モードに設定している。このため、Aさんのユーザ端末20からサーバ10には、音声情報Xがアップロードされている。
このとき、サーバ10は、音声情報Xのみを受信するのでステップ14(図11参照)で否定結果を得、音声情報Xのアップロード元であるAさんを話者に特定する。
このため、サーバ10は、Aさんを話者として全てのユーザ端末20に配信している。
従って、各ユーザ端末20の共有画面253では、Aさんの位置に話者を示すマークMが表示されている。
【0066】
図16は、集合に属するBさんが発話した場合を説明する図である。図16にも、図1との対応部分に対応する符号を付して示している。
Bさんは、集合に属しているが、自身のユーザ端末20にスピーカーフォン30に接続している。このため、自身のユーザ端末20を「音声入力」モードに設定している。このため、Bさんのユーザ端末20からサーバ10には、音声情報Xがアップロードされている。
このとき、サーバ10は、音声情報Xのみを受信するのでステップ14(図11参照)で否定結果を得、音声情報Xのアップロード元であるBさんを話者に特定する。
このため、サーバ10は、Bさんを話者として全てのユーザ端末20に配信している。
従って、各ユーザ端末20の共有画面253では、Bさんの位置に話者を示すマークMが表示されている。
【0067】
図17は、集合に属するCさんが発話した場合を説明する図である。図17にも、図15との対応部分に対応する符号を付して示している。
Cさんは、集合に属しており、かつ、自身のユーザ端末20にスピーカーフォン30が接続されていない。このため、自身のユーザ端末20を「音量入力」モードに設定している。このため、Cさんのユーザ端末20からサーバ10には、音量情報Yがアップロードされている。なお、Cさんの音声に対応する音声情報Xは、スピーカーフォン30からBさんのユーザ端末20経由でサーバ10にアップロードされる。
【0068】
この場合、サーバ10は、音声情報Xと音量情報Yの両方を受信するのでステップ14(図11参照)で肯定結果を得る。図17の場合、音量情報Yをアップロードしたユーザ端末20は、Cさんに紐づけられている。そこで、サーバ10は、音量情報Yのアップロード元であるCさんを話者に特定する。
このため、サーバ10は、Cさんを話者として全てのユーザ端末20に配信している。
従って、各ユーザ端末20の共有画面253では、Cさんの位置に話者を示すマークM1が表示されている。なお、マークM1は、AさんやBさんが話者の場合とは異なっている。その理由は、話者の特定に音量情報Yを使用したことを表示するためである。もっとも、Cさんが話者であることを、AさんやBさんが話者の場合と同じマークMを用いて表示することも可能である。
【0069】
図18は、集合に属するCさんとDさんが同時に発話した場合を説明する図である。図18にも、図15との対応部分に対応する符号を付して示している。
CさんとDさんは、同じ集合に属しており、かつ、自身のユーザ端末20にスピーカーフォン30が接続されていない。このため、CさんとDさんは、共に自身のユーザ端末20を「音量入力」モードに設定している。このため、Cさんのユーザ端末20とDさんのユーザ端末20の両方からサーバ10に対し、音量情報Yがアップロードされている。なお、CさんとDさんの音声に対応する音声情報Xは、スピーカーフォン30からBさんのユーザ端末20経由でサーバ10にアップロードされる。
【0070】
この場合、サーバ10は、音声情報Xと音量情報Yの両方を受信するのでステップ14(図11参照)で肯定結果を得る。
ところで、図18の場合、Cさんの声がDさんの声よりも大きい。図18では、吹き出しの大きさで声の大きさを表現している。
図18の場合、音量情報Yをアップロードしたユーザ端末20は、CさんとDさんにそれぞれ紐づけられている。しかし、音量情報Yの数値は、Cさんに対応するユーザ端末20から入力される方が大きい。
そこで、サーバ10は、音量情報Yのアップロード元であるCさんを話者に特定する。
このため、サーバ10は、Cさんを話者として全てのユーザ端末20に配信している。
従って、各ユーザ端末20の共有画面253では、Cさんの位置に話者を示すマークM1が表示されている。
【0071】
<他の特定例1>
ここでは、音声情報Xや音量情報Yがサーバ10(図1参照)に対して正常に届かない状況における話者の特定又は推定について説明する。
図19は、サーバ10で実行される他の処理動作の一部分を説明する図である。図20は、サーバ10で実行される他の処理動作の残りの部分を説明する図である。なお、図19及び図20には、図11との対応部分に対応する符号を付して示している。また、図11と共通する処理動作の重複的な説明は省略する。
【0072】
図19の場合、サーバ10は、ステップ3~ステップ6の実行後にステップ14を実行する。すなわち、サーバ10は、ステップ12とステップ13を実行しない。
ステップ14で否定結果が得られた場合、サーバ10は、音声情報Xを受信したか否かを判定する(ステップ21)。
ステップ21で否定結果が得られた場合、すなわち音声情報Xも音量情報Yも受信されていない場合、サーバ10は、話者なしに設定し(ステップ22)、ステップ18、ステップ20を順番に実行する。具体的には、共有画面の話者の表示を更新して参加者全員に配信し、その後、音声情報Xと話者とを紐づけた会話履歴を記録する。
【0073】
これに対し、ステップ21で肯定結果が得られた場合(すなわち、音声情報Xは受信されているが音量情報Yを受信していない場合)、サーバ10は、ステップ13を実行する。すなわち、受信した音声情報Xを「音声入力」モードで動作するユーザ端末20に配信する。
続いて、サーバ10は、「音量入力」モードのユーザ端末20からアップロードされた画像を解析する(ステップ23)。
次に、サーバ10は、発話の表情を検知したか否かを判定する(ステップ24)。発話の表情が検知されない場合、サーバ10は、ステップ24で否定結果を得る。この場合、サーバ10は、ステップ15、ステップ18、ステップ20を順番に実行する。
【0074】
一方、発話の表情が検出された場合、サーバ10は、ステップ24で肯定結果を得る。この場合、サーバ10は、該当するユーザ端末20にマイクの故障の可能性を通知する(ステップ25)。
さらに、サーバ10は、検知されたユーザが一人か否かを判定する(ステップ26)。
一人であった場合、ステップ26で肯定結果が得られる。この場合、サーバ10は、該当するユーザを話者として特定する(ステップ27)。
複数人であった場合、ステップ26で否定結果が得られる。この場合、サーバ10は、口に動きがあった複数のユーザを話者の候補として設定する(ステップ28)。今回の場合、音量情報Yが同じ集合内のいずれのユーザ端末20から受信されておらず、音量の違いにより話者が一人のユーザに特定し得ないためである。
【0075】
ところで、ステップ14で肯定結果が得られた場合(すなわち、音量情報Yが受信されている場合)、サーバ10は、音声情報Xを受信したか否かを判定する(ステップ29)。
ステップ29で肯定結果が得られた場合(すなわち、音声情報Xと音量情報Yの両方が受信された場合)、サーバ10は、ステップ13、ステップ16、ステップ17を順番に実行し、その後、ステップ18に移行する。
一方、ステップ29で否定結果が得られた場合(すなわち、音量情報Yは受信されているが、音声情報Xは受信されていない場合)、サーバ10は、音量情報Yの送信元であるユーザと同じ集合に属する「音声入力」モードのユーザ端末20に音声情報Xの未検知を通知する(ステップ30)。
【0076】
音声情報Xが受信されない原因は様々であるが、例えばスピーカーフォン30(図1参照)の電源がオフになっている場合、スピーカーフォン30とユーザ端末20との通信に問題がある場合、話者であるユーザとスピーカーフォン30との距離が遠すぎる場合がある。
この通知の後、サーバ10は、ステップ27に移行して話者又は話者の候補を特定する。
以下では、図面を用いて具体例を説明する。
【0077】
図21は、集合に属していないCさんが発話した場合の他の例を説明する図である。図21には、図17との対応部分に対応する符号を付して示している。
図21の場合、話者であるCさんのユーザ端末20からサーバ10に対し、音量情報Yがアップロードされていない。
しかし、Cさんのユーザ端末20からは、カメラ26(図7参照)で撮像された画像がサーバ10に対してアップロードされている。
図21の場合には、アップロードされた画像の解析からCさんの口の動きが検出されている。
その結果、サーバ10は、Cさんを話者として全てのユーザ端末20に配信する一方、音量情報Yがアップロードされない原因としてマイクの故障を推定する。
【0078】
このため、Cさんのユーザ端末20には、共有画面253のCさんの位置に話者を示すマークM1が表示されるとともに、注意文253Aが表示されている。図21の場合、注意文253Aとして「内蔵マイクが故障している可能性があります。」、「音量を取得できません。」が表示されている。
なお、図21の場合、Aさん、Bさん、Dさんのユーザ端末20には、共有画面253のCさんの位置に話者を示すマークM1のみが表示される。
もっとも、同じ集合に属するBさんとDさんには、Cさんに対応するユーザ端末20の不調を表示してもよい。
【0079】
図22は、集合に属していないCさんとDさんが同時に発話した場合の他の例を説明する図である。図22には、図21との対応部分に対応する符号を付して示している。
図22では、話者であるCさんのユーザ端末20とDさんのユーザ端末20の両方からサーバ10に対し、音量情報Yがアップロードされていない。
しかし、Cさんのユーザ端末20とDさんのユーザ端末20のそれぞれからは、カメラ26(図7参照)で撮像された画像がサーバ10に対してアップロードされている。
図22の場合には、アップロードされた画像の解析からCさんとDさんの両方について口の動きが検出されている。
【0080】
この場合、サーバ10には、Cさんの発話の音量とDさんの発話の音量の違いが分からない。このため、話者が一人に特定されない。
そこで、Aさん、Bさん、Cさん、Dさんのユーザ端末20の共有画面253には、CさんとDさんの各位置に話者を示すマークM2が表示されている。ここでのマークM2は、集合内のユーザが話者であることを示すマークM1とも表示の形態が異なっている。その理由は、話者の可能性があることは確かであるが、話者が一人に特定される場合に比してその信頼性が低いためである。なお、表示の形態の違いは、色、輝度、記号の形状によって表現してもよい。
なお、この場合も、CさんとDさんに対応するユーザ端末20には、注意文253Aが表示されている。
【0081】
図23は、集合に属するCさんが発話したがCさんの音声情報Xがサーバ10で受信されない例を説明する図である。図23には、図17との対応部分に対応する符号を付して示している。
図23の場合、話者であるCさんのユーザ端末20からサーバ10には音量情報Yがアップロードされている。しかし、Cさんと同じ集合に属するAさんのユーザ端末20からサーバ10にはCさんの音声情報Xがアップロードされていない。
この場合でも、Cさんと同じ集合からCさん以外の音量情報Yから受信されていないので、サーバ10は、話者をCさんと特定することが可能である。
【0082】
しかし、Cさんの音声情報Xを受信できない状態ではウェブ会議が成立しない。そこで、サーバ10は、スピーカーフォン30が接続されているユーザ端末20に対し、音声情報Xが受信されていない旨を通知する。
このため、Bさんのユーザ端末20における共有画面253には、注意文253Bが表示されている。図23の場合、注意文253Bとして「音声が検出されていません。」、「スピーカーフォンの電源をオフにしてませんか?」が表示されている。なお、スピーカーフォン30の電源のオフは、音声情報Xのアップロードが成功しない原因の1つにすぎない。このため、他の可能性についても順番に又は一括して表示してもよい。
【0083】
<他の特定例2>
ここでは、複数のユーザ端末20から音声情報Xが同時にアップロードされる場合における話者の特定について説明する。
図24は、サーバ10で実行される他の処理動作の一例を説明する図である。なお、図24には、図11図19図20との対応部分に対応する符号を付して示している。また、図11と共通する処理動作の重複的な説明は省略する。
【0084】
図24の場合、サーバ10は、ステップ3~ステップ6の実行後にステップ14を実行する。すなわち、サーバ10は、ステップ12とステップ13を実行しない。
ステップ14で否定結果が得られた場合(すなわち、音量情報Yが受信されない場合)、サーバ10は、ステップ21に移行する。ステップ21以後の処理動作は図19と同じである。
ステップ14で肯定結果が得られた場合(すなわち、音量情報Yが受信された場合)、サーバ10は、音声情報Xを受信したか否かを判定する(ステップ29)。
ステップ29で否定結果が得られた場合(すなわち、音量情報Yは受信されているが、音声情報Xは受信されない場合)、サーバ10は、ステップ30に移行し、音声情報Xの未検知を対象とするユーザ端末20に通知する。
【0085】
ステップ29で肯定結果が得られた場合、サーバ10は、ステップ13を実行する。すなわち、受信した音声情報Xを「音声入力」モードで動作するユーザ端末に配信する。
続いて、サーバ10は、音声情報Xが複数か否かを判定する(ステップ31)。
ステップ31で否定結果が得られた場合(音声情報Xが1つの場合)、サーバ10は、ステップ15、ステップ18、ステップ20を順番に実行する。
ステップ31で肯定結果が得られた場合(音声情報Xが複数の場合)、サーバ10は、アップロード元が同じ集合に属するか否かを判定する(ステップ32)。
【0086】
ステップ32で肯定結果が得られた場合(複数の音声情報Xが同じ集合からアップロードされている場合)、サーバ10は、ステップ16、ステップ17、ステップ18、ステップ20を順番に実行する。
ステップ32で否定結果が得られた場合(複数の音声情報Xが同じ集合からアップロードされていない場合)、サーバ10は、「音声入力」モードのユーザ端末20に対応するユーザを話者に特定する(ステップ33)。この後、サーバ10は、ステップ18、ステップ20を順番に実行する。
【0087】
図25は、同じ集合に属さない2人のユーザの間で話者を特定する例を説明する図である。図25には、図15との対応部分に対応する符号を付して示している。
図25の場合、AさんとCさんが同時に発話している。ただし、Cさんは集合に属しているが、Aさんは属していない。
この場合、サーバ10には、Aさんのユーザ端末20から音声情報Xが受信される。また、Bさんのユーザ端末20からは音声情報Xが受信され、Cさんのユーザ端末20からは音量情報Yが受信される。BさんとCさんは同じ集合に属しているので、集合内で発話したのはCさんと特定される。
ただし、図24で説明したステップ33では、話者としてAさんが特定される。このため、共有画面253におけるAさんの位置にはマークMが表示されている。
【0088】
<他の実施の形態>
(1)以上、本発明の実施の形態について説明したが、本発明の技術的範囲は前述した実施の形態に記載の範囲に限定されない。前述した実施の形態に、種々の変更又は改良を加えたものも、本発明の技術的範囲に含まれることは、特許請求の範囲の記載から明らかである。
【0089】
(2)前述の実施の形態では、「音量入力」モードで動作するユーザ端末20が基準値以上の音量を検出した場合に限り、音量情報をサーバ10にアップロードする場合について説明したが、音のレベルが基準値以上か否かの判定をサーバ10が実行してもよい。この場合、「音量入力」モードで動作するユーザ端末20は、内蔵するマイク等で集音された音のレベルを表す音量情報をサーバ10に対して常にアップロードする。
【0090】
(3)前述の実施の形態では、ブラウザの画面を通じてウェブ会議におけるビデオや音声の設定を受け付ける例を説明したが、ユーザ端末20で実行されるプログラムが提供する設定用の画面を通じてウェブ会議におけるビデオや音声の設定を受け付けてもよい。
【0091】
(4)前述の実施の形態では、音量モードの設定ボタン252C3(図12参照)は、マイク27(図7参照)の設定がオフの場合にのみマイク設定欄252Cに表示されているが、マイクの設定がオンの場合でもマイク設定欄251Cに表示してもよい。
図26は、設定画面の一例を説明する図である。図26には、図12との対応部分に対応する符号を付して示している。
図26に示す設定画面251の場合、マイク27の設定がオンである。このため、スイッチ251C1はオンの位置にあり、右隣のスライダー251C2も操作が有効な状態である。
ただし、図26示す設定画面251の下部には、音量モードの表示欄251C3が追加されている。音量モードは、マイク27がオフの場合にのみ有効であるので、図26における表示欄251C3には「オフ(変更不可)」と表示されている。
【0092】
(5)前述の実施の形態では、設定画面251、252(図12)によるマイク27(図7参照)の設定に応じて入力モードが決定されているが、ユーザによるウェブ会議への参加の形態の選択に応じて入力モードが決定されてもよい。
図27は、ウェブ会議への参加の形態の受付に使用する画面例を説明する図である。
受付画面254には、説明文254Aと、3種類の選択ボタン254B、254C、254Dとが設けられている。
図27の場合、説明文254Aには「参加の形態を選択してください」等の選択を促す文言が記載されている。
【0093】
選択ボタン254Bには、「内蔵マイクで単独で参加」とのラベルが付いている。この選択ボタン254Bは、図1におけるAさんのように周囲に他のユーザが居ない環境でウェブ会議に参加する場合や同じ室内に他のユーザが居るがスピーカーフォン30を使用せずに音声情報Xをサーバ10にアップロードする場合を想定している。
選択ボタン254Cには、「スピーカーフォンを自端末に接続して参加」とのラベルが付いている。この選択ボタン254Cは、図1におけるBさんとしての参加を想定している。
選択ボタン254Dには、「スピーカーフォンを共用して参加」とのラベルが付いている。この選択ボタン254Dは、図1におけるCさんやDさんのように、スピーカーフォン30が自端末に接続されないユーザを想定している。
【0094】
図28は、受付画面254に対するユーザの操作を受け付けた場合におけるサーバ10のリモート制御例を説明するフローチャートである。
まず、サーバ10は、集合に属するユーザか否かを判定する(ステップ41)。
例えばユーザが選択ボタン254B(図27参照)を操作していた場合、サーバ10は、ステップ41で否定結果を得る。
この場合、サーバ10は、対応するユーザ端末20の「音声入力」モードをオンに設定し、「音量入力」モードをオフに設定する(ステップ42)。
この後、サーバ10は、スピーカー28(図7参照)の出力をオンに設定する(ステップ43)。これにより、対応するユーザの音声の入力と他のユーザの音声の出力がユーザ端末20で実行される。
【0095】
これに対し、ユーザが選択ボタン254C(図27参照)又は254D(図27参照)を操作していた場合、サーバ10は、スピーカーフォン30が接続されるか否かを判定する(ステップ44)。
スピーカーフォン30が接続されるユーザの場合(選択ボタン254Cを操作したユーザの場合)、サーバ10は、ステップ44で肯定結果を得る。この場合、サーバ10は、対応するユーザ端末の「音声入力」モードをオンに設定し、「音量入力」モードをオフに設定する(ステップ45)。
この後、サーバ10は、スピーカーフォン30の出力をオンに設定する(ステップ46)。
【0096】
スピーカーフォン30が接続されないユーザの場合(選択ボタン254Dを操作したユーザの場合)、サーバ10は、ステップ44で否定結果を得る。この場合、サーバ10は、対応するユーザ端末の「音声入力」モードをオフに設定し、「音量入力」モードをオンに設定する(ステップ47)。
この後、サーバ10は、スピーカー28の出力をオフに設定する(ステップ48)。
このリモート制御は、ユーザによるユーザ端末20の設定を支援する機能であり、設定の誤りが低減される。その結果、話者の特定の精度が向上するのはもちろん、ハウリングも低減される。
【0097】
(6)前述の実施の形態では、共有画面253(図14参照)にはウェブ会議に参加しているユーザ名の一覧が表示されるものの、各ユーザの参加の形態は表示されていなかった。すなわち、どのユーザが同じ集合に属し、どのユーザが集合に属していないかは共有画面253上に表示されていなかった。
図29は、参加の形態の表示例を説明する図である。図29には、図14との対応部分に対応する符号を付して示している。
図29に示す共有画面253には、ウェブ会議に参加しているAさん、Bさん、Cさん、Dさんの一覧に加え、同じ集合に属するBさん、Cさん、Dさんが1つの枠255で囲まれて表示されている。枠255が表示されることで、Aさんが集合に属さないことが分かる。図29に示す共有画面253は、集合に属する参加者の情報を、集合に属さない他の参加者とは異なる態様で表示する例である。
【0098】
なお、枠255とは異なる表示に態様を採用してもよい。例えばBさん、Cさん、Dさんの背景色を、Aさんの背景色とは異なる色で共通化してもよい。また例えばBさん、Cさん、Dさんの表示色を、Aさんの表示色とは異なる色で共通化してもよい。また例えばBさん、Cさん、Dさんの位置にだけ、スピーカーフォン30のアイコン、記号、マーク等を付して表示してもよい。また例えばBさん、Cさん、Dさんの表示の形態をAさんの表示の形態と異ならせてもよい。
この他、集合内での参加の形態の違いを表現してもよい。例えばスピーカーフォン30が自端末に接続されるBさんと、スピーカーフォン30が自端末に接続されないCさん、Dさんでは表示の形態を異ならせてもよい。
【0099】
図30は、ウェブ会議の参加者に複数の集合が含まれる場合の共有画面253の表示例を説明する図である。図30には、図1及び図29との対応部分に対応する符号を付して示している。
図30の場合、ウェブ会議には、Aさん、Bさん、Cさん、Dさん、Eさん、Fさんの6名が参加している。
Aさんは単独でウェブ会議に参加し、Bさん、Cさん、Dさんは1つの部屋に集合した状態でウェブ会議に参加し、Eさん、FさんはBさん達とは別の1つの部屋に集合した状態でウェブ会議に参加している。
このため、図30に示す共有画面253では、枠255が2つ表示されている。1つの枠255にはBさん、Cさん、Dさんが配置され、別の枠255にはEさん、Fさんが配置される。
【0100】
(7)前述した実施の形態におけるプロセッサは、広義的な意味でのプロセッサを指し、汎用的なプロセッサ(例えばCPU等)の他、専用的なプロセッサ(例えばGPU(=Graphical Processing Unit)、ASIC、FPGA(=Field Programmable Gate Array)、プログラム論理デバイス等)を含む。
また、前述した各実施の形態におけるプロセッサの動作は、1つのプロセッサが単独で実行してもよいが、物理的に離れた位置に存在する複数のプロセッサが協働して実行してもよい。また、プロセッサにおける各動作の実行の順番は、前述した各実施の形態に記載した順番のみに限定されるものでなく、個別に変更してもよい。
【0101】
<付記>
(((1)))
ウェブ会議システムのサーバとして動作するコンピュータに、音声入力に使用するマイクを共用する参加者の集合を特定する機能と、集合からの音声の入力中に、集合に属する参加者の端末のうち、前記マイクと接続されていない端末から基準値以上の音量を示す情報が入力されたとき、当該情報の送信元に対応する端末の参加者を話者として特定する機能と、
を実現させるためのプログラム。
(((2)))
前記端末に対応する参加者の情報を共有画面に表示する機能、を更に実現させる(((1)))に記載のプログラム。
(((3)))
前記表示する機能は、話者に特定された参加者が集合に属する場合、話者に特定された参加者が集合に属さない場合とは異なる態様で表示する、(((2)))に記載のプログラム。
(((4)))
集合に属する参加者の情報を、集合に属さない他の参加者とは異なる態様で表示する機能、を更に実現させる(((1)))から(((3)))のいずれか1つに記載のプログラム。
(((5)))
集合が複数含まれる場合、前記表示する機能は、集合の違いを表示する、(((4)))に記載のプログラム。
(((6)))
ウェブ会議への参加を開始する画面に、音量を示す情報の送信を設定するボタンを表示する機能、を更に実現させる(((1)))から(((5))))のいずれか1つに記載のプログラム。
(((7)))
前記ボタンを、音声入力の設定がオフに設定された場合に表示する、(((6)))に記載のプログラム。
(((8)))
前記ボタンは、音声入力の設定がオンに設定されている場合、操作を受け付けない態様で表示される、(((6)))に記載のプログラム。
(((9)))
マイクを他の参加者と共用するモードが選択された場合、前記ボタンを表示する、(((6)))に記載のプログラム。
(((10)))
前記集合を特定する機能は、ウェブ会議への参加を開始する画面において、音量を示す情報を送信する設定が有効化された端末の参加者を集合に紐づける、(((1)))から(((9)))のいずれか1つに記載のプログラム。
(((11)))
前記集合を特定する機能は、集合に紐付けられた参加者の端末のネットワーク上の位置に基づいて、各参加者が属する集合を特定する、(((10)))に記載のプログラム。
(((12)))
前記話者として特定する機能は、同じ集合内で最も大きい音量を示す情報を送信した端末の参加者を話者として特定する、(((1)))から(((11)))のいずれか1つに記載のプログラム。
(((13)))
前記話者として特定する機能は、集合から音声の入力中に、集合に属する参加者の端末から基準値以上の音量を示す情報が入力されないとき、音声を送信した端末に紐付けられている参加者を話者として特定する、(((1)))から(((12)))のいずれか1つに記載のプログラム。
(((14)))
前記話者として特定する機能は、集合に属さない参加者からの音声入力が検出された場合、当該参加者を話者として特定する、請求項(((1)))から(((13))のいずれか1つに記載のプログラム。
(((15)))
同じ集合に属する参加者の端末間でマイクの感度を揃える機能、を更に実現させる(((1)))から(((14)))のいずれか1つに記載のプログラム。
(((16)))
集合に属する参加者の端末から音量を示す情報の入力が検出されるが、同じ集合からの音声の入力が検出されない場合、参加者の音声が検出されない旨を通知する機能、を更に実現させる(((1)))から(((15)))のいずれか1つに記載のプログラム。
(((17)))
集合に属する参加者の端末のうち、音声入力の設定がオンに設定されている端末以外の端末に対し、音声入力をオフに設定する指示と、音量を示す情報をオンに設定する指示を送信する機能、を更に実現させる(((1)))から(((16)))のいずれか1つに記載のプログラム。
(((18)))
前記端末に対応する参加者の情報を、音声に関連付けて記録する機能、を更に実現する(((1)))から(((17)))のいずれか1つに記載のプログラム。
(((19)))
ウェブ会議システムの参加者の端末として動作するコンピュータに、音声入力がオフに設定されている場合、音量を示す情報をサーバに送信する機能、を実現させるためのプログラム。
(((20)))
自端末のカメラで撮像された参加者の表情を処理して発話の有無を検出する機能と、参加者の発話が検出される一方で、基準値以上の音量を示す情報が検出されていない場合、前記サーバに発話の発生を示す情報を送信する機能と、を更に実現させる(((19)))に記載のプログラム。
(((21)))
前記発話の有無を検出する機能は、前記カメラで撮像された画像の前記サーバへの送信がオフに設定されている状態でも実行される、(((20)))に記載のプログラム。
(((22)))
ウェブ会議の参加者の端末と、当該端末間の通信を実現するサーバとを有し、前記端末は、音声入力がオンに設定されている場合には、音声を前記サーバに送信する一方、音声入力がオフに設定されている場合には、音量を示す情報を当該サーバに送信し、前記サーバは、音声入力に使用するマイクを共用する参加者の集合からの音声の入力中に、集合に属する参加者の端末のうち、当該マイクと接続されていない端末から基準値以上の音量を示す情報が入力されたとき、当該情報の送信元に対応する端末の参加者を話者として特定する、、ウェブ会議システム。
【0102】
(((1)))に係るプログラムによれば、ウェブ会議への参加者の一部が1つのマイクを共用する状況でも、実際の話者を特定できる。
(((2)))に係るプログラムによれば、参加者の間で話者の情報を共有できる。
(((3)))に係るプログラムによれば、特定された話者の確度の違いを表示できる。
(((4)))に係るプログラムによれば、参加の形態の違いに関する情報を共有できる。
(((5)))に係るプログラムによれば、参加者が属する集合の違いを表示できる。
(((6)))に係るプログラムによれば、音声入力に使用しない端末に必要な設定を可能にできる。
(((7)))に係るプログラムによれば、音声入力と重複した設定を回避できる。
(((8)))に係るプログラムによれば、音声入力と重複した設定を回避できる。
(((9)))に係るプログラムによれば、音声入力に使用しない端末に必要な設定を可能にできる。
(((10)))に係るプログラムによれば、集合に属する参加者を特定できる。
(((11)))に係るプログラムによれば、同じ集合に属する参加者を特定できる。
(((12)))に係るプログラムによれば、同じ集合内に複数の話者いても主要な話者を特定できる。
(((13)))に係るプログラムによれば、ウェブ会議への参加者の一部が1つのマイクを共用する状況でも、実際の話者の特定できる。
(((14)))に係るプログラムによれば、ウェブ会議への参加者全員を対象として実際の話者を特定できる。
(((15)))に係るプログラムによれば、種類が異なる端末を使用する場合でも話者を正確に特定できる。
(((16)))に係るプログラムによれば、音声入力の異常を参加者に通知できる。
(((17)))に係るプログラムによれば、参加者による設定漏れを予防できる。
(((18)))に係るプログラムによれば、話者と音声の対応関係を事後的に特定できる。
(((19)))に係るプログラムによれば、集合内で音声入力に使用しない端末に対応する参加者を話者として特定可能にできる。
(((20)))に係るプログラムによれば、集合に属する参加者のマイクが故障していても話者の特定を可能にできる。
(((21)))に係るプログラムによれば、集合に属する参加者のマイクが故障していても話者の特定を可能にできる。
(((22)))に係るウェブ会議システムによれば、ウェブ会議への参加者の一部が1つのマイクを共用する状況でも、実際の話者を特定できる。
【符号の説明】
【0103】
1…ウェブ会議システム、10…サーバ、20…ユーザ端末、11、21、31…プロセッサ、25…ディスプレイ、26…カメラ、27、34…マイク、28、35…スピーカー、30…スピーカーフォン、37…LED、38…スイッチ、111…オンライン接続管理部、112…集合特定部、113、219…音声情報受信部、114…音声情報配信部、115…音量情報受信部、116…話者特定部、117…情報提供部、118…マイク感度キャリブレーション部、119…音声異常通知部、120…設定支援部、121…音声/文字変換部、122…会話履歴記録部、211…オンライン接続部、212…マイク感度設定部、213…マイクモード設定部、214…音声入力受付部、215…音声情報送信部、216…音量数値化部、217…音量判定部、218…音量情報送信、220…音声情報再生部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25
図26
図27
図28
図29
図30