(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023049059
(43)【公開日】2023-04-10
(54)【発明の名称】ウェブ会議サーバ、ウェブ会議方法及びウェブ会議システム
(51)【国際特許分類】
G06F 13/00 20060101AFI20230403BHJP
G10L 15/00 20130101ALI20230403BHJP
G10L 15/10 20060101ALI20230403BHJP
G10L 15/32 20130101ALI20230403BHJP
G06F 40/263 20200101ALI20230403BHJP
G06F 40/58 20200101ALI20230403BHJP
【FI】
G06F13/00 650A
G10L15/00 200U
G10L15/10 500N
G10L15/32 220Z
G06F40/263
G06F40/58
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2021158558
(22)【出願日】2021-09-29
(71)【出願人】
【識別番号】521427461
【氏名又は名称】株式会社アジアスター
(74)【代理人】
【識別番号】110003339
【氏名又は名称】弁理士法人南青山国際特許事務所
(72)【発明者】
【氏名】賈 志強
【テーマコード(参考)】
5B084
5B091
【Fターム(参考)】
5B084AA01
5B084AA16
5B084AA23
5B084AA25
5B084AA30
5B084AB06
5B084AB11
5B084AB13
5B084AB31
5B084AB39
5B084BA09
5B084BB01
5B084BB12
5B084CE03
5B084CE12
5B084CF03
5B084CF12
5B084DA14
5B084DA15
5B084DB08
5B084DC02
5B084DC03
5B084DC04
5B084DC06
5B084EA34
5B084EA47
5B091AA01
5B091AA03
5B091CB12
5B091CD15
(57)【要約】
【課題】ウェブ会議の速度及び精度を向上する。
【解決手段】ウェブ会議サーバは、ウェブ会議サーバと複数の音声認識サーバとの通信速度と、複数の音声認識サーバの情報処理速度とを判断する音声認識サーバ速度判断部と、言語属性と、複数の音声認識サーバとの通信速度と、複数の音声認識サーバの情報処理速度とに基づき、複数の音声認識サーバから、特定のユーザに対して使用する特定の音声認識サーバを決定する音声認識サーバ決定部と、特定のユーザに対して使用する特定の音声認識サーバと複数の翻訳サーバとの通信速度と、複数の翻訳サーバの情報処理速度とを判断する翻訳サーバ速度判断部と、複数の翻訳サーバとの通信速度と、複数の翻訳サーバの情報処理速度とに基づき、複数の翻訳サーバから、特定のユーザに対して使用する特定の翻訳サーバを決定する翻訳サーバ決定部と、を具備する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
ウェブ会議サーバであって、
ウェブ会議に参加する複数のユーザに含まれる特定のユーザの音声データを、前記特定のユーザのユーザ端末から取得する音声取得部と、
前記音声データを音声認識し、前記特定のユーザの言語属性を判断する音声認識部と、
前記ウェブ会議サーバと複数の音声認識サーバとの通信速度と、前記複数の音声認識サーバの情報処理速度とを判断する音声認識サーバ速度判断部と、
前記言語属性と、前記複数の音声認識サーバとの通信速度と、前記複数の音声認識サーバの情報処理速度とに基づき、前記複数の音声認識サーバから、前記特定のユーザに対して使用する特定の音声認識サーバを決定する音声認識サーバ決定部と、
前記特定のユーザに対して使用する前記特定の音声認識サーバと複数の翻訳サーバとの通信速度と、前記複数の翻訳サーバの情報処理速度とを判断する翻訳サーバ速度判断部と、
前記複数の翻訳サーバとの通信速度と、前記複数の翻訳サーバの情報処理速度とに基づき、前記複数の翻訳サーバから、前記特定のユーザに対して使用する特定の翻訳サーバを決定する翻訳サーバ決定部と、
前記特定の音声認識サーバに、前記特定のユーザの前記音声データと、前記特定の翻訳サーバを識別する識別情報とを供給することにより、前記特定の音声認識サーバに前記特定のユーザの前記音声データを音声認識させてテキストデータである音声認識データを生成させ、前記特定の翻訳サーバに前記特定のユーザの音声認識データを翻訳させてテキストデータである翻訳データを生成させる音声データ処理要求部と、
を具備し、
前記特定の音声認識サーバ及び前記特定の翻訳サーバの組み合わせは、前記ウェブ会議に参加する複数のユーザ毎に異なる
ウェブ会議サーバ。
【請求項2】
請求項1に記載のウェブ会議サーバであって、
前記音声認識サーバ速度判断部は、前記ウェブ会議の最中に、定期的に、前記ウェブ会議サーバと前記特定の音声認識サーバとの通信速度と、前記特定の音声認識サーバの情報処理速度を判断し、
前記ウェブ会議サーバと前記特定の音声認識サーバとの通信速度及び/又は前記特定の音声認識サーバの情報処理速度が、前記ウェブ会議の最中に閾値未満に変化した場合、
前記音声認識サーバ速度判断部は、前記ウェブ会議サーバと前記複数の音声認識サーバとの通信速度と、前記複数の音声認識サーバの情報処理速度とを判断し、
前記音声認識サーバ決定部は、前記複数の音声認識サーバから、前記特定のユーザに対して使用する特定の音声認識サーバを新たに決定し、
前記音声データ処理要求部は、新たに決定された前記特定の音声認識サーバに、前記特定のユーザの前記音声データと、前記特定の翻訳サーバを識別する識別情報とを供給することにより、前記特定のユーザに対して使用する前記特定の音声認識サーバを前記ウェブ会議の最中に変更する
ウェブ会議サーバ。
【請求項3】
請求項2に記載のウェブ会議サーバであって、
前記特定のユーザに対して使用する前記特定の音声認識サーバを前記ウェブ会議の最中に変更する場合、
前記翻訳サーバ速度判断部は、新たに決定された前記特定の音声認識サーバと複数の翻訳サーバとの通信速度と、前記複数の翻訳サーバの情報処理速度とを判断し、
前記翻訳サーバ決定部は、新たに決定された前記特定の音声認識サーバと前記複数の翻訳サーバとの通信速度と、前記複数の翻訳サーバの情報処理速度とに基づき、前記複数の翻訳サーバから、前記特定のユーザに対して使用する特定の翻訳サーバを新たに決定し、
前記音声データ処理要求部は、新たに決定された前記特定の音声認識サーバに、前記特定のユーザの前記音声データと、新たに決定された前記特定の翻訳サーバを識別する識別情報とを供給することにより、前記特定のユーザに対して使用する前記特定の翻訳サーバを前記ウェブ会議の最中に変更する
ウェブ会議サーバ。
【請求項4】
請求項1乃至3の何れか一項に記載のウェブ会議サーバであって、
前記翻訳サーバ速度判断部は、前記ウェブ会議の最中に、定期的に、前記特定の音声認識サーバと前記特定の翻訳サーバとの通信速度と、前記特定の翻訳サーバの情報処理速度を判断し、
前記特定の音声認識サーバと前記特定の翻訳サーバとの通信速度及び/又は前記特定の翻訳サーバの情報処理速度が、前記ウェブ会議の最中に閾値未満に変化した場合、
前記翻訳サーバ速度判断部は、前記特定の音声認識サーバと前記複数の翻訳サーバとの通信速度と、前記複数の翻訳サーバの情報処理速度とを判断し、
前記翻訳サーバ決定部は、前記複数の翻訳サーバから、前記特定のユーザに対して使用する特定の翻訳サーバを新たに決定し、
前記音声データ処理要求部は、新たに決定された前記特定の音声認識サーバに、前記特定のユーザの前記音声データと、新たに決定された前記特定の翻訳サーバを識別する識別情報とを供給することにより、前記特定のユーザに対して使用する前記特定の翻訳サーバを前記ウェブ会議の最中に変更する
ウェブ会議サーバ。
【請求項5】
請求項3に記載のウェブ会議サーバであって、
前記特定のユーザに対して使用する前記特定の翻訳サーバを前記ウェブ会議の最中に変更する場合、
前記音声認識サーバ速度判断部は、新たに決定された前記特定の翻訳サーバと複数の音声認識サーバとの通信速度と、前記複数の音声認識サーバの情報処理速度とを判断し、
前記音声認識サーバ決定部は、新たに決定された前記特定の翻訳サーバと前記複数の音声認識サーバとの通信速度と、前記複数の音声認識サーバの情報処理速度とに基づき、前記複数の音声認識サーバから、前記特定のユーザに対して使用する特定の音声認識サーバを新たに決定し、
前記音声データ処理要求部は、新たに決定された前記特定の音声認識サーバに、前記特定のユーザの前記音声データと、新たに決定された前記特定の翻訳サーバを識別する識別情報とを供給することにより、前記特定のユーザに対して使用する前記特定の音声認識サーバを前記ウェブ会議の最中に変更する
ウェブ会議サーバ。
【請求項6】
請求項1乃至5の何れか一項に記載のウェブ会議サーバであって、
前記特定の音声認識サーバから前記特定のユーザの前記音声認識データを取得し、前記特定の翻訳サーバから前記特定のユーザの前記翻訳データを取得する処理データ取得部と、
対応する前記音声認識データ及び前記翻訳データの文脈をチェックし、対応する前記音声認識データ及び/又は前記翻訳データをチェック結果に応じて修正する文脈チェック部と、
チェック結果に応じて修正した後の対応する前記音声認識データ及び前記翻訳データを、前記ウェブ会議の最中にリアルタイムに、前記ウェブ会議に参加する複数のユーザの複数の前記ユーザ端末に出力するリアルタイム出力部と、
をさらに具備するウェブ会議サーバ。
【請求項7】
請求項6に記載のウェブ会議サーバであって、
チェック結果に応じて修正した後の対応する前記音声認識データ及び前記翻訳データに基づき、前記ウェブ会議の議事録データを作成し、前記議事録データを、前記ウェブ会議に参加する複数のユーザの複数の前記ユーザ端末に出力する議事録作成部、
をさらに具備するウェブ会議サーバ。
【請求項8】
請求項1乃至7の何れか一項に記載のウェブ会議サーバであって、
前記音声認識部が音声認識した結果に基づき前記ウェブ会議の内容を判断する内容判断部と、
前記音声認識部が音声認識した結果に基づき前記特定のユーザの感情を判断する感情判断部と、
をさらに具備し、
前記翻訳サーバ決定部は、前記ウェブ会議の内容及び/又は前記特定のユーザの感情にさらに基づき、前記特定のユーザに対して使用する特定の翻訳サーバを決定する
ウェブ会議サーバ。
【請求項9】
請求項1乃至8の何れか一項に記載のウェブ会議サーバであって、
前記ウェブ会議サーバが通信する前記ユーザ端末は、前記ユーザ端末のIPアドレスに基づき複数の前記ウェブ会議サーバから最も通信速度の速い特定の前記ウェブ会議サーバを選択し、選択した前記特定のウェブ会議サーバにアクセスし、
前記ユーザ端末がアクセスする前記特定のウェブ会議サーバは、前記ウェブ会議に参加する複数のユーザのユーザ端末毎に異なる
ウェブ会議サーバ。
【請求項10】
ウェブ会議に参加する複数のユーザに含まれる特定のユーザの音声データを、前記特定のユーザのユーザ端末から取得し、
前記音声データを音声認識し、前記特定のユーザの言語属性を判断し、
ウェブ会議サーバと複数の音声認識サーバとの通信速度と、前記複数の音声認識サーバの情報処理速度とを判断し、
前記言語属性と、前記複数の音声認識サーバとの通信速度と、前記複数の音声認識サーバの情報処理速度とに基づき、前記複数の音声認識サーバから、前記特定のユーザに対して使用する特定の音声認識サーバを決定し、
前記特定のユーザに対して使用する前記特定の音声認識サーバと複数の翻訳サーバとの通信速度と、前記複数の翻訳サーバの情報処理速度とを判断し、
前記複数の翻訳サーバとの通信速度と、前記複数の翻訳サーバの情報処理速度とに基づき、前記複数の翻訳サーバから、前記特定のユーザに対して使用する特定の翻訳サーバを決定し、
前記特定の音声認識サーバに、前記特定のユーザの前記音声データと、前記特定の翻訳サーバを識別する識別情報とを供給することにより、前記特定の音声認識サーバに前記特定のユーザの前記音声データを音声認識させてテキストデータである音声認識データを生成させ、前記特定の翻訳サーバに前記特定のユーザの音声認識データを翻訳させてテキストデータである翻訳データを生成させ、
前記特定の音声認識サーバ及び前記特定の翻訳サーバの組み合わせは、前記ウェブ会議に参加する複数のユーザ毎に異なる
ウェブ会議方法。
【請求項11】
ネットワークを介して相互に接続された、ウェブ会議サーバと、
複数の音声認識サーバと、
複数の翻訳サーバと、
を具備し、
前記ウェブ会議サーバは、
ウェブ会議に参加する複数のユーザに含まれる特定のユーザの音声データを、前記特定のユーザのユーザ端末から取得する音声取得部と、
前記音声データを音声認識し、前記特定のユーザの言語属性を判断する音声認識部と、
前記ウェブ会議サーバと前記複数の音声認識サーバとの通信速度と、前記複数の音声認識サーバの情報処理速度とを判断する音声認識サーバ速度判断部と、
前記言語属性と、前記複数の音声認識サーバとの通信速度と、前記複数の音声認識サーバの情報処理速度とに基づき、前記複数の音声認識サーバから、前記特定のユーザに対して使用する特定の音声認識サーバを決定する音声認識サーバ決定部と、
前記特定のユーザに対して使用する前記特定の音声認識サーバと前記複数の翻訳サーバとの通信速度と、前記複数の翻訳サーバの情報処理速度とを判断する翻訳サーバ速度判断部と、
前記複数の翻訳サーバとの通信速度と、前記複数の翻訳サーバの情報処理速度とに基づき、前記複数の翻訳サーバから、前記特定のユーザに対して使用する特定の翻訳サーバを決定する翻訳サーバ決定部と、
前記特定の音声認識サーバに、前記特定のユーザの前記音声データと、前記特定の翻訳サーバを識別する識別情報とを供給することにより、前記特定の音声認識サーバに前記特定のユーザの前記音声データを音声認識させてテキストデータである音声認識データを生成させ、前記特定の翻訳サーバに前記特定のユーザの音声認識データを翻訳させてテキストデータである翻訳データを生成させる音声データ処理要求部と、
を有し、
前記特定の音声認識サーバ及び前記特定の翻訳サーバの組み合わせは、前記ウェブ会議に参加する複数のユーザ毎に異なる
ウェブ会議システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ウェブ会議サービスを提供するウェブ会議サーバ、ウェブ会議方法及びウェブ会議システムに関する。
【背景技術】
【0002】
ネットワークで接続された個々人のユーザ端末を用いて、遠隔地域に居る複数のユーザがオンラインで会議をするウェブ会議システムが知られている。近年では、ビデオ画像を見ながらの音声通話に加えて、音声データを音声認識して得られたテキストを同時に画面に表示するウェブ会議システムもある。COVID-19の流行により遠隔地域間のウェブ会議が益々一般的になる中、音声認識データを会議相手であるユーザが使用する言語に翻訳し、翻訳テキストを同時に画面に表示する技術が望まれる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2019-153099号公報
【特許文献2】特開2019-061594号公報
【特許文献3】特開2017-215931号公報
【特許文献4】特許第6795668号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1は、TV会議システムを利用している場合、テキスト変換処理を行うデバイス(拠点)を、通信速度や装置の処理能力に基づき決定する。特許文献2は、翻訳先の言語を、ユーザが任意に指定したり、対象の会議の出席者や議事録の閲覧権限を有するユーザの属性に応じて言語を自動的に判定したりする。特許文献3は、入力言語と翻訳言語がユーザの操作に基づいて設定される。特許文献4は、会議参加者等は、複数の翻訳辞書を選択する場合に翻訳辞書毎に優先度を設定してもよく、設定された優先度の順に翻訳処理が実行される。
【0005】
以上のような事情に鑑み、本発明の目的は、ウェブ会議の速度及び精度を向上することにある。
【課題を解決するための手段】
【0006】
本発明の一形態に係るウェブ会議サーバは、
ウェブ会議に参加する複数のユーザに含まれる特定のユーザの音声データを、前記特定のユーザのユーザ端末から取得する音声取得部と、
前記音声データを音声認識し、前記特定のユーザの言語属性を判断する音声認識部と、
前記ウェブ会議サーバと複数の音声認識サーバとの通信速度と、前記複数の音声認識サーバの情報処理速度とを判断する音声認識サーバ速度判断部と、
前記言語属性と、前記複数の音声認識サーバとの通信速度と、前記複数の音声認識サーバの情報処理速度とに基づき、前記複数の音声認識サーバから、前記特定のユーザに対して使用する特定の音声認識サーバを決定する音声認識サーバ決定部と、
前記特定のユーザに対して使用する前記特定の音声認識サーバと複数の翻訳サーバとの通信速度と、前記複数の翻訳サーバの情報処理速度とを判断する翻訳サーバ速度判断部と、
前記複数の翻訳サーバとの通信速度と、前記複数の翻訳サーバの情報処理速度とに基づき、前記複数の翻訳サーバから、前記特定のユーザに対して使用する特定の翻訳サーバを決定する翻訳サーバ決定部と、
前記特定の音声認識サーバに、前記特定のユーザの前記音声データと、前記特定の翻訳サーバを識別する識別情報とを供給することにより、前記特定の音声認識サーバに前記特定のユーザの前記音声データを音声認識させてテキストデータである音声認識データを生成させ、前記特定の翻訳サーバに前記特定のユーザの音声認識データを翻訳させてテキストデータである翻訳データを生成させる音声データ処理要求部と、
を具備し、
前記特定の音声認識サーバ及び前記特定の翻訳サーバの組み合わせは、前記ウェブ会議に参加する複数のユーザ毎に異なる。
【発明の効果】
【0007】
本発明によれば、ウェブ会議の速度及び精度の向上を図れる。
【図面の簡単な説明】
【0008】
【
図1】本発明の一実施形態に係るウェブ会議システムを示す。
【
図3】ウェブ会議サーバの第1の動作フローを示す。
【
図4】ウェブ会議サーバの第2の動作フローを示す。
【
図5】ウェブ会議サーバの第3の動作フローを示す。
【発明を実施するための形態】
【0009】
以下、図面を参照しながら、本発明の実施形態を説明する。
【0010】
1.ウェブ会議システムの概要
【0011】
図1は、本発明の一実施形態に係るウェブ会議システムを示す。
【0012】
ウェブ会議システム1は、複数のウェブ会議サーバ10と、複数の音声認識サーバ20と、複数の翻訳サーバ30とを有する。複数のウェブ会議サーバ10と、複数の音声認識サーバ20と、複数の翻訳サーバ30とは、インターネット等のネットワークNを介して相互に接続される。
【0013】
複数のウェブ会議サーバ10は、複数の異なる国や地域にそれぞれ設置される。複数のウェブ会議サーバ10は、ウェブ会議に参加する複数のユーザが使用する複数のユーザ端末40(パーソナルコンピュータ、スマートフォン、タブレットコンピュータ、ウェアラブルデバイス等)とネットワークNを介して通信し、複数のユーザにウェブ会議サービスを提供するコンピュータである。複数のユーザ端末40がアクセスするウェブ会議サーバ10は、同じウェブ会議に参加する複数のユーザであっても、ユーザ端末40毎に異なる。各ウェブ会議サーバ10は、ユーザ毎に、そのユーザに対して使用する特定の音声認識サーバ20及び特定の翻訳サーバ30を決定する。このため、特定の音声認識サーバ20及び特定の翻訳サーバ30の組み合わせは、同じウェブ会議に参加する複数のユーザであっても、ウェブ会議に参加する複数のユーザ毎に異なる。各ウェブ会議サーバ10は、ウェブ会議に参加する特定のユーザの音声データを、そのユーザが使用するユーザ端末40から取得し、音声データを何れかの音声認識サーバ20に供給する。
【0014】
複数の音声認識サーバ20は、複数の異なる国や地域にそれぞれ設置される。複数の音声認識サーバ20は、典型的には、それぞれ異なるプロバイダにより提供され、それぞれ異なる音声認識ソフトウェアを実行するコンピュータである。各音声認識サーバ20は、何れかのウェブ会議サーバ10から、ウェブ会議に参加する特定のユーザの音声データを取得し、音声データを音声認識してテキストデータである音声認識データを生成し、音声認識データを、音声データの供給元であるウェブ会議サーバ10及び特定の翻訳サーバ30に供給する。
【0015】
複数の翻訳サーバ30は、複数の異なる国や地域にそれぞれ設置される。複数の翻訳サーバ30は、典型的には、それぞれ異なるプロバイダにより提供され、それぞれ異なる翻訳ソフトウェアを実行するコンピュータである。各翻訳サーバ30は、何れかの音声認識サーバ20から、ウェブ会議に参加する特定のユーザの音声認識データを取得し、音声認識データを翻訳してテキストデータである翻訳データを生成し、翻訳データを、音声データの供給元であるウェブ会議サーバ10に供給する。
【0016】
ウェブ会議サーバ10は、ウェブ会議に参加する複数のユーザの音声データから得られた音声認識データ及び翻訳データを、ウェブ会議の最中にリアルタイムに、ウェブ会議に参加する複数のユーザの複数のユーザ端末40に出力する。また、ウェブ会議サーバ10は、ウェブ会議終了後に、音声認識データ及び翻訳データの議事録データを作成し、ウェブ会議に参加する複数のユーザの複数のユーザ端末40に出力する。
【0017】
2.ウェブ会議システムの機能的構成
【0018】
【0019】
ウェブ会議サーバ10は、ROMに記録された情報処理プログラムをCPUがRAMにロードして実行することにより、音声取得部101、音声認識部102、音声認識サーバ速度判断部103、音声認識サーバ決定部104、翻訳サーバ速度判断部105、内容判断部106、感情判断部107、翻訳サーバ決定部108、音声データ処理要求部109、処理データ取得部110、文脈チェック部111、リアルタイム出力部112及び議事録作成部113として動作する。ウェブ会議サーバ10は、不揮発性又は揮発性の記憶装置120を有する。
【0020】
ユーザ端末40は、ROMに記録された情報処理プログラムをCPUがRAMにロードして実行することにより、音声入力部401、リアルタイム入力部402及び議事録取得部403として動作する。ユーザ端末40は、外付け又は内蔵のマイク411と、外付け又は内蔵のディスプレイ412と、不揮発性又は揮発性の記憶装置413とを有する。
【0021】
3.ウェブ会議システムの動作フロー
【0022】
図3は、ウェブ会議サーバの第1の動作フロー(ウェブ会議開始から終了まで)を示す。
【0023】
まず、ウェブ会議の開始時に、ウェブ会議に参加する複数のユーザのユーザ端末40は、それぞれ、ユーザ端末40のIPアドレスに基づき、複数のウェブ会議サーバ10から最も通信速度の速い特定の(1個の)ウェブ会議サーバ10を選択し、選択したウェブ会議サーバ10にアクセスし、ウェブ会議へのサインインを要求する。典型的には、各ユーザ端末40は、ユーザ端末40のIPアドレスにより特定される国や地域と最も近い国や地域を特定するIPアドレスを有するウェブ会議サーバ10を選択する。このため、各ユーザ端末40がアクセスする特定のウェブ会議サーバ10は、ウェブ会議に参加する複数のユーザのユーザ端末40毎に異なる。これにより、複数のユーザの複数のユーザ端末40毎に、速度について最適なウェブ会議サーバ10を使用できるとともに、ウェブ会議全体的に見ても処理が分散され安定的な通信及び情報処理を行える。
【0024】
ウェブ会議サーバ10は、ウェブ会議に参加する複数のユーザに含まれる特定のユーザが使用するユーザ端末40からのアクセス及びウェブ会議へのサインイン要求を受け付け、ウェブ会議へのサインインを許可する。以下、特記しない限り、通信を確立した1個のウェブ会議サーバ10及び1個のユーザ端末40と、このユーザ端末40を使用するユーザについて説明する。また、一意に決定したウェブ会議サーバ10、音声認識サーバ20、翻訳サーバ30及びユーザ端末40を、特定のウェブ会議サーバ10、特定の音声認識サーバ20、特定の翻訳サーバ30及び特定のユーザ端末40と称することがある。
【0025】
ウェブ会議が開始すると、ユーザ端末40の音声入力部401は、ユーザからマイク411を介して入力されたユーザの音声データを、通信を確立した1個のウェブ会議サーバ10に供給し始める。
【0026】
ウェブ会議サーバ10の音声取得部101は、ユーザの音声データをユーザ端末40から取得する(ステップS101)。
【0027】
ウェブ会議サーバ10の音声認識部102は、ユーザ端末40から取得された音声データを音声認識し、特定のユーザの言語属性を判断する(ステップS102)。言語属性は、例えば、言語(例えば、英語)、方言(例えば、オーストラリア英語)、訛り(例えば、オランダ語訛り)等を含む。
【0028】
ウェブ会議サーバ10の音声認識サーバ速度判断部103は、ウェブ会議サーバ10と複数の音声認識サーバ20との通信速度と、複数の音声認識サーバ20の情報処理速度とを判断する(ステップS103)。通信速度及び情報処理速度は、それぞれ、基準値のみならず、リアルタイムの速度を含む。
【0029】
ウェブ会議サーバ10の音声認識サーバ決定部104は、音声認識部102が判断した言語属性と、音声認識サーバ速度判断部103が判断したウェブ会議サーバ10と複数の音声認識サーバ20との通信速度及び複数の音声認識サーバ20の情報処理速度とに基づき、複数の音声認識サーバ20から、特定のユーザに対して使用する特定の音声認識サーバ20を決定する(ステップS104)。
【0030】
一例として、音声認識サーバ決定部104は、特定の言語属性の言語認識精度が高く且つウェブ会議サーバ10との距離が近い(結果的に通信速度が速い)1個の音声認識サーバ20を予め規定している。音声認識サーバ決定部104は、この音声認識サーバ20の情報処理速度が所定の閾値以上であれば、この音声認識サーバ20を選択すればよい。別の例として、音声認識サーバ決定部104は、特定の言語属性の言語認識精度が高い複数の音声認識サーバ20の候補を予め規定している。音声認識サーバ決定部104は、この候補から複数の音声認識サーバ20との通信速度が最も速い1個の音声認識サーバ20を選択し、選択した音声認識サーバ20の情報処理速度が所定の閾値以上であれば、この音声認識サーバ20を選択すればよい。
【0031】
ウェブ会議サーバ10の翻訳サーバ速度判断部105は、音声認識サーバ決定部104が決定した、特定のユーザに対して使用する特定の音声認識サーバ20と複数の翻訳サーバ30との通信速度と、複数の翻訳サーバ30の情報処理速度とを判断する(ステップS105)。通信速度及び情報処理速度は、それぞれ、基準値のみならず、リアルタイムの速度を含む。
【0032】
ウェブ会議サーバ10の内容判断部106は、音声認識部102が音声認識した結果に基づきウェブ会議の内容を判断する(ステップS106)。内容判断部106は、例えば、予め作成されたAIモデルに音声認識部102が音声認識した結果を入力することで、ウェブ会議の内容を判断すればよい。ウェブ会議の内容は、例えば、スポーツや化学等のウェブ会議全体のテーマでよい。
【0033】
ウェブ会議サーバ10の感情判断部107は、音声認識部102が音声認識した結果に基づきユーザの感情(苛々、穏やか等)を判断する(ステップS107)。感情判断部107は、例えば、予め作成されたAIモデルに音声認識部102が音声認識した結果を入力することで、ユーザの感情を判断すればよい。
【0034】
ウェブ会議サーバ10の翻訳サーバ決定部108は、翻訳サーバ速度判断部105が判断した特定の音声認識サーバ20と複数の翻訳サーバ30との通信速度と、複数の翻訳サーバ30の情報処理速度とに基づき、複数の翻訳サーバ30から、特定のユーザに対して使用する特定の翻訳サーバ30を決定する。翻訳サーバ決定部108は、内容判断部106が判断したウェブ会議の内容及び/又は感情判断部107が判断した特定のユーザの感情にさらに基づき、特定のユーザに対して使用する特定の翻訳サーバ30を決定してもよい(ステップS108)。
【0035】
一例として、翻訳サーバ決定部108は、特定の内容及び/又は特定の感情の翻訳精度が高く且つウェブ会議サーバ10との距離が近い(結果的に通信速度が速い)1個の翻訳サーバ30を予め規定している。翻訳サーバ決定部108は、この翻訳サーバ30の情報処理速度が所定の閾値以上であれば、この翻訳サーバ30を選択すればよい。別の例として、翻訳サーバ決定部108は、特定の内容及び/又は特定の感情の翻訳精度が高い複数の翻訳サーバ30の候補を予め規定している。翻訳サーバ決定部108は、この候補から複数の翻訳サーバ30との通信速度が最も速い1個の翻訳サーバ30を選択し、選択した翻訳サーバ30の情報処理速度が所定の閾値以上であれば、この翻訳サーバ30を選択すればよい。
【0036】
ウェブ会議サーバ10の音声データ処理要求部109は、音声認識サーバ決定部104が決定した音声認識サーバ20に、音声取得部101が取得したユーザの音声データと、翻訳サーバ決定部108が決定した翻訳サーバ30を識別する識別情報とを供給し、処理を要求する(ステップS109)。特定の音声認識サーバ20及び特定の翻訳サーバ30の組み合わせは、ウェブ会議に参加する複数のユーザ毎に異なる。これにより、複数のユーザの複数のユーザ端末40毎に、速度及び精度の両方について最適な音声認識サーバ20及び翻訳サーバ30を使用できるとともに、ウェブ会議全体的に見ても処理が分散され安定的な通信及び情報処理を行える。
【0037】
音声認識サーバ20は、ウェブ会議サーバ10の音声データ処理要求部109から、特定のユーザの音声データと、翻訳サーバ決定部108が決定した翻訳サーバ30を識別する識別情報(IPアドレス等)とを取得する。音声認識サーバ20は、音声認識してテキストデータである音声認識データを生成し、音声認識データを、音声データの供給元であるウェブ会議サーバ10及び識別情報により識別される翻訳サーバ30に供給する。
【0038】
翻訳サーバ30は、音声認識サーバ20から、音声認識データと、音声データの供給元であるウェブ会議サーバ10を識別する識別情報(IPアドレス等)とを取得する。翻訳サーバ30は、音声認識データを翻訳してテキストデータである翻訳データを生成し、翻訳データを、識別情報により識別されるウェブ会議サーバ10に供給する。
【0039】
ウェブ会議サーバ10の処理データ取得部110は、音声認識サーバ20から特定のユーザの音声認識データを取得し、特定の翻訳サーバ30から特定のユーザの翻訳データを取得する(ステップS110)。
【0040】
ウェブ会議サーバ10の文脈チェック部111は、対応する音声認識データ及び翻訳データを同期して、対応する音声認識データ及び翻訳データの文脈をチェックし、対応する音声認識データ及び/又は翻訳データをチェック結果に応じて修正する(ステップS111)。文脈チェック部111は、例えば、予め作成されたAIモデルに音声認識データ及び翻訳データを入力することで、音声認識データ及び翻訳データの文脈をチェックすればよい。文脈チェック部111は、チェック結果に応じて修正した後の対応する音声認識データ及び翻訳データを、記憶装置120に記憶する。
【0041】
記憶装置120は、少なくともウェブ会議の最中及び終了後所定期間に音声認識データ及び翻訳データを記憶すればよく、不揮発性又は揮発性の何れの記憶装置でもよい。なおチェック結果に応じて修正した後のデータとは、チェック結果に基づき修正が必要無く修正無しのデータも含む。
【0042】
ウェブ会議サーバ10のリアルタイム出力部112は、チェック結果に応じて修正した後の対応する音声認識データ及び翻訳データを、ウェブ会議の最中にリアルタイムに、ウェブ会議に参加する複数のユーザの複数のユーザ端末40に出力する(ステップS112)。即ち、リアルタイム出力部112は、この音声認識データ及び翻訳データのもととなる音声データを入力したユーザ端末40だけではなく、ウェブ会議に参加する全員のユーザの複数のユーザ端末40に出力する。
【0043】
ウェブ会議に参加する全員のユーザの複数のユーザ端末40のリアルタイム入力部402は、ウェブ会議サーバ10のリアルタイム出力部112から、ウェブ会議の最中にリアルタイムに、チェック結果に応じて修正した後の対応する音声認識データ及び翻訳データを取得する。リアルタイム入力部402は、ウェブ会議の最中にリアルタイムに、テキストデータである音声認識データ及び翻訳データをディスプレイ412に表示する。
【0044】
ウェブ会議終了後、ウェブ会議サーバ10の議事録作成部113は、チェック結果に応じて修正した後の対応する音声認識データ及び翻訳データを記憶装置120から読み出し、読み出した音声認識データ及び翻訳データに基づき、ウェブ会議の議事録データを作成する。具体的には、何れかのウェブ会議サーバ10の議事録作成部113は、ウェブ会議に参加する複数のユーザの複数のユーザ端末40がアクセスする複数のウェブ会議サーバ10の記憶装置120から、全てのユーザの音声認識データ及び翻訳データを取得し、取得した音声認識データ及び翻訳データを時系列順に並べて議事録データを作成する。議事録作成部113は、作成した議事録データを、ウェブ会議に参加する複数のユーザの複数のユーザ端末40に出力する。
【0045】
各ユーザ端末40の議事録取得部403は、ウェブ会議サーバ10の議事録作成部113から、議事録データを取得し、記憶装置413に記憶する。記憶装置413は、少なくともウェブ会議の終了後所定期間に音声認識データ及び翻訳データを記憶すればよく、不揮発性又は揮発性の何れの記憶装置でもよい。
【0046】
図4は、ウェブ会議サーバの第2の動作フロー(ウェブ会議の最中)を示す。
【0047】
ウェブ会議サーバ10の音声認識サーバ速度判断部103は、ウェブ会議の最中に、定期的に(Loop)、ウェブ会議サーバ10と特定の(通信中の)音声認識サーバ20との通信速度と、特定の(通信中の)音声認識サーバ20の情報処理速度を判断する(ステップS201)。通信速度及び情報処理速度は、それぞれ、リアルタイムの速度である。音声認識サーバ速度判断部103は、ウェブ会議サーバ10と特定の音声認識サーバ20との通信速度及び/又は特定の音声認識サーバ20の情報処理速度が、ウェブ会議の最中に閾値未満に変化したか否かを判断する(ステップS202)。閾値は、例えば、円滑なウェブ会議を行うために速度的に許容できない値である。
【0048】
ウェブ会議サーバ10と特定の音声認識サーバ20との通信速度及び/又は特定の音声認識サーバ20の情報処理速度が、ウェブ会議の最中に閾値未満に変化した場合(ステップS202、YES)、音声認識サーバ速度判断部103は、ウェブ会議サーバ10と複数の音声認識サーバ20(通信中の音声認識サーバ20以外の複数の音声認識サーバ20)との通信速度と、複数の音声認識サーバ20の情報処理速度とを判断する(ステップS203)。通信速度及び情報処理速度は、それぞれ、リアルタイムの速度である。
【0049】
ウェブ会議サーバ10の音声認識サーバ決定部104は、音声認識部102が判断(ステップS102)した言語属性と、音声認識サーバ速度判断部103が判断したウェブ会議サーバ10と複数の音声認識サーバ20との通信速度及び複数の音声認識サーバ20の情報処理速度(ステップS203)とに基づき、複数の音声認識サーバ20から、特定のユーザに対して使用する特定の音声認識サーバ20を、新たに決定する(ステップS204)。音声認識サーバ決定部104は、ステップS104で説明した例と同様の方法で、特定の音声認識サーバ20を新たに決定すればよい。なお、新たに決定する音声認識サーバ20は、通信中の音声認識サーバ20から変更されない場合もあり得る。
【0050】
特定のユーザに対して使用する特定の音声認識サーバ20をウェブ会議の最中に変更する場合(ステップS205、YES)、ウェブ会議サーバ10の翻訳サーバ速度判断部105は、新たに決定された特定の音声認識サーバ20と複数の翻訳サーバ30との通信速度と、複数の翻訳サーバ30の情報処理速度とを判断する(ステップS206)。通信速度及び情報処理速度は、それぞれ、リアルタイムの速度である。
【0051】
新たに決定された特定の音声認識サーバ20と複数の翻訳サーバ30との通信速度と、複数の翻訳サーバ30の情報処理速度とを判断する(ステップS206)理由は、新たな音声認識サーバ20(ステップS205、YES)に対して最適な翻訳サーバ30が、通信中の翻訳サーバ30以外の翻訳サーバ30である可能性があるからである。これにより、新たな音声認識サーバ20と協働するのに最適な翻訳サーバ30を選択することで、総合的に、速度及び精度の両方について最適な音声認識サーバ20と翻訳サーバ30との組を、リアルタイムに選択することができる。
【0052】
ウェブ会議サーバ10の翻訳サーバ決定部108は、新たに決定された特定の音声認識サーバ20と複数の翻訳サーバ30との通信速度と、複数の翻訳サーバ30の情報処理速度とに基づき、複数の翻訳サーバ30から、特定のユーザに対して使用する特定の翻訳サーバ30を新たに決定する(ステップS207)。翻訳サーバ決定部108は、ステップS108で説明した例と同様の方法で、特定の翻訳サーバ30を新たに決定すればよい。なお、新たに決定する翻訳サーバ30は、通信中の翻訳サーバ30から変更されない場合もあり得る。
【0053】
特定のユーザに対して使用する特定の翻訳サーバ30をウェブ会議の最中に変更しない場合(ステップS208、NO)、音声データ処理要求部109は、新たに決定された特定の音声認識サーバ20に、特定のユーザの音声データと、特定の(通信中の)翻訳サーバ30を識別する識別情報とを供給する(ステップS209)。これにより、特定のユーザに対して使用する特定の音声認識サーバ20が、ウェブ会議の最中に変更され、リアルタイムで、速度及び精度の両方について最適な音声認識サーバ20を使用できるとともに、ウェブ会議全体的に見ても処理が分散され安定的な通信及び情報処理を行える。
【0054】
一方、特定のユーザに対して使用する特定の翻訳サーバ30をウェブ会議の最中に変更する場合(ステップS208、YES)、ウェブ会議サーバ10の音声データ処理要求部109は、新たに決定された特定の音声認識サーバ20に、特定のユーザの音声データと、新たに決定された特定の翻訳サーバ30を識別する識別情報とを供給する(ステップS210)。これにより、さらに、特定のユーザに対して使用する特定の翻訳サーバ30が、ウェブ会議の最中に変更され、リアルタイムで、速度及び精度の両方について最適な翻訳サーバ30を使用できるとともに、ウェブ会議全体的に見ても処理が分散され安定的な通信及び情報処理を行える。
【0055】
図5は、ウェブ会議サーバの第3の動作フロー(ウェブ会議の最中)を示す。
【0056】
ウェブ会議サーバ10の翻訳サーバ速度判断部105は、ウェブ会議の最中に、定期的に(Loop)、特定の(通信中の)音声認識サーバ20と特定の(通信中の)翻訳サーバ30との通信速度と、特定の(通信中の)翻訳サーバ30の情報処理速度を判断する(ステップS301)。通信速度及び情報処理速度は、それぞれ、リアルタイムの速度である。翻訳サーバ速度判断部105は、特定の音声認識サーバ20と特定の翻訳サーバ30との通信速度及び/又は特定の翻訳サーバ30の情報処理速度が、ウェブ会議の最中に閾値未満に変化したか否かを判断する(ステップS302)。閾値は、例えば、円滑なウェブ会議を行うために速度的に許容できない値である。
【0057】
特定の音声認識サーバ20と特定の翻訳サーバ30との通信速度及び/又は特定の翻訳サーバ30の情報処理速度が、ウェブ会議の最中に閾値未満に変化した場合(ステップS302、YES)、翻訳サーバ速度判断部105は、特定の(通信中の)音声認識サーバ20と複数の翻訳サーバ30(通信中の翻訳サーバ30以外の複数の翻訳サーバ30)との通信速度と、複数の翻訳サーバ30の情報処理速度とを判断する(ステップS303)。通信速度及び情報処理速度は、それぞれ、リアルタイムの速度である。
【0058】
ウェブ会議サーバ10の翻訳サーバ決定部108は、翻訳サーバ速度判断部105が判断した特定の音声認識サーバ20と複数の翻訳サーバ30との通信速度と、複数の翻訳サーバ30の情報処理速度(ステップS303)とに基づき、複数の翻訳サーバ30から、特定のユーザに対して使用する特定の翻訳サーバ30を、新たに決定する(ステップS304)。翻訳サーバ決定部108は、ステップS108で説明した例と同様の方法で、特定の翻訳サーバ30を新たに決定すればよい。なお、新たに決定する翻訳サーバ30は、通信中の翻訳サーバ30から変更されない場合もあり得る。
【0059】
特定のユーザに対して使用する特定の翻訳サーバ30をウェブ会議の最中に変更する場合(ステップS305、YES)、ウェブ会議サーバ10の音声認識サーバ速度判断部103は、ウェブ会議サーバ10と複数の音声認識サーバ20との通信速度と、複数の音声認識サーバ20の情報処理速度とを判断する(ステップS306)。通信速度及び情報処理速度は、それぞれ、リアルタイムの速度である。
【0060】
複数の音声認識サーバ20の速度を判断する(ステップS306)理由は、特定の音声認識サーバ20と特定の翻訳サーバ30との通信速度及び/又は特定の翻訳サーバ30の情報処理速度が、ウェブ会議の最中に閾値未満に変化した(ステップS302、YES)ということは、特定の音声認識サーバ20に問題がある可能性があり、その場合は使用する音声認識サーバ20を変更したほうが良い場合があるからである。これにより、新たな翻訳サーバ30と協働するのに最適な音声認識サーバ20を選択することで、総合的に、速度及び精度の両方について最適な音声認識サーバ20と翻訳サーバ30との組を、リアルタイムに選択することができる。
【0061】
ウェブ会議サーバ10の音声認識サーバ決定部104は、音声認識部102が判断した言語属性(ステップS102)と、音声認識サーバ速度判断部103が判断したウェブ会議サーバ10と複数の音声認識サーバ20との通信速度及び複数の音声認識サーバ20の情報処理速度(ステップS306)とに基づき、複数の音声認識サーバ20から、特定のユーザに対して使用する特定の音声認識サーバ20を新たに決定する(ステップS307)。音声認識サーバ決定部104は、ステップS104で説明した例と同様の方法で、特定の音声認識サーバ20を新たに決定すればよい。なお、新たに決定する音声認識サーバ20は、通信中の音声認識サーバ20から変更されない場合もあり得る。
【0062】
特定のユーザに対して使用する特定の音声認識サーバ20をウェブ会議の最中に変更しない場合(ステップS308、NO)、音声データ処理要求部109は、特定の(通信中の)音声認識サーバ20に、特定のユーザの音声データと、新たに決定された翻訳サーバ30を識別する識別情報とを供給する(ステップS309)。これにより、特定のユーザに対して使用する特定の翻訳サーバ30が、ウェブ会議の最中に変更され、リアルタイムで、速度及び精度の両方について最適な翻訳サーバ30を使用できるとともに、ウェブ会議全体的に見ても処理が分散され安定的な通信及び情報処理を行える。
【0063】
一方、特定のユーザに対して使用する特定の音声認識サーバ20をウェブ会議の最中に変更する場合(ステップS308、YES)、ウェブ会議サーバ10の音声データ処理要求部109は、新たに決定された特定の音声認識サーバ20に、特定のユーザの音声データと、新たに決定された特定の翻訳サーバ30を識別する識別情報とを供給する(ステップS310)。これにより、さらに、特定のユーザに対して使用する特定の音声認識サーバ20が、ウェブ会議の最中に変更され、リアルタイムで、速度及び精度の両方について最適な音声認識サーバ20を使用できるとともに、ウェブ会議全体的に見ても処理が分散され安定的な通信及び情報処理を行える。
【0064】
本技術の各実施形態及び各変形例について上に説明したが、本技術は上述の実施形態にのみ限定されるものではなく、本技術の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。
【符号の説明】
【0065】
ウェブ会議システム1
ウェブ会議サーバ10
音声認識サーバ20
翻訳サーバ30
ユーザ端末40