特開2023-49059 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社アジアスターの特許一覧

特開2023-49059ウェブ会議サーバ、ウェブ会議方法及びウェブ会議システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023049059

(43)【公開日】2023-04-10

(54)【発明の名称】ウェブ会議サーバ、ウェブ会議方法及びウェブ会議システム

(51)【国際特許分類】

G06F 13/00 20060101AFI20230403BHJP

G10L 15/00 20130101ALI20230403BHJP

G10L 15/10 20060101ALI20230403BHJP

G10L 15/32 20130101ALI20230403BHJP

G06F 40/263 20200101ALI20230403BHJP

G06F 40/58 20200101ALI20230403BHJP

【ＦＩ】

G06F13/00 650A

G10L15/00 200U

G10L15/10 500N

G10L15/32 220Z

G06F40/263

G06F40/58

【審査請求】未請求

【請求項の数】11

【出願形態】ＯＬ

(21)【出願番号】P 2021158558

(22)【出願日】2021-09-29

(71)【出願人】

【識別番号】521427461

【氏名又は名称】株式会社アジアスター

(74)【代理人】

【識別番号】110003339

【氏名又は名称】弁理士法人南青山国際特許事務所

(72)【発明者】

【氏名】賈志強

【テーマコード（参考）】

5B084

5B091

【Ｆターム（参考）】

5B084AA01

5B084AA16

5B084AA23

5B084AA25

5B084AA30

5B084AB06

5B084AB11

5B084AB13

5B084AB31

5B084AB39

5B084BA09

5B084BB01

5B084BB12

5B084CE03

5B084CE12

5B084CF03

5B084CF12

5B084DA14

5B084DA15

5B084DB08

5B084DC02

5B084DC03

5B084DC04

5B084DC06

5B084EA34

5B084EA47

5B091AA01

5B091AA03

5B091CB12

5B091CD15

(57)【要約】

【課題】ウェブ会議の速度及び精度を向上する。
【解決手段】ウェブ会議サーバは、ウェブ会議サーバと複数の音声認識サーバとの通信速度と、複数の音声認識サーバの情報処理速度とを判断する音声認識サーバ速度判断部と、言語属性と、複数の音声認識サーバとの通信速度と、複数の音声認識サーバの情報処理速度とに基づき、複数の音声認識サーバから、特定のユーザに対して使用する特定の音声認識サーバを決定する音声認識サーバ決定部と、特定のユーザに対して使用する特定の音声認識サーバと複数の翻訳サーバとの通信速度と、複数の翻訳サーバの情報処理速度とを判断する翻訳サーバ速度判断部と、複数の翻訳サーバとの通信速度と、複数の翻訳サーバの情報処理速度とに基づき、複数の翻訳サーバから、特定のユーザに対して使用する特定の翻訳サーバを決定する翻訳サーバ決定部と、を具備する。
【選択図】図２

【特許請求の範囲】

【請求項1】

ウェブ会議サーバであって、
ウェブ会議に参加する複数のユーザに含まれる特定のユーザの音声データを、前記特定のユーザのユーザ端末から取得する音声取得部と、
前記音声データを音声認識し、前記特定のユーザの言語属性を判断する音声認識部と、
前記ウェブ会議サーバと複数の音声認識サーバとの通信速度と、前記複数の音声認識サーバの情報処理速度とを判断する音声認識サーバ速度判断部と、
前記言語属性と、前記複数の音声認識サーバとの通信速度と、前記複数の音声認識サーバの情報処理速度とに基づき、前記複数の音声認識サーバから、前記特定のユーザに対して使用する特定の音声認識サーバを決定する音声認識サーバ決定部と、
前記特定のユーザに対して使用する前記特定の音声認識サーバと複数の翻訳サーバとの通信速度と、前記複数の翻訳サーバの情報処理速度とを判断する翻訳サーバ速度判断部と、
前記複数の翻訳サーバとの通信速度と、前記複数の翻訳サーバの情報処理速度とに基づき、前記複数の翻訳サーバから、前記特定のユーザに対して使用する特定の翻訳サーバを決定する翻訳サーバ決定部と、
前記特定の音声認識サーバに、前記特定のユーザの前記音声データと、前記特定の翻訳サーバを識別する識別情報とを供給することにより、前記特定の音声認識サーバに前記特定のユーザの前記音声データを音声認識させてテキストデータである音声認識データを生成させ、前記特定の翻訳サーバに前記特定のユーザの音声認識データを翻訳させてテキストデータである翻訳データを生成させる音声データ処理要求部と、
を具備し、
前記特定の音声認識サーバ及び前記特定の翻訳サーバの組み合わせは、前記ウェブ会議に参加する複数のユーザ毎に異なる
ウェブ会議サーバ。

【請求項2】

請求項１に記載のウェブ会議サーバであって、
前記音声認識サーバ速度判断部は、前記ウェブ会議の最中に、定期的に、前記ウェブ会議サーバと前記特定の音声認識サーバとの通信速度と、前記特定の音声認識サーバの情報処理速度を判断し、
前記ウェブ会議サーバと前記特定の音声認識サーバとの通信速度及び／又は前記特定の音声認識サーバの情報処理速度が、前記ウェブ会議の最中に閾値未満に変化した場合、
前記音声認識サーバ速度判断部は、前記ウェブ会議サーバと前記複数の音声認識サーバとの通信速度と、前記複数の音声認識サーバの情報処理速度とを判断し、
前記音声認識サーバ決定部は、前記複数の音声認識サーバから、前記特定のユーザに対して使用する特定の音声認識サーバを新たに決定し、
前記音声データ処理要求部は、新たに決定された前記特定の音声認識サーバに、前記特定のユーザの前記音声データと、前記特定の翻訳サーバを識別する識別情報とを供給することにより、前記特定のユーザに対して使用する前記特定の音声認識サーバを前記ウェブ会議の最中に変更する
ウェブ会議サーバ。

【請求項3】

請求項２に記載のウェブ会議サーバであって、
前記特定のユーザに対して使用する前記特定の音声認識サーバを前記ウェブ会議の最中に変更する場合、
前記翻訳サーバ速度判断部は、新たに決定された前記特定の音声認識サーバと複数の翻訳サーバとの通信速度と、前記複数の翻訳サーバの情報処理速度とを判断し、
前記翻訳サーバ決定部は、新たに決定された前記特定の音声認識サーバと前記複数の翻訳サーバとの通信速度と、前記複数の翻訳サーバの情報処理速度とに基づき、前記複数の翻訳サーバから、前記特定のユーザに対して使用する特定の翻訳サーバを新たに決定し、
前記音声データ処理要求部は、新たに決定された前記特定の音声認識サーバに、前記特定のユーザの前記音声データと、新たに決定された前記特定の翻訳サーバを識別する識別情報とを供給することにより、前記特定のユーザに対して使用する前記特定の翻訳サーバを前記ウェブ会議の最中に変更する
ウェブ会議サーバ。

【請求項4】

請求項１乃至３の何れか一項に記載のウェブ会議サーバであって、
前記翻訳サーバ速度判断部は、前記ウェブ会議の最中に、定期的に、前記特定の音声認識サーバと前記特定の翻訳サーバとの通信速度と、前記特定の翻訳サーバの情報処理速度を判断し、
前記特定の音声認識サーバと前記特定の翻訳サーバとの通信速度及び／又は前記特定の翻訳サーバの情報処理速度が、前記ウェブ会議の最中に閾値未満に変化した場合、
前記翻訳サーバ速度判断部は、前記特定の音声認識サーバと前記複数の翻訳サーバとの通信速度と、前記複数の翻訳サーバの情報処理速度とを判断し、
前記翻訳サーバ決定部は、前記複数の翻訳サーバから、前記特定のユーザに対して使用する特定の翻訳サーバを新たに決定し、
前記音声データ処理要求部は、新たに決定された前記特定の音声認識サーバに、前記特定のユーザの前記音声データと、新たに決定された前記特定の翻訳サーバを識別する識別情報とを供給することにより、前記特定のユーザに対して使用する前記特定の翻訳サーバを前記ウェブ会議の最中に変更する
ウェブ会議サーバ。

【請求項5】

請求項３に記載のウェブ会議サーバであって、
前記特定のユーザに対して使用する前記特定の翻訳サーバを前記ウェブ会議の最中に変更する場合、
前記音声認識サーバ速度判断部は、新たに決定された前記特定の翻訳サーバと複数の音声認識サーバとの通信速度と、前記複数の音声認識サーバの情報処理速度とを判断し、
前記音声認識サーバ決定部は、新たに決定された前記特定の翻訳サーバと前記複数の音声認識サーバとの通信速度と、前記複数の音声認識サーバの情報処理速度とに基づき、前記複数の音声認識サーバから、前記特定のユーザに対して使用する特定の音声認識サーバを新たに決定し、
前記音声データ処理要求部は、新たに決定された前記特定の音声認識サーバに、前記特定のユーザの前記音声データと、新たに決定された前記特定の翻訳サーバを識別する識別情報とを供給することにより、前記特定のユーザに対して使用する前記特定の音声認識サーバを前記ウェブ会議の最中に変更する
ウェブ会議サーバ。

【請求項6】

請求項１乃至５の何れか一項に記載のウェブ会議サーバであって、
前記特定の音声認識サーバから前記特定のユーザの前記音声認識データを取得し、前記特定の翻訳サーバから前記特定のユーザの前記翻訳データを取得する処理データ取得部と、
対応する前記音声認識データ及び前記翻訳データの文脈をチェックし、対応する前記音声認識データ及び／又は前記翻訳データをチェック結果に応じて修正する文脈チェック部と、
チェック結果に応じて修正した後の対応する前記音声認識データ及び前記翻訳データを、前記ウェブ会議の最中にリアルタイムに、前記ウェブ会議に参加する複数のユーザの複数の前記ユーザ端末に出力するリアルタイム出力部と、
をさらに具備するウェブ会議サーバ。

【請求項7】

請求項６に記載のウェブ会議サーバであって、
チェック結果に応じて修正した後の対応する前記音声認識データ及び前記翻訳データに基づき、前記ウェブ会議の議事録データを作成し、前記議事録データを、前記ウェブ会議に参加する複数のユーザの複数の前記ユーザ端末に出力する議事録作成部、
をさらに具備するウェブ会議サーバ。

【請求項8】

請求項１乃至７の何れか一項に記載のウェブ会議サーバであって、
前記音声認識部が音声認識した結果に基づき前記ウェブ会議の内容を判断する内容判断部と、
前記音声認識部が音声認識した結果に基づき前記特定のユーザの感情を判断する感情判断部と、
をさらに具備し、
前記翻訳サーバ決定部は、前記ウェブ会議の内容及び／又は前記特定のユーザの感情にさらに基づき、前記特定のユーザに対して使用する特定の翻訳サーバを決定する
ウェブ会議サーバ。

【請求項9】

請求項１乃至８の何れか一項に記載のウェブ会議サーバであって、
前記ウェブ会議サーバが通信する前記ユーザ端末は、前記ユーザ端末のＩＰアドレスに基づき複数の前記ウェブ会議サーバから最も通信速度の速い特定の前記ウェブ会議サーバを選択し、選択した前記特定のウェブ会議サーバにアクセスし、
前記ユーザ端末がアクセスする前記特定のウェブ会議サーバは、前記ウェブ会議に参加する複数のユーザのユーザ端末毎に異なる
ウェブ会議サーバ。

【請求項10】

ウェブ会議に参加する複数のユーザに含まれる特定のユーザの音声データを、前記特定のユーザのユーザ端末から取得し、
前記音声データを音声認識し、前記特定のユーザの言語属性を判断し、
ウェブ会議サーバと複数の音声認識サーバとの通信速度と、前記複数の音声認識サーバの情報処理速度とを判断し、
前記言語属性と、前記複数の音声認識サーバとの通信速度と、前記複数の音声認識サーバの情報処理速度とに基づき、前記複数の音声認識サーバから、前記特定のユーザに対して使用する特定の音声認識サーバを決定し、
前記特定のユーザに対して使用する前記特定の音声認識サーバと複数の翻訳サーバとの通信速度と、前記複数の翻訳サーバの情報処理速度とを判断し、
前記複数の翻訳サーバとの通信速度と、前記複数の翻訳サーバの情報処理速度とに基づき、前記複数の翻訳サーバから、前記特定のユーザに対して使用する特定の翻訳サーバを決定し、
前記特定の音声認識サーバに、前記特定のユーザの前記音声データと、前記特定の翻訳サーバを識別する識別情報とを供給することにより、前記特定の音声認識サーバに前記特定のユーザの前記音声データを音声認識させてテキストデータである音声認識データを生成させ、前記特定の翻訳サーバに前記特定のユーザの音声認識データを翻訳させてテキストデータである翻訳データを生成させ、
前記特定の音声認識サーバ及び前記特定の翻訳サーバの組み合わせは、前記ウェブ会議に参加する複数のユーザ毎に異なる
ウェブ会議方法。

【請求項11】

ネットワークを介して相互に接続された、ウェブ会議サーバと、
複数の音声認識サーバと、
複数の翻訳サーバと、
を具備し、
前記ウェブ会議サーバは、
ウェブ会議に参加する複数のユーザに含まれる特定のユーザの音声データを、前記特定のユーザのユーザ端末から取得する音声取得部と、
前記音声データを音声認識し、前記特定のユーザの言語属性を判断する音声認識部と、
前記ウェブ会議サーバと前記複数の音声認識サーバとの通信速度と、前記複数の音声認識サーバの情報処理速度とを判断する音声認識サーバ速度判断部と、
前記言語属性と、前記複数の音声認識サーバとの通信速度と、前記複数の音声認識サーバの情報処理速度とに基づき、前記複数の音声認識サーバから、前記特定のユーザに対して使用する特定の音声認識サーバを決定する音声認識サーバ決定部と、
前記特定のユーザに対して使用する前記特定の音声認識サーバと前記複数の翻訳サーバとの通信速度と、前記複数の翻訳サーバの情報処理速度とを判断する翻訳サーバ速度判断部と、
前記複数の翻訳サーバとの通信速度と、前記複数の翻訳サーバの情報処理速度とに基づき、前記複数の翻訳サーバから、前記特定のユーザに対して使用する特定の翻訳サーバを決定する翻訳サーバ決定部と、
前記特定の音声認識サーバに、前記特定のユーザの前記音声データと、前記特定の翻訳サーバを識別する識別情報とを供給することにより、前記特定の音声認識サーバに前記特定のユーザの前記音声データを音声認識させてテキストデータである音声認識データを生成させ、前記特定の翻訳サーバに前記特定のユーザの音声認識データを翻訳させてテキストデータである翻訳データを生成させる音声データ処理要求部と、
を有し、
前記特定の音声認識サーバ及び前記特定の翻訳サーバの組み合わせは、前記ウェブ会議に参加する複数のユーザ毎に異なる
ウェブ会議システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ウェブ会議サービスを提供するウェブ会議サーバ、ウェブ会議方法及びウェブ会議システムに関する。

【背景技術】

【0002】

ネットワークで接続された個々人のユーザ端末を用いて、遠隔地域に居る複数のユーザがオンラインで会議をするウェブ会議システムが知られている。近年では、ビデオ画像を見ながらの音声通話に加えて、音声データを音声認識して得られたテキストを同時に画面に表示するウェブ会議システムもある。ＣＯＶＩＤ－１９の流行により遠隔地域間のウェブ会議が益々一般的になる中、音声認識データを会議相手であるユーザが使用する言語に翻訳し、翻訳テキストを同時に画面に表示する技術が望まれる。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１９－１５３０９９号公報

【特許文献2】特開２０１９－０６１５９４号公報

【特許文献3】特開２０１７－２１５９３１号公報

【特許文献4】特許第６７９５６６８号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

特許文献１は、ＴＶ会議システムを利用している場合、テキスト変換処理を行うデバイス（拠点）を、通信速度や装置の処理能力に基づき決定する。特許文献２は、翻訳先の言語を、ユーザが任意に指定したり、対象の会議の出席者や議事録の閲覧権限を有するユーザの属性に応じて言語を自動的に判定したりする。特許文献３は、入力言語と翻訳言語がユーザの操作に基づいて設定される。特許文献４は、会議参加者等は、複数の翻訳辞書を選択する場合に翻訳辞書毎に優先度を設定してもよく、設定された優先度の順に翻訳処理が実行される。

【0005】

以上のような事情に鑑み、本発明の目的は、ウェブ会議の速度及び精度を向上することにある。

【課題を解決するための手段】

【0006】

本発明の一形態に係るウェブ会議サーバは、
ウェブ会議に参加する複数のユーザに含まれる特定のユーザの音声データを、前記特定のユーザのユーザ端末から取得する音声取得部と、
前記音声データを音声認識し、前記特定のユーザの言語属性を判断する音声認識部と、
前記ウェブ会議サーバと複数の音声認識サーバとの通信速度と、前記複数の音声認識サーバの情報処理速度とを判断する音声認識サーバ速度判断部と、
前記言語属性と、前記複数の音声認識サーバとの通信速度と、前記複数の音声認識サーバの情報処理速度とに基づき、前記複数の音声認識サーバから、前記特定のユーザに対して使用する特定の音声認識サーバを決定する音声認識サーバ決定部と、
前記特定のユーザに対して使用する前記特定の音声認識サーバと複数の翻訳サーバとの通信速度と、前記複数の翻訳サーバの情報処理速度とを判断する翻訳サーバ速度判断部と、
前記複数の翻訳サーバとの通信速度と、前記複数の翻訳サーバの情報処理速度とに基づき、前記複数の翻訳サーバから、前記特定のユーザに対して使用する特定の翻訳サーバを決定する翻訳サーバ決定部と、
前記特定の音声認識サーバに、前記特定のユーザの前記音声データと、前記特定の翻訳サーバを識別する識別情報とを供給することにより、前記特定の音声認識サーバに前記特定のユーザの前記音声データを音声認識させてテキストデータである音声認識データを生成させ、前記特定の翻訳サーバに前記特定のユーザの音声認識データを翻訳させてテキストデータである翻訳データを生成させる音声データ処理要求部と、
を具備し、
前記特定の音声認識サーバ及び前記特定の翻訳サーバの組み合わせは、前記ウェブ会議に参加する複数のユーザ毎に異なる。

【発明の効果】

【0007】

本発明によれば、ウェブ会議の速度及び精度の向上を図れる。

【図面の簡単な説明】

【0008】

【図1】本発明の一実施形態に係るウェブ会議システムを示す。

【図2】ウェブ会議システムの機能的構成を示す。

【図3】ウェブ会議サーバの第１の動作フローを示す。

【図4】ウェブ会議サーバの第２の動作フローを示す。

【図5】ウェブ会議サーバの第３の動作フローを示す。

【発明を実施するための形態】

【0009】

以下、図面を参照しながら、本発明の実施形態を説明する。

【0010】

１．ウェブ会議システムの概要

【0011】

図１は、本発明の一実施形態に係るウェブ会議システムを示す。

【0012】

ウェブ会議システム１は、複数のウェブ会議サーバ１０と、複数の音声認識サーバ２０と、複数の翻訳サーバ３０とを有する。複数のウェブ会議サーバ１０と、複数の音声認識サーバ２０と、複数の翻訳サーバ３０とは、インターネット等のネットワークＮを介して相互に接続される。

【0013】

複数のウェブ会議サーバ１０は、複数の異なる国や地域にそれぞれ設置される。複数のウェブ会議サーバ１０は、ウェブ会議に参加する複数のユーザが使用する複数のユーザ端末４０（パーソナルコンピュータ、スマートフォン、タブレットコンピュータ、ウェアラブルデバイス等）とネットワークＮを介して通信し、複数のユーザにウェブ会議サービスを提供するコンピュータである。複数のユーザ端末４０がアクセスするウェブ会議サーバ１０は、同じウェブ会議に参加する複数のユーザであっても、ユーザ端末４０毎に異なる。各ウェブ会議サーバ１０は、ユーザ毎に、そのユーザに対して使用する特定の音声認識サーバ２０及び特定の翻訳サーバ３０を決定する。このため、特定の音声認識サーバ２０及び特定の翻訳サーバ３０の組み合わせは、同じウェブ会議に参加する複数のユーザであっても、ウェブ会議に参加する複数のユーザ毎に異なる。各ウェブ会議サーバ１０は、ウェブ会議に参加する特定のユーザの音声データを、そのユーザが使用するユーザ端末４０から取得し、音声データを何れかの音声認識サーバ２０に供給する。

【0014】

複数の音声認識サーバ２０は、複数の異なる国や地域にそれぞれ設置される。複数の音声認識サーバ２０は、典型的には、それぞれ異なるプロバイダにより提供され、それぞれ異なる音声認識ソフトウェアを実行するコンピュータである。各音声認識サーバ２０は、何れかのウェブ会議サーバ１０から、ウェブ会議に参加する特定のユーザの音声データを取得し、音声データを音声認識してテキストデータである音声認識データを生成し、音声認識データを、音声データの供給元であるウェブ会議サーバ１０及び特定の翻訳サーバ３０に供給する。

【0015】

複数の翻訳サーバ３０は、複数の異なる国や地域にそれぞれ設置される。複数の翻訳サーバ３０は、典型的には、それぞれ異なるプロバイダにより提供され、それぞれ異なる翻訳ソフトウェアを実行するコンピュータである。各翻訳サーバ３０は、何れかの音声認識サーバ２０から、ウェブ会議に参加する特定のユーザの音声認識データを取得し、音声認識データを翻訳してテキストデータである翻訳データを生成し、翻訳データを、音声データの供給元であるウェブ会議サーバ１０に供給する。

【0016】

ウェブ会議サーバ１０は、ウェブ会議に参加する複数のユーザの音声データから得られた音声認識データ及び翻訳データを、ウェブ会議の最中にリアルタイムに、ウェブ会議に参加する複数のユーザの複数のユーザ端末４０に出力する。また、ウェブ会議サーバ１０は、ウェブ会議終了後に、音声認識データ及び翻訳データの議事録データを作成し、ウェブ会議に参加する複数のユーザの複数のユーザ端末４０に出力する。

【0017】

２．ウェブ会議システムの機能的構成

【0018】

図２は、ウェブ会議システムの機能的構成を示す。

【0019】

ウェブ会議サーバ１０は、ＲＯＭに記録された情報処理プログラムをＣＰＵがＲＡＭにロードして実行することにより、音声取得部１０１、音声認識部１０２、音声認識サーバ速度判断部１０３、音声認識サーバ決定部１０４、翻訳サーバ速度判断部１０５、内容判断部１０６、感情判断部１０７、翻訳サーバ決定部１０８、音声データ処理要求部１０９、処理データ取得部１１０、文脈チェック部１１１、リアルタイム出力部１１２及び議事録作成部１１３として動作する。ウェブ会議サーバ１０は、不揮発性又は揮発性の記憶装置１２０を有する。

【0020】

ユーザ端末４０は、ＲＯＭに記録された情報処理プログラムをＣＰＵがＲＡＭにロードして実行することにより、音声入力部４０１、リアルタイム入力部４０２及び議事録取得部４０３として動作する。ユーザ端末４０は、外付け又は内蔵のマイク４１１と、外付け又は内蔵のディスプレイ４１２と、不揮発性又は揮発性の記憶装置４１３とを有する。

【0021】

３．ウェブ会議システムの動作フロー

【0022】

図３は、ウェブ会議サーバの第１の動作フロー（ウェブ会議開始から終了まで）を示す。

【0023】

まず、ウェブ会議の開始時に、ウェブ会議に参加する複数のユーザのユーザ端末４０は、それぞれ、ユーザ端末４０のＩＰアドレスに基づき、複数のウェブ会議サーバ１０から最も通信速度の速い特定の（１個の）ウェブ会議サーバ１０を選択し、選択したウェブ会議サーバ１０にアクセスし、ウェブ会議へのサインインを要求する。典型的には、各ユーザ端末４０は、ユーザ端末４０のＩＰアドレスにより特定される国や地域と最も近い国や地域を特定するＩＰアドレスを有するウェブ会議サーバ１０を選択する。このため、各ユーザ端末４０がアクセスする特定のウェブ会議サーバ１０は、ウェブ会議に参加する複数のユーザのユーザ端末４０毎に異なる。これにより、複数のユーザの複数のユーザ端末４０毎に、速度について最適なウェブ会議サーバ１０を使用できるとともに、ウェブ会議全体的に見ても処理が分散され安定的な通信及び情報処理を行える。

【0024】

ウェブ会議サーバ１０は、ウェブ会議に参加する複数のユーザに含まれる特定のユーザが使用するユーザ端末４０からのアクセス及びウェブ会議へのサインイン要求を受け付け、ウェブ会議へのサインインを許可する。以下、特記しない限り、通信を確立した１個のウェブ会議サーバ１０及び１個のユーザ端末４０と、このユーザ端末４０を使用するユーザについて説明する。また、一意に決定したウェブ会議サーバ１０、音声認識サーバ２０、翻訳サーバ３０及びユーザ端末４０を、特定のウェブ会議サーバ１０、特定の音声認識サーバ２０、特定の翻訳サーバ３０及び特定のユーザ端末４０と称することがある。

【0025】

ウェブ会議が開始すると、ユーザ端末４０の音声入力部４０１は、ユーザからマイク４１１を介して入力されたユーザの音声データを、通信を確立した１個のウェブ会議サーバ１０に供給し始める。

【0026】

ウェブ会議サーバ１０の音声取得部１０１は、ユーザの音声データをユーザ端末４０から取得する（ステップＳ１０１）。

【0027】

ウェブ会議サーバ１０の音声認識部１０２は、ユーザ端末４０から取得された音声データを音声認識し、特定のユーザの言語属性を判断する（ステップＳ１０２）。言語属性は、例えば、言語（例えば、英語）、方言（例えば、オーストラリア英語）、訛り（例えば、オランダ語訛り）等を含む。

【0028】

ウェブ会議サーバ１０の音声認識サーバ速度判断部１０３は、ウェブ会議サーバ１０と複数の音声認識サーバ２０との通信速度と、複数の音声認識サーバ２０の情報処理速度とを判断する（ステップＳ１０３）。通信速度及び情報処理速度は、それぞれ、基準値のみならず、リアルタイムの速度を含む。

【0029】

ウェブ会議サーバ１０の音声認識サーバ決定部１０４は、音声認識部１０２が判断した言語属性と、音声認識サーバ速度判断部１０３が判断したウェブ会議サーバ１０と複数の音声認識サーバ２０との通信速度及び複数の音声認識サーバ２０の情報処理速度とに基づき、複数の音声認識サーバ２０から、特定のユーザに対して使用する特定の音声認識サーバ２０を決定する（ステップＳ１０４）。

【0030】

一例として、音声認識サーバ決定部１０４は、特定の言語属性の言語認識精度が高く且つウェブ会議サーバ１０との距離が近い（結果的に通信速度が速い）１個の音声認識サーバ２０を予め規定している。音声認識サーバ決定部１０４は、この音声認識サーバ２０の情報処理速度が所定の閾値以上であれば、この音声認識サーバ２０を選択すればよい。別の例として、音声認識サーバ決定部１０４は、特定の言語属性の言語認識精度が高い複数の音声認識サーバ２０の候補を予め規定している。音声認識サーバ決定部１０４は、この候補から複数の音声認識サーバ２０との通信速度が最も速い１個の音声認識サーバ２０を選択し、選択した音声認識サーバ２０の情報処理速度が所定の閾値以上であれば、この音声認識サーバ２０を選択すればよい。

【0031】

ウェブ会議サーバ１０の翻訳サーバ速度判断部１０５は、音声認識サーバ決定部１０４が決定した、特定のユーザに対して使用する特定の音声認識サーバ２０と複数の翻訳サーバ３０との通信速度と、複数の翻訳サーバ３０の情報処理速度とを判断する（ステップＳ１０５）。通信速度及び情報処理速度は、それぞれ、基準値のみならず、リアルタイムの速度を含む。

【0032】

ウェブ会議サーバ１０の内容判断部１０６は、音声認識部１０２が音声認識した結果に基づきウェブ会議の内容を判断する（ステップＳ１０６）。内容判断部１０６は、例えば、予め作成されたＡＩモデルに音声認識部１０２が音声認識した結果を入力することで、ウェブ会議の内容を判断すればよい。ウェブ会議の内容は、例えば、スポーツや化学等のウェブ会議全体のテーマでよい。

【0033】

ウェブ会議サーバ１０の感情判断部１０７は、音声認識部１０２が音声認識した結果に基づきユーザの感情（苛々、穏やか等）を判断する（ステップＳ１０７）。感情判断部１０７は、例えば、予め作成されたＡＩモデルに音声認識部１０２が音声認識した結果を入力することで、ユーザの感情を判断すればよい。

【0034】

ウェブ会議サーバ１０の翻訳サーバ決定部１０８は、翻訳サーバ速度判断部１０５が判断した特定の音声認識サーバ２０と複数の翻訳サーバ３０との通信速度と、複数の翻訳サーバ３０の情報処理速度とに基づき、複数の翻訳サーバ３０から、特定のユーザに対して使用する特定の翻訳サーバ３０を決定する。翻訳サーバ決定部１０８は、内容判断部１０６が判断したウェブ会議の内容及び／又は感情判断部１０７が判断した特定のユーザの感情にさらに基づき、特定のユーザに対して使用する特定の翻訳サーバ３０を決定してもよい（ステップＳ１０８）。

【0035】

一例として、翻訳サーバ決定部１０８は、特定の内容及び／又は特定の感情の翻訳精度が高く且つウェブ会議サーバ１０との距離が近い（結果的に通信速度が速い）１個の翻訳サーバ３０を予め規定している。翻訳サーバ決定部１０８は、この翻訳サーバ３０の情報処理速度が所定の閾値以上であれば、この翻訳サーバ３０を選択すればよい。別の例として、翻訳サーバ決定部１０８は、特定の内容及び／又は特定の感情の翻訳精度が高い複数の翻訳サーバ３０の候補を予め規定している。翻訳サーバ決定部１０８は、この候補から複数の翻訳サーバ３０との通信速度が最も速い１個の翻訳サーバ３０を選択し、選択した翻訳サーバ３０の情報処理速度が所定の閾値以上であれば、この翻訳サーバ３０を選択すればよい。

【0036】

ウェブ会議サーバ１０の音声データ処理要求部１０９は、音声認識サーバ決定部１０４が決定した音声認識サーバ２０に、音声取得部１０１が取得したユーザの音声データと、翻訳サーバ決定部１０８が決定した翻訳サーバ３０を識別する識別情報とを供給し、処理を要求する（ステップＳ１０９）。特定の音声認識サーバ２０及び特定の翻訳サーバ３０の組み合わせは、ウェブ会議に参加する複数のユーザ毎に異なる。これにより、複数のユーザの複数のユーザ端末４０毎に、速度及び精度の両方について最適な音声認識サーバ２０及び翻訳サーバ３０を使用できるとともに、ウェブ会議全体的に見ても処理が分散され安定的な通信及び情報処理を行える。

【0037】

音声認識サーバ２０は、ウェブ会議サーバ１０の音声データ処理要求部１０９から、特定のユーザの音声データと、翻訳サーバ決定部１０８が決定した翻訳サーバ３０を識別する識別情報（ＩＰアドレス等）とを取得する。音声認識サーバ２０は、音声認識してテキストデータである音声認識データを生成し、音声認識データを、音声データの供給元であるウェブ会議サーバ１０及び識別情報により識別される翻訳サーバ３０に供給する。

【0038】

翻訳サーバ３０は、音声認識サーバ２０から、音声認識データと、音声データの供給元であるウェブ会議サーバ１０を識別する識別情報（ＩＰアドレス等）とを取得する。翻訳サーバ３０は、音声認識データを翻訳してテキストデータである翻訳データを生成し、翻訳データを、識別情報により識別されるウェブ会議サーバ１０に供給する。

【0039】

ウェブ会議サーバ１０の処理データ取得部１１０は、音声認識サーバ２０から特定のユーザの音声認識データを取得し、特定の翻訳サーバ３０から特定のユーザの翻訳データを取得する（ステップＳ１１０）。

【0040】

ウェブ会議サーバ１０の文脈チェック部１１１は、対応する音声認識データ及び翻訳データを同期して、対応する音声認識データ及び翻訳データの文脈をチェックし、対応する音声認識データ及び／又は翻訳データをチェック結果に応じて修正する（ステップＳ１１１）。文脈チェック部１１１は、例えば、予め作成されたＡＩモデルに音声認識データ及び翻訳データを入力することで、音声認識データ及び翻訳データの文脈をチェックすればよい。文脈チェック部１１１は、チェック結果に応じて修正した後の対応する音声認識データ及び翻訳データを、記憶装置１２０に記憶する。

【0041】

記憶装置１２０は、少なくともウェブ会議の最中及び終了後所定期間に音声認識データ及び翻訳データを記憶すればよく、不揮発性又は揮発性の何れの記憶装置でもよい。なおチェック結果に応じて修正した後のデータとは、チェック結果に基づき修正が必要無く修正無しのデータも含む。

【0042】

ウェブ会議サーバ１０のリアルタイム出力部１１２は、チェック結果に応じて修正した後の対応する音声認識データ及び翻訳データを、ウェブ会議の最中にリアルタイムに、ウェブ会議に参加する複数のユーザの複数のユーザ端末４０に出力する（ステップＳ１１２）。即ち、リアルタイム出力部１１２は、この音声認識データ及び翻訳データのもととなる音声データを入力したユーザ端末４０だけではなく、ウェブ会議に参加する全員のユーザの複数のユーザ端末４０に出力する。

【0043】

ウェブ会議に参加する全員のユーザの複数のユーザ端末４０のリアルタイム入力部４０２は、ウェブ会議サーバ１０のリアルタイム出力部１１２から、ウェブ会議の最中にリアルタイムに、チェック結果に応じて修正した後の対応する音声認識データ及び翻訳データを取得する。リアルタイム入力部４０２は、ウェブ会議の最中にリアルタイムに、テキストデータである音声認識データ及び翻訳データをディスプレイ４１２に表示する。

【0044】

ウェブ会議終了後、ウェブ会議サーバ１０の議事録作成部１１３は、チェック結果に応じて修正した後の対応する音声認識データ及び翻訳データを記憶装置１２０から読み出し、読み出した音声認識データ及び翻訳データに基づき、ウェブ会議の議事録データを作成する。具体的には、何れかのウェブ会議サーバ１０の議事録作成部１１３は、ウェブ会議に参加する複数のユーザの複数のユーザ端末４０がアクセスする複数のウェブ会議サーバ１０の記憶装置１２０から、全てのユーザの音声認識データ及び翻訳データを取得し、取得した音声認識データ及び翻訳データを時系列順に並べて議事録データを作成する。議事録作成部１１３は、作成した議事録データを、ウェブ会議に参加する複数のユーザの複数のユーザ端末４０に出力する。

【0045】

各ユーザ端末４０の議事録取得部４０３は、ウェブ会議サーバ１０の議事録作成部１１３から、議事録データを取得し、記憶装置４１３に記憶する。記憶装置４１３は、少なくともウェブ会議の終了後所定期間に音声認識データ及び翻訳データを記憶すればよく、不揮発性又は揮発性の何れの記憶装置でもよい。

【0046】

図４は、ウェブ会議サーバの第２の動作フロー（ウェブ会議の最中）を示す。

【0047】

ウェブ会議サーバ１０の音声認識サーバ速度判断部１０３は、ウェブ会議の最中に、定期的に（Ｌｏｏｐ）、ウェブ会議サーバ１０と特定の（通信中の）音声認識サーバ２０との通信速度と、特定の（通信中の）音声認識サーバ２０の情報処理速度を判断する（ステップＳ２０１）。通信速度及び情報処理速度は、それぞれ、リアルタイムの速度である。音声認識サーバ速度判断部１０３は、ウェブ会議サーバ１０と特定の音声認識サーバ２０との通信速度及び／又は特定の音声認識サーバ２０の情報処理速度が、ウェブ会議の最中に閾値未満に変化したか否かを判断する（ステップＳ２０２）。閾値は、例えば、円滑なウェブ会議を行うために速度的に許容できない値である。

【0048】

ウェブ会議サーバ１０と特定の音声認識サーバ２０との通信速度及び／又は特定の音声認識サーバ２０の情報処理速度が、ウェブ会議の最中に閾値未満に変化した場合（ステップＳ２０２、ＹＥＳ）、音声認識サーバ速度判断部１０３は、ウェブ会議サーバ１０と複数の音声認識サーバ２０（通信中の音声認識サーバ２０以外の複数の音声認識サーバ２０）との通信速度と、複数の音声認識サーバ２０の情報処理速度とを判断する（ステップＳ２０３）。通信速度及び情報処理速度は、それぞれ、リアルタイムの速度である。

【0049】

ウェブ会議サーバ１０の音声認識サーバ決定部１０４は、音声認識部１０２が判断（ステップＳ１０２）した言語属性と、音声認識サーバ速度判断部１０３が判断したウェブ会議サーバ１０と複数の音声認識サーバ２０との通信速度及び複数の音声認識サーバ２０の情報処理速度（ステップＳ２０３）とに基づき、複数の音声認識サーバ２０から、特定のユーザに対して使用する特定の音声認識サーバ２０を、新たに決定する（ステップＳ２０４）。音声認識サーバ決定部１０４は、ステップＳ１０４で説明した例と同様の方法で、特定の音声認識サーバ２０を新たに決定すればよい。なお、新たに決定する音声認識サーバ２０は、通信中の音声認識サーバ２０から変更されない場合もあり得る。

【0050】

特定のユーザに対して使用する特定の音声認識サーバ２０をウェブ会議の最中に変更する場合（ステップＳ２０５、ＹＥＳ）、ウェブ会議サーバ１０の翻訳サーバ速度判断部１０５は、新たに決定された特定の音声認識サーバ２０と複数の翻訳サーバ３０との通信速度と、複数の翻訳サーバ３０の情報処理速度とを判断する（ステップＳ２０６）。通信速度及び情報処理速度は、それぞれ、リアルタイムの速度である。

【0051】

新たに決定された特定の音声認識サーバ２０と複数の翻訳サーバ３０との通信速度と、複数の翻訳サーバ３０の情報処理速度とを判断する（ステップＳ２０６）理由は、新たな音声認識サーバ２０（ステップＳ２０５、ＹＥＳ）に対して最適な翻訳サーバ３０が、通信中の翻訳サーバ３０以外の翻訳サーバ３０である可能性があるからである。これにより、新たな音声認識サーバ２０と協働するのに最適な翻訳サーバ３０を選択することで、総合的に、速度及び精度の両方について最適な音声認識サーバ２０と翻訳サーバ３０との組を、リアルタイムに選択することができる。

【0052】

ウェブ会議サーバ１０の翻訳サーバ決定部１０８は、新たに決定された特定の音声認識サーバ２０と複数の翻訳サーバ３０との通信速度と、複数の翻訳サーバ３０の情報処理速度とに基づき、複数の翻訳サーバ３０から、特定のユーザに対して使用する特定の翻訳サーバ３０を新たに決定する（ステップＳ２０７）。翻訳サーバ決定部１０８は、ステップＳ１０８で説明した例と同様の方法で、特定の翻訳サーバ３０を新たに決定すればよい。なお、新たに決定する翻訳サーバ３０は、通信中の翻訳サーバ３０から変更されない場合もあり得る。

【0053】

特定のユーザに対して使用する特定の翻訳サーバ３０をウェブ会議の最中に変更しない場合（ステップＳ２０８、ＮＯ）、音声データ処理要求部１０９は、新たに決定された特定の音声認識サーバ２０に、特定のユーザの音声データと、特定の（通信中の）翻訳サーバ３０を識別する識別情報とを供給する（ステップＳ２０９）。これにより、特定のユーザに対して使用する特定の音声認識サーバ２０が、ウェブ会議の最中に変更され、リアルタイムで、速度及び精度の両方について最適な音声認識サーバ２０を使用できるとともに、ウェブ会議全体的に見ても処理が分散され安定的な通信及び情報処理を行える。

【0054】

一方、特定のユーザに対して使用する特定の翻訳サーバ３０をウェブ会議の最中に変更する場合（ステップＳ２０８、ＹＥＳ）、ウェブ会議サーバ１０の音声データ処理要求部１０９は、新たに決定された特定の音声認識サーバ２０に、特定のユーザの音声データと、新たに決定された特定の翻訳サーバ３０を識別する識別情報とを供給する（ステップＳ２１０）。これにより、さらに、特定のユーザに対して使用する特定の翻訳サーバ３０が、ウェブ会議の最中に変更され、リアルタイムで、速度及び精度の両方について最適な翻訳サーバ３０を使用できるとともに、ウェブ会議全体的に見ても処理が分散され安定的な通信及び情報処理を行える。

【0055】

図５は、ウェブ会議サーバの第３の動作フロー（ウェブ会議の最中）を示す。

【0056】

ウェブ会議サーバ１０の翻訳サーバ速度判断部１０５は、ウェブ会議の最中に、定期的に（Ｌｏｏｐ）、特定の（通信中の）音声認識サーバ２０と特定の（通信中の）翻訳サーバ３０との通信速度と、特定の（通信中の）翻訳サーバ３０の情報処理速度を判断する（ステップＳ３０１）。通信速度及び情報処理速度は、それぞれ、リアルタイムの速度である。翻訳サーバ速度判断部１０５は、特定の音声認識サーバ２０と特定の翻訳サーバ３０との通信速度及び／又は特定の翻訳サーバ３０の情報処理速度が、ウェブ会議の最中に閾値未満に変化したか否かを判断する（ステップＳ３０２）。閾値は、例えば、円滑なウェブ会議を行うために速度的に許容できない値である。

【0057】

特定の音声認識サーバ２０と特定の翻訳サーバ３０との通信速度及び／又は特定の翻訳サーバ３０の情報処理速度が、ウェブ会議の最中に閾値未満に変化した場合（ステップＳ３０２、ＹＥＳ）、翻訳サーバ速度判断部１０５は、特定の（通信中の）音声認識サーバ２０と複数の翻訳サーバ３０（通信中の翻訳サーバ３０以外の複数の翻訳サーバ３０）との通信速度と、複数の翻訳サーバ３０の情報処理速度とを判断する（ステップＳ３０３）。通信速度及び情報処理速度は、それぞれ、リアルタイムの速度である。

【0058】

ウェブ会議サーバ１０の翻訳サーバ決定部１０８は、翻訳サーバ速度判断部１０５が判断した特定の音声認識サーバ２０と複数の翻訳サーバ３０との通信速度と、複数の翻訳サーバ３０の情報処理速度（ステップＳ３０３）とに基づき、複数の翻訳サーバ３０から、特定のユーザに対して使用する特定の翻訳サーバ３０を、新たに決定する（ステップＳ３０４）。翻訳サーバ決定部１０８は、ステップＳ１０８で説明した例と同様の方法で、特定の翻訳サーバ３０を新たに決定すればよい。なお、新たに決定する翻訳サーバ３０は、通信中の翻訳サーバ３０から変更されない場合もあり得る。

【0059】

特定のユーザに対して使用する特定の翻訳サーバ３０をウェブ会議の最中に変更する場合（ステップＳ３０５、ＹＥＳ）、ウェブ会議サーバ１０の音声認識サーバ速度判断部１０３は、ウェブ会議サーバ１０と複数の音声認識サーバ２０との通信速度と、複数の音声認識サーバ２０の情報処理速度とを判断する（ステップＳ３０６）。通信速度及び情報処理速度は、それぞれ、リアルタイムの速度である。

【0060】

複数の音声認識サーバ２０の速度を判断する（ステップＳ３０６）理由は、特定の音声認識サーバ２０と特定の翻訳サーバ３０との通信速度及び／又は特定の翻訳サーバ３０の情報処理速度が、ウェブ会議の最中に閾値未満に変化した（ステップＳ３０２、ＹＥＳ）ということは、特定の音声認識サーバ２０に問題がある可能性があり、その場合は使用する音声認識サーバ２０を変更したほうが良い場合があるからである。これにより、新たな翻訳サーバ３０と協働するのに最適な音声認識サーバ２０を選択することで、総合的に、速度及び精度の両方について最適な音声認識サーバ２０と翻訳サーバ３０との組を、リアルタイムに選択することができる。

【0061】

ウェブ会議サーバ１０の音声認識サーバ決定部１０４は、音声認識部１０２が判断した言語属性（ステップＳ１０２）と、音声認識サーバ速度判断部１０３が判断したウェブ会議サーバ１０と複数の音声認識サーバ２０との通信速度及び複数の音声認識サーバ２０の情報処理速度（ステップＳ３０６）とに基づき、複数の音声認識サーバ２０から、特定のユーザに対して使用する特定の音声認識サーバ２０を新たに決定する（ステップＳ３０７）。音声認識サーバ決定部１０４は、ステップＳ１０４で説明した例と同様の方法で、特定の音声認識サーバ２０を新たに決定すればよい。なお、新たに決定する音声認識サーバ２０は、通信中の音声認識サーバ２０から変更されない場合もあり得る。

【0062】

特定のユーザに対して使用する特定の音声認識サーバ２０をウェブ会議の最中に変更しない場合（ステップＳ３０８、ＮＯ）、音声データ処理要求部１０９は、特定の（通信中の）音声認識サーバ２０に、特定のユーザの音声データと、新たに決定された翻訳サーバ３０を識別する識別情報とを供給する（ステップＳ３０９）。これにより、特定のユーザに対して使用する特定の翻訳サーバ３０が、ウェブ会議の最中に変更され、リアルタイムで、速度及び精度の両方について最適な翻訳サーバ３０を使用できるとともに、ウェブ会議全体的に見ても処理が分散され安定的な通信及び情報処理を行える。

【0063】

一方、特定のユーザに対して使用する特定の音声認識サーバ２０をウェブ会議の最中に変更する場合（ステップＳ３０８、ＹＥＳ）、ウェブ会議サーバ１０の音声データ処理要求部１０９は、新たに決定された特定の音声認識サーバ２０に、特定のユーザの音声データと、新たに決定された特定の翻訳サーバ３０を識別する識別情報とを供給する（ステップＳ３１０）。これにより、さらに、特定のユーザに対して使用する特定の音声認識サーバ２０が、ウェブ会議の最中に変更され、リアルタイムで、速度及び精度の両方について最適な音声認識サーバ２０を使用できるとともに、ウェブ会議全体的に見ても処理が分散され安定的な通信及び情報処理を行える。

【0064】

本技術の各実施形態及び各変形例について上に説明したが、本技術は上述の実施形態にのみ限定されるものではなく、本技術の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。

【符号の説明】

【0065】

ウェブ会議システム１
ウェブ会議サーバ１０
音声認識サーバ２０
翻訳サーバ３０
ユーザ端末４０

【図1】

【図2】

【図3】

【図4】

【図5】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版