特開2023-97789 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社トランスウエアの特許一覧

特開2023-97789ビデオ会議分析システムおよびビデオ会議分析プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023097789

(43)【公開日】2023-07-10

(54)【発明の名称】ビデオ会議分析システムおよびビデオ会議分析プログラム

(51)【国際特許分類】

H04N 7/15 20060101AFI20230703BHJP

H04N 21/431 20110101ALI20230703BHJP

H04M 3/56 20060101ALI20230703BHJP

【ＦＩ】

H04N7/15 120

H04N21/431

H04M3/56 C

【審査請求】未請求

【請求項の数】16

【出願形態】ＯＬ

(21)【出願番号】P 2021214096

(22)【出願日】2021-12-28

(71)【出願人】

【識別番号】599121540

【氏名又は名称】株式会社クオリティア

(74)【代理人】

【識別番号】100104776

【弁理士】

【氏名又は名称】佐野弘

(74)【代理人】

【識別番号】100119194

【弁理士】

【氏名又は名称】石井明夫

(72)【発明者】

【氏名】五島和幸

【テーマコード（参考）】

5C164

5K201

【Ｆターム（参考）】

5C164FA10

5C164PA44

5C164UB88P

5C164VA07P

5C164VA09P

5K201AA05

5K201BB09

5K201BB10

5K201CA01

5K201CA06

5K201CB14

5K201DC04

5K201DC05

5K201DC06

5K201EC06

5K201EF10

(57)【要約】

【課題】ビデオ会議参加者の発言を分析して参加者の感情の状態やその発言に含まれるハラスメントの状態を把握できるビデオ会議分析システムを提供する。
【解決手段】ビデオ会議分析システム１は、参加者の発言の音声データを受け付けるＷＥＢ／ＡＰＰサーバ２の画像音声受付部２５と、音声データを文字に変換する音声文字変換サーバ３の音声文字変換部３１と、参加者の発言の内容を示す文字文章を分析して感情の状態を示す感情レベル及び嫌がらせの度合を示すハラスメントレベルを推定する文字文章分析サーバ４の文字文章分析部４１と、文字文章および分析結果を表示する画面を構成するサーバ２の画面構成部２１と、その画面を参加者に向けて送信するサーバ２の画面提供部２６と、音声データから文字文章を作成させ、文字文章を分析させ、結果表示画面を構成させ、その画面を送信させる動作の制御を行うサーバ２のＷＥＢ／ＡＰＰサーバ制御部２０とを備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

ネットワークを介して行われるビデオ会議の参加者の発言を分析するビデオ会議分析システムであって、
前記参加者の発言の音声データを前記ネットワークを介して受け付ける画像音声受付部と、
該画像音声受付部で受け付けた前記音声データを文字に変換する音声文字変換部と、
該音声文字変換部で前記音声データから変換された文字により構成される前記参加者の発言の内容を示す文字文章を分析して発言分析結果を求める文字文章分析部と、
前記文字文章および前記文字文章分析部で求められた前記発言分析結果を表示する表示画面を構成する画面構成部と、
該画面構成部で構成された前記表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信する画面提供部と、
前記画像音声受付部で受け付けた前記音声データを前記音声文字変換部で文字に変換させて前記文字文章を取得し、前記文字文章を前記文字文章分析部で分析させて前記発言分析結果を取得し、前記画面構成部で前記表示画面を構成させ、前記表示画面を前記画面提供部から送信させる動作の制御を行う制御部とを備え、
前記文字文章分析部は、
前記参加者の発言の内容を示す前記文字文章に基づいて分析を行い、感情の状態を示す感情レベルおよび嫌がらせの度合を示すハラスメントレベルを推定して前記発言分析結果を求めることを特徴とするビデオ会議分析システム。

【請求項2】

前記音声文字変換部は、
学習用音声データと該学習用音声データに対応する正解文字データとの組合せを学習データとして、機械学習により生成させた学習済み音声文字変換モデルに、前記画像音声受付部で受け付けた前記音声データを入力して演算することにより文字に変換して前記文字文章を取得し、
前記文字文章分析部は、
学習用文章と該学習用文章に対応する正解感情データとの組合せ、および、前記学習用文章と該学習用文章に対応する正解ハラスメントデータとの組合せを学習データとして、機械学習により生成させた学習済み文字文章分析モデルに、取得した前記文字文章を入力して演算することにより前記感情レベルおよび前記ハラスメントレベルを推定して前記発言分析結果を求めることを特徴とする請求項１に記載のビデオ会議分析システム。

【請求項3】

原文言語で構成される原文文章を所定の翻訳言語に翻訳する翻訳部を備え、
前記制御部は、
前記参加者の発言の内容を示す前記文字文章を前記翻訳部で翻訳させて翻訳文を取得する動作の制御を行い、
前記画面構成部は、
前記翻訳部で翻訳された前記文字文章の翻訳文を表示する翻訳文表示画面を構成し、
前記画面提供部は、
前記画面構成部で構成された前記翻訳文表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信することを特徴とする請求項１又は２に記載のビデオ会議分析システム。

【請求項4】

前記翻訳部は、
学習用原文文章と該学習用原文文章の翻訳文として正解となる正解翻訳文との組合せを学習データとして、機械学習により生成させた学習済み翻訳モデルに、前記原文文章を入力して演算することにより該学習用原文文章の翻訳文を取得することを特徴とする請求項３に記載のビデオ会議分析システム。

【請求項5】

前記参加者を撮影した画像データに基づいて分析を行い、前記感情レベルを推定して画像分析結果を求める画像分析部を備え、
前記画像音声受付部は、
前記参加者を撮影した前記画像データを前記ネットワークを介して受け付けて、
前記制御部は、
前記画像音声受付部で受け付けた前記画像データを前記画像分析部で分析させる動作の制御を行い、
前記画像分析部は、
学習用顔画像と該学習用顔画像に対応する正解となる感情の種類との組合せを学習データとして、機械学習により生成させた学習済み画像分析モデルに、前記画像データを入力し演算することにより、前記画像分析結果を求め、
前記画面構成部は、
前記画像分析部で求められた前記画像分析結果を表示する画像分析表示画面を構成し、
前記画面提供部は、
前記画面構成部で構成された前記画像分析表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信することを特徴とする請求項１乃至４の何れか一項に記載のビデオ会議分析システム。

【請求項6】

前記参加者を撮影した画像データに基づいて分析を行い、前記感情レベルを推定して画像分析結果を求める画像分析部を備え、
前記画像音声受付部は、
前記参加者を撮影した前記画像データを前記ネットワークを介して受け付けて、
前記制御部は、
前記画像音声受付部で受け付けた前記画像データを前記画像分析部で分析させる動作の制御を行い、
前記画像分析部は、
前記画像データから顔画像を抽出して、目の形状、該目の形状の変化、眉の形状、該眉の形状の変化、唇の両脇の部分である口角の形状、該口角の形状の変化、頬の形状、該頬の形状の変化、歯の出現頻度、該歯の出現頻度の変化のうち、少なくともいずれか一つを用いて分析を行い、前記画像分析結果を求め、
前記画面構成部は、
前記画像分析部で求められた前記画像分析結果を表示する画像分析表示画面を構成し、
前記画面提供部は、
前記画面構成部で構成された前記画像分析表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信することを特徴とする請求項１乃至４の何れか一項に記載のビデオ会議分析システム。

【請求項7】

前記画像音声受付部で受け付けた前記音声データに基づいて分析を行い、前記感情レベルおよび前記ハラスメントレベルを推定して音声分析結果を求める音声分析部を備え、
前記制御部は、
前記音声データを前記音声分析部で分析させる動作の制御を行い、
前記音声分析部は、
学習用音声データと該学習用音声データに対応する正解感情データとの組合せ、および、前記学習用音声データと該学習用音声データに対応する正解ハラスメントデータとの組合せを学習データとして、機械学習により生成させた学習済み音声分析モデルに、受け付けた前記音声データを入力して演算することにより前記感情レベルおよび前記ハラスメントレベルを推定して前記音声分析結果を求め、
前記画面構成部は、
前記音声分析部で求められた前記音声分析結果を表示する音声分析表示画面を構成し、
前記画面提供部は、
前記画面構成部で構成された前記音声分析表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信することを特徴とする請求項１乃至４の何れか一項に記載のビデオ会議分析システム。

【請求項8】

前記画像音声受付部で受け付けた前記音声データに基づいて分析を行い、前記感情レベルおよび前記ハラスメントレベルを推定して音声分析結果を求める音声分析部を備え、
前記制御部は、
前記音声データを前記音声分析部で分析させる動作の制御を行い、
前記音声分析部は、
声の大きさ、該声の大きさの変化、声の高さ、該声の高さの変化、話す速さ、該話す速さの変化、他の前記参加者の言葉に被せて発言する頻度、前記他の前記参加者の言葉に被せて発言する頻度の変化のうち、少なくともいずれか一つを用いて分析を行い、前記音声分析結果を求め、
前記画面構成部は、
前記音声分析部で求められた前記音声分析結果を表示する音声分析表示画面を構成し、
前記画面提供部は、
前記画面構成部で構成された前記音声分析表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信することを特徴とする請求項１乃至４の何れか一項に記載のビデオ会議分析システム。

【請求項9】

前記参加者を撮影した画像データに基づいて分析を行い、前記感情レベルを推定して画像分析結果を求める画像分析部と、
前記画像音声受付部で受け付けた前記音声データに基づいて分析を行い、前記感情レベルおよび前記ハラスメントレベルを推定して音声分析結果を求める音声分析部と、
前記文字文章分析部で分析された前記発言分析結果、前記画像分析部で求められた前記画像分析結果および前記音声分析部で求められた前記音声分析結果を総合評価して、総合感情レベルおよび総合ハラスメントレベルのうち、少なくともいずれかを推定して総合判定結果を求める判定部とを備え、
前記画像音声受付部は、
前記参加者を撮影した前記画像データを前記ネットワークを介して受け付けて、
前記制御部は、
前記画像データを前記画像分析部で分析させ前記音声データを前記音声分析部で分析させて、前記文字文章分析部で分析された前記発言分析結果、前記画像分析部で求められた前記画像分析結果および前記音声分析部で求められた前記音声分析結果を前記判定部で総合評価させて前記総合判定結果を求める動作の制御を行い、
前記画面構成部は、
前記判定部で求められた前記総合判定結果を表示する総合判定表示画面を構成し、
前記画面提供部は、
前記画面構成部で構成された前記総合判定表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信することを特徴とする請求項１に記載のビデオ会議分析システム。

【請求項10】

あらかじめ登録されている不適切な語句が前記文字文章に含まれているかを検出する不適切語句検出部を備え、
該不適切語句検出部で前記不適切な語句が検出された場合、
前記制御部は、
前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信する前記不適切な語句に対応する部分の前記音声データの送信停止、前記文字文章に含まれている前記不適切な語句の削除、前記文字文章に含まれている前記不適切な語句を該不適切な語句に対応する適切な語句に置換のうち、少なくともいずれか一つを含む不適切語句遮断措置を行うことを特徴とする請求項１乃至９の何れか一項に記載のビデオ会議分析システム。

【請求項11】

前記不適切語句検出部で検出される前記不適切な語句の検出頻度が、所定の閾値を超えた場合、
前記制御部は、
前記画面構成部が警告表示画面を構成し、前記画面提供部が前記画面構成部で構成された前記警告表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信する動作の制御を行うことを特徴とする請求項１０に記載のビデオ会議分析システム。

【請求項12】

ネットワークを介して行われるビデオ会議の参加者の発言を分析するビデオ会議分析プログラムであって、
前記参加者の発言の音声データを前記ネットワークを介して受け付ける画像音声受付処理と、
該画像音声受付処理で受け付けた前記音声データを文字に変換する音声文字変換処理と、
該音声文字変換処理で前記音声データから変換された文字により構成される前記参加者の発言の内容を示す文字文章を分析して発言分析結果を求める文字文章分析処理とを有し、
前記文字文章分析処理は、
前記参加者の発言の内容を示す前記文字文章に基づいて分析を行い、感情の状態を示す感情レベルおよび嫌がらせの度合を示すハラスメントレベルを推定して前記発言分析結果を求めることを特徴とするビデオ会議分析プログラム。

【請求項13】

原文言語で構成される原文文章を所定の翻訳言語に翻訳する翻訳処理を有し、
前記翻訳処理は、
前記参加者の発言の内容を示す前記文字文章を翻訳して翻訳文を生成することを特徴とする請求項１２に記載のビデオ会議分析プログラム。

【請求項14】

前記参加者を撮影した画像データに基づいて分析を行い、前記感情レベルを推定して画像分析結果を求める画像分析処理を有し、
前記画像音声受付処理は、
前記参加者を撮影した前記画像データを前記ネットワークを介して受け付けて、
前記画像分析処理は、
前記画像データから顔画像を抽出して、目の形状、該目の形状の変化、眉の形状、該眉の形状の変化、唇の両脇の部分である口角の形状、該口角の形状の変化、頬の形状、該頬の形状の変化、歯の出現頻度、該歯の出現頻度の変化のうち、少なくともいずれか一つを用いて分析を行い、前記画像分析結果を求めることを特徴とする請求項１２に記載のビデオ会議分析プログラム。

【請求項15】

前記画像音声受付処理で受け付けた前記音声データに基づいて分析を行い、前記感情レベルおよび前記ハラスメントレベルを推定して音声分析結果を求める音声分析処理を有し、
前記音声分析処理は、
声の大きさ、該声の大きさの変化、声の高さ、該声の高さの変化、話す速さ、該話す速さの変化、他の前記参加者の言葉に被せて発言する頻度、前記他の前記参加者の言葉に被せて発言する頻度の変化のうち、少なくともいずれか一つを用いて分析を行い、前記音声分析結果を求めることを特徴とする請求項１２に記載のビデオ会議分析プログラム。

【請求項16】

前記参加者を撮影した画像データに基づいて分析を行い、前記感情レベルを推定して画像分析結果を求める画像分析処理と、
前記画像音声受付処理で受け付けた前記音声データに基づいて分析を行い、前記感情レベルおよび前記ハラスメントレベルを推定して音声分析結果を求める音声分析処理と、
前記文字文章分析処理で分析された前記発言分析結果、前記画像分析処理で求められた前記画像分析結果および前記音声分析処理で求められた前記音声分析結果を総合評価して、総合感情レベルおよび総合ハラスメントレベルのうち、少なくともいずれかを推定して総合判定結果を求める判定処理とを有し、
前記画像音声受付処理は、
前記参加者を撮影した前記画像データを前記ネットワークを介して受け付けて、
前記画像分析処理は、前記画像データを分析して前記画像分析結果を求め、
前記音声分析処理は、前記音声データを分析して前記音声分析結果を求め、
前記判定処理は、前記文字文章分析処理で分析された前記発言分析結果、前記画像分析処理で求められた前記画像分析結果および前記音声分析処理で求められた前記音声分析結果を総合評価して前記総合判定結果を求めることを特徴とする請求項１２に記載のビデオ会議分析プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

この発明は、ネットワークを介して行われるビデオ会議の参加者の発言を分析するビデオ会議分析システムおよびビデオ会議分析プログラムに関するものである。

【背景技術】

【0002】

高速大容量の通信環境の普及に伴い、離れた場所にいる参加者同士をネットワークで接続してビデオ会議を行うことが一般的になっている。参加者は一堂に会する必要がなく、移動時間や移動に伴う体力の消耗などから解放され、無駄なく効率的に会議に参加することができる。また、ビデオ会議自体を効率化する提案も行われており、例えば、特許文献１に記載されている会議支援システムがある。この会議支援システムは、出席者を顔認証により特定し、会議中の出席者の発言をリアルタイムにテキストとしてディスプレイに表示するとともに記録することができる。また、要約の形で議事録を生成し、対象の会議を識別する情報と関連付けて記録することもできる。このように、ビデオ会議は、効率化との相性がよく様々な提案がなされている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１９－６１５９４号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、ビデオ会議は対面でなく画面を介して行われるため、感情の抑制が働きにくくなることが危惧されている。例えば、参加者が感情的になり他の参加者に不快感を与える言動をしやすくなるのではないかというおそれなどがある。

【0005】

このような危惧から、ビデオ会議中の参加者の感情の状態や参加者の発言に含まれる嫌がらせ度合であるハラスメントの状態を分析できるシステムやプログラムの実現が求められていた。

【0006】

本発明はこのような事情に鑑みてなされたものであり、この発明の課題は、ビデオ会議の参加者の発言を分析して参加者の感情の状態や参加者の発言に含まれるハラスメントの状態を把握できるビデオ会議分析システムおよびビデオ会議分析プログラムを提供することである。

【課題を解決するための手段】

【0007】

かかる課題を解決するために、請求項１に記載の発明は、ネットワークを介して行われるビデオ会議の参加者の発言を分析するビデオ会議分析システムであって、前記参加者の発言の音声データを前記ネットワークを介して受け付ける画像音声受付部と、該画像音声受付部で受け付けた前記音声データを文字に変換する音声文字変換部と、該音声文字変換部で前記音声データから変換された文字により構成される前記参加者の発言の内容を示す文字文章を分析して発言分析結果を求める文字文章分析部と、前記文字文章および前記文字文章分析部で求められた前記発言分析結果を表示する表示画面を構成する画面構成部と、該画面構成部で構成された前記表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信する画面提供部と、前記画像音声受付部で受け付けた前記音声データを前記音声文字変換部で文字に変換させて前記文字文章を取得し、前記文字文章を前記文字文章分析部で分析させて前記発言分析結果を取得し、前記画面構成部で前記表示画面を構成させ、前記表示画面を前記画面提供部から送信させる動作の制御を行う制御部とを備え、前記文字文章分析部は、前記参加者の発言の内容を示す前記文字文章に基づいて分析を行い、感情の状態を示す感情レベルおよび嫌がらせの度合を示すハラスメントレベルを推定して前記発言分析結果を求めることを特徴とする。

【0008】

請求項２に係る発明は、請求項１に記載の構成に加えて、前記音声文字変換部は、学習用音声データと該学習用音声データに対応する正解文字データとの組合せを学習データとして、機械学習により生成させた学習済み音声文字変換モデルに、前記画像音声受付部で受け付けた前記音声データを入力して演算することにより文字に変換して前記文字文章を取得し、前記文字文章分析部は、学習用文章と該学習用文章に対応する正解感情データとの組合せ、および、前記学習用文章と該学習用文章に対応する正解ハラスメントデータとの組合せを学習データとして、機械学習により生成させた学習済み文字文章分析モデルに、取得した前記文字文章を入力して演算することにより前記感情レベルおよび前記ハラスメントレベルを推定して前記発言分析結果を求めることを特徴とする。

【0009】

請求項３に係る発明は、請求項１又は２に記載の構成に加えて、原文言語で構成される原文文章を所定の翻訳言語に翻訳する翻訳部を備え、前記制御部は、前記参加者の発言の内容を示す前記文字文章を前記翻訳部で翻訳させて翻訳文を取得する動作の制御を行い、前記画面構成部は、前記翻訳部で翻訳された前記文字文章の翻訳文を表示する翻訳文表示画面を構成し、前記画面提供部は、前記画面構成部で構成された前記翻訳文表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信することを特徴とする。

【0010】

請求項４に係る発明は、請求項３に記載の構成に加えて、前記翻訳部は、学習用原文文章と該学習用原文文章の翻訳文として正解となる正解翻訳文との組合せを学習データとして、機械学習により生成させた学習済み翻訳モデルに、前記原文文章を入力して演算することにより該学習用原文文章の翻訳文を取得することを特徴とする。

【0011】

請求項５に係る発明は、請求項１乃至４の何れか一項に記載の構成に加えて、前記参加者を撮影した画像データに基づいて分析を行い、前記感情レベルを推定して画像分析結果を求める画像分析部を備え、前記画像音声受付部は、前記参加者を撮影した前記画像データを前記ネットワークを介して受け付けて、前記制御部は、前記画像音声受付部で受け付けた前記画像データを前記画像分析部で分析させる動作の制御を行い、前記画像分析部は、学習用顔画像と該学習用顔画像に対応する正解となる感情の種類との組合せを学習データとして、機械学習により生成させた学習済み画像分析モデルに、前記画像データを入力し演算することにより、前記画像分析結果を求め、前記画面構成部は、前記画像分析部で求められた前記画像分析結果を表示する画像分析表示画面を構成し、前記画面提供部は、前記画面構成部で構成された前記画像分析表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信することを特徴とする。

【0012】

請求項６に係る発明は、請求項１乃至４の何れか一項に記載の構成に加えて、前記参加者を撮影した画像データに基づいて分析を行い、前記感情レベルを推定して画像分析結果を求める画像分析部を備え、前記画像音声受付部は、前記参加者を撮影した前記画像データを前記ネットワークを介して受け付けて、前記制御部は、前記画像音声受付部で受け付けた前記画像データを前記画像分析部で分析させる動作の制御を行い、前記画像分析部は、前記画像データから顔画像を抽出して、目の形状、該目の形状の変化、眉の形状、該眉の形状の変化、唇の両脇の部分である口角の形状、該口角の形状の変化、頬の形状、該頬の形状の変化、歯の出現頻度、該歯の出現頻度の変化のうち、少なくともいずれか一つを用いて分析を行い、前記画像分析結果を求め、前記画面構成部は、前記画像分析部で求められた前記画像分析結果を表示する画像分析表示画面を構成し、前記画面提供部は、前記画面構成部で構成された前記画像分析表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信することを特徴とする。

【0013】

請求項７に係る発明は、請求項１乃至４の何れか一項に記載の構成に加えて、前記画像音声受付部で受け付けた前記音声データに基づいて分析を行い、前記感情レベルおよび前記ハラスメントレベルを推定して音声分析結果を求める音声分析部を備え、前記制御部は、前記音声データを前記音声分析部で分析させる動作の制御を行い、前記音声分析部は、学習用音声データと該学習用音声データに対応する正解感情データとの組合せ、および、前記学習用音声データと該学習用音声データに対応する正解ハラスメントデータとの組合せを学習データとして、機械学習により生成させた学習済み音声分析モデルに、受け付けた前記音声データを入力して演算することにより前記感情レベルおよび前記ハラスメントレベルを推定して前記音声分析結果を求め、前記画面構成部は、前記音声分析部で求められた前記音声分析結果を表示する音声分析表示画面を構成し、前記画面提供部は、前記画面構成部で構成された前記音声分析表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信することを特徴とする。

【0014】

請求項８に係る発明は、請求項１乃至４の何れか一項に記載の構成に加えて、前記画像音声受付部で受け付けた前記音声データに基づいて分析を行い、前記感情レベルおよび前記ハラスメントレベルを推定して音声分析結果を求める音声分析部を備え、前記制御部は、前記音声データを前記音声分析部で分析させる動作の制御を行い、前記音声分析部は、声の大きさ、該声の大きさの変化、声の高さ、該声の高さの変化、話す速さ、該話す速さの変化、他の前記参加者の言葉に被せて発言する頻度、前記他の前記参加者の言葉に被せて発言する頻度の変化のうち、少なくともいずれか一つを用いて分析を行い、前記音声分析結果を求め、前記画面構成部は、前記音声分析部で求められた前記音声分析結果を表示する音声分析表示画面を構成し、前記画面提供部は、前記画面構成部で構成された前記音声分析表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信することを特徴とする。

【0015】

請求項９に係る発明は、請求項１に記載の構成に加えて、前記参加者を撮影した画像データに基づいて分析を行い、前記感情レベルを推定して画像分析結果を求める画像分析部と、前記画像音声受付部で受け付けた前記音声データに基づいて分析を行い、前記感情レベルおよび前記ハラスメントレベルを推定して音声分析結果を求める音声分析部と、前記文字文章分析部で分析された前記発言分析結果、前記画像分析部で求められた前記画像分析結果および前記音声分析部で求められた前記音声分析結果を総合評価して、総合感情レベルおよび総合ハラスメントレベルのうち、少なくともいずれかを推定して総合判定結果を求める判定部とを備え、前記画像音声受付部は、前記参加者を撮影した前記画像データを前記ネットワークを介して受け付けて、前記制御部は、前記画像データを前記画像分析部で分析させ前記音声データを前記音声分析部で分析させて、前記文字文章分析部で分析された前記発言分析結果、前記画像分析部で求められた前記画像分析結果および前記音声分析部で求められた前記音声分析結果を前記判定部で総合評価させて前記総合判定結果を求める動作の制御を行い、前記画面構成部は、前記判定部で求められた前記総合判定結果を表示する総合判定表示画面を構成し、前記画面提供部は、前記画面構成部で構成された前記総合判定表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信することを特徴とする。

【0016】

請求項１０に係る発明は、請求項１乃至９の何れか一項に記載の構成に加えて、あらかじめ登録されている不適切な語句が前記文字文章に含まれているかを検出する不適切語句検出部を備え、該不適切語句検出部で前記不適切な語句が検出された場合、前記制御部は、前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信する前記不適切な語句に対応する部分の前記音声データの送信停止、前記文字文章に含まれている前記不適切な語句の削除、前記文字文章に含まれている前記不適切な語句を該不適切な語句に対応する適切な語句に置換のうち、少なくともいずれか一つを含む不適切語句遮断措置を行うことを特徴とする。

【0017】

請求項１１に係る発明は、請求項１０に記載の構成に加えて、前記不適切語句検出部で検出される前記不適切な語句の検出頻度が、所定の閾値を超えた場合、前記制御部は、前記画面構成部が警告表示画面を構成し、前記画面提供部が前記画面構成部で構成された前記警告表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信する動作の制御を行うことを特徴とする。

【0018】

請求項１２に係る発明は、ネットワークを介して行われるビデオ会議の参加者の発言を分析するビデオ会議分析プログラムであって、前記参加者の発言の音声データを前記ネットワークを介して受け付ける画像音声受付処理と、該画像音声受付処理で受け付けた前記音声データを文字に変換する音声文字変換処理と、該音声文字変換処理で前記音声データから変換された文字により構成される前記参加者の発言の内容を示す文字文章を分析して発言分析結果を求める文字文章分析処理とを有し、前記文字文章分析処理は、前記参加者の発言の内容を示す前記文字文章に基づいて分析を行い、感情の状態を示す感情レベルおよび嫌がらせの度合を示すハラスメントレベルを推定して前記発言分析結果を求めることを特徴とする。

【0019】

請求項１３に係る発明は、請求項１２に記載の構成に加えて、原文言語で構成される原文文章を所定の翻訳言語に翻訳する翻訳処理を有し、前記翻訳処理は、前記参加者の発言の内容を示す前記文字文章を翻訳して翻訳文を生成することを特徴とする。

【0020】

請求項１４に係る発明は、請求項１２に記載の構成に加えて、前記参加者を撮影した画像データに基づいて分析を行い、前記感情レベルを推定して画像分析結果を求める画像分析処理を有し、前記画像音声受付処理は、前記参加者を撮影した前記画像データを前記ネットワークを介して受け付けて、前記画像分析処理は、前記画像データから顔画像を抽出して、目の形状、該目の形状の変化、眉の形状、該眉の形状の変化、唇の両脇の部分である口角の形状、該口角の形状の変化、頬の形状、該頬の形状の変化、歯の出現頻度、該歯の出現頻度の変化のうち、少なくともいずれか一つを用いて分析を行い、前記画像分析結果を求めることを特徴とする。

【0021】

請求項１５に係る発明は、請求項１２に記載の構成に加えて、前記画像音声受付処理で受け付けた前記音声データに基づいて分析を行い、前記感情レベルおよび前記ハラスメントレベルを推定して音声分析結果を求める音声分析処理を有し、前記音声分析処理は、声の大きさ、該声の大きさの変化、声の高さ、該声の高さの変化、話す速さ、該話す速さの変化、他の前記参加者の言葉に被せて発言する頻度、前記他の前記参加者の言葉に被せて発言する頻度の変化のうち、少なくともいずれか一つを用いて分析を行い、前記音声分析結果を求めることを特徴とする。

【0022】

請求項１６に係る発明は、請求項１２に記載の構成に加えて、前記参加者を撮影した画像データに基づいて分析を行い、前記感情レベルを推定して画像分析結果を求める画像分析処理と、前記画像音声受付処理で受け付けた前記音声データに基づいて分析を行い、前記感情レベルおよび前記ハラスメントレベルを推定して音声分析結果を求める音声分析処理と、前記文字文章分析処理で分析された前記発言分析結果、前記画像分析処理で求められた前記画像分析結果および前記音声分析処理で求められた前記音声分析結果を総合評価して、総合感情レベルおよび総合ハラスメントレベルのうち、少なくともいずれかを推定して総合判定結果を求める判定処理とを有し、前記画像音声受付処理は、前記参加者を撮影した前記画像データを前記ネットワークを介して受け付けて、前記画像分析処理は、前記画像データを分析して前記画像分析結果を求め、前記音声分析処理は、前記音声データを分析して前記音声分析結果を求め、前記判定処理は、前記文字文章分析処理で分析された前記発言分析結果、前記画像分析処理で求められた前記画像分析結果および前記音声分析処理で求められた前記音声分析結果を総合評価して前記総合判定結果を求めることを特徴とする。

【発明の効果】

【0023】

請求項１の発明によれば、ビデオ会議参加者の発言の音声データが文字に変換され、その発言の内容を示す文字文章が構成される。また、構成されたこの文字文章に基づいて分析が行われて、感情の状態を示す感情レベルおよび嫌がらせの度合を示すハラスメントレベルが推定され発言分析結果が求められる。そして、得られた参加者の発言の内容を示す文字文章と発言分析結果を表示する表示画面が構成されて、この表示画面がビデオ会議の参加者に送信される。

【0024】

このように、ビデオ会議参加者の発言に基づいて感情レベルおよびハラスメントレベルを分析することができ、その発言分析結果をビデオ会議の参加者の間で共有することができる。このため、参加者が感情的になった場合など、自らその状態を把握でき自制できるとともに、他の参加者もその状態を把握でき鎮静化を促すことができる。

【0025】

また、参加者の発言の内容を示す文字文章がビデオ会議の参加者に送信されて、画面で確認できるため、回線の状態が悪く音声を聞きにくい場合にも、会議を中断することなく続けることができる。また、聴覚に障害を有する参加者も会議に参加することができる。

【0026】

また、請求項２の発明によれば、音声文字変換部が、人工知能（ＡＩ：ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）である機械学習により生成させた学習済み音声文字変換モデルを用いて、音声データから文字に変換している。このため、高精度に安定して、音声データを文字に変換できる。また、文字文章分析部が、人工知能である機械学習により生成させた学習済み文字文章分析モデルを用いて感情レベルおよびハラスメントレベルを求める。このため、精度よく安定して感情レベルとハラスメントレベルを推定できる。

【0027】

また、請求項３の発明によれば、ビデオ会議参加者の発言の内容を示す文字文章が、所定の翻訳言語に翻訳されるため、使用する言語の異なる参加者同士でも翻訳文を参照することにより円滑な意思の疎通を図ることができる。

【0028】

また、請求項４の発明によれば、翻訳部が、機械学習により生成させた学習済み翻訳モデルを用いて、原文文章を翻訳する。このため、高い精度で確実に翻訳できる。

【0029】

また、請求項５の発明によれば、画像分析部が、機械学習により生成させた学習済み画像分析モデルを用いて、画像データから感情レベルを推定する。このため、高精度に安定して画像データから感情レベルを求められる。

【0030】

また、請求項６の発明によれば、ビデオ会議参加者を撮影した画像データに基づいて感情レベルが推定され画像分析結果が求められる。そして、この画像分析結果を表示する画像分析表示画面が構成されて、ビデオ会議の参加者に送信される。このように、参加者の画像データに基づいて感情レベルが推定され、会議の参加者にその画像分析結果が共有される。参加者の画像データから画像分析結果が求められるため、参加者の発言の内容を示す文字文章と異なるデータを用いて感情レベルを分析することができ、多面的に分析結果を得ることができる。

【0031】

また、請求項７の発明によれば、音声分析部が、機械学習により生成させた学習済み音声分析モデルを用いて、音声データから感情レベルおよびハラスメントレベルを推定する。このため、精度よく確実に音声データから感情レベルやハラスメントレベルを検出できる。

【0032】

また、請求項８の発明によれば、ビデオ会議参加者の発言の音声データに基づいて感情レベルおよびハラスメントレベルが推定され音声分析結果が求められる。そして、この音声分析結果を表示する音声分析表示画面が構成されて、ビデオ会議の参加者に送信される。このように、参加者の発言の音声データに基づいて感情レベルおよびハラスメントレベルが推定され、会議の参加者にその音声分析結果が共有される。参加者の音声データから音声分析結果が求められるため、参加者の発言の内容を示す文字文章と異なり、参加者の音声データそのものを用いて感情レベルおよびハラスメントレベルを分析することができ、多面的に分析結果を得ることができる。

【0033】

また、請求項９の発明によれば、参加者の発言の内容を示す文字文章に基づいて求められた発言分析結果、参加者の画像データに基づいて求められた画像分析結果および参加者の発言の音声データに基づいて求められた音声分析結果が総合評価されて総合判定結果が求められる。そして、この総合判定結果を表示する総合判定表示画面が構成されて、ビデオ会議の参加者に送信される。このように、発言分析結果、画像分析結果および音声分析結果が総合されるため、より多面的な分析結果を得ることができる。

【0034】

また、請求項１０の発明によれば、参加者の発言の内容を示す文字文章に不適切な語句が含まれているか検出され、不適切な語句が検出された場合には、不適切語句遮断措置が行われる。この不適切語句遮断措置により、他人に不快感を与えるような不適切な語句が会議参加者に伝達されなくなるため、参加者は安心して会議に参加することができる。

【0035】

また、請求項１１の発明によれば、不適切な語句の検出頻度が所定の閾値を超えた場合、警告表示画面が参加者に向けて送信される。この警告表示画面により、会議参加者は、不適切な発言が多くなっていることを客観的に認識することができ、休憩するなどの対策を講じることができる。

【0036】

請求項１２の発明によれば、ビデオ会議参加者の発言の音声データが文字に変換され、その発言の内容を示す文字文章が構成される。また、構成されたこの文字文章に基づいて分析が行われて、感情の状態を示す感情レベルおよび嫌がらせの度合を示すハラスメントレベルが推定され発言分析結果が求められる。このように、ビデオ会議参加者の発言に基づいて感情レベルおよびハラスメントレベルを分析することができる。

【0037】

ビデオ会議分析プログラムをＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ）として提供することができるため、様々なビデオ会議システムでこのＡＰＩを利用することができ、汎用性を持たせることができる。

【0038】

また、請求項１３の発明によれば、ビデオ会議参加者の発言の内容を示す文字文章が、所定の翻訳言語に翻訳されるため、使用する言語の異なる参加者同士でも翻訳文を参照することにより円滑な意思の疎通を図ることができる。

【0039】

また、請求項１４の発明によれば、ビデオ会議参加者を撮影した画像データに基づいて感情レベルが推定され画像分析結果が求められる。このため、参加者の発言の内容を示す文字文章と異なるデータを用いて感情レベルを分析することができ、多面的に分析結果を得ることができる。

【0040】

また、請求項１５の発明によれば、ビデオ会議参加者の発言の音声データに基づいて感情レベルおよびハラスメントレベルが推定され音声分析結果が求められる。このため、参加者の発言の内容を示す文字文章と異なり、参加者の音声データそのものを用いて感情レベルおよびハラスメントレベルを分析することができ、多面的に分析結果を得ることができる。

【0041】

また、請求項１６の発明によれば、参加者の発言の内容を示す文字文章に基づいて求められた発言分析結果、参加者の画像データに基づいて求められた画像分析結果および参加者の発言の音声データに基づいて求められた音声分析結果が総合評価されて総合判定結果が求められる。このように、発言分析結果、画像分析結果および音声分析結果が総合されるため、より多面的な分析結果を得ることができる。

【図面の簡単な説明】

【0042】

【図1】この発明の実施の形態１に係るビデオ会議分析システムを含むビデオ会議システムを概略的に示す構成ブロック図である。

【図2】同実施の形態１に係るＷＥＢ／ＡＰＰサーバの構成を示す概略ブロック図である。

【図3】同実施の形態１に係る音声文字変換サーバの構成を示す概略ブロック図である。

【図4】同実施の形態１に係る文字文章分析サーバの構成を示す概略ブロック図である。

【図5】同実施の形態１に係る翻訳サーバの構成を示す概略ブロック図である。

【図6】同実施の形態１に係る画像音声分析サーバの構成を示す概略ブロック図である。

【図7】同実施の形態１に係るビデオ会議分析システムを含むビデオ会議システムのクライアント端末の構成を示す概略ブロック図である。

【図8】同実施の形態１に係るクライアント端末に表示されるビデオ会議画面の一例を示す図である。

【図9】同実施の形態１に係るクライアント端末に表示されるビデオ会議画面の別の例を示す図である。

【図10】（ａ）同実施の形態１に係る感情レベルを表示する絵文字の例を示す図であり、（ｂ）ハラスメントレベルを表示する絵文字の例を示す図である。

【図11】同実施の形態１に係る感情レベルを表示する画面の一例を示す図である。

【図12】同実施の形態１に係るビデオ会議分析システムにおいてビデオ会議開始時の概略フローチャートを示す図である。

【図13】同実施の形態１に係るビデオ会議分析システムにおいてビデオ会議参加者が発言したときの概略フローチャートを示す図である。

【図14】この発明の実施の形態２に係るビデオ会議分析システムを含むビデオ会議システムを概略的に示す構成ブロック図である。

【図15】同実施の形態２に係るＷＥＢ／ＡＰＰサーバの構成を示す概略ブロック図である。

【図16】同実施の形態２に係るビデオ会議分析ＡＰＩの仕様の一例を説明する図である。

【図17】同実施の形態２に係るビデオ会議分析システムを含むビデオ会議システムのビデオ会議サーバの構成を示す概略ブロック図である。

【発明を実施するための形態】

【0043】

［発明の実施の形態１］
この発明の実施の形態１について、図１～図１３を用いて説明する。

【0044】

図１は、本実施の形態１に係るビデオ会議分析システム１を含むビデオ会議システム１００を概略的に示す構成ブロック図である。このビデオ会議分析システム１は、ＷＥＢ／ＡＰＰ（ＷＥＢ／Ａｐｐｌｉｃａｔｉｏｎ）サーバ２、音声文字変換サーバ３、文字文章分析サーバ４、翻訳サーバ５、画像音声分析サーバ６を含む構成になっている。この分析システム１を構成する各サーバは、それぞれ「ネットワーク」としてのインターネット８に接続されている。また、ビデオ会議参加者の操作するクライアント端末７_１，７_２，７_３，・・・，７_ｎ（以下、「クライアント端末７」という）がインターネット８に接続されており、参加者はインターネット８を介してビデオ会議に参加できるようになっている。このように、このビデオ会議システム１００は、ビデオ会議分析システム１やクライアント端末７を含むように構成されている。

【0045】

このビデオ会議システム１００では、距離の離れた参加者同士がビデオ会議を行えるだけでなく、ビデオ会議分析システム１により参加者の発言が分析され、感情の状態や発言に含まれる嫌がらせの度合などが推定されて、それぞれのクライアント端末７に表示されるようになっている。

【0046】

以下に、このビデオ会議分析システム１を構成する各サーバ、クライアント端末７について説明する。

【0047】

＜ＷＥＢ／ＡＰＰサーバ＞
ＷＥＢ／ＡＰＰサーバ２は、会議参加者の各クライアント端末７から送信されてくる参加者の画像や音声のデータを受け付けて、この画像や音声のデータに基づいてビデオ会議画面や会議の音声を構成して、各クライアント端末７に向けて送信する。このような動作を行うことにより、会議参加者は、各クライアント端末７を介して会議の画面や音声を視聴することができ、ビデオ会議を進行させることができる。このように、ＷＥＢ／ＡＰＰサーバ２は、ビデオ会議を実現する機能を有している。これに加えて、このＷＥＢ／ＡＰＰサーバ２は、各クライアント端末７から送信されてくる参加者の画像や音声のデータを後述する音声文字変換サーバ３、文字文章分析サーバ４、翻訳サーバ５、画像音声分析サーバ６で加工や分析を行わせる。ＷＥＢ／ＡＰＰサーバ２では、このようにして得られる分析結果などに基づいてクライアント端末７に表示させる表示画面を構成し、その表示画面を各クライアント端末７に向けて送信する。参加者は、クライアント端末７に表示される画面を通して自らに対する分析結果や他の参加者の分析結果を確認することができる。

【0048】

図２に示す概略ブロック図のようにＷＥＢ／ＡＰＰサーバ２は、ＷＥＢ／ＡＰＰサーバ制御部２０、画面構成部２１、会議設定部２２、議事記録部２３、判定部２４、画像音声受付部２５、画面提供部２６、通信部２８、記憶部２９を含むように構成されている。

【0049】

「制御部」としてのＷＥＢ／ＡＰＰサーバ制御部２０は、プログラムの実行、演算処理、ＷＥＢ／ＡＰＰサーバ２を構成する各要素の制御などを行うＣＰＵ（図示せず）を含むように構成されている。ＷＥＢ／ＡＰＰサーバ制御部２０によって、記憶部２９を構成する不揮発性記憶装置である補助記憶装置（図示せず）に記憶されているプログラムなどが実行され、ＷＥＢ／ＡＰＰサーバ２を構成する各要素が動作する。補助記憶装置としては、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）を用いることができる。プログラムの実行の際、記憶部２９を構成する揮発性メモリのＲＡＭ（図示せず）が、ＣＰＵによるプログラムの実行や演算処理のワークエリアとして使用される。

【0050】

具体的には、ビデオ会議を動作させるプログラムや、各クライアント端末７から送信されてくる参加者の画像や音声のデータを各サーバに分析させて、その分析結果を表示させる画面を構成し各クライアント端末７に向けて送信するプログラムなどが記憶部２９の補助記憶装置に記憶されており、これらのプログラムをＷＥＢ／ＡＰＰサーバ制御部２０のＣＰＵが記憶部２９のＲＡＭを用いて実行するようになっている。

【0051】

通信部２８は、インターネット８に接続されて、このビデオ会議分析システム１を構成する各サーバや、各クライアント端末７との間でデータの送受信を行う。

【0052】

画像音声受付部２５は、ＷＥＢ／ＡＰＰサーバ制御部２０の制御に基づいて、会議参加者の各クライアント端末７からインターネット８を介して送信されてくる参加者を撮影した画像や参加者の発言の音声データを受け付ける（画像音声受付処理）。この画像音声受付部２５は、通信部２８によって実現するようにしてもよい。また、画像音声受付部２５または通信部２８では、参加者の各クライアント端末７のキーボードなどの文字入力部７４から入力された文章を構成する文字データや、クライアント端末７から送信される図表データなどを受け付けるようにしてもよい。

【0053】

ＷＥＢ／ＡＰＰサーバ制御部２０は、画像音声受付部２５で受け付けた参加者の発言の音声データを通信部２８から音声文字変換サーバ３に向けて送信して、その音声データを文字に変換させ、発言の内容を示す文字文章を取得する。次に、ＷＥＢ／ＡＰＰサーバ制御部２０は、取得した文字文章の文字データを通信部２８から文字文章分析サーバ４に向けて送信し、文字文章を分析させて発言分析結果を取得する。また、ＷＥＢ／ＡＰＰサーバ制御部２０は、画像音声受付部２５で受け付けた参加者の画像や音声データを通信部２８から画像音声分析サーバ６に向けて送信し、その画像データを分析させて画像分析結果を取得し、音声データを分析させて音声分析結果を取得する。

【0054】

画面構成部２１は、ＷＥＢ／ＡＰＰサーバ制御部２０の制御に基づいて、各クライアント端末７に表示される後述するようなビデオ会議画面２００，２１０などを構成する。表示画面には、参加者の画像、参加者の発言の音声データを文字に変換して求めたその発言の内容を示す文字文章、文字文章に基づいて分析を行った発言分析結果、文字文章を所定の翻訳言語に翻訳した翻訳文（翻訳文表示画面）、参加者を撮影した画像データに基づいて分析を行った画像分析結果（画像分析表示画面）、参加者の音声データに基づいて分析を行った音声分析結果（音声分析表示画面）、発言分析結果や画像分析結果や音声分析結果を総合評価して求めた総合判定結果（総合判定表示画面）、参加者のクライアント端末７から入力された文章や図表データなどが表示される。

【0055】

画面提供部２６は、ＷＥＢ／ＡＰＰサーバ制御部２０の制御に基づいて、画面構成部２１で構成された画面を参加者の各クライアント端末７に向けて送信して提供する。この画面提供部２６は、通信部２８によって実現するようにしてもよい。

【0056】

会議設定部２２には、会議に先立って、会議で使用される言語の設定、翻訳の有無の設定、会議の分析内容の設定などのビデオ会議の設定、会議参加者の設定、その参加者の使用する言語の設定などを行う。翻訳を行う設定の場合、発言をする会議参加者の言語からその発言をクライアント端末７で受信する他の参加者の使用する言語に翻訳するようになっている。ビデオ会議は、この会議設定部２２の設定に基づいて進行するようになっている。

【0057】

議事記録部２３は、画像音声受付部２５で受け付けた参加者の発言の音声データを記録したり、参加者の音声データを文字に変換した文字データを記録したりする。さらに、参加者の画像や音声データに基づいて分析される分析結果を記録するようにしてもよいし、各クライアント端末７のキーボードなどから入力された文章を記録するようにしてもよい。また、各クライアント端末７から送信されてくる図表データや画像データなどを記録するようにしてもよい。

【0058】

判定部２４は、ＷＥＢ／ＡＰＰサーバ制御部２０の制御に基づいて、文字文章分析サーバ４で分析された発言分析結果、画像音声分析サーバ６で求められた画像分析結果および音声分析結果を総合評価して、総合感情レベルおよび総合ハラスメントレベルを推定して総合判定結果を求める（判定処理）。発言分析結果と画像分析結果と音声分析結果とを総合評価する方法としては、例えば、それぞれの結果に対して重み付けなどの処理を行い、総合的に判定するようにしてもよい。

【0059】

また、ＷＥＢ／ＡＰＰサーバ制御部２０は、画像音声受付部２５で受け付けた参加者の発言の音声データを音声文字変換サーバ３で文字に変換させた文字文章の中に不適切な語句が検出された場合、参加者の各クライアント端末７に送信する音声データから不適切な語句に対応する部分の音声データを送信停止にしたり、参加者の各クライアント端末７に送信する文字文章の表示画面から不適切な語句を削除したりする不適切語句遮断措置を行うようにしてもよい。また、不適切語句遮断措置として、不適切な語句に対応する適切な語句をＷＥＢ／ＡＰＰサーバ２や音声文字変換サーバ３等にあらかじめ記憶させておき、文字文章に含まれている不適切な語句をその不適切な語句に対応する適切な語句に置換するようにしてもよい。

【0060】

また、ＷＥＢ／ＡＰＰサーバ制御部２０は、文字文章の中に不適切な語句が検出される頻度が、あらかじめ会議設定部２２に設定されている回数を超えた場合、不適切な語句の検出頻度が所定の閾値を超えたことを示す警告表示画面を画面構成部２１で構成させて、構成された警告表示画面を画面提供部２６から参加者の各クライアント端末７に向けて送信するようにしてもよい。警告表示画面は、例えば、不適切な発言が多くなっていることの警告や、休憩を促す表示とすることができる。また、ある特定の参加者が不適切な語句を含む発言を繰り返す場合には、その参加者のビデオ会議からの退出を勧告する表示とするようにしてもよい。

【0061】

＜音声文字変換サーバ＞
音声文字変換サーバ３は、会議参加者の発言の音声データを受け付けて、この音声データを文字に変換して発言の内容を示す文字文章を構成する。また、この音声文字変換サーバ３には、不適切な語句があらかじめ登録されており、音声データから求めた文字文章の中に不適切な語句が含まれているか否かを検出するようになっている。

【0062】

図３に示す概略ブロック図のように音声文字変換サーバ３は、音声文字変換サーバ制御部３０、音声文字変換部３１、音声文字変換辞書データベース３２、学習済み音声文字変換モデル保持部３３、不適切語句記憶部３４、不適切語句検出部３５、通信部３８、記憶部３９を含むように構成されている。

【0063】

音声文字変換サーバ制御部３０は、プログラムの実行、演算処理、音声文字変換サーバ３を構成する各要素の制御などを行うＣＰＵ（図示せず）を含むように構成されている。音声文字変換サーバ制御部３０によって、記憶部３９を構成する補助記憶装置（図示せず）に記憶されているプログラムなどが実行され、音声文字変換サーバ３を構成する各要素が動作する。プログラムの実行の際、記憶部３９を構成する揮発性メモリのＲＡＭ（図示せず）が、ＣＰＵによるプログラムの実行や演算処理のワークエリアとして使用される。

【0064】

通信部３８は、インターネット８に接続されて、ＷＥＢ／ＡＰＰサーバ２などとの間でデータの送受信を行う。この通信部３８では、音声文字変換サーバ制御部３０の制御に基づいて、ＷＥＢ／ＡＰＰサーバ２から送信されてくる参加者の発言の音声データやその音声データの言語を受け付ける。

【0065】

音声文字変換辞書データベース３２には、音声データに対応する文字がデータベースとして記憶されており、このデータベース３２は音声データから文字を抽出する際の辞書として用いられる。また、音声文字変換辞書データベース３２は、多言語の辞書データベースを有しており、言語を指定して音声データから文字へ変換する辞書として使用される。

【0066】

学習済み音声文字変換モデル保持部３３は、学習用音声データとそれに対応する正解文字データとの組合せからなる多数の組合せを学習データとして用い、機械学習により生成させた学習済み音声文字変換モデルが保持されている。多言語に対応できるように、言語ごとの生成モデルが保持されており、言語を指定して、この学習済み音声文字変換モデルに音声データを入力して演算する。この演算によってその音声データに対応すると推定される指定された言語の文字が出力される。人工知能である機械学習を用いるため、高精度に安定して音声データが文字に変換される。

【0067】

音声文字変換部３１は、音声文字変換サーバ制御部３０の制御に基づいて、通信部３８で受け付けた音声データとその言語について、音声データからその言語の文字に変換する（音声文字変換処理）。具体的な処理として、音声文字変換部３１が、音声文字変換辞書データベース３２を用いその音声データを文字に変換する。また、音声文字変換部３１は、音声データとその言語について、学習済み音声文字変換モデル保持部３３に保持されている学習済み音声文字変換モデルを用いその音声データを文字に変換する。その後、音声文字変換辞書データベース３２を用いて求めた文字と、学習済み音声文字変換モデルを用いて文字とを比較して調整を行い、最適な文字になるように修正する。なお、音声文字変換部３１では、音声文字変換辞書データベース３２と学習済み音声文字変換モデルの両方を利用する必要はなく、どちらか一方を利用して、音声データから文字に変換するようにしてもよい。

【0068】

音声文字変換サーバ制御部３０は、音声データから文字に変換されて求められた文字文章の文字データを通信部３８からＷＥＢ／ＡＰＰサーバ２に向けて送信する。

【0069】

不適切語句記憶部３４には、他人に不快感やハラスメントを与えるような不適切な語句があらかじめ登録されて記憶されている。

【0070】

不適切語句検出部３５は、音声文字変換サーバ制御部３０の制御に基づいて、音声文字変換部３１で求められた文字文章の中に、不適切語句記憶部３４に記憶されている不適切な語句が含まれているか否かを検出する。

【0071】

文字文章中に不適切な語句が検出された場合、音声文字変換サーバ制御部３０は、受け付けた音声データから構成された文字文章に不適切な語句が含まれていることを示す通知と、検出されたその不適切な語句とを通信部３８からＷＥＢ／ＡＰＰサーバ２に送信する。また、この音声文字変換サーバ３に、不適切な語句に対応する適切な語句を記憶させておき、検出された不適切な語句と、その不適切な語句に対応する適切な語句とをＷＥＢ／ＡＰＰサーバ２に送信するようにしてもよい。こうすることで、ＷＥＢ／ＡＰＰサーバ２では、不適切な語句を適切な語句に置き換えることができる。

【0072】

不適切な語句が含まれていることを示す通知やその不適切な語句などを受信するＷＥＢ／ＡＰＰサーバ２では、上述のような不適切語句遮断措置を施すことできる。

【0073】

＜文字文章分析サーバ＞
文字文章分析サーバ４は、会議参加者の発言の音声データを文字に変換して構成された文字文章を分析し、感情の状態を示す感情レベルおよび嫌がらせの度合を示すハラスメントレベルを推定して発言分析結果を求める（文字文章分析処理）。

【0074】

感情レベルとして、「喜び」、「悲しみ」、「怒り」、「嫌悪」、「恐怖」、「驚き」などの感情の種類と、その感情の強さのパーセント表示との組み合わせとしてもよい。また、「喜び」や「悲しみ」等の感情の推定確率のパーセント表示としてもよい。また、良い感情から悪い感情までの間の感情の状態のパーセント表示としてもよい。

【0075】

ハラスメントレベルとして、「パワーハラスメント」や「セクシャルハラスメント」などのハラスメントの種類と、そのハラスメントの強さのパーセント表示との組み合わせとしてもよい。また、「パワーハラスメント」や「セクシャルハラスメント」等のハラスメントの推定確率のパーセント表示としてもよい。また、ハラスメント有りから無しの間の状態のパーセント表示としてもよい。

【0076】

図４に示す概略ブロック図のように文字文章分析サーバ４は、文字文章分析サーバ制御部４０、文字文章分析部４１、文字文章分析辞書データベース４２、学習済み文字文章分析モデル保持部４３、通信部４８、記憶部４９を含むように構成されている。

【0077】

文字文章分析サーバ制御部４０は、文字文章分析サーバ４を構成する各要素の制御などを行うＣＰＵ（図示せず）を含むように構成されている。記憶部４９は、補助記憶装置（図示せず）やＲＡＭ（図示せず）により構成されている。

【0078】

通信部４８は、インターネット８に接続されて、ＷＥＢ／ＡＰＰサーバ２などとの間でデータの送受信を行う。この通信部４８では、文字文章分析サーバ制御部４０の制御に基づいて、ＷＥＢ／ＡＰＰサーバ２から送信されてくる参加者の音声データを文字に変換した文字文章の文字データやその言語を受け付ける。

【0079】

文字文章分析辞書データベース４２には、文章を構成する語句に対応する感情レベルやハラスメントレベルがデータベースとして記憶されており、このデータベース４２は文字文章から感情レベルやハラスメントレベルを推定する際の辞書として用いられる。また、文字文章分析辞書データベース４２は、多言語の辞書データベースを有しており、言語を指定して文字文章から感情レベルなどを推定する辞書として使用される。

【0080】

学習済み文字文章分析モデル保持部４３は、学習用文章とそれに対応する正解感情データとの組合せ、学習用文章とそれに対応する正解ハラスメントデータとの組合せからなる多数の組合せを学習データとして用い、機械学習により生成させた学習済み文字文章分析モデルが保持されている。この学習済み文字文章分析モデルは、学習済み文字文章分析感情生成モデルと学習済み文字文章分析ハラスメント生成モデルから構成される。学習済み文字文章分析感情生成モデルは、学習用文章とそれに対応する、例えば、「喜び」、「悲しみ」、「怒り」、「嫌悪」、「恐怖」、「驚き」などの正解となる感情の種類との組合せを学習の教師データとして用いて生成され、文字文章を入力して演算することにより感情レベルが求められる。感情の種類としては、「喜び」、「悲しみ」、「怒り」、「嫌悪」、「恐怖」、「驚き」などの少なくともいずれか一つの感情を用いればよい。一方、学習済み文字文章分析ハラスメント生成モデルは、学習用文章とそれに対応する、例えば、「パワーハラスメント」や「セクシャルハラスメント」、そして、「ハラスメント無し」などの正解となるハラスメントの種類との組合せを教師データとして用いて生成され、文字文章を入力して演算することによりハラスメントレベルが求められる。ハラスメントの種類としては、「パワーハラスメント」、「セクシャルハラスメント」、「ハラスメント無し」などの少なくともいずれか一つを用いればよい。多言語に対応できるように、言語ごとの生成モデルが保持されており、言語を指定して、この学習済み文字文章分析モデルに文字文章を入力して演算させることによってその文字文章に対応すると推定される感情レベルやハラスメントレベルが出力されるようになっている。

【0081】

文字文章分析部４１は、文字文章分析サーバ制御部４０の制御に基づいて、通信部４８で受け付けた文字データから構成される文字文章とその言語について、文字文章分析辞書データベース４２を用いその文字文章から感情レベルやハラスメントレベルを推定する。文字文章分析辞書データベース４２を用いると、文字文章を構成する語句ごとの感情レベルやハラスメントレベルが求められる。そして、それら語句ごとの感情レベルやハラスメントレベルに重み付けなどの処理を行い、文字文章全体としての感情レベルやハラスメントレベルが推定される。また、文字文章分析部４１は、文字文章とその言語について、学習済み文字文章分析モデル保持部４３に保持されている学習済み文字文章分析モデルを用いその文字文章から感情レベルやハラスメントレベルを推定する。その後、文字文章分析辞書データベース４２を用いて推定された感情レベルやハラスメントレベルと、学習済み文字文章分析モデルを用いて推定された感情レベルやハラスメントレベルとを比較して調整を行い、最適な感情レベルやハラスメントレベルになるように修正する。

【0082】

なお、文字文章分析部４１では、文字文章分析辞書データベース４２と学習済み文字文章分析モデルの両方を利用する必要はなく、どちらか一方を利用して、文字文章から感情レベルやハラスメントレベルを推定するようにしてもよい。また、文字文章分析部４１では、感情レベルまたはハラスメントレベルの何れか一方を推定するようにしてもよい。

【0083】

このようにして参加者の発言の内容を示す文字文章を分析して推定された感情レベルやハラスメントレベルが発言分析結果となる。文字文章分析サーバ制御部４０は、この発言分析結果を通信部４８からＷＥＢ／ＡＰＰサーバ２に向けて送信する。

【0084】

なお、文字文章分析部４１では、クライアント端末７のキーボードなどから入力された文章に対して分析を行い、感情レベルやハラスメントレベルを推定するようにしてもよい。

【0085】

＜翻訳サーバ＞
翻訳サーバ５は、会議参加者の発言の音声データを文字に変換して構成された文字文章を翻訳言語に翻訳し、原文言語で構成される原文文章である文字文章の翻訳文を生成する（翻訳処理）。

【0086】

図５に示す概略ブロック図のように翻訳サーバ５は、翻訳サーバ制御部５０、翻訳部５１、翻訳辞書データベース５２、学習済み翻訳モデル保持部５３、通信部５８、記憶部５９を含むように構成されている。

【0087】

翻訳サーバ制御部５０は、翻訳サーバ５を構成する各要素の制御などを行うＣＰＵ（図示せず）を含むように構成されている。記憶部５９は、補助記憶装置（図示せず）やＲＡＭ（図示せず）により構成されている。

【0088】

通信部５８は、インターネット８に接続されて、ＷＥＢ／ＡＰＰサーバ２などとの間でデータの送受信を行う。この通信部５８では、翻訳サーバ制御部５０の制御に基づいて、ＷＥＢ／ＡＰＰサーバ２から送信されてくる参加者の音声データを文字に変換した文字文章の文字データ、文字文章の言語である原文言語、翻訳する言語である翻訳言語を受け付ける。

【0089】

翻訳辞書データベース５２には、原文言語の語句に対応する翻訳語がデータベースとして記憶されており、このデータベース５２は文字文章の翻訳文を生成する際の辞書として用いられる。また、翻訳辞書データベース５２は、多言語の辞書データベースを有しており、原文言語と翻訳言語を指定して原文言語の文字文章から翻訳言語の翻訳文を生成する辞書として使用される。

【0090】

学習済み翻訳モデル保持部５３は、学習用原文文章とその翻訳文として正解となる正解翻訳文との組合せからなる多数の組合せを学習データとして用い、機械学習により生成させた学習済み翻訳モデルが保持されている。多言語に対応できるように、言語ごとの生成モデルが保持されており、原文言語と翻訳言語を指定して、この学習済み翻訳モデルに原文言語の文字文章を入力して演算させることによってその文字文章の翻訳文が出力されるようになっている。

【0091】

翻訳部５１は、翻訳サーバ制御部５０の制御に基づいて、通信部５８で受け付けた文字データから構成される文字文章、その文字文章の原文言語、翻訳言語について、翻訳辞書データベース５２を用いその文字文章から翻訳文を生成する。また、翻訳部５１は、文字文章、その言語、翻訳言語について、学習済み翻訳モデル保持部５３に保持されている学習済み翻訳モデルを用いその文字文章の翻訳文を生成する。その後、翻訳辞書データベース５２を用いて生成された翻訳文と、学習済み翻訳モデルを用いて生成された翻訳文との調整を行い、最適な翻訳文になるように修正する。なお、翻訳部５１では、翻訳辞書データベース５２と学習済み翻訳モデルの両方を利用する必要はなく、どちらか一方を利用して、文字文章の翻訳文を生成するようにしてもよい。

【0092】

翻訳サーバ制御部５０は、このように生成された文字文章の翻訳文の文字データを通信部５８からＷＥＢ／ＡＰＰサーバ２に向けて送信する。

【0093】

なお、翻訳部５１では、クライアント端末７のキーボードなどから入力された文章を翻訳して翻訳文を生成するようにしてもよい。

【0094】

＜画像音声分析サーバ＞
画像音声分析サーバ６は、会議参加者を撮影した画像データを分析して感情レベルを推定して画像分析結果を求める（画像分析処理）とともに、会議参加者の発言の音声データを分析して感情レベルおよびハラスメントレベルを推定して音声分析結果を求める（音声分析処理）。

【0095】

図６に示す概略ブロック図のように画像音声分析サーバ６は、画像音声分析サーバ制御部６０、画像分析部６１、画像分析辞書データベース６２、学習済み画像分析モデル保持部６３、音声分析部６４、音声分析辞書データベース６５、学習済み音声分析モデル保持部６６、通信部６８、記憶部６９を含むように構成されている。

【0096】

画像音声分析サーバ制御部６０は、画像音声分析サーバ６を構成する各要素の制御などを行うＣＰＵ（図示せず）を含むように構成されている。記憶部６９は、補助記憶装置（図示せず）やＲＡＭ（図示せず）により構成されている。

【0097】

通信部６８は、インターネット８に接続されて、ＷＥＢ／ＡＰＰサーバ２などとの間でデータの送受信を行う。この通信部６８では、画像音声分析サーバ制御部６０の制御に基づいて、ＷＥＢ／ＡＰＰサーバ２から送信されてくる参加者を撮影した画像データや参加者の発言の音声データを受け付ける。

【0098】

画像分析辞書データベース６２には、人の目、眉、唇の両脇の部分である口角、頬、口元などの顔画像の部位の形状やその形状の変化に対応する感情レベルがデータベースとして記憶されており、このデータベース６２は参加者の画像データから抽出される顔画像に基づいて感情レベルを推定する際の辞書として用いられる。

【0099】

学習済み画像分析モデル保持部６３は、学習用顔画像とそれに対応する、例えば、「喜び」、「悲しみ」、「怒り」、「嫌悪」、「恐怖」、「驚き」などの正解となる感情の種類との組合せからなる多数の組合せを学習データとして用い、機械学習により生成させた学習済み画像分析モデルが保持されている。感情の種類としては、「喜び」、「悲しみ」、「怒り」、「嫌悪」、「恐怖」、「驚き」などの少なくともいずれか一つの感情を用いればよい。この学習済み画像分析モデルに参加者の画像データから抽出される顔画像を入力して演算させることによってその顔画像に対応すると推定される感情レベルが出力されるようになっている。例えば、入力された顔画像についての「喜び」や「悲しみ」や「怒り」などの各感情の推定確率が出力される。

【0100】

画像分析部６１は、通信部６８で受け付けた参加者の画像データから顔画像を抽出し、その顔画像の目の形状、ビデオ会議中における目の形状の変化、眉の形状、会議中における眉の形状の変化、口角の形状、口角の形状の変化、頬の形状、頬の形状の変化、歯の出現頻度、歯の出現頻度の変化などを用いて分析を行い、感情レベルを推定して画像分析結果を求める。

【0101】

すなわち、画像分析部６１は、画像音声分析サーバ制御部６０の制御に基づいて、画像データから抽出された顔画像について画像分析辞書データベース６２を用いその顔画像から感情レベルを推定する。画像分析辞書データベース６２を用いると、顔画像を構成する目、眉、口角、頬、口元などの各部位の形状やその形状の変化に対応する感情レベルが求められ、それら部位ごとの感情レベルに重み付けなどの処理を行い、顔画像全体としての感情レベルが推定される。また、画像分析部６１は、抽出された顔画像について、学習済み画像分析モデル保持部６３に保持されている学習済み画像分析モデルを用いその顔画像から感情レベルを推定する。その後、画像分析辞書データベース６２を用いて推定された感情レベルと、学習済み画像分析モデルを用いて推定された感情レベルとの調整を行い、最適な感情レベルになるように修正する。なお、画像分析部６１では、画像分析辞書データベース６２と学習済み画像分析モデルの両方を利用する必要はなく、どちらか一方を利用して、顔画像から感情レベルを推定するようにしてもよい。

【0102】

このようにして画像データを分析して推定された感情レベルが画像分析結果となる。画像音声分析サーバ制御部６０は、この画像分析結果を通信部６８からＷＥＢ／ＡＰＰサーバ２に向けて送信する。

【0103】

また、画像分析部６１には、参加者の画像データから抽出された顔画像に基づいて、性別や年齢を推定する構成（図示せず）を備えるようにしてもよい。

【0104】

音声分析辞書データベース６５には、声の大きさ、声の高さ、話す速さ、他の発言者の言葉に被せて発言する頻度や、それら声の大きさ、高さ、話す速さなどの変化に対応する感情レベルやハラスメントレベルがデータベースとして記憶されており、このデータベース６５は参加者の音声データから感情レベルやハラスメントレベルを推定する際の辞書として用いられる。

【0105】

学習済み音声分析モデル保持部６６は、学習用音声データとそれに対応する正解感情データとの組合せ、学習用音声データとそれに対応する正解ハラスメントデータとの組合せからなる多数の組合せを学習データとして用い、機械学習により生成させた学習済み音声分析モデルが保持されている。この学習済み音声分析モデルは、学習済み音声分析感情生成モデルと学習済み音声分析ハラスメント生成モデルから構成される。学習済み音声分析感情生成モデルは、学習用音声データとそれに対応する、例えば、「喜び」、「悲しみ」、「怒り」、「嫌悪」、「恐怖」、「驚き」などの正解となる感情の種類との組合せを学習の教師データとして用いて生成され、音声データを入力して演算することにより感情レベルが求められる。例えば、入力された音声データについての「喜び」や「悲しみ」などの各感情の推定確率が出力される。一方、学習済み音声分析ハラスメント生成モデルは、学習用音声データとそれに対応する、例えば、「パワーハラスメント」、「セクシャルハラスメント」、「ハラスメント無し」などの正解となるハラスメントの種類との組合せを教師データとして用いて生成され、音声データを入力して演算することによりハラスメントレベルが求められる。例えば、入力された音声データについての「パワーハラスメント」や「セクシャルハラスメント」などの各ハラスメントの推定確率が出力される。この学習済み音声分析モデルに参加者の音声データを入力して演算させることによってその音声データに対応すると推定される感情レベルやハラスメントレベルが出力されるようになっている。

【0106】

音声分析部６４は、通信部６８で受け付けた参加者の音声データから、声の大きさ、ビデオ会議中における声の大きさの変化、声の高さ、会議中における声の高さの変化、話す速さ、話す速さの変化、他の参加者の言葉に被せて発言する頻度、他の参加者の言葉に被せて発言する頻度の変化などを用いて分析を行い、感情レベルやハラスメントレベルを推定して音声分析結果を求める。

【0107】

すなわち、音声分析部６４は、画像音声分析サーバ制御部６０の制御に基づいて、音声データについて音声分析辞書データベース６５を用い感情レベルやハラスメントレベルを推定する。音声分析辞書データベース６５を用いると、声の大きさ、その高さ、話す速さなどやそれらの変化に対応する感情レベルやハラスメントレベルが求められ、それら判定要素ごとの感情レベルやハラスメントレベルに重み付けなどの処理を行い、音声データ全体としての感情レベルやハラスメントレベルが推定される。また、音声分析部６４は、音声データについて、学習済み音声分析モデル保持部６６に保持されている学習済み音声分析モデルを用い感情レベルやハラスメントレベルを推定する。その後、音声分析辞書データベース６５を用いて推定された感情レベルやハラスメントレベルと、学習済み音声分析モデルを用いて推定された感情レベルやハラスメントレベルとの調整を行い、最適な感情レベルやハラスメントレベルになるように修正する。

【0108】

なお、音声分析部６４では、音声分析辞書データベース６５と学習済み音声分析モデルの両方を利用する必要はなく、どちらか一方を利用して、参加者の音声データから感情レベルなどを推定するようにしてもよい。また、音声分析部６４では、感情レベルまたはハラスメントレベルの何れか一方を推定するようにしてもよい。

【0109】

このようにして音声データを分析して推定された感情レベルやハラスメントレベルが音声分析結果となる。画像音声分析サーバ制御部６０は、この音声分析結果を通信部６８からＷＥＢ／ＡＰＰサーバ２に向けて送信する。

【0110】

＜クライアント端末＞
クライアント端末７は、ブラウザと呼ばれるソフトウェアによってインターネット８につながり、ＷＥＢ／ＡＰＰサーバ２などのビデオ会議を動作させるサーバに接続される。クライアント端末７からビデオ会議参加者の画像や発言の音声などが送信され、他の参加者の画像や音声などを受信して端末７で視聴することにより、ビデオ会議が行われる。クライアント端末７としては、パーソナルコンピュータやスマートフォンなどの情報端末が用いられる。

【0111】

図７に示す概略ブロック図のようにクライアント端末７は、クライアント端末制御部７０、表示部７１、カメラ７２、マイクロホン７３、文字入力部７４、スピーカ７５、通信部７８、記憶部７９を含むように構成されている。

【0112】

クライアント端末制御部７０は、クライアント端末７を構成する各要素の制御などを行うＣＰＵ（図示せず）を含むように構成されている。記憶部７９は、補助記憶装置（図示せず）やＲＡＭ（図示せず）により構成されている。

【0113】

通信部７８は、インターネット８に接続されて、ＷＥＢ／ＡＰＰサーバ２などのビデオ会議を動作させるサーバ等との間でデータの送受信を行う。この通信部７８で送受信されるデータは、画像データや音声データなどである。

【0114】

表示部７１は、液晶ディスプレイなどの表示装置により構成され、ＷＥＢ／ＡＰＰサーバ２の画面構成部２１で構成されたビデオ会議画面２００，２１０などを表示する。

【0115】

カメラ７２は、ＣＣＤイメージセンサやＣＭＯＳイメージセンサ等の固体撮像素子などにより構成され、会議参加者などを撮影する。マイクロホン７３は、参加者の発言などの音声を電気信号に変換して音声データを取得する。スピーカ７５は、他の参加者の発言の音声データを音声として発生させる。

【0116】

文字入力部７４は、キーボードなどの入力装置で構成され、参加者の文字の入力に用いられる。

【0117】

カメラ７２で撮影された参加者の画像データ、マイクロホン７３で取得された参加者の発言の音声データ、文字入力部７４から参加者によって入力された文章を構成する文字データなどは、通信部７８からビデオ会議を動作させるサーバに向けて送信される。また、ビデオ会議の表示画面データや会議の音声データなどが通信部７８で受信されて、表示部７１に表示され、スピーカ７５からその音声が出力される。

【0118】

＜ビデオ会議画面＞
図８と図９は、クライアント端末７の表示部７１に表示されるビデオ会議画面の例である。ＷＥＢ／ＡＰＰサーバ２の画面構成部２１で構成されたビデオ会議の表示画面が画面提供部２６からクライアント端末７に向けて送信され、この表示画面を受信したクライアント端末７がその表示部７１に表示したものである。

【0119】

図８に示すビデオ会議画面２００には、会議に参加している７人が表示されている。各参加者を表示する領域には、その参加者を撮影した画像２０１、その領域の左上部に感情レベル表示２０２、左中央部に性別表示２０３、左下部に推定年齢表示２０４が表示されている。

【0120】

感情レベル表示２０２は、「喜び」、「悲しみ」、「怒り」、「嫌悪」、「恐怖」、「驚き」などの感情の種類を表現する絵文字と、その感情の強さのパーセント表示により構成されている。また、この他に、「喜び」や「悲しみ」等の感情の推定確率をパーセント表示してもよいし、感情の最も悪い状態を０％、最も良い状態を１００％としたときの感情の状態をパーセント表示してもよい。図１０（ａ）は、感情の最も悪い状態を０％、最も良い状態を１００％として感情の状態をパーセント表示によって表示する場合の感情レベルを表示する絵文字の例である。絵文字は、感情レベルの２０％刻みに対応するように５種類用意されている。

【0121】

また、ハラスメントレベル表示は、「パワーハラスメント」や「セクシャルハラスメント」などのハラスメントの種類を表現する絵文字と、そのハラスメントの強さのパーセント表示を表示するようにしてもよい。また、この他に「パワーハラスメント」や「セクシャルハラスメント」等のハラスメントの推定確率をパーセント表示してもよい。また、ハラスメントが無く適切な状態を０％、ハラスメントが有り不適切な状態を１００％としたときのパーセント表示を表示してもよい。図１０（ｂ）は、ハラスメント有りの状態を１００％、ハラスメント無しの状態を０％としてハラスメントの状態をパーセント表示によって表示する場合のハラスメントレベルを表示する絵文字の例である。絵文字は、ハラスメントレベルの２０％刻みに対応するように５種類用意されている。

【0122】

図９に示すビデオ会議画面２１０のように、発言中の参加者をクライアント端末７の表示部７１に拡大して表示するようにしてもよい。このビデオ会議画面２１０では、参加者の画像２０１が表示され、その下方に文字文章表示２０５が配置されている。この文字文章表示２０５には、その参加者の発言の内容を示す文字文章が文字で表示される。翻訳を行う設定になっている場合には、この領域に文字文章の翻訳文を表示させるようにしてもよい。

【0123】

また、文字文章表示２０５の下方左部には、感情レベル表示２０６が配置され、その表示２０６の右側には、ハラスメントレベル表示２０７が配置されている。

【0124】

感情レベル表示２０６やハラスメントレベル表示２０７は、絵文字とパーセント表示で構成するだけでなく、例えば、図１１に示すように、詳細な分析結果を表示するようにしてもよい。この図１１は、感情レベル表示２０８の例であるが、感情を構成する「喜び」、「悲しみ」、「怒り」、「嫌悪」、「恐怖」、「驚き」などの項目の推定確率を表示するようになっている。

【0125】

なお、感情レベル表示２０２，２０６，２０８に表示する感情レベルや、ハラスメントレベル表示２０７に表示するハラスメントレベルは、文字文章分析サーバ４の文字文章分析部４１において参加者の発言の内容を示す文字文章を分析して求められた発言分析結果の感情レベルやハラスメントレベルを採用してもよい。また、画像音声分析サーバ６の画像分析部６１において参加者の画像データを分析して求められた画像分析結果の感情レベルを採用してもよい。また、音声分析部６４において参加者の音声データを分析して求められた音声分析結果の感情レベルやハラスメントレベルを採用してもよい。また、ＷＥＢ／ＡＰＰサーバ２の判定部２４において発言分析結果、画像分析結果および音声分析結果を総合評価して求めた総合判定結果の総合感情レベルや総合ハラスメントレベルを採用してもよい。

【0126】

＜ビデオ会議分析システムの動作＞
次に、本実施の形態１に係るビデオ会議分析システム１を含むビデオ会議システム１００の動作を説明する。以下に、ビデオ会議開始時の動作と、ビデオ会議参加者が発言したときの動作について説明する。

【0127】

＜ビデオ会議開始時の動作＞
図１２には、ビデオ会議分析システム１においてビデオ会議開始時の概略フローチャートが示されている。

【0128】

まず、ビデオ会議の開始に先立って、会議参加者のうちの一人が、その参加者のクライアント端末７を用いて会議参加者、参加者の言語、参加者の発言の音声を文字に変換して画面に表示するか否か、翻訳の有無などの会議設定を行う（Ｓ１００ステップ）。会議設定には、参加者の発言の内容を示す文字文章を分析して感情レベルやハラスメントレベルの推定を行うか否か、参加者の画像を分析して感情レベルの推定を行うか否か、参加者の音声データを分析して感情レベルやハラスメントレベルの推定を行うか否か、総合感情レベルや総合ハラスメントレベルを求めるか否かなどのビデオ会議の分析内容も設定される。この会議設定は、クライアント端末７からＷＥＢ／ＡＰＰサーバ２に向けて送信され、そのサーバ２に受信され会議設定部２２に記憶される（Ｓ１１０ステップ）。

【0129】

会議設定が終了すると、参加者はクライアント端末７に会議開始を入力する（Ｓ１０１ステップ）。会議開始の指示は、クライアント端末７からＷＥＢ／ＡＰＰサーバ２に送信され、そのサーバ２に受け付けられる（Ｓ１１１ステップ）。

【0130】

クライアント端末７からは、参加者を撮影した画像データがＷＥＢ／ＡＰＰサーバ２に送信される。ＷＥＢ／ＡＰＰサーバ２では、画像音声受付部２５で参加者の画像データを受け付ける（Ｓ１１２ステップ）。取得した参加者の画像を分析するため、ＷＥＢ／ＡＰＰサーバ２のＷＥＢ／ＡＰＰサーバ制御部２０は、参加者画像データを画像音声分析サーバ６に向けて送信する（Ｓ１１３ステップ）。

【0131】

画像音声分析サーバ６の画像分析部６１では、受け付けた参加者画像データを分析して感情レベルを推定して画像分析結果を求める（Ｓ１３０ステップ）。また、画像分析部６１では、参加者画像データに基づいて性別や年齢を推定する。

【0132】

画像音声分析サーバ６における参加者画像データの分析結果は、ＷＥＢ／ＡＰＰサーバ２に送信され、そのサーバ２で取得される（Ｓ１１４ステップ）。

【0133】

他の会議参加者のクライアント端末７からも、参加者の画像データがＷＥＢ／ＡＰＰサーバ２に送信され、ＷＥＢ／ＡＰＰサーバ２に受け付けられる（Ｓ１１５ステップ）。ＷＥＢ／ＡＰＰサーバ２は、同様に、参加者画像データを画像音声分析サーバ６に送信（Ｓ１１６ステップ）して分析させ（Ｓ１３１ステップ）、分析結果を取得する（Ｓ１１７ステップ）。

【0134】

すべての会議参加者のクライアント端末７から参加者画像データを受け付けて分析を行わせると、ＷＥＢ／ＡＰＰサーバ２のＷＥＢ／ＡＰＰサーバ制御部２０は、画面構成部２１に例えば、図８に示すようなビデオ会議画面２００を構成させる。ＷＥＢ／ＡＰＰサーバ制御部２０は、構成されたビデオ会議画面２００を画面提供部２６から、会議に参加しているすべてのクライアント端末７に向けて送信する（Ｓ１１８ステップ）。

【0135】

こうすることにより、クライアント端末７の表示部７１には、ビデオ会議画面２００のような画面が表示され（Ｓ１０２ステップ、Ｓ１４０ステップ）、ビデオ会議が開始される。

【0136】

＜ビデオ会議参加者が発言したときの動作＞
図１３には、ビデオ会議分析システム１においてビデオ会議参加者が発言したときの概略フローチャートが示されている。

【0137】

ビデオ会議中に、参加者が発言すると（Ｓ２００ステップ）、その参加者のクライアント端末７からＷＥＢ／ＡＰＰサーバ２に向けて発言の音声データが送信される。また、参加者の画像データは、常時、クライアント端末７からＷＥＢ／ＡＰＰサーバ２に向けて送信されるようになっている。

【0138】

ＷＥＢ／ＡＰＰサーバ２が、参加者の音声データと画像データを受け付けると（Ｓ２１０ステップ）、このサーバ２のＷＥＢ／ＡＰＰサーバ制御部２０は、音声データを文字に変換させるため、受け付けた音声データを音声文字変換サーバ３に送信する。

【0139】

音声文字変換サーバ３の音声文字変換部３１では、受け付けた音声データを文字に変換する（Ｓ２２０ステップ）。発言の音声データから変換された文字によって、発言の内容を示す文字文章が構成される。このように音声データを変換して得られた文字データは、ＷＥＢ／ＡＰＰサーバ２に向けて送信される。

【0140】

ＷＥＢ／ＡＰＰサーバ２では、文字文章を構成する文字データを音声文字変換サーバ３から受け付けると（Ｓ２１１ステップ）、受け付けた文字文章を分析させるため、ＷＥＢ／ＡＰＰサーバ制御部２０が、受け付けた文字データを文字文章分析サーバ４に送信する。

【0141】

文字文章分析サーバ４の文字文章分析部４１では、受け付けた文字データで構成されている文字文章を分析して、感情レベルやハラスメントレベルを推定する（Ｓ２３０ステップ）。このように参加者の発言の内容を示す文字文章を分析した結果が、発言分析結果となる。文字文章の分析結果は、ＷＥＢ／ＡＰＰサーバ２に送信され、そのサーバ２に受け付けられる（Ｓ２１２ステップ）。

【0142】

発言の内容を示す文字文章を翻訳する設定になっている場合、翻訳させるため、ＷＥＢ／ＡＰＰサーバ制御部２０は、文字文章を構成する文字データ、その文字文章の言語、翻訳言語などを翻訳サーバ５に送信する。

【0143】

翻訳サーバ５の翻訳部５１では、受け付けた文字文章を翻訳言語に翻訳する（Ｓ２４０ステップ）。生成された文字文章の翻訳文は、ＷＥＢ／ＡＰＰサーバ２に送信され、そのサーバ２に受け付けられる（Ｓ２１３ステップ）。

【0144】

次に、参加者の画像データや音声データを分析させるため、ＷＥＢ／ＡＰＰサーバ制御部２０は、クライアント端末７から受け付けた参加者画像データと音声データを画像音声分析サーバ６に向けて送信する。

【0145】

画像音声分析サーバ６の画像分析部６１では、受け付けた参加者画像データを分析して感情レベルを推定する（Ｓ２５０ステップ）。このように参加者画像データを分析した結果が、画像分析結果となる。また、音声分析部６４では、受け付けた参加者の音声データを分析して感情レベルやハラスメントレベルを推定する（Ｓ２５０ステップ）。このように参加者音声データを分析した結果が、音声分析結果となる。

【0146】

画像音声分析サーバ６で求められた画像分析結果や音声分析結果は、ＷＥＢ／ＡＰＰサーバ２に送信され、そのサーバ２に受け付けられる（Ｓ２１４ステップ）。

【0147】

ＷＥＢ／ＡＰＰサーバ制御部２０は、受け付けた文字文章、文字文章の分析結果、文字文章の翻訳文、画像分析結果、音声分析結果に基づいて、画面構成部２１に例えば、図９に示すようなビデオ会議画面２１０を構成させる。そして、ＷＥＢ／ＡＰＰサーバ制御部２０は、構成されたビデオ会議画面２１０を画面提供部２６から、会議に参加しているすべてのクライアント端末７に向けて送信する（Ｓ２１５ステップ）。

【0148】

こうすることにより、クライアント端末７の表示部７１には、ビデオ会議画面２１０のような画面が表示され（Ｓ２０１ステップ、Ｓ２６０ステップ）、ビデオ会議が進行する。

【0149】

＜本実施の形態１の効果＞
本実施の形態１によれば、ビデオ会議参加者の発言の音声データが文字に変換され、その発言の内容を示す文字文章が構成される。また、構成されたこの文字文章に基づいて分析が行われて、感情レベルおよびハラスメントレベルが推定され発言分析結果が求められる。そして、得られた参加者の発言の内容を示す文字文章と発言分析結果を表示する表示画面が構成されて、この表示画面がビデオ会議の参加者に送信される。このように、参加者の発言に基づいて感情レベルおよびハラスメントレベルを分析することができ、その発言分析結果をビデオ会議の参加者の間で共有することができる。このため、参加者が感情的になった場合など、自らその状態を把握でき自制できるとともに、他の参加者もその状態を把握でき鎮静化を促すことができる。

【0150】

【0151】

また、本実施の形態１によれば、音声文字変換サーバ３の音声文字変換部３１が、人工知能である機械学習により生成させた学習済み音声文字変換モデルを用いて、音声データから文字に変換している。このため、高精度に安定して、音声データを文字に変換できる。また、文字文章分析部４１が、人工知能である機械学習により生成させた学習済み文字文章分析モデルを用いて感情レベルおよびハラスメントレベルを求める。このため、精度よく安定して感情レベルとハラスメントレベルを推定できる。

【0152】

また、本実施の形態１によれば、会議参加者の発言の内容を示す文字文章が、所定の翻訳言語に翻訳されるため、使用する言語の異なる参加者同士でも翻訳文を参照することにより円滑な意思の疎通を図ることができる。

【0153】

また、本実施の形態１によれば、翻訳サーバ５の翻訳部５１が、機械学習により生成させた学習済み翻訳モデルを用いて、原文文章を翻訳する。このため、高い精度で確実に翻訳できる。

【0154】

また、本実施の形態１によれば、画像音声分析サーバ６の画像分析部６１が、機械学習により生成させた学習済み画像分析モデルを用いて、画像データから感情レベルを推定する。このため、高精度に安定して画像データから感情レベルを求められる。

【0155】

また、本実施の形態１によれば、会議参加者を撮影した画像データに基づいて感情レベルが推定され画像分析結果が求められる。そして、この画像分析結果を表示する画像分析表示画面が構成されて、ビデオ会議の参加者に送信される。このように、参加者の画像データに基づいて感情レベルが推定され、会議の参加者にその画像分析結果が共有される。参加者の画像データから画像分析結果が求められるため、参加者の発言の内容を示す文字文章と異なるデータを用いて感情レベルを分析することができ、多面的に分析結果を得ることができる。

【0156】

また、本実施の形態１によれば、画像音声分析サーバ６の音声分析部６４が、機械学習により生成させた学習済み音声分析モデルを用いて、音声データから感情レベルおよびハラスメントレベルを推定する。このため、精度よく確実に音声データから感情レベルやハラスメントレベルを検出できる。

【0157】

また、本実施の形態１によれば、会議参加者の発言の音声データに基づいて感情レベルおよびハラスメントレベルが推定され音声分析結果が求められる。そして、この音声分析結果を表示する音声分析表示画面が構成されて、ビデオ会議の参加者に送信される。このように、参加者の発言の音声データに基づいて感情レベルおよびハラスメントレベルが推定され、会議の参加者にその音声分析結果が共有される。参加者の音声データから音声分析結果が求められるため、参加者の発言の内容を示す文字文章と異なり、参加者の音声データそのものを用いて感情レベルおよびハラスメントレベルを分析することができ、多面的に分析結果を得ることができる。

【0158】

また、本実施の形態１によれば、参加者の発言の内容を示す文字文章に基づいて求められた発言分析結果、参加者の画像データに基づいて求められた画像分析結果および参加者の発言の音声データに基づいて求められた音声分析結果が総合評価されて総合判定結果が求められる。そして、この総合判定結果を表示する総合判定表示画面が構成されて、ビデオ会議の参加者に送信される。このように、発言分析結果、画像分析結果および音声分析結果が総合されるため、より多面的な分析結果を得ることができる。

【0159】

また、本実施の形態１によれば、参加者の発言の内容を示す文字文章に不適切な語句が含まれているか検出され、不適切な語句が検出された場合には、不適切語句遮断措置が行われる。この不適切語句遮断措置により、他人に不快感を与えるような不適切な語句が会議参加者に伝達されなくなるため、参加者は安心して会議に参加することができる。

【0160】

また、本実施の形態１によれば、不適切な語句の検出頻度が所定の閾値を超えた場合、警告表示画面が参加者に向けて送信される。この警告表示画面により、会議参加者は、不適切な発言が多くなっていることを客観的に認識することができ、休憩するなどの対策を講じることができる。

【0161】

［発明の実施の形態２］
次に、この発明の実施の形態２について、図１４～図１７を用いて説明する。ただし、上述の実施の形態１と同一または対応する要素には、同一の符号を付し、重複する説明は省略する。

【0162】

図１４は、本実施の形態２に係るビデオ会議分析システム１Ａを含むビデオ会議システム１００Ａを概略的に示す構成ブロック図である。このビデオ会議システム１００Ａは、上述の実施形態１に係るビデオ会議システム１００にビデオ会議を動作させる機能を有するビデオ会議サーバ９が追加された構成になっている。また、このビデオ会議分析システム１Ａに含まれるＷＥＢ／ＡＰＰサーバ２Ａが、実施形態１のＷＥＢ／ＡＰＰサーバ２のようにビデオ会議を動作させるのではなく、ビデオ会議を分析するプログラムをＡＰＩとして提供するようになっている。それ以外は、実施形態１に係るビデオ会議システム１００とほぼ同様の構成となっている。

【0163】

このビデオ会議分析システム１Ａでは、ビデオ会議サーバ９がインターネット８を介して会議参加者のクライアント端末７に接続され、ビデオ会議が動作するようになっている。会議参加者の発言や画像や音声を分析して感情レベルやハラスメントレベルを推定するときに、ビデオ会議サーバ９が、ＷＥＢ／ＡＰＰサーバ２Ａの提供するビデオ会議分析ＡＰＩを利用して、分析結果を取得するようになっている。

【0164】

＜ＷＥＢ／ＡＰＰサーバ＞
ＷＥＢ／ＡＰＰサーバ２Ａは、参加者の画像や音声を分析して感情レベルやハラスメントレベルを推定するビデオ会議分析プログラムをビデオ会議分析ＡＰＩの形式で提供する。

【0165】

図１５に示す概略ブロック図のようにＷＥＢ／ＡＰＰサーバ２Ａは、ビデオ会議分析ＡＰＩ提供部２７を有しており、それ以外は、実施形態１に係るＷＥＢ／ＡＰＰサーバ２とほぼ同様の構成である（図２参照）。

【0166】

図１６には、ビデオ会議分析ＡＰＩ提供部２７から提供されるビデオ会議分析ＡＰＩの仕様の例が示されている。このビデオ会議分析ＡＰＩへの入力である引数は、分析内容の設定、参加者の音声データ、参加者の画像データ、参加者がキーボード等から入力した文字データなどである。また、このビデオ会議分析ＡＰＩからの出力である戻り値は、音声変換後の文字、翻訳文、感情レベル、感情分析の詳細、ハラスメントレベル、ハラスメント分析の詳細などである。ここで、感情分析の詳細とは、図１１に示すような感情を構成する「喜び」、「悲しみ」などの各項目の割合のことである。ハラスメント分析の詳細も同様に、ハラスメントを構成する各項目の割合のことである。

【0167】

図１６に示すビデオ会議分析ＡＰＩの引数である分析内容の設定によって、１２パターンの分析内容を選択できるようになっている。

【0168】

設定（１）では、音声データが文字に変換される（Ｐ１処理）。この設定では、ビデオ会議分析ＡＰＩの引数として入力される音声データが、ＷＥＢ／ＡＰＰサーバ２Ａの画像音声受付部２５に受け付けられて（画像音声受付処理）、このサーバ２ＡのＷＥＢ／ＡＰＰサーバ制御部２０が、受け付けた音声データを音声文字変換サーバ３に送信する。音声文字変換サーバ３の音声文字変換部３１では、受け付けた音声データを文字に変換する処理（音声文字変換処理）が行われる。このように音声データから変換された文字データは、音声文字変換サーバ３からＷＥＢ／ＡＰＰサーバ２Ａに送信され、そのサーバ２Ａに受け付けられる。

【0169】

設定（２）では、文字文章が分析され感情レベルやハラスメントレベルが推定される（Ｐ２処理）。この設定では、ビデオ会議分析ＡＰＩの引数として入力される文字データが、ＷＥＢ／ＡＰＰサーバ２Ａの通信部２８等に受け付けられ、ＷＥＢ／ＡＰＰサーバ制御部２０が、受け付けた文字データを文字文章分析サーバ４に送信する。文字文章分析サーバ４の文字文章分析部４１では、受け付けた文字データで構成される文字文章を分析し感情レベルやハラスメントレベルを推定して文字文章の分析結果を求める（文字文章分析処理）。このようにして求められた文字文章の分析結果は、音声文字変換サーバ３からＷＥＢ／ＡＰＰサーバ２Ａに送信され、そのサーバ２Ａに受け付けられる。

【0170】

設定（３）では、原文が翻訳され翻訳文が求められる（Ｐ３処理）。この設定では、ビデオ会議分析ＡＰＩの引数として入力される文字データが、ＷＥＢ／ＡＰＰサーバ２Ａの通信部２８等に受け付けられ、ＷＥＢ／ＡＰＰサーバ制御部２０が、受け付けた文字データを翻訳サーバ５に送信する。翻訳サーバ５の翻訳部５１では、受け付けた文字データで構成される原文が翻訳され翻訳文が生成される（翻訳処理）。このようにして求められた翻訳文は、翻訳サーバ５からＷＥＢ／ＡＰＰサーバ２Ａに送信され、そのサーバ２Ａに受け付けられる。

【0171】

設定（４）では、画像や音声が分析され感情レベルやハラスメントレベルが推定される（Ｐ４処理）。この設定では、ビデオ会議分析ＡＰＩの引数として入力される画像データや音声データが、ＷＥＢ／ＡＰＰサーバ２Ａの画像音声受付部２５に受け付けられ（画像音声受付処理）、ＷＥＢ／ＡＰＰサーバ制御部２０が、受け付けた画像データや音声データを画像音声分析サーバ６に送信する。画像音声分析サーバ６の画像分析部６１では、受け付けた画像データを分析し感情レベルを推定して画像分析結果を求める（画像分析処理）。また、音声分析部６４では、受け付けた音声データを分析し感情レベルやハラスメントレベルを推定して音声分析結果を求める（音声分析処理）。このようにして求められた画像分析結果や音声分析結果は、画像音声分析サーバ６からＷＥＢ／ＡＰＰサーバ２Ａに送信され、そのサーバ２Ａに受け付けられる。

【0172】

設定（５）では、このビデオ会議分析ＡＰＩの引数として入力される音声データが文字に変換され（音声文字変換処理）、その変換された文字で構成される文字文章が分析され感情レベルなどの分析結果が求められ（文字文章分析処理）、さらに、この文字文章が翻訳され翻訳文が求められる（翻訳処理）（Ｐ５処理）。

【0173】

設定（６）では、このＡＰＩの引数として入力される音声データが文字に変換され（音声文字変換処理）、その変換された文字で構成される文字文章が分析され感情レベルなどの分析結果が求められる（文字文章分析処理）（Ｐ６処理）。

【0174】

設定（７）では、このＡＰＩの引数として入力される音声データが文字に変換され（音声文字変換処理）、その変換された文字で構成される文字文章が翻訳され翻訳文が求められる（翻訳処理）（Ｐ７処理）。

【0175】

設定（８）では、このビデオ会議分析ＡＰＩの引数として入力される文字データから構成される文字文章が分析され感情レベルなどの分析結果が求められ（文字文章分析処理）、この文字文章が翻訳され翻訳文が求められる（翻訳処理）（Ｐ８処理）。

【0176】

設定（９）は、設定（５）と設定（４）の組合せである。このビデオ会議分析ＡＰＩの引数として入力される音声データが文字に変換され（音声文字変換処理）、その変換された文字で構成される文字文章が分析され感情レベルなどの分析結果が求められる（文字文章分析処理）。さらに、この文字文章が翻訳され翻訳文が求められる（翻訳処理）。そして、さらに、このＡＰＩの引数として入力される画像データを分析し感情レベルを推定して画像分析結果を求め（画像分析処理）、このＡＰＩに入力される音声データを分析し感情レベルやハラスメントレベルを推定して音声分析結果を求める（音声分析処理）。

【0177】

設定（１０）は設定（６）と設定（４）の組合せであり、設定（１１）は設定（７）と設定（４）の組合せであり、設定（１２）は設定（８）と設定（４）の組合せである。

【0178】

＜ビデオ会議サーバ＞
ビデオ会議サーバ９は、会議参加者の各クライアント端末７から送信されてくる参加者の画像や音声のデータを受け付けて、この画像や音声のデータに基づいてビデオ会議画面や会議の音声を構成して、各クライアント端末７に向けて送信する。このような動作を行うことにより、会議参加者は、各クライアント端末７を介して会議の画面や音声を視聴することができ、ビデオ会議を進行させることができる。このように、このビデオ会議サーバ９は、ビデオ会議を実現する機能を有している。

【0179】

図１７に示す概略ブロック図のようにビデオ会議サーバ９は、ビデオ会議サーバ制御部９０、画面構成部９１、会議設定部９２、議事記録部９３、画像音声受付部９５、画面提供部９６、ビデオ会議分析ＡＰＩ呼出部９７、通信部９８、記憶部９９を含むように構成されている。

【0180】

ビデオ会議サーバ制御部９０は、ビデオ会議サーバ９を構成する各要素の制御などを行うＣＰＵ（図示せず）を含むように構成されている。記憶部９９は、補助記憶装置（図示せず）やＲＡＭ（図示せず）により構成されている。

【0181】

通信部９８は、インターネット８に接続されて、このビデオ会議分析システム１Ａを構成する各サーバや、各クライアント端末７との間でデータの送受信を行う。

【0182】

画像音声受付部９５は、実施形態１に係るＷＥＢ／ＡＰＰサーバ２の画像音声受付部２５とほぼ同様の機能を行う。この画像音声受付部９５は、ビデオ会議サーバ制御部９０の制御に基づいて、会議参加者の各クライアント端末７からインターネット８を介して送信されてくる参加者を撮影した画像や参加者の発言の音声データを受け付ける。

【0183】

画面構成部９１は、実施形態１に係るＷＥＢ／ＡＰＰサーバ２の画面構成部２１とほぼ同様の機能を行う。この画面構成部９１は、ビデオ会議サーバ制御部９０の制御に基づいて、各クライアント端末７に表示されるビデオ会議画面などを構成する。
画面提供部９６は、実施形態１に係るＷＥＢ／ＡＰＰサーバ２の画面提供部２６とほぼ同様の機能を行う。この画面提供部９６は、ビデオ会議サーバ制御部９０の制御に基づいて、画面構成部９１で構成された画面を参加者の各クライアント端末７に向けて送信して提供する。

【0184】

会議設定部９２は、実施形態１に係るＷＥＢ／ＡＰＰサーバ２の会議設定部２２とほぼ同様の機能を行う。この会議設定部９２には、会議に先立って、会議参加者や会議の分析内容などの設定を行う。

【0185】

議事記録部９３は、実施形態１に係るＷＥＢ／ＡＰＰサーバ２の議事記録部２３とほぼ同様の機能を行う。この議事記録部９３は、画像音声受付部９５で受け付けた参加者の発言の音声データを記録したり、参加者の音声データを文字に変換した文字データを記録したりする。さらに、参加者の画像や音声データに基づいて分析される分析結果を記録するようにしてもよい。

【0186】

ビデオ会議分析ＡＰＩ呼出部９７は、参加者の画像データや音声データを分析する際、ＷＥＢ／ＡＰＰサーバ２Ａから提供されているビデオ会議分析ＡＰＩを呼び出す。このビデオ会議分析ＡＰＩ呼出部９７は、ビデオ会議分析ＡＰＩに、分析内容の設定、参加者の音声データ、参加者の画像データなどの入力を行い、ビデオ会議分析ＡＰＩから分析結果などを取得する。

【0187】

＜本実施の形態２の効果＞
本実施の形態２によれば、本実施の形態１とほぼ同様の効果が得られる。

【0188】

本実施の形態２によれば、ビデオ会議参加者の発言の音声データが文字に変換され、その発言の内容を示す文字文章が構成される。また、構成されたこの文字文章に基づいて分析が行われて、感情レベルおよびハラスメントレベルが推定され発言分析結果が求められる。このように、ビデオ会議参加者の発言に基づいて感情レベルおよびハラスメントレベルを分析することができる。

【0189】

また、ビデオ会議分析プログラムをＡＰＩとして提供することができるため、様々なビデオ会議システムでこのＡＰＩを利用することができ、汎用性を持たせることができる。

【0190】

また、本実施の形態２によれば、会議参加者の発言の内容を示す文字文章が、翻訳されるため、使用する言語の異なる参加者同士でも翻訳文を参照することにより円滑な意思の疎通を図ることができる。

【0191】

また、本実施の形態２によれば、会議参加者を撮影した画像データに基づいて感情レベルが推定され画像分析結果が求められる。このため、参加者の発言の内容を示す文字文章と異なるデータを用いて感情レベルを分析することができ、多面的に分析結果を得ることができる。

【0192】

また、本実施の形態２によれば、会議参加者の発言の音声データに基づいて感情レベルおよびハラスメントレベルが推定され音声分析結果が求められる。このため、参加者の発言の内容を示す文字文章と異なり、参加者の音声データそのものを用いて感情レベルおよびハラスメントレベルを分析することができ、多面的に分析結果を得ることができる。

【0193】

［発明のその他の実施の形態］
なお、実施形態１や２に係るビデオ会議分析システム１，１Ａは、機能別に複数のサーバを設置した構成になっているが、全ての機能を統合して１台のサーバで実現してもよい。

【0194】

また、「ネットワーク」は、インターネット８に限定されるものでなく、ローカルエリアネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）やワイドエリアネットワーク（ＷＡＮ:ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などその他のネットワークで構成するようにしてもよい。

【符号の説明】

【0195】

１００，１００Ａ…ビデオ会議システム、１…ビデオ会議分析システム、２，２Ａ…ＷＥＢ／ＡＰＰサーバ、３…音声文字変換サーバ、４…文字文章分析サーバ、５…翻訳サーバ、６…画像音声分析サーバ、７_１，７_２，７_３，・・・，７_ｎ，７…クライアント端末、８…インターネット（ネットワーク）、９…ビデオ会議サーバ、２０…ＷＥＢ／ＡＰＰサーバ制御部（制御部）、２１…画面構成部、２２…会議設定部、２３…議事記録部、２４…判定部、２５…画像音声受付部、２６…画面提供部、２７…ビデオ会議分析ＡＰＩ提供部、３１…音声文字変換部、３４…不適切語句記憶部、３５…不適切語句検出部、４１…文字文章分析部、５１…翻訳部、６１…画像分析部、６４…音声分析部、７１…表示部、７２…カメラ、７３…マイクロホン、７４…文字入力部、７５…スピーカ、９７…ビデオ会議分析ＡＰＩ呼出部、２００，２１０…ビデオ会議画面、２０１…参加者画像、２０２，２０６，２０８…感情レベル表示、２０５…文字文章表示、２０７…ハラスメントレベル表示

【図1】