IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社トランスウエアの特許一覧

特開2023-97789ビデオ会議分析システムおよびビデオ会議分析プログラム
<>
  • 特開-ビデオ会議分析システムおよびビデオ会議分析プログラム 図1
  • 特開-ビデオ会議分析システムおよびビデオ会議分析プログラム 図2
  • 特開-ビデオ会議分析システムおよびビデオ会議分析プログラム 図3
  • 特開-ビデオ会議分析システムおよびビデオ会議分析プログラム 図4
  • 特開-ビデオ会議分析システムおよびビデオ会議分析プログラム 図5
  • 特開-ビデオ会議分析システムおよびビデオ会議分析プログラム 図6
  • 特開-ビデオ会議分析システムおよびビデオ会議分析プログラム 図7
  • 特開-ビデオ会議分析システムおよびビデオ会議分析プログラム 図8
  • 特開-ビデオ会議分析システムおよびビデオ会議分析プログラム 図9
  • 特開-ビデオ会議分析システムおよびビデオ会議分析プログラム 図10
  • 特開-ビデオ会議分析システムおよびビデオ会議分析プログラム 図11
  • 特開-ビデオ会議分析システムおよびビデオ会議分析プログラム 図12
  • 特開-ビデオ会議分析システムおよびビデオ会議分析プログラム 図13
  • 特開-ビデオ会議分析システムおよびビデオ会議分析プログラム 図14
  • 特開-ビデオ会議分析システムおよびビデオ会議分析プログラム 図15
  • 特開-ビデオ会議分析システムおよびビデオ会議分析プログラム 図16
  • 特開-ビデオ会議分析システムおよびビデオ会議分析プログラム 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023097789
(43)【公開日】2023-07-10
(54)【発明の名称】ビデオ会議分析システムおよびビデオ会議分析プログラム
(51)【国際特許分類】
   H04N 7/15 20060101AFI20230703BHJP
   H04N 21/431 20110101ALI20230703BHJP
   H04M 3/56 20060101ALI20230703BHJP
【FI】
H04N7/15 120
H04N21/431
H04M3/56 C
【審査請求】未請求
【請求項の数】16
【出願形態】OL
(21)【出願番号】P 2021214096
(22)【出願日】2021-12-28
(71)【出願人】
【識別番号】599121540
【氏名又は名称】株式会社クオリティア
(74)【代理人】
【識別番号】100104776
【弁理士】
【氏名又は名称】佐野 弘
(74)【代理人】
【識別番号】100119194
【弁理士】
【氏名又は名称】石井 明夫
(72)【発明者】
【氏名】五島 和幸
【テーマコード(参考)】
5C164
5K201
【Fターム(参考)】
5C164FA10
5C164PA44
5C164UB88P
5C164VA07P
5C164VA09P
5K201AA05
5K201BB09
5K201BB10
5K201CA01
5K201CA06
5K201CB14
5K201DC04
5K201DC05
5K201DC06
5K201EC06
5K201EF10
(57)【要約】
【課題】ビデオ会議参加者の発言を分析して参加者の感情の状態やその発言に含まれるハラスメントの状態を把握できるビデオ会議分析システムを提供する。
【解決手段】ビデオ会議分析システム1は、参加者の発言の音声データを受け付けるWEB/APPサーバ2の画像音声受付部25と、音声データを文字に変換する音声文字変換サーバ3の音声文字変換部31と、参加者の発言の内容を示す文字文章を分析して感情の状態を示す感情レベル及び嫌がらせの度合を示すハラスメントレベルを推定する文字文章分析サーバ4の文字文章分析部41と、文字文章および分析結果を表示する画面を構成するサーバ2の画面構成部21と、その画面を参加者に向けて送信するサーバ2の画面提供部26と、音声データから文字文章を作成させ、文字文章を分析させ、結果表示画面を構成させ、その画面を送信させる動作の制御を行うサーバ2のWEB/APPサーバ制御部20とを備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
ネットワークを介して行われるビデオ会議の参加者の発言を分析するビデオ会議分析システムであって、
前記参加者の発言の音声データを前記ネットワークを介して受け付ける画像音声受付部と、
該画像音声受付部で受け付けた前記音声データを文字に変換する音声文字変換部と、
該音声文字変換部で前記音声データから変換された文字により構成される前記参加者の発言の内容を示す文字文章を分析して発言分析結果を求める文字文章分析部と、
前記文字文章および前記文字文章分析部で求められた前記発言分析結果を表示する表示画面を構成する画面構成部と、
該画面構成部で構成された前記表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信する画面提供部と、
前記画像音声受付部で受け付けた前記音声データを前記音声文字変換部で文字に変換させて前記文字文章を取得し、前記文字文章を前記文字文章分析部で分析させて前記発言分析結果を取得し、前記画面構成部で前記表示画面を構成させ、前記表示画面を前記画面提供部から送信させる動作の制御を行う制御部とを備え、
前記文字文章分析部は、
前記参加者の発言の内容を示す前記文字文章に基づいて分析を行い、感情の状態を示す感情レベルおよび嫌がらせの度合を示すハラスメントレベルを推定して前記発言分析結果を求めることを特徴とするビデオ会議分析システム。
【請求項2】
前記音声文字変換部は、
学習用音声データと該学習用音声データに対応する正解文字データとの組合せを学習データとして、機械学習により生成させた学習済み音声文字変換モデルに、前記画像音声受付部で受け付けた前記音声データを入力して演算することにより文字に変換して前記文字文章を取得し、
前記文字文章分析部は、
学習用文章と該学習用文章に対応する正解感情データとの組合せ、および、前記学習用文章と該学習用文章に対応する正解ハラスメントデータとの組合せを学習データとして、機械学習により生成させた学習済み文字文章分析モデルに、取得した前記文字文章を入力して演算することにより前記感情レベルおよび前記ハラスメントレベルを推定して前記発言分析結果を求めることを特徴とする請求項1に記載のビデオ会議分析システム。
【請求項3】
原文言語で構成される原文文章を所定の翻訳言語に翻訳する翻訳部を備え、
前記制御部は、
前記参加者の発言の内容を示す前記文字文章を前記翻訳部で翻訳させて翻訳文を取得する動作の制御を行い、
前記画面構成部は、
前記翻訳部で翻訳された前記文字文章の翻訳文を表示する翻訳文表示画面を構成し、
前記画面提供部は、
前記画面構成部で構成された前記翻訳文表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信することを特徴とする請求項1又は2に記載のビデオ会議分析システム。
【請求項4】
前記翻訳部は、
学習用原文文章と該学習用原文文章の翻訳文として正解となる正解翻訳文との組合せを学習データとして、機械学習により生成させた学習済み翻訳モデルに、前記原文文章を入力して演算することにより該学習用原文文章の翻訳文を取得することを特徴とする請求項3に記載のビデオ会議分析システム。
【請求項5】
前記参加者を撮影した画像データに基づいて分析を行い、前記感情レベルを推定して画像分析結果を求める画像分析部を備え、
前記画像音声受付部は、
前記参加者を撮影した前記画像データを前記ネットワークを介して受け付けて、
前記制御部は、
前記画像音声受付部で受け付けた前記画像データを前記画像分析部で分析させる動作の制御を行い、
前記画像分析部は、
学習用顔画像と該学習用顔画像に対応する正解となる感情の種類との組合せを学習データとして、機械学習により生成させた学習済み画像分析モデルに、前記画像データを入力し演算することにより、前記画像分析結果を求め、
前記画面構成部は、
前記画像分析部で求められた前記画像分析結果を表示する画像分析表示画面を構成し、
前記画面提供部は、
前記画面構成部で構成された前記画像分析表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信することを特徴とする請求項1乃至4の何れか一項に記載のビデオ会議分析システム。
【請求項6】
前記参加者を撮影した画像データに基づいて分析を行い、前記感情レベルを推定して画像分析結果を求める画像分析部を備え、
前記画像音声受付部は、
前記参加者を撮影した前記画像データを前記ネットワークを介して受け付けて、
前記制御部は、
前記画像音声受付部で受け付けた前記画像データを前記画像分析部で分析させる動作の制御を行い、
前記画像分析部は、
前記画像データから顔画像を抽出して、目の形状、該目の形状の変化、眉の形状、該眉の形状の変化、唇の両脇の部分である口角の形状、該口角の形状の変化、頬の形状、該頬の形状の変化、歯の出現頻度、該歯の出現頻度の変化のうち、少なくともいずれか一つを用いて分析を行い、前記画像分析結果を求め、
前記画面構成部は、
前記画像分析部で求められた前記画像分析結果を表示する画像分析表示画面を構成し、
前記画面提供部は、
前記画面構成部で構成された前記画像分析表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信することを特徴とする請求項1乃至4の何れか一項に記載のビデオ会議分析システム。
【請求項7】
前記画像音声受付部で受け付けた前記音声データに基づいて分析を行い、前記感情レベルおよび前記ハラスメントレベルを推定して音声分析結果を求める音声分析部を備え、
前記制御部は、
前記音声データを前記音声分析部で分析させる動作の制御を行い、
前記音声分析部は、
学習用音声データと該学習用音声データに対応する正解感情データとの組合せ、および、前記学習用音声データと該学習用音声データに対応する正解ハラスメントデータとの組合せを学習データとして、機械学習により生成させた学習済み音声分析モデルに、受け付けた前記音声データを入力して演算することにより前記感情レベルおよび前記ハラスメントレベルを推定して前記音声分析結果を求め、
前記画面構成部は、
前記音声分析部で求められた前記音声分析結果を表示する音声分析表示画面を構成し、
前記画面提供部は、
前記画面構成部で構成された前記音声分析表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信することを特徴とする請求項1乃至4の何れか一項に記載のビデオ会議分析システム。
【請求項8】
前記画像音声受付部で受け付けた前記音声データに基づいて分析を行い、前記感情レベルおよび前記ハラスメントレベルを推定して音声分析結果を求める音声分析部を備え、
前記制御部は、
前記音声データを前記音声分析部で分析させる動作の制御を行い、
前記音声分析部は、
声の大きさ、該声の大きさの変化、声の高さ、該声の高さの変化、話す速さ、該話す速さの変化、他の前記参加者の言葉に被せて発言する頻度、前記他の前記参加者の言葉に被せて発言する頻度の変化のうち、少なくともいずれか一つを用いて分析を行い、前記音声分析結果を求め、
前記画面構成部は、
前記音声分析部で求められた前記音声分析結果を表示する音声分析表示画面を構成し、
前記画面提供部は、
前記画面構成部で構成された前記音声分析表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信することを特徴とする請求項1乃至4の何れか一項に記載のビデオ会議分析システム。
【請求項9】
前記参加者を撮影した画像データに基づいて分析を行い、前記感情レベルを推定して画像分析結果を求める画像分析部と、
前記画像音声受付部で受け付けた前記音声データに基づいて分析を行い、前記感情レベルおよび前記ハラスメントレベルを推定して音声分析結果を求める音声分析部と、
前記文字文章分析部で分析された前記発言分析結果、前記画像分析部で求められた前記画像分析結果および前記音声分析部で求められた前記音声分析結果を総合評価して、総合感情レベルおよび総合ハラスメントレベルのうち、少なくともいずれかを推定して総合判定結果を求める判定部とを備え、
前記画像音声受付部は、
前記参加者を撮影した前記画像データを前記ネットワークを介して受け付けて、
前記制御部は、
前記画像データを前記画像分析部で分析させ前記音声データを前記音声分析部で分析させて、前記文字文章分析部で分析された前記発言分析結果、前記画像分析部で求められた前記画像分析結果および前記音声分析部で求められた前記音声分析結果を前記判定部で総合評価させて前記総合判定結果を求める動作の制御を行い、
前記画面構成部は、
前記判定部で求められた前記総合判定結果を表示する総合判定表示画面を構成し、
前記画面提供部は、
前記画面構成部で構成された前記総合判定表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信することを特徴とする請求項1に記載のビデオ会議分析システム。
【請求項10】
あらかじめ登録されている不適切な語句が前記文字文章に含まれているかを検出する不適切語句検出部を備え、
該不適切語句検出部で前記不適切な語句が検出された場合、
前記制御部は、
前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信する前記不適切な語句に対応する部分の前記音声データの送信停止、前記文字文章に含まれている前記不適切な語句の削除、前記文字文章に含まれている前記不適切な語句を該不適切な語句に対応する適切な語句に置換のうち、少なくともいずれか一つを含む不適切語句遮断措置を行うことを特徴とする請求項1乃至9の何れか一項に記載のビデオ会議分析システム。
【請求項11】
前記不適切語句検出部で検出される前記不適切な語句の検出頻度が、所定の閾値を超えた場合、
前記制御部は、
前記画面構成部が警告表示画面を構成し、前記画面提供部が前記画面構成部で構成された前記警告表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信する動作の制御を行うことを特徴とする請求項10に記載のビデオ会議分析システム。
【請求項12】
ネットワークを介して行われるビデオ会議の参加者の発言を分析するビデオ会議分析プログラムであって、
前記参加者の発言の音声データを前記ネットワークを介して受け付ける画像音声受付処理と、
該画像音声受付処理で受け付けた前記音声データを文字に変換する音声文字変換処理と、
該音声文字変換処理で前記音声データから変換された文字により構成される前記参加者の発言の内容を示す文字文章を分析して発言分析結果を求める文字文章分析処理とを有し、
前記文字文章分析処理は、
前記参加者の発言の内容を示す前記文字文章に基づいて分析を行い、感情の状態を示す感情レベルおよび嫌がらせの度合を示すハラスメントレベルを推定して前記発言分析結果を求めることを特徴とするビデオ会議分析プログラム。
【請求項13】
原文言語で構成される原文文章を所定の翻訳言語に翻訳する翻訳処理を有し、
前記翻訳処理は、
前記参加者の発言の内容を示す前記文字文章を翻訳して翻訳文を生成することを特徴とする請求項12に記載のビデオ会議分析プログラム。
【請求項14】
前記参加者を撮影した画像データに基づいて分析を行い、前記感情レベルを推定して画像分析結果を求める画像分析処理を有し、
前記画像音声受付処理は、
前記参加者を撮影した前記画像データを前記ネットワークを介して受け付けて、
前記画像分析処理は、
前記画像データから顔画像を抽出して、目の形状、該目の形状の変化、眉の形状、該眉の形状の変化、唇の両脇の部分である口角の形状、該口角の形状の変化、頬の形状、該頬の形状の変化、歯の出現頻度、該歯の出現頻度の変化のうち、少なくともいずれか一つを用いて分析を行い、前記画像分析結果を求めることを特徴とする請求項12に記載のビデオ会議分析プログラム。
【請求項15】
前記画像音声受付処理で受け付けた前記音声データに基づいて分析を行い、前記感情レベルおよび前記ハラスメントレベルを推定して音声分析結果を求める音声分析処理を有し、
前記音声分析処理は、
声の大きさ、該声の大きさの変化、声の高さ、該声の高さの変化、話す速さ、該話す速さの変化、他の前記参加者の言葉に被せて発言する頻度、前記他の前記参加者の言葉に被せて発言する頻度の変化のうち、少なくともいずれか一つを用いて分析を行い、前記音声分析結果を求めることを特徴とする請求項12に記載のビデオ会議分析プログラム。
【請求項16】
前記参加者を撮影した画像データに基づいて分析を行い、前記感情レベルを推定して画像分析結果を求める画像分析処理と、
前記画像音声受付処理で受け付けた前記音声データに基づいて分析を行い、前記感情レベルおよび前記ハラスメントレベルを推定して音声分析結果を求める音声分析処理と、
前記文字文章分析処理で分析された前記発言分析結果、前記画像分析処理で求められた前記画像分析結果および前記音声分析処理で求められた前記音声分析結果を総合評価して、総合感情レベルおよび総合ハラスメントレベルのうち、少なくともいずれかを推定して総合判定結果を求める判定処理とを有し、
前記画像音声受付処理は、
前記参加者を撮影した前記画像データを前記ネットワークを介して受け付けて、
前記画像分析処理は、前記画像データを分析して前記画像分析結果を求め、
前記音声分析処理は、前記音声データを分析して前記音声分析結果を求め、
前記判定処理は、前記文字文章分析処理で分析された前記発言分析結果、前記画像分析処理で求められた前記画像分析結果および前記音声分析処理で求められた前記音声分析結果を総合評価して前記総合判定結果を求めることを特徴とする請求項12に記載のビデオ会議分析プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、ネットワークを介して行われるビデオ会議の参加者の発言を分析するビデオ会議分析システムおよびビデオ会議分析プログラムに関するものである。
【背景技術】
【0002】
高速大容量の通信環境の普及に伴い、離れた場所にいる参加者同士をネットワークで接続してビデオ会議を行うことが一般的になっている。参加者は一堂に会する必要がなく、移動時間や移動に伴う体力の消耗などから解放され、無駄なく効率的に会議に参加することができる。また、ビデオ会議自体を効率化する提案も行われており、例えば、特許文献1に記載されている会議支援システムがある。この会議支援システムは、出席者を顔認証により特定し、会議中の出席者の発言をリアルタイムにテキストとしてディスプレイに表示するとともに記録することができる。また、要約の形で議事録を生成し、対象の会議を識別する情報と関連付けて記録することもできる。このように、ビデオ会議は、効率化との相性がよく様々な提案がなされている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2019-61594号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、ビデオ会議は対面でなく画面を介して行われるため、感情の抑制が働きにくくなることが危惧されている。例えば、参加者が感情的になり他の参加者に不快感を与える言動をしやすくなるのではないかというおそれなどがある。
【0005】
このような危惧から、ビデオ会議中の参加者の感情の状態や参加者の発言に含まれる嫌がらせ度合であるハラスメントの状態を分析できるシステムやプログラムの実現が求められていた。
【0006】
本発明はこのような事情に鑑みてなされたものであり、この発明の課題は、ビデオ会議の参加者の発言を分析して参加者の感情の状態や参加者の発言に含まれるハラスメントの状態を把握できるビデオ会議分析システムおよびビデオ会議分析プログラムを提供することである。
【課題を解決するための手段】
【0007】
かかる課題を解決するために、請求項1に記載の発明は、ネットワークを介して行われるビデオ会議の参加者の発言を分析するビデオ会議分析システムであって、前記参加者の発言の音声データを前記ネットワークを介して受け付ける画像音声受付部と、該画像音声受付部で受け付けた前記音声データを文字に変換する音声文字変換部と、該音声文字変換部で前記音声データから変換された文字により構成される前記参加者の発言の内容を示す文字文章を分析して発言分析結果を求める文字文章分析部と、前記文字文章および前記文字文章分析部で求められた前記発言分析結果を表示する表示画面を構成する画面構成部と、該画面構成部で構成された前記表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信する画面提供部と、前記画像音声受付部で受け付けた前記音声データを前記音声文字変換部で文字に変換させて前記文字文章を取得し、前記文字文章を前記文字文章分析部で分析させて前記発言分析結果を取得し、前記画面構成部で前記表示画面を構成させ、前記表示画面を前記画面提供部から送信させる動作の制御を行う制御部とを備え、前記文字文章分析部は、前記参加者の発言の内容を示す前記文字文章に基づいて分析を行い、感情の状態を示す感情レベルおよび嫌がらせの度合を示すハラスメントレベルを推定して前記発言分析結果を求めることを特徴とする。
【0008】
請求項2に係る発明は、請求項1に記載の構成に加えて、前記音声文字変換部は、学習用音声データと該学習用音声データに対応する正解文字データとの組合せを学習データとして、機械学習により生成させた学習済み音声文字変換モデルに、前記画像音声受付部で受け付けた前記音声データを入力して演算することにより文字に変換して前記文字文章を取得し、前記文字文章分析部は、学習用文章と該学習用文章に対応する正解感情データとの組合せ、および、前記学習用文章と該学習用文章に対応する正解ハラスメントデータとの組合せを学習データとして、機械学習により生成させた学習済み文字文章分析モデルに、取得した前記文字文章を入力して演算することにより前記感情レベルおよび前記ハラスメントレベルを推定して前記発言分析結果を求めることを特徴とする。
【0009】
請求項3に係る発明は、請求項1又は2に記載の構成に加えて、原文言語で構成される原文文章を所定の翻訳言語に翻訳する翻訳部を備え、前記制御部は、前記参加者の発言の内容を示す前記文字文章を前記翻訳部で翻訳させて翻訳文を取得する動作の制御を行い、前記画面構成部は、前記翻訳部で翻訳された前記文字文章の翻訳文を表示する翻訳文表示画面を構成し、前記画面提供部は、前記画面構成部で構成された前記翻訳文表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信することを特徴とする。
【0010】
請求項4に係る発明は、請求項3に記載の構成に加えて、前記翻訳部は、学習用原文文章と該学習用原文文章の翻訳文として正解となる正解翻訳文との組合せを学習データとして、機械学習により生成させた学習済み翻訳モデルに、前記原文文章を入力して演算することにより該学習用原文文章の翻訳文を取得することを特徴とする。
【0011】
請求項5に係る発明は、請求項1乃至4の何れか一項に記載の構成に加えて、前記参加者を撮影した画像データに基づいて分析を行い、前記感情レベルを推定して画像分析結果を求める画像分析部を備え、前記画像音声受付部は、前記参加者を撮影した前記画像データを前記ネットワークを介して受け付けて、前記制御部は、前記画像音声受付部で受け付けた前記画像データを前記画像分析部で分析させる動作の制御を行い、前記画像分析部は、学習用顔画像と該学習用顔画像に対応する正解となる感情の種類との組合せを学習データとして、機械学習により生成させた学習済み画像分析モデルに、前記画像データを入力し演算することにより、前記画像分析結果を求め、前記画面構成部は、前記画像分析部で求められた前記画像分析結果を表示する画像分析表示画面を構成し、前記画面提供部は、前記画面構成部で構成された前記画像分析表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信することを特徴とする。
【0012】
請求項6に係る発明は、請求項1乃至4の何れか一項に記載の構成に加えて、前記参加者を撮影した画像データに基づいて分析を行い、前記感情レベルを推定して画像分析結果を求める画像分析部を備え、前記画像音声受付部は、前記参加者を撮影した前記画像データを前記ネットワークを介して受け付けて、前記制御部は、前記画像音声受付部で受け付けた前記画像データを前記画像分析部で分析させる動作の制御を行い、前記画像分析部は、前記画像データから顔画像を抽出して、目の形状、該目の形状の変化、眉の形状、該眉の形状の変化、唇の両脇の部分である口角の形状、該口角の形状の変化、頬の形状、該頬の形状の変化、歯の出現頻度、該歯の出現頻度の変化のうち、少なくともいずれか一つを用いて分析を行い、前記画像分析結果を求め、前記画面構成部は、前記画像分析部で求められた前記画像分析結果を表示する画像分析表示画面を構成し、前記画面提供部は、前記画面構成部で構成された前記画像分析表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信することを特徴とする。
【0013】
請求項7に係る発明は、請求項1乃至4の何れか一項に記載の構成に加えて、前記画像音声受付部で受け付けた前記音声データに基づいて分析を行い、前記感情レベルおよび前記ハラスメントレベルを推定して音声分析結果を求める音声分析部を備え、前記制御部は、前記音声データを前記音声分析部で分析させる動作の制御を行い、前記音声分析部は、学習用音声データと該学習用音声データに対応する正解感情データとの組合せ、および、前記学習用音声データと該学習用音声データに対応する正解ハラスメントデータとの組合せを学習データとして、機械学習により生成させた学習済み音声分析モデルに、受け付けた前記音声データを入力して演算することにより前記感情レベルおよび前記ハラスメントレベルを推定して前記音声分析結果を求め、前記画面構成部は、前記音声分析部で求められた前記音声分析結果を表示する音声分析表示画面を構成し、前記画面提供部は、前記画面構成部で構成された前記音声分析表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信することを特徴とする。
【0014】
請求項8に係る発明は、請求項1乃至4の何れか一項に記載の構成に加えて、前記画像音声受付部で受け付けた前記音声データに基づいて分析を行い、前記感情レベルおよび前記ハラスメントレベルを推定して音声分析結果を求める音声分析部を備え、前記制御部は、前記音声データを前記音声分析部で分析させる動作の制御を行い、前記音声分析部は、声の大きさ、該声の大きさの変化、声の高さ、該声の高さの変化、話す速さ、該話す速さの変化、他の前記参加者の言葉に被せて発言する頻度、前記他の前記参加者の言葉に被せて発言する頻度の変化のうち、少なくともいずれか一つを用いて分析を行い、前記音声分析結果を求め、前記画面構成部は、前記音声分析部で求められた前記音声分析結果を表示する音声分析表示画面を構成し、前記画面提供部は、前記画面構成部で構成された前記音声分析表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信することを特徴とする。
【0015】
請求項9に係る発明は、請求項1に記載の構成に加えて、前記参加者を撮影した画像データに基づいて分析を行い、前記感情レベルを推定して画像分析結果を求める画像分析部と、前記画像音声受付部で受け付けた前記音声データに基づいて分析を行い、前記感情レベルおよび前記ハラスメントレベルを推定して音声分析結果を求める音声分析部と、前記文字文章分析部で分析された前記発言分析結果、前記画像分析部で求められた前記画像分析結果および前記音声分析部で求められた前記音声分析結果を総合評価して、総合感情レベルおよび総合ハラスメントレベルのうち、少なくともいずれかを推定して総合判定結果を求める判定部とを備え、前記画像音声受付部は、前記参加者を撮影した前記画像データを前記ネットワークを介して受け付けて、前記制御部は、前記画像データを前記画像分析部で分析させ前記音声データを前記音声分析部で分析させて、前記文字文章分析部で分析された前記発言分析結果、前記画像分析部で求められた前記画像分析結果および前記音声分析部で求められた前記音声分析結果を前記判定部で総合評価させて前記総合判定結果を求める動作の制御を行い、前記画面構成部は、前記判定部で求められた前記総合判定結果を表示する総合判定表示画面を構成し、前記画面提供部は、前記画面構成部で構成された前記総合判定表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信することを特徴とする。
【0016】
請求項10に係る発明は、請求項1乃至9の何れか一項に記載の構成に加えて、あらかじめ登録されている不適切な語句が前記文字文章に含まれているかを検出する不適切語句検出部を備え、該不適切語句検出部で前記不適切な語句が検出された場合、前記制御部は、前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信する前記不適切な語句に対応する部分の前記音声データの送信停止、前記文字文章に含まれている前記不適切な語句の削除、前記文字文章に含まれている前記不適切な語句を該不適切な語句に対応する適切な語句に置換のうち、少なくともいずれか一つを含む不適切語句遮断措置を行うことを特徴とする。
【0017】
請求項11に係る発明は、請求項10に記載の構成に加えて、前記不適切語句検出部で検出される前記不適切な語句の検出頻度が、所定の閾値を超えた場合、前記制御部は、前記画面構成部が警告表示画面を構成し、前記画面提供部が前記画面構成部で構成された前記警告表示画面を前記ビデオ会議に参加している前記参加者に向けて前記ネットワークを介して送信する動作の制御を行うことを特徴とする。
【0018】
請求項12に係る発明は、ネットワークを介して行われるビデオ会議の参加者の発言を分析するビデオ会議分析プログラムであって、前記参加者の発言の音声データを前記ネットワークを介して受け付ける画像音声受付処理と、該画像音声受付処理で受け付けた前記音声データを文字に変換する音声文字変換処理と、該音声文字変換処理で前記音声データから変換された文字により構成される前記参加者の発言の内容を示す文字文章を分析して発言分析結果を求める文字文章分析処理とを有し、前記文字文章分析処理は、前記参加者の発言の内容を示す前記文字文章に基づいて分析を行い、感情の状態を示す感情レベルおよび嫌がらせの度合を示すハラスメントレベルを推定して前記発言分析結果を求めることを特徴とする。
【0019】
請求項13に係る発明は、請求項12に記載の構成に加えて、原文言語で構成される原文文章を所定の翻訳言語に翻訳する翻訳処理を有し、前記翻訳処理は、前記参加者の発言の内容を示す前記文字文章を翻訳して翻訳文を生成することを特徴とする。
【0020】
請求項14に係る発明は、請求項12に記載の構成に加えて、前記参加者を撮影した画像データに基づいて分析を行い、前記感情レベルを推定して画像分析結果を求める画像分析処理を有し、前記画像音声受付処理は、前記参加者を撮影した前記画像データを前記ネットワークを介して受け付けて、前記画像分析処理は、前記画像データから顔画像を抽出して、目の形状、該目の形状の変化、眉の形状、該眉の形状の変化、唇の両脇の部分である口角の形状、該口角の形状の変化、頬の形状、該頬の形状の変化、歯の出現頻度、該歯の出現頻度の変化のうち、少なくともいずれか一つを用いて分析を行い、前記画像分析結果を求めることを特徴とする。
【0021】
請求項15に係る発明は、請求項12に記載の構成に加えて、前記画像音声受付処理で受け付けた前記音声データに基づいて分析を行い、前記感情レベルおよび前記ハラスメントレベルを推定して音声分析結果を求める音声分析処理を有し、前記音声分析処理は、声の大きさ、該声の大きさの変化、声の高さ、該声の高さの変化、話す速さ、該話す速さの変化、他の前記参加者の言葉に被せて発言する頻度、前記他の前記参加者の言葉に被せて発言する頻度の変化のうち、少なくともいずれか一つを用いて分析を行い、前記音声分析結果を求めることを特徴とする。
【0022】
請求項16に係る発明は、請求項12に記載の構成に加えて、前記参加者を撮影した画像データに基づいて分析を行い、前記感情レベルを推定して画像分析結果を求める画像分析処理と、前記画像音声受付処理で受け付けた前記音声データに基づいて分析を行い、前記感情レベルおよび前記ハラスメントレベルを推定して音声分析結果を求める音声分析処理と、前記文字文章分析処理で分析された前記発言分析結果、前記画像分析処理で求められた前記画像分析結果および前記音声分析処理で求められた前記音声分析結果を総合評価して、総合感情レベルおよび総合ハラスメントレベルのうち、少なくともいずれかを推定して総合判定結果を求める判定処理とを有し、前記画像音声受付処理は、前記参加者を撮影した前記画像データを前記ネットワークを介して受け付けて、前記画像分析処理は、前記画像データを分析して前記画像分析結果を求め、前記音声分析処理は、前記音声データを分析して前記音声分析結果を求め、前記判定処理は、前記文字文章分析処理で分析された前記発言分析結果、前記画像分析処理で求められた前記画像分析結果および前記音声分析処理で求められた前記音声分析結果を総合評価して前記総合判定結果を求めることを特徴とする。
【発明の効果】
【0023】
請求項1の発明によれば、ビデオ会議参加者の発言の音声データが文字に変換され、その発言の内容を示す文字文章が構成される。また、構成されたこの文字文章に基づいて分析が行われて、感情の状態を示す感情レベルおよび嫌がらせの度合を示すハラスメントレベルが推定され発言分析結果が求められる。そして、得られた参加者の発言の内容を示す文字文章と発言分析結果を表示する表示画面が構成されて、この表示画面がビデオ会議の参加者に送信される。
【0024】
このように、ビデオ会議参加者の発言に基づいて感情レベルおよびハラスメントレベルを分析することができ、その発言分析結果をビデオ会議の参加者の間で共有することができる。このため、参加者が感情的になった場合など、自らその状態を把握でき自制できるとともに、他の参加者もその状態を把握でき鎮静化を促すことができる。
【0025】
また、参加者の発言の内容を示す文字文章がビデオ会議の参加者に送信されて、画面で確認できるため、回線の状態が悪く音声を聞きにくい場合にも、会議を中断することなく続けることができる。また、聴覚に障害を有する参加者も会議に参加することができる。
【0026】
また、請求項2の発明によれば、音声文字変換部が、人工知能(AI:Artificial Intelligence)である機械学習により生成させた学習済み音声文字変換モデルを用いて、音声データから文字に変換している。このため、高精度に安定して、音声データを文字に変換できる。また、文字文章分析部が、人工知能である機械学習により生成させた学習済み文字文章分析モデルを用いて感情レベルおよびハラスメントレベルを求める。このため、精度よく安定して感情レベルとハラスメントレベルを推定できる。
【0027】
また、請求項3の発明によれば、ビデオ会議参加者の発言の内容を示す文字文章が、所定の翻訳言語に翻訳されるため、使用する言語の異なる参加者同士でも翻訳文を参照することにより円滑な意思の疎通を図ることができる。
【0028】
また、請求項4の発明によれば、翻訳部が、機械学習により生成させた学習済み翻訳モデルを用いて、原文文章を翻訳する。このため、高い精度で確実に翻訳できる。
【0029】
また、請求項5の発明によれば、画像分析部が、機械学習により生成させた学習済み画像分析モデルを用いて、画像データから感情レベルを推定する。このため、高精度に安定して画像データから感情レベルを求められる。
【0030】
また、請求項6の発明によれば、ビデオ会議参加者を撮影した画像データに基づいて感情レベルが推定され画像分析結果が求められる。そして、この画像分析結果を表示する画像分析表示画面が構成されて、ビデオ会議の参加者に送信される。このように、参加者の画像データに基づいて感情レベルが推定され、会議の参加者にその画像分析結果が共有される。参加者の画像データから画像分析結果が求められるため、参加者の発言の内容を示す文字文章と異なるデータを用いて感情レベルを分析することができ、多面的に分析結果を得ることができる。
【0031】
また、請求項7の発明によれば、音声分析部が、機械学習により生成させた学習済み音声分析モデルを用いて、音声データから感情レベルおよびハラスメントレベルを推定する。このため、精度よく確実に音声データから感情レベルやハラスメントレベルを検出できる。
【0032】
また、請求項8の発明によれば、ビデオ会議参加者の発言の音声データに基づいて感情レベルおよびハラスメントレベルが推定され音声分析結果が求められる。そして、この音声分析結果を表示する音声分析表示画面が構成されて、ビデオ会議の参加者に送信される。このように、参加者の発言の音声データに基づいて感情レベルおよびハラスメントレベルが推定され、会議の参加者にその音声分析結果が共有される。参加者の音声データから音声分析結果が求められるため、参加者の発言の内容を示す文字文章と異なり、参加者の音声データそのものを用いて感情レベルおよびハラスメントレベルを分析することができ、多面的に分析結果を得ることができる。
【0033】
また、請求項9の発明によれば、参加者の発言の内容を示す文字文章に基づいて求められた発言分析結果、参加者の画像データに基づいて求められた画像分析結果および参加者の発言の音声データに基づいて求められた音声分析結果が総合評価されて総合判定結果が求められる。そして、この総合判定結果を表示する総合判定表示画面が構成されて、ビデオ会議の参加者に送信される。このように、発言分析結果、画像分析結果および音声分析結果が総合されるため、より多面的な分析結果を得ることができる。
【0034】
また、請求項10の発明によれば、参加者の発言の内容を示す文字文章に不適切な語句が含まれているか検出され、不適切な語句が検出された場合には、不適切語句遮断措置が行われる。この不適切語句遮断措置により、他人に不快感を与えるような不適切な語句が会議参加者に伝達されなくなるため、参加者は安心して会議に参加することができる。
【0035】
また、請求項11の発明によれば、不適切な語句の検出頻度が所定の閾値を超えた場合、警告表示画面が参加者に向けて送信される。この警告表示画面により、会議参加者は、不適切な発言が多くなっていることを客観的に認識することができ、休憩するなどの対策を講じることができる。
【0036】
請求項12の発明によれば、ビデオ会議参加者の発言の音声データが文字に変換され、その発言の内容を示す文字文章が構成される。また、構成されたこの文字文章に基づいて分析が行われて、感情の状態を示す感情レベルおよび嫌がらせの度合を示すハラスメントレベルが推定され発言分析結果が求められる。このように、ビデオ会議参加者の発言に基づいて感情レベルおよびハラスメントレベルを分析することができる。
【0037】
ビデオ会議分析プログラムをAPI(Application Programming Interface)として提供することができるため、様々なビデオ会議システムでこのAPIを利用することができ、汎用性を持たせることができる。
【0038】
また、請求項13の発明によれば、ビデオ会議参加者の発言の内容を示す文字文章が、所定の翻訳言語に翻訳されるため、使用する言語の異なる参加者同士でも翻訳文を参照することにより円滑な意思の疎通を図ることができる。
【0039】
また、請求項14の発明によれば、ビデオ会議参加者を撮影した画像データに基づいて感情レベルが推定され画像分析結果が求められる。このため、参加者の発言の内容を示す文字文章と異なるデータを用いて感情レベルを分析することができ、多面的に分析結果を得ることができる。
【0040】
また、請求項15の発明によれば、ビデオ会議参加者の発言の音声データに基づいて感情レベルおよびハラスメントレベルが推定され音声分析結果が求められる。このため、参加者の発言の内容を示す文字文章と異なり、参加者の音声データそのものを用いて感情レベルおよびハラスメントレベルを分析することができ、多面的に分析結果を得ることができる。
【0041】
また、請求項16の発明によれば、参加者の発言の内容を示す文字文章に基づいて求められた発言分析結果、参加者の画像データに基づいて求められた画像分析結果および参加者の発言の音声データに基づいて求められた音声分析結果が総合評価されて総合判定結果が求められる。このように、発言分析結果、画像分析結果および音声分析結果が総合されるため、より多面的な分析結果を得ることができる。
【図面の簡単な説明】
【0042】
図1】この発明の実施の形態1に係るビデオ会議分析システムを含むビデオ会議システムを概略的に示す構成ブロック図である。
図2】同実施の形態1に係るWEB/APPサーバの構成を示す概略ブロック図である。
図3】同実施の形態1に係る音声文字変換サーバの構成を示す概略ブロック図である。
図4】同実施の形態1に係る文字文章分析サーバの構成を示す概略ブロック図である。
図5】同実施の形態1に係る翻訳サーバの構成を示す概略ブロック図である。
図6】同実施の形態1に係る画像音声分析サーバの構成を示す概略ブロック図である。
図7】同実施の形態1に係るビデオ会議分析システムを含むビデオ会議システムのクライアント端末の構成を示す概略ブロック図である。
図8】同実施の形態1に係るクライアント端末に表示されるビデオ会議画面の一例を示す図である。
図9】同実施の形態1に係るクライアント端末に表示されるビデオ会議画面の別の例を示す図である。
図10】(a)同実施の形態1に係る感情レベルを表示する絵文字の例を示す図であり、(b)ハラスメントレベルを表示する絵文字の例を示す図である。
図11】同実施の形態1に係る感情レベルを表示する画面の一例を示す図である。
図12】同実施の形態1に係るビデオ会議分析システムにおいてビデオ会議開始時の概略フローチャートを示す図である。
図13】同実施の形態1に係るビデオ会議分析システムにおいてビデオ会議参加者が発言したときの概略フローチャートを示す図である。
図14】この発明の実施の形態2に係るビデオ会議分析システムを含むビデオ会議システムを概略的に示す構成ブロック図である。
図15】同実施の形態2に係るWEB/APPサーバの構成を示す概略ブロック図である。
図16】同実施の形態2に係るビデオ会議分析APIの仕様の一例を説明する図である。
図17】同実施の形態2に係るビデオ会議分析システムを含むビデオ会議システムのビデオ会議サーバの構成を示す概略ブロック図である。
【発明を実施するための形態】
【0043】
[発明の実施の形態1]
この発明の実施の形態1について、図1図13を用いて説明する。
【0044】
図1は、本実施の形態1に係るビデオ会議分析システム1を含むビデオ会議システム100を概略的に示す構成ブロック図である。このビデオ会議分析システム1は、WEB/APP(WEB/Application)サーバ2、音声文字変換サーバ3、文字文章分析サーバ4、翻訳サーバ5、画像音声分析サーバ6を含む構成になっている。この分析システム1を構成する各サーバは、それぞれ「ネットワーク」としてのインターネット8に接続されている。また、ビデオ会議参加者の操作するクライアント端末7,7,7,・・・,7(以下、「クライアント端末7」という)がインターネット8に接続されており、参加者はインターネット8を介してビデオ会議に参加できるようになっている。このように、このビデオ会議システム100は、ビデオ会議分析システム1やクライアント端末7を含むように構成されている。
【0045】
このビデオ会議システム100では、距離の離れた参加者同士がビデオ会議を行えるだけでなく、ビデオ会議分析システム1により参加者の発言が分析され、感情の状態や発言に含まれる嫌がらせの度合などが推定されて、それぞれのクライアント端末7に表示されるようになっている。
【0046】
以下に、このビデオ会議分析システム1を構成する各サーバ、クライアント端末7について説明する。
【0047】
<WEB/APPサーバ>
WEB/APPサーバ2は、会議参加者の各クライアント端末7から送信されてくる参加者の画像や音声のデータを受け付けて、この画像や音声のデータに基づいてビデオ会議画面や会議の音声を構成して、各クライアント端末7に向けて送信する。このような動作を行うことにより、会議参加者は、各クライアント端末7を介して会議の画面や音声を視聴することができ、ビデオ会議を進行させることができる。このように、WEB/APPサーバ2は、ビデオ会議を実現する機能を有している。これに加えて、このWEB/APPサーバ2は、各クライアント端末7から送信されてくる参加者の画像や音声のデータを後述する音声文字変換サーバ3、文字文章分析サーバ4、翻訳サーバ5、画像音声分析サーバ6で加工や分析を行わせる。WEB/APPサーバ2では、このようにして得られる分析結果などに基づいてクライアント端末7に表示させる表示画面を構成し、その表示画面を各クライアント端末7に向けて送信する。参加者は、クライアント端末7に表示される画面を通して自らに対する分析結果や他の参加者の分析結果を確認することができる。
【0048】
図2に示す概略ブロック図のようにWEB/APPサーバ2は、WEB/APPサーバ制御部20、画面構成部21、会議設定部22、議事記録部23、判定部24、画像音声受付部25、画面提供部26、通信部28、記憶部29を含むように構成されている。
【0049】
「制御部」としてのWEB/APPサーバ制御部20は、プログラムの実行、演算処理、WEB/APPサーバ2を構成する各要素の制御などを行うCPU(図示せず)を含むように構成されている。WEB/APPサーバ制御部20によって、記憶部29を構成する不揮発性記憶装置である補助記憶装置(図示せず)に記憶されているプログラムなどが実行され、WEB/APPサーバ2を構成する各要素が動作する。補助記憶装置としては、例えば、HDD(Hard Disk Drive)やSSD(Solid State Drive)を用いることができる。プログラムの実行の際、記憶部29を構成する揮発性メモリのRAM(図示せず)が、CPUによるプログラムの実行や演算処理のワークエリアとして使用される。
【0050】
具体的には、ビデオ会議を動作させるプログラムや、各クライアント端末7から送信されてくる参加者の画像や音声のデータを各サーバに分析させて、その分析結果を表示させる画面を構成し各クライアント端末7に向けて送信するプログラムなどが記憶部29の補助記憶装置に記憶されており、これらのプログラムをWEB/APPサーバ制御部20のCPUが記憶部29のRAMを用いて実行するようになっている。
【0051】
通信部28は、インターネット8に接続されて、このビデオ会議分析システム1を構成する各サーバや、各クライアント端末7との間でデータの送受信を行う。
【0052】
画像音声受付部25は、WEB/APPサーバ制御部20の制御に基づいて、会議参加者の各クライアント端末7からインターネット8を介して送信されてくる参加者を撮影した画像や参加者の発言の音声データを受け付ける(画像音声受付処理)。この画像音声受付部25は、通信部28によって実現するようにしてもよい。また、画像音声受付部25または通信部28では、参加者の各クライアント端末7のキーボードなどの文字入力部74から入力された文章を構成する文字データや、クライアント端末7から送信される図表データなどを受け付けるようにしてもよい。
【0053】
WEB/APPサーバ制御部20は、画像音声受付部25で受け付けた参加者の発言の音声データを通信部28から音声文字変換サーバ3に向けて送信して、その音声データを文字に変換させ、発言の内容を示す文字文章を取得する。次に、WEB/APPサーバ制御部20は、取得した文字文章の文字データを通信部28から文字文章分析サーバ4に向けて送信し、文字文章を分析させて発言分析結果を取得する。また、WEB/APPサーバ制御部20は、画像音声受付部25で受け付けた参加者の画像や音声データを通信部28から画像音声分析サーバ6に向けて送信し、その画像データを分析させて画像分析結果を取得し、音声データを分析させて音声分析結果を取得する。
【0054】
画面構成部21は、WEB/APPサーバ制御部20の制御に基づいて、各クライアント端末7に表示される後述するようなビデオ会議画面200,210などを構成する。表示画面には、参加者の画像、参加者の発言の音声データを文字に変換して求めたその発言の内容を示す文字文章、文字文章に基づいて分析を行った発言分析結果、文字文章を所定の翻訳言語に翻訳した翻訳文(翻訳文表示画面)、参加者を撮影した画像データに基づいて分析を行った画像分析結果(画像分析表示画面)、参加者の音声データに基づいて分析を行った音声分析結果(音声分析表示画面)、発言分析結果や画像分析結果や音声分析結果を総合評価して求めた総合判定結果(総合判定表示画面)、参加者のクライアント端末7から入力された文章や図表データなどが表示される。
【0055】
画面提供部26は、WEB/APPサーバ制御部20の制御に基づいて、画面構成部21で構成された画面を参加者の各クライアント端末7に向けて送信して提供する。この画面提供部26は、通信部28によって実現するようにしてもよい。
【0056】
会議設定部22には、会議に先立って、会議で使用される言語の設定、翻訳の有無の設定、会議の分析内容の設定などのビデオ会議の設定、会議参加者の設定、その参加者の使用する言語の設定などを行う。翻訳を行う設定の場合、発言をする会議参加者の言語からその発言をクライアント端末7で受信する他の参加者の使用する言語に翻訳するようになっている。ビデオ会議は、この会議設定部22の設定に基づいて進行するようになっている。
【0057】
議事記録部23は、画像音声受付部25で受け付けた参加者の発言の音声データを記録したり、参加者の音声データを文字に変換した文字データを記録したりする。さらに、参加者の画像や音声データに基づいて分析される分析結果を記録するようにしてもよいし、各クライアント端末7のキーボードなどから入力された文章を記録するようにしてもよい。また、各クライアント端末7から送信されてくる図表データや画像データなどを記録するようにしてもよい。
【0058】
判定部24は、WEB/APPサーバ制御部20の制御に基づいて、文字文章分析サーバ4で分析された発言分析結果、画像音声分析サーバ6で求められた画像分析結果および音声分析結果を総合評価して、総合感情レベルおよび総合ハラスメントレベルを推定して総合判定結果を求める(判定処理)。発言分析結果と画像分析結果と音声分析結果とを総合評価する方法としては、例えば、それぞれの結果に対して重み付けなどの処理を行い、総合的に判定するようにしてもよい。
【0059】
また、WEB/APPサーバ制御部20は、画像音声受付部25で受け付けた参加者の発言の音声データを音声文字変換サーバ3で文字に変換させた文字文章の中に不適切な語句が検出された場合、参加者の各クライアント端末7に送信する音声データから不適切な語句に対応する部分の音声データを送信停止にしたり、参加者の各クライアント端末7に送信する文字文章の表示画面から不適切な語句を削除したりする不適切語句遮断措置を行うようにしてもよい。また、不適切語句遮断措置として、不適切な語句に対応する適切な語句をWEB/APPサーバ2や音声文字変換サーバ3等にあらかじめ記憶させておき、文字文章に含まれている不適切な語句をその不適切な語句に対応する適切な語句に置換するようにしてもよい。
【0060】
また、WEB/APPサーバ制御部20は、文字文章の中に不適切な語句が検出される頻度が、あらかじめ会議設定部22に設定されている回数を超えた場合、不適切な語句の検出頻度が所定の閾値を超えたことを示す警告表示画面を画面構成部21で構成させて、構成された警告表示画面を画面提供部26から参加者の各クライアント端末7に向けて送信するようにしてもよい。警告表示画面は、例えば、不適切な発言が多くなっていることの警告や、休憩を促す表示とすることができる。また、ある特定の参加者が不適切な語句を含む発言を繰り返す場合には、その参加者のビデオ会議からの退出を勧告する表示とするようにしてもよい。
【0061】
<音声文字変換サーバ>
音声文字変換サーバ3は、会議参加者の発言の音声データを受け付けて、この音声データを文字に変換して発言の内容を示す文字文章を構成する。また、この音声文字変換サーバ3には、不適切な語句があらかじめ登録されており、音声データから求めた文字文章の中に不適切な語句が含まれているか否かを検出するようになっている。
【0062】
図3に示す概略ブロック図のように音声文字変換サーバ3は、音声文字変換サーバ制御部30、音声文字変換部31、音声文字変換辞書データベース32、学習済み音声文字変換モデル保持部33、不適切語句記憶部34、不適切語句検出部35、通信部38、記憶部39を含むように構成されている。
【0063】
音声文字変換サーバ制御部30は、プログラムの実行、演算処理、音声文字変換サーバ3を構成する各要素の制御などを行うCPU(図示せず)を含むように構成されている。音声文字変換サーバ制御部30によって、記憶部39を構成する補助記憶装置(図示せず)に記憶されているプログラムなどが実行され、音声文字変換サーバ3を構成する各要素が動作する。プログラムの実行の際、記憶部39を構成する揮発性メモリのRAM(図示せず)が、CPUによるプログラムの実行や演算処理のワークエリアとして使用される。
【0064】
通信部38は、インターネット8に接続されて、WEB/APPサーバ2などとの間でデータの送受信を行う。この通信部38では、音声文字変換サーバ制御部30の制御に基づいて、WEB/APPサーバ2から送信されてくる参加者の発言の音声データやその音声データの言語を受け付ける。
【0065】
音声文字変換辞書データベース32には、音声データに対応する文字がデータベースとして記憶されており、このデータベース32は音声データから文字を抽出する際の辞書として用いられる。また、音声文字変換辞書データベース32は、多言語の辞書データベースを有しており、言語を指定して音声データから文字へ変換する辞書として使用される。
【0066】
学習済み音声文字変換モデル保持部33は、学習用音声データとそれに対応する正解文字データとの組合せからなる多数の組合せを学習データとして用い、機械学習により生成させた学習済み音声文字変換モデルが保持されている。多言語に対応できるように、言語ごとの生成モデルが保持されており、言語を指定して、この学習済み音声文字変換モデルに音声データを入力して演算する。この演算によってその音声データに対応すると推定される指定された言語の文字が出力される。人工知能である機械学習を用いるため、高精度に安定して音声データが文字に変換される。
【0067】
音声文字変換部31は、音声文字変換サーバ制御部30の制御に基づいて、通信部38で受け付けた音声データとその言語について、音声データからその言語の文字に変換する(音声文字変換処理)。具体的な処理として、音声文字変換部31が、音声文字変換辞書データベース32を用いその音声データを文字に変換する。また、音声文字変換部31は、音声データとその言語について、学習済み音声文字変換モデル保持部33に保持されている学習済み音声文字変換モデルを用いその音声データを文字に変換する。その後、音声文字変換辞書データベース32を用いて求めた文字と、学習済み音声文字変換モデルを用いて文字とを比較して調整を行い、最適な文字になるように修正する。なお、音声文字変換部31では、音声文字変換辞書データベース32と学習済み音声文字変換モデルの両方を利用する必要はなく、どちらか一方を利用して、音声データから文字に変換するようにしてもよい。
【0068】
音声文字変換サーバ制御部30は、音声データから文字に変換されて求められた文字文章の文字データを通信部38からWEB/APPサーバ2に向けて送信する。
【0069】
不適切語句記憶部34には、他人に不快感やハラスメントを与えるような不適切な語句があらかじめ登録されて記憶されている。
【0070】
不適切語句検出部35は、音声文字変換サーバ制御部30の制御に基づいて、音声文字変換部31で求められた文字文章の中に、不適切語句記憶部34に記憶されている不適切な語句が含まれているか否かを検出する。
【0071】
文字文章中に不適切な語句が検出された場合、音声文字変換サーバ制御部30は、受け付けた音声データから構成された文字文章に不適切な語句が含まれていることを示す通知と、検出されたその不適切な語句とを通信部38からWEB/APPサーバ2に送信する。また、この音声文字変換サーバ3に、不適切な語句に対応する適切な語句を記憶させておき、検出された不適切な語句と、その不適切な語句に対応する適切な語句とをWEB/APPサーバ2に送信するようにしてもよい。こうすることで、WEB/APPサーバ2では、不適切な語句を適切な語句に置き換えることができる。
【0072】
不適切な語句が含まれていることを示す通知やその不適切な語句などを受信するWEB/APPサーバ2では、上述のような不適切語句遮断措置を施すことできる。
【0073】
<文字文章分析サーバ>
文字文章分析サーバ4は、会議参加者の発言の音声データを文字に変換して構成された文字文章を分析し、感情の状態を示す感情レベルおよび嫌がらせの度合を示すハラスメントレベルを推定して発言分析結果を求める(文字文章分析処理)。
【0074】
感情レベルとして、「喜び」、「悲しみ」、「怒り」、「嫌悪」、「恐怖」、「驚き」などの感情の種類と、その感情の強さのパーセント表示との組み合わせとしてもよい。また、「喜び」や「悲しみ」等の感情の推定確率のパーセント表示としてもよい。また、良い感情から悪い感情までの間の感情の状態のパーセント表示としてもよい。
【0075】
ハラスメントレベルとして、「パワーハラスメント」や「セクシャルハラスメント」などのハラスメントの種類と、そのハラスメントの強さのパーセント表示との組み合わせとしてもよい。また、「パワーハラスメント」や「セクシャルハラスメント」等のハラスメントの推定確率のパーセント表示としてもよい。また、ハラスメント有りから無しの間の状態のパーセント表示としてもよい。
【0076】
図4に示す概略ブロック図のように文字文章分析サーバ4は、文字文章分析サーバ制御部40、文字文章分析部41、文字文章分析辞書データベース42、学習済み文字文章分析モデル保持部43、通信部48、記憶部49を含むように構成されている。
【0077】
文字文章分析サーバ制御部40は、文字文章分析サーバ4を構成する各要素の制御などを行うCPU(図示せず)を含むように構成されている。記憶部49は、補助記憶装置(図示せず)やRAM(図示せず)により構成されている。
【0078】
通信部48は、インターネット8に接続されて、WEB/APPサーバ2などとの間でデータの送受信を行う。この通信部48では、文字文章分析サーバ制御部40の制御に基づいて、WEB/APPサーバ2から送信されてくる参加者の音声データを文字に変換した文字文章の文字データやその言語を受け付ける。
【0079】
文字文章分析辞書データベース42には、文章を構成する語句に対応する感情レベルやハラスメントレベルがデータベースとして記憶されており、このデータベース42は文字文章から感情レベルやハラスメントレベルを推定する際の辞書として用いられる。また、文字文章分析辞書データベース42は、多言語の辞書データベースを有しており、言語を指定して文字文章から感情レベルなどを推定する辞書として使用される。
【0080】
学習済み文字文章分析モデル保持部43は、学習用文章とそれに対応する正解感情データとの組合せ、学習用文章とそれに対応する正解ハラスメントデータとの組合せからなる多数の組合せを学習データとして用い、機械学習により生成させた学習済み文字文章分析モデルが保持されている。この学習済み文字文章分析モデルは、学習済み文字文章分析感情生成モデルと学習済み文字文章分析ハラスメント生成モデルから構成される。学習済み文字文章分析感情生成モデルは、学習用文章とそれに対応する、例えば、「喜び」、「悲しみ」、「怒り」、「嫌悪」、「恐怖」、「驚き」などの正解となる感情の種類との組合せを学習の教師データとして用いて生成され、文字文章を入力して演算することにより感情レベルが求められる。感情の種類としては、「喜び」、「悲しみ」、「怒り」、「嫌悪」、「恐怖」、「驚き」などの少なくともいずれか一つの感情を用いればよい。一方、学習済み文字文章分析ハラスメント生成モデルは、学習用文章とそれに対応する、例えば、「パワーハラスメント」や「セクシャルハラスメント」、そして、「ハラスメント無し」などの正解となるハラスメントの種類との組合せを教師データとして用いて生成され、文字文章を入力して演算することによりハラスメントレベルが求められる。ハラスメントの種類としては、「パワーハラスメント」、「セクシャルハラスメント」、「ハラスメント無し」などの少なくともいずれか一つを用いればよい。多言語に対応できるように、言語ごとの生成モデルが保持されており、言語を指定して、この学習済み文字文章分析モデルに文字文章を入力して演算させることによってその文字文章に対応すると推定される感情レベルやハラスメントレベルが出力されるようになっている。
【0081】
文字文章分析部41は、文字文章分析サーバ制御部40の制御に基づいて、通信部48で受け付けた文字データから構成される文字文章とその言語について、文字文章分析辞書データベース42を用いその文字文章から感情レベルやハラスメントレベルを推定する。文字文章分析辞書データベース42を用いると、文字文章を構成する語句ごとの感情レベルやハラスメントレベルが求められる。そして、それら語句ごとの感情レベルやハラスメントレベルに重み付けなどの処理を行い、文字文章全体としての感情レベルやハラスメントレベルが推定される。また、文字文章分析部41は、文字文章とその言語について、学習済み文字文章分析モデル保持部43に保持されている学習済み文字文章分析モデルを用いその文字文章から感情レベルやハラスメントレベルを推定する。その後、文字文章分析辞書データベース42を用いて推定された感情レベルやハラスメントレベルと、学習済み文字文章分析モデルを用いて推定された感情レベルやハラスメントレベルとを比較して調整を行い、最適な感情レベルやハラスメントレベルになるように修正する。
【0082】
なお、文字文章分析部41では、文字文章分析辞書データベース42と学習済み文字文章分析モデルの両方を利用する必要はなく、どちらか一方を利用して、文字文章から感情レベルやハラスメントレベルを推定するようにしてもよい。また、文字文章分析部41では、感情レベルまたはハラスメントレベルの何れか一方を推定するようにしてもよい。
【0083】
このようにして参加者の発言の内容を示す文字文章を分析して推定された感情レベルやハラスメントレベルが発言分析結果となる。文字文章分析サーバ制御部40は、この発言分析結果を通信部48からWEB/APPサーバ2に向けて送信する。
【0084】
なお、文字文章分析部41では、クライアント端末7のキーボードなどから入力された文章に対して分析を行い、感情レベルやハラスメントレベルを推定するようにしてもよい。
【0085】
<翻訳サーバ>
翻訳サーバ5は、会議参加者の発言の音声データを文字に変換して構成された文字文章を翻訳言語に翻訳し、原文言語で構成される原文文章である文字文章の翻訳文を生成する(翻訳処理)。
【0086】
図5に示す概略ブロック図のように翻訳サーバ5は、翻訳サーバ制御部50、翻訳部51、翻訳辞書データベース52、学習済み翻訳モデル保持部53、通信部58、記憶部59を含むように構成されている。
【0087】
翻訳サーバ制御部50は、翻訳サーバ5を構成する各要素の制御などを行うCPU(図示せず)を含むように構成されている。記憶部59は、補助記憶装置(図示せず)やRAM(図示せず)により構成されている。
【0088】
通信部58は、インターネット8に接続されて、WEB/APPサーバ2などとの間でデータの送受信を行う。この通信部58では、翻訳サーバ制御部50の制御に基づいて、WEB/APPサーバ2から送信されてくる参加者の音声データを文字に変換した文字文章の文字データ、文字文章の言語である原文言語、翻訳する言語である翻訳言語を受け付ける。
【0089】
翻訳辞書データベース52には、原文言語の語句に対応する翻訳語がデータベースとして記憶されており、このデータベース52は文字文章の翻訳文を生成する際の辞書として用いられる。また、翻訳辞書データベース52は、多言語の辞書データベースを有しており、原文言語と翻訳言語を指定して原文言語の文字文章から翻訳言語の翻訳文を生成する辞書として使用される。
【0090】
学習済み翻訳モデル保持部53は、学習用原文文章とその翻訳文として正解となる正解翻訳文との組合せからなる多数の組合せを学習データとして用い、機械学習により生成させた学習済み翻訳モデルが保持されている。多言語に対応できるように、言語ごとの生成モデルが保持されており、原文言語と翻訳言語を指定して、この学習済み翻訳モデルに原文言語の文字文章を入力して演算させることによってその文字文章の翻訳文が出力されるようになっている。
【0091】
翻訳部51は、翻訳サーバ制御部50の制御に基づいて、通信部58で受け付けた文字データから構成される文字文章、その文字文章の原文言語、翻訳言語について、翻訳辞書データベース52を用いその文字文章から翻訳文を生成する。また、翻訳部51は、文字文章、その言語、翻訳言語について、学習済み翻訳モデル保持部53に保持されている学習済み翻訳モデルを用いその文字文章の翻訳文を生成する。その後、翻訳辞書データベース52を用いて生成された翻訳文と、学習済み翻訳モデルを用いて生成された翻訳文との調整を行い、最適な翻訳文になるように修正する。なお、翻訳部51では、翻訳辞書データベース52と学習済み翻訳モデルの両方を利用する必要はなく、どちらか一方を利用して、文字文章の翻訳文を生成するようにしてもよい。
【0092】
翻訳サーバ制御部50は、このように生成された文字文章の翻訳文の文字データを通信部58からWEB/APPサーバ2に向けて送信する。
【0093】
なお、翻訳部51では、クライアント端末7のキーボードなどから入力された文章を翻訳して翻訳文を生成するようにしてもよい。
【0094】
<画像音声分析サーバ>
画像音声分析サーバ6は、会議参加者を撮影した画像データを分析して感情レベルを推定して画像分析結果を求める(画像分析処理)とともに、会議参加者の発言の音声データを分析して感情レベルおよびハラスメントレベルを推定して音声分析結果を求める(音声分析処理)。
【0095】
図6に示す概略ブロック図のように画像音声分析サーバ6は、画像音声分析サーバ制御部60、画像分析部61、画像分析辞書データベース62、学習済み画像分析モデル保持部63、音声分析部64、音声分析辞書データベース65、学習済み音声分析モデル保持部66、通信部68、記憶部69を含むように構成されている。
【0096】
画像音声分析サーバ制御部60は、画像音声分析サーバ6を構成する各要素の制御などを行うCPU(図示せず)を含むように構成されている。記憶部69は、補助記憶装置(図示せず)やRAM(図示せず)により構成されている。
【0097】
通信部68は、インターネット8に接続されて、WEB/APPサーバ2などとの間でデータの送受信を行う。この通信部68では、画像音声分析サーバ制御部60の制御に基づいて、WEB/APPサーバ2から送信されてくる参加者を撮影した画像データや参加者の発言の音声データを受け付ける。
【0098】
画像分析辞書データベース62には、人の目、眉、唇の両脇の部分である口角、頬、口元などの顔画像の部位の形状やその形状の変化に対応する感情レベルがデータベースとして記憶されており、このデータベース62は参加者の画像データから抽出される顔画像に基づいて感情レベルを推定する際の辞書として用いられる。
【0099】
学習済み画像分析モデル保持部63は、学習用顔画像とそれに対応する、例えば、「喜び」、「悲しみ」、「怒り」、「嫌悪」、「恐怖」、「驚き」などの正解となる感情の種類との組合せからなる多数の組合せを学習データとして用い、機械学習により生成させた学習済み画像分析モデルが保持されている。感情の種類としては、「喜び」、「悲しみ」、「怒り」、「嫌悪」、「恐怖」、「驚き」などの少なくともいずれか一つの感情を用いればよい。この学習済み画像分析モデルに参加者の画像データから抽出される顔画像を入力して演算させることによってその顔画像に対応すると推定される感情レベルが出力されるようになっている。例えば、入力された顔画像についての「喜び」や「悲しみ」や「怒り」などの各感情の推定確率が出力される。
【0100】
画像分析部61は、通信部68で受け付けた参加者の画像データから顔画像を抽出し、その顔画像の目の形状、ビデオ会議中における目の形状の変化、眉の形状、会議中における眉の形状の変化、口角の形状、口角の形状の変化、頬の形状、頬の形状の変化、歯の出現頻度、歯の出現頻度の変化などを用いて分析を行い、感情レベルを推定して画像分析結果を求める。
【0101】
すなわち、画像分析部61は、画像音声分析サーバ制御部60の制御に基づいて、画像データから抽出された顔画像について画像分析辞書データベース62を用いその顔画像から感情レベルを推定する。画像分析辞書データベース62を用いると、顔画像を構成する目、眉、口角、頬、口元などの各部位の形状やその形状の変化に対応する感情レベルが求められ、それら部位ごとの感情レベルに重み付けなどの処理を行い、顔画像全体としての感情レベルが推定される。また、画像分析部61は、抽出された顔画像について、学習済み画像分析モデル保持部63に保持されている学習済み画像分析モデルを用いその顔画像から感情レベルを推定する。その後、画像分析辞書データベース62を用いて推定された感情レベルと、学習済み画像分析モデルを用いて推定された感情レベルとの調整を行い、最適な感情レベルになるように修正する。なお、画像分析部61では、画像分析辞書データベース62と学習済み画像分析モデルの両方を利用する必要はなく、どちらか一方を利用して、顔画像から感情レベルを推定するようにしてもよい。
【0102】
このようにして画像データを分析して推定された感情レベルが画像分析結果となる。画像音声分析サーバ制御部60は、この画像分析結果を通信部68からWEB/APPサーバ2に向けて送信する。
【0103】
また、画像分析部61には、参加者の画像データから抽出された顔画像に基づいて、性別や年齢を推定する構成(図示せず)を備えるようにしてもよい。
【0104】
音声分析辞書データベース65には、声の大きさ、声の高さ、話す速さ、他の発言者の言葉に被せて発言する頻度や、それら声の大きさ、高さ、話す速さなどの変化に対応する感情レベルやハラスメントレベルがデータベースとして記憶されており、このデータベース65は参加者の音声データから感情レベルやハラスメントレベルを推定する際の辞書として用いられる。
【0105】
学習済み音声分析モデル保持部66は、学習用音声データとそれに対応する正解感情データとの組合せ、学習用音声データとそれに対応する正解ハラスメントデータとの組合せからなる多数の組合せを学習データとして用い、機械学習により生成させた学習済み音声分析モデルが保持されている。この学習済み音声分析モデルは、学習済み音声分析感情生成モデルと学習済み音声分析ハラスメント生成モデルから構成される。学習済み音声分析感情生成モデルは、学習用音声データとそれに対応する、例えば、「喜び」、「悲しみ」、「怒り」、「嫌悪」、「恐怖」、「驚き」などの正解となる感情の種類との組合せを学習の教師データとして用いて生成され、音声データを入力して演算することにより感情レベルが求められる。例えば、入力された音声データについての「喜び」や「悲しみ」などの各感情の推定確率が出力される。一方、学習済み音声分析ハラスメント生成モデルは、学習用音声データとそれに対応する、例えば、「パワーハラスメント」、「セクシャルハラスメント」、「ハラスメント無し」などの正解となるハラスメントの種類との組合せを教師データとして用いて生成され、音声データを入力して演算することによりハラスメントレベルが求められる。例えば、入力された音声データについての「パワーハラスメント」や「セクシャルハラスメント」などの各ハラスメントの推定確率が出力される。この学習済み音声分析モデルに参加者の音声データを入力して演算させることによってその音声データに対応すると推定される感情レベルやハラスメントレベルが出力されるようになっている。
【0106】
音声分析部64は、通信部68で受け付けた参加者の音声データから、声の大きさ、ビデオ会議中における声の大きさの変化、声の高さ、会議中における声の高さの変化、話す速さ、話す速さの変化、他の参加者の言葉に被せて発言する頻度、他の参加者の言葉に被せて発言する頻度の変化などを用いて分析を行い、感情レベルやハラスメントレベルを推定して音声分析結果を求める。
【0107】
すなわち、音声分析部64は、画像音声分析サーバ制御部60の制御に基づいて、音声データについて音声分析辞書データベース65を用い感情レベルやハラスメントレベルを推定する。音声分析辞書データベース65を用いると、声の大きさ、その高さ、話す速さなどやそれらの変化に対応する感情レベルやハラスメントレベルが求められ、それら判定要素ごとの感情レベルやハラスメントレベルに重み付けなどの処理を行い、音声データ全体としての感情レベルやハラスメントレベルが推定される。また、音声分析部64は、音声データについて、学習済み音声分析モデル保持部66に保持されている学習済み音声分析モデルを用い感情レベルやハラスメントレベルを推定する。その後、音声分析辞書データベース65を用いて推定された感情レベルやハラスメントレベルと、学習済み音声分析モデルを用いて推定された感情レベルやハラスメントレベルとの調整を行い、最適な感情レベルやハラスメントレベルになるように修正する。
【0108】
なお、音声分析部64では、音声分析辞書データベース65と学習済み音声分析モデルの両方を利用する必要はなく、どちらか一方を利用して、参加者の音声データから感情レベルなどを推定するようにしてもよい。また、音声分析部64では、感情レベルまたはハラスメントレベルの何れか一方を推定するようにしてもよい。
【0109】
このようにして音声データを分析して推定された感情レベルやハラスメントレベルが音声分析結果となる。画像音声分析サーバ制御部60は、この音声分析結果を通信部68からWEB/APPサーバ2に向けて送信する。
【0110】
<クライアント端末>
クライアント端末7は、ブラウザと呼ばれるソフトウェアによってインターネット8につながり、WEB/APPサーバ2などのビデオ会議を動作させるサーバに接続される。クライアント端末7からビデオ会議参加者の画像や発言の音声などが送信され、他の参加者の画像や音声などを受信して端末7で視聴することにより、ビデオ会議が行われる。クライアント端末7としては、パーソナルコンピュータやスマートフォンなどの情報端末が用いられる。
【0111】
図7に示す概略ブロック図のようにクライアント端末7は、クライアント端末制御部70、表示部71、カメラ72、マイクロホン73、文字入力部74、スピーカ75、通信部78、記憶部79を含むように構成されている。
【0112】
クライアント端末制御部70は、クライアント端末7を構成する各要素の制御などを行うCPU(図示せず)を含むように構成されている。記憶部79は、補助記憶装置(図示せず)やRAM(図示せず)により構成されている。
【0113】
通信部78は、インターネット8に接続されて、WEB/APPサーバ2などのビデオ会議を動作させるサーバ等との間でデータの送受信を行う。この通信部78で送受信されるデータは、画像データや音声データなどである。
【0114】
表示部71は、液晶ディスプレイなどの表示装置により構成され、WEB/APPサーバ2の画面構成部21で構成されたビデオ会議画面200,210などを表示する。
【0115】
カメラ72は、CCDイメージセンサやCMOSイメージセンサ等の固体撮像素子などにより構成され、会議参加者などを撮影する。マイクロホン73は、参加者の発言などの音声を電気信号に変換して音声データを取得する。スピーカ75は、他の参加者の発言の音声データを音声として発生させる。
【0116】
文字入力部74は、キーボードなどの入力装置で構成され、参加者の文字の入力に用いられる。
【0117】
カメラ72で撮影された参加者の画像データ、マイクロホン73で取得された参加者の発言の音声データ、文字入力部74から参加者によって入力された文章を構成する文字データなどは、通信部78からビデオ会議を動作させるサーバに向けて送信される。また、ビデオ会議の表示画面データや会議の音声データなどが通信部78で受信されて、表示部71に表示され、スピーカ75からその音声が出力される。
【0118】
<ビデオ会議画面>
図8図9は、クライアント端末7の表示部71に表示されるビデオ会議画面の例である。WEB/APPサーバ2の画面構成部21で構成されたビデオ会議の表示画面が画面提供部26からクライアント端末7に向けて送信され、この表示画面を受信したクライアント端末7がその表示部71に表示したものである。
【0119】
図8に示すビデオ会議画面200には、会議に参加している7人が表示されている。各参加者を表示する領域には、その参加者を撮影した画像201、その領域の左上部に感情レベル表示202、左中央部に性別表示203、左下部に推定年齢表示204が表示されている。
【0120】
感情レベル表示202は、「喜び」、「悲しみ」、「怒り」、「嫌悪」、「恐怖」、「驚き」などの感情の種類を表現する絵文字と、その感情の強さのパーセント表示により構成されている。また、この他に、「喜び」や「悲しみ」等の感情の推定確率をパーセント表示してもよいし、感情の最も悪い状態を0%、最も良い状態を100%としたときの感情の状態をパーセント表示してもよい。図10(a)は、感情の最も悪い状態を0%、最も良い状態を100%として感情の状態をパーセント表示によって表示する場合の感情レベルを表示する絵文字の例である。絵文字は、感情レベルの20%刻みに対応するように5種類用意されている。
【0121】
また、ハラスメントレベル表示は、「パワーハラスメント」や「セクシャルハラスメント」などのハラスメントの種類を表現する絵文字と、そのハラスメントの強さのパーセント表示を表示するようにしてもよい。また、この他に「パワーハラスメント」や「セクシャルハラスメント」等のハラスメントの推定確率をパーセント表示してもよい。また、ハラスメントが無く適切な状態を0%、ハラスメントが有り不適切な状態を100%としたときのパーセント表示を表示してもよい。図10(b)は、ハラスメント有りの状態を100%、ハラスメント無しの状態を0%としてハラスメントの状態をパーセント表示によって表示する場合のハラスメントレベルを表示する絵文字の例である。絵文字は、ハラスメントレベルの20%刻みに対応するように5種類用意されている。
【0122】
図9に示すビデオ会議画面210のように、発言中の参加者をクライアント端末7の表示部71に拡大して表示するようにしてもよい。このビデオ会議画面210では、参加者の画像201が表示され、その下方に文字文章表示205が配置されている。この文字文章表示205には、その参加者の発言の内容を示す文字文章が文字で表示される。翻訳を行う設定になっている場合には、この領域に文字文章の翻訳文を表示させるようにしてもよい。
【0123】
また、文字文章表示205の下方左部には、感情レベル表示206が配置され、その表示206の右側には、ハラスメントレベル表示207が配置されている。
【0124】
感情レベル表示206やハラスメントレベル表示207は、絵文字とパーセント表示で構成するだけでなく、例えば、図11に示すように、詳細な分析結果を表示するようにしてもよい。この図11は、感情レベル表示208の例であるが、感情を構成する「喜び」、「悲しみ」、「怒り」、「嫌悪」、「恐怖」、「驚き」などの項目の推定確率を表示するようになっている。
【0125】
なお、感情レベル表示202,206,208に表示する感情レベルや、ハラスメントレベル表示207に表示するハラスメントレベルは、文字文章分析サーバ4の文字文章分析部41において参加者の発言の内容を示す文字文章を分析して求められた発言分析結果の感情レベルやハラスメントレベルを採用してもよい。また、画像音声分析サーバ6の画像分析部61において参加者の画像データを分析して求められた画像分析結果の感情レベルを採用してもよい。また、音声分析部64において参加者の音声データを分析して求められた音声分析結果の感情レベルやハラスメントレベルを採用してもよい。また、WEB/APPサーバ2の判定部24において発言分析結果、画像分析結果および音声分析結果を総合評価して求めた総合判定結果の総合感情レベルや総合ハラスメントレベルを採用してもよい。
【0126】
<ビデオ会議分析システムの動作>
次に、本実施の形態1に係るビデオ会議分析システム1を含むビデオ会議システム100の動作を説明する。以下に、ビデオ会議開始時の動作と、ビデオ会議参加者が発言したときの動作について説明する。
【0127】
<ビデオ会議開始時の動作>
図12には、ビデオ会議分析システム1においてビデオ会議開始時の概略フローチャートが示されている。
【0128】
まず、ビデオ会議の開始に先立って、会議参加者のうちの一人が、その参加者のクライアント端末7を用いて会議参加者、参加者の言語、参加者の発言の音声を文字に変換して画面に表示するか否か、翻訳の有無などの会議設定を行う(S100ステップ)。会議設定には、参加者の発言の内容を示す文字文章を分析して感情レベルやハラスメントレベルの推定を行うか否か、参加者の画像を分析して感情レベルの推定を行うか否か、参加者の音声データを分析して感情レベルやハラスメントレベルの推定を行うか否か、総合感情レベルや総合ハラスメントレベルを求めるか否かなどのビデオ会議の分析内容も設定される。この会議設定は、クライアント端末7からWEB/APPサーバ2に向けて送信され、そのサーバ2に受信され会議設定部22に記憶される(S110ステップ)。
【0129】
会議設定が終了すると、参加者はクライアント端末7に会議開始を入力する(S101ステップ)。会議開始の指示は、クライアント端末7からWEB/APPサーバ2に送信され、そのサーバ2に受け付けられる(S111ステップ)。
【0130】
クライアント端末7からは、参加者を撮影した画像データがWEB/APPサーバ2に送信される。WEB/APPサーバ2では、画像音声受付部25で参加者の画像データを受け付ける(S112ステップ)。取得した参加者の画像を分析するため、WEB/APPサーバ2のWEB/APPサーバ制御部20は、参加者画像データを画像音声分析サーバ6に向けて送信する(S113ステップ)。
【0131】
画像音声分析サーバ6の画像分析部61では、受け付けた参加者画像データを分析して感情レベルを推定して画像分析結果を求める(S130ステップ)。また、画像分析部61では、参加者画像データに基づいて性別や年齢を推定する。
【0132】
画像音声分析サーバ6における参加者画像データの分析結果は、WEB/APPサーバ2に送信され、そのサーバ2で取得される(S114ステップ)。
【0133】
他の会議参加者のクライアント端末7からも、参加者の画像データがWEB/APPサーバ2に送信され、WEB/APPサーバ2に受け付けられる(S115ステップ)。WEB/APPサーバ2は、同様に、参加者画像データを画像音声分析サーバ6に送信(S116ステップ)して分析させ(S131ステップ)、分析結果を取得する(S117ステップ)。
【0134】
すべての会議参加者のクライアント端末7から参加者画像データを受け付けて分析を行わせると、WEB/APPサーバ2のWEB/APPサーバ制御部20は、画面構成部21に例えば、図8に示すようなビデオ会議画面200を構成させる。WEB/APPサーバ制御部20は、構成されたビデオ会議画面200を画面提供部26から、会議に参加しているすべてのクライアント端末7に向けて送信する(S118ステップ)。
【0135】
こうすることにより、クライアント端末7の表示部71には、ビデオ会議画面200のような画面が表示され(S102ステップ、S140ステップ)、ビデオ会議が開始される。
【0136】
<ビデオ会議参加者が発言したときの動作>
図13には、ビデオ会議分析システム1においてビデオ会議参加者が発言したときの概略フローチャートが示されている。
【0137】
ビデオ会議中に、参加者が発言すると(S200ステップ)、その参加者のクライアント端末7からWEB/APPサーバ2に向けて発言の音声データが送信される。また、参加者の画像データは、常時、クライアント端末7からWEB/APPサーバ2に向けて送信されるようになっている。
【0138】
WEB/APPサーバ2が、参加者の音声データと画像データを受け付けると(S210ステップ)、このサーバ2のWEB/APPサーバ制御部20は、音声データを文字に変換させるため、受け付けた音声データを音声文字変換サーバ3に送信する。
【0139】
音声文字変換サーバ3の音声文字変換部31では、受け付けた音声データを文字に変換する(S220ステップ)。発言の音声データから変換された文字によって、発言の内容を示す文字文章が構成される。このように音声データを変換して得られた文字データは、WEB/APPサーバ2に向けて送信される。
【0140】
WEB/APPサーバ2では、文字文章を構成する文字データを音声文字変換サーバ3から受け付けると(S211ステップ)、受け付けた文字文章を分析させるため、WEB/APPサーバ制御部20が、受け付けた文字データを文字文章分析サーバ4に送信する。
【0141】
文字文章分析サーバ4の文字文章分析部41では、受け付けた文字データで構成されている文字文章を分析して、感情レベルやハラスメントレベルを推定する(S230ステップ)。このように参加者の発言の内容を示す文字文章を分析した結果が、発言分析結果となる。文字文章の分析結果は、WEB/APPサーバ2に送信され、そのサーバ2に受け付けられる(S212ステップ)。
【0142】
発言の内容を示す文字文章を翻訳する設定になっている場合、翻訳させるため、WEB/APPサーバ制御部20は、文字文章を構成する文字データ、その文字文章の言語、翻訳言語などを翻訳サーバ5に送信する。
【0143】
翻訳サーバ5の翻訳部51では、受け付けた文字文章を翻訳言語に翻訳する(S240ステップ)。生成された文字文章の翻訳文は、WEB/APPサーバ2に送信され、そのサーバ2に受け付けられる(S213ステップ)。
【0144】
次に、参加者の画像データや音声データを分析させるため、WEB/APPサーバ制御部20は、クライアント端末7から受け付けた参加者画像データと音声データを画像音声分析サーバ6に向けて送信する。
【0145】
画像音声分析サーバ6の画像分析部61では、受け付けた参加者画像データを分析して感情レベルを推定する(S250ステップ)。このように参加者画像データを分析した結果が、画像分析結果となる。また、音声分析部64では、受け付けた参加者の音声データを分析して感情レベルやハラスメントレベルを推定する(S250ステップ)。このように参加者音声データを分析した結果が、音声分析結果となる。
【0146】
画像音声分析サーバ6で求められた画像分析結果や音声分析結果は、WEB/APPサーバ2に送信され、そのサーバ2に受け付けられる(S214ステップ)。
【0147】
WEB/APPサーバ制御部20は、受け付けた文字文章、文字文章の分析結果、文字文章の翻訳文、画像分析結果、音声分析結果に基づいて、画面構成部21に例えば、図9に示すようなビデオ会議画面210を構成させる。そして、WEB/APPサーバ制御部20は、構成されたビデオ会議画面210を画面提供部26から、会議に参加しているすべてのクライアント端末7に向けて送信する(S215ステップ)。
【0148】
こうすることにより、クライアント端末7の表示部71には、ビデオ会議画面210のような画面が表示され(S201ステップ、S260ステップ)、ビデオ会議が進行する。
【0149】
<本実施の形態1の効果>
本実施の形態1によれば、ビデオ会議参加者の発言の音声データが文字に変換され、その発言の内容を示す文字文章が構成される。また、構成されたこの文字文章に基づいて分析が行われて、感情レベルおよびハラスメントレベルが推定され発言分析結果が求められる。そして、得られた参加者の発言の内容を示す文字文章と発言分析結果を表示する表示画面が構成されて、この表示画面がビデオ会議の参加者に送信される。このように、参加者の発言に基づいて感情レベルおよびハラスメントレベルを分析することができ、その発言分析結果をビデオ会議の参加者の間で共有することができる。このため、参加者が感情的になった場合など、自らその状態を把握でき自制できるとともに、他の参加者もその状態を把握でき鎮静化を促すことができる。
【0150】
また、参加者の発言の内容を示す文字文章がビデオ会議の参加者に送信されて、画面で確認できるため、回線の状態が悪く音声を聞きにくい場合にも、会議を中断することなく続けることができる。また、聴覚に障害を有する参加者も会議に参加することができる。
【0151】
また、本実施の形態1によれば、音声文字変換サーバ3の音声文字変換部31が、人工知能である機械学習により生成させた学習済み音声文字変換モデルを用いて、音声データから文字に変換している。このため、高精度に安定して、音声データを文字に変換できる。また、文字文章分析部41が、人工知能である機械学習により生成させた学習済み文字文章分析モデルを用いて感情レベルおよびハラスメントレベルを求める。このため、精度よく安定して感情レベルとハラスメントレベルを推定できる。
【0152】
また、本実施の形態1によれば、会議参加者の発言の内容を示す文字文章が、所定の翻訳言語に翻訳されるため、使用する言語の異なる参加者同士でも翻訳文を参照することにより円滑な意思の疎通を図ることができる。
【0153】
また、本実施の形態1によれば、翻訳サーバ5の翻訳部51が、機械学習により生成させた学習済み翻訳モデルを用いて、原文文章を翻訳する。このため、高い精度で確実に翻訳できる。
【0154】
また、本実施の形態1によれば、画像音声分析サーバ6の画像分析部61が、機械学習により生成させた学習済み画像分析モデルを用いて、画像データから感情レベルを推定する。このため、高精度に安定して画像データから感情レベルを求められる。
【0155】
また、本実施の形態1によれば、会議参加者を撮影した画像データに基づいて感情レベルが推定され画像分析結果が求められる。そして、この画像分析結果を表示する画像分析表示画面が構成されて、ビデオ会議の参加者に送信される。このように、参加者の画像データに基づいて感情レベルが推定され、会議の参加者にその画像分析結果が共有される。参加者の画像データから画像分析結果が求められるため、参加者の発言の内容を示す文字文章と異なるデータを用いて感情レベルを分析することができ、多面的に分析結果を得ることができる。
【0156】
また、本実施の形態1によれば、画像音声分析サーバ6の音声分析部64が、機械学習により生成させた学習済み音声分析モデルを用いて、音声データから感情レベルおよびハラスメントレベルを推定する。このため、精度よく確実に音声データから感情レベルやハラスメントレベルを検出できる。
【0157】
また、本実施の形態1によれば、会議参加者の発言の音声データに基づいて感情レベルおよびハラスメントレベルが推定され音声分析結果が求められる。そして、この音声分析結果を表示する音声分析表示画面が構成されて、ビデオ会議の参加者に送信される。このように、参加者の発言の音声データに基づいて感情レベルおよびハラスメントレベルが推定され、会議の参加者にその音声分析結果が共有される。参加者の音声データから音声分析結果が求められるため、参加者の発言の内容を示す文字文章と異なり、参加者の音声データそのものを用いて感情レベルおよびハラスメントレベルを分析することができ、多面的に分析結果を得ることができる。
【0158】
また、本実施の形態1によれば、参加者の発言の内容を示す文字文章に基づいて求められた発言分析結果、参加者の画像データに基づいて求められた画像分析結果および参加者の発言の音声データに基づいて求められた音声分析結果が総合評価されて総合判定結果が求められる。そして、この総合判定結果を表示する総合判定表示画面が構成されて、ビデオ会議の参加者に送信される。このように、発言分析結果、画像分析結果および音声分析結果が総合されるため、より多面的な分析結果を得ることができる。
【0159】
また、本実施の形態1によれば、参加者の発言の内容を示す文字文章に不適切な語句が含まれているか検出され、不適切な語句が検出された場合には、不適切語句遮断措置が行われる。この不適切語句遮断措置により、他人に不快感を与えるような不適切な語句が会議参加者に伝達されなくなるため、参加者は安心して会議に参加することができる。
【0160】
また、本実施の形態1によれば、不適切な語句の検出頻度が所定の閾値を超えた場合、警告表示画面が参加者に向けて送信される。この警告表示画面により、会議参加者は、不適切な発言が多くなっていることを客観的に認識することができ、休憩するなどの対策を講じることができる。
【0161】
[発明の実施の形態2]
次に、この発明の実施の形態2について、図14図17を用いて説明する。ただし、上述の実施の形態1と同一または対応する要素には、同一の符号を付し、重複する説明は省略する。
【0162】
図14は、本実施の形態2に係るビデオ会議分析システム1Aを含むビデオ会議システム100Aを概略的に示す構成ブロック図である。このビデオ会議システム100Aは、上述の実施形態1に係るビデオ会議システム100にビデオ会議を動作させる機能を有するビデオ会議サーバ9が追加された構成になっている。また、このビデオ会議分析システム1Aに含まれるWEB/APPサーバ2Aが、実施形態1のWEB/APPサーバ2のようにビデオ会議を動作させるのではなく、ビデオ会議を分析するプログラムをAPIとして提供するようになっている。それ以外は、実施形態1に係るビデオ会議システム100とほぼ同様の構成となっている。
【0163】
このビデオ会議分析システム1Aでは、ビデオ会議サーバ9がインターネット8を介して会議参加者のクライアント端末7に接続され、ビデオ会議が動作するようになっている。会議参加者の発言や画像や音声を分析して感情レベルやハラスメントレベルを推定するときに、ビデオ会議サーバ9が、WEB/APPサーバ2Aの提供するビデオ会議分析APIを利用して、分析結果を取得するようになっている。
【0164】
<WEB/APPサーバ>
WEB/APPサーバ2Aは、参加者の画像や音声を分析して感情レベルやハラスメントレベルを推定するビデオ会議分析プログラムをビデオ会議分析APIの形式で提供する。
【0165】
図15に示す概略ブロック図のようにWEB/APPサーバ2Aは、ビデオ会議分析API提供部27を有しており、それ以外は、実施形態1に係るWEB/APPサーバ2とほぼ同様の構成である(図2参照)。
【0166】
図16には、ビデオ会議分析API提供部27から提供されるビデオ会議分析APIの仕様の例が示されている。このビデオ会議分析APIへの入力である引数は、分析内容の設定、参加者の音声データ、参加者の画像データ、参加者がキーボード等から入力した文字データなどである。また、このビデオ会議分析APIからの出力である戻り値は、音声変換後の文字、翻訳文、感情レベル、感情分析の詳細、ハラスメントレベル、ハラスメント分析の詳細などである。ここで、感情分析の詳細とは、図11に示すような感情を構成する「喜び」、「悲しみ」などの各項目の割合のことである。ハラスメント分析の詳細も同様に、ハラスメントを構成する各項目の割合のことである。
【0167】
図16に示すビデオ会議分析APIの引数である分析内容の設定によって、12パターンの分析内容を選択できるようになっている。
【0168】
設定(1)では、音声データが文字に変換される(P1処理)。この設定では、ビデオ会議分析APIの引数として入力される音声データが、WEB/APPサーバ2Aの画像音声受付部25に受け付けられて(画像音声受付処理)、このサーバ2AのWEB/APPサーバ制御部20が、受け付けた音声データを音声文字変換サーバ3に送信する。音声文字変換サーバ3の音声文字変換部31では、受け付けた音声データを文字に変換する処理(音声文字変換処理)が行われる。このように音声データから変換された文字データは、音声文字変換サーバ3からWEB/APPサーバ2Aに送信され、そのサーバ2Aに受け付けられる。
【0169】
設定(2)では、文字文章が分析され感情レベルやハラスメントレベルが推定される(P2処理)。この設定では、ビデオ会議分析APIの引数として入力される文字データが、WEB/APPサーバ2Aの通信部28等に受け付けられ、WEB/APPサーバ制御部20が、受け付けた文字データを文字文章分析サーバ4に送信する。文字文章分析サーバ4の文字文章分析部41では、受け付けた文字データで構成される文字文章を分析し感情レベルやハラスメントレベルを推定して文字文章の分析結果を求める(文字文章分析処理)。このようにして求められた文字文章の分析結果は、音声文字変換サーバ3からWEB/APPサーバ2Aに送信され、そのサーバ2Aに受け付けられる。
【0170】
設定(3)では、原文が翻訳され翻訳文が求められる(P3処理)。この設定では、ビデオ会議分析APIの引数として入力される文字データが、WEB/APPサーバ2Aの通信部28等に受け付けられ、WEB/APPサーバ制御部20が、受け付けた文字データを翻訳サーバ5に送信する。翻訳サーバ5の翻訳部51では、受け付けた文字データで構成される原文が翻訳され翻訳文が生成される(翻訳処理)。このようにして求められた翻訳文は、翻訳サーバ5からWEB/APPサーバ2Aに送信され、そのサーバ2Aに受け付けられる。
【0171】
設定(4)では、画像や音声が分析され感情レベルやハラスメントレベルが推定される(P4処理)。この設定では、ビデオ会議分析APIの引数として入力される画像データや音声データが、WEB/APPサーバ2Aの画像音声受付部25に受け付けられ(画像音声受付処理)、WEB/APPサーバ制御部20が、受け付けた画像データや音声データを画像音声分析サーバ6に送信する。画像音声分析サーバ6の画像分析部61では、受け付けた画像データを分析し感情レベルを推定して画像分析結果を求める(画像分析処理)。また、音声分析部64では、受け付けた音声データを分析し感情レベルやハラスメントレベルを推定して音声分析結果を求める(音声分析処理)。このようにして求められた画像分析結果や音声分析結果は、画像音声分析サーバ6からWEB/APPサーバ2Aに送信され、そのサーバ2Aに受け付けられる。
【0172】
設定(5)では、このビデオ会議分析APIの引数として入力される音声データが文字に変換され(音声文字変換処理)、その変換された文字で構成される文字文章が分析され感情レベルなどの分析結果が求められ(文字文章分析処理)、さらに、この文字文章が翻訳され翻訳文が求められる(翻訳処理)(P5処理)。
【0173】
設定(6)では、このAPIの引数として入力される音声データが文字に変換され(音声文字変換処理)、その変換された文字で構成される文字文章が分析され感情レベルなどの分析結果が求められる(文字文章分析処理)(P6処理)。
【0174】
設定(7)では、このAPIの引数として入力される音声データが文字に変換され(音声文字変換処理)、その変換された文字で構成される文字文章が翻訳され翻訳文が求められる(翻訳処理)(P7処理)。
【0175】
設定(8)では、このビデオ会議分析APIの引数として入力される文字データから構成される文字文章が分析され感情レベルなどの分析結果が求められ(文字文章分析処理)、この文字文章が翻訳され翻訳文が求められる(翻訳処理)(P8処理)。
【0176】
設定(9)は、設定(5)と設定(4)の組合せである。このビデオ会議分析APIの引数として入力される音声データが文字に変換され(音声文字変換処理)、その変換された文字で構成される文字文章が分析され感情レベルなどの分析結果が求められる(文字文章分析処理)。さらに、この文字文章が翻訳され翻訳文が求められる(翻訳処理)。そして、さらに、このAPIの引数として入力される画像データを分析し感情レベルを推定して画像分析結果を求め(画像分析処理)、このAPIに入力される音声データを分析し感情レベルやハラスメントレベルを推定して音声分析結果を求める(音声分析処理)。
【0177】
設定(10)は設定(6)と設定(4)の組合せであり、設定(11)は設定(7)と設定(4)の組合せであり、設定(12)は設定(8)と設定(4)の組合せである。
【0178】
<ビデオ会議サーバ>
ビデオ会議サーバ9は、会議参加者の各クライアント端末7から送信されてくる参加者の画像や音声のデータを受け付けて、この画像や音声のデータに基づいてビデオ会議画面や会議の音声を構成して、各クライアント端末7に向けて送信する。このような動作を行うことにより、会議参加者は、各クライアント端末7を介して会議の画面や音声を視聴することができ、ビデオ会議を進行させることができる。このように、このビデオ会議サーバ9は、ビデオ会議を実現する機能を有している。
【0179】
図17に示す概略ブロック図のようにビデオ会議サーバ9は、ビデオ会議サーバ制御部90、画面構成部91、会議設定部92、議事記録部93、画像音声受付部95、画面提供部96、ビデオ会議分析API呼出部97、通信部98、記憶部99を含むように構成されている。
【0180】
ビデオ会議サーバ制御部90は、ビデオ会議サーバ9を構成する各要素の制御などを行うCPU(図示せず)を含むように構成されている。記憶部99は、補助記憶装置(図示せず)やRAM(図示せず)により構成されている。
【0181】
通信部98は、インターネット8に接続されて、このビデオ会議分析システム1Aを構成する各サーバや、各クライアント端末7との間でデータの送受信を行う。
【0182】
画像音声受付部95は、実施形態1に係るWEB/APPサーバ2の画像音声受付部25とほぼ同様の機能を行う。この画像音声受付部95は、ビデオ会議サーバ制御部90の制御に基づいて、会議参加者の各クライアント端末7からインターネット8を介して送信されてくる参加者を撮影した画像や参加者の発言の音声データを受け付ける。
【0183】
画面構成部91は、実施形態1に係るWEB/APPサーバ2の画面構成部21とほぼ同様の機能を行う。この画面構成部91は、ビデオ会議サーバ制御部90の制御に基づいて、各クライアント端末7に表示されるビデオ会議画面などを構成する。
画面提供部96は、実施形態1に係るWEB/APPサーバ2の画面提供部26とほぼ同様の機能を行う。この画面提供部96は、ビデオ会議サーバ制御部90の制御に基づいて、画面構成部91で構成された画面を参加者の各クライアント端末7に向けて送信して提供する。
【0184】
会議設定部92は、実施形態1に係るWEB/APPサーバ2の会議設定部22とほぼ同様の機能を行う。この会議設定部92には、会議に先立って、会議参加者や会議の分析内容などの設定を行う。
【0185】
議事記録部93は、実施形態1に係るWEB/APPサーバ2の議事記録部23とほぼ同様の機能を行う。この議事記録部93は、画像音声受付部95で受け付けた参加者の発言の音声データを記録したり、参加者の音声データを文字に変換した文字データを記録したりする。さらに、参加者の画像や音声データに基づいて分析される分析結果を記録するようにしてもよい。
【0186】
ビデオ会議分析API呼出部97は、参加者の画像データや音声データを分析する際、WEB/APPサーバ2Aから提供されているビデオ会議分析APIを呼び出す。このビデオ会議分析API呼出部97は、ビデオ会議分析APIに、分析内容の設定、参加者の音声データ、参加者の画像データなどの入力を行い、ビデオ会議分析APIから分析結果などを取得する。
【0187】
<本実施の形態2の効果>
本実施の形態2によれば、本実施の形態1とほぼ同様の効果が得られる。
【0188】
本実施の形態2によれば、ビデオ会議参加者の発言の音声データが文字に変換され、その発言の内容を示す文字文章が構成される。また、構成されたこの文字文章に基づいて分析が行われて、感情レベルおよびハラスメントレベルが推定され発言分析結果が求められる。このように、ビデオ会議参加者の発言に基づいて感情レベルおよびハラスメントレベルを分析することができる。
【0189】
また、ビデオ会議分析プログラムをAPIとして提供することができるため、様々なビデオ会議システムでこのAPIを利用することができ、汎用性を持たせることができる。
【0190】
また、本実施の形態2によれば、会議参加者の発言の内容を示す文字文章が、翻訳されるため、使用する言語の異なる参加者同士でも翻訳文を参照することにより円滑な意思の疎通を図ることができる。
【0191】
また、本実施の形態2によれば、会議参加者を撮影した画像データに基づいて感情レベルが推定され画像分析結果が求められる。このため、参加者の発言の内容を示す文字文章と異なるデータを用いて感情レベルを分析することができ、多面的に分析結果を得ることができる。
【0192】
また、本実施の形態2によれば、会議参加者の発言の音声データに基づいて感情レベルおよびハラスメントレベルが推定され音声分析結果が求められる。このため、参加者の発言の内容を示す文字文章と異なり、参加者の音声データそのものを用いて感情レベルおよびハラスメントレベルを分析することができ、多面的に分析結果を得ることができる。
【0193】
[発明のその他の実施の形態]
なお、実施形態1や2に係るビデオ会議分析システム1,1Aは、機能別に複数のサーバを設置した構成になっているが、全ての機能を統合して1台のサーバで実現してもよい。
【0194】
また、「ネットワーク」は、インターネット8に限定されるものでなく、ローカルエリアネットワーク(Local Area Network)やワイドエリアネットワーク(WAN:Wide Area Network)などその他のネットワークで構成するようにしてもよい。
【符号の説明】
【0195】
100,100A…ビデオ会議システム、1…ビデオ会議分析システム、2,2A…WEB/APPサーバ、3…音声文字変換サーバ、4…文字文章分析サーバ、5…翻訳サーバ、6…画像音声分析サーバ、7,7,7,・・・,7,7…クライアント端末、8…インターネット(ネットワーク)、9…ビデオ会議サーバ、20…WEB/APPサーバ制御部(制御部)、21…画面構成部、22…会議設定部、23…議事記録部、24…判定部、25…画像音声受付部、26…画面提供部、27…ビデオ会議分析API提供部、31…音声文字変換部、34…不適切語句記憶部、35…不適切語句検出部、41…文字文章分析部、51…翻訳部、61…画像分析部、64…音声分析部、71…表示部、72…カメラ、73…マイクロホン、74…文字入力部、75…スピーカ、97…ビデオ会議分析API呼出部、200,210…ビデオ会議画面、201…参加者画像、202,206,208…感情レベル表示、205…文字文章表示、207…ハラスメントレベル表示
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17