特許7561101 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ヤフー株式会社の特許一覧

特許7561101情報処理装置、情報処理方法、及び情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-25

(45)【発行日】2024-10-03

(54)【発明の名称】情報処理装置、情報処理方法、及び情報処理プログラム

(51)【国際特許分類】

H04M 3/56 20060101AFI20240926BHJP

G10L 25/51 20130101ALI20240926BHJP

H04N 7/15 20060101ALI20240926BHJP

【ＦＩ】

H04M3/56 Z

G10L25/51

H04N7/15

【請求項の数】 11

(21)【出願番号】P 2021134294

(22)【出願日】2021-08-19

(65)【公開番号】P2023028535

(43)【公開日】2023-03-03

【審査請求日】2023-03-15

(73)【特許権者】

【識別番号】500257300

【氏名又は名称】ＬＩＮＥヤフー株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】舛田恵一

(72)【発明者】

【氏名】山田貴史

(72)【発明者】

【氏名】廣瀬雄規

(72)【発明者】

【氏名】小川知紘

【審査官】石井則之

(56)【参考文献】

【文献】米国特許出願公開第２０２１／００７６００２（ＵＳ，Ａ１）

【文献】特開２０２０－１９０５７９（ＪＰ，Ａ）

【文献】特開２０１９－１６９０９９（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｍ３／５６

Ｇ１０Ｌ２５／５１

Ｈ０４Ｎ７／１５

(57)【特許請求の範囲】

【請求項1】

ウェブ会議における発話音声の特徴と、前記発話音声に対する視聴者側の評価との関係性を事前学習したモデルに対して、進行中のウェブ会議においてリアルタイム情報として共有されるウェブ会議の発話者の前記発話音声の特徴を示す特徴情報を入力することにより得られる前記モデルから出力を、前記発話者の発話音声に対する前記視聴者側の評価の推定結果を示す音声評価値として取得する推定部と、
前記推定部により取得された前記音声評価値に対応する通知内容を決定し、決定した通知内容を含む通知情報を前記進行中のウェブ会議における発話者に通知する通知部と
を備え、
前記モデルにおける前記視聴者側の評価は、ウェブ会議中における前記視聴者側の操作履歴、又は前記視聴者側の映像から取得されるリアクション情報に基づいて設定され、
前記リアクション情報は、音量調整の操作に関する情報を含む
ことを特徴とする情報処理装置。

【請求項2】

前記リアクション情報は、前記視聴者側の映像を解析することにより得られる視聴者の動作に関する情報を含む
ことを特徴とする請求項１に記載の情報処理装置。

【請求項3】

前記モデルにおける前記視聴者側の評価は、前記ウェブ会議の終了後に前記ウェブ会議の参加者に対して前記ウェブ会議の感想を問い合わせるために実施されるアンケートの回答に基づいて設定される
ことを特徴とする請求項１に記載の情報処理装置。

【請求項4】

前記推定部は、
発話者側の映像の特徴と、前記映像に対する視聴者側の評価との関係性を事前学習したモデルに対して、進行中のウェブ会議においてリアルタイム情報として共有される前記発話者側の映像の特徴を示す特徴情報を入力することにより得られる前記モデルから出力を、前記発話者側の映像に対する前記視聴者側の評価の推定結果を示す映像評価値として取得し、
前記通知部は、
前記推定部により取得された前記映像評価値に対応する通知内容を決定し、決定した通知内容を含む通知情報を前記発話者に通知する
ことを特徴とする請求項１～３のいずれか１つに記載の情報処理装置。

【請求項5】

前記発話者側の映像および前記視聴者側の映像に含まれる個人情報をマスキングする加工部
をさらに備えることを特徴とする請求項４に記載の情報処理装置。

【請求項6】

前記通知部は、
前記視聴者側のリアルタイムのリアクションに応じて、前記発話者の振る舞いに対する提案を行うための通知情報を前記発話者に通知する
ことを特徴とする請求項１～５のいずれか１つに記載の情報処理装置。

【請求項7】

ウェブ会議における発話音声の特徴と、前記発話音声に対する視聴者側の評価との関係性を事前学習したモデルに対して、進行中のウェブ会議においてリアルタイム情報として共有されるウェブ会議の発話者の前記発話音声の特徴を示す特徴情報を入力することにより得られる前記モデルから出力を、前記発話者の発話音声に対する前記視聴者側の評価の推定結果を示す音声評価値として取得する推定部と、
前記推定部により取得された前記音声評価値に対応する通知内容を決定し、決定した通知内容を含む通知情報を前記進行中のウェブ会議における発話者に通知する通知部と
を備え、
前記通知部は、
前記ウェブ会議の参加者に対して、参加者がウェブ会議を行う際の通信環境に応じた通知情報をフィードバックする
ことを特徴とする情報処理装置。

【請求項8】

コンピュータが実行する情報処理方法であって、
ウェブ会議における発話音声の特徴と、前記発話音声に対する視聴者側の評価との関係性を事前学習したモデルに対して、進行中のウェブ会議においてリアルタイム情報として共有されるウェブ会議の発話者の前記発話音声の特徴を示す特徴情報を入力することにより得られる前記モデルから出力を、前記発話者の発話音声に対する前記視聴者側の評価の推定結果を示す音声評価値として取得する推定工程と、
前記推定工程により取得された前記音声評価値に対応する通知内容を決定し、決定した通知内容を含む通知情報を前記進行中のウェブ会議における発話者に通知する通知工程と
を含み、
前記モデルにおける前記視聴者側の評価は、ウェブ会議中における前記視聴者側の操作履歴、又は前記視聴者側の映像から取得されるリアクション情報に基づいて設定され、
前記リアクション情報は、音量調整の操作に関する情報を含む
ことを特徴とする情報処理方法。

【請求項9】

コンピュータに、
ウェブ会議における発話音声の特徴と、前記発話音声に対する視聴者側の評価との関係性を事前学習したモデルに対して、進行中のウェブ会議においてリアルタイム情報として共有されるウェブ会議の発話者の前記発話音声の特徴を示す特徴情報を入力することにより得られる前記モデルから出力を、前記発話者の発話音声に対する前記視聴者側の評価の推定結果を示す音声評価値として取得する推定手順と、
前記推定手順により取得された前記音声評価値に対応する通知内容を決定し、決定した通知内容を含む通知情報を前記進行中のウェブ会議における発話者に通知する通知手順と
を実行させ、
前記モデルにおける前記視聴者側の評価は、ウェブ会議中における前記視聴者側の操作履歴、又は前記視聴者側の映像から取得されるリアクション情報に基づいて設定され、
前記リアクション情報は、音量調整の操作に関する情報を含む
ことを特徴とする情報処理プログラム。

【請求項10】

コンピュータが実行する情報処理方法であって、
ウェブ会議における発話音声の特徴と、前記発話音声に対する視聴者側の評価との関係性を事前学習したモデルに対して、進行中のウェブ会議においてリアルタイム情報として共有されるウェブ会議の発話者の前記発話音声の特徴を示す特徴情報を入力することにより得られる前記モデルから出力を、前記発話者の発話音声に対する前記視聴者側の評価の推定結果を示す音声評価値として取得する推定工程と、
前記推定工程により取得された前記音声評価値に対応する通知内容を決定し、決定した通知内容を含む通知情報を前記進行中のウェブ会議における発話者に通知する通知工程と
を含み、
前記通知工程は、
前記ウェブ会議の参加者に対して、参加者がウェブ会議を行う際の通信環境に応じた通知情報をフィードバックする
ことを特徴とする情報処理方法。

【請求項11】

コンピュータに、
ウェブ会議における発話音声の特徴と、前記発話音声に対する視聴者側の評価との関係性を事前学習したモデルに対して、進行中のウェブ会議においてリアルタイム情報として共有されるウェブ会議の発話者の前記発話音声の特徴を示す特徴情報を入力することにより得られる前記モデルから出力を、前記発話者の発話音声に対する前記視聴者側の評価の推定結果を示す音声評価値として取得する推定手順と、
前記推定手順により取得された前記音声評価値に対応する通知内容を決定し、決定した通知内容を含む通知情報を前記進行中のウェブ会議における発話者に通知する通知手順と
を実行させ、
前記通知手順は、
前記ウェブ会議の参加者に対して、参加者がウェブ会議を行う際の通信環境に応じた通知情報をフィードバックする
ことを特徴とする情報処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、情報処理方法、及び情報処理プログラムに関する。

【背景技術】

【0002】

近年、場所を選ばす、様々なシチュエーションで活用できるウェブ会議（「オンライン会議」とも称される。）を導入するユーザが増加しており、円滑なウェブ会議を実現するための技術の提案も行われている。たとえば、ウェブ会議に参加する難聴者などが、異なる拠点の発言者の唇の動きをみてその内容を理解することに鑑み、発言中の参加者の口唇部分の視認性を向上させることが可能なウェブ会議システムが提案されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１９－１１７９９７号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、上述した技術は、ウェブ会議におけるコミュケーションの円滑化を図る上で改善の余地がある。たとえば、上述した技術は、発言者の口唇部分の視認性を向上させるための技術である。このため、上述した技術により、たとえば、ウェブ会議における発話者に対して、ウェブ会議での発言内容についての他の参加者の理解度に応じたフィードバックを行うなどの対応を行うことは難しい。

【0005】

本願は、上記に鑑みてなされたものであって、ウェブ会議におけるコミュニケーションの円滑化を図ることができる情報処理装置、情報処理方法、及び情報処理プログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

本願に係る情報処理装置は、推定部と、通知部とを備える。推定部は、ウェブ会議における発話音声の特徴と、発話音声に対する視聴者側の評価との関係性を事前学習したモデルを用いて、新たな発話に対する視聴者側の評価を推定する。通知部は、推定部により推定された新たな発話に対する視聴者側の評価に応じた情報を発話者に通知する。

【発明の効果】

【0007】

実施形態の態様の１つによれば、ウェブ会議におけるコミュニケーションの円滑化を図ることができる。

【図面の簡単な説明】

【0008】

【図1】図１は、実施形態に係る情報処理システムの一例を説明する図である。

【図2】図２は、実施形態に係る情報処理の概要を説明するための図である。

【図3】図３は、実施形態に係る情報処理装置の構成例を示す図である。

【図4】図４は、実施形態に係るユーザ情報ＤＢに記憶されているユーザ情報の概要を概念的に示す図である。

【図5】図５は、実施形態に係る通知情報ＤＢに記憶される各種情報の概要を概念的に示す図である。

【図6】図６は、実施形態に係る情報処理装置による処理手順の一例を示すフローチャートである。

【図7】図７は、実施形態に係る情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

【発明を実施するための形態】

【0009】

以下に、本願に係る情報処理装置、情報処理方法、及び情報処理プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、以下に説明する実施形態により本願に係る情報処理装置、情報処理方法、及び情報処理プログラムが限定されるものではない。また、以下に説明する実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下に説明する実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

【0010】

以下の実施形態では、情報処理装置１００が、たとえば、ネットワークを介して接続された複数の端末装置１０間で臨場感のある通信を可能とするウェブ会議サービスを提供する場合の情報処理の一例について説明する。なお、以下に説明する情報処理は、ウェブ会議システムを提供する場合に限られず、音声および映像を共有して複数のユーザ間でコミュケーションを行う任意のコミュケーションツールに適用できる。また、以下の説明では、端末装置１０をサービス利用者Ｕと表記して説明する場合がある。すなわち、サービス利用者Ｕを端末装置１０と読み替えることができる。

【0011】

［１．情報処理システム］
図１は、実施形態に係る情報処理システムの一例を説明する図である。図１に示すように、実施形態に係る情報処理システムＳＹＳは、端末装置１０ａや端末装置１０ｂや端末装置１０ｃなどの複数の端末装置１０、及び情報処理装置１００を有する。なお、情報処理システムＳＹＳは、図１に示す例に限られず、複数の情報処理装置１００を有していてもよい。

【0012】

端末装置１０、及び情報処理装置１００は、それぞれ有線又は無線によりネットワークＮに接続される。ネットワークＮは、ＬＡＮ（Local Area Network）や、ＷＡＮ（Wide Area Network）や、電話網（携帯電話網、固定電話網等）や、地域ＩＰ（Internet Protocol）網や、インターネットなどの通信ネットワークである。ネットワークＮは、有線ネットワークが含まれていてもよいし、無線ネットワークが含まれていてもよい。端末装置１０、及び情報処理装置１００は、ネットワークＮを通じて、相互に通信できる。

【0013】

端末装置１０は、ウェブ会議サービスを利用するサービス利用者Ｕが使用する情報処理装置である。端末装置１０は、スマートフォンや、タブレット型端末や、ノート型ＰＣ（Personal Computer）や、デスクトップＰＣや、ＰＤＡ（Personal Digital Assistant）などにより実現される。

【0014】

端末装置１０は、ウェブ会議サービスを利用するための情報を、ウェブブラウザやアプリケーションにより表示できる。なお、端末装置１０は、情報の表示処理を実現する制御情報を情報処理装置１００などから受け取った場合には、制御情報に従って表示処理を実現する。

【0015】

情報処理装置１００は、ウェブ会議サービスにおいて、実施形態に係る情報処理を実行する情報処理装置である。情報処理装置１００は、典型的にはサーバ装置である。情報処理装置１００がサーバ装置で実現される場合、単独のサーバにより実現されてもよいし、複数のサーバ装置及び複数のストレージ装置が協働して動作するクラウドシステムなどにより実現されてもよい。なお、情報処理装置１００は、サービス利用者Ｕが使用する端末装置１０に制御情報を配信する配信装置として機能してもよい。ここで、制御情報は、例えば、ＪａｖａＳｃｒｉｐｔ（登録商標）等のスクリプト言語やＣＳＳ（Cascading Style Sheets）などのスタイルシート言語により記述される。なお、情報処理装置１００から配信されるアプリケーションそのものを制御情報とみなしてもよい。

【0016】

［２．情報処理］
以下、情報処理装置１００が実行する処理の一例を説明する。なお、情報処理装置１００は、以下に説明する例に限られず、任意の数の端末装置１０について、以下に説明する情報処理を並列して実行できる。

【0017】

図１に示す情報処理装置１００は、サービス利用者Ｕからの要求に応じて、サービス利用者Ｕに対してウェブ会議サービスを提供するための各種処理を実行する。たとえば、情報処理装置１００は、ネットワークＮを通じて接続された複数の端末装置１０ａ～１０ｃなどから送信される音声や映像などのリアルタイム情報を端末装置１０間で共有可能に制御する。

【0018】

たとえば、情報処理装置１００は、サービス利用者Ｕによる発話音声が各端末装置１０間で共有されるように制御する。具体的には、端末装置１０ａを使用するサービス利用者Ｕａや、端末装置１０ｂを使用するサービス利用者Ｕｂや、端末装置１０ｃを使用するサービス利用者Ｕｃなどがウェブ会議に参加する場合、各サービス利用者Ｕがウェブ会議における発話者または視聴者となり得る。たとえば、情報処理装置１００は、サービス利用者Ｕａが発話者である場合、端末装置１０ａから受信したサービス利用者Ｕａの発話音声を、視聴者であるサービス利用者Ｕｂが使用する端末装置１０ｂや、視聴者であるサービス利用者Ｕｃが使用する端末装置１０ｃなどへと転送する。同様に、サービス利用者Ｕｂが発話者である場合、情報処理装置１００は、端末装置１０ｂから受信したサービス利用者Ｕｂの発話音声を、視聴者であるサービス利用者Ｕａが使用する端末装置１０ａや、視聴者であるサービス利用者Ｕｃが使用する端末装置１０ｃなどへと転送する。同様に、サービス利用者Ｕｃが発話者である場合、情報処理装置１００は、端末装置１０ｃから受信したサービス利用者Ｕｃの発話音声を、視聴者であるサービス利用者Ｕａが使用する端末装置１０ａや、視聴者であるサービス利用者Ｕｂが使用する端末装置１０ｂなどへと転送する。

【0019】

また、情報処理装置１００は、サービス利用者Ｕの映像が端末装置１０間で共有されるように制御する。たとえば、情報処理装置１００は、端末装置１０ａから受信したサービス利用者Ｕａ側の映像が、端末装置１０ｂが備えるディスプレイ１１ｂや、端末装置１０ｃが備えるディスプレイ１１ｃなどに映し出されるように、端末装置１０ａの映像を端末装置１０ｂや端末装置１０ｃなどへと転送する。同様に、情報処理装置１００は、端末装置１０ｂから受信したサービス利用者Ｕｂ側の映像が、端末装置１０ａが備えるディスプレイ１１ａや、端末装置１０ｃが備えるディスプレイ１１ｃなどに映し出されるように、端末装置１０ｂの映像を端末装置１０ａや端末装置１０ｃなどへと転送する。同様に、情報処理装置１００は、端末装置１０ｃから受信したサービス利用者Ｕｃ側の映像が、端末装置１０ａが備えるディスプレイ１１ａや、端末装置１０ｂが備えるディスプレイ１１ｂなどに映し出されるように、端末装置１０ｃの映像を端末装置１０ａや端末装置１０ｂなどへと転送する。

【0020】

なお、情報処理装置１００が提供するウェブ会議システムは、サービス利用者Ｕの用途に応じてクラウド型やオンプレミス型などの任意の接続形態を採用できる。また、情報処理装置１００が提供するウェブ会議システムは、ポート制やライセンス制などの任意のライセンス体系を採用できる。また、情報処理装置１００は、ウェブ会議システムにおけるセキュリティを確保するため、接続の暗号化やＩＰアドレス指定による接続制限などの必要な処理を実行できる。

【0021】

また、情報処理装置１００は、以下に説明するように、サービス利用者Ｕに対して提供するウェブ会議サービスにおいて、ウェブ会議におけるコミュニケーションを円滑化するための情報処理を実行する。

【0022】

図１に示すように、まず、情報処理装置１００は、端末装置１０から発話音声を受信すると、音声評価モデルを用いて、ウェブ会議における新たな発話に対する視聴者側の評価を推定する（ステップＳ１）。

【0023】

次に、情報処理装置１００は、端末装置１０から映像を受信すると、映像評価モデルを用いて、ウェブ会議における発話者側の映像に対する視聴者側の評価を推定する（ステップＳ２）。

【0024】

そして、情報処理装置１００は、新たな発話または発話者側の映像に対する視聴者側の評価に応じた情報を発話者に通知する（ステップＳ３）。

【0025】

音声評価モデルは、ウェブ会議における発話音声の特徴と、発話音声に対する視聴者側の評価との関係性を事前学習した学習済みモデルである。音声評価モデルは、ニューラルネットワークなどを学習させる任意の機械学習の手法を用いて生成される。たとえば、発話音声の特徴を示す特徴情報Ａと、発話音声に対する視聴者側の評価を示す評価情報Ａとの組を学習用データＡ（正解データ）としてモデルに学習させる。すなわち、発話音声の特徴を示す特徴情報Ａを入力した際に、発話音声に対する視聴者側の評価を示す評価情報Ａ、もしくは評価情報Ａに対応する情報を出力するように、バックプロパゲーションなどの技術を用いてモデルの学習を行う。

【0026】

たとえば、情報処理装置１００は、ウェブ会議の録画データやウェブ会議における参加者の操作履歴などから学習用データを取得できる。また、情報処理装置１００は、音声評価モデルを学習するための学習用データを構成する発話音声の特徴情報として、発話音声から抽出可能な振幅スペクトルや、ピッチや、モーラ数や、ポーズ比など任意の音響特徴量を利用できる。具体的には、情報処理装置１００は、発話音声のノイズを除去した後に音声区間を検出する。音声区間の検出には、音素セグメンテーションなどの任意のアルゴリズムを用いることができる。そして、情報処理装置１００は、検出した音声区間における発話音声の長さと無音区間の長さの比をポーズ比として算出できる。また、情報処理装置１００は、母音のあるフレームを特定し、特定したフレームに含まれる発話の文字数を発話音声の長さ（時間）で除算することにより得られる１秒間あたりの文字数をモーラ数として取得できる。また、情報処理装置１００は、母音のあるフレームごとにケプストラム分析を行うことにより、振幅スペクトルおよびピッチを取得できる。

【0027】

また、音声評価モデルを学習するための学習用データを構成する発話音声に対する視聴者側の評価は、発話音声を聞き取れたか否かを定量的に評価するための情報や、発話音声を理解できたか否かを定量的に評価するための情報であってよい。たとえば、音声評価モデルを学習するための学習用データを構成する発話音声に対する視聴者側の評価は、ウェブ会議中における視聴者側のリアクション情報に基づいて設定できる。リアクション情報は、たとえば、ウェブ会議における参加者の操作履歴から取得できる。

【0028】

上述のリアクション情報として、視聴者側の音量調整の操作に関する情報が例示される。具体的には、発話音声の視聴中に視聴者側で音量を上げる操作が行われた場合、発話音声の聞き取りに難がある（発話音声が聞き取りにくい）ものと判断し、該当の発話音声に対応付ける視聴者側の評価を下げることが想定される。一方、発話音声の視聴中に視聴者側で音量を上げる操作が行われなかった場合、発話音声の聞き取りに難がないものと判断し、該当の発話音声に対応付ける視聴者側の評価を上げることが想定される。

【0029】

また、たとえば、リアクション情報として、視聴者側の映像を解析することにより得られる視聴者の動作に関する情報が例示される。具体的には、発話音声の視聴中に行われた視聴者の相槌の回数が所定の基準を満たす場合、発話音声の聞き取りに難がない（発話音声が聞き取れる）ものと判断し、該当の発話音声に対応付ける視聴者側の評価を上げることが想定される。

【0030】

また、音声評価モデルを学習するための学習用データを構成する発話音声に対する視聴者側の評価は、発話音声に対する視聴者側の感想を示すフィードバック情報に基づいて設定されてもよい。たとえば、情報処理装置１００は、ウェブ会議の終了後、ウェブ会議の参加者に対してウェブ会議の感想を問い合わせるためのアンケートを実施し、収集されるアンケートの回答に基づいて、発話音声に対する視聴者側の評価を設定できる。具体的には、発話音声が聞き取りやすかったことや、ウェブ会議の内容がよく理解できたことなど、発話音声に対する肯定的な回答に基づいて、該当の発話音声に対する視聴者側の評価を上げることが想定される。一方、発話音声が聞き取りづらかったなど、発話音声に対する否定的な回答に基づいて、該当の発話音声に対する視聴者側の評価を下げることが想定される。

【0031】

このようにして準備した学習用データに基づいてモデルを事前学習した音声評価モデルは、発話音声に対する視聴者側の評価が、聞き取りやすい、あるいは理解しやすいなどの好意的なものであるか否かを示す音声評価値（たとえば、図２参照）を出力できる。

【0032】

映像評価モデルは、発話者側の映像の特徴と、映像に対する視聴者側の評価との関係性を事前学習した学習済みモデルである。映像評価モデルは、ニューラルネットワークなどを学習させる任意の機械学習の手法を用いて生成される。たとえば、発話者側の映像の特徴を示す特徴情報Ｂと、発話者側の映像に対する視聴者側の評価を示す評価情報Ｂとの組を学習用データＢ（正解データ）としてモデルに学習させる。すなわち、発話者側の映像の特徴を示す特徴情報Ｂを入力した際に、発話者側の映像に対する視聴者側の評価を示す評価情報Ｂ、もしくは評価情報Ｂと対応する情報を出力するように、バックプロパゲーションなどの技術を用いてモデルの学習を行う。

【0033】

たとえば、情報処理装置１００は、映像評価モデルを学習するための学習用データを構成する発話者側の映像の特徴情報として、発話者側の映像から抽出可能な発話者の顔の向きや、視線方向や、表情や、発話者側の映像の明るさなどを利用できる。また、情報処理装置１００は、映像評価モデルを学習するための学習用データを構成する発話者側の映像に対する視聴者側の評価を、発話音声に対する視聴者側の感想を示すフィードバック情報に基づいて設定してもよい。

【0034】

このようにして準備した学習用データに基づいてモデルを事前学習した映像評価モデルは、発話者側の映像に対する視聴者側の評価が、見やすいか、あるいは印象が良いなどの好意的なものであるか否かを推定するための評価値を出力できる。なお、映像評価モデルは、発話者の顔の向きや、視線方向や、表情や、発話者側の映像の明るさなどの評価対象ごとに準備した学習用データを用いて機械学習を行い、評価対象ごとに生成できる。

【0035】

以下、実施形態に係る情報処理装置１００による情報処理について具体的に説明する。図２は、実施形態に係る情報処理装置１００による情報処理の概要を示す図である。

【0036】

情報処理装置１００は、上述のように生成された音声評価モデルを用いて、新たな発話に対する視聴者側の評価を推定する。具体的には、図２に示すように、情報処理装置１００は、ウェブ会議の発話者であるサービス利用者Ｕａの発話音声を端末装置１０ａから受信すると、受信した発話音声を解析し、発話音声の特徴を示す特徴情報を取得する。たとえば、情報処理装置１００は、発話音声から抽出可能な振幅スペクトルや、ピッチや、モーラ数や、ポーズ比など任意の音響特徴量を特徴情報として取得できる。

【0037】

また、情報処理装置１００は、取得した特徴情報を音声評価モデルに入力することにより得られる音声評価モデルからの出力を、ウェブ会議において発生した新たな発話に対する視聴者側の評価の推定結果を示す音声評価値＃１として取得する。

【0038】

そして、情報処理装置１００は、通知情報ＤＢを参照して、音声評価値＃１に対応する通知情報＃１を取得し、取得した通知情報＃１を端末装置１０ａに送信することにより、発話者であるサービス利用者Ｕａにフィードバックする。たとえば、情報処理装置１００は、音声評価値＃１が閾値未満である場合、声量を上げたり、話すスピードを抑えたりすることなどを提案する通知情報＃１をサービス利用者Ｕａにフィードバックできる。

【0039】

また、情報処理装置１００は、上述のように生成された映像評価モデルを用いて、発話者側の映像に対する視聴者側の評価を推定する。具体的には、図２に示すように、情報処理装置１００は、ウェブ会議の発話者であるサービス利用者Ｕａの映像を端末装置１０ａから受信すると、受信した映像を解析し、発話者の映像の特徴を示す特徴情報を取得する。続いて、情報処理装置１００は、取得した特徴情報を映像評価モデルに入力することにより得られる映像評価モデルからの出力を、ウェブ会議における発話者の映像に対する視聴者側の評価の推定結果を示す映像評価値＃２として取得する。

【0040】

そして、情報処理装置１００は、通知情報ＤＢを参照して、映像評価値＃２に対応する通知情報＃２を取得し、取得した通知情報＃２を端末装置１０ａに送信することにより、発話者であるサービス利用者Ｕａにフィードバックする。たとえば、情報処理装置１００は、映像評価値＃２が閾値未満である場合、目線をカメラの方向に向けたり、画面を明るくしたりすることなどを提案する通知情報＃２をサービス利用者Ｕａにフィードバックできる。なお、情報処理装置１００は、発話に対する視聴者側の評価に応じた情報や、発話者側の映像に対する視聴者側の評価に応じた情報を同時にフィードバックしてもよい。

【0041】

上述してきたように、実施形態に係る情報処理装置１００は、発話音声に対する視聴者側の評価を推定し、推定された視聴者側の評価に応じた情報をリアルタイムに発話者に通知できる。また、実施形態に係る情報処理装置１００は、発話者側の映像に対する視聴者側の評価を推定し、推定された視聴者側の評価に応じた情報をリアルタイムに発話者に通知できる。これにより、実施形態に係る情報処理装置１００は、発話者に対し、ウェブ会議における自らの振る舞いなどを見直す機会を与えることができ、ウェブ会議におけるコミュニケーションの円滑化を図ることができる。

【0042】

また、情報処理装置１００は、発話者側の映像および視聴者側の映像に含まれる個人情報をマスキングしてもよい。個人情報は、氏名や、家族構成や、住所などの任意の情報が含まれる。たとえば、情報処理装置１００は、端末装置１０から受信する映像を解析し、映像内に個人情報が含まれる場合、個人情報に対応する領域をマスキングする。これにより、ウェブ会議において個人情報が意図せず漏洩することを防止できる。

【0043】

また、情報処理装置１００は、ウェブ会議中、視聴者側の情報を収集し、視聴者側のリアルタイムのリアクションに応じた情報を発話者に通知してもよい。たとえば、情報処理装置１００は、ウェブ会議においてサービス利用者Ｕのいずれかが発話中、音量を下げる操作を行った他の参加者（視聴者）が所定の人数以上である場合、発話者であるサービス利用者Ｕに対して、マイクから離れたり、声を小さくしたり、顔を上げたりするように提案する通知情報をフィードバックできる。これにより、情報処理装置１００は、視聴者側の反応に応じて、即時かつ柔軟に、発話者に対して、ウェブ会議における自らの振る舞いを見直す機会を与えることができる。

【0044】

［２．情報処理装置の構成］
図３を用いて、実施形態に係る情報処理装置１００の構成について説明する。図３は、実施形態に係る情報処理装置の構成例を示す図である。

【0045】

図３に示すように、情報処理装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを備える。なお、図３は、情報処理装置１００の構成例を示すものであり、図３に示す形態には限られず、図３に示す以外の他の機能部を備える形態であってもよい。

【0046】

（通信部１１０）
通信部１１０は、例えば、ネットワークＮと有線または無線で接続され、ネットワークＮを介して、端末装置１０などの他の装置との間で情報の送受信を行う。通信部１１０は、例えば、ＮＩＣ（Network Interface Card）やアンテナなどによって実現される。ネットワークＮは、ＬＡＮ（Local Area Network）や、ＷＡＮ（Wide Area Network）や、電話網（携帯電話網や固定電話網など）や、地域ＩＰ（Internet Protocol）網や、インターネットなどの通信ネットワークである。ネットワークＮには、有線ネットワークが含まれていてもよいし、無線ネットワークが含まれていてもよい。

【0047】

通信部１１０は、端末装置１０から、ウェブ会議に参加するサービス利用者Ｕの発話音声や映像などの情報を受信する。また、通信部１１０は、サービス利用者Ｕに対する通知情報を端末装置１０に送信する。

【0048】

（記憶部１２０）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリなどの半導体メモリ素子、または、ハードディスクや光ディスクなどの記憶装置によって実現される。記憶部１２０は、制御部１３０の各部により実行される情報処理を実現するためのプログラム及びデータを記憶する。

【0049】

図５に示すように、記憶部１２０は、ユーザ情報ＤＢ１２１と、音声評価モデルＤＢ１２２と、映像評価モデルＤＢ１２３と、通知情報ＤＢ１２４とを有する。

【0050】

（ユーザ情報ＤＢ１２１）
ユーザ情報ＤＢ１２１には、ウェブ会議サービスのサービス利用者Ｕに関するユーザ情報が任意の形式で記憶されている。なお、ユーザ情報ＤＢ１２１に記憶されているユーザ情報は、情報処理装置１００とは個別に設けられている外部のストレージサーバなどに登録されていてもよい。図４は、実施形態に係るユーザ情報ＤＢに記憶されているユーザ情報の概要を概念的に示す図である。

【0051】

図６に示すように、ユーザ情報ＤＢ１２１に記憶されているユーザ情報は、「ユーザＩＤ」や、「マシンスペック」や、「通信環境」などの複数の項目を有する。ユーザ情報が有するこれらの項目は互いに関連付けられている。

【0052】

「ユーザＩＤ」の項目には、ウェブ会議サービスを利用する各サービス利用者Ｕを識別するために各サービス利用者Ｕに対して個別に割り振られている識別情報が記憶されている。「マシンスペック」の項目には、各サービス利用者Ｕがウェブ会議に使用する端末装置１０のマシンスペックの情報が記憶されている。マシンスペックの情報には、ＣＰＵや、ストレージや、マイクや、ウェブカメラなどの性能情報が含まれる。「通信環境」の項目には、各サービス利用者Ｕがウェブ会議を利用する際の通信環境の情報が記憶されている。通信環境の情報には、帯域や、ＬＡＮの接続タイプ（有線か無線か）などの情報が含まれる。

【0053】

（音声評価モデルＤＢ１２２）
音声評価モデルＤＢ１２２には、ウェブ会議における発話音声の特徴と、前記発話音声に対する視聴者側の評価との関係性を事前学習した学習済みモデルである音声評価モデルの情報が任意の形式で記憶されている。たとえば、音声評価モデルがニューラルネットワークを学習する場合、音声評価モデルＤＢ１２２は、音声評価モデルの情報として、ネットワークの各層におけるノードと、各ノードが採用する関数と、ノードの接続関係と、ノード間の接続に対して設定される接続係数とを記憶する。なお、音声評価モデルＤＢ１２２は、上述の情報に限られず、目的に応じて種々の情報を記憶してもよい。また、音声評価モデルＤＢ１２２に記憶されている音声評価モデルの情報は、情報処理装置１００とは個別に設けられている外部のストレージサーバなどに登録されていてもよい。

【0054】

（映像評価モデルＤＢ１２３）
映像評価モデルＤＢ１２３には、ウェブ会議における発話者側の映像の特徴と、発話者側の映像に対する視聴者側の評価との関係性を事前学習した学習済みモデルである映像評価モデルの情報が任意の形式で記憶されている。なお、映像評価モデルがニューラルネットワークを学習する場合、映像評価モデルＤＢ１２３は、映像評価モデルの情報として、ネットワークの各層におけるノードと、各ノードが採用する関数と、ノードの接続関係と、ノード間の接続に対して設定される接続係数とを記憶する。なお、映像評価モデルＤＢ１２３は、上述の情報に限られず、目的に応じて種々の情報を記憶してもよい。また、映像評価モデルＤＢ１２３に記憶されている映像評価モデルの情報は、情報処理装置１００とは個別に設けられている外部のストレージサーバなどに登録されていてもよい。

【0055】

（通知情報ＤＢ１２４）
通知情報ＤＢ１２４には、ウェブ会議における発話音声や発話者側の映像に対する視聴者側の評価の推定結果に基づいて、発話者側に通知する通知情報が任意の形式で記憶されている。なお、通知情報ＤＢ１２４に記憶されている通知情報は、情報処理装置１００とは個別に設けられている外部のストレージサーバなどに登録されていてもよい。図５は、実施形態に係る通知情報ＤＢに記憶される各種情報の概要を概念的に示す図である。

【0056】

図５に示すように、通知情報ＤＢ１２４に記憶されている通知情報は、「音声評価値」、「映像評価値」、及び「通知情報」といった複数の項目を有する。通知情報が有するこれらの項目は互いに関連付けられている。

【0057】

「音声評価値」の項目には、音声評価モデルから出力される音声評価値を判定するための条件に関する情報が記憶されている。たとえば、図５に示す例では、音声評価値が「閾値α以上」という条件と、音声評価値が「閾値α未満」という条件が示されている。

【0058】

「映像評価値」の項目には、映像評価モデルから出力される映像評価値を判定するための条件に関する情報が記憶されている。たとえば、図５に示す例では、映像評価値が「閾値β以上」という条件と、映像評価値が「閾値β未満」という条件が示されている。

【0059】

「通知情報」の項目には、「音声評価値」の項目に記憶された各条件に対応付けて各条件の内容に対応する通知情報や、「映像評価値」の項目に記憶された各条件に対応付けて各条件の内容に対応する通知情報が記憶されている。

【0060】

（制御部１３０）
制御部１３０は、情報処理装置１００を制御するコントローラ（controller）である。制御部１３０は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）などによって、情報処理装置１００内部の記憶装置に記憶されている各種プログラム（例えば、情報処理プログラム）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの集積回路により実現されてもよい。

【0061】

図３に示すように、制御部１３０は、推定部１３１と、加工部１３２と、通知部１３３とを有する。制御部１３０は、これらの各部により、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図３に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部１３０が有する各部の接続関係は、図３に示した接続関係に限られず、他の接続関係であってもよい。

【0062】

（推定部１３１）
推定部１３１は、ウェブ会議における発話音声の特徴と、発話音声に対する視聴者側の評価との関係性を事前学習したモデルを用いて、ウェブ会議において発生した新たな発話に対する視聴者側の評価を推定する。たとえば、推定部１３１は、ウェブ会議の発話者であるサービス利用者Ｕの発話音声を端末装置１０から受信すると、受信した発話音声を解析し、発話音声の特徴を示す特徴情報を取得する。次に、推定部１３１は、取得した特徴情報を音声評価モデルに入力することにより得られる音声評価モデルからの出力を、発話音声に対する視聴者側の評価の推定結果を示す音声評価値として取得する。そして、推定部１３１は、音声評価値を通知部１３３に受け渡す。

【0063】

また、推定部１３１は、ウェブ会議における発話者側の映像の特徴と、映像に対する視聴者側の評価との関係性を事前学習したモデルを用いて、発話者側の映像に対する評価を推定する。たとえば、推定部１３１は、ウェブ会議の発話者であるサービス利用者Ｕの映像を端末装置１０から受信すると、受信した映像を解析し、発話者の映像の特徴を示す特徴情報を取得する。次に、推定部１３１は、取得した特徴情報を映像評価モデルに入力することにより得られる映像評価モデルからの出力を、発話者の映像に対する視聴者側の評価の推定結果を示す映像評価値として取得する。そして、推定部１３１は、映像評価値を通知部１３３に受け渡す。

【0064】

（加工部１３２）
加工部１３２は、発話者側の映像および視聴者側の映像に含まれる個人情報をマスキングする。たとえば、加工部１３２は、端末装置１０から受信する映像を解析し、映像内に個人情報が含まれる場合、個人情報に対応する領域を自動的にマスキングする。加工部１３２は、マスキング処理を施した映像を、通信部１１０を介して、ウェブ会議の参加者が使用する端末装置１０にそれぞれ転送する。

【0065】

（通知部１３３）
通知部１３３は、推定部１３１により推定された新たな発話に対する視聴者側の評価に応じた情報を発話者に通知する。たとえば、通知部１３３は、通知情報ＤＢ１２４を参照して、推定部１３１から受け渡された音声評価値対応する通知内容を決定し、決定した通知内容を含む通知情報を端末装置１０に送信することにより、発話者であるサービス利用者Ｕにフィードバックする。

【0066】

また、通知部１３３は、推定部１３１により推定された発話者側の映像に対する視聴者側の評価に応じた情報を発話者に通知する。たとえば、通知部１３３は、通知情報ＤＢ１２４を参照して、推定部１３１から受け渡された映像評価値に対応する通知情報を取得し、取得した通知情報を端末装置１０に送信することにより、発話者であるサービス利用者Ｕａにフィードバックする。

【0067】

［３．処理手順］
以下、図６を用いて、実施形態に係る情報処理装置１００による処理手順について説明する。図６は、実施形態に係る情報処理装置による処理手順の一例を示すフローチャートである。図６に示す処理手順は、情報処理装置１００の制御部１３０により実行される。図６に示す処理手順は、情報処理装置１００の稼働中、繰り返し実行される。

【0068】

図６に示すように、推定部１３１は、音声評価モデルＤＢ１２２に記憶されている音声評価モデルを用いて、新たな発話に対する視聴者側の評価を推定する（ステップＳ１０１）。

【0069】

また、推定部１３１は、映像評価モデルＤＢ１２３に記憶されている映像評価モデルを用いて、新たな映像に対する視聴者側の評価を推定する（ステップＳ１０２）。

【0070】

また、通知部１３３は、推定部１３１により推定された新たな発話または発話者側の映像に対する視聴者側の評価に応じた情報を発話者に通知して（ステップＳ１０３）、図６に示す処理手順を終了する。

【0071】

［４．変形例］
上述した情報処理装置１００は、上述した実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、実施形態の変形例について説明する。

【0072】

（４－１．マシンスペックに応じた通知）
上述の実施形態において、情報処理装置１００は、ウェブ会議の参加者となったサービス利用者Ｕに対して、サービス利用者Ｕがウェブ会議に使用する端末装置１０のマシンスペックに応じた通知情報をフィードバックしてもよい。

【0073】

たとえば、情報処理装置１００は、ユーザ情報ＤＢ１２１を参照し、サービス利用者Ｕがウェブ会議に使用する端末装置１０のマイクの性能がウェブ会議に推奨される性能を有していない場合、ヘッドセットの利用を促す通知情報を通知してもよい。また、たとえば、情報処理装置１００は、ユーザ情報ＤＢ１２１を参照し、ウェブ会議の参加者の中に端末装置１０のストレージの容量が不十分である参加者が存在する場合、ウェブ会議の各参加者に対して背景を無地に変更することを提案する通知情報を通知してもよい。

【0074】

（４－２．通信環境に応じた通知）
また、上述の実施形態において、情報処理装置１００は、ウェブ会議の参加者となったサービス利用者Ｕに対して、サービス利用者Ｕがウェブ会議を行う際の通信環境に応じた通知情報をフィードバックしてもよい。

【0075】

たとえば、情報処理装置１００は、ユーザ情報ＤＢ１２１を参照し、サービス利用者Ｕが無線ＬＡＮを使用してウェブ会議サービスに接続している場合、通信が不安定であることを条件に、有線ＬＡＮへの切換を提案する通知情報を通知してもよい。また、たとえば、情報処理装置１００は、ユーザ情報ＤＢ１２１を参照し、ウェブ会議の参加者の中に通信に用いる帯域が不十分である参加者が存在する場合、ウェブ会議の各参加者に対して発話音声以外の環境音ができるだけ排除することを提案する通知情報を通知してもよい。

【0076】

（４－３．視聴者側の評価の推定結果と視聴者のリアクションについて）
また、上述の実施形態において、情報処理装置１００は、たとえば、音声評価モデルに基づいて、ウェブ会議における新たな通話に対する視聴者側の評価の推定結果と、ウェブ会議の視聴者側のリアルタイムのリアクションとが相反する内容である場合、情報処理装置１００は、視聴者側のリアルタイムのリアクションを優先して、視聴者側のリアルタイムのリアクションに応じた情報を発話者に通知してもよい。

【0077】

また、情報処理装置１００は、ウェブ会議に複数の参加者の間でリアクションの内容が相反する場合、参加者の過半数以上を占めるリアクションに応じた情報を発話者に通知するようにしてもよい。

【0078】

［５．ハードウェア構成］
実施形態に係る情報処理装置１００は、たとえば、図７に示すような構成のコンピュータ１０００によって実現される。図７は、実施形態に係る情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

【0079】

コンピュータ１０００は、出力装置１０１０、入力装置１０２０と接続され、演算装置１０３０、一次記憶装置１０４０、二次記憶装置１０５０、出力ＩＦ（Interface）１０６０、入力ＩＦ１０７０、ネットワークＩＦ１０８０がバス１０９０により接続された形態を有する。

【0080】

演算装置１０３０は、一次記憶装置１０４０や二次記憶装置１０５０に格納されたプログラムや入力装置１０２０から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置１０４０は、ＲＡＭ等、演算装置１０３０が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置１０５０は、演算装置１０３０が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ＲＯＭ(Read Only Memory)、ＨＤＤ、フラッシュメモリ等により実現される。

【0081】

出力ＩＦ１０６０は、モニタやプリンタといった各種の情報を出力する出力装置１０１０に対し、出力対象となる情報を送信するためのインターフェイスであり、例えば、ＵＳＢ（Universal Serial Bus）やＤＶＩ（Digital Visual Interface）、ＨＤＭＩ（登録商標）（High Definition Multimedia Interface）といった規格のコネクタにより実現される。また、入力ＩＦ１０７０は、マウス、キーボード、およびスキャナ等といった各種の入力装置１０２０から情報を受信するためのインターフェイスであり、例えば、ＵＳＢ等により実現される。

【0082】

なお、入力装置１０２０は、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置１０２０は、ＵＳＢメモリ等の外付け記憶媒体であってもよい。

【0083】

ネットワークＩＦ１０８０は、ネットワークＮを介して他の機器からデータを受信して演算装置１０３０へ送り、また、ネットワークＮを介して演算装置１０３０が生成したデータを他の機器へ送信する。

【0084】

演算装置１０３０は、出力ＩＦ１０６０や入力ＩＦ１０７０を介して、出力装置１０１０や入力装置１０２０の制御を行う。例えば、演算装置１０３０は、入力装置１０２０や二次記憶装置１０５０からプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行する。

【0085】

例えば、コンピュータ１０００が情報処理装置１００として機能する場合、コンピュータ１０００の演算装置１０３０は、一次記憶装置１０４０上にロードされたプログラム（たとえば、情報処理プログラム）を実行することにより、制御部１３０と同様の機能を実現する。すなわち、演算装置１０３０は、一次記憶装置１０４０上にロードされたプログラム（たとえば、情報処理プログラム）との協働により、実施形態に係る情報処理装置１００による処理を実現する。

【0086】

［６．その他］
上述した実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

【0087】

上述の実施形態において、情報処理装置１００による情報処理方法（たとえば、図６参照）を実現するために、情報処理装置１００が有する制御部１３０の各部（推定部１３１、加工部１３２、及び通知部１３３）に対応する処理機能は、情報処理装置１００に予めインストールされている提供プログラムに対するアドオンとして実現してもよいし、軽量なプログラミング言語などを用いて、専用の提供プログラムとして柔軟に記述することにより実現されてもよい。

【0088】

また、上述した実施形態において、情報処理装置１００は、サービス利用者Ｕに対してショッピングサイトにおける各種サービスを提供する装置としての処理機能を有していてもよい。この場合、情報処理装置１００は、ショッピングサイトにおける各種サービスの提供に伴ってショッピングサイトにおける各ユーザに関する情報を取得し、記憶部１２０に保存することができる。

【0089】

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。たとえば、制御部１３０の推定部１３１と通知部１３３とは機能的に統合されていてもよい。

【0090】

また、上述の実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

【0091】

［７．効果］
上述の実施形態に係る情報処理装置１００は、推定部１３１と、通知部１３３とを備える。推定部１３１は、ウェブ会議における発話音声の特徴と、発話音声に対する視聴者側の評価との関係性を事前学習したモデルを用いて、新たな発話に対する視聴者側の評価を推定する。通知部１３３は、推定部１３１により推定された新たな発話に対する視聴者側の評価に応じた情報を発話者に通知する。

【0092】

これにより、実施形態に係る情報処理装置１００は、発話者に対して、ウェブ会議における自らの振る舞い（たとえば、発話の状態）を見直す機会を与えることができ、ウェブ会議におけるコミュニケーションの円滑化を図ることができる。

【0093】

また、実施形態に係る情報処理装置１００において、視聴者側の評価は、視聴者側のリアクション情報に基づいて設定される。

【0094】

また、実施形態に係る情報処理装置１００において、リアクション情報は、音量調整の操作に関する情報を含む。

【0095】

リアクション情報は、視聴者側の映像を解析することにより得られる視聴者の動作に関する情報を含む。

【0096】

また、実施形態に係る情報処理装置１００において、視聴者側の評価は、発話音声に対する視聴者側の感想を示すフィードバック情報に基づいて設定される。

【0097】

以上から、実施形態に係る情報処理装置１００は、発話音声に対する視聴者側の評価として、客観的な評価を得ることができる。

【0098】

また、実施形態に係る情報処理装置１００において、推定部１３１は、発話者側の映像の特徴と、映像に対する視聴者側の評価との関係性を事前学習したモデルを用いて、発話者側の映像に対する評価を推定する。通知部１３３は、推定部１３１により推定された発話者側の映像に対する視聴者側の評価に応じた情報を通知する。これにより、発話者に対して、ウェブ会議における自らの振る舞い（たとえば、目線や表情などの見た目の印象）や、画面の明るさなどを見直す機会を与えることができ、ウェブ会議におけるコミュニケーションの円滑化を図ることができる。

【0099】

また、実施形態に係る情報処理装置１００は、発話者側の映像および視聴者側の映像に含まれるプライベート情報をマスキングする加工部をさらに備える。これにより、ウェブ会議において個人情報が意図せず漏洩することを防止できる。

【0100】

また、実施形態に係る情報処理装置１００は、通知部１３３は、視聴者側のリアルタイムのリアクションに応じた情報を通知する。これにより、実施形態に係る情報処理装置１００は、視聴者側の反応に応じて、即時かつ柔軟に、発話者に対して、ウェブ会議における自らの振る舞いなどを見直す機会を与えることができる。

【0101】

以上、本願の実施形態をいくつかの図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

【0102】

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、制御部は、制御手段や制御回路に読み替えることができる。

【符号の説明】

【0103】

１０端末装置
１００情報処理装置
１１０通信部
１２０記憶部
１２１ユーザ情報ＤＢ
１２２音声評価モデルＤＢ
１２３映像評価モデルＤＢ
１２４通知情報ＤＢ
１３０制御部
１３１推定部
１３２加工部
１３３通知部

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

青山学院大学 (神奈川県相模原市中央区淵野辺)

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版