(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-25
(45)【発行日】2024-10-03
(54)【発明の名称】情報処理装置、情報処理方法、及び情報処理プログラム
(51)【国際特許分類】
H04M 3/56 20060101AFI20240926BHJP
G10L 25/51 20130101ALI20240926BHJP
H04N 7/15 20060101ALI20240926BHJP
【FI】
H04M3/56 Z
G10L25/51
H04N7/15
(21)【出願番号】P 2021134294
(22)【出願日】2021-08-19
【審査請求日】2023-03-15
(73)【特許権者】
【識別番号】500257300
【氏名又は名称】LINEヤフー株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】舛田 恵一
(72)【発明者】
【氏名】山田 貴史
(72)【発明者】
【氏名】廣瀬 雄規
(72)【発明者】
【氏名】小川 知紘
【審査官】石井 則之
(56)【参考文献】
【文献】米国特許出願公開第2021/0076002(US,A1)
【文献】特開2020-190579(JP,A)
【文献】特開2019-169099(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04M 3/56
G10L 25/51
H04N 7/15
(57)【特許請求の範囲】
【請求項1】
ウェブ会議における発話音声の特徴と、前記発話音声に対する視聴者側の評価との関係性を事前学習したモデルに対して、進行中のウェブ会議においてリアルタイム情報として共有されるウェブ会議の発話者の前記発話音声の特徴を示す特徴情報を入力することにより得られる前記モデルから出力を、前記発話者の発話音声に対する前記視聴者側の評価の推定結果を示す音声評価値として取得する推定部と、
前記推定部により取得された前記音声評価値に対応する通知内容を決定し、決定した通知内容を含む通知情報を前記進行中のウェブ会議における発話者に通知する通知部と
を備え
、
前記モデルにおける前記視聴者側の評価は、ウェブ会議中における前記視聴者側の操作履歴、又は前記視聴者側の映像から取得されるリアクション情報に基づいて設定され、
前記リアクション情報は、音量調整の操作に関する情報を含む
ことを特徴とする情報処理装置。
【請求項2】
前記リアクション情報は、前記視聴者側の映像を解析することにより得られる視聴者の動作に関する情報を含む
ことを特徴とする請求項
1に記載の情報処理装置。
【請求項3】
前記モデルにおける前記視聴者側の評価は、前記ウェブ会議の終了後に前記ウェブ会議の参加者に対して前記ウェブ会議の感想を問い合わせるために実施されるアンケートの回答に基づいて設定される
ことを特徴とする請求項1に記載の情報処理装置。
【請求項4】
前記推定部は、
発話者側の映像の特徴と、前記映像に対する視聴者側の評価との関係性を事前学習したモデルに対して、進行中のウェブ会議においてリアルタイム情報として共有される前記発話者側の映像の特徴を示す特徴情報を入力することにより得られる前記モデルから出力を、前記発話者側の映像に対する前記視聴者側の評価の推定結果を示す映像評価値として取得し、
前記通知部は、
前記推定部により取得された前記映像評価値に対応する通知内容を決定し、決定した通知内容を含む通知情報を前記発話者に通知する
ことを特徴とする請求項1~
3のいずれか1つに記載の情報処理装置。
【請求項5】
前記発話者側の映像および前記視聴者側の映像に含まれる個人情報をマスキングする加工部
をさらに備えることを特徴とする請求項
4に記載の情報処理装置。
【請求項6】
前記通知部は、
前記視聴者側のリアルタイムのリアクションに応じて、前記発話者の振る舞いに対する提案を行うための通知情報を前記発話者に通知する
ことを特徴とする請求項1~
5のいずれか1つに記載の情報処理装置。
【請求項7】
ウェブ会議における発話音声の特徴と、前記発話音声に対する視聴者側の評価との関係性を事前学習したモデルに対して、進行中のウェブ会議においてリアルタイム情報として共有されるウェブ会議の発話者の前記発話音声の特徴を示す特徴情報を入力することにより得られる前記モデルから出力を、前記発話者の発話音声に対する前記視聴者側の評価の推定結果を示す音声評価値として取得する推定部と、
前記推定部により取得された前記音声評価値に対応する通知内容を決定し、決定した通知内容を含む通知情報を前記進行中のウェブ会議における発話者に通知する通知部と
を備え、
前記通知部は、
前記ウェブ会議の参加者に対して、参加者がウェブ会議を行う際の通信環境に応じた通知情報をフィードバックする
ことを特徴とす
る情報処理装置。
【請求項8】
コンピュータが実行する情報処理方法であって、
ウェブ会議における発話音声の特徴と、前記発話音声に対する視聴者側の評価との関係性を事前学習したモデルに対して、進行中のウェブ会議においてリアルタイム情報として共有されるウェブ会議の発話者の前記発話音声の特徴を示す特徴情報を入力することにより得られる前記モデルから出力を、前記発話者の発話音声に対する前記視聴者側の評価の推定結果を示す音声評価値として取得する推定工程と、
前記推定工程により取得された前記音声評価値に対応する通知内容を決定し、決定した通知内容を含む通知情報を前記進行中のウェブ会議における発話者に通知する通知工程と
を含
み、
前記モデルにおける前記視聴者側の評価は、ウェブ会議中における前記視聴者側の操作履歴、又は前記視聴者側の映像から取得されるリアクション情報に基づいて設定され、
前記リアクション情報は、音量調整の操作に関する情報を含む
ことを特徴とする情報処理方法。
【請求項9】
コンピュータに、
ウェブ会議における発話音声の特徴と、前記発話音声に対する視聴者側の評価との関係性を事前学習したモデルに対して、進行中のウェブ会議においてリアルタイム情報として共有されるウェブ会議の発話者の前記発話音声の特徴を示す特徴情報を入力することにより得られる前記モデルから出力を、前記発話者の発話音声に対する前記視聴者側の評価の推定結果を示す音声評価値として取得する推定手順と、
前記推定手順により取得された前記音声評価値に対応する通知内容を決定し、決定した通知内容を含む通知情報を前記進行中のウェブ会議における発話者に通知する通知手順と
を実行させ
、
前記モデルにおける前記視聴者側の評価は、ウェブ会議中における前記視聴者側の操作履歴、又は前記視聴者側の映像から取得されるリアクション情報に基づいて設定され、
前記リアクション情報は、音量調整の操作に関する情報を含む
ことを特徴とする情報処理プログラム。
【請求項10】
コンピュータが実行する情報処理方法であって、
ウェブ会議における発話音声の特徴と、前記発話音声に対する視聴者側の評価との関係性を事前学習したモデルに対して、進行中のウェブ会議においてリアルタイム情報として共有されるウェブ会議の発話者の前記発話音声の特徴を示す特徴情報を入力することにより得られる前記モデルから出力を、前記発話者の発話音声に対する前記視聴者側の評価の推定結果を示す音声評価値として取得する推定工程と、
前記推定工程により取得された前記音声評価値に対応する通知内容を決定し、決定した通知内容を含む通知情報を前記進行中のウェブ会議における発話者に通知する通知工程と
を含み、
前記通知工程は、
前記ウェブ会議の参加者に対して、参加者がウェブ会議を行う際の通信環境に応じた通知情報をフィードバックする
ことを特徴とする情報処理方法。
【請求項11】
コンピュータに、
ウェブ会議における発話音声の特徴と、前記発話音声に対する視聴者側の評価との関係性を事前学習したモデルに対して、進行中のウェブ会議においてリアルタイム情報として共有されるウェブ会議の発話者の前記発話音声の特徴を示す特徴情報を入力することにより得られる前記モデルから出力を、前記発話者の発話音声に対する前記視聴者側の評価の推定結果を示す音声評価値として取得する推定手順と、
前記推定手順により取得された前記音声評価値に対応する通知内容を決定し、決定した通知内容を含む通知情報を前記進行中のウェブ会議における発話者に通知する通知手順と
を実行させ、
前記通知手順は、
前記ウェブ会議の参加者に対して、参加者がウェブ会議を行う際の通信環境に応じた通知情報をフィードバックする
ことを特徴とする情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、及び情報処理プログラムに関する。
【背景技術】
【0002】
近年、場所を選ばす、様々なシチュエーションで活用できるウェブ会議(「オンライン会議」とも称される。)を導入するユーザが増加しており、円滑なウェブ会議を実現するための技術の提案も行われている。たとえば、ウェブ会議に参加する難聴者などが、異なる拠点の発言者の唇の動きをみてその内容を理解することに鑑み、発言中の参加者の口唇部分の視認性を向上させることが可能なウェブ会議システムが提案されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上述した技術は、ウェブ会議におけるコミュケーションの円滑化を図る上で改善の余地がある。たとえば、上述した技術は、発言者の口唇部分の視認性を向上させるための技術である。このため、上述した技術により、たとえば、ウェブ会議における発話者に対して、ウェブ会議での発言内容についての他の参加者の理解度に応じたフィードバックを行うなどの対応を行うことは難しい。
【0005】
本願は、上記に鑑みてなされたものであって、ウェブ会議におけるコミュニケーションの円滑化を図ることができる情報処理装置、情報処理方法、及び情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本願に係る情報処理装置は、推定部と、通知部とを備える。推定部は、ウェブ会議における発話音声の特徴と、発話音声に対する視聴者側の評価との関係性を事前学習したモデルを用いて、新たな発話に対する視聴者側の評価を推定する。通知部は、推定部により推定された新たな発話に対する視聴者側の評価に応じた情報を発話者に通知する。
【発明の効果】
【0007】
実施形態の態様の1つによれば、ウェブ会議におけるコミュニケーションの円滑化を図ることができる。
【図面の簡単な説明】
【0008】
【
図1】
図1は、実施形態に係る情報処理システムの一例を説明する図である。
【
図2】
図2は、実施形態に係る情報処理の概要を説明するための図である。
【
図3】
図3は、実施形態に係る情報処理装置の構成例を示す図である。
【
図4】
図4は、実施形態に係るユーザ情報DBに記憶されているユーザ情報の概要を概念的に示す図である。
【
図5】
図5は、実施形態に係る通知情報DBに記憶される各種情報の概要を概念的に示す図である。
【
図6】
図6は、実施形態に係る情報処理装置による処理手順の一例を示すフローチャートである。
【
図7】
図7は、実施形態に係る情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【0009】
以下に、本願に係る情報処理装置、情報処理方法、及び情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、以下に説明する実施形態により本願に係る情報処理装置、情報処理方法、及び情報処理プログラムが限定されるものではない。また、以下に説明する実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下に説明する実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0010】
以下の実施形態では、情報処理装置100が、たとえば、ネットワークを介して接続された複数の端末装置10間で臨場感のある通信を可能とするウェブ会議サービスを提供する場合の情報処理の一例について説明する。なお、以下に説明する情報処理は、ウェブ会議システムを提供する場合に限られず、音声および映像を共有して複数のユーザ間でコミュケーションを行う任意のコミュケーションツールに適用できる。また、以下の説明では、端末装置10をサービス利用者Uと表記して説明する場合がある。すなわち、サービス利用者Uを端末装置10と読み替えることができる。
【0011】
[1.情報処理システム]
図1は、実施形態に係る情報処理システムの一例を説明する図である。
図1に示すように、実施形態に係る情報処理システムSYSは、端末装置10aや端末装置10bや端末装置10cなどの複数の端末装置10、及び情報処理装置100を有する。なお、情報処理システムSYSは、
図1に示す例に限られず、複数の情報処理装置100を有していてもよい。
【0012】
端末装置10、及び情報処理装置100は、それぞれ有線又は無線によりネットワークNに接続される。ネットワークNは、LAN(Local Area Network)や、WAN(Wide Area Network)や、電話網(携帯電話網、固定電話網等)や、地域IP(Internet Protocol)網や、インターネットなどの通信ネットワークである。ネットワークNは、有線ネットワークが含まれていてもよいし、無線ネットワークが含まれていてもよい。端末装置10、及び情報処理装置100は、ネットワークNを通じて、相互に通信できる。
【0013】
端末装置10は、ウェブ会議サービスを利用するサービス利用者Uが使用する情報処理装置である。端末装置10は、スマートフォンや、タブレット型端末や、ノート型PC(Personal Computer)や、デスクトップPCや、PDA(Personal Digital Assistant)などにより実現される。
【0014】
端末装置10は、ウェブ会議サービスを利用するための情報を、ウェブブラウザやアプリケーションにより表示できる。なお、端末装置10は、情報の表示処理を実現する制御情報を情報処理装置100などから受け取った場合には、制御情報に従って表示処理を実現する。
【0015】
情報処理装置100は、ウェブ会議サービスにおいて、実施形態に係る情報処理を実行する情報処理装置である。情報処理装置100は、典型的にはサーバ装置である。情報処理装置100がサーバ装置で実現される場合、単独のサーバにより実現されてもよいし、複数のサーバ装置及び複数のストレージ装置が協働して動作するクラウドシステムなどにより実現されてもよい。なお、情報処理装置100は、サービス利用者Uが使用する端末装置10に制御情報を配信する配信装置として機能してもよい。ここで、制御情報は、例えば、JavaScript(登録商標)等のスクリプト言語やCSS(Cascading Style Sheets)などのスタイルシート言語により記述される。なお、情報処理装置100から配信されるアプリケーションそのものを制御情報とみなしてもよい。
【0016】
[2.情報処理]
以下、情報処理装置100が実行する処理の一例を説明する。なお、情報処理装置100は、以下に説明する例に限られず、任意の数の端末装置10について、以下に説明する情報処理を並列して実行できる。
【0017】
図1に示す情報処理装置100は、サービス利用者Uからの要求に応じて、サービス利用者Uに対してウェブ会議サービスを提供するための各種処理を実行する。たとえば、情報処理装置100は、ネットワークNを通じて接続された複数の端末装置10a~10cなどから送信される音声や映像などのリアルタイム情報を端末装置10間で共有可能に制御する。
【0018】
たとえば、情報処理装置100は、サービス利用者Uによる発話音声が各端末装置10間で共有されるように制御する。具体的には、端末装置10aを使用するサービス利用者Uaや、端末装置10bを使用するサービス利用者Ubや、端末装置10cを使用するサービス利用者Ucなどがウェブ会議に参加する場合、各サービス利用者Uがウェブ会議における発話者または視聴者となり得る。たとえば、情報処理装置100は、サービス利用者Uaが発話者である場合、端末装置10aから受信したサービス利用者Uaの発話音声を、視聴者であるサービス利用者Ubが使用する端末装置10bや、視聴者であるサービス利用者Ucが使用する端末装置10cなどへと転送する。同様に、サービス利用者Ubが発話者である場合、情報処理装置100は、端末装置10bから受信したサービス利用者Ubの発話音声を、視聴者であるサービス利用者Uaが使用する端末装置10aや、視聴者であるサービス利用者Ucが使用する端末装置10cなどへと転送する。同様に、サービス利用者Ucが発話者である場合、情報処理装置100は、端末装置10cから受信したサービス利用者Ucの発話音声を、視聴者であるサービス利用者Uaが使用する端末装置10aや、視聴者であるサービス利用者Ubが使用する端末装置10bなどへと転送する。
【0019】
また、情報処理装置100は、サービス利用者Uの映像が端末装置10間で共有されるように制御する。たとえば、情報処理装置100は、端末装置10aから受信したサービス利用者Ua側の映像が、端末装置10bが備えるディスプレイ11bや、端末装置10cが備えるディスプレイ11cなどに映し出されるように、端末装置10aの映像を端末装置10bや端末装置10cなどへと転送する。同様に、情報処理装置100は、端末装置10bから受信したサービス利用者Ub側の映像が、端末装置10aが備えるディスプレイ11aや、端末装置10cが備えるディスプレイ11cなどに映し出されるように、端末装置10bの映像を端末装置10aや端末装置10cなどへと転送する。同様に、情報処理装置100は、端末装置10cから受信したサービス利用者Uc側の映像が、端末装置10aが備えるディスプレイ11aや、端末装置10bが備えるディスプレイ11bなどに映し出されるように、端末装置10cの映像を端末装置10aや端末装置10bなどへと転送する。
【0020】
なお、情報処理装置100が提供するウェブ会議システムは、サービス利用者Uの用途に応じてクラウド型やオンプレミス型などの任意の接続形態を採用できる。また、情報処理装置100が提供するウェブ会議システムは、ポート制やライセンス制などの任意のライセンス体系を採用できる。また、情報処理装置100は、ウェブ会議システムにおけるセキュリティを確保するため、接続の暗号化やIPアドレス指定による接続制限などの必要な処理を実行できる。
【0021】
また、情報処理装置100は、以下に説明するように、サービス利用者Uに対して提供するウェブ会議サービスにおいて、ウェブ会議におけるコミュニケーションを円滑化するための情報処理を実行する。
【0022】
図1に示すように、まず、情報処理装置100は、端末装置10から発話音声を受信すると、音声評価モデルを用いて、ウェブ会議における新たな発話に対する視聴者側の評価を推定する(ステップS1)。
【0023】
次に、情報処理装置100は、端末装置10から映像を受信すると、映像評価モデルを用いて、ウェブ会議における発話者側の映像に対する視聴者側の評価を推定する(ステップS2)。
【0024】
そして、情報処理装置100は、新たな発話または発話者側の映像に対する視聴者側の評価に応じた情報を発話者に通知する(ステップS3)。
【0025】
音声評価モデルは、ウェブ会議における発話音声の特徴と、発話音声に対する視聴者側の評価との関係性を事前学習した学習済みモデルである。音声評価モデルは、ニューラルネットワークなどを学習させる任意の機械学習の手法を用いて生成される。たとえば、発話音声の特徴を示す特徴情報Aと、発話音声に対する視聴者側の評価を示す評価情報Aとの組を学習用データA(正解データ)としてモデルに学習させる。すなわち、発話音声の特徴を示す特徴情報Aを入力した際に、発話音声に対する視聴者側の評価を示す評価情報A、もしくは評価情報Aに対応する情報を出力するように、バックプロパゲーションなどの技術を用いてモデルの学習を行う。
【0026】
たとえば、情報処理装置100は、ウェブ会議の録画データやウェブ会議における参加者の操作履歴などから学習用データを取得できる。また、情報処理装置100は、音声評価モデルを学習するための学習用データを構成する発話音声の特徴情報として、発話音声から抽出可能な振幅スペクトルや、ピッチや、モーラ数や、ポーズ比など任意の音響特徴量を利用できる。具体的には、情報処理装置100は、発話音声のノイズを除去した後に音声区間を検出する。音声区間の検出には、音素セグメンテーションなどの任意のアルゴリズムを用いることができる。そして、情報処理装置100は、検出した音声区間における発話音声の長さと無音区間の長さの比をポーズ比として算出できる。また、情報処理装置100は、母音のあるフレームを特定し、特定したフレームに含まれる発話の文字数を発話音声の長さ(時間)で除算することにより得られる1秒間あたりの文字数をモーラ数として取得できる。また、情報処理装置100は、母音のあるフレームごとにケプストラム分析を行うことにより、振幅スペクトルおよびピッチを取得できる。
【0027】
また、音声評価モデルを学習するための学習用データを構成する発話音声に対する視聴者側の評価は、発話音声を聞き取れたか否かを定量的に評価するための情報や、発話音声を理解できたか否かを定量的に評価するための情報であってよい。たとえば、音声評価モデルを学習するための学習用データを構成する発話音声に対する視聴者側の評価は、ウェブ会議中における視聴者側のリアクション情報に基づいて設定できる。リアクション情報は、たとえば、ウェブ会議における参加者の操作履歴から取得できる。
【0028】
上述のリアクション情報として、視聴者側の音量調整の操作に関する情報が例示される。具体的には、発話音声の視聴中に視聴者側で音量を上げる操作が行われた場合、発話音声の聞き取りに難がある(発話音声が聞き取りにくい)ものと判断し、該当の発話音声に対応付ける視聴者側の評価を下げることが想定される。一方、発話音声の視聴中に視聴者側で音量を上げる操作が行われなかった場合、発話音声の聞き取りに難がないものと判断し、該当の発話音声に対応付ける視聴者側の評価を上げることが想定される。
【0029】
また、たとえば、リアクション情報として、視聴者側の映像を解析することにより得られる視聴者の動作に関する情報が例示される。具体的には、発話音声の視聴中に行われた視聴者の相槌の回数が所定の基準を満たす場合、発話音声の聞き取りに難がない(発話音声が聞き取れる)ものと判断し、該当の発話音声に対応付ける視聴者側の評価を上げることが想定される。
【0030】
また、音声評価モデルを学習するための学習用データを構成する発話音声に対する視聴者側の評価は、発話音声に対する視聴者側の感想を示すフィードバック情報に基づいて設定されてもよい。たとえば、情報処理装置100は、ウェブ会議の終了後、ウェブ会議の参加者に対してウェブ会議の感想を問い合わせるためのアンケートを実施し、収集されるアンケートの回答に基づいて、発話音声に対する視聴者側の評価を設定できる。具体的には、発話音声が聞き取りやすかったことや、ウェブ会議の内容がよく理解できたことなど、発話音声に対する肯定的な回答に基づいて、該当の発話音声に対する視聴者側の評価を上げることが想定される。一方、発話音声が聞き取りづらかったなど、発話音声に対する否定的な回答に基づいて、該当の発話音声に対する視聴者側の評価を下げることが想定される。
【0031】
このようにして準備した学習用データに基づいてモデルを事前学習した音声評価モデルは、発話音声に対する視聴者側の評価が、聞き取りやすい、あるいは理解しやすいなどの好意的なものであるか否かを示す音声評価値(たとえば、
図2参照)を出力できる。
【0032】
映像評価モデルは、発話者側の映像の特徴と、映像に対する視聴者側の評価との関係性を事前学習した学習済みモデルである。映像評価モデルは、ニューラルネットワークなどを学習させる任意の機械学習の手法を用いて生成される。たとえば、発話者側の映像の特徴を示す特徴情報Bと、発話者側の映像に対する視聴者側の評価を示す評価情報Bとの組を学習用データB(正解データ)としてモデルに学習させる。すなわち、発話者側の映像の特徴を示す特徴情報Bを入力した際に、発話者側の映像に対する視聴者側の評価を示す評価情報B、もしくは評価情報Bと対応する情報を出力するように、バックプロパゲーションなどの技術を用いてモデルの学習を行う。
【0033】
たとえば、情報処理装置100は、映像評価モデルを学習するための学習用データを構成する発話者側の映像の特徴情報として、発話者側の映像から抽出可能な発話者の顔の向きや、視線方向や、表情や、発話者側の映像の明るさなどを利用できる。また、情報処理装置100は、映像評価モデルを学習するための学習用データを構成する発話者側の映像に対する視聴者側の評価を、発話音声に対する視聴者側の感想を示すフィードバック情報に基づいて設定してもよい。
【0034】
このようにして準備した学習用データに基づいてモデルを事前学習した映像評価モデルは、発話者側の映像に対する視聴者側の評価が、見やすいか、あるいは印象が良いなどの好意的なものであるか否かを推定するための評価値を出力できる。なお、映像評価モデルは、発話者の顔の向きや、視線方向や、表情や、発話者側の映像の明るさなどの評価対象ごとに準備した学習用データを用いて機械学習を行い、評価対象ごとに生成できる。
【0035】
以下、実施形態に係る情報処理装置100による情報処理について具体的に説明する。
図2は、実施形態に係る情報処理装置100による情報処理の概要を示す図である。
【0036】
情報処理装置100は、上述のように生成された音声評価モデルを用いて、新たな発話に対する視聴者側の評価を推定する。具体的には、
図2に示すように、情報処理装置100は、ウェブ会議の発話者であるサービス利用者Uaの発話音声を端末装置10aから受信すると、受信した発話音声を解析し、発話音声の特徴を示す特徴情報を取得する。たとえば、情報処理装置100は、発話音声から抽出可能な振幅スペクトルや、ピッチや、モーラ数や、ポーズ比など任意の音響特徴量を特徴情報として取得できる。
【0037】
また、情報処理装置100は、取得した特徴情報を音声評価モデルに入力することにより得られる音声評価モデルからの出力を、ウェブ会議において発生した新たな発話に対する視聴者側の評価の推定結果を示す音声評価値#1として取得する。
【0038】
そして、情報処理装置100は、通知情報DBを参照して、音声評価値#1に対応する通知情報#1を取得し、取得した通知情報#1を端末装置10aに送信することにより、発話者であるサービス利用者Uaにフィードバックする。たとえば、情報処理装置100は、音声評価値#1が閾値未満である場合、声量を上げたり、話すスピードを抑えたりすることなどを提案する通知情報#1をサービス利用者Uaにフィードバックできる。
【0039】
また、情報処理装置100は、上述のように生成された映像評価モデルを用いて、発話者側の映像に対する視聴者側の評価を推定する。具体的には、
図2に示すように、情報処理装置100は、ウェブ会議の発話者であるサービス利用者Uaの映像を端末装置10aから受信すると、受信した映像を解析し、発話者の映像の特徴を示す特徴情報を取得する。続いて、情報処理装置100は、取得した特徴情報を映像評価モデルに入力することにより得られる映像評価モデルからの出力を、ウェブ会議における発話者の映像に対する視聴者側の評価の推定結果を示す映像評価値#2として取得する。
【0040】
そして、情報処理装置100は、通知情報DBを参照して、映像評価値#2に対応する通知情報#2を取得し、取得した通知情報#2を端末装置10aに送信することにより、発話者であるサービス利用者Uaにフィードバックする。たとえば、情報処理装置100は、映像評価値#2が閾値未満である場合、目線をカメラの方向に向けたり、画面を明るくしたりすることなどを提案する通知情報#2をサービス利用者Uaにフィードバックできる。なお、情報処理装置100は、発話に対する視聴者側の評価に応じた情報や、発話者側の映像に対する視聴者側の評価に応じた情報を同時にフィードバックしてもよい。
【0041】
上述してきたように、実施形態に係る情報処理装置100は、発話音声に対する視聴者側の評価を推定し、推定された視聴者側の評価に応じた情報をリアルタイムに発話者に通知できる。また、実施形態に係る情報処理装置100は、発話者側の映像に対する視聴者側の評価を推定し、推定された視聴者側の評価に応じた情報をリアルタイムに発話者に通知できる。これにより、実施形態に係る情報処理装置100は、発話者に対し、ウェブ会議における自らの振る舞いなどを見直す機会を与えることができ、ウェブ会議におけるコミュニケーションの円滑化を図ることができる。
【0042】
また、情報処理装置100は、発話者側の映像および視聴者側の映像に含まれる個人情報をマスキングしてもよい。個人情報は、氏名や、家族構成や、住所などの任意の情報が含まれる。たとえば、情報処理装置100は、端末装置10から受信する映像を解析し、映像内に個人情報が含まれる場合、個人情報に対応する領域をマスキングする。これにより、ウェブ会議において個人情報が意図せず漏洩することを防止できる。
【0043】
また、情報処理装置100は、ウェブ会議中、視聴者側の情報を収集し、視聴者側のリアルタイムのリアクションに応じた情報を発話者に通知してもよい。たとえば、情報処理装置100は、ウェブ会議においてサービス利用者Uのいずれかが発話中、音量を下げる操作を行った他の参加者(視聴者)が所定の人数以上である場合、発話者であるサービス利用者Uに対して、マイクから離れたり、声を小さくしたり、顔を上げたりするように提案する通知情報をフィードバックできる。これにより、情報処理装置100は、視聴者側の反応に応じて、即時かつ柔軟に、発話者に対して、ウェブ会議における自らの振る舞いを見直す機会を与えることができる。
【0044】
[2.情報処理装置の構成]
図3を用いて、実施形態に係る情報処理装置100の構成について説明する。
図3は、実施形態に係る情報処理装置の構成例を示す図である。
【0045】
図3に示すように、情報処理装置100は、通信部110と、記憶部120と、制御部130とを備える。なお、
図3は、情報処理装置100の構成例を示すものであり、
図3に示す形態には限られず、
図3に示す以外の他の機能部を備える形態であってもよい。
【0046】
(通信部110)
通信部110は、例えば、ネットワークNと有線または無線で接続され、ネットワークNを介して、端末装置10などの他の装置との間で情報の送受信を行う。通信部110は、例えば、NIC(Network Interface Card)やアンテナなどによって実現される。ネットワークNは、LAN(Local Area Network)や、WAN(Wide Area Network)や、電話網(携帯電話網や固定電話網など)や、地域IP(Internet Protocol)網や、インターネットなどの通信ネットワークである。ネットワークNには、有線ネットワークが含まれていてもよいし、無線ネットワークが含まれていてもよい。
【0047】
通信部110は、端末装置10から、ウェブ会議に参加するサービス利用者Uの発話音声や映像などの情報を受信する。また、通信部110は、サービス利用者Uに対する通知情報を端末装置10に送信する。
【0048】
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリなどの半導体メモリ素子、または、ハードディスクや光ディスクなどの記憶装置によって実現される。記憶部120は、制御部130の各部により実行される情報処理を実現するためのプログラム及びデータを記憶する。
【0049】
図5に示すように、記憶部120は、ユーザ情報DB121と、音声評価モデルDB122と、映像評価モデルDB123と、通知情報DB124とを有する。
【0050】
(ユーザ情報DB121)
ユーザ情報DB121には、ウェブ会議サービスのサービス利用者Uに関するユーザ情報が任意の形式で記憶されている。なお、ユーザ情報DB121に記憶されているユーザ情報は、情報処理装置100とは個別に設けられている外部のストレージサーバなどに登録されていてもよい。
図4は、実施形態に係るユーザ情報DBに記憶されているユーザ情報の概要を概念的に示す図である。
【0051】
図6に示すように、ユーザ情報DB121に記憶されているユーザ情報は、「ユーザID」や、「マシンスペック」や、「通信環境」などの複数の項目を有する。ユーザ情報が有するこれらの項目は互いに関連付けられている。
【0052】
「ユーザID」の項目には、ウェブ会議サービスを利用する各サービス利用者Uを識別するために各サービス利用者Uに対して個別に割り振られている識別情報が記憶されている。「マシンスペック」の項目には、各サービス利用者Uがウェブ会議に使用する端末装置10のマシンスペックの情報が記憶されている。マシンスペックの情報には、CPUや、ストレージや、マイクや、ウェブカメラなどの性能情報が含まれる。「通信環境」の項目には、各サービス利用者Uがウェブ会議を利用する際の通信環境の情報が記憶されている。通信環境の情報には、帯域や、LANの接続タイプ(有線か無線か)などの情報が含まれる。
【0053】
(音声評価モデルDB122)
音声評価モデルDB122には、ウェブ会議における発話音声の特徴と、前記発話音声に対する視聴者側の評価との関係性を事前学習した学習済みモデルである音声評価モデルの情報が任意の形式で記憶されている。たとえば、音声評価モデルがニューラルネットワークを学習する場合、音声評価モデルDB122は、音声評価モデルの情報として、ネットワークの各層におけるノードと、各ノードが採用する関数と、ノードの接続関係と、ノード間の接続に対して設定される接続係数とを記憶する。なお、音声評価モデルDB122は、上述の情報に限られず、目的に応じて種々の情報を記憶してもよい。また、音声評価モデルDB122に記憶されている音声評価モデルの情報は、情報処理装置100とは個別に設けられている外部のストレージサーバなどに登録されていてもよい。
【0054】
(映像評価モデルDB123)
映像評価モデルDB123には、ウェブ会議における発話者側の映像の特徴と、発話者側の映像に対する視聴者側の評価との関係性を事前学習した学習済みモデルである映像評価モデルの情報が任意の形式で記憶されている。なお、映像評価モデルがニューラルネットワークを学習する場合、映像評価モデルDB123は、映像評価モデルの情報として、ネットワークの各層におけるノードと、各ノードが採用する関数と、ノードの接続関係と、ノード間の接続に対して設定される接続係数とを記憶する。なお、映像評価モデルDB123は、上述の情報に限られず、目的に応じて種々の情報を記憶してもよい。また、映像評価モデルDB123に記憶されている映像評価モデルの情報は、情報処理装置100とは個別に設けられている外部のストレージサーバなどに登録されていてもよい。
【0055】
(通知情報DB124)
通知情報DB124には、ウェブ会議における発話音声や発話者側の映像に対する視聴者側の評価の推定結果に基づいて、発話者側に通知する通知情報が任意の形式で記憶されている。なお、通知情報DB124に記憶されている通知情報は、情報処理装置100とは個別に設けられている外部のストレージサーバなどに登録されていてもよい。
図5は、実施形態に係る通知情報DBに記憶される各種情報の概要を概念的に示す図である。
【0056】
図5に示すように、通知情報DB124に記憶されている通知情報は、「音声評価値」、「映像評価値」、及び「通知情報」といった複数の項目を有する。通知情報が有するこれらの項目は互いに関連付けられている。
【0057】
「音声評価値」の項目には、音声評価モデルから出力される音声評価値を判定するための条件に関する情報が記憶されている。たとえば、
図5に示す例では、音声評価値が「閾値α以上」という条件と、音声評価値が「閾値α未満」という条件が示されている。
【0058】
「映像評価値」の項目には、映像評価モデルから出力される映像評価値を判定するための条件に関する情報が記憶されている。たとえば、
図5に示す例では、映像評価値が「閾値β以上」という条件と、映像評価値が「閾値β未満」という条件が示されている。
【0059】
「通知情報」の項目には、「音声評価値」の項目に記憶された各条件に対応付けて各条件の内容に対応する通知情報や、「映像評価値」の項目に記憶された各条件に対応付けて各条件の内容に対応する通知情報が記憶されている。
【0060】
(制御部130)
制御部130は、情報処理装置100を制御するコントローラ(controller)である。制御部130は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)、GPU(Graphics Processing Unit)などによって、情報処理装置100内部の記憶装置に記憶されている各種プログラム(例えば、情報処理プログラム)がRAMを作業領域として実行されることにより実現される。また、制御部130は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路により実現されてもよい。
【0061】
図3に示すように、制御部130は、推定部131と、加工部132と、通知部133とを有する。制御部130は、これらの各部により、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、
図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各部の接続関係は、
図3に示した接続関係に限られず、他の接続関係であってもよい。
【0062】
(推定部131)
推定部131は、ウェブ会議における発話音声の特徴と、発話音声に対する視聴者側の評価との関係性を事前学習したモデルを用いて、ウェブ会議において発生した新たな発話に対する視聴者側の評価を推定する。たとえば、推定部131は、ウェブ会議の発話者であるサービス利用者Uの発話音声を端末装置10から受信すると、受信した発話音声を解析し、発話音声の特徴を示す特徴情報を取得する。次に、推定部131は、取得した特徴情報を音声評価モデルに入力することにより得られる音声評価モデルからの出力を、発話音声に対する視聴者側の評価の推定結果を示す音声評価値として取得する。そして、推定部131は、音声評価値を通知部133に受け渡す。
【0063】
また、推定部131は、ウェブ会議における発話者側の映像の特徴と、映像に対する視聴者側の評価との関係性を事前学習したモデルを用いて、発話者側の映像に対する評価を推定する。たとえば、推定部131は、ウェブ会議の発話者であるサービス利用者Uの映像を端末装置10から受信すると、受信した映像を解析し、発話者の映像の特徴を示す特徴情報を取得する。次に、推定部131は、取得した特徴情報を映像評価モデルに入力することにより得られる映像評価モデルからの出力を、発話者の映像に対する視聴者側の評価の推定結果を示す映像評価値として取得する。そして、推定部131は、映像評価値を通知部133に受け渡す。
【0064】
(加工部132)
加工部132は、発話者側の映像および視聴者側の映像に含まれる個人情報をマスキングする。たとえば、加工部132は、端末装置10から受信する映像を解析し、映像内に個人情報が含まれる場合、個人情報に対応する領域を自動的にマスキングする。加工部132は、マスキング処理を施した映像を、通信部110を介して、ウェブ会議の参加者が使用する端末装置10にそれぞれ転送する。
【0065】
(通知部133)
通知部133は、推定部131により推定された新たな発話に対する視聴者側の評価に応じた情報を発話者に通知する。たとえば、通知部133は、通知情報DB124を参照して、推定部131から受け渡された音声評価値対応する通知内容を決定し、決定した通知内容を含む通知情報を端末装置10に送信することにより、発話者であるサービス利用者Uにフィードバックする。
【0066】
また、通知部133は、推定部131により推定された発話者側の映像に対する視聴者側の評価に応じた情報を発話者に通知する。たとえば、通知部133は、通知情報DB124を参照して、推定部131から受け渡された映像評価値に対応する通知情報を取得し、取得した通知情報を端末装置10に送信することにより、発話者であるサービス利用者Uaにフィードバックする。
【0067】
[3.処理手順]
以下、
図6を用いて、実施形態に係る情報処理装置100による処理手順について説明する。
図6は、実施形態に係る情報処理装置による処理手順の一例を示すフローチャートである。
図6に示す処理手順は、情報処理装置100の制御部130により実行される。
図6に示す処理手順は、情報処理装置100の稼働中、繰り返し実行される。
【0068】
図6に示すように、推定部131は、音声評価モデルDB122に記憶されている音声評価モデルを用いて、新たな発話に対する視聴者側の評価を推定する(ステップS101)。
【0069】
また、推定部131は、映像評価モデルDB123に記憶されている映像評価モデルを用いて、新たな映像に対する視聴者側の評価を推定する(ステップS102)。
【0070】
また、通知部133は、推定部131により推定された新たな発話または発話者側の映像に対する視聴者側の評価に応じた情報を発話者に通知して(ステップS103)、
図6に示す処理手順を終了する。
【0071】
[4.変形例]
上述した情報処理装置100は、上述した実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、実施形態の変形例について説明する。
【0072】
(4-1.マシンスペックに応じた通知)
上述の実施形態において、情報処理装置100は、ウェブ会議の参加者となったサービス利用者Uに対して、サービス利用者Uがウェブ会議に使用する端末装置10のマシンスペックに応じた通知情報をフィードバックしてもよい。
【0073】
たとえば、情報処理装置100は、ユーザ情報DB121を参照し、サービス利用者Uがウェブ会議に使用する端末装置10のマイクの性能がウェブ会議に推奨される性能を有していない場合、ヘッドセットの利用を促す通知情報を通知してもよい。また、たとえば、情報処理装置100は、ユーザ情報DB121を参照し、ウェブ会議の参加者の中に端末装置10のストレージの容量が不十分である参加者が存在する場合、ウェブ会議の各参加者に対して背景を無地に変更することを提案する通知情報を通知してもよい。
【0074】
(4-2.通信環境に応じた通知)
また、上述の実施形態において、情報処理装置100は、ウェブ会議の参加者となったサービス利用者Uに対して、サービス利用者Uがウェブ会議を行う際の通信環境に応じた通知情報をフィードバックしてもよい。
【0075】
たとえば、情報処理装置100は、ユーザ情報DB121を参照し、サービス利用者Uが無線LANを使用してウェブ会議サービスに接続している場合、通信が不安定であることを条件に、有線LANへの切換を提案する通知情報を通知してもよい。また、たとえば、情報処理装置100は、ユーザ情報DB121を参照し、ウェブ会議の参加者の中に通信に用いる帯域が不十分である参加者が存在する場合、ウェブ会議の各参加者に対して発話音声以外の環境音ができるだけ排除することを提案する通知情報を通知してもよい。
【0076】
(4-3.視聴者側の評価の推定結果と視聴者のリアクションについて)
また、上述の実施形態において、情報処理装置100は、たとえば、音声評価モデルに基づいて、ウェブ会議における新たな通話に対する視聴者側の評価の推定結果と、ウェブ会議の視聴者側のリアルタイムのリアクションとが相反する内容である場合、情報処理装置100は、視聴者側のリアルタイムのリアクションを優先して、視聴者側のリアルタイムのリアクションに応じた情報を発話者に通知してもよい。
【0077】
また、情報処理装置100は、ウェブ会議に複数の参加者の間でリアクションの内容が相反する場合、参加者の過半数以上を占めるリアクションに応じた情報を発話者に通知するようにしてもよい。
【0078】
[5.ハードウェア構成]
実施形態に係る情報処理装置100は、たとえば、
図7に示すような構成のコンピュータ1000によって実現される。
図7は、実施形態に係る情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【0079】
コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
【0080】
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD、フラッシュメモリ等により実現される。
【0081】
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインターフェイスであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインターフェイスであり、例えば、USB等により実現される。
【0082】
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。
【0083】
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
【0084】
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
【0085】
例えば、コンピュータ1000が情報処理装置100として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラム(たとえば、情報処理プログラム)を実行することにより、制御部130と同様の機能を実現する。すなわち、演算装置1030は、一次記憶装置1040上にロードされたプログラム(たとえば、情報処理プログラム)との協働により、実施形態に係る情報処理装置100による処理を実現する。
【0086】
[6.その他]
上述した実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
【0087】
上述の実施形態において、情報処理装置100による情報処理方法(たとえば、
図6参照)を実現するために、情報処理装置100が有する制御部130の各部(推定部131、加工部132、及び通知部133)に対応する処理機能は、情報処理装置100に予めインストールされている提供プログラムに対するアドオンとして実現してもよいし、軽量なプログラミング言語などを用いて、専用の提供プログラムとして柔軟に記述することにより実現されてもよい。
【0088】
また、上述した実施形態において、情報処理装置100は、サービス利用者Uに対してショッピングサイトにおける各種サービスを提供する装置としての処理機能を有していてもよい。この場合、情報処理装置100は、ショッピングサイトにおける各種サービスの提供に伴ってショッピングサイトにおける各ユーザに関する情報を取得し、記憶部120に保存することができる。
【0089】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。たとえば、制御部130の推定部131と通知部133とは機能的に統合されていてもよい。
【0090】
また、上述の実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0091】
[7.効果]
上述の実施形態に係る情報処理装置100は、推定部131と、通知部133とを備える。推定部131は、ウェブ会議における発話音声の特徴と、発話音声に対する視聴者側の評価との関係性を事前学習したモデルを用いて、新たな発話に対する視聴者側の評価を推定する。通知部133は、推定部131により推定された新たな発話に対する視聴者側の評価に応じた情報を発話者に通知する。
【0092】
これにより、実施形態に係る情報処理装置100は、発話者に対して、ウェブ会議における自らの振る舞い(たとえば、発話の状態)を見直す機会を与えることができ、ウェブ会議におけるコミュニケーションの円滑化を図ることができる。
【0093】
また、実施形態に係る情報処理装置100において、視聴者側の評価は、視聴者側のリアクション情報に基づいて設定される。
【0094】
また、実施形態に係る情報処理装置100において、リアクション情報は、音量調整の操作に関する情報を含む。
【0095】
リアクション情報は、視聴者側の映像を解析することにより得られる視聴者の動作に関する情報を含む。
【0096】
また、実施形態に係る情報処理装置100において、視聴者側の評価は、発話音声に対する視聴者側の感想を示すフィードバック情報に基づいて設定される。
【0097】
以上から、実施形態に係る情報処理装置100は、発話音声に対する視聴者側の評価として、客観的な評価を得ることができる。
【0098】
また、実施形態に係る情報処理装置100において、推定部131は、発話者側の映像の特徴と、映像に対する視聴者側の評価との関係性を事前学習したモデルを用いて、発話者側の映像に対する評価を推定する。通知部133は、推定部131により推定された発話者側の映像に対する視聴者側の評価に応じた情報を通知する。これにより、発話者に対して、ウェブ会議における自らの振る舞い(たとえば、目線や表情などの見た目の印象)や、画面の明るさなどを見直す機会を与えることができ、ウェブ会議におけるコミュニケーションの円滑化を図ることができる。
【0099】
また、実施形態に係る情報処理装置100は、発話者側の映像および視聴者側の映像に含まれるプライベート情報をマスキングする加工部をさらに備える。これにより、ウェブ会議において個人情報が意図せず漏洩することを防止できる。
【0100】
また、実施形態に係る情報処理装置100は、通知部133は、視聴者側のリアルタイムのリアクションに応じた情報を通知する。これにより、実施形態に係る情報処理装置100は、視聴者側の反応に応じて、即時かつ柔軟に、発話者に対して、ウェブ会議における自らの振る舞いなどを見直す機会を与えることができる。
【0101】
以上、本願の実施形態をいくつかの図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0102】
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、制御部は、制御手段や制御回路に読み替えることができる。
【符号の説明】
【0103】
10 端末装置
100 情報処理装置
110 通信部
120 記憶部
121 ユーザ情報DB
122 音声評価モデルDB
123 映像評価モデルDB
124 通知情報DB
130 制御部
131 推定部
132 加工部
133 通知部