(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-08-15
(45)【発行日】2022-08-23
(54)【発明の名称】プレゼンテーションを評価するシステム、方法、学習済みモデル及びプログラム、情報処理装置並びに端末装置
(51)【国際特許分類】
G09B 19/00 20060101AFI20220816BHJP
G10L 15/30 20130101ALI20220816BHJP
G10L 25/60 20130101ALI20220816BHJP
G06T 7/20 20170101ALI20220816BHJP
【FI】
G09B19/00 G
G10L15/30
G10L25/60
G06T7/20 300A
G09B19/00 H
(21)【出願番号】P 2019094014
(22)【出願日】2019-05-17
【審査請求日】2021-02-10
(73)【特許権者】
【識別番号】501440684
【氏名又は名称】ソフトバンク株式会社
(73)【特許権者】
【識別番号】304024430
【氏名又は名称】国立大学法人北陸先端科学技術大学院大学
(74)【代理人】
【識別番号】100098626
【氏名又は名称】黒田 壽
(74)【代理人】
【識別番号】100128691
【氏名又は名称】中村 弘通
(72)【発明者】
【氏名】塩原 翔太
(72)【発明者】
【氏名】杉村 聡太
(72)【発明者】
【氏名】岡田 将吾
(72)【発明者】
【氏名】八木 悠太朗
【審査官】宇佐田 健二
(56)【参考文献】
【文献】特開2018-004813(JP,A)
【文献】特開2011-217052(JP,A)
【文献】米国特許出願公開第2016/0049094(US,A1)
【文献】特開2015-068897(JP,A)
【文献】特開2012-255866(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G09B 1/00- 9/56,17/00-19/26
G10L 15/30,25/60
G06T 7/20
(57)【特許請求の範囲】
【請求項1】
プレゼンテーションを評価するシステムであって、
プレゼンテーションを行っている対象者の音声データ及び動画データを取得するデータ取得部と、
前記音声データから前記プレゼンテーションの言語特徴量及び韻律特徴量を抽出し、前記動画データから前記プレゼンテーションを行っているときの前記対象者の動作特徴量を抽出する特徴量抽出部と、
前記言語特徴量と前記韻律特徴量と前記動作特徴量とを解析して前記プレゼンテーション
を評価する大項目に関する複数の評価内容についての評価項目
のそれぞれについて定量的に評価した評価値を含む解析結果を推定する推論部と、
前記解析結果を出力する解析結果出力部と、を備え、
前記推論部は、前記プレゼンテーションに対するコメントの候補となる複数のコメントデータを記憶し、前記複数の評価項目の評価値と前記評価値の推定の精度を示す決定係数とに基づいて、前記複数のコメントデータから一または複数のコメントデータを選択し、前記選択したコメントデータを用いて生成したコメントを前記解析結果に含める、ことを特徴とするシステム。
【請求項2】
請求項1のシステムにおいて、
前記データ取得部で取得した前記音声データ及び前記動画データが所定の品質を有しているか否かを確認するデータ確認部を更に備え、
前記所定の品質を有する音声データ及び動画データを、前記言語特徴量、前記韻律特徴量及び前記動作特徴量の抽出に用い、前記所定の品質を有しない音声データ及び動画データを、前記言語特徴量、前記韻律特徴量及び前記動作特徴量の抽出に用いない、ことを特徴とするシステム。
【請求項3】
請求項2のシステムにおいて、
前記確認する品質は、前記音声データの音圧が所定の範囲にあること、前記音声データにおける雑音の大きさが閾値以下であること、前記動画データにおける画像に前記動作特徴量の抽出に用いる座標を取得する前記対象者の身体部が含まれていること、及び、前記対象者の正面方向に対する動画撮像方向の画角が所定の角度範囲内にあること、の少なくとも一つについての品質である、ことを特徴とするシステム。
【請求項4】
請求項2又は3のシステムにおいて、
前記データ取得部で取得した前記音声データ及び前記動画データが所定の品質を有していないとき、前記音声データ及び前記動画データの取得に関する助言メッセージを出力するデータ取得助言出力部を更に備えることを特徴とするシステム。
【請求項5】
請求項1乃至4のいずれかのシステムにおいて、
前記推論部は、前記言語特徴量、前記韻律特徴量及び前記動作特徴量を含む入力を所定のアルゴリズムで処理することにより前記定量的な評価値を含む解析結果を出力する解析モデルを用いる、ことを特徴とするシステム。
【請求項6】
請求項5のシステムにおいて、
前記言語特徴量、前記韻律特徴量及び前記動作特徴量はそれぞれ複数種類の特徴量を含み、
前記推論部で用いる前記解析モデルは、前記複数種類の特徴量のうち前記音声データ及び前記動画データからパターン化して抽出する処理に所定の時間以上を要する特徴量を前記入力として用いない解析モデルである、ことを特徴とするシステム。
【請求項7】
請求項5又は6のシステムにおいて、
前記推論部は、前記アルゴリズムが互いに異なる複数種類の解析モデルを前記解析に使用することを特徴とするシステム。
【請求項8】
請求項5又は6のシステムにおいて、
前記推論部は、前記アルゴリズムが互いに異なる複数種類の解析モデルを有し、前記複数種類の解析モデルから選択した解析モデルを前記解析に使用する、ことを特徴とするシステム。
【請求項9】
請求項8のシステムにおいて、
前記推論部は、前記言語特徴量、前記韻律特徴量及び前記動作特徴量の少なくとも一つに基づいて、前記複数種類の解析モデルから前記解析に使用する解析モデルを選択する、ことを特徴とするシステム。
【請求項10】
請求項8又は9のシステムにおいて、
前記推論部は、前記プレゼンテーションの対象者の属性及び前記プレゼンテーションの種類の少なくとも一方に基づいて、前記複数種類の解析モデルから前記解析に使用する解析モデルを選択する、ことを特徴とするシステム。
【請求項11】
請求項5乃至10のいずれかのシステムにおいて、
前記解析モデルは、複数のプレゼンテーションについて取得した前記言語特徴量、前記韻律特徴量及び前記動作特徴量と前記評価値の正解データとを含む教師あり学習データを用いて機械学習して作成された学習済みモデルである、ことを特徴とするシステム。
【請求項12】
請求項1乃至11のいずれかのシステムにおいて、
前記言語特徴量は、前記プレゼンテーションの全文におけるフィラー数、名詞数、動詞数、感動詞、動詞繰り返し数及び名詞繰り返し数の少なくとも一つに関する特徴量を含み、
前記韻律特徴量は、前記プレゼンテーションの音声におけるピッチ、インテンシティ、音圧、抑揚、話速、発話長、無音長及び発話比の少なくとも一つに関する特徴量を含み、
前記動作特徴量は、前記プレゼンテーションの全体における前記対象者の身体各部の動作量及び発話中における前記対象者の身体各部の動作量の少なくとも一つに関する特徴量を含む、ことを特徴とするシステム。
【請求項13】
請求項1乃至12のいずれかのシステムにおいて、
前記
プレゼンテーションを評価する大項目は、前記プレゼンテーションの目的網羅性、内容の論理性、見え方及び聞こえ方、並びに、効果的演出要素を含む、ことを特徴とするシステム
。
【請求項14】
請求項1乃至1
3のいずれかのシステムにおいて、
通信網を介して互いに通信可能な端末装置と情報処理装置とを備え、
前記端末装置は、前記データ取得部と、前記情報処理装置に前記音声データ及び前記動画データを送信するデータ送信部と、前記情報処理装置から前記解析結果を受信する解析結果受信部と、前記解析結果出力部と、を有し、
前記情報処理装置は、前記端末装置から前記音声データ及び前記動画データを受信するデータ受信部と、前記特徴量抽出部と、前記推論部と、前記端末装置に前記解析結果を送信する解析結果送信部と、を有することを特徴とするシステム。
【請求項15】
プレゼンテーションを評価するようにコンピュータ又はプロセッサを機能させるための学習済みモデル
のプログラムであって、
複数のプレゼンテーションについて取得した対象者の音声データ及び動画データに基づいて抽出した言語特徴量、韻律特徴量及び動作特徴量と前記プレゼンテーションの所定の評価項目について定量的に評価した評価値の正解データと含む教師あり学習データを用いて機械学習して作成され、
評価対象のプレゼンテーションについて取得した対象者の音声データ及び動画データに基づいて抽出した言語特徴量、韻律特徴量及び動作特徴量を含む入力があったときに、前記プレゼンテーション
を評価する大項目に関する複数の評価内容についての評価項目
のそれぞれについて定量的に評価した評価値
を含む解析結果を出力する
ためのプログラムコードと、
前記プレゼンテーションに対するコメントの候補となる複数のコメントデータを記憶し、前記複数の評価項目の評価値と前記評価値の推定の精度を示す決定係数とに基づいて、前記複数のコメントデータから一または複数のコメントデータを選択し、前記選択したコメントデータを用いて生成したコメントを前記解析結果に含めるためのプログラムコードと、を含む、ことを特徴とする学習済みモデル
のプログラム。
【請求項16】
プレゼンテーションを評価する方法であって、
プレゼンテーションを行っている対象者の音声データ及び動画データを取得することと、
前記音声データから前記プレゼンテーションの言語特徴量及び韻律特徴量を抽出し、前記動画データから前記プレゼンテーションを行っているときの前記対象者の動作特徴量を抽出することと、
前記言語特徴量と前記韻律特徴量と前記動作特徴量とを解析して前記プレゼンテーション
を評価する大項目に関する複数の評価内容についての評価項目
のそれぞれについて定量的に評価した評価値を含む解析結果を推定することと、
前記解析結果を出力することと、
前記プレゼンテーションに対するコメントの候補となる複数のコメントデータを記憶し、前記複数の評価項目の評価値と前記評価値の推定の精度を示す決定係数とに基づいて、前記複数のコメントデータから一または複数のコメントデータを選択し、前記選択したコメントデータを用いて生成したコメントを前記解析結果に含めることと、を含むことを特徴とする方法。
【請求項17】
通信網を介して情報処理装置と通信可能な端末装置であって、
プレゼンテーションを行っている対象者の音声データ及び動画データを取得するデータ取得部と、
前記情報処理装置に前記音声データ及び前記動画データを送信するデータ送信部と、
前記音声データ及び前記動画データに基づいて前記プレゼンテーション
を評価する大項目に関する複数の評価内容についての評価項目
のそれぞれについて定量的に評価した評価値を含む解析結果を、前記情報処理装置から受信する解析結果受信部と、
前記解析結果を出力する解析結果出力部と、を備え
、
前記情報処理装置から受信する前記解析結果は、前記プレゼンテーションに対するコメントの候補となる複数のコメントデータを記憶する前記情報処理装置が、前記複数の評価項目の評価値と前記評価値の推定の精度を示す決定係数とに基づいて、前記複数のコメントデータから一または複数のコメントデータを選択し、前記選択したコメントデータを用いて前記情報処理装置が生成したコメントを含む、ことを特徴とする端末装置。
【請求項18】
通信網を介して端末装置と通信可能な情報処理装置であって、
プレゼンテーションを行っている対象者の音声データ及び動画データを前記端末装置から受信するデータ受信部と、
前記音声データから前記プレゼンテーションの言語特徴量及び韻律特徴量を抽出し、前記動画データから前記プレゼンテーションを行っているときの前記対象者の動作特徴量を抽出する特徴量抽出部と、
前記言語特徴量と前記韻律特徴量と前記動作特徴量とを解析して前記プレゼンテーション
を評価する大項目に関する複数の評価内容についての評価項目
のそれぞれについて定量的に評価した評価値を含む解析結果を推定する推論部と、
前記端末装置に前記解析結果を送信する解析結果送信部と、を備え
、
前記推論部は、前記プレゼンテーションに対するコメントの候補となる複数のコメントデータを記憶し、前記複数の評価項目の評価値と前記評価値の推定の精度を示す決定係数とに基づいて、前記複数のコメントデータから一または複数のコメントデータを選択し、前記選択したコメントデータを用いて生成したコメントを前記解析結果に含める、ことを特徴とする情報処理装置。
【請求項19】
通信網を介して情報処理装置と通信可能な端末装置に備えるコンピュータ又はプロセッサにおいて実行されるプログラムであって、
プレゼンテーションを行っている対象者の音声データ及び動画データを取得するためのプログラムコードと、
前記情報処理装置に前記音声データ及び前記動画データを送信するためのプログラムコードと、
前記音声データ及び前記動画データに基づいて前記プレゼンテーション
を評価する大項目に関する複数の評価内容についての評価項目
のそれぞれについて定量的に評価した評価値を含む解析結果を、前記情報処理装置から受信するためのプログラムコードと、
前記解析結果を出力するためのプログラムコードと、を含
み、
前記情報処理装置から受信する前記解析結果は、前記プレゼンテーションに対するコメントの候補となる複数のコメントデータを記憶する前記情報処理装置が、前記複数の評価項目の評価値と前記評価値の推定の精度を示す決定係数とに基づいて、前記複数のコメントデータから一または複数のコメントデータを選択し、前記選択したコメントデータを用いて前記情報処理装置が生成したコメントを含む、ことを特徴とするプログラム。
【請求項20】
通信網を介して端末装置と通信可能な情報処理装置に備えるコンピュータ又はプロセッサにおいて実行されるプログラムであって、
プレゼンテーションを行っている対象者の音声データ及び動画データを前記端末装置から受信するためのプログラムコードと、
前記音声データから前記プレゼンテーションの言語特徴量及び韻律特徴量を抽出し、前記動画データから前記プレゼンテーションを行っているときの前記対象者の動作特徴量を抽出するためのプログラムコードと、
前記言語特徴量と前記韻律特徴量と前記動作特徴量とを解析して前記プレゼンテーション
を評価する大項目に関する複数の評価内容についての評価項目
のそれぞれについて定量的に評価した評価値を含む解析結果を推定するためのプログラムコードと、
前記端末装置に前記解析結果を送信するためのプログラムコードと、
前記プレゼンテーションに対するコメントの候補となる複数のコメントデータを記憶し、前記複数の評価項目の評価値と前記評価値の推定の精度を示す決定係数とに基づいて、前記複数のコメントデータから一または複数のコメントデータを選択し、前記選択したコメントデータを用いて生成したコメントを前記解析結果に含めるためのプログラムコードと、を含むことを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、プレゼンテーションを評価するシステム、方法、学習済みモデル及びプログラム、並びに、プレゼンテーションの評価に用いる情報処理装置及び端末装置に関するものである。
【背景技術】
【0002】
従来、発表者が行うプレゼンテーションを評価する評価装置が知られている。例えば、特許文献1には、パーソナルコンピュータ上の画面を発表資料であるスライドとして聴講者向けの画面に表示して行うプレゼンテーションにおいて、どの程度の割合で聴講者の方向に視線を送っていたかを視線方向検知装置で検知して判断し、その視線の判断結果と、発表資料の各アジェンダページに割り当てられた時間と発表者が現実に各ページに費やした時間との比較結果とに基づいて、プレゼンテーションを評価するプレゼンテーション評価装置が開示されている。このプレゼンテーション評価装置によれば、発表用資料に対してどの程度の時間講演を費やしたかを記録し、その記録された値に対してどの程度の評価を与えることができるかを数値化し、且つ発表者がどの程度聴講者を見てコンタクトをとりながら発表を行っているかを客観的な評価値として取得できる、とされている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記従来の評価装置による評価は、プレゼンテーションに費やした時間の程度や聴講者を見たアイコンタクトの程度といった限定的な評価であり、プレゼンテーションを評価する観点が限定的である。本来、プレゼンテーションとは、プレゼンタの声、発話内容、表情、ジェスチャなどを統合して行うはずのものであるが、上記従来の評価装置では、そのようなプレゼンテーションの評価を実現することができない。また、上記従来の評価装置は、発表者の視線を検知する特別なハードウェア(視線方向検知装置)を必要とするため、ユーザが使用する端末装置等に実装するときのハードルが高い。
【課題を解決するための手段】
【0005】
本発明の一態様に係るシステムは、プレゼンテーションを評価するシステムである。このシステムは、プレゼンテーションを行っている対象者の音声データ及び動画データを取得するデータ取得部と、前記音声データから前記プレゼンテーションの言語特徴量及び韻律特徴量を抽出し、前記動画データから前記プレゼンテーションを行っているときの前記対象者の動作特徴量を抽出する特徴量抽出部と、前記言語特徴量と前記韻律特徴量と前記動作特徴量とを解析して前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を推定する推論部と、前記解析結果を出力する解析結果出力部と、を備える。
【0006】
前記システムにおいて、前記データ取得部で取得した前記音声データ及び前記動画データが所定の品質を有しているか否かを確認するデータ確認部を更に備え、前記所定の品質を有する音声データ及び動画データを、前記言語特徴量、前記韻律特徴量及び前記動作特徴量の抽出に用い、前記所定の品質を有しない音声データ及び動画データを、前記言語特徴量、前記韻律特徴量及び前記動作特徴量の抽出に用いないようにしてもよい。
ここで、前記確認する品質は、前記音声データの音圧が所定の範囲にあること、前記音声データにおける雑音の大きさが閾値以下であること、前記動画データにおける画像に前記動作特徴量の抽出に用いる座標を取得する前記対象者の身体部が含まれていること、及び、前記対象者の正面方向に対する動画の撮像方向の画角が所定の角度範囲内にあること、の少なくとも一つについての品質であってもよい。
また、前記データ取得部で取得した前記音声データ及び前記動画データが所定の品質を有していないとき、前記音声データ及び前記動画データの取得に関する助言メッセージを出力するデータ取得助言出力部を更に備えてもよい。
【0007】
前記システムにおいて、前記推論部は、前記言語特徴量、前記韻律特徴量及び前記動作特徴量を含む入力を所定のアルゴリズムで処理することにより前記定量的な評価値を含む解析結果を出力する解析モデルを用いてもよい。
前記推論部において、前記言語特徴量、前記韻律特徴量及び前記動作特徴量はそれぞれ複数種類の特徴量を含み、前記推論部で用いる前記解析モデルは、前記複数種類の特徴量のうち前記音声データ及び前記動画データからパターン化して抽出する処理に所定の時間以上を要する特徴量を前記入力として用いない解析モデルであってもよい。
前記推論部は、前記アルゴリズムが互いに異なる複数種類の解析モデルを前記解析に使用してもよい。
前記推論部は、前記アルゴリズムが互いに異なる複数種類の解析モデルを有し、前記複数種類の解析モデルから選択した解析モデルを前記解析に使用してもよい。
前記推論部は、前記言語特徴量、前記韻律特徴量及び前記動作特徴量の少なくとも一つに基づいて、前記複数種類の解析モデルから前記解析に使用する解析モデルを選択してもよい。
前記推論部は、前記プレゼンテーションの対象者の属性及び前記プレゼンテーションの種類の少なくとも一方に基づいて、前記複数種類の解析モデルから前記解析に使用する解析モデルを選択してもよい。
前記解析モデルは、複数のプレゼンテーションについて取得した前記言語特徴量、前記韻律特徴量及び前記動作特徴量と前記評価値の正解データとを含む教師あり学習データを用いて機械学習して作成された学習済みモデルであってもよい。
【0008】
前記システムにおいて、前記言語特徴量は、前記プレゼンテーションの全文におけるフィラー数、名詞数、動詞数、感動詞、動詞繰り返し数及び名詞繰り返し数の少なくとも一つに関する特徴量を含んでもよい。また、前記韻律特徴量は、前記プレゼンテーションの音声におけるピッチ、インテンシティ、音圧、抑揚、話速、発話長、無音長及び発話比の少なくとも一つに関する特徴量を含んでもよい。また、前記動作特徴量は、前記プレゼンテーションの全体における前記対象者の身体各部の動作量及び発話中における前記対象者の身体各部の動作量の少なくとも一つに関する特徴量を含んでもよい。
【0009】
前記システムにおいて、前記評価項目は、前記プレゼンテーションの目的網羅性、内容の論理性、見え方及び聞こえ方、並びに、効果的演出要素を含んでもよい。
【0010】
前記システムにおいて、前記推論部は、前記プレゼンテーションに対するコメントの候補となる複数のコメントデータを記憶し、前記評価値と前記評価値を推定したときの決定係数とに基づいて、前記複数のコメントデータから一または複数のコメントデータを選択し、前記選択したコメントデータを用いて生成したコメントを前記解析結果に含めてもよい。
【0011】
前記システムにおいて、通信網を介して互いに通信可能な端末装置と情報処理装置とを備え、前記端末装置は、前記データ取得部と、前記情報処理装置に前記音声データ及び前記動画データを送信するデータ送信部と、前記情報処理装置から前記解析結果を受信する解析結果受信部と、前記解析結果出力部と、を有し、前記情報処理装置は、前記端末装置から前記音声データ及び前記動画データを受信するデータ受信部と、前記特徴量抽出部と、前記推論部と、前記端末装置に前記解析結果を送信する解析結果送信部と、を有してもよい。
【0012】
本発明の他の態様に係る学習済みモデルは、プレゼンテーションを評価するようにコンピュータ又はプロセッサを機能させるための学習済みモデルである。この学習済みモデルは、複数のプレゼンテーションについて取得した対象者の音声データ及び動画データに基づいて抽出した言語特徴量、韻律特徴量及び動作特徴量と前記プレゼンテーションの所定の評価項目について定量的に評価した評価値の正解データと含む教師あり学習データを用いて機械学習して作成され、評価対象のプレゼンテーションについて取得した対象者の音声データ及び動画データに基づいて抽出した言語特徴量、韻律特徴量及び動作特徴量を含む入力があったときに、前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を出力する。
【0013】
本発明の更に他の態様に係るプレゼンテーションを評価する方法は、プレゼンテーションを行っている対象者の音声データ及び動画データを取得することと、前記音声データから前記プレゼンテーションの言語特徴量及び韻律特徴量を抽出し、前記動画データから前記プレゼンテーションを行っているときの前記対象者の動作特徴量を抽出することと、前記言語特徴量と前記韻律特徴量と前記動作特徴量とを解析して前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を推定することと、前記解析結果を出力することと、を含む。
【0014】
本発明の更に他の態様に係る端末装置は、通信網を介して情報処理装置と通信可能な端末装置である。この端末装置は、プレゼンテーションを行っている対象者の音声データ及び動画データを取得するデータ取得部と、前記情報処理装置に前記音声データ及び前記動画データを送信するデータ送信部と、前記音声データ及び前記動画データに基づいて前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を、前記情報処理装置から受信する解析結果受信部と、前記解析結果を出力する解析結果出力部と、を備える。
【0015】
本発明の更に他の態様に係る情報処理装置は、通信網を介して端末装置と通信可能な情報処理装置である。この情報処理装置は、プレゼンテーションを行っている対象者の音声データ及び動画データを前記端末装置から受信するデータ受信部と、前記音声データから前記プレゼンテーションの言語特徴量及び韻律特徴量を抽出し、前記動画データから前記プレゼンテーションを行っているときの前記対象者の動作特徴量を抽出する特徴量抽出部と、前記言語特徴量と前記韻律特徴量と前記動作特徴量とを解析して前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を推定する推論部と、前記端末装置に前記解析結果を送信する解析結果送信部と、を備える。
【0016】
本発明の更に他の態様に係るプログラムは、通信網を介して情報処理装置と通信可能な端末装置に備えるコンピュータ又はプロセッサにおいて実行されるプログラムである。このプログラムは、プレゼンテーションを行っている対象者の音声データ及び動画データを取得するためのプログラムコードと、前記情報処理装置に前記音声データ及び前記動画データを送信するためのプログラムコードと、前記音声データ及び前記動画データに基づいて前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を、前記情報処理装置から受信するためのプログラムコードと、前記解析結果を出力するためのプログラムコードと、を含む。
【0017】
本発明の更に他の態様に係るプログラムは、通信網を介して端末装置と通信可能な情報処理装置に備えるコンピュータ又はプロセッサにおいて実行されるプログラムである。このプログラムは、プレゼンテーションを行っている対象者の音声データ及び動画データを前記端末装置から受信するためのプログラムコードと、前記音声データから前記プレゼンテーションの言語特徴量及び韻律特徴量を抽出し、前記動画データから前記プレゼンテーションを行っているときの前記対象者の動作特徴量を抽出するためのプログラムコードと、前記言語特徴量と前記韻律特徴量と前記動作特徴量とを解析して前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を推定するためのプログラムコードと、前記端末装置に前記解析結果を送信するためのプログラムコードと、を含む。
【0018】
前記システム、前記学習済みモデル、前記方法、前記端末装置、前記情報処理装置及び前記プログラムにおいて、前記韻律特徴量は、前記プレゼンテーションを行っている対象者の声の特徴量を含み、前記言語特徴量は、前記プレゼンテーションを行っている対象者の発話内容の特徴量を含み、前記動作特徴量は、前記プレゼンテーションを行っている対象者のジェスチャの特徴量を含んでもよい。
また、前記システム、前記学習済みモデル、前記方法、前記端末装置、前記情報処理装置及び前記プログラムにおいて、前記取得するデータは、前記プレゼンテーションを行っている対象者について測定した赤外線センサ、心拍センサ等の各種センサで検知した検知データを含み、前記解析に用いる特徴量は、前記検知データから抽出した体温、心拍数などを含んでもよい。 また、前記システム、前記学習済みモデル、前記方法、前記端末装置、前記情報処理装置及び前記プログラムにおいて、前記出力又は前記送信の対象には、過去の評価値を含む解析結果と最新の評価値を含む解析結果を同時に含んでもよいし、過去の評価値を含む解析結果と最新の評価値の差分を含んでもよい。
【発明の効果】
【0019】
本発明によれば、プレゼンテーションのマルチモーダル情報からプレゼンテーションの多角的な視点からの定量評価が可能であり、また、実装するときのハードルが低い、という効果を奏する。
【図面の簡単な説明】
【0020】
【
図1】実施形態に係るシステムにおけるプレゼンテーション評価の概要の一例を示す説明図。
【
図2】実施形態に係るプレゼンテーション評価の手順の一例を示す説明図。
【
図3】実施形態に係るシステムにおける端末装置及び情報処理装置の概略構成の一例を示すブロック図。
【
図4】実施形態に係る情報処理装置の特徴量抽出部の要部構成の一例を示すブロック図。図。
【
図5】(a)は、実施形態に係る特徴量抽出部による発表者の各部の動作量の抽出処理に用いる骨格検出像の一例を示す説明図。(b)は、発表者の頭部の検出点の位置の時間変化(軌跡)の一例を示す説明図。
【
図6】実施形態に係る端末装置における解析結果の表示画面の一例を示す説明図。
【発明を実施するための形態】
【0021】
以下、図面を参照して本発明の実施形態について説明する。
図1は、本実施形態に係るシステムにおけるプレゼンテーション評価の概要の一例を示す説明図である。本実施形態のプレゼンテーション評価は、評価対象者がプレゼンテーションを行っているときの音声及び動画のデータから抽出した韻律特徴量、言語特徴量及び動作特徴量を含むマルチモーダルな特徴量から、当該プレゼンテーションの多角的な視点からの定量的な評価値の算出など行うものである。本実施形態のシステムは、プレゼンテーション評価システムとして用いてもよいし、プレゼンテーション能力推定システムとして用いてもよい。
【0022】
評価対象のプレゼンテーションは、視覚的及び聴覚的な手段を用いて、計画、企画案、見積り、講義内容、自己アピールなどを、会議、ミーティング、講義、打ち合わせ、面接などにおいて、評価対象者である発表者が他の出席者等に向けて発表したり提示したりするものである。
【0023】
図1のプレゼンテーション評価の例では、評価対象者がプレゼンテーションを行っているときの音声及び動画のデータから抽出した韻律特徴量、言語特徴量及び動作特徴量を含むマルチモーダルな特徴量が、説明変数の値として、解析モデルとしての機械学習済みモデルに入力される。機械学習済みモデルは、入力されたマルチモーダルな特徴量を所定のアルゴリズムに従って解析し、プレゼンテーションの所定の評価項目について定量的に評価したプレゼンテーション評価値を、目的変数の値として出力する。
【0024】
プレゼンテーション評価値は、目的網羅性、内容ロジック(内容の論理性)、ビジュアル及びボーカル(見え方及び聞こえ方)、並びに、効果的演出要素の大項目それぞれに関する複数の評価項目の値である。例えば、目的網羅性の評価項目は、例えば、「誰に」、「何を」、「どうしてほしい」という目的に関する3つの内容が網羅されているかを評価する項目である。内容ロジックの評価項目は、例えば、「結論」、その「根拠」及び「相手の利益」に関する3つの内容が含まれているかを評価する項目である。ビジュアル及びボーカルの評価項目は、例えば、抑揚、声量、アイコンタクト及びジェスチャといった見え方及び聞こえ方に関する評価項目である。効果的演出要素は、例えば、強調、繰り返し、具体表現及び双方向性といった効果的演出に関する評価項目である。
【0025】
プレゼンテーション評価に用いる解析モデルは、例えば、複数のプレゼンテーションそれぞれについて、プレゼンテーションの様子を撮像した音声及び動画のデータから抽出した韻律特徴量、言語特徴量及び動作特徴量と、各プレゼンテーションに対して機械ではなく人間の評価者が上記評価項目のそれぞれについて付与した正解データとしての評価値とを関連付けた複数の教師あり学習データを用いて予め機械学習することにより、モデルにおける各特徴量に対する重み等のパラメータの値を決定して作成した機械学習済みモデルである。
【0026】
複数種類の機械学習済みモデルは、評価対象者である発表者(プレゼンター)10の個性又はユーザ40の個性に応じて作成されたものであってもよい。機械学習済みモデルは、前記複数の評価項目を一括して出力するものであってもよいし、複数の評価項目それぞれについて出力する評価値の精度を高めるために評価項目ごとに設けてもよい。また、発表者10の属性(例えば、年齢層、性別、プレゼンテーションの経験度)が互いに異なる複数種類の対象者グループそれぞれに対応するように複数種類の機械学習済みモデルを予め作成しておき、それらの複数種類の機械学習済みモデルをすべて用いるようにしてもよいし、それらの複数種類の機械学習済みモデルから選択して用いるようにしてもよい。また、複数のプレゼンテーションの種類それぞれに対応するように複数種類の機械学習済みモデルを予め作成しておき、それらの複数種類の機械学習済みモデルをすべて用いるようにしてもよいし、それらの複数種類の機械学習済みモデルから選択して用いるようにしてもよい。機械学習済みモデルの選択は、ユーザが手動で行ってもよいし、発表者の属性、プレゼンテーションの種類、前記言語特徴量、前記韻律特徴量及び前記動作特徴量の少なくとも一つに基づいて行ってもよい。また、複数種類の機械学習済みモデルそれぞれについてキャリブレーションを行い、そのキャリブレーションの情報をもとに選択してもよい。ここで、「キャリブレーション」とは、学習済みモデルによって算出された予測確率を本来の確率に近づける処理である。また、複数種類の機械学習済みモデルをすべて用いて解析を行い最も精度が高かった機械学習済みモデルを選択し、その後の解析に用いるようにしてもよい。
【0027】
また、プレゼンテーションの評価に用いる解析モデル(機械学習済みモデル)は、韻律特徴量、言語特徴量及び動作特徴量それぞれに含まれる複数種類の特徴量のうち音声データ及び動画データからパターン化して抽出する処理に所定の時間以上を要する特徴量やパターン化が困難な特徴量(例えば、後述のフィラー数)を入力として用いない解析モデルであってもよい。ここで、前記抽出する処理に所定の時間以上を要する特徴量や前記パターン化が困難な特徴量には、例えば、パターンが多様であるため既存サービスを使った特徴量化では解析に十分な水準が得られない特徴量、水準を満たそうとすると人手による作業などが必要になりリアルタイムの処理ができなくなる特徴量などが含まれる。
【0028】
図2は、本実施形態に係るプレゼンテーション評価の手順の一例を示す説明図である。
図2において、実施形態に係るプレゼンテーション評価システムを利用する場合、ユーザが端末装置20を操作して、端末装置20に予め組み込まれているプレゼンテーション評価のアプリケーションのプログラムを起動する。ユーザがデータ取得開始操作を行うと、端末装置20のマイク及びカメラにより、対象者である発表者10が行っているプレゼンテーションの音声入力及び動画の撮像が行われ、当該プレゼンテーションの音声データ及び動画データが取得される(ステップS1)。なお、取得するデータは、プレゼンテーションを行っている発表者10について測定した赤外線センサ、心拍センサ等の各種センサで検知した検知データを含んでもよい。
【0029】
次に、プレゼンテーションが終わってユーザがデータ取得終了操作を行うと、当該プレゼンテーションの音声データ及び動画データが端末装置20から移動通信網を介して、通信網上に構築された情報処理装置(クラウドサービスプラットフォーム)30に送信される(ステップS2)。
【0030】
情報処理装置(クラウドサービスプラットフォーム)30は、端末装置20から受信した音声データをテキストデータに変換する文字起こし処理を行って言語特徴量を抽出し、音声データからプレゼンテーションの韻律特徴量を抽出し、端末装置20から受信したから前記プレゼンテーションを行っているときの対象者である発表者10の動作特徴量を抽出する(ステップS3)。更に、情報処理装置30は、前記抽出した言語特徴量、韻律特徴量、動作特徴量を解析して、前述の目的網羅性、内容ロジック(内容の論理性)、ビジュアル及びボーカル(見え方及び聞こえ方)、並びに効果的演出要素のそれぞれの評価項目について定量的に評価した評価値を含む解析結果を推定し(ステップS4)、その解析結果を、移動通信網を介して端末装置20に送信する(ステップS5)。なお、韻律特徴量は、プレゼンテーションを行っている発表者10の声の特徴量を含み、言語特徴量は、プレゼンテーションを行っている発表者10の発話内容の特徴量を含み、動作特徴量は、プレゼンテーションを行っている発表者10のジェスチャの特徴量を含んでもよい。また、解析に用いる特徴量は、前記各種センサの検知データから抽出した体温、心拍数などを含んでもよい。
【0031】
端末装置20は、情報処理装置30から、プレゼンテーションの解析結果を受信すると、その解析結果を自装置の画面上に表示する(ステップS6)。
【0032】
図3は、本実施形態に係るシステムにおける端末装置20及び情報処理装置30の概略構成の一例を示すブロック図である。なお、
図3及び前述の
図2の例では、情報処理装置30が通信網上に構築されたクラウドプラットフォームであるが、情報処理装置30は、一又は複数のコンピュータ装置からなるサーバであってもよい。また、
図3の例では、本システムの端末装置20のユーザがプレゼンテーションの発表者自身である場合の例であるが、端末装置20のユーザは、プレゼンテーションの発表者以外の者であってもよい。
【0033】
図3において、端末装置20は、データ取得部201とデータ確認部202とデータ取得助言表示部(データ取得助言出力部)203とデータ送信部204と解析結果受信部205と解析結果表示部(解析結果出力部)206とを備える。端末装置20の各部におけるデータ処理及び信号処理の機能は、例えば、端末装置20に設けられたコンピュータ又はプロセッサにおいて所定のアプリケーションプログラムが実行されることで実現される。
【0034】
データ取得部201は、プレゼンテーションを行っている発表者10の様子をカメラで撮像して動画データにするとともに、発表者10の音声をマイクで取得して音声データにする。動画データ及び音声データをメモリに一時的に保存してもよい。
【0035】
データ確認部202は、データ取得部201で取得した動画データ及び音声データの品質が後段の解析を行うにあたって問題ないか否かを確認する。例えば、データ確認部202は、音声データに関し、音声の音圧の値が指定の範囲内にあるか、及び,周囲の雑音の大きさが所定の閾値以内であるかを確認し、動画データに関し、動作特徴量の抽出のための座標を取得する発表者10の身体部がすべて画像中に含まれているか、及び、発表者10の正面方向に対する動画撮像方向の画角が所定の角度範囲内にあること、を確認する。ここで、所定の角度範囲は、後段の処理で動作特徴量の抽出が可能な角度範囲(例えば、±30度の角度範囲)である。また、データ確認部202は、発表者10に特定の文章を読み上げてもらい、その音声を文字起こしした際に正しく認識されていれば、音声データが後段の解析を行うにあたって問題ない「解析可能な品質」を有すると判定してもよい。また、データ確認部202は、発表者10に特定の動作をしてもらい、特定の骨格情報が認識されれば、動画データが後段の解析を行うにあたって問題ない「解析可能な品質」を有すると判定してもよい。例えば、肘を伸ばして両手を真上にあげる動作をしてもらい、その真上に上げた両手が認識されれば、動画データが「解析可能な品質」を有すると判定してもよい。
【0036】
データ確認部202は、動画データ及び音声データの品質に問題がある場合(図中のNG(否定的な結果)の場合)、その情報をデータ取得助言表示部203に送る。データ取得助言表示部203は、データ確認部202から受けた情報に基づいて、声を大きくする、プレゼンテーションを行っている位置を変化させる等の助言メッセージを、端末装置20のディスプレイ上に表示する。なお、助言メッセージは、表示に加えて又は代えて、音声で出力してもよい。
【0037】
一方、当該品質に問題がない場合(図中のOK(肯定的な結果)の場合)、データ確認部202は、動画データ及び音声データをデータ送信部204に送る。データ送信部204は、例えば無線通信装置等により、移動通信網などの通信網を介して、動画データ及び音声データを情報処理装置(クラウドサービスプラットフォーム)30に送信する。
【0038】
なお、データ送信部204は、動画データ及び音声データとともに、対応するプレゼンテーションの種類に関する情報や発表者の属性に関する情報を情報処理装置30に送信してもよい。また、データ送信部204は、動画データ及び音声データともに、それらのデータを識別するためのデータ群ID、又は、それらのデータに対応するプレゼンテーションを識別するためのプレゼンテーションIDを送信してもよい。
【0039】
解析結果受信部205は、例えば無線通信装置等により、移動通信網などの通信網を介して、プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を情報処理装置30から受信する。
【0040】
解析結果表示部206は、情報処理装置30から受信したプレゼンテーションの解析結果を端末装置20のディスプレイ上に表示する。プレゼンテーションの解析結果は、例えば
図6に例示するように、なお、解析結果は、表示に加えて又は代えて、音声で出力してもよい。
【0041】
情報処理装置(クラウドサービスプラットフォーム)30は、データ受信部301と特徴量抽出部302と解析モデル判定部303と推論部304と解析モデルデータベース(DB)305と解析結果送信部306とを備える。情報処理装置30の各部におけるデータ処理及び信号処理の機能は、例えば、情報処理装置30に設けられた一又は複数のコンピュータ又はプロセッサにおいて所定のプログラムが実行されることで実現される。
【0042】
データ受信部301は、例えば無線通信装置等により、移動通信網などの通信網を介して、動画データ及び音声データを端末装置20から受信する。なお、データ受信部301は、動画データ及び音声データとともに、対応するプレゼンテーションの種類に関する情報や発表者の属性に関する情報を端末装置20から受信してもよい。
【0043】
特徴量抽出部302は、端末装置20から受信した動画データ及び音声データから、後述の解析モデル(機械学習済みモデル)に説明変数として入力する各種特徴量を抽出する。例えば、
図4に例示する特徴量抽出部302は、音声解析部321と言語解析部322と動作解析部323とを備える。音声解析部321の文字起こし部3211は、端末装置20から受信した音声データを音声認識によりテキストデータに変換する文字起こし処理を行う。
【0044】
言語解析部322は、文字起こし部3211で得られたテキストデータから、表1に例示するプレゼンテーションの言語特徴量を抽出する。表1中のフィラーは、「えー」、「あのー」、「はいっ」、「えーっと」等の言葉と言葉の隙間を埋めるために使う言葉又は音である。また、動詞繰り返し数は、プレゼンテーション中で繰り返された同一動詞の繰り返し数の最大値であり、名詞繰り返し数は、プレゼンテーション中で繰り返された同一名詞の繰り返し数の最大値である。
【表1】
【0045】
また、
図4に例示する音声解析部321の韻律解析部3212は、音声データから、表2に例示するプレゼンテーションの韻律特徴量を抽出する。表2中のピッチは音声の高さ(周波数)である。インテンシティは音声の物理的な強さであり、例えば単位面積を通して伝わる音響パワー[W/m
2]である。また、合計発話長はプレゼンテーション全体における発話時間の合計値であり、合計発話長(1秒以上)は1秒以上の発話時間の合計値である。また、合計無音長は、プレゼンテーション全体における無音時間の合計値であり、合計無音長(1秒以上)は、1秒以上の無音時間の合計値である。また、発話比は、プレゼンテーション全体の時間に対する発話時間の合計値の比率であり、発話比(1秒以上)は、プレゼンテーション全体の時間に対する1秒以上の発話時間の合計値の比率である。
【表2】
【0046】
また、
図4に例示する動作解析部323は、動画データを解析することにより、表3に例示する動作特徴量を抽出する。表3中の身体各部の動作量は、例えば次のように計算する。
図5(a)に示すように発表者10を撮像した動画中の骨格検出像100の検出点(関節点)101~119について、例えば
図5(b)に示すように動画のフレームごとの2次元的な位置座標(X,Z)の時間変化量(軌跡)を計算する。そのすべての検出点101~119におけるフレーム単位の位置座標の変化量である動作量の平均及び標準偏差が、表3中の身体各部の動作量の平均及び標準偏差である。また、表3中の発話中の身体各部の動作量の平均及び標準偏差は、発表者が発話している時間帯について計算した、発表者の骨格検出像100の検出点101~119における動作量の平均及び標準偏差である。
【表3】
【0047】
なお、動作特徴量としては、上記動作量の平均及び標準偏差の加えて又は代えて、発表者の骨格検出像100の検出点101~119の速度、加速度又はその両者の平均及び標準変化を用いてもよい。
【0048】
解析モデル判定部303は、特徴量抽出部302で抽出した韻律特徴量、言語特徴量及び動作特徴量に基づいて、それらの特徴量を解析してプレゼンテーションの評価項目の定量的な評価に使用する解析モデルを判定する。例えば、解析モデル判定部303は、韻律特徴量、言語特徴量及び動作特徴量に基づいて、評価対象のプレゼンテーションの種類及び発表者の種類を判定し、当該プレゼンテーションの評価項目の定量的な評価に適する解析モデルを、予め登録した複数種類の解析モデルから選択して決定し、その決定した解析モデルを識別する解析モデルIDを特徴量抽出部302に出力する。また、解析モデル判定部303は、予め登録した複数種類の解析モデルをすべて選択して決定し、その決定した複数種類の解析モデルそれぞれを識別する複数の解析モデルIDを特徴量抽出部302に出力してもよい。
【0049】
なお、解析モデルの選択・決定には、端末装置20から受信した発表者(プレゼンター)の属性(例えば、年齢層、性別、プレゼンテーションの経験度)の情報、及び、プレゼンテーションの種類の情報の少なくとも一方の情報を用いてもよい。
【0050】
推論部304は、特徴量抽出部302から受信した一又は複数の解析モデルIDに基づいて、解析モデルDB305に保存されている複数の解析モデルから、当該プレゼンテーションの評価項目の定量的な評価に使用する解析モデル(推定プログラム及びそれに用いる学習済みのパラメータ値)を選択する。
【0051】
解析モデルは、前述のように複数の教師あり学習データを用いて予め機械学習することによりモデルにおける各特徴量に対する重み等のパラメータの値を決定して作成した機械学習済みモデルである。推論部304で用いる機械学習済みモデルは、前記複数の評価項目を一括して出力するものであってもよいし、複数の評価項目それぞれについて出力する評価値の精度を高めるために評価項目ごとに設けてもよい。
【0052】
本実施形態の機械学習済みモデルに用いるアルゴリズムは特定のアルゴリズムに限定されない。例えば、教師あり学習データを用いて学習する機械学習済みモデルのアルゴリズムとしては、数値データを学習して数値を予測する「回帰(Regression)」に分類されるSVR(サポートベクター回帰)を用いることができる。このSVRの代わりに、線形回帰(Linear (Ordinary) Regression)、ベイズ線形回帰(Bayesian Linear Regression)、ランダムフォレスト(Randam (Decision) Forest)、ブースト決定木(Boosed decision tree)、高速フォレスト分布(Fast forest quantile)、ニューラルネットワーク(Neural network)、ポアソン回帰(Poisson Regression)、サポートベクトル序数回帰(Ordinal Regression)、リッジ回帰(Ridge Regression)、ラッソ回帰(Lasso Regression)などを用いてもよい。
【0053】
推論部304は、解析モデルIDに基づいて選択した一又は複数の解析モデル(推定プログラム及びそれに用いる学習済みのパラメータ値を含む機械学習済みモデル)に、特徴量抽出部302から受信した言語特徴量、韻律特徴量及び動作特徴量が入力されることにより、所定の評価項目について定量的に評価した評価値を出力する。例えば、推論部304は、表4に例示する14種類の評価項目それぞれについて3段階(1~3)の定量的な評価値を出力する。
【表4】
【0054】
推論部304が出力する解析結果は、発表者にフィードバック(FB)する定性的な評価として、例えば次の(1)~(4)に例示するような、プレゼンテーション全体に対する一言コメント(フィードバックコメント)を含んでもよい。
(1)特に「強調」は充分に発揮できています。
(2)特に「強調」は意識して臨んでください。
(3)視線が宙に浮いているためアイコンタクトは無し。時折ジェスチュアは自然に出ているが、左右に揺れる癖がある。笑顔は終始出ている。
(4)声量があって聞こえやすい。時折抑揚はついているが、間が無い。ジェスチュアは自然に出ているが、話しの中身と合わないジェスチュアが時折出る。
【0055】
前記一言コメント(フィードバックコメント)は、例えば表5に例示するように、前述のSVM等の解析モデルによって推定する評価項目の評価値と決定係数とに基づいて生成することができる。ここで、決定係数は、SVM等の解析モデルによる評価値の推定の精度を示す値であり、-1から+1の値をとる。例えば、この決定係数の絶対値が0.2よりも小さいときは、評価値の推定の精度が低く、決定係数の絶対値が0.2以上1以下ときは、評価値の推定の精度が十分に高いと判断することができる。
【表5】
【0056】
表5は、前述の効果的演出要素の「強調」の評価値及び決定係数に基づいて一言コメント(フィードバックコメント)を生成する場合の例である。例えば、表5中の評価項目「強調」の評価値が1であり、決定係数の絶対値が0.2以上であって推定精度が充分に高いと判断した場合は、『特に「強調」は充分に発揮できています。』という一言コメントを生成する。また、評価項目「強調」の評価値が0であり、決定係数の絶対値が0.2以上であって推定精度が充分に高いと判断した場合は、『特に「強調」は意識して臨んでください。』という一言コメントを生成する。決定係数の絶対値が0.2よりも小さく推定精度が低いと判断した場合は、一言コメントを生成しない。
【0057】
ここで、推論部304は、一言コメントの候補として、『特に「評価項目名」は充分に発揮できています。』及び『特に「評価項目名」は意識して臨んでください。』を記憶しておき、「」内の部分に、「強調」、「繰り返し」などの評価項目名を入れて一言コメントを生成してもよい。
【0058】
解析モデルデータベース(DB)305は、前述のように互いに異なる解析モデルIDを付与して複数種類の解析モデルを保存している。解析モデルは、推定プログラム及びそれに用いる学習済みのパラメータ値からなる機械学習済みモデルである。例えば、複数種類の機械学習済みモデルはそれぞれ、入力及び出力の形式が共通であり、複数種類のプレゼンテーションと複数種類の発表者との複数の組み合わせについて予め作成されたプレゼンテーションの評価項目の定量的な評価に適する解析モデルである。複数種類の機械学習済みモデルは、発表者10の個性又はユーザ40の個性に応じて作成されたものであってもよい。また、機械学習済みモデルは、前述のように、複数の評価項目を一括して出力するものであってもよいし、複数の評価項目それぞれについて出力する評価値の精度を高めるために評価項目ごとに設けてもよい。
【0059】
解析結果送信部306は、推論部304から出力された評価値を含む解析結果を、移動通信網などの通信網を介して端末装置20に送信する。解析結果送信部306は、解析結果とともに、その解析結果に対応する前述のデータ群ID又はプレゼンテーションIDを送信してもよい。
【0060】
図6は、本実施形態に係る端末装置20における解析結果の表示画面21の一例を示す説明図である。
図6に例示する端末装置20の表示画面21は、定量的評価表示部211と定性的評価表示部212とを有する。定量的評価表示部211には、前述の表4の14種類の評価項目それぞれの定量的な評価値が数字及びグラフで表示される。定性的評価表示部212には、前述の情報処理装置30からフィードバック(FB)された一言コメントが表示される。表示画面21には、評価値を含む解析結果の根拠となった韻律特徴量、言語特徴量及び動作特徴量のデータや解析モデル(機械学習済みモデル)の情報を表示してもよい。
【0061】
以上、本実施形態によれば、プレゼンテーションの言語特徴量、韻律特徴量及び動作特徴量といったマルチモーダルな特徴量を解析してプレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を推定して出力できるため、プレゼンテーションの多角的な視点からの定量評価が可能である。しかも、そのプレゼンテーションの評価に用いる言語特徴量、韻律特徴量及び動作特徴量は、音声データ及び動画データから抽出することができ、視点方向検知装置のような特別なハードウェアを必要としないため、ユーザが使用する端末装置等に実装するときのハードルが低い。
【0062】
また、本実施形態によれば、所定の品質を有する音声データ及び動画データのみを言語特徴量、韻律特徴量及び動作特徴量の抽出に用いることにより、各特徴量の抽出精度を高めることができる。特に、所定の音圧を有し雑音が所定以下の音声データを言語特徴量及び韻律特徴量の抽出に用いることにより言語特徴量及び韻律特徴量の抽出精度を高め、動作特徴量の抽出に用いる座標を取得する対象者の身体部が含まれ所定の角度範囲内の画角を有する動画データを動作特徴量の抽出に用いることにより、動作特徴量の抽出精度を高めることができる。音声データ及び動画データが所定の品質を有していないときに音声データ及び動画データの取得に関する助言メッセージを表示(出力)することにより、本システムによる評価が可能なプレゼンテーション又はその評価に適したプレゼンテーションを行うように発表者に注意して促すことができる。
【0063】
また、本実施形態によれば、言語特徴量、韻律特徴量及び動作特徴量を含む入力を所定のアルゴリズムで処理することにより定量的な評価値を含む解析結果を出力する解析モデルを用いることにより、言語特徴量、韻律特徴量及び動作特徴量といったマルチモーダルな特徴量を統合して推定した評価値を含む解析結果を推定できる。
【0064】
また、本実施形態によれば、言語特徴量、韻律特徴量及び動作特徴量それぞれが複数種類の特徴量を含むので、プレゼンテーションのより多角的な評価が可能になる。また、複数種類の特徴量のうち音声データ及び動画データからパターン化して抽出する処理に所定の時間以上を要する特徴量を入力として用いない解析モデルを用いることにより、プレゼンテーションの定量的な評価値を含む解析結果の情報処理装置30から端末装置20へのリアルタイムフィードバックが可能になる。
【0065】
また、本実施形態によれば、アルゴリズムが互いに異なる複数種類の解析モデルから選択した解析モデルを、韻律特徴量、言語特徴量及び動作特徴量の解析に使用することにより、各種の条件に応じて、プレゼンテーションの精度の高い評価が可能になる。特に、言語特徴量、韻律特徴量及び動作特徴量の少なくとも一つに基づいて選択した解析モデルを用いることにより、特徴量に応じた高い精度の評価が可能になる。また、プレゼンテーションの発表者(対象者)の属性及びプレゼンテーションの種類の少なくとも一方に基づいて選択した解析モデルを用いることにより、発表者の属性及びプレゼンテーションの種類に応じた高い精度の評価が可能になる。また、複数のプレゼンテーションについて予め取得した言語特徴量、韻律特徴量及び動作特徴量と評価値の正解データとを含む教師あり学習データを用いて機械学習して作成された学習済みモデルを用いることにより、評価対象のプレゼンテーションの言語特徴量、韻律特徴量及び動作特徴量を入力してプレゼンテーションの多角的な視点からの定量評価が出力可能になる。
【0066】
特に、本実施形態によれば、プレゼンテーションの全文におけるフィラー数、名詞数、動詞数、感動詞、動詞繰り返し数及び名詞繰り返し数の少なくとも一つに関する言語特徴量の観点から評価した評価値を出力することができる。また、プレゼンテーションの音声におけるピッチ、インテンシティ、音圧、抑揚、話速、発話長、無音長及び発話比の少なくとも一つに関する韻律特徴量の観点から評価した評価値を出力することができる。また、プレゼンテーションの全体における発表者の身体各部の動作量及び発話中における発表者の身体各部の動作量の少なくとも一つに関する動作特徴量の観点から評価した評価値を出力することができる。
【0067】
また、本実施形態によれば、プレゼンテーションの目的網羅性、内容の論理性、見え方及び聞こえ方、並びに、効果的演出要素を含む多角的な評価を出力できる。
【0068】
また、本実施形態によれば、評価値及びその評価値を推定したときの決定係数に基づいて生成した一言コメントを解析結果に含めることにより、プレゼンテーションの発表者又は端末装置20のユーザに直感的でわかりやすい評価を伝えることができる。
【0069】
また、本実施形態によれば、対象者である発表者10が行っているプレゼンテーションの音声データ及び動画データを端末装置20で取得するという簡易な操作で、プレゼンテーションの多角的な視点からの定量的な評価値を含む解析結果を端末装置20に出力することができる。
【0070】
なお、本明細書で説明された処理工程並びにプレゼンテーション評価を行うシステム、端末装置、情報処理装置の構成要素は、様々な手段によって実装することができる。例えば、これらの工程及び構成要素は、ハードウェア、ファームウェア、ソフトウェア、又は、それらの組み合わせで実装されてもよい。
【0071】
ハードウェア実装については、実体(例えば、コンピュータ装置、サーバ、クラウドサービスプラットフォーム(クラウドコンピュータシステム)、各種無線通信装置、Node B、端末、ハードディスクドライブ装置、又は、光ディスクドライブ装置)において上記工程及び構成要素を実現するために用いられる処理ユニット等の手段は、1つ又は複数の、特定用途向けIC(ASIC)、デジタルシグナルプロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブル・ロジック・デバイス(PLD)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、本明細書で説明された機能を実行するようにデザインされた他の電子ユニット、コンピュータ、又は、それらの組み合わせの中に実装されてもよい。
【0072】
また、ファームウェア及び/又はソフトウェア実装については、上記構成要素を実現するために用いられる処理ユニット等の手段は、本明細書で説明された機能を実行するプログラム(例えば、プロシージャ、関数、モジュール、インストラクション、などのコード)で実装されてもよい。一般に、ファームウェア及び/又はソフトウェアのコードを明確に具体化する任意のコンピュータ/プロセッサ読み取り可能な媒体が、本明細書で説明された上記工程及び構成要素を実現するために用いられる処理ユニット等の手段の実装に利用されてもよい。例えば、ファームウェア及び/又はソフトウェアコードは、例えば制御装置において、メモリに記憶され、コンピュータやプロセッサにより実行されてもよい。そのメモリは、コンピュータやプロセッサの内部に実装されてもよいし、又は、プロセッサの外部に実装されてもよい。また、ファームウェア及び/又はソフトウェアコードは、例えば、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、不揮発性ランダムアクセスメモリ(NVRAM)、プログラマブルリードオンリーメモリ(PROM)、電気的消去可能PROM(EEPROM)、FLASHメモリ、フロッピー(登録商標)ディスク、コンパクトディスク(CD)、デジタルバーサタイルディスク(DVD)、磁気又は光データ記憶装置、などのような、コンピュータやプロセッサで読み取り可能な媒体に記憶されてもよい。そのコードは、1又は複数のコンピュータやプロセッサにより実行されてもよく、また、コンピュータやプロセッサに、本明細書で説明された機能性のある態様を実行させてもよい。
【0073】
また、前記媒体は非一時的な記録媒体であってもよい。また、前記プログラムのコードは、コンピュータ、プロセッサ、又は他のデバイス若しくは装置機械で読み込んで実行可能であれよく、その形式は特定の形式に限定されない。例えば、前記プログラムのコードは、ソースコード、オブジェクトコード及びバイナリコードのいずれでもよく、また、それらのコードの2以上が混在したものであってもよい。
【0074】
また、本明細書で開示された実施形態の説明は、当業者が本開示を製造又は使用するのを可能にするために提供される。本開示に対するさまざまな修正は当業者には容易に明白になり、本明細書で定義される一般的原理は、本開示の趣旨又は範囲から逸脱することなく、他のバリエーションに適用可能である。それゆえ、本開示は、本明細書で説明される例及びデザインに限定されるものではなく、本明細書で開示された原理及び新規な特徴に合致する最も広い範囲に認められるべきである。
【符号の説明】
【0075】
10 :発表者
20 :端末装置
21 :表示画面
30 :情報処理装置
40 :ユーザ
100 :骨格検出像
101~119 :検出点
201 :データ取得部
202 :データ確認部
203 :データ取得助言表示部
204 :データ送信部
205 :解析結果受信部
206 :解析結果表示部
211 :定量的評価表示部
212 :定性的評価表示部
301 :データ受信部
302 :特徴量抽出部
303 :解析モデル判定部
304 :推論部
305 :解析モデルDB
306 :解析結果送信部
321 :音声解析部
322 :言語解析部
323 :動作解析部
3211 :文字起こし部
3212 :韻律解析部