【文献】
戸井 英晃 Hideaki TOI,評価タグ機能を有した技能評価を目的とした映像アノテーションシステムの提案 Proposal for visual annotation system aiming for technical valuation with evaluative tagging function,電子情報通信学会技術研究報告 Vol.113 No.106 IEICE Technical Report,日本,一般社団法人電子情報通信学会 The Institute of Electronics,Information and Communication Engineers,2013年06月15日,第113巻,p17-22
(58)【調査した分野】(Int.Cl.,DB名)
第1ユーザが話している様子を撮影した動画データと、当該動画データのいずれかの再生時点に付加された、前記第1ユーザの話し方または表情に対する肯定的な評価を示す高評価タグに関する情報を含むタグ情報とを記憶する記憶部と、
前記タグ情報を基に、横軸に前記動画データの再生時間帯を示し、縦軸に当該再生時間帯毎の前記高評価タグの数を示すヒストグラムを生成し、当該ヒストグラムを前記動画データの再生画面と共に出力する制御部と
を具備し、
前記高評価タグは、複数の第2ユーザのユーザ端末上で再生中の前記動画データのいずれかの再生時点で各第2ユーザにより所定の第1操作が入力されることで付加され、
前記制御部は、前記ヒストグラム中のいずれかの柱を選択する操作が前記第1ユーザまたは前記第2ユーザにより入力された場合、当該柱に対応する再生時間帯の冒頭の時点へ前記動画データの再生時点を移動させる 情報処理システム。
第1ユーザが話している様子を撮影した動画データと、当該動画データのいずれかの再生時点に付加された、前記第1ユーザの話し方または表情に対する肯定的な評価を示す高評価タグに関する情報を含むタグ情報とを記憶し、
前記タグ情報を基に、横軸に前記動画データの再生時間帯を示し、縦軸に当該再生時間帯毎の前記高評価タグの数を示すヒストグラムを生成し、
前記ヒストグラムを前記動画データの再生画面と共に出力する、
情報処理方法であって、
前記高評価タグは、複数の第2ユーザのユーザ端末上で再生中の前記動画データのいずれかの再生時点で各第2ユーザにより所定の操作が入力されることで付加され、
当該情報処理方法はさらに、
前記ヒストグラム中のいずれかの柱を選択する操作が前記第1ユーザまたは前記第2ユーザにより入力された場合、当該柱に対応する再生時間帯の冒頭の時点へ前記動画データの再生時点を移動させる
情報処理方法。
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記特許文献1のような従来技術では、特定の表情やジェスチャーに関する評価は可能であるものの、ユーザの話し始めから話し終わりまでの間に、ユーザの表情がどのように変化することでどのように評価が変化するのか、どのような表情の箇所に高評価が集中しているか、といった時系列的な分析はできていない。
【0006】
以上のような事情に鑑み、本発明の目的は、ユーザの話し方や表情の変化に伴う評価の時系列変化をユーザに把握させることが可能な情報処理システム、情報処理方法及びプログラムを提供することにある。
【課題を解決するための手段】
【0007】
上記目的を達成するため、本発明の一形態に係る情報処理システムは、記憶部と制御部とを有する。上記記憶部は、第1ユーザが話している様子を撮影した動画データと、当該動画データのいずれかの再生時点に付加された、上記第1ユーザの話し方または表情に対する肯定的な評価を示す高評価タグに関する情報を含むタグ情報とを記憶する。上記制御部は、上記タグ情報を基に、横軸に上記動画データの再生時間帯を示し、縦軸に当該再生時間帯毎の上記高評価タグの数を示すヒストグラムを生成し、当該ヒストグラムを上記動画データの再生画面と共に出力する。上記高評価タグは、複数の第2ユーザのユーザ端末上で再生中の上記動画データのいずれかの再生時点で各第2ユーザにより所定の第1操作が入力されることで付加される。
【0008】
この構成により情報処理システムは、動画データの再生時点毎に紐づけられた高評価タグの数を再生時間帯毎にヒストグラムで表すことで、動画データの被写体であるユーザの話し方や表情の変化に伴う他のユーザの評価の時系列変化(例えば、どのような表情のシーンに高評価が集中しているか等)をユーザに把握させることができる。当該情報処理システムは、1または複数の情報処理装置(サーバ、ユーザ端末、またはそれらの組み合わせ)によって構成される。所定の第1操作とは、例えば高評価用のボタン(いいねボタン)の押下(タップ、クリック)操作等である。
【0009】
上記制御部は、上記ヒストグラム中のいずれかの柱(ビン)を選択する操作が上記第1ユーザまたは上記第2ユーザにより入力された場合、当該柱に対応する再生時間帯の冒頭の時点へ上記動画データの再生時点を移動させてもよい。
【0010】
これにより、ヒストグラムのいずれかの柱を選択させるだけで、動画中でユーザの話し方や表情の評価が高いシーンや評価が低いシーンをユーザに容易にサーチさせて閲覧させることができる。
【0011】
上記制御部は、上記ヒストグラムにおいて、当該動画データにおける再生中の時点を含む再生時間帯の柱を強調表示してもよい。
【0012】
これにより、動画データ上の現在再生中の時間帯においてユーザの話し方や表情が高評価を受けているか否かをユーザに把握させることができる。強調表示とは、例えば、他の柱と異なる色や輝度、線幅で表示したり(ハイライト表示等)、柱の幅を他の柱より大きくしたりすること等であるが、これらに限られない。
【0013】
上記記憶部は、動画データのいずれかの再生時点に付加された、上記第1ユーザの話し方または表情に対する否定的な評価を示す低評価タグに関する情報を上記タグ情報として記憶してもよい。この場合上記低評価タグは、複数の第2ユーザのユーザ端末上で再生中の上記動画データのいずれかの再生時点で各第2ユーザにより所定の第2操作が入力されることで付加されてもよい。この場合上記制御部は、上記ヒストグラムにおいて、上記再生時間帯毎の上記高評価タグの数を示す柱と上記低評価タグの数を示す柱とを異なる表示形態で積層させて表示してもよい。
【0014】
これにより、ユーザの話し方や表情に対する高い評価のみならず低い評価の時系列変化もユーザに把握させることができる。第2操作とは、例えば低評価用のボタン(悪いねボタン)の押下(タップ、クリック)操作等である。
【0015】
上記記憶部は、いずれかの上記第2ユーザのユーザ端末において入力された上記第1操作により上記高評価タグが付加されるたびに上記タグ情報を更新してもよい。この場合上記制御部は、上記更新されたタグ情報に含まれる上記高評価タグの数に応じて上記出力されたヒストグラムを変更してもよい。
【0016】
これにより、ユーザの話し方や表情に対する各ユーザの評価をヒストグラムにリアルタイムに反映させることができる。
【0017】
本発明の他の形態に係る情報処理方法は、
第1ユーザが話している様子を撮影した動画データと、当該動画データのいずれかの再生時点に付加された、上記第1ユーザの話し方または表情に対する肯定的な評価を示す高評価タグに関する情報を含むタグ情報とを記憶し、
上記タグ情報を基に、横軸に上記動画データの再生時間帯を示し、縦軸に当該再生時間帯毎の上記高評価タグの数を示すヒストグラムを生成し、
上記ヒストグラムを上記動画データの再生画面と共に出力する、ことを含む。
ここで上記高評価タグは、複数の第2ユーザのユーザ端末上で再生中の上記動画データのいずれかの再生時点で各第2ユーザにより所定の操作が入力されることで付加される。
【0018】
本発明の他の形態に係るプログラムは、情報処理装置に、
第1ユーザが話している様子を撮影した動画データと、当該動画データのいずれかの再生時点に付加された、上記第1ユーザの話し方または表情に対する肯定的な評価を示す高評価タグに関する情報を含むタグ情報とを記憶するステップと、
上記タグ情報を基に、横軸に上記動画データの再生時間帯を示し、縦軸に当該再生時間帯毎の上記高評価タグの数を示すヒストグラムを生成するステップと、
上記ヒストグラムを上記動画データの再生画面と共に出力するステップ
を実行させる。
ここで上記高評価タグは、複数の第2ユーザのユーザ端末上で再生中の上記動画データのいずれかの再生時点で各第2ユーザにより所定の操作が入力されることで付加される。
【発明の効果】
【0019】
以上説明したように、本発明によれば、ユーザの話し方及び表情の変化に伴う評価の時系列変化をユーザに把握させることができる。しかし、当該効果は本発明を限定するものではない。
【発明を実施するための形態】
【0021】
以下、図面を参照しながら、本発明の実施形態を説明する。
【0022】
[システムの構成]
図1は、本実施形態に係る話し方評価システムの構成を示した図である。
【0023】
同図に示すように、このシステムは、インターネット上の話し方評価サーバ100と、複数のユーザ端末200と含む。
【0024】
話し方評価サーバ100は、例えば百貨店の接客担当の従業員等、接客(コミュニケーション)スキルが要求される従業員の教育や、企業の面接に向けたトレーニング等を目的として、ユーザの話し方を評価するサービスを提供するサーバである。話し方評価サーバ100は、複数のユーザ端末200とインターネット等のネットワークを介して接続されている。
【0025】
ユーザ端末200(200A,200B,200C...)は、ユーザ(例えば企業の従業員や教育担当管理者、または就職活動中の学生等)により使用される端末であり、例えばスマートフォン、携帯電話、タブレットPC(Personal Computer)、ノートブックPC、デスクトップPC等である。
【0026】
ユーザ端末200には、上記話し方評価サーバ100が提供するサービスに対応したアプリケーション(話し方評価アプリ)がインストールされている。ユーザ端末200のユーザは、自身が話している様子を撮影した動画を、話し方評価アプリを介して話し方評価サーバ100へアップロードする。
【0027】
話し方評価サーバ100は、ユーザ端末200とHTTPSによる通信を行うWebサーバ、上記ユーザ端末200からアップロードされた動画、及びその動画中のユーザの話し方に関する評価情報や解析情報等のデータを記憶するデータベース、当該動画の解析を実行するAIエンジン等を有する。
【0028】
自身の話す様子を撮影した動画をユーザ端末200AによりアップロードしたユーザAは、話し方評価サーバ100から、AIエンジンによる話し方の解析結果を受信して確認することができる。また自身の動画をアップロードしたユーザA以外のユーザ(ユーザB)は、ユーザ端末200Bにより話し方評価サーバ100から動画をダウンロードして閲覧し、動画の任意の再生時点に、当該ユーザAの話し方の評価する評価タグ(いいね/悪いね等)を動画に付加して話し方評価サーバ100に登録することができ、ユーザAは当該評価結果を受信し確認することも可能である。
【0029】
またそれらユーザとは別にユーザAの管理者(例えば教育担当者)であるユーザCは、ユーザ端末200Cにより話し方評価サーバ100へアクセスして、自身が担当するユーザAの上記解析結果や評価結果等のデータをWeb上で閲覧することが可能である。また当該ユーザCが上記評価タグを付加することも可能である。
【0030】
[話し方評価サーバのハードウェア構成]
図2は、上記話し方評価サーバ100のハードウェア構成を示した図である。同図に示すように、話し方評価サーバ100は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、入出力インタフェース15、及び、これらを互いに接続するバス14を備える。
【0031】
CPU11は、必要に応じてRAM13等に適宜アクセスし、各種演算処理を行いながら話し方評価サーバ100の各ブロック全体を統括的に制御する。ROM12は、CPU11に実行させるOS、プログラムや各種パラメータなどのファームウェアが固定的に記憶されている不揮発性のメモリである。RAM13は、CPU11の作業用領域等として用いられ、OS、実行中の各種アプリケーション、処理中の各種データを一時的に保持する。
【0032】
入出力インタフェース15には、表示部16、操作受付部17、記憶部18、通信部19等が接続される。
【0033】
表示部16は、例えばLCD(Liquid Crystal Display)、OELD(Organic ElectroLuminescence Display)、CRT(Cathode Ray Tube)等を用いた表示デバイスである。
【0034】
操作受付部17は、例えばマウス等のポインティングデバイス、キーボード、タッチパネル、その他の入力装置である。操作受付部17がタッチパネルである場合、そのタッチパネルは表示部16と一体となり得る。
【0035】
記憶部18は、例えばHDD(Hard Disk Drive)や、フラッシュメモリ(SSD;Solid State Drive)、その他の固体メモリ等の不揮発性メモリである。当該記憶部18には、上記OSや各種アプリケーション、各種データが記憶される。
【0036】
特に本実施形態では、記憶部18は、各ユーザ端末200のユーザに関するユーザ情報やアンケート対象となるモニター情報、アンケート(調査票)情報等を記憶するとともに、これらのデータを用いて話し方評価サーバ100が話し方評価処理(評価タグの登録や動画解析等)を実行するためのアプリケーションその他のプログラム及びデータを記憶している。後述するが、記憶部18は、そのようなデータを含むデータベースとして、ユーザ情報データベース31、動画情報データベース32、評価タグ情報33データベース、動画解析情報データベース34を有している。
【0037】
通信部19は、例えばEthernet用のNIC(Network Interface Card)や無線LAN等の無線通信用の各種モジュールであり、上記ユーザ端末200との間の通信処理を担う。
【0038】
[ユーザ端末のハードウェア構成]
上記ユーザ端末200が有するコンピュータとしての基本的なハードウェア構成も(PCとスマートフォンの違い等はあるが)上記話し方評価サーバ100のハードウェア構成と同様であり、CPU21、ROM22、RAM23、バス24、入出力インタフェース25、表示部26、操作受付部27、記憶部28、通信部29を有している。
【0039】
また上述したように、ユーザ端末200には、上記話し方評価サーバ100と接続して話し方の解析結果や評価結果を表示するためのアプリケーション(話し方評価アプリ)がインストールされている。
【0040】
[話し方評価サーバのデータベース構成]
図3は、上記話し方評価サーバ100が有するデータベースの構成を示した図である。
【0041】
同図に示すように、話し方評価サーバ100は、記憶部18に、ユーザ情報データベース31、動画情報データベース32、評価タグ情報データベース33及び動画解析情報データベース34を有している。
【0042】
ユーザ情報データベース31は、ユーザ端末200を所有する、上記話し方評価サーバ100が提供する企画支援サービスの利用者(会員)であるユーザに関する情報を記憶する。具体的には、ユーザ情報データベース42は、ユーザID、パスワード、氏名、メールアドレス、会社名、電話番号、住所、年齢(層)、性別等の情報をユーザ毎に記憶している。
【0043】
動画情報データベース32は、ユーザ端末200から受信した、ユーザが話している様子を撮影した動画データを、当該動画データを識別する動画IDと、その撮影元のユーザの上記ユーザIDと対応付けて記憶している。
【0044】
評価タグ情報データベース33は、上記動画情報データベース32中の動画に対して他のユーザが付加した評価タグに関する情報を記憶している。
【0045】
図5は当該評価タグデータベース33に記憶されたデータの例を示した図である。当該評価タグに関するデータとしては、同
図Aに示すタグカテゴリ情報と、同
図Bに示すタグ情報とがある。
【0046】
タグカテゴリ情報は、例えばいいね(肯定的な評価)、悪いね(否定的な評価)、笑顔といった評価タグのカテゴリを示したものであり、それらタグカテゴリ名がタグカテゴリIDと対応付けて記憶されている。
【0047】
タグ情報は、動画に付加された評価タグの詳細を規定したデータであり、評価タグを識別するタグID、評価タグが付加された動画の動画ID、動画中の評価タグが付加された時点(例えば小数点以下6桁)、付加された評価タグのカテゴリを示す上記タグカテゴリIDから構成される。
【0048】
動画解析情報データベース34は、上記動画情報データベース32中の動画について上記AIエンジンが解析した解析結果の情報が、上記ユーザID、動画ID等と対応付けられて記憶されており、具体的には例えばJSONファイル群で構成される。詳細は後述するが、解析結果の情報としては、話す速さ、瞬き、姿勢、手の動き、視線等の各項目について所定の基準で数値化したものが記憶される。
【0049】
これら各データベースは、後述する話し方評価サーバ100による、話し方評価処理において、必要に応じて相互に参照されて用いられる。またこれらのデータベースは、ユーザ端末200による、話し方の評価結果や解析結果の表示処理において、適宜ダウンロードされて用いられる。
【0050】
[ユーザ端末の動作]
次に、以上のように構成された話し方評価システムにおけるユーザ端末200の動作について説明する。当該動作は、ユーザ端末200のCPU21及び通信部29等のハードウェアと、記憶部28またはRAM23に記憶されたソフトウェアとの協働により実行される。以下の説明では、便宜上、CPU21を動作主体とする。
【0051】
(評価タグの可視化処理)
本実施形態においてユーザ端末200は、動画データの各再生時点に付加された評価タグをヒストグラムによって可視化することができる。
図6は、ユーザ端末200による、評価タグ情報の可視化処理の流れを示したフローチャートである。
【0052】
同図に示すように、ユーザ端末200のCPU21はまず、話し方評価アプリ内のメニューに対するユーザの操作に基づき、評価タグの入力画面を表示する(ステップ51)。
【0053】
続いてCPU21は、例えば動画を選択するユーザの操作に基づいて、話し方評価サーバ100から動画データをダウンロードし、RAM22または記憶部28に保持する(ステップ52)。
【0054】
続いてCPU21は、当該動画からメタデータ(録画時間)を抽出する(ステップ53)。
【0055】
動画からメタデータが抽出できない場合(ステップ54のNo)には、CPU21は、所定時間(例えば1秒間)待機して(ステップ55)、再びメタデータの抽出を試みる。
【0056】
動画からメタデータが抽出できた場合(ステップ54のYes)、CPU21は、話し方評価サーバ100に実装されたAPI(Application Programming Interface)を介して、話し方評価サーバ100へ、上記メタ情報データベース33中のタグカテゴリ情報及びタグ情報を要求する(ステップ56)。当該要求には、上記動画データの動画IDが含まれる。
【0057】
当該要求を受け、話し方評価サーバ100は、上記メタ情報データベース33から上記動画IDに対応する上記タグカテゴリ情報及びタグ情報を抽出し、APIを介してユーザ端末200へ送信する。
【0058】
続いてCPU21は、上記APIから正常なデータが返却されたか否かを判断し(ステップ57)、正常なデータが返却されなかった場合(No)には上記評価入力画面上にエラーメッセージを表示して(ステップ58)処理を終了する。
【0059】
APIから正常なデータが返却されたと判断した場合(ステップ57のYes)、CPU21は、取得したタグ情報をタグカテゴリIDごとにグループ化する(ステップ59)。
【0060】
続いてCPU21は、上記タグカテゴリIDごとのタグ情報の個数と、対応する評価ボタン(評価タグを付加するためのボタン)を上記評価入力画面上に表示する(ステップ60)。
【0061】
続いてCPU21は、上記タグ情報に含まれるタグ付加時間の情報を基に、タグ情報を所定秒間隔の再生時間帯毎に分類する(ステップ61)。
【0062】
例えばCPU21は、動画データの再生時間を、以下のような以下のような時間範囲(再生時間帯)に分類していく。なお当該再生時間帯の大きさ(時間間隔)は設定ファイルから変更可能である。
0秒以上1秒未満
1秒以上2秒未満
2秒以上3秒未満
・・・
【0063】
そしてCPU21は、上記分類された再生時間帯毎のタグ情報の数を基にヒストグラムを生成して上記評価入力画面上に表示する(ステップ62)。
【0064】
図7は、以上のようにして評価タグ情報を可視化したヒストグラムの表示画面(評価入力画面)の例を示した図である。
【0065】
同図に示すように、当該評価入力画面では、例えば上部に上記ダウンロードした動画の再生をタイムライン上で制御可能な動画再生欄80が表示され、その下部に、上記評価ボタンとしてのいいね(高評価)ボタン81及び悪いね(低評価)ボタン82が、現在の各ボタンに対応する評価タグの数と共に表示され、その下部にヒストグラム83が表示される。
【0066】
ヒストグラム83は、横軸に動画の再生時間帯(時間幅は例えば1秒)、縦軸に各再生時間帯毎の評価タグ(いいねタグ/悪いねタグ)の数を示しており、ヒストグラムの各柱Bにおいては、当該評価タグのカテゴリ(いいねタグ/悪いねタグ)ごとの数を示す柱B1(いいねタグに対応)と柱B2(悪いねタグに対応)が色分けされ積み上げられて表示されている。
【0067】
またこのヒストグラム83においては、動画のうち動画再生欄80で現在再生中の時点を含む再生時間帯に対応する柱Brが強調表示される。これにより、動画上の現在再生中の時間帯においてユーザの話し方や表情がどのような評価を受けているかをユーザに容易に把握させることができる。強調表示とは、例えば、他の柱と異なる色や輝度、線幅で表示したり(ハイライト表示等)、柱の幅を他の柱より大きくしたりすること等であるが、これらに限られない。
【0068】
なおこの評価入力画面は、動画の被写体であるユーザのユーザ端末200で表示されてもよいし、それ以外のユーザのユーザ端末200で表示されてもよい。また動画の被写体であるユーザのユーザ端末200は当該動画を話し方評価サーバ100へアップロードするのみで、評価入力画面はもっぱら当該動画の被写体であるユーザ以外のユーザのユーザ端末200で表示されるものであってもよい。
【0069】
(評価タグの追加処理)
以上のように表示された評価入力画面上で、ユーザは評価結果を閲覧するのみならず、新たに評価タグを追加することが可能である。
図8は、上記評価タグの追加処理の流れを示したフローチャートである。
【0070】
同図に示すように、ヒストグラム83を表示するまでの処理は上記
図6で示した処理と同様である(ステップ71、72)。
【0071】
続いてCPU21は、上記動画再生欄80においてユーザにより再生ボタンが押下されたか否かを判断する(ステップ73)。
【0072】
再生ボタンが押下されたと判断した場合(Yes)、CPU21は、動画を再生する(ステップ74)。
【0073】
続いてCPU21は、動画の再生中にユーザにより評価ボタン(いいねボタン81/悪いねボタン82)が押下されたか否かを判断する(ステップ75)。
【0074】
評価ボタンが押下されたと判断した場合(Yes)、CPU21は、評価入力画面上に埋め込まれている動画ID,ユーザID,及び押下された評価ボタンに対応するタグカテゴリIDをそれぞれ取得する(ステップ76)。
【0075】
続いてCPU21は、再生中の動画の、上記評価ボタンが押下された時点の経過時間(小数点以下6桁の数値、単位は秒)を取得する(ステップ77)。
【0076】
続いてCPU21は、上記取得した情報(動画ID,ユーザID,タグカテゴリID,経過時間)から構成されるタグ情報を、APIを介して話し方評価サーバ100へ送信する(ステップ78)。
【0077】
このときCPU21は、上記APIから正常なデータが返却されたか否かを判断し(ステップ79)、正常なデータが返却されなかった場合(No)には上記評価入力画面上にエラーメッセージを表示して(ステップ80)処理を終了する。
【0078】
話し方評価サーバ100は、上記送信されたタグ情報を上記評価タグ情報データベース33へ登録する。
【0079】
APIから正常なデータが返却されたと判断した場合(Yes)、CPU21は、上記タグ情報をヒストグラム83の描画用データとして追加する(ステップ81)。
【0080】
そしてCPU21は、ヒストグラム83を再描画して変更を反映する(ステップ82)。例えば上記いいねボタン81が押下された場合には、ヒストグラム83において、押下時点を含む再生時間帯の柱Bのうちいいねタグに対応する柱B1が長くなるように更新される。このとき、上記いいねボタン81または悪いねボタン82の隣に表示される数値も更新される。
【0081】
なお、このタグ情報の追加処理は話し方評価サーバ100に接続可能な多数のユーザ端末200により同時期に実行される場合もあり、それに応じて話し方評価サーバ100において更新された評価タグ情報データベース33上のデータを基に、各ユーザ端末200の評価入力画面上で表示されるヒストグラム83の表示もそれぞれ更新される。これにより、ユーザの話し方や表情に対する各ユーザの評価をヒストグラムにリアルタイムに反映させることができる。
【0082】
(動画再生位置の移動)
またユーザ端末200は、上記ヒストグラム83上でユーザがいずれかの再生時間帯の柱Bを選択(タップ、クリック等)すると、動画の再生位置を当該選択された再生時間帯まで移動させることが可能である。
図9は、ユーザ端末200による、当該ヒストグラム83の柱の選択時の処理の流れを示したフローチャートである。
【0083】
同図に示すように、ヒストグラム83を表示するまでの処理は上記
図6及び
図8で示した処理と同様である(ステップ91、92)。
【0084】
続いてCPU21は、ヒストグラム83の何れかの柱Bがユーザによりタップされたか否かを判断する(ステップ93)。
【0085】
いずれかの柱Bがタップされたと判断した場合(Yes)、CPU21は、タップされた柱Bに対応するタグ情報をRAM23から取得する(ステップ94)。
【0086】
続いてCPU21は、取得したタグ情報から、タグの付加時間を取得する(ステップ95)。
【0087】
続いてCPU21は、取得したタグの付加時間の小数点以下を切り下げる(ステップ96)。例えばタグの付加時間が1.123456であった場合、ステップ96による変換後の値は1.0になる。
【0088】
そしてCPU21は、上記変換した値を動画の現在の再生開始時間に設定する(ステップ97)。これにより、動画の再生位置が設定した時間に移動する(ステップ98)。
【0089】
すなわち、上記柱Bの選択操作により、当該柱Bに対応する再生時間帯の冒頭の時点へ動画データの再生時点が移動される。
【0090】
以上の処理により、ヒストグラム83のいずれかの柱Bを選択させるだけで、動画中でユーザの話し方や表情の評価が高いシーンや評価が低いシーンをユーザに容易にサーチさせて閲覧させることができる。
【0091】
(タグカテゴリの編集)
上述した評価タグのタグカテゴリ(いいね/悪いね等)は、ユーザ端末200のユーザが編集することが可能である。
図10は、評価タグのタグカテゴリの編集画面の例を示した図である。
【0092】
同図に示すように、当該編集画面では、「タグ追加」ボタンで評価タグのカテゴリを新たに追加し(例えば上限10個まで)、当該タグカテゴリに関する項目として、アイコン、名称、イメージ(肯定的/否定的)をユーザが設定可能となっている。また各タグカテゴリの順番を変更したり、いずれかのタグカテゴリを削除することも可能である。
【0093】
当該タグカテゴリの編集は、例えば話し方評価サーバ100の運営元と契約している企業や個人ごとに設定可能とされている。
【0094】
また上記タグカテゴリは、既に登録されているタグカテゴリと同時に動画に付加できるものであってもよい。例えば「笑顔」というタグカテゴリを追加し、動画中のユーザが笑顔であるシーンに笑顔タグを付加することも可能である。そして当該笑顔タグの付加時間がいいねタグの付加時間と重複していれば、笑顔が高評価であったことが分かるし、逆に笑顔タグの付加時間が悪いねタグの付加時間と重複していれば、例えば笑顔が不自然等、笑顔が低評価であったことが分かる。
【0095】
(動画解析処理)
上述したように、話し方評価サーバ100は、上記動画データをAIエンジン等によって解析してその解析結果を表示することが可能である。
図11は話し方評価サーバ100による動画解析処理の流れを示したフローチャートである。
【0096】
同図に示すように話し方評価サーバ100のCPU11は、まず、動画情報データベース32から、解析対象の動画データを取得する(ステップ101)。
【0097】
続いてCPU11は、当該動画データから音声を抽出して(ステップ102)、当該音声データを文字に変換する(ステップ103)。
【0098】
その一方でCPU11は、動画データから人の体の部位を抽出し(ステップ104)、抽出結果を基に、瞬き、姿勢、手の動き、視線等の各種項目を点数化する(ステップ105)。
【0099】
そしてCPU11は、上記解析結果を1つのファイルに統合し(ステップ106)、動画解析情報データベース34に保存する(ステップ106)。
【0100】
図12は、話し方評価サーバ100によって生成された動画解析結果の表示画面の例を示した図である。当該画面も、上記評価情報入力画面と共にユーザ端末200上で表示可能である。
【0101】
同図に示すように、当該動画解析結果表示画面は、各項目の解析結果のレーダーチャート91と各項目のアドバイス情報92とを含む。
【0102】
レーダーチャート91の解析項目としては、話す速さ、瞬き、姿勢、手の動き、視線が挙げられる。このうち話す速さの点数は、上記音声データの文字変換結果に基づいて、例えば単位時間当たりの文字数の平均値から算出される。
【0103】
また瞬き、姿勢、手の動き、視線は上記体の部位の抽出結果を基に、例えば動画全体における、瞬きをした回数、姿勢が傾いている秒数、手が動いている秒数、目線が逸れた秒数を基にそれぞれ点数化される。
【0104】
アドバイス情報92は、上記点数に応じて自動的に生成されるか、複数の点数範囲毎に予め作成された文章が点数に応じて抽出されて表示される。
【0105】
[まとめ]
以上説明したように、本実施形態によれば、ユーザ端末200は、動画データの再生時点毎に紐づけられた評価タグの数を再生時間帯毎にヒストグラム83で表すことで、動画データの被写体であるユーザの話し方や表情の変化に伴う他のユーザの評価の時系列変化(例えば、どのような表情のシーンに高評価/低評価が集中しているか等)をユーザに把握させることができる。
【0106】
[変形例]
本発明は上述の実施形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更され得る。
【0107】
上述の実施形態では、評価タグを可視化したヒストグラム83は、話し方評価サーバ100から取得した情報を基にユーザ端末200が生成していたが、当該ヒストグラム83は話し方評価サーバ100が生成し、それをユーザ端末200が受信して表示してもよい。この場合各ユーザ端末200には上記話し方評価アプリがインストールされておらず、ブラウザで上記ヒストグラム83等を表示するものであっても構わない。
【0108】
上述の実施形態において示した上記ヒストグラム83やレーダーチャート91の表示態様は説明及び図示したものに限られず、適宜変更が可能である。
【0109】
上述の実施形態で示した話し方評価サーバ100は、その機能が複数のサーバや情報処理装置に分散されたシステムとして構成されていても構わない。
【0110】
本願の特許請求の範囲に記載された発明のうち、「情報処理方法」と記載された発明は、その各ステップを、ソフトウェアによる情報処理によりコンピュータ等の少なくとも1つの装置が自動的に行うものであり、人間がコンピュータ等の装置を用いて行うものではない。すなわち、当該「情報処理方法」は、コンピュータ・ソフトウェアによる情報処理方法であって、コンピュータという計算道具を人間が操作する方法ではない。
【解決手段】情報処理システムは、記憶部と制御部とを有する。上記記憶部は、第1ユーザが話している様子を撮影した動画データと、当該動画データのいずれかの再生時点に付加された、上記第1ユーザの話し方または表情に対する肯定的な評価を示す高評価タグに関する情報を含むタグ情報とを記憶する。上記制御部は、上記タグ情報を基に、横軸に上記動画データの再生時間帯を示し、縦軸に当該再生時間帯毎の上記高評価タグの数を示すヒストグラムを生成し、当該ヒストグラムを上記動画データの再生画面と共に出力する。上記高評価タグは、複数の第2ユーザのユーザ端末上で再生中の上記動画データのいずれかの再生時点で各第2ユーザにより所定の第1操作が入力されることで付加される。