特許6978815 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社エフィシエントの特許一覧

特許6978815情報処理システム、情報処理方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】6978815

(24)【登録日】2021年11月16日

(45)【発行日】2021年12月8日

(54)【発明の名称】情報処理システム、情報処理方法及びプログラム

(51)【国際特許分類】

G06Q 50/10 20120101AFI20211125BHJP

【ＦＩ】

G06Q50/10

【請求項の数】6

【全頁数】18

(21)【出願番号】特願2021-72679(P2021-72679)

(22)【出願日】2021年4月22日

【審査請求日】2021年4月26日

【早期審査対象出願】

(73)【特許権者】

【識別番号】520460708

【氏名又は名称】株式会社エフィシエント

(74)【代理人】

【識別番号】110003339

【氏名又は名称】特許業務法人南青山国際特許事務所

(74)【代理人】

【識別番号】100104215

【弁理士】

【氏名又は名称】大森純一

(74)【代理人】

【識別番号】100196575

【弁理士】

【氏名又は名称】高橋満

(74)【代理人】

【識別番号】100168181

【弁理士】

【氏名又は名称】中村哲平

(74)【代理人】

【識別番号】100160989

【弁理士】

【氏名又は名称】関根正好

(74)【代理人】

【識別番号】100117330

【弁理士】

【氏名又は名称】折居章

(74)【代理人】

【識別番号】100168745

【弁理士】

【氏名又は名称】金子彩子

(74)【代理人】

【識別番号】100176131

【弁理士】

【氏名又は名称】金山慎太郎

(74)【代理人】

【識別番号】100197398

【弁理士】

【氏名又は名称】千葉絢子

(74)【代理人】

【識別番号】100197619

【弁理士】

【氏名又は名称】白鹿智久

(72)【発明者】

【氏名】脇坂健一郎

(72)【発明者】

【氏名】高野祐介

(72)【発明者】

【氏名】長谷川哲也

【審査官】鈴木隆夫

(56)【参考文献】

【文献】国際公開第２００８／０５０６１３（ＷＯ，Ａ１）

【文献】国際公開第２０１３／０６１４９７（ＷＯ，Ａ１）

【文献】戸井英晃 Hideaki TOI，評価タグ機能を有した技能評価を目的とした映像アノテーションシステムの提案 Proposal for visual annotation system aiming for technical valuation with evaluative tagging function，電子情報通信学会技術研究報告Ｖｏｌ．１１３Ｎｏ．１０６ IEICE Technical Report，日本，一般社団法人電子情報通信学会 The Institute of Electronics,Information and Communication Engineers，2013年06月15日，第113巻，p17-22

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｑ５０／１０

(57)【特許請求の範囲】

【請求項1】

第１ユーザが話している様子を撮影した動画データと、当該動画データのいずれかの再生時点に付加された、前記第１ユーザの話し方または表情に対する肯定的な評価を示す高評価タグに関する情報を含むタグ情報とを記憶する記憶部と、
前記タグ情報を基に、横軸に前記動画データの再生時間帯を示し、縦軸に当該再生時間帯毎の前記高評価タグの数を示すヒストグラムを生成し、当該ヒストグラムを前記動画データの再生画面と共に出力する制御部と
を具備し、
前記高評価タグは、複数の第２ユーザのユーザ端末上で再生中の前記動画データのいずれかの再生時点で各第２ユーザにより所定の第１操作が入力されることで付加され、
前記制御部は、前記ヒストグラム中のいずれかの柱を選択する操作が前記第１ユーザまたは前記第２ユーザにより入力された場合、当該柱に対応する再生時間帯の冒頭の時点へ前記動画データの再生時点を移動させる情報処理システム。

【請求項2】

【請求項3】

第１ユーザが話している様子を撮影した動画データと、当該動画データのいずれかの再生時点に付加された、前記第１ユーザの話し方または表情に対する肯定的な評価を示す高評価タグに関する情報を含むタグ情報とを記憶する記憶部と、
前記タグ情報を基に、横軸に前記動画データの再生時間帯を示し、縦軸に当該再生時間帯毎の前記高評価タグの数を示すヒストグラムを生成し、当該ヒストグラムを前記動画データの再生画面と共に出力する制御部と
を具備し、
前記高評価タグは、複数の第２ユーザのユーザ端末上で再生中の前記動画データのいずれかの再生時点で各第２ユーザにより所定の第１操作が入力されることで付加され、
前記記憶部は、動画データのいずれかの再生時点に付加された、前記第１ユーザの話し方または表情に対する否定的な評価を示す低評価タグに関する情報を前記タグ情報として記憶し、
前記低評価タグは、複数の第２ユーザのユーザ端末上で再生中の前記動画データのいずれかの再生時点で各第２ユーザにより所定の第２操作が入力されることで付加され、
前記制御部は、前記ヒストグラムにおいて、前記再生時間帯毎の前記高評価タグの数を示す柱と前記低評価タグの数を示す柱とを異なる表示形態で積層させて表示する
情報処理システム。

【請求項4】

請求項１乃至３のいずれかに記載の情報処理システムであって、
前記記憶部は、いずれかの前記第２ユーザのユーザ端末において入力された前記第１操作により前記高評価タグが付加されるたびに前記タグ情報を更新し、
前記制御部は、前記更新されたタグ情報に含まれる前記高評価タグの数に応じて前記出力されたヒストグラムを変更する
情報処理システム。

【請求項5】

第１ユーザが話している様子を撮影した動画データと、当該動画データのいずれかの再生時点に付加された、前記第１ユーザの話し方または表情に対する肯定的な評価を示す高評価タグに関する情報を含むタグ情報とを記憶し、
前記タグ情報を基に、横軸に前記動画データの再生時間帯を示し、縦軸に当該再生時間帯毎の前記高評価タグの数を示すヒストグラムを生成し、
前記ヒストグラムを前記動画データの再生画面と共に出力する、
情報処理方法であって、
前記高評価タグは、複数の第２ユーザのユーザ端末上で再生中の前記動画データのいずれかの再生時点で各第２ユーザにより所定の操作が入力されることで付加され、
当該情報処理方法はさらに、
前記ヒストグラム中のいずれかの柱を選択する操作が前記第１ユーザまたは前記第２ユーザにより入力された場合、当該柱に対応する再生時間帯の冒頭の時点へ前記動画データの再生時点を移動させる
情報処理方法。

【請求項6】

情報処理装置に、
第１ユーザが話している様子を撮影した動画データと、当該動画データのいずれかの再生時点に付加された、前記第１ユーザの話し方または表情に対する肯定的な評価を示す高評価タグに関する情報を含むタグ情報とを記憶するステップと、
前記タグ情報を基に、横軸に前記動画データの再生時間帯を示し、縦軸に当該再生時間帯毎の前記高評価タグの数を示すヒストグラムを生成するステップと、
前記ヒストグラムを前記動画データの再生画面と共に出力するステップと、
を実行させるプログラムであって、
前記高評価タグは、複数の第２ユーザのユーザ端末上で再生中の前記動画データのいずれかの再生時点で各第２ユーザにより所定の操作が入力されることで付加され、
当該プログラムはさらに、
前記ヒストグラム中のいずれかの柱を選択する操作が前記第１ユーザまたは前記第２ユーザにより入力された場合、当該柱に対応する再生時間帯の冒頭の時点へ前記動画データの再生時点を移動させるステップを実行させる
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ユーザの話し方や表情に対する評価に関する情報を処理可能な情報処理システム、情報処理方法及びプログラムに関する。

【背景技術】

【0002】

従来から、ユーザの話し方や表情を分析する技術が知られている。

【0003】

例えば下記特許文献１には、ユーザのコミュニケーションから音声情報と映像情報を取り込み、取り込んだデータをＡＩにより解析し、解析された音声データ（声のトーン、音量、リズム、無音、笑い等）と表情データ（身振り手振り、うなずき、横振り、手足の組み方、服装等）を人とコミュニケーションイベントごとに区分し時系列に整理統合し、相手ユーザ反応を差分データに基づいて解析し、業務上予め定められた評価軸に基づき、コミュニケーション内容およびユーザのコミュニケーションスキルを評価する技術が開示されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０１９−１３３４５１号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、上記特許文献１のような従来技術では、特定の表情やジェスチャーに関する評価は可能であるものの、ユーザの話し始めから話し終わりまでの間に、ユーザの表情がどのように変化することでどのように評価が変化するのか、どのような表情の箇所に高評価が集中しているか、といった時系列的な分析はできていない。

【0006】

以上のような事情に鑑み、本発明の目的は、ユーザの話し方や表情の変化に伴う評価の時系列変化をユーザに把握させることが可能な情報処理システム、情報処理方法及びプログラムを提供することにある。

【課題を解決するための手段】

【0007】

上記目的を達成するため、本発明の一形態に係る情報処理システムは、記憶部と制御部とを有する。上記記憶部は、第１ユーザが話している様子を撮影した動画データと、当該動画データのいずれかの再生時点に付加された、上記第１ユーザの話し方または表情に対する肯定的な評価を示す高評価タグに関する情報を含むタグ情報とを記憶する。上記制御部は、上記タグ情報を基に、横軸に上記動画データの再生時間帯を示し、縦軸に当該再生時間帯毎の上記高評価タグの数を示すヒストグラムを生成し、当該ヒストグラムを上記動画データの再生画面と共に出力する。上記高評価タグは、複数の第２ユーザのユーザ端末上で再生中の上記動画データのいずれかの再生時点で各第２ユーザにより所定の第１操作が入力されることで付加される。

【0008】

この構成により情報処理システムは、動画データの再生時点毎に紐づけられた高評価タグの数を再生時間帯毎にヒストグラムで表すことで、動画データの被写体であるユーザの話し方や表情の変化に伴う他のユーザの評価の時系列変化（例えば、どのような表情のシーンに高評価が集中しているか等）をユーザに把握させることができる。当該情報処理システムは、１または複数の情報処理装置（サーバ、ユーザ端末、またはそれらの組み合わせ）によって構成される。所定の第１操作とは、例えば高評価用のボタン（いいねボタン）の押下（タップ、クリック）操作等である。

【0009】

上記制御部は、上記ヒストグラム中のいずれかの柱（ビン）を選択する操作が上記第１ユーザまたは上記第２ユーザにより入力された場合、当該柱に対応する再生時間帯の冒頭の時点へ上記動画データの再生時点を移動させてもよい。

【0010】

これにより、ヒストグラムのいずれかの柱を選択させるだけで、動画中でユーザの話し方や表情の評価が高いシーンや評価が低いシーンをユーザに容易にサーチさせて閲覧させることができる。

【0011】

上記制御部は、上記ヒストグラムにおいて、当該動画データにおける再生中の時点を含む再生時間帯の柱を強調表示してもよい。

【0012】

これにより、動画データ上の現在再生中の時間帯においてユーザの話し方や表情が高評価を受けているか否かをユーザに把握させることができる。強調表示とは、例えば、他の柱と異なる色や輝度、線幅で表示したり（ハイライト表示等）、柱の幅を他の柱より大きくしたりすること等であるが、これらに限られない。

【0013】

上記記憶部は、動画データのいずれかの再生時点に付加された、上記第１ユーザの話し方または表情に対する否定的な評価を示す低評価タグに関する情報を上記タグ情報として記憶してもよい。この場合上記低評価タグは、複数の第２ユーザのユーザ端末上で再生中の上記動画データのいずれかの再生時点で各第２ユーザにより所定の第２操作が入力されることで付加されてもよい。この場合上記制御部は、上記ヒストグラムにおいて、上記再生時間帯毎の上記高評価タグの数を示す柱と上記低評価タグの数を示す柱とを異なる表示形態で積層させて表示してもよい。

【0014】

これにより、ユーザの話し方や表情に対する高い評価のみならず低い評価の時系列変化もユーザに把握させることができる。第２操作とは、例えば低評価用のボタン（悪いねボタン）の押下（タップ、クリック）操作等である。

【0015】

上記記憶部は、いずれかの上記第２ユーザのユーザ端末において入力された上記第１操作により上記高評価タグが付加されるたびに上記タグ情報を更新してもよい。この場合上記制御部は、上記更新されたタグ情報に含まれる上記高評価タグの数に応じて上記出力されたヒストグラムを変更してもよい。

【0016】

これにより、ユーザの話し方や表情に対する各ユーザの評価をヒストグラムにリアルタイムに反映させることができる。

【0017】

本発明の他の形態に係る情報処理方法は、
第１ユーザが話している様子を撮影した動画データと、当該動画データのいずれかの再生時点に付加された、上記第１ユーザの話し方または表情に対する肯定的な評価を示す高評価タグに関する情報を含むタグ情報とを記憶し、
上記タグ情報を基に、横軸に上記動画データの再生時間帯を示し、縦軸に当該再生時間帯毎の上記高評価タグの数を示すヒストグラムを生成し、
上記ヒストグラムを上記動画データの再生画面と共に出力する、ことを含む。
ここで上記高評価タグは、複数の第２ユーザのユーザ端末上で再生中の上記動画データのいずれかの再生時点で各第２ユーザにより所定の操作が入力されることで付加される。

【0018】

本発明の他の形態に係るプログラムは、情報処理装置に、
第１ユーザが話している様子を撮影した動画データと、当該動画データのいずれかの再生時点に付加された、上記第１ユーザの話し方または表情に対する肯定的な評価を示す高評価タグに関する情報を含むタグ情報とを記憶するステップと、
上記タグ情報を基に、横軸に上記動画データの再生時間帯を示し、縦軸に当該再生時間帯毎の上記高評価タグの数を示すヒストグラムを生成するステップと、
上記ヒストグラムを上記動画データの再生画面と共に出力するステップ
を実行させる。
ここで上記高評価タグは、複数の第２ユーザのユーザ端末上で再生中の上記動画データのいずれかの再生時点で各第２ユーザにより所定の操作が入力されることで付加される。

【発明の効果】

【0019】

以上説明したように、本発明によれば、ユーザの話し方及び表情の変化に伴う評価の時系列変化をユーザに把握させることができる。しかし、当該効果は本発明を限定するものではない。

【図面の簡単な説明】

【0020】

【図1】本発明の一実施形態に係る話し方評価システムの構成を示した図である。

【図2】本発明の一実施形態に係る話し方評価サーバのハードウェア構成を示した図である。

【図3】本発明の一実施形態に係るユーザ端末のハードウェア構成を示した図である。

【図4】本発明の一実施形態に係る話し方評価サーバが有するデータベースの構成を示した図である。

【図5】図４に示したタグ情報データベースの具体例を示した図である。

【図6】本発明の一実施形態に係るユーザ端末による、評価タグ情報の可視化処理の流れを示したフローチャートである。

【図7】本発明の一実施形態における評価タグ情報を可視化したヒストグラムの表示画面の例を示した図である。

【図8】本発明の一実施形態に係るユーザ端末による、評価タグの追加処理の流れを示したフローチャートである。

【図9】本発明の一実施形態に係るユーザ端末による、ヒストグラムの柱の選択時の処理の流れを示したフローチャートである。

【図10】本発明の一実施形態における評価タグのカテゴリの編集画面の例を示した図である。

【図11】本発明の一実施形態に係る話し方評価サーバによる動画解析処理の流れを示したフローチャートである。

【図12】本発明の一実施形態における話し方評価サーバによって生成された動画解析結果表示画面の例を示した図である。

【発明を実施するための形態】

【0021】

以下、図面を参照しながら、本発明の実施形態を説明する。

【0022】

［システムの構成］
図１は、本実施形態に係る話し方評価システムの構成を示した図である。

【0023】

同図に示すように、このシステムは、インターネット上の話し方評価サーバ１００と、複数のユーザ端末２００と含む。

【0024】

話し方評価サーバ１００は、例えば百貨店の接客担当の従業員等、接客（コミュニケーション）スキルが要求される従業員の教育や、企業の面接に向けたトレーニング等を目的として、ユーザの話し方を評価するサービスを提供するサーバである。話し方評価サーバ１００は、複数のユーザ端末２００とインターネット等のネットワークを介して接続されている。

【0025】

ユーザ端末２００（２００Ａ，２００Ｂ，２００Ｃ...）は、ユーザ（例えば企業の従業員や教育担当管理者、または就職活動中の学生等）により使用される端末であり、例えばスマートフォン、携帯電話、タブレットＰＣ（Personal Computer）、ノートブックＰＣ、デスクトップＰＣ等である。

【0026】

ユーザ端末２００には、上記話し方評価サーバ１００が提供するサービスに対応したアプリケーション（話し方評価アプリ）がインストールされている。ユーザ端末２００のユーザは、自身が話している様子を撮影した動画を、話し方評価アプリを介して話し方評価サーバ１００へアップロードする。

【0027】

話し方評価サーバ１００は、ユーザ端末２００とＨＴＴＰＳによる通信を行うＷｅｂサーバ、上記ユーザ端末２００からアップロードされた動画、及びその動画中のユーザの話し方に関する評価情報や解析情報等のデータを記憶するデータベース、当該動画の解析を実行するＡＩエンジン等を有する。

【0028】

自身の話す様子を撮影した動画をユーザ端末２００ＡによりアップロードしたユーザＡは、話し方評価サーバ１００から、ＡＩエンジンによる話し方の解析結果を受信して確認することができる。また自身の動画をアップロードしたユーザＡ以外のユーザ（ユーザＢ）は、ユーザ端末２００Ｂにより話し方評価サーバ１００から動画をダウンロードして閲覧し、動画の任意の再生時点に、当該ユーザＡの話し方の評価する評価タグ（いいね／悪いね等）を動画に付加して話し方評価サーバ１００に登録することができ、ユーザＡは当該評価結果を受信し確認することも可能である。

【0029】

またそれらユーザとは別にユーザＡの管理者（例えば教育担当者）であるユーザＣは、ユーザ端末２００Ｃにより話し方評価サーバ１００へアクセスして、自身が担当するユーザＡの上記解析結果や評価結果等のデータをＷｅｂ上で閲覧することが可能である。また当該ユーザＣが上記評価タグを付加することも可能である。

【0030】

［話し方評価サーバのハードウェア構成］
図２は、上記話し方評価サーバ１００のハードウェア構成を示した図である。同図に示すように、話し方評価サーバ１００は、ＣＰＵ（Central Processing Unit）１１、ＲＯＭ（Read Only Memory）１２、ＲＡＭ（Random Access Memory）１３、入出力インタフェース１５、及び、これらを互いに接続するバス１４を備える。

【0031】

ＣＰＵ１１は、必要に応じてＲＡＭ１３等に適宜アクセスし、各種演算処理を行いながら話し方評価サーバ１００の各ブロック全体を統括的に制御する。ＲＯＭ１２は、ＣＰＵ１１に実行させるＯＳ、プログラムや各種パラメータなどのファームウェアが固定的に記憶されている不揮発性のメモリである。ＲＡＭ１３は、ＣＰＵ１１の作業用領域等として用いられ、ＯＳ、実行中の各種アプリケーション、処理中の各種データを一時的に保持する。

【0032】

入出力インタフェース１５には、表示部１６、操作受付部１７、記憶部１８、通信部１９等が接続される。

【0033】

表示部１６は、例えばＬＣＤ（Liquid Crystal Display）、ＯＥＬＤ（Organic ElectroLuminescence Display）、ＣＲＴ（Cathode Ray Tube）等を用いた表示デバイスである。

【0034】

操作受付部１７は、例えばマウス等のポインティングデバイス、キーボード、タッチパネル、その他の入力装置である。操作受付部１７がタッチパネルである場合、そのタッチパネルは表示部１６と一体となり得る。

【0035】

記憶部１８は、例えばＨＤＤ（Hard Disk Drive）や、フラッシュメモリ（ＳＳＤ；Solid State Drive）、その他の固体メモリ等の不揮発性メモリである。当該記憶部１８には、上記ＯＳや各種アプリケーション、各種データが記憶される。

【0036】

特に本実施形態では、記憶部１８は、各ユーザ端末２００のユーザに関するユーザ情報やアンケート対象となるモニター情報、アンケート（調査票）情報等を記憶するとともに、これらのデータを用いて話し方評価サーバ１００が話し方評価処理（評価タグの登録や動画解析等）を実行するためのアプリケーションその他のプログラム及びデータを記憶している。後述するが、記憶部１８は、そのようなデータを含むデータベースとして、ユーザ情報データベース３１、動画情報データベース３２、評価タグ情報３３データベース、動画解析情報データベース３４を有している。

【0037】

通信部１９は、例えばEthernet用のＮＩＣ（Network Interface Card）や無線ＬＡＮ等の無線通信用の各種モジュールであり、上記ユーザ端末２００との間の通信処理を担う。

【0038】

［ユーザ端末のハードウェア構成］
上記ユーザ端末２００が有するコンピュータとしての基本的なハードウェア構成も（ＰＣとスマートフォンの違い等はあるが）上記話し方評価サーバ１００のハードウェア構成と同様であり、ＣＰＵ２１、ＲＯＭ２２、ＲＡＭ２３、バス２４、入出力インタフェース２５、表示部２６、操作受付部２７、記憶部２８、通信部２９を有している。

【0039】

また上述したように、ユーザ端末２００には、上記話し方評価サーバ１００と接続して話し方の解析結果や評価結果を表示するためのアプリケーション（話し方評価アプリ）がインストールされている。

【0040】

［話し方評価サーバのデータベース構成］
図３は、上記話し方評価サーバ１００が有するデータベースの構成を示した図である。

【0041】

同図に示すように、話し方評価サーバ１００は、記憶部１８に、ユーザ情報データベース３１、動画情報データベース３２、評価タグ情報データベース３３及び動画解析情報データベース３４を有している。

【0042】

ユーザ情報データベース３１は、ユーザ端末２００を所有する、上記話し方評価サーバ１００が提供する企画支援サービスの利用者（会員）であるユーザに関する情報を記憶する。具体的には、ユーザ情報データベース４２は、ユーザＩＤ、パスワード、氏名、メールアドレス、会社名、電話番号、住所、年齢（層）、性別等の情報をユーザ毎に記憶している。

【0043】

動画情報データベース３２は、ユーザ端末２００から受信した、ユーザが話している様子を撮影した動画データを、当該動画データを識別する動画ＩＤと、その撮影元のユーザの上記ユーザＩＤと対応付けて記憶している。

【0044】

評価タグ情報データベース３３は、上記動画情報データベース３２中の動画に対して他のユーザが付加した評価タグに関する情報を記憶している。

【0045】

図５は当該評価タグデータベース３３に記憶されたデータの例を示した図である。当該評価タグに関するデータとしては、同図Ａに示すタグカテゴリ情報と、同図Ｂに示すタグ情報とがある。

【0046】

タグカテゴリ情報は、例えばいいね（肯定的な評価）、悪いね（否定的な評価）、笑顔といった評価タグのカテゴリを示したものであり、それらタグカテゴリ名がタグカテゴリＩＤと対応付けて記憶されている。

【0047】

タグ情報は、動画に付加された評価タグの詳細を規定したデータであり、評価タグを識別するタグＩＤ、評価タグが付加された動画の動画ＩＤ、動画中の評価タグが付加された時点（例えば小数点以下６桁）、付加された評価タグのカテゴリを示す上記タグカテゴリＩＤから構成される。

【0048】

動画解析情報データベース３４は、上記動画情報データベース３２中の動画について上記ＡＩエンジンが解析した解析結果の情報が、上記ユーザＩＤ、動画ＩＤ等と対応付けられて記憶されており、具体的には例えばＪＳＯＮファイル群で構成される。詳細は後述するが、解析結果の情報としては、話す速さ、瞬き、姿勢、手の動き、視線等の各項目について所定の基準で数値化したものが記憶される。

【0049】

これら各データベースは、後述する話し方評価サーバ１００による、話し方評価処理において、必要に応じて相互に参照されて用いられる。またこれらのデータベースは、ユーザ端末２００による、話し方の評価結果や解析結果の表示処理において、適宜ダウンロードされて用いられる。

【0050】

［ユーザ端末の動作］
次に、以上のように構成された話し方評価システムにおけるユーザ端末２００の動作について説明する。当該動作は、ユーザ端末２００のＣＰＵ２１及び通信部２９等のハードウェアと、記憶部２８またはＲＡＭ２３に記憶されたソフトウェアとの協働により実行される。以下の説明では、便宜上、ＣＰＵ２１を動作主体とする。

【0051】

（評価タグの可視化処理）
本実施形態においてユーザ端末２００は、動画データの各再生時点に付加された評価タグをヒストグラムによって可視化することができる。図６は、ユーザ端末２００による、評価タグ情報の可視化処理の流れを示したフローチャートである。

【0052】

同図に示すように、ユーザ端末２００のＣＰＵ２１はまず、話し方評価アプリ内のメニューに対するユーザの操作に基づき、評価タグの入力画面を表示する（ステップ５１）。

【0053】

続いてＣＰＵ２１は、例えば動画を選択するユーザの操作に基づいて、話し方評価サーバ１００から動画データをダウンロードし、ＲＡＭ２２または記憶部２８に保持する（ステップ５２）。

【0054】

続いてＣＰＵ２１は、当該動画からメタデータ（録画時間）を抽出する（ステップ５３）。

【0055】

動画からメタデータが抽出できない場合（ステップ５４のＮｏ）には、ＣＰＵ２１は、所定時間（例えば１秒間）待機して（ステップ５５）、再びメタデータの抽出を試みる。

【0056】

動画からメタデータが抽出できた場合（ステップ５４のＹｅｓ）、ＣＰＵ２１は、話し方評価サーバ１００に実装されたＡＰＩ（Application Programming Interface）を介して、話し方評価サーバ１００へ、上記メタ情報データベース３３中のタグカテゴリ情報及びタグ情報を要求する（ステップ５６）。当該要求には、上記動画データの動画ＩＤが含まれる。

【0057】

当該要求を受け、話し方評価サーバ１００は、上記メタ情報データベース３３から上記動画ＩＤに対応する上記タグカテゴリ情報及びタグ情報を抽出し、ＡＰＩを介してユーザ端末２００へ送信する。

【0058】

続いてＣＰＵ２１は、上記ＡＰＩから正常なデータが返却されたか否かを判断し（ステップ５７）、正常なデータが返却されなかった場合（Ｎｏ）には上記評価入力画面上にエラーメッセージを表示して（ステップ５８）処理を終了する。

【0059】

ＡＰＩから正常なデータが返却されたと判断した場合（ステップ５７のＹｅｓ）、ＣＰＵ２１は、取得したタグ情報をタグカテゴリＩＤごとにグループ化する（ステップ５９）。

【0060】

続いてＣＰＵ２１は、上記タグカテゴリＩＤごとのタグ情報の個数と、対応する評価ボタン（評価タグを付加するためのボタン）を上記評価入力画面上に表示する（ステップ６０）。

【0061】

続いてＣＰＵ２１は、上記タグ情報に含まれるタグ付加時間の情報を基に、タグ情報を所定秒間隔の再生時間帯毎に分類する（ステップ６１）。

【0062】

例えばＣＰＵ２１は、動画データの再生時間を、以下のような以下のような時間範囲（再生時間帯）に分類していく。なお当該再生時間帯の大きさ（時間間隔）は設定ファイルから変更可能である。
０秒以上１秒未満
１秒以上２秒未満
２秒以上３秒未満
・・・

【0063】

そしてＣＰＵ２１は、上記分類された再生時間帯毎のタグ情報の数を基にヒストグラムを生成して上記評価入力画面上に表示する（ステップ６２）。

【0064】

図７は、以上のようにして評価タグ情報を可視化したヒストグラムの表示画面（評価入力画面）の例を示した図である。

【0065】

同図に示すように、当該評価入力画面では、例えば上部に上記ダウンロードした動画の再生をタイムライン上で制御可能な動画再生欄８０が表示され、その下部に、上記評価ボタンとしてのいいね（高評価）ボタン８１及び悪いね（低評価）ボタン８２が、現在の各ボタンに対応する評価タグの数と共に表示され、その下部にヒストグラム８３が表示される。

【0066】

ヒストグラム８３は、横軸に動画の再生時間帯（時間幅は例えば１秒）、縦軸に各再生時間帯毎の評価タグ（いいねタグ／悪いねタグ）の数を示しており、ヒストグラムの各柱Ｂにおいては、当該評価タグのカテゴリ（いいねタグ／悪いねタグ）ごとの数を示す柱Ｂ１（いいねタグに対応）と柱Ｂ２（悪いねタグに対応）が色分けされ積み上げられて表示されている。

【0067】

またこのヒストグラム８３においては、動画のうち動画再生欄８０で現在再生中の時点を含む再生時間帯に対応する柱Ｂｒが強調表示される。これにより、動画上の現在再生中の時間帯においてユーザの話し方や表情がどのような評価を受けているかをユーザに容易に把握させることができる。強調表示とは、例えば、他の柱と異なる色や輝度、線幅で表示したり（ハイライト表示等）、柱の幅を他の柱より大きくしたりすること等であるが、これらに限られない。

【0068】

なおこの評価入力画面は、動画の被写体であるユーザのユーザ端末２００で表示されてもよいし、それ以外のユーザのユーザ端末２００で表示されてもよい。また動画の被写体であるユーザのユーザ端末２００は当該動画を話し方評価サーバ１００へアップロードするのみで、評価入力画面はもっぱら当該動画の被写体であるユーザ以外のユーザのユーザ端末２００で表示されるものであってもよい。

【0069】

（評価タグの追加処理）
以上のように表示された評価入力画面上で、ユーザは評価結果を閲覧するのみならず、新たに評価タグを追加することが可能である。図８は、上記評価タグの追加処理の流れを示したフローチャートである。

【0070】

同図に示すように、ヒストグラム８３を表示するまでの処理は上記図６で示した処理と同様である（ステップ７１、７２）。

【0071】

続いてＣＰＵ２１は、上記動画再生欄８０においてユーザにより再生ボタンが押下されたか否かを判断する（ステップ７３）。

【0072】

再生ボタンが押下されたと判断した場合（Ｙｅｓ）、ＣＰＵ２１は、動画を再生する（ステップ７４）。

【0073】

続いてＣＰＵ２１は、動画の再生中にユーザにより評価ボタン（いいねボタン８１／悪いねボタン８２）が押下されたか否かを判断する（ステップ７５）。

【0074】

評価ボタンが押下されたと判断した場合（Ｙｅｓ）、ＣＰＵ２１は、評価入力画面上に埋め込まれている動画ＩＤ,ユーザＩＤ,及び押下された評価ボタンに対応するタグカテゴリＩＤをそれぞれ取得する（ステップ７６）。

【0075】

続いてＣＰＵ２１は、再生中の動画の、上記評価ボタンが押下された時点の経過時間（小数点以下６桁の数値、単位は秒）を取得する（ステップ７７）。

【0076】

続いてＣＰＵ２１は、上記取得した情報（動画ＩＤ,ユーザＩＤ,タグカテゴリＩＤ，経過時間）から構成されるタグ情報を、ＡＰＩを介して話し方評価サーバ１００へ送信する（ステップ７８）。

【0077】

このときＣＰＵ２１は、上記ＡＰＩから正常なデータが返却されたか否かを判断し（ステップ７９）、正常なデータが返却されなかった場合（Ｎｏ）には上記評価入力画面上にエラーメッセージを表示して（ステップ８０）処理を終了する。

【0078】

話し方評価サーバ１００は、上記送信されたタグ情報を上記評価タグ情報データベース３３へ登録する。

【0079】

ＡＰＩから正常なデータが返却されたと判断した場合（Ｙｅｓ）、ＣＰＵ２１は、上記タグ情報をヒストグラム８３の描画用データとして追加する（ステップ８１）。

【0080】

そしてＣＰＵ２１は、ヒストグラム８３を再描画して変更を反映する（ステップ８２）。例えば上記いいねボタン８１が押下された場合には、ヒストグラム８３において、押下時点を含む再生時間帯の柱Ｂのうちいいねタグに対応する柱Ｂ１が長くなるように更新される。このとき、上記いいねボタン８１または悪いねボタン８２の隣に表示される数値も更新される。

【0081】

なお、このタグ情報の追加処理は話し方評価サーバ１００に接続可能な多数のユーザ端末２００により同時期に実行される場合もあり、それに応じて話し方評価サーバ１００において更新された評価タグ情報データベース３３上のデータを基に、各ユーザ端末２００の評価入力画面上で表示されるヒストグラム８３の表示もそれぞれ更新される。これにより、ユーザの話し方や表情に対する各ユーザの評価をヒストグラムにリアルタイムに反映させることができる。

【0082】

（動画再生位置の移動）
またユーザ端末２００は、上記ヒストグラム８３上でユーザがいずれかの再生時間帯の柱Ｂを選択（タップ、クリック等）すると、動画の再生位置を当該選択された再生時間帯まで移動させることが可能である。図９は、ユーザ端末２００による、当該ヒストグラム８３の柱の選択時の処理の流れを示したフローチャートである。

【0083】

同図に示すように、ヒストグラム８３を表示するまでの処理は上記図６及び図８で示した処理と同様である（ステップ９１、９２）。

【0084】

続いてＣＰＵ２１は、ヒストグラム８３の何れかの柱Ｂがユーザによりタップされたか否かを判断する（ステップ９３）。

【0085】

いずれかの柱Ｂがタップされたと判断した場合（Ｙｅｓ）、ＣＰＵ２１は、タップされた柱Ｂに対応するタグ情報をＲＡＭ２３から取得する（ステップ９４）。

【0086】

続いてＣＰＵ２１は、取得したタグ情報から、タグの付加時間を取得する（ステップ９５）。

【0087】

続いてＣＰＵ２１は、取得したタグの付加時間の小数点以下を切り下げる（ステップ９６）。例えばタグの付加時間が1.123456であった場合、ステップ９６による変換後の値は1.0になる。

【0088】

そしてＣＰＵ２１は、上記変換した値を動画の現在の再生開始時間に設定する（ステップ９７）。これにより、動画の再生位置が設定した時間に移動する（ステップ９８）。

【0089】

すなわち、上記柱Ｂの選択操作により、当該柱Ｂに対応する再生時間帯の冒頭の時点へ動画データの再生時点が移動される。

【0090】

以上の処理により、ヒストグラム８３のいずれかの柱Ｂを選択させるだけで、動画中でユーザの話し方や表情の評価が高いシーンや評価が低いシーンをユーザに容易にサーチさせて閲覧させることができる。

【0091】

（タグカテゴリの編集）
上述した評価タグのタグカテゴリ（いいね／悪いね等）は、ユーザ端末２００のユーザが編集することが可能である。図１０は、評価タグのタグカテゴリの編集画面の例を示した図である。

【0092】

同図に示すように、当該編集画面では、「タグ追加」ボタンで評価タグのカテゴリを新たに追加し（例えば上限１０個まで）、当該タグカテゴリに関する項目として、アイコン、名称、イメージ（肯定的／否定的）をユーザが設定可能となっている。また各タグカテゴリの順番を変更したり、いずれかのタグカテゴリを削除することも可能である。

【0093】

当該タグカテゴリの編集は、例えば話し方評価サーバ１００の運営元と契約している企業や個人ごとに設定可能とされている。

【0094】

また上記タグカテゴリは、既に登録されているタグカテゴリと同時に動画に付加できるものであってもよい。例えば「笑顔」というタグカテゴリを追加し、動画中のユーザが笑顔であるシーンに笑顔タグを付加することも可能である。そして当該笑顔タグの付加時間がいいねタグの付加時間と重複していれば、笑顔が高評価であったことが分かるし、逆に笑顔タグの付加時間が悪いねタグの付加時間と重複していれば、例えば笑顔が不自然等、笑顔が低評価であったことが分かる。

【0095】

（動画解析処理）
上述したように、話し方評価サーバ１００は、上記動画データをＡＩエンジン等によって解析してその解析結果を表示することが可能である。図１１は話し方評価サーバ１００による動画解析処理の流れを示したフローチャートである。

【0096】

同図に示すように話し方評価サーバ１００のＣＰＵ１１は、まず、動画情報データベース３２から、解析対象の動画データを取得する（ステップ１０１）。

【0097】

続いてＣＰＵ１１は、当該動画データから音声を抽出して（ステップ１０２）、当該音声データを文字に変換する（ステップ１０３）。

【0098】

その一方でＣＰＵ１１は、動画データから人の体の部位を抽出し（ステップ１０４）、抽出結果を基に、瞬き、姿勢、手の動き、視線等の各種項目を点数化する（ステップ１０５）。

【0099】

そしてＣＰＵ１１は、上記解析結果を１つのファイルに統合し（ステップ１０６）、動画解析情報データベース３４に保存する（ステップ１０６）。

【0100】

図１２は、話し方評価サーバ１００によって生成された動画解析結果の表示画面の例を示した図である。当該画面も、上記評価情報入力画面と共にユーザ端末２００上で表示可能である。

【0101】

同図に示すように、当該動画解析結果表示画面は、各項目の解析結果のレーダーチャート９１と各項目のアドバイス情報９２とを含む。

【0102】

レーダーチャート９１の解析項目としては、話す速さ、瞬き、姿勢、手の動き、視線が挙げられる。このうち話す速さの点数は、上記音声データの文字変換結果に基づいて、例えば単位時間当たりの文字数の平均値から算出される。

【0103】

また瞬き、姿勢、手の動き、視線は上記体の部位の抽出結果を基に、例えば動画全体における、瞬きをした回数、姿勢が傾いている秒数、手が動いている秒数、目線が逸れた秒数を基にそれぞれ点数化される。

【0104】

アドバイス情報９２は、上記点数に応じて自動的に生成されるか、複数の点数範囲毎に予め作成された文章が点数に応じて抽出されて表示される。

【0105】

［まとめ］
以上説明したように、本実施形態によれば、ユーザ端末２００は、動画データの再生時点毎に紐づけられた評価タグの数を再生時間帯毎にヒストグラム８３で表すことで、動画データの被写体であるユーザの話し方や表情の変化に伴う他のユーザの評価の時系列変化（例えば、どのような表情のシーンに高評価／低評価が集中しているか等）をユーザに把握させることができる。

【0106】

［変形例］
本発明は上述の実施形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更され得る。

【0107】

上述の実施形態では、評価タグを可視化したヒストグラム８３は、話し方評価サーバ１００から取得した情報を基にユーザ端末２００が生成していたが、当該ヒストグラム８３は話し方評価サーバ１００が生成し、それをユーザ端末２００が受信して表示してもよい。この場合各ユーザ端末２００には上記話し方評価アプリがインストールされておらず、ブラウザで上記ヒストグラム８３等を表示するものであっても構わない。

【0108】

上述の実施形態において示した上記ヒストグラム８３やレーダーチャート９１の表示態様は説明及び図示したものに限られず、適宜変更が可能である。

【0109】

上述の実施形態で示した話し方評価サーバ１００は、その機能が複数のサーバや情報処理装置に分散されたシステムとして構成されていても構わない。

【0110】

本願の特許請求の範囲に記載された発明のうち、「情報処理方法」と記載された発明は、その各ステップを、ソフトウェアによる情報処理によりコンピュータ等の少なくとも１つの装置が自動的に行うものであり、人間がコンピュータ等の装置を用いて行うものではない。すなわち、当該「情報処理方法」は、コンピュータ・ソフトウェアによる情報処理方法であって、コンピュータという計算道具を人間が操作する方法ではない。

【符号の説明】

【0111】

１１、２１…ＣＰＵ
１８、２８…記憶部（データベース）
１９、２９…通信部
３１…ユーザ情報データベース
３２…動画情報データベース
３３…評価タグ情報データベース
３４…動画解析情報データベース
８０…動画再生欄
８１…高評価（いいね）ボタン
８２…低評価（悪いね）ボタン
８３…ヒストグラム
９１…レーダーチャート
９２…アドバイス情報
１００…話し方評価サーバ
２００…ユーザ端末
Ｂ…柱
Ｂｒ…再生中時間帯の柱

【要約】

【課題】ユーザの話し方や表情の変化に伴う評価の時系列変化をユーザに把握させること。
【解決手段】情報処理システムは、記憶部と制御部とを有する。上記記憶部は、第１ユーザが話している様子を撮影した動画データと、当該動画データのいずれかの再生時点に付加された、上記第１ユーザの話し方または表情に対する肯定的な評価を示す高評価タグに関する情報を含むタグ情報とを記憶する。上記制御部は、上記タグ情報を基に、横軸に上記動画データの再生時間帯を示し、縦軸に当該再生時間帯毎の上記高評価タグの数を示すヒストグラムを生成し、当該ヒストグラムを上記動画データの再生画面と共に出力する。上記高評価タグは、複数の第２ユーザのユーザ端末上で再生中の上記動画データのいずれかの再生時点で各第２ユーザにより所定の第１操作が入力されることで付加される。
【選択図】図７

【図1】