IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リコーの特許一覧 ▶ 株式会社シルバコンパスの特許一覧

特開2024-85188対話訓練装置、対話訓練システム、対話訓練方法およびプログラム
<>
  • 特開-対話訓練装置、対話訓練システム、対話訓練方法およびプログラム 図1
  • 特開-対話訓練装置、対話訓練システム、対話訓練方法およびプログラム 図2
  • 特開-対話訓練装置、対話訓練システム、対話訓練方法およびプログラム 図3
  • 特開-対話訓練装置、対話訓練システム、対話訓練方法およびプログラム 図4
  • 特開-対話訓練装置、対話訓練システム、対話訓練方法およびプログラム 図5
  • 特開-対話訓練装置、対話訓練システム、対話訓練方法およびプログラム 図6
  • 特開-対話訓練装置、対話訓練システム、対話訓練方法およびプログラム 図7
  • 特開-対話訓練装置、対話訓練システム、対話訓練方法およびプログラム 図8
  • 特開-対話訓練装置、対話訓練システム、対話訓練方法およびプログラム 図9
  • 特開-対話訓練装置、対話訓練システム、対話訓練方法およびプログラム 図10
  • 特開-対話訓練装置、対話訓練システム、対話訓練方法およびプログラム 図11
  • 特開-対話訓練装置、対話訓練システム、対話訓練方法およびプログラム 図12
  • 特開-対話訓練装置、対話訓練システム、対話訓練方法およびプログラム 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024085188
(43)【公開日】2024-06-26
(54)【発明の名称】対話訓練装置、対話訓練システム、対話訓練方法およびプログラム
(51)【国際特許分類】
   G06Q 50/10 20120101AFI20240619BHJP
   G10L 15/10 20060101ALI20240619BHJP
【FI】
G06Q50/10
G10L15/10 500Z
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2022199578
(22)【出願日】2022-12-14
(71)【出願人】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(71)【出願人】
【識別番号】520203356
【氏名又は名称】株式会社シルバコンパス
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】中川 淳
(72)【発明者】
【氏名】安田 晴彦
【テーマコード(参考)】
5L049
5L050
【Fターム(参考)】
5L049CC11
5L050CC11
(57)【要約】
【課題】プライバシーに配慮する必要がなく、対話内容によらず対話スキルを分析することができる対話訓練装置、対話訓練システム、対話訓練方法およびプログラムを提供する。
【解決手段】対話を想定する対象人物に関する情報に基づいて生成された仮想人物の動画によって、ユーザが発した発話内容の音声データに対する返答の音声を出力する対話において、端末装置に入力された前記ユーザの前記音声データおよび映像データを取得する取得部と、前記取得部により取得された前記音声データおよび前記映像データに基づいて、前記仮想人物との対話スキルについて分析を行う第1分析部と、を備える。
【選択図】図5
【特許請求の範囲】
【請求項1】
対話を想定する対象人物に関する情報に基づいて生成された仮想人物の動画によって、ユーザが発した発話内容の音声データに対する返答の音声を出力する対話において、端末装置に入力された前記ユーザの前記音声データおよび映像データを取得する取得部と、
前記取得部により取得された前記音声データおよび前記映像データに基づいて、前記仮想人物との対話スキルについて分析を行う第1分析部と、
を備えた対話訓練装置。
【請求項2】
前記第1分析部は、
前記取得部により取得された前記映像データから前記仮想人物に対する前記ユーザの挙動を解析し、前記挙動に基づいて前記対話スキルを分析する画像解析部と、
前記取得部により取得された前記音声データから前記仮想人物に対する前記ユーザの応答を解析し、前記応答に基づいて前記対話スキルを分析する音声解析部と、
を有する請求項1に記載の対話訓練装置。
【請求項3】
前記画像解析部は、前記挙動として、前記仮想人物に対するうなずきの回数および笑顔の回数のうち少なくともいずれかを解析し、
前記音声解析部は、前記応答として、前記仮想人物に対して肯定的に受け止めた回数、気遣いをした回数、あいづちをした回数、オープンクエスチョンをした回数、および該仮想人物との対話における発話比率のうち少なくともいずれかを解析する請求項2に記載の対話訓練装置。
【請求項4】
前記第1分析部は、前記取得部により取得された前記音声データおよび前記映像データに基づいて、前記対話スキルとして、傾聴スキル、承認スキルおよび質問スキルのうち少なくともいずれかを分析する請求項1に記載の対話訓練装置。
【請求項5】
前記第1分析部による分析結果を、前記端末装置に表示させる出力部を、さらに備えた請求項1に記載の対話訓練装置。
【請求項6】
前記第1分析部は、前記対話スキルを定量化し、
前記出力部は、前記第1分析部により定量化された前記対話スキルの値を、前記分析結果として前記端末装置に表示させる請求項5に記載の対話訓練装置。
【請求項7】
前記出力部は、
前記音声データをテキストに変換し、
前記テキストに対して前記対話スキルが寄与した部分を強調表示したものを、前記分析結果として前記端末装置に表示させる請求項5に記載の対話訓練装置。
【請求項8】
前記取得部により取得された前記音声データおよび前記映像データに基づいて、前記仮想人物との対話における前記ユーザの感情を分析する第2分析部を、さらに備え、
前記取得部は、前記ユーザの前記音声データおよび前記感情に基づいて、該音声データに対して返答する音声を出力するものとして生成された前記動画における前記仮想人物との対話において、該音声データおよび前記映像データを取得する請求項1に記載の対話訓練装置。
【請求項9】
請求項1~8のいずれか一項に記載の対話訓練装置と、
前記対象人物に関する情報に基づいて、該対象人物に対応させた前記仮想人物のデータを生成する第1生成装置と、
前記第1生成装置により生成された前記仮想人物のデータに基づいて、該仮想人物の動画を生成する第2生成装置と、
を有する対話訓練システム。
【請求項10】
対話を想定する対象人物に関する情報に基づいて生成された仮想人物の動画によって、ユーザが発した発話内容の音声データに対する返答の音声を出力する対話において、端末装置に入力された前記ユーザの前記音声データおよび映像データを取得する取得ステップと、
取得した前記音声データおよび前記映像データに基づいて、前記仮想人物との対話スキルについて分析を行う分析ステップと、
を有する対話訓練方法。
【請求項11】
コンピュータに、
対話を想定する対象人物に関する情報に基づいて生成された仮想人物の動画によって、ユーザが発した発話内容の音声データに対する返答の音声を出力する対話において、端末装置に入力された前記ユーザの前記音声データおよび映像データを取得する取得ステップと、
取得した前記音声データおよび前記映像データに基づいて、前記仮想人物との対話スキルについて分析を行う分析ステップと、
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対話訓練装置、対話訓練システム、対話訓練方法およびプログラムに関する。
【背景技術】
【0002】
近年、VUCA(Volatility Uncertainty Complexity Ambiguity)と呼ばれる変化の大きなビジネス環境の中で、企業ではトップダウン型のマネジメントは通用しづらくなり、一人ひとりの従業員が自律して課題設定および業務遂行をしていくことが求められている。さらに、各自が仕事の意味および担当する範囲を主体的に捉え直し、自律的にキャリアを設計していくスタンスも期待されている。一方で、職場の実態としては、業務の細分化により、課題および取り組むテーマが小粒だったり、課題の前提条件がすぐに変わってしまったりするということが多発している。これにより一生懸命取り組んでも報われない雰囲気が社内で醸成されてしまうと職場へのエンゲージメントの低下に繋がる虞がある。そのような状況の中、1on1ミーティングと称する上司と部下による1対1の定期的な対話によるミーティングを通じて、この今日的な職場課題へ対応することが現場に期待されている。
【0003】
このような、会議またはミーティングに関する対話の管理技術として、会議の生産性を高めることを目的して、会議での発言に基づいて会議の状態を判定するための基準情報を会議の目的ごとに記憶する基準情報記憶部と、特定の会議の目的を示す目的情報を取得する目的情報取得部と、特定の会議での発言を示す発言情報を取得する発言情報取得部と、発言情報と、目的情報に応じた基準情報とに基づいて、特定の会議の状態を判定する会議状態判定部と、特定の会議の状態の判定結果に基づいて、特定の会議の状態に応じた出力を行う出力部と、を備えた構成が開示されている(例えば特許文献1)。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に記載された技術では、発言内容のようなデータを取得するとプライバシーに関わるため、踏み込んだ内容の対話に基づく対話スキルの分析を行うことができないという問題がある。
【0005】
本発明は、上記に鑑みてなされたものであって、プライバシーに配慮する必要がなく、対話内容によらず対話スキルを分析することができる対話訓練装置、対話訓練システム、対話訓練方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上述した課題を解決し、目的を達成するために、本発明は、対話を想定する対象人物に関する情報に基づいて生成された仮想人物の動画によって、ユーザが発した発話内容の音声データに対する返答の音声を出力する対話において、端末装置に入力された前記ユーザの前記音声データおよび映像データを取得する取得部と、前記取得部により取得された前記音声データおよび前記映像データに基づいて、前記仮想人物との対話スキルについて分析を行う第1分析部と、を備えたことを特徴とする。
【発明の効果】
【0007】
本発明によれば、プライバシーに配慮する必要がなく、対話内容によらず対話スキルを分析することができる。
【図面の簡単な説明】
【0008】
図1図1は、実施形態に係る対話訓練システムの全体構成の一例を示す図である。
図2図2は、実施形態に係る対話訓練システムによる対話訓練中のユーザ端末の利用状態を説明する図である。
図3図3は、実施形態に係るユーザ端末のハードウェア構成の一例を示す図である。
図4図4は、実施形態に係るサーバシステムの各装置のハードウェア構成の一例を示す図である。
図5図5は、実施形態に係る対話訓練システムの機能ブロックの構成の一例を示す図である。
図6図6は、ユーザの感情と仮想人物の反応との対応の一例を示す図である。
図7図7は、実施形態に係る対話スキル分析装置の処理を説明する図である。
図8図8は、実施形態に係る対話スキル分析装置の処理を説明する図である。
図9図9は、実施形態に係る対話訓練システムにおける仮想人物の映像モデルを決定する処理の流れの一例を示すシーケンス図である。
図10図10は、実施形態に係る対話訓練システムにおける仮想人物の声を生成する処理の流れの一例を示すシーケンス図である。
図11図11は、実施形態に係る対話訓練システムにおける仮想人物の性格モデルを決定する処理の流れの一例を示すシーケンス図である。
図12図12は、実施形態に係る対話訓練システムにおける仮想人物との対話により対話訓練を行う処理の流れの一例を示すシーケンス図である。
図13図13は、実施形態に係る対話スキル分析装置における感情データの分析処理の流れの一例を示すフローチャートである。
【発明を実施するための形態】
【0009】
以下に、図面を参照しながら、本発明に係る対話訓練装置、対話訓練システム、対話訓練方法およびプログラムの実施形態を詳細に説明する。また、以下の実施形態によって本発明が限定されるものではなく、以下の実施形態における構成要素には、当業者が容易に想到できるもの、実質的に同一のもの、およびいわゆる均等の範囲のものが含まれる。さらに、以下の実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換、変更および組み合わせを行うことができる。
【0010】
また、コンピュータソフトウェアとは、コンピュータの動作に関するプログラム、その他コンピュータによる処理の用に供する情報であってプログラムに準ずるものをいう(以下、コンピュータソフトウェアは、ソフトウェアという)。アプリケーションソフトとは、ソフトウェアの分類のうち、特定の作業を行うために使用されるソフトウェアの総称である。一方、オペレーティングシステム(OS)とは、コンピュータを制御し、アプリケーションソフト等がコンピュータ資源を利用可能にするためのソフトウェアのことである。オペレーティングシステムは、入出力の制御、メモリやハードディスク等のハードウェアの管理、プロセスの管理といった、コンピュータの基本的な管理・制御を行っている。アプリケーションソフトウェアは、オペレーティングシステムが提供する機能を利用して動作する。プログラムとは、コンピュータに対する指令であって、一の結果を得ることができるように組み合わせたものをいう。また、プログラムに準ずるものとは、コンピュータに対する直接の指令ではないためプログラムとは呼べないが、コンピュータの処理を規定するという点でプログラムに類似する性質を有するものをいう。例えば、データ構造(データ要素間の相互関係で表される、データの有する論理的構造)がプログラムに準ずるものに該当する。
【0011】
(対話訓練システムの全体構成)
図1は、実施形態に係る対話訓練システムの全体構成の一例を示す図である。図1を参照しながら、実施形態に係る対話訓練システム1の全体構成について説明する。
【0012】
図1に示す対話訓練システム1は、実際には存在しない仮想人物の動画、声および発話内容を自動で生成してユーザが当該仮想人物との対話を疑似的に行うと同時に、ユーザの対話中の発話内容および振る舞いをデータとして取得して対話に関わる対話スキルを分析し、対話終了後にユーザに当該対話スキルの分析結果をフィードバックすることにより対話訓練を行うことができる対話訓練システムである。対話訓練システム1を利用して対話訓練を行う二者間のシーンとしては、例えば、上司-部下の1оn1ミーティングの他、先輩-後輩、先生-生徒、試験監督者-被験者等の対話シーンがある。
【0013】
図1および図2に示すように、ユーザ61は、ユーザ端末10を用いて、表示装置607に表示される仮想人物62と対話を行い、対話スキルの分析結果のフィードバックを受けることができる。ユーザ61は、対話訓練システム1を利用して対話訓練を受ける上司等である。仮想人物62は、ユーザ61が実際の対話を予定している部下等を想定して映像および音声が生成された仮想上の人物である。ユーザ端末10は、図2に示すように、入力操作を行うための入力装置606と、ユーザ61の音声を入力するマイク612と、仮想人物62の音声出力するスピーカ613と、仮想人物62の動画を表示する表示装置607と、ユーザ61を撮像するカメラ611と、を備えている。
【0014】
対話訓練システム1は、図1に示すように、サーバシステム2と、ユーザ端末10(端末装置)と、を含む。サーバシステム2は、図1に示すように、記憶管理装置20と、仮想人物生成装置30(第1生成装置)と、動画生成装置40(第2生成装置)と、対話スキル分析装置50(対話訓練装置)と、を含む。
【0015】
ユーザ端末10、記憶管理装置20。仮想人物生成装置30、動画生成装置40および対話スキル分析装置50は、ネットワークNを介して互いにデータ通信可能となっている。当該データ通信は、無線通信を含んでいてもよく、有線通信を含んでいてもよい。
【0016】
ユーザ端末10は、上述のように対話訓練を受けるユーザが使用するPC(Personal Computer)、スマートフォンまたはタブレット端末等の情報処理装置である。
【0017】
なお、ユーザ端末10は、液晶画面等の平面的な再生機器の他、ヘッドマウントディスプレイ型のVR(Virtual Reality)表示装置、ホログラム(立体映像)表示装置等の仮想人物の像を立体的に再生する機器であってもよい。このように、ユーザ端末10が仮想人物の像を立体的に再生する装置である場合には、仮想人物との対話をより現実感のあるものとすることができる。また、ユーザ端末10は、複数のユーザが同時に1個の仮想人物の像を視認可能な投影装置であってもよい。また、サーバシステム2と通信するユーザ端末10は、単数であっても複数であってもよい。以下では、ユーザ端末10は、PCであるものとして説明する。
【0018】
記憶管理装置20は、仮想人物についての映像モデル、性格モデルおよび声の情報等を記憶して管理する装置である。
【0019】
仮想人物生成装置30は、仮想人物の映像、性格および声についての情報(以下、仮想人物データと称する場合がある)を生成する情報処理装置である。
【0020】
動画生成装置40は、仮想人物生成装置30により生成された仮想人物データを用いて、仮想人物の動画を生成する情報処理装置である。
【0021】
対話スキル分析装置50は、対話訓練システム1を利用した対話訓練中のユーザに対してユーザ端末10で入力された映像データおよび音声データに基づいて、対話スキルを分析する情報処理装置である。
【0022】
なお、サーバシステム2は、1つのサーバ装置(情報処理装置)で構成されていてもよく、記憶管理装置20、仮想人物生成装置30、動画生成装置40および対話スキル分析装置50のうち少なくとも2以上の装置が1つのサーバ装置で構成されていてもよい。また、サーバシステム2の記憶管理装置20、仮想人物生成装置30、動画生成装置40および対話スキル分析装置50のうち一部または全部がクラウドシステムにより実現されるものとしてもよい。
【0023】
(ユーザ端末のハードウェア構成)
図3は、実施形態に係るユーザ端末のハードウェア構成の一例を示す図である。図3を参照しながら、本実施形態に係るユーザ端末10のハードウェア構成について説明する。
【0024】
図3に示すように、ユーザ端末10は、CPU(Central Processing Unit)601と、RAM(Random Access Memory)602と、ROM(Read Only Memory)603と、補助記憶装置604と、ネットワークI/F605と、入力装置606と、表示装置607と、入出力I/F608と、カメラ611と、マイク612と、スピーカ613と、を備えている。このうち、CPU601、RAM602、ROM603、補助記憶装置604、ネットワークI/F605、入力装置606、表示装置607および入出力I/F608は、バス610を介して相互にデータ通信が可能となるように接続されている。
【0025】
CPU601は、ユーザ端末10の全体の動作を制御し、各種の情報処理を行う演算装置である。CPU601は、ROM603または補助記憶装置604に記憶されたプログラムを実行する。
【0026】
RAM602は、CPU601のワークエリアとして用いられ、主要な制御パラメータおよび情報を記憶する揮発性の記憶装置である。ROM603は、基本入出力プログラム等を記憶する不揮発性の記憶装置である。
【0027】
補助記憶装置604は、HDD(Hard Disk Drive)またはSSD(Solid State Drive)等の不揮発性記憶装置である。補助記憶装置604は、例えば、ユーザ端末10の動作を制御するプログラム、ならびに、ユーザ端末10の動作に必要な各種のデータおよびファイル等を記憶する。
【0028】
ネットワークI/F605は、サーバシステム2の各装置のようなネットワーク上の機器と通信を行うための通信インターフェースである。ネットワークI/F605は、例えば、TCP(Transmission Control Protocol)/IP(Internet Protocol)に準拠したNIC(Network Interface Card)等によって実現される。
【0029】
入力装置606は、キーボード、マウスおよび操作ボタン等のユーザインターフェース等である。表示装置607は、各種の情報を表示するディスプレイ装置である。表示装置607は、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)または有機EL(Electro-Luminescence)等によって実現される。
【0030】
入出力I/F608は、各種入出力機器を接続するためのインターフェースである。
【0031】
カメラ611は、対話訓練システム1を利用して対話訓練を受けるユーザを撮像するための撮像装置である。マイク612は、対話訓練システム1を利用して対話訓練を受けるユーザが発する音声を集音する集音装置である。スピーカ613は、対話訓練システム1を利用して対話訓練を受けるユーザと対話する仮想人物の音声等を出力する出力装置である。なお、カメラ611、マイク612およびスピーカ613は、それぞれ内蔵型のデバイスであっても、外付けのデバイスであってもよい。
【0032】
なお、図3に示すユーザ端末10のハードウェア構成は一例であり、これ以外の装置が備えられるものとしてもよい。また、図3に示すユーザ端末10は、例えば、PC(Personal Computer)を想定したハードウェア構成であるが、これに限定されるものではなく、上述のようにスマートフォンまたはタブレット端末等であってもよく、この場合、ネットワークI/F605は、無線通信機能を有する通信インターフェースであればよい。
【0033】
(サーバシステムのハードウェア構成)
図4は、実施形態に係るサーバシステムの各装置のハードウェア構成の一例を示す図である。図4を参照しながら、本実施形態に係るサーバシステム2の各装置(記憶管理装置20、仮想人物生成装置30、動画生成装置40、対話スキル分析装置50)のハードウェア構成について説明する。なお、図4では、記憶管理装置20を例にして説明するが、仮想人物生成装置30、動画生成装置40および対話スキル分析装置50についても同様の構成である。
【0034】
図4に示すように、記憶管理装置20は、CPU701と、ROM702と、RAM703と、補助記憶装置705と、メディアドライブ707と、ディスプレイ708と、ネットワークI/F709と、キーボード711と、マウス712と、DVD(Digital Versatile Disc)ドライブ714と、を備えている。
【0035】
CPU701は、記憶管理装置20全体の動作を制御する演算装置である。ROM702は、記憶管理装置20用のプログラムを記憶している不揮発性記憶装置である。RAM703は、CPU701のワークエリアとして使用される揮発性記憶装置である。
【0036】
補助記憶装置705は、各種データおよびプログラム等を記憶するHDD(Hard Disk Drive)またはSSD(Solid State Drive)等の記憶装置である。
【0037】
メディアドライブ707は、CPU701の制御に従って、フラッシュメモリ等の記録メディア706に対するデータの読み出しおよび書き込みを制御する装置である。
【0038】
ディスプレイ708は、カーソル、メニュー、ウィンドウ、文字または画像等の各種情報を表示する液晶または有機EL等によって構成された表示装置である。
【0039】
ネットワークI/F709は、ネットワークNを利用して仮想人物生成装置30、動画生成装置40および対話スキル分析装置50とデータを通信するためのインターフェースである。ネットワークI/F709は、例えば、イーサネット(登録商標)に対応し、TCP/IP等に準拠した通信が可能なNIC(Network Interface Card)等である。なお、ネットワークI/F709は、Wi-Fi(登録商標)、4Gまたは5G等の規格により、アンテナを介して他の機器と無線通信をするインターフェースであってもよい。
【0040】
キーボード711は、文字、数字、各種指示の選択、およびカーソルの移動等を行う入力装置である。マウス712は、各種指示の選択および実行、処理対象の選択、ならびにカーソルの移動等を行うための入力装置である。
【0041】
DVDドライブ714は、着脱自在な記憶媒体の一例としてのDVD-ROMまたはDVD-R(Digital Versatile Disk Recordable)等のDVD713に対するデータの読み出しおよび書き込みを制御する装置である。
【0042】
上述のCPU701、ROM702、RAM703、補助記憶装置705、メディアドライブ707、ディスプレイ708、ネットワークI/F709、キーボード711、マウス712およびDVDドライブ714は、アドレスバスおよびデータバス等のバス710によって互いに通信可能に接続されている。
【0043】
なお、図4に示した記憶管理装置20のハードウェア構成は一例を示すものであり、図4に示した構成要素を全て含む必要はなく、または、その他の構成要素を含むものとしてもよい。
【0044】
(対話訓練システムの機能ブロックの構成および動作)
図5は、実施形態に係る対話訓練システムの機能ブロックの構成の一例を示す図である。図6は、ユーザの感情と仮想人物の反応との対応の一例を示す図である。図7および図8は、実施形態に係る対話スキル分析装置の処理を説明する図である。図5図8を参照しながら、本実施形態に係る対話訓練システム1の機能ブロックの構成および動作について説明する。
【0045】
<ユーザ端末の機能ブロックの構成および動作>
図5に示すように、ユーザ端末10は、入力部11と、出力部12と、情報ソース登録部13と、認証要求部14と、通信処理部19と、を有する。
【0046】
入力部11は、ユーザの顔を撮像して映像データを取得(入力)したり、ユーザが発話した音声を入力したり、ユーザによる操作入力を受け付ける機能部である。入力部11は、図3に示した入力装置606、カメラ611およびマイク612によって実現される。
【0047】
出力部12は、動画生成装置40により生成された仮想人物の動画を表示したり、当該動画の音声を出力する機能部である。出力部12は、図3に示した表示装置607およびスピーカ613によって実現される。
【0048】
情報ソース登録部13は、仮想人物のモデルとなり、かつ対話を想定する対象人物(例えば部下等)に関する情報(以下、情報ソースと称する場合がある)を取得して、補助記憶装置604に登録する機能部である。すなわち、仮想人物は、対象人物に対応させる仮想上の人物である。ここで、情報ソースとは、例えば、対象人物が含まれる動画、静止画および音源、ならびに、対象人物が作成した日記等の記録文書、趣味嗜好を表す文書、SNS(Social Networking Service)等の文字データ、および対象人物の所有物に関する情報等のうち少なくともいずれかを含む対象人物に関する情報である。なお、情報ソース登録部13は、例えば、入力部11に対する操作により入力された情報を情報ソースとして取得してもよく、または、インターネットを介して外部装置から取得するものとしてもよい。情報ソース登録部13は、登録した情報ソースを、適式なタイミングで通信処理部19を介して、仮想人物生成装置30へ送信する。情報ソース登録部13は、図3に示したCPU601によりプログラムが実行されることによって実現される。
【0049】
認証要求部14は、ユーザが対話訓練システム1を利用する際に、仮想人物生成装置30に対してログイン認証を要求する機能部である。認証要求部14は、図3に示したCPU601によりプログラムが実行されることによって実現される。
【0050】
通信処理部19は、ネットワークNを介して、サーバシステム2とデータ通信を行う機能部である。通信処理部19は、図3に示したネットワークI/F605、およびCPU601によりプログラムが実行されることによって実現される。
【0051】
なお、情報ソース登録部13および認証要求部14の機能部の一部または全部は、ソフトウェアであるプログラムではなく、FPGA(Field-Programmable Gate Array)またはASIC(Application Specific Integrated Circuit)等のハードウェア回路(集積回路)によって実現されてもよい。
【0052】
また、図5に示すユーザ端末10の各機能部は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図5に示すユーザ端末10で独立した機能部として図示した複数の機能部を、1つの機能部として構成してもよい。一方、図5に示すユーザ端末10で1つの機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。
【0053】
<記憶管理装置の機能ブロックの構成および動作>
図5に示すように、記憶管理装置20は、映像モデルDB21と、性格モデルDB22と、仮想人物データ記憶部23と、通信処理部29と、を有する。
【0054】
映像モデルDB21は、人物が動作する映像で構成された映像モデルを、複数種類記憶するデータベースである。ここで、映像モデルとは、仮想人物の映像を生成するために用いられる、映像のテンプレートである。また、映像モデルは、特に胴体の形および動作を構成するデータである。また、映像モデルは、後述するように、顔データが統合されて用いられる。また、映像モデルには、身長、体重および年齢等に応じて、体格が異なる複数種類の人物のデータが含まれている。また、映像モデルには、各人物が着用して再生可能な複数種類の服装のデータが含まれている。さらに、映像モデルは、各外観の人物が動作する様々なデータを含んでおり、例えば、うなずく、腕を組む、および手を挙げるといった、対話の際によく行われる動作のデータが含まれている。映像モデルDB21は、図4に示した補助記憶装置705によって実現される。なお、映像モデルは、実際の人物を撮影した映像であってもよいし、CGでモデリングした映像であってもよく、または両方が含まれていてもよい。
【0055】
性格モデルDB22は、人物の性格モデルを、複数種類記憶する記憶部である。ここで、性格モデルとは、例えば、質問に対する回答の特性を含み、ポジティブな内容であるかネガティブな内容であるかといった回答の方針および回答に表れる喜怒哀楽等を決定付けるためのモデルである。なお、性格モデルは、ユーザからの質問に対する回答に限らず、季節または時間帯等に応じたメッセージの特性を含んでいてもよい。また、性格モデルDB22には、各性格モデルに即した、予め想定される質問に対する返答が合わせて記憶されていてもよい。これによって、定型的な質問に対して、性格モデルに応じた返答を生成する計算処理負担が軽減できる。なお、性格モデルDB22は、性格に関する各種の学習データを用いてAI(Artificial Intelligence)による学習により得られた学習モデルであってもよい。性格モデルDB22は、図4に示した補助記憶装置705によって実現される。
【0056】
仮想人物データ記憶部23は、仮想人物データとして、仮想人物生成装置30により選択された映像モデル(使用映像モデル)、仮想人物生成装置30により選択された性格モデル(使用性格モデル)、および仮想人物生成装置30により生成された仮想人物の声の情報を記憶する機能部である。また、仮想人物データ記憶部23に記憶された仮想人物データは、動画生成装置40により仮想人物の動画の生成の際に読み出される。仮想人物データ記憶部23は、図4に示した補助記憶装置705によって実現される。
【0057】
通信処理部29は、ネットワークNを介して、ユーザ端末10、仮想人物生成装置30、動画生成装置40および対話スキル分析装置50とデータ通信を行う機能部である。通信処理部29は、図4に示したネットワークI/F709、およびCPU701によりプログラムが実行されることによって実現される。
【0058】
なお、情報ソース登録部13および認証要求部14の機能部の一部または全部は、ソフトウェアであるプログラムではなく、FPGA(Field-Programmable Gate Array)またはASIC(Application Specific Integrated Circuit)等のハードウェア回路(集積回路)によって実現されてもよい。
【0059】
また、図5に示す記憶管理装置20の各機能部は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図5に示す記憶管理装置20で独立した機能部として図示した複数の機能部を、1つの機能部として構成してもよい。一方、図5に示す記憶管理装置20で1つの機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。
【0060】
<仮想人物生成装置の機能ブロックの構成および動作>
図5に示すように、仮想人物生成装置30は、映像処理部31と、音声処理部32と、性格処理部33と、認証部34と、通信処理部39と、を有する。
【0061】
映像処理部31は、ユーザ端末10の情報ソース登録部13により登録された情報ソースに基づいて、仮想人物データのうち、仮想人物の映像に関する情報を生成する機能部である。ここで、仮想人物の映像に関する情報とは、具体的には、後述するように、仮想人物の顔データが統合された使用映像モデルである。映像処理部31は、図5に示すように、動画取得部311と、静止画取得部312と、トリミング部313と、画像補正部314と、映像モデル選択部315と、顔挿入部316と、を有する。映像処理部31は、図4に示したCPU701によりプログラムが実行されることによって実現される。
【0062】
なお、映像処理部31は、複数のユーザ端末10により登録された情報ソースに基づいて、1個の仮想人物の映像に関する情報を生成してもよい。例えば、有名人等、多くのユーザが共通の仮想人物と対話する場合、各ユーザがユーザ端末10を介して1個の仮想人物の情報ソースを登録する。これによって、より多くの情報ソースに基づいて仮想人物を生成することができ、より現実感のある対話が可能となる。
【0063】
動画取得部311は、ユーザ端末10の情報ソース登録部13により登録された情報ソースから、対象人物の外観データとして動画データを取得する機能部である。ここで、外観データとは、対象人物の顔、体、髪型、服装等を含む各種データである。
【0064】
なお、動画取得部311は、ユーザ端末10を通じてユーザに動画の撮影を促してもよい。ユーザ端末10を通じて動画が撮影可能な状況として、例えば、対象人物がユーザの身近な人物であり、仮想人物を別のユーザ端末10に表示させる場合、または、対象人物が亡くなった後にも対話可能とするために仮想人物を生成しておく場合等が考えられる。この場合、動画取得部311は、ユーザに動画を撮影させるためのチュートリアルをユーザ端末10に表示させてもよい。
【0065】
静止画取得部312は、ユーザ端末10の情報ソース登録部13により登録された情報ソースから、対象人物の外観データとして静止画データを取得する機能部である。また、静止画取得部312は、情報ソースに含まれる対象人物の動画データ、または動画取得部311により取得された動画データから静止画データに変換することによって取得するものとしてもよい。この場合、静止画取得部312は、対象人物の様々な角度の画像、様々な表情の画像が含まれるように、動画データから静止画データに変換する。
【0066】
なお、静止画取得部312は、ユーザ端末10を通じてユーザに静止画の撮影を促してもよい。この場合、静止画取得部312は、ユーザに静止画、すなわち写真を撮影させるためのチュートリアルをユーザ端末10に表示させてもよい。
【0067】
トリミング部313は、静止画取得部312により取得された静止画データから、対象人物のデータをトリミングして抽出する機能部である。例えば、トリミング部313は、顔認識機能を有し、当該顔認識機能により静止画取得部312により取得された静止画データから、対象人物の顔を認識し、当該顔部分のデータを顔データとして抽出する。
【0068】
画像補正部314は、トリミング部313により抽出された顔データの色調補正および解像度補正を行い、抽出した顔データの質を均一化する機能部である。なお、画像補正部314は、トリミング部313により抽出された顔データが鮮明か否かを判別し、不鮮明な顔データが抽出された場合、除外してもよい。また、画像補正部314は、顔データが所定以下の解像度である場合、除外してもよい。
【0069】
映像モデル選択部315は、記憶管理装置20の映像モデルDB21に記憶された映像モデルのうち、仮想人物の動画の生成に使用する映像モデルを選択する機能部である。ここで、映像モデル選択部315により選択された映像モデルを、使用映像モデルと称する場合がある。映像モデル選択部315は、例えば、動画取得部311により取得された外観データとしての動画データ、または静止画取得部312により取得された外観データとしての静止画データに基づいて、対象人物に最も類似する映像モデルを選択してもよい。また、映像モデル選択部315は、例えば、ユーザ端末10に、映像モデルDB21に記憶された複数の映像モデルを提示し、ユーザにより選択された映像モデルを選択するものとしてもよい。これによって、情報ソース登録部13により対象人物を示す十分な量の情報ソースが登録されていなくても、仮想人物の動画の生成に使用する映像モデルを選択することができる。また、映像モデル選択部315は、例えば、動画取得部311または静止画取得部312により取得された外観データが示す対象人物の服装または所有物に基づいて、映像モデルを選択してもよい。すなわち、対象人物の服装を示す情報ソースがあれば、当該情報ソースに基づいて仮想人物の動画を生成するための映像モデルを選択することができ、対象人物の情報ソースが不足していても、対象人物の服装または所有物の情報に基づいて映像モデルを選択することができ、仮想人物の動画を生成することが可能である。
【0070】
また、映像モデルDB21から服装のデータを選択することもできるので、対象人物の服装に関する情報ソースが不足していても、仮想人物の生成を簡便に行うことができる。また、映像モデル選択部315は、複数種類の服装をしている仮想人物の映像モデルを構成しておき、時期、時間帯、またはユーザの選択に基づいて服装が変更可能になっていてもよい。また、映像モデル選択部315は、生成する仮想人物の髪型を、外観データに基づいて決定してもよいし、映像モデルDB21から、仮想人物の髪型を選択してもよい。さらに、映像モデル選択部315は、複数種類の髪型をしている仮想人物の映像モデルを構成しておき、髪型が変更可能になっていてもよい。
【0071】
なお、ここまでの説明において、映像処理部31は、対象人物自身の情報ソースに基づいて仮想人物のデータを抽出することを想定して説明したが、対象人物に似ている人物の動画または静止画を新たに撮影し、仮想人物の映像モデルの選択に用いてもよい。また、髪型または服装等、似ている人物の外観データを部分的に使用して、仮想人物の映像モデルの選択に用いてもよい。すなわち、外観データのうち仮想人物の映像モデルの生成に用いる要素を、ユーザが選択可能になっていてもよい。
【0072】
顔挿入部316は、画像補正部314により補正された顔データを、映像モデル選択部315により選択された使用映像モデルに統合する機能部である。すなわち、顔挿入部316により、使用映像モデルで構成される仮想人物の胴体に、顔データが統合され、仮想人物の全身像が構成される。そして、顔挿入部316は、顔データを統合した使用映像モデルを、記憶管理装置20を仮想人物データ記憶部23に記憶させる。
【0073】
音声処理部32は、ユーザ端末10の情報ソース登録部13により登録された情報ソースに基づいて、仮想人物が発する声を人工的に生成する機能部である。音声処理部32は、図5に示すように、音声抽出部321と、音声生成部322と、を備える。音声処理部32は、図4に示したCPU701によりプログラムが実行されることによって実現される。
【0074】
音声抽出部321は、ユーザ端末10の情報ソース登録部13により登録された情報ソースから対象人物の音声を抽出する機能部である。音声抽出部321は、例えば、情報ソースに含まれる複数種類の声のうち、最も長時間含まれている人物の声を、対象人物の声とみなしてもよい。
【0075】
音声生成部322は、音声抽出部321により抽出された対象人物の音声に基づいて、仮想人物の声を生成する機能部である。音声生成部322は、例えば、音声抽出部321により抽出された音声をトリミングし、仮想人物の声として再生可能な状態に編集してもよい。また、音声生成部322は、例えば、予め用意された音声データの中から、抽出された対象人物の声に似た声を選んで仮想人物の声として決定してもよい。さらに、音声生成部322は、例えば、抽出された対象人物の音声に類似する人工音声を生成してもよい。なお、仮想人物からのメッセージをテキストで表示する場合は、音声の生成はなくてもよい。そして、音声生成部322は、生成した仮想人物の声の情報を、記憶管理装置20を仮想人物データ記憶部23に記憶させる。
【0076】
性格処理部33は、仮想人物の性格モデルの決定および補正をする機能部である。性格処理部33は、図5に示すように、テキストデータ登録部331と、性格モデル選択部332と、性格モデル補正部333と、を有する。性格処理部33は、図4に示したCPU701によりプログラムが実行されることによって実現される。
【0077】
テキストデータ登録部331は、情報ソースからテキストデータを抽出し、仮想人物データ記憶部23に登録する機能部である。テキストデータ登録部331は、例えば、情報ソースのうち対象人物のブログまたはSNS等からテキストデータを抽出し、所定のルールに従って仮想人物データ記憶部23に登録する。また、テキストデータ登録部331は、例えば、情報ソースのうち対象人物による手書きの文書(例えば日記等)を、テキストデータに変換して仮想人物データ記憶部23に登録してもよい。さらに、テキストデータ登録部331は、例えば、情報ソースのうち音声データまたは動画データに含まれる対象人物の声をテキストデータに変換し、仮想人物データ記憶部23に登録してもよい。
【0078】
性格モデル選択部332は、記憶管理装置20の性格モデルDB22に記憶された性格モデルのうち、仮想人物の動画の生成に使用する性格モデルを選択する機能部である。ここで、性格モデル選択部332により選択された性格モデルを、使用性格モデルと称する場合がある。性格モデル選択部332は、例えば、まず、ユーザ端末10を介して対象人物の性格に関する質問を提示する。ユーザ端末10から質問に対する回答が入力されると、性格モデル選択部332は、当該回答に基づいて、仮想人物の動画の生成に使用する性格モデルを、性格モデルDB22に記憶された性格モデルの中から選択する。なお、性格に関する質問は、複数提示されてもよい。また、入力される回答と次の質問とが関連付けられたチャートに沿って、質問が提示されてもよい。そして、性格モデル選択部332は、選択した使用性格モデルを、記憶管理装置20の仮想人物データ記憶部23に記憶させる。
【0079】
このように、ユーザが質問に答えていくことにより、予め用意された性格の基本分類に基づいて、仮想人物の基本的な性格付けが行われる。性格付けを、対象人物の実際の会話の情報から行うものとすると、膨大な量の会話の情報が必要である。本実施形態に係る対話訓練システム1によれば、性格に関する質問の回答に基づいて、予め用意された性格のいずれかに分類することができるので、対象人物に関する情報が不足していても簡易な構成で仮想人物の性格を決定することができる。なお、仮想人物の性格モデルは、ユーザからの質問のタイプに応じたシナリオパターンごとに定められていてもよい。シナリオパターンは、例えば日常会話、または悩みごとの相談等である。一部のシナリオパターンに関して性格モデルが決定されれば、当該シナリオパターンに即した対話が可能に構成されていてもよい。この構成によれば、必要なシナリオパターンに関する性格モデルのみを決定すれば対話できるので、簡便である。
【0080】
なお、音声生成部322は、テキストデータ登録部331により抽出されたテキストデータから、性格を表す特徴を判別し、当該判別結果に合致する性格モデルを選択するものとしてもよい。
【0081】
性格モデル補正部333は、性格モデル選択部332により選択された使用性格モデルを補正する機能部である。性格モデル補正部333は、例えば、ユーザ端末10から、対話訓練中に仮想人物が行った返答に対するユーザの評価を受信し、当該評価に基づいて使用性格モデルを補正する。例えば、ユーザは、返答に対し、対象人物の返答として、対象人物の性格と合致した内容であったか否かを評価として入力する。また、返答と共になされる仮想人物の動作に対する評価を入力してもよい。また、性格モデル補正部333は、例えば、ユーザによる評価を学習データとしてAI等を用いた学習を行い、使用性格モデルを補正するものとしてもよい。これによって、仮想人物の性格をより対象人物に近いものに補正することができる。
【0082】
なお、1個の仮想人物に対して複数のユーザ端末10が同時または別の時点で対話を行う場合において、性格モデル補正部333は、複数のユーザ端末10からの評価に基づいて、1個の仮想人物の使用性格モデルを補正してもよい。これによって、仮想人物の使用性格モデルに多くのフィードバックを与えることができるため、仮想人物の使用性格モデルを対象人物の性格により近づけ、対話精度を上げることができる。
【0083】
また、性格モデル補正部333は、対話訓練中に、ユーザからの評価ではなく、仮想人物からのメッセージに対するユーザの返答に基づいて、当該メッセージが適していたか否かを判定し、使用性格モデルを補正してもよい。この場合、性格モデル補正部333は、ユーザの返答内容をテキストデータに変換して解析してもよく、ユーザの声色から満足度を類推してもよい。
【0084】
認証部34は、ユーザ端末10からのログイン認証の要求に応じて、当該ユーザ端末10のユーザについて認証処理を行う機能部である。認証部34は、図4に示したCPU701によりプログラムが実行されることによって実現される。
【0085】
通信処理部39は、ネットワークNを介して、ユーザ端末10、記憶管理装置20、動画生成装置40および対話スキル分析装置50とデータ通信を行う機能部である。通信処理部39は、図4に示したネットワークI/F709、およびCPU701によりプログラムが実行されることによって実現される。
【0086】
なお、映像処理部31、音声処理部32、性格処理部33および認証部34の機能部の一部または全部は、ソフトウェアであるプログラムではなく、FPGAまたはASIC等のハードウェア回路(集積回路)によって実現されてもよい。
【0087】
また、図5に示す仮想人物生成装置30の各機能部は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図5に示す仮想人物生成装置30で独立した機能部として図示した複数の機能部を、1つの機能部として構成してもよい。一方、図5に示す仮想人物生成装置30で1つの機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。
【0088】
<動画生成装置の機能ブロックの構成および動作>
図5に示すように、動画生成装置40は、映像表示処理部41と、対話処理部42と、通信処理部49と、を有する。
【0089】
映像表示処理部41は、記憶管理装置20の仮想人物データ記憶部23を参照し、映像処理部31により顔データが統合された使用映像モデルを用いて、仮想人物が発話する発話映像を生成する機能部である。映像表示処理部41は、使用映像モデルに統合された顔データをモデリング処理し、発話に合わせて動作させる発話映像を生成する。映像表示処理部41は、生成した発話映像を、通信処理部49を介してユーザ端末10へ送信し、当該発話映像をユーザ端末10で再生させる。映像表示処理部41は、図4に示したCPU701によりプログラムが実行されることによって実現される。
【0090】
対話処理部42は、記憶管理装置20の仮想人物データ記憶部23を参照し、性格処理部33により選択された使用性格モデルに基づいて、仮想人物が発話するメッセージを生成する機能部である。使用性格モデルがAIによる学習で得られた学習モデルである場合、対話処理部42は、学習モデルである使用性格モデルにより最適な回答を決定する。そして、対話処理部42は、記憶管理装置20の仮想人物データ記憶部23を参照し、仮想人物の声の情報を用いて、生成したメッセージを発話する音声データを生成する。対話処理部42は、生成した音声データを、通信処理部49を介してユーザ端末10へ送信し、当該音声データをユーザ端末10で再生させる。
【0091】
通信処理部49は、ネットワークNを介して、ユーザ端末10、記憶管理装置20、仮想人物生成装置30および対話スキル分析装置50とデータ通信を行う機能部である。通信処理部49は、図4に示したネットワークI/F709、およびCPU701によりプログラムが実行されることによって実現される。
【0092】
なお、映像表示処理部41、対話処理部42および通信処理部49の機能部の一部または全部は、ソフトウェアであるプログラムではなく、FPGAまたはASIC等のハードウェア回路(集積回路)によって実現されてもよい。
【0093】
また、図5に示す動画生成装置40の各機能部は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図5に示す動画生成装置40で独立した機能部として図示した複数の機能部を、1つの機能部として構成してもよい。一方、図5に示す動画生成装置40で1つの機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。
【0094】
<対話スキル分析装置の機能ブロックの構成および動作>
図5に示すように、対話スキル分析装置50は、対話データ取得部51(取得部)と、対話データ解析部52と、対比スキル判定部53と、感情データ分析部54(第2分析部)と、分析結果出力部55(出力部)と、通信処理部59と、を有する。
【0095】
対話データ取得部51は、ユーザ端末10を用いたユーザの対話訓練中に、ユーザ端末10の入力部11により入力されたユーザの映像データおよび音声データを、通信処理部59を介して取得する機能部である。対話データ取得部51は、図4に示したCPU701によりプログラムが実行されることによって実現される。なお、仮想人物との対話中に対話データ取得部51により取得された映像データから、ユーザの顔情報を取得して、当該顔情報から血圧、脈波、コレステロール値等の生体データを取得してもよい。これによて、ユーザのストレス、疲労、各種症状の初期兆候等を発見することができる。この場合、例えば、顔情報は血流によって生じる顔肌の変化から推測して取得することができる。また、顔情報に加えて、対話データ取得部51により取得された音声データの声の大きさ、高さ、発話速度等のデータと合わせたマルチモーダル分析をすることにより、計測精度を向上させることができる。また、対話中のユーザの姿勢を補正しながら映像データを取得することにより、顔の位置がずれることなく正確な顔情報を取得することができる。また、顔画像から血圧、脈拍、コレステロール値等の生体データを読み取ろうとすると、読み取りまでに時間が必要になるが、対面型の対話訓練システム1では対話中にデータ処理できるメリットがある。
【0096】
対話データ解析部52は、対話データ取得部51により取得された映像データおよび音声データに基づいて、相手(仮想人物)との対話スキルとして、相手の回答・返答に対して傾聴するスキルである傾聴スキル、相手の回答・返答を受け入れたり承認したりするスキルである承認スキル、およびオープンクエスチョンおよび問いかけ等のスキルである質問スキルに関する各特徴量を解析する機能部である。対話データ解析部52は、図5に示すように、画像解析部521と、音声解析部522と、を有する。対話データ解析部52は、図4に示したCPU701によりプログラムが実行されることによって実現される。
【0097】
画像解析部521は、図7および図8に示すように、対話データ取得部51により取得された映像データから、相手(仮想人物)に対するうなずきの回数を傾聴スキルおよび承認スキルの特徴量として算出する。また、画像解析部521は、図7および図8に示すように、対話データ取得部51により取得された映像データから、相手に対する笑顔の回数を傾聴スキルの特徴量として算出する。なお、傾聴スキルおよび承認スキルの特徴量としては、うなずきの回数および笑顔の回数(それぞれ挙動の一例)に限定されるものではなく、うなずきの回数および笑顔の回数のうち少なくともいずれかであってもよく、その他の特徴量であってもよい。
【0098】
画像解析部521は、例えば、映像データからユーザの「表情」および「挙動」等を検出する。「表情」には、映像データに含まれるユーザの顔領域から抽出される特徴量に基づいて算出されたユーザの表情が、いずれの表情パラメータに該当するかを所定周期ごとにカウントした結果が記録される。「表情」に含まれる表情パラメータには、「怒り」、「侮り」、「嫌気」、「不安」、「喜び」、「悲しみ」、「驚き」、「中立」等がある。「挙動」には、映像データに含まれるユーザの各部位の移動量を算出することで得られた算出結果が記録される。「挙動」に含まれる挙動パラメータには、「頭の動き」、「体の動き」、「唇の動き」、「目の動き」がある。例えば、「頭の動き」には、映像データよりユーザの頭部の位置が検出され、当該頭部の位置の移動量が算出されることで導出された、所定時間ごとの移動量の平均値が記録される。画像解析部521は、挙動の結果をもとにユーザの姿勢および身振りを分析する。
【0099】
音声解析部522は、図7および図8に示すように、対話データ取得部51により取得された音声データから、相手(仮想人物)に対して肯定的に受け止めた回数を承認スキルの特徴量として算出する。この場合、肯定的に受け止めたか否かについては、例えば、音声データに含まれる用語が辞書データに登録された肯定的とされる用語と一致ししているか否かを判定したり、または、音声データの音程またはトーン等について数値化したものを閾値判定したりすることによって判断するものとすればよい。また、音声解析部522は、図7および図8に示すように、対話データ取得部51により取得された音声データから、相手に対して気遣いをした回数を承認スキルの特徴量として算出する。また、音声解析部522は、図7および図8に示すように、対話データ取得部51により取得された音声データから、相手に対して声を発することによるあいづちをした回数を傾聴スキルの特徴量として算出する。また、音声解析部522は、図7および図8に示すように、対話データ取得部51により取得された音声データから、相手に対してオープンクエスチョンをした回数を質問スキルの特徴量として算出する。また、音声解析部522は、図7および図8に示すように、対話データ取得部51により取得された音声データから、相手との対話における発話比率を傾聴スキルの特徴量として算出する。なお、傾聴スキル、承認スキルおよび質問スキルの特徴量としては、肯定的に受け止めた回数、気遣いをした回数、あいづちをした回数、オープンクエスチョンをした回数および対話における発話比率(それぞれ応答の一例)に限定されるものではなく、肯定的に受け止めた回数、気遣いをした回数、あいづちをした回数、オープンクエスチョンをした回数および対話における発話比率のうち少なくともいずれかであってもよく、その他の特徴量であってもよい。
【0100】
音声解析部522は、例えば、音声データからユーザの「トーン」、「発話回数」、「発話時間」、「沈黙回数」、「沈黙時間」、「発話内容」を検出する。「トーン」には、音声データを言語解析し、言語において意味の区別に用いる音の高低パターンを算出することにより得られた特徴量が記録される。「発話回数」および「発話時間」には、訓練中にユーザが発話した回数およびユーザが発話した時間が算出され、記録される。「沈黙回数」および「沈黙時間」には、対話訓練中にユーザが沈黙した回数および沈黙した時間が算出され、記録される。「発話内容」には、対話訓練中にユーザが発話した内容をテキストに起こして記録される。
【0101】
なお、対話データ解析部52による傾聴スキル、承認スキルおよび質問スキルの各特徴量の算出処理は、機械学習等のAIに基づく学習モデルを用いて行うものとしてもよい。
【0102】
対比スキル判定部53は、図7および図8に示すように、対話データ解析部52により算出された傾聴スキル、承認スキルおよび質問スキルの各特徴量に基づいて、傾聴スキル、承認スキルおよび質問スキルを定量化する機能部である。対比スキル判定部53は、図4に示したCPU701によりプログラムが実行されることによって実現される。
【0103】
なお、対話データ解析部52および対比スキル判定部53により分析される対話スキルとして、傾聴スキル、承認スキルおよび質問スキルについて説明したが、これに限定されるものではなく、対話スキルとして傾聴スキル、承認スキルおよび質問スキルのうち少なくともいずれか、または、その他の対話スキルを分析対象としてもよい。また、対話データ解析部52および対比スキル判定部53のうち少なくともいずれかが、「第1分析部」に対応する。
【0104】
感情データ分析部54は、対話データ取得部51により取得された映像データおよび音声データに基づいて、対話訓練中のユーザの感情を分析する機能部である。まず、感情データ分析部54は、例えば、図6に示すように、ユーザの映像データの表情または音声データから「中立」、「怒り」、「焦り」、「喜び」、「侮り」等の感情データとして求める。感情データ分析部54は、求めた感情データを、通信処理部59を介して動画生成装置40へ送信する。感情データ分析部54による分析により求められた感情データは、仮想人物の反応に影響を与え、例えば、図6に示すように、ユーザの感情データが「中立」である場合には仮想人物は「中立」の反応となり、感情データが「怒り」である場合には仮想人物は「萎縮」の反応となり、感情データが「焦り」である場合には仮想人物は「嘲笑」の反応となり、感情データが「喜び」である場合には仮想人物は「喜び」の反応となり、感情データが「侮り」である場合には仮想人物は「怒り」の反応となる。動画生成装置40は、それぞれの反応に合わせて、仮想人物の発話映像、発話するメッセージ、および当該メッセージを発話する音声データを生成する。感情データ分析部54は、図4に示したCPU701によりプログラムが実行されることによって実現される。なお、感情データ分析部54による感情データの分析処理は、後述する図13において詳述する。
【0105】
分析結果出力部55は、対比スキル判定部53により定量化された傾聴スキル、承認スキルおよび質問スキルについての分析結果を示す情報を生成する機能部である。分析結果出力部55は、例えば、図7に示すように、定量化された傾聴スキル、承認スキルおよび質問スキルの値を示すレーダーチャートの出力画像1001を、分析結果を示す情報として生成する。なお、定量化された傾聴スキル、承認スキルおよび質問スキルの値を示す表示要素としては、レーダーチャートに限定されるものではない。また、分析結果出力部55は、例えば、対話データ取得部51により取得された音声データをテキスト化し、定量化された傾聴スキル、承認スキルおよび質問スキルを用いて、当該テキストに対して、傾聴スキル、承認スキルおよび質問スキルがそれぞれ寄与した部分をマーカー・網掛け表示等の強調表示、または周囲とは異なる形態による表示をして示す出力画像1002を、分析結果を示す情報として生成する。分析結果出力部55は、生成した分析結果を示す情報を、通信処理部59を介してユーザ端末10へ送信し、ユーザ端末10に当該情報を表示させる。分析結果出力部55は、図4に示したCPU701によりプログラムが実行されることによって実現される。
【0106】
通信処理部59は、ネットワークNを介して、ユーザ端末10、記憶管理装置20、仮想人物生成装置30および動画生成装置40とデータ通信を行う機能部である。通信処理部59は、図4に示したネットワークI/F709、およびCPU701によりプログラムが実行されることによって実現される。
【0107】
なお、対話データ取得部51、対話データ解析部52、対比スキル判定部53、感情データ分析部54および分析結果出力部55の機能部の一部または全部は、ソフトウェアであるプログラムではなく、FPGAまたはASIC等のハードウェア回路(集積回路)によって実現されてもよい。
【0108】
また、図5に示す対話スキル分析装置50の各機能部は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図5に示す対話スキル分析装置50で独立した機能部として図示した複数の機能部を、1つの機能部として構成してもよい。一方、図5に示す対話スキル分析装置50で1つの機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。
【0109】
(対話訓練システムの仮想人物の映像モデルを決定する処理の流れ)
図9は、実施形態に係る対話訓練システムにおける仮想人物の映像モデルを決定する処理の流れの一例を示すシーケンス図である。図9を参照しながら、本実施形態に係る対話訓練システム1における仮想人物の映像モデルを決定する処理の流れについて説明する。
【0110】
<ステップS11>
ユーザ端末10の情報ソース登録部13は、仮想人物のモデルとなる対象人物(例えば部下等)に関する情報ソースを取得して、補助記憶装置604に登録する。情報ソース登録部13は、登録した情報ソースを、適式なタイミングで通信処理部19を介して、仮想人物生成装置30へ送信する。
【0111】
<ステップS12>
仮想人物生成装置30の映像処理部31の動画取得部311は、ユーザ端末10の情報ソース登録部13により登録された情報ソースから、対象人物の外観データとして動画データを取得する。
【0112】
<ステップS13>
仮想人物生成装置30の映像処理部31の静止画取得部312は、ユーザ端末10の情報ソース登録部13により登録された情報ソースから、対象人物の外観データとして静止画データを取得する。また、静止画取得部312は、情報ソースに含まれる対象人物の動画データ、または動画取得部311により取得された動画データから静止画データに変換する。
【0113】
<ステップS14>
仮想人物生成装置30の映像処理部31のトリミング部313は、静止画取得部312により取得された静止画データから、対象人物の顔データをトリミングして抽出する。仮想人物生成装置30の映像処理部31の画像補正部314は、トリミング部313により抽出された顔データの色調補正および解像度補正を行い、抽出した顔データの質を均一化する。
【0114】
<ステップS15>
仮想人物生成装置30の映像処理部31の画像補正部314は、補正した顔データを記憶管理装置20の仮想人物データ記憶部23に記憶させる。
【0115】
<ステップS16>
仮想人物生成装置30の映像処理部31の映像モデル選択部315は、記憶管理装置20の映像モデルDB21に記憶された映像モデルのうち、仮想人物の動画の生成に使用する映像モデル(使用映像モデル)を選択して読み出す。映像モデル選択部315は、例えば、動画取得部311により取得された外観データとしての動画データ、または静止画取得部312により取得された外観データとしての静止画データに基づいて、対象人物に最も類似する映像モデルを選択する。
【0116】
<ステップS17>
映像モデル選択部315は、選択して読み出した映像モデルを、通信処理部39を介してユーザ端末10へ送信して表示させる。なお、このとき、映像モデルの候補がユーザ端末10に複数表示され、ユーザ端末10により使用映像モデルを選択可能にしてもよい。また、提示される映像モデルとは異なる映像モデルを、使用映像モデルとしてユーザ端末10により選択可能になっていてもよい。
【0117】
<ステップS18>
次に、ユーザ端末10は、使用映像モデルの個別の部分を変更する入力を受け付ける。個別の部分は、輪郭、目、鼻、口、髪型および服装等についての選択が入力されてもよい。
【0118】
<ステップS19>
仮想人物生成装置30の映像処理部31の顔挿入部316は、画像補正部314により補正された顔データを、映像モデル選択部315により選択され、ステップS18でパーツが変更された使用映像モデルに統合する。
【0119】
<ステップS20>
顔挿入部316は、顔データを統合した使用映像モデルを、記憶管理装置20を仮想人物データ記憶部23に記憶させる。
【0120】
(対話訓練システムの仮想人物の声を生成する処理の流れ)
図10は、実施形態に係る対話訓練システムにおける仮想人物の声を生成する処理の流れの一例を示すシーケンス図である。図10を参照しながら、本実施形態に係る対話訓練システム1における仮想人物の声を生成する処理の流れについて説明する。
【0121】
<ステップS31>
ユーザ端末10の情報ソース登録部13は、仮想人物のモデルとなる対象人物(例えば部下等)に関する情報ソースを取得して、補助記憶装置604に登録する。情報ソース登録部13は、登録した情報ソースを、適式なタイミングで通信処理部19を介して、仮想人物生成装置30へ送信する。
【0122】
<ステップS32>
仮想人物生成装置30の音声処理部32の音声抽出部321は、ユーザ端末10の情報ソース登録部13により登録された情報ソースから対象人物の音声を抽出する。音声抽出部321は、例えば、情報ソースに含まれる複数種類の声のうち、最も長時間含まれている人物の声を、対象人物の声とみなしてもよい。
【0123】
<ステップS33>
仮想人物生成装置30の音声処理部32の音声生成部322は、音声抽出部321により抽出された対象人物の音声に基づいて、仮想人物の声を生成する。
【0124】
<ステップS34>
音声生成部322は、生成した仮想人物の声の情報を、記憶管理装置20を仮想人物データ記憶部23に記憶させる。
【0125】
(対話訓練システムの仮想人物の性格モデルを決定する処理の流れ)
図11は、実施形態に係る対話訓練システムにおける仮想人物の性格モデルを決定する処理の流れの一例を示すシーケンス図である。図11を参照しながら、本実施形態に係る対話訓練システム1における仮想人物の性格モデルを決定する処理の流れについて説明する。
【0126】
<ステップS41>
ユーザ端末10の情報ソース登録部13は、仮想人物のモデルとなる対象人物(例えば部下等)に関する情報ソースを取得して、補助記憶装置604に登録する。情報ソース登録部13は、登録した情報ソースを、適式なタイミングで通信処理部19を介して、仮想人物生成装置30へ送信する。
【0127】
<ステップS42>
仮想人物生成装置30の性格処理部33のテキストデータ登録部331は、情報ソースからテキストデータを抽出する。
【0128】
<ステップS43>
テキストデータ登録部331は、抽出したテキストデータを仮想人物データ記憶部23に登録する。
【0129】
<ステップS44>
仮想人物生成装置30の性格処理部33の性格モデル選択部332は、ユーザ端末10を介して対象人物の性格に関する質問を提示する。
【0130】
<ステップS45>
ユーザは、ユーザ端末10を介して、質問に対する回答を入力し、性格モデル選択部332は、ユーザ端末10から当該回答を受信する。
【0131】
<ステップS46>
性格モデル選択部332は、記憶管理装置20の性格モデルDB22に記憶された性格モデルを参照する。
【0132】
<ステップS47>
性格モデル選択部332は、ユーザ端末10から受信した回答に基づいて、性格モデルDB22に記憶された性格モデルの中から使用性格モデルを選択(決定)する。
【0133】
<ステップS48>
性格モデル選択部332は、選択した使用性格モデルを、記憶管理装置20の仮想人物データ記憶部23に記憶させる。
【0134】
(対話訓練システムにおける仮想人物との対話により対話訓練を行う処理)
図12は、実施形態に係る対話訓練システムにおける仮想人物との対話により対話訓練を行う処理の流れの一例を示すシーケンス図である。図13は、実施形態に係る対話スキル分析装置における感情データの分析処理の流れの一例を示すフローチャートである。図12および図13を参照しながら、本実施形態に係る対話訓練システム1における仮想人物との対話により対話訓練を行う処理の流れについて説明する。
【0135】
<ステップS51>
対話訓練を受けようとするユーザは、ユーザ端末10の入力部11を介して、対話訓練システム1を利用するためのユーザIDおよびパスワードを入力する。ユーザ端末10の認証要求部14は、ユーザが対話訓練システム1を利用する際に、仮想人物生成装置30に対して、入力されたユーザIDおよびパスワードに基づくログイン認証を要求する。
【0136】
<ステップS52>
仮想人物生成装置30の認証部34は、ユーザ端末10からのログイン認証の要求に応じて、ユーザ端末10に入力されたユーザIDおよびパスワードを用いてユーザについて認証処理を行う。この場合、認証部34は、記憶管理装置20に記憶されたユーザ情報と、当該ユーザIDおよびパスワードとを照合して認証処理を行う。なお、このとき、仮想人物からチャットの着信がある、電話がかかってくる、メールが届く、といった演出がなされてもよい。
【0137】
<ステップS53>
仮想人物生成装置30におけるユーザの認証処理が成功した後、動画生成装置40は、記憶管理装置20の仮想人物データ記憶部23を参照し、仮想人物データを読み出す。仮想人物データには、顔データが統合された使用映像モデル、使用性格モデル、および仮想人物の声の情報が含まれている。この時点で、動画生成装置40は、仮想人物データに基づいて、仮想人物の映像を生成して、ユーザ端末10に表示させてもよい。
【0138】
<ステップS54>
ユーザは、ユーザ端末10の入力部11を介して、仮想人物に対する質問を入力する。ユーザ端末10の通信処理部19は、入力部11に入力された質問の音声データを、動画生成装置40へ送信する。
【0139】
<ステップS55>
ユーザ端末10の入力部11は、ユーザによる仮想人物に対する質問の音声データを入力すると共に、ユーザの画像を入力する。通信処理部19は、入力部11に入力された音声データおよび画像に基づく映像データを、対話スキル分析装置50へ送信する。
【0140】
<ステップS56>
対話スキル分析装置50の対話データ取得部51は、ユーザ端末10の入力部11により入力されたユーザの映像データおよび音声データを、通信処理部59を介して取得する。
【0141】
<ステップS57>
対話スキル分析装置50の感情データ分析部54は、対話データ取得部51により取得された映像データおよび音声データに基づいて、対話訓練中のユーザの感情を分析する。具体的には、感情データ分析部54は、図13に示すフローの流れで、対話訓練中のユーザの感情を分析する。感情データ分析部54は、図13に示すステップS571、S575およびS578の各処理から並列して実行する。
【0142】
<<ステップS571>>
感情データ分析部54は、対話データ取得部51により取得された映像データから、ユーザの顔を含む静止画データを切り出す。そして、ステップS572へ移行する。
【0143】
<<ステップS572>>
感情データ分析部54は、切り出した静止画データから、ユーザの顔の領域を特定する。そして、ステップS573へ移行する。
【0144】
<<ステップS573>>
感情データ分析部54は、特定した顔の領域から、ユーザの顔の表情を解析し、当該表情を複数に分類する。例えば、感情データ分析部54は、予め機械学習させた学習モデルに従って、特定した顔の領域から、ユーザの顔の表情を複数に分類する。そして、ステップS574へ移行する。
【0145】
<<ステップS574>>
感情データ分析部54は、分類結果に基づいて、映像データの連続するフレーム画像間で、ポジティブな表情変化が起きているか、ネガティブな表情変化が起きているか、およびどの程度の大きさの表情変化が起きているかを解析し、表情変化からユーザの感情を推定する。
【0146】
<<ステップS575>>
感情データ分析部54は、対話データ取得部51により取得された音声データのうち、指定された所定時間の音声データに対して公知の音声解析処理を行うことによって、音声の音響的特徴を特定する。そして、ステップS576へ移行する。
【0147】
<<ステップS576>>
感情データ分析部54は、特定した音響的特徴に基づいて、どのような声質変化が起きているか、およびどの程度の大きさの声質変化が起きているかを解析する。そして、ステップS577へ移行する。
【0148】
<<ステップS577>>
感情データ分析部54は、解析した声質変化からユーザの感情を推定する。
【0149】
<<ステップS578>>
感情データ分析部54は、対話データ取得部51により取得された音声データから、公知の音声認識処理によりテキスト(文字列)に変換する。そして、感情データ分析部54は、変換したテキストについて形態素解析を行うことにより、助詞および冠詞等の会話を表す上で不要な単語を除去する。そして、ステップS579へ移行する。
【0150】
<<ステップS579>>
感情データ分析部54は、当該除去後に残ったテキストについて、感情の極性辞書を用いてポジティブの度合い、およびネガティブの度合いを分析する。そして、ステップS580へ移行する。
【0151】
<<ステップS580>>
感情データ分析部54は、分析したポジティブの度合いおよびネガティブの度合いから、ユーザの感情を推定する。
【0152】
感情データ分析部54は、ステップS574、S577およびS580での感情の推定結果に基づいて、「怒り」、「侮り」、「嫌気」、「不安」、「喜び」、「悲しみ」、「驚き」、「中立」等のユーザの感情を示す感情データとして求める。感情データ分析部54は、通信処理部59を介して、感情データを動画生成装置40へ送信する。
【0153】
<ステップS58>
動画生成装置40の対話処理部42は、ステップS53で読み出した仮想人物データのうちの使用性格モデルと、感情データ分析部54で求められたユーザの感情データとに基づいて、ステップS54のユーザの質問の音声データに対する返答のテキスト(メッセージ)を生成する。このように、感情データ分析部54で分析されたユーザの感情データを加味して、仮想人物の返答のテキストが生成されるため、対象人物に対応させた仮想人物とのリアリティの高い対話を実現することができる。
【0154】
<ステップS59>
そして、対話処理部42は、ステップS53で読み出した仮想人物データのうちの仮想人物の声の情報を用いて、生成したテキスト(メッセージ)を発話する音声データを生成する。
【0155】
<ステップS60>
動画生成装置40の映像表示処理部41は、ステップS53で読み出した仮想人物データのうちの顔データが統合された使用映像モデルを用いて、ステップS59で生成された音声データについて仮想人物が発話(返答)する発話映像(動画)を生成する。
【0156】
<ステップS61>
動画生成装置40の通信処理部49は、対話処理部42により生成された音声データ、および映像表示処理部41により生成された発話映像(動画)を、ユーザ端末10へ送信する。なお、通信処理部49は、対話処理部42により生成された音声データを、映像表示処理部41により生成された発話映像(動画)に統合した状態で、ユーザ端末10へ送信してもよい。
【0157】
<ステップS62>
ユーザ端末10の出力部12は、動画生成装置40から受信した仮想人物の音声データを含む動画を再生表示する。
【0158】
上述のステップS54~S62は、ユーザが対話訓練を継続する間、繰り返し実行される。これによって、ユーザは、対象人物に対応させた仮想人物との自然な対話が可能となる。
【0159】
<ステップS63>
ユーザは、対話訓練を終了する場合、ユーザ端末10の入力部11を介して終了操作をすることにより、対話訓練を終了する。
【0160】
<ステップS64>
対話スキル分析装置50の対話データ解析部52は、対話訓練中に、対話データ取得部51により取得された映像データおよび音声データに基づいて、相手(仮想人物)の回答・返答に対して傾聴するスキルである傾聴スキル、相手の回答・返答を受け入れたり承認したりするスキルである承認スキル、およびオープンクエスチョンおよび問いかけ等のスキルである質問スキルに関する各特徴量を解析する。また、対話スキル分析装置50の対比スキル判定部53は、対話データ解析部52により算出された傾聴スキル、承認スキルおよび質問スキルの各特徴量に基づいて、傾聴スキル、承認スキルおよび質問スキルを定量化する。そして、対話スキル分析装置50の分析結果出力部55は、対比スキル判定部53により定量化された傾聴スキル、承認スキルおよび質問スキルについての分析結果を示す情報を生成し、通信処理部59を介してユーザ端末10へ送信する。
【0161】
<ステップS65>
ユーザ端末10の出力部12は、対話スキル分析装置50から受信した定量化された傾聴スキル、承認スキルおよび質問スキルについての分析結果を示す情報を表示する。
【0162】
このように、対話訓練システム1では、ユーザが仮想人物との対話を疑似的に行うと同時に、ユーザの対話訓練中の発話内容および振る舞いをデータとして取得して対話に関わるスキルを分析し、対話訓練終了後にユーザに対話スキルの分析結果をフィードバックすることができる。
【0163】
以上のように、本実施形態に係る対話スキル分析装置50では、対話データ取得部51は、対話を想定する対象人物に関する情報に基づいて生成された仮想人物の動画によって、ユーザが発した発話内容の音声データに対する返答の音声を出力する対話において、ユーザ端末10に入力されたユーザの音声データおよび映像データを取得し、対話データ解析部52は、対話データ取得部51により取得された音声データおよび映像データに基づいて、仮想人物との対話スキルについて分析を行うものとしている。これによって、プライバシーに配慮する必要がなく、対話内容によらず対話スキルを分析することができる。また、座学中心で対話スキルを身につける対話訓練がないまま実践となることにより対話スキルを身につけることが困難であるという問題点、対話の相手との日程調整に手間がかかってしまうという問題点、対話訓練における部下役の人において気恥ずかしさが生じ、遠慮してしまいがちになり真剣にトレーニングをするのが難しくなるという問題点、および、研修受講者が多い場合に時間的な制約から十分なロールプレイングの指導が受けられず、講師が対応しきれないという問題点のいずれも解消することができる。
【0164】
また、本実施形態に係る対話スキル分析装置50では、分析結果出力部55は、対話データ解析部52および対比スキル判定部53による分析結果を、ユーザ端末10に表示させるものとしている。これによって、ユーザは、対話訓練をするだけでなく、対話スキルのフィードバックを受けることができるため、現状の対話スキルを認識して対話スキルを向上させることができる。
【0165】
また、本実施形態に係る対話スキル分析装置50では、感情データ分析部54は、対話データ取得部51により取得された音声データおよび映像データに基づいて、仮想人物との対話におけるユーザの感情を分析し、対話データ取得部51は、ユーザの音声データおよび感情に基づいて、当該音声データに対して返答する音声を出力するものとして生成された動画における仮想人物との対話において、当該音声データおよび映像データを取得するものとしている。これによって、対象人物に対応させた仮想人物とのリアリティの高い対話を実現することができる。
【0166】
なお、上述の実施形態において、記憶管理装置20、仮想人物生成装置30、動画生成装置40および対話スキル分析装置50の機能の少なくともいずれかがプログラムの実行によって実現される場合、そのプログラムは、ROM等に予め組み込まれて提供される。また、上述の実施形態において、記憶管理装置20、仮想人物生成装置30、動画生成装置40および対話スキル分析装置50で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでCD-ROM(Compact Disc Read Only Memory)、フレキシブルディスク(FD)、CD-R(Compact Disk-Recordable)、またはDVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。また、上述の実施形態において、記憶管理装置20、仮想人物生成装置30、動画生成装置40および対話スキル分析装置50で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、上述の実施形態において、記憶管理装置20、仮想人物生成装置30、動画生成装置40および対話スキル分析装置50で実行されるプログラムを、インターネット等のネットワーク経由で提供または配布するように構成してもよい。また、上述の実施形態において、記憶管理装置20、仮想人物生成装置30、動画生成装置40および対話スキル分析装置50で実行されるプログラムは、上述した各機能部のうち少なくともいずれかを含むモジュール構成となっており、実際のハードウェアとしてはCPUが上述の記憶装置からプログラムを読み出して実行することにより、上述の各機能部が主記憶装置上にロードされて生成されるようになっている。
【0167】
本発明の態様は、以下の通りである。
<1>対話を想定する対象人物に関する情報に基づいて仮想人物の動画によって、ユーザが発した発話内容の音声データに対する返答の音声を出力する対話において、端末装置に入力された前記ユーザの前記音声データおよび映像データを取得する取得部と、
前記取得部により取得された前記音声データおよび前記映像データに基づいて、前記仮想人物との対話スキルについて分析を行う第1分析部と、
を備えた対話訓練装置である。
<2>前記第1分析部は、
前記取得部により取得された前記映像データから前記仮想人物に対する前記ユーザの挙動を解析し、前記挙動に基づいて前記対話スキルを分析する画像解析部と、
前記取得部により取得された前記音声データから前記仮想人物に対する前記ユーザの応答を解析し、前記応答に基づいて前記対話スキルを分析する音声解析部と、
を有する前記<1>に記載の対話訓練装置である。
<3>前記画像解析部は、前記挙動として、前記仮想人物に対するうなずきの回数および笑顔の回数のうち少なくともいずれかを解析し、
前記音声解析部は、前記応答として、前記仮想人物に対して肯定的に受け止めた回数、気遣いをした回数、あいづちをした回数、オープンクエスチョンをした回数、および該仮想人物との対話における発話比率のうち少なくともいずれかを解析する前記<2>に記載の対話訓練装置である。
<4>前記第1分析部は、前記取得部により取得された前記音声データおよび前記映像データに基づいて、前記対話スキルとして、傾聴スキル、承認スキルおよび質問スキルのうち少なくともいずれかを分析する前記<1>~<3>のいずれか一項に記載の対話訓練装置である。
<5>前記第1分析部による分析結果を、前記端末装置に表示させる出力部を、さらに備えた前記<1>~<4>のいずれか一項に記載の対話訓練装置である。
<6>前記第1分析部は、前記対話スキルを定量化し、
前記出力部は、前記第1分析部により定量化された前記対話スキルの値を、前記分析結果として前記端末装置に表示させる前記<5>に記載の対話訓練装置である。
<7>前記出力部は、
前記音声データをテキストに変換し、
前記テキストに対して前記対話スキルが寄与した部分を強調表示したものを、前記分析結果として前記端末装置に表示させる前記<5>に記載の対話訓練装置である。
<8>前記取得部により取得された前記音声データおよび前記映像データに基づいて、前記仮想人物との対話における前記ユーザの感情を分析する第2分析部を、さらに備え、
前記取得部は、前記ユーザの前記音声データおよび前記感情に基づいて、該音声データに対して返答する音声を出力するものとして生成された前記動画における前記仮想人物との対話において、該音声データおよび前記映像データを取得する前記<1>~<7>のいずれか一項に記載の対話訓練装置である。
<9>前記<1>~<8>のいずれか一項に記載の対話訓練装置と、
前記対象人物に関する情報に基づいて、該対象人物に対応させた前記仮想人物のデータを生成する第1生成装置と、
前記第1生成装置により生成された前記仮想人物のデータに基づいて、該仮想人物の動画を生成する第2生成装置と、
を有する対話訓練システムである。
<10>対話を想定する対象人物に関する情報に基づいて生成された仮想人物の動画によって、ユーザが発した発話内容の音声データに対する返答の音声を出力する対話において、端末装置に入力された前記ユーザの前記音声データおよび映像データを取得する取得ステップと、
取得した前記音声データおよび前記映像データに基づいて、前記仮想人物との対話スキルについて分析を行う分析ステップと、
を有する対話訓練方法である。
<11>コンピュータに、
対話を想定する対象人物に関する情報に基づいて生成された仮想人物の動画によって、ユーザが発した発話内容の音声データに対する返答の音声を出力する対話において、端末装置に入力された前記ユーザの前記音声データおよび映像データを取得する取得ステップと、
取得した前記音声データおよび前記映像データに基づいて、前記仮想人物との対話スキルについて分析を行う分析ステップと、
を実行させるためのプログラムである。
【符号の説明】
【0168】
1 対話訓練システム
2 サーバシステム
10 ユーザ端末
11 入力部
12 出力部
13 情報ソース登録部
14 認証要求部
19 通信処理部
20 記憶管理装置
21 映像モデルDB
22 性格モデルDB
23 仮想人物データ記憶部
29 通信処理部
30 仮想人物生成装置
31 映像処理部
32 音声処理部
33 性格処理部
34 認証部
39 通信処理部
40 動画生成装置
41 映像表示処理部
42 対話処理部
49 通信処理部
50 対話スキル分析装置
51 対話データ取得部
52 対話データ解析部
53 対比スキル判定部
54 感情データ分析部
55 分析結果出力部
59 通信処理部
61 ユーザ
62 仮想人物
311 動画取得部
312 静止画取得部
313 トリミング部
314 画像補正部
315 映像モデル選択部
316 顔挿入部
321 音声抽出部
322 音声生成部
331 テキストデータ登録部
332 性格モデル選択部
333 性格モデル補正部
521 画像解析部
522 音声解析部
601 CPU
602 RAM
603 ROM
604 補助記憶装置
605 ネットワークI/F
606 入力装置
607 表示装置
608 入出力I/F
610 バス
611 カメラ
612 マイク
613 スピーカ
701 CPU
702 ROM
703 RAM
705 補助記憶装置
706 記録メディア
707 メディアドライブ
708 ディスプレイ
709 ネットワークI/F
710 バス
711 キーボード
712 マウス
713 DVD
714 DVDドライブ
1001、1002 出力画像
N ネットワーク
【先行技術文献】
【特許文献】
【0169】
【特許文献1】特開2018-200541号公報
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13