IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社エクサウィザーズの特許一覧

特許7313518評価方法、評価装置、および、評価プログラム
<>
  • 特許-評価方法、評価装置、および、評価プログラム 図1
  • 特許-評価方法、評価装置、および、評価プログラム 図2
  • 特許-評価方法、評価装置、および、評価プログラム 図3
  • 特許-評価方法、評価装置、および、評価プログラム 図4
  • 特許-評価方法、評価装置、および、評価プログラム 図5
  • 特許-評価方法、評価装置、および、評価プログラム 図6
  • 特許-評価方法、評価装置、および、評価プログラム 図7
  • 特許-評価方法、評価装置、および、評価プログラム 図8
  • 特許-評価方法、評価装置、および、評価プログラム 図9
  • 特許-評価方法、評価装置、および、評価プログラム 図10
  • 特許-評価方法、評価装置、および、評価プログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-07-13
(45)【発行日】2023-07-24
(54)【発明の名称】評価方法、評価装置、および、評価プログラム
(51)【国際特許分類】
   G06Q 50/10 20120101AFI20230714BHJP
   G06V 40/16 20220101ALI20230714BHJP
   G10L 15/10 20060101ALI20230714BHJP
【FI】
G06Q50/10
G06V40/16 B
G06V40/16 C
G10L15/10 500Z
【請求項の数】 6
(21)【出願番号】P 2022109884
(22)【出願日】2022-07-07
【審査請求日】2022-12-13
【早期審査対象出願】
(73)【特許権者】
【識別番号】517255566
【氏名又は名称】株式会社エクサウィザーズ
(74)【代理人】
【識別番号】110000338
【氏名又は名称】弁理士法人 HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】坂根 裕
【審査官】小山 和俊
(56)【参考文献】
【文献】特開2015-103183(JP,A)
【文献】特開2012-060387(JP,A)
【文献】特開2021-135960(JP,A)
【文献】国際公開第2008/001549(WO,A1)
【文献】西村 賢人,SenseChairによる意見発散課題におけるコミュニケーションとうなずきの関係性に関する検討 A Study on the Relationship between Communication and Nodding in an Idea Generation Task by Sense Chair,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2020年08月14日,Vol.120 No.136,P.65-70
【文献】磯 友輝子,発話中のうなずきが印象形成に及ぼす影響-3者間会話場面における非言語行動の果たす役割-,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2003年10月31日, Vol.103 No.410,P.31-36
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
G06V 40/16
G10L 15/10
(57)【特許請求の範囲】
【請求項1】
1または複数の情報処理装置により評価対象者の対話を評価する評価方法であって、
対話中の前記評価対象者を撮影した画像に基づいて生成された、対話相手が発話しているときの前記評価対象者の態度を示す情報を少なくとも含む態度情報を取得する情報取得ステップと、
前記態度情報を用いて前記評価対象者の対話を評価する評価ステップと、を含み、
前記評価ステップでは、前記対話相手が事前に定められた発話要素を発話し、前記評価対象者が当該発話要素の発話を聴いている間における当該評価対象者の態度を、その発話要素の発話を聴くときの態度を評価するために、当該発話要素に予め関連付けられた評価基準に従って評価する、評価方法。
【請求項2】
前記対話は、前記評価対象者が発話する対象者発話ターンと前記対話相手が発話する相手発話ターンとに区分された所定のシナリオに沿って進められ、
前記情報取得ステップでは、前記評価対象者の発話時の態度を示す情報を含む前記態度情報を取得し、
前記評価ステップでは、前記情報取得ステップにて取得された前記態度情報を用いて、前記相手発話ターンおよび前記対象者発話ターンの少なくとも何れか一方に設定された評価基準に従って前記評価対象者の対話を評価する、請求項1に記載の評価方法。
【請求項3】
前記評価ステップによる評価結果に応じて前記シナリオを変更するシナリオ設定ステップを含
前記シナリオには、当該シナリオにおける一連の発話要素が定義されている、請求項2に記載の評価方法。
【請求項4】
前記情報取得ステップでは、複数の前記対話相手の何れかが前記評価対象者に対して発話している第1の相手発話ターンにおける前記評価対象者の態度を示す情報と、複数の前記対話相手同士で対話している第2の相手発話ターンにおける前記評価対象者の態度を示す情報とを含む前記態度情報を取得し、
前記評価ステップでは、前記情報取得ステップにて取得される前記態度情報を用いて、前記第1の相手発話ターンおよび前記第2の相手発話ターンの少なくとも何れか一方に設定された評価基準に従って前記評価対象者の対話を評価する、請求項1に記載の評価方法。
【請求項5】
対話中の評価対象者を撮影した画像に基づいて生成された、対話相手が発話しているときの前記評価対象者の態度を示す情報を少なくとも含む態度情報を取得する情報取得部と、
前記態度情報を用いて前記評価対象者の対話を評価する評価部と、を備え
前記評価部は、前記対話相手が事前に定められた発話要素を発話し、前記評価対象者が当該発話要素の発話を聴いている間における当該評価対象者の態度を、その発話要素の発話を聴くときの態度を評価するために、当該発話要素に予め関連付けられた評価基準に従って評価する、評価装置。
【請求項6】
請求項5に記載の評価装置としてコンピュータを機能させるための評価プログラムであって、前記情報取得部および前記評価部としてコンピュータを機能させるための評価プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、評価対象者が行った対話について評価する評価装置等に関する。
【背景技術】
【0002】
評価対象者が行った対話について評価する技術が従来知られている。例えば、下記の特許文献1には、会話中の音声情報から話者の共感度を算出し、算出した共感度に基づいて話者の対応を評価する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特許第6647722号
【発明の概要】
【発明が解決しようとする課題】
【0004】
近時、音声のみではなく画像を伴う遠隔通話や遠隔会議が広く普及している。そして、画像を伴った対話を円滑に進めるためには、相手の話を聴くときの態度も重要になる。しかしながら、上述のような従来技術では、音声信号をテキスト化して解析しているため、話を聴いているときの態度は評価に反映されない。
【0005】
このように、従来技術には、相手の話を聴いているときの評価対象者の態度を評価することができないという点で改善の余地がある。本発明の一態様は、対話の評価を改善する評価方法等を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記の課題を解決するために、本発明の一態様に係る評価方法は、1または複数の情報処理装置により評価対象者の対話を評価する評価方法であって、対話中の前記評価対象者を撮影した画像に基づいて生成された、対話相手が発話しているときの前記評価対象者の態度を示す情報を少なくとも含む態度情報を取得する情報取得ステップと、前記態度情報を用いて前記評価対象者の対話を評価する評価ステップと、を含む。
【0007】
また、本発明の一態様に係る評価装置は、上記の課題を解決するために、対話中の評価対象者を撮影した画像に基づいて生成された、対話相手が発話しているときの前記評価対象者の態度を示す情報を少なくとも含む態度情報を取得する情報取得部と、前記態度情報を用いて前記評価対象者の対話を評価する評価部と、を備える。
【発明の効果】
【0008】
本発明の一態様によれば、対話の評価を改善することができる。
【図面の簡単な説明】
【0009】
図1】本開示に係る評価システムの概要を示す図である。
図2】上記評価システムに含まれる評価装置の要部構成を示すブロック図である。
図3】シナリオのデータ構造の一例を示す図である。
図4】セッション履歴のデータ構造の一例を示す図である。
図5】態度情報の具体例を示す図である。
図6】評価基準の具体例を示す図である。
図7】分岐要否を判定するための評価結果の例を示す図である。
図8】シナリオの分岐の例を示す図である。
図9】レポートの具体例を示す図である。
図10】上記評価装置が実行する評価方法の処理の流れを示すフローチャートである。
図11】各実施形態に係る情報処理システムの物理的構成を例示したブロック図である。
【発明を実施するための形態】
【0010】
〔実施形態1〕
以下、本発明の一実施形態について、詳細に説明する。
【0011】
<評価システムの概要>
図1は、本開示に係る評価システム100の概要を示す図である。本開示の評価システム100は、図示のシステム構成に限定されない。図示のシステム構成は、あくまで一例である。本開示の各実施形態に係る評価システム100は、一例として、評価対象者SUの対話能力を高めるためのトレーニングを支援するシステムとして適用される。評価システム100は、評価対象者SUに対話相手と対話させ、対話中の評価対象者SUの様子を撮影する。本実施形態では、対話相手は、仮想の対話相手であるアバタAVであるが、別の人物が対話相手を務めてもよい。評価システム100は、撮影された評価対象者SUの動画を解析して、評価対象者SUの対話能力を評価する。評価結果は、評価対象者SU本人または評価対象者SU以外の人物にフィードバックされてもよい。
【0012】
具体例を挙げると、評価システム100は、評価装置1、および、対話機器2を含む。評価装置1は、評価対象者SUの対話中の態度に基づいて、当該評価対象者SUの対話能力を評価する装置である。本開示において、評価対象者の対話中の態度とは、ノンバーバルコミュニケーションとして評価対象者から発現する、人間が五感によって捉えることが可能な、当該評価対象者の様子全般を指す。一例として、評価対象者の対話中の表情、視線、しぐさ、身振り手振り、行為、間の取り方、声の調子、口調、声量などのあらゆる非言語的な要素を態度として捉え、評価することができる。人は、自身の発言中でなくとも、対話相手が発言している期間にもなんらかの態度を表明しており、当該対話相手になんらかの印象を与えていると考えられる。そこで、本開示に係る評価装置1は、対話相手が発言している期間に評価対象者によって表明される態度を、対話中の態度として評価の対象に加えている。
【0013】
対話機器2は、評価対象者SUに対して、対話相手(ここでは、アバタAV)と対話を行うために必要な入出力ユーザインタフェースを提供する。例えば、対話機器2は、必要な入出力ユーザインタフェースとして、図2に示すとおり、表示部21、音声出力部22、撮影部23および音声入力部24を備えていてもよい。表示部21は、例えば、対話相手の映像V1を出力するモニタである。音声出力部22は、例えば、対話相手の発話D1の音声を出力するスピーカである。撮影部23は、例えば、評価対象者SUの映像V2を撮影するカメラである。音声入力部24は、例えば、評価対象者SUの発話D2の音声を入力するマイクである。対話機器2の表示部21には、撮影部23が撮影した評価対象者SUの映像V2が重畳して出力されてもよい。対話機器2は、例えば、タブレット端末であってもよい。
【0014】
評価装置1は、アバタAVを対話機器2において再現するためのアバタ情報を対話機器2に送信する。アバタ情報は、例えば、アバタAVの映像V1に対応する映像信号と、アバタAVの音声に対応する音声信号とを含む動画である。
【0015】
対話機器2は、評価装置1から受信したアバタ情報を再生して、評価対象者SUに対して、アバタAVの映像V1と、アバタAVの対話D1の音声とを提供する。
【0016】
アバタ情報が再生されている間、および、アバタAVの発言を受けて評価対象者SUが発言している間、対話機器2は、評価対象者SUの様子を撮影している。対話機器2は、対話中に撮影して得た対象者情報を評価装置1に送信する。対象者情報は、例えば、評価対象者SUの映像V2に対応する映像信号と、評価対象者SUの音声に対応する音声信号とを含む動画である。
【0017】
評価装置1は、対象者情報から評価対象者が表明した態度を抽出し、当該態度に基づいて評価対象者の対話能力を評価する。必要に応じて、評価システム100は、評価者端末3を含んでいてもよく、この場合、評価装置1は、評価結果を評価者端末3に送信してもよい。
【0018】
評価者端末3は、評価装置1が出力する評価結果を、評価者に提示する端末装置である。評価者は、評価結果を参考にして、評価対象者を評価する立場にある人物で、例えば、評価対象者SUの指導者、監督者、上司、人事部職員、評価対象者を診察する医師、または、評価対象者を看護する看護師などが想定される。評価結果が、評価対象者SU本人にのみフィードバックされる態様では、評価装置1は、評価結果を、対話機器2に送信してもよい。したがって、この態様では、評価者端末3は省略されてよい。
【0019】
他のシステム構成では、評価装置1と対話機器2とが1台のコンピュータ、例えば、1台のタブレット端末、ノートパソコン、デスクトップPCなどで構成されていてもよいし、評価装置1と評価者端末3とが1台のコンピュータで構成されていてもよい。
【0020】
以上のとおり、評価システム100によれば、対話相手の話を聴いているときの評価対象者の態度を評価することができるので、対話能力の評価を改善することができる。以下では、対話能力の評価を改善することができる評価装置1の構成についてより詳細に説明する。
【0021】
<評価装置の構成>
図2は、評価装置1の要部構成を示すブロック図である。評価装置1は、一例として、制御部10および記憶部11を備えている。評価装置1は、対話機器2および評価者端末3と通信するための不図示の通信部をさらに備えていてもよい。
【0022】
制御部10は、評価装置1を統括的に制御する。制御部10は、例えば、CPU(central processing unit)または専用プロセッサなどの演算装置により構成されている。後述する制御部10の各部は、上述の演算装置が、ROM(read only memory)などで実現された記憶装置に記憶されているプログラムをRAM(random access memory)などに読み出して実行することで実現できる。
【0023】
記憶部11は、制御部10によって用いられる各種データを記憶するものである。図示の例では、記憶部11は、評価装置1が備える内蔵メモリとして構成されているが、記憶部11は、評価装置1の外部の記憶装置として構成されていてもよい。上述のROMおよびRAMなどを記憶部11として適用することができる。
【0024】
本開示の評価装置1は、対話中の評価対象者SUを撮影して得られた対象者情報(対象者情報は、映像V2などの画像、および、対話D2などの音声の少なくともいずれか一方を含む)に基づいて生成された、対話相手が発話しているときの評価対象者SUの態度を示す情報を少なくとも含む態度情報を取得する対象者情報取得部(情報取得部)102と、態度情報を用いて評価対象者の対話を評価する対話評価部(評価部)104と、を備えている。
【0025】
評価装置1の制御部10は、上述した対象者情報取得部102および対話評価部104に加えて、さらに、アバタ情報出力部101、態度抽出部103、シナリオ設定部105、および、レポート生成部106を含んでいてもよい。
【0026】
アバタ情報出力部101は、評価対象者SUの対話相手を対話機器2において再現するために必要なアバタ情報を生成し、対話機器2に出力し再生する。一例として、アバタ情報出力部101は、あらかじめ作成されたシナリオに基づいてアバタ情報を生成する。
【0027】
シナリオは、対話相手と評価対象者との間で実施される対話の会期中における、
(1)シーンの順序、
(2)評価対象者SUが発話する対象者発話ターンにおける発話要素と対話相手が発話する相手発話ターンにおける発話要素との区分、
(3)各発話要素の進行順序、
(4)相手発話ターンにおける対話相手の台詞、および、
(5)各発話ターンにおける対話相手の態度(動作、表情等)
を定義した台本データである。なお、シナリオは1つ以上のシーンからなり、シーンは1つ以上の発話要素からなる。
【0028】
本開示では、ひとつのシナリオにおいて定義された一連の発話要素にしたがって、1人の評価対象者が、対話相手(本実施形態ではアバタ)との間で行う対話をセッションと称する。シナリオに含まれる最後の発話要素が履行されると、すなわち、シナリオにおいて進行順序が最後に定義された発話要素について、予め定められた話者から発話がなされると、当該シナリオに基づく1回分のセッションが終了する。
【0029】
1人の評価対象者SUは、同一のシナリオを用いて、開催日時を変えて、何度セッションを行ってもよい。1人の評価対象者SUは、異なるシナリオを用いて、何度セッションを行ってもよい。また、複数の評価対象者が、同一のシナリオを用いて、それぞれセッションを行ってもよい。
【0030】
アバタ情報出力部101は、評価装置1の操作者または、後述するシナリオ設定部105によって選択されたシナリオにしたがって、対話機器2において再生可能な動画形式にて、アバタの映像信号および音声信号を含むアバタ情報を生成する。アバタ情報出力部101が、生成したアバタ情報を対話機器2において再生することにより、アバタの映像および音声が評価対象者SUに知覚される。
【0031】
また、アバタ情報出力部101は、シナリオにしたがってアバタ情報を再生したときの時刻情報を対象者情報取得部102に提供する。例えば、アバタ情報出力部101は、シナリオの中の、どのシーンの何番目の発話ターンに対応する動画を何時から何時まで再生したのかを示す時刻情報を対象者情報取得部102に提供してもよい。
【0032】
対象者情報取得部102は、対話機器2が評価対象者SUを被写体として撮影して得た対象者情報を対話機器2から取得する。対象者情報は、上述のとおり一例として動画である。対象者情報取得部102は、対話機器2から供給された動画を、シナリオで定義されたシーンおよび発話ターン単位で切り出すことができる。詳細には、対象者情報取得部102は、アバタ情報出力部101から提供された時刻情報と、取得した対象者情報に含まれる撮影時刻とを照合し、「特定のシーンの特定の順序の発話ターンに対応する評価対象者SUの動画」を対象者情報から切り出す。具体例を挙げると、あるシナリオの第1シーンの1番目の発話ターンに対応するアバタ情報が、9:00から9:02まで再生されたとする。この場合、対象者情報取得部102は、対象者情報うち、撮影時刻が9:00から9:02までの期間の動画を、「あるシナリオの第1シーンの1番目の発話ターンにおける評価対象者SUの動画」として切り出すことができる。
【0033】
対象者情報取得部102は、切り出した動画、該動画から抽出したフレーム画像、あるいは音声を、後述する態度抽出部103へ入力し、態度抽出部103から出力された、評価対象者SUの態度に関する出力値を得る。対象者情報取得部102は、得られた出力値に基づいて、評価対象者SUの態度を示す情報を含んだ態度情報を生成し、対話評価部104に提供する。
【0034】
一例として、対象者情報取得部102は、対話相手であるアバタAVが発話しているときの評価対象者SUの態度を示す情報を少なくとも含むように態度情報を生成または取得してもよい。
【0035】
上述のとおり、評価対象者SUと対話相手との対話は、評価対象者SUが発話する対象者発話ターンと対話相手が発話する相手発話ターンとに区分された所定のシナリオに沿って進められる。そこで、他の例では、対象者情報取得部102は、相手発話ターンにおける評価対象者SUの態度を示す情報だけでなく、評価対象者SUの発話時の評価対象者SU自身の態度を示す情報をさらに含むように態度情報を生成または取得してもよい。
【0036】
態度抽出部103は、動画に含まれる映像信号および音声信号の少なくともいずれか一方から、被写体である評価対象者SUの態度を抽出するものである。態度抽出部103は、一例として、AI(Artificial Intelligence:人工知能)を用いて実現されてもよい。すなわち、態度抽出部103は、動画、該動画から抽出したフレーム画像、あるいは音声を入力とし、評価対象者SUの態度に関する出力値を出力する態度抽出モデルにより態度を抽出するものであってもよい。また、態度抽出部103は、評価対象者SUの発話内容を解析することにより、評価対象者SUの態度を抽出してもよい。
【0037】
態度抽出部103は、抽出したい態度すなわち非言語的要素ごとに用意されてもよい。一例として、態度抽出部103は、表情抽出モデルにより評価対象者SUの表情を抽出(分類)する第1の態度抽出部103と、と、視線抽出モデルにより評価対象者SUの視線を抽出する第2の態度抽出部103と、話し方評価モデルにより評価対象者SUの話し方を評価する第3の態度抽出部103とを含んでいてもよい。
【0038】
例えば、第1の態度抽出部103が使用する表情抽出モデルは、画像が入力されると、当該画像に写る人物の表情の種類を示す出力値を出力するものであってもよい。
【0039】
このような表情抽出モデルは、顔の画像に対して正解ラベルとしてその顔の表情を示す情報を対応付けた教師データを用いた機械学習により構築することができる。
【0040】
対象者情報取得部102は、ある発話ターンの動画から所定時間間隔で抽出した各フレーム画像についての表情抽出モデルによる表情の分類結果から、その発話ターンにおいて、評価対象者SUが各表情であった時間の長さの割合を算出し、これを当該発話ターンにおける評価対象者SUの態度を示す態度情報としてもよい。
【0041】
また、例えば、第2の態度抽出部103が使用する視線抽出モデルは、画像が入力されると、当該画像に写る人物の視線の向きを示す出力値を出力するものであってもよい。
【0042】
このような視線抽出モデルは、顔の画像に対して正解ラベルとして、その人物の視線の向きを示す情報を対応付けた教師データを用いた機械学習により構築することができる。また、正解ラベルは、視線が対話相手に向けられているか否かを示すものとしてもよい。
【0043】
例えば、対象者情報取得部102は、ある発話ターンの動画から抽出したフレーム画像についての視線抽出モデルによる視線の向きの分類結果から、その発話ターンにおいて、評価対象者SUの視線が対話相手に向けられていた時間の長さの割合を算出し、これを当該発話ターンにおける評価対象者SUの態度を示す態度情報としてもよい。
【0044】
また、例えば、第3の態度抽出部103が使用する話し方評価モデルは、動画が入力されると、当該動画に写る人物の話し方の評価値を出力するものであってもよい。
【0045】
このような話し方評価モデルは、話をしている様子を撮影した所定時間長の動画に対して正解ラベルとしてその話し方の評価値を対応付けた教師データを用いた機械学習により構築することができる。話し方の評価基準は適宜設定すればよく、例えば、声量、口調、声の調子が、対話相手に緊張感を与えない柔らかく明るい話し方になっているほど評価値が高くなるようにしてもよい。なお、話し方の分類を正解ラベルとしてもよい。話し方評価モデルに、ある発話ターンの動画から抽出した所定時間長の動画を入力すると、その動画に写る評価対象者SUの話し方の評価値が出力される。対象者情報取得部102は、ある発話ターンの動画から抽出した1または複数の動画についての評価値から、その発話ターンの全体における話し方の評価値を算出し、これを当該発話ターンにおける評価対象者SUの態度を示す態度情報としてもよい。
【0046】
対話評価部104は、態度情報を用いて評価対象者の対話を評価する。具体的には、対話評価部104は、態度情報に含まれている、評価対象者SUの対話中の態度、特に、アバタAVが発話中であるときの評価対象者SUの態度がどのようであったかを示す情報に基づいて、評価対象者SUの対話能力を評価してもよい。
【0047】
態度情報に、さらに、評価対象者SUの発話時の評価対象者SU自身の態度を示す情報が含まれている場合には、対話評価部104は、当該態度情報を用いて、相手発話ターンおよび対象者発話ターンの少なくとも何れか一方に設定された評価基準に従って評価対象者の対話を評価してもよい。
【0048】
上述の構成によれば、相手発話ターンおよび対象者発話ターンの少なくともいずれか一方に設定された評価基準に従って対話を評価するので、評価対象者が話を聴いているときの態度について評価することができると共に、評価対象者の発話時の態度についても評価することができる。
【0049】
具体的には、態度情報は、少なくとも、対話相手であるアバタAVが発話しているときの評価対象者SUの態度を示す情報を含む。このような態度情報を用いれば、対話評価部104は、相手発話ターンに設定された評価基準に従って、評価対象者SUの対話を評価することができる。特に、対話評価部104は、評価対象者SUの相手の話を上手に聴く能力(以下、傾聴能力)を評価することができる。
【0050】
態度情報は、さらに、評価対象者SUの発話時の評価対象者SU自身の態度を示す情報を含み得る。このような態度情報を用いれば、対話評価部104は、相手発話ターンに設定された評価基準に従って評価対象者SUの傾聴能力を評価することに加えて、対象者発話ターンに設定された評価基準に従って評価対象者SUの対話を評価することができる。特に、対話評価部104は、上手に相手に話を伝える能力を評価することができる。
【0051】
本開示においては、評価基準を発話ターンごとにあらかじめ設定しておくことが可能であり、したがって、これらの評価基準を、シナリオまたはシーンの文脈に沿ったものとすることができる。このため、シナリオまたはシーンにおいて想定されているシチュエーションまたは文脈に沿った対話ができているか否かを精度良く評価することが可能である。
【0052】
さらに、態度情報には、評価対象者SUの発話内容を示す情報が含まれていてもよい。これにより、発話内容の適否を加味した対話の評価が可能になる。
【0053】
シナリオ設定部105は、記憶部11に記憶されている複数のシナリオの中から、今回のトレーニングに使用するシナリオを選択する。シナリオは、例えば、評価対象者SUの現状の対話能力を踏まえて、高いトレーニング効果が見込まれるシナリオが選択されてもよい。例えば、シナリオ設定部105は、評価装置1の操作者または評価者端末3を操作する評価者によって指定されたシナリオを選択してもよい。
【0054】
他の例では、シナリオ設定部105は、評価対象者SUの過去のトレーニングでのシナリオの使用履歴に基づいて、最適なシナリオを選択してもよい。例えば、シナリオ設定部105は、評価対象者SUについて、前回のトレーニングで使用されたシナリオと同じシナリオを選択してもよい。これにより、評価対象者SUに、特定のシチュエーションでの対話についてトレーニングを集中的に行わせることができる。あるいは、シナリオ設定部105は、評価対象者SUについて、過去のトレーニングで一度も使用されていないシナリオを選択してもよい。これにより、評価対象者SUに先の対話を予測されることなく、実践に近い環境で対話のトレーニングを行わせることができる。
【0055】
他の例では、シナリオ設定部105は、対話評価部104によって出力された評価結果に応じて、シナリオを変更してもよい。一例として、シナリオ設定部105は、過去のトレーニング実績に基づいて、最適なシナリオを選択してもよい。具体例を挙げると、評価対象者SUについて、前回のトレーニングにおいて難易度の低い第1のシナリオで、所定基準以上の高い評価が記録されたとする。この場合、シナリオ設定部105は、今回は、第1のシナリオよりも難易度の高い第2のシナリオを選択してもよい。
【0056】
上述の構成によれば、評価結果に応じた適切なシナリオに沿って評価対象者に対話を行わせることが可能になる。なお、シナリオの変更はシナリオの最初から行ってもよいし、途中から行ってもよい。最初から変更する場合は、上述のように、過去の評価結果に基づいてシナリオを変更してもよい。途中から変更する場合は、当該シナリオにおける途中までの評価結果に基づいてそれ以降のシナリオを変更してもよい。途中から変更する場合についての評価装置1の構成は、実施形態2において詳述する。
【0057】
レポート生成部106は、対話評価部104によって出力された評価結果を示すレポートを生成する。本開示においては、対話評価部104は、シナリオに含まれている発話要素ごとに評価対象者SUの対話を評価してもよいし、発話要素ごとの評価結果を統合して、1回分のセッション全体について評価対象者SUの対話を総合評価してもよい。そこで、レポート生成部106は、発話要素ごとの評価結果を示すレポートを生成してもよいし、セッションの評価結果を示すレポートを生成してもよい。
【0058】
レポート生成部106は、態度抽出部103が出力した出力値(例えば話し方の評価値)や、対象者情報取得部102が生成する態度情報を評価結果として含むレポートを生成してもよいし、対話評価部104が判定したランクを評価結果として含むレポートを生成してもよい。ランクの算出については後述する。
【0059】
次に、制御部10によって用いられる各種データの具体例を説明しながら、制御部10の各部の機能についてより詳細に説明する。記憶部11には、シナリオデータベース(DB)111、評価基準データベース(DB)112、および、評価結果データベース(DB)113が記憶されている。さらに、記憶部11には、不図示のセッション履歴が記憶されている。
【0060】
<データ構造>
図3は、シナリオDB111に記憶されるシナリオのデータ構造の一例を示す図である。また、図3は、評価基準DB112に記憶される評価基準のデータ構造の概略も示している。
【0061】
(シナリオ)
シナリオDB111には、複数のシナリオが格納されている。複数のシナリオの中の1つであるシナリオ51を例に挙げて、シナリオのデータ構造について説明する。一例として、シナリオ51には、当該シナリオを一意に識別するためのシナリオIDが紐付けられている。図示の例では、シナリオ51のシナリオIDは、「1」である。
【0062】
シナリオ51は、1つ以上のシーンで構成される。シナリオ51において各シーンの進行順序が定義されている。各シーンにも、シーンを一意に識別するためのシーンIDが紐付けられている。シーンは、1以上の一連の発話要素で構成されている。シーンは、さらに、上述の一連の発話要素によって構築される場面がどのような場面であるのかを定義する情報を含んでいてもよい。例えば、「シーンID:1」のシーンは、初対面のアバタAVと評価対象者SUとが互いに自己紹介をし合うアイスブレイクの場面であることが定義されていてもよい。シーンにおいて各発話要素の進行順序が定義されている。
【0063】
発話要素のそれぞれにも、発話要素を一意に識別するための発話IDが紐付けられている。また、各発話要素は、対象者発話ターンおよび相手発話ターンのいずれかに区分されている。対象者発話ターンに区分された発話要素は、当該発話要素の話者が、評価対象者SUであることを意味し、相手発話ターンに区分された発話要素が、当該発話要素の話者が、アバタAVであることを意味する。相手発話ターンに区分された発話要素(図示の例では、実線で示された発話要素)には、アバタAVに発話させる台詞(例えば、テキストデータ)が、定義されている。対象者発話ターンに区分された発話要素(図示の例では、破線で示された発話要素)には、話者が評価対象者SUであることが示されている。対象者発話ターンに区分された発話要素には、当然評価対象者SUの台詞は定義されていないが、評価対象者SUが発話中であることを想定して、評価対象者SUの話を聴いているようなアバタAVの動作、表情、台詞(相槌)などが定義されていてもよい。
【0064】
アバタ情報出力部101は、シナリオ設定部105によって選択されたシナリオ51にしたがって、定義された進行順序にしたがって、順次、発話要素ごとのアバタ情報(アバタAVの動画)を生成する。アバタ情報出力部101は、シナリオIDとシーンIDと発話IDとを組み合わせた文字列を、生成した動画を一意に識別するための動画IDとして採用してもよい。アバタ情報出力部101は、動画IDを付与した動画を対話機器2に出力して、対話機器2において再生する。アバタ情報出力部101は、再生した動画の動画IDと、当該動画の再生開始時刻とを対象者情報取得部102に供給する。アバタ情報出力部101は、さらに、当該動画の再生時間(動画の尺)または当該動画の再生終了時刻を対象者情報取得部102に供給してもよい。アバタ情報出力部101は、生成した動画を再生中に、次の発話要素について動画の生成を開始してもよい。
【0065】
以上のとおり、対象者情報取得部102は、アバタ情報について、発話要素ごとの再生時刻をアバタ情報出力部101から取得することができる。そのため、対象者情報取得部102は、対話機器2によって録画された対象者情報(評価対象者SUの動画)を、シナリオで定義された発話要素ごとに切り出すことができる。対象者情報取得部102は、評価対象者SUの動画を、シナリオで定義された発話要素ごとに区切り、区切った動画の各々に対して、動画IDを付与する。例えば、動画ID「1/1/1」が付与された動画は、「シナリオID:1、シーンID:1、発話ID:1」の発話要素に基づいてアバタAVが発話していた期間において、評価対象者SUの様子を撮影した動画である。動画ID「1/1/2」が付与された動画は、「シナリオID:1、シーンID:1、発話ID:2」の発話要素に対応して、評価対象者SUが発話していた期間において、評価対象者SUの様子を撮影した動画である。対象者情報取得部102は、こうして、発話要素ごとに切り出した評価対象者SUの動画を、態度抽出部103に入力して、評価対象者SUの態度に関する出力値を得る。
【0066】
(評価基準)
評価基準DB112には、発話要素に関連付けて評価基準が格納されている。評価基準群51Aは、シナリオ51の中の発話要素に関連付けられた評価基準の集合を示す。1つのシナリオにつき、1つ以上の評価基準が発話要素に関連付けて格納されている。図示の例では、シナリオ51の中のすべての発話要素に評価基準が定められている。しかし、これに限らず、評価基準は、シナリオ内のすべての発話要素に定められていなくてもよい。例えば、評価基準は、シナリオの前半のシーンの発話要素にだけ定められていてもよいし、シナリオの後半のシーンの発話要素にだけ定められていてもよい。
【0067】
また、評価基準は、相手発話ターンの発話要素および対象者発話ターンの両方に定められていてもよいし、いずれか一方に定められていてもよい。
【0068】
他の例では、評価基準は、1つのシナリオ内で、相手発話ターンの発話要素および対象者発話ターンの発話要素のうち、相手発話ターンの少なくとも1つに定められていてもよい。これにより、対話評価部104は、相手発話中に評価対象者が表明する非言語的な態度を少なくとも評価して、対話能力の評価を改善することができる。
【0069】
評価基準のそれぞれには、対応する発話要素の発話IDが紐付けられていてもよい。例えば、対話評価部104は、アバタAVがシナリオ51の「発話ID:1」の発話要素を発話しているときの、評価対象者SUの態度を評価しようとしている。この場合、対話評価部104は、シナリオ51に対応する評価基準群51Aのうち、「発話ID:1」が紐付けられた評価基準を読み出し、当該評価基準に基づいて、評価対象者SUの態度を評価する。
【0070】
以上のとおり、評価基準DB112に記憶されている評価基準によれば、対話評価部104は、発話要素ごとに切り出された動画単位で、動画に映された評価対象者SUの態度を評価できる。
【0071】
特に、相手発話ターンの発話要素においては、アバタAVの台詞が事前に定められている。そのため、それを聴いている間の評価対象者の態度としての「正解」を、当該発話要素の評価基準として事前に定めておくことができる。また、アバタAVの台詞が事前に定められているため、それを踏まえた上での次の評価対象者の態度および発言内容の「正解」を、評価基準として事前に定めておくことができる。すなわち、対話評価部104は、対話のシチュエーションまたは文脈に合致した対応ができているのかどうかを評価することができ、結果として、対話能力の評価を改善することができる。
【0072】
(セッション履歴)
図4は、記憶部11に記憶されるセッション履歴のデータ構造の一例を示す図である。シナリオ設定部105は、評価対象者SUのトレーニングに用いるシナリオを1つ選択し、当該シナリオの再生をアバタ情報出力部101に指示してセッションを開始する。シナリオ設定部105は、セッションを開始すると、当該セッションに関して、セッションIDを付与し、セッションが実行された履歴を記憶部11に記憶してもよい。
【0073】
図4に示すとおり、一例として、シナリオ設定部105は、評価対象者SUを識別するための評価対象者名と、セッションの開始日時とを、セッションIDに紐付けてセッション履歴を記憶部11に記憶してもよい。開始日時は、対話機器2がアバタ情報の再生を開始した日時を指していてもよいし、対話機器2が対象者情報の録画を開始した日時を指していてもよい。図示のように、評価対象者SUが同じでも、異なる日時に実行されたセッションに対しては、別のセッションIDが付与される。
【0074】
他の例では、シナリオ設定部105は、再生されたシナリオのシナリオIDをさらにセッションIDに紐付けて記憶してもよい。
【0075】
選択されたシナリオ内の最後の発話要素が履行されるとセッションが終了し、対話評価部104が、当該セッションについて、評価対象者SUの対話能力を総合的に評価する。他の例では、対話評価部104は、終了したセッションについて出力した評価結果を、セッションIDに紐付けて記憶してもよい。また、レポート生成部106が生成したレポートを、セッションIDに紐付けて記憶してもよい。
【0076】
このように、各セッションをセッションIDで管理することにより、誰が、いつ、対話のトレーニングを行ったのかを把握することができる。そして、使用されたシナリオのシナリオIDを紐付けておくことにより、誰が、いつ、どのシナリオを用いて対話のトレーニングを行ったのかを把握することができる。さらに、対話評価部104が出力した評価結果、および、レポート生成部106が生成したレポートにセッションIDを紐付けることができる。これにより、評価結果が、誰の、いつのトレーニングのものなのかを判別できるように、レポートを保存しておくことができる。
【0077】
(態度情報)
図5は、対象者情報取得部102が生成または取得する態度情報の具体例を示す図である。対象者情報取得部102は、態度情報を、発話要素ごとに取得する。
【0078】
態度情報52は、図4に示した「セッションID:1」のセッションにおける、「シナリオID:1」のシナリオの、「シーンID:1」のシーンの、「発話ID:1」の発話要素が再生されていた期間の、評価対象者「鈴木太郎」氏の態度を示した態度情報の一具体例である。
【0079】
態度情報53は、図4に示した「セッションID:2」のセッションにおける、「シナリオID:1」のシナリオの、「シーンID:1」のシーンの、「発話ID:1」の発話要素が再生されていた期間の、評価対象者「田中次郎」氏の態度を示した態度情報の一具体例である。
【0080】
図5に示すとおり、態度情報は、一例として、抽出項目のカラムと、出力値のカラムとを有していてもよい。同図には、抽出項目のカラムにおいて、出力値がどのような非言語的要素の態度を示しているのかを説明する文章が格納されている。しかし、この文章は発明の説明のために示したもので、実際には、評価装置1において、抽出項目を識別できればよく、例えば、「item1」、「item2」などの文字列であってもよい。
【0081】
一例として、第1の抽出項目は、「表情」を非言的要素として抽出することを意味している。具体的には、第1の抽出項目は、出力値が、アバタAVの発話期間中における、評価対象者SUの表情の分類と、その表情が検出された時間の割合を示していることを説明している。第1の抽出項目「表情」の出力値は、1つの発話要素に対応する期間における評価対象者SUの動画から抽出したフレーム画像を、表情抽出モデルに入力することにより得られる値から算出される。
【0082】
第2の抽出項目は、「視線」を非言的要素として抽出することを意味している。具体的には、第2の抽出項目は、出力値が、アバタAVの発話期間中における、評価対象者SUがアバタAVに視線を向けた時間の割合を示していることを説明している。第2の抽出項目「視線」の出力値は、1つの発話要素に対応する期間における評価対象者SUの動画から抽出したフレーム画像を、視線抽出モデルに入力することにより得られる値から算出される。
【0083】
第3の抽出項目は、「話し方」(話の内容ではない)を非言的要素として評価することを意味している。具体的には、第3の抽出項目は、出力値が、評価対象者SUがシチュエーション(例えば、アイスブレイク)に合致した口調で話せている度合いを示していることを説明している。第3の抽出項目「話し方」の出力値は、1つの発話要素に対応する期間における評価対象者SUの動画を、話し方評価モデルに入力することにより得られる。
【0084】
なお、シチュエーションに応じた話し方の評価値を算出する場合、シチュエーションごとに話し方評価モデルを用意しておけばよい。また、話し方の評価は、口調に限られず、声量や声の調子等に基づいて行ってもよく、この場合、評価対象者SUの発話を録音した音声を用いて評価すればよい。
【0085】
対象者情報取得部102は、1つの発話要素に対応する期間における評価対象者SUの動画について、抽出項目ごとに、対応する態度抽出部103から得られた出力値を取得する。対象者情報取得部102は、各態度抽出部103から取得した、評価対象者SUの態度に関する出力値から上述のような態度情報を生成し、対話評価部104に供給する。
【0086】
態度情報には、少なくとも、対話相手(アバタAV)が発話しているときの評価対象者SUの態度を示す情報(出力値)が含まれている。そのため、対話評価部104は、対話相手(アバタAV)が発話しているときの評価対象者SUの態度に基づいて、評価対象者SUの対話能力を評価することができる。
【0087】
対話評価部104は、例えば、以下に説明する評価基準にしたがって、評価対象者SUの対話能力を評価することができる。
【0088】
(評価基準)
一例として、対話評価部104は、シナリオの発話要素ごとに生成された態度情報に基づいて、発話要素ごとに定められた評価基準にしたがって、評価対象者SUの対話能力を評価してもよい。
【0089】
図6は、評価基準の具体例を示す図である。図6に示す評価基準は、「シナリオID:1」のシナリオの、「シーンID:1」のシーンの、「発話ID:1」の発話要素に関連付けられている評価基準である。
【0090】
評価基準は、一例として、評価項目ID、評価項目名、第1評価基準のカラムを有する。本実施形態では、シナリオ内のシーンおよび発話要素は、定義された順序にしたがって、シーケンシャルに履行される。すなわち、先のシーンまたは発話要素の評価結果に応じて、シーンまたは発話要素が分岐することはない。第2評価基準は、発話要素の分岐の要否を判定するために用いられる評価基準であるので、本実施形態では、第2評価基準は、省略される。第2評価基準にしたがって履行される発話要素が分岐する例については、実施形態2において詳述する。
【0091】
対話評価部104は、「シナリオID:1」のシナリオの、「シーンID:1」のシーンの、「発話ID:1」の発話要素に対応する評価対象者SUの態度を、図5に示される態度情報52に基づいて評価する。そのために、対話評価部104は、「発話ID:1」の発話要素に関連付けられた図6に示す評価基準(No.:1/1/1)を評価基準DB112から読み出す。
【0092】
対話評価部104は、表情に関する出力値「笑顔 70%、真剣 20%、不機嫌 10%」に基づいて、第1評価基準にしたがって、評価対象者SUの表情が不適切であったと評価してもよい。また、対話評価部104は、視線に関する出力値「40%」に基づいて、第1評価基準にしたがって、評価対象者SUの視線が不適切であったと評価してもよい。さらに、対話評価部104は、表情および視線の評価結果を統合して、評価対象者SUの傾聴能力を、例えば、A~Cの3段階のランク付けで評価してもよい。例えば、表情および視線の両方を不適切と評価した場合には、対話評価部104は、評価対象者SUの傾聴能力を最下位ランクの「C」と評価してもよい。また、対話評価部104は、評価対象者SUの傾聴能力を数値で表したスコアを算出し、これを評価結果としてもよい。
【0093】
他の例では、対話評価部104は、話し方に関する出力値「15点」に基づいて、第1評価基準にしたがって、評価対象者SUの話し方をA~Cの3段階のランク付けで評価してもよい。例えば、対話評価部104は、評価対象者SUの適応能力を、最下位ランクの「C」と評価してもよい。また、例えば、対話評価部104は、出力値「15点」をそのまま適応能力のスコアとしてもよい。
【0094】
こうして、対話評価部104は、「セッションID:1」のセッションにおける、「シナリオID:1」のシナリオの、「発話ID:1」の発話要素に対応する期間の、評価対象者「鈴木太郎」氏の態度を評価することができる。一例として、対話評価部104は、「セッションID/シナリオID/シーンID/発話ID=1/1/1/1」の評価結果を、「表情:不適、視線:不適、話し方:Cランク」と出力してもよい。他の例では、対話評価部104は、評価項目ごとに複数の抽出項目の評価結果を統合した評価結果を出力してもよい。例えば、対話評価部104は、「傾聴能力:Cランク、適応能力:Cランク」と出力してもよい。
【0095】
なお、対話評価部104は、「発話ID:1」の発話要素が、評価対象者SUが一言も音声を発しない相手発話ターンである場合には、評価対象者SUの話し方の評価を省略してもよい。この場合、対話評価部104は、「表情:不適、視線:不適、話し方:(評価なし)」の評価結果を出力してもよい。
【0096】
以上のとおり、対話評価部104は、発話要素ごとに切り出された動画に対応する態度情報に基づいて、各発話要素に関連付けられた評価基準にしたがって、評価対象者SUの対話を、シナリオの発話要素ごとに評価することができる。特に、対話相手が発話する発話要素に関連付けられた評価基準にしたがって、対話相手の話を聴いているときの評価対象者の態度を評価することができる。
【0097】
<効果>
本実施形態に係る評価システム100によれば、対話中の評価対象者を撮影した画像に基づいて生成された、対話相手が発話しているときの評価対象者の態度を示す情報を少なくとも含む態度情報を用いて評価対象者の対話を評価する。よって、対話相手の話を聴いているときの評価対象者の態度について評価の対象とすることができる。
【0098】
上述のように評価を行えば、評価結果が得られ、当該評価結果を評価対象者SUまたは評価対象者SUを指導または評価する立場にある人物に提示することが可能である。そのため、評価対象者SUの態度の至らない部分を認識させ、適切な態度を身に着けさせることが可能になる。なお、対話相手は人であってもよいし、アバタ等であってもよい。
【0099】
〔実施形態2〕
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。
【0100】
本実施形態では、対話評価部104の評価結果に応じて、シナリオ設定部105がシナリオを変更する。具体的には、本実施形態では、シナリオにおいて、各発話要素の進行順序が一律ではなく、先の発話要素における評価対象者SUの態度を評価した評価結果に応じて、後続の発話要素が変更される。すなわち、1つのシナリオにおいて、発話要素の進行が分岐し得る。
【0101】
本実施形態では、対話評価部104は、図6に示す評価基準の第2評価基準に基づいて、先の発話要素におけるSUの態度を評価し、シナリオ進行の分岐要否を判断するための評価値を出力する。
【0102】
(分岐要否を判断するための評価)
本実施形態では、対話評価部104は、さらに、第2評価基準(図6)に基づいて、発話要素ごとの評価対象者SUの態度を評価する。例えば、シナリオ51における「発話ID:1」の発話要素が履行され、次に、「発話ID:2」の発話要素が進行している間に、対話評価部104は、「発話ID:3」の発話要素の分岐要否を判断するための評価を行ってもよい。
【0103】
対話評価部104は、「発話ID:1」の発話要素について切り出された動画について、分岐要否を判断するための評価を行うために、当該発話要素に関連付けられた第2評価基準(図6)を読み出す。対話評価部104は、第2評価基準にしたがって、態度情報52(図5)を評価する。
【0104】
第2評価基準は、評価対象者SUの態度に関する出力値について、分岐の条件を定義する情報である。シナリオ設定部105は、対話評価部104の評価結果が、態度抽出部103から得られた出力値が第2評価基準において定義された分岐の条件を満たす場合に、次の発話要素(発話ID:3)を分岐させる。例えば、対話評価部104は、評価結果が第2評価基準を満たす場合に、分岐の要否を示すフラグを、分岐が必要である、すなわち、発話要素を変更する必要があることを示す「true」に設定してもよい。一方、対話評価部104は、評価結果が第2評価基準を満たさない場合に、上記フラグを、分岐が不要である、すなわち、発話要素を変更せずにデフォルトの進行順序にて対話を進行させることを示す「false」に設定してもよい。この場合、シナリオ設定部105は、上記フラグの値を参照してシナリオを分岐させるか否かを判定すればよい。
【0105】
図6に示すとおり、対話評価部104は、態度抽出部103によって抽出し得るすべての抽出項目(例えば、表情、視線、および、話し方のすべて)を、分岐要否の判断のために使用しなくてもよい。また、対話評価部104は、複数の抽出項目(表情および視線)の評価結果を統合して分岐要否を判断してもよいし、いずれか1つの抽出項目(表情、視線または話し方)の評価結果に基づいて、分岐要否を判断してもよい。
【0106】
図7は、分岐要否を判定するための評価結果の例を示す図である。対話評価部104は、評価項目(flag1「傾聴能力」)について、図5に示す態度情報52を用いて評価を行う。態度情報52に示されている表情と視線とは共に「不適」であるから、対話評価部104は、第2評価基準を満たすと判定する。そして、対話評価部104は、現在進行中のセッションID:1のセッションについて、分岐の要否を示すフラグを「true」に設定する。
【0107】
一方、図5に示す態度情報53では、表情について笑顔が70%以上かつ不機嫌5%未満であり、また視線が50%以上であるから、対話評価部104は、第2評価基準を満たさないと判定する。この場合、対話評価部104は、現在進行中のセッションID:2のセッションについて、分岐の要否を示すフラグを「false」に設定する。
【0108】
シナリオ設定部105は、「発話ID:1」の発話要素について、上記フラグが「true」に設定されていた場合には、次の「発話ID:3」の発話要素について、デフォルトとは異なる発話要素に差し替えることによりシナリオを変更する。例えば、シナリオ設定部105は、発話ID:3の発話要素に関して、デフォルトの発話要素を、アバタAVの態度が硬化された(例えば、少し怪訝な言い方の台詞を含む)発話要素に差し替えてもよい。
【0109】
アバタ情報出力部101は、差し替えられた発話要素にしたがってアバタ情報を生成し、対話機器2において再生する。
【0110】
こうして、先の発話要素に対する評価結果に応じて、シナリオ設定部105によりシナリオが変更される。このため、セッションの途中であっても、評価結果に応じた適切なシナリオに沿って、より自然な流れで、評価対象者に対話を行わせることが可能になる。
【0111】
(シナリオの分岐)
図8は、シナリオの分岐の例を示す図である。このシナリオに基づくセッションでは、評価対象者SUは、アバタAVによる「発話ID:1」の台詞81が再生されている間の態度により、表情、視線共に「不適切」であれば、評価対象者SUが「発話ID:2」の発話82を行っている間に、対話評価部104は、「発話ID:1」の発話要素(1/1/1)に関して、フラグを「true」に設定する。
【0112】
シナリオ設定部105は、発話要素(1/1/1)に関して、フラグが「true」に設定されたことに応じて、次の発話要素を、発話要素83(1/1/31)から発話要素84(1/1/32)へと差し替える。その結果、対話機器2においては、発話要素83に含まれる台詞85に代えて、発話要素84に含まれる台詞86が再生される。
【0113】
対話評価部104は、履行されたそれぞれの発話要素ごとに、第1評価基準にしたがって評価対象者SUの態度を評価した評価結果を出力する。具体的には、対話評価部104は、相手発話ターンの発話要素(1/1/1)に対応する評価結果87と、対象者発話ターンの発話要素(1/1/2)に対応する評価結果88と、差し替えられた発話要素84に対応する評価結果89とを、順次出力する。
【0114】
(評価結果)
図9は、評価結果DB113に記憶されるレポートの具体例を示す図である。レポート生成部106は、図示のとおり、1つのセッションにつき、発話要素ごとの評価結果を含む複数のレポートを生成してもよい。図示の「レポートID:1」のレポートは、図8に示す評価結果87を示すレポートである。「レポートID:2」のレポートは、図8に示す評価結果88を示すレポートである。「レポートID:3」のレポートは、図8に示す評価結果89を示すレポートである。
【0115】
上述したとおり、評価結果は、態度抽出部103が出力した出力値(例えば、話し方の評価値)であってもよい。他の例では、評価結果は、出力値に基づいて対話評価部104が判定した適/不適を示す情報であってもよい。他の例では、評価結果は、態度情報に基づいて対話評価部104が決定したランク(図6)であってもよい。
【0116】
レポート生成部106は、生成したレポートを評価結果DB113に格納してもよいし、対話機器2または評価者端末3に送信してもよい。評価装置1から送信されたレポートは、対話機器2または評価者端末3の表示部に表示されて、評価対象者SU本人または他の評価者に提示される(例えば、図1の評価者端末3の表示画面)。
【0117】
<評価方法の処理の流れ>
図10は、評価装置1が実行する評価方法の処理の流れを示すフローチャートである。一例として、図示の評価方法は、評価者が評価者端末3を介して、または、評価対象者SU本人が対話機器2を介して、評価対象者SUを特定する情報を入力し、対話トレーニングの実行を指示する操作入力を行ったことに応答して開始されてもよい。
【0118】
ステップS101では、シナリオ設定部105は、トレーニングに用いるシナリオをデフォルトのシナリオから変更する必要があるか否かを判定する。例えば、シナリオ設定部105は、過去に実施されたセッションの評価結果が所定の条件を満たす場合にシナリオを変更する必要があると判定してもよい。ステップS101でNOと判定された場合にはステップS102に進み、ステップS101でYESと判定された場合にはステップS103に進む。
【0119】
ステップS102では、シナリオ設定部105は、シナリオの変更は不要であると判断し、デフォルトのシナリオを設定してセッションを開始する。
【0120】
ステップS103(シナリオ設定ステップ)では、シナリオ設定部105は、シナリオをデフォルトのものから別のものに変更してセッションを開始する。例えば、前回以前に実施されたセッションについて、安定して高評価が得られている場合に、シナリオ設定部105は、より難易度の高いシナリオを選択してもよい。なお、毎回、人がシナリオを設定する実施形態では、ステップS101~S103は省略される。
【0121】
ステップS104では、アバタ情報出力部101は、シナリオ設定部105によって設定されたシナリオに含まれている発話要素を順次読み出す。
【0122】
ステップS105では、アバタ情報出力部101は、ステップS104で読み出した発話要素ごとにアバタ情報(アバタの動画)を生成し、対話機器2に出力する。これにより、対話機器2において、アバタの動画が再生される。
【0123】
ステップS106では、アバタ情報出力部101は、1つの発話要素に対応して生成したアバタの動画の再生時刻を対象者情報取得部102に対して出力する。
【0124】
ステップS107では、対象者情報取得部102は、対話機器2において録画された対象者情報(評価対象者SUの動画)を対話機器2から取得する。
【0125】
ステップS108では、対象者情報取得部102は、ステップS107で取得した対象者情報すなわち評価対象者SUの動画から、1つの発話要素に対応する部分を切り出す。例えば、対象者情報取得部102は、ステップS106で取得した再生時刻と、評価対象者SUの動画の録画時刻とを照合することにより、発話要素ごとに動画を切り出すことができる。対象者情報取得部102は、アバタAVが発言する相手発話ターンに区分された発話要素に対応する動画だけを切り出してもよいし、対象者発話ターンに区分された発話要素に対応する動画も併せて切り出してもよい。
【0126】
ステップS109(情報取得ステップ)では、対象者情報取得部102は、発話要素ごとに態度情報を取得または生成する。例えば、対象者情報取得部102は、発話要素ごとに切り出された動画を、態度抽出部103に入力し、態度情報の元になる出力値を出力させてもよい。そして、対象者情報取得部102は、態度抽出部103が出力する上記の出力値から発話要素ごとの態度情報を生成してもよい。なお、上述のように、態度抽出部103が出力する出力値は、評価対象者SUの態度として表れるいずれかの非言語的要素に関する情報(例えば、評価対象者SUの表情、視線、話し方など)を含む。
【0127】
ステップS110(評価ステップ)では、対話評価部104は、ステップS109で取得された態度情報に基づいて、発話要素ごとに、評価対象者SUの対話能力を評価する。実施形態1では、対話評価部104は、第1評価基準に基づいて、評価対象者SUまたは評価者にフィードバックするための評価を行う。実施形態2では、対話評価部104は、さらに、第2評価基準に基づいて、シナリオの分岐要否を判定するための評価を行う。
【0128】
ステップS111では、対話評価部104は、発話要素ごとの評価結果を評価結果DB113に格納する。実施形態1では、例えば、図9に示すように、対話評価部104は、発話要素ごとに、評価対象者SUまたは評価者にフィードバックするための評価結果を格納する。実施形態2では、例えば、図7に示すように、対話評価部104は、発話要素ごとに、シナリオの分岐要否を判定するための評価値を出力(フラグの値をtrueまたはfalseに設定)する。
【0129】
ステップS112では、アバタ情報出力部101は、シナリオ内で進行順序の最後に定義されている発話要素の再生が終了したか否かを判定する。最後の発話要素の再生が終了すると、レポート生成部106は、ステップS112のYESからステップS113へ処理を進める。シナリオ内に未再生の発話要素がある場合、シナリオ設定部105は、ステップS112のNOからステップS114へ処理を進める。
【0130】
ステップS113では、レポート生成部106は、終了したセッションについて、発話要素ごとの評価結果を含むレポート(例えば、図9)を生成し、評価結果DB113に格納する。レポートは、セッション中に表示してもよいし、セッション後に表示してもよい。また、レポートは、対話機器2と評価者端末3の両方に表示させてもよいし、評価者端末3のみに表示させてもよい。
【0131】
ステップS114では、シナリオ設定部105は、後続の発話要素について変更が必要か否かを判断する。例えば、ステップS111にて分岐要否を示すフラグの値が「true」に設定された場合、シナリオ設定部105は、ステップS114のYESからステップS115へ処理を進める。一方、ステップS111にて分岐要否を示すフラグの値が「false」に設定された場合、アバタ情報出力部101は、ステップS114のNOからステップS104へ処理を戻す。
【0132】
ステップS115(シナリオ設定ステップ)では、シナリオ設定部105は、次に再生する発話要素を、デフォルトのものから別のものに変更することによりシナリオを変更する。なお、シナリオをどこで分岐させるかは任意であり、次に再生する発話要素よりもさらに後の発話要素で分岐させてもよい。シナリオに分岐がない実施形態1に係る評価方法においては、シナリオを分岐させるためのステップS114~ステップS115の各処理は省略される。
【0133】
〔変形例〕
評価装置1は、3者以上の対話の評価に適用することもできる。この場合、シナリオに含まれる各発話要素は、評価対象者が発話する対象者発話ターンと、評価対象者に対して何れかの対話相手(アバタまたは実際の人物)が発話する第1の相手発話ターンと、複数の対話相手同士で対話している第2の相手発話ターンとに分類できる。
【0134】
よって、3者以上の対話の場合、図10のステップS109(情報取得ステップ)では、対象者情報取得部102は、複数の対話相手の何れかが評価対象者に対して発話している第1の相手発話ターンにおける評価対象者の態度を示す情報と、複数の対話相手同士で対話している第2の相手発話ターンにおける評価対象者の態度を示す情報とを含む態度情報を取得、または、生成してもよい。
【0135】
そして、ステップS110(評価ステップ)では、対話評価部104は、ステップS109にて対象者情報取得部102が取得した態度情報を用いて、第1の相手発話ターンおよび第2の相手発話ターンの少なくとも何れか一方に設定された評価基準に従って評価対象者の対話を評価してもよい。
【0136】
上述の方法によれば、第1の相手発話ターンおよび第2の相手発話ターンの少なくとも何れか一方に設定された評価基準に従って対話を評価するので、評価対象者が話しかけられたときの態度を評価したり、対話相手同士で対話しているときの態度についても評価したりすることができる。
【0137】
本変形例は、上述の各実施形態で記載した営業トークのトレーニングの利用シーンでも活用できる他、それ以外の利用シーンとして、例えば、精神疾患患者の療養にも活用することができる。例えば、精神疾患患者(評価対象者)が、専門家(1人目の対話相手)と家族(2人目の対話相手)との対話をどういった態度で傾聴するのかを評価することができる。そして、この評価で得られた評価結果を、治療方針の決定や、治療効果の確認などに活用することができる。
【0138】
〔処理の実行主体について〕
なお、上述の各実施形態で説明した各処理の実行主体は任意であり、上述の例に限られない。つまり、相互に通信可能な複数の情報処理装置により、評価装置1と同様の機能を実現することができる。例えば、図10に示す処理を複数の情報処理装置に分担して実行させることも可能である。
【0139】
〔ソフトウェアによる実現例〕
評価装置1(以下、「装置」と呼ぶ)の機能は、当該装置としてコンピュータを機能させるためのプログラムであって、当該装置の各制御ブロック(特に制御部10に含まれる各部)としてコンピュータを機能させるためのプログラム(評価プログラム)により実現することができる。
【0140】
この場合、上記装置は、上記プログラムを実行するためのハードウェアとして、少なくとも1つの制御装置(例えばプロセッサ)と少なくとも1つの記憶装置(例えばメモリ)を有するコンピュータを備えている。この制御装置と記憶装置により上記プログラムを実行することにより、上記各実施形態で説明した各機能が実現される。
【0141】
上記プログラムは、一時的ではなく、コンピュータ読み取り可能な、1または複数の記録媒体に記録されていてもよい。この記録媒体は、上記装置が備えていてもよいし、備えていなくてもよい。後者の場合、上記プログラムは、有線または無線の任意の伝送媒体を介して上記装置に供給されてもよい。
【0142】
また、上記各制御ブロックの機能の一部または全部は、論理回路により実現することも可能である。例えば、上記各制御ブロックとして機能する論理回路が形成された集積回路も本発明の範疇に含まれる。この他にも、例えば量子コンピュータにより上記各制御ブロックの機能を実現することも可能である。
【0143】
(評価装置1の物理的構成)
図11は、各実施形態に係る評価装置1として用いられるコンピュータの物理的構成を例示したブロック図である。また、図11には対話機器2として用いられるコンピュータの物理的構成についても例示している。
【0144】
図11に示すように、評価装置1は、バス30と、プロセッサ31と、主メモリ32と、補助メモリ33と、通信インタフェース34とを備えたコンピュータによって構成可能である。プロセッサ31、主メモリ32、補助メモリ33、および通信インタフェース34は、バス30を介して互いに接続されている。
【0145】
プロセッサ31としては、例えば、CPU、マイクロプロセッサ、デジタルシグナルプロセッサ、マイクロコントローラ、またはこれらの組み合わせ等が用いられる。
【0146】
主メモリ32としては、例えば、半導体RAM等が用いられる。
【0147】
補助メモリ33としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、またはこれらの組み合わせ等が用いられる。補助メモリ33には、上述した評価装置1の動作をプロセッサ31に実行させるためのプログラムが格納されている。プロセッサ31は、補助メモリ33に格納されたプログラムを主メモリ32上に展開し、展開したプログラムに含まれる各命令を実行する。
【0148】
通信インタフェース34は、ネットワークに接続して、外部の装置(例えば、対話機器2)と通信を行うためのインタフェースである。
【0149】
この例で、プロセッサ31は、制御部10を実現するハードウェア要素の一例である。通信インタフェース34は、評価装置1の不図示の通信部を実現するハードウェア要素の一例である。また、主メモリ32および補助メモリ33は、記憶部11を実現するハードウェア要素の一例である。
【0150】
(対話機器2の物理的構成)
図11に示すように、対話機器2は、バス40と、プロセッサ41と、主メモリ42と、補助メモリ43と、通信インタフェース44と、入出力インタフェース45とを備えたコンピュータによって構成可能である。プロセッサ41、主メモリ42、補助メモリ43、通信インタフェース44、および入出力インタフェース45は、バス40を介して互いに接続されている。入出力インタフェース45には、入力装置206および出力装置207が接続されている。
【0151】
入出力インタフェース45としては、例えば、USBインタフェース、赤外線やBluetooth(登録商標)等の近距離通信インタフェース、またはこれらの組み合わせが用いられてもよい。あるいは、入出力インタフェース45は、プロセッサ41と、対話機器2に内蔵されている入力装置206および出力装置207との間でデータの送受信を行うことを可能にするインタフェースであってもよい。
【0152】
入力装置206としては、例えば、キーボード、マウス、タッチパッド、マイク、又はこれらの組み合わせ等が用いられる。出力装置207としては、例えば、ディスプレイ、プリンタ、スピーカ、又はこれらの組み合わせが用いられる。
【0153】
この例で、入力装置206は、撮影部23または音声入力部24を実現するハードウェア要素の一例である。また、出力装置207は、表示部21または音声出力部22を実現するハードウェア要素の一例である。
【0154】
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
【0155】
〔まとめ〕
本発明の態様1に係る評価方法は、1または複数の情報処理装置により評価対象者の対話を評価する評価方法であって、対話中の前記評価対象者を撮影した画像に基づいて生成された、対話相手が発話しているときの前記評価対象者の態度を示す情報を少なくとも含む態度情報を取得する情報取得ステップと、前記態度情報を用いて前記評価対象者の対話を評価する評価ステップと、を含む。
【0156】
本発明の態様2に係る評価方法は、上記の態様1において、前記対話は、前記評価対象者が発話する対象者発話ターンと前記対話相手が発話する相手発話ターンとに区分された所定のシナリオに沿って進められ、前記情報取得ステップでは、前記評価対象者の発話時の態度を示す情報を含む前記態度情報を取得し、前記評価ステップでは、前記情報取得ステップにて取得された前記態度情報を用いて、前記相手発話ターンおよび前記対象者発話ターンの少なくとも何れか一方に設定された評価基準に従って前記評価対象者の対話を評価してもよい。
【0157】
本発明の態様3に係る評価方法は、上記の態様2において、前記評価ステップによる評価結果に応じて前記シナリオを変更するシナリオ設定ステップを含んでいてもよい。
【0158】
本発明の態様4に係る評価方法は、上記の態様1から3の何れかにおいて、前記情報取得ステップでは、複数の前記対話相手の何れかが前記評価対象者に対して発話している第1の相手発話ターンにおける前記評価対象者の態度を示す情報と、複数の前記対話相手同士で対話している第2の相手発話ターンにおける前記評価対象者の態度を示す情報とを含む前記態度情報を取得し、前記評価ステップでは、前記情報取得ステップにて取得される前記態度情報を用いて、前記第1の相手発話ターンおよび前記第2の相手発話ターンの少なくとも何れか一方に設定された評価基準に従って前記評価対象者の対話を評価する、方法としてもよい。
【0159】
本発明の態様5に係る評価装置は、対話中の評価対象者を撮影した画像に基づいて生成された、対話相手が発話しているときの前記評価対象者の態度を示す情報を少なくとも含む態度情報を取得する情報取得部と、前記態度情報を用いて前記評価対象者の対話を評価する評価部と、を備える構成である。
【0160】
本発明の態様6に係る評価プログラムは、前記態様5に記載の評価装置としてコンピュータを機能させるための評価プログラムであって、前記情報取得部および前記評価部としてコンピュータを機能させる。
【符号の説明】
【0161】
1 評価装置
102 対象者情報取得部(情報取得部)
104 対話評価部(評価部)
【要約】
【課題】対話の評価を改善する。
【解決手段】評価方法は、対話中の評価対象者を撮影した画像に基づいて生成された、対話相手が発話しているときの評価対象者の態度を示す情報を少なくとも含む態度情報を取得する情報取得ステップ(S109)と、態度情報を用いて評価対象者の対話を評価する評価ステップ(S110)と、を含む。
【選択図】図10
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11