(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024089406
(43)【公開日】2024-07-03
(54)【発明の名称】接客支援装置および接客支援方法
(51)【国際特許分類】
G06Q 50/10 20120101AFI20240626BHJP
G10L 25/51 20130101ALI20240626BHJP
【FI】
G06Q50/10
G10L25/51
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2022204752
(22)【出願日】2022-12-21
(71)【出願人】
【識別番号】521413866
【氏名又は名称】AVITA株式会社
(74)【代理人】
【識別番号】100105784
【弁理士】
【氏名又は名称】橘 和之
(72)【発明者】
【氏名】西口 昇吾
(72)【発明者】
【氏名】三上 崇志
(72)【発明者】
【氏名】石黒 浩
【テーマコード(参考)】
5L049
5L050
【Fターム(参考)】
5L049CC11
5L050CC11
(57)【要約】
【課題】オンライン接客時に複数の観点から接客者の接客態度を評価するシステムにおいて、接客者による評価結果の認知負荷を低減し、接客時に接客者が接客態度をリアルタイムに改善しやすい環境を提供できるようにする。
【解決手段】接客支援装置1の接客態度評価部13が、オンライン接客時に取得される会話音声および会話映像を用いて、所定の評価区間ごとに接客者の接客態度を評価し、複数の評価指標のうち重要度の高い評価指標に関する評価結果のみを接客者端末3のディスプレイ36に表示させることにより、全ての評価指標に関する評価結果が表示される場合に比べて、接客者による評価結果の認知負荷を低減することができるようにし、特に重要な評価指標に絞って、所定の評価区間ごとに逐次表示される評価結果を接客者が確認して接客態度をリアルタイムに改善しやすい環境を提供する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
顧客が使用する顧客端末と接客者が使用する接客者端末とを接続して行われるオンライン接客を支援する装置であって、
上記オンライン接客の実行時に上記顧客と上記接客者との会話音声を取得する会話音声取得部と、
上記会話音声取得部により取得された上記会話音声を用いて、所定の評価区間ごとに、上記接客者の接客態度を評価してその評価結果を上記接客者端末のディスプレイに表示させる接客態度評価部とを備え、
上記接客態度評価部は、上記接客態度の良否の指標となる複数の評価指標のうち重要度の高い評価指標に関する評価結果を上記ディスプレイに表示させる
ことを特徴とする接客支援装置。
【請求項2】
上記接客態度評価部は、
上記会話音声取得部により取得された上記会話音声を用いて、上記所定の評価区間ごとに、上記複数の評価指標の中から上記重要度の高い評価指標を選出する評価指標選出部と、
上記評価指標選出部により選出された評価指標について上記接客者の接客態度を評価し、その評価結果を上記ディスプレイに表示させる評価結果出力部とを備えた
ことを特徴とする請求項1に記載の接客支援装置。
【請求項3】
上記オンライン接客の実行時に上記顧客と上記接客者との会話映像を取得する会話映像取得部を更に備え、
上記接客態度評価部は、上記会話音声取得部により取得された上記会話音声および上記会話映像取得部により取得された上記会話映像を用いて、上記所定の評価区間ごとに上記接客者の接客態度を評価する
ことを特徴とする請求項1に記載の接客支援装置。
【請求項4】
上記接客態度評価部は、
上記会話音声取得部により取得された上記会話音声および上記会話映像取得部により取得された上記会話映像の少なくとも一方を用いて、上記所定の評価区間ごとに、上記複数の評価指標の中から上記重要度の高い評価指標を選出する評価指標選出部と、
上記評価指標選出部により選出された評価指標について上記接客者の接客態度を評価し、その評価結果を上記ディスプレイに表示させる評価結果出力部とを備えた
ことを特徴とする請求項3に記載の接客支援装置。
【請求項5】
上記評価指標選出部は、上記会話音声取得部により取得された上記会話音声および上記会話映像取得部により取得された上記会話映像の少なくとも一方のデータを機械学習済みの判定モデルに入力し、上記重要度の高い評価指標を上記判定モデルから出力するように構成され、
上記判定モデルは、学習用データを用いた機械学習により、上記会話音声および上記会話映像の少なくとも一方のデータが入力された際に上記重要度の高い評価指標を出力するように生成されている
ことを特徴とする請求項4に記載の接客支援装置。
【請求項6】
上記判定モデルは、上記会話音声および上記会話映像の少なくとも一方のデータが入力された際に複数の評価指標をランキング出力するように機械学習されており、
上記評価結果出力部は、上記判定モデルにより重要度が上位にランキングされた1つまたは複数の評価指標に関する評価結果を上記ディスプレイに表示させる
ことを特徴とする請求項5に記載の接客支援装置。
【請求項7】
上記接客態度評価部は、
上記会話音声取得部により取得された上記会話音声を用いて、上記所定の評価区間ごとに、上記接客者の接客態度を上記複数の評価指標ごとに評価する指標毎評価部と、
上記指標毎評価部により上記複数の評価指標ごとに取得された複数の評価結果の中から、上記重要度の高い評価指標に関する評価結果を選出して上記ディスプレイに表示させる評価結果出力部とを備えた
ことを特徴とする請求項1に記載の接客支援装置。
【請求項8】
上記指標毎評価部は、上記会話音声取得部により取得された上記会話音声を用いて、上記所定の評価区間ごとに、上記接客者の接客態度の良否の指標となる評価値を上記複数の評価指標ごとに算出し、
上記評価結果出力部は、上記指標毎評価部により上記複数の評価指標ごとに算出された複数の評価値の中から評価の低い評価値を検出し、当該検出した評価値に対応する評価指標を上記重要度の高い評価指標として選出し、当該選出した評価指標に関する評価結果を上記ディスプレイに表示させる
ことを特徴とする請求項7に記載の接客支援装置。
【請求項9】
上記オンライン接客の実行時に上記顧客と上記接客者との会話映像を取得する会話映像取得部を更に備え、
上記指標毎評価部は、上記会話音声取得部により取得された上記会話音声および上記会話映像取得部により取得された上記会話映像を用いて、上記所定の評価区間ごとに、上記接客者の接客態度を上記複数の評価指標ごとに評価する
ことを特徴とする請求項7に記載の接客支援装置。
【請求項10】
上記指標毎評価部は、上記会話音声取得部により取得された上記会話音声および上記会話映像取得部により取得された上記会話映像を用いて、上記所定の評価区間ごとに、上記接客者の接客態度の良否の指標となる評価値を上記複数の評価指標ごとに算出し、
上記評価結果出力部は、上記指標毎評価部により上記複数の評価指標ごとに算出された複数の評価値の中から評価の低い評価値を検出し、当該検出した評価値に対応する評価指標を上記重要度の高い評価指標として選出し、当該選出した評価指標に関する評価結果を上記ディスプレイに表示させる
ことを特徴とする請求項9に記載の接客支援装置。
【請求項11】
顧客が使用する顧客端末と接客者が使用する接客者端末とを接続して行われるオンライン接客を接客支援装置によって支援する方法であって、
上記接客支援装置の会話音声取得部が、上記オンライン接客の実行時に上記顧客と上記接客者との会話音声を取得する取得工程と、
上記接客支援装置の接客態度評価部が、上記会話音声取得部により取得された上記会話音声を用いて、所定の評価区間ごとに、上記接客者の接客態度を評価してその評価結果を上記接客者端末のディスプレイに表示させる評価工程とを有し、
上記評価工程において上記接客態度評価部は、上記接客態度の良否の指標となる複数の評価指標のうち重要度の高い評価指標に関する評価結果を上記ディスプレイに表示させる
ことを特徴とする接客支援方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、接客支援装置および接客支援方法に関し、特に、顧客が使用する顧客端末と接客者が使用する接客者端末とを接続して行われるオンライン接客を支援する装置および方法に用いて好適なものである。
【背景技術】
【0002】
一般に、各種の接客業務では、接客者の良好な接客態度が顧客満足度につながることが知られている。近年では、インターネットを介してオペレータがオンライン(Web上)で接客を行うオンライン接客が多く活用されているが、このオンライン接客においても、顧客満足度の向上のためにオペレータの接客態度を良好にすることが望まれている。しかしながら、オンライン接客では顧客のリアクションがわかりづらく、言語以外のノンバーバルコミュニケーションが阻害される傾向にある。そのため、オペレータの接客態度に対する顧客のフィードバックが得られにくく、効果的な接客が行うことが難しいという問題があった。
【0003】
これに対し、接客時の会話音声や動作に基づいて接客態度を評価するシステムが知られている(例えば、特許文献1~7参照)。特許文献1に記載の接客態度評価システムでは、接客イベントの発生時にマイクで集音した従業員の会話音声に含まれるキーワードと、接客イベントに対応してあらかじめ登録しておいたキーワードとの対比により接客発話評価値を算定する。特許文献1には、発話長さまたは各音素の周波数特性の対比により接客発話評価値を算定することも開示されている。
【0004】
特許文献2には、会話音声の音声特徴(声のトーン、声のスピード、声の大きさ、感情、笑顔声など)とあらかじめ格納されている規定音声特徴との差分に基づいて接客態度を評価することが開示されている。すなわち、特許文献2に記載の接客評価装置では、あらかじめ定められた1以上の接客用キーワードを会話音声から検出し、検出した接客用キーワードの音声特徴を数値化して取得する。そして、こうして取得した接客用キーワードの音声特徴の数値と、あらかじめ格納されている接客用キーワードの規定音声特徴の数値とを比較し、その比較結果に基づいて、接客態度の良否の指標となる評価値を算出する。
【0005】
特許文献3には、顧客満足度の評価を通じて接客の総合的な評価を把握できるようにすることが開示されている。特許文献3に記載の接客データ記録装置では、接客者の会話時間または顧客の会話時間の総会話時間に対する比率を算出するとともに、顧客の感情を認識してその認識結果に基づいて顧客満足度を算出し、算出した会話比率に基づく会話比率データと顧客満足度に基づく満足度データとを関連付けて記録する。
【0006】
特許文献4には、会話音声に含まれるキーワード、会話のトーン、テンポなどに基づいて会話の巧みさを分析することや、会話時の顔表情、頭部の動きなどの動作に基づいて会話の巧みさを分析することが開示されている。この特許文献4に記載のシステムでは、会話の実行中にこれら多数の観点から接客態度の指標値をそれぞれ算出し、会話終了時にそれらの指標値を会話ログデータとして記録する。特許文献4には、システムの使用例として、接客時の店員の会話の巧みさの評価に利用することが開示されている。
【0007】
その他、特許文献5~7にも、会話音声や動作に基づいて会話スキルや接客態度を評価することが開示されている。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特許第6610992号公報
【特許文献2】特許第5855290号公報
【特許文献3】特許第5477153号公報
【特許文献4】特開2016-103081 号公報
【特許文献5】特開2022-14188 号公報
【特許文献6】特許第3268526号公報
【特許文献7】特許第5939493号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
以上のように、特許文献1~7には、様々な観点から接客者の接客態度を評価することが開示されている。いずれの観点も接客態度を評価する指標として有用であるが、それぞれは接客態度の一側面を示したものに過ぎない。そこで、例えばオンライン接客時に、異なる複数の観点から接客態度をそれぞれ評価し、それらの評価結果を全てディスプレイに表示することによって接客者にフィードバックすることが考えられる。
【0010】
しかしながら、このようにすると、接客者が評価結果を認知するための負荷が大きくなる。特許文献4のように会話終了後の任意の時点で会話ログデータから評価結果を確認する場合や、特許文献5,6のように接客または会話のトレーニングを行う場合であればまだよいが、実際に顧客に対して接客を行っているときに、ディスプレイに表示される多数の観点の評価結果を接客者が素早く認知して接客態度をリアルタイムに改善することは難しい。
【0011】
本発明は、このような問題を解決するために成されたものであり、オンライン接客時に複数の観点から接客者の接客態度を評価するシステムにおいて、接客者による評価結果の認知負荷を低減し、オンライン接客時に接客者が接客態度をリアルタイムに改善しやすい環境を提供できるようにすることを目的とする。
【課題を解決するための手段】
【0012】
上記した課題を解決するために、本発明では、オンライン接客の実行時に取得される顧客と接客者との会話音声を用いて、所定の評価区間ごとに接客者の接客態度を評価し、接客態度の良否の指標となる複数の評価指標のうち重要度の高い評価指標に関する評価結果を接客者端末のディスプレイに表示させるようにしている。
【発明の効果】
【0013】
上記のように構成した本発明によれば、接客者が顧客に対してオンライン接客を行っている際に、所定の評価区間ごとに、重要度の高い評価指標に関する評価結果のみが接客者端末に逐次表示されるので、全ての評価指標に関する評価結果が表示される場合に比べて、接客者による評価結果の認知負荷を低減することができる。これにより、特に重要な評価指標に絞って、接客者が接客態度をリアルタイムに改善しやすい環境を提供することができる。
【図面の簡単な説明】
【0014】
【
図1】本実施形態の接客支援装置を適応したオンライン接客システムの全体構成例を示す図である。
【
図2】本実施形態による接客支援装置の機能構成例を、顧客端末および接客者端末の機能構成と共に示すブロック図である。
【
図3】本実施形態による接客態度評価部のより具体的な機能構成例を示すブロック図である。
【
図4】本実施形態による接客支援装置の動作例を示すフローチャートである。
【
図5】本実施形態による接客態度評価部の他の機能構成例を示すブロック図である。
【発明を実施するための形態】
【0015】
以下、本発明の一実施形態を図面に基づいて説明する。
図1は、本実施形態の接客支援装置を適応したオンライン接客システムの全体構成例を示す図である。
図1に示すように、本実施形態のオンライン接客システムは、本実施形態の接客支援装置1が、顧客が使用する顧客端末2と接客者が使用する接客者端末3とをインターネットまたは携帯電話網などの通信ネットワーク100を介して接続し、接客者がオンライン(Web上)で接客を行うことを可能にしたシステムである。
【0016】
顧客端末2は、例えばパーソナルコンピュータ、タブレット、スマートフォンなどであり、マイク、スピーカ、カメラおよびディスプレイが搭載または接続されている。顧客端末2のマイクで集音された顧客の発話音声は、接客支援装置1を介して接客者端末3に送信され、接客者端末3のスピーカから出力される。顧客端末2のカメラで撮影された顧客の映像は、接客支援装置1を介して接客者端末3に送信され、接客者端末3のディスプレイに表示される。
【0017】
接客者端末3は、例えばパーソナルコンピュータ、タブレット、スマートフォンなどであり、マイク、スピーカ、カメラおよびディスプレイが搭載または接続されている。接客者端末3のマイクで集音された接客者の発話音声は、接客支援装置1を介して顧客端末2に送信され、顧客端末2のスピーカから出力される。接客者端末3のカメラで撮影された接客者の映像は、接客支援装置1を介して顧客端末2に送信され、顧客端末2のディスプレイに表示される。
【0018】
なお、顧客端末2のディスプレイに対し、接客者の映像に代えてアバター画像を表示するようにしてもよい。この場合、接客支援装置1は、接客者端末3から取得する接客者の映像を解析して、接客者の動きに連動するアバター画像を生成し、生成したアバター画像を顧客端末2に送信してディスプレイに表示させる。あるいは、次のように構成してもよい。すなわち、接客者の頭、腕、手などにモーションセンサを装着し、モーションセンサで検出される接客者の動き情報を接客者端末3から接客支援装置1に送信する。接客支援装置1は、接客者端末3から取得する動き情報に基づいて、接客者の動きに連動するアバター画像を生成し、生成したアバター画像を顧客端末2に送信してディスプレイに表示させる。
【0019】
本実施形態の接客支援装置1は、通信ネットワーク100を介して顧客端末2および接客者端末3と接続されるサーバであり、以上のようなオンライン接客の実行に必要な各種処理を行う。また、接客支援装置1は、オンライン接客の実行時に、接客者の接客態度を評価して接客者にリアルタイムに提示することにより、接客者によって行われるオンライン接客を支援する。接客者は、提示された評価結果の情報に基づいて、必要に応じて接客態度を改善し、顧客満足度の向上または接客成果の向上に努めることができる。なお、オンライン接客の実行に関する処理を行うサーバと、接客者の接客態度を評価して接客者端末3に提示する処理を行うサーバ(接客支援装置1)とを別構成としてもよい。
【0020】
図2は、本実施形態による接客支援装置1の機能構成例を、顧客端末2および接客者端末3の機能構成と共に示すブロック図である。なお、ここでは接客態度の評価に関連する機能構成のみを図示している。その一部はオンライン接客の実行にも関連するが、オンライン接客の実行に必要な全ての機能構成を図示しているものではない。
【0021】
図2に示すように、本実施形態の接客支援装置1は、機能構成として、会話音声取得部11、会話映像取得部12および接客態度評価部13を備えている。顧客端末2は、機能構成として、音声取得部21および映像取得部22を備えている。音声取得部21はマイク23に接続され、映像取得部22はカメラ24に接続されている。接客者端末3は、機能構成として、音声取得部31、映像取得部32および表示制御部33を備えている。音声取得部31はマイク34に接続され、映像取得部32はカメラ35に接続され、表示制御部33はディスプレイ36に接続されている。
【0022】
接客支援装置1の機能ブロック11~13は、ハードウェア、DSP(Digital Signal Processor)、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記機能ブロック11~13は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記憶媒体に記憶されたプログラムが動作することによって実現される。
【0023】
顧客端末2の音声取得部21は、マイク23により集音された顧客の発話音声を取得し、接客支援装置1に逐次送信する。映像取得部22は、カメラ24により撮影された顧客の映像を取得し、接客支援装置1に逐次送信する。
【0024】
接客者端末3の音声取得部31は、マイク34により集音された接客者の発話音声を取得し、接客支援装置1に逐次送信する。映像取得部32は、カメラ35により撮影された接客者の映像を取得し、接客支援装置1に逐次送信する。表示制御部33は、接客支援装置1から接客者の接客態度の評価結果を示す情報を取得し、当該評価結果をディスプレイ36に表示させる。
【0025】
接客支援装置1の会話音声取得部11は、オンライン接客の実行時に顧客と接客者との会話音声を取得する。すなわち、会話音声取得部11は、顧客端末2の音声取得部21により送信される顧客の発話音声を取得するとともに、接客者端末3の音声取得部31により送信される接客者の発話音声を取得する。
【0026】
上述したように、会話音声取得部11により取得された顧客の発話音声は接客者端末3に送信され、接客者端末3のスピーカ(図示せず)から出力される。また、会話音声取得部11により取得された接客者の発話音声は顧客端末2に送信され、顧客端末2のスピーカ(図示せず)から出力される。
【0027】
会話映像取得部12は、オンライン接客の実行時に接客時に顧客と接客者との会話映像を取得する。すなわち、会話映像取得部12は、顧客端末2の映像取得部22により送信される顧客の映像を取得するとともに、接客者端末3の映像取得部32により送信される接客者の映像を取得する。
【0028】
上述したように、会話映像取得部12により取得された顧客の映像は接客者端末3に送信され、表示制御部33により接客者端末3のディスプレイ36に表示される。また、会話映像取得部12により取得された接客者の映像は顧客端末2に送信され、顧客端末2のディスプレイ(図示せず)に表示される。接客者のアバター画像を表示する場合は、接客者の映像ではなくアバター画像が顧客端末2に送信され、顧客端末2のディスプレイに表示される。
【0029】
接客態度評価部13は、会話音声取得部11により取得された会話音声および会話映像取得部12により取得された会話映像を用いて、所定の評価区間ごとに、接客者の接客態度を評価してその評価結果を接客者端末3のディスプレイ36に表示させる。例えば、接客態度評価部13は、顧客の映像と共に評価結果の情報をディスプレイ36に表示させる。
【0030】
ここで、所定の評価区間は、例えば所定の時間区間とすることが可能である。この場合、接客態度評価部13は、所定時間(例えば、1分)ごとに、当該所定時間の時間区間中に取得された会話音声および会話映像に基づいて接客者の接客態度を評価し、その評価結果を接客者端末3のディスプレイ36に逐次更新して表示させる。
【0031】
所定の評価区間の別例として、所定の発話回数区間とすることが可能である。例えば、接客態度評価部13は、無音状態を検出し、無音状態から次の無音状態までを1回の発話としてカウントする。そして、この発話のカウント値が所定回数に至るごとに、当該発話回数区間中に取得された会話音声および会話映像に基づいて接客者の接客態度を評価し、その評価結果を接客者端末3のディスプレイ36に逐次更新して表示させる。
【0032】
無音状態の検出に代えて話者の切り替わりを検出して1回の発話としてカウントするようにしてもよい。話者の切り替わりは、公知の話者認識処理を行うことによって検出することが可能である。すなわち、会話音声取得部11により取得された会話音声から音声の特徴量を抽出し、当該特徴量に基づいて話者を識別する話者認識処理を行うことにより、顧客の発話状態から接客者の発話状態へ切り替わったこと、および接客者の発話状態から顧客の発話状態へ切り替わったことを検出することが可能である。
【0033】
所定の評価区間のさらに別の例として、所定の指示区間とすることが可能である。例えば、接客者が接客者端末3を操作して評価指示を行うことができるように構成する。接客態度評価部13は、接客者端末3から評価指示が送られるごとに、前回の評価指示から今回の評価指示までの間(評価指示が初めての場合は、オンライン接客の開始時から今回の評価指示までの間)を評価区間として接客者の接客態度を評価し、その評価結果を接客者端末3のディスプレイ36に表示させる。
【0034】
本実施形態において、接客態度評価部13は、接客態度の良否の指標となる複数の評価指標(詳細は後述する)について接客者の接客態度を評価する機能を有している。接客態度評価部13は、これら複数の評価指標に関する評価結果を全て接客者端末3のディスプレイ36に表示させるのではなく、複数の評価指標のうち重要度の高い評価指標に関する評価結果をディスプレイ36に表示させる。重要度の高い評価指標は、所定の評価区間ごとに特定する。
【0035】
図3は、接客態度評価部13のより具体的な機能構成例を示すブロック図である。
図3に示すように、接客態度評価部13は、評価指標選出部131および評価結果出力部132を備えている。評価結果出力部132は、より具体的な機能構成として、発話割合評価部132a、発話速度評価部132b、発話ワード評価部132c、抑揚評価部132dおよび動き量評価部132eを備えている。
【0036】
評価結果出力部132は、発話割合評価部132a、発話速度評価部132b、発話ワード評価部132c、抑揚評価部132dおよび動き量評価部132eにより、複数の評価指標について接客者の接客態度を所定の評価区間ごとに評価する。まず、これらの各評価部132a~132eについて説明する。
【0037】
発話割合評価部132aは、会話音声取得部11により取得された会話音声に基づいて、顧客の発話区間と接客者の発話区間の時間割合を計算し、あらかじめ理想モデルとして記憶しておいた理想時間割合からの差分値を算出する。このとき、顧客と接客者との両方が同時に発話をしている区間は、顧客の発話区間でもあり接客者の発話区間でもあると認識する。発話割合評価部132aは、算出した差分値を評価結果として出力する。あるいは、発話割合評価部132aは、差分値の大きさに応じて所定の関数またはテーブル情報によって評価値を決定し、当該評価値を出力するようにしてもよい。
【0038】
ここで、発話割合評価部132aによる発話区間の認識は、以下のように行うことが可能である。例えば、発話割合評価部132aは、会話音声取得部11が顧客端末2から発話音声を取得した区間を顧客の発話区間と認識するとともに、会話音声取得部11が接客者端末3から発話音声を取得した区間を接客者の発話区間と認識する。あるいは、上述した公知の話者認識処理を行うことにより、顧客の発話区間と接客者の発話区間とを認識するようにしてもよい。
【0039】
発話速度評価部132bは、会話音声取得部11により取得された会話音声に基づいて、接客者の発話速度(発話テンポ)を計算し、あらかじめ理想モデルとして記憶しておいた理想発話速度からの差分値を算出する。発話速度評価部132bは、算出した差分値を評価結果として出力する。あるいは、発話速度評価部132bは、差分値の大きさに応じて所定の関数またはテーブル情報によって評価値を決定し、当該評価値を出力するようにしてもよい。
【0040】
発話速度の計算は、例えば以下のように行うことが可能である。すなわち、発話速度評価部132bは、会話音声取得部11により取得された会話音声に基づいて、接客者の発話区間を対象として公知の音声認識処理を実行することにより、接客者の発話内容を文字列のテキストデータに変換する。そして、音声認識結果の文字数と、認識対象とした発話区間の時間長とから発話速度(例えば1秒当たりの発話文字数)を算出する。
【0041】
ここで、所定の評価区間内に接客者の発話区間が複数含まれている場合は、例えば、発話区間ごとに発話速度を計算し、これにより得られる複数の発話速度の平均値、中央値または最大値を算出するようにすることが可能である。あるいは、複数の発話区間における総文字数と総時間長とから発話速度を算出するようにしてもよい。
【0042】
発話ワード評価部132cは、会話音声取得部11により取得された会話音声に基づいて、接客者の発話区間を対象として公知の音声認識処理および自然言語解析処理を実行することにより、接客者の発話ワードを検出する。そして、検出した発話ワードが所定のキーワードテーブルに登録されているキーワードに該当するか否かを判定し、該当する場合に、キーワードテーブルにおいてキーワードごとに定義されているスコアを合計して評価値を算出する。発話ワード評価部132cは、算出した評価値を評価結果として出力する。
【0043】
キーワードテーブルは、例えば「ありがとう」や「いいえ」などのポジティブワード/ネガティブワードで分類されたキーワードリストを利用することが可能である。ポジティブワードには正のスコアが定義され、ネガティブワードには負のスコアが定義されている。
【0044】
抑揚評価部132dは、会話音声取得部11により取得された会話音声に基づいて、接客者による発話の抑揚(発話ピッチ)を検出し、あらかじめ理想モデルとして記憶しておいた理想発話ピッチからの差分値を算出する。抑揚評価部132dは、算出した差分値を評価結果として出力する。あるいは、抑揚評価部132dは、差分値の大きさに応じて所定の関数またはテーブル情報によって評価値を決定し、当該評価値を出力するようにしてもよい。
【0045】
抑揚の検出は、例えば以下のように行うことが可能である。すなわち、抑揚評価部132dは、会話音声取得部11により取得された会話音声に基づいて、接客者の発話区間を対象として公知の音響的処理を実行することにより、接客者の発話音声から韻律特徴(例えば、低レベル特徴および高レベル特徴)を抽出する。そして、抽出した韻律特徴に基づいて発話音声の高低差を抑揚として検出する。低レベル特徴および高レベル特徴は、例えばケプストラム係数、音声表音的特徴(例えば、フォルマント情報、平均ヒルベルト包絡線、サブ帯域における周期的および非周期的エネルギー等)のうちの任意の1つまたはこれらの組み合わせにより特定することが可能である。
【0046】
ここで、所定の評価区間内で発話音声の高低変化が繰り返し行われている場合は、例えば繰り返しの1つ1つについて発話音声の高低差を検出し、それらの平均値、中央値または最大値を算出するようにすることが可能である。あるいは、評価区間の中で最も低い値と最も高い値との差を発話音声の高低差として算出するようにしてもよい。
【0047】
動き量評価部132eは、会話映像取得部12により取得された会話映像に基づいて、単位時間当たりの接客者の頭および手の動き量をそれぞれ測定し、アクティブ率を算出する。アクティブ率は、動き量が所定値以上となる合計時間の、所定の評価区間の全時間に対する割合である。動き量評価部132eは、算出したアクティブ率と、あらかじめ理想モデルとして記憶しておいた理想アクティブ率との差分値を算出する。動き量評価部132eは、算出した差分値を評価結果として出力する。あるいは、動き量評価部132eは、差分値の大きさに応じて所定の関数またはテーブル情報によって評価値を決定し、当該評価値を出力するようにしてもよい。
【0048】
なお、以上に説明した各評価部132a~132eが使用する理想モデルを接客ステージに応じて変えるようにしてもよい。接客ステージとは、商談における段階のことである。実施中のオンライン接客がどの接客ステージに属するかは、例えば接客者が選択メニューの中から選択するようにすることが可能である。あるいは、会話音声の内容を音声認識および自然言語解析することによって単語を抽出し、抽出した単語から接客ステージを推定するようにしてもよい。接客ステージの推定は、例えば、商談の各接客ステージで使われることが多い特徴的な単語と接客ステージとを関連付けて記憶したテーブル情報を用いて行うことが可能である。あるいは、各接客ステージにおいて実際に行われた接客時の会話音声のデータに対して接客ステージのラベルを付与して成る学習用データを用いて機械学習した推定モデルを用いて接客ステージの推定を行うようにすることも可能である。
【0049】
また、以上に説明した評価部132b~132eでは、接客者の会話音声および会話映像を対象として評価を行う例について示したが、これに加えて、顧客の会話音声および会話映像を対象として評価を行うようにしてもよい。接客者の会話音声および会話映像を対象として行う評価は、接客者の接客態度を直接的に評価するものであると言える。これに対し、顧客の会話音声および会話映像を対象として行う評価は、接客者の接客態度を間接的に評価するものであると言える。顧客の態度が接客者の接客態度の影響を受けて変わる可能性があるからである。
【0050】
接客者に加えて顧客も評価する場合、各評価部132b~132eは、接客者について算出した評価値と、顧客について算出した評価値とをそれぞれ評価結果として出力する。あるいは、接客者について算出した評価値および顧客について算出した評価値をもとに所定の関数により総合評価値を算出し、当該総合評価値を評価結果として出力するようにしてもよい。なお、顧客について評価を行うのは、評価部132b~132eの中の何れか1であってもよいし、複数であってもよい。
【0051】
評価指標選出部131は、会話音声取得部11により取得された会話音声および会話映像取得部12により取得された会話映像の少なくとも一方を用いて、所定の評価区間ごとに、複数の評価指標の中から重要度の高い評価指標を選出する。複数の評価指標とは、上述した各評価部132a~132eが行う評価に関する指標であり、発話割合、発話速度、発話ワード、抑揚および動き量である。
【0052】
評価指標選出部131は、学習用データを用いた機械学習処理によって生成された判定モデル131aを備え、会話音声および会話映像の少なくとも一方のデータを機械学習済みの判定モデル131aに入力し、重要度の高い評価指標を判定モデル131aから出力するように構成されている。
【0053】
学習用データは、例えば、所定の評価区間に相当する時間長を有する接客動画(会話音声および会話映像を含むデータ)と、当該接客動画に対して人手により付与した最重要評価指標ラベルとを組み合わせたデータセットとすることが可能である。このようなデータセットを多数用意し、これを学習用データとして教師あり学習を行うことによって判定モデル131aを生成する。この例の場合、判定モデル131aは、会話音声および会話映像を含む接客動画のデータが入力された際に、最も重要な評価指標を1つ出力する。
【0054】
別の例として、判定モデル131aは、会話音声および会話映像の少なくとも一方のデータが入力された際に複数の評価指標をランキング出力するように機械学習されたものとしてもよい。例えば、公知の勾配ブースティングを用いたランキング学習手法(LambdaMARTなど)により判定モデル131aの学習を行うことが可能である。この例の場合、判定モデル131aは、会話音声および会話映像を含む接客動画のデータが入力された際に、重要度が上位の方から1つまたは複数の評価指標を出力する。ここでいう複数の評価指標は、評価部132a~132eに関する全評価指標の中の一部である。
【0055】
なお、判定モデル131aを接客ステージごとに用意し、使用する判定モデル131aを接客ステージに応じて変えるようにしてもよい。例えば、接客ステージに応じた判定モデル131aを用いて評価指標を選出するとともに、選出した評価指標に対応する評価部132a~132eにおいて使用する理想モデルを接客ステージに応じて変えるようにすることも可能である。
【0056】
評価結果出力部132は、評価指標選出部131により選出された評価指標について接客者の接客態度を評価し、その評価結果を出力して接客者端末3のディスプレイ36に表示させる。すなわち、評価結果出力部132は、複数の評価部132a~132eのうち、評価指標選出部131により選出された評価指標に関する評価部の処理を実行し、その評価結果のデータを接客者端末3に送信してディスプレイ36に表示させる。ここで、ディスプレイ36に表示される評価結果のデータは、重要度が高いものとして評価指標選出部131により選出された評価指標を示す情報および各評価部132a~132eにより算出された値を含む。
【0057】
判定モデル131aが複数の評価指標の中から最重要の評価指標を1つ出力するように構成されている場合、評価結果出力部132は、評価指標選出部131により選出された1つの評価指標について接客者の接客態度を評価し、その評価結果を出力して接客者端末3のディスプレイ36に表示させる。また、判定モデル131aが複数の評価指標をランキング出力するように構成されている場合、評価結果出力部132は、判定モデル131aにより重要度が上位にランキングされた1つまたは複数の評価指標(全評価指標の中の一部)に関する評価結果を出力して接客者端末3のディスプレイ36に表示させる。
【0058】
図4は、以上のように構成した本実施形態による接客支援装置1の動作例を示すフローチャートである。
図4に示すフローチャートは、オンライン接客が開始されたときにスタートする。
【0059】
まず、会話音声取得部11および会話映像取得部12は、オンライン接客時における顧客と接客者との会話音声および会話映像を取得する(ステップS1)。接客態度評価部13は、所定の評価区間が経過したか否かを判定する(ステップS2)。評価区間がまだ経過していない場合、処理はステップS1に戻り、会話音声および会話映像の取得を継続する。
【0060】
所定の評価区間が経過したと判定された場合、接客態度評価部13の評価指標選出部131は、当該経過した評価区間において取得された会話音声および会話映像の少なくとも一方を用いて、複数の評価指標の中から重要度の高い評価指標を選出する(ステップS3)。なお、ステップS3以降の処理が実行されている間も、会話音声および会話映像の取得は継続して実行されている。
【0061】
次いで、評価結果出力部132は、経過した評価区間において取得された会話音声および会話映像を用いて、評価指標選出部131により選出された評価指標について接客者の接客態度を評価する(ステップS4)。ここで評価結果出力部132は、複数の評価部132a~132eのうち、評価指標選出部131により選出された評価指標に該当する評価部の処理を実行する。
【0062】
そして、評価結果出力部132は、評価結果を接客者端末3に送信してディスプレイ36に表示させる(ステップS5)。ここで、直前の評価区間における評価結果が表示されている場合は、その直前の評価結果に代えて今回の評価結果を表示させる。なお、直前の評価区間で選出された評価指標と今回の評価区間で選出された評価指標とが同一の場合に、直前の評価結果に加えて今回の評価結果を表示させることにより、評価結果の変化を視認できるようにしてもよい。
【0063】
その後、接客態度評価部13は、オンライン接客を終了する処理が行われたか否かを判定する(ステップS6)。オンライン接客を終了する処理が行われていない場合、処理はステップS1に戻り、会話音声および会話映像の取得を継続する。一方、オンライン接客を終了する処理が行われた場合、
図4に示すフローチャートの処理は終了する。
【0064】
以上詳しく説明したように、本実施形態では、オンライン接客の実行時に取得される顧客と接客者との会話音声および会話映像を用いて、所定の評価区間ごとに接客者の接客態度を評価し、接客態度の良否の指標となる複数の評価指標のうち重要度の高い評価指標に関する評価結果を接客者端末3のディスプレイ36に表示させるようにしている。
【0065】
このように構成した本実施形態によれば、接客者が顧客に対してオンライン接客を行っている際に、所定の評価区間ごとに、重要度の高い評価指標に関する評価結果のみが接客者端末3に逐次表示されるので、全ての評価指標に関する評価結果が表示される場合に比べて、接客者による評価結果の認知負荷を低減することができる。これにより、特に重要な評価指標に絞って、接客者が接客態度をリアルタイムに改善しやすい環境を提供することができる。
【0066】
なお、上記実施形態では、複数の評価指標として、
図3に示した評価部132a~132eに対応する5つの評価指標を例示したが、本発明はこれに限定されるものではない。例えば、これ以外の評価指標を用いてもよい。これ以外の評価指標として、例えば特許文献1~4に開示されている評価指標を用いることも可能である。
【0067】
また、上記実施形態では、会話音声に関する評価指標と会話映像に関する評価指標とを用いる例について説明したが、何れか一方のみでもよい。例えば、接客態度評価部13は、会話音声取得部11により取得された会話音声を用いて、所定の評価区間ごとに、接客者の接客態度を評価してその評価結果を接客者端末3のディスプレイ36に表示させるようにしてもよい。この場合、接客態度評価部13は、会話音声取得部11により取得された会話音声を用いて重要度の高い評価指標を選出する。
【0068】
また、上記実施形態では、重要度の高い評価指標を選出し、選出した評価指標についてのみ評価を行う例について説明したが、本発明はこれに限定されない。例えば、
図5のように接客態度評価部13’を構成するようにしてもよい。
図5に示す接客態度評価部13’は、指標毎評価部133および評価結果出力部134を備える。
【0069】
指標毎評価部133は、
図3に示した評価部132a~132eと同様の機能構成を備え、会話音声取得部11により取得された会話音声および会話映像取得部12により取得された会話映像を用いて、所定の評価区間ごとに、接客者の接客態度を複数の評価指標ごとに評価する。すなわち、指標毎評価部133は、5つの評価部132a~132eにより、接客者の接客態度の良否の指標となる評価値を複数の評価指標ごとに算出し、それぞれの評価値を評価結果出力部134に出力する。なお、動き量評価部132eを省略して会話音声に関する評価部132a~132dのみとしてもよい。
【0070】
評価結果出力部134は、指標毎評価部133により複数の評価指標ごとに取得された複数の評価結果の中から、重要度の高い評価指標に関する評価結果を選出し、選出した評価結果のデータを接客者端末3に送信してディスプレイ36に表示させる。重要度の高い評価指標の選出方法は上記実施形態と同様とすることが可能である。
【0071】
なお、評価結果出力部134は重要度の高い評価指標の選出を以下のように行うようにしてもよい。すなわち、評価結果出力部134は、指標毎評価部133により複数の評価指標ごとに算出された複数の評価値の中から評価の低い評価値を検出し、当該検出した評価値に対応する評価指標を重要度の高い評価指標として選出するようにしてもよい。ここで、評価結果出力部134は、評価値が最も低い評価指標を選出するようにしてもよいし、評価値が最も低い方から複数の評価指標を選出するようにしてもよい。
【0072】
その他、上記実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
【符号の説明】
【0073】
1 接客支援装置
2 顧客端末
3 接客者端末
11 会話音声取得部
12 会話映像取得部
13,13’ 接客態度評価部
131 評価指標選出部
131a 判定モデル
132 評価結果出力部
132a 発話割合評価部
132b 発話速度評価部
132c 発話ワード評価部
132d 抑揚評価部
132e 動き量評価部
133 指標毎評価部
134 評価結果出力部