(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024017761
(43)【公開日】2024-02-08
(54)【発明の名称】情報処理装置、情報処理システム、情報処理方法及びプログラム
(51)【国際特許分類】
G06F 16/90 20190101AFI20240201BHJP
G06Q 50/10 20120101ALI20240201BHJP
G06F 16/903 20190101ALI20240201BHJP
【FI】
G06F16/90 100
G06Q50/10
G06F16/903
【審査請求】未請求
【請求項の数】19
【出願形態】OL
(21)【出願番号】P 2022120616
(22)【出願日】2022-07-28
(71)【出願人】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100107515
【弁理士】
【氏名又は名称】廣田 浩一
(72)【発明者】
【氏名】竹原 健
(72)【発明者】
【氏名】清水 尚之
【テーマコード(参考)】
5B175
5L049
【Fターム(参考)】
5B175DA01
5B175EA01
5B175HB03
5L049CC12
(57)【要約】
【課題】対話履歴情報に含まれる質問文から除去すべき質問文を判別すること。
【解決手段】利用者端末からの質問文に対して回答するサービス提供システムの対話履歴情報から、除去候補の質問文を抽出する抽出手段と、除去候補の質問文の特徴量を算出する第1の特徴量算出手段と、質問文の入力を受け付けたウェブページのコンテンツに含まれている文の特徴量を算出する第2の特徴量算出手段と、除去候補の質問文の特徴量とウェブページのコンテンツに含まれている文の特徴量とを比較する比較手段と、比較の結果に基づき、除去すべき質問文を除去候補の質問文から判別する判別手段と、を有する情報処理装置により上記課題を解決する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
利用者端末からの質問文に対して回答するサービス提供システムの対話履歴情報から、除去候補の質問文を抽出する抽出手段と、
前記除去候補の質問文の特徴量を算出する第1の特徴量算出手段と、
前記質問文の入力を受け付けたウェブページのコンテンツに含まれている文の特徴量を算出する第2の特徴量算出手段と、
前記除去候補の質問文の特徴量と前記ウェブページのコンテンツに含まれている文の特徴量とを比較する比較手段と、
前記比較の結果に基づき、除去すべき質問文を前記除去候補の質問文から判別する判別手段と、
を有する情報処理装置。
【請求項2】
前記質問文に対して前記サービス提供システムが回答できた前記質問文に対する回答文の確信度を算出する確信度算出手段を更に有し、
前記抽出手段は、前記回答文の確信度に基づき、前記対話履歴情報から前記除去候補の質問文を抽出すること
を特徴とする請求項1記載の情報処理装置。
【請求項3】
前記抽出手段は、前記サービス提供システムが回答できなかった前記質問文を、前記除去候補の質問文として抽出すること
を特徴とする請求項1又は2記載の情報処理装置。
【請求項4】
前記比較手段は、前記除去候補の質問文の特徴量と前記ウェブページのコンテンツに含まれている文の特徴量とを比較して類似度を算出すること
を特徴とする請求項1又は2記載の情報処理装置。
【請求項5】
前記判別手段は、前記類似度と閾値との関係に基づいて前記除去候補の質問文から除去すべき質問文を判別すること
を特徴とする請求項4記載の情報処理装置。
【請求項6】
前記ウェブページのコンテンツは、前記利用者端末から前記質問文を受け付けたときに前記利用者端末に表示されていたウェブページのデータであること
を特徴とする請求項1又は2の何れか一項に記載の情報処理装置。
【請求項7】
情報処理装置と利用者端末とが通信可能に接続された情報処理システムであって、
前記情報処理装置は、
前記利用者端末からの質問文に対して回答するサービス提供システムの対話履歴情報から、除去候補の質問文を抽出する抽出手段と、
前記除去候補の質問文の特徴量を算出する第1の特徴量算出手段と、
前記質問文の入力を受け付けたウェブページのコンテンツに含まれている文の特徴量を算出する第2の特徴量算出手段と、
前記除去候補の質問文の特徴量と前記ウェブページのコンテンツに含まれている文の特徴量とを比較する比較手段と、
前記比較の結果に基づき、除去すべき質問文を前記除去候補の質問文から判別する判別手段と、
を有し、
前記利用者端末は、利用者から前記質問文の入力を受け付ける入力手段、
を有する情報処理システム。
【請求項8】
前記情報処理装置は、
前記質問文に対して前記サービス提供システムが回答できた前記質問文に対する回答文の確信度を算出する確信度算出手段を更に有し、
前記抽出手段は、前記回答文の確信度に基づき、前記対話履歴情報から前記除去候補の質問文を抽出すること
を特徴とする請求項7記載の情報処理システム。
【請求項9】
前記抽出手段は、前記サービス提供システムが回答できなかった前記質問文を、前記除去候補の質問文として抽出すること
を特徴とする請求項7又は8記載の情報処理システム。
【請求項10】
前記比較手段は、前記除去候補の質問文の特徴量と前記ウェブページのコンテンツに含まれている文の特徴量とを比較して類似度を算出すること
を特徴とする請求項7又は8記載の情報処理システム。
【請求項11】
前記判別手段は、前記類似度と閾値との関係に基づいて前記除去候補の質問文から除去すべき質問文を判別すること
を特徴とする請求項10記載の情報処理システム。
【請求項12】
前記ウェブページのコンテンツは、前記利用者端末から前記質問文を受け付けたときに前記利用者端末に表示されていたウェブページのデータである
請求項7又は8記載の情報処理システム。
【請求項13】
情報処理装置が実行する情報処理方法であって、
利用者端末からの質問文に対して回答するサービス提供システムの対話履歴情報から、除去候補の質問文を抽出する抽出手順と、
前記除去候補の質問文の特徴量を算出する第1の特徴量算出手順と、
前記質問文の入力を受け付けたウェブページのコンテンツに含まれている文の特徴量を算出する第2の特徴量算出手順と、
前記除去候補の質問文の特徴量と前記ウェブページのコンテンツに含まれている文の特徴量とを比較する比較手順と、
前記比較の結果に基づき、除去すべき質問文を前記除去候補の質問文から判別する判別手順と、
を有する情報処理方法。
【請求項14】
前記質問文に対して前記サービス提供システムが回答できた前記質問文に対する回答文の確信度を算出する確信度算出手順を更に有し、
前記抽出手順は、前記回答文の確信度に基づき、前記対話履歴情報から前記除去候補の質問文を抽出すること
を特徴とする請求項13記載の情報処理方法。
【請求項15】
前記抽出手順は、前記サービス提供システムが回答できなかった前記質問文を、前記除去候補の質問文として抽出すること
を特徴とする請求項13又は14記載の情報処理方法。
【請求項16】
前記比較手順は、前記除去候補の質問文の特徴量と前記ウェブページのコンテンツに含まれている文の特徴量とを比較して類似度を算出すること
を特徴とする請求項13又は14記載の情報処理方法。
【請求項17】
前記判別手順は、前記類似度と閾値との関係に基づいて前記除去候補の質問文から除去すべき質問文を判別すること
を特徴とする請求項16記載の情報処理方法。
【請求項18】
前記ウェブページのコンテンツは、前記利用者端末から前記質問文を受け付けたときに前記利用者端末に表示されていたウェブページのデータである
請求項13又は14記載の情報処理方法。
【請求項19】
情報処理装置に、
利用者端末からの質問文に対して回答するサービス提供システムの対話履歴情報から、除去候補の質問文を抽出する抽出手順、
前記除去候補の質問文の特徴量を算出する第1の特徴量算出手順、
前記質問文の入力を受け付けたウェブページのコンテンツに含まれている文の特徴量を算出する第2の特徴量算出手順、
前記除去候補の質問文の特徴量と前記ウェブページのコンテンツに含まれている文の特徴量とを比較する比較手順、
前記比較の結果に基づき、除去すべき質問文を前記除去候補の質問文から判別する判別手順、
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理システム、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
コンピュータ等の情報処理装置が利用者からの問い合わせ(例えば製品やサービス、制度に関する質問等の入力)に対して応答(回答)する自動応答サービス、いわゆるチャットボット(単にボットと呼ぶことがある。)が従来から知られている。
【0003】
例えば特許文献1には、チャットボットシステムにおいて、ボットによる応答が行われた後に、ボットによるチャットの履歴を保存して、履歴に対して統計処理等の解析を行う技術が開示されている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
例えばチャットボットシステムを顧客からの問い合わせ対応業務に活用すると、ボットによるチャットの履歴(対話履歴情報)には、集計することでマーケティング活用が可能な顧客からの質問文が含まれている。
【0005】
しかしながら、対話履歴情報に含まれる顧客からの質問文には、いたずら書きなどの集計精度を乱す質問文(除去すべき質問)が含まれている場合がある。集計精度を向上させるためには、対話履歴情報に含まれている顧客からの質問文から、除去すべき質問文を判別して除去する必要があるという問題があった。なお、特許文献1のような従来技術は、このような問題を解決するものではない。
【0006】
本発明の一実施形態は、上記課題に鑑みてなされたものであり、対話履歴情報に含まれる質問文から除去すべき質問文を判別することを目的とする。
【課題を解決するための手段】
【0007】
本発明の一実施形態は、利用者端末からの質問文に対して回答するサービス提供システムの対話履歴情報から、除去候補の質問文を抽出する抽出手段と、前記除去候補の質問文の特徴量を算出する第1の特徴量算出手段と、前記質問文の入力を受け付けたウェブページのコンテンツに含まれている文の特徴量を算出する第2の特徴量算出手段と、前記除去候補の質問文の特徴量と前記ウェブページのコンテンツに含まれている文の特徴量とを比較する比較手段と、前記比較の結果に基づき、除去すべき質問文を前記除去候補の質問文から判別する判別手段と、を有する情報処理装置である。
【発明の効果】
【0008】
対話履歴情報に含まれる質問文から除去すべき質問文を判別できる。
【図面の簡単な説明】
【0009】
【
図1】本実施形態に係る情報処理システムの一例の構成図である。
【
図2】本実施形態に係るコンピュータの一例のハードウェア構成図である。
【
図3】本実施形態に係る情報処理システムの一例の機能構成図である。
【
図4】本実施形態に係るサービス提供システムの処理手順の一例のフローチャートである。
【
図6】除去候補の質問文を抽出する処理手順の一例を表したフローチャートである。
【
図8】回答が見つかった質問文の一例の説明図である。
【
図10】質問文に対する回答の確信度の一例の説明図である。
【
図12】除去候補の質問文の特徴量の一例の説明図である。
【
図13】ウェブページの文の特徴量の一例の説明図である。
【発明を実施するための形態】
【0010】
以下、本発明の実施形態について、添付の図面を参照しながら説明する。
【0011】
<システム構成>
図1は、本実施形態に係る情報処理システムの一例の構成図である。本実施形態に係る情報処理システム1は、サービス提供システム10、利用者端末14、及び管理者端末15が、インターネットやLAN(Local Area Network)などのネットワーク18を介して通信可能に接続された構成である。
【0012】
サービス提供システム10はチャットボットサービスを提供する。
図1のサービス提供システム10は、ウェブサーバとして機能する情報処理装置11、チャットボットサーバとして機能する情報処理装置12、及び集計サーバとして機能する情報処理装置13を有する。
【0013】
ウェブサーバとして機能する情報処理装置11は、チャットボットが設置されたホームページなどのウェブページのデータを利用者端末14に提供する。チャットボットサーバとして機能する情報処理装置12は、例えば利用者端末14からの質問文に対して回答を行うチャットボット処理を行う。例えばチャットボットサーバとして機能する情報処理装置12は、利用者が入力した質問文に対して回答文を応答するチャットボットサービスを提供する。
【0014】
また、チャットボットサーバとして機能する情報処理装置12は、チャットボットによるチャットの履歴などの質問文及び回答文のやり取りを保存する情報を、対話履歴情報として記憶する。対話履歴情報は呼称の一例である。
【0015】
集計サーバとして機能する情報処理装置13は、対話履歴情報に含まれる質問文から除去すべき質問文を判別する。除去すべき質問文は、例えばいたずら書きなどの集計精度を乱す質問文である。集計サーバとして機能する情報処理装置13は、除去すべきと判別した質問文を除去した後の質問文を集計することで、集計精度を向上させることができる。
【0016】
利用者端末14は、ウェブページを表示させる等の操作、ウェブページに設置されているチャットボットに質問文等を入力する等の操作を利用者から受け付ける。また、利用者端末14は、チャットボットサーバとして機能する情報処理装置12のチャットボット処理に従い、利用者がチャットボットに入力した質問文に対する回答文の表示を行う。
【0017】
利用者端末14は、ノートPC(Personal Computer)、デスクトップPC、スマートフォン、タブレット端末、携帯電話、又はPDA(Personal Digital Assistant)などである。また、利用者端末14はプリンタ、スキャナ、ファクシミリ、複合機(Multifunction Peripheral;MFP)、プロジェクタ、電子黒板機能を有する表示装置、デジタルサイネージ等の出力装置、HUD(Head Up Display)装置、産業機械、撮像装置、集音装置、医療機器、ネットワーク家電、自動車(Connected Car)、ゲーム機等であってもよい。
【0018】
管理者端末15は管理者等によって操作される。管理者端末15は、例えば集計サーバとして機能する情報処理装置13が行った集計の結果を表示させる等の操作を管理者から受け付ける。
【0019】
なお、
図1に示す情報処理システム1の構成は一例である。
図1のサービス提供システム10は単一のコンピュータ又は複数台のコンピュータにより実現してもよく、又、クラウドサービスを利用して実現してもよい。
【0020】
<ハードウェア構成>
《コンピュータ》
図1の情報処理装置11、情報処理装置12、情報処理装置13、利用者端末14、及び管理者端末15は、例えば
図2に示すハードウェア構成のコンピュータ500により実現される。
図2は本実施形態に係るコンピュータの一例のハードウェア構成図である。
【0021】
コンピュータ500は、CPU(Central Processing Unit)501、ROM(Read Only Memory)502、RAM(Random Access Memory)503、HD504、HDD(Hard Disk Drive)コントローラ505、ディスプレイ506、外部機器接続I/F(Interface)508、ネットワークI/F509、データバス510、キーボード511、ポインティングデバイス512、DVD-RW(Digital Versatile Disk Rewritable)ドライブ514、メディアI/F516を備えている。
【0022】
これらのうち、CPU501は、プログラムに従ってコンピュータ500全体の動作を制御する。ROM502は、IPL等のCPU501の駆動に用いられるプログラムを記憶する。RAM503は、CPU501のワークエリアとして使用される。HD504は、プログラム等の各種データを記憶する。HDDコントローラ505は、CPU501の制御にしたがってHD504に対する各種データの読み出し又は書き込みを制御する。
【0023】
ディスプレイ506は、カーソル、メニュー、ウインドウ、文字、又は画像などの各種情報を表示する。外部機器接続I/F508は、各種の外部機器を接続するためのインタフェースである。この場合の外部機器は、例えば、USB(Universal Serial Bus)メモリ等である。ネットワークI/F509はネットワーク18を利用してデータ通信をするためのインタフェースである。データバス510は、CPU501等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
【0024】
キーボード511は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス512は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。DVD-RWドライブ514は、着脱可能な記録媒体の一例としてのDVD-RW513に対する各種データの読み出し又は書き込みを制御する。なお、DVD-RWに限らず、DVD-R等であってもよい。メディアI/F516は、フラッシュメモリ等の記録メディア515に対するデータの読み出し又は書き込み(記憶)を制御する。
【0025】
なお、
図2に示したハードウェア構成は一例であり、
図2に示した構成要素を全て含む必要はなく、または、
図2に示した構成要素以外を含むものであってもよい。
【0026】
<機能構成>
図3は本実施形態に係る情報処理システムの一例の機能構成図である。なお、
図3の機能構成図は本実施形態の説明に不要な構成について適宜省略している。
【0027】
サービス提供システム10は、例えば
図1の情報処理装置11、情報処理装置12、及び情報処理装置13でOS(Operating System)及びプログラムを実行することにより、
図3の機能構成を実現する。
【0028】
図3のサービス提供システム10は、ウェブページ提供部30、ウェブページデータ記憶部32、チャットボット処理部34、質問回答データ記憶部36、対話履歴情報記憶部38、抽出部40、第1の特徴量算出部42、第2の特徴量算出部44、確信度算出部46、比較部48、判別部50、除去部52、及び集計部54を有する。
【0029】
また、利用者端末14はOS及びプログラムを実行することにより、
図3の機能構成を実現する。利用者端末14は入力部60及び出力部62を有する。さらに、管理者端末15はOS及びプログラムを実行することにより、
図3の機能構成を実現する。管理者端末15は入力部80及び出力部82を有する。
【0030】
ウェブページ提供部30は、チャットボットが設置されたウェブページのデータを利用者端末14に提供する。ウェブページデータ記憶部32は、チャットボットが設置されたウェブページのデータを記憶する。例えばホームページ(ウェブページの一例)などのコンテンツがその一例である。
【0031】
チャットボット処理部34は利用者端末14からの質問文に対する回答文を利用者端末14に提供するチャットボット処理を行う。質問回答データ記憶部36はチャットボット処理に利用する質問文と回答文とが対応付けられた質問回答データを記憶する。例えば質問回答データは、質問文及び回答文が対となったQ&A(Question and Answer)の形式のデータを利用できる。また、質問回答データは、よくある質問文と、その質問文に対する回答文とを集めたFAQ(Frequently Asked Questions)の形式のデータを利用することもできる。
【0032】
対話履歴情報記憶部38は、チャットボットによるチャットの履歴などの質問文及び回答文のやり取りを保存する情報を、対話履歴情報として記憶する。抽出部40は、対話履歴情報から、いたずら書きなどの除去候補の質問文を後述のように抽出する。
【0033】
第1の特徴量算出部42は、除去候補の質問文の特徴量を算出する。例えば第1の特徴量算出部42は、除去候補の質問文の特徴量を算出するための文ベクトルを特徴量として算出する。第2の特徴量算出部44は、チャットボットが設置されたウェブページに含まれている文の特徴量を算出する。例えば第2の特徴量算出部44は、チャットボットが設置されたウェブページに含まれている文の文ベクトルを特徴量として算出する。
【0034】
確信度算出部46は、質問文に対してチャットボットが回答できた回答文の確からしさを表す確信度を算出する。例えば確信度算出部46は対話履歴情報に記憶されていた質問文の文ベクトルと質問回答データ記憶部36に記憶されている質問回答データの質問文の文ベクトルとの類似度に基づき、回答文の確信度を算出する。
【0035】
比較部48は、除去候補の質問文の特徴量とチャットボットが設置されたウェブページに含まれている文の特徴量とを比較する。例えば比較部48は除去候補の質問文の文ベクトルとチャットボットが設置されたウェブページに含まれている文の文ベクトルとを比較する。比較部48は比較の結果として、除去候補の質問文の特徴量とチャットボットが設置されたウェブページに含まれている文の特徴量との類似度を算出する。
【0036】
判別部50は、比較部48の比較の結果に基づき、除去すべき質問文を除去候補の質問文から判別する。例えば判別部50は、除去候補の質問文の特徴量とチャットボットが設置されたウェブページに含まれている文の特徴量との類似度に基づき、類似度が閾値よりも低い除去候補の質問文を、除去すべき質問文として判別する。なお、本実施形態では類似度が閾値よりも低い場合を所定の条件の一例として説明するが、例えば閾値に対して除去すべき質問文の候補を同様に特定できる「未満」「以下」なども含むものとする。このように判別部50は類似度と閾値との関係に基づいて除去候補の質問文から除去すべき質問文として判別できる。
【0037】
除去部52は、集計部54が集計を行う複数の質問文から判別部50が判別した除去すべき質問文を除去する。したがって、集計部54は、除去すべき質問文が除去された後の質問文を集計できるので、集計精度を向上させることができる。
【0038】
利用者端末14の入力部60は、ウェブページを表示させる操作、ウェブページに設置されているチャットボットに質問文を入力する操作等を利用者から受け付ける。出力部62は、ウェブページの表示、利用者がチャットボットに入力した質問文に対する回答文の表示等を行う。
【0039】
管理者端末15の入力部80は、集計サーバとして機能する情報処理装置13が行った集計の結果を表示させる等の操作、除去すべき質問文を表示させる操作等を管理者から受け付ける。出力部82は、集計の結果の表示、除去すべき質問文の表示等を行う。
【0040】
<処理>
以下では、サービス提供システム10が利用者端末14からの質問文に対する回答文を利用者端末14に提供するチャットボット処理を行い、対話履歴情報記憶部38に対話履歴情報が記憶された後の処理について説明する。サービス提供システム10は、例えば
図4に示す処理手順により、対話履歴情報に含まれる質問文から、いたずら書きなどの集計精度を乱す質問文である除去すべき質問文を判別する。
【0041】
図4は、本実施形態に係るサービス提供システムの処理手順の一例のフローチャートである。ステップS10において、サービス提供システム10の抽出部40は対話履歴情報記憶部38から例えば
図5に示す対話履歴情報を読み出す。
【0042】
図5は対話履歴情報の一例の説明図である。
図5に示すように対話履歴情報は、利用者端末14からの質問文に対するチャットボットの回答ステータス(回答が見つかった又は回答が見つからなかった)の情報が含まれる。
図5に示す対話履歴情報を利用することにより、抽出部40は回答文が見つかった質問文又は回答が見つからなかった質問文を対話履歴情報から選択できる。
【0043】
ステップS12において、抽出部40は対話履歴情報から、除去候補の質問文を例えば
図6に示す手順で抽出する。
図6は、除去候補の質問文を抽出する処理手順の一例を表したフローチャートである。
【0044】
ステップS30において、抽出部40は
図5の対話履歴情報のチャットボットの回答ステータスを参照し、利用者端末14からの質問文のうち、チャットボットによる回答が見つからなかった質問文を除去候補の質問文として例えば
図7に示すように選択する。
図7は除去候補の質問文の一例の説明図である。
図7では、
図5の対話履歴情報からチャットボットの回答ステータスが「回答が見つからなかった」である2つの質問文が除去候補の質問文として選択されている。
【0045】
ステップS32において、抽出部40は
図5の対話履歴情報のチャットボットの回答ステータスを参照し、利用者端末14からの質問文のうち、チャットボットによる回答が見つかった質問文を例えば
図8に示すように選択する。
図8は回答が見つかった質問文の一例の説明図である。
図7では、
図5の対話履歴情報からチャットボットの回答ステータスが「回答が見つかった」である8つの質問文が選択されている。
【0046】
ステップS34において、抽出部40は質問回答データ記憶部36から例えば
図9に示す質問回答データを読み出す。
図9は質問回答データの一例の説明図である。
図9に示すように質問回答データは、チャットボット処理に利用する質問文と回答文とが対応付けられた情報であって、例えばQ&A又はFAQなどの形式のデータを利用できる。
【0047】
ステップS36において、確信度算出部46は
図8の質問文に対してチャットボットが回答できた回答文の確からしさを表す確信度を次のように算出する。確信度算出部46は
図8の質問文ごとの文ベクトル(数百~数千次元のベクトルデータ)と、
図9の質問文ごとの文ベクトルと、を算出する。
【0048】
確信度算出部46は、
図8の質問文の文ベクトルと
図9の質問文の文ベクトルとのコサイン類似度(Cosine Similarity)を総当たりで算出する。コサイン類似度は、2つのベクトルの類似性を表す尺度であって、ベクトル空間における2つのベクトルがなす角のコサイン値である。なお、
図8の質問文の文ベクトルと
図9の質問文の文ベクトルとのコサイン類似度は、各文の意味が似ている場合に「1.0」に近づき、各文の意味が異なる場合に「-1.0」に近付く。
【0049】
確信度算出部46は、算出したコサイン類似度のうち最も大きなコサイン類似度を「回答の確信度」として、
図8の質問文ごとに選択する。
図10は質問文に対する回答の確信度の一例の説明図である。
図10では
図8の質問文ごとに、回答の確信度と、最も大きなコサイン類似度となった質問回答データの質問文と、を表している。
【0050】
ステップS38において、抽出部40はチャットボットによる回答が見つかった質問文のうち、回答の確信度が閾値よりも低い質問文を除去候補の質問文として選択する。例えば閾値を「0.8」とした場合、抽出部40は
図10から閾値が「0.8」よりも低い3つの質問文を、
図11に示すように除去候補の質問文として選択する。
図11は除去候補の質問文の一例の説明図である。
【0051】
図6に示した処理により、抽出部40は
図7及び
図11に示した除去候補の質問文を抽出できる。
図4に戻り、サービス提供システム10の第1の特徴量算出部42はステップS14において、
図7及び
図11に示した除去候補の質問文ごとの特徴量として例えば
図12に示すにように文ベクトルを算出する。
図12は除去候補の質問文の特徴量の一例の説明図である。
【0052】
図4の説明に戻り、ステップS16において、第2の特徴量算出部44はウェブページデータ記憶部32からチャットボットが設置されたウェブページのデータを取得する。第2の特徴量算出部44は取得したウェブページのデータから文章データを取得し、文単位に分割する。第2の特徴量算出部44は、チャットボットが設置されたウェブページに含まれる文ごとの特徴量として例えば
図13に示すように文ベクトルを算出する。
図13はウェブページの文の特徴量の一例の説明図である。なお、本実施形態では特徴量の算出単位を文としたが、ドキュメント単位、センテンス単位、又はワード単位であってもよい。
【0053】
ステップS18において、比較部48は
図12に示した除去候補の質問文の特徴量と
図13に示したチャットボットが設置されたウェブページの文の特徴量とを比較して次のように類似度を算出する。比較部48は
図12に示した除去候補の質問文の文ベクトルと
図13に示したチャットボットが設置されたウェブページの文の文ベクトルとのコサイン類似度を総当たりで算出する。
【0054】
なお、
図12に示した除去候補の質問文の文ベクトルと
図13に示したチャットボットが設置されたウェブページの文の文ベクトルとのコサイン類似度は、各文の意味が似ていると「1.0」に近づき、各文の意味が異なると「-1.0」に近付く。
【0055】
比較部48は、算出したコサイン類似度のうち最も大きなコサイン類似度を
図13に示したチャットボットが設置されたウェブページの文との類似度として、
図14に示すように
図12に示した除去候補の質問文ごとに選択する。
図14は比較の結果の一例の説明図である。
【0056】
ステップS20において、判別部50はステップS18の比較の結果に基づき、除去すべき質問文を判別する。例えば判別部50は
図14に示した除去候補の質問文から、類似度が閾値「0.8」よりも低い質問文「ペペロンチーノの作り方を教えて」を除去すべき質問文として
図15に示すように判別できる。
図15は除去すべき質問文の一例の説明図である。
【0057】
ステップS20における判別部50の処理は、あるウェブページに設置されたチャットボットから入力された質問文が、そのウェブページに含まれている文と類似していない場合に、いたずら書きなどの集計精度を乱す不適切な質問文であると判別する処理である。
【0058】
図4に示した処理により、サービス提供システム10は対話履歴情報に含まれる利用者からの質問文のうち、集計部54が行う集計の集計精度を乱すいたずら書きなどの不適切な質問文を判別できる。
【0059】
サービス提供システム10の除去部52は、
図4に示した処理により判別された除去すべき質問文を、集計部54が集計を行う複数の質問文から除去する。したがって、集計部54は、除去すべき質問文が除去された後の質問文を集計できるので、集計精度を向上させることができる。
【0060】
また、本実施形態によれば、チャットボットシステムを顧客からの問い合わせ対応業務に活用した場合であっても、いたずら書きなどの質問文を除去した上で、チャットボットに入力された質問文を高精度に集計し、利用者からの声を認識できる。
【0061】
本実施形態では、チャットボットが設置されたウェブページの内容と類似していない質問文及びチャットボットが利用する質問回答データの内容と類似していない質問文を、除去すべき質問文として判別している。
【0062】
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。
【0063】
実施例に記載された装置群は本明細書に開示された実施形態を実施するための複数のコンピューティング環境のうちの1つを示すものにすぎない。本実施形態によって本発明が限定されるものではなく、本実施形態における構成要素には、当業者が容易に想到できるもの、実質的に同一のもの、及び、いわゆる均等の範囲のものが含まれる。さらに、本実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換、変更および組み合わせを行うことができる。
【0064】
本発明の態様は、例えば、以下の通りである。
<1>
利用者端末からの質問文に対して回答するサービス提供システムの対話履歴情報から、除去候補の質問文を抽出する抽出手段と、
前記除去候補の質問文の特徴量を算出する第1の特徴量算出手段と、
前記質問文の入力を受け付けたウェブページのコンテンツに含まれている文の特徴量を算出する第2の特徴量算出手段と、
前記除去候補の質問文の特徴量と前記ウェブページのコンテンツに含まれている文の特徴量とを比較する比較手段と、
前記比較の結果に基づき、除去すべき質問文を前記除去候補の質問文から判別する判別手段と、
を有する情報処理装置。
<2>
前記質問文に対して前記サービス提供システムが回答できた前記質問文に対する回答文の確信度を算出する確信度算出手段を更に有し、
前記抽出手段は、前記回答文の確信度に基づき、前記対話履歴情報から前記除去候補の質問文を抽出すること
を特徴とする前記<1>記載の情報処理装置。
<3>
前記抽出手段は、前記サービス提供システムが回答できなかった前記質問文を、前記除去候補の質問文として抽出すること
を特徴とする前記<1>又は<2>記載の情報処理装置。
<4>
前記比較手段は、前記除去候補の質問文の特徴量と前記ウェブページのコンテンツに含まれている文の特徴量とを比較して類似度を算出すること
を特徴とする前記<1>乃至<3>の何れか一項に記載の情報処理装置。
<5>
前記判別手段は、前記類似度と閾値との関係に基づいて前記除去候補の質問文から除去すべき質問文を判別すること
を特徴とする前記<4>記載の情報処理装置。
<6>
前記ウェブページのコンテンツは、前記利用者端末から前記質問文を受け付けたときに前記利用者端末に表示されていたウェブページのデータであること
を特徴とする前記<1>乃至<5>の何れか一項に記載の情報処理装置。
<7>
情報処理装置と利用者端末とが通信可能に接続された情報処理システムであって、
前記情報処理装置は、
前記利用者端末からの質問文に対して回答するサービス提供システムの対話履歴情報から、除去候補の質問文を抽出する抽出手段と、
前記除去候補の質問文の特徴量を算出する第1の特徴量算出手段と、
前記質問文の入力を受け付けたウェブページのコンテンツに含まれている文の特徴量を算出する第2の特徴量算出手段と、
前記除去候補の質問文の特徴量と前記ウェブページのコンテンツに含まれている文の特徴量とを比較する比較手段と、
前記比較の結果に基づき、除去すべき質問文を前記除去候補の質問文から判別する判別手段と、
を有し、
前記利用者端末は、利用者から前記質問文の入力を受け付ける入力手段、
を有する情報処理システム。
<8>
前記情報処理装置は、
前記質問文に対して前記サービス提供システムが回答できた前記質問文に対する回答文の確信度を算出する確信度算出手段を更に有し、
前記抽出手段は、前記回答文の確信度に基づき、前記対話履歴情報から前記除去候補の質問文を抽出すること
を特徴とする前記<7>記載の情報処理システム。
<9>
前記抽出手段は、前記サービス提供システムが回答できなかった前記質問文を、前記除去候補の質問文として抽出すること
を特徴とする前記<7>又は<8>記載の情報処理システム。
<10>
前記比較手段は、前記除去候補の質問文の特徴量と前記ウェブページのコンテンツに含まれている文の特徴量とを比較して類似度を算出すること
を特徴とする前記<7>乃至<9>の何れか一項に記載の情報処理システム。
<11>
前記判別手段は、前記類似度と閾値との関係に基づいて前記除去候補の質問文から除去すべき質問文を判別すること
を特徴とする前記<10>記載の情報処理システム。
<12>
前記ウェブページのコンテンツは、前記利用者端末から前記質問文を受け付けたときに前記利用者端末に表示されていたウェブページのデータである
前記<7>乃至<11>の何れか一項に記載の情報処理システム。
<13>
情報処理装置が実行する情報処理方法であって、
利用者端末からの質問文に対して回答するサービス提供システムの対話履歴情報から、除去候補の質問文を抽出する抽出手順と、
前記除去候補の質問文の特徴量を算出する第1の特徴量算出手順と、
前記質問文の入力を受け付けたウェブページのコンテンツに含まれている文の特徴量を算出する第2の特徴量算出手順と、
前記除去候補の質問文の特徴量と前記ウェブページのコンテンツに含まれている文の特徴量とを比較する比較手順と、
前記比較の結果に基づき、除去すべき質問文を前記除去候補の質問文から判別する判別手順と、
を有する情報処理方法。
<14>
前記質問文に対して前記サービス提供システムが回答できた前記質問文に対する回答文の確信度を算出する確信度算出手順を更に有し、
前記抽出手順は、前記回答文の確信度に基づき、前記対話履歴情報から前記除去候補の質問文を抽出すること
を特徴とする前記<13>記載の情報処理方法。
<15>
前記抽出手順は、前記サービス提供システムが回答できなかった前記質問文を、前記除去候補の質問文として抽出すること
を特徴とする前記<13>又は<14>記載の情報処理方法。
<16>
前記比較手順は、前記除去候補の質問文の特徴量と前記ウェブページのコンテンツに含まれている文の特徴量とを比較して類似度を算出すること
を特徴とする前記<13>乃至<15>の何れか一項に記載の情報処理方法。
<17>
前記判別手順は、前記類似度と閾値との関係に基づいて前記除去候補の質問文から除去すべき質問文を判別すること
を特徴とする前記<16>記載の情報処理方法。
<18>
前記ウェブページのコンテンツは、前記利用者端末から前記質問文を受け付けたときに前記利用者端末に表示されていたウェブページのデータである
前記<13>乃至<17>の何れか一項に記載の情報処理方法。
<19>
情報処理装置に、
利用者端末からの質問文に対して回答するサービス提供システムの対話履歴情報から、除去候補の質問文を抽出する抽出手順、
前記除去候補の質問文の特徴量を算出する第1の特徴量算出手順、
前記質問文の入力を受け付けたウェブページのコンテンツに含まれている文の特徴量を算出する第2の特徴量算出手順、
前記除去候補の質問文の特徴量と前記ウェブページのコンテンツに含まれている文の特徴量とを比較する比較手順、
前記比較の結果に基づき、除去すべき質問文を前記除去候補の質問文から判別する判別手順、
を実行させるためのプログラム。
【符号の説明】
【0065】
1 情報処理システム
10 サービス提供システム
11-13 情報処理装置
14 利用者端末
15 管理者端末
18 ネットワーク
30 ウェブページ提供部
32 ウェブページデータ記憶部
34 チャットボット処理部
36 質問回答データ記憶部
38 対話履歴情報記憶部
40 抽出部
42 第1の特徴量算出部
44 第2の特徴量算出部
46 確信度算出部
48 比較部
50 判別部
52 除去部
54 集計部
60、80 入力部
62、82 出力部
【先行技術文献】
【特許文献】
【0066】