IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤフー株式会社の特許一覧

特開2024-84495情報処理装置、情報処理方法、及び情報処理プログラム
<>
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図1
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図2
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図3
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図4
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図5
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図6
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図7
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図8
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図9
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024084495
(43)【公開日】2024-06-25
(54)【発明の名称】情報処理装置、情報処理方法、及び情報処理プログラム
(51)【国際特許分類】
   G06Q 30/0203 20230101AFI20240618BHJP
【FI】
G06Q30/0203
【審査請求】有
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022198796
(22)【出願日】2022-12-13
(71)【出願人】
【識別番号】500257300
【氏名又は名称】LINEヤフー株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】山内 智
(72)【発明者】
【氏名】福田 開大
【テーマコード(参考)】
5L030
5L049
【Fターム(参考)】
5L030BB02
5L049BB02
(57)【要約】
【課題】オンラインサービスのサービス利用者からの効率的な情報収集を図ること。
【解決手段】本願に係る情報処理装置は、オンラインサービスのサービス利用者との間でチャットボットを通じて行われる対話に関する処理を制御する情報処理装置であって、選択部と、指示部とを有する。選択部は、対話において想定される一連の会話の内容を示す会話パターンが予め規定された複数の会話用シーケンスの中から、サービス利用者の状態に応じた会話用シーケンスを選択する。指示部は、選択部により選択された会話用シーケンスを、対話に関する処理を実行する外部装置に指示する。
【選択図】図5
【特許請求の範囲】
【請求項1】
オンラインサービスのサービス利用者との間でチャットボットを通じて行われる対話に関する処理を制御する情報処理装置であって、
前記対話において想定される一連の会話の内容を示す会話パターンが予め規定された複数の会話用シーケンスの中から、前記サービス利用者の状態に応じた前記会話用シーケンスを選択する選択部と、
前記選択部により選択された前記会話用シーケンスを、前記対話に関する処理を実行する外部装置に指示する指示部と
を有することを特徴とする情報処理装置。
【請求項2】
前記チャットボットを通じて行われる対話における前記サービス利用者の反応に基づく報酬を前記会話用シーケンスに対して設定することにより、前記対話に用いられる前記会話用シーケンスの選択を行う選択モデルの強化学習を前記会話用シーケンス単位で実行する学習部
をさらに有し、
前記選択部は、
前記選択モデルを用いて、前記会話用シーケンスを選択する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記選択部は、
前記選択モデルを用いて、前記サービス利用者に関する利用者情報と、直近の会話の内容を示す会話の履歴と、前記会話における前記サービス利用者の反応とに基づく前記会話用シーケンスを選択する
ことを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記利用者情報は、
前記サービス利用者の属性を示す属性情報、及び前記オンラインサービスのサービス利用履歴を含む
ことを特徴とする請求項3に記載の情報処理装置。
【請求項5】
前記学習部は、
少なくとも直前の前記会話用シーケンスによる前記対話において前記サービス利用者の反応が好意的であったか否かに基づいて前記報酬を設定することにより、前記選択モデルの強化学習を行う
ことを特徴とする請求項2に記載の情報処理装置。
【請求項6】
前記学習部は、
直前の前記会話用シーケンスに対応付けられている所定のコンバージョンを前記サービス利用者から取得できたか否かに基づいて前記報酬を設定することにより、前記選択モデルの強化学習を行う
ことを特徴とする請求項2に記載の情報処理装置。
【請求項7】
オンラインサービスのサービス利用者との間でチャットボットを通じて行われる対話に関する処理を制御する情報処理方法であって、
前記対話において想定される一連の会話の内容を示す会話パターンが予め規定された複数の会話用シーケンスの中から、前記サービス利用者の状態に応じた前記会話用シーケンスを選択する選択工程と、
前記選択工程により選択された前記会話用シーケンスを、前記対話に関する処理を実行する外部装置に指示する指示工程と
を含むことを特徴とする情報処理方法。
【請求項8】
オンラインサービスのサービス利用者との間でチャットボットを通じて行われる対話に関する処理を制御するコンピュータに、
前記対話において想定される一連の会話の内容を示す会話パターンが予め規定された複数の会話用シーケンスの中から、前記サービス利用者の状態に応じた前記会話用シーケンスを選択する選択手順と、
前記選択手順により選択された前記会話用シーケンスを、前記対話に関する処理を実行する外部装置に指示する指示手順と
を実行させることを特徴とする情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、情報処理装置、情報処理方法、及び情報処理プログラムに関する。
【背景技術】
【0002】
従来、チャットボットと連携したインタラクティブなコミュニケーションを実行するための技術が提案されている。たとえば、特許文献1では、チャットボットと連携したデジタルボードを通じて、対話型のコミュニケーションを実行する技術が提案されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】再表2020-240838号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上述した従来の技術では、チャットボットによるコミュニケーションを通じて、オンラインサービスのサービス利用者から効率的に情報を引き出す上で改善の余地がある。たとえば、従来の技術は、チャットからの離脱を抑制することを目的とするものであり、サービス利用者のレビューを効率的に取得することを目的とするものではない点で、少なからず改善の余地が残されている。
【0005】
本願は、上記に鑑みてなされたものであって、オンラインサービスのサービス利用者からの効率的な情報収集を図ることができる情報処理装置、情報処理方法、及び情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本願に係る情報処理装置は、オンラインサービスのサービス利用者との間でチャットボットを通じて行われる対話に関する処理を制御する情報処理装置であって、選択部と、指示部とを有する。選択部は、対話において想定される一連の会話の内容を示す会話パターンが予め規定された複数の会話用シーケンスの中から、サービス利用者の状態に応じた会話用シーケンスを選択する。指示部は、選択部により選択された会話用シーケンスを、対話に関する処理を実行する外部装置に指示する。
【発明の効果】
【0007】
実施形態の態様の1つによれば、オンラインサービスのサービス利用者からの効率的な情報収集を図ることができる。
【図面の簡単な説明】
【0008】
図1図1は、実施形態に係る情報処理の概要を示す図である。
図2図2は、実施形態に係る会話用シーケンスの概要を示す図である。
図3図3は、実施形態に係る第2サーバから第1サーバに対する会話用シーケンスの指示例を示す図である。
図4図4は、実施形態に係る強化学習の概要を模式的に示す図である。
図5図5は、実施形態に係る第2サーバの構成例を示すブロック図である。
図6図6は、実施形態に係る会話用シーケンスの情報の概要を示す図である。
図7図7は、実施形態に係る選択モデルに関する情報の概要を示す図である。
図8図8は、実施形態に係る利用者情報の概要を示す図である。
図9図9は、実施形態に係る第2サーバが実行する処理手順の一例を示すフローチャートである。
図10図10は、実施形態または各変形例に係る第2サーバの機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【0009】
以下に、本願に係る情報処理装置、情報処理方法、及び情報処理プログラムを実施するための形態(以下、「実施形態」と称する。)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法、及び情報処理プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0010】
(実施形態)
[1.実施形態に係るシステム構成]
まず、図1を用いて、実施形態に係る情報処理装置の一例である第2サーバ200を有する情報処理システムSYSの構成について説明する。図1に、実施形態に係る情報処理システムSYSの構成例を示す。図1に示すように、実施形態に係る情報処理システムSYSは、利用者端末10と、第1サーバ100と、第2サーバ200とを有している。
【0011】
利用者端末10、第1サーバ100、及び第2サーバ200は、インターネットなどのネットワーク(たとえば、図5に示すネットワークN)に接続される。利用者端末10および第1サーバ100は、ネットワークを通じて相互に通信できる。第1サーバ100及び第2サーバ200は、ネットワークを通じて相互に通信できる。なお、利用者端末10および第2サーバ200が、ネットワークを通じて相互に通信してもよい。なお、図1に示す情報処理システムSYSは、図1に示す例よりも多くの利用者端末10を有していてもよい。
【0012】
利用者端末10は、第1サーバ100の管理者がプラットフォーマーとして運営に携わる各種オンラインサービスの利用者であるサービス利用者Uにより使用される情報処理端末である。たとえば、利用者端末10は、スマートフォンや、デスクトップ型PC(Personal Computer)や、ノート型PCや、タブレット端末や、携帯電話機や、PDA(Personal Digital Assistant)などにより実現され得る。
【0013】
また、利用者端末10は、LTE(Long Term Evolution)や、4G(4th Generation:第4世代移動通信システム)や、5G(5th Generation:第5世代移動通信システム)などの無線通信網や、Bluetooth(登録商標)や、無線LAN(Local Area Network)などの近距離無線通信を実行するための通信機能を有し、これらの通信機能によりネットワークに接続できる。
【0014】
また、利用者端末10は、たとえば、第1サーバ100により提供される各種オンラインサービスのウェブコンテンツを、ウェブブラウザやアプリケーションにより表示できる。なお、利用者端末10は、情報の表示処理を実現する制御情報を第1サーバ100などから受け取った場合には、制御情報に従って表示処理を実現する。
【0015】
サービス利用者Uは、利用者端末10を操作して、ウェブブラウザにより表示される各種オンラインサービスのウェブサイトを閲覧したり、ウェブブラウザにより表示されるウェブコンテンツを利用したりできる。また、サービス利用者Uは、各種オンラインサービスのウェブサイトを利用するための専用のアプリケーションプログラム(以下、「専用アプリ」と称する。)を第1サーバ100からダウンロードして、利用者端末Uにインストールできる。この場合、サービス利用者Uは、専用アプリを操作することにより、専用アプリ用に構成された各種オンラインサービスのコンテンツを利用できる。
【0016】
第1サーバ100は、各サービス利用者に対して各種オンラインサービスを提供する情報処理装置である。第1サーバ100は、典型的にはサーバ装置であるが、メインフレームやワークステーションなどにより実現されてもよい。また、第1サーバ100がサーバ装置により実現される場合、単独のサーバ装置により実現されてもよいし、複数のサーバ装置及び複数のストレージ装置が協働して動作するクラウドシステムなどにより実現されてもよい。
【0017】
また、第1サーバ100により提供される各種オンラインサービスには、インターネット接続や、検索サービスや、SNS(Social Networking Service)や、電子商取引サービスや、電子決済サービスや、オンラインゲームや、オンラインバンキングサービスや、オンライントレーディングサービスや、宿泊予約サービスや、チケット予約サービスや、動画配信サービスや、音楽配信サービスや、ニュース配信サービスや、地図情報サービスや、ルート検索サービスや、経路案内サービスや、路線情報サービスや、運行情報サービスや、天気情報サービスなどが含まれ得る。なお、各種オンラインサービスには、各種アプリケーションに対応するAPI(Application Programming Interface)サービスが含まれていてもよい。
【0018】
また、第1サーバ100は、各種オンラインサービスの提供にあたり、サービス利用者(たとえば、サービス利用者U)の各々を特定するための利用者識別情報である利用者IDを含むユーザアカウントを作成する。このユーザアカウントに含まれる利用者IDは、各種オンラインサービスの利用登録の際にサービス利用者(たとえば、サービス利用者U)が任意に設定するか、又は第1サーバ100により個別に割り振られる。第1サーバ100は、各サービス利用者(たとえば、サービス利用者U)のユーザアカウントに紐付けて、オンラインサービスの利用履歴であるサービス利用履歴(「利用者情報」の一例)を記録し、記録したサービス利用履歴をサービス利用者ごとに管理する。また、第1サーバ100は、サービス利用者(たとえば、サービス利用者U)からの要求に応じて、各種オンラインサービスを利用するための専用アプリを配布できる。
【0019】
また、第1サーバ100は、チャットボットを通じて、各種オンラインサービスのサービス利用者(たとえば、サービス利用者U)との対話に関する処理を実行する。なお、第1サーバ100の処理については後述する。
【0020】
また、第2サーバ200は、各種オンラインサービスのサービス利用者(たとえば、サービス利用者U)と第1サーバ100との間でチャットボットを通じて行われる対話に関する処理を制御する情報処理装置である。第2サーバ200は、典型的にはサーバ装置であるが、メインフレームやワークステーションなどにより実現されてもよい。また、第2サーバ200がサーバ装置により実現される場合、単独のサーバ装置により実現されてもよいし、複数のサーバ装置及び複数のストレージ装置が協働して動作するクラウドシステムなどにより実現されてもよい。なお、第2サーバ200については後述する。
【0021】
[2.実施形態に係る情報処理の概要]
以下、図1図4を参照しつつ、実施形態に係る情報処理の概要について説明する。以下の説明において、利用者端末10をサービス利用者Uと表記して説明する場合がある。すなわち、サービス利用者Uを利用者端末10と読み替えることができる。
【0022】
また、以下の説明において、会話用シーケンスSQ1-1や会話用シーケンスSQ2-1などを特に区別して説明する必要がない場合、「会話用シーケンスSQ」と総称して説明する。
【0023】
図1に、実施形態に係る情報処理の概要を示す。図1に示すように、第1サーバ100は、サービス利用者Uがアクセス中のオンラインサービスのサービス用コンテンツCTを提供するとともに、サービス用コンテンツCTとともに表示されるチャットボットCBの対話画面を通じて、サービス利用者Uとの対話に関する処理を実行する。第1サーバ100は、サービス用コンテンツCTの提供に際して、サービス利用者Uの属性を示す属性情報を取得できる。また、第1サーバ100は、チャットボットCBによるサービス利用者Uとの対話における会話履歴、及びサービス利用者Uの反応に関する情報を取得できる。
【0024】
まず、第1サーバ100は、上述のサービス利用者Uとの対話に関する処理を実行するにあたり、第2サーバ200に対して最初の会話用シーケンスSQの問合せを送信する(ステップS01)。図2に、実施形態に係る会話用シーケンスの概要を示す。
【0025】
実施形態に係る会話用シーケンスSQは、チャットボットCBとサービス利用者との対話において想定される一連の会話の内容を示す会話パターンを予め規定した情報である。第1サーバ100および第2サーバ200の管理者は、サービス利用者(たとえば、図1に示すサービス利用者U)との間で行われる一連の会話の内容(発話と応答のやりとり)を、必然性の高い(必須の)まとまりで抽出した会話パターンを複数洗い出す。そして、管理者は、洗い出した複数の会話パターンのそれぞれを、会話用シーケンスSQとして設定する。
【0026】
たとえば、図2に示す会話用シーケンスSQ1-1は、時系列で発話される一連の会話の内容として、発話X1-1と、発話X1-2と、発話X1-3と、発話(質問)Q1-1とを含んで構成されている。発話(質問)Q1-1は、チャットボットCBからサービス利用者Uに対して問いかけを行う内容となっている。たとえば、発話(質問)Q1-1は、チャットボットCBからの問いかけに対する回答を、サービス利用者Uに選択させるための回答選択肢が関連付けられている。チャットボットCBに発話(質問)Q1-1が表示される際、回答選択肢が合わせて表示される。
【0027】
また、図2に示す会話用シーケンスSQ2-1は、時系列で発話される一連の会話の内容として、発話X2-1と、発話(質問)Q2-1と、発話X2-2と、発話(質問)Q2-2とを含んで構成されている。発話(質問)Q2-1および発話(質問)Q2-2については、上述した発話(質問)Q1-1と同様の性質を有している。
【0028】
第2サーバ200は、第1サーバ100から最初の会話用シーケンスの問合せを受信すると、予め規定された複数の会話用シーケンスSQの中から、最初の会話用シーケンスSQを選択する(ステップS02)。そして、第2サーバ200は、選択した最初の会話用シーケンスSQの指示を第1サーバ100に送信する(ステップS03)。
【0029】
たとえば、第2サーバ200は、各種オンラインサービスに共通の最初の会話用シーケンスを予め設定しておいてもよい。また、第2サーバ200は、オンラインサービスごとに、オンラインサービスに対応する最初の会話用シーケンスを予め設定しておいてもよい。この場合、第2サーバ200は、第1サーバ100から、最初の会話用シーケンスSQの問合せとともに、たとえば、チャットボットCBとの対話の相手となるサービス利用者Uが利用中のオンラインサービスを特定するためのサービス情報を取得する。そして、第2サーバ200は、取得したサービス情報に予め対応付けられている会話用シーケンスSQを最初の会話用シーケンスSQとして選択する。
【0030】
また、第2サーバ200は、チャットボットCBとの対話の相手となるサービス利用者の属性(デモグラフィック属性やサイコグラフィック属性など)に対応する最初の会話用シーケンスSQを予め設定しておいてもよい。この場合、第2サーバ200は、第1サーバ100から、最初の会話用シーケンスSQの問合せとともに、たとえば、チャットボットCBとの対話の相手となるサービス利用者Uの属性を示す属性情報を取得する。そして、第2サーバ200は、取得した属性情報に対応付けられている会話用シーケンスSQを最初の会話用シーケンスSQとして選択する。
【0031】
また、第2サーバ200は、チャットボットCBによるサービス利用者Uとの対話に用いる最後の会話用シーケンスSQについても、予め定められる所定のルールに従って選択してもよい。
【0032】
第1サーバ100は、第2サーバ200から最初の会話用シーケンスSQの指示を受信すると、受信した最初の会話用シーケンスSQに従って、チャットボットCBを通じたサービス利用者Uとの対話に関する処理を実行する(ステップS04)。図1に示すチャットボットCBの対話画面の例によれば、第1サーバ100から送信される情報に基づいて、利用者端末10には、会話用シーケンスSQに含まれる発話に対応する情報D-1~D-3が会話用シーケンスSQにおいて設定された順序で上から順に表示される。
【0033】
第1サーバ100は、最初の会話用シーケンスSQに基づく対話を完了すると、第2サーバ200に対して次の会話用シーケンスSQの問合せを送信する(ステップS05)。このとき、第1サーバ100は、直前の会話用シーケンスSQを特定するための情報と、チャットボットCBとの対話におけるサービス利用者Uの反応に関する情報とを第2サーバ200に合わせて送信する。
【0034】
第2サーバ200は、第1サーバ100から次の会話用シーケンスSQの問合せを受信すると、チャットボットCBを通じた対話に用いられる会話用シーケンスSQの選択を行う選択モデルを用いて、予め規定された複数の会話用シーケンスSQの中から、サービス利用者Uの状態に応じた次の会話用シーケンスSQを選択する(ステップS06)。そして、第2サーバ200は、選択した次の会話用シーケンスSQの指示を第1サーバ100に送信する(ステップS07)。
【0035】
以下、図3を用いて、第2サーバ200から第1サーバ100に対する会話用シーケンスSQの指示例について具体的に説明する。図3に、実施形態に係る第2サーバ200から第1サーバ100に対する会話用シーケンスSQの指示例を示す。
【0036】
図3に示すように、第1サーバ100は、第2サーバ200に対して、最初の会話用シーケンスSQの問合せを送信する(ステップS11)。このとき、第1サーバ100は、最初の会話用シーケンスSQの問合せとともに、サービス利用者Uの属性を示す属性情報(属性UA)を送信する。
【0037】
第2サーバ200は、第1サーバ100から最初の会話用シーケンスSQの問合せを受信すると、最初の会話用シーケンスSQ1-1を選択し、選択した最初の会話用シーケンスSQ1-1のシーケンス番号「SN101」を第1サーバ100に送信する(ステップS12)。また、第2サーバ200は、第1サーバ100から受信したサービス利用者Uの属性を示す属性情報を保持しておく。
【0038】
第1サーバ100は、第2サーバ200から受信したシーケンス番号「SN101」に対応する会話用シーケンスSQを用いたサービス利用者Uとの対話が完了すると、次の会話用シーケンスSQの問合せを第2サーバ200に送信する(ステップS13)。このとき、第1サーバ100は、次の会話用シーケンスSQの問合せとともに、直前の会話用シーケンスSQ1-1のシーケンス番号「SN101」と、チャットボットCBとの対話におけるサービス利用者Uの回答を示す情報「回答R-1」を送信する。
【0039】
第2サーバ200は、第1サーバ100から次の会話用シーケンスSQの問合せを受信すると、選択モデルを用いて、サービス利用者Uの状態に応じた次の会話用シーケンスSQ2-1を選択し、選択した次の会話用シーケンスSQ2-1のシーケンス番号「SN201」を第1サーバ100に送信する(ステップS14)。たとえば、第2サーバ200は、サービス利用者Uの状態を示す情報として、サービス利用者Uの属性を示す属性情報(「利用者情報」の一例)と、直前の会話用シーケンスのシーケンス番号「SN101」(「会話の履歴」の一例)と、チャットボットCBとの対話におけるサービス利用者Uの回答結果(「サービス利用者の反応」の一例)を示す情報「回答R-1」とを選択モデルに入力することにより、選択モデルから出力されるシーケンス番号「SN201」を第1サーバ100に送信する。
【0040】
なお、サービス利用者Uの属性を示す属性情報には、デモグラフィック属性やサイコグラフィック属性などの静的な情報に限られず、位置情報や生体情報などの動的な情報を含んでいてもよい。この場合、第2サーバ200は、第1サーバ100から次の会話用シーケンスSQの問合せを受信する都度、サービス利用者Uの位置情報や生体情報などの動的な情報を取得し、取得した動的な情報に基づいて更新されたサービス利用者Uの状態に基づいて、次の会話用シーケンスSQの選択を実行できる。また、第2サーバ200は、サービス利用者の状態を示す情報として、第1サーバ100からサービス利用者Uのサービス利用履歴(購入履歴や予約履歴など)を取得し、取得したサービス利用履歴を会話用シーケンス選択時の入力情報として用いることもできる。
【0041】
図1に戻り、第2サーバ200は、チャットボットCBを通じて行われる対話におけるサービス利用者Uの反応に基づく報酬を設定して、対話に用いられる会話用シーケンス単位で選択モデルの強化学習を実行する(ステップS08)。図4に、実施形態に係る強化学習の概要を模式的に示す。
【0042】
図4に示すように、実施形態に係る強化学習では、選択モデルを強化学習のエージェントと見做し、チャットボットCBとサービス利用者Uとの対話を強化学習の環境と見做すことができる。この場合、以下の手順で強化学習が進められる。まず、選択モデルは、望まれる結果が得られると考える方策(ポリシ)に従って、サービス利用者Uの状態に応じた会話用シーケンスSQを選択する。ここで、サービス利用者Uの状態には、サービス利用者Uの属性を示す属性情報と、チャットボットCBとサービス利用者Uとの間の対話に用いられた会話用シーケンス(会話の履歴)と、チャットボットCBとの対話におけるサービス利用者Uの回答(サービス利用者Uの反応)とが含まれる。選択モデルにより選択された会話用シーケンスSQは、第2サーバ200から第1サーバ100に対して送信される。
【0043】
次に、第1サーバ100において会話用シーケンスSQによる対話が完了すると、第1サーバ100から第2サーバ200に対して会話の履歴が送信され、選択モデルに対して、会話用シーケンスSQによる対話が行われた後のサービス利用者Uの状態(対話に用いられた会話用シーケンスSQおよび対話におけるサービス利用者Uの回答)がフィードバックされる。これと同時に、選択モデルに対して、サービス利用者Uの反応に基づく報酬が選択モデルにフィードバックされる。そして、選択モデルは、会話用シーケンスSQによる対話が行われた後のサービス利用者Uの状態と、サービス利用者Uの反応に基づく報酬とに基づいて、方策(ポリシ)の見直しを行う。
【0044】
すなわち、第2サーバ200は、会話用シーケンスSQの選択という行動がチャットボットCBとサービス利用者Uとの対話という環境に与えた変化として、チャットボットCBとの対話におけるサービス利用者Uの回答(反応)に関する情報を第1サーバ100から取得する。そして、第2サーバ200は、会話用シーケンスSQの選択という行動がチャットボットCBとサービス利用者Uとの対話という環境に与えた変化に対する評価として、選択モデルにより選択された会話用シーケンスSQに対して、サービス利用者Uの反応(対話における回答)に基づく報酬を設定する。
【0045】
このようにして、第2サーバ200は、たとえば、直前の会話用シーケンスSQにおけるサービス利用者Uの反応に基づく報酬を設定して、チャットボットCBとサービス利用者Uとの対話により得られる報酬を最大化するように、選択モデルによる会話用シーケンスSQの選択を最適化するための強化学習を、会話用シーケンス単位で実行できる。
【0046】
また、強化学習の際、第2サーバ200により会話用シーケンスSQに対して設定される報酬は、少なくとも直前の会話用シーケンスSQを用いて行われた会話の内容や、会話の成果に応じて設定される。
【0047】
たとえば、第2サーバ200は、直前(前回)の会話用シーケンスSQによる対話においてサービス利用者Uの反応が好意的であったか否かに基づいて報酬を設定してもよい。具体的には、第2サーバ200は、直前の会話用シーケンスSQによる対話においてサービス利用者Uから得られた回答が好意的な回答であった場合、直前の会話用シーケンスSQに対して正(たとえば、+1)の報酬を与える。一方、第2サーバ200は、直前の会話用シーケンスSQによる対話においてサービス利用者Uから得られた回答が好意的な回答ではなかった場合、直前の会話用シーケンスSQに対して負(たとえば、-1)の報酬を与える。
【0048】
なお、第2サーバ200は、直前の会話用シーケンスSQに対する報酬を設定する際、過去に行われた対話におけるサービス利用者Uの反応の変化に応じて報酬を設定してもよい。たとえば、前々回の対話におけるサービス利用者Uおよび直前(前回)のサービス利用者Uの反応が共に好意的であった場合、直前の会話用シーケンスSQに対して正(たとえば、+2)の報酬を与え、前々回の対話におけるサービス利用者Uが好意的であり、直前(前回)のサービス利用者Uの反応が好意的ではなかった場合、直前の会話用シーケンスSQに対して報酬を与えず、前々回の対話におけるサービス利用者Uおよび直前(前回)のサービス利用者Uの反応が共に好意的ではなかった場合、直前の会話用シーケンスSQに対して負(たとえば、-2)の報酬を与えてもよい。このようにして、第2サーバ200は、サービス利用者Uの反応の変化に応じた会話用シーケンスSQの選択が行われるように、選択モデルを最適化する効果を期待できる。
【0049】
また、たとえば、第2サーバ200は、直前(前回)の会話用シーケンスSQに対応付けられている所定のコンバージョンをサービス利用者Uから取得できたか否かに基づいて報酬を設定してもよい。具体的には、第2サーバ200は、直前の会話用シーケンスSQに対応付けられている所定の情報をサービス利用者Uから取得できた場合(たとえば、サービス利用者Uが求めている商品の情報を取得できた場合)には、直前の会話用シーケンスSQに対して正(たとえば、+1)の報酬を与える。一方、第2サーバ200は、直前の会話用シーケンスSQに対応付けられている所定の情報をサービス利用者Uから取得できなかった場合、直前の会話用シーケンスSQに対して負(たとえば、-1)の報酬を与える。
【0050】
このようにして、第2サーバ200は、直前の会話用シーケンスSQにおけるサービス利用者Uの反応に基づく報酬を設定して、選択モデルによる会話用シーケンスSQの選択が最適化されるように学習を実行する。また、第2サーバ200は、サービス利用者Uの属性ごとに、選択モデルの強化学習を実行できる。これにより、第2サーバ200は、選択モデルを用いることにより、サービス利用者Uの属性および状態に応じて、望ましい結果が得られるような会話用シーケンスSQが選択される可能性を高めことができる。
【0051】
なお、第2サーバ200は、任意の手法を用いて、選択モデルの強化学習を実行できる。第2サーバ200は、価値ベースの手法であれば、Q学習やSARSAなどを用いてもよいし、方策ベース手法であれば、方策勾配法などを用いてもよい。
【0052】
図1に戻り、第1サーバ100は、第2サーバ200から次の会話用シーケンスSQの指示を受信すると、受信した次の会話用シーケンスSQに従って、チャットボットCBを通じたサービス利用者Uとの対話に関する処理を実行する(ステップS09)。
【0053】
[3.実施形態に係る第2サーバの構成]
図5を用いて、実施形態に係る第2サーバ200の構成例について説明する。図5に、実施形態に係る第2サーバ200の構成例を示す。図5に示すように、第2サーバ200は、通信部210と、記憶部220と、制御部230とを有する。
【0054】
(通信部210について)
通信部210は、たとえば、NIC(Network Interface Card)などによって実現される。通信部210は、ネットワークNと有線または無線で接続される。第2サーバ200は、ネットワークNを介して、利用者端末10や第1サーバ100などの他の装置との間で情報の送受信を行う。
【0055】
(記憶部220について)
記憶部220は、たとえば、RAM(Random Access Memory)や、フラッシュメモリなどの半導体メモリ素子、またはハードディスクや、光ディスクなどの記憶装置によって実現される。たとえば、記憶部220は、会話用シーケンス記憶部221と、選択モデル記憶部222と、利用者情報記憶部223とを有する。
【0056】
(会話用シーケンス記憶部221)
会話用シーケンス記憶部221は、チャットボットCBを通じたサービス利用者(たとえば、図1に示すサービス利用者U)との対話に用いる会話用シーケンスの情報を記憶する。図6は、実施形態に係る会話用シーケンスの情報の概要を示す図である。
【0057】
図6に示すように、会話用シーケンス記憶部221に記憶される会話用シーケンスの情報は、「シーケンス番号」の項目や、「会話パターン」の項目や、「回答受付用コンテンツ」の項目や、「対応サービス」の項目などといった複数の項目を有している。会話用シーケンスの情報が有するこれらの項目は相互に対応付けられている。
【0058】
「シーケンス番号」の項目には、会話用シーケンスを特定するために会話用シーケンスごとに個別に割り振られる識別番号が記憶される。「会話パターン」の項目には、会話用シーケンスに含まれる会話パターンに関する情報が記憶される。「回答受付用コンテンツ」の項目には、会話パターンに含まれる発話(質問)に関連付けて表示される回答受付用のコンテンツが記憶される。また、回答受付用コンテンツに、サービス利用者の評価を受け付けるための複数の回答が含まれる場合、それぞれの回答に対して、好意的な回答である否かを示す属性値を予め対応付けておく。「対応サービス」の項目には、会話用シーケンスが適用される各種オンラインサービスを示す情報が記憶される。
【0059】
(選択モデル記憶部222)
選択モデル記憶部222は、会話用シーケンスを選択する際に用いられる選択モデルに関する情報が記憶される。図7は、実施形態に係る選択モデルに関する情報の概要を示す図である。
【0060】
図7に示すように、実施形態に係る選択モデル記憶部222に記憶される選択モデルに関する情報は、「モデルID」の項目や、「対応属性」の項目や、「モデル情報」の項目などといった複数の項目を有している。選択モデルに関する情報が有するこれらの項目は相互に対応付けられている。
【0061】
「モデルID」の項目には、選択モデルを識別するための識別情報が記憶される。「対応属性」の項目には、選択モデルに対応するサービス利用者(たとえば、図1に示すサービス利用者U)の属性を示す情報が記憶される。「モデル情報」の項目には、選択モデルの方策(ポリシ)に関する情報や、各種パラメータなどの選択モデルを構成する各種の情報が記憶される。
【0062】
(利用者情報記憶部223)
利用者情報記憶部223は、各種オンラインサービスの利用者であるサービス利用者(たとえば、図1に示すサービス利用者U)に関する情報が記憶される。図8は、実施形態に係る利用者情報の概要を示す図である。
【0063】
図8に示すように、実施形態に係る利用者情報記憶部223に記憶される利用者情報は、「利用者ID」の項目や、「属性情報」の項目や、「対話履歴」の項目などといった複数の項目を有している。利用者情報が有するこれらの項目は相互に対応付けられている。
【0064】
「利用者ID」の項目には、各種オンラインサービスのサービス利用者(たとえば、図1に示すサービス利用者U)を識別するための識別情報が記憶される。「属性情報」の項目には、サービス利用者のデモグラフィック属性やサイコグラフィック属性、位置情報や生体情報などの属性に関する情報が記憶される。「対話履歴」の項目には、チャットボットCBとの対話において選択された会話用シーケンスなどを含む対話履歴が記憶される。
【0065】
なお、利用者情報記憶部223は、サービス利用者に関する利用者情報として、サービス利用者のサービス利用履歴を記憶してもよい。たとえば、第2サーバ200(制御部230)は、第1サーバ100からサービス利用者のサービス利用履歴を取得し、取得したサービス利用履歴をサービス利用者の識別情報(利用者ID)に対応付けて、利用者情報記憶部223に登録できる。
【0066】
(制御部230について)
制御部230は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などによって、第2サーバ200内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部230は、たとえば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路により実現される。
【0067】
図5に示す制御部230は、選択部231と、指示部232と、学習部233とを有し、これらの各部により、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部230は、以下に説明する情報処理の機能や作用を実現または実行する処理単位で複数に分割された内部構成を有していてもよい。また、制御部230は、図5に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部230には、第2サーバ200により実行される処理の追加に応じて、図5に示す以外の機能部が追加されてもよい。
【0068】
(選択部231)
選択部231は、オンラインサービスのサービス利用者(たとえば、図1に示すサービス利用者U)との間でチャットボットを通じて行われる対話において想定される一連の会話の内容を示す会話パターンが予め規定された複数の会話用シーケンスSQの中から、サービス利用者の状態に応じた会話用シーケンスSQを選択する。たとえば、選択部231は、通信部210を介して、第1サーバ100から会話用シーケンスSQの問合せを取得すると、会話用シーケンスを選択する。
【0069】
また、選択部231は、チャットボットを通じて行われる対話におけるサービス利用者(たとえば、図1に示すサービス利用者U)の反応に基づく報酬を設定することにより、対話に用いられる会話用シーケンスSQの選択を行う選択モデル(たとえば、図2に示す選択モデル)を用いて、会話用シーケンス記憶部221に記憶されている複数の会話用シーケンスSQの中から会話用シーケンスを選択する。たとえば、選択部231は、第1サーバ100から取得した会話用シーケンスSQの問合せに含まれるサービス利用者の属性を示す属性情報に対応付けられている選択モデルを取得する。そして、選択部231は、取得した選択モデルに対して、直近の会話用シーケンスおよびサービス利用者Uの反応を入力することにより、選択モデルから出力されるシーケンス番号に紐付く会話用シーケンスを、会話用シーケンス記憶部221に記憶されている複数の会話用シーケンスの中から選択する。
【0070】
(指示部232)
指示部232は、選択部231により選択された会話用シーケンスSQを、対話に関する処理を実行する第1サーバ100(「外部装置」の一例)に指示する。たとえば、指示部232は、通信部210を通じて、会話用シーケンスのシーケンス番号を第1サーバ100に送信する。
【0071】
(学習部233)
学習部233は、チャットボットCBを通じて行われる対話におけるサービス利用者(たとえば、図1に示すサービス利用者U)の反応に基づく報酬を設定することにより、話に用いられる会話用シーケンスSQの選択を行う選択モデルの強化学習を行う。
【0072】
たとえば、学習部233は、少なくとも直前の会話用シーケンスSQによる対話においてサービス利用者の反応が好意的であったか否かに基づいて報酬を設定することにより、選択モデルの強化学習を行う。
【0073】
また、たとえば、学習部133は、直前の会話用シーケンスに対応付けられている所定のコンバージョンをサービス利用者から取得できたか否かに基づいて報酬を設定することにより、選択モデルの強化学習を行う。
【0074】
[4.実施形態に係る処理手順]
以下、実施形態に係る第2サーバ200が実行する情報処理の手順について説明する。図9に、実施形態に係る第2サーバ200が実行する処理手順の一例を示す。図9に示す処理手順は、第2サーバ200の制御部230により実行される。図9に示す処理手順は、第2サーバ200の稼働中、繰り返し実行される。
【0075】
図9に示すように、選択部231は、第1サーバ100から会話用シーケンスSQの問合せを取得する(ステップS101)。
【0076】
また、選択部231は、選択モデルを用いて、チャットボットCBとの対話を行うサービス利用者(たとえば、図1に示すサービス利用者)の状態に応じた会話用シーケンスを選択する(ステップS102)。
【0077】
また、指示部232は、選択部231により選択された会話用シーケンスを第1サーバ100に指示する(ステップS103)。
【0078】
また、学習部233は、会話用シーケンスによる対話におけるサービス利用者の反応に基づく報酬を設定して選択モデルの強化学習を実行して(ステップS104)、図9に示す処理手順を終了する。
【0079】
[5.変形例]
本願に係る情報処理装置、情報処理方法、及び情報処理プログラムは、上記実施形態以外にも種々の異なる形態にて実施されてよい。以下では、上記実施形態の変形例について説明する。
【0080】
(5-1.会話用シーケンスについて)
上記実施形態に係る会話用シーケンスは、探し物用シーケンスや、今日の気分用シーケンスや、キャンペーン用シーケンスなどのように所定のトピックごとに設定されてもよい。たとえば、探し物シーケンスであれば、「どんな本を探しているのかな?→ジャンルを選んでね→・・・」などの会話パーンなどが例示される。また、たとえば、今日の気分シーケンスであれば、「今日はどんな気分?→・・・」などの会話パターンが例示される。また、たとえば、キャンペーンシーケンスであれば、「今日はお得なキャンペーンをやっているよ→・・・」などの会話パターンが例示される。
【0081】
また、第1サーバ100は、所定の会話はN回(Nは、自然数)以上表示しないなどの制御を実行してもよい。
【0082】
(5-2.選択モデルの学習について)
上記実施形態において、第2サーバ200において実行される選択モデルの学習は、サービス利用者の属性ごとに実行されてもよい。すなわち、第2サーバ200は、属性が同一であるサービス利用者ごとに、各サービス利用者に共通の選択モデルを設け、強化学習を実行する。また、この場合、第2サーバ200は、所定のタイミングで、会話用シーケンスごとに各サービス利用者の反応(対話における回答の内容)を収集し、収集した反応に基づいて強化学習を実行してもよい。
【0083】
(5-3.チャットボットについて)
上記実施形態において、第1サーバ100は、チャットボットCBの対話画面において、チャットボットCBに対応する仮想的なキャラクター画像を表示させてもよい。このとき、第1サーバ100は、対話の相手であるサービス利用者の回答の内容に応じて、キャラクター画像の表情を変化させてもよい。また、第1サーバ100は、サービス利用者の属性などに応じて、キャラクター画像の容姿を変更してもよい。
【0084】
(6.効果)
実施形態に係る第2サーバ200は、オンラインサービスのサービス利用者との間でチャットボットを通じて行われる対話に関する処理を制御する情報処理装置であり、選択部231と、指示部232とを有する。選択部231は、対話において想定される一連の会話の内容を示す会話パターンが予め規定された複数の会話用シーケンスの中から、サービス利用者の状態に応じた会話用シーケンスを選択する。指示部232は、選択部231により選択された会話用シーケンスを、対話に関する処理を実行する第1サーバ100に指示する。
【0085】
このようなことから、実施形態に係る情報処理装置の一例である第2サーバ200は、オンラインサービスのサービス利用者からの効率的な情報収集を図ることができる。たとえば、実施形態に係る第2サーバ200は、予め規定される会話用シーケンス単位でサービス利用者との対話を実施することにより、対話におけるユーザエクスペリエンスの質を向上させる効果を期待できる。すなわち、実施形態に係る第2サーバ200は、チャットボットCBを通じて、サービス利用者Uとの間でより自然な会話を実現できる。この結果、チャットボットCBとの対話が継続される可能性を高めることができ、対話を通じてサービス利用者からの効率的な情報収集を図ることができる。
【0086】
また、第2サーバ200は、チャットボットを通じて行われる対話におけるサービス利用者の反応に基づく報酬を会話用シーケンスに対して設定することにより、対話に用いられる会話用シーケンスの選択を行う選択モデルの強化学習を会話用シーケンス単位で実行する学習部233をさらに有する。選択部231は、選択モデルを用いて、会話用シーケンスを選択する。
【0087】
また、選択部231は、選択モデルを用いて、サービス利用者に関する利用者情報と、直近の会話の内容を示す会話の履歴と、会話におけるサービス利用者の反応とに基づく会話用シーケンスを選択する。
【0088】
このため、第2サーバによれば、サービス利用者ごとに、サービス利用者の会話における反応に応じた自然な会話を演出できる。
【0089】
また、利用者情報は、サービス利用者の属性を示す属性情報、及びオンラインサービスのサービス利用履歴を含む。
【0090】
このため、第2サーバによれば、サービス利用者の属性やサービスの利用状況に合わせた自然な会話を演出できる。
【0091】
このように、第2サーバ200によれば、会話用シーケンス単位で選択モデルの強化学習を実行するので、会話用シーケンスによる対話において、強化学習が有する学習のランダム性に起因するユーザエクスペリエンスの質の低下を防止できる。さらに、第2サーバ200によれば、会話用シーケンスを用いて、会話用シーケンス単位で学習を行うことにより、チャットボットCBに強化学習を用いる通常の学習よりも学習量を抑えることができ、システムの効率化を図ることができる。
【0092】
また、学習部233は、少なくとも直前の会話用シーケンスによる対話においてサービス利用者の反応が好意的であったか否かに基づいて報酬を設定することにより、選択モデルの強化学習を行う。
【0093】
このため、第2サーバ200によれば、会話用シーケンスによる対話において、サービス利用者の反応が好意的となるように、選択モデルによる会話用シーケンスの選択を最適化できる。
【0094】
また、学習部233は、直前の会話用シーケンスに対応付けられている所定のコンバージョンをサービス利用者から取得できたか否かに基づいて報酬を設定することにより、選択モデルの強化学習を行う。
【0095】
このため、第2サーバ200によれば、会話用シーケンスによる対話を通じて、サービス利用者から望ましい結果が得られるように、選択モデルによる会話用シーケンスの選択を最適化できる。
【0096】
[7.ハードウェア構成]
また、上述してきた実施形態および各変形例に係る第2サーバ200は、たとえば、図10に示すような構成のコンピュータ1000によって実現される。図10は、実施形態及び各変形例に係る第2サーバ200の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【0097】
コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
【0098】
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラムなどに基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAMなど、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD、フラッシュメモリ等により実現される。
【0099】
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインターフェイスであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナなどといった各種の入力装置1020から情報を受信するためのインターフェイスであり、例えば、USBなどにより実現される。
【0100】
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)などの光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリなどから情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリなどの外付け記憶媒体であってもよい。
【0101】
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
【0102】
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
【0103】
たとえば、コンピュータ1000が実施形態に係る第2サーバ200として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラム(たとえば、情報処理プログラム)を実行することにより、制御部230と同様の機能を実現する。すなわち、演算装置1030は、一次記憶装置1040上にロードされたプログラム(例えば、情報処理プログラム)との協働により、実施形態に係る第2サーバ200による処理を実現する。
【0104】
[8.その他]
上記実施形態などにおいて説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
【0105】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。たとえば、第2サーバ200の制御部230が有する選択部231および指示部232は、機能的に統合されていてもよい。また、たとえば、情報処理システムSYSにおける第1サーバ100および第2サーバ200は、機能的および物理的に統合された単体の情報処理装置であってもよい。
【0106】
また、上述してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0107】
以上、本願の実施形態をいくつかの図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0108】
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、制御部は、制御手段や制御回路に読み替えることができる。
【符号の説明】
【0109】
N ネットワーク
SYS 情報処理システム
10 利用者端末
100 第1サーバ
200 第2サーバ
210 通信部
220 記憶部
221 会話用シーケンス記憶部
222 選択モデル記憶部
223 利用者情報記憶部
230 制御部
231 選択部
232 指示部
233 学習部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
【手続補正書】
【提出日】2024-04-30
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
オンラインサービスのサービス利用者との間でチャットボットを通じて行われる対話に関する処理を制御する情報処理装置であって、
前記対話において想定される一連の会話の内容を示す会話パターンが予め規定された複数の会話用シーケンスの中から、前記サービス利用者の状態に応じた前記会話用シーケンスを選択する選択部と、
前記選択部により選択された前記会話用シーケンスを、前記対話に関する処理を実行する外部装置に指示する指示部と
を有し、
前記選択部は、
前記外部装置から受信する最初の会話用シーケンスの問合せに応じて、前記複数の会話用シーケンスの中から、前記オンラインサービスに共通の最初の会話用シーケンス、前記オンラインサービスごとに予め規定される最初の会話用シーケンス、又は前記対話の相手となる前記サービス利用者の属性に対応する最初の会話用シーケンスを選択する
ことを特徴とする情報処理装置。
【請求項2】
前記チャットボットを通じて行われる対話における前記サービス利用者の反応に基づく報酬を前記会話用シーケンスに対して設定することにより、前記対話に用いられる前記会話用シーケンスの選択を行う選択モデルの強化学習を前記会話用シーケンス単位で実行する学習部
をさらに有し、
前記選択部は、
前記選択モデルを用いて、前記会話用シーケンスを選択する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記選択部は、
前記選択モデルを用いて、前記サービス利用者に関する利用者情報と、直近の会話の内容を示す会話の履歴と、前記会話における前記サービス利用者の反応とに基づく前記会話用シーケンスを選択する
ことを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記利用者情報は、
前記サービス利用者の属性を示す属性情報、及び前記オンラインサービスのサービス利用履歴を含む
ことを特徴とする請求項3に記載の情報処理装置。
【請求項5】
前記学習部は、
少なくとも直前の前記会話用シーケンスによる前記対話において前記サービス利用者の反応が好意的であったか否かに基づいて前記報酬を設定することにより、前記選択モデルの強化学習を行う
ことを特徴とする請求項2に記載の情報処理装置。
【請求項6】
前記学習部は、
直前の前記会話用シーケンスに対する報酬を設定する際、過去に行われた前記対話における前記サービス利用者の反応の変化に応じて前記報酬を設定する
ことを特徴とする請求項5に記載の情報処理装置。
【請求項7】
前記学習部は、
直前の前記会話用シーケンスに対応付けられている所定のコンバージョンを前記サービス利用者から取得できたか否かに基づいて前記報酬を設定することにより、前記選択モデルの強化学習を行う
ことを特徴とする請求項2に記載の情報処理装置。
【請求項8】
オンラインサービスのサービス利用者との間でチャットボットを通じて行われる対話に関する処理を制御する情報処理方法であって、
前記対話において想定される一連の会話の内容を示す会話パターンが予め規定された複数の会話用シーケンスの中から、前記サービス利用者の状態に応じた前記会話用シーケンスを選択する選択工程と、
前記選択工程により選択された前記会話用シーケンスを、前記対話に関する処理を実行する外部装置に指示する指示工程と
を含み、
前記選択工程は、
前記外部装置から受信する最初の会話用シーケンスの問合せに応じて、前記複数の会話用シーケンスの中から、前記オンラインサービスに共通の最初の会話用シーケンス、前記オンラインサービスごとに予め規定される最初の会話用シーケンス、又は前記対話の相手となる前記サービス利用者の属性に対応する最初の会話用シーケンスを選択する
ことを特徴とする情報処理方法。
【請求項9】
オンラインサービスのサービス利用者との間でチャットボットを通じて行われる対話に関する処理を制御するコンピュータに、
前記対話において想定される一連の会話の内容を示す会話パターンが予め規定された複数の会話用シーケンスの中から、前記サービス利用者の状態に応じた前記会話用シーケンスを選択する選択手順と、
前記選択手順により選択された前記会話用シーケンスを、前記対話に関する処理を実行する外部装置に指示する指示手順と
を実行させ
前記選択手順は、
前記外部装置から受信する最初の会話用シーケンスの問合せに応じて、前記複数の会話用シーケンスの中から、前記オンラインサービスに共通の最初の会話用シーケンス、前記オンラインサービスごとに予め規定される最初の会話用シーケンス、又は前記対話の相手となる前記サービス利用者の属性に対応する最初の会話用シーケンスを選択す
ことを特徴とする情報処理プログラム。