IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 楽天株式会社の特許一覧

<>
  • 特開-情報処理装置、方法及びプログラム 図1
  • 特開-情報処理装置、方法及びプログラム 図2
  • 特開-情報処理装置、方法及びプログラム 図3
  • 特開-情報処理装置、方法及びプログラム 図4
  • 特開-情報処理装置、方法及びプログラム 図5
  • 特開-情報処理装置、方法及びプログラム 図6
  • 特開-情報処理装置、方法及びプログラム 図7
  • 特開-情報処理装置、方法及びプログラム 図8
  • 特開-情報処理装置、方法及びプログラム 図9
  • 特開-情報処理装置、方法及びプログラム 図10
  • 特開-情報処理装置、方法及びプログラム 図11
  • 特開-情報処理装置、方法及びプログラム 図12
  • 特開-情報処理装置、方法及びプログラム 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024049610
(43)【公開日】2024-04-10
(54)【発明の名称】情報処理装置、方法及びプログラム
(51)【国際特許分類】
   G06Q 10/04 20230101AFI20240403BHJP
【FI】
G06Q10/04
【審査請求】有
【請求項の数】19
【出願形態】OL
(21)【出願番号】P 2022155940
(22)【出願日】2022-09-29
(71)【出願人】
【識別番号】399037405
【氏名又は名称】楽天グループ株式会社
(74)【代理人】
【識別番号】100145838
【弁理士】
【氏名又は名称】畑添 隆人
(74)【代理人】
【識別番号】100103137
【弁理士】
【氏名又は名称】稲葉 滋
(74)【代理人】
【識別番号】100216367
【弁理士】
【氏名又は名称】水谷 梨絵
(72)【発明者】
【氏名】劉 雲青
【テーマコード(参考)】
5L010
5L049
【Fターム(参考)】
5L010AA04
5L049AA04
(57)【要約】
【課題】単位時間に含まれる複数のタイムスロットの夫々について、他のタイムスロットを考慮しながら最適化されたスケジュールを作成することを課題とする。
【解決手段】オペレーションの対象とするユーザを決定するための情報処理装置に、単位時間に含まれる複数のタイムスロットのうち対象タイムスロットを決定する対象タイムスロット決定部21と、対象タイムスロットの先行タイムスロットにおいて条件を満たしたユーザが除かれた候補ユーザリストを取得する候補ユーザリスト取得部22と、候補ユーザリストに含まれる複数のユーザの夫々についてのユーザ識別子、ユーザ属性データ、アクション成果量及び対象タイムスロット識別子を入力することで、ユーザ毎の対象タイムスロットにおけるオペレーションスコアを出力するオペレーションスコア出力部23と、を備えた。
【選択図】図2


【特許請求の範囲】
【請求項1】
所定のアクションの実行をユーザに促すためのオペレーションの対象とするユーザを決定するための情報処理装置であって、
所定の単位時間に含まれる複数のタイムスロットのうち対象タイムスロットを決定する対象タイムスロット決定手段と、
前記単位時間に含まれる前記複数のタイムスロットのうち前記対象タイムスロットの先行タイムスロットにおいて所定の条件を満たしたユーザが除かれた候補ユーザリストを取得する候補ユーザリスト取得手段と、
前記候補ユーザリストに含まれる複数のユーザの夫々についてのユーザ識別子、ユーザ属性データ、ユーザが前記アクションを実行した場合のアクション成果量、及び前記対象タイムスロットの識別子を入力することで、前記候補ユーザリストに含まれるユーザ毎の該対象タイムスロットにおける前記オペレーションの効果を示すオペレーションスコアを出力するオペレーションスコア出力手段と、
を備える情報処理装置。
【請求項2】
前記タイムスロットにおいて前記オペレーションを受けたことで前記アクションを実行した前記ユーザに係る前記アクション成果量に基づいて、該タイムスロットにおける前記オペレーションの成果指標を算出する成果指標算出手段を更に備え、
前記オペレーションスコア出力手段は、前記対象タイムスロットにおける前記成果指標を前記対象タイムスロットに係る報酬として含む訓練データを用いて生成及び/又は更新された強化学習モデルを有する、
請求項1に記載の情報処理装置。
【請求項3】
前記オペレーションスコア出力手段は、前記単位時間に含まれる前記複数のタイムスロットのうち前記対象タイムスロット及び該対象タイムスロットの後続タイムスロットで得られた1又は複数の前記アクション成果指標の合計を前記対象タイムスロットに係る報酬として含む訓練データを用いて生成及び/又は更新された強化学習モデルを有する、
請求項2に記載の情報処理装置。
【請求項4】
前記オペレーションスコアに基づいて、前記候補ユーザリストに含まれるユーザから、前記対象タイムスロットについて定められた数を上限とするユーザを抽出し、抽出されたユーザを該対象タイムスロットにおける前記オペレーションの対象ユーザとして決定する、対象ユーザ決定手段を更に備える、
請求項1に記載の情報処理装置。
【請求項5】
前記オペレーションスコア出力手段は、前記対象タイムスロットにおける前記オペレーションの対象として決定された対象ユーザを前記対象タイムスロットに係る行動として含む訓練データを用いて生成及び/又は更新された強化学習モデルを有する、
請求項4に記載の情報処理装置。
【請求項6】
前記オペレーションスコア出力手段は、前記候補ユーザリストに含まれる複数のユーザの夫々についてのユーザ識別子、ユーザ属性データ、ユーザが前記アクションを実行した場合のアクション成果量、及び前記対象タイムスロットの識別子を前記対象タイムスロットに係る状態として含む訓練データを用いて生成及び/又は更新された強化学習モデルを有する、
請求項1に記載の情報処理装置。
【請求項7】
前記オペレーションスコア出力手段は、
ユーザが前記対象タイムスロットにおいて前記オペレーションを受けた場合に前記アクションを実行する可能性を示すユーザ毎のアクション実行可能性と、ユーザ毎のアクション成果量とに適用される重みを出力する第一のモデルと、
前記第一のモデルから出力された重み、前記ユーザ毎のアクション実行可能性、及びアクション成果量に基づいてユーザ毎の前記オペレーションスコアを算出する第二のモデルと、を有する、
請求項1に記載の情報処理装置。
【請求項8】
前記オペレーションを受けたユーザの前記アクション実行可能性を推定する実行可能性推定手段を更に備える、
請求項7に記載の情報処理装置。
【請求項9】
前記実行可能性推定手段は、前記ユーザに係る1又は複数の属性の入力に対して、該ユーザに対する前記アクション実行可能性を出力する実行可能性推定モデルを用いて、該ユーザの前記アクション実行可能性を推定する、
請求項8に記載の情報処理装置。
【請求項10】
前記実行可能性推定モデルは、所定の属性を有する複数のユーザのうち前記オペレーションを受けたユーザによる前記アクションの実行率に係る統計量に基づく指標を、前記属性を有するユーザの前記アクション実行可能性として定義した教師データに基づいて作成される、
請求項9に記載の情報処理装置。
【請求項11】
前記オペレーションスコア出力手段は、
前記対象タイムスロットにおけるユーザへの前記オペレーションが該ユーザの前記アクションの実行可能性に与えるユーザ毎の効果と、ユーザ毎のアクション成果量とに適用される重みを出力する第三のモデルと、
前記第三のモデルから出力された重み、前記ユーザ毎の効果、及びアクション成果量に基づいてユーザ毎の前記オペレーションスコアを算出する第四のモデルと、を有する、
請求項1に記載の情報処理装置。
【請求項12】
前記対象タイムスロットにおけるユーザへの前記オペレーションが、ユーザが前記アクションを実行するか否かに与える前記効果を推定する効果推定手段を更に備える、
請求項11に記載の情報処理装置。
【請求項13】
前記効果推定手段は、前記ユーザに係る1又は複数の属性の入力に対して、該ユーザに対する前記オペレーションの効果を示す因果スコアを出力する効果推定モデルを用いて、前記オペレーションの効果を推定する、
請求項12に記載の情報処理装置。
【請求項14】
前記効果推定モデルは、所定の属性を有する複数のユーザのうち前記オペレーションを受けたユーザによる前記アクションの実行率に係る統計量と、前記複数のユーザのうち前記オペレーションを受けなかったユーザによる前記アクションの実行率に係る統計量とに基づくスコアを、前記属性を有するユーザに対する前記オペレーションの効果を示すスコアとして定義した教師データに基づいて、作成される、
請求項13に記載の情報処理装置。
【請求項15】
前記オペレーションスコア出力手段は、前記先行タイムスロットにおける前記オペレーションの結果を更に入力することで、前記オペレーションスコアを出力する、
請求項1に記載の情報処理装置。
【請求項16】
前記候補ユーザリスト取得手段は、前記単位時間に含まれる前記複数のタイムスロットのうち前記対象タイムスロットの先行タイムスロットにおいて前記オペレーションを所定回数以上受けたユーザ、前記先行タイムスロットにおいて前記オペレーションを受けて前記アクションを実行済みのユーザ、及び前記先行タイムスロットにおける前記オペレーションの対象として決定されたユーザ、の少なくとも何れかが除かれた候補ユーザリストを取得する、
請求項1に記載の情報処理装置。
【請求項17】
前記オペレーションは、未払い額の支払いをユーザに促すための該ユーザへの連絡であり、
前記アクション成果量は、前記ユーザによって支払われるべき該ユーザの未払い額である、
請求項1に記載の情報処理装置。
【請求項18】
所定のアクションの実行をユーザに促すためのオペレーションの対象とするユーザを決定するためのコンピュータが、
所定の単位時間に含まれる複数のタイムスロットのうち対象タイムスロットを決定する対象タイムスロット決定ステップと、
前記単位時間に含まれる前記複数のタイムスロットのうち前記対象タイムスロットの先行タイムスロットにおいて所定の条件を満たしたユーザが除かれた候補ユーザリストを取得する候補ユーザリスト取得ステップと、
前記候補ユーザリストに含まれる複数のユーザの夫々についてのユーザ識別子、ユーザ属性データ、ユーザが前記アクションを実行した場合のアクション成果量、及び前記対象タイムスロットの識別子を入力することで、前記候補ユーザリストに含まれるユーザ毎の該対象タイムスロットにおける前記オペレーションの効果を示すオペレーションスコアを出力するオペレーションスコア出力ステップと、
を実行する方法。
【請求項19】
所定のアクションの実行をユーザに促すためのオペレーションの対象とするユーザを決定するためのコンピュータを、
所定の単位時間に含まれる複数のタイムスロットのうち対象タイムスロットを決定する対象タイムスロット決定手段と、
前記単位時間に含まれる前記複数のタイムスロットのうち前記対象タイムスロットの先行タイムスロットにおいて所定の条件を満たしたユーザが除かれた候補ユーザリストを取得する候補ユーザリスト取得手段と、
前記候補ユーザリストに含まれる複数のユーザの夫々についてのユーザ識別子、ユーザ属性データ、ユーザが前記アクションを実行した場合のアクション成果量、及び前記対象タイムスロットの識別子を入力することで、前記候補ユーザリストに含まれるユーザ毎の該対象タイムスロットにおける前記オペレーションの効果を示すオペレーションスコアを出力するオペレーションスコア出力手段と、
として機能させるプログラム。

【発明の詳細な説明】
【技術分野】
【0001】
本開示は、ユーザに対するオペレーションを支援するための技術に関する。
【背景技術】
【0002】
従来、過去の電話の応答状況を示す情報である対応情報に基づいて学習エンジンが学習した予測式と、対象者の属性情報に応じた計数とを用いて、対象者が電話に応答する確率であるスコアを算出する算出部と、算出部が算出したスコアを出力する出力部とを有する情報処理装置が提案されている(特許文献1を参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2020-021151号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来、ユーザに所定のアクション(例えば、未払い額の支払い等)を実行させることを目的として、当該所定のアクションの実行をユーザに促すためのオペレーション(例えば、顧客に対する架電等)が行われており、オペレーションのためのリソースを効率的に活用するために、機械学習を用いて所定の単位時間(例えば、1日)のためのオペレーションのスケジュールを決定すること等が提案されている。しかし、単に機械学習を用いてオペレーションのスケジュールを決定するのみでは、単位時間分のオペレーションのスケジュールをまとめて決定するような対応に終始してしまうおそれがあり、限られたリソースの中でオペレーションのスケジュールを最適化する点で改善の余地があった。
【0005】
本開示は、上記した問題に鑑み、単位時間に含まれる複数のタイムスロットの夫々について、他のタイムスロットを考慮しながら最適化されたスケジュールを作成することを課題とする。
【課題を解決するための手段】
【0006】
本開示の一例は、所定のアクションの実行をユーザに促すためのオペレーションの対象とするユーザを決定するための情報処理装置であって、所定の単位時間に含まれる複数のタイムスロットのうち対象タイムスロットを決定する対象タイムスロット決定手段と、前記単位時間に含まれる前記複数のタイムスロットのうち前記対象タイムスロットの先行タイムスロットにおいて所定の条件を満たしたユーザが除かれた候補ユーザリストを取得する候補ユーザリスト取得手段と、前記候補ユーザリストに含まれる複数のユーザの夫々についてのユーザ識別子、ユーザ属性データ、ユーザが前記アクションを実行した場合のアクション成果量、及び前記対象タイムスロットの識別子を入力することで、前記候補ユーザリストに含まれるユーザ毎の該対象タイムスロットにおける前記オペレーションの効果を示すオペレーションスコアを出力するオペレーションスコア出力手段と、を備える情報処理装置である。
【0007】
本開示は、情報処理装置、システム、コンピュータによって実行される方法又はコンピュータに実行させるプログラムとして把握することが可能である。また、本開示は、そのようなプログラムをコンピュータその他の装置、機械等が読み取り可能な記録媒体に記録したものとしても把握できる。ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的又は化学的作用によって蓄積し、コンピュータ等から読み取ることができる記録媒体をいう。
【発明の効果】
【0008】
本開示によれば、単位時間に含まれる複数のタイムスロットの夫々について、他のタイムスロットを考慮しながら最適化されたスケジュールを作成することが可能となる。
【図面の簡単な説明】
【0009】
図1】実施形態に係る情報処理システムの構成を示す概略図である。
図2】実施形態に係る情報処理装置の機能構成の概略を示す図である。
図3】実施形態において、ある1日の複数のタイムスロットのための架電リストを作成する処理の流れを示す概念図である。
図4】実施形態に係る架電リスト作成処理の流れを示す模式図である。
図5】実施形態に係る架電リスト作成処理の流れを示すフローチャートである。
図6】実施形態における架電リスト作成処理の流れを、具体的な例を挙げて説明する図である。
図7】実施形態に係る強化学習処理の流れを示すフローチャートである。
図8】実施形態に係る強化学習処理に用いられるログの収集処理の例を示す図である。
図9】実施形態に係る強化学習処理に用いられる訓練データの作成処理の概要を示す図である。
図10】実施形態に係る強化学習処理の概要を示す図である。
図11】実施形態に係る実行可能性推定モデルのための機械学習処理の流れを示すフローチャートである。
図12】バリエーションに係る情報処理装置の機能構成の概略を示す図である。
図13】バリエーションに係る因果スコア推定モデルのための機械学習処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0010】
以下、本開示に係る情報処理装置、方法及びプログラムの実施の形態を、図面に基づいて説明する。但し、以下に説明する実施の形態は、実施形態を例示するものであって、本開示に係る情報処理装置、方法及びプログラムを以下に説明する具体的構成に限定するものではない。実施にあたっては、実施の態様に応じた具体的構成が適宜採用され、また、種々の改良や変形が行われてよい。
【0011】
本実施形態では、本開示に係る技術を、支払いが遅延しているクレジットカード利用額の支払いを督促して債権を回収するためのオペレーションセンター管理システムのために実施した場合の実施の形態について説明する。但し、本開示に係る技術を適用可能なシステムは、クレジットカード利用額の支払督促のためのオペレーションセンター管理システムに限定されない。本開示に係る技術は、ユーザに対する様々なオペレーションを支援するための技術について広く用いることが可能であり、本開示の適用対象は、実施形態において示した例に限定されない。
【0012】
通常、クレジットカード利用額の支払いは、毎月の引き落とし日にユーザの口座から引き落とされる、又は指定日までにユーザから入金される、等の方法で行われるが、ユーザの口座の残高が不足していたり、ユーザが指定日までの入金を行わなかったり等の理由でクレジットカード利用額の支払いが規定日までに完了しない場合がある。このため、従来、クレジットカード利用額の支払いをユーザに督促して債権を回収するために、オペレーションセンター(コールセンター)からのユーザ(顧客)に対する架電やメッセージ送信等のオペレーションが行われている。
【0013】
一般的には、デフォルト(債務不履行)を回避するために、ユーザに対するオペレーションは有効であり、オペレーションの量を増やすほど債権の回収量は上がる。しかし一方で、オペレーションの量を増やすほど、オペレーションのための人件費やシステム利用料、システム維持費用等のコストが増大する。そこで、本開示に係るシステムでは、上記した問題に鑑み、オペレーションに係るコストを抑制しつつ、債権の回収量を上げるための技術、換言すれば、限られたリソースを用いた債権回収の効果を可能な限り向上させる(好ましくは最大化する)ための技術を採用している。なお、本実施形態では、主として所定のオペレーションがユーザへの架電である例について説明するが、所定のオペレーションの内容は限定されず、ユーザに所定のアクションを促すための種々のオペレーションであってよい。例えば、ユーザに対するオペレーションの種類として、メッセージ送信が採用されてもよい。ここでメッセージ送信のための手段は限定されず、電子メールシステム、ショートメッセージサービス(SMS)、又はソーシャルネットワーキングサービス(SNS)のメッセージ送受信サービス等が利用されてよい。
【0014】
ここで、オペレーションのためのリソース(例えば、コールセンターのオペレーションコスト)を効率的に活用するために、機械学習を用いて所定の単位時間(例えば、1日。)のためのオペレーションのスケジュールを決定し、オペレーションの対象とするユーザを選定することが考えられる。なお、本実施形態では単位時間が1日である場合について説明するが、単位時間は本実施形態における例示に限定されず、例えば1週間や1月等の他の時間であってよい。
【0015】
しかし、単に機械学習を用いてオペレーションのスケジュールを決定するのみでは、単位時間分のオペレーションのスケジュールをまとめて決定するような対応に終始してしまうおそれがある。このため、本実施形態では、単位時間のためのオペレーションのスケジュールをまとめて決定するのではなく、単位時間に含まれる複数のタイムスロットの夫々について、他のタイムスロットを考慮しながら最適化されたスケジュールを作成することとしている。
【0016】
<システムの構成>
図1は、本実施形態に係る情報処理システムの構成を示す概略図である。本実施形態に係るシステムでは、情報処理装置1と、オペレーションセンター管理システム3と、クレジットカード管理システム5と、が互いに通信可能に接続されている。オペレーションセンターには、オペレーションセンター管理システム3による指示に従ってオペレーションを行うためのオペレーション端末(図示は省略する)が設置され、オペレータは、オペレーション端末を操作して、ユーザに対するオペレーションを行う。ユーザは、クレジットカードの利用者であり、金融機関等を介してクレジットカード利用額の支払いを行い、クレジットカード利用額の支払履歴データは、クレジットカード管理システム5を介してオペレーションセンター管理システム3に通知される。
【0017】
情報処理装置1は、オペレーションセンター管理システム3によるオペレーションを制御するためのデータを出力するための情報処理装置である。情報処理装置1は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、EEPROM(Electrically Erasable and Programmable Read Only Memory)やHDD(Hard Disk Drive)等の記憶装置14、NIC(Network Interface Card)等の通信ユニット15、等を備えるコンピュータである。但し、情報処理装置1の具体的なハードウェア構成に関しては、実施の態様に応じて適宜省略や置換、追加が可能である。また、情報処理装置1は、単一の筐体からなる装置に限定されない。情報処理装置1は、所謂クラウドや分散コンピューティングの技術等を用いた、複数の装置によって実現されてよい。
【0018】
オペレーションセンター管理システム3、クレジットカード管理システム5及びオペレーション端末は、いずれも、CPU、ROM、RAM、記憶装置、通信ユニット、入力装置、出力装置等(図示は省略する)を備えるコンピュータである。また、これらのシステム及び端末は、いずれも、単一の筐体からなる装置に限定されない。これらのシステム及び端末は、所謂クラウドや分散コンピューティングの技術等を用いた、複数の装置によって実現されてよい。
【0019】
図2は、本実施形態に係る情報処理装置1の機能構成の概略を示す図である。情報処理装置1は、記憶装置14に記録されているプログラムが、RAM13に読み出され、CPU11によって実行されて、情報処理装置1に備えられた各ハードウェアが制御されることで、対象タイムスロット決定部21、候補ユーザリスト取得部22、オペレーションスコア出力部23、強化学習部24、対象ユーザ決定部25、成果指標算出部26、実行可能性推定部27及び機械学習部28を備える情報処理装置として機能する。なお、本実施形態及び後述する他の実施形態では、情報処理装置1の備える各機能は、汎用プロセッサであるCPU11によって実行されるが、これらの機能の一部又は全部は、1又は複数の専用プロセッサによって実行されてもよい。
【0020】
情報処理装置1は、所定のアクションの実行をユーザに促すためのオペレーションの対象とするユーザを決定し、決定されたユーザを含む架電リストを、オペレーションセンター管理システム3に対して出力する。本実施形態において、オペレーションは、支払いが遅延している未払い額の支払いをユーザに促すための当該ユーザへの連絡(例えば、架電)である。なお、ユーザに対する架電は、録音又は機械音声を用いた自動架電であってもよいし、オペレータ(人間)がユーザと会話する架電であってもよい。また、所定のアクションは、支払いが遅延しているクレジットカード利用額の支払いである。なお、具体的な支払手段は限定されず、指定口座への振込や指定窓口での支払等であってよい。情報処理装置1は、クレジットカードの未払いユーザへ督促の架電を行うにあたって、強化学習アルゴリズムを用いてタイムスロット(時間帯)毎の架電先ユーザを決定し最適化する。
【0021】
対象タイムスロット決定部21は、単位時間(例えば、或る1日、週、月等)に含まれる複数のタイムスロットのうち対象タイムスロットを決定し、対象タイムスロットの識別子(タイムスロットID。例えば、タイムスロット1、タイムスロット2等)を取得する。
【0022】
候補ユーザリスト取得部22は、未払いユーザのリストから、
(1)単位時間に含まれる複数のタイムスロットのうち対象タイムスロットに先行する先行タイムスロットにおいてオペレーションを所定回数(例えば、3回。但し、当該所定回数は1回と設定されてもよい。)以上受けたユーザ、
(2)先行タイムスロットにおいてオペレーションを受けてアクション(本実施形態では、支払い)を実行済みのユーザ、及び
(3)先行タイムスロットにおけるオペレーションの対象として決定されたユーザ(換言すれば、先行タイムスロットの架電リストに掲載されたユーザ)、
の少なくとも何れかが除かれた候補ユーザのリスト(以下、「候補ユーザリスト」)を取得する。この際、上記のいずれの条件に基づいて候補ユーザリストからユーザを除くかは、実施の形態に応じて適宜決定されてよい。また、候補ユーザリストからは、予め、電話連絡等のオペレーションでの返済の可能性が低いユーザが除かれていてもよい。
【0023】
オペレーションスコア出力部23は、候補ユーザ、対象タイムスロット及び先行タイムスロットに係るデータを強化学習モデルに入力することで、候補ユーザ毎の、当該対象タイムスロットにおけるオペレーションの効果を示すオペレーションスコアを出力する。具体的には、オペレーションスコア出力部23は、候補ユーザ、対象タイムスロット及び先行タイムスロットに係るデータとして、以下のデータを入力する。
(i) 候補ユーザリストに含まれる複数のユーザの夫々についてのユーザ識別子(ユーザID)、
(ii) ユーザ属性データ(例えば、年齢、性別、職業等。ユーザ属性として用いられるデータの詳細については、後述する。)、
(iii) オペレーションを受けたユーザがアクションを実行する確率(アクション実行可能性)
(iv) ユーザがアクションを実行した場合のアクション成果量(本実施形態では、当該ユーザによって支払われるべき未払い額。)、
(v) 先行タイムスロットにおけるオペレーション結果(オペレーションに対するユーザの応答結果であり、オペレーションによるユーザのアクション実行/非実行(回収成否)を示すフラグ及び成果量(回収額)を示すデータを含む。)、及び
(vi) 対象タイムスロットの識別子(タイムスロットID)。
【0024】
本実施形態において、オペレーションスコア出力部23によって用いられる強化学習モデルは、重み生成用モデル231(第一のモデル)と、スコア算出用モデル232(第二のモデル)とを有し、これらのモデルを連携させることで、オペレーションスコアを出力する。重み生成用モデル231は、ユーザ毎のアクション実行可能性とユーザ毎のアクション成果量(未払い額)とを含むユーザデータに適用される重みθを出力するニューラルネットワークである。ここで、ユーザ毎のアクション実行可能性は、対象ユーザが対象タイムスロットにおいてオペレーションを受けた場合にアクションを実行する可能性(ユーザ単位の債権回収可能性)を示す。また、スコア算出用モデル232は、重み生成用モデル231から出力された重みθ、ユーザ毎のアクション実行可能性、及びアクション成果量に基づいてユーザ毎のオペレーションスコアを算出する線形モデルである。
【0025】
強化学習部24は、複数のタイムスロットの夫々について作成された訓練データを用いて、オペレーションスコア出力部23によって用いられる強化学習モデルを生成及び/又は更新する。ここで、訓練データには、対象タイムスロットに係る状態(state)、行動(action)及び報酬(reward)が含まれる。対象タイムスロットに係る状態には、候補ユーザリストに含まれる複数のユーザの夫々についてのユーザID、ユーザ属性データ、ユーザがアクションを実行した場合のアクション成果量、先行タイムスロットにおけるオペレーション結果、及び対象タイムスロットのタイムスロットIDが含まれる。対象タイムスロットに係る行動には、対象タイムスロットのために決定された対象ユーザのユーザID(架電リスト)が含まれる。
【0026】
また、対象タイムスロットに係る報酬には、対象タイムスロットにおける成果指標が含まれる。なお、対象タイムスロットに係る報酬は、対象タイムスロットにおけるオペレーション結果のみに基づく成果指標であってもよいが、本実施形態において、対象タイムスロットに係る報酬には、単位時間に含まれる複数のタイムスロットのうち対象タイムスロット及び当該対象タイムスロットの後続タイムスロットで得られた1又は複数のアクション成果指標の合計が含まれる。
【0027】
ここで、訓練データは、実運用で収集されたログデータに基づいて作成されてよいが、シミュレーションで生成されたデータに基づいて作成されてもよい。具体的には、実運用のシミュレートによって各タイムスロットでオペレーションを受けた各ユーザがアクションを実行する確率(アクション実行可能性)を事前計算し、アクション実行可能性が閾値を超える場合に当該ユーザがアクションを実行した(「アクション実行」)ものとし、閾値以下である場合に当該ユーザがアクションを実行しなかった(「アクション非実行」)ものとすることで、擬似的なオペレーション結果を生成し、このオペレーション結果とアクション成果量(未払い額)とに基づく期待値を算出し、訓練データ中の報酬(報酬の具体的な算出方法については後述する。)とすることができる。このようなシミュレーションを採用することで、運用実績がない場合には、シミュレーションで作成された訓練データを用いて最初のモデルを学習させ、運用開始後に実運用で収集されたログデータに基づいて作成された訓練データを用いてモデルを更新することも可能である。当該シミュレーションには、後述する実行可能性推定モデルが用いられてよい。
【0028】
対象ユーザ決定部25は、オペレーションスコアに基づいて、候補ユーザリストに含まれるユーザから、対象タイムスロットについて定められた数を上限とするユーザを抽出し、抽出されたユーザを当該対象タイムスロットにおけるオペレーションの対象ユーザとして決定し、決定された対象ユーザが掲載された架電リストを出力する。この際、上限は、対象タイムスロットにおいてオペレーションのために確保可能なリソースに基づいて決定される。本実施形態では、上限は、対象タイムスロットにおいて架電可能な回数に基づいて決定される。
【0029】
成果指標算出部26は、タイムスロットにおいてオペレーションを受けたことでアクションを実行したユーザに係るアクション成果量に基づいて、当該タイムスロットにおけるオペレーションの成果指標(タイムスロット回収率)を算出する。成果指標の具体的な算出方法については後述する。
【0030】
実行可能性推定部27は、ユーザに係る1又は複数のユーザ属性データの入力に対して当該ユーザに対するアクション実行可能性を出力する機械学習モデル(以下、「実行可能性推定モデル」と称する)を用いて、オペレーションを受けたユーザの前記アクション実行可能性を推定する。
【0031】
機械学習部28は、実行可能性推定部27によって用いられる実行可能性推定モデルを生成及び/又は更新する。実行可能性推定モデルは、対象ユーザに係る1又は複数のユーザ属性データが入力された場合に、当該ユーザが対象タイムスロットにおいてオペレーションを受けた場合にアクションを実行する可能性を示すアクション実行可能性を出力する機械学習モデルである。機械学習モデルに入力されるユーザ属性には、例えば、デモグラフィック属性、ビヘイビオラル属性、又はサイコグラフィック属性が含まれてよい。ここで、デモグラフィック属性は、例えば、ユーザの性別(ジェンダー)、家族構成、年齢等であり、ビヘイビオラル属性は、例えば、キャッシング利用有無、リボ払い利用有無、所定の口座に係る入出金履歴、賭博又はくじを含む何らかの商品に係る商取引履歴(オンラインマーケットプレイス等におけるオンライン取引履歴を含んでよい)等であり、サイコグラフィック属性は、例えば、賭博又はくじに係る趣向等である。但し、利用可能なユーザの属性は、本実施形態における例示に限定されない。例えば、「オペレーション(架電等)に要する時間」、「クレジットカード利用額」も、属性として用いられてよい。
【0032】
実行可能性推定モデルの生成及び/又は更新にあたって、機械学習部28は、所定の属性を有する複数のユーザのうちオペレーションを受けたユーザによるアクションの実行率に係る統計量に基づく指標を、当該属性を有するユーザのアクション実行可能性として定義した教師データ(機械学習用データ)に基づいて、実行可能性推定モデルを作成する。本実施形態では、例として、オペレーションの内容がユーザへの架電であった場合、「ユーザが架電された場合における債権の回収可能性」が統計量に基づくアクション実行可能性として算出され、算出されたアクション実行可能性が対応するユーザの属性データと組み合わせられて、教師データとして機械学習部28に入力される。例えば、架電された共通の属性を有するユーザ群からの債権の回収可能性の平均値が80%である場合、当該ユーザ群のアクション実行可能性は、「0.8」である。なお、本実施形態では、統計量として平均値を用いる例を説明する。但し、統計量としては例えば最頻値や中央値等の統計的指標が用いられてもよい。ここで、アクション実行可能性に係る統計量は、各ユーザの所定期間(例えば、所定の月)内の過去の債権回収可能性に基づいてよい。
【0033】
本開示に係る技術を実装するにあたり採用可能な機械学習モデル生成のフレームワークは、例として、アンサンブル学習アルゴリズムに基づく。当該フレームワークには、例えば、勾配ブースティング決定木(Gradient Boosting Decision Tree:GBDT)に基づく機械学習フレームワーク(例えば、LightGBM)が採用されてよい。換言すると、当該フレームワークは、前後の弱学習器(弱分類器)間で正解と予測値との誤差を引き継がせるような決定木モデルに基づく機械学習フレームワークが採用されてよい。ここでの予測値とは、例として、アクション実行可能性の予測値を指す。なお、当該フレームワークは、LightGBMの他、XGBoostやCatBoost等のブースティング手法を採用してよい。決定木を用いるフレームワークによれば、ニューラルネットワークを用いるフレームワークと比較して少ないパラメータ調整の手間で、比較的高い性能を有する機械学習モデルを生成することが出来る。但し、本開示に係る技術を実装するにあたり採用可能な機械学習モデル生成のフレームワークは、本実施形態における例示に限定されない。例えば、学習器として勾配ブースティング決定木に代えてランダムフォレスト等の他の学習器が採用されてよいし、ニューラルネットワーク等の所謂弱学習器とは称されない学習器が採用されてもよい。また、特にニューラルネットワーク等の所謂弱学習器とは称されない学習器が採用される場合には、アンサンブル学習が採用されなくてもよい。
【0034】
決定木アルゴリズムに基づいた勾配ブースティングの機械学習フレームワークを採用する場合、決定木の各ノードの分岐条件の最適化が行われる。具体的には、決定木アルゴリズムに基づいた勾配ブースティングの機械学習フレームワークでは、一つの親のノードから分岐した二つの子のノードの夫々が示す属性を有するユーザ群について、アクション実行可能性を夫々算出し、このアクション実行可能性の差分が大きくなるように(例えば、差分が最大になるように、又は所定の閾値以上になるように)、即ち、二つの子のノードがきれいに分岐するように、親のノードの分岐条件が最適化される。例えば、ノードの分岐条件として示される属性が年齢である場合、分岐の閾値に設定される年齢を変更したり、分岐条件を年齢以外の属性に変更したりしてもよい。このようにして、決定木の全ノードの分岐条件を再帰的に最適化することで、アクション実行可能性の推定精度を向上させることができる。
【0035】
<処理の流れ>
次に、本実施形態に係る情報処理システムによって実行される処理の流れを説明する。なお、以下に説明する処理の具体的な内容及び処理順序は、本開示を実施するための一例である。具体的な処理内容及び処理順序は、本開示の実施の形態に応じて適宜選択されてよい。
【0036】
図3は、本実施形態において、ある1日の複数のタイムスロットのための架電リストを作成する処理の流れを示す概念図である(但し、図中にはタイムスロット2までの処理を示し、タイムスロット3以降の処理は図示を省略している)。本図に示された処理は、毎月の予め設定されたタイミングで実行される。より具体的には、処理の実行タイミングには、クレジットカード利用額の支払い規定日より後で、且つ未払いユーザへのオペレーション実行予定日より前のタイミングが設定される。なお、ここでは各強化学習モデル及び機械学習モデルが既に学習済であることとする。
【0037】
本実施形態では、タイムスロット毎に、当該タイムスロットにおける架電対象の候補ユーザのリストである候補ユーザリスト、当該候補ユーザリスト中のユーザの属性データ、架電リスト作成対象のタイムスロットのタイムスロットID、及び先行する(例えば、1つ前の)タイムスロットにおけるオペレーション結果、を強化学習モデルに入力することで対象タイムスロットのための架電リストを生成する。ここで、「候補ユーザ」とは、当該タイムスロットの前に架電済又は所定のリアクションが得られているユーザ等が除かれた、当該タイムスロットで架電の対象としてよいユーザであり、換言すれば「残りユーザ」である。なお、本実施形態では、候補ユーザリスト中の各ユーザに係るアクション成果量(各ユーザの未払い額)を強化学習モデルにさらに入力することで架電リストを生成してよい。
【0038】
本実施形態では、強化学習モデルへの入力として先行タイムスロットにおけるオペレーション結果を採用することで、先行タイムスロットにおけるオペレーション結果が反映された架電リストを作成し、リアルタイムな架電先ユーザの最適化を可能としている。なお、本実施形態では、先行タイムスロットにおける実際のオペレーション結果を強化学習モデルに入力する例について説明するが、強化学習モデルに入力される先行タイムスロットにおけるオペレーション結果はシミュレーションによって得られたもので代用されてもよい。また、先行タイムスロットにおけるオペレーション結果を用いない強化学習モデルが採用されてもよい。シミュレーションによって得られたオペレーション結果を採用する場合や、先行タイムスロットにおけるオペレーション結果を用いない場合には、1単位時間(本実施形態では、1日)分の架電リストをまとめて作成することとしてもよい。
【0039】
図4は、本実施形態に係る架電リスト作成処理の流れを示す模式図である。本図に示された処理は、図3に示された複数のタイムスロットのための架電リストを作成する処理の流れのうち、強化学習モデルによる処理をより詳細に示したものであり、直前のタイムスロットにおける実際のオペレーション結果を入力として用いる場合には直前のタイムスロットの終了後且つ対象タイムスロットの前のタイミングで、直前のタイムスロットにおける実際のオペレーション結果を入力として用いない場合には対象タイムスロットの前の任意のタイミングで、実行される。
【0040】
上述の通り、本実施形態において、強化学習モデルによる処理は重み生成用モデル231(第一のモデル)及びスコア算出用モデル232(第二のモデル)の2つのモデルを含む。重み生成用モデル231は、候補ユーザリスト、ユーザ属性データ、タイムスロットID、及び前のタイムスロットからのオペレーション結果が入力され、スコア算出用モデル232で用いられる重みθが出力されるニューラルネットワークである。スコア算出用モデル232は、ユーザ毎のユーザデータ(アクション実行可能性、アクション成果量(未払い額)等)及び重み生成用モデル231によって設定された重みθが入力され、各ユーザの架電優先度スコアが出力される線形モデルである。なお、ここで用いられるユーザデータは、ユーザ属性データの一部として取得されてよい。
【0041】
図5は、本実施形態に係る架電リスト作成処理の流れを示すフローチャートである。本フローチャートに示された処理は、図3に示されたある1日の複数のタイムスロットのための架電リストを作成する処理において、オペレーションの対象となる対象タイムスロット毎に実行される。
【0042】
ステップS101からステップS103では、強化学習モデルに入力するためのデータが取得される。対象タイムスロット決定部21は、架電リスト作成の対象となるタイムスロットのタイムスロットIDを取得する(ステップS101)。本実施形態において、タイムスロットは8:00-10:00,10:00-12:00,12:00-14:00,14:00-16:00及び16:00-18:00の5つであり、それぞれのタイムスロットにはタイムスロットID(タイムスロット1からタイムスロット5)が付されている。
【0043】
また、情報処理装置1は、先行タイムスロットにおける架電の結果を示すオペレーション結果データを取得する(ステップS102)。オペレーション結果データには、少なくとも架電の結果架電対象のユーザから得られたリアクションの有無が含まれており、更に、リアクションの内容(例えば、架電への応答、支払いの約束、又は支払いの実行等)が含まれてもよい。なお、本実施形態では、あるタイムスロットと次のタイムスロットとの間のタイミングで次のタイムスロット用の架電リストを作成する実施形態について説明し、先行したタイムスロットのオペレーション結果が反映された架電リストを作成するためにオペレーション結果データを取得する態様について説明するが、オペレーション結果データの取得及び強化学習モデルへの入力は省略されてもよい。このようにすることで、複数のタイムスロットのための架電リストをまとめて作成することも可能である。
【0044】
また、候補ユーザリスト取得部22は、今回の架電リスト作成処理の対象とする候補ユーザリストを取得する(ステップS103)。ここで取得される候補ユーザリストは今回の架電リストに含めてよいユーザが含まれ、今回の架電リストに含めるべきでないユーザが除かれたものであり、少なくとも、先行タイムスロットにおいて所定のリアクション(例えば、架電への応答、支払いの約束、又は支払いの実行等)が得られたユーザは当該候補ユーザリストから除かれる。また、候補ユーザリストからは、更に、先行タイムスロットにおいて所定回数以上(例えば、3回以上)架電されたユーザ、及び先行タイムスロットのための架電リストに掲載されたユーザの少なくとも何れかを除くこととしてもよい。なお、本実施形態では、先行タイムスロットのための架電リストに掲載されたユーザを候補ユーザリストから除く処理を採用する態様を例に挙げて説明する。強化学習モデルに入力するためのデータが取得されると、処理はステップS104へ進む。
【0045】
ステップS104及びステップS105では、取得されたデータに基づいて、候補ユーザリスト中の各ユーザについてのオペレーションスコアが取得される。オペレーションスコア出力部23は、ステップS101からステップS103で取得されたデータを重み生成用モデル231に入力し、出力として、対象の候補ユーザリストに適したオペレーションスコアを算出するための重みθを得る(ステップS104)。本実施形態において、重みθは、線形モデルによる考慮の対象となるユーザデータに含まれる各パラメータ(本実施形態では、アクション実行可能性、未払い額、他)に対応する行列の形式で出力される。また、本実施形態において、重み生成用モデル231は強化学習によって生成及び更新されたモデルであるが、重み生成のために用いられるモデルの種類は本実施形態における例示に限定されない。
【0046】
重みθが得られると、オペレーションスコア出力部23は、ステップS103で得られた候補ユーザリストに含まれるユーザの夫々について、ユーザデータに含まれる各パラメータ(アクション実行可能性、未払い額、他)、及びステップS104で得られた重みθに基づいて、当該ユーザのオペレーションスコアを算出する(ステップS105)。その後、処理はステップS106へ進む。
【0047】
図6は、本実施形態における架電リスト作成処理の流れを、具体的な例を挙げて説明する図である。本図に示された例によれば、スコア算出用モデル232は、ユーザのデータに含まれるパラメータ(ここでは、アクション実行可能性及び未払い額)の夫々に、これらのパラメータのために算出された重み付けを行い、重み付け後のパラメータを合計することで、ユーザ毎のオペレーションスコアを算出する。即ち、本実施形態におけるスコア算出用モデル232は、以下の数式で表すことができる。
オペレーションスコア=(パラメータ1のための重み*パラメータ1)+(パラメータ2のための重み*パラメータ2)+・・・(パラメータnのための重み*パラメータn)
【0048】
但し、重み付けの具体的な手法は、本開示における例に限定されない。例えば、本実施形態では、スコア算出用モデル232として線形モデルが用いられる例を説明したが、オペレーションスコア算出のために用いられるモデルは本実施形態における例示に限定されない。また、図6に示されたパラメータや重みθの例は、本実施形態に係る処理の流れを説明するために簡易化されたものであり、用いられるパラメータの種類や数は適宜変更可能であり、またパラメータの種類や数に応じて重み行列のサイズは変動し得る。本開示に係る技術を実施する際には、より大きな重み行列及びより多くの種類のパラメータが用いられてよい。
【0049】
ステップS106では、架電リストが作成される。対象ユーザ決定部25は、ステップS105で取得されたユーザ毎のオペレーションスコアに従って、ステップS103で得られた候補ユーザリストに含まれるユーザを、対象のタイムスロットにおいて架電可能なユーザ数の上限n人まで架電の効果が高い順に抽出し、抽出されたユーザを架電リストに追加することで架電リストを生成する。そして、対象ユーザ決定部25は、生成された架電リストを対象のタイムスロットにおいて架電すべき対象のリストとして出力する。図6に示された例によれば、算出されたオペレーションスコアの高い順に上位4人が抽出され、抽出されたユーザF、G、H及びAを含む架電リストが生成されることがわかる。ここで、架電リストに含めることが可能なユーザの数nは、オペレーションセンターの処理能力によって設定されてよい。なお、本実施形態では、重み生成用モデル231とスコア算出用モデル232との組み合わせによってユーザ毎のオペレーションスコアを算出し、ユーザのランキングを行う例を説明しているが、ユーザのランキングを行う具体的な手法は、本実施形態における例示に限定されない。その後、本フローチャートに示された処理は終了する。
【0050】
架電リストが出力されると、オペレーションセンター管理システム3は、架電リストに従って対象ユーザへのオペレーションを管理し、オペレーション端末は、オペレーションセンター管理システム3によって出力された指示に従ってオペレーションを実行する。オペレーションの実行結果は、情報処理装置1によってオペレーション結果として取得される。
【0051】
図7は、本実施形態に係る強化学習処理の流れを示すフローチャートである。本フローチャートに示された処理は、情報処理装置1の管理者によって指定されたタイミングで実行される。なお、本実施形態では、同日に属するタイムスロットの間のタイミングでは強化学習モデルの更新は行われないが、タイムスロット間で強化学習モデルの更新を行うこととしてもよい。
【0052】
本フローチャートに示された処理が実行される前に、必要なログは収集され、ログデータベースに蓄積されているものとする。情報処理装置1は、予め、各タイムスロットについて、架電対象の候補となるユーザのリスト(候補ユーザリスト)、ユーザ属性データ、各ユーザの未払い額、タイムスロットID、対象タイムスロットのために作成された架電リスト、架電リストに含まれるユーザ毎の架電による回収成否及び回収額(オペレーション結果)を含むログを取得する(図3を参照)。取得されたログは、強化学習用の訓練データに含まれる状態S、行動A及び報酬Rを作成するために用いられる。なお、上述の通り、訓練データを作成するためのオペレーション結果は、実際の運用において得られたログデータに代えて、シミュレーションによって作成されてもよい。
【0053】
ステップS201及びステップS202では、対象タイムスロットが決定され、ログが取得される。強化学習部24は、今回の強化学習処理において対象とするタイムスロットを、自動的に、又は管理者の指定等に基づいて決定し(ステップS201)、対象となるタイムスロットに係るログをログデータベースから取得する(ステップS202)。以下、対象タイムスロットtに対応する訓練データT、状態S、行動A及び報酬Rを、訓練データT、状態S、行動A及び報酬Rとする。ログが取得されると、処理はステップS203へ進む。
【0054】
ステップS203では、状態S、行動A及び報酬Rが作成される。強化学習部24は、ステップS201で取得されたログを用いて、対象となるタイムスロットtのための状態S、行動A及び報酬Rを作成する。ステップS201で取得されたログのうち、候補ユーザリスト、ユーザ属性データ、各ユーザの未払い額及びタイムスロットIDを含むデータは、状態Sを作成するためのログであり、強化学習部24は、対象タイムスロットtのタイムスロットID及び当該タイムスロットtに対応する候補ユーザテーブルを、状態Sとして作成する。ここで、候補ユーザテーブルは、候補ユーザ毎に、当該候補ユーザのユーザID、当該候補ユーザの属性データ及び当該候補ユーザの未払い額が対応づけられたテーブルである。
【0055】
また、強化学習部24は、ステップS201で取得されたログのうち、対象タイムスロットtのために作成された架電リストを、行動Aとする。また、ステップS201で取得されたログのうち、架電リストに含まれるユーザ毎の架電による回収成否及び回収額は、報酬Rを作成するためのログであり、成果指標算出部26は、対象タイムスロットtの候補ユーザリストに含まれるユーザの未払い額の総額に対する、当該タイムスロットにおける架電によって回収された額の割合(以下、「タイムスロット回収率」と称する)を算出し、これを報酬Rとする。
【0056】
図8は、本実施形態に係る強化学習処理に用いられるログの収集処理の例を示す図である。本図に示された例によれば、タイムスロット2のための状態Sが、タイムスロットID:2及びタイムスロット2に対応する候補ユーザテーブル(候補ユーザの属性データ及び当該候補ユーザの未払い額が対応づけられたテーブル)であり、行動Aがタイムスロット2のために生成された架電リストであり、報酬Rがタイムスロット2における架電の結果得られたタイムスロット回収率であることが分かる。ここでは、タイムスロット2の候補ユーザリストに含まれるユーザの未払い額の総額(図8に示された例では、ユーザAからGの未払い額の合計2260)に対する、タイムスロット2における架電によって回収された額(図8に示された例では、回収に成功したユーザD、A及びCに係る回収額の合計650)の割合(図8に示された例では、0.288)が、タイムスロット回収率(成果指標)として算出される。但し、成果指標の具体的な算出方法は、本実施形態における例示に限定されない。状態S、行動A及び報酬Rが作成されると、処理はステップS204へ進む。
【0057】
ステップS204では、報酬Gが算出される。強化学習部24は、1日におけるタイムスロットがタイムスロット1からnのnスロットある場合、タイムスロットtの報酬Gとして、タイムスロットtからnの報酬RからRの合計を算出する。そして、算出された報酬Gが、本実施形態に係る強化学習処理のための訓練データTの報酬として用いられる。即ち、本実施形態では、あるタイムスロットtに係る訓練データの報酬として、当該タイムスロットtにおける架電による回収割合である報酬Rのみではなく、同日のタイムスロット1からnのうち当該タイムスロットt以降のタイムスロットtからnの報酬の合計である報酬Gを用いる。
【0058】
図9は、本実施形態に係る強化学習処理に用いられる訓練データの作成処理の概要を示す図である。本図に示された例によれば、1日のタイムスロットが早い時間から順にタイムスロット1から5の5つである場合、タイムスロット1のための報酬Gは報酬RからRの合計であり、タイムスロット2のための報酬Gは報酬RからRの合計であり、タイムスロット5のための報酬Gは報酬Rと同じである。このような報酬Gを用いることで、単に対象のタイムスロットにおける架電の効果を最大化させるのではなく、1日全体における架電の効果を最大化するように各タイムスロットにユーザが振り分けられた架電リストを作成可能な強化学習モデルを得ることが可能となる。報酬Gが算出されると、処理はステップS205へ進む。
【0059】
ステップS205では、強化学習モデルが生成又は更新される。強化学習部24は、ステップS203で得られた状態S及び行動Aと、ステップS204で得られた報酬Gとを含む訓練データTに基づいて算出された勾配(gradient)に従って、強化学習モデル(ニューラルネットワーク)のパラメータを更新することで、強化学習モデルを生成又は更新する。
【0060】
図10は、本実施形態に係る強化学習処理の概要を示す図である。本実施形態において、強化学習にはθをパラメータとする方策関数πθに対して報酬を最大化する方策勾配法(policy gradient)を用いる例を挙げる。但し、強化学習の具体的な手法は、本実施形態における例示に限定されない。その後、本フローチャートに示された処理は終了する。
【0061】
図11は、本実施形態に係る実行可能性推定モデルのための機械学習処理の流れを示すフローチャートである。本フローチャートに示された処理は、オペレーションセンター管理システム3の管理者によって指定されたタイミングで実行される。
【0062】
機械学習部28は、オペレーションセンター管理システム3又はクレジットカード管理システム5において過去に蓄積された、ユーザの属性データ、オペレーション履歴データ、及びクレジットカード利用額の支払履歴データに基づいて、複数のユーザ属性の夫々についてアクション実行可能性を算出し、ユーザ属性とアクション実行可能性との組み合わせを含む教師データを作成する(ステップS301)。ここで、オペレーション履歴データは、ユーザ毎に、当該ユーザに対してオペレーションが行われたか否かを把握することが可能なデータを含み、支払履歴データは、ユーザ毎に、当該ユーザのクレジットカード利用額の支払有無(デフォルトの有無)を把握することが可能なデータを含む。そして、機械学習部28は、作成された教師データを機械学習モデルに入力し、実行可能性推定部27による実行可能性推定に用いられる機械学習モデル(実行可能性推定モデル)を生成又は更新する(ステップS302)。その後、本フローチャートに示された処理は終了する。
【0063】
<効果>
本実施形態によれば、単に単位時間(本実施形態では、1日)分のオペレーションのスケジュールをまとめて決定するのではなく、ユーザ毎に何れのタイムスロットに架電すると効果が高いか、及びどの程度の額の支払いが必要か、の2つの要素が考慮された重みを算出し、これらの重みに基づいて算出されたオペレーションスコアを用いて架電対象のユーザを抽出することで、他のタイムスロットを考慮しながら単位時間全体での成果を向上させ且つリソースの分配が最適化するようなスケジュールを作成することが可能となる。
【0064】
また、本実施形態によれば、先行するタイムスロットのオペレーション結果を考慮することで、動的な架電リストを生成することが可能となる。更に、本実施形態によれば、システム運用中には実際のオペレーション結果を用いて強化学習モデルが更新され、またユーザの属性データに応じてパラメータが調整されるため、ユーザの行動変化に容易に対応可能となる(但し、期待値以上の結果が得られている場合には、運用中のモデルを固定することとしてもよい。)。加えて、本実施形態によれば、方策勾配法を導入しタイムスロット毎の架電リストを作成するため、より少ない計算リソース(計算時間又はメモリ使用量)で、単位時間分のオペレーションのスケジュールを作成することが可能となる。
【0065】
<バリエーション>
上記説明した実施形態では、ユーザ毎のアクション実行可能性に基づいてオペレーションスコアを算出し、架電リストを作成する例を説明したが、ユーザ毎のアクション実行可能性に代えて、ユーザへのオペレーションが当該ユーザのアクション実行可能性に与えるユーザ毎の効果を示す因果スコア(causality score)に基づいてオペレーションスコアを算出し、架電リストを作成することとしてもよい。以下、バリエーションに係る情報処理装置1bについて、上記説明した実施形態と共通する部分については説明を省略し、上記説明した実施形態との差異について説明する。
【0066】
図12は、本バリエーションに係る情報処理装置1bの機能構成の概略を示す図である。情報処理装置1bのハードウェア構成については、図1を参照して説明した情報処理装置1と同様であるため、説明を省略する。情報処理装置1bは、記憶装置14に記録されているプログラムが、RAM13に読み出され、CPU11によって実行されて、情報処理装置1に備えられた各ハードウェアが制御されることで、対象タイムスロット決定部21、候補ユーザリスト取得部22、オペレーションスコア出力部23b、強化学習部24b、対象ユーザ決定部25、成果指標算出部26、実行可能性推定部27、機械学習部28b及び効果推定部29を備える情報処理装置として機能する。なお、本実施形態及び後述する他の実施形態では、情報処理装置1の備える各機能は、汎用プロセッサであるCPU11によって実行されるが、これらの機能の一部又は全部は、1又は複数の専用プロセッサによって実行されてもよい。
【0067】
即ち、本バリエーションに係る情報処理装置1bは、効果推定部29を更に備える。また、オペレーションスコア出力部23b及び機械学習部28bは、上記実施形態に係るオペレーションスコア出力部23及び機械学習部28と処理の内容が一部異なる。
【0068】
オペレーションスコア出力部23bは、上記実施形態に係るオペレーションスコア出力部23と同様、候補ユーザ、対象タイムスロット及び先行タイムスロットに係るデータを強化学習モデルに入力することで、候補ユーザ毎の、当該対象タイムスロットにおけるオペレーションの効果を示すオペレーションスコアを出力する。しかし、オペレーションスコア出力部23bは、重み生成用モデル231(第一のモデル)及びスコア算出用モデル232(第二のモデル)を有するオペレーションスコア出力部23の強化学習モデルに代えて、重み生成用モデル233(第三のモデル)及びスコア算出用モデル234(第四のモデル)とを有する強化学習モデルを用いる。
【0069】
重み生成用モデル233は、ユーザ毎の因果スコアとユーザ毎のアクション成果量(未払い額)とを含むユーザデータに適用される重みθを出力するニューラルネットワークである。また、スコア算出用モデル234は、重み生成用モデル231から出力された重みθ、ユーザ毎の因果スコア、及びアクション成果量に基づいてユーザ毎のオペレーションスコアを算出する線形モデルである。ここで、因果スコアは、対象タイムスロットtにおけるユーザへのオペレーションが当該ユーザのアクション実行可能性に与えるユーザ毎の効果を示すスコアである。
【0070】
効果推定部29は、所定のアクションの実行をユーザに促すための対象タイムスロットtにおける当該ユーザに対する所定のオペレーションが、当該ユーザがアクションを実行するか否かに与える効果を推定する。そして、本実施形態において、効果推定部29は、対象ユーザに係る1又は複数のユーザ属性の入力に対して、当該ユーザに対するオペレーションの効果を示す因果スコア(causality score)を出力する機械学習モデル(以下、「効果推定モデル」と称する)を用いて、オペレーションの効果を推定する。
【0071】
機械学習部28bは、効果推定部29による効果推定に用いられる効果推定モデルを生成及び/又は更新する。効果推定モデルは、対象ユーザに係る1又は複数のユーザ属性データが入力された場合に、当該ユーザに対するオペレーションの効果の多寡を示す因果スコアを出力する機械学習モデルである。機械学習モデルに入力されるユーザ属性については、上記実施形態と概略同様であるため、説明を省略する。また、実装するにあたり採用可能な機械学習モデル生成のフレームワークについても、上記実施形態と概略同様であるため、説明を省略する。
【0072】
効果推定モデルの生成及び/又は更新にあたって、機械学習部28bは、ユーザの属性毎に、所定の属性を有する複数のユーザのうちオペレーションを受けたユーザによるアクション実行可能性(債権の回収可能性)に係る統計量と、複数のユーザのうちオペレーションを受けなかったユーザによるアクション実行可能性に係る統計量とに基づくスコアを、当該属性を有するユーザに対するオペレーションの効果を示す因果スコアとして定義した教師データ(機械学習用データ)に基づいて、効果推定モデルを作成する。本実施形態では、例として、オペレーションの内容がユーザへの架電であった場合、「(ユーザが架電された場合における債権の回収可能性)-(ユーザが架電されなかった場合における債権の回収可能性)」の式により各統計量の差分に基づく因果スコアが算出され、算出された因果スコアが対応するユーザの属性データと組み合わせられて、教師データとして機械学習部28bに入力される。なお、本実施形態では、統計量として平均値を用いる例を説明する。但し、統計量としては例えば最頻値や中央値等の統計的指標が用いられてもよい。ここで、アクション実行可能性に係る統計量は、各ユーザの所定期間(例えば、所定の月)内の過去の債権回収可能性に基づいてよい。また、本実施形態では、各統計量の差分に基づく因果スコアを算出することとしているが、当該差分に統計的な有意差が認められない場合には、因果スコアをゼロ又は略ゼロとしてよい。ここで、当該有意差の存否の判定には既存の統計的手法が採用されてよい。例えば、各月のユーザの平均回収可能性等の集合について標準誤差や信頼区間を考慮し、架電の有無による回収可能性の変化について統計的有意性を考慮することが出来る。このようにすることで、同一グループ内のユーザによる平均回収可能性のばらつきを考慮して因果スコアを算出することが可能となる。
【0073】
教師データの作成にあたって、一度架電されたユーザは、以後架電されなかったユーザにはなり得ないため、1のユーザについては、当該ユーザが架電された場合の回収可能性と架電されなかった場合の回収可能性とのいずれか一方のみを取得可能である。このため、架電の効果の教師データは、共通の属性を有するユーザ群毎に作成される。即ち、ある共通の属性を有するユーザからなるユーザ群に対する架電の効果を示す因果スコアは、例えば、当該共通の属性を有する複数のユーザを架電される第1サブユーザ群と架電されない第2サブユーザ群とに分け、架電された第1サブユーザ群からの債権の回収可能性の平均値と架電されなかった第2サブユーザ群からの債権の回収可能性の平均値とを夫々算出し、これらの回収可能性の平均値の差分を上述した式に基づいて算出することによって取得される。例えば、架電された第1サブユーザ群からの債権の回収可能性の平均値が80%であり、架電されなかった第2サブユーザ群からの債権の回収可能性の平均値が70%である場合、当該ユーザ群に対する架電の効果を示す因果スコアは、「10」である。
【0074】
図13は、本バリエーションに係る因果スコア推定モデルのための機械学習処理の流れを示すフローチャートである。本フローチャートに示された処理は、オペレーションセンター管理システム3の管理者によって指定されたタイミングで実行される。
【0075】
機械学習部28bは、オペレーションセンター管理システム3又はクレジットカード管理システム5において過去に蓄積された、ユーザの属性データ、オペレーション履歴データ、及びクレジットカード利用額の支払履歴データに基づいて、複数のユーザ属性の夫々について因果スコアを算出し、ユーザ属性と因果スコアとの組み合わせを含む教師データを作成する(ステップS401)。ここで、オペレーション履歴データは、ユーザ毎に、当該ユーザに対してオペレーションが行われたか否かを把握することが可能なデータを含み、支払履歴データは、ユーザ毎に、当該ユーザのクレジットカード利用額の支払有無(デフォルトの有無)を把握することが可能なデータを含む。そして、機械学習部28bは、作成された教師データを機械学習モデルに入力し、効果推定部29による効果推定に用いられる機械学習モデル(因果スコア推定モデル)を生成又は更新する(ステップS402)。その後、本フローチャートに示された処理は終了する。
【0076】
本バリエーションにおけるその他の処理のフローチャートについては、上述の通り一部の処理においてアクション実行可能性に代えて因果スコアを用いることを除けば概略同様であるため、説明を省略する。
【0077】
1 情報処理装置

図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13