(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-10-30
(45)【発行日】2024-11-08
(54)【発明の名称】分析システム、分析方法及びプログラム
(51)【国際特許分類】
G06Q 30/0204 20230101AFI20241031BHJP
G06Q 30/0203 20230101ALI20241031BHJP
【FI】
G06Q30/0204
G06Q30/0203
(21)【出願番号】P 2024035814
(22)【出願日】2024-03-08
【審査請求日】2024-03-08
【早期審査対象出願】
(73)【特許権者】
【識別番号】399037405
【氏名又は名称】楽天グループ株式会社
(74)【代理人】
【識別番号】100207837
【氏名又は名称】小松原 寿美
(72)【発明者】
【氏名】アーシャーサンティス スクマーン
(72)【発明者】
【氏名】リュウ ラン
(72)【発明者】
【氏名】チラパト スデブ
(72)【発明者】
【氏名】オレヤナ ルイス
(72)【発明者】
【氏名】森下 民平
【審査官】毛利 太郎
(56)【参考文献】
【文献】特開2016-184329(JP,A)
【文献】特開2006-072607(JP,A)
【文献】特開2016-167172(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00 - 99/00
(57)【特許請求の範囲】
【請求項1】
プログラムを格納するように構成された少なくとも1つのメモリと、
前記プログラムの内容に基づいて1以上の処理を実行するように構成された少なくとも1つのプロセッサと、を備える分析システムであって、
前記1以上の処理が、
第1グループと第2グループとの対比データを取得する処理であって、
前記第1グループ及び前記第2グループは、ユーザの指示に基づいて顧客データに含まれる複数の顧客の中からそれぞれ抽出され、
前記顧客データは、前記各顧客が有する複数の属性に係る属性データを含み、
前記対比データが、前記第1グループの前記第2グループとの対比に有効な複数の重要属性と、前記各重要属性の前記対比における寄与度とを含
み、
前記対比データは、1以上の学習モデルの計算結果を含み、
前記各学習モデルは、前記複数の顧客の各々が前記第1グループと前記第2グループのどちらに属するかを予測する分類器であり、
前記計算結果は、前記複数の顧客の各々が前記第1グループと前記第2グループとのどちらに属するかの予測の結果と、当該予測における前記属性毎の寄与度と、を含み、
前記寄与度は、前記予測において変数として使用される各属性の予測結果に対する影響度合いを定量的に表したものであり、
前記複数の重要属性は、前記複数の属性のうち、前記寄与度が大きい上位N個(Nは2以上の自然数)の属性である、処理と、
前記第1グループと前記第2グループとを対比するための1以上の指示文を前記対比データと共に大規模言語モデルに入力する処理と、
前記大規模言語モデルの出力に基づいて前記第1グループの前記第2グループとの対比結果を記述した説明文を出力する処理と、
を含む、分析システム。
【請求項2】
前記1以上の処理が、前記対比データに基づいて生成された1以上のグラフを、前記説明文とともに出力する処理を含む、
請求項1に記載の分析システム。
【請求項3】
前記1以上の処理が、
前記ユーザにより入力された、前記第1グループの前記第2グループとの対比に係る質問を取得する処理と、
前記複数の属性の中から前記質問に関連する1以上の関連属性を選択する処理と、
前記1以上の関連属性の中から前記寄与度が高い規定数の関連属性を選択する処理と、
を含み、
前記対比データを取得する処理において、前記規定数の関連属性が前記複数の重要属性であり、
前記大規模言語モデルに入力する処理において、前記1以上の指示文が前記質問に回答させるための指示文を含み、
前記説明文を出力する処理において、前記説明文が前記質問に対する回答を含む、
請求項1に記載の分析システム。
【請求項4】
前記1以上の処理が、前記対比データに基づいて生成された1以上のグラフを、前記説明文とともに出力する処理を含む、
請求項3に記載の分析システム。
【請求項5】
プログラムを格納するように構成された少なくとも1つのメモリと、
前記プログラムの内容に基づいて1以上の処理を実行するように構成された少なくとも1つのプロセッサと、を備える分析システムであって、
前記1以上の処理が、
ユーザの指示に基づいて顧客データに含まれる複数の顧客の中から第1グループと第2グループとをそれぞれ抽出する処理であって、前記顧客データが、前記各顧客が有する複数の属性に係る属性データを含む、処理と、
前記第1グループと前記第2グループとの対比データを生成する処理であって、
前記対比データが、前記第1グループの前記第2グループとの対比に有効な複数の重要属性と、前記各重要属性の前記対比における寄与度とを含
み、
前記対比データは、1以上の学習モデルの計算結果を含み、
前記各学習モデルは、前記複数の顧客の各々が前記第1グループと前記第2グループのどちらに属するかを予測する分類器であり、
前記計算結果は、前記複数の顧客の各々が前記第1グループと前記第2グループとのどちらに属するかの予測の結果と、当該予測における前記属性毎の寄与度と、を含み、
前記寄与度は、前記予測において変数として使用される各属性の予測結果に対する影響度合いを定量的に表したものであり、
前記複数の重要属性は、前記複数の属性のうち、前記寄与度が大きい上位N個(Nは2以上の自然数)の属性である、処理と、
前記対比データについての1以上のグラフを生成する処理と、
前記1以上のグラフについての説明文を生成する処理と、
前記1以上のグラフと共に前記説明文を出力する処理と、
を含む、分析システム。
【請求項6】
前記1以上のグラフは、前記複数の重要属性と、前記複数の重要属性の各々の前記寄与度とを示すグラフを含む、
請求項2,4,5のうち何れか一項に記載の分析システム。
【請求項7】
前記複数の重要属性は前記寄与度が大きい順に並んでいる、
請求項6に記載の分析システム。
【請求項8】
前記複数の顧客は、複数のジャンルに亘る商品又はサービスのうち少なくとも1つの取引履歴を有し、
前記ユーザの指示は、前記複数のジャンルのうち1の指定ジャンルの商品又はサービスの取引履歴を有する複数の顧客の中から、前記第1グループ及び前記第2グループのうち少なくとも一方を抽出することを含む、
請求項1~5のうち何れか一項に記載の分析システム。
【請求項9】
前記複数の顧客の少なくとも一部は、複数のジャンルに亘る商品又はサービスを提供する、複数のブランドの取引履歴を有し、
前記ユーザの指示は、複数のブランドのうち1のブランドが提供する、1の指定ジャンルの商品又はサービスの取引履歴を有する複数の顧客の中から、前記第1グループ及び前記第2グループのうち少なくとも一方を抽出することを含む、
請求項8に記載の分析システム。
【請求項10】
前記属性データは、前記各顧客の商品又はサービスの取引金額を含み、
前記1以上のグラフは、前記第1グループと前記第2グループの各々を構成する顧客の前記取引金額に係るデータを対比して表示するグラフを含む、
請求項2,4,5のうち何れか一項に記載の分析システム。
【請求項11】
前記各学習モデルは、
前記第1グループと前記第2グループの各々の顧客データを学習データとして訓練された、ランダムフォレストによる分類器であ
る、
請求項1~5のうち何れか一項に記載の分析システム。
【請求項12】
前記1以上の学習モデルは複数の学習モデルを含み、
前記複数の学習モデルを生成するために使用される学習データは、互いに異なる属性の組み合わせに係る属性データを含む、
請求項
1~5のうち何れか一項に記載の分析システム。
【請求項13】
前記予測における前記属性毎の寄与度は、SHAP(SHapley Additive exPlanations)値として算出される、
請求項11に記載の分析システム。
【請求項14】
1以上のコンピュータ
が、
第1グループと第2グループとの対比データを取得する処理であって、
前記第1グループ及び前記第2グループは、ユーザの指示に基づいて顧客データに含まれる複数の顧客の中からそれぞれ抽出され、
前記顧客データは、前記各顧客が有する複数の属性に係る属性データを含み、
前記対比データが、前記第1グループの前記第2グループとの対比に有効な複数の重要属性と、前記各重要属性の前記対比における寄与度とを含
み、
前記対比データは、1以上の学習モデルの計算結果を含み、
前記各学習モデルは、前記複数の顧客の各々が前記第1グループと前記第2グループのどちらに属するかを予測する分類器であり、
前記計算結果は、前記複数の顧客の各々が前記第1グループと前記第2グループとのどちらに属するかの予測の結果と、当該予測における前記属性毎の寄与度と、を含み、
前記寄与度は、前記予測において変数として使用される各属性の予測結果に対する影響度合いを定量的に表したものであり、
前記複数の重要属性は、前記複数の属性のうち、前記寄与度が大きい上位N個(Nは2以上の自然数)の属性である、処理と、
前記第1グループと前記第2グループとを対比するための1以上の指示文を前記対比データと共に大規模言語モデルに入力する処理と、
前記大規模言語モデルの出力に基づいて前記第1グループの前記第2グループとの対比結果を記述した説明文を出力する処理と、
を実行
することを含む、分析方法。
【請求項15】
1以上のコンピュータ
が、
ユーザの指示に基づいて顧客データに含まれる複数の顧客の中から第1グループと第2グループとをそれぞれ抽出する処理であって、前記顧客データが、前記各顧客が有する複数の属性に係る属性データを含む、処理と、
前記第1グループと前記第2グループとの対比データを生成する処理であって、
前記対比データが、前記第1グループの前記第2グループとの対比に有効な複数の重要属性と、前記各重要属性の前記対比における寄与度とを含
み、
前記対比データは、1以上の学習モデルの計算結果を含み、
前記各学習モデルは、前記複数の顧客の各々が前記第1グループと前記第2グループのどちらに属するかを予測する分類器であり、
前記計算結果は、前記複数の顧客の各々が前記第1グループと前記第2グループとのどちらに属するかの予測の結果と、当該予測における前記属性毎の寄与度と、を含み、
前記寄与度は、前記予測において変数として使用される各属性の予測結果に対する影響度合いを定量的に表したものであり、
前記複数の重要属性は、前記複数の属性のうち、前記寄与度が大きい上位N個(Nは2以上の自然数)の属性である、処理と、
前記対比データについての1以上のグラフを生成する処理と、
前記1以上のグラフについての説明文を生成する処理と、
前記1以上のグラフと共に前記説明文を出力する処理と、
を実行
することを含む、分析方法。
【請求項16】
1以上のコンピュータに、
第1グループと第2グループとの対比データを取得する処理であって、
前記第1グループ及び前記第2グループは、ユーザの指示に基づいて顧客データに含まれる複数の顧客の中からそれぞれ抽出され、
前記顧客データは、前記各顧客が有する複数の属性に係る属性データを含み、
前記対比データが、前記第1グループの前記第2グループとの対比に有効な複数の重要属性と、前記各重要属性の前記対比における寄与度とを含
み、
前記対比データは、1以上の学習モデルの計算結果を含み、
前記各学習モデルは、前記複数の顧客の各々が前記第1グループと前記第2グループのどちらに属するかを予測する分類器であり、
前記計算結果は、前記複数の顧客の各々が前記第1グループと前記第2グループとのどちらに属するかの予測の結果と、当該予測における前記属性毎の寄与度と、を含み、
前記寄与度は、前記予測において変数として使用される各属性の予測結果に対する影響度合いを定量的に表したものであり、
前記複数の重要属性は、前記複数の属性のうち、前記寄与度が大きい上位N個(Nは2以上の自然数)の属性である、処理と、
前記第1グループと前記第2グループとを対比するための1以上の指示文を前記対比データと共に大規模言語モデルに入力する処理と、
前記大規模言語モデルの出力に基づいて前記第1グループの前記第2グループとの対比結果を記述した説明文を出力する処理と、
を実行させる、プログラム。
【請求項17】
1以上のコンピュータに、
ユーザの指示に基づいて顧客データに含まれる複数の顧客の中から第1グループと第2グループとをそれぞれ抽出する処理であって、前記顧客データが、前記各顧客が有する複数の属性に係る属性データを含む、処理と、
前記第1グループと前記第2グループとの対比データを生成する処理であって、
前記対比データが、前記第1グループの前記第2グループとの対比に有効な複数の重要属性と、前記各重要属性の前記対比における寄与度とを含
み、
前記対比データは、1以上の学習モデルの計算結果を含み、
前記各学習モデルは、前記複数の顧客の各々が前記第1グループと前記第2グループのどちらに属するかを予測する分類器であり、
前記計算結果は、前記複数の顧客の各々が前記第1グループと前記第2グループとのどちらに属するかの予測の結果と、当該予測における前記属性毎の寄与度と、を含み、
前記寄与度は、前記予測において変数として使用される各属性の予測結果に対する影響度合いを定量的に表したものであり、
前記複数の重要属性は、前記複数の属性のうち、前記寄与度が大きい上位N個(Nは2以上の自然数)の属性である、処理と、
前記対比データについての1以上のグラフを生成する処理と、
前記1以上のグラフについての説明文を生成する処理と、
前記1以上のグラフと共に前記説明文を出力する処理と、
を実行させる、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、分析システム、分析方法及びプログラムに関する。
【背景技術】
【0002】
マーケティングのために消費者の購買行動を分析する際に、購買履歴を含む情報に基づいて消費者のクラスタリングを行うことがある。例えば、特許文献1は、複数の消費者を、購買行動の変化が似ている複数の購買グループにグループ分けすることができるクラスタリング装置を開示している。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
マーケティングの担当者は、複数の購買グループの各々について、購買行動についての分析を行う。こうした分析には知識及び経験が必要である。そのため、特に経験の浅い担当者が適切な分析を行うのは難しいことがある。
【0005】
本開示は、顧客グループの分析を助けることができる分析システム、分析方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本開示の一態様に係る分析システムは、プログラムを格納するように構成された少なくとも1つのメモリと、前記プログラムの内容に基づいて1以上の処理を実行するように構成された少なくとも1つのプロセッサと、を備え、前記1以上の処理が、第1グループと第2グループとの対比データを取得する処理であって、前記第1グループ及び前記第2グループは、ユーザの指示に基づいて顧客データに含まれる複数の顧客の中からそれぞれ抽出され、前記顧客データは、前記各顧客が有する複数の属性に係る属性データを含み、前記対比データが、前記第1グループの前記第2グループとの対比に有効な複数の重要属性と、前記各重要属性の前記対比における寄与度とを含む、処理と、前記第1グループと前記第2グループとを対比するための1以上の指示文を前記対比データと共に大規模言語モデルに入力する処理と、前記大規模言語モデルの出力に基づいて前記第1グループの前記第2グループとの対比結果を記述した説明文を出力する処理と、を含む。
【0007】
本開示の別の態様に係る分析システムは、プログラムを格納するように構成された少なくとも1つのメモリと、前記プログラムの内容に基づいて1以上の処理を実行するように構成された少なくとも1つのプロセッサと、を備え、前記1以上の処理が、ユーザの指示に基づいて顧客データに含まれる複数の顧客の中から第1グループと第2グループとをそれぞれ抽出する処理であって、前記顧客データが、前記各顧客が有する複数の属性に係る属性データを含む、処理と、前記第1グループと前記第2グループとの対比データを生成する処理であって、前記対比データが、前記第1グループの前記第2グループとの対比に有効な複数の重要属性と、前記各重要属性の前記対比における寄与度とを含む、処理と、前記対比データについての1以上のグラフを生成する処理と、前記1以上のグラフについての説明文を生成する処理と、前記1以上のグラフと共に前記説明文を出力する処理と、を含む。
【0008】
本開示の一態様に係る分析方法は、第1グループと第2グループとの対比データを取得する処理であって、前記第1グループ及び前記第2グループは、ユーザの指示に基づいて顧客データに含まれる複数の顧客の中からそれぞれ抽出され、前記顧客データは、前記各顧客が有する複数の属性に係る属性データを含み、前記対比データが、前記第1グループの前記第2グループとの対比に有効な複数の重要属性と、前記各重要属性の前記対比における寄与度とを含む、処理と、前記第1グループと前記第2グループとを対比するための1以上の指示文を前記対比データと共に大規模言語モデルに入力する処理と、前記大規模言語モデルの出力に基づいて前記第1グループの前記第2グループとの対比結果を記述した説明文を出力する処理と、を実行させることを含む。
【0009】
本開示の別の態様に係る分析方法は、1以上のコンピュータに、ユーザの指示に基づいて顧客データに含まれる複数の顧客の中から第1グループと第2グループとをそれぞれ抽出する処理であって、前記顧客データが、前記各顧客が有する複数の属性に係る属性データを含む、処理と、前記第1グループと前記第2グループとの対比データを生成する処理であって、前記対比データが、前記第1グループの前記第2グループとの対比に有効な複数の重要属性と、前記各重要属性の前記対比における寄与度とを含む、処理と、前記対比データについての1以上のグラフを生成する処理と、前記1以上のグラフについての説明文を生成する処理と、前記1以上のグラフと共に前記説明文を出力する処理と、を実行させることを含む。
【0010】
本開示の一態様に係るプログラムは、1以上のコンピュータに、第1グループと第2グループとの対比データを取得する処理であって、前記第1グループ及び前記第2グループは、ユーザの指示に基づいて顧客データに含まれる複数の顧客の中からそれぞれ抽出され、前記顧客データは、前記各顧客が有する複数の属性に係る属性データを含み、前記対比データが、前記第1グループの前記第2グループとの対比に有効な複数の重要属性と、前記各重要属性の前記対比における寄与度とを含む、処理と、前記第1グループと前記第2グループとを対比するための1以上の指示文を前記対比データと共に大規模言語モデルに入力する処理と、前記大規模言語モデルの出力に基づいて前記第1グループの前記第2グループとの対比結果を記述した説明文を出力する処理と、を実行させる。
【0011】
本開示の別の態様に係るプログラムは、1以上のコンピュータに、ユーザの指示に基づいて顧客データに含まれる複数の顧客の中から第1グループと第2グループとをそれぞれ抽出する処理であって、前記顧客データが、前記各顧客が有する複数の属性に係る属性データを含む、処理と、前記第1グループと前記第2グループとの対比データを生成する処理であって、前記対比データが、前記第1グループの前記第2グループとの対比に有効な複数の重要属性と、前記各重要属性の前記対比における寄与度とを含む、処理と、前記対比データについての1以上のグラフを生成する処理と、前記1以上のグラフについての説明文を生成する処理と、前記1以上のグラフと共に前記説明文を出力する処理と、を実行させる。
【図面の簡単な説明】
【0012】
【
図1】
図1は、実施形態に係る分析システムの模式図である。
【
図2】
図2は、属性の重要度をSHAP値として出力したグラフである。
【
図3】
図3は、複数の属性の累積構成比率を示すグラフである。
【
図4】
図4は、1つの属性のSHAP値を示すグラフである。
【
図5】
図5は、データ生成アプリケーションの入力画面を例示する図である。
【
図6】
図6は、
図5の入力画面の「ブランド&ジャンル」の選択欄を例示する図である。
【
図7】
図7は、
図5の入力画面の「ジャンル」の選選択欄を例示する図である。
【
図8】
図8は、データ生成アプリケーションによるデータ生成方法を示すフローチャートである。
【
図9】
図9は、データ生成アプリケーションの「一般統計」に係る結果画面を例示する図である。
【
図10】
図10は、データ生成アプリケーションの「生活」に係る結果画面を例示する図である。
【
図11】
図11は、データ生成アプリケーションのモデル精度についての詳細情報を例示する図である。
【
図12】
図12は、データ生成アプリケーションの重要な特徴量についての詳細情報を例示する図である。
【
図13】
図15は、複数の重要属性の各々の影響を示すグラフである。
【
図14】
図14は、説明用アプリケーションの表示画面を例示する図である。
【
図15】
図15は、説明用アプリケーションによる要約結果を示す図である。
【
図16】
図16は、回答インサイトの生成方法を示すフローチャートである。
【
図17】
図17は、分析用チャットボットのチャット画面を例示する図である。
【
図18】
図18は、分析用チャットボットを介した対比データの生成方法及び取得方法について示すフローチャートである。
【発明を実施するための形態】
【0013】
図1~
図18を参照して、本開示の分析システム11、分析方法、及びプログラムの例を説明する。本発明はこれらの例示に限定されるものではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
【0014】
[分析システムの全体構成]
図1に示すように、分析システム11は、1以上の分析装置20を備える。各分析装置20は、例えば、1以上のプロセッサ21、1以上のメモリ22、及び通信インタフェース(IF)23を備えるコンピュータとして実現されてもよい。1以上の分析装置20が複数の分析装置20を含む場合、それらの構成の一部又は全部が互いに異なっていてもよい。
【0015】
1以上のメモリ22には、プログラム24が格納されている。プログラム24は、アプリケーション及びオペレーティングシステムのためのプログラムコードを含む。1以上のプロセッサ21は、プログラム24に基づいて1以上の処理を実行することにより、各種の機能を実現する。メモリ22には、プログラム24の実行により生成される対比データ25が格納されてもよい。
【0016】
通信インタフェース23は、ネットワーク12を介した他の装置との通信を可能とする。ネットワーク12は、例えば、インターネット、WAN(Wide Area Network)、LAN(Local Area Network)、プロバイダ端末、無線通信網、無線基地局、専用回線等を含む。
【0017】
分析システム11は、1以上の機械学習装置30を備えてもよい。これに代えて、分析装置20が機械学習装置30の機能を備えてもよい。1以上の分析装置20はネットワーク12を通じて1以上の機械学習装置30と通信可能であってもよい。各機械学習装置30は、1以上のプロセッサ31、1以上のメモリ32、及び通信インタフェース(IF)33を備えるコンピュータとして実現されてもよい。通信インタフェース33は、ネットワーク12を介した他の装置との通信を可能とする。
【0018】
1以上のメモリ32には、プログラム34が格納されている。プログラム34は、アプリケーション及びオペレーティングシステムを含む。1以上のプロセッサ31は、プログラム34に基づいて処理を実行することにより、各種の機能を実現する。メモリ32には、プログラム34の実行により生成される1以上の学習モデル35が格納されてもよい。分析装置20は、対比データを生成する際には、機械学習装置30を動作させて学習モデル35の生成及び予測計算を実行させる。
【0019】
プロセッサ21,31は、例えば、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、MPU(Micro Processor Unit)、FPGA(Field-Programmable Gate Array)、又はその他の演算装置である。プロセッサ21,31は、例えば、各種ソフトウェア処理を実行するように構成される処理回路である。処理回路は、ソフトウェア処理の少なくとも一部を処理する専用のハードウェア回路(たとえばASIC等)を備えてもよい。すなわち、ソフトウェア処理は、1又は複数のソフトウェア処理回路及び1又は複数の専用のハードウェア回路の少なくとも一方を備えた処理回路(processing circuitry)によって実行されればよい。
【0020】
メモリ22,32は、非一時的コンピュータ可読媒体であってもよい。メモリ22,32は、例えば、RAM(Random Access Memory)、又はその他の揮発性メモリを含んでもよい。メモリ22,32は、プログラム及びデータを一時的に格納するように構成されてもよい。メモリ22,32は、プログラムを含むデータを恒久的に保管するストレージを含んでもよい。ストレージは、例えば、ROM(Read-Only Memory)、ハードディスク装置、フラッシュメモリ、又はその他の不揮発性記憶装置であってもよい。ストレージは、メモリカードのように、着脱可能な記憶装置であってもよい。通信インタフェース23,33は、例えば、LAN、又はその他の有線通信IFとして実現されてもよい。
【0021】
分析システム11は、データベース13を備えてもよい。データベース13は、図示しないサーバ装置に保持されていてもよい。これに代えて、分析装置20はネットワーク12を通じて分析システム11に含まれないデータベース13のデータを利用してもよい。あるいは、分析装置20又は機械学習装置30がデータベース13の一部又は全部を備えてもよい。
【0022】
分析システム11は、大規模言語モデル14を備えてもよい。これに代えて、分析装置20はネットワーク12を通じて分析システム11に含まれない大規模言語モデル14を利用してもよい。大規模言語モデル14は、大量のテキストデータを使ってトレーニングされた自然言語処理のモデルである。大規模言語モデル14は、情報抽出、文章要約、テキスト生成、又は質疑応答といった、さまざまな自然言語処理タスクに適応できる汎用的な言語モデルである。
【0023】
大規模言語モデル14は、何らかの指示を含むプロンプト(Prompt)を入力すると、指示に応じた文章を作成して、コンプリーション(Completion)として出力するように構成される。本例では、分析装置20がプロンプトを生成して大規模言語モデル14に入力し、その後、大規模言語モデル14が生成したコンプリーションを分析装置20が取得するように構成される。
【0024】
ユーザ端末15は、ネットワーク12を通じて分析装置20と通信可能であってもよい。ユーザ端末15は、例えばコンピュータであってもよいし、タブレットのような携帯端末であってもよい。ユーザ端末15はディスプレイ16を備えるとよい。ユーザは、ユーザ端末15を通じて、分析装置20が提供する1以上のアプリケーションの機能を利用することができる。1以上のアプリケーションの画面は、ディスプレイ16に表示される。
【0025】
1以上のアプリケーションは、ユーザ端末15にインストールされてもよいし、その機能の一部又は全部が分析装置20からWebアプリとして提供されてもよい。1以上のアプリケーションは、データ生成アプリケーション(カスタマープロファイリング)、インサイト要約用アプリケーション(説明用AIエージェント)、又は分析用チャットボット(AIアナリスト)のうち少なくとも1つを含んでもよい。分析システム11は、データ生成アプリケーション、インサイト要約用アプリケーション及び分析用チャットボットをそれぞれ提供するための、3つの分析装置20を備えてもよい。
【0026】
[顧客インサイトの分析]
顧客インサイト(消費者インサイトともいう)とは、一般に、顧客の購買行動の根底にある、顧客の動機、本音、又は心理のことを指す。顧客インサイトの分析を行うことにより、既存の商品又はサービスの提供における戦略の見直し又は改善、あるいは、新たな商品又はサービスの開発並びに新たな市場の開拓といった様々なマーケティング活動を行うことが可能になる。顧客インサイトは、一般に、顧客の属性情報及び顧客の購買履歴を含む各種の情報を分析することによって得られる。
【0027】
分析の一例として、自社ブランドの顧客グループのインサイトを、競合ブランドの顧客グループのインサイトと比較することがある。2つの顧客グループ同士のインサイトを比較することにより、自社を競合他社と差別化するためのヒントが得られることがある。こうした分析に基づいて顧客が潜在的に求めている商品又はサービスを提供することができれば、競合他社との差別化又は新たな顧客の開拓につながる。
【0028】
分析装置20、特にデータ生成アプリケーションは、顧客インサイトを分析する際に使用される対比データ25を提供するように構成される。本開示では、商品又はサービスの消費者を「顧客」、商品又はサービスのマーケティングを担当する担当者を「分析者」、分析者に対して対比データ25を提供するためにアプリケーションを使用する者を「ユーザ」という。「ユーザ」は「分析者」であってもよい。顧客には、潜在的な顧客、すなわち、対象の商品又はサービスを購入したことはないが購入する可能性のある消費者を含んでもよい。分析者は、商品又はサービスを提供する事業者であってもよいし、その事業者からマーケティングを請け負ったマーケターであってもよい。
【0029】
データ生成アプリケーションは、顧客データに基づいて対比データ25を生成するように構成される。対比データ25は、例えば、ある分析テーマに基づいて作成された2つの顧客グループ(本例では、第1グループと第2グループ)を対比するデータを含む。2つの顧客グループは、分析対象である第1グループと、分析対象の比較対象となる第2グループとを含む。第1グループに含まれる複数の顧客、及び、第2グループに含まれる複数の顧客は、顧客データに含まれる複数の(多数の)顧客の中からそれぞれ抽出される。
【0030】
例えば、第1グループがある商品の購入者グループである場合、その商品を購入していない潜在的な顧客のグループが第2グループであってもよい。あるいは、第1グループがある商品の広告を閲覧した閲覧者グループである場合、その商品とは別の商品の広告を閲覧した閲覧者グループが第2グループであってもよい。
【0031】
ユーザは、分析の目的に応じて、任意の分析テーマを設定することができる。分析テーマは、比較する2つの対象の名称、例えば2つのグループの名称、2つの商品名、又は2つのサービス名を含んでもよい。例えば、「ラガービール」を好む顧客グループを「エールビール」を好む顧客グループと比較する場合、分析テーマは「ラガービールvs. エールビール」又は「ラガービールはエールビールとどう違うか?」のように設定することができる。
【0032】
顧客データは、データベース13に格納されていてもよい。複数の(多数の)顧客は、複数種類の商品又はサービスの顧客、複数のブランドの顧客、及び、複数の事業者の顧客を含んでもよい。例えば、複数の顧客は、1又は複数のECサイトの各々を利用する顧客グループを含んでもよく、1つのECサイトには複数の事業者が商品又はサービスを提供してもよい。これに代えて、あるいはこれに加えて、複数の顧客は、共通ポイントプログラムに参加する顧客グループを含んでもよい。
【0033】
顧客データは、複数の顧客の各々の属性データを含む。本開示における「属性」との用語は、データ項目としての「属性」(例えば、「年齢」)と、その属性に対する値である「属性値」(例えば、「40歳」)との組み合わせを含む情報(例えば、「年齢:40歳」)であってもよい。属性データは、顧客の属性に関する静的なデータ項目と、動的なデータ項目とを含んでもよい。
【0034】
静的なデータ項目は、例えば、生年月日、出身地、初回購入日、サービスの利用開始日を含むが、これらに限られない。動的なデータ項目は、例えば、氏名、年齢、住所、家族構成、年収、職業、収入、就業状況、生活状況、趣味、行動履歴、関心であるが、これらに限られない。行動履歴は、例えば、サービスの利用履歴、商品又はサービスの取引履歴(購買履歴)、Webサイトの閲覧履歴又は検索履歴を含むが、これらに限られない。関心は、各顧客が興味のある商品又はサービスに係る情報、興味のある分野又はジャンルを含むが、これらに限られない。
【0035】
[学習モデルによる寄与度の算出]
1以上の学習モデル35は、顧客データに基づいて、複数の顧客の各々が第1グループと第2グループのどちらに属するか、を予測する予測モデルであってもよい。この予測モデルは、例えば、ランダムフォレストによる分類器であってもよい。1以上の学習モデル35は、互いに異なる学習データを用いて生成された複数の学習モデル35を含んでもよい。
【0036】
学習モデル35は、例えば次のように生成される。
まず、第1グループ及び第2グループの各々の顧客データを学習データとして抽出した後、学習データを訓練データとテストデータとに分割する。そして、訓練データを使用して予測モデルを生成する。その後、テストデータを用いて作成された予測モデルを評価することにより、予測モデルの精度を確認してもよい。予測モデルの精度は、例えば、ROC曲線(Receiver Operating Characteristic Curve)又はPR曲線(Precision-Recall Curve)を使用して評価することができる。一定以上の精度が確保された予測モデルは、実用可能な学習モデル35としてメモリ32に格納される。
【0037】
顧客データに含まれる複数の属性の各々は、予測結果に変化をもたらす特徴量となり得る。なお、学習モデルを扱う場合には、「属性」とその「属性に対する値」とを含む単語として「特徴量」を用いることがある。ただし、本例では、上述の様に、「属性」を単なるデータ項目のみならず、属性と属性値とを含む用語として使用する。そのため、「属性」は「特徴量」と同様の意味の用語として使用される。
【0038】
ランダムフォレストでは、学習に利用した複数の特徴量の各々の寄与度(重要度)を表示することができる。データ生成アプリケーションは、学習モデル35を利用して、対比データ25の一部として、属性毎の寄与度を出力するように構成されてもよい。
【0039】
属性毎の寄与度は、特徴量の寄与度(Impact)又は重要度(Importance)として、シャープレイ値(Shapley Value)を機械学習に応用したSHAP(SHapley Additive exPlanations)値として算出されてもよい。SHAP値は、予測において変数として使用される各属性の寄与の度合いを定量的に表すために用いられる。こうした属性(特徴量)の定量的な寄与度を出力するのは、学習モデル35の付加的機能であるともいえる。
【0040】
顧客インサイトの分析では、学習モデル35の計算結果のうち、「第1グループと第2グループのどちらに属するか」の予測結果ではなく、SHAP値、すなわち予測における属性毎の寄与度が必要となる。そのため、所望の分析期間(例えば、分析対象とする商品の販売期間)の顧客データを学習データとして抽出するとよい。
【0041】
この場合、学習データに含まれる特徴量が1つずつ増加するように1つの属性に係る属性データを追加しつつ予測を行い、追加された属性データが予測結果に及ぼす影響の程度を逐次に算出するようにしてもよい。例えば、ある1つの属性に係る属性データを追加することでより明確な分類結果が得られた場合、その属性は予測結果に対して強い影響があるといえる。この場合、その属性のSHAP値は大きくなる。
【0042】
このように、SHAP値は、モデル出力への影響度合い(Impact on model output)を示す。より詳細には、SHAP値が0より大きいほど寄与度が高いことを示し、0より小さいほど寄与度が低いことを示す。よって、SHAP値が大きい属性ほど、対応する顧客グループにおいて特異な特徴である、すなわち重要な属性であるといえる。データ生成アプリケーション又は学習モデル35は、
図2~
図4のようなグラフ17~19を計算結果の一部として出力するように構成されてもよい。
【0043】
図2は、複数の属性の寄与度をSHAP値として出力したグラフ17の一例を示す。グラフ17には、SHAP値(SHAP value)を横軸として、複数の属性のうち影響度の高い上位20の属性(Top 20 features)が表示されている。上位20の属性は、寄与度の大きい順に、上から下に向けて並んでいる。こうして抽出された上位N個(Nは自然数)の属性(Top features)を、第1グループの第2グループとの対比に有効な「複数の重要属性」という。グラフ17の左端に記載された逆三角形のスケール17aは、横幅の大きい上辺から下方にむけて先細になっていることで、下に行くほど属性の影響度が小さくなることを示す。
【0044】
グラフ17は、「SHAPビースウォーム・プロット」とも呼ばれ、1つのプロット(点)が、各属性に対する1人の顧客のSHAP値を示す。各プロットの色は、値の相対的なスケールを示してもよく、例えば、赤に近い値ほど大きく、青に近い値ほど小さくなるように設定してもよい。グラフ17,86,88では、濃い色が青、薄い色が赤であることを示している。グラフ17の右端に記載された「特徴量の値(Feature value)」の「高(High)」~黒の「低(Low)」の縦軸17bは、プロットの色のスケールを示すために、最も高い上端が赤色(図ではグレー)、最も低い下端が青色(図では黒)となるように連続的に色が変わるグラデーションで示される。
【0045】
各プロットの水平位置は、各顧客の特徴量(属性)に対するSHAP値を表示する。ここで、SHAP値が大きい(右方に位置する)ほど、正(Positive)の方向に寄与が大きいことを示し、SHAP値が小さい(左方に位置する)ほど、負(Negative)の方向に寄与が大きいことを示す。
【0046】
図3は、複数の特徴量についての、SHAP値の累積構成比率(Cumulative Composition Ratio)を示すグラフ18の一例を示す。グラフ18は、複数の特徴量の各々の構成比(Composition Ratio)を示す棒グラフと、累積比率(Cumulative Ratio)を示す折れ線グラフとを含む。複数の特徴量のうち影響度の高いいくつかの特徴量を表示する場合、累積比率で50%までの特徴量を表示することもできる。例えば
図3のグラフ18では、上位4つの特徴量が上位50%の特徴量であり、すなわち重要な特徴量(重要属性)となる。
【0047】
図4は、複数の特徴量のうちの1つのSHAP値を示すグラフ19の一例を示す。
図4に示される特徴量は、ポイントプログラム又はECサイトでの会員ランクである。会員ランクは、例えば、0~7で示され、数値が大きいほど会員ランクが高くなる。会員ランクがポイントプログラム又はECサイトの利用度に応じて設定される場合、利用度が高い(例えば、購入金額が大きい)ほど会員ランクが高くなる。グラフ19では、「会員ランクが高い(会員ランク6,7)」という属性は正(Positive)の方向に寄与し、「会員ランクが低い又は中程度(会員ランク1~5)」という属性は負(Negative)の方向に寄与することを示す。
【0048】
[データ生成アプリケーション]
データ生成アプリケーションは、ユーザの入力に応じて、対比データ25を生成するように構成される。対比データ25は、主に、学習モデル35を用いた計算結果である数値データを含む。ユーザの1回の入力に伴って実行される一連の処理又はその一連の処理のために生成されるデータを「ジョブ(job)」という。また、1つのジョブにより出力された対比データ25を「1のデータセット」という。各データセットには自動で名称(データセット名)が付けられてもよい。データセット名は、分析テーマと同じであってもよい。
【0049】
データ生成アプリケーションは、新たなデータセットを出力する際には新たなジョブを生成するように構成される。生成されたジョブ及びそのジョブにより生成されたデータセットは、メモリ22に格納される。ユーザは、過去に生成した1以上のデータセットを既存のジョブとして読み出すことができる。複数のユーザが1つのデータ生成アプリケーションを共有する場合、ユーザがデータ生成アプリケーションにログインすることにより、そのユーザが過去に生成したジョブが読み出せるように、ユーザ毎にデータセットの閲覧権限が設定されてもよい。
【0050】
図5は、例示的なデータ生成アプリケーションの入力画面40である。入力画面40は例示であり、任意にデザインを変更することができる。入力画面40は、サイドバー41とメインカラム42とを含んでもよい。
【0051】
サイドバー41は、例えば、ログイン用のアカウント入力欄43、アクション選択欄44、設定ボタン45のうち少なくとも1つを含んでもよい。サイドバー41は、その他の入力欄、選択欄、又はボタンを含んでもよい。データ生成アプリケーションは、アクション選択欄44は、「新規ジョブ生成」と「既存ジョブ表示」の選択肢を表示するように構成されてもよい。
【0052】
データ生成アプリケーションは、デフォルト設定として、ジョブ毎に、複数の学習モデル35を生成するように機械学習装置30を動作させてもよい。複数の学習モデル35は、例えば、「一般統計(General Statics)」、「生活(Life)」、「ショッピング(Shopping)」、及び「態度(Attitude)」の各々に係る規定の属性の組み合わせを含む属性データを学習データとして生成されてもよい。
【0053】
「一般統計」に係る属性は、例えば、性別、年齢、及び指定のECサイトでの規定期間毎の取引金額(例えば、GMS:Gross Merchandise Sales、流通取引総額)であるが、これらには限られない。
【0054】
「生活」に係る属性の例は、学歴、勤務状況、居住する住居の状況、子供の有無、結婚しているか、車両及び免許を所有しているか、各種スポーツをしているか、であるが、これらには限られない。「ショッピング」は、顧客の商品に係る取引履歴(購買履歴)に係る属性を含んでもよく、例えば、過去に購入した商品のジャンル、ブランド、購入金額に係る属性を含むが、これらには限られない。
【0055】
「態度」に係る属性の例は、生活及びショッピングを含む様々な分野における顧客の様々な態度を含んでもよい。態度の例は、「買い物は現金よりキャッシュレスですませたい」「ネットショッピングは時間の節約になると思う」「ポイントを貯めるのが好き」「社交的な性格だと思う」「周りの人がもっているブランドは使いたくない」「毎日の食事に気をつけている」であるが、これらには限られない。
【0056】
データ生成アプリケーションは、設定ボタン45が選択されると、1以上のオプション設定欄46~48を表示してもよい。設定欄46は特徴量の追加欄であってもよい。設定欄46は、複数選択式であってもよく、例えば、「一般動態(General Demography)」「興味(interest)」「購買動向(Shopping Behavior)」「サービス利用(Service Usage)」といった規定の属性の組み合わせを追加することができる。
【0057】
「興味」は、複数の顧客がどのような興味を持っているかに係る属性の組み合わせである。興味に係る属性は、例えば、「美容・コスメ製品への興味度」「PC・周辺機器への興味度」など、ECサイトで取扱のある商品・サービスの各ジャンルへの興味度であってもよい。購買動向及びサービス利用に係る属性データは、ECサイトで取扱のある商品・サービスの各ジャンル又は各ブランドの取引履歴から取得してもよい。
【0058】
設定欄46は、選択肢として、任意の属性の組み合わせを自由に追加できる「新規追加(Add New)」を含んでもよい。設定欄46により属性の組み合わせが追加された場合、データ生成アプリケーションは、対応する属性データを含む学習データで学習モデル35を生成するように、機械学習装置30を動作させる。
【0059】
設定欄47は出力データに含まれる重要属性の数に係る選択欄であってもよく、例えば、「上位20位まで」と「累積構成比率50%内」との択一式であってもよい。これに加えて、あるいはこれに代えて、設定欄47では、重要属性についての詳細情報を追加するためのオプションが選択可能であってもよい。さらに、設定欄47では、詳細情報を表示する重要属性の数を設定可能であってもよい。設定欄48では表示言語を設定可能であってもよく、例えば、「日本語」と「英語」との択一式であってもよい。
【0060】
メインカラム42は、第1グループである分析グループの設定領域50と、第2グループである比較グループの設定領域60とを含んでもよい。設定領域50は、分析グループの名称入力欄51、データの選択欄52、データの始期となる開始日の入力欄53、及びデータの終期となる終了日の入力欄54を含んでもよい。設定領域50は、さらに、1以上の選択ボタン55を含んでもよい。
【0061】
設定領域60も、設定領域50と同様に、比較グループの名称入力欄61、データの選択欄62、開始日の入力欄63、終了日の入力欄64、及び1以上の選択ボタン65を含んでもよい。ユーザは、選択欄52,62から、顧客データ全体の中から所望の数の顧客のデータを選択することができる。
【0062】
設定領域60の選択欄62、入力欄63,64、及び選択ボタン65は、設定領域50で選択欄52及び入力欄53,54の入力が完了した場合に、表示されるか、又は入力可能になってもよい。入力欄63,64は、入力欄53,54が入力された場合に、入力欄53,54と同じ日付がデフォルト値として自動的に入力されてもよい。
【0063】
1以上の選択ボタン55は、任意に選択可能なオプションの入力欄であってもよい。例えば、1以上の選択ボタン55は、「ブランド&ジャンル」、「ブランド」、又は「ジャンル」の何れかを択一的に選択するラジオボタンであってもよい。1以上の選択ボタン65は、「ブランド&ジャンル」、「ブランド」、及び「ジャンル」に加えて、「ランダム」の選択肢を含んで、それらの何れかを択一的に選択するラジオボタンであってもよい。「ランダム」の選択肢を選択した場合、規定人数分のデータがランダムに抽出される。
図5の破線で示す選択欄66は、選択ボタン65で「ランダム」を選択したことにより、選択欄66が操作できない状態になっていることを示す。
【0064】
図5で示す入力画面40は、説明の便宜上、複数の入力欄、選択欄及びボタンを全て表示しているが、データ生成アプリケーションの処理順序に応じて、順次に入力欄、選択欄又はボタンが表示されてもよい。例えば、入力欄43にアカウントを入力してログインした後にアクション選択欄44を表示してもよい。また、アクション選択欄44で「新規ジョブ作成」が選択された場合に、名称入力欄51,61が表示されてもよい。さらに、名称入力欄51,61が入力された場合に選択欄52及び入力欄53,54が表示されてもよい。
【0065】
図6及び
図7は、追加の選択欄56,66を操作した場合の表示例である。選択ボタン55,65で「ブランド&ジャンル」が選択された場合、
図6に示すような選択肢が表示されてもよい。選択ボタン55,65で「ジャンル」が選択された場合、
図7で示すような選択肢が表示されてもよい。選択ボタン55,65で「ブランド」が選択された場合、ブランド名のリストが表示されてもよい。
【0066】
ジャンルの選択肢は、例えば、「TV・オーディオ・カメラ」「スポーツ・アウトドア」「スマートフォン・タブレット」「ダイエット・健康」「パソコン・周辺機器」「医薬品・コンタクト・介護」「家電」を含んでもよいが、これらには限られない。ジャンルは、ECサイトで商品又はサービスを取り扱う際のジャンルの分類と同じであってもよい。
【0067】
選択欄56で複数のジャンル又はブランドのうち1のジャンル又はブランドが選択されると、選択された指定ジャンル又は指定ブランドの商品又はサービスの取引履歴を有する複数の顧客の中から、第1グループに含まれる顧客が抽出される。同様に、選択欄66で1のジャンル又はブランドが選択されると、選択された指定ジャンル又は指定ブランドの商品又はサービスの取引履歴を有する複数の顧客の中から、第2グループに含まれる顧客が抽出される。
【0068】
選択ボタン55,65で「ブランド&ジャンル」が選択されると、選択欄56,66ではブランドとジャンルの組み合わせが選択可能になる。例えば、選択欄56,66でまずブランド名(
図6では「ブランドY」)が選択可能となり、1つのブランドを選択すると、その指定ブランドに属する複数のジャンル(
図6では家具に係る複数のジャンル)が選択可能となってもよい。ブランドとジャンルは、別々の選択ボタンにより選択可能であってもよい。
【0069】
ブランド&ジャンルの組み合わせは、複数選択することが可能であってもよい。例えば、
図6では、1つ目のブランド&ジャンルとして、「ブランドX&本棚」が選択済みであって、2つ目のブランド&ジャンルのうち、「ブランドY」が選択されてブランドYに属する複数のジャンルが選択可能に表示されている。「ブランド&ジャンル」の選択により、指定ブランドの指定ジャンルの取引履歴を有する複数の顧客の中から、第1グループ又は第2グループに含まれる顧客が抽出される。
【0070】
ジャンル及びブランドは、複数階層(例えば、3階層)に亘る分類の中から選択可能であってもよい。例えばブランドであれば、第1階層である企業名(コーポレートブランド)、第2階層である製品カテゴリー名(ファミリーブランド)、及び第3階層である製品名(製品ブランド)のうち、任意の階層まで選択可能であってもよい。ジャンルの階層は、例えば、ECサイトと同じジャンル階層が採用されてもよい。
【0071】
図5に示すように、メインカラム42は、確認ボタン59と決定ボタン69とを含んでもよい。確認ボタン59が操作されると、入力画面40で入力した内容を表示した確認画面(図示略)が表示されてもよい。確認画面(図示略)は、決定ボタン69を含んでもよい。決定ボタン69が操作されると、ユーザが入力した指示に基づいて、対比データ25を含むデータの生成処理が実行される。
【0072】
図8を参照して、データ生成アプリケーションを介したデータ生成方法について説明する。
ステップS1では、プロセッサ21が、顧客データに含まれる複数の顧客の中から第1グループに属する複数の顧客と第2グループに属する複数の顧客とをそれぞれ抽出する処理を実行する。このとき、顧客データ全体の中から、第1グループに属する複数の顧客についての第1顧客データと、第2グループに属する複数の顧客についての第2顧客データと、がそれぞれ抽出される。
【0073】
顧客データは、各顧客が有する複数の属性に係る属性データを含む。ステップS1では、プロセッサ21が、生成する複数の学習モデル35の各々に対応する顧客データを、学習データとして抽出する。例えば、プロセッサ21は、デフォルトの属性の組み合わせに係る学習データの他、ユーザが追加で入力した属性の組み合わせに係る学習データを、顧客データから抽出する。
【0074】
ステップS2にて、プロセッサ21は、機械学習装置30(プロセッサ31)に、学習データを用いて複数の学習モデル35を生成させる。ステップS3にて、プロセッサ21は、機械学習装置30(プロセッサ31)に、学習モデル35による計算(予測)処理を実行させる。この計算には、学習モデル35の精度を評価するための計算と、学習データに含まれる複数の属性の各々についてのSHAP値を算出するための計算も含まれる。ステップS2~S7は、複数の学習モデル35の各々について実行される。
【0075】
ステップS4にて、プロセッサ21は、学習モデル35の計算結果を取得する。続くステップS5にて、プロセッサ21は、計算結果に基づいて、対比データを生成する。より詳細には、計算に用いられた複数の属性の中から、各属性のSHAP値に基づいて、上位N個の属性を重要属性として抽出する。Nの数は、デフォルトで規定されるか、あるいはユーザ入力により指定される。したがって、対比データは、第1グループの第2グループとの対比に有効な複数の重要属性と、各重要属性の対比における寄与度を示すSHAP値とを含む。
【0076】
ステップS6にて、プロセッサ21は、対比データに基づいて、規定された項目と、必要に応じてユーザが指定した項目についての説明文を生成する。また、ステップS7にて、プロセッサ21は、説明文を生成する時に使用した対比データに基づいて、説明文と対になる1以上のグラフを生成する。すなわち、説明文は、対応するグラフについての説明を記述するように生成される。ステップS6,S7は順序を入れ替えてもよいし、同時に実行してもよい。ステップS8にて、プロセッサ21は、生成した説明文及びグラフを含む生成データを出力する。
【0077】
図9は、生成データを表示するための、データ生成アプリケーションの結果画面70を例示する。結果画面70には、対応するジョブのタイトル70aが表示されてもよい。タイトル70aは、第1グループの名称と第2グループの名称とを含む、分析テーマであってもよい。また、結果画面70は、表示するジョブを選択する選択欄70bを含んでもよい。選択欄70bに表示されるリストの各々には、ジョブの名称及びそのジョブの作成日時が表示されてもよい。
【0078】
結果画面70は、その上部にナビゲーションカラム71を含んでもよい。ナビゲーションカラム71は、例えば、「一般統計」「生活」「ショッピング」「態度」「その他(More)」「アクション(Take Action)」といった、複数のタブを含んでもよい。「生活」「ショッピング」「態度」「その他」のタブは、それぞれ対応する複数の学習モデル35の計算結果を表示するものであってもよい。
【0079】
「生活」は、顧客のライフステージに関連する対比データを含んでもよい。「ショッピング」は、例えば、顧客の検索履歴、ページの閲覧履歴、取引履歴、キャンペーンへの参加履歴の各々に関連する対比データを含んでもよい。「態度」は、顧客の態度に関連する対比データである。「その他」は、例えば、全ての属性を含む対比データを含んでもよいし、ユーザが選択した属性に係る対比データを含んでもよい。複数のタブに対応する対比データは、同様のインタフェースで表示されるため、
図10に「生活」に係る対比データを例示し、その他のタブに対応する対比データは表示を省略している。
【0080】
各タブを操作すると、対応する結果を表示する領域(
図9~
図10に示す)にジャンプしてもよい。また、結果画面70をスクロールダウンすると、複数のタブの各々に対応する結果が順次に表示されてもよい。
【0081】
「一般統計」タブを操作すると、第1グループと第2グループとを比較する表示領域72が表示されてもよい。表示領域72は、例えば、両グループの顧客数を比較するグラフ72a、性別分布を比較するグラフ72b、年齢分布を比較するグラフ72c、及びECサイトの利用状況を比較するグラフ72dを含んでもよいが、これらには限られない。例えば、グラフ72dは、顧客データがECサイトの利用顧客のデータを含む場合に表示するとよい。
【0082】
グラフ72dは、第1グループと第2グループの各々を構成する顧客の取引金額にかかるデータとして、データ取得期間におけるGMS(流通取引総額)の分布を示す。グラフ72dの凡例は、例えば、「購入無し」、「GMS低:1万円未満」、「GMS中:1万円以上10万円未満」、及び「GMS高:10万円以上」である。
【0083】
図10に示すように、結果画面70は、その下部に学習モデル35に係る詳細情報を表示するためのボタン75,76,77を含んでもよい。ボタン75を操作すると、モデル精度についての詳細情報が表示される。ボタン76を表示すると、モデルにおいて重要な特徴量を示す詳細情報が表示される。ボタン77を操作すると、上位の特徴量がモデルの結果に与える影響についての詳細情報が表示される。
【0084】
ナビゲーションカラム71のタブを操作すると、対応する学習モデル35のモデル精度に係る情報を表示する表示欄70cが表示されてもよい。表示欄70cに示す「Model Confidence」はモデルの信頼度を示す。信頼度は、例えばAUC(area under ROC curve)の値によって決定され、AUC>75で高(HIGH)、AUC>0.6で中(MEDIUM)、それ以外は低(LOW)であってもよい。ボタン75を操作すると、モデル精度についての詳細情報(
図11参照)が表示される。
【0085】
図11に示すように、モデル精度についての詳細情報は、ROC曲線を示すグラフ75aを含んでもよい。ROC曲線の下のエリア(AUC)は、対応する学習モデル35の評価指標として用いられる。モデル精度についての詳細情報は、学習モデル35の混同行列(confusion matrix)75bを含んでもよい。混同行列は、モデルの予測値(Predicted Values)と実際の値(Actual Values)との一致及び不一致を示す情報を提供する。混同行列は、真陽性(True Positive, TP)、真陰性(True Negative, TN)、偽陽性(False Positive, FP)、偽陰性(False Negative, FN)の4つの値を含む。
【0086】
図10に示すように、「生活」「ショッピング」「態度」「その他」の対比データを示す画面は、グラフ表示領域73と、インサイト表示領域74とを含んでもよい。グラフ表示領域73は、グラフの表示形式を選択するための選択ボタン73aと、選択された形式で表示されるグラフ73bとを含んでもよい。選択ボタン73aは、SHAP値を棒グラフで示す「SHAPバー・プロット」と、SHAP値を点としてプロットしたグラフである「SHAPビースウォーム・プロット」との選択肢を含んでもよい。
【0087】
「SHAPバー・プロット」のグラフ73bでは、複数の特徴量のうち影響度の高い上位20の特徴量(重要属性)について、個々の顧客のSHAP値を1つの要約値に換算して、棒グラフにしている。これにより、各特徴量が正と負のどちらの方向にどの程度寄与しているのかが明示される。「SHAPビースウォーム・プロット」のグラフ73bは、
図2に示す形式のグラフであり、重要属性(例えば、上位20の特徴量)が、影響度の大きい順に表示される。
【0088】
インサイト表示領域74には、グラフ73bで示される結果を概説する文字列が表示される。一例として、インサイト表示領域74には、対比データ、特にグラフ73bで示される上位20つの重要属性のうち、上位5つの重要属性についての説明文が表示されてもよい。すなわち、説明文は、複数の重要属性のうち、より少ない規定数の重要属性についての記述であってもよい。この規定数は、設定欄47でユーザ入力により指定されてもよいし、指定がなければデフォルトの設定数を採用してもよい。
【0089】
インサイト表示領域74に表示される文字列は、分析結果のデータと、予め用意された定型文とから、自動的に生成されてもよい。例えば、プロセッサ21は、SHAP値が高い上位5つの特徴量について、属性の名称(例えば、「高校生の子供がいる」)に「可能性が高い」との結果を示す文字列を組み合わせて、「高校生の子供がいる可能性が高い」という文章を生成してもよい。
【0090】
図12に、ボタン76を操作した場合に表示される、SHAP値の累積構成比率を示すグラフ76aを例示する。グラフ76aは、
図3に示すグラフ18と同様の形式である。グラフ76aでは、上位20の特徴量(重要属性)が、構成比の高い順に上から下に向けて並んでいる。そのため、グラフ76aは、どの特徴量がどの程度重要であるのか、すなわち、重要属性がどれであるのか、を示す。例えば、上位5つの特徴量は、重要属性の中でも、特に重要な属性であるといえる。
【0091】
ボタン77を操作すると、特に重要な属性の各々がモデルの結果にどのように影響するかを示す1以上のグラフ78(
図13参照)が表示されてもよい。ここで、上位いくつの特徴量を表示するかは、設定欄47にて設定されてもよい。
【0092】
図13は、インサイト表示領域74で言及されている上位5つの特徴量がそれぞれモデルの結果に及ぼす影響を示すグラフ78a,78b,78b,78d,78eを示す。グラフ78a~78eは、それぞれ、第1位~第5位の特徴量を横軸とし、各々の特徴量に対するSHAP値を縦軸として、複数の顧客の各々に対応する複数のプロット(点)を含む。
【0093】
「アクション」タブは、上述の対比データを踏まえて、マーケティングのための追加の分析を行う場合に使用できる。追加の分析では、例えば、対象グループ外の顧客の中から、対象グループ内の顧客と共通する属性を有する顧客を抽出するための追加の学習モデル35を生成してもよい。追加の学習モデル35は、例えば第1グループの重要属性と類似する類似属性を有する顧客を予測するように構築される。こうした追加の学習モデル35により、マーケティングの対象となる潜在的な顧客のグループを抽出することができる。
【0094】
[説明用アプリケーション]
データ生成アプリケーションのインサイト表示領域74には対比データの簡易な説明文が表示されるものの、その他は数値データ又はグラフで示される。そのため、分析者は、数値データ及びグラフを読み解いて詳細な分析を行うことになる。
【0095】
こうした分析には知識及び経験が必要であるため、特に経験の浅い分析者が適切な分析を行うことは難しい。また、ある程度経験のある分析者であっても、複数のグラフから結果を読み取るのは手間がかかる。そこで、説明用アプリケーションは、対比データの要約を行ったり、対比データに対する質問に回答したりするように構成される。
【0096】
図14は、例示的な説明用アプリケーションの表示画面80である。表示画面80は例示であり、任意にデザインを変更することができる。表示画面80は、サイドバー81とメインカラム82とを含んでもよい。
【0097】
サイドバー81は、例えば、ログイン用のユーザ名入力欄83とデータセット選択欄84とを含んでもよい。データセット選択欄84には、各ユーザが過去に生成したデータセット名がリストされる。ユーザは、入力欄83にユーザ名を入力してログインすると、自身が過去に作成したジョブのデータセットをデータセット選択欄84で選択することができる。
【0098】
メインカラム82には、ユーザが選択したデータセット名が表示されてもよい。メインカラム82は、「Q&A」タブ82aと「要約」タブ82bとを含んでもよい。「Q&A」タブ82aが選択されると、メインカラム82には、質問入力欄85が表示される。そして、質問入力欄85に質問が入力されると、質問入力欄85の下に、質問に対する回答となる、回答インサイト87がグラフ86とともに表示される。回答インサイト87とグラフ86とは、同じ重要属性に係る対比データに基づいて生成される。すなわち、説明用アプリケーションは、対比データに関する質問が入力されると、質問に対する回答を文章(文字列)にて出力するように構成される。
【0099】
「要約」タブ82bが選択されると、メインカラム82には、データセット(例えば「ラガービールvs. エールビール」)の結果を要約した要約インサイト89(
図15参照)が表示される。すなわち、説明用アプリケーションは、対比データの結果を要約した説明文を生成するように構成される。
【0100】
図15に示すように、要約インサイト89は、対応するグラフ88とともにメインカラム82に表示されてもよい。要約インサイト89とグラフ88とは、同じ重要属性に係る対比データに基づいて生成される。グラフ88は「SHAPビースウォーム・プロット」のグラフを例示しているが、「SHAPバー・プロット」のグラフであってもよいし、複数のグラフが表示されてもよい。
【0101】
要約インサイト89は、対比データ25に含まれる「一般統計」「生活」「ショッピング」「態度」の各項目について生成されてもよい。
図15では「生活」についての要約インサイト89を例示しているが、他の項目についての要約インサイト89も、メインカラム82に含まれてもよい。
【0102】
[インサイトの生成方法]
インサイト87,89は、汎用的な大規模言語モデル14を用いて生成されてもよい。インサイト87,89は、第1グループと第2グループの各々について別個に記述されてもよいし、両グループの違いを述べるようにまとめて記述されてもよい。
【0103】
分析装置20のメモリ22には、大規模言語モデル14に入力するためのプロンプトの1以上のテンプレートが保存されていてもよい。ここで、回答インサイト87を得るためのプロンプトを質問プロンプトといい、要約インサイト89を得るためのプロンプトを要約プロンプトという。1以上のテンプレートは、質問プロンプトを生成するために使用される質問テンプレートと、要約プロンプトを生成するために使用される要約テンプレートとを含んでもよい。
【0104】
プロンプトは、大規模言語モデル14が適切なコンプリーションを生成できるように、設定、指示、及び情報源となるデータのうち少なくとも1つを含むことが望ましい。そのため、テンプレートは、1以上の設定文、1以上のデータ指定文、及び1以上の指示文のうち少なくとも1つを含んでもよい。
【0105】
プロンプト及びテンプレートは、大規模言語モデル14で学習データに多く含まれる言語(例えば、英語)で記述されてもよい。この場合、プロンプト及びテンプレートは、質問入力欄85に入力された質問文の記述言語又は設定欄48で設定された言語でインサイト87,89を生成するように、生成した文章を対象の言語に翻訳するように指示する指示文を含んでもよい。
【0106】
インサイト87,89は、本来、分析者が対比データに含まれる数値データ又はその数値データから生成された各種のグラフ(例えば、グラフ86,88)を見て生成すべき文書であるともいえる。そこで、大規模言語モデル14に対して分析者としてのキャラクタを設定するための設定文をプロンプトに含めてもよい。例えば、1以上の設定文は、「あなたはデータサイエンティストです」のように、分析者として回答させるための設定文を含んでもよい。
【0107】
1以上のデータ指定文は、「[データ名]について分析をしてください」といった、分析するデータを指定する文章を含み、データ名に対応するデータをプロンプトに含めてもよい。プロンプトに含めるデータは、SHAP値のような数値データであってもよいし、数値データに基づいて生成された説明文(文字列)であってもよい。
【0108】
[データ名]は、例えば、データセット名でもよいし、「一般統計」「生活」「ショッピング」「態度」といった分析項目の名称であってもよい。データ名は、インサイト87,89と共に表示するグラフ86,88のデータに対応してもよい。データを指定する文章は、「あなたは、[データ名]の分析を行う分析者です」のように、設定文に含めてもよい。
【0109】
1以上の指示文は、大規模言語モデル14が実行すべき複数のアクション指示を含んでもよい。この場合、1以上の指示文は、「あなたのタスクは、次のアクションを実行することです」といった総括的な指示文と、複数のアクションにそれぞれ対応する複数のアクション指示文とを含んでもよい。
【0110】
プロンプト又はテンプレートには、例えば、次の(1)~(4)のような一連のアクション指示文を含んでもよいが、これらには限られない。
(1)寄与度の高い上位3つの特徴量について要約して下さい。
【0111】
(2)寄与度の高い上位3つの特徴量について、なぜそれら特徴量の寄与度が高いのかについて考えられる理由を述べて下さい。
(3)先の(1)(2)の結果に基づいて、有効なマーケティングの手法を提案して下さい。
【0112】
(4)先の(1)~(3)の結果を要約して下さい。
アクション指示文は、(1)のようなシンプルな要約に加えて、(2)のような要因の解析、さらには(3)のようなマーケティング手法の提案まで含めることで、より分析者の助けとなる情報を提供できる。さらに、アクション指示文の数が多くなると、文章が長くなったり内容が複雑になったりするので、(4)のように出力内容を要約する文章を追加すると、より分析者の理解を助けることができる。
【0113】
説明用アプリケーションは、質問プロンプトを生成する前に、質問入力欄85に入力された質問文に基づいて、情報源とすべきデータ又は属性を抽出するように構成される。以下、
図16を参照して、質問文への回答となるインサイト87の生成方法について説明する。
【0114】
ステップS11で、プロセッサ21は、ユーザにより入力された、第1グループと第2グループとの対比に係る質問文を取得する。続くステップS12で、プロセッサ21は、複数の属性の中から質問文に関連する1以上の関連属性を選択する。ステップS12では、例えば、大規模言語モデル14のような自然言語処理モデルを利用して、質問文又は質問文に含まれる単語と類似度が高い属性を関連属性として選択してもよい。
【0115】
例えば、プロセッサ21は、大規模言語モデル14に対して、質問文に関連する上位いくつか(例えば、20)の属性を選択するように指示するプロンプトを入力してもよい。この際、関連性を判断するための情報源として、複数の属性の各々についての説明文をプロンプトに含めてもよい。この説明文は、例えば、インサイト表示領域74に表示される文字列のように、分析結果のデータと予め用意された定型文とから生成してもよい。
【0116】
この場合、大規模言語モデル14は、SHAP値は考慮せずに、質問文と関連の高い複数の上位属性を選択して出力する。その後、プロセッサ21は、選択された複数の上位属性の中からSHAP値が0の属性を除外して、残る複数の上位属性を関連属性としてもよい。SHAP値が0の属性は、対象グループの比較グループとの対比に寄与しないためである。
【0117】
ステップS13で、プロセッサ21は、選択した関連属性のSHAP値(寄与度)を取得する。関連属性が複数ある場合、プロセッサ21は、ステップS14で、寄与度の高い規定数の関連属性を重要属性として選択する。例えば、プロセッサ21は、正の相関が高い上位N個の関連属性と、負の相関が高い上位M個の関連属性とを重要属性として選択してもよい。規定数(N,Mの値)は、任意に設定することができ、例えば、説明用アプリケーションに規定されたデフォルト値であってもよいし、ユーザにより指定された指定値であってもよい。N,Mは同じ(例えば、1,2,3又は5)値であってもよいし、互いに異なる値であってもよい。例えば、Mの値はLの値より大きくてもよいし、小さくてもよい。
【0118】
ステップS15で、プロセッサ21は、質問プロンプトを作成する。このとき、プロセッサ21は、上述したような設定文を含む質問テンプレートを使用してプロンプトを生成してもよい。ここで、データ指定文には、ステップS14で選択した1以上の重要属性と、各重要属性の寄与度(SHAP値でもよい)とを、情報源として含めるとよい。情報源は、寄与度(SHAP値)に代えて、1以上の重要属性についての説明文であってもよい。この説明文は、ステップS12で関連属性を選択するために大規模言語モデル14に入力したような、分析結果のデータと定型文とから生成した文字列であってもよい。また、指示文は、例えば自然言語処理モデルを利用して生成した、質問に回答させるためのアクション指示文を含む。
【0119】
ステップS16で、プロセッサ21は、生成したプロンプトを大規模言語モデル(LLM)14に入力する。そして、ステップS17で、プロセッサ21は、大規模言語モデル14が出力したコンプリーションを取得する。さらに、ステップS18で、プロセッサ21は、コンプリーションを編集して回答文を生成してもよい。
【0120】
例えば、コンプリーションが英語で記述されている場合、分析装置20は、別の機械翻訳モデルを使用して、コンプリーションを質問文と同じ言語(例えば、日本語)に翻訳してもよい。その他、コンプリーションに対して、分析結果の正確さについての注意事項を追加したり、回答文の生成日時を追加したりすることにより、回答文を生成してもよい。
【0121】
ステップS19で、プロセッサ21は、大規模言語モデル14の出力に基づいて生成した回答文を回答インサイト87として出力する。この回答文は、質問に対する回答を含む文章であり、第1グループの第2グループとの対比結果を記述した説明文でもある。ステップS19では、コンプリーションの記述言語(例えば、英語)と、質問文の記述言語(例えば、日本語)とでそれぞれ記述された回答文が出力されてもよい。この場合、インサイト87は、コンプリーションの記述言語と、質問文の記述言語との両方で併記されてもよい。
【0122】
[分析用チャットボット]
図17は、分析用チャットボットのチャット画面90を例示している。分析用チャットボットは、仮想的な分析補助者「AIアナリスト」がユーザからの質問にチャット形式で回答するように構成される。
【0123】
分析用チャットボットは、大規模言語モデル14を使用して、質問文を解析したり、回答文を生成したりするように構成される。分析用チャットボットは、回答文を生成する際に、ステップS11~S19のように、質問に関連する対比データを取得して、その対比データを回答の情報源としてプロンプトに含めるようにしてもよい。
【0124】
チャット画面90は、ユーザが質問文を入力するための入力欄91と、送信ボタン92とを含む。チャット画面90は、さらに、AIアナリストの発言欄である1以上のボット吹き出し93と、入力欄91で入力された文章が反映される1以上のユーザ吹き出し94とを含む。ユーザが入力欄91に文章を入力して送信ボタン92を操作すると、入力された文章を含むユーザ吹き出し94がチャット画面90に追加される。分析用チャットボットは、ユーザによって入力された質問文に応じた回答を、AIアナリストからの発言としてボット吹き出し93に出力する。
【0125】
分析用チャットボットは、第1例として、データ生成アプリケーションによって生成済のデータセットに基づいて回答を生成してもよい。第1例の場合、分析用チャットボットは、「分析対象となるデータセットを選択して下さい」といった指示とともにデータセットのリストを含むボット吹き出し93をチャット画面90に出力してもよい。あるいは、分析用チャットボットは、質問に応じて対応する対比データを情報源として取得してもよい。
【0126】
分析用チャットボットは、第2例として、新たなデータセットを生成した上で、そのデータセットについての回答を生成してもよい。この場合、分析用チャットボットは、第1グループと第2グループに対応する2つの顧客グループを入力するように指示して、入力された2つの顧客グループについての対比データを生成してもよい。第2例の場合、分析用チャットボットは、「新規ジョブを生成しますか?」といった質問とともに「新規ジョブ生成」のボタンを含むボット吹き出し93をチャット画面90に出力してもよい。
【0127】
以下、
図18を参照して、分析用チャットボットが第1例のように作成済の対比データを取得したり、第2例のように新たな対比データを生成したりするための方法を説明する。なお、ここで説明する方法を実現するための機能(プログラムコード)は、データ生成アプリケーションがデータセットの取得処理及び新規ジョブ作成をする場合の機能(プログラムコード)と同じであってもよい。そのため、分析用チャットボットは、これら処理を実行するためのプログラムをデータ生成アプリケーションと共有してもよい。また、分析用チャットボットは、入力画面40で入力すべき事項をチャット形式でユーザに順次入力させてもよい。
【0128】
図18に示すように、プロセッサ21は、「新規ジョブを生成しますか?」といった質問に対するユーザの回答に基づいて、ステップS21にて、新規ジョブを生成するかどうかを判断してもよい。
【0129】
ステップS21が否定判定(NO)の場合、プロセッサ21は、ステップS22にて、「分析対象となるデータセットを選択して下さい」といった指示とともに、作成済みデータセットの選択肢を表示してもよい。続いて、プロセッサ21は、ステップS23にて、ユーザにより選択されたデータセット(対比データ)を取得する。
【0130】
ステップS22に代えて、プロセッサ21は、「どのようなデータの分析をご希望ですか?」といった質問を表示して、ユーザから自由記入で回答を得てもよい。この場合、プロセッサ21は、ステップS11~S14のように、質問に関連する関連属性、重要属性、又はそれらを含むデータセットを抽出してもよい。
【0131】
ステップS21が肯定判定(YES)の場合、プロセッサ21は、「分析対象と比較対象の名称を入力して下さい」といった指示を出力することにより、ステップS24にて、第1グループ名と第2グループ名とを取得する。
【0132】
ステップS25にて、プロセッサ21は新規ジョブを生成する。さらに、プロセッサ21は、必要に応じてユーザにデータ生成の条件を入力させた後、ステップS26にて対比データ25を生成する。ステップS26の対比データ25の生成は、
図8のステップS1~S8と同様に行うことができる。
【0133】
ステップS27にて、プロセッサ21は生成した対比データをメモリ22に格納する。その後、ユーザから生成した対比データについての質問文が入力されると、プロセッサ21は、ステップS28にて、対応する対比データを取得して、回答の情報源とする。
【0134】
以降、分析用チャットボットは、取得した対比データに基づいて、ユーザが入力するリクエストに応じて回答を出力してもよい。例えば、ある対比データに関する質問が入力された場合、分析用チャットボットは、
図16に示す方法で回答文を生成してもよい。この場合、分析用チャットボットは、
図16に示す処理を実行するためのプログラムを説明用アプリケーションと共有してもよい。
【0135】
より詳細には、分析用チャットボットは、質問に関連する特徴量から寄与度の高い特徴量を選択して、その特徴量についての説明文の生成を指示するプロンプトを大規模言語モデル14に入力してもよい。そして、分析用チャットボットは、コンプリーションに基づいて生成した回答文を、ボット吹き出し93を介して出力してもよい。また、分析用チャットボットは、回答の情報源となった対比データを示すグラフを回答文とともに出力してもよい。
【0136】
[本開示の作用]
分析装置20は、算出した数値データに基づいて説明文を生成することができる。説明文がインサイト表示領域74に表示されるような重要属性についての簡潔な記載である場合には、対比データの概要を理解するのに役立つ。また、要約インサイト89のように、説明文が要因の解析又はマーケティング手法の提案を含む場合には、分析装置20は分析者の作業をより多角的に助けることができる。さらに、回答インサイト87又は分析用チャットボットのように、自由記載式の質問に対する回答として説明文が出力される場合には、分析装置20は分析者の要望に添った情報を提供することができる。
【0137】
分析装置20は、対比データの説明文を、同じデータを出典として生成されたグラフとともに表示することができる。そのため、分析者は、グラフを視覚的に認識しつつ、説明文を読んで言語的に理解することができる。視覚的な情報と言語的な情報のどちらを認識しやすいか、といった認知特定は分析者によって異なるが、多くの分析者は複合的な認知特性を有する。そのため、視覚的な情報であるグラフと言語的な情報である説明文とをセットで表示することにより、分析者の理解を助けることができる。
【0138】
こうした説明文は、回答インサイト87又は分析用チャットボットのように、大規模言語モデル14を用いて生成することもできる。ここで、一般的な大規模言語モデルを用いた生成AIの出力は正確性に欠くことがしばしばある、という大きな課題がある。そこで、分析装置20は、プロンプトに回答の情報源となる対比データを含めることにより、より正確な回答を出力させることが可能になる。
【0139】
なお、プロンプトとして入力できるトークン長には制限があるため、顧客データの全てをプロンプトに含むことはできない。また、単なる顧客データだけでは、回答の根拠とするのが難しい。その点、対比データは、第1グループと第2グループとの分類に特徴的な1以上の重要属性と各重要属性の寄与度とを含むので、簡潔でありながら有用な情報源となり得る。
【0140】
[本開示の効果]
本開示によれば、以下の効果を奏することができる。
(1)分析装置20は、対比データを指示文とともに大規模言語モデル14に入力することにより、複数の属性の寄与度のような数値データに加えて、第1グループの第2グループとの対比結果を記述した説明文を出力することができる。そのため、対比データを見て2つの顧客グループである第1グループと第2グループとの分析を行う分析者を助けることができる。
【0141】
(2)要約インサイト89とグラフ88とは、同じ対比データに基づいて生成される。そして、要約インサイト89が対応するグラフ88とともに表示されるため、分析者は、要約インサイト89を読むことにより、グラフ88に示されるデータをより理解しやすくなる。
【0142】
(3)説明用アプリケーションの回答インサイト87又は分析用チャットボットでは、ユーザの質問に対する回答として顧客インサイトが出力される。そのため、ユーザ又は分析者は、対比データに含まれる数値データ及びグラフを読み解かなくても、説明文を読むことで対比データの内容を理解することができる。
【0143】
(4)回答インサイト87とグラフ86とは、同じ対比データに基づいて生成される。そして、要約インサイト89が対応するグラフ88とともに表示されるため、分析者は、要約インサイト89を読むことにより、グラフ88に示されるデータをより理解しやすくなる。
【0144】
(5)分析装置20は、第1グループの第2グループとの対比データを生成し、その対比データについての1以上のグラフと共に説明文を出力する。分析者は、説明文を読むことにより、1以上のグラフに示されるデータをより理解しやすくなる。そのため、対比データを見て2つの顧客グループである第1グループと第2グループとの分析を行う分析者を助けることができる。
【0145】
(6)グラフ73b,86,88は、複数の重要属性と、複数の重要属性の各々の寄与度とを示す。そのため、分析者は、第1グループと第2グループとの違いにつながる顧客の重要属性を知り、さらにそれら重要属性がどの程度影響力があるのかを理解することができる。
【0146】
(7)グラフ73b,88において、複数の重要属性は寄与度が大きい順に並んでいる。そのため、ユーザは、重要属性の並び順を見ることにより、それらの関連及び影響度合いを直感的に理解することができる。
【0147】
(8)複数の顧客は、複数のジャンルに亘る商品又はサービスのうち少なくとも1つの取引履歴を有する。そして、ユーザは、入力画面40を介して、複数のジャンルのうち1の指定ジャンルの商品又はサービスの取引履歴を有する複数の顧客の中から、第1グループ及び第2グループのうち少なくとも一方を抽出するように指定することができる。この場合、その指定ジャンルの顧客についての対比データを出力することができる。
【0148】
(9)複数の顧客の少なくとも一部は、複数のジャンルに亘る商品又はサービスを提供する1以上のブランドの取引履歴を有する。そして、ユーザは、入力画面40を介して、1の指定ブランドが提供する1の指定ジャンルの商品又はサービスの取引履歴を有する複数の顧客の中から、第1グループ及び第2グループのうち少なくとも一方を抽出するように指定することができる。この場合、指定ブランドの指定ジャンルの顧客についての対比データを出力することができる。
【0149】
(10)属性データは、各顧客の商品又はサービスの取引金額を含む。グラフ72dは、第1グループと第2グループの各々を構成する顧客の取引金額(例えば、GMS)に係るデータを対比して表示する。こうしたグラフ72dを出力することにより、分析者は、第1グループと第2グループの各々について、購入者の消費傾向を直感的に理解することができる。
【0150】
(11)学習モデル35の計算結果として得られる属性毎の寄与度に基づいて、複数の属性の中から、第1グループと第2グループとを分ける重要属性を推定することができる。
【0151】
(12)対比データは複数の学習モデル35の計算結果を含み、複数の学習モデル35は、互いに異なる属性の組み合わせに係る属性データを用いて生成される。属性の組み合わせは、例えば、一般統計、生活、ショッピング、態度といった規定の組み合わせを用いることもできるし、ユーザが任意に選択して組み合わせにすることもできる。多数の顧客属性の中から特徴的な組み合わせの属性、あるいは関連する組み合わせの属性を選んで学習データとすることにより、第1グループと第2グループとを多面的に対比させることができる。
【0152】
(13)SHAP値を用いることにより、寄与度を定量的に算出することができる。
[変更例]
本実施形態は、以下のように変更して実施することができる。本実施形態及び以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。
【0153】
[変更例1]
データ生成アプリケーション、インサイト要約用アプリケーション及び分析用チャットボットを実現するための各種の処理は、複数の分析装置20が分散して実行してもよい。この場合、3つの分析装置20がそれぞれ個別にデータ生成アプリケーション、インサイト要約用アプリケーション及び分析用チャットボットを実現するのみならず、3つのアプリケーションの実現に必要な複数の処理を、任意の数の分析装置20に分散して実行させてもよい。
【0154】
[変更例2]
データ生成アプリケーション、インサイト要約用アプリケーション及び分析用チャットボットを実現するための全ての処理を1つの分析装置20で実現する場合、分析システム11は1つの装置(例えば、コンピュータ)により実現される。この場合、1つの分析装置20が大規模言語モデル14及び機械学習装置30を備えてもよい。
【0155】
[変更例3]
第1グループ及び第2グループの各々は同じ顧客群を含んでもよい。この場合も、第1グループと第2グループとで異なるデータ期間を設定することで、同じ顧客群の2つの期間での動向についての対比データを得ることができる。こうしたデータによれば、例えば、指定ブランドがシーズン毎、あるいは年ごとに異なる新商品を販売している場合に、それら商品に対する同じ顧客群の購買動向を分析することができる。
【0156】
[変更例4]
データ生成アプリケーションがインサイト要約用アプリケーションの機能を有してもよい。例えば、データ生成アプリケーションのインサイト表示領域74に、インサイト要約用アプリケーションと同様に大規模言語モデル14を利用して生成した説明文(要約インサイト)を表示してもよい。あるいは、結果画面70の「アクション」タブを操作するとメインカラム82が表示されてもよい。この構成によれば、対比データを生成した後に、同じデータ生成アプリケーションを用いてその対比データについての回答インサイト87及び要約インサイト89を得ることができる。その他、データ生成アプリケーション、インサイト要約用アプリケーション、及び分析用チャットボットの各々は、互いの一部又は全部の機能を共有してもよい。
【0157】
[変更例5]
分析装置20は、データ生成アプリケーション、インサイト要約用アプリケーション及び分析用チャットボットのうち1以上の機能を備えなくてもよい。分析装置20がデータ生成アプリケーションを備えない場合、インサイト要約用アプリケーション及び分析用チャットボットが生成済の対比データを取得すればよい。この場合、分析システム11は、学習モデル35を生成するための機械学習装置30を備えなくてもよい。
【0158】
[変更例6]
インサイト要約用アプリケーションは、回答インサイト87と要約インサイト89の何れか一方のみを提供してもよい。
【0159】
上記実施形態及び変更例に基づいて把握される態様を以下に列記する。
[1]プログラムを格納するように構成された少なくとも1つのメモリと、
前記プログラムの内容に基づいて1以上の処理を実行するように構成された少なくとも1つのプロセッサと、を備える分析システムであって、
前記1以上の処理が、
第1グループと第2グループとの対比データを取得する処理であって、前記第1グループ及び前記第2グループは、ユーザの指示に基づいて顧客データに含まれる複数の顧客の中からそれぞれ抽出され、前記顧客データは、前記各顧客が有する複数の属性に係る属性データを含み、前記対比データが、前記第1グループの前記第2グループとの対比に有効な複数の重要属性と、前記各重要属性の前記対比における寄与度とを含む、処理と、
前記第1グループと前記第2グループとを対比するための1以上の指示文を前記対比データと共に大規模言語モデルに入力する処理と、
前記大規模言語モデルの出力に基づいて前記第1グループの前記第2グループとの対比結果を記述した説明文を出力する処理と、
を含む、分析システム。
【0160】
[2]前記1以上の処理が、前記対比データに基づいて生成された1以上のグラフを、前記説明文とともに出力する処理を含む、
上記[1]に記載の分析システム。
【0161】
[3]前記1以上の処理が、
前記ユーザにより入力された、前記第1グループと前記第2グループとの対比に係る質問を取得する処理と、
前記複数の属性の中から前記質問に関連する1以上の関連属性を選択する処理と、
前記1以上の関連属性の中から前記寄与度が高い規定数の関連属性を選択する処理と、
を含み、
前記対比データを取得する処理において、前記規定数の関連属性が前記複数の重要属性であり、
前記大規模言語モデルに入力する処理において、前記1以上の指示文が前記質問に回答させるための指示文を含み、
前記説明文を出力する処理において、前記説明文が前記質問に対する回答を含む、
上記[1]に記載の分析システム。
【0162】
[4]前記1以上の処理が、前記対比データに基づいて生成された1以上のグラフを、前記説明文とともに出力する処理を含む、
上記[3]に記載の分析システム。
【0163】
[5]プログラムを格納するように構成された少なくとも1つのメモリと、
前記プログラムの内容に基づいて1以上の処理を実行するように構成された少なくとも1つのプロセッサと、を備える分析システムであって、
前記1以上の処理が、
ユーザの指示に基づいて顧客データに含まれる複数の顧客の中から第1グループと第2グループとをそれぞれ抽出する処理であって、前記顧客データが、前記各顧客が有する複数の属性に係る属性データを含む、処理と、
前記第1グループと前記第2グループとの対比データを生成する処理であって、前記対比データが、前記第1グループの前記第2グループとの対比に有効な複数の重要属性と、前記各重要属性の前記対比における寄与度とを含む、処理と、
前記対比データについての1以上のグラフを生成する処理と、
前記1以上のグラフについての説明文を生成する処理と、
前記1以上のグラフと共に前記説明文を出力する処理と、
を含む、分析システム。
【0164】
[6]前記1以上のグラフは、前記複数の重要属性と、前記複数の重要属性の各々の前記寄与度とを示すグラフを含む、
上記[2][4][5]のうち何れかに記載の分析システム。
【0165】
[7]前記複数の重要属性は前記寄与度が大きい順に並んでいる、
上記[6]に記載の分析システム。
[8]前記複数の顧客は、複数のジャンルに亘る商品又はサービスのうち少なくとも1つの取引履歴を有し、
前記ユーザの指示は、前記複数のジャンルのうち1の指定ジャンルの商品又はサービスの取引履歴を有する複数の顧客の中から、前記第1グループ及び前記第2グループのうち少なくとも一方を抽出することを含む、
上記[1]~[7]のうちに何れかに記載の分析システム。
【0166】
[9]前記複数の顧客の少なくとも一部は、複数のジャンルに亘る商品又はサービスを提供する、複数のブランドの取引履歴を有し、
前記ユーザの指示は、複数のブランドのうち1のブランドが提供する、1の指定ジャンルの商品又はサービスの取引履歴を有する複数の顧客の中から、前記第1グループ及び前記第2グループのうち少なくとも一方を抽出することを含む、
上記[1]~[8]のうち何れかに記載の分析システム。
【0167】
[10]前記属性データは、前記各顧客の商品又はサービスの取引金額を含み、
前記1以上のグラフは、前記第1グループと前記第2グループの各々を構成する顧客の前記取引金額に係るデータを対比して表示するグラフを含む、
上記[1]~[9]のうち何れかに記載の分析システム。
【0168】
[11]前記対比データは、1以上の学習モデルの計算結果を含み、
前記各学習モデルは、前記複数の顧客の各々が前記第1グループと前記第2グループのどちらに属するかを予測する分類器であり、
前記計算結果は、前記複数の顧客の各々が前記第1グループと前記第2グループとのどちらに属するかの予測の結果と、当該予測における前記属性毎の寄与度と、を含む、
上記[1]~[10]のうち何れかに記載の分析システム。
【0169】
[12]前記1以上の学習モデルは複数の学習モデルを含み、
前記複数の学習モデルを生成するために使用される学習データは、互いに異なる属性の組み合わせに係る属性データを含む、
上記[11]に記載の分析システム。
【0170】
[13]前記予測における前記属性毎の寄与度は、SHAP(SHapley Additive exPlanations)値として算出される、
上記[11]又は[12]に記載の分析システム。
【0171】
[14]1以上のコンピュータに、
第1グループと第2グループとの対比データを取得する処理であって、前記第1グループ及び前記第2グループは、ユーザの指示に基づいて顧客データに含まれる複数の顧客の中からそれぞれ抽出され、前記顧客データは、前記各顧客が有する複数の属性に係る属性データを含み、前記対比データが、前記第1グループの前記第2グループとの対比に有効な複数の重要属性と、前記各重要属性の前記対比における寄与度とを含む、処理と、
前記第1グループと前記第2グループとを対比するための1以上の指示文を前記対比データと共に大規模言語モデルに入力する処理と、
前記大規模言語モデルの出力に基づいて前記第1グループの前記第2グループとの対比結果を記述した説明文を出力する処理と、
を実行させることを含む、分析方法。
【0172】
[15]1以上のコンピュータに、
ユーザの指示に基づいて顧客データに含まれる複数の顧客の中から第1グループと第2グループとをそれぞれ抽出する処理であって、前記顧客データが、前記各顧客が有する複数の属性に係る属性データを含む、処理と、
前記第1グループと前記第2グループとの対比データを生成する処理であって、前記対比データが、前記第1グループの前記第2グループとの対比に有効な複数の重要属性と、前記各重要属性の前記対比における寄与度とを含む、処理と、
前記対比データについての1以上のグラフを生成する処理と、
前記1以上のグラフについての説明文を生成する処理と、
前記1以上のグラフと共に前記説明文を出力する処理と、
を実行させることを含む、分析方法。
【0173】
[16]1以上のコンピュータに、
第1グループと第2グループとの対比データを取得する処理であって、前記第1グループ及び前記第2グループは、ユーザの指示に基づいて顧客データに含まれる複数の顧客の中からそれぞれ抽出され、前記顧客データは、前記各顧客が有する複数の属性に係る属性データを含み、前記対比データが、前記第1グループの前記第2グループとの対比に有効な複数の重要属性と、前記各重要属性の前記対比における寄与度とを含む、処理と、
前記第1グループと前記第2グループとを対比するための1以上の指示文を前記対比データと共に大規模言語モデルに入力する処理と、
前記大規模言語モデルの出力に基づいて前記第1グループの前記第2グループとの対比結果を記述した説明文を出力する処理と、
を実行させる、プログラム。
【0174】
[17]1以上のコンピュータに、
ユーザの指示に基づいて顧客データに含まれる複数の顧客の中から第1グループと第2グループとをそれぞれ抽出する処理であって、前記顧客データが、前記各顧客が有する複数の属性に係る属性データを含む、処理と、
前記第1グループと前記第2グループとの対比データを生成する処理であって、前記対比データが、前記第1グループの前記第2グループとの対比に有効な複数の重要属性と、前記各重要属性の前記対比における寄与度とを含む、処理と、
前記対比データについての1以上のグラフを生成する処理と、
前記1以上のグラフについての説明文を生成する処理と、
前記1以上のグラフと共に前記説明文を出力する処理と、
を実行させる、プログラム。
【符号の説明】
【0175】
11…分析システム、12…ネットワーク、13…データベース、14…大規模言語モデル、15…ユーザ端末、16…ディスプレイ、17~19,72a~72d,73b,75a,76a,78,78a~78e,86,88…グラフ、20…分析装置、21,31…プロセッサ、22,32…メモリ、23,33…通信インタフェース、24,34…プログラム、25…対比データ、30…機械学習装置、35…学習モデル、40…入力画面、41,81…サイドバー、42,82…メインカラム、43…アカウント入力欄、44…アクション選択欄、45…設定ボタン、46~48…オプション設定欄、50…設定領域、51,61…名称入力欄、52,56,62,66,70b…選択欄、53,63,54,64,83,91…入力欄、55,65,73a…選択ボタン、59…確認ボタン、60…設定領域、69…決定ボタン、70…結果画面、70a…タイトル、70c…表示欄、71…ナビゲーションカラム、72…表示領域、73…グラフ表示領域、74…インサイト表示領域、75~77…ボタン、75b…混同行列、80…表示画面、82a,82b…タブ、83…ユーザ名入力欄、84…データセット選択欄、85…質問入力欄、87…インサイト、87…回答インサイト、89…要約インサイト、90…チャット画面、92…送信ボタン、93…ボット吹き出し、94…ユーザ吹き出し。
【要約】
【課題】分析システム、分析方法、及びプログラムを提供する。
【解決手段】分析方法は、1以上のコンピュータに、第1グループと第2グループとの対比データを取得する処理であって、第1グループ及び第2グループは、ユーザの指示に基づいて顧客データに含まれる複数の顧客の中からそれぞれ抽出され、顧客データは、各顧客が有する複数の属性に係る属性データを含み、対比データが、第1グループの第2グループとの対比に有効な複数の重要属性と、各重要属性の対比における寄与度とを含む、処理と、第1グループと第2グループとを対比するための1以上の指示文を対比データと共に大規模言語モデルに入力する処理と、大規模言語モデルの出力に基づいて第1グループの第2グループとの対比結果を記述した説明文を出力する処理と、を実行させることを含む。
【選択図】
図1