IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社アサツーディ・ケイの特許一覧

特許7680505情報処理装置、方法、プログラム、およびシステム
<>
  • 特許-情報処理装置、方法、プログラム、およびシステム 図1
  • 特許-情報処理装置、方法、プログラム、およびシステム 図2
  • 特許-情報処理装置、方法、プログラム、およびシステム 図3
  • 特許-情報処理装置、方法、プログラム、およびシステム 図4
  • 特許-情報処理装置、方法、プログラム、およびシステム 図5
  • 特許-情報処理装置、方法、プログラム、およびシステム 図6
  • 特許-情報処理装置、方法、プログラム、およびシステム 図7
  • 特許-情報処理装置、方法、プログラム、およびシステム 図8
  • 特許-情報処理装置、方法、プログラム、およびシステム 図9
  • 特許-情報処理装置、方法、プログラム、およびシステム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-05-12
(45)【発行日】2025-05-20
(54)【発明の名称】情報処理装置、方法、プログラム、およびシステム
(51)【国際特許分類】
   G06Q 30/0203 20230101AFI20250513BHJP
   G06N 20/00 20190101ALI20250513BHJP
   G06Q 50/10 20120101ALI20250513BHJP
   G06F 16/906 20190101ALI20250513BHJP
【FI】
G06Q30/0203
G06N20/00 130
G06Q50/10
G06F16/906
【請求項の数】 12
(21)【出願番号】P 2023141895
(22)【出願日】2023-09-01
(65)【公開番号】P2025035094
(43)【公開日】2025-03-13
【審査請求日】2024-06-03
(73)【特許権者】
【識別番号】503066778
【氏名又は名称】株式会社ADKマーケティング・ソリューションズ
(74)【代理人】
【識別番号】110002815
【氏名又は名称】IPTech弁理士法人
(72)【発明者】
【氏名】藤森 賢一
(72)【発明者】
【氏名】沼田 洋一
【審査官】佐藤 敬介
(56)【参考文献】
【文献】特開2023-037406(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
G06N 20/00
G06F 16/906
(57)【特許請求の範囲】
【請求項1】
コンピュータを、
複数の質問からなるアンケート調査に対する複数の回答者の回答内容と当該複数の回答者が当該回答内容の組み合わせに基づいて分類された各々のクラスタリング結果とに基づく第1学習データを用いた教師あり学習により作成され、決定木構造を有する第1分類モデルによって行われる、前記回答者分類に対する前記複数の質問に関するデータである特徴量の重要度であって、前記重要度は、前記特徴量のゲインまたは頻度の少なくとも1つに基づく値を算出する手段、
前記重要度に基づいて第1学習データから一部の質問に関するデータを除外した第2学習データを取得する手段、
前記第2学習データを用いて教師あり学習を行い、第2分類モデルを作成する手段、
として機能させ
前記第2学習データを取得する手段は、前記クラスタリングにおいて参照された前記質問のうち、前記第2分類モデルを用いて分類を実施する対象者に回答してもらう簡易アンケート調査において維持する対象質問または前記簡易アンケート調査において除外する非対象質問の選択入力を受け入れ、前記非対象質問に対応する特徴量を除外することで、前記第2学習データを取得し、
前記第2分類モデルを作成する手段は、前記対象質問に対する前記回答内容の組み合わせと、当該回答者が分類されたクラスタとの相関関係についての学習により、前記第2分類モデルを作成する
プログラム。
【請求項2】
前記コンピュータを、前記複数の質問の重要度を出力する手段、として機能させる、
請求項1に記載のプログラム。
【請求項3】
前記出力する手段は、前記複数の質問を前記重要度の降順または昇順に表示するための情報を出力する、
請求項2に記載のプログラム。
【請求項4】
前記コンピュータを、ユーザ指示に応じて、前記複数の質問のうち対象質問を特定する手段、として機能させ、
前記第2学習データは、前記複数の質問のうち前記対象質問に該当しない非対象質問に対応する特徴量を前記第1学習データから取り除いたデータである、
請求項1に記載のプログラム。
【請求項5】
前記ユーザ指示は、前記対象質問の上限数を示し、
前記特定する手段は、前記重要度の降順に、前記対象質問の上限数を超えない範囲で前記対象質問を特定する、
請求項4に記載のプログラム。
【請求項6】
前記ユーザ指示は、前記複数の質問の少なくとも一部に対して前記対象質問または前記非対象質問のいずれであるかを指定し、
前記特定する手段は、前記複数の質問の各々が前記対象質問または前記非対象質問のいずれに指定されたかに応じて前記対象質問を特定する、
請求項4に記載のプログラム。
【請求項7】
前記コンピュータを、
前記第1分類モデルの分類精度と、前記第2分類モデルの分類精度とを算出する手段、
前記第1分類モデルの分類精度と、前記第2分類モデルの分類精度とを出力する手段、
としてさらに機能させる、請求項1に記載のプログラム。
【請求項8】
前記コンピュータを、前記複数の質問のうち対象質問を特定する手段、として機能させ、
前記第2学習データは、前記複数の質問のうち対象質問に該当しない非対象質問に対応する特徴量を前記第1学習データから取り除いたデータであり、
前記特定する手段は、前記第1分類モデルの分類精度および前記第2分類モデルの分類精度の出力後に、前記対象質問を変更するユーザ指示を受け付け可能に構成され、
前記第2分類モデルを作成する手段は、前記対象質問を変更するユーザ指示が受け付けられた場合に、前記対象質問の変更に応じて前記第2学習データを変更し、変更した前記第2学習データを用いて教師あり学習を行い、前記第2分類モデルを再作成する、
請求項に記載のプログラム。
【請求項9】
前記複数の質問は全て、選択回答形式の質問からなる、
請求項1に記載のプログラム。
【請求項10】
コンピュータが、
複数の質問からなるアンケート調査に対する複数の回答者の回答内容と当該複数の回答者が当該回答内容の組み合わせに基づいて分類された各々のクラスタリング結果とに基づく第1学習データを用いた教師あり学習により作成され、決定木構造を有する第1分類モデルによって行われる、前記回答者分類に対する前記複数の質問に関するデータである特徴量の重要度であって、前記重要度は、前記特徴量のゲインまたは頻度の少なくとも1つに基づく値を算出するステップと、
複数の質問からなるアンケート調査に対する複数の回答者の回答内容と当該複数の回答者の各々の前記クラスタリング結果とに基づく第1学習データを用いた教師あり学習により作成された第1分類モデルによって行われる分類に対する前記複数の質問の重要度を算出するステップと、
前記重要度に基づいて第1学習データから一部の質問に関するデータを除外した第2学習データを取得するステップと、
前記第2学習データを用いて教師あり学習を行い、第2分類モデルを作成するステップと
を実行し、
前記第2学習データを取得するステップでは、前記クラスタリングにおいて参照された前記質問のうち、前記第2分類モデルを用いて分類を実施する対象者に回答してもらう簡易アンケート調査において維持する対象質問または前記簡易アンケート調査において除外する非対象質問の選択入力を受け入れ、前記非対象質問に対応する特徴量を除外することで、前記第2学習データを取得し、
前記第2分類モデルを作成するステップでは、前記対象質問に対する前記回答内容の組み合わせと、当該回答者が分類されたクラスタとの相関関係についての学習により、前記第2分類モデルを作成する
方法。
【請求項11】
複数の質問からなるアンケート調査に対する複数の回答者の回答内容と当該複数の回答者が当該回答内容の組み合わせに基づいて分類された各々のクラスタリング結果とに基づく第1学習データを用いた教師あり学習により作成され、決定木構造を有する第1分類モデルによって行われる、前記回答者分類に対する前記複数の質問に関するデータである特徴量の重要度であって、前記重要度は、前記特徴量のゲインまたは頻度の少なくとも1つに基づく値を算出する手段と、
前記重要度に基づいて第1学習データから一部の質問に関するデータを除外した第2学習データを取得する手段と、
前記第2学習データを用いて教師あり学習を行い、第2分類モデルを作成する手段と
を具備し、
前記第2学習データを取得する手段は、前記クラスタリングにおいて参照された前記質問のうち、前記第2分類モデルを用いて分類を実施する対象者に回答してもらう簡易アンケート調査において維持する対象質問または前記簡易アンケート調査において除外する非対象質問の選択入力を受け入れ、前記非対象質問に対応する特徴量を除外することで、前記第2学習データを取得し、
前記第2分類モデルを作成する手段は、前記対象質問に対する前記回答内容の組み合わせと、当該回答者が分類されたクラスタとの相関関係についての学習により、前記第2分類モデルを作成する
情報処理装置。
【請求項12】
複数の情報処理装置によって構成されるシステムであって、
複数の質問からなるアンケート調査に対する複数の回答者の回答内容と当該複数の回答者が当該回答内容の組み合わせに基づいて分類された各々のクラスタリング結果とに基づく第1学習データを用いた教師あり学習により作成され、決定木構造を有する第1分類モデルによって行われる、前記回答者分類に対する前記複数の質問に関するデータである特徴量の重要度であって、前記重要度は、前記特徴量のゲインまたは頻度の少なくとも1つに基づく値を算出する手段と、
前記重要度に基づいて第1学習データから一部の質問に関するデータを除外した第2学習データを取得する手段と、
前記第2学習データを用いて教師あり学習を行い、第2分類モデルを作成する手段と
を具備し、
前記第2学習データを取得する手段は、前記クラスタリングにおいて参照された前記質問のうち、前記第2分類モデルを用いて分類を実施する対象者に回答してもらう簡易アンケート調査において維持する対象質問または前記簡易アンケート調査において除外する非対象質問の選択入力を受け入れ、前記非対象質問に対応する特徴量を除外することで、前記第2学習データを取得し、
前記第2分類モデルを作成する手段は、前記対象質問に対する前記回答内容の組み合わせと、当該回答者が分類されたクラスタとの相関関係についての学習により、前記第2分類モデルを作成する
システム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、方法、プログラム、およびシステムに関する。
【背景技術】
【0002】
例えば特定のWebサイトのユーザなどの集団から抽出された小集団(標本)に対してアンケート調査を行い、回答をクラスタリングすることで、当該集団を構成する特徴的なクラスタ(グループ)の可視化が可能となる。
【0003】
特許文献1には、アンケートの自由回答式の質問への回答に機械学習の技術を適用し、効率よく精度の高い分類を行うことを企図した技術的思想が開示されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2023-037406号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
一般に、設問数が多くなるほど、回答作業は煩雑となるので、アンケート調査の回答率が下がったり、真摯に回答を行わない者が増えたりするなどの問題が懸念される。他方、設問数が少なくなるほど、クラスタリングの質が下がりやすく、適切なクラスタを定義できなくなったり、回答者がどのクラスタに属するかを適切に判定(分類)できなくなったりするおそれがある。
【0006】
本開示の目的は、回答が必要な質問の数を削減しながら、回答者が属するクラスタを適切に判定することである。
【課題を解決するための手段】
【0007】
本開示の一態様のプログラムは、コンピュータを、複数の質問からなるアンケート調査に対する複数の回答者の回答内容と当該複数の回答者の各々のクラスタリング結果とに基づく第1学習データを用いた教師あり学習により作成された第1分類モデルによって行われる分類に対する複数の質問の重要度を算出する手段、重要度に基づいて第1学習データから一部の質問に関するデータを除外した第2学習データを取得する手段、第2学習データを用いて教師あり学習を行い、第2分類モデルを作成する手段、として機能させる。
【図面の簡単な説明】
【0008】
図1】本実施形態の情報処理システムの構成を示すブロック図である。
図2】本実施形態のクライアント装置の構成を示すブロック図である。
図3】本実施形態のサーバの構成を示すブロック図である。
図4】本実施形態の一態様の説明図である。
図5】本実施形態の第1学習データのデータ構造を示す図である。
図6】本実施形態の第2学習データのデータ構造を示す図である。
図7】本実施形態の第1分類モデル作成処理のフローチャートである。
図8】本実施形態の第2分類モデル作成処理のフローチャートである。
図9】本実施形態の第2分類モデル作成処理において表示される画面例を示す図である。
図10】本実施形態の第2分類モデル編集処理のフローチャートである。
【発明を実施するための形態】
【0009】
以下、本発明の一実施形態について、図面に基づいて詳細に説明する。なお、実施形態を説明するための図面において、同一の構成要素には原則として同一の符号を付し、その繰り返しの説明は省略する。
【0010】
(1)情報処理システムの構成
情報処理システムの構成について説明する。図1は、本実施形態の情報処理システムの構成を示すブロック図である。
【0011】
図1に示すように、情報処理システム1は、クライアント装置10と、サーバ30とを備える。
クライアント装置10及びサーバ30は、ネットワーク(例えば、インターネット又はイントラネット)NWを介して接続される。
【0012】
クライアント装置10は、サーバ30にリクエストを送信する情報処理装置の一例である。クライアント装置10は、例えば、スマートフォン、タブレット端末、又は、パーソナルコンピュータである。クライアント装置10のユーザは、後述する第2分類モデルの作成サービスの提供を受ける者である。
【0013】
サーバ30は、クライアント装置10から送信されたリクエストに応じたレスポンスをクライアント装置10に提供する情報処理装置の一例である。サーバ30は、例えば、サーバコンピュータである。
【0014】
(1-1)クライアント装置の構成
クライアント装置の構成について説明する。図2は、本実施形態のクライアント装置の構成を示すブロック図である。
【0015】
図2に示すように、クライアント装置10は、記憶装置11と、プロセッサ12と、入出力インタフェース13と、通信インタフェース14とを備える。クライアント装置10は、ディスプレイ21に接続される。
【0016】
記憶装置11は、プログラム及びデータを記憶するように構成される。記憶装置11は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、及び、ストレージ(例えば、フラッシュメモリ又はハードディスク)の組合せである。
【0017】
プログラムは、例えば、以下のプログラムを含む。
・OS(Operating System)のプログラム
・情報処理を実行するアプリケーション(例えば、ウェブブラウザ)のプログラム
【0018】
データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理を実行することによって得られるデータ(つまり、情報処理の実行結果)
【0019】
プロセッサ12は、記憶装置11に記憶されたプログラムを起動することによって、クライアント装置10の機能を実現するコンピュータである。プロセッサ12は、例えば、以下の少なくとも1つである。
・CPU(Central Processing Unit)
・GPU(Graphic Processing Unit)
・ASIC(Application Specific Integrated Circuit)
・FPGA(Field Programmable Gate Array)
【0020】
入出力インタフェース13は、クライアント装置10に接続される入力デバイスから情報(例えばユーザの指示)を取得し、かつ、クライアント装置10に接続される出力デバイスに情報(例えば画像)を出力するように構成される。
入力デバイスは、例えば、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
出力デバイスは、例えば、ディスプレイ21、スピーカ、又は、それらの組合せである。
【0021】
通信インタフェース14は、クライアント装置10と外部装置(例えばサーバ30)との間の通信を制御するように構成される。
【0022】
ディスプレイ21は、画像(静止画、または動画)を表示するように構成される。ディスプレイ21は、例えば、液晶ディスプレイ、または有機ELディスプレイである。
【0023】
(1-2)サーバの構成
サーバの構成について説明する。図3は、本実施形態のサーバの構成を示すブロック図である。
【0024】
図3に示すように、サーバ30は、記憶装置31と、プロセッサ32と、入出力インタフェース33と、通信インタフェース34とを備える。
【0025】
記憶装置31は、プログラム及びデータを記憶するように構成される。記憶装置31は、例えば、ROM、RAM、及び、ストレージ(例えば、フラッシュメモリ又はハードディスク)の組合せである。
【0026】
プログラムは、例えば、以下のプログラムを含む。
・OSのプログラム
・情報処理を実行するアプリケーションのプログラム
【0027】
データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理の実行結果
【0028】
プロセッサ32は、記憶装置31に記憶されたプログラムを起動することによって、サーバ30の機能を実現するコンピュータである。プロセッサ32は、例えば、以下の少なくとも1つである。
・CPU
・GPU
・ASIC
・FPGA
【0029】
入出力インタフェース33は、サーバ30に接続される入力デバイスから情報(例えばユーザの指示)を取得し、かつ、サーバ30に接続される出力デバイスに情報(例えば画像)を出力するように構成される。
入力デバイスは、例えば、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
出力デバイスは、例えば、ディスプレイである。
【0030】
通信インタフェース34は、サーバ30と外部装置(例えばクライアント装置10)との間の通信を制御するように構成される。
【0031】
(2)実施形態の一態様
本実施形態の一態様について説明する。図4は、本実施形態の一態様の説明図である。
【0032】
図4に示すように、複数の質問(設問)を含むアンケート調査が多数の回答者RS1を対象に行われる。回答結果AR2は、回答者毎に、複数の質問のそれぞれに対する回答内容を含む。つまり、各回答者の回答結果AR2は、各質問に対する回答内容を要素とするベクトルで表現可能である。アンケート調査は、典型的には、選択回答形式の質問からなるWebアンケートが利用されるが、この例に限られない。
【0033】
分析者AN3は、回答結果AR2に基づいて回答者RS1のクラスタリングを行う。すなわち、分析者AN3は、回答結果AR2の類否に応じ回答者RS1を複数のクラスタに分類する。クラスタリング手法として、例えばk-means法などのアルゴリズムを利用可能である。また、分析者AN3は、クラスタリングの目的に応じて参照する質問(回答)項目を絞り込んだり、因子分析の活用により項目の統合などを行ったりしてもよい。つまり、クラスタリングにおいて参照される質問の数は、当初のアンケート調査に含まれる質問の数に比べて削減され得る。また、分析者AN3は、典型的には人間であるが、かかる機械学習(教師なし学習)によりクラスタリングを行うことも可能である。
【0034】
サーバ30は、各回答者RS1の回答結果およびクラスタリング結果(つまり、各回答者RS1が複数の質問(クラスタリングにおいて参照された質問)に対する回答内容の組み合わせと、当該回答者RS1が当該回答内容の組み合わせに基づいて分類されたクラスタを示す情報)に基づく第1学習データを取得する。サーバ30は、各回答者による複数の質問に対する回答内容の組み合わせと、当該回答者が当該回答内容の組み合わせに基づいて分類されたクラスタとの相関関係についての学習(第1学習データを用いた教師あり学習)により、第1分類モデルLM4を作成する。第1分類モデルLM4によれば、回答者RS1に含まれていなかった新規の回答者であっても、複数(クラスタリングにおいて参照された質問数と同じであり、一例として30個)の質問に回答してもらうことで、当該新規の回答者が属するクラスタを判定(分類)することができる。なお、サーバ30の代わりに、他の情報処理装置が第1分類モデルLM4を作成するための処理を行ってもよい。
【0035】
サーバ30は、第1分類モデルLM4によって行われる分類に対する上記複数の質問(クラスタリングにおいて参照された複数の質問)の重要度を個別に算出する。サーバ30は、算出した重要度に基づいて、第1学習データから一部の質問に関するデータ(特徴量)を除外した第2学習データを取得する。サーバ30は、各回答者による複数の質問(除外の対象とならなかった質問)に対する回答内容の組み合わせと、当該回答者が分類されたクラスタとの相関関係についての学習(第2学習データを用いた教師あり学習)により、第2分類モデルを作成する。第2分類モデルによれば、回答者RS1に含まれていなかった新規の回答者であっても、上記複数(クラスタリングにおいて参照された質問数よりも少なく、一例として10個)の質問に回答してもらうことで、当該新規の回答者が属するクラスタを適切に判定(分類)することができる。つまり、回答者をクラスタに分類するために必要な質問の数を削減できるので、回答率を高められる。例えば、第2分類モデルを顧客分析に応用することで、より多くの顧客に対して分類を行い、分類結果に応じた効果的な販促活動(例えば広告)を行いやすくなる。
【0036】
(3)学習データ
本実施形態の学習データについて説明する。
【0037】
(3-1)第1学習データ
本実施形態の第1学習データについて説明する。図5は、本実施形態の第1学習データのデータ構造を示す図である。
【0038】
図5に示すように、第1学習データは、複数組のデータからなる。各データは、複数(本例では、N個とする)の要素からなる特徴量と、当該特徴量に対応する正解データとからなる。Nは、2以上の整数である。特徴量の各要素は、対応する回答者が、アンケートに含まれるN個の質問(クラスタリングにおいて参照された質問)に対して行った回答内容を表す。例えば、回答#1の要素は、質問#1に対する回答内容である。特徴量に対応する正解データは、対応する回答者が、クラスタリングにおいて割り当てられたクラスタを表す。
【0039】
(3-2)第2学習データ
本実施形態の第2学習データについて説明する。図6は、本実施形態の第2学習データのデータ構造を示す図である。
【0040】
図6に示すように、第2学習データは、複数組のデータからなる。各データは、複数(本例では、N-i個とする)の要素からなる特徴量と、当該特徴量に対応する正解データとからなる。iは、1以上であって、Nより小さい整数である。第2学習データは、第1学習データの特徴量から特定のi個の要素を除外することで得られる。つまり、特徴量の各要素は、対応する回答者が、アンケートに含まれるN個の質問(クラスタリングにおいて参照された質問からi個の質問を除外したN-i個の質問)に対して行った回答内容を表す。例えば、回答#4の要素は、質問#4に対する回答内容である。特徴量に対応する正解データは、対応する回答者が、クラスタリングにおいて割り当てられたクラスタを表す。
【0041】
(4)情報処理
本実施形態の情報処理について説明する。
【0042】
(4-1)第1分類モデル作成処理
本実施形態の第1分類モデル作成処理について説明する。図7は、本実施形態の第1分類モデル作成処理のフローチャートである。
【0043】
図7の処理は、クライアント装置10または他の情報処理装置のユーザからの指示(例えば、第1分類モデルの作成指示)に応じて開始し得る。或いは、図7の処理は、クラスタリングの完了(つまり、第1学習データの作成の完了)をトリガとして開始してもよい。ただし、図7の処理の開始条件は、これらの例に限られない。第1分類モデル作成処理は、サーバ30(つまり、第2分類モデル作成処理の実行主体)とは異なる情報処理装置によって実行されてもよい。
【0044】
図7に示すように、サーバ30は、第1学習データの取得(S130)を実行する。
具体的には、サーバ30は、第1学習データ(図5)を記憶装置31または外部の情報処理装置から取得する。
【0045】
第1学習データの取得(S130)の第1例として、クライアント装置10(または他の情報処理装置)は、事前に行われたクラスタリングの入出力データ(つまり、回答者毎の複数の質問に対する回答内容の組み合わせと当該回答者が属すると判定されたクラスタを示す情報)を保存したファイル(例えば、csv形式のファイル)をサーバ30へ送信する。サーバ30は、かかるファイルを第1学習データとして取得する。
【0046】
第1学習データの取得(S130)の第2例として、クライアント装置10(または他の情報処理装置)のユーザ(第2分類モデルの作成サービスの提供を受ける者とは異なる人物であってもよい)は、記憶装置31または外部記憶装置(クラウドサーバ等を含み得る)に格納されている、過去に実施された複数のクラスタリングの入出力データを保存したファイルのうち、いずれかのクラスタリングに対応するファイルを選択する。クライアント装置10は、選択されたファイルを示す情報をサーバ30へ送信する。サーバ30は、選択されたファイルを第1学習データとして取得する。
【0047】
第1学習データの取得(S130)の第3例として、サーバ30は、第1分類モデル作成処理の直前に実行されたクラスタリングの入出力データを保存したファイルを第1学習データとして取得する。
【0048】
ステップS130の後に、サーバ30は、第1分類モデルの作成(S131)を実行する。
具体的には、サーバ30は、ステップS130において取得した第1学習データを用いた教師あり学習により、第1分類モデルを構築する。第1学習データに含まれる各特徴量の入力に対し、対応する正解データ(対応する回答者のクラスタ)を推論するように、第1分類モデルの学習(訓練)が行われる。
【0049】
第1分類モデルは、決定木構造を備え得るが、これに限られず例えば分類モデルを解くことができる任意なモデルであってよい。第1分類モデルの機械学習アルゴリズムとして、例えば、LightGBMが利用可能である。ただし、第1分類モデルの機械学習アルゴリズムは、LightGBMに限られず、他の勾配ブースティング決定木アルゴリズム(例えば、XGBoost、RandomForest、またはCatboos、など)、またはランダムフォレストなどを利用可能である。
【0050】
サーバ30は、ステップS130において取得した第1学習データのうち一部を第1分類モデルの訓練ではなく検証(つまり、ハイパーパラメータの調整)またはテスト(モデル評価)のために用いてもよい。検証用またはテスト用のデータの比率または個数は、予め定められていてもよいし、クライアント装置10(または他の情報処理装置)のユーザによって指定されてもよいし、アルゴリズムにより決定されてもよい。
【0051】
(4-2)第2分類モデル作成処理
本実施形態の第2分類モデル作成処理について説明する。図8は、本実施形態の第2分類モデル作成処理のフローチャートである。図9は、本実施形態の第2分類モデル作成処理において表示される画面例を示す図である。
【0052】
図8の処理は、クライアント装置10のユーザからの指示(例えば、第2分類モデルの作成指示)に応じて開始し得る。或いは、図8の処理は、第1分類モデル作成処理(図7)の完了をトリガとして開始してもよい。ただし、図8の処理の開始条件は、これらの例に限られない。
【0053】
図8に示すように、サーバ30は、モデル・データの取得(S230)を実行する。
具体的には、サーバ30は、第2分類モデルのベースとなる第1分類モデルおよび第1学習データを、記憶装置31または外部の情報処理装置から取得する。
【0054】
モデル・データの取得(S230)の第1例として、クライアント装置10は、第1分類モデルおよび第1学習データをサーバ30へ送信する。サーバ30は、クライアント装置10によって送信された第1分類モデルおよび第1学習データを取得する。
【0055】
モデル・データの取得(S230)の第2例として、クライアント装置10のユーザは、記憶装置31または外部記憶装置(クラウドサーバ等を含み得る)に格納されている、過去に作成された第1分類モデルのうち、いずれかの第1分類モデルを選択する。或いは、第1分類モデルの代わりに、第1学習データを選択するようにしてもよい。クライアント装置10は、選択された第1分類モデルを示す情報をサーバ30へ送信する。サーバ30は、選択された第1分類モデルと、当該第1分類モデルの学習に用いられた第1学習データとを取得する。
【0056】
モデル・データの取得(S230)の第3例として、サーバ30は、第2分類モデル作成処理の直前に実行された第1分類モデル作成処理(図7)によって作成された第1分類モデルと、当該第1分類モデルの学習に用いられた第1学習データとを取得する。
【0057】
ステップS230の後に、サーバ30は、各質問の重要度の算出(S231)を実行する。
具体的には、サーバ30は、各特徴量が第1分類モデルによる分類の過程に及ぼす影響の大きさの指標を、当該特徴量に対する質問の重要度として算出する。一例として、サーバ30は、第1分類モデルが決定木構造を備える場合に、各特徴量のゲインまたは頻度の少なくとも1つに基づく値を、当該特徴量に対応する質問の重要度として算出する。特徴量のゲインは、第1分類モデルの表す決定木構造において当該特徴量を使用することでリーフ(目的変数)にどの程度近づけるかを表す。特徴量の頻度は、第1分類モデルの表す決定木構造において当該特徴量がノードとして採用された回数を表す。
【0058】
ステップS231の後に、サーバ30は、重要度の出力(S232)を実行する。
具体的には、サーバ30は、ステップS231において算出した各質問の重要度を出力する。一例として、サーバ30は、各質問の重要度を表示するための情報をクライアント装置10へ送信する。この情報は、例えば、各質問の重要度を示す画面の生成に必要な情報、または当該画面情報であってもよい。クライアント装置10は、例えば図9の画面をディスプレイ21に表示する。
【0059】
図9の画面は、オブジェクトJ20~J23を含む。
オブジェクトJ20は、クライアント装置10のユーザに、クラスタリングにおいて参照された複数の質問のうち、簡易アンケート調査において維持する質問(以下、「対象質問」という)、または簡易アンケート調査において除外する質問(以下、「非対象質問」という)の選択を促す情報を表示する。ここで、簡易アンケート調査とは、第2分類モデルを用いて分類を実施する対象者に回答してもらうアンケート調査を指す。
【0060】
オブジェクトJ21は、ステップS231において算出された各質問の重要度を表示する。オブジェクトJ21は、各質問を重要度の降順に示しているが、各質問を重要度の昇順に示すように構成されてもよい。或いは、オブジェクトJ21は、ユーザ指示に応じてソート方法を変更可能に構成されてもよい。
【0061】
各質問には、対応するオブジェクトJ21aが配置される。オブジェクトJ21aは、対応する質問を対象質問、または非対象質問として指定するユーザ指示(つまり、対象質問または非対象質問を選択するユーザ指示)を受け付ける。
オブジェクトJ22は、選択中の対象質問の総数を表示する。
【0062】
オブジェクトJ23は、対象質問/非対象質問の選択を完了するためのユーザ指示を受け付ける。オブジェクトJ23が選択されると、クライアント装置10は、各質問に対応するオブジェクトJ21aの入力状態に基づいてユーザ指示に応じた選択結果を生成し、サーバ30へ送信する。
【0063】
ステップS232の後に、サーバ30は、選択結果の取得(S233)を実行する。
具体的には、サーバ30は、ステップS232において出力した重要度の情報に対する質問の選択結果をクライアント装置10から受信する。
【0064】
ステップS233の後に、サーバ30は、第2学習データの取得(S234)を実行する。
具体的には、まず、サーバ30は、ステップS230において取得した第1学習データの特徴量に対応する複数の質問のうち、対象質問(つまり、簡易アンケート調査において維持する質問)を特定する。第1例として、サーバ30は、ステップS233において取得した選択結果に従って、対象質問を特定する。つまり、サーバ30は、複数の質問の各々が対象質問または非対象質問のいずれに指定されたかに応じて対象質問を特定する。第2例として、サーバ30は、予め定められたアルゴリズム(例えば、対応する特徴量の重要度の降順に所定の上限数を超えない範囲で対象質問を特定する、または対応する重要度が閾値以上である質問を対象質問として特定する、など)に従って、対象質問を特定する。第2例によれば、ステップS232~S233は省略可能である。第3例は、第1例および第2例の組み合わせである。例えば、サーバ30は、例えば対象質問の上限数、または対象質問を判別するための閾値を、ユーザ指示に応じて設定し、予め定められたアルゴリズムに従って、対象質問を特定してもよい。或いは、サーバ30は、対象質問の一部をユーザ指示に応じて特定し、対象質問の残部をアルゴリズムに従って特定してもよい。
そして、サーバ30は、ステップS230において取得した第1学習データの特徴量のうち、対象質問に該当しない非対象質問に対応する要素(特徴量)を除外することで、第2学習データを取得する。
【0065】
ステップS234の後に、サーバ30は、第2分類モデルの作成(S235)を実行する。
具体的には、サーバ30は、ステップS234において取得した第2学習データを用いた教師あり学習により、第2分類モデルを構築する。第2学習データに含まれる各特徴量の入力に対し、対応する正解データ(対応する回答者のクラスタ)を推論するように、第2分類モデルの学習(訓練)が行われる。
【0066】
第2分類モデルは、決定木構造を備え得るが、これに限られず例えば分類モデルを解くことができる任意なモデルであってよい。第2分類モデルの機械学習アルゴリズムとして、例えば、LightGBMが利用可能である。ただし、第2分類モデルの機械学習アルゴリズムは、LightGBMに限られず、他の勾配ブースティング決定木アルゴリズム(例えば、XGBoost、RandomForest、またはCatboos、など)、またはランダムフォレストなどを利用可能である。
【0067】
サーバ30は、ステップS234において取得した第2学習データのうち一部を第2分類モデルの訓練ではなく検証またはテストのために用いてもよい。検証用またはテスト用のデータの比率または個数は、予め定められていてもよいし、クライアント装置10のユーザによって指定されてもよいし、アルゴリズムにより決定されてもよい。
【0068】
(4-3)第2分類モデル編集処理
本実施形態の第2分類モデル編集処理について説明する。図10は、本実施形態の第2分類モデル編集処理のフローチャートである。
【0069】
図10の処理は、クライアント装置10または他の情報処理装置のユーザからの指示(例えば、第2分類モデルの編集指示)に応じて開始し得る。或いは、図10の処理は、第2分類モデル作成処理(図8)の完了をトリガとして開始してもよい。ただし、図10の処理の開始条件は、これらの例に限られない。なお、第2分類モデル編集処理は、サーバ30(つまり、第2分類モデル作成処理の実行主体)とは異なる情報処理装置によって実行されてもよい。
【0070】
図10に示すように、サーバ30は、モデル・データの取得(S330)を実行する。
具体的には、サーバ30は、編集対象となる第2分類モデルおよび第2学習データを、記憶装置31または外部の情報処理装置から取得する。
【0071】
モデル・データの取得(S330)の第1例として、クライアント装置10または他の情報処理装置は、編集対象となる第2分類モデルと、当該第2分類モデルの学習に用いられた第2学習データをサーバ30へ送信する。サーバ30は、クライアント装置10によって送信された第2分類モデルおよび第2学習データを取得する。
【0072】
モデル・データの取得(S330)の第2例として、クライアント装置10または他の情報処理装置のユーザ(第2分類モデルの作成サービスの提供を受ける者とは異なる人物であってもよい)は、記憶装置31または外部記憶装置(クラウドサーバ等を含み得る)に格納されている、過去に作成された第2分類モデルのうち、所望の第2分類モデルを編集対象となる第2分類モデルとして選択する。或いは、第2分類モデルの代わりに、当該第2分類モデルの学習に用いられた第2学習データを選択するようにしてもよい。クライアント装置10は、選択された第2分類モデルを示す情報をサーバ30へ送信する。サーバ30は、選択された第2分類モデルと、当該第2分類モデルの学習に用いられた第2学習データとを取得する。
【0073】
モデル・データの取得(S330)の第3例として、サーバ30は、第2分類モデル編集処理の直前に実行された第2分類モデル作成処理(図8)によって作成された第2分類モデル(編集対象となる第2分類モデル)と、当該第2分類モデルの学習に用いられた第2学習データとを取得する。
【0074】
さらに、モデル・データの取得(S330)において、サーバ30は、編集対象となる第2分類モデルのベースである第1分類モデルと、当該第1分類モデルの学習に用いられた第1学習データとを取得してもよい。また、サーバ30は、編集対象となる第2分類モデルのベースである第1分類モデルの分類精度の情報を取得してもよい。加えて、サーバ30は、編集対象となる第2分類モデルが過去に編集されている場合には、当該編集前の第2分類モデル、当該編集前の第2分類モデルの学習に用いられた第2学習データ、または当該編集前の第2分類モデルの分類精度の情報の少なくとも1つを取得してもよい。
【0075】
ステップS330の後に、サーバ30は、分類精度の算出(S331)を実行する。
具体的には、サーバ30は、ステップS330において取得した、編集対象となる第2分類モデルの分類精度を算出する。なお、ステップS334からステップS331へ遷移した場合には、サーバ30は、ステップS334において再作成した第2分類モデルの分類精度を算出する。分類精度の指標として、例えば、正解率、適合率、再現率、またはそれらの組み合わせ(例えば、F値)などが採用可能である。分類精度の算出には、例えばステップS330において取得した第2学習データのうち第2分類モデルの訓練・検証に用いられていないテスト用のデータを用いることができる。
【0076】
さらに、サーバ30は、以下のいずれかのモデルの分類精度を算出してもよい。
・編集対象となる第2分類モデルのベースである第1分類モデル
・編集前の第2分類モデル(第2分類モデルに1回以上の編集処理が行われている場合に、いずれかの時点における第2分類モデル)
【0077】
ステップS331の後に、サーバ30は、分類精度の出力(S332)を実行する。
具体的には、サーバ30は、ステップS331において算出した分類精度を出力する。第1例として、サーバ30は、編集対象となる第2分類モデルの分類精度のみを出力する。第2例として、サーバ30は、編集対象となる第2分類モデルの分類精度に加え、比較対象の分類精度を出力する。比較対象の分類精度は、編集対象となる第2分類モデルのベースである第1分類モデルまたは編集前の第2分類モデルの少なくとも1つの分類精度であってもよいし、編集対象となる第2分類モデルとは独立に定められた値であってもよい。
【0078】
一例として、サーバ30は、分類精度を表示するための情報をクライアント装置10または他の情報処理装置へ送信する。この情報は、例えば、分類精度を示す画面の生成に必要な情報、または当該画面情報であってもよい。クライアント装置10は、分類精度を示す画面をディスプレイ21に表示する。図示しないが、かかる画面は、分類精度を表示するオブジェクトに加え、対象質問を変更するためのユーザ指示、または第2分類モデル編集処理を終了するためのユーザ指示を受け付けるオブジェクトを含むことができる。
【0079】
ステップS332の後に、サーバ30は、対象質問を変更するためのユーザ指示、または第2分類モデル編集処理を終了するためのユーザ指示を受け付ける。対象質問を変更するためのユーザ指示は、以下の少なくとも1つを含むことができる。
・現行の第2学習データに含まれている特徴量を除外する指示(換言すれば、対象質問を非対象質問に変更する指示)
・第1学習データに含まれていたが現行の第2学習データでは除外されている特徴量を追加(復帰)する指示(換言すれば、非対象質問を対象質問に変更する指示)
【0080】
第2分類モデル編集処理を終了するためのユーザ指示を受け付けた場合に、サーバ30は、第2分類モデル編集処理を終了する。
【0081】
他方、対象質問を変更するためのユーザ指示を受け付けた場合に、サーバ30は、第2学習データの変更(S333)を実行する。
具体的には、サーバ30は、ステップS330において取得した第2学習データを、受け付けたユーザ指示に応じて変更する。第1例として、第2学習データの特徴量のうち除外を指示された特徴量を除外する。第2例として、第1学習データの特徴量のうち追加(復帰)を指示された特徴量を第2学習データに追加する。第3例は、上記第1例および第2例の組み合わせである。
【0082】
ステップS333の後に、サーバ30は、第2分類モデルの再作成(S334)を実行する。
具体的には、サーバ30は、ステップS333において変更した第2学習データを用いた教師あり学習により、第2分類モデルを構築する。前述の第2分類モデルの作成(S225)と同様に、変更後の第2学習データに含まれる各特徴量の入力に対し、対応する正解データ(対応する回答者のクラスタ)を推論するように、第2分類モデルの学習(訓練)が行われる。
【0083】
ステップS334の後に、サーバ30は、分類精度の算出(S331)~分類精度の出力(S332)を再実行する。ただし、分類精度の算出(S331)において、サーバ30は、直前の第2分類モデルの再作成(S334)において作成した第2分類モデルの分類精度を算出するが、第1分類モデルおよび編集前の第2分類モデルの分類精度の算出を省略可能である。
【0084】
(5)小括
以上説明したように、本実施形態のサーバ30は、複数の質問からなるアンケート調査に対する複数の回答者の回答内容と当該複数の回答者の各々のクラスタリング結果とに基づく第1学習データを用いた教師あり学習により作成された第1分類モデルによって行われる分類に対する複数の質問の重要度を算出する。サーバ30は、重要度に基づいて第1学習データから一部の質問に関するデータを除外した第2学習データを取得し、第2学習データを用いて教師あり学習を行い、第2分類モデルを作成する。これにより、上記クラスタリングにおいて参照される複数の質問よりも少ない数の質問からなる簡易アンケート調査を行うだけで、新規の回答者が属するクラスタを適切に分類することが可能となる。つまり、回答者をクラスタに分類するために必要な質問の数を削減できるので、回答率を高められる。例えば、第2分類モデルを顧客分析に応用することで、より多くの顧客に対して分類を行い、分類結果に応じた効果的な販促活動(例えば広告)を行いやすくなる。
【0085】
サーバ30は、複数の質問の重要度を出力してもよい。これにより、ユーザ(第2分類モデルの作成サービスの提供を受ける者)は、各質問の重要度の多寡を認識することができる。
【0086】
サーバ30は、複数の質問を重要度の降順または昇順に表示するための情報を出力してもよい。これにより、ユーザは、各質問の重要度の多寡を容易に認識することができる。
【0087】
サーバ30は、ユーザ指示に応じて、複数の質問のうち対象質問を特定してもよい。第2学習データは、複数の質問のうち対象質問に該当しない非対象質問に対応する特徴量を第1学習データから取り除いたデータであってもよい。これにより、ユーザは、簡易アンケート調査に組み入れる質問、または簡易アンケート調査に組み入れない質問を調整することができる。
【0088】
ユーザ指示は、対象質問の上限数を示してもよい。サーバ30は、重要度の降順に、対象質問の上限数を超えない範囲で対象質問を特定してもよい。これにより、ユーザは、簡易アンケート調査に組み入れる質問の上限数をコントロールすることができる。
【0089】
ユーザ指示は、複数の質問の少なくとも一部に対して対象質問または非対象質問のいずれであるかを指定してもよい。サーバ30は、複数の質問の各々が対象質問または非対象質問のいずれに指定されたかに応じて対象質問を特定してもよい。これにより、ユーザは、簡易アンケート調査に組み入れる質問、または簡易アンケート調査に組み入れない質問を自由に取捨選択することができる。
【0090】
複数の質問の各々の重要度は、第1分類モデルにおける当該質問の回答に対応する特徴量のゲインまたは頻度の少なくとも1つに基づいてもよい。これにより、各質問の重要度を妥当に定量化することができる。
【0091】
サーバ30は、第1分類モデルの分類精度と、第2分類モデルの分類精度とを算出し、第1分類モデルの分類精度と、第2分類モデルの分類精度とを出力してもよい。これにより、ユーザは、第2分類モデルの分類精度を、ベースとなる第1分類モデルの分類精度と容易に比較することができる。
【0092】
サーバ30は、複数の質問のうち対象質問を特定してもよい。第2学習データは、複数の質問のうち対象質問に該当しない非対象質問に対応する特徴量を第1学習データから取り除いたデータであってもよい。サーバ30は、第1分類モデルの分類精度および第2分類モデルの分類精度の出力後に、対象質問を変更するユーザ指示を受け付け可能に構成され、対象質問を変更するユーザ指示が受け付けられた場合に、対象質問の変更に応じて第2学習データを変更し、変更した第2学習データを用いて教師あり学習を行い、第2分類モデルを再作成してもよい。これにより、ユーザは、簡易アンケート調査に組み入れる質問、または簡易アンケート調査に組み入れない質問を試行錯誤しながら、第2分類モデルの分類精度の向上を図ることができる。
【0093】
(6)その他の変形例
記憶装置11は、ネットワークNWを介して、クライアント装置10と接続されてもよい。ディスプレイ21は、クライアント装置10と一体化されてもよい。記憶装置31は、ネットワークNWを介して、サーバ30と接続されてもよい。
【0094】
上記の情報処理の各ステップは、クライアント装置10及びサーバ30の何れでも実行可能である。例えば、いずれかの装置によって行われるとして説明された処理が別の装置によって行われたり、複数の装置のやり取りによって行われるとして説明された処理が単一の装置によって行われたりしてもよい。また、上記説明では、各処理において各ステップを特定の順序で実行する例を示したが、各ステップの実行順序は、依存関係がない限りは説明した例に制限されない。
【0095】
上記複数の質問は全て、選択回答形式の質問からなっていてもよい。これにより、回答と特徴量の値との対応関係を学習しやすくなるので、分類モデルの妥当性の向上を期待することができる。
【0096】
以上、本発明の実施形態について詳細に説明したが、本発明の範囲は上記の実施形態に限定されない。また、上記の実施形態は、本発明の主旨を逸脱しない範囲において、種々の改良や変更が可能である。また、上記の実施形態及び変形例は、組合せ可能である。
【符号の説明】
【0097】
1 :情報処理システム
10 :クライアント装置
11 :記憶装置
12 :プロセッサ
13 :入出力インタフェース
14 :通信インタフェース
21 :ディスプレイ
30 :サーバ
31 :記憶装置
32 :プロセッサ
33 :入出力インタフェース
34 :通信インタフェース
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10