(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-07-28
(54)【発明の名称】情報を出力するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
(51)【国際特許分類】
G06N 99/00 20190101AFI20220721BHJP
【FI】
G06N99/00 180
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021541618
(86)(22)【出願日】2020-06-09
(85)【翻訳文提出日】2021-08-04
(86)【国際出願番号】 CN2020095193
(87)【国際公開番号】W WO2021093320
(87)【国際公開日】2021-05-20
(31)【優先権主張番号】201911106997.8
(32)【優先日】2019-11-13
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100099623
【氏名又は名称】奥山 尚一
(74)【代理人】
【識別番号】100107319
【氏名又は名称】松島 鉄男
(74)【代理人】
【識別番号】100125380
【氏名又は名称】中村 綾子
(74)【代理人】
【識別番号】100142996
【氏名又は名称】森本 聡二
(74)【代理人】
【識別番号】100166268
【氏名又は名称】田中 祐
(74)【代理人】
【識別番号】100180231
【氏名又は名称】水島 亜希子
(74)【代理人】
【識別番号】100096769
【氏名又は名称】有原 幸一
(72)【発明者】
【氏名】リウ,ハァォチァン
(72)【発明者】
【氏名】リィー,ユァン
(57)【要約】
本出願の実施形態は、情報を出力するための方法及び装置を開示した。上記方法の具体的な実施形態は情報を出力するための方法であって、ユーザ識別子、特徴変数の取り得る値及びユーザ識別子に対応するラベル値を含む、ユーザの特徴データを取得するステップと、前記特徴変数のうちの離散型特徴変数と連続型特徴変数を確定するステップと、異なるラベル値に対応する離散型特徴変数の取り得る値の集合及び異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定するステップと、異なるラベル値に対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の取り得る値の集合に基づき、異なるラベル値に対応する特徴変数の取り得る値の集合を確定するステップと、異なるラベル値に対応する特徴変数の取り得る値の集合を出力するステップと、を含む情報を出力するための方法この実施形態は、ビッグデータからユーザの対応するラベル値をマイニングすることができ、効率的で自動化された情報マイニングが実現された。
【選択図】
図2
【特許請求の範囲】
【請求項1】
情報を出力するための方法であって、
ユーザ識別子、特徴変数の取り得る値及びユーザ識別子に対応するラベル値を含む、ユーザの特徴データを取得するステップと、
前記特徴変数のうちの離散型特徴変数と連続型特徴変数を確定するステップと、
異なるラベル値に対応する離散型特徴変数の取り得る値の集合及び異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定するステップと、
異なるラベル値に対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の取り得る値の集合に基づき、異なるラベル値に対応する特徴変数の取り得る値の集合を確定するステップと、
異なるラベル値に対応する特徴変数の取り得る値の集合を出力するステップと、を含む情報を出力するための方法。
【請求項2】
前記の、前記特徴変数中の離散型特徴変数と連続型特徴変数を確定するステップは、
特徴変数のそれぞれに対して、判定ステップを実行することを含み、前記判定ステップは、
該特徴変数の取り得る値の第1の数および異なる取り得る値の第2の数を統計することと、
前記第1の数に対する前記第2の数の比率を確定することと、
前記第2の数が所定の数量閾値よりも大きく且つ前記比率が所定の比率閾値よりも大きい場合、該特徴変数を連続型特徴変数と特定することと、
前記第2の数が所定の数量閾値以下であるか又は前記比率が所定の比率閾値以下である場合、該特徴変数を離散型特徴変数と特定することとを含む請求項1に記載の方法。
【請求項3】
前記の、異なるラベル値に対応する離散型特徴変数の取り得る値の集合を確定するステップは、
離散型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、第1の二項分類モデルを訓練して得ることと、
前記第1の二項分類モデルに基づき、各離散型特徴変数の重みを確定することと、
各離散型特徴変数の重みに基づき、一部の離散型特徴変数を抽出することと、
ユーザ識別子に対応するラベル値及び予め設定された証拠重み計算式に基づき、抽出された一部の離散型特徴変数の取り得る値の証拠重み値を確定することと、
得られた証拠重み値に基づき、異なるラベル値に対応する離散型特徴変数の取り得る値の集合を確定することと、を含む請求項1に記載の方法。
【請求項4】
前記の、異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定することは、
連続型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、第2の二項分類モデルを訓練して得ることと、
前記第2の二項分類モデルの決定パスに基づき、異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定することと、を含む請求項1に記載の方法。
【請求項5】
前記の、異なるラベル値に対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の取り得る値の集合に基づき、異なるラベル値に対応する特徴変数の取り得る値の集合を確定するステップは、
各ラベル値のそれぞれに対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の集合の取り得る値の積集合または和集合を確定し、各ラベル値のそれぞれに対応する特徴変数の取り得る値の集合を得ること、を含む請求項1に記載の方法。
【請求項6】
情報を出力するための装置であって、
ユーザ識別子、特徴変数の取り得る値及びユーザ識別子に対応するラベル値を含む、ユーザの特徴データを取得するように構成されるデータ取得ユニットと、
前記特徴変数のうちの離散型特徴変数と連続型特徴変数を確定するように構成される変数分類ユニットと、
異なるラベル値に対応する離散型特徴変数の取り得る値の集合及び異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定するように構成される第1の集合確定ユニットと、
異なるラベル値に対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の取り得る値の集合に基づき、異なるラベル値に対応する特徴変数の取り得る値の集合を確定するように構成される第2の集合確定ユニットと、
異なるラベル値に対応する特徴変数の取り得る値の集合を出力するように構成される集合出力ユニットと、を含む情報を出力するための装置。
【請求項7】
変数分類ユニットは、さらに
各特徴変数に対して、判定ステップを実行するように構成され、
前記判定ステップは、
該特徴変数の取り得る値の第1の数および異なる取り得る値の第2の数を統計することと、
前記第1の数に対する前記第2の数の比率を確定することと、
前記第2の数が所定の数量閾値よりも大きく且つ前記比率が所定の比率閾値よりも大きい場合、該特徴変数を連続型特徴変数と特定することと、
前記第2の数が所定の数量閾値以下であるか又は前記比率が所定の比率閾値以下である場合、該特徴変数を離散型特徴変数と特定することと、を含む請求項6に記載の装置。
【請求項8】
前記第1の集合確定ユニットは、さらに
離散型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、第1の二項分類モデルを訓練して得、
前記第1の二項分類モデルに基づき、各離散型特徴変数の重みを確定し、
各離散型特徴変数の重みに基づき、一部の離散型特徴変数を抽出し、
ユーザ識別子に対応するラベル値及び予め設定された証拠重み計算式に基づき、抽出された一部の離散型特徴変数の取り得る値の証拠重み値を確定し、
得られた証拠重み値に基づき、異なるラベル値に対応する離散型特徴変数の取り得る値の集合を確定するように構成される請求項6に記載の装置。
【請求項9】
前記第1の集合確定ユニットは、さらに
連続型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、第2の二項分類モデルを訓練して得、
前記第2の二項分類モデルの決定パスに基づき、異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定するように構成される請求項6に記載の装置。
【請求項10】
前記第2の集合確定ユニットは、さらに
各ラベル値のそれぞれに対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の集合の取り得る値の積集合または和集合を確定し、各ラベル値のそれぞれに対応する特徴変数の取り得る値の集合を得るように構成される請求項6に記載の装置。
【請求項11】
1つまたは複数のプロセッサと、1つまたは複数のプログラムが格納されている記憶デバイスと、を備えるサーバであって、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに請求項1~5のいずれか一項に記載の方法が実装させる、サーバ。
【請求項12】
コンピュータプログラムが格納されるコンピュータ可読媒体であって、
該コンピュータプログラムがプロセッサによって実行されると、請求項1~5のいずれか一項に記載の方法が実装される、コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照]
本出願は、2019年11月13日に提出された、出願番号が201911106997.8で、出願人がベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドで、発明の名称が「情報を出力するための方法及び装置」である中国特許出願に基づく優先権を主張し、当該特許出願の全文を引用により本出願に組み込む。
【0002】
本出願の実施形態は、コンピュータ技術分野に関し、具体的に情報を処理するための方法及び装置に関する。
【背景技術】
【0003】
現在、中国の金融業の発展に伴い、金融サービスの被覆面は徐々に拡大している。銀行でお金を借りたり、商業銀行に個人のクレジットカードを申し込んだりしたことがあるユーザに対しては、中央銀行には彼らの貸付金額、回数、期限内返済の有無およびクレジットカード消費の借り越し返済の有無などの信用記録が記録されている。商業銀行に手数料を払って信用記録を出力してもらえるが、クレジットカードを扱っておらず、借入記録もない金融サービス対象に対して、その関連する信用情報が不足している。
【0004】
ビッグデータは、金融関連ビジネスにデータキューブが高く、データ量が巨大という問題をもたらし、どのようにしてビッグデータから関連する金融サービス対象の信用特徴を発掘するかは、現在の重要な研究課題である。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本出願の実施形態は、情報を出力するための方法及び装置を提供する。
【0006】
第1態様において、本出願の実施形態は、情報を出力するための方法であって、ユーザ識別子、特徴変数の取り得る値及びユーザ識別子に対応するラベル値を含む、ユーザの特徴データを取得するステップと、特徴変数のうちの離散型特徴変数と連続型特徴変数を確定するステップと、異なるラベル値に対応する離散型特徴変数の取り得る値の集合及び異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定するステップと、異なるラベル値に対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の取り得る値の集合に基づき、異なるラベル値に対応する特徴変数の取り得る値の集合を確定するステップと、異なるラベル値に対応する特徴変数の取り得る値の集合を出力するステップと、を含む情報を出力するための方法を提供する。
【0007】
いくつかの実施形態において、前記の、前記特徴変数のうちの離散型特徴変数と連続型特徴変数を確定するステップは、各特徴変数に対して、判定ステップを実行することを含み、前記判定ステップは、該特徴変数の取り得る値の第1の数および異なる取り得る値の第2の数を統計することと、前記第1の数に対する前記第2の数の比率を確定することと、前記第2の数が所定の数量閾値よりも大きく且つ前記比率が所定の比率閾値よりも大きい場合、該特徴変数を連続型特徴変数と特定することと、前記第2の数が所定の数量閾値以下であるか又は前記比率が所定の比率閾値以下である場合、該特徴変数を離散型特徴変数と特定することとを含む。
【0008】
いくつかの実施形態において、前記の、異なるラベル値に対応する離散型特徴変数の取り得る値の集合を確定するステップは、離散型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、第1の二項分類モデルを訓練して得ることと、前記第1の二項分類モデルに基づき、各離散型特徴変数の重みを確定することと、各離散型特徴変数の重みに基づき、一部の離散型特徴変数を抽出することと、ユーザ識別子に対応するラベル値及び予め設定された証拠重み計算式に基づき、抽出された一部の離散型特徴変数の取り得る値の証拠重み値を確定することと、得られた証拠重み値に基づき、異なるラベル値に対応する離散型特徴変数の取り得る値の集合を確定することと、を含む。
【0009】
いくつかの実施形態において、前記の、異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定することは、連続型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、第2の二項分類モデルを訓練して得ることと、前記第2の二項分類モデルの決定パスに基づき、異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定することと、を含む。
【0010】
いくつかの実施形態において、前記の、異なるラベル値に対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の取り得る値の集合に基づき、異なるラベル値に対応する特徴変数の取り得る値の集合を確定するステップは、各ラベル値のそれぞれに対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の集合の取り得る値の積集合または和集合を確定し、各ラベル値のそれぞれに対応する特徴変数の取り得る値の集合を得ること、を含む。
【0011】
第2態様において、本出願の実施形態は、情報を出力するための装置であって、ユーザ識別子、特徴変数の取り得る値及びユーザ識別子に対応するラベル値を含む、ユーザの特徴データを取得するように構成されるデータ取得ユニットと、前記特徴変数のうちの離散型特徴変数と連続型特徴変数を確定するように構成される変数分類ユニットと、異なるラベル値に対応する離散型特徴変数の取り得る値の集合及び異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定するように構成される第1の集合確定ユニットと、異なるラベル値に対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の取り得る値の集合に基づき、異なるラベル値に対応する特徴変数の取り得る値の集合を確定するように構成される第2の集合確定ユニットと、異なるラベル値に対応する特徴変数の取り得る値の集合を出力するように構成される集合出力ユニットと、を含む情報を出力するための装置を提供する。
【0012】
いくつかの実施形態において、変数分類ユニットは、さらに各特徴変数に対して、判定ステップを実行するように構成され、前記判定ステップは、該特徴変数の取り得る値の第1の数および異なる取り得る値の第2の数を統計することと、前記第1の数に対する前記第2の数の比率を確定することと、前記第2の数が所定の数量閾値よりも大きく且つ前記比率が所定の比率閾値よりも大きい場合、該特徴変数を連続型特徴変数と特定することと、前記第2の数が所定の数量閾値以下であるか又は前記比率が所定の比率閾値以下である場合、該特徴変数を離散型特徴変数と特定することと、を含む。
【0013】
いくつかの実施形態において、前記第1の集合確定ユニットは、さらに離散型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、第1の二項分類モデルを訓練して得、前記第1の二項分類モデルに基づき、各離散型特徴変数の重みを確定し、各離散型特徴変数の重みに基づき、一部の離散型特徴変数を抽出し、ユーザ識別子に対応するラベル値及び予め設定された証拠重み計算式に基づき、抽出された一部の離散型特徴変数の取り得る値の証拠重み値を確定し、得られた証拠重み値に基づき、異なるラベル値に対応する離散型特徴変数の取り得る値の集合を確定するように構成される。
【0014】
いくつかの実施形態において、前記第1の集合確定ユニットは、さらに連続型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、第2の二項分類モデルを訓練して得、前記第2の二項分類モデルの決定パスに基づき、異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定するように構成される。
【0015】
いくつかの実施形態において、前記第2の集合確定ユニットは、さらに各ラベル値のそれぞれに対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の集合の取り得る値の積集合または和集合を確定し、各ラベル値のそれぞれに対応する特徴変数の取り得る値の集合を得るように構成される。
【0016】
第3態様において、本出願の実施形態は、1つまたは複数のプロセッサと、1つまたは複数のプログラムが格納されている記憶デバイスと、を備えるサーバであって、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに第1態様のいずれかの実施形態に記載の方法が実装される、サーバを提供する。
【0017】
第4態様において、本出願の実施形態は、コンピュータプログラムが格納されているコンピュータ可読媒体であって、該コンピュータプログラムがプロセッサによって実行されると、第1態様のいずれかの実施形態に記載の方法が実装されるコンピュータ可読媒体を提供する。
【0018】
本出願の上記実施形態が提供する情報を出力するための方法及び装置は、まずユーザの特徴データを取得することができる。上記特徴データは、ユーザ識別子、特徴変数の取り得る値、および各特徴変数に対応するラベル値を含んでもよい。次に、前記特徴変数を分けて、そのうちの離散型特徴変数と連続型特徴変数を確定する。異なるラベル値に対応する離散型特徴変数の集合と、異なるラベル値に対応する連続型特徴変数の集合を確定する。得られたラベル値と集合の対応関係に基づき、異なるラベル値に対応する特徴変数の集合を確定する。最後に、異なるラベル値に対応する特徴変数の集合を出力する。本実施形態の方法は、ビッグデータからユーザの対応するラベル値をマイニングすることができ、効率的で、自動化された情報マイニングを実現できる。
【図面の簡単な説明】
【0019】
本出願の他の特徴、目的及び利点は、以下の図面を参照してなされる非限定的な実施形態に係る詳細な説明を読むことにより、より明らかになるであろう。
【
図1】本出願の一実施形態を適用可能な例示的なシステムアーキテクチャを示す図である。
【
図2】本出願に係る情報を出力するための方法の一実施形態を示すフローチャートである。
【
図3】本出願に係る情報を出力するための方法の一応用シーンを示す概略図である。
【
図4】本出願に係る情報を出力するための方法のもう一つの実施形態を示すフローチャートである。
【
図5】本出願に係る情報を出力するための装置の一実施形態を示す構造概略図である。
【
図6】本出願の実施形態を実現するためのサーバに適用されるコンピュータシステムを示す構造概略図である。
【発明を実施するための形態】
【0020】
以下、図面と実施形態を参照して、本出願をより詳細に説明する。ここで述べている具体的な実施形態は関連発明を説明するためのものにすぎず、当該発明を限定するものではないことを理解すべきである。また、説明の便宜上、図面には発明に関連する部分のみが示されていることに留意されたい。
【0021】
なお、矛盾しない限り、本出願における実施形態及び実施形態における特徴を互いに組み合わせることができる。以下、図面を参照しながら実施形態と組み合わせて本出願を詳細に説明する。
【0022】
図1は、本出願に係る情報を出力するための方法または情報を出力するための装置の実施形態が適用可能な例示的なシステムアーキテクチャ100を示している。
【0023】
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104、及びサーバ105を含んでもよい。ネットワーク104は、端末装置101、102、103とサーバ105の間で通信リンクの媒体を提供するために使用される。ネットワーク104は、有線、無線通信リンク又は光ファイバケーブルなどの様々なタイプの接続を含んでもよい。
【0024】
ユーザは、メッセージを送受信するために、端末装置101、102、103を使用してネットワーク104を介してサーバ105と情報のやりとりをすることができる。端末装置101、102、103には、ウェブブラウザアプリケーション、ショッピングアプリケーション、検索アプリケーション、インスタントコミュニケーションツール、メールボックスクライアント、ソーシャルプラットフォームソフトウェアなどの様々な通信クライアントアプリケーションをインストールすることができる。
【0025】
端末装置101、102、103は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置101、102、103がハードウェアである場合、様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、電子書籍リーダ、ラップトップコンピュータおよびデスクトップコンピュータなどを含むが、これらに限定されない。端末装置101、102、103がソフトウェアである場合、上記の電子機器にインストールされてもよい。それは、複数のソフトウェア又はソフトウェアモジュール(例えば、分散サービスを提供するためのもの)として実装されてもよく、又は単一のソフトウェア若しくはソフトウェアモジュールとして実装されてもよい。ここでは特に限定しない。
【0026】
サーバ105は、様々なサービスを提供するサーバ、例えば、ユーザにより端末装置101、102、103を介して生成した特徴データを処理するバックエンドサーバであってもよい。バックエンドサーバは、取得した特徴データに対して解析などの処理を行い、処理結果(例えば、異なるラベル値に対応する特徴変数の集合)を端末装置101、102、103にフィードバックすることができる。
【0027】
サーバ105は、ハードウェアでもソフトウェアでもよいことに留意されたい。サーバ105がハードウェアである場合、複数のサーバから構成される分散サーバクラスターとしても、単一のサーバとしても実装され得る。サーバ105がソフトウェアである場合、複数のソフトウェア若しくはソフトウェアモジュール(例えば、分散サービスを提供するためのもの)として実装されてもよく、又は単一のソフトウェア若しくはソフトウェアモジュールとして実装され得る。ここでは特に限定しない。
【0028】
なお、本出願の実施形態により提供される情報を出力するための方法は、一般的にサーバ105によって実行される。それに応じて、情報を出力するための装置は一般的にサーバ105に設けられる。
【0029】
図1における端末装置、ネットワーク及びサーバの数は例示的なものに過ぎないことを理解されたい。実装の必要性に応じて、端末装置、ネットワーク及びサーバの数を任意に加減してもよい。
【0030】
次に、本出願に係る情報を出力するための方法の一実施形態のフロー200を示す
図2を参照する。本実施形態の情報を出力するための方法は、ステップ201~205を含む。
【0031】
ステップ201:ユーザの特徴データを取得する。
【0032】
本実施形態では、情報を出力するための方法の実行主体(例えば、
図1に示すサーバ105)は有線接続方式又は無線接続方式によりユーザの特徴データを取得することができる。上記ユーザは、あるウェブサイトに登録されたユーザであってもよい。上記特徴データは、ユーザ識別子、特徴変数の取り得る値、およびユーザ識別子に対応するラベル値を含んでもよい。
【0033】
ここで、ユーザ識別子は、ユーザがウェブサイトに登録したIDであってもよい。特徴変数は、ユーザの年齢、学歴、月収、月消費額などであってもよい。上記特徴変数は、離散型特徴変数および連続型特徴変数を含んでもよい。離散型特徴変数とは、その取り得る値が自然数または整数単位でしか計算できないことをいう。逆に、特定区間内で任意に取り得る変数は連続型特徴変数と呼ばれる。ユーザに対応するラベル値は、0または1を含んでもよい。異なるラベル値は、異なるユーザ品質を表すことができる。例えば、ラベル値が0であることはユーザの信用が悪いことを示し、ラベル値が1であることはユーザの信用が良いことを示す。あるいは、ラベル値が0であることはユーザが返済能力を有していることを示し、ラベル値が1であることはユーザが返済能力を有していないことを示す。
【0034】
実行主体は、ユーザの特徴データを、あるウェブサイトをサポートするバックエンドサーバから取得してもよいし、ユーザの特徴データを格納するためのデータベースから取得してもよい。
【0035】
ステップ202:特徴変数のうちの離散型特徴変数と連続型特徴変数を確定する。
実行主体は、特徴データを取得した後、特徴変数を解析し、そのうちの離散型特徴変数と連続型特徴変数を確定することができる。具体的には、実行主体は、特徴変数の異なる取り得る値の個数に基づいて、特定の特徴変数が離散型特徴変数であるか、または連続型特徴変数であるかを判定してもよい。
【0036】
本実施形態のいくつかのオプション的な実施形態において、実行主体は、各特徴変数に対して、
図2に示されていない以下の判断ステップによって離散型特徴変数であるか、または連続型特徴変数であるかを判定してもよい。判断ステップは、該特徴変数の取り得る値の第1の数及び異なる取り得る値の第2の数を統計することと、第1の数と第2の数の比率を確定することと、第1の数が所定の数量閾値よりも大きく及び比率が所定の比率閾値よりも大きければ、該特徴変数を連続型特徴変数と特定することと、第1の数が所定の数量閾値以下であるか、又は比率が所定の比率閾値以下であれば、該特徴変数を離散型特徴変数と特定することとを含む。
【0037】
本実施形態において、実行主体は、各特徴変数の取り得る値の第1の数及び異なる取り得る値の第2の数を統計することができる。例えば、特徴変数は年齢である。年齢の取り得る値は、20、25、22、29、25、22、26を含んでもよい。年齢の取り得る値の第1の数は7であり、異なる取り得る値の第2の数は5である(重複の25と22を除去した)。そして、実行主体は、第1の数に対する第2の数の比率を計算することができる。先の例では、上記比率は5/7である。第2の数が所定の数量閾値よりも大きく且つ比率が所定の比率閾値よりも大きい場合、該特徴変数を連続型特徴変数と特定する。そうでなければ、該特徴変数を離散型特徴変数とする。
【0038】
ステップ203:異なるラベル値に対応する離散型特徴変数の取り得る値の集合及び異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定する。
【0039】
離散型特徴変数と連続型特徴変数を確定した後、実行主体は、それぞれ異なるラベル値に対応する離散型特徴変数の取り得る値の集合及び異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定することができる。具体的には、実行主体は、大量のユーザの特徴データを統計し、同じラベル値を有する複数のユーザ間で共通する離散型特徴変数の取り得る値と連続型特徴変数の取り得る値を確定してもよい。そして、統計結果に基づき、異なるラベル値に対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の取り得る値の集合を得る。例えば、実行主体は、1000人のユーザの特徴データを統計し、ラベル値が1である780人のユーザの間で共有される離散型特徴変数(学歴)の取り得る値はいずれも「院卒及び以上」であり、年齢はいずれも「25~35」に位置し、かつ月収はいずれも「1.5万元超え」であり、月消費はいずれも「8000元未満」であることを発見した。実行主体は、ラベル値1に対応する離散型特徴変数の取り得る値の集合が、学歴「院卒以上」、年齢「25~35」である要素を含むと判定することができる。ラベル値1に対応する連続型特徴変数の取り得る値の集合が、月収「1.5万元超え」、月消費「8000元未満」である要素を含むと判定することができる。
【0040】
ステップ204:異なるラベル値に対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の取り得る値の集合に基づいて、異なるラベル値に対応する特徴変数の取り得る値の集合を確定する。
【0041】
異なるラベル値に対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の取り得る値の集合を確定した後、実行主体は、これらの両者に基づき、異なるラベル値に対応する特徴変数の取り得る値の集合を確定することができる。
【0042】
本実施形態のいくつかのオプション的な実施形態において、実行主体は、
図2に示されていない以下のステップに基づいて異なるラベル値に対応する特徴変数の取り得る値の集合を確定することができる:各ラベル値のそれぞれに対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の集合の取り得る値の積集合または和集合を確定し、各ラベル値のそれぞれに対応する特徴変数の取り得る値の集合を得る。
【0043】
本実施形態では、実行主体は、単一のラベル値に対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の取り得る値の集合との積集合又は和集合を求め、単一のラベル値に対応する特徴変数の取り得る値の集合を得ることができる。サービスの具体的な状況に応じて、2つの集合の積集合を求めるか、和集合を求めるかを選択できることを理解されたい。
【0044】
ステップ205:異なるラベル値に対応する特徴変数の取り得る値の集合を出力する。
次に、本実施形態に係る情報を出力するための方法の応用シーンを示す概略図である
図3を参照する。
図3の応用シーンでは、サーバは、特定の金融サイトにおけるユーザの特徴データを取得した。特徴データに対してステップ201~204の処理を行い、ラベル値が1(信用度の高いユーザ)の特徴は年齢が25~40歳、学歴が学部卒以上、月収が8000元超え、預金が5万元以上及び消費が1万元未満であることを特定した。ラベル値が0(信用不良のユーザ )の特徴は、学歴が高校卒、月収が8000元未満、預金が5万元未満、消費額が1万元超えである。
【0045】
本出願の上記実施形態が提供する情報を出力するための方法は、まずユーザの特徴データを取得することができる。上記特徴データは、ユーザ識別子、特徴変数の取り得る値、および各特徴変数に対応するラベル値を含んでもよい。次に、前記特徴変数を分けて、そのうちの離散型特徴変数と連続型特徴変数を確定する。異なるラベル値に対応する離散型特徴変数の集合と、異なるラベル値に対応する連続型特徴変数の集合を確定する。得られたラベル値と集合の対応関係に基づき、異なるラベル値に対応する特徴変数の集合を確定する。最後に、異なるラベル値に対応する特徴変数の集合を出力する。本実施形態の方法は、ビッグデータからユーザの対応するラベル値をマイニングすることができ、効率的で、自動化された情報マイニングを実現できる。
【0046】
次に、本出願に係る情報を出力するための方法のもう一つの実施形態のフロー400を示す
図4を参照する。
図4に示すように、本実施形態の情報を出力するための方法は、ステップ401~405を含んでもよい。
【0047】
ステップ401:ユーザの特徴データを取得する。
【0048】
ステップ402:特徴変数のうちの離散型特徴変数と連続型特徴変数を確定する。
【0049】
ステップ4031:離散型特徴変数に対して、ステップ4031a~4031eを実行する。
【0050】
ステップ4031a:離散型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、第1の二項分類モデルを訓練して得る。
【0051】
本実施形態では、実行主体は各離散型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を訓練サンプルとして用い、第1の二項分類モデルを訓練して得ることができる。具体的には、実行主体は、離散型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、XGBoostマルチラウンドトレーニングパラメータ最適化方法を採用して第1の二項分類モデルを得ることができる。XGBoost(eXtreme Gradient Boosting)は、Tian Chenが2015年に提案した統合学習アルゴリズムである。伝統的なXGBoostアルゴリズムは、Boosting統合学習アルゴリズムに由来し、進化過程においてまたBagging統合学習方法の優位性を融合し、Gradient Boostingフレームワークにより損失関数をカスタマイズしてアルゴリズムによる汎用問題の解決能力を向上させ、それによりXGBoostアルゴリズムは学術競技と産業分野において非常に頻繁に使用され、分類、回帰、順序付けなどの具体的なシーンに効果的に応用することができる。
ステップ4031b:第1の二項分類モデルに基づき、各離散型特徴変数の重みを確定する。
【0052】
上記第1の二項分類モデルを訓練して得た後、さらに離散型特徴変数ごとの重みを得ることができる。上記重みは、ツリーごとに離散型特徴変数それぞれの予測スコアを加算したものである。
【0053】
ステップ4031c:各離散型特徴変数の重みに基づき、一部の離散型特徴変数を抽出する。
【0054】
実行主体は、各離散型特徴変数の重みに基づき、各離散型特徴変数をソートし、ソート結果中に上位10%に位置する離散型特徴変数を抽出し、さらに議論する特徴変数とすることができる。
【0055】
ステップ4031d:ユーザ識別子に対応するラベル値及び予め設定された証拠重み計算式に基づき、抽出された一部の離散型特徴変数の取り得る値の証拠重み値を確定する。
【0056】
実行主体はまた、ユーザ識別子に対応するラベル値及び予め設定された証拠重み計算式に基づいて、抽出された各離散型特徴変数の取り得る値の証拠重み(WOE)値を計算することができる。上記予め設定された証拠重み計算式は以下のように示されてもよい。
【0057】
WOE=ln(ラベル1のユーザ占有率/ラベル0のユーザ占有率)×100%。
【0058】
ここで、ラベル1のユーザ占有率=ラベル1のユーザ数/全ユーザ数であり、ラベル0のユーザ占有率=ラベル0のユーザ数/全ユーザ数である。
【0059】
ステップ4031e:得られた証拠重み値に基づき、異なるラベル値に対応する離散型特徴変数の取り得る値の集合を確定する。
【0060】
実行主体は、抽出された離散型特徴変数それぞれの取り得る値のWOE値を確定した後、異なるラベル値に対応する離散型特徴変数の取り得る値の集合を確定してもよい。例えば、実行主体は、WOE値>0の離散型特徴変数の取り得る値をラベル値1に対応する離散型特徴変数の取り得る値の集合に追加し、WOE値≦0の離散型特徴変数の取り得る値をラベル値0に対応する離散型特徴変数の取り得る値の集合に追加することができる。
【0061】
ステップ4032:連続型特徴変数に対して、ステップ4032a~4032bを実行する。
【0062】
ステップ4032a:連続型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、第2の二項分類モデルを訓練して得る。
【0063】
実行主体は、各連続型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、決定木を利用してマルチラウンドの訓練を行い、決定木スプリットポイント構造、すなわち第2の二項分類モデルを得ることができる。
【0064】
ステップ4032b:第2の二項分類モデルの決定パスに基づき、異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定する。
【0065】
上記第2の二項分類モデルを得た後、第2の二項分類モデルで得られたラベル値1の決定パスに基づき、ラベル値1に対応する連続型特徴変数の取り得る値の集合を得ることができる。さらに第2の二項分類モデルで得られたラベル値0の決定パスに基づき、ラベル値0に対応する連続型特徴変数の取り得る値の集合を得ることもできる。
【0066】
ステップ404:各ラベル値のそれぞれに対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の集合の取り得る値の積集合または和集合を確定し、各ラベル値のそれぞれに対応する特徴変数の取り得る値の集合を得る。
【0067】
ステップ405:異なるラベル値に対応する特徴変数の取り得る値の集合を出力する。
異なるラベル値に対応する特徴変数の取り得る値の集合を得た後、実行主体は対応するルールを作成することができる。例えば、ラベル値1に対応する特徴変数の取り得る値の集合に基づき、「年齢25~40歳、学歴学部卒以上、月収8000元超、預金5万元超、消費1万元未満のユーザを信用良質ユーザ」というルールを決定する。
【0068】
本出願の上記実施形態により提供される情報を出力するための方法は、二項分類モデルを利用してユーザ特徴データのマイニングを実現することができ、それによりマイニングされた情報の信頼性が向上される。
【0069】
さらに
図5を参照すると、上記の図に示された方法の実施態様として、本出願は、情報を出力するための装置の一実施形態を提供し、当該装置の実施形態は、
図2に示された方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することができる。
【0070】
図5に示すように、本実施形態の情報を出力するための装置500は、データ取得ユニット501と、変数分類ユニット502と、第1の集合確定ユニット503と、第2の集合確定ユニット504と、集合出力ユニット505とを備える。
【0071】
データ取得ユニット501は、ユーザの特徴データを取得するように構成される。特徴データは、ユーザ識別子、特徴変数の取り得る値、およびユーザ識別子に対応するラベル値を含む。
【0072】
変数分類ユニット502は、特徴変数のうちの離散型特徴変数と連続型特徴変数を確定するように構成される。
【0073】
第1の集合確定ユニット503は、異なるラベル値に対応する離散型特徴変数の取り得る値の集合及び異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定するように構成される。
【0074】
第2の集合確定ユニット504は、異なるラベル値に対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の取り得る値の集合に基づき、異なるラベル値に対応する特徴変数の取り得る値の集合を確定するように構成される。
【0075】
集合出力ユニット505は、異なるラベル値に対応する特徴変数の取り得る値の集合を出力するように構成される。
【0076】
本実施形態のいくつかのオプション的な実施形態において、変数分類ユニット502は、さらに各特徴変数に対して、判定ステップを実行するように構成され、前記判定ステップは、該特徴変数の取り得る値の第1の数および異なる取り得る値の第2の数を統計することと、前記第1の数に対する第2の数の比率を確定と、第2の数が所定の数量閾値よりも大きく且つ比率が所定の比率閾値よりも大きい場合、該特徴変数を連続型特徴変数として特定することと、第2の数が所定の数量閾値以下であるか又は比率が所定の比率閾値以下である場合、該特徴変数を離散型特徴変数として特定することと、を含む。
【0077】
本実施形態のいくつかのオプション的な実施形態において、第1の集合確定ユニット503は、さらに離散型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、第1の二項分類モデルを訓練して得、第1の二項分類モデルに基づき、各離散型特徴変数の重みを確定し、各離散型特徴変数の重みに基づき、一部の離散型特徴変数を抽出し、ユーザ識別子に対応するラベル値及び予め設定された証拠重み計算式に基づき、抽出された一部の離散型特徴変数の取り得る値の証拠重み値を確定し、得られた証拠重み値に基づき、異なるラベル値に対応する離散型特徴変数の取り得る値の集合を確定するように構成される。
【0078】
本実施形態のいくつかのオプション的な実施形態において、第1の集合確定ユニット503は、さらに連続型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、第2の二項分類モデルを訓練して得、第2の二項分類モデルの決定パスに基づき、異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定するように構成される。
【0079】
本実施形態のいくつかのオプション的な実施形態において、第2の集合確定ユニット504は、さらに各ラベル値のそれぞれに対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の集合の取り得る値の積集合または和集合を確定し、各ラベル値のそれぞれに対応する特徴変数の取り得る値の集合を得るように構成される。
【0080】
情報を出力するための装置500に列挙されたユニット501~505は、
図2を参照して説明された方法の各ステップに対応することを理解されたい。したがって、情報を出力するための方法について上記で記述した動作および特徴は、装置500およびその中に含まれるユニットに同様に適用可能であり、ここではその説明を省略する。
【0081】
以下、本出願の実施形態を実現するために適用される電子機器(例えば、
図1に示すサーバ)600を示す構造概略図である
図6を参照する。
図6に示すサーバは、あくまでも一例に過ぎず、本出願の実施形態の機能及び使用範囲を限定するものではない。
【0082】
図6に示すように、電子機器600は、読み出し専用メモリ(ROM)602に格納されているプログラムまたは記憶デバイス608からランダムアクセスメモリ(RAM)603にロードされたプログラムによって様々な適当な動作および処理を実行可能な処理デバイス(例えば、中央処理装置、グラフィックスプロセッサなど)601を含むことができる。RAM603には、電子機器600の動作に必要な様々なプログラム及びデータが更に格納されている。処理デバイス601、ROM602及びRAM603は、バス604を介して互いに接続されている。入/出力(I/O)インターフェース605もバス604に接続されている。
【0083】
通常、例えば、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイクロホン、加速度計、ジャイロスコープなどを含む入力デバイス606、液晶ディスプレイ(LCD)、スピーカ、振動子などを含む出力デバイス607、例えば、磁気テープ、ハードディスクなどを含む記憶デバイス608、および通信デバイス609がI/Oインターフェース605に接続されてもよい。通信デバイス609により、電子機器600は、データを交換するために他のデバイスと無線または有線で通信することができる。
図6は、様々なデバイスを有する電子機器600を示しているが、図示されたデバイスのすべてを実装または具備することが要求されないことを理解されたい。代替的にまたはより多いまたはより少ないデバイスが実装されてもよい。
図6に示す各ブロックは、1つのデバイスを表すことも、必要に応じて複数のデバイスを表すこともできる。
特に、本出願の実施形態によれば、上記のフローチャートを参照しながら記載されたプロセスは、コンピュータのソフトウェアプログラムとして実装されてもよい。例えば、本出願の実施形態は、コンピュータ可読媒体に具現化されるコンピュータプログラムを含むコンピュータプログラム製品を備え、該コンピュータプログラムは、フローチャートで示される方法を実行するためのプログラムコードを含む。このような実施形態では、該コンピュータプログラムは、通信デバイス609を介してネットワークからダウンロードされてインストールされることが可能であり、または記憶デバイス608またはROM602からインストールされ得る。該コンピュータプログラムが処理デバイス601によって実行されると、本出願の実施形態の方法で限定された上記の機能を実行する。注意すべきなのは、本出願の実施形態に記載されたコンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体、またはこれらの任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電気的、磁気的、光学的、電磁気的、赤外線、または半導体システム、装置もしくはデバイス、またはこれらの任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例としては、1本または複数本の導線による電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、消去可能プログラマブル読取り専用メモリ(EPROMもしくはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読取り専用メモリ(CD-ROM)、光メモリ、磁気メモリ、またはこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。本出願の実施形態において、コンピュータ可読記憶媒体は、命令実行システム、装置もしくはデバイスによって使用可能な、またはそれらに組み込まれて使用可能なプログラムを包含または格納する任意の有形の媒体であってもよい。本出願の実施形態において、コンピュータ可読信号媒体は、ベースバンド内の、または搬送波の一部として伝搬されるデータ信号を含んでもよく、その中にコンピュータ読み取り可能なプログラムコードが担持されている。かかる伝搬されたデータ信号は、様々な形態をとることができ、電磁信号、光信号、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ可読信号媒体は、更にコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。当該コンピュータ可読媒体は、命令実行システム、装置もしくはデバイスによって使用されるか、またはそれらに組み込まれて使用されるプログラムを、送信、伝搬または伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは任意の適切な媒体で伝送することができ、当該任意の適切な媒体とは、電線、光ケーブル、RF(無線周波数)など、またはこれらの任意の適切な組み合わせを含むが、これらに限定されない。
【0084】
前記コンピュータ可読媒体は、前記電子機器に含まれるものであってもよく、該電子機器に実装されずに別体として存在するものであってもよい。上記コンピュータ可読媒体に一つまたは複数のプログラムが担持され、上記一つまたは複数のプログラムが該電子機器に実行されるとき、ユーザ識別子、特徴変数の取り得る値及び各特徴変数のユーザ識別子に対応するラベル値を含む、ユーザの特徴データを取得するステップと、特徴変数のうちの離散型特徴変数と連続型特徴変数を確定するステップと、異なるラベル値に対応する離散型特徴変数の取り得る値の集合及び異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定するステップと、異なるラベル値に対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の取り得る値の集合に基づき、異なるラベル値に対応する特徴変数の取り得る値の集合を確定するステップと、異なるラベル値に対応する特徴変数の取り得る値の集合を出力するステップと、を該電子機器に実行させる。
【0085】
本出願の実施形態の動作を実行するためのコンピュータプログラムコードは、1種以上のプログラミング言語、又はそれらの組み合わせで作成されることができ、前記プログラミング言語は、Java、Smalltalk、C++などのオブジェクト指向プログラミング言語と、「C」言語又は同様のプログラミング言語などの従来の手続き型プログラミング言語とを含む。プログラムコードは、完全にユーザのコンピュータで実行されることも、部分的にユーザのコンピュータで実行されることも、単独のソフトウェアパッケージとして実行されることも、部分的にユーザのコンピュータで実行されながら部分的にリモートコンピュータで実行されることも、または完全にリモートコンピュータもしくはサーバで実行されることも可能である。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザのコンピュータに接続することができ、または(例えば、インターネットサービスプロバイダによるインターネットサービスを介して)外部のコンピュータに接続することができる。
【0086】
図面のうちのフローチャートおよびブロック図は、本出願の様々な実施形態に係るシステム、方法およびコンピュータプログラム製品によって実現できるアーキテクチャ、機能および動作の表示例である。これについては、フローチャートまたはブロック図における各ブロックは、モジュール、プログラムセグメント、またはコードの一部を表すことができる。当該モジュール、プログラムセグメント、またはコードの一部には、所定のロジック機能を実現するための1つまたは複数の実行可能命令が含まれている。さらに注意すべきなのは、一部の代替となる実施態様においては、ブロックに示されている機能は図面に示されているものとは異なる順序で実行することも可能である。例えば、連続して示された2つのブロックは、実際には係る機能に応じて、ほぼ並行して実行されてもよく、時には逆の順序で実行されてもよい。さらに注意すべきなのは、ブロック図および/またはフローチャートにおけるすべてのブロック、ならびにブロック図および/またはフローチャートにおけるブロックの組み合わせは、所定の機能または操作を実行する専用のハードウェアベースのシステムで実現することもできれば、専用のハードウェアとコンピュータ命令との組み合わせで実現することもできる。
【0087】
本出願の実施形態に記載されたユニットは、ソフトウェアで実装されてもよく、ハードウェアで実装されてもよい。記述されたユニットはプロセッサに設けられてもよく、例えば、データ取得ユニット、変数分類ユニット、第1の集合確定ユニット、第2の集合確定ユニット及び集合出力ユニットを含むプロセッサというように記述されてもよい。ここで、これらのユニットの名称は、場合によっては、そのユニット自体を限定するものではなく、例えば、データ取得ユニットは「ユーザの特徴データを取得するユニット」というように記述されてもよい。
【0088】
以上の記載は、本出願の好ましい実施形態、および適用される技術的原理に関する説明に過ぎない。当業者であれば、本出願の実施形態に係る発明の範囲が、上記の技術的特徴の特定の組み合わせからなる技術案に限定されるものではなく、上記の本出願の趣旨を逸脱しない範囲で、上記の技術的特徴またはそれらの同等の特徴の任意の組み合わせからなる他の技術案も含むべきであることを理解すべきである。例えば、上記の特徴と、本出願の実施形態に開示された類似の機能を持っている技術的特徴とを互いに置き換えてなる技術案(これらに限定されていない)が挙げられる。
【手続補正書】
【提出日】2021-08-04
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
情報を出力するための方法であって、
ユーザ識別子、特徴変数の取り得る値及びユーザ識別子に対応するラベル値を含む、ユーザの特徴データを取得するステップと、
前記特徴変数のうちの離散型特徴変数と連続型特徴変数を確定するステップと、
異なるラベル値に対応する離散型特徴変数の取り得る値の集合及び異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定するステップと、
異なるラベル値に対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の取り得る値の集合に基づき、異なるラベル値に対応する特徴変数の取り得る値の集合を確定するステップと、
異なるラベル値に対応する特徴変数の取り得る値の集合を出力するステップと、を含む情報を出力するための方法。
【請求項2】
前記の、前記特徴変数中の離散型特徴変数と連続型特徴変数を確定するステップは、
特徴変数のそれぞれに対して
、
該特徴変数の取り得る値の第1の数および異なる取り得る値の第2の数を統計することと、
前記第1の数に対する前記第2の数の比率を確定することと、
前記第2の数が所定の数量閾値よりも大きく且つ前記比率が所定の比率閾値よりも大きい場合、該特徴変数を連続型特徴変数と特定することと、
前記第2の数が所定の数量閾値以下であるか又は前記比率が所定の比率閾値以下である場合、該特徴変数を離散型特徴変数と特定することとを
実行するステップを含む請求項1に記載の方法。
【請求項3】
前記の、異なるラベル値に対応する離散型特徴変数の取り得る値の集合を確定するステップは、
離散型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、第1の二項分類モデルを訓練して得ることと、
前記第1の二項分類モデルに基づき、各離散型特徴変数の重みを確定することと、
各離散型特徴変数の重みに基づき、一部の離散型特徴変数を抽出することと、
ユーザ識別子に対応するラベル値及び予め設定された証拠重み計算式に基づき、抽出された一部の離散型特徴変数の取り得る値の証拠重み値を確定することと、
得られた証拠重み値に基づき、異なるラベル値に対応する離散型特徴変数の取り得る値の集合を確定することと、を含む請求項1に記載の方法。
【請求項4】
前記の、異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定することは、
連続型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、第2の二項分類モデルを訓練して得ることと、
前記第2の二項分類モデルの決定パスに基づき、異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定することと、を含む請求項1に記載の方法。
【請求項5】
前記の、異なるラベル値に対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の取り得る値の集合に基づき、異なるラベル値に対応する特徴変数の取り得る値の集合を確定するステップは、
各ラベル値のそれぞれに対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の集合の取り得る値の積集合または和集合を確定し、各ラベル値のそれぞれに対応する特徴変数の取り得る値の集合を得ること、を含む請求項1に記載の方法。
【請求項6】
情報を出力するための装置であって、
ユーザ識別子、特徴変数の取り得る値及びユーザ識別子に対応するラベル値を含む、ユーザの特徴データを取得するように構成されるデータ取得ユニットと、
前記特徴変数のうちの離散型特徴変数と連続型特徴変数を確定するように構成される変数分類ユニットと、
異なるラベル値に対応する離散型特徴変数の取り得る値の集合及び異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定するように構成される第1の集合確定ユニットと、
異なるラベル値に対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の取り得る値の集合に基づき、異なるラベル値に対応する特徴変数の取り得る値の集合を確定するように構成される第2の集合確定ユニットと、
異なるラベル値に対応する特徴変数の取り得る値の集合を出力するように構成される集合出力ユニットと、を含む情報を出力するための装置。
【請求項7】
変数分類ユニットは、さらに
各特徴変数に対して、判定ステップを実行するように構成され、
前記判定ステップは、
該特徴変数の取り得る値の第1の数および異なる取り得る値の第2の数を統計することと、
前記第1の数に対する前記第2の数の比率を確定することと、
前記第2の数が所定の数量閾値よりも大きく且つ前記比率が所定の比率閾値よりも大きい場合、該特徴変数を連続型特徴変数と特定することと、
前記第2の数が所定の数量閾値以下であるか又は前記比率が所定の比率閾値以下である場合、該特徴変数を離散型特徴変数と特定することと、を含む請求項6に記載の装置。
【請求項8】
前記第1の集合確定ユニットは、さらに
離散型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、第1の二項分類モデルを訓練して得、
前記第1の二項分類モデルに基づき、各離散型特徴変数の重みを確定し、
各離散型特徴変数の重みに基づき、一部の離散型特徴変数を抽出し、
ユーザ識別子に対応するラベル値及び予め設定された証拠重み計算式に基づき、抽出された一部の離散型特徴変数の取り得る値の証拠重み値を確定し、
得られた証拠重み値に基づき、異なるラベル値に対応する離散型特徴変数の取り得る値の集合を確定するように構成される請求項6に記載の装置。
【請求項9】
前記第1の集合確定ユニットは、さらに
連続型特徴変数の取り得る値及びユーザ識別子に対応するラベル値を用いて、第2の二項分類モデルを訓練して得、
前記第2の二項分類モデルの決定パスに基づき、異なるラベル値に対応する連続型特徴変数の取り得る値の集合を確定するように構成される請求項6に記載の装置。
【請求項10】
前記第2の集合確定ユニットは、さらに
各ラベル値のそれぞれに対応する離散型特徴変数の取り得る値の集合と連続型特徴変数の集合の取り得る値の積集合または和集合を確定し、各ラベル値のそれぞれに対応する特徴変数の取り得る値の集合を得るように構成される請求項6に記載の装置。
【請求項11】
1つまたは複数のプロセッサと、1つまたは複数のプログラムが格納されている記憶デバイスと、を備える
電子機器であって、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに請求項1~5のいずれか一項に記載の方法が実装させる、
電子機器。
【請求項12】
コンピュータプログラムが格納されるコンピュータ可読記憶媒体であって、
該コンピュータプログラムがプロセッサによって実行されると、請求項1~5のいずれか一項に記載の方法が実装される、コンピュータ可読記憶媒体。
【請求項13】
プロセッサによって実行されると、請求項1~5のいずれか一項に記載の方法が実装される、コンピュータプログラム。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0002
【補正方法】変更
【補正の内容】
【0002】
本出願の実施形態は、コンピュータ技術分野に関し、具体的に情報を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムに関する。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0005
【補正方法】変更
【補正の内容】
【0005】
本出願の実施形態は、情報を出力するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムを提供する。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0016
【補正方法】変更
【補正の内容】
【0016】
第3態様において、本出願の実施形態は、1つまたは複数のプロセッサと、1つまたは複数のプログラムが格納されている記憶デバイスと、を備える電子機器であって、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに第1態様のいずれかの実施形態に記載の方法が実装される、電子機器を提供する。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0017
【補正方法】変更
【補正の内容】
【0017】
第4態様において、本出願の実施形態は、コンピュータプログラムが格納されているコンピュータ可読記憶媒体であって、該コンピュータプログラムがプロセッサによって実行されると、第1態様のいずれかの実施形態に記載の方法が実装されるコンピュータ可読記憶媒体を提供する。
第5態様において、本出願の実施形態は、プロセッサによって実行されると、第1態様のいずれかの実施形態に記載の方法が実装されるコンピュータプログラムを提供する。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0019
【補正方法】変更
【補正の内容】
【0019】
本出願の他の特徴、目的及び利点は、以下の図面を参照してなされる非限定的な実施形態に係る詳細な説明を読むことにより、より明らかになるであろう。
【
図1】本出願の一実施形態を適用可能な例示的なシステムアーキテクチャを示す図である。
【
図2】本出願に係る情報を出力するための方法の一実施形態を示すフローチャートである。
【
図3】本出願に係る情報を出力するための方法の一応用シーンを示す概略図である。
【
図4】本出願に係る情報を出力するための方法のもう一つの実施形態を示すフローチャートである。
【
図5】本出願に係る情報を出力するための装置の一実施形態を示す構造概略図である。
【
図6】本出願の実施形態を実現するための
電子機器に適用されるコンピュータシステムを示す構造概略図である。
【国際調査報告】