(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-03
(45)【発行日】2022-10-12
(54)【発明の名称】スコア分布変換装置、スコア分布変換方法およびスコア分布変換プログラム
(51)【国際特許分類】
G06Q 40/04 20120101AFI20221004BHJP
【FI】
G06Q40/04
(21)【出願番号】P 2021507288
(86)(22)【出願日】2020-03-12
(86)【国際出願番号】 JP2020010893
(87)【国際公開番号】W WO2020189522
(87)【国際公開日】2020-09-24
【審査請求日】2021-09-07
(31)【優先権主張番号】P 2019051121
(32)【優先日】2019-03-19
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100103090
【氏名又は名称】岩壁 冬樹
(74)【代理人】
【識別番号】100124501
【氏名又は名称】塩川 誠人
(72)【発明者】
【氏名】藤井 俊彦
【審査官】竹下 翔平
(56)【参考文献】
【文献】米国特許出願公開第2016/0307199(US,A1)
【文献】特開2015-184823(JP,A)
【文献】特開2017-107416(JP,A)
【文献】特開2015-092404(JP,A)
【文献】特表2004-537781(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出する第一分布算出部と、
第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出する第二分布算出部と、
前記第二の分布を第一の分布に近似させるように変換する変換部とを備え、
前記第一のデータ群と前記第二のデータ群は、同一ドメインのデータであり、前記第一のモデルにデータを適用して得られるスコアの範囲と、前記第二のモデルにデータを適用して得られるスコアの範囲とは同一である
ことを特徴とするスコア分布変換装置。
【請求項2】
変換部は、第一の分布および第二の分布に対してロジット変換を行い、ロジット変換された第二の分布の形状を、ロジット変換された第一の分布の形状に近似させる形状近似変換を行い、ロジット変換された第二の分布に対して前記形状近似変換された分布にシグモイド関数を適用する変換を行うことで、第二の分布を第一の分布に近似させる
請求項1記載のスコア分布変換装置。
【請求項3】
第二のモデルは、第一のモデルの後に生成され、第二のデータ群は、第一のデータ群に含まれるデータの少なくとも一部を含む
請求項1または請求項2記載のスコア分布変換装置。
【請求項4】
第二の分布を第一の分布に近似させるように変換した結果の分布を出力する出力部を備えた
請求項1から請求項3のうちのいずれか1項に記載のスコア分布変換装置。
【請求項5】
第一のデータ群および第二のデータ群に含まれるデータは株取引データであり、第一のモデルおよび第二のモデルは、前記株取引データが示す取引が不正取引か否か推定するモデルであり、第二のデータ群は、第一のデータ群に含まれるデータ以後に取得されたデータを含む
請求項1から請求項4のうちのいずれか1項に記載のスコア分布変換装置。
【請求項6】
第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出する第一分布算出部と、
第二のデータ群に含まれる各株取引データを、前記第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出する第二分布算出部と、
前記第二の分布を第一の分布に近似させるように変換する変換部とを備えた
ことを特徴とするスコア分布変換装置。
【請求項7】
第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出し、
第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出し、
前記第二の分布を第一の分布に近似させるように変換し、
前記第一のデータ群と前記第二のデータ群は、同一ドメインのデータであり、前記第一のモデルにデータを適用して得られるスコアの範囲と、前記第二のモデルにデータを適用して得られるスコアの範囲とは同一である
ことを特徴とするスコア分布変換方法。
【請求項8】
第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出し、
第二のデータ群に含まれる各株取引データを、前記第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出し、
前記第二の分布を第一の分布に近似させるように変換する
ことを特徴とするスコア分布変換方法。
【請求項9】
コンピュータに、
第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出する第一分布算出処理、
第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出する第二分布算出処理、および、
前記第二の分布を第一の分布に近似させるように変換する変換処理を実行させ、
前記第一のデータ群と前記第二のデータ群は、同一ドメインのデータであり、前記第一のモデルにデータを適用して得られるスコアの範囲と、前記第二のモデルにデータを適用して得られるスコアの範囲とは同一である
ことを特徴とするスコア分布変換プログラム。
【請求項10】
コンピュータに、
第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出する第一分布算出処理、
第二のデータ群に含まれる各株取引データを、前記第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出する第二分布算出処理、および、
前記第二の分布を第一の分布に近似させるように変換する変換処理
を実行させるためのスコア分布変換プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数のモデルにより出力されるスコアの分布を変換するスコア分布変換装置、スコア分布変換方法およびスコア分布変換プログラムに関する。
【背景技術】
【0002】
膨大なデータの中から特定の特徴を有するデータを確認しようとする場合、効率的に対象を抽出する観点から、その特徴らしさを示すスコアに基づいて、大まかにデータを選別することが行われている。算出されるスコアに対して予め閾値を設定しておくことで、ユーザは、設定された閾値外のデータを確認不要と判断することが可能になる。
【0003】
例えば、特許文献1には、クレジットカードの利用が不正である確率を反映したスコアを算出するためのスコアリングシステムが記載されている。特許文献1に記載されたシステムは、利用者ごとの履歴データに含まれる項目をスコアの積算の対象となる項目に加え、固有の項目に基づく不正出現確率を基に、不正利用の可能性を反映したスコアを算出する。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
近年、異種混合学習を初めとする機械学習によって学習された特徴らしさを示すスコアを予測するためのモデルが、スコアの算出に用いられることがある。新たな学習データを用いてこのようなモデルを再学習することで、モデルが算出するスコアの精度が変化することが知られている。例えば、増加した学習データを用いてモデルを学習することで、精度の高いモデルに置き換えることが可能になる。
【0006】
一方、スコアを算出する精度が変化し、データに対して算出されるスコアの分布の傾向が変化した場合、データを抽出しようとするユーザにとっては、確認するスコアの閾値を再度決め直さなければならないという問題がある。
【0007】
例えば、旧モデルでは、閾値を0.4として検査対象とするデータを選別していたとする。ここで、新モデルに更新することで精度が向上し、閾値0.4ではデータが大量に選別されてしまうことから、同量のデータを選別するためには閾値を0.2に設定しなければならないとする。この場合、ユーザは、モデルが更新されるたびに生成されたスコアの分布(モデルの精度)に応じて閾値を調整しなければならない。
【0008】
また、特許文献1に記載されたシステムにより算出されるスコアも、利用者ごとの履歴データに含まれる項目に応じて、算出するたびに変化する可能性がある。
【0009】
再度計算を行ったり、モデルが更新されたりするたびに閾値を調整することは、ユーザにとって負荷が高い。また、選別を行う判断に用いられる閾値は、モデルを変更する前後で変わらないことが望ましいため、そのため、同一の閾値を用いるためには、モデルを変更しても、スコアの絶対的な値が変更前のモデルと同等の値として解釈できることが好ましい。
【0010】
そこで、本発明は、スコアを算出するモデルの変更前後で、同一のデータに対するスコアの解釈を維持できるようにスコアの分布を変換できるスコア分布変換装置、スコア分布変換方法およびスコア分布変換プログラムを提供することを目的とする。
【課題を解決するための手段】
【0011】
本発明によるスコア分布変換装置は、第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出する第一分布算出部と、第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出する第二分布算出部と、第二の分布を第一の分布に近似させるように変換する変換部とを備え、第一のデータ群と第二のデータ群が、同一ドメインのデータであり、第一のモデルにデータを適用して得られるスコアの範囲と、第二のモデルにデータを適用して得られるスコアの範囲とが同一であることを特徴とする。
【0012】
本発明による他のスコア分布変換装置は、第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出する第一分布算出部と、第二のデータ群に含まれる各株取引データを、第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出する第二分布算出部と、第二の分布を第一の分布に近似させるように変換する変換部とを備えたことを特徴とする。
【0013】
本発明によるスコア分布変換方法は、第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出し、第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出し、第二の分布を第一の分布に近似させるように変換し、第一のデータ群と第二のデータ群が、同一ドメインのデータであり、第一のモデルにデータを適用して得られるスコアの範囲と、第二のモデルにデータを適用して得られるスコアの範囲とが同一であることを特徴とする。
【0014】
本発明による他のスコア分布変換方法は、第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出し、第二のデータ群に含まれる各株取引データを、第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出し、第二の分布を第一の分布に近似させるように変換することを特徴とする。
【0015】
本発明によるスコア分布変換プログラムは、コンピュータに、第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出する第一分布算出処理、第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出する第二分布算出処理、および、第二の分布を第一の分布に近似させるように変換する変換処理を実行させ、第一のデータ群と第二のデータ群が、同一ドメインのデータであり、第一のモデルにデータを適用して得られるスコアの範囲と、第二のモデルにデータを適用して得られるスコアの範囲とは同一であることを特徴とする。
【0016】
本発明による他のスコア分布変換プログラムは、コンピュータに、第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出する第一分布算出処理、第二のデータ群に含まれる各株取引データを、第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出する第二分布算出処理、および、第二の分布を第一の分布に近似させるように変換する変換処理を実行させることを特徴とする。
【発明の効果】
【0017】
本発明によれば、スコアを算出するモデルの変更前後で、同一のデータに対するスコアの解釈を維持できるようにスコアの分布を変換できる。
【図面の簡単な説明】
【0018】
【
図1】本発明によるスコア分布変換装置の一実施形態の構成例を示すブロック図である。
【
図2】第一の分布および第二の分布の例を示す説明図である。
【
図3】各グラフに含まれるスコアに対して、シグモイド関数の逆関数を適用した例を示す説明図である。
【
図4】グラフを形状近似変換した例を示す説明図である。
【
図5】シグモイド関数を適用した例を示す説明図である。
【
図6】スコア分布変換装置の動作例を示すフローチャートである。
【
図7】本発明によるスコア分布変換装置の概要を示すブロック図である。
【
図8】本発明によるスコア分布変換装置の他の概要を示すブロック図である。
【
図9】少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
【発明を実施するための形態】
【0019】
以下、本発明の実施形態を図面を参照して説明する。
【0020】
図1は、本発明によるスコア分布変換装置の一実施形態の構成例を示すブロック図である。本実施形態のスコア分布変換装置100は、記憶部10と、第一分布算出部20と、第二分布算出部30と、変換部40と、出力部50とを備えている。
【0021】
記憶部10は、スコアを算出するモデルと、そのモデルに対して適用するデータを記憶する。本実施形態では、株取引データが示す取引が不正取引か否かを推定するモデルを用いて、取引データの不正取引らしさを示すスコアを算出する場面を想定する。すなわち、本実施形態では、株取引データを適用して不正取引らしさを示すスコアを算出するモデルを想定する。ただし、算出するスコアは不正取引らしさを示すスコアに限定されない。
【0022】
また、本実施形態では、スコア分布変換装置100は、モデルの更新前後でスコアの分布を算出する。以下の説明では、更新前のモデルを、旧モデルまたは第一のモデルと記し、更新後のモデルを、新モデルまたは第二のモデルと記す。すなわち、第二のモデルは、第一のモデルの後に生成されたモデルであるとする。記憶部10は、更新前後のモデルを予め記憶していてもよく、モデルが更新されるごとに、生成されたモデルを記憶するようにしてもよい。
【0023】
なお、モデルの態様は任意であり、例えば、ニューラルネットワークやロジスティック回帰などが挙げられる。なお、新モデルおよび旧モデルとも、同一ドメインのデータを用いて学習が行われる。本実施形態では、更新前と更新後のいずれも、株取引データを用いてモデルが学習される。一般に、新モデルの方が旧モデルよりも学習に用いられるデータが増加することから、新モデルの方が旧モデルよりも認識精度が高くなることが期待される。記憶部10は、例えば、磁気ディスク等により実現される。
【0024】
第一分布算出部20は、第一のモデルに複数のデータを適用して得られるスコアの分布(以下、第一の分布と記す。)を算出する。以下の説明では、第一の分布を算出する際に用いられるデータ群を、第一のデータ群と記す。すなわち、第一分布算出部20は、第一のデータ群に含まれる各データを第一のモデルに適用して第一の分布を算出する。
【0025】
例えば、株取引データが用いられる場合、第一分布算出部20は、第一のデータ群に含まれる各株取引データを第一のモデルに適用して得られる不正取引らしさを示すスコアの分布を第一の分布として算出する。
【0026】
第二分布算出部30は、第二のモデルに複数のデータを適用して得られるスコアの分布(以下、第二の分布と記す。)を算出する。以下の説明では、第二の分布を算出する際に用いられるデータ群を、第二のデータ群と記す。すなわち、第二分布算出部30は、第二のデータ群に含まれる各データを第二のモデルに適用して第二の分布を算出する。第二のデータ群は、第一のデータ群に含まれるデータ以後に取得されたデータを含み、第一のデータ群に含まれるデータの少なくとも一部を含んでいてもよい。
【0027】
例えば、株取引データが用いられる場合、第二分布算出部30は、第二のデータ群に含まれる各株取引データを、第一のモデルの後に生成された第二のモデルに適用して得られる不正取引らしさを示すスコアの分布を第二の分布として算出する。なお、第一のデータ群と、第二のデータ群は、同一のドメインのデータである。
【0028】
変換部40は、第二の分布を第一の分布に近似させるように変換する。具体的には、変換部40は、第一のモデルにデータを適用して得られるスコアの範囲と、第二のモデルにデータを適用して得られるスコアの範囲とが同一である場合に、第二の分布を第一の分布に近似させるように変換する。これは、例えば、第一のモデルが、不正取引らしさを0から1の範囲で算出する場合、第二のモデルも、不正取引らしさを0から1の範囲で算出することに対応する。
【0029】
まず、変換部40は、第一の分布および第二の分布に含まれる各スコアに対してロジット変換を行う。具体的には、変換部40は、第一の分布および第二の分布に含まれる各スコアに対し、ロジット変換として、シグモイド関数の逆関数を適用する。以下、シグモイド関数の逆関数を適用したあとの第一の分布および第二の分布を、それぞれ、第一ロジット変換後分布、および第二ロジット変換後分布と記す。
【0030】
次に、変換部40は、第二ロジット変換後分布の形状を第一ロジット変換後分布に近似させる変換を行う。以下、分布の形状を近似させる変換を形状近似変換と記す。具体的には、変換部40は、以下に例示する2つの処理により形状近似変換を行う。
【0031】
まず、変換部40は、第一の処理として、各ロジック変換後分布に含まれる各スコアの標準偏差を算出して、分布の幅を近似させる。変換部40は、例えば、以下に例示する式1に基づいて分布の幅を近似させてもよい。式1におけるtmpは、第一の処理による一時的な形状近似変換の結果であり、stdは、対象のスコアに対する標準偏差を算出する関数である。また、式1におけるtargetが、目標とする分布(すなわち、第二の分布)に含まれるスコアを示し、beforeが、変換前の分布(すなわち、第一の分布)に含まれるスコアを示す。
【0032】
tmp=before×(std(target)/std(before))(式1)
【0033】
次に、変換部40は、第二の処理として、第二ロジック変換後分布に含まれる各スコアの中央値を第一ロジット変換後分布の中央値に近似させる変換を行う。変換部40は、例えば、以下に例示する式2に基づいて、中央値を近似させてもよい。式2におけるafterは、最終的な形状近似変換の結果であり、medianは、分布内の中央値を算出する関数である。
【0034】
after=tmp+(median(target)-median(tmp))
(式2)
【0035】
なお、変換部40は、第一ロジット変換後分布の中央値を近似させるだけでなく、第一ロジット変換後分布の標準偏差も近似させるように変換してもよい。そして、変換部40は、形状近似変換された分布に含まれる各スコアに対してシグモイド関数を適用する。変換部40が、上述する変換を行うことで、第二の分布を第一の分布に近似させるように変換できる。
【0036】
出力部50は、変換部40によって変換された第二の分布を出力する。すなわち、出力部50は、第二の分布を第一の分布に近似させるように変換した結果の分布を出力する。
【0037】
以下、具体例を用いて、変換部40による変換処理を説明する。
図2は、第一の分布および第二の分布の例を示す説明図である。
図2において、実線で例示する「変換前」グラフG1は、第二の分布に対応し、点線で例示する「目標値」グラフG2は、第一の分布に対応する。すなわち、本具体例では、第二の分布を示す「変換前」グラフG1を、第一の分布を示す「目標値」グラフG2に変換する処理を説明する。
【0038】
図2に示す例では、横軸が0から1の範囲のスコアを示しており、例えば、不正取引らしさを示すスコアに対応する。また、縦軸が、モデルによって算出されたスコアの度数を示しており、例えば、該当する不正取引らしさを示すデータの件数に対応する。
【0039】
まず、変換部40は、
図2に例示するグラフG1およびグラフG2に対して、シグモイド関数の逆関数を適用する。
図3は、
図2に例示する各グラフに含まれるスコアに対して、シグモイド関数の逆関数を適用した例を示す説明図である。具体的には、グラフG1に対してシグモイド関数の逆関数を適用した結果がグラフG3であり、グラフG2に対してシグモイド関数の逆関数を適用した結果がグラフG4である。各グラフに対してシグモイド関数の逆関数を適用することで、
図3に例示するように、形状が類似した分布に変換することが可能になる。
【0040】
次に、変換部40は、
図3に例示するグラフG3の形状をグラフG4の形状に近似させる変換(形状近似変換)を行う。具体的には、変換部40は、上記に示す式1に基づいて、分布の幅をグラフG4の形状に近似させるようにグラフG3の形状を変換する。さらに、変換部40は、上記に示す式2に基づいて、変換されたグラフG3の中央値を、グラフG4の中央値に近似させる。
図4は、
図3に例示するグラフG3を形状近似変換した例を示す説明図である。変換部40が、形状近似変換を行うことで、グラフG3をグラフG4に近似させたグラフG5が生成される。
【0041】
そして、変換部40は、
図4に例示するグラフG5に含まれる各スコアに対してシグモイド関数を適用する。
図5は、シグモイド関数を適用した例を示す説明図である。
図4に例示するグラフG5に含まれる各スコアに対してシグモイド関数を適用した結果、
図5に例示するように、グラフG2に近似するグラフG6が生成される。出力部50は、グラフG6を出力してもよい。
【0042】
例えば、
図5に示す例では、変換前に0.1であったスコアを、0.3程度に上昇させることで、第一の分布に近似する分布を生成することが可能になる。
【0043】
第一分布算出部20と、第二分布算出部30と、変換部40と、出力部50とは、プログラム(スコア分布変換プログラム)に従って動作するコンピュータのプロセッサ(例えば、CPU(Central Processing Unit )、GPU(Graphics Processing Unit))によって実現される。
【0044】
例えば、プログラムは、記憶部10に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、第一分布算出部20、第二分布算出部30、変換部40および出力部50として動作してもよい。また、スコア分布変換装置の機能がSaaS(Software as a Service )形式で提供されてもよい。
【0045】
第一分布算出部20と、第二分布算出部30と、変換部40と、出力部50とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry )、プロセッサ等やこれらの組合せによって実現されてもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。
【0046】
また、スコア分布変換装置の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
【0047】
次に、本実施形態のスコア分布変換装置の動作例を説明する。
図6は、本実施形態のスコア分布変換装置100の動作例を示すフローチャートである。第一分布算出部20は、第一のデータ群に含まれる各データを第一のモデルに適用して第一の分布を算出し(ステップS11)、第二分布算出部は、第二のデータ群に含まれる各データを第二のモデルに適用して第二の分布を算出する(ステップS12)。そして、変換部40は、第二の分布を第一の分布に近似させるように変換する(ステップS13)。
【0048】
以上のように、本実施形態では、第一分布算出部20が第一のモデルにデータを適用して第一の分布を算出し、第二分布算出部30が第二のモデルにデータを適用して第二の分布を算出し、変換部40が、第二の分布を第一の分布に近似させるように変換する。そして、第一のデータ群と第二のデータ群は、同一ドメインのデータであり、第一のモデルにデータを適用して得られるスコアの範囲と、第二のモデルにデータを適用して得られるスコアの範囲とは同一である。よって、スコアを算出するモデルの変更前後で、同一のデータに対するスコアの解釈を維持できるようにスコアの分布を変換できる。そのため、例えば、閾値等に基づいてデータを選別するユーザの作業負荷を低減させることが可能になる。
【0049】
次に、本発明の概要を説明する。
図7は、本発明によるスコア分布変換装置の概要を示すブロック図である。本発明によるスコア分布変換装置80(例えば、スコア分布変換装置100)は、第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出する第一分布算出部81(例えば、第一分布算出部20)と、第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出する第二分布算出部82(例えば、第二分布算出部30)と、第二の分布を第一の分布に近似させるように変換する変換部83(例えば、変換部40)とを備えている。
【0050】
ここで、第一のデータ群と第二のデータ群は、同一ドメインのデータであり、第一のモデルにデータを適用して得られるスコアの範囲と、第二のモデルにデータを適用して得られるスコアの範囲(例えば、不正らしさを示すスコアの範囲が0から1)とは同一である。
【0051】
そのような構成により、スコアを算出するモデルの変更前後で、同一のデータに対するスコアの解釈を維持できるようにスコアの分布を変換できる。
【0052】
具体的には、変換部83は、第一の分布および第二の分布に対してロジット変換を行い、ロジット変換された第二の分布の形状を、ロジット変換された第一の分布の形状に近似させる形状近似変換(例えば、上記に示す式1および式2に基づく変換)を行い、ロジット変換された第二の分布に対して形状近似変換された分布にシグモイド関数を適用する変換を行うことで、第二の分布を第一の分布に近似させてもよい。
【0053】
ここで、第二のモデルは、第一のモデルの後に生成され、第二のデータ群は、第一のデータ群に含まれるデータの少なくとも一部を含んでいてもよい。
【0054】
また、スコア分布変換装置80は、第二の分布を第一の分布に近似させるように変換した結果の分布を出力する出力部(例えば、出力部50)を備えていてもよい。
【0055】
また、上記スコア分布変換装置80について、第一のデータ群および第二のデータ群に含まれるデータは株取引データであってもよい。また、第一のモデルおよび第二のモデルは、株取引データが示す取引が不正取引か否か推定するモデルであってもよい。さらに、第二のデータ群は、第一のデータ群に含まれるデータ以後に取得されたデータを含んでいてもよい。
【0056】
図8は、本発明によるスコア分布変換装置の他の概要を示すブロック図である。
図8に示すスコア分布変換装置90(例えば、スコア分布変換装置100)は、第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出する第一分布算出部91(例えば、第一分布算出部20)と、第二のデータ群に含まれる各株取引データを、第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出する第二分布算出部92(例えば、第二分布算出部30)と、第二の分布を第一の分布に近似させるように変換する変換部93(例えば、変換部40)とを備えていてもよい。
【0057】
そのような構成によっても、スコアを算出するモデルの変更前後で、同一のデータに対するスコアの解釈を維持できるようにスコアの分布を変換できる。特に、スコアの閾値の設定に基づいて分布内の所定量のデータを選別する場合、本実施形態では、モデルの変更前後でユーザのスコアに対する体感が維持できるため、特に有効である。
【0058】
図9は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ1000は、プロセッサ1001、主記憶装置1002、補助記憶装置1003、インタフェース1004を備える。
【0059】
上述のスコア分布変換装置は、コンピュータ1000に実装される。そして、上述した各処理部の動作は、プログラム(スコア分布変換プログラム)の形式で補助記憶装置1003に記憶されている。プロセッサ1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、当該プログラムに従って上記処理を実行する。
【0060】
なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM(Compact Disc Read-only memory )、DVD-ROM(Read-only memory)、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が当該プログラムを主記憶装置1002に展開し、上記処理を実行してもよい。
【0061】
また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0062】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0063】
(付記1)第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出する第一分布算出部と、第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出する第二分布算出部と、前記第二の分布を第一の分布に近似させるように変換する変換部とを備え、前記第一のデータ群と前記第二のデータ群は、同一ドメインのデータであり、前記第一のモデルにデータを適用して得られるスコアの範囲と、前記第二のモデルにデータを適用して得られるスコアの範囲とは同一であることを特徴とするスコア分布変換装置。
【0064】
(付記2)変換部は、第一の分布および第二の分布に対してロジット変換を行い、ロジット変換された第二の分布の形状を、ロジット変換された第一の分布の形状に近似させる形状近似変換を行い、ロジット変換された第二の分布に対して前記形状近似変換された分布にシグモイド関数を適用する変換を行うことで、第二の分布を第一の分布に近似させる付記1記載のスコア分布変換装置。
【0065】
(付記3)第二のモデルは、第一のモデルの後に生成され、第二のデータ群は、第一のデータ群に含まれるデータの少なくとも一部を含む付記1または付記2記載のスコア分布変換装置。
【0066】
(付記4)第二の分布を第一の分布に近似させるように変換した結果の分布を出力する出力部を備えた付記1から付記3のうちのいずれか1つに記載のスコア分布変換装置。
【0067】
(付記5)第一のデータ群および第二のデータ群に含まれるデータは株取引データであり、第一のモデルおよび第二のモデルは、前記株取引データが示す取引が不正取引か否か推定するモデルであり、第二のデータ群は、第一のデータ群に含まれるデータ以後に取得されたデータを含む付記1から付記4のうちのいずれか1つに記載のスコア分布変換装置。
【0068】
(付記6)第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出する第一分布算出部と、第二のデータ群に含まれる各株取引データを、前記第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出する第二分布算出部と、前記第二の分布を第一の分布に近似させるように変換する変換部とを備えたことを特徴とするスコア分布変換装置。
【0069】
(付記7)第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出し、第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出し、前記第二の分布を第一の分布に近似させるように変換し、前記第一のデータ群と前記第二のデータ群は、同一ドメインのデータであり、前記第一のモデルにデータを適用して得られるスコアの範囲と、前記第二のモデルにデータを適用して得られるスコアの範囲とは同一であることを特徴とするスコア分布変換方法。
【0070】
(付記8)第一の分布および第二の分布に対してロジット変換を行い、ロジット変換された第二の分布の形状を、ロジット変換された第一の分布の形状に近似させる形状近似変換を行い、ロジット変換された第二の分布に対して前記形状近似変換された分布にシグモイド関数を適用する変換を行うことで、第二の分布を第一の分布に近似させる付記7記載のスコア分布変換方法。
【0071】
(付記9)第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出し、第二のデータ群に含まれる各株取引データを、前記第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出し、前記第二の分布を第一の分布に近似させるように変換することを特徴とするスコア分布変換方法。
【0072】
(付記10)コンピュータに、第一のデータ群に含まれる各データを第一のモデルに適用して得られるスコアの分布である第一の分布を算出する第一分布算出処理、第二のデータ群に含まれる各データを第二のモデルに適用して得られるスコアの分布である第二の分布を算出する第二分布算出処理、および、前記第二の分布を第一の分布に近似させるように変換する変換処理を実行させ、前記第一のデータ群と前記第二のデータ群は、同一ドメインのデータであり、前記第一のモデルにデータを適用して得られるスコアの範囲と、前記第二のモデルにデータを適用して得られるスコアの範囲とは同一であることを特徴とするスコア分布変換プログラム。
【0073】
(付記11)コンピュータに、変換処理で、第一の分布および第二の分布に対してロジット変換を行わせ、ロジット変換された第二の分布の形状を、ロジット変換された第一の分布の形状に近似させる形状近似変換を行わせ、ロジット変換された第二の分布に対して前記形状近似変換された分布にシグモイド関数を適用する変換を行わせることで、第二の分布を第一の分布に近似させる付記10記載のスコア分布変換プログラム。
【0074】
(付記12)コンピュータに、第一のデータ群に含まれる各株取引データを、不正取引か否かを推定するモデルである第一のモデルに適用して得られる不正取引らしさを示すスコアの分布である第一の分布を算出する第一分布算出処理、第二のデータ群に含まれる各株取引データを、前記第一のモデルの後に生成された不正取引か否かを推定するモデルである第二のモデルに適用して得られる不正取引らしさを示すスコアの分布である第二の分布を算出する第二分布算出処理、および、前記第二の分布を第一の分布に近似させるように変換する変換処理を実行させるためのスコア分布変換プログラム。
【0075】
以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【0076】
この出願は、2019年3月19日に出願された日本特許出願2019-51121を基礎とする優先権を主張し、その開示の全てをここに取り込む。
【符号の説明】
【0077】
10 記憶部
20 第一分布算出部
30 第二分布算出部
40 変換部
50 出力部