(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023164277
(43)【公開日】2023-11-10
(54)【発明の名称】広告詐欺ユーザを分類するための装置及び方法
(51)【国際特許分類】
G06Q 30/0241 20230101AFI20231102BHJP
【FI】
G06Q30/0241 394
【審査請求】有
【請求項の数】17
【出願形態】OL
(21)【出願番号】P 2023008842
(22)【出願日】2023-01-24
(31)【優先権主張番号】10-2022-0052868
(32)【優先日】2022-04-28
(33)【優先権主張国・地域又は機関】KR
(71)【出願人】
【識別番号】519323115
【氏名又は名称】ネットマーブル・コーポレイション
(74)【代理人】
【識別番号】100188558
【弁理士】
【氏名又は名称】飯田 雅人
(74)【代理人】
【識別番号】100205785
【弁理士】
【氏名又は名称】▲高▼橋 史生
(72)【発明者】
【氏名】デファン・バン
(72)【発明者】
【氏名】ジョンフン・ムン
(72)【発明者】
【氏名】ジュンホ・ソン
【テーマコード(参考)】
5L049
【Fターム(参考)】
5L049BB08
(57)【要約】
【課題】広告詐欺ユーザを分類するための装置及び方法が開示される。
【解決手段】一実施形態に係る装置は、プロセッサ、及びプロセッサによって実行される命令を格納するメモリを含み、プロセッサによって命令が実行されるとき、プロセッサは、オンライン広告に対する広告詐欺に関して一次的に広告詐欺ユーザであると判断されたユーザのユーザデータを受信し、ユーザデータから広告詐欺関連特徴を抽出し、抽出された特徴に基づいてユーザをクラスタリングすることによってユーザからフェイクユーザを分類する動作、インターネットプロトコル(internet protocol、IP)基盤詐欺照会サービスサーバを用いて、ユーザのうちフェイクユーザとして分類されない残りのユーザに対する詐欺スコアを照会し、詐欺スコアに基づいて残りのユーザをフェイクユーザとリアルユーザとして分類する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
広告詐欺ユーザを分類するための装置であって、
プロセッサと、
前記プロセッサによって実行される命令を格納するメモリと、を含み、
前記プロセッサによって前記命令が実行されるとき、前記プロセッサは、
オンライン広告に対する広告詐欺に関して一次的に広告詐欺ユーザであると判断されたユーザのユーザデータを受信し、
前記ユーザデータから広告詐欺関連特徴を抽出し、
前記抽出された特徴に基づいて前記ユーザをクラスタリングすることによって前記ユーザからフェイクユーザを分類し、
インターネットプロトコル(internet protocol:IP)基盤詐欺照会サービスサーバを用いて前記ユーザのうち前記フェイクユーザとして分類されない残りのユーザに対する詐欺スコアを照会し、
前記詐欺スコアに基づいて前記残りのユーザを前記フェイクユーザとリアルユーザとして分類する、
装置。
【請求項2】
前記プロセッサは、
前記詐欺スコアが設定された閾値以上であるユーザを前記フェイクユーザとして分類し、
前記詐欺スコアが設定された閾値未満であるユーザを前記リアルユーザとして決定する、請求項1に記載の装置。
【請求項3】
前記プロセッサは、前記抽出された特徴を正規化する、請求項1又は請求項2に記載の装置。
【請求項4】
前記プロセッサは、前記正規化された特徴の次元を縮小する、請求項3に記載の装置。
【請求項5】
前記プロセッサは、前記縮小された特徴に基づいて前記ユーザをクラスタリングする、請求項4に記載の装置。
【請求項6】
前記特徴は、前記オンライン広告の対象であるコンテンツのインストール時間に関する特徴、前記コンテンツに対するログイン時間に関する特徴、前記コンテンツのインストール以後に設定された時間内に課金したユーザの比率に関する特徴、前記コンテンツに対する課金総額とログインユーザ数の比率に関する特徴、前記コンテンツに対する課金総額と課金ユーザ数の比率に関する特徴、前記コンテンツをインストールした次の日にログインしたユーザの比率に関する特徴、及び前記コンテンツをインストールした後にオープンしたユーザの比率に関する特徴を含む、請求項1~請求項5のいずれか一項に記載の装置。
【請求項7】
前記プロセッサは、
前記ユーザのユーザデータをコンテンツのインストール日付及びインストール時間を基準にしてグルーピングし、
グルーピングされたユーザデータに基づいて日付及び時間当たりコンテンツのインストール回数の時系列データを生成し、
前記時系列データに時系列分解を行って前記グルーピングされたユーザデータのグループごとに周期性ベクトルを抽出し、
グループごとの周期性ベクトルと一般ユーザのグループである有効グループのユーザデータに対する有効周期性ベクトルの間相関係数を算出し、
前記算出された相関係数をスカラー値に変換する、請求項6に記載の装置。
【請求項8】
前記プロセッサは、
前記ユーザのユーザデータをログイン日付及びログイン時間を基準にしてグルーピングし、
グルーピングされたユーザデータに基づいて日付及び時間当たりログイン回数の時系列データを生成し、
前記時系列データに時系列分解を行って前記グルーピングされたユーザデータのグループごとに周期性ベクトルを抽出し、
グループごとの周期性ベクトルと一般ユーザのグループである有効グループのユーザデータに対する有効周期性ベクトルの間相関係数を算出し、
前記算出された相関係数をスカラー値に変換する、請求項6に記載の装置。
【請求項9】
広告詐欺ユーザを分類するための方法であって、
オンライン広告に対する広告詐欺に関して一次的に広告詐欺ユーザであると判断されたユーザのユーザデータを受信する動作と、
前記ユーザデータから広告詐欺関連特徴を抽出する動作と、
前記抽出された特徴に基づいて前記ユーザをクラスタリングすることによって前記ユーザからフェイクユーザを分類する動作と、
インターネットプロトコル(internet protocolと、IP)基盤詐欺照会サービスサーバを用いて、前記ユーザのうち前記フェイクユーザとして分類されない残りのユーザに対する詐欺スコアを照会する動作と、
前記詐欺スコアに基づいて前記残りのユーザを前記フェイクユーザとリアルユーザとして分類する動作と、
を含む、方法。
【請求項10】
前記フェイクユーザとリアルユーザとして分類する動作は、
前記詐欺スコアが設定された閾値以上であるユーザを前記フェイクユーザとして分類する動作と、
前記詐欺スコアが設定された閾値未満であるユーザを前記リアルユーザとして決定する動作と、
を含む、請求項9に記載の方法。
【請求項11】
前記ユーザからフェイクユーザを分類する動作は、前記抽出された特徴を正規化する動作を含む、請求項9又は請求項10に記載の方法。
【請求項12】
前記ユーザからフェイクユーザを分類する動作は、前記正規化された特徴の次元を縮小する動作をさらに含む、請求項11に記載の方法。
【請求項13】
前記ユーザからフェイクユーザを分類する動作は、前記縮小された特徴に基づいて前記ユーザをクラスタリングする動作をさらに含む、請求項12に記載の方法。
【請求項14】
前記特徴は、前記オンライン広告の対象であるコンテンツのインストール時間に関する特徴、前記コンテンツに対するログイン時間に関する特徴、前記コンテンツのインストール以後に設定された時間内に課金したユーザの比率に関する特徴、前記コンテンツに対する課金総額とログインユーザ数の比率に関する特徴、前記コンテンツに対する課金総額と課金ユーザ数の比率に関する特徴、前記コンテンツをインストールした次の日にログインしたユーザの比率に関する特徴、及び前記コンテンツをインストールした後にオープンしたユーザの比率に関する特徴を含む、請求項9~請求項13のいずれか一項に記載の方法。
【請求項15】
前記特徴を抽出する動作は、
前記ユーザのユーザデータをコンテンツのインストール日付及びインストール時間を基準にしてグルーピングする動作と、
グルーピングされたユーザデータに基づいて、日付及び時間当たりコンテンツのインストール回数の時系列データを生成する動作と、
前記時系列データに時系列分解を行って前記グルーピングされたユーザデータのグループごとに周期性ベクトルを抽出する動作と、
グループごとの周期性ベクトルと一般ユーザのグループである有効グループのユーザデータに対する有効周期性ベクトルの間相関係数を算出する動作と、
前記算出された相関係数をスカラー値に変換する動作と、
を含む、請求項14に記載の方法。
【請求項16】
前記特徴を抽出する動作は、
前記ユーザのユーザデータをログイン日付及びログイン時間を基準にしてグルーピングする動作と、
グルーピングされたユーザデータに基づいて日付及び時間当たりログイン回数の時系列データを生成する動作と、
前記時系列データに時系列分解を行って前記グルーピングされたユーザデータのグループごとに周期性ベクトルを抽出する動作と、
グループごとの周期性ベクトルと一般ユーザのグループである有効グループのユーザデータに対する有効周期性ベクトルの間相関係数を算出する動作と、
前記算出された相関係数をスカラー値に変換する動作と、
を含む、請求項14に記載の方法。
【請求項17】
ハードウェアと結合して請求項9~請求項16のいずれか一項に記載の方法を実行させるためにコンピュータで読み出し可能な記録媒体に格納されたコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
以下の実施形態は、広告詐欺ユーザ分類技術に関する。
【背景技術】
【0002】
コンテンツ(例えば、アプリケーション)を提供する広告主は、電子媒体を介してコンテンツを一般のユーザに広告を出すことができる。電子媒体の管理者は、パブリッシャ(publisher)であってもよい。広告を介して新規ユーザがコンテンツに流入され得る。これに対する補償として、パブリッシャは、広告主に広告費を請求することができる。広告詐欺は、パブリッシャが不正な方式でトラフィックを発生させて広告費を請求する行為をいう。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本発明の目的は、広告詐欺ユーザからリアルユーザとフェイクユーザを効率よく区別して広告関連指標の正確度を高め、広告効果を正確かつ定量的に測定することにある。
【課題を解決するための手段】
【0004】
一実施形態に係る広告詐欺ユーザを分類するための装置は、プロセッサと、前記プロセッサによって実行される命令を格納するメモリと、を含み、前記プロセッサによって前記命令が実行されるとき、前記プロセッサは、オンライン広告に対する広告詐欺に関して一次的に広告詐欺ユーザであると判断されたユーザのユーザデータを受信し、前記ユーザデータから広告詐欺関連特徴を抽出し、前記抽出された特徴に基づいて前記ユーザをクラスタリングすることによって前記ユーザからフェイクユーザを分類し、インターネットプロトコル(internet protocol:IP)基盤詐欺照会サービスサーバを用いて前記ユーザのうち前記フェイクユーザとして分類されない残りのユーザに対する詐欺スコアを照会し、前記詐欺スコアに基づいて前記残りのユーザを前記フェイクユーザとリアルユーザとして分類する。
【0005】
前記プロセッサは、前記詐欺スコアが設定された閾値以上であるユーザを前記フェイクユーザとして分類し、前記詐欺スコアが設定された閾値未満であるユーザを前記リアルユーザとして決定することができる。
【0006】
前記プロセッサは、前記抽出された特徴を正規化することができる。
【0007】
前記プロセッサは、前記正規化された特徴の次元を縮小することができる。
【0008】
前記プロセッサは、前記縮小された特徴に基づいて前記ユーザをクラスタリングすることができる。
【0009】
前記特徴は、前記オンライン広告の対象であるコンテンツのインストール時間に関する特徴、前記コンテンツに対するログイン時間に関する特徴、前記コンテンツのインストール以後に設定された時間内に課金したユーザの比率に関する特徴、前記コンテンツに対する課金総額とログインユーザ数の比率に関する特徴、前記コンテンツに対する課金総額と課金ユーザ数の比率に関する特徴、前記コンテンツをインストールした次の日にログインしたユーザの比率に関する特徴、及び前記コンテンツをインストールした後にオープンしたユーザの比率に関する特徴を含むことができる。
【0010】
前記プロセッサは、前記ユーザのユーザデータをコンテンツのインストール日付及びインストール時間を基準にしてグルーピングし、グルーピングされたユーザデータに基づいて日付及び時間当たりコンテンツのインストール回数の時系列データを生成し、前記時系列データに時系列分解を行って前記グルーピングされたユーザデータのグループごとに周期性ベクトルを抽出し、グループごとの周期性ベクトルと一般ユーザのグループである有効グループのユーザデータに対する有効周期性ベクトルの間相関係数を算出し、前記算出された相関係数をスカラー値に変換することができる。
【0011】
前記プロセッサは、前記ユーザのユーザデータをログイン日付及びログイン時間を基準にしてグルーピングし、グルーピングされたユーザデータに基づいて日付及び時間当たりログイン回数の時系列データを生成し、前記時系列データに時系列分解を行って前記グルーピングされたユーザデータのグループごとに周期性ベクトルを抽出し、グループごとの周期性ベクトルと一般ユーザのグループである有効グループのユーザデータに対する有効周期性ベクトルの間相関係数を算出し、前記算出された相関係数をスカラー値に変換することができる。
【0012】
一実施形態に係る広告詐欺ユーザを分類するための方法は、オンライン広告に対する広告詐欺に関して一次的に広告詐欺ユーザであると判断されたユーザのユーザデータを受信する動作と、前記ユーザデータから広告詐欺関連特徴を抽出する動作と、前記抽出された特徴に基づいて前記ユーザをクラスタリングすることによって前記ユーザからフェイクユーザを分類する動作と、インターネットプロトコル(internet protocolと、IP)基盤詐欺照会サービスサーバを用いて、前記ユーザのうち前記フェイクユーザとして分類されない残りのユーザに対する詐欺スコアを照会する動作と、前記詐欺スコアに基づいて前記残りのユーザを前記フェイクユーザとリアルユーザとして分類する動作とを含む。
【0013】
前記フェイクユーザとリアルユーザとして分類する動作は、前記詐欺スコアが設定された閾値以上であるユーザを前記フェイクユーザとして分類する動作と、前記詐欺スコアが設定された閾値未満であるユーザを前記リアルユーザとして決定する動作とを含むことができる。
【0014】
前記ユーザからフェイクユーザを分類する動作は、前記抽出された特徴を正規化する動作を含むことができる。
【0015】
前記ユーザからフェイクユーザを分類する動作は、前記正規化された特徴の次元を縮小する動作をさらに含むことができる。
【0016】
前記ユーザからフェイクユーザを分類する動作は、前記縮小された特徴に基づいて前記ユーザをクラスタリングする動作をさらに含むことができる。
【0017】
前記特徴は、前記オンライン広告の対象であるコンテンツのインストール時間に関する特徴、前記コンテンツに対するログイン時間に関する特徴、前記コンテンツのインストール以後に設定された時間内に課金したユーザの比率に関する特徴、前記コンテンツに対する課金総額とログインユーザ数の比率に関する特徴、前記コンテンツに対する課金総額と課金ユーザ数の比率に関する特徴、前記コンテンツをインストールした次の日にログインしたユーザの比率に関する特徴、及び前記コンテンツをインストールした後にオープンしたユーザの比率に関する特徴を含むことができる。
【0018】
前記特徴を抽出する動作は、前記ユーザのユーザデータをコンテンツのインストール日付及びインストール時間を基準にしてグルーピングする動作と、グルーピングされたユーザデータに基づいて、日付及び時間当たりコンテンツのインストール回数の時系列データを生成する動作と、前記時系列データに時系列分解を行って前記グルーピングされたユーザデータのグループごとに周期性ベクトルを抽出する動作と、グループごとの周期性ベクトルと一般ユーザのグループである有効グループのユーザデータに対する有効周期性ベクトルの間相関係数を算出する動作と、前記算出された相関係数をスカラー値に変換する動作とを含むことができる。
【0019】
前記特徴を抽出する動作は、前記ユーザのユーザデータをログイン日付及びログイン時間を基準にしてグルーピングする動作と、グルーピングされたユーザデータに基づいて日付及び時間当たりログイン回数の時系列データを生成する動作と、前記時系列データに時系列分解を行って前記グルーピングされたユーザデータのグループごとに周期性ベクトルを抽出する動作と、グループごとの周期性ベクトルと一般ユーザのグループである有効グループのユーザデータに対する有効周期性ベクトルの間相関係数を算出する動作と、前記算出された相関係数をスカラー値に変換する動作とを含むことができる。
【発明の効果】
【0020】
一実施形態によれば、広告詐欺ユーザからリアルユーザとフェイクユーザを効率よく区別して広告関連指標の正確度を高め、広告効果を正確かつ定量的に測定することができる。
【図面の簡単な説明】
【0021】
【
図2】一実施形態に係る広告詐欺ユーザ分類方法の動作を説明するためのフローチャートである。
【
図3】一実施形態に係る広告詐欺ユーザ分類装置によってクラスタリングドェンユーザデータを説明するための図である。
【
図4】一実施形態によりユーザデータからユーザ間コンテンツのインストール時間の相関係数を抽出する方法のフローチャートである。
【
図5】一実施形態によりユーザデータからユーザ間ログイン時間の相関係数を抽出する方法の動作を説明するためのフローチャートである。
【
図6】一実施形態に係る広告詐欺ユーザを分類するための装置の構成を示すブロック図である。
【発明を実施するための形態】
【0022】
実施形態に対する特定な構造的又は機能的な説明は単なる例示のための目的として開示されたものであって、様々な形態に変更されることができる。したがって、実施形態は特定な開示形態に限定されるものではなく、本明細書の範囲は技術的な思想に含まれる変更、均等物ないし代替物を含む。
【0023】
第1又は第2などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は1つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、「第1構成要素」は「第2構成要素」に命名することができ、同様に、「第2構成要素」は「第1構成要素」にも命名することができる。
【0024】
いずれかの構成要素が他の構成要素に「連結」されているか「接続」されていると言及されたときには、その他の構成要素に直接的に連結されているか又は接続されているが、中間に他の構成要素が存在し得るものと理解されなければならない。
【0025】
単数の表現は文脈上、明白に異なる意味を有しない限り複数の表現を含む。本開示において、「含む」又は「有する」などの用語は、説明された特徴、数字、段階、動作、構成要素、部分品又はこれを組み合わせたものが存在するものと指定しようとするものであり、1つまたはそれ以上の他の特徴や数字、段階、動作、構成要素、部分品又はこれを組み合わせたものの存在又は付加可能性を予め排除しないものと理解されなければならない。
【0026】
異なるように定義さがれない限り、技術的又は科学的な用語を含み、ここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈されなければならず、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
【0027】
以下、添付する図面を参照しながら実施形態を詳細に説明する。添付図面を参照して説明することにおいて、図面符号に関わらず同じ構成要素は同じ参照符号を付与し、これに対する重複する説明は省略する。
【0028】
【0029】
コンテンツ(例えば、アプリケーション)を提供する広告主は、電子媒体(以下、「媒体」)を介してコンテンツを一般のユーザに広告を出すことができる。媒体の管理者は、パブリッシャ(publisher)であってもよい。広告を介して新規ユーザがコンテンツに流入され得る。これに対する補償として、パブリッシャは広告主に広告費を請求することができる。例えば、Aコンテンツのオンライン広告がユーザの端末に表示されてもよい。一般に、ユーザがA広告を選択又はクリックする場合、Aコンテンツをダウンロードできるページに移動される。正常にAコンテンツがユーザ端末にインストールされた場合、媒体のパブリッシャが該当インストールに対する広告費をAコンテンツの広告主に請求する。オンライン広告の広告詐欺は、パブリッシャが不正な方式でトラフィックを発生させて広告費を請求する行為をいう。
【0030】
図1を参照すると、広告詐欺タイプに応じて広告詐欺ユーザを分類する基準が図示されている。広告詐欺ユーザは、オンライン広告対象であるコンテンツに関心があるか否か(S105)に応じてコンテンツを実際に使用しようとするリアルユーザと、自動プログラムを用いて生成されて実存しないフェイクユーザとに区分される。
【0031】
パブリッシャは、コンテンツを使用するためにオンライン広告を照会したり、コンテンツをインストールしたリアルユーザの記録を操作(110)する。例えば、パブリッシャは、他の媒体で広告をクリックしてコンテンツをインストールしたユーザが自身の媒体を介して広告をクリックしインストールしたことで記録を操作(misattributionに該当)(120)したり、広告を見ることなくコンテンツをインストールしたオーガニックユーザ(organic)が自身の媒体を介して広告をクリックしてインストールしたものと記録を操作(organic poachingに該当)(125)する。
【0032】
又は、パブリッシャは、コンテンツを使用するための目的ではない広告成果を高める目的で実存しないフェイクユーザを用いてオンライン広告をクリックしたり、オンライン広告を介してコンテンツをインストール(fake installに該当)(115)してもよい。例えば、パブリッシャは、インストールファーム(install farm)130のようにコンテンツを実際に使わないながらオンライン広告を照会してコンテンツをインストールする複数の端末に対応するフェイクユーザを用いてオンライン広告のトラフィックを生成することができる。又は、パブリッシャは、広告成果測定記録を操作(software development kit(SDK)spoofing)(135)することにより、記録上にだけ存在し実存しないフェイクユーザを生成することがある。
【0033】
広告詐欺ユーザの中でもフェイクユーザは、広告主がオンライン広告に対する統計を作成するとき、実存しないながらも指標算定に含まれているため指標を混沌させることがある。一実施形態に係る広告詐欺ユーザを分類するための装置及び方法によると、広告詐欺ユーザからリアルユーザとフェイクユーザを分類して指標算定の混沌を減らすことができる。
【0034】
図2は、一実施形態に係る広告詐欺ユーザを分類するための方法の動作を説明するためのフローチャートである。
【0035】
動作205において、一実施形態に係る広告詐欺ユーザを分類するための装置(以下「装置」)(例えば、
図6の広告詐欺ユーザを分類するための装置600)は、広告詐欺ユーザのユーザデータを受信する。
【0036】
動作210において、装置は、ユーザデータから広告詐欺関連特徴を抽出する。
【0037】
例えば、広告詐欺関連特徴は、コンテンツのインストール時間に関する特徴、コンテンツに対するログイン時間に関する特徴、コンテンツのインストール以後に設定された時間内に課金したユーザの比率に関する特徴、コンテンツに対する課金総額とログインユーザ数の比率に関する特徴、コンテンツに対する課金総額と課金ユーザ数の比率に関する特徴、コンテンツをインストールした次の日にログインしたユーザの比率に関する特徴、及びコンテンツをインストールした後にオープンしたユーザの比率に関する特徴のうち少なくとも1つを含む。コンテンツのインストール時間に関する特徴及びコンテンツに対するログイン時間に関する特徴については
図4及び
図5を参照して以下で説明する。
【0038】
動作215において、装置は、抽出された特徴に基づいてユーザをクラスタリングすることによって動作205の広告詐欺ユーザからフェイクユーザを分類する。
【0039】
装置は、ユーザをクラスタリングするために抽出された特徴を前処理する。一実施形態では、抽出された特徴に対する前処理動作は正規化動作及び次元縮小動作を含むことができる。
【0040】
装置は、動作210において、抽出された特徴がクラスタリングに及ぼす影響度を均等に調整するために抽出された特徴を正規化する。例えば、装置は、抽出された特徴に対して最小-最大スケーリング(min-max scaling)を行ってもよい。
【0041】
装置は、正規化された特徴の次元を縮小することができる。例えば、装置は、主成分分析(principal component analysis;PCA)、t-SNE(t-distributed stochastic neighbor embedding)、オートエンコーダ(autoencoder)のような方式を適用して正規化された特徴の次元を縮小し得る。正規化された特徴の次元縮小のために様々な方式が使用され得る。
【0042】
装置は、次元が縮小された特徴を用いてユーザをクラスタリングすることができる。例えば、装置は、縮小された特徴にk-平均アルゴリズム(K-means)、DBSCAN(density-based spatial clustering of applications with noise)、HDBSCAN(hierarchical DBSCAN)のような方式を適用してユーザをクラスタリングしてもよい。ユーザをクラスタリングするために特徴に様々な方式が適用され得る。
【0043】
装置は、クラスタリング結果に基づいてフェイクユーザを分類する。
【0044】
動作215により広告詐欺ユーザのうちフェイクユーザが分類されるが、全てのフェイクユーザが確実に分類されないことがある。例えば、
図3を参照すると、リアルユーザとフェイクユーザを全て含んでいる例示的なユーザデータに対して、動作210及び動作215を介して2次元で縮小された特徴を用いてクラスタリングドェンユーザが視覚的に図示されている。
【0045】
図3において、多くのフェイクユーザはリアルユーザとよく分類されるが、一部のフェイクユーザ305は、リアルユーザでるかフェイクユーザでるかよく区分されないことがある。例えば、フェイクユーザ305は、ブラックリストとして処理されたIP(internet protocol)を介して流入したフェイクユーザであってもよい。
【0046】
再び
図2に示す動作220において、装置はインターネットプロトコル(IP)基盤詐欺照会サービス(例えば、Scamalytics)サーバを用いて動作205のユーザのうち、フェイクユーザとして分類されない残りのユーザに対する詐欺スコアを照会することができる。装置は、詐欺スコアを照会し残りのユーザをリアルユーザとフェイクユーザに分類することができる。
【0047】
例えば、動作225において、デバイスは、ユーザの広告詐欺スコアが設定された値以上であるか否かを決定する。当該ユーザの広告詐欺スコアが設定された値以上である場合、装置は、動作230において、当該ユーザをフェイクユーザとして決定する。当該ユーザの広告詐欺スコアが設定された値未満である場合、装置は、動作235から当該ユーザをリアルユーザとして決定することができる。
【0048】
以下、
図4を参照して動作210で抽出されるコンテンツのインストール時間に関する特徴について説明する。
【0049】
一実施形態では、動作210は、動作405,410,415,420を含む。装置は、コンテンツのインストール時間に関する特徴として、ユーザデータからユーザ間コンテンツのインストール時間の相関係数を抽出する。動作405において、コンテンツのインストール時間の相関係数を抽出するために、装置は、ユーザデータをコンテンツのインストール日付及びインストール時間を基準にしてグルーピングすることができる。
【0050】
動作410において、装置は、コンテンツのインストール日付及びインストール時間を基準にしてグルーピングされたユーザデータに基づいて日付及び時間当たりコンテンツのインストール回数の時系列データを生成する。
【0051】
動作415において、装置は時系列データに時系列分解を行ってグルーピングされたユーザデータのグループごとに周期性ベクトルを抽出する。
【0052】
装置は、広告詐欺ユーザでない一般ユーザのグループである有効グループ(valid group)のユーザデータから日付及び時間当たりインストール回数に対する時系列データを生成し、生成された時系列データから有効周期性ベクトルを抽出することができる。有効グループのユーザデータは、一実施形態に係る装置に予め格納されたデータであってもよい。
【0053】
動作420において、装置は、グループごとの周期性ベクトルと有効周期性ベクトルの間相関係数を算出する。動作425において、装置は算出された相関係数をスカラー値(scalar value)に変換してインストール時間に関する特徴を取得できる。
【0054】
以下、
図5を参照して動作210で抽出されるログイン時間に関する特徴について説明する。
【0055】
装置は、コンテンツのログイン時間に関する特徴としてユーザデータからユーザ間ログイン時間の相関係数を抽出することができる。ログイン時間の相関係数を抽出するために、動作505において、装置はユーザデータをログイン日付及び時間基準にしてグルーピングすることができる。
【0056】
動作510において、装置は、ログイン日付及びログイン時間を基準にしてグルーピングされたユーザデータに基づいて日付及び時間当たりログイン回数の時系列データを生成する。動作515において、装置は、時系列データに時系列分解を行ってグルーピングされたユーザデータのグループごとに周期性ベクトルを抽出する。
【0057】
装置は、有効グループのユーザデータから日付及び時間当たりログイン回数に対する時系列データを生成し、生成された時系列データから有効周期性ベクトルを抽出することができる。
【0058】
動作520において、装置は、グループごとの周期性ベクトルと有効周期性ベクトルの間相関係数を算出する。動作525において、装置は、算出された相関係数をスカラー値に変換してログイン時間に関する特徴を取得する。
【0059】
図6は、一実施形態に係る広告詐欺ユーザを分類するための装置の構成を示すブロック図である。
【0060】
図6を参照すると、一実施形態に係る装置600は、プロセッサ605、プロセッサ605によって実行される命令を格納するメモリ610及び詐欺照会サービスサーバと通信する通信部615を含む。
【0061】
一実施形態において、プロセッサ605は、広告詐欺ユーザのユーザデータを受信する。プロセッサ605は、ユーザデータから広告詐欺関連特徴を抽出する。
【0062】
例えば、広告詐欺関連特徴は、コンテンツのインストール時間に関する特徴、コンテンツに対するログイン時間に関する特徴、コンテンツのインストール以後に設定された時間内に課金したユーザの比率に関する特徴、コンテンツに対する課金総額とログインユーザ数の比率に関する特徴、コンテンツに対する課金総額と課金ユーザ数の比率に関する特徴、コンテンツをインストールした次の日にログインしたユーザの比率に関する特徴、及びコンテンツをインストールした後にオープンしたユーザの比率に関する特徴のうち少なくとも1つを含む。
【0063】
プロセッサ605は、コンテンツのインストール時間に関する特徴としてユーザデータからユーザ間コンテンツのインストール時間の相関係数を抽出する。コンテンツのインストール時間の相関係数を抽出するために、プロセッサ605は、ユーザデータをコンテンツのインストール日付及びインストール時間を基準にしてグルーピングする。プロセッサ605は、コンテンツのインストール日付及びインストール時間を基準にしてグルーピングされたユーザデータに基づいて日付及び時間当たりコンテンツのインストール回数の時系列データを生成する。プロセッサ605は、時系列データに時系列分解を行ってグルーピングされたユーザデータのグループごとに周期性ベクトルを抽出する。プロセッサ605は、広告詐欺ユーザでないユーザのグループである有効グループのユーザデータから、日付及び時間当たりインストール回数に対する時系列データを生成し、生成された時系列データから有効周期性ベクトルを抽出する。有効グループのユーザデータは、一実施形態に係るプロセッサ605に予め格納されたデータであってもよい。プロセッサ605は、グループごとの周期性ベクトルと有効周期性ベクトルの間相関係数を算出する。算出された相関係数をスカラー値に変換してインストール時間に関する特徴を取得できる。
【0064】
プロセッサ605は、コンテンツのログイン時間に関する特徴としてユーザデータからユーザ間ログイン時間の相関係数を抽出する。ログイン時間の相関係数を抽出するために、プロセッサ605は、ユーザデータをログイン日付及び時間基準にしてグルーピングする。プロセッサ605は、ログイン日付及びログイン時間を基準にしてグルーピングされたユーザデータに基づいて日付及び時間当たりログイン回数の時系列データを生成する。プロセッサ605は、時系列データに時系列分解を行ってグルーピングされたユーザデータのグループごとに周期性ベクトルを抽出する。プロセッサ605は、有効グループのユーザデータから日付及び時間当たりログイン回数に対する時系列データを生成し、生成された時系列データから有効周期性ベクトルを抽出する。プロセッサ605は、グループごとの周期性ベクトルと有効周期性ベクトルの間相関係数を算出する。算出された相関係数をスカラー値に変換してログイン時間に関する特徴を取得できる。
【0065】
プロセッサ605は、抽出された特徴に基づいてユーザをクラスタリングすることによって広告詐欺ユーザからフェイクユーザを分類することができる。プロセッサ605は、ユーザをクラスタリングするために抽出された特徴を前処理する。一実施形態において、抽出された特徴に対する前処理動作は正規化動作及び次元縮小動作を含んでもよい。
【0066】
プロセッサ605は、抽出された特徴がクラスタリングに及ぼす影響度を均等に調整するために抽出された特徴を正規化することができる。例えば、プロセッサ605は、抽出された特徴に対して最小-最大スケーリングを行ってもよい。
【0067】
プロセッサ605は、正規化された特徴の次元を縮小することができる。例えば、プロセッサ605は、主成分分析(PCA)、t-SNE、オートエンコーダのような方式を適用して正規化された特徴の次元を縮小する。正規化された特徴の次元縮小のために様々な方式が使用されてもよい。
【0068】
プロセッサ605は、次元が縮小された特徴を用いてユーザをクラスタリングすることができる。例えば、プロセッサ605は、縮小された特徴にk-平均アルゴリズム(K-means)、DBSCAN、HDBSCANのような方式を適用してユーザをクラスタリングしてもよい。ユーザをクラスタリングするために特徴に様々な方式が適用されてもよい。
【0069】
プロセッサ605は、クラスタリング結果に基づいてフェイクユーザを分類することができる。
【0070】
プロセッサ605は、インターネットプロトコル(IP)基盤詐欺照会サービス(例えば、Scamalytics)サーバを用いてユーザのうちフェイクユーザとして分類されない残りのユーザに対する詐欺スコアを照会することができる。プロセッサ605は、詐欺スコアを照会し残りのユーザをリアルユーザとフェイクユーザに分類できる。
【0071】
例えば、プロセッサ605は、ユーザの広告詐欺スコアが設定された値以上であるか否かを決定してもよい。該当ユーザの広告詐欺スコアが設定された値以上である場合、プロセッサ605は、該当ユーザをフェイクユーザとして決定する。該当ユーザの広告詐欺スコアが設定された値未満である場合、プロセッサ605は該当ユーザをリアルユーザとして決定する。
【0072】
以上で説明された実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサー、又は命令(instruction)を実行して応答する異なる装置のように、1つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム(OS)及びオペレーティングシステム上で実行される1つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は1つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素(processing element)及び/又は複数類型の処理要素を含むことが把握する。例えば、処理装置は、複数のプロセッサ又は1つのプロセッサ及び1つのコントローラを含む。また、並列プロセッサ(parallel processor)のような、他の処理構成も可能である。
【0073】
ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び/又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。
【0074】
本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD-ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気-光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。
【0075】
上記で説明したハードウェア装置は、本発明に示す動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
【0076】
上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順に実行され、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法とは異なる形態に結合又は組み合わせられてもよく、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。
【0077】
したがって、他の具現、他の実施形態および特許請求の範囲と均等なものも後述する特許請求範囲の範囲に属する。
【符号の説明】
【0078】
600:広告詐欺ユーザを分類するための装置
605:プロセッサ
610:メモリ
615:通信部