(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023162109
(43)【公開日】2023-11-08
(54)【発明の名称】広告詐欺探知装置及び方法
(51)【国際特許分類】
G06Q 30/0241 20230101AFI20231031BHJP
【FI】
G06Q30/0241 394
【審査請求】有
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2023008841
(22)【出願日】2023-01-24
(31)【優先権主張番号】10-2022-0051328
(32)【優先日】2022-04-26
(33)【優先権主張国・地域又は機関】KR
(71)【出願人】
【識別番号】519323115
【氏名又は名称】ネットマーブル・コーポレイション
(74)【代理人】
【識別番号】100188558
【弁理士】
【氏名又は名称】飯田 雅人
(74)【代理人】
【識別番号】100205785
【弁理士】
【氏名又は名称】▲高▼橋 史生
(72)【発明者】
【氏名】デファン・バン
(72)【発明者】
【氏名】ジョンフン・ムン
(72)【発明者】
【氏名】ジュンホ・ソン
【テーマコード(参考)】
5L049
【Fターム(参考)】
5L049BB08
(57)【要約】
【課題】広告詐欺探知装置及び方法が開示される。
【解決手段】広告詐欺探知装置は、プロセッサ及びプロセッサによって実行される命令を格納するメモリを含む。プロセッサによって命令が実行されるとき、プロセッサは、オンライン広告の対象であるコンテンツに関するユーザのユーザデータを受信し、ユーザデータから広告詐欺関連特徴を抽出し、抽出された特徴を入力にするニューラルネットワーク基盤の第1広告詐欺探知モデルから第1広告詐欺出力データを取得し、抽出された特徴を入力にするオートエンコーダ基盤の第2広告詐欺探知モデルから第2広告詐欺出力データを取得し、抽出された特徴を入力にするロジステック回帰基盤の第3広告詐欺探知モデルから第3広告詐欺出力データを取得し、第1広告詐欺出力データ、第2広告詐欺出力データ及び上第3広告詐欺出力データに基づいてユーザが広告詐欺ユーザであるか否かを決定する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
広告詐欺探知装置であって、
プロセッサと、
前記プロセッサによって実行される命令を格納するメモリと、を含み、
前記プロセッサによって前記命令が実行されるとき、前記プロセッサは、
オンライン広告の対象であるコンテンツに関するユーザのユーザデータを受信し、
前記ユーザデータから広告詐欺関連特徴を抽出し、
前記抽出された特徴を入力にするニューラルネットワーク基盤の第1広告詐欺探知モデルから第1広告詐欺出力データを取得し、
前記抽出された特徴を入力にするオートエンコーダ基盤の第2広告詐欺探知モデルから第2広告詐欺出力データを取得し、
前記抽出された特徴を入力にするロジステック回帰基盤の第3広告詐欺探知モデルから第3広告詐欺出力データを取得し、
前記第1広告詐欺出力データ、前記第2広告詐欺出力データ、及び前記第3広告詐欺出力データに基づいて前記ユーザが広告詐欺ユーザであるか否かを決定する、広告詐欺探知装置。
【請求項2】
前記プロセッサは、
前記第1広告詐欺出力データ、前記第2広告詐欺出力データ、及び前記第3広告詐欺出力データをアンサンブルすることによって最終広告詐欺出力データを決定し、
前記最終広告詐欺出力データに基づいて前記ユーザが広告詐欺ユーザであるか否かを決定する、請求項1に記載の広告詐欺探知装置。
【請求項3】
前記第1広告詐欺出力データは、信頼できるSANs(self-attributing networks)媒体を介して流入した第1グループ、SANs媒体でない媒体のうち信頼できる媒体を介して流入した第2グループ、及び広告詐欺履歴のある媒体を介して流入した第3グループに前記ユーザデータが属する確率値を含み、
前記第2広告詐欺出力データは、前記ユーザデータがオートエンコーダによって復元されたデータの復元誤差を含み、
前記第3広告詐欺出力データは、前記ユーザデータが前記第1グループ、前記第2グループ、及び前記第3グループに属する確率値を含む、請求項2に記載の広告詐欺探知装置。
【請求項4】
前記プロセッサは、
前記第1グループ、前記第2グループ、及び前記第3グループのうち前記第1広告詐欺出力データの確率値が最も高いグループを前記ユーザデータが属する可能性のある第1候補グループとして決定し、
前記第2広告詐欺出力データの復元誤差が設定された値以上である場合、前記第3グループを前記ユーザデータが属する可能性のある第2候補グループとして決定し、
前記第2広告詐欺出力データの復元誤差が設定された値未満である場合、前記第1グループ及び前記第2グループを前記第2候補グループとして決定し、
前記第1グループ、前記第2グループ、及び前記第3グループのうち、前記第3広告詐欺出力データの確率値が最も高いグループを前記ユーザデータが属する可能性のある第3候補グループとして決定する、請求項3に記載の広告詐欺探知装置。
【請求項5】
前記プロセッサは、前記第1候補グループ、前記第2候補グループ、及び前記第3候補グループ、を設定された条件に応じてアンサンブルすることで前記最終広告詐欺出力データを決定する、請求項4に記載の広告詐欺探知装置。
【請求項6】
前記プロセッサは、
前記最終広告詐欺出力データに含まれた最終グループが前記第3グループである場合、前記ユーザデータが前記広告詐欺ユーザであるものと決定し、
前記最終広告詐欺出力データに含まれた最終グループが前記第1グループ又は第2グループである場合、前記ユーザデータが前記広告詐欺ユーザではないものと決定する、請求項5に記載の広告詐欺探知装置。
【請求項7】
前記広告詐欺関連特徴は、前記オンライン広告の対象であるコンテンツのインストールに関する特徴、前記コンテンツの実行に関する特徴、前記コンテンツのログインに関する特徴、及び前記オンライン広告のクリックに関する特徴を含む、請求項1~6のいずれか一項に記載の広告詐欺探知装置。
【請求項8】
前記プロセッサは、
前記オンライン広告を掲載した媒体ごとにそれぞれの媒体を介して流入したユーザのうち、前記広告詐欺ユーザとして決定されたユーザの比率を決定し、
前記決定された比率に基づいて広告詐欺媒体を決定する、請求項7に記載の広告詐欺探知装置。
【請求項9】
前記プロセッサは、前記広告詐欺ユーザであるか否かが決定されたユーザのユーザデータを、前記第1広告詐欺探知モデル、第2広告詐欺探知モデル、及び第3広告詐欺探知モデルの学習のための学習データに追加する、請求項1~8のいずれか一項に記載の広告詐欺探知装置。
【請求項10】
オンライン広告に関するユーザのユーザデータを受信する動作と、
オンライン広告の対象であるコンテンツに関するユーザのユーザデータを受信する動作と、
前記ユーザデータから広告詐欺関連特徴を抽出する動作と、
前記抽出された特徴を入力にするニューラルネットワーク基盤の第1広告詐欺探知モデルから第1広告詐欺出力データを取得する動作と、
前記抽出された特徴を入力にするオートエンコーダ基盤の第2広告詐欺探知モデルから第2広告詐欺出力データを取得する動作と、
前記抽出された特徴を入力にするロジステック回帰基盤の第3広告詐欺探知モデルから第3広告詐欺出力データを取得する動作と、
前記第1広告詐欺出力データ、前記第2広告詐欺出力データ、及び前記第3広告詐欺出力データに基づいて前記ユーザが広告詐欺ユーザであるか否かを決定する動作と、
を含む広告詐欺探知方法。
【請求項11】
前記ユーザが広告詐欺ユーザであるか否かを決定する動作は、
前記第1広告詐欺出力データ、前記第2広告詐欺出力データ、及び前記第3広告詐欺出力データをアンサンブルすることによって最終広告詐欺出力データを決定する動作と、
前記最終広告詐欺出力データに基づいて前記ユーザが広告詐欺ユーザであるか否かを決定する動作と、
を含む、請求項10に記載の広告詐欺探知方法。
【請求項12】
前記第1広告詐欺出力データは、
信頼できるSANs(self-attributing networks)媒体を介して流入した第1グループ、SANs媒体でない媒体のうち信頼できる媒体を介して流入した第2グループ、及び広告詐欺履歴のある媒体を介して流入した第3グループに前記ユーザデータが属する確率値を含み、
前記第2広告詐欺出力データは、前記ユーザデータがオートエンコーダによって復元されたデータの復元誤差を含み、
前記第3広告詐欺出力データは、前記ユーザデータが前記第1グループ、前記第2グループ、及び前記第3グループに属する確率値を含む、請求項11に記載の広告詐欺探知方法。
【請求項13】
前記最終広告詐欺出力データを決定する動作は、
前記第1グループ、前記第2グループ及び前記第3グループのうち前記第1広告詐欺出力データの確率値が最も高いグループを前記ユーザデータが属する可能性のある第1候補グループとして決定する動作と、
前記第2広告詐欺出力データの復元誤差が設定された値以上である場合、前記第3グループを前記ユーザデータが属する可能性のある第2候補グループとして決定する動作と、
前記第2広告詐欺出力データの復元誤差が設定された値未満である場合、前記第1グループ及び前記第2グループを前記第2候補グループとして決定する動作と、
前記第1グループ、前記第2グループ、及び前記第3グループのうち前記第3広告詐欺出力データの確率値が最も高いグループを前記ユーザデータが属する可能性のある第3候補グループとして決定する動作と、
を含む、請求項12に記載の広告詐欺探知方法。
【請求項14】
前記最終広告詐欺出力データを決定する動作は、前記第1候補グループ、前記第2候補グループ及び前記第3候補グループを設定された条件に応じて、アンサンブルすることによって前記最終広告詐欺出力データを決定する動作をさらに含む、請求項13に記載の広告詐欺探知方法。
【請求項15】
前記広告詐欺ユーザであるか否かを決定する動作は、
前記最終広告詐欺出力データに含まれた最終グループが前記第3グループである場合、前記ユーザデータが前記広告詐欺ユーザであるものと決定する動作と、
前記最終広告詐欺出力データに含まれた最終グループが前記第1グループ又は第2グループである場合、前記ユーザデータが前記広告詐欺ユーザではないものと決定する動作と、
を含む、請求項14に記載の広告詐欺探知方法。
【請求項16】
前記広告詐欺関連特徴は、前記オンライン広告の対象であるコンテンツのインストールに関する特徴、前記コンテンツの実行に関する特徴、前記コンテンツのログインに関する特徴及び前記オンライン広告のクリックに関する特徴を含む、請求項10~15のいずれか一項に記載の広告詐欺探知方法。
【請求項17】
前記オンライン広告を掲載した媒体ごとにそれぞれの媒体を介して流入したユーザのうち、前記広告詐欺ユーザとして決定されたユーザの比率を決定する動作と、
前記決定された比率に基づいて広告詐欺媒体を決定する動作と、
をさらに含む、請求項16に記載の広告詐欺探知方法。
【請求項18】
前記広告詐欺ユーザであるか否かが決定されたユーザのユーザデータを、前記第1広告詐欺探知モデル、第2広告詐欺探知モデル、及び第3広告詐欺探知モデルの学習のための学習データに追加する動作をさらに含む、請求項10~17のいずれか一項に記載の広告詐欺探知方法。
【請求項19】
ハードウェアと結合して請求項10~18のいずれか一項に記載の方法を実行させるためにコンピュータ読み出し可能な記録媒体に格納されたコンピュータプログラム。
【請求項20】
広告詐欺探知装置を学習させる学習装置であって、
プロセッサと、
前記プロセッサによって実行される命令を格納するメモリを含み、
前記プロセッサによって前記命令が実行されるとき、前記プロセッサは、
オンライン広告の対象であるコンテンツのユーザに関する学習データを受信し、
前記学習データから広告詐欺関連特徴を抽出し、
前記抽出された特徴を入力にするニューラルネットワーク基盤の第1広告詐欺探知モデルから第1広告詐欺予測データを取得し、
前記抽出された特徴を入力にするオートエンコーダ基盤の第2広告詐欺探知モデルから第2広告詐欺予測データを取得し、
前記抽出された特徴を入力にするロジステック回帰基盤の第3広告詐欺探知モデルから第3広告詐欺予測データを取得し、
前記第1広告詐欺予測データ、前記第2広告詐欺予測データ、及び前記第3広告詐欺予測データに基づいて前記第1広告詐欺探知モデル、前記第2広告詐欺探知モデル、及び前記第3広告詐欺探知モデルのうち少なくとも1つのパラメータをアップデートする学習装置。
【発明の詳細な説明】
【技術分野】
【0001】
以下の実施形態は広告詐欺探知技術に関する。
【背景技術】
【0002】
コンテンツ(例えば、アプリケーション)を提供する広告主は、電子媒体を介してコンテンツを一般のユーザに広告を出すことができる。電子媒体の管理者は、パブリッシャ(publisher)であってもよい。広告を介して新規ユーザがコンテンツに流入され得る。これに対する補償として、パブリッシャは、広告主に広告費を請求することができる。広告詐欺は、パブリッシャが不正な方式でトラフィックを発生させて広告費を請求する行為をいう。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本発明の目的は、広告データの正常ではないパターン特徴と広告詐欺探知モデルを用いて広告詐欺を探知し、これによって広告詐欺によるコストの漏れを防止し、より信頼性のある広告媒体の選択を可能にしてマーケティング効率を改善することにある。
【課題を解決するための手段】
【0004】
一実施形態に係る広告詐欺探知装置は、プロセッサと、前記プロセッサによって実行される命令を格納するメモリと、を含み、前記プロセッサによって前記命令が実行されるとき、前記プロセッサは、オンライン広告の対象であるコンテンツに関するユーザのユーザデータを受信し、前記ユーザデータから広告詐欺関連特徴を抽出し、前記抽出された特徴を入力にするニューラルネットワーク基盤の第1広告詐欺探知モデルから第1広告詐欺出力データを取得し、前記抽出された特徴を入力にするオートエンコーダ基盤の第2広告詐欺探知モデルから第2広告詐欺出力データを取得し、前記抽出された特徴を入力にするロジステック回帰基盤の第3広告詐欺探知モデルから第3広告詐欺出力データを取得し、前記第1広告詐欺出力データ、前記第2広告詐欺出力データ、及び前記第3広告詐欺出力データに基づいて前記ユーザが広告詐欺ユーザであるか否かを決定する。
【0005】
前記プロセッサは、前記第1広告詐欺出力データ、前記第2広告詐欺出力データ、及び前記第3広告詐欺出力データをアンサンブルすることによって最終広告詐欺出力データを決定し、前記最終広告詐欺出力データに基づいて前記ユーザが広告詐欺ユーザであるか否かを決定することができる。
【0006】
前記第1広告詐欺出力データは、信頼できるSANs(self-attributing networks)媒体を介して流入した第1グループ、SANs媒体でない媒体のうち信頼できる媒体を介して流入した第2グループ、及び広告詐欺履歴のある媒体を介して流入した第3グループに前記ユーザデータが属する確率値を含み、前記第2広告詐欺出力データは、前記ユーザデータが前記オートエンコーダによって復元されたデータの復元誤差を含み、前記第3広告詐欺出力データは、前記ユーザデータが前記第1グループ、前記第2グループ、及び前記第3グループに属する確率値を含むことができる。
【0007】
前記プロセッサは、前記第1グループ、前記第2グループ、及び前記第3グループのうち前記第1広告詐欺出力データの確率値が最も高いグループを前記ユーザデータが属する可能性のある第1候補グループとして決定し、前記第2広告詐欺出力データの復元誤差が設定された値以上である場合、前記第3グループを前記ユーザデータが属する可能性のある第2候補グループとして決定し、前記第2広告詐欺出力データの復元誤差が設定された値未満である場合、前記第1グループ及び前記第2グループを前記第2候補グループとして決定し、前記第1グループ、前記第2グループ、及び前記第3グループのうち、前記第3広告詐欺出力データの確率値が最も高いグループを前記ユーザデータが属する可能性のある第3候補グループとして決定することができる。
【0008】
前記プロセッサは、前記第1候補グループ、前記第2候補グループ、及び前記第3候補グループ、を設定された条件に応じてアンサンブルすることで前記最終広告詐欺出力データを決定することができる。
【0009】
前記プロセッサは、前記最終広告詐欺出力データに含まれた最終グループが前記第3グループである場合、前記ユーザデータが前記広告詐欺ユーザであるものと決定し、前記最終広告詐欺出力データに含まれた最終グループが前記第1グループ又は第2グループである場合、前記ユーザデータが前記広告詐欺ユーザではないものと決定することができる。
【0010】
前記広告詐欺関連特徴は、前記オンライン広告の対象であるコンテンツのインストールに関する特徴、前記コンテンツの実行に関する特徴、前記コンテンツのログインに関する特徴、及び前記オンライン広告のクリックに関する特徴を含むことができる。
【0011】
前記プロセッサは、前記オンライン広告を掲載した媒体ごとにそれぞれの媒体を介して流入したユーザのうち、前記広告詐欺ユーザとして決定されたユーザの比率を決定し、前記決定された比率に基づいて広告詐欺媒体を決定することができる。
【0012】
前記プロセッサは、前記決定された広告詐欺媒体に対するレポートを出力することができる。
【0013】
前記プロセッサは、前記広告詐欺ユーザであるか否かが決定されたユーザのユーザデータを、前記第1広告詐欺探知モデル、第2広告詐欺探知モデル、及び第3広告詐欺探知モデルの学習のための学習データに追加することができる。
【0014】
前記第1広告詐欺探知モデルは、前記第1広告詐欺出力データを出力した根拠となる特徴をさらに出力する説明可能なAI(explainable artificial intelligence、XAI)モデルが適用されたモデルであってもよい。
【0015】
一実施形態に係る広告詐欺探知方法は、オンライン広告に関するユーザのユーザデータを受信する動作と、オンライン広告の対象であるコンテンツに関するユーザのユーザデータを受信する動作と、前記ユーザデータから広告詐欺関連特徴を抽出する動作と、前記抽出された特徴を入力にするニューラルネットワーク基盤の第1広告詐欺探知モデルから第1広告詐欺出力データを取得する動作と、前記抽出された特徴を入力にするオートエンコーダ基盤の第2広告詐欺探知モデルから第2広告詐欺出力データを取得する動作と、前記抽出された特徴を入力にするロジステック回帰基盤の第3広告詐欺探知モデルから第3広告詐欺出力データを取得する動作と、前記第1広告詐欺出力データ、前記第2広告詐欺出力データ、及び前記第3広告詐欺出力データに基づいて前記ユーザが広告詐欺ユーザであるか否かを決定する動作とを含む。
【0016】
前記ユーザが広告詐欺ユーザであるか否かを決定する動作は、前記第1広告詐欺出力データ、前記第2広告詐欺出力データ、及び前記第3広告詐欺出力データをアンサンブルすることによって最終広告詐欺出力データを決定する動作と、前記最終広告詐欺出力データに基づいて前記ユーザが広告詐欺ユーザであるか否かを決定する動作とを含むことができる。
【0017】
前記第1広告詐欺出力データは、信頼できるSANs(self-attributing networks)媒体を介して流入した第1グループ、SANs媒体でない媒体のうち信頼できる媒体を介して流入した第2グループ、及び広告詐欺履歴のある媒体を介して流入した第3グループに前記ユーザデータが属する確率値を含み、前記第2広告詐欺出力データは、前記ユーザデータが前記オートエンコーダによって復元されたデータの復元誤差を含み、前記第3広告詐欺出力データは、前記ユーザデータが前記第1グループ、前記第2グループ、及び前記第3グループに属する確率値を含むことができる。
【0018】
前記最終広告詐欺出力データを決定する動作は、前記第1グループ、前記第2グループ及び前記第3グループのうち前記第1広告詐欺出力データの確率値が最も高いグループを前記ユーザデータが属する可能性のある第1候補グループとして決定する動作と、前記第2広告詐欺出力データの復元誤差が設定された値以上である場合、前記第3グループを前記ユーザデータが属する可能性のある第2候補グループとして決定する動作と、前記第2広告詐欺出力データの復元誤差が設定された値未満である場合、前記第1グループ及び前記第2グループを前記第2候補グループとして決定する動作と、前記第1グループ、前記第2グループ、及び前記第3グループのうち前記第3広告詐欺出力データの確率値が最も高いグループを前記ユーザデータが属する可能性のある第3候補グループとして決定する動作とを含むことができる。
【0019】
前記最終広告詐欺出力データを決定する動作は、前記第1候補グループ、前記第2候補グループ及び前記第3候補グループを設定された条件に応じて、アンサンブルすることによって前記最終広告詐欺出力データを決定する動作をさらに含むことができる。
【0020】
前記広告詐欺ユーザであるか否かを決定する動作は、前記最終広告詐欺出力データに含まれた最終グループが前記第3グループである場合、前記ユーザデータが前記広告詐欺ユーザであるものと決定する動作と、前記最終広告詐欺出力データに含まれた最終グループが前記第1グループ又は第2グループである場合、前記ユーザデータが前記広告詐欺ユーザではないものと決定する動作とを含むことができる。
【0021】
前記広告詐欺関連特徴は、前記オンライン広告の対象であるコンテンツのインストールに関する特徴、前記コンテンツの実行に関する特徴、前記コンテンツのログインに関する特徴及び前記オンライン広告のクリックに関する特徴を含むことができる。
【0022】
前記オンライン広告を掲載した媒体ごとにそれぞれの媒体を介して流入したユーザのうち、前記広告詐欺ユーザとして決定されたユーザの比率を決定する動作と、前記決定された比率に基づいて広告詐欺媒体を決定する動作とをさらに含むことができる。
【0023】
一実施形態に係る広告詐欺探知方法は、前記広告詐欺ユーザであるか否かが決定されたユーザのユーザデータを、前記第1広告詐欺探知モデル、第2広告詐欺探知モデル、及び第3広告詐欺探知モデルの学習のための学習データに追加する動作をさらに含むことができる。
【0024】
一実施形態に係る広告詐欺探知装置を学習させる学習装置は、プロセッサと、前記プロセッサによって実行される命令を格納するメモリを含み、前記プロセッサによって前記命令が実行されるとき、前記プロセッサは、オンライン広告の対象であるコンテンツのユーザに関する学習データを受信し、前記学習データから広告詐欺関連特徴を抽出し、前記抽出された特徴を入力にするニューラルネットワーク基盤の第1広告詐欺探知モデルから第1広告詐欺予測データを取得し、前記抽出された特徴を入力にするオートエンコーダ基盤の第2広告詐欺探知モデルから第2広告詐欺予測データを取得し、前記抽出された特徴を入力にするロジステック回帰基盤の第3広告詐欺探知モデルから第3広告詐欺予測データを取得し、前記第1広告詐欺予測データ、前記第2広告詐欺予測データ、及び前記第3広告詐欺予測データに基づいて前記第1広告詐欺探知モデル、前記第2広告詐欺探知モデル、及び前記第3広告詐欺探知モデルのうち少なくとも1つのパラメータをアップデートする動作を行う。
【0025】
前記広告詐欺関連特徴は、前記オンライン広告の対象コンテンツのインストールに関する特徴、前記コンテンツの実行に関する特徴、前記コンテンツのログインに関する特徴、及び前記オンライン広告のクリックに関する特徴を含むことができる。
【0026】
前記プロセッサは、前記学習データに対してオーバーサンプリングを行う動作をさらに行うことができる。
【0027】
前記プロセッサは、前記学習データをクラスタリング(clustering)する動作をさらに行うことができる。
【発明の効果】
【0028】
一実施形態によれば、広告データの正常ではないパターン特徴と広告詐欺探知モデルを用いて広告詐欺を効率よく探知でき、これによって広告詐欺によるコストの漏れを防止し、より信頼性のある広告媒体の選択を可能にしてマーケティングの効率を改善させることができる。
【図面の簡単な説明】
【0029】
【
図1】一実施形態に係る広告詐欺探知モデルを説明するための図である。
【
図2】一実施形態に係る広告詐欺探知モデルの学習動作を説明するためのフローチャートである。
【
図3】一実施形態に係る広告詐欺探知モデルの推論動作を説明するためのフローチャートである。
【
図4】一実施形態に係る広告詐欺関連特徴の例示を説明するための図である。
【
図5】一実施形態に係る広告詐欺関連特徴の例示を説明するための図である。
【
図6】一実施形態に係る広告詐欺関連特徴の例示を説明するための図である。
【
図7】一実施形態に係る広告詐欺関連特徴の例示を説明するための図である。
【
図8】一実施形態に係る広告詐欺関連特徴の例示を説明するための図である。
【
図9】一実施形態に係る広告詐欺探知装置が出力するリポートを説明するための図である。
【
図10】一実施形態に係る学習装置の構成を示すブロック図である。
【
図11】一実施形態に係る広告詐欺探知装置の構成を示すブロック図である。
【発明を実施するための形態】
【0030】
実施形態に対する特定な構造的又は機能的な説明は単なる例示のための目的として開示されたものであって、様々な形態に変更されることができる。したがって、実施形態は特定な開示形態に限定されるものではなく、本明細書の範囲は技術的な思想に含まれる変更、均等物ないし代替物を含む。
【0031】
第1又は第2などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は1つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、「第1構成要素」は「第2構成要素」に命名することができ、同様に、「第2構成要素」は「第1構成要素」にも命名することができる。
【0032】
いずれかの構成要素が他の構成要素に「連結」されているか「接続」されていると言及されたときには、その他の構成要素に直接的に連結されているか又は接続されているが、中間に他の構成要素が存在し得るものと理解されなければならない。
【0033】
単数の表現は文脈上、明白に異なる意味を有しない限り複数の表現を含む。本開示において、「含む」又は「有する」などの用語は、説明された特徴、数字、段階、動作、構成要素、部分品又はこれを組み合わせたものが存在するものと指定しようとするものであり、1つまたはそれ以上の他の特徴や数字、段階、動作、構成要素、部分品又はこれを組み合わせたものの存在又は付加可能性を予め排除しないものと理解されなければならない。
【0034】
異なるように定義さがれない限り、技術的又は科学的な用語を含み、ここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈されなければならず、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
【0035】
以下、添付する図面を参照しながら実施形態を詳細に説明する。添付図面を参照して説明することにおいて、図面符号に関わらず同じ構成要素は同じ参照符号を付与し、これに対する重複する説明は省略する。
【0036】
図1は、一実施形態に係る広告詐欺探知モデルを説明するための図である。
【0037】
コンテンツ(例えば、アプリケーション)を提供する広告主は、電子媒体(以下、「媒体」)を介してコンテンツを一般のユーザに広告を出すことができる。媒体の管理者は、パブリッシャ(publisher)であってもよい。広告を介して新規ユーザがコンテンツに流入され得る。これに対する補償として、パブリッシャは広告主に広告費を請求することができる。例えば、Aコンテンツのオンライン広告がユーザの端末に表示されてもよい。一般に、ユーザがA広告を選択又はクリックする場合、Aコンテンツをダウンロードできるページに移動される。正常にAコンテンツがユーザ端末にインストールされた場合、媒体のパブリッシャが該当インストールに対する広告費をAコンテンツの広告主に請求する。オンライン広告の広告詐欺は、パブリッシャが不正な方式でトラフィックを発生させて広告費を請求する行為をいう。
【0038】
例えば、パブリッシャは、他のパブリッシャが掲示した広告を介してコンテンツをインストールしたユーザのトラフィックを奪取し、自身の媒体を介して発生したものと操作(属性操作(attribution manipulation)という)したり、広告なしに該当コンテンツをインストールしたオーガニックユーザ(organic users)のトラフィックを奪取して自身の媒体を介して発生したものと操作(オーガニックポーチング(organic poaching)という)することがある。
【0039】
又は、パブリッシャは、コンテンツを使用するための目的ではない広告成果を高める目的で、コンテンツに関心のないフェイクユーザを用いてオンライン広告をクリックしたり、オンライン広告を介してコンテンツをインストール(フェイクインストール(fake install)という)することがある。例えば、パブリッシャは、インストールファーム(install farm)のようにコンテンツを実際に使用しないながらもオンライン広告を照会してコンテンツをインストールする複数の端末を用いてオンライン広告のトラフィックを生成することがある。又は、パブリッシャは、広告成果測定記録を操作(SDKスプーフィング(software development kit spoofing)という)することで、記録上にだけ存在し、実存しないフェイクユーザのトラフィックを生成することがある。
【0040】
パブリッシャは、操作されたデータを根拠にして広告主で広告費を請求することができる。広告主は、パブリッシャが提供したデータが操作されたかを確認することで広告詐欺を探知することができる。
【0041】
図1を参照すると、一実施形態に係る広告詐欺探知モデル105が図示されている。
【0042】
一実施形態において、広告詐欺探知装置(例えば、
図11に示す広告詐欺探知装置1100)はオンライン広告の対象であるコンテンツに関するユーザのユーザデータを受信し、ユーザデータから広告詐欺関連特徴を抽出し、抽出された特徴を広告詐欺探知モデル105に入力して該当ユーザが広告詐欺ユーザであるか否かを決定することができる。
一実施形態において、広告詐欺検出モデル105は、抽出された特徴を入力とするニューラルネットワーク(例えば、ディープニューラルネットワーク(DNN))基盤の第1広告詐欺検出モデル110、抽出された特徴を入力とするオートエンコーダ(auto encoder AE)基盤の第2広告詐欺検出モデル115、抽出された特徴を入力とするロジステック回帰(logistic regression;LR)基盤の第3広告詐欺検出モデル120を含む。
【0043】
広告詐欺探知装置は、第1広告詐欺探知モデル110から第1広告詐欺出力データを取得し、第2広告詐欺探知モデル115から第2広告詐欺出力データを取得し、第3広告詐欺探知モデル120から第3広告出力データを取得することができる。
【0044】
一実施形態において、広告詐欺探知装置は、第1広告詐欺出力データ、第2広告詐欺出力データ、及び第3広告詐欺出力データをアンサンブル(ensemble)することによって最終広告詐欺出力データを決定することができる。
広告詐欺探知装置は、最終広告詐欺出力データに基づいて該当ユーザが広告詐欺ユーザであるか否かを決定する。
【0045】
一実施形態において、広告詐欺探知装置は、オンライン広告を掲載した媒体ごとに、それぞれの媒体を介して流入したユーザのうち広告詐欺ユーザとして決定されたユーザの比率を決定する。広告詐欺探知装置は、決定された比率に基づいて広告詐欺媒体を決定することができる。
広告詐欺探知装置は、決定された広告詐欺媒体に対するリポートを出力することができる。
【0046】
図2は、一実施形態に係る広告詐欺探知モデルの学習動作を説明するためのフローチャートである。
広告詐欺探知装置を学習させる学習装置(例えば、
図10示す学習装置1000)は、動作205において、オンライン広告の対象であるコンテンツのユーザに関する学習データを受信する。学習データは、オンライン広告を通じたり、通じることなく、コンテンツに流入したユーザに対するユーザデータを含んでもよい。
【0047】
動作210において、学習装置は、広告詐欺探知装置の広告詐欺探知モデルを学習させるために学習データを前処理する。例えば、学習装置は、学習データを信頼できるSANs(self-attributing networks)媒体を介して流入された第1グループ、SANs媒体でない媒体のうち信頼できる媒体を介して流入された第2グループ、広告詐欺履歴のある媒体を介して流入された第3グループ、及びその他の第4グループに区分することができる。
【0048】
一実施形態において、学習データを第1グループ~第4グループに区分する動作は省略されてもよい。例えば、学習データは、第1グループ~第4グループに区分して学習装置に受信されてもよい。
一般に、一般のユーザの数が広告詐欺ユーザの数よりも多いため、学習データの第1グループ~第4グループに属するデータの量は均衡的でないこともある。一実施形態の学習装置は、動作210において、第4グループに属する学習データに対してクラスタリングを行って、クラスタリング結果に応じて第4グループに属する学習データを第1グループ、第2グループ、及び第3グループのいずれか1つのグループに再び区分することができる。一実施形態の学習装置は、動作210において、学習データに対してSMOTE(synthetic minority over-sampling technique)のようなオーバーサンプリング(oversampling)を行って、第1グループ、第2グループ、及び第3グループのデータ量が均一になるように調整することができる。
【0049】
動作210において、学習装置は学習データから、予め設定された広告詐欺関連特徴を抽出する。広告詐欺関連特徴については、
図4~
図8を参照して以下で説明する。
学習装置は、動作211において、第1広告詐欺探知モデルに抽出された特徴を入力し、動作213において、第2広告詐欺探知モデルに抽出された特徴を入力し、及び動作215において、第3広告詐欺探知モデルに抽出された特徴を入力する。学習装置は、動作216において第1広告詐欺探知モデルから第1広告詐欺予測データを取得し、動作218において、第2広告詐欺探知モデルから第2広告詐欺予測データを取得し、及び動作220において、第3広告詐欺探知モデルから第3広告詐欺予測データを取得する。第1広告詐欺予測データは、学習データが第1グループ、第2グループ、及び第3グループに属する確率値を含んでもよく、第2広告詐欺予測データは、学習データが第2広告詐欺探知モデルのオートエンコーダによって復元されたデータの復元誤差を含んでもよく、第3広告詐欺予測データは、学習データが第1グループ、第2グループ、及び第3グループに属する確率値を含んでもよい。
【0050】
動作225において、学習装置は、第1広告詐欺予測データ、第2広告詐欺予測データ、及び第3広告詐欺予測データに基づいて第1広告詐欺探知モデル、第2広告詐欺探知モデル、及び第3広告詐欺探知モデルのうち少なくとも1つのパラメータをアップデートする。
一実施形態において、第1広告詐欺探知モデルは、特徴から広告詐欺パターンを学習するように設定されてもよい。学習された第1広告詐欺探知モデルは、第2グループに属するデータを正確に分類するために使用されてもよい。一実施形態において、第1広告詐欺探知モデルのニューラルネットワークは、ディープニューラルネットワークであってもよい。一実施形態において、第1広告詐欺探知モデルの出力を理解するために、SHAP(shapley additive explanation)、LIME(local interpretable model-agnostic explanations)のような説明可能なAI(explainable artificial intelligence;XAI)モデルが第1広告詐欺探知モデルに適用されてもよい。説明可能なAIモデルを第1広告詐欺探知モデルに適用することで、第1広告詐欺探知モデルは、第1広告詐欺予測データと共に第1広告詐欺予測データを推論した根拠となる特徴(例えば、
図4~
図8の特徴)を出力することができる。
【0051】
一実施形態において、オートエンコーダ基盤の第2広告詐欺探知モデルは、学習データのうち第1グループ及び第2グループのデータに基づいて、入力と出力の差を最小化するように学習されてもよい。広告詐欺ユーザに対して抽出された特徴は正常ユーザの特徴と区別されるため、学習された第2広告詐欺探知モデルは、第3グループに属するデータを正確に分類するために使用される。一実施形態において、第2広告詐欺探知モデルの出力を理解するために、第2広告詐欺探知モデルの入力と出力との間差が最も大きい特徴を示す説明可能なAIモデルが、第2広告詐欺探知モデルに適用されてもよい。
【0052】
一実施形態において、ロジステック回帰基盤の第3広告詐欺探知モデルは、入力されたデータを第1グループ、第2グループ、及び第3グループのいずれか1つに区分するように学習されてもよい。第3広告詐欺探知モデルはンタープリタブルモデル(interpretable model)であって、入力されたデータを第1グループ、第2グループ、及び第3グループのいずれか1つに区分した根拠となる特徴(例えば、
図4~
図8の特徴のうち寄与度が高い特徴)及び該当特徴の寄与度を出力することができる。第3広告詐欺探知モデルを第1広告詐欺探知モデルと共に利用することで、第1広告詐欺探知モデルの出力に対する理解を向上させることができ、第3広告詐欺探知モデルを第2広告詐欺探知モデルと共に利用することで、第2広告詐欺探知モデル出力の正確度を高めることができる。
【0053】
以下、
図3を参照して学習された広告詐欺探知モデルを用いて広告詐欺ユーザを探知する動作を説明する。
【0054】
図3は、一実施形態に係る広告詐欺探知モデルの推論動作を説明するためのフローチャートである。
【0055】
動作305において、一実施形態に係る広告詐欺探知装置(例えば、
図11の広告詐欺探知装置1100)は、オンライン広告の対象であるコンテンツに関するユーザのユーザデータを受信する。ユーザデータは、オンライン広告を通じたり、通じることなく、コンテンツに流入されたユーザに対するユーザデータを含んでもよい。
【0056】
動作310において、ユーザデータから広告詐欺関連特徴を抽出する。動作310で抽出される特徴は、動作210で抽出される特徴と同一であってもよい。
【0057】
広告詐欺探知装置は、動作311において、第1広告詐欺探知モデルに抽出された特徴を入力し、動作313において、第2広告詐欺探知モデルに抽出された特徴を入力し、及び動作315において、第3広告詐欺探知モデルに抽出された特徴を入力する。広告詐欺探知装置は、動作316において、第1広告詐欺探知モデルから第1広告詐欺出力データを取得し、動作318において、第2広告詐欺探知モデルから第2広告詐欺出力データを取得し、及び動作320において、第3広告詐欺探知モデルから第3広告詐欺出力データを取得する。
【0058】
第1広告詐欺出力データは、ユーザデータが第1グループ、第2グループ、及び第3グループに属する確率値を含んでもよく、第2広告詐欺出力データは、ユーザデータが第2広告詐欺探知モデルのオートエンコーダによって復元されたデータの復元誤差を含んでもよく、第3広告詐欺出力データは、ユーザデータが第1グループ、第2グループ、及び第3グループに属する確率値を含んでもよい。
【0059】
一実施形態において、第1広告詐欺探知モデルは、SHAP、LIMEのような説明可能なAI(XAI)モデルが適用されたモデルであってもよい。説明可能なAIモデルを第1広告詐欺探知モデルに適用することで、第1広告詐欺探知モデルは、第1広告詐欺出力データと共に第1広告詐欺出力データを出力した根拠となる特徴(例えば、
図4~
図8の特徴)を出力することができる。
【0060】
一実施形態において、第2広告詐欺探知モデルは、第2広告詐欺探知モデルの入力と出力の差が最も大きい特徴を示す説明可能なAIモデル(XAI)が適用されたモデルであってもよい。
【0061】
一実施形態において、第3広告詐欺探知モデルはンタープリタブルモデルであって、入力されたデータを第1グループ、第2グループ、及び第3グループのいずれか1つに区分した根拠となる特徴(例えば、
図4~
図8の特徴のうち寄与度の高い特徴)及び該当特徴の寄与度を出力することができる。
【0062】
動作325において、広告詐欺探知装置は、第1広告詐欺出力データ、第2広告詐欺出力データ、及び第3広告詐欺出力データに基づいて、ユーザが広告詐欺ユーザであるか否かを決定する。
【0063】
一実施形態において、広告詐欺探知装置は、第1広告詐欺出力データ、第2広告詐欺出力データ、及び第3広告詐欺出力データをアンサンブルすることで、最終広告詐欺出力データを決定することができる。
【0064】
一実施形態において、広告詐欺探知装置は、第1広告詐欺出力データに含まれた確率値、第2広告詐欺出力データに含まれた復元誤差、及び第3広告詐欺出力データに含まれた確率値に基づいて最終広告詐欺出力データを決定することができる。
【0065】
例えば、広告詐欺探知装置は、第1グループ、第2グループ、及び第3グループのうち第1広告詐欺出力データの確率値の最も高いグループをユーザデータが属する可能性のある第1候補グループとして決定してもよい。広告詐欺探知装置は、第2広告詐欺出力データの復元誤差が設定された値以上である場合、第3グループをユーザデータが属する可能性のある第2候補グループとして決定し、出力データの復元誤差が設定された値未満である場合、第1グループと第2グループを第2候補グループとして決定することができる。広告詐欺探知装置は、第1グループ、第2グループ、及び第3グループのうち、第3広告詐欺出力データの確率値が最も高いグループをユーザデータが属する可能性のある第3候補グループとして決定することができる。広告詐欺探知装置は、第1候補グループ、第2候補グループ、及び第3候補グループを、設定された条件に応じてアンサンブルすることで最終広告詐欺出力データを決定することができる。最終広告詐欺出力データは、第1グループ、第2グループ、及び第3グループのうちユーザデータが属するものと決定された最終グループを含んでもよい。
【0066】
広告詐欺探知装置は、最終広告詐欺出力データに基づいてユーザが広告詐欺ユーザであるか否かを決定することができる。例えば、広告詐欺探知装置は、最終広告詐欺出力データに含まれた最終グループが第1グループ又は第2グループである場合、ユーザが広告詐欺ユーザでないものと決定し、最終グループが第3グループである場合、ユーザが広告詐欺ユーザであると決定することができる。
【0067】
動作327において、広告詐欺探知装置は、動作325で広告詐欺ユーザの有無が決定されたユーザデータを広告詐欺探知装置の学習のための学習データ(例えば、
図2の動作205の学習データ)に追できる。例えば、広告詐欺探知装置は、ユーザが広告詐欺ユーザとして決定された場合、第3グループの学習データに広告詐欺ユーザとして決定されたユーザのデータを追加してもよい。広告詐欺探知装置は、ユーザが広告詐欺ユーザでないものと決定された場合、第1グループ又は第2グループの学習データにユーザデータを追加してもよい。
【0068】
広告詐欺探知装置は、追加された学習データに基づいて再び学習され、再び学習されることによって広告詐欺探知性能が向上される。一実施形態において、動作327は省略されてもよい。
【0069】
動作330において、広告詐欺探知装置は、オンライン広告を掲載した媒体ごとにそれぞれの媒体を介して流入されたユーザのうち広告詐欺ユーザとして決定されたユーザの比率を決定し、決定された比率及び該当媒体を介してコンテンツがインストールされた回数のうち少なくとも1つに基づいて広告詐欺媒体を決定することができる。例えば、広告詐欺探知装置は、決定された比率が設定された比率を超過して、該当媒体を介してコンテンツがインストールされた回数が設定された回数を超過する場合、該当媒体を広告詐欺媒体として決定することができる。
【0070】
動作335において、広告詐欺探知装置は、動作330で決定された広告詐欺媒体に対するリポートを出力する。リポートについては以下の
図9を参照して説明する。
【0071】
一実施形態において、広告詐欺探知モデルは、規則基盤の第4広告詐欺探知モデルを含んでもよい。広告詐欺探知装置は、動作310で抽出された特徴を第4広告詐欺探知モデルに入力して第4広告詐欺出力データを取得することができる。広告詐欺探知装置は、動作335において、動作325で決定された最終広告詐欺出力データ及び第4広告詐欺出力データに基づいてリポートを出力することができる。
【0072】
図4~
図8は、一実施形態に係る広告詐欺関連特徴の例示を説明するための図である。
【0073】
図4を参照すると、コンテンツのインストールに関する特徴が図示されている。
一実施形態において、広告詐欺関連特徴は、一般のユーザは使わないコンテンツバージョンのインストール回数が多過ぎる場合(405)を探知するためにインストールされたコンテンツバージョンに対する特徴及び該当バージョンがインストールされた日付に対する特徴を含んでもよい。
【0074】
一実施形態において、広告詐欺関連特徴は、広告寄与が認められたIP(internet protocol)インタッチポイントIP(touchpoint internet protocol)を通したインストール回数が多過ぎる場合(410)を探知するために、広告寄与が認められたタッチポイントIPに関する特徴、該当タッチポイントIPを介してコンテンツがインストールされた日付に対する特徴、及び該当タッチポイントIPを介してコンテンツをインストールしたユーザに対する特徴を含んでもよい。コンテンツをインストールしたユーザに対する特徴は、ユーザの広告識別情報(例えば、advertising identifier;ADID)を含んでもよい。
【0075】
一実施形態において、広告詐欺関連特徴は、特定のIPを通したインストール回数が多過ぎる場合(415)を探知するために、コンテンツがインストールされたIPに対する特徴、当該IPを介してコンテンツがインストールされた日付に対する特徴、当該IPを介してコンテンツをインストールしたユーザに対する特徴を含んでもよい。
【0076】
一実施形態において、広告詐欺関連特徴は、一般によく使われないモデルの端末のインストール回数が多過ぎる場合(420)を探知するために、コンテンツをインストールした端末のモデルに対する特徴、コンテンツをインストールした端末のモデルでコンテンツがインストールされた日付に対する特徴を含んでもよい。
【0077】
一実施形態において、広告詐欺関連特徴は、一般のユーザは使わない端末オペレーティングシステムバージョンのインストール回数が多過ぎる場合(425)を探知するためにコンテンツをインストールした端末のオペレーティングシステムに対する特徴、コンテンツをインストールした端末のオペレーティングシステムでコンテンツがインストールされた日付に対する特徴、及びコンテンツをインストールした端末のオペレーティングシステムでコンテンツをインストールしたユーザに対する特徴を含んでもよい。
【0078】
一実施形態において、広告詐欺関連特徴は、ユーザが数回のインストールを行って一般的なインストールの行為として見難い場合(430)を探知するために、コンテンツのインストール回数に対する特徴、インストール間隔に対する特徴を含んでもよい。
【0079】
一実施形態において、広告詐欺関連特徴は、媒体が正当でない方式で広告寄与が認められたことが疑われる場合(435)を探知するために、オンライン広告のクリックとインストール間の時間差に関する特徴及びクリック時点のIPとインストール時点のIPとがそれぞれ異なるかに対する特徴を含んでもよい。
【0080】
一実施形態において、広告詐欺関連特徴は、コンテンツのインストールの時間帯が一般的でない場合(440)を探知するために、コンテンツのインストール時間に対する特徴を含んでもよい。
【0081】
図5を参照すると、コンテンツのログインに関する特徴が図示されている。
一実施形態において、広告詐欺関連特徴は、ログイン時間帯が一般のユーザのログイン時間帯と異なるか、特定の時間帯だけログインする場合(505)を探知するために、ログイン時間帯に関する特徴を含んでもよい。
【0082】
一実施形態において、広告詐欺関連特徴は、ログイン回数が少な過ぎるか多過ぎる場合(510)を探知するために、コンテンツのログイン回数に関する特徴を含んでもよい。
【0083】
一実施形態において、広告詐欺関連特徴は、ログインパターンが正常でない場合(515)を探知するために、コンテンツのインストール以後に初めてのログインまでかかった時間に関する特徴、ログインの時間間隔に関する特徴を含んでもよい。
【0084】
一実施形態において、広告詐欺関連特徴は、ログインIPが危険IPであるかログインを行ったIPの数が異常に多い場合(520)を探知するために、ブラックリストIP(blacklisted IP)でログインされた比率に関する特徴及びログインしたIP数に関する特徴を含んでもよい。
【0085】
図6を参照すると、コンテンツの実行(open)に関する特徴が図示されている。
【0086】
一実施形態において、広告詐欺関連特徴は、コンテンツ実行時間帯が一般のユーザの実行時間帯と異なるか、特定の時間帯にだけ実行する場合(605)を探知するために、コンテンツの実行日付に関する特徴、コンテンツの実行時間に関する特徴、特定の時間帯にコンテンツを実行したか否かに関する特徴を含んでもよい。
【0087】
一実施形態において、広告詐欺関連特徴は、コンテンツの実行回数が少な過ぎるか多過ぎる場合(610)を探知するために、コンテンツの実行回数に関する特徴を含んでもよい。
【0088】
一実施形態において、広告詐欺関連特徴は、ユーザのコンテンツ実行パターンが正常でない場合(615)を探知するために、コンテンツの2番目の実行までかかった時間に関する特徴、コンテンツの実行時間間隔に関する特徴を含んでもよい。
【0089】
一実施形態において、広告詐欺関連特徴は、コンテンツ実行IPが危険IPであるか、コンテンツを実行するIPが異常に多い場合(620)を探知するために、ブラックリストIP(blacklisted IP)で実行された比率に関する特徴及びコンテンツを実行したIP数に関する特徴を含んでもよい。
【0090】
一実施形態において、広告詐欺関連特徴は、正常でないログを有する場合(625)を探知するために、実行ログに関する特徴を含んでもよい。
【0091】
図7を参照すると、オンライン広告のクリックに関する特徴が図示されている。
【0092】
一実施形態において、広告詐欺関連特徴は、予想できないIPで広告寄与が認められる場合(705)を探知するために、オンライン広告をクリックしたIPに関する特徴及び広告寄与が認められたタッチポイントIPに関する特徴を含んでもよい。
【0093】
一実施形態において、広告詐欺関連特徴は、ユーザのオンライン広告クリックパターンが正常でない場合(710)を探知するために、オンライン広告のクリック回数に関する特徴、オンライン広告のクリック時間間隔に関する特徴を含んでもよい。
【0094】
図8を参照すると、イベント(event)及びセールス(sales)関連特徴が図示されている。
【0095】
一実施形態において、広告詐欺関連特徴は、ユーザがコンテンツに関心のないものの継続的に接続する場合(805)を探知するために、ユーザのコンテンツに対するアクション(action)に関する特徴を含んでもよい。
【0096】
一実施形態において、広告詐欺関連特徴は、正常な課金として見難い場合(810)を探知するために、初めての課金までかかった時間に関する特徴、及びユーザが課金したものであるか否かに関する特徴を含んでもよい。
【0097】
但し、
図4~
図8に記載された特徴は例示に過ぎず、広告詐欺関連特徴は必要に応じて様々な特徴を含んでもよい。
【0098】
図9は、一実施形態に係る広告詐欺探知装置が出力するリポートを説明するための図である。
【0099】
広告詐欺探知装置は、例えば、
図3に示す動作335のように広告詐欺媒体に対するリポート900を出力することができる。
【0100】
一実施形態において、リポート900は、コンテンツの種類905、パブリッシャ(又は、媒体)種類910、媒体ごとに最も多く集計された広告詐欺探知理由915、媒体ごとの広告詐欺ユーザとして決定されたユーザの数920、及び全体流入ユーザ対比広告詐欺ユーザの疑い比率925を含む。
【0101】
一実施形態において、広告詐欺探知装置は、細部内訳リポート(図示せず)をさらに出力することができる。細部内訳リポートは、広告詐欺媒体に属するサブ媒体の数、広告詐欺媒体で最も多く接続したIPと国(国家)コード、広告詐欺ユーザの識別情報、当該の広告詐欺ユーザが広告詐欺ユーザとして決定された原因となる特徴、及び当該広告詐欺ユーザを広告詐欺ユーザとして決定されたモデルに関する情報を含んでもよい。細部内訳リポートは、広告詐欺媒体で最も多く探知された媒体の探知原因となる特徴の分布、該当特徴の4分の1の値及び当該の広告詐欺媒体の広告詐欺ユーザの識別情報をさらに含んでもよい。
【0102】
一実施形態において、広告詐欺探知装置は、リポートを周期的に出力することができる。
【0103】
図10は、一実施形態に係る学習装置の構成を示すブロック図である。
【0104】
図10を参照すると、一実施形態に係る学習装置1000は、プロセッサ1005、及びプロセッサ1005によって実行される命令を格納するメモリ1010を含む。
【0105】
一実施形態において、プロセッサ1005は、オンライン広告の対象であるコンテンツのユーザに関する学習データを受信することができる。学習データは、オンライン広告を通じたり、通じることなく、コンテンツに流入されたユーザに対するユーザデータを含んでもよい。プロセッサ1005は、学習データから広告詐欺関連特徴(例えば、
図4~
図8に示す広告詐欺関連特徴)を抽出することができる。
【0106】
一実施形態において、プロセッサ1005によって
図2に示す動作205、210、211、213、215、216、218、220、225が実行される。例えば、プロセッサ1005は、抽出された特徴を入力とするニューラルネットワーク基盤の第1広告詐欺探知モデルから第1広告詐欺予測データを取得し、抽出された特徴を入力にするオートエンコーダ基盤の第2広告詐欺探知モデルから第2広告詐欺予測データを取得し、抽出された特徴を入力にするロジステック回帰基盤の第3広告詐欺探知モデルから第3広告詐欺予測データを取得することができる。
【0107】
プロセッサ1005は、第1広告詐欺予測データ、第2広告詐欺予測データ、及び第3広告詐欺予測データに基づいて、第1広告詐欺探知モデル、第2広告詐欺探知モデル、及び第3広告詐欺探知モデルのうち少なくとも1つのパラメータをアップデートすることができる。
【0108】
一実施形態において、学習データは、信頼できるSANs媒体を介して流入した第1グループ、SANs媒体でない媒体のうち信頼できる媒体を介して流入された第2グループ、広告詐欺履歴がある媒体を介して流入した第3グループ、及びその他の第4グループに区分されて学習装置1000に受信されてもよい。一般に、一般ユーザ数が広告詐欺ユーザの数よりさらに多いため、学習データの第1グループないし第4グループに属するデータ量は均衡的でないことがある。
【0109】
プロセッサ1005は、第4グループに属する学習データに対してクラスタリングを行い、クラスタリング結果に応じて第4グループに属する学習データを第1グループ、第2グループ、及び第3グループのいずれか1つのグループに再び区分される。一実施形態の学習装置1000は、動作210において、学習データに対してSMOTE(synthetic minority over-sampling technique)のようなオーバーサンプリングを行って第1グループ、第2グループ、及び第3グループのデータ量が均一になるように調整することができる。
【0110】
図11は、一実施形態に係る広告詐欺探知装置の構成を示すブロック図である。
【0111】
一実施形態に係る広告詐欺探知装置1100は、プロセッサ1105及びプロセッサ1105によって実行される命令を格納するメモリ1110を含む。
【0112】
一実施形態において、プロセッサ1105は、オンライン広告の対象であるコンテンツに関するユーザのユーザデータを受信することができる。ユーザデータは、オンライン広告を通じたり、通じることなく、コンテンツに流入したユーザに対するユーザデータを含んでもよい。プロセッサ1105は、ユーザデータから広告詐欺関連特徴(例えば、
図4~
図8の広告詐欺関連特徴)を抽出することができる。
【0113】
一実施形態において、プロセッサ1105によって
図3に示す動作305、310、311、313、315、316、318、320、325、327、330、335が実行される。例えば、プロセッサ1105は、抽出された特徴を入力とするニューラルネットワーク基盤の第1広告詐欺探知モデルから第1広告詐欺出力データを取得し、抽出された特徴を入力にするオートエンコーダ基盤の第2広告詐欺探知モデルから第2広告詐欺出力データを取得し、抽出された特徴を入力にするロジステック回帰基盤の第3広告詐欺探知モデルから第3広告詐欺出力データを取得することができる。
【0114】
プロセッサ1105は、第1広告詐欺出力データ、第2広告詐欺出力データ、及び第3広告詐欺出力データに基づいてユーザが広告詐欺ユーザであるか否かを決定することができる。
【0115】
プロセッサ1105は、第1広告詐欺出力データ、第2広告詐欺出力データ、及び第3広告詐欺出力データをアンサンブルすることで、最終広告詐欺出力データを決定することができる。例えば、プロセッサ1105は、第1広告詐欺出力データに含まれた確率、第2広告詐欺出力データに含まれた復元誤差、及び第3広告詐欺出力データに含まれた確率に基づいて最終広告詐欺出力データを決定することができる。
【0116】
プロセッサ1105は、最終広告詐欺出力データに基づいてユーザが広告詐欺ユーザであるか否かを決定することができる。
【0117】
プロセッサ1105は、広告詐欺ユーザの有無が決定されたユーザデータを広告詐欺探知装置1100の学習のための学習データ(例えば、
図2の動作205の学習データ)に追加することができる。例えば、プロセッサ1105は、ユーザが広告詐欺ユーザとして決定された場合、第3グループの学習データに広告詐欺ユーザとして決定されたユーザのデータを追加してもよい。プロセッサ1105は、ユーザが広告詐欺ユーザでないものと決定された場合、第1グループ又は、第2グループの学習データにユーザデータを追加してもよい。
【0118】
プロセッサ1105は、オンライン広告を掲載した媒体ごとにそれぞれの媒体を介して流入されたユーザのうち、広告詐欺ユーザとして決定されたユーザの比率を決定し、決定された比率及び該当媒体を介してコンテンツがインストールされた回数のうち少なくとも1つに基づいて広告詐欺媒体を決定することができる。例えば、広告詐欺探知装置1100は、決定された比率が設定された比率を超過して該当媒体を介してコンテンツがインストールされた回数が設定された回数を超過する場合、該当媒体を広告詐欺媒体として決定してもよい。
【0119】
プロセッサ1105は、決定された広告詐欺媒体に対するリポート(例えば、
図9に示すリポート900)を出力することができる。
【0120】
以上で説明された実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサー、又は命令(instruction)を実行して応答する異なる装置のように、1つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム(OS)及びオペレーティングシステム上で実行される1つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は1つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素(processing element)及び/又は複数類型の処理要素を含むことが把握する。例えば、処理装置は、複数のプロセッサ又は1つのプロセッサ及び1つのコントローラを含む。また、並列プロセッサ(parallel processor)のような、他の処理構成も可能である。
【0121】
ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び/又はデータは、処理装置によって解釈されたり、処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり、実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。
【0122】
本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD-ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気-光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。
【0123】
上記で説明したハードウェア装置は、本発明に示す動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順に実行され、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法とは異なる形態に結合又は組み合わせられてもよく、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。
【0124】
したがって、他の具現、他の実施形態および特許請求の範囲と均等なものも後述する特許請求範囲の範囲に属する。
【符号の説明】
【0125】
105:広告詐欺探知モデル
110:第1広告詐欺探知モデル
115:第2広告詐欺探知モデル
120:第3広告詐欺探知モデル
1000:学習装置
1005:プロセッサ
1010:メモリ
1100:広告詐欺探知装置
1105:プロセッサ
1110:メモリ