特許第6874950号(P6874950)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アリババ・グループ・ホールディング・リミテッドの特許一覧

特許6874950詐欺的ソフトウェアプロモーションを検出するための方法、装置、及びシステム
<>
  • 特許6874950-詐欺的ソフトウェアプロモーションを検出するための方法、装置、及びシステム 図000002
  • 特許6874950-詐欺的ソフトウェアプロモーションを検出するための方法、装置、及びシステム 図000003
  • 特許6874950-詐欺的ソフトウェアプロモーションを検出するための方法、装置、及びシステム 図000004
  • 特許6874950-詐欺的ソフトウェアプロモーションを検出するための方法、装置、及びシステム 図000005
  • 特許6874950-詐欺的ソフトウェアプロモーションを検出するための方法、装置、及びシステム 図000006
  • 特許6874950-詐欺的ソフトウェアプロモーションを検出するための方法、装置、及びシステム 図000007
  • 特許6874950-詐欺的ソフトウェアプロモーションを検出するための方法、装置、及びシステム 図000008
  • 特許6874950-詐欺的ソフトウェアプロモーションを検出するための方法、装置、及びシステム 図000009
  • 特許6874950-詐欺的ソフトウェアプロモーションを検出するための方法、装置、及びシステム 図000010
  • 特許6874950-詐欺的ソフトウェアプロモーションを検出するための方法、装置、及びシステム 図000011
  • 特許6874950-詐欺的ソフトウェアプロモーションを検出するための方法、装置、及びシステム 図000012
  • 特許6874950-詐欺的ソフトウェアプロモーションを検出するための方法、装置、及びシステム 図000013
  • 特許6874950-詐欺的ソフトウェアプロモーションを検出するための方法、装置、及びシステム 図000014
  • 特許6874950-詐欺的ソフトウェアプロモーションを検出するための方法、装置、及びシステム 図000015
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6874950
(24)【登録日】2021年4月26日
(45)【発行日】2021年5月19日
(54)【発明の名称】詐欺的ソフトウェアプロモーションを検出するための方法、装置、及びシステム
(51)【国際特許分類】
   G06F 40/279 20200101AFI20210510BHJP
   G06F 40/216 20200101ALI20210510BHJP
   G06Q 30/06 20120101ALI20210510BHJP
【FI】
   G06F40/279
   G06F40/216
   G06Q30/06 322
【請求項の数】27
【全頁数】32
(21)【出願番号】特願2018-504107(P2018-504107)
(86)(22)【出願日】2016年8月31日
(65)【公表番号】特表2018-528517(P2018-528517A)
(43)【公表日】2018年9月27日
(86)【国際出願番号】US2016049567
(87)【国際公開番号】WO2017040574
(87)【国際公開日】20170309
【審査請求日】2019年6月25日
(31)【優先権主張番号】201510555824.X
(32)【優先日】2015年9月1日
(33)【優先権主張国】CN
(31)【優先権主張番号】15/251,034
(32)【優先日】2016年8月30日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】510330264
【氏名又は名称】アリババ・グループ・ホールディング・リミテッド
【氏名又は名称原語表記】ALIBABA GROUP HOLDING LIMITED
(74)【代理人】
【識別番号】110000877
【氏名又は名称】龍華国際特許業務法人
(72)【発明者】
【氏名】フー、ユシャン
【審査官】 成瀬 博之
(56)【参考文献】
【文献】 米国特許出願公開第2014/0230053(US,A1)
【文献】 特開2015−127861(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00−40/58
G06Q 10/00−99/00
G06F 16/00−16/958
(57)【特許請求の範囲】
【請求項1】
詐欺的ソフトウェアプロモーションを検出するための方法であって、
ソフトウェアアプリケーションに関連するコメント情報をサーバによって取得する段階であって、前記コメント情報は、複数のコメントを含む、段階と、
各コメントと1又は複数の以前のコメントとの間の類似度に基づいて、前記コメント情報の平均類似度を前記サーバによって計算する段階であって、前記平均類似度を前記計算する段階は、
1又は複数の単語分割ベクタを得るべく、前記コメント情報に単語分割を前記サーバによって実行する段階であって、前記1又は複数の単語分割ベクタの各々は、コメントに関連する、段階と、
各単語分割ベクタに対する最大類似度を前記サーバによって計算する段階であって、前記最大類似度は、選択された単語分割ベクタと、以前の単語分割ベクタとの間の類似度を計算すること、及び、前記類似度において最も高い類似度を選択することにより算出され、前記以前の単語分割ベクタは、前記コメント情報における前記単語分割ベクタの出現順で順序付けられた項目において、より前の単語分割ベクタに対応する、段階と、
前記最大類似度を平均化することにより、前記平均類似度を前記サーバにより決定する段階と
を含む、段階と、
記ソフトウェアアプリケーションに関連するカテゴリの判定閾値範囲を前記サーバによって定義する段階であって、前記判定閾値範囲は、前記カテゴリに関連する別のアプリケーションの平均類似度に基づき、複数の確率統計的分布パラメータによって定義される、段階と、
前記コメント情報の前記平均類似度が前記判定閾値範囲内にある場合に、前記ソフトウェアアプリケーションを詐欺的として前記サーバによって識別する段階と
を備える、方法。
【請求項2】
前記判定閾値範囲を定義する段階は、
前記カテゴリに関連する前記別のアプリケーションの前記平均類似度の期待値及び分散を前記サーバによって計算する段階と
前記複数の確率統計的分布パラメータとして、計算された前記期待値及び分散を用いて、前記サーバによって、前記判定閾値範囲を定義する段階と
を有する、請求項1に記載の方法。
【請求項3】
前記判定閾値範囲を定義する段階は、
前記カテゴリに関連する前記別のアプリケーションの前記平均類似度のデータ分布に基づき、確率統計的分布タイプを前記サーバによって識別する段階と、
前記カテゴリに関連する前記別のアプリケーションの前記複数の確率統計的分布パラメータを決定すべく、前記確率統計的分布タイプの確率統計的分布に前記データ分布を前記サーバによって適合する段階と
を有する、請求項1又は2に記載の方法。
【請求項4】
前記確率統計的分布タイプを識別する段階は、
前記カテゴリに関連する各々の前記別のアプリケーションの前記平均類似度の前記データ分布に基づき、前記確率統計的分布タイプが正規分布タイプであることを前記サーバによって識別する段階を含み、
前記確率統計的分布タイプの前記確率統計的分布に前記データ分布を適合する段階は、
記カテゴリに関連する前記別のアプリケーションの前記複数の確率統計的分布パラメータを決定すべく、正規分布に前記データ分布を前記サーバによって適合する段階であって、前記複数の確率統計的分布パラメータは、平均値及び標準偏差を含む、段階を含み、
前記判定閾値範囲を定義する段階は、
記カテゴリに関連する前記別のアプリケーションの前記複数の確率統計的分布パラメータに基づき、前記カテゴリに関連する前記別のアプリケーションの判定閾値範囲を前記サーバによって計算する段階と、
前記判定閾値範囲に基づき、事象に対する閾値範囲を前記サーバによって決定する段階と
を含む、請求項3に記載の方法。
【請求項5】
前記判定閾値範囲に基づき、前記事象に対する前記閾値範囲を決定する段階は、前記カテゴリに関連する前記別のアプリケーションの前記複数の確率統計的分布パラメータの平均値及び標準偏差に基づき、前記カテゴリに関連する前記別のアプリケーションの前記判定閾値範囲を定義する段階を更に有する、請求項4に記載の方法。
【請求項6】
詐欺的ソフトウェアプロモーションを検出するための方法であって、
ソフトウェアアプリケーションに関連するコメント情報をサーバによって取得する段階であって、前記コメント情報は、複数のコメントを含む、段階と、
前記コメント情報の平均類似度又は平均情報エントロピーを前記サーバによって計算する段階であって、前記平均類似度は、前記複数のコメント間の類似度に基づき計算され、前記平均情報エントロピーは、前記複数のコメント間の情報ゲインに基づき計算される、段階と、
前記ソフトウェアアプリケーションに関連するカテゴリの判定閾値範囲を前記サーバによって定義する段階であって、前記判定閾値範囲は、前記カテゴリに関連する別のアプリケーションの平均類似度又は平均情報エントロピーに基づき、複数の確率統計的分布パラメータによって定義される、段階と、
前記コメント情報の前記平均類似度又は平均情報エントロピーが前記判定閾値範囲内にある場合に、前記ソフトウェアアプリケーションを詐欺的として前記サーバによって識別する段階と
を備え、
前記判定閾値範囲を定義する段階は、
前記カテゴリに関連する前記別のアプリケーションの前記平均類似度又は平均情報エントロピーの期待値及び分散を前記サーバによって計算する段階と、
前記複数の確率統計的分布パラメータとして、計算された前記期待値及び分散を用いて、前記サーバによって、前記判定閾値範囲を定義する段階と
を有する、方法。
【請求項7】
詐欺的ソフトウェアプロモーションを検出するための方法であって、
ソフトウェアアプリケーションに関連するコメント情報をサーバによって取得する段階であって、前記コメント情報は、複数のコメントを含む、段階と、
前記コメント情報の平均類似度又は平均情報エントロピーを前記サーバによって計算する段階であって、前記平均類似度は、前記複数のコメント間の類似度に基づき計算され、前記平均情報エントロピーは、前記複数のコメント間の情報ゲインに基づき計算される、段階と、
前記ソフトウェアアプリケーションに関連するカテゴリの判定閾値範囲を前記サーバによって定義する段階であって、前記判定閾値範囲は、前記カテゴリに関連する別のアプリケーションの平均類似度又は平均情報エントロピーに基づき、複数の確率統計的分布パラメータによって定義される、段階と、
前記コメント情報の前記平均類似度又は平均情報エントロピーが前記判定閾値範囲内にある場合に、前記ソフトウェアアプリケーションを詐欺的として前記サーバによって識別する段階と
を備え、
前記判定閾値範囲を定義する段階は、
前記カテゴリに関連する前記別のアプリケーションの前記平均類似度又は平均情報エントロピーのデータ分布に基づき、確率統計的分布タイプを前記サーバによって識別する段階と、
前記カテゴリに関連する前記別のアプリケーションの前記複数の確率統計的分布パラメータを決定すべく、前記確率統計的分布タイプの確率統計的分布に前記データ分布を前記サーバによって適合する段階と
を有する、方法。
【請求項8】
詐欺的ソフトウェアプロモーションを検出するための方法であって、
ソフトウェアアプリケーションに関連するコメント情報及びダウンロード数をサーバによって取得する段階であって、前記コメント情報は、1又は複数のコメントを含む、段階と、
前記ソフトウェアアプリケーションに関連するコメント対ダウンロード比を前記サーバによって計算する段階であって、前記コメント対ダウンロード比は、前記ダウンロード数に対するコメントの総数の比に等しい、段階と、
前記ソフトウェアアプリケーションに関連するカテゴリの判定閾値範囲を前記サーバによって定義する段階であって、前記判定閾値範囲は、前記カテゴリに関連する別のアプリケーションのコメント対ダウンロード比に基づき、複数の確率統計的分布パラメータにより定義される、段階と、
前記ソフトウェアアプリケーションの前記コメント対ダウンロード比が、前記カテゴリに関連する前記別のアプリケーションに関連する前記判定閾値範囲内にある場合に、前記ソフトウェアアプリケーションが、詐欺的ダウンロード数をプロモートすると前記サーバによって判定する段階と
を備え、
前記判定閾値範囲を定義する段階は、
前記カテゴリに関連する各々の前記別のアプリケーションの前記コメント対ダウンロード比の期待値及び分散を前記サーバによって計算する段階と、
前記複数の確率統計的分布パラメータとして、計算された前記期待値及び前記分散を用いて、前記サーバによって、前記判定閾値範囲を定義する段階と
を更に有する、方法。
【請求項9】
詐欺的ソフトウェアプロモーションを検出するための方法であって、
ソフトウェアアプリケーションに関連するコメント情報及びダウンロード数をサーバによって取得する段階であって、前記コメント情報は、1又は複数のコメントを含む、段階と、
前記ソフトウェアアプリケーションに関連するコメント対ダウンロード比を前記サーバによって計算する段階であって、前記コメント対ダウンロード比は、前記ダウンロード数に対するコメントの総数の比に等しい、段階と、
前記ソフトウェアアプリケーションに関連するカテゴリの判定閾値範囲を前記サーバによって定義する段階であって、前記判定閾値範囲は、前記カテゴリに関連する別のアプリケーションのコメント対ダウンロード比に基づき、複数の確率統計的分布パラメータにより定義される、段階と、
前記ソフトウェアアプリケーションの前記コメント対ダウンロード比が、前記カテゴリに関連する前記別のアプリケーションに関連する前記判定閾値範囲内にある場合に、前記ソフトウェアアプリケーションが、詐欺的ダウンロード数をプロモートすると前記サーバによって判定する段階と
を備え、
前記判定閾値範囲を定義する段階は、
前記カテゴリに関連する各々の前記別のアプリケーションの前記コメント対ダウンロード比のデータ分布に基づき、確率統計的分布タイプを前記サーバによって識別する段階と、
前記カテゴリに関連する前記別のアプリケーションの前記複数の確率統計的分布パラメータを決定すべく、前記確率統計的分布タイプの確率統計的分布にし前記データ分布を前記サーバによって適合する段階と
を更に有する、方法。
【請求項10】
詐欺的ソフトウェアプロモーションを検出するための装置であって、
プロセッサと、
コンピュータ実行可能命令を記憶する非一時的メモリと
を備え、
前記コンピュータ実行可能命令は、前記プロセッサにより実行されると、前記装置に、
ソフトウェアアプリケーションに関連するコメント情報を取得することであって、前記コメント情報は複数のコメントを含む、ことと、
各コメントと1又は複数の以前のコメントの間の類似度に基づいて、前記コメント情報の平均類似度を算することであって、前記平均類似度を計算することは、
1又は複数の単語分割ベクタを得るべく、前記コメント情報に単語分割を実行することであって、前記1又は複数の単語分割ベクタの各々は、コメントに関連する、ことと、
各単語分割ベクタに対する最大類似度を計算することであって、前記最大類似度は、選択された単語分割ベクタと、以前の単語分割ベクタとの間の類似度を計算すること、及び、前記類似度において最も高い類似度を選択することにより算出され、前記以前の単語分割ベクタは、前記コメント情報における前記単語分割ベクタの出現順で順序付けられた項目において、より前の単語分割ベクタに対応する、ことと、
前記最大類似度を平均化することにより、前記平均類似度を決定することと
を含む、ことと、
前記ソフトウェアアプリケーションに関連するカテゴリの判定閾値範囲を定義することであって、前記判定閾値範囲は、前記カテゴリに関連する別のアプリケーションの平均類似度に基づき、複数の確率統計的分布パラメータにより定義される、ことと、
前記コメント情報の前記平均類似度が前記判定閾値範囲内にある場合に、前記ソフトウェアアプリケーションを詐欺的として識別することと
を実行させる、装置。
【請求項11】
前記判定閾値範囲を定義することは
記カテゴリに関連する前記別のアプリケーションの前記平均類似度の期待値及び分散を計算することと、
前記複数の確率統計的分布パラメータとして、計算された前記期待値及び分散を用いて、前記判定閾値範囲を定義することと
を含む、請項10に記載の装置。
【請求項12】
前記判定閾値範囲を定義することは、
記カテゴリに関連する前記別のアプリケーションの前記平均類似度のデータ分布に基づき、確率統計的分布タイプを識別することと、
前記カテゴリに関連する前記別のアプリケーションの前記複数の確率統計的分布パラメータを決定すべく、前記確率統計的分布タイプの確率統計的分布に前記データ分布を適合することと
を含む、請求項10又は11に記載の装置。
【請求項13】
前記確率統計的分布タイプを識別することは、
記カテゴリに関連する各々の前記別のアプリケーションの前記平均類似度の前記データ分布に基づき、前記確率統計的分布タイプが正規分布タイプであることを識別することを含み、
前記確率統計的分布タイプの確率統計的分布に前記データ分布を適合することは、
記カテゴリに関連する前記別のアプリケーションの前記複数の確率統計的分布パラメータを決定すべく、正規分布に前記データ分布を適することを含み、前記複数の確率統計的分布パラメータは、平均値及び標準偏差を含み
前記判定閾値範囲を定義することは、
前記カテゴリに関連する前記別のアプリケーションの前記複数の確率統計的分布パラメータに基づき、前記カテゴリに関連する前記別のアプリケーションの判定閾値範囲を計算することと、
記判定閾値範囲に基づき、事象に対する閾値範囲を決定することと
を含む、請求項12に記載の装置。
【請求項14】
詐欺的ソフトウェアプロモーションを検出するための装置であって、
プロセッサと、
コンピュータ実行可能命令を記憶する非一時的メモリと
を備え、
前記コンピュータ実行可能命令は、前記プロセッサにより実行されると、前記装置に、
ソフトウェアアプリケーションに関連するコメント情報を取得することであって、前記コメント情報は複数のコメントを含む、ことと、
前記コメント情報の平均類似度又は平均情報エントロピーを計算することであって、前記平均類似度は、前記複数のコメント間の類似度に基づき計算され、前記平均情報エントロピーは、前記複数のコメント間の情報ゲインに基づき計算される、ことと、
前記ソフトウェアアプリケーションに関連するカテゴリの判定閾値範囲を定義することであって、前記判定閾値範囲は、前記カテゴリに関連する別のアプリケーションの平均類似度又は平均情報エントロピーに基づき、複数の確率統計的分布パラメータにより定義される、ことと、
前記コメント情報の前記平均類似度又は平均情報エントロピーが前記判定閾値範囲内にある場合に、前記ソフトウェアアプリケーションを詐欺的として識別することと
を実行させ、
前記判定閾値範囲を定義することは、
前記カテゴリに関連する前記別のアプリケーションの前記平均類似度又は平均情報エントロピーの期待値及び分散を計算することと、
前記複数の確率統計的分布パラメータとして、計算された前記期待値及び分散を用いて、前記判定閾値範囲を定義することと
を含む、装置。
【請求項15】
詐欺的ソフトウェアプロモーションを検出するための装置であって、
プロセッサと、
コンピュータ実行可能命令を記憶する非一時的メモリと
を備え、
前記コンピュータ実行可能命令は、前記プロセッサにより実行されると、前記装置に、
ソフトウェアアプリケーションに関連するコメント情報を取得することであって、前記コメント情報は複数のコメントを含む、ことと、
前記コメント情報の平均類似度又は平均情報エントロピーを計算することであって、前記平均類似度は、前記複数のコメント間の類似度に基づき計算され、前記平均情報エントロピーは、前記複数のコメント間の情報ゲインに基づき計算される、ことと、
前記ソフトウェアアプリケーションに関連するカテゴリの判定閾値範囲を定義することであって、前記判定閾値範囲は、前記カテゴリに関連する別のアプリケーションの平均類似度又は平均情報エントロピーに基づき、複数の確率統計的分布パラメータにより定義される、ことと、
前記コメント情報の前記平均類似度又は平均情報エントロピーが前記判定閾値範囲内にある場合に、前記ソフトウェアアプリケーションを詐欺的として識別することと
を実行させ、
前記判定閾値範囲を定義することは、
前記カテゴリに関連する前記別のアプリケーションの前記平均類似度又は平均情報エントロピーのデータ分布に基づき、確率統計的分布タイプを識別することと、
前記カテゴリに関連する前記別のアプリケーションの前記複数の確率統計的分布パラメータを決定すべく、前記確率統計的分布タイプの確率統計的分布に前記データ分布を適合することと
を含む、装置。
【請求項16】
詐欺的ソフトウェアプロモーションを検出するための装置であって、
プロセッサと、
コンピュータ実行可能命令を記憶する非一時的メモリと
を備え、
前記コンピュータ実行可能命令は、前記プロセッサにより実行されると、前記装置に、
ソフトウェアアプリケーションに関連するコメント情報及びダウンロード数を取得することであって、前記コメント情報は、1又は複数のコメントを含む、ことと、
前記ソフトウェアアプリケーションに関連するコメント対ダウンロード比を計算することであって、前記コメント対ダウンロード比は、ダウンロード総数に対するコメントの総数の比に等しい、ことと、
前記ソフトウェアアプリケーションに関連するカテゴリの判定閾値範囲を定義することであって、前記判定閾値範囲は、前記カテゴリに関連する別のアプリケーションのコメント対ダウンロード比に基づき、複数の確率統計的分布パラメータにより定義される、ことと、
前記ソフトウェアアプリケーションの前記コメント対ダウンロード比が、前記カテゴリに関連する前記別のアプリケーションに関連する前記判定閾値範囲内にある場合に、前記ソフトウェアアプリケーションが、詐欺的ダウンロード数をプロモートすると判定することと
を実行させ、
前記判定閾値範囲を定義することは、
前記カテゴリに関連する各々の前記別のアプリケーションの前記コメント対ダウンロード比の期待値及び分散を計算することと、
前記複数の確率統計的分布パラメータとして、計算された前記期待値及び前記分散を用いて、前記判定閾値範囲を定義することと
を含む、装置。
【請求項17】
詐欺的ソフトウェアプロモーションを検出するための装置であって、
プロセッサと、
コンピュータ実行可能命令を記憶する非一時的メモリと
を備え、
前記コンピュータ実行可能命令は、前記プロセッサにより実行されると、前記装置に、
ソフトウェアアプリケーションに関連するコメント情報及びダウンロード数を取得することであって、前記コメント情報は、1又は複数のコメントを含む、ことと、
前記ソフトウェアアプリケーションに関連するコメント対ダウンロード比を計算することであって、前記コメント対ダウンロード比は、ダウンロード総数に対するコメントの総数の比に等しい、ことと、
前記ソフトウェアアプリケーションに関連するカテゴリの判定閾値範囲を定義することであって、前記判定閾値範囲は、前記カテゴリに関連する別のアプリケーションのコメント対ダウンロード比に基づき、複数の確率統計的分布パラメータにより定義される、ことと、
前記ソフトウェアアプリケーションの前記コメント対ダウンロード比が、前記カテゴリに関連する前記別のアプリケーションに関連する前記判定閾値範囲内にある場合に、前記ソフトウェアアプリケーションが、詐欺的ダウンロード数をプロモートすると判定することと
を実行させ、
前記判定閾値範囲を定義することは、
前記カテゴリに関連する前記別のアプリケーションの前記コメント対ダウンロード比のデータ分布に基づき、確率統計的分布タイプを識別することと、
前記カテゴリに関連する前記別のアプリケーションの対応する前記複数の確率統計的分布パラメータを決定すべく、前記確率統計的分布タイプの確率統計的分布にし前記データ分布を適合することと
を含む、装置。
【請求項18】
詐欺的ソフトウェアプロモーションを検出するためのシステムであって、
データ捕捉装置と、データストレージ装置と、抗不正分析プラットフォームとを備え、
前記データ捕捉装置は、ソフトウェアアプリケーションのコメント情報及びダウンロード数を読み出し、前記コメント情報は、複数のコメントを含み、
前記データストレージ装置は、前記ソフトウェアアプリケーションのコメント情報及びダウンロード数を、前記データ捕捉装置から受け取り、前記ソフトウェアアプリケーションの前記コメント情報及び前記ダウンロード数を記憶し、
前記抗不正分析プラットフォームは、
前記ソフトウェアアプリケーションの前記コメント情報及び前記ダウンロード数を、前記データストレージ装置から読み出すことと、
前記複数のコメント間の類似度に基づいて、前記コメント情報の平均類似度を計算し、又は、前記複数のコメント間の情報ゲインに基づいて、前記コメント情報の平均情報エントロピーを計算することであって
前記平均類似度を計算することは、1又は複数の単語分割ベクタを得るべく、前記コメント情報に単語分割を実行することであって、前記1又は複数の単語分割ベクタの各々は、コメントに関連する、ことと、各単語分割ベクタに対する最大類似度を計算することであって、前記最大類似度は、選択された単語分割ベクタと、以前の単語分割ベクタとの間の類似度を計算し、前記類似度において最も高い類似度を選択することにより算出され、前記以前の単語分割ベクタは、前記コメント情報における前記単語分割ベクタの出現順で順序付けられた項目において、より前の単語分割ベクタに対応する、ことと、前記最大類似度を平均化することにより、前記平均類似度を決定することとを含み、
前記平均情報エントロピーを計算することは、少なくとも1つのコメントの情報ゲインを、シャノンの定理に基づき、1又は複数の以前のコメントに対して、計算することと、最小情報ゲインを、前記複数のコメントの各々に対する情報ゲインとして選択することと、前記複数のコメントの各々の前記最小情報ゲインを平均化することにより、平均情報エントロピーを決定することとを含む、ことと、
記ソフトウェアアプリケーションに関連するコメント対ダウンロード比を計算することであって、前記コメント対ダウンロード比は、前記ダウンロード数に対するコメントの総数の比に等しい、ことと、
前記ソフトウェアアプリケーションに関連するカテゴリの第1判定閾値範囲を定義することであって、前記第1判定閾値範囲は、前記カテゴリに関連する別のアプリケーションの平均類似度又は平均情報エントロピーに基づき、第1の複数の確率統計的分布パラメータによって定義される、ことと、
前記ソフトウェアアプリケーションに関連する前記カテゴリの第2判定閾値範囲を定義することであって、前記第2判定閾値範囲は、前記カテゴリに関連する別のアプリケーションのコメント対ダウンロード比に基づき、第2の複数の確率統計的分布パラメータによって定義される、ことと
前記コメント情報の平均類似度又は平均情報エントロピーが前記第1判定閾値範囲内にある場合に、前記ソフトウェアアプリケーションが詐欺的であると判定することと、
計算された前記ソフトウェアアプリケーションのコメント対ダウンロード比が前記第2判定閾値範囲内にある場合に、前記ソフトウェアアプリケーションが詐欺的であると判定することと
を行う、システム。
【請求項19】
詐欺的ソフトウェアプロモーションを検出するための方法であって、
ソフトウェアアプリケーションに関連するコメント情報をサーバによって取得する段階であって、前記コメント情報は、複数のコメントを含む、段階と、
各コメントと、1又は複数の以前のコメントとの間の情報ゲインに基づいて、前記コメント情報の平均情報エントロピーを前記サーバによって計算する段階であって、前記平均情報エントロピーを計算する段階は、
少なくとも1つのコメントの情報ゲインを、シャノンの定理に基づき、1又は複数の以前のコメントに対して、前記サーバによって計算する段階と、
最小情報ゲインを、前記複数のコメントの各々に対する情報ゲインとして前記サーバによって選択する段階と、
前記複数のコメントの各々の前記最小情報ゲインを平均化することにより、平均情報エントロピーを前記サーバによって決定する段階と
を有する、段階と、
前記ソフトウェアアプリケーションに関連するカテゴリの判定閾値範囲を前記サーバによって定義する段階であって、前記判定閾値範囲は、前記カテゴリに関連する別のアプリケーションの平均類似度又は平均情報エントロピーに基づき、複数の確率統計的分布パラメータによって定義される、段階と、
前記コメント情報の前記平均情報エントロピーが前記判定閾値範囲内にある場合に、前記ソフトウェアアプリケーションを詐欺的として前記サーバによって識別する段階と
を備える方法。
【請求項20】
前記判定閾値範囲を定義する段階は、
前記カテゴリに関連する前記別のアプリケーションの前記平均情報エントロピーの期待値及び分散を前記サーバによって計算する段階と、
前記複数の確率統計的分布パラメータとして、計算された前記期待値及び分散を用いて、前記サーバによって、前記判定閾値範囲を定義する段階と
を有する、請求項19に記載の方法。
【請求項21】
前記判定閾値範囲を定義する段階は、
前記カテゴリに関連する前記別のアプリケーションの前記平均情報エントロピーのデータ分布に基づき、確率統計的分布タイプを前記サーバによって識別する段階と、
前記カテゴリに関連する各々の前記別のアプリケーションの前記複数の確率統計的分布パラメータを決定すべく、前記確率統計的分布タイプの確率統計的分布に前記データ分布を前記サーバによって適合する段階と
を有する、請求項19又は20に記載の方法。
【請求項22】
前記確率統計的分布タイプを識別する段階は、
前記カテゴリに関連する前記別のアプリケーションの前記平均情報エントロピーの前記データ分布に基づき、前記確率統計的分布タイプが正規分布タイプであることを前記サーバによって識別する段階を含み、
前記確率統計的分布タイプの前記確率統計的分布に前記データ分布を適合する段階は、
前記カテゴリに関連する前記別のアプリケーションの前記複数の確率統計的分布パラメータを決定すべく、正規分布に前記データ分布を前記サーバによって適合する段階であって、前記複数の確率統計的分布パラメータは、平均値及び標準偏差を含む、段階を含み、
前記判定閾値範囲を定義する段階は、
前記カテゴリに関連する前記別のアプリケーションの前記複数の確率統計的分布パラメータに基づき、前記カテゴリに関連する前記別のアプリケーションの判定閾値範囲を前記サーバによって計算する段階と、
前記判定閾値範囲に基づき、事象に対する閾値範囲を前記サーバによって決定する段階と
を更に含む、請求項21に記載の方法。
【請求項23】
前記判定閾値範囲に基づき、前記事象に対する前記閾値範囲を決定する段階は、前記カテゴリに関連する前記別のアプリケーションの前記複数の確率統計的分布パラメータの平均値及び標準偏差に基づき、前記カテゴリに関連する前記別のアプリケーションの前記判定閾値範囲を定義する段階を更に有する、請求項22に記載の方法。
【請求項24】
詐欺的ソフトウェアプロモーションを検出するための装置であって、
プロセッサと、
コンピュータ実行可能命令を記憶する非一時的メモリと
を備え、
前記コンピュータ実行可能命令は、前記プロセッサにより実行されると、前記装置に、
ソフトウェアアプリケーションに関連するコメント情報を取得することであって、前記コメント情報は、複数のコメントを含む、ことと、
各コメントと、1又は複数の以前のコメントとの間の情報ゲインに基づいて、前記コメント情報の平均情報エントロピーを計算することであって、前記平均情報エントロピーを計算することは、
少なくとも1つのコメントの情報ゲインを、シャノンの定理に基づき、1又は複数の以前のコメントに対して計算することと、
最小情報ゲインを、前記複数のコメントの各々に対する情報ゲインとして選択することと、
前記複数のコメントの各々の前記最小情報ゲインを平均化することにより、平均情報エントロピーを決定することと
を有する、ことと、
前記ソフトウェアアプリケーションに関連するカテゴリの判定閾値範囲を定義することであって、前記判定閾値範囲は、前記カテゴリに関連する別のアプリケーションの平均情報エントロピーに基づき、複数の確率統計的分布パラメータによって定義される、ことと、
前記コメント情報の前記平均情報エントロピーが前記判定閾値範囲内にある場合に、前記ソフトウェアアプリケーションを詐欺的として識別することと
を実行させる、装置。
【請求項25】
前記判定閾値範囲を定義することは、
前記カテゴリに関連する前記別のアプリケーションの前記平均情報エントロピーの期待値及び分散を計算することと、
前記複数の確率統計的分布パラメータとして、計算された前記期待値及び分散を用いて、前記判定閾値範囲を定義することと
を更に含む、請求項24に記載の装置。
【請求項26】
前記判定閾値範囲を定義することは、
前記カテゴリに関連する前記別のアプリケーションの前記平均情報エントロピーのデータ分布に基づき、確率統計的分布タイプを識別することと、
前記カテゴリに関連する前記別のアプリケーションの前記複数の確率統計的分布パラメータを決定すべく、前記確率統計的分布タイプの確率統計的分布に前記データ分布を適合することと
を更に含む、請求項24又は25に記載の装置。
【請求項27】
前記確率統計的分布タイプを識別することは、
前記カテゴリに関連する前記別のアプリケーションの各々の前記平均情報エントロピーの前記データ分布に基づき、前記確率統計的分布タイプが正規分布タイプであることを識別することを含み、
前記確率統計的分布タイプの前記確率統計的分布に前記データ分布を適合することは、
前記カテゴリに関連する前記別のアプリケーションの前記複数の確率統計的分布パラメータを決定すべく、正規分布に前記データ分布を適合すること含み、前記複数の確率統計的分布パラメータは、平均値及び標準偏差を含み、
前記判定閾値範囲を定義することは、
前記カテゴリに関連する前記別のアプリケーションの前記複数の確率統計的分布パラメータに基づき、前記カテゴリに関連する前記別のアプリケーションの判定閾値範囲を計算することと、
前記判定閾値範囲に基づき、事象に対する閾値範囲を決定することと
を更に含む、請求項26に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照] 本願は、「Method,Apparatus and System for Detecting Software Spread Cheating」という名称で2015年9月1日に出願された中国特許出願第201510555824.X号及び「Method,Apparatus and System for Detecting Fraudulent Software Promotion」という名称で2016年8月30日に出願された米国特許出願第15/251,034号からの優先権による利益を主張し、それら両方は、全体が参照により本明細書に組み込まれる。
【背景技術】
【0002】
本願は、インターネット技術分野に関し、具体的には、詐欺的ソフトウェアプロモーションを検出するための方法、装置、及びシステムに関する。[関連技術の説明]
【0003】
インターネット技術の発展に伴い、ソフトウェアアプリケーションに対する人々の需要が徐々に増加している。ソフトウェアアプリケーションをダウンロードするためのウェブサイトが急速に発展しており、中国で周知のウェブサイトには、Pacific Download Center、Tencent Application Treasure、360 Phone Assistant、Taobao Phone Assistant、PP Assistant等がある。これらのウェブサイトの機能はすべて、ソフトウェアアプリケーションをダウンロード、インストール、アップグレード、及びアンインストールするユーザに、PC端末又はモバイル無線端末用のソフトウェアアプリケーションを大量に提供することを目的としている。これらのウェブサイト上では、ユーザは一般的に、ソフトウェアアプリケーションのダウンロード量及び評判を参照し、ソフトウェアアプリケーションを選択する。ダウンロード数が多く、好評である(例えば、肯定的なレビューのある)ソフトウェアアプリケーションが通常好まれ、ユーザによりダウンロードされる。従って、これら2つの指標(ダウンロード数が多く、好評である)が、ユーザのソフトウェアアプリケーション選択に大きく影響する。一部のソフトウェアアプリケーション開発者又はプロモータは、これら2つの指標を利用して、「レビュー詐欺」(又は「評判詐欺」)及び「ダウンロード数詐欺」の動作を不正な手段により働く。その結果、人々は、彼らがプロモートするソフトウェアアプリケーションにつられ、これをダウンロードしてしまい、これは反社会的影響をもたらしている。現在、ソフトウェアアプリケーションプロモーションにおける不正に関する問題を専ら検出する技術的解決手段は存在しない。
【発明の概要】
【0004】
少なくとも上記の技術的問題を解決するべく、本開示のいくつかの実施形態が、詐欺的ソフトウェアプロモーションの自動検出を実装し、ユーザがソフトウェアアプリケーションを判別するのをアシストする、詐欺的ソフトウェアプロモーションを検出するための方法、装置、及びシステムを提供し、これはソフトウェアダウンロードのセキュリティを高める。
【0005】
本開示の一態様は、ソフトウェアアプリケーションの詐欺的プロモーションを検出するための方法に着目する。方法は、ソフトウェアアプリケーションに関連するコメント情報を取得する段階であり、コメント情報は1又は複数のコメントを含む段階と、コメント情報の平均類似度又は平均情報エントロピーを計算する段階であって、平均類似度は、1又は複数のコメント間の類似度に基づき計算され、平均情報エントロピーは、1又は複数のコメント間の情報ゲインに基づき計算される段階と、ソフトウェアアプリケーションに関連するカテゴリの判定閾値範囲を定義する段階であって、判定閾値範囲は、カテゴリに関連する別のアプリケーションの平均類似度又は平均情報エントロピーに基づき、複数の確率統計的分布パラメータによって定義される段階と、コメント情報の平均類似度又は平均情報エントロピーが判定閾値範囲内にある場合に、ソフトウェアアプリケーションを詐欺的として識別する段階とを含む。
【0006】
本開示の一態様は、ソフトウェアアプリケーションの詐欺的プロモーションを検出するための方法に着目する。方法は、ソフトウェアアプリケーションに関連するコメント情報及びダウンロード数を取得する段階であり、コメント情報は、1又は複数のコメントを含む段階と、ソフトウェアアプリケーションに関連するコメント対ダウンロード比を計算する段階であって、コメント対ダウンロード比は、ダウンロード数に対するコメントの総数の比に等しい段階と、ソフトウェアアプリケーションに関連するカテゴリの判定閾値範囲を定義する段階であって、判定閾値範囲は、カテゴリに関連する別のアプリケーションのコメント対ダウンロード比に基づき、複数の確率統計的分布パラメータにより定義される段階と、ソフトウェアアプリケーションのコメント対ダウンロード比が、カテゴリに関連する別のアプリケーションに関連する判定閾値範囲内にある場合に、ソフトウェアアプリケーションが詐欺的ダウンロード数をプロモートすると判定する段階とを含む。
【0007】
本開示の一態様は、ソフトウェアアプリケーションの詐欺的プロモーションを検出するための装置に着目する。装置は、プロセッサと、コンピュータ実行可能命令を記憶する非一時的メモリとを備える。コンピュータ実行可能命令はプロセッサにより実行されると、装置に、ソフトウェアアプリケーションに関連するコメント情報及びカテゴリを取得させ、コメント情報は1又は複数のコメントを含み、コメント情報の平均類似度又は平均情報エントロピーを計算させ、平均類似度は、1又は複数のコメント間の類似度に基づき計算され、平均情報エントロピーは、1又は複数のコメント間の情報ゲインに基づき計算され、ソフトウェアアプリケーションに関連するカテゴリの判定閾値範囲を定義させ、判定閾値範囲は、カテゴリに関連する別のアプリケーションの平均類似度又は平均情報エントロピーに基づき、複数の確率統計的分布パラメータにより定義され、コメント情報の平均類似度又は平均情報エントロピーが判定閾値範囲内にある場合に、ソフトウェアアプリケーションを詐欺的として識別させる。
【0008】
本開示の一態様は、ソフトウェアアプリケーションの詐欺的プロモーションを検出するための装置に着目する。装置は、プロセッサと、コンピュータ実行可能命令を記憶する非一時的メモリとを備える。コンピュータ実行可能命令はプロセッサにより実行されると、装置に、ソフトウェアアプリケーションに関連するコメント情報及びダウンロード数を取得させ、コメント情報は、1又は複数のコメントを含み、ソフトウェアアプリケーションに関連するコメント対ダウンロード比を計算させ、コメント対ダウンロード比は、ダウンロード総数に対するコメントの総数の比に等しく、ソフトウェアアプリケーションに関連するカテゴリの判定閾値範囲を定義させ、判定閾値範囲は、カテゴリに関連する別のアプリケーションのコメント対ダウンロード比に基づき、複数の確率統計的分布パラメータにより定義され、ソフトウェアアプリケーションのコメント対ダウンロード比が、カテゴリに関連する別のアプリケーションに関連する判定閾値範囲内にある場合に、ソフトウェアアプリケーションが詐欺的ダウンロード数をプロモートすると判定させる。
【0009】
本開示の一態様は、ソフトウェアアプリケーションの詐欺的プロモーションを検出するためのシステムに着目する。システムは、ソフトウェアアプリケーションのコメント情報及びダウンロード数を読み出すよう構成され、コメント情報は、1又は複数のコメントを含む、データ捕捉装置と、データ捕捉装置からデータを受け取り、ソフトウェアアプリケーションのコメント情報及びダウンロード数を記憶するよう構成されるデータストレージ装置とを備える。システムは、データストレージ装置からソフトウェアアプリケーションのコメント情報及びダウンロード数を読み出すよう構成される抗不正分析プラットフォームを更に備え、抗不正分析プラットフォームは、コメント情報の平均類似度又は平均情報エントロピーを計算し、平均類似度は、1又は複数のコメント間の類似度に基づき計算され、平均情報エントロピーは、1又は複数のコメント間の情報ゲインに基づき計算され、ソフトウェアアプリケーションに関連するコメント対ダウンロード比を計算し、コメント対ダウンロード比は、ダウンロード数に対するコメントの総数の比に等しく、ソフトウェアアプリケーションに関連するカテゴリの第1判定閾値範囲の決定を定義し、第1判定閾値範囲は、カテゴリに関連する別のアプリケーションの平均類似度又は平均情報エントロピーに基づき、複数の確率統計的分布パラメータにより定義され、ソフトウェアアプリケーションに関連するカテゴリの第2判定閾値範囲の決定を定義し、第2判定閾値範囲は、カテゴリに関連する別のアプリケーションのコメント対ダウンロード比に基づき、複数の確率統計的分布パラメータにより定義され、コメント情報の平均類似度又は平均情報エントロピーが第1判定閾値範囲内にある場合に、ソフトウェアアプリケーションが詐欺的であると判定し、ソフトウェアアプリケーションの計算されたコメント対ダウンロード比が、カテゴリに関連する別のアプリケーションに関連する第2判定閾値範囲内にある場合に、ソフトウェアアプリケーションが詐欺的であると判定するよう更に構成される。
【0010】
本開示の技術的解決手段によれば、統計的分布及び低確率事象の数学的定理に基づき、ソフトウェアアプリケーションのコメント情報及びダウンロード数等の実際のデータを、統計的分析のデータ基準として用いて、判定閾値範囲が適応的に定義され得、詐欺的ソフトウェアプロモーションの自動検出が実装され得、ユーザが、ソフトウェアアプリケーションを判別するのにアシストされ、ソフトウェアダウンロードのセキュリティが高まる。
【図面の簡単な説明】
【0011】
本開示の前述の及び別の目的、特徴、並びに利点は、添付図面中に図示される実施形態についての以下の説明から明らかとなり、添付図面中、参照符号は、様々な図面にわたり同一の部分を指す。
【0012】
図1】本開示のいくつかの実施形態に係る、詐欺的ソフトウェアプロモーションを検出するための方法を図示するフロー図である。
【0013】
図2】本開示のいくつかの実施形態に係る、詐欺的ソフトウェアプロモーションを検出するための方法における段階を図示するフロー図である。
【0014】
図3】本開示のいくつかの実施形態に係る、詐欺的ソフトウェアプロモーションを検出するための方法における段階を図示するフロー図である。
【0015】
図4】本開示のいくつかの実施形態に係る、詐欺的ソフトウェアプロモーションを検出するための方法における段階を図示するフロー図である。
【0016】
図5】本開示のいくつかの実施形態に係る、詐欺的ソフトウェアプロモーションを検出するための方法を図示するフロー図である。
【0017】
図6】本開示のいくつかの実施形態に係る、詐欺的ソフトウェアプロモーションを検出するための方法における段階を図示するフロー図である。
【0018】
図7】本開示のいくつかの実施形態に係る、詐欺的ソフトウェアプロモーションを検出するための装置を図示する構造図である。
【0019】
図8】本開示のいくつかの実施形態に係る、詐欺的ソフトウェアプロモーションを検出するための装置における構成要素を図示する構造図である。
【0020】
図9】本開示のいくつかの実施形態に係る、詐欺的ソフトウェアプロモーションを検出するための装置における構成要素を図示する構造図である。
【0021】
図10】本開示のいくつかの実施形態に係る、詐欺的ソフトウェアプロモーションを検出するための装置における構成要素を図示する構造図である。
【0022】
図11】本開示のいくつかの実施形態に係る、詐欺的ソフトウェアプロモーションを検出するための装置を図示する構造図である。
【0023】
図12】本開示のいくつかの実施形態に係る、詐欺的ソフトウェアプロモーションを検出するための装置における構成要素を図示する構造図である。
【0024】
図13】本開示のいくつかの実施形態に係る、詐欺的ソフトウェアプロモーションを検出するためのシステムを図示する構造図である。
【0025】
図14】本開示のいくつかの実施形態に係る、詐欺的ソフトウェアプロモーションを検出するためのシステムにおける構成要素を図示する構造図である。
【発明を実施するための形態】
【0026】
本開示はこれより添付図面を参照してより完全に説明される。添付図面は、本明細書の一部を形成し、実例として特定の例示的実施形態を示す。しかしながら、主題が、様々な異なる形態で具現化されてよく、従って、カバーされる又は特許請求される主題は、本明細書に明記するいかなる例示的実施形態にも限定されないと解釈されることが意図され、例示的実施形態は、単に例示的であるために提供される。同様に、特許請求される又はカバーされる主題には、合理的に広い範囲が意図される。とりわけ、例えば、主題は、方法、デバイス、コンポーネント、又はシステムとして具現化されてよい。それゆえ、実施形態は、例えば、ハードウェア、ソフトウェア、ファームウェア、又は(ソフトウェア自体以外の)これらの任意の組み合わせの形態をとってよい。従って、以下の詳細な説明が、限定的な意味で捉えられることは意図されない。
【0027】
本明細書及び特許請求の範囲にわたり、用語が、明確に述べられている意味を超えて、文脈において示唆又は暗示されるニュアンスの意味を有してよい。同様に、本明細書で用いられる「一実施形態において」という語句は、必ずしも同じ実施形態を指すわけではなく、本明細書で用いられる「別の実施形態において」という語句は、必ずしも異なる実施形態を指すわけではない。例えば、特許請求される主題は、例示的実施形態の組み合わせを全体的に又は部分的に含むことを意図される。
【0028】
本開示は、方法及びデバイスのブロック図及び動作例を参照して以下で説明される。ブロック図又は動作例の各ブロック、及びブロック図又は動作例におけるブロックの組み合わせは、アナログ又はデジタルハードウェア及びコンピュータプログラム命令によって実装され得ることが理解される。これらのコンピュータプログラム命令は、本明細書で詳述するよう機能を変更する汎用コンピュータ、特定用途向けコンピュータ、ASIC、又は別のプログラミング可能なデータ処理装置のプロセッサに提供され得、これにより、コンピュータ又は別のプログラミング可能なデータ処理装置のプロセッサを介して実行する当該命令が、ブロック図又は1又は複数の動作ブロックにおいて定義される機能/作用を実装する。いくつかの代替的実装形態において、ブロックに記されている機能/作用は、動作例に記されている順序とは異なって起こり得る。例えば、連続して示される2つのブロックは、実際には実質的に同時に実行され得、又はブロックは、関わりをもつ機能性/作用に依存し、時に逆の順序で実行され得る。
【0029】
これらのコンピュータプログラム命令は、機能を特定用途に変更する汎用コンピュータ、特定用途向けコンピュータ、ASIC、又は別のプログラミング可能なデジタルデータ処理装置のプロセッサに提供され得、これにより、コンピュータ又は別のプログラミング可能なデータ処理装置のプロセッサを介して実行する当該命令が、ブロック図又は1又は複数の動作ブロックにおいて定義される機能/作用を実装し、それにより、本明細書における実施形態に応じてその機能性を変換する。
【0030】
本開示は、「レビュー詐欺」及び「ダウンロード数詐欺」の観点から、ソフトウェアアプリケーションが不正挙動を有するか否かを検出するための技術的解決手段を提供する。いくつかの実施形態において、ソフトウェアアプリケーションの「レビュー詐欺」の観点に始まり、同じカテゴリ内のソフトウェアアプリケーションのコメント情報の分布が、統計的分布定理に基づき分析される。ソフトウェアアプリケーションのコメント情報の平均類似度又は平均情報エントロピーは、統計的分析のデータ基準として主に用いられ、同じカテゴリ内のソフトウェアアプリケーションのコメント情報の確率統計的分布パラメータは、分析により取得され、判定閾値範囲が、確率統計的分布における低確率事象定理に応じて定義され、これにより判定閾値範囲は、低確率事象を判定するための閾値範囲となる。従って、検出されることになるソフトウェアアプリケーションの平均類似度又は平均情報エントロピーが、検出されることになるソフトウェアアプリケーションが属するソフトウェアカテゴリに対応する判定閾値範囲内にある場合、検出されることになるソフトウェアアプリケーションが、このようなコメント情報を有するという事象が低確率事象であることを示し、したがって、検出されることになるソフトウェアアプリケーションは、詐欺的コメントを目的とするプロモーション不正ソフトウェアアプリケーションであると判定される。
【0031】
別の実施形態において、ソフトウェアアプリケーションの「ダウンロード数詐欺」の観点に始まり、同じカテゴリ内のソフトウェアアプリケーションのコメント情報の分布が、統計的分布定理に基づき分析される。コメント対ダウンロード比が統計的分布のデータ基準として主に用いられ、同じカテゴリ内のソフトウェアアプリケーションのコメント対ダウンロード比の確率統計的分布パラメータは、分析により取得され、判定閾値範囲が、確率統計的分布パラメータに応じて定義される、すなわち、判定閾値範囲が統計的分布における低確率事象定理に主に基づき定義され、これにより判定閾値範囲は、低確率事象を判定するための閾値範囲となる。従って、検出されることになるソフトウェアアプリケーションのコメント対ダウンロード比が、判定閾値範囲内にある場合、検出されることになるソフトウェアアプリケーションが、コメント対ダウンロード比を有するという事象が低確率事象であることを示し、したがって、検出されることになるソフトウェアアプリケーションは、「詐欺的ダウンロード数」プロモーションを用いる不正ソフトウェアアプリケーションであると判定される。
【0032】
図1は、本開示のいくつかの実施形態に係る、詐欺的ソフトウェアプロモーションを検出するための方法を図示するフロー図である。方法は、ユーザマシンによって実行されてよく、これはパーソナルコンピュータ(PC)によって具現化されてよく、又は様々なタイプのウェブサイトサーバ、例えば、Webサーバ若しくはアプリケーションサーバによって具現化されてよい。
【0033】
段階101で、方法は、ソフトウェアアプリケーションに関連するコメント情報を取得し、コメント情報は、1又は複数のコメントを含む。
【0034】
本開示のいくつかの実施形態において、プラットフォームとは、ソフトウェアプロモーションプラットフォーム又はウェブサイトを指し、プラットフォーム上のソフトウェアアプリケーションのダウンロードページが、ウェブクローラを用いてクロールされてよい。一例として、ダウンロードページ上の特定の情報は、「Jsoup」センチネルクロール技術を用いてクロールされてよい。本開示の実施形態において、「Jsoup」センチネルクロール技術は、プラットフォームページ上のコメント情報をクロールするのに用いられてよく、これは手短にコメントとも呼ばれる。ユーザによって作成されるコメントは、その公開時間順でウェブサイト上に記録されるので、コメント情報がクロールされた後、コメント情報は、その公開時間順でデータベース内に記憶されてよい。
【0035】
一実施形態において、MySQL又はPostgreSQL等のオープンソースデータベースが用いられてよく、別のデータベースが用いられてもよい。
【0036】
段階102で、方法は、ソフトウェアアプリケーションのコメント情報の平均類似度又は平均情報エントロピーを計算し、平均類似度は、1又は複数のコメント間の類似度に基づき計算され、平均情報エントロピーは、1又は複数のコメント間の情報ゲインに基づき計算される。
【0037】
いくつかの実施形態において、ソフトウェアアプリケーションのコメント情報の平均類似度又は平均情報エントロピーを計算するプロセスは、図2に図示される方法を含んでよい。
【0038】
段階102aで、方法は、単語分割ベクタを得るべく、ソフトウェアアプリケーションに関連するコメント情報の単語分割を実行し、各々のコメント情報は、単語分割ベクタに対応する。
【0039】
段階102bで、方法は、ソフトウェアアプリケーションの少なくとも1つのコメントと、1又は複数の以前のコメントとの間の類似度を、第1コメント及び1又は複数の以前のコメントに関連する単語分割ベクタ間の類似度により計算し、最大類似度をN番目のコメント情報の類似度として用い、ここでNは、1以上である。
【0040】
段階102cで、方法は、コメント情報の類似度に応じた平均の計算方法により、ソフトウェアアプリケーションのコメント情報の平均類似度を決定する。
【0041】
いくつかの実施形態において、ソフトウェアアプリケーションのN番目のコメント情報と、その以前の1又は複数のコメント情報との間の類似度を、単語分割ベクタ及びベクタ類似度の計算方法に応じて計算し、最大類似度を、N番目のコメント情報の類似度として用いる上記段階は、以下の1又は複数の実装態様で具体的に実施されてよい。
【0042】
第1実装形態は、ソフトウェアアプリケーションのN番目のコメント情報と、以前のN−1個のコメント情報との間の類似度を、単語分割ベクタ及びベクタ類似度の計算方法に応じて計算し、最大類似度をN番目のコメント情報の類似度として用いる段階を備える。これは、N個すべてのコメントに対して計算される。したがって、本実装形態において、類似度は、トラバース処理によって各々のコメント情報を、すべての以前のコメント情報と比較することにより計算され、得られる類似度の信頼性を確かなものにする。
【0043】
第2実装形態は、ソフトウェアアプリケーションのN番目のコメント情報と、以前サンプリングされたコメント情報との間の類似度を、単語分割ベクタ及びベクタ類似度の計算方法に応じて計算し、最大類似度をN番目のコメント情報の類似度として用いる段階を備え、サンプリングされたコメント情報とは、類似度が予め定められた閾値よりも低いコメント情報を指す。これは、サンプリングされたコメントに対してのみ計算される。したがって、第2実装態様において、類似度の特定値に基づき、代表的な要件を満たすコメント情報がサンプリングされ、類似度は、各々のコメント情報を、以前サンプリングされたコメント情報のみと比較することにより計算され、すべてのコメント情報を徹底的に比較するためにトラバースする必要なしに、計算作業負荷を低減する。サンプリングされたコメント情報は、典型的かつ代表的なので、本態様は、計算作業負荷を低減すると同時に類似度の信頼性を確かなものにし、これにより計算効率を向上する。
【0044】
大量のコメント情報を有するソフトウェアアプリケーションに対しては、類似度をより迅速かつより効率的に計算すべく、第2実装形態が用いられてよい。コメント情報のサンプリング方法において、サンプリングの原理とは、代表的なコメント情報を引き抜くことであり、すなわち、すべての以前のコメント情報と比べて、小さい類似度を有するコメント情報が抽出されることである。コメント情報の類似度が予め定められた閾値よりも低い場合、コメント情報は抽出されてよい。現在のコメント情報の情報エントロピーの計算中、対応する類似度が、現在のコメント情報を、以前抽出されたコメント情報のみと比較することにより計算されてよい。このように、サンプリングを通じて、類似度の計算作業負荷は低減され、平均類似度の計算効率が向上される。
【0045】
上記の実装形態を更に説明すべく、具体例を参照して以下の説明がなされる。
【0046】
第1実装態様の例において、1番目のコメント情報の類似度が(このコメント情報よりも以前に作成されたコメント情報がないので)0であり、2番目のコメント情報の類似度は、1番目のコメント情報に対して0.8であり、3番目のコメント情報の類似度は、1番目のコメント情報に対して0.5であり、2番目のコメント情報に対する類似度は0.9である場合、3番目のコメント情報の類似度は、2つの類似度のうちの最大数とされ、すなわち、0.9である。従って、3個のコメント情報の平均類似度は、0、0.8、及び0.9の平均であり、すなわち0.57であり、同様に、ソフトウェアアプリケーションのすべてのコメント情報の平均が計算されて、ソフトウェアアプリケーションの対応するコメント情報の平均類似度として用いられる。
【0047】
「類似度計算」の実装プロセスにおいて、IKAnalyzer、Pangu Segment、Paoding、及び同様のもの等の単語分割ツールが用いられてよく、又はセマンティック依存性に基づく手法、辞書ベースの手法、若しくは同様の手法が用いられてもよい。1つのコメント情報は、意味論的に意味のある複数の単語に分割される。すなわち、単語分割は、単語分割ベクタを取得するべくコメント情報に対して実行され、1つのコメント情報は、1つの単語分割ベクタに相当する。単語分割のプロセスの間、類義語が特定の扱いを受けてもよい。単語分割に際し、word2vecアルゴリズムが、コメント情報におけるすべての単語の最大類似度を計算すべく採用されてよく、計算により取得される最大類似度は、コメント情報の類似度として用いられる。
【0048】
第2実装態様の例において、予め定められた閾値aが0.6であり、1番目のコメント情報の類似度は0であると仮定し、0<aなので、1番目のコメント情報は抽出される。2番目のコメント情報の類似度は、1番目のコメント情報に対して0.8であり、0.8>aなので、2番目のコメント情報はサンプリングされない。3番目のコメント情報の、以前のコメント情報に対する類似度の計算中、比較は、3番目のコメント情報とサンプリングされたコメント情報との間でのみ行われる。本明細書では、比較は、3番目のコメント情報と1番目のコメント情報のみとの間で行われる。3番目のコメント情報の類似度が、1番目のコメント情報に対して0.3であると仮定する。0.3<aなので、3番目のコメント情報もサンプリングされる。このように、最初の3個のコメント情報のうち、2個のコメント情報、すなわち、1番目のコメント情報及び3番目のコメント情報がサンプリングされる。同様に、条件を満たすコメント情報がサンプリングされてよい。このように、サンプリングを通じて、情報ゲインの計算作業負荷が低減され、平均類似度の計算効率が向上される。
【0049】
いくつかの実施形態において、ソフトウェアアプリケーションのコメント情報の平均情報エントロピーを、ソフトウェアアプリケーションのコメント情報の情報エントロピーに応じて計算するプロセスが、図3と併せて以下でより詳細に説明される。
【0050】
段階102dで、方法は、少なくとも1つのコメントの情報ゲインを、1又は複数の以前のコメントに対して、シャノンの定理に従い計算し、最小情報ゲインを、N番目のコメント情報の情報ゲインとして選択し、ここでNは1以上であり、
【0051】
段階102eで、方法は、1又は複数のコメントの情報ゲインを平均化することにより、ソフトウェアアプリケーションのコメント情報の平均情報エントロピーを決定する。
【0052】
いくつかの実施形態において、N番目のコメント情報の情報ゲインを、それ以前の1又は複数のコメント情報にわたり、シャノン定理により計算し、最小情報ゲインを、N番目のコメント情報の情報ゲインとして選択する上記プロセスが実装され得るが、これは以下の2つの実装形態に限定されない。
【0053】
第1実装形態は、N番目のコメント情報の情報ゲインを、それ以前のN−1個のコメント情報にわたり、シャノン定理により計算し、最小情報ゲインを、N番目のコメント情報の情報ゲインとして選択する段階を備える。これは、N個すべてのコメントに対して行われる。
【0054】
第2実装形態は、以前サンプリングされたコメント情報に対するN番目のコメント情報の情報ゲインを、シャノン定理により計算し、最小情報ゲインをN番目のコメント情報の情報ゲインとして選択する段階を備え、サンプリングされたコメント情報とは、予め定められた閾値より大きい情報ゲインを有するコメント情報を指す。これは、サンプリングされたコメントのうち、すべてのコメントに対して行われる。
【0055】
第2実装形態は、以下の例を用いてより完全に説明される。予め定められた閾値bが0.2であり、1番目のコメント情報は、情報ゲイン1を有すると仮定し、1>bなので、1番目のコメント情報は抽出される。2番目のコメント情報の情報ゲインは、1番目のコメント情報に対して0.1であり、0.1<bなので、従って、2番目のコメント情報はサンプリングされない。3番目のコメント情報の、以前のコメント情報に対する情報エントロピー又は類似度の計算中、比較は、3番目のコメント情報とサンプリングされたコメント情報のみとの間で行われる。本明細書では、比較は、3番目のコメント情報と1番目のコメント情報のみとの間で行われる。3番目のコメント情報の情報ゲインが、1番目のコメント情報に対して0.3であると仮定し、0.3>bなので、従って、3番目のコメント情報もサンプリングされる。このように、最初の3個のコメント情報のうち、2個のコメント情報、すなわち、1番目のコメント情報及び3番目のコメント情報がサンプリングされる。同様に、条件を満たすコメント情報がサンプリングされてよい。このように、サンプリングを通じて、情報ゲインの計算作業負荷が低減され、平均情報エントロピーの計算効率が向上される。
【0056】
図1に戻り、段階103で、方法は、同じカテゴリ内の各ソフトウェアアプリケーションの、それぞれの平均類似度又は平均情報エントロピーに応じた計算により、関連するソフトウェアアプリケーションの(例えば、ソフトウェアアプリケーションと同じカテゴリの)1又は複数の確率統計的分布パラメータを決定する。この段階は確率統計手法に基づき、同じカテゴリ内のソフトウェアアプリケーションのコメント情報における有効情報のデータ分布を分析する。
【0057】
ソフトウェアアプリケーションは、例えば、銀行アプリケーションソフトウェアアプリケーション、ゲームソフトウェアアプリケーション、ショッピングソフトウェアアプリケーション、ツールソフトウェアアプリケーション、インスタントメッセージソフトウェアアプリケーション、及び同様のものなどの、ソフトウェアアプリケーションの属性に応じて主に分類される。上記にかかわらず、ソフトウェアアプリケーションは、別の観点から分類されてもよい。ソフトウェアアプリケーションの分類化は、本願においていかなる特定の制限をも受けるものではない。代わりに、同じカテゴリ内のソフトウェアアプリケーションのコメント情報の確率統計的分布は、ユーザ使用の観点から検討される。
【0058】
この段階において、平均類似度又は平均情報エントロピーは、確率統計的分布のデータ基準として用いられ、これにより統計的に取得される分布パラメータが、高い適応性を有し、したがって、同じカテゴリのソフトウェア検出環境により適応できる。従って、検出の信頼性は比較的高い。
【0059】
いくつかの実施形態において、この段階が実装されてよいが、これらは以下の1又は複数の実装形態に限定されない。
【0060】
第1実装形態は、同じカテゴリ内の各ソフトウェアアプリケーションの対応する平均類似度又は平均情報エントロピーを、それぞれサンプルとして用いて、サンプルの期待値、又は平均、及び分散を計算し、サンプルの期待値及び分散を、同じカテゴリ内のソフトウェアアプリケーションの対応する確率統計的分布パラメータとして用いる。
【0061】
第2実装形態(図4に図示されている)は、第1実装形態の一般化である。段階103aで、方法は、関連するソフトウェアアプリケーションの対応する平均類似度又は平均情報エントロピーのそれぞれのデータ分布に基づき、確率統計的分布タイプを識別する。段階103bで、方法は、関連するソフトウェアアプリケーションの対応する確率統計的分布パラメータを決定すべく、確率統計的分布タイプに基づき、分布を適合させる。
【0062】
本開示の発明者らは、サンプルデータが大量にある場合、第2実装形態の計算作業負荷が第1実装形態の計算作業負荷より大きいことを認識している。従って、この場合、計算作業負荷をかけぬよう第1実装形態が選択されてよい。いくつかのシナリオにおいて、厳格な要件が分布パラメータの精度及び信頼性に課される場合には、これらのシナリオにおいて第2実装形態が選択されてよい。
【0063】
いくつかの実施形態において、「確率統計的分布タイプ」を選択する段階は、サンプルデータを分析することによりサンプルデータ分布グラフを識別することと、データ分布グラフに応じて対応する確率統計的分布タイプを選択することとを含む。例えば、データ分布グラフから、データ分布が指数分布に近いことが分かる場合には、指数分布タイプが選択されてよい。さらに例えば、データ分布グラフから、データ分布がポアソン分布に近いことが分かる場合には、ポアソン分布タイプが選択されてよい。実際の適用において、確率分布タイプに制限はなく、実際のサンプルデータに応じて具体的な状況が決定される。
【0064】
しかしながら、研究を通じて、発明者らは、ソフトウェアアプリケーションの多くのカテゴリのコメント情報及びコメント対ダウンロード比が、正規分布に近いことを認識している。従って、確率分布タイプの選択中、正規分布が直接選択されてよい。この場合、正規分布に対し、同じカテゴリ内のソフトウェアアプリケーションの対応する分布パラメータが適合により取得され、分布パラメータは、平均値及び標準偏差を有する。
【0065】
図1に戻り、段階104で、方法は、関連するソフトウェアアプリケーションの対応する確率統計的分布パラメータに基づき、関連するソフトウェアアプリケーションの判定閾値範囲を定義する。一実施形態において、判定閾値範囲は、低確率事象の閾値範囲を決定するために用いられる。
【0066】
段階105で、方法は、コメント情報の平均類似度又は平均情報エントロピーが、検出されることになるソフトウェアアプリケーションが属するソフトウェアカテゴリに対応する判定閾値範囲内にあると検出する場合に、ソフトウェアアプリケーションを詐欺的として識別する。
【0067】
本明細書では、同じカテゴリ内の各ソフトウェアアプリケーションの対応するそれぞれの平均類似度に応じた計算により取得される、同じカテゴリ内のソフトウェアアプリケーションの対応する確率統計的分布パラメータに応じて判定閾値が定義される場合、段階105が実行されると、検出されることになるソフトウェアアプリケーションのコメント情報の平均類似度が、条件付き判定を実装するための判定因子として用いられることが留意されるべきである。
【0068】
本明細書では、同じカテゴリ内の各ソフトウェアアプリケーションの対応するそれぞれの平均情報エントロピーに応じた計算により取得される、同じカテゴリ内のソフトウェアアプリケーションの対応する確率統計的分布パラメータに応じて判定閾値が定義される場合、段階105が実行されると、検出されることになるソフトウェアアプリケーションのコメント情報の平均情報エントロピーが、条件付き判定を実装するための判定因子として用いられることが留意されるべきである。確率統計において、確率が非常に0に近い(確率が非常に小さい)事象は、低確率事象と呼ばれる。しかしながら、本開示は、確率が低確率事象とみなされるために、どの程度まで小さくある必要があるかを指定しない。代わりに、低確率事象とみなされるための基準は、様々な場合で異なる。例えば、段階103で、正規分布タイプが選択される場合、各ソフトウェアアプリケーションの対応するそれぞれの平均情報エントロピーは、データ基準として用いられ、計算により取得される分布パラメータは、平均値及び標準偏差を有し、対応する判定閾値範囲が分布パラメータに基づき定義される。ソフトウェアアプリケーションのコメント情報の平均情報エントロピーが小さいほど、ソフトウェアコメント情報内の有効情報の量は小さく、「ダウンロード数詐欺」の疑いが大きい。従って、正規分布における低確率事象の特性と組み合わせて、判定閾値範囲は、経験値に応じて(−∞、μ−1.96σ)と定義されてよく、ここでμは平均値であり、σは標準偏差である。上記にかかわらず、判定閾値範囲は、(−∞、μ−σ)、(−∞、μ−2σ)、(−∞、μ−2.58σ)、又は同様のものと定義されてよい。ソフトウェアアプリケーションが「ダウンロード数詐欺」不正ソフトウェアアプリケーションであるか否かは、ソフトウェアアプリケーションのコメント情報の平均情報エントロピー及び判定閾値範囲に応じて判定される。ソフトウェアアプリケーションのコメント情報の平均情報エントロピーが判定閾値範囲内にある場合、ソフトウェアアプリケーションは、「ダウンロード数詐欺」不正ソフトウェアアプリケーションであると判定される。
【0069】
段階103で、正規分布タイプが選択される場合、各ソフトウェアアプリケーションの対応するそれぞれの平均類似度がデータ基準として用いられ、計算により取得される分布パラメータは、平均値及び標準偏差を有する。ソフトウェアアプリケーションのコメント情報の平均類似度が高い場合が、ソフトウェアアプリケーションのすべてのコメント情報が類似していることを意味する一方で、正規ソフトウェアアプリケーションのコメント情報から類似度を得ることはできない。この場合、ソフトウェアアプリケーションが「ダウンロード数詐欺」ソフトウェアアプリケーションであると疑われることが示される。従って、正規分布における低確率事象の特性と組み合わせて、判定閾値範囲が、経験値に応じて(μ+1.96σ、+∞)と定義されてよく、ここでμは平均値であり、σは標準偏差である。上記にかかわらず、判定閾値範囲は、(μ+σ、+∞)、(μ+1.96σ、+∞)、(μ+2σ、+∞)、(μ+2.58σ、+∞)、(μ+3σ、+∞)、又は同様のものと定義されてよい。ソフトウェアアプリケーションが「レビュー詐欺」不正ソフトウェアアプリケーションであるか否かは、ソフトウェアアプリケーションのコメント情報の平均類似度及び判定閾値範囲に応じて判定される。ソフトウェアアプリケーションのコメント情報の平均類似度が判定閾値範囲内にある場合、ソフトウェアアプリケーションは、「レビュー詐欺」不正ソフトウェアアプリケーションであると判定される。
【0070】
判定閾値範囲の上記定義は、判定の厳密性に主に基づき、具体的な範囲は、実際の必要性に応じて定義されてよく、上記の閾値範囲に限定されない。
【0071】
例えば、確率統計的分布パラメータが平均情報エントロピーに応じた計算により取得され、ソフトウェアカテゴリに対応する判定閾値範囲が、確率統計的分布パラメータに基づき(−∞、μ−1.96σ)と定義される場合、そのソフトウェアカテゴリ内のソフトウェアアプリケーションは、ソフトウェアカテゴリのコメント情報の平均情報エントロピーが判定閾値範囲内にある場合に、「レビュー詐欺」を目的とするプロモーション不正ソフトウェアアプリケーションであると判定される。
【0072】
ソフトウェアアプリケーションの「レビュー詐欺不正」の観点に始まり、同じカテゴリ内のソフトウェアアプリケーションのコメント情報の分布が、確率統計的分布定理に基づき分析されることが、本開示の実施形態から分かり得る。ソフトウェアアプリケーションのコメント情報の平均類似度又は平均情報エントロピーは、確率統計的分析のデータ基準として主に用いられ、同じカテゴリ内のソフトウェアアプリケーションのコメント情報の確率統計的分布パラメータは、分析により取得され、判定閾値範囲が、確率統計的分布パラメータに応じて、すなわち、確率統計的分布における低確率事象定理に主に応じて定義され、これにより判定閾値範囲は、低確率事象を判定するための閾値範囲となる。従って、検出されることになるソフトウェアアプリケーションの平均類似度又は平均情報エントロピーが、検出されることになるソフトウェアアプリケーションが属するソフトウェアカテゴリに対応する判定閾値範囲内にあることは、検出されることになるソフトウェアアプリケーションが、このようなコメント情報を有するという事象が低確率事象であることを示し、したがって、検出されることになるソフトウェアアプリケーションは、詐欺的コメントを目的とするプロモーション不正ソフトウェアアプリケーションであると判定される。
【0073】
加えて、本開示は、詐欺的ソフトウェアプロモーションを検出するための別の方法を更に提供する。方法は、「ダウンロード数詐欺」プロモーション不正の観点から検出を実装する。
【0074】
図5を参照すると、図5は、本開示のいくつかの実施形態に係る、詐欺的ソフトウェアプロモーションを検出するための方法を図示するフロー図である。方法は、ユーザマシンによって実行されてよく、これは例えば、パーソナルコンピュータ(PC)によって具現化されてよく、又は様々なタイプのウェブサイトサーバ、例えば、Webサーバ若しくはアプリケーションサーバによって具現化されてよい。
【0075】
段階201で、方法は、プラットフォーム上のソフトウェアアプリケーションのコメント情報及びダウンロード数を取得する。
【0076】
一般的にウェブサイトに関し、プロモートされるソフトウェアアプリケーションのクロールポイントが、HTMLページ上に固定タグ位置を有する。このため、HTMLページタグは分析され得、ダウンロード数、コメント情報、コメント量、及び同様のものが、「Jsoup」ツールを用いて抽出され得る。
【0077】
一実施形態において、ソフトウェアアプリケーションのコメント情報及びダウンロード数の両方は、データシートの形態で、データベース内にそれぞれ事前に記憶される。一実施形態において、ソフトウェアアプリケーションに対応するデータシートは、対応するコメント情報及びダウンロード数を取得するべく、データベースから検索され得る。このように、ウェブサイトへのアクセスに起因する負担が軽減される。
【0078】
段階202で、方法は、ソフトウェアアプリケーションのコメント対ダウンロード比を計算し、ここでコメント対ダウンロード比は、ダウンロードの総数に対するコメントの総数の比に等しい。
【0079】
発明者らは、ソフトウェアアプリケーションのダウンロード数を個々にチェックすることは、ソフトウェアアプリケーションの実際の使用状況を反映せず、誤判定の対象となるに過ぎないことを認識している。加えて、発明者らは、ソフトウェアプロモータがツールを用いて自動的にダウンロードする、プロモートされるソフトウェアアプリケーションに対し、その多くのダウンロードが、短期間に集中していることを発見した。しかしながら、一般的なダウンロード数詐欺ソフトウェアアプリケーションは、レビュー詐欺機能を有さないので、コメント情報の量は比較的少なく、ソフトウェアアプリケーションに関するコメント情報は、書かれないだろう。これらの要因が、コメント対ダウンロード比を非常に小さくさせる。これに基づき、発明者らは、ソフトウェアアプリケーションがダウンロード数詐欺を目的とする不正挙動の対象となるか否かを検出すべく、ダウンロード数の実際の状況が、コメント対ダウンロード比の観点から測定されることを提言する。
【0080】
段階203で、方法は、関連するソフトウェアアプリケーションのコメント対ダウンロード比に基づき、1又は複数の関連する(例えば、同じカテゴリ内の)ソフトウェアアプリケーションの複数の確率統計的分布パラメータを決定する。
【0081】
一実施形態において、方法は、同じカテゴリ内の各ソフトウェアアプリケーションの対応するコメント対ダウンロード比を、それぞれサンプルとして用いて、サンプルの期待値及び分散を計算し、サンプルの期待値及び分散を、同じカテゴリ内のソフトウェアアプリケーションの対応する確率統計的分布パラメータとして用いる。
【0082】
図6は、複数の関連するソフトウェアアプリケーションの統計的分布パラメータを決定するための代替的実施形態を表す。
【0083】
段階203aで、方法は、関連するソフトウェアアプリケーションのコメント対ダウンロード比のデータ分布に基づき、確率統計的分布タイプを識別する。
【0084】
段階203bで、方法は、関連するソフトウェアアプリケーションの対応する確率統計的分布パラメータを決定すべく、確率統計的分布タイプに対し分布を適合させる。
【0085】
段階204で、方法は、関連するソフトウェアアプリケーションの統計的分布パラメータに基づき、関連するソフトウェアアプリケーションの判定閾値範囲を定義する。一実施形態において、判定閾値範囲は、低確率事象の閾値範囲を決定するために用いられる。
【0086】
判定閾値範囲の定義は、上記実施形態における関連する説明を参照してよく、定義は類似しているので、したがって、本明細書でこれ以上説明されない。
【0087】
段階205で、方法は、ソフトウェアアプリケーションのコメント対ダウンロード比が、関連するソフトウェアアプリケーションに対応する(例えば、ソフトウェアアプリケーションのカテゴリに対応する)判定閾値範囲内にある場合に、ソフトウェアアプリケーションが、詐欺的ダウンロード数をプロモートするか否かを判定する。
【0088】
加えて、発明者らは、ソフトウェアアプリケーションが、詐欺的ダウンロード数を目的とするプロモーション不正ソフトウェアアプリケーションとして検出された後に、検出結果が結果表として生成されて、データベース内に記憶されてよいことも指摘する。このように、ユーザがソフトウェアアプリケーションのインタフェースを閲覧する場合、ユーザは、結果表からソフトウェアアプリケーションの検出結果を問い合わせてよい。このため、検出結果は、ユーザへ迅速に表示され、ユーザは、ソフトウェアアプリケーションがプロモーション不正ソフトウェアアプリケーションであるか否かを識別するのにアシストされる。
【0089】
本開示の実施形態から分かるように、ソフトウェアアプリケーションの「ダウンロード数詐欺」不正の観点に始まり、同じカテゴリ内のソフトウェアアプリケーションのコメント情報の分布が、確率統計的分布定理に基づき分析される。コメント対ダウンロード比は、確率統計的分布のデータ基準として主に用いられ、同じカテゴリ内のソフトウェアアプリケーションのコメント対ダウンロード比の確率統計的分布パラメータは、分析により取得され、判定閾値範囲が、確率統計的分布パラメータに応じて定義される、すなわち、判定閾値範囲は、確率統計的分布における低確率事象定理に主に基づき定義され、これにより判定閾値範囲は低確率事象を判定するための閾値範囲となる。従って、検出されることになるソフトウェアアプリケーションのコメント対ダウンロード比が、判定閾値範囲内にあることは、検出されることになるソフトウェアアプリケーションが、そのようなコメント対ダウンロード比を有するという事象が低確率事象であることを示し、したがって、検出されることになるソフトウェアアプリケーションは、「詐欺的ダウンロード数不正」プロモーションを用いる不正ソフトウェアアプリケーションであると判定される。
【0090】
詐欺的ソフトウェアプロモーションを検出するための方法に対応して、本開示のいくつかの実施形態は、詐欺的ソフトウェアプロモーションを検出するための装置を更に提供する。図7を参照すると、図7は、本開示のいくつかの実施形態に係る、詐欺的ソフトウェアプロモーションを検出するための装置の構造図である。本装置は、「レビュー詐欺」プロモーション不正ソフトウェアアプリケーションを検出するために使用される。装置300が、取得ユニット301と、第1計算ユニット302と、第2計算ユニット303と、定義ユニット304と、判定ユニット305とを備えてよい。本装置の内部構造及び接続は、本装置の動作原則を参照して更に説明される。
【0091】
取得ユニット301は、プラットフォーム上のソフトウェアアプリケーションのコメント情報を取得するよう構成される。
【0092】
第1計算ユニット302は、ソフトウェアアプリケーションのコメント情報の類似度又は情報ゲインに応じて、ソフトウェアアプリケーションのコメント情報の平均類似度又は平均情報エントロピーを計算するよう構成される。
【0093】
第2計算ユニット303は、同じカテゴリ内の各ソフトウェアアプリケーションの対応する平均類似度又は平均情報エントロピーのそれぞれに応じた計算により、同じカテゴリ内のソフトウェアアプリケーションの対応する確率統計的分布パラメータを取得するよう構成される。
【0094】
定義ユニット304は、同じカテゴリ内のソフトウェアアプリケーションの対応する確率統計的分布パラメータに応じて、同じカテゴリ内のソフトウェアアプリケーションの対応する判定閾値範囲を定義するよう構成され、判定閾値範囲は、低確率事象の閾値範囲を決定するために用いられる。
【0095】
判定ユニット305は、検出されることになるソフトウェアアプリケーションのコメント情報の平均類似度又は平均情報エントロピーが、検出されることになるソフトウェアアプリケーションが属するソフトウェアカテゴリに対応する判定閾値範囲内にあると検出する場合に、検出されることになるソフトウェアアプリケーションが、詐欺的コメントを目的とするプロモーション不正ソフトウェアアプリケーションであると判定するよう構成される。
【0096】
いくつかの実施形態において、第1計算ユニットは、以下の構成要素を含み、図8でより詳細に図示される。
【0097】
単語分割サブユニット302aが、単語分割ベクタを得るべく、ソフトウェアアプリケーションのコメント情報に対して単語分割を実行するよう構成され、各々のコメント情報は、単語分割ベクタに相当する。
【0098】
類似度計算サブユニット302bが、ソフトウェアアプリケーションのN番目のコメント情報と、その以前の1又は複数のコメント情報との間の類似度を、単語分割ベクタ及びベクタ類似度の計算方法に応じて計算し、最大類似度を、N番目のコメント情報の類似度として用いるよう構成され、ここでNは、1以上である。
【0099】
平均類似度計算サブユニット302cが、コメント情報の類似度に応じた平均の計算方法により、ソフトウェアアプリケーションのコメント情報の平均類似度を取得するよう構成される。
【0100】
いくつかの実施形態において、第1計算ユニットは、以下を含む(図9)。
【0101】
情報ゲイン計算サブユニット302dが、N番目のコメント情報の情報ゲインを、それ以前の1又は複数のコメント情報にわたり、シャノン定理により計算し、最小情報ゲインを、N番目のコメント情報の情報ゲインとして選択するよう構成され、ここでNは、1以上である。
【0102】
平均情報エントロピー計算サブユニット302eが、コメント情報の情報ゲインに応じた平均の計算方法により、ソフトウェアアプリケーションのコメント情報の平均情報エントロピーを取得するよう構成される。
【0103】
いくつかの実施形態において、第2計算ユニットは、具体的に、
【0104】
同じカテゴリ内の各ソフトウェアアプリケーションの対応する平均類似度又は平均情報エントロピーを、それぞれサンプルとして用い、サンプルの期待値及び分散を計算し、サンプルの期待値及び分散を、同じカテゴリ内のソフトウェアアプリケーションの対応する確率統計的分布パラメータとして用いるよう構成される。
【0105】
いくつかの実施形態において、第2計算ユニットは、以下の構成要素を含み、図10でより詳細に図示される。
【0106】
選択サブユニット303aが、同じカテゴリ内のソフトウェアアプリケーションの対応する平均類似度又は平均情報エントロピーのそれぞれのデータ分布に応じて、確率統計的分布タイプを選択するよう構成される。
【0107】
適合サブユニット303bが、同じカテゴリ内のソフトウェアアプリケーションの対応する確率統計的分布パラメータを取得するべく、確率統計的分布タイプに対し分布を適合するよう構成される。
【0108】
いくつかの実施形態において、選択サブユニットは、具体的に、同じカテゴリ内のソフトウェアアプリケーションの対応する平均類似度又は平均情報エントロピーのそれぞれのデータ分布に応じて、正規分布タイプを選択するよう構成される。
【0109】
適合サブユニットはまた、具体的に、同じカテゴリ内のソフトウェアアプリケーションの対応する分布パラメータを取得するべく、正規分布タイプに対し分布を適合するよう構成されてよく、分布パラメータは、平均値及び標準偏差を有する。
【0110】
定義ユニットはまた、具体的に、同じカテゴリ内のソフトウェアアプリケーションの対応する判定閾値範囲を、同じカテゴリ内のソフトウェアアプリケーションの対応する確率統計的分布パラメータに応じて、(−∞、μ−σ)、(−∞、μ−1.96σ)、(−∞、μ−2σ)、(−∞、μ−2.58σ)、(μ+σ、+∞)、(μ+1.96σ、+∞)、(μ+2σ、+∞)、又は(μ+2.58σ、+∞)として定義するよう構成されてよく、ここでμは、平均値であり、σは、標準偏差である。
【0111】
加えて、本開示は、詐欺的ソフトウェアプロモーションを検出するための別の装置を提供する。図11を参照すると、図11は、本開示のいくつかの実施形態に係る、詐欺的ソフトウェアプロモーションを検出するための装置を図示する構造図である。図11に図示される装置は、「詐欺的ダウンロード数」プロモーション不正を目的とするソフトウェアアプリケーションを検出するよう構成される。装置400が、取得ユニット401と、第1計算ユニット402と、第2計算ユニット403と、定義ユニット404と、判定ユニット405とを備えてよい。本装置の内部構造及び接続は、本装置の動作原則を参照して更に説明される。
【0112】
取得ユニット401は、プラットフォーム上のソフトウェアアプリケーションのコメント情報及びダウンロード数を取得するよう構成される。
【0113】
第1計算ユニット402は、ソフトウェアアプリケーションのコメント対ダウンロード比を計算するよう構成され、コメント対ダウンロード比は、ダウンロードの総数に対するコメント情報の総数の比に等しい。
【0114】
第2計算ユニット403は、同じカテゴリ内のソフトウェアアプリケーションの対応するそれぞれのコメント対ダウンロード比に応じた計算により、同じカテゴリ内のソフトウェアアプリケーションの対応する確率統計的分布パラメータを取得するよう構成される。
【0115】
定義ユニット404は、同じカテゴリ内のソフトウェアアプリケーションの対応する確率統計的分布パラメータに応じて、同じカテゴリ内のソフトウェアアプリケーションの対応する判定閾値範囲を定義するよう構成され、判定閾値範囲は、低確率の事象に対する閾値範囲を決定するために用いられる。
【0116】
判定ユニット405は、検出されることになるソフトウェアアプリケーションのコメント対ダウンロード比が、検出されることになるソフトウェアアプリケーションが属するソフトウェアカテゴリに対応する判定閾値範囲内にあると検出する場合に、検出されることになるソフトウェアアプリケーションが、詐欺的ダウンロード数を目的とするプロモーション不正ソフトウェアアプリケーションであると判定するよう構成される。
【0117】
いくつかの実施形態において、第2計算ユニットは、具体的に、
【0118】
同じカテゴリ内の各ソフトウェアアプリケーションの対応するコメント対ダウンロード比を、それぞれサンプルとして用い、サンプルの期待値及び分散を計算し、サンプルの期待値及び分散を、同じカテゴリ内のソフトウェアアプリケーションの対応する確率統計的分布パラメータとして用いるよう構成される。
【0119】
いくつかの実施形態において、第2計算ユニットは、以下の構成要素を含み、図12でより詳細に図示される。
【0120】
選択サブユニット403aが、同じカテゴリ内のソフトウェアアプリケーションの対応するそれぞれのコメント対ダウンロード比のデータ分布に応じて、確率統計的分布タイプを選択するよう構成される。
【0121】
分布サブユニット403bが、同じカテゴリ内のソフトウェアアプリケーションの対応する確率統計的分布パラメータを取得するべく、確率統計的分布タイプに対し分布を適合するよう構成される。
【0122】
本開示の実施形態から分かるように、本開示に係る装置では、確率統計的分布及び低確率事象の数学的定理に基づき、ソフトウェアアプリケーションのコメント情報及びダウンロード数等の実際のデータを、統計的分析のデータ基準として用いて、判定閾値範囲が適応的に定義されてよく、詐欺的ソフトウェアプロモーションの自動検出が実装され得、ユーザは、ソフトウェアアプリケーションを判別するのにアシストされ、ソフトウェアダウンロードのセキュリティが高まる。
【0123】
加えて、実際の適用において、ソフトウェアアプリケーションがプロモーション不正ソフトウェアアプリケーションか否かを徹底的に検出するために、「レビュー詐欺」及び「ダウンロード数詐欺」プロモーション不正を検出するための上記方法又は装置が用いられてよいことが、留意されるべきである。
【0124】
最後に、いくつかの実施形態において、本開示は、詐欺的ソフトウェアプロモーションを検出するためのシステムを更に提供する。図13を参照すると、本システムは、データ捕捉装置501と、データストレージ装置502と、抗不正分析プラットフォーム503とを備える。
【0125】
抗不正分析プラットフォームは、上記装置の実施形態で説明されている装置のうち2つ、すなわち、上述の「レビュー詐欺」プロモーション不正を検出するための装置5031と、「ダウンロード数詐欺」プロモーション不正を検出するための装置5032とを備える。
【0126】
データ捕捉装置501が、プラットフォームからソフトウェアアプリケーションのコメント情報及びダウンロード数を読み出すよう構成される。
【0127】
データストレージ装置502が、ソフトウェアアプリケーションのコメント情報及びダウンロード数を記憶するよう構成される。
【0128】
データ捕捉装置501が、データインターフェース層を介して、データストレージ装置502とデータを交換し、データストレージ装置502は、データインターフェース層を介して、抗不正分析プラットフォーム503とデータを交換する。
【0129】
データストレージシステムにおいて、ダウンロード数及びコメント情報は、データシートの形態で記憶されてよい。
【0130】
「レビュー詐欺」プロモーション不正を検出するための上記装置5031には、図7に図示される装置の構造及び対応するテキスト記述が参照されてよい。「ダウンロード数詐欺」プロモーション不正を検出するための上記装置5032には、図11に図示される装置の構造及び対応するテキスト記述が参照されてよい。
【0131】
いくつかの実施形態において、データインターフェース層は、HIBERNATE ORMフレームワークを採用してよく、最下層データベース動作を保護することと、データを含むオブジェクトを直接記憶することとが可能である。
【0132】
一実施形態において、データ捕捉装置501は、図14に図示される、捕捉エンジンモジュール501aと、捕捉エンジン管理モジュール501bと、捕捉ポイント管理モジュール501cと、URL管理モジュール501dとを含んでよい。
【0133】
URL管理モジュール501dは、ウェブサイトプレフィックスが捕捉されるように構成するよう構成され、ウェブサイトプレフィックスは、クロールされるウェブサイト全体のソフトウェアアプリケーションにマッピングすることが可能である。
【0134】
捕捉ポイント管理モジュール501cは、ソフトウェアプロモーションのクロールポイントを構成するよう構成される。一般的にウェブサイトに関し、プロモートされるソフトウェアアプリケーションのクロールポイントは、HTMLページ上に固定タグ位置を有する。このため、ソフトウェアアプリケーションの詳細なページ上の基本情報、例えば、ダウンロード数、コメント情報、及び同様のものが、「Jsoup」ツール又は別のクロールツールを用いて取得され得る。
【0135】
捕捉エンジン管理モジュール501bは、エンジンの状態を構成するよう、例えば、すべてのソフトウェアアプリケーションの全画面捕捉を構成するよう、若しくはいくつかのソフトウェアアプリケーションの階層的かつ選択的捕捉を構成するよう、又は捕捉回数等を構成するよう構成される。
【0136】
捕捉エンジンモジュール501aは、捕捉エンジン管理モジュールの構成に応じて、ソフトウェアアプリケーションのダウンロード数及びコメント情報を読み出すよう構成される。
【0137】
加えて、「レビュー詐欺」プロモーション不正を検出するための装置5031と、「ダウンロード数」プロモーション不正を検出するための装置5032とが、検出結果を取得する場合、検出結果は、データインターフェース層を介してデータストレージシステム内に記憶され得、例えば、検出結果は、結果表に記憶され得る。このように、ユーザがソフトウェアアプリケーションを閲覧する場合、ユーザが、ソフトウェアアプリケーションがプロモーション不正ソフトウェアアプリケーションであるか否かを識別するのにアシストされるよう、対応する検出結果が、データストレージシステムから直接検索され得る。
【0138】
システムの動作中、データ捕捉装置501は、ソフトウェアアプリケーションのコメント情報及びダウンロード数を読み出し、読み出したコメント情報及びダウンロード数をデータストレージ装置502内に記憶し、抗不正分析プラットフォーム503は、対応するデータをデータストレージ装置から取得する。例えば、ウェブサイトタイプ及びソフトウェアタイプに応じた同一ウェブサイト上で、同じカテゴリ内のソフトウェアアプリケーションの対応するそれぞれのダウンロード数、コメント情報、及び同様のものを取得する。取得した情報に基づき、抗不正分析プラットフォーム503は、ソフトウェアアプリケーションがプロモーション不正ソフトウェアアプリケーションであるか否かを検出する。加えて、抗不正分析プラットフォーム503は、検出結果を、データインターフェース層を介してデータストレージ装置502内に更に記憶してよく、例えば、データストレージデバイス内に検出結果を記憶するための結果表を作成してよい。検出結果は、ソフトウェアアプリケーションがプロモーション不正ソフトウェアであるか否かを示すことが可能である。
【0139】
当業者であれば、説明の容易化及び簡潔化のために、上述のシステム、装置、及びユニットの具体的な動作プロセスには、上述の方法の実施形態の関連する部分が参照されてよく、したがって本明細書でこれ以上説明されないことを、明確に認めるだろう。
【0140】
本開示で提供される上記実施形態において、開示されているシステム、装置、及び方法は、別の手法で実施され得ることが理解されるべきである。上述の装置の実施形態は、単に例示的である。例えば、ユニットの区分は、単に論理機能的区分であり、実際の実施において別の区分が存在し得る。例えば、複数のユニット若しくはコンポーネントが組み合わされてよく、又は別のシステムに統合されてよく、あるいはいくつかの特徴が無視され得、又は実行され得ない。加えて、表示されている又は議論されている相互連結、又は直接連結、又は通信接続が、いくつかのインタフェースを通じて実施され得る。装置又はユニット間の間接連結又は通信接続が、電子的に、機械的に、又は別の形態で実施され得る。
【0141】
別箇のコンポーネントとして説明されているユニットが、物理的に別箇であってよく、又は物理的に別箇でなくてもよく、ユニットとして図示されているコンポーネントが、物理的なユニットであってもなくてもよく、すなわち、コンポーネントは、同じ位置に配置されてよく、又は複数のネットワークユニット内に分布されてもよい。ユニットの一部又は全部が、実施形態の技術的解決手段の目的を達成すべく、実際の必要性に応じて選択されてよい。
【0142】
加えて、本開示の実施形態に係る様々な機能的ユニットが、処理ユニット内で統合されてよく、又はその各々が、物理的に独立して存在してよく、代替的には、2つ又は2つ以上のユニットが、ユニット内で統合されてよい。上記統合されるユニットは、ハードウェアを用いて実施されてよく、ソフトウェア機能ユニットを用いて実施されてもよい。
【0143】
当業者は、実施形態における方法のすべての又は一部の段階が、関連するハードウェアに命令するプログラムによって実装され得ると理解してよいことが、留意されるべきである。プログラムは、コンピュータ可読記憶媒体に記憶され得る。プログラムが動作する場合、実施形態における方法の段階が実行される。記憶媒体は、磁気ディスク、コンパクトディスクリードオンリメモリ(CD‐ROM)、リードオンリメモリ(ROM)、ランダムアクセスメモリ(RAM)、又は同様のものであり得る。
【0144】
本明細書で、本開示に係る詐欺的ソフトウェアプロモーションを検出するための方法、装置、及びシステムが、詳細に説明され、本開示の原理及び実施形態が、具体的な実施形態及び例を参照して説明されてきたが、上記実施形態は、本開示の方法及び中心となるアイデアを理解することを助けるためだけに説明されている。当業者は、本開示の発明の概念に従い、具体的な実施形態又は適用範囲に対し、変更又は変化を加えてよい。結論として、本明細書は、本開示を限定すると理解されてはならない。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14