IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ミロ・アクイジション・サブ・リミテッド・ライアビリティ・カンパニーの特許一覧

<>
  • 特開-電子メッセージのフィルタリング 図1
  • 特開-電子メッセージのフィルタリング 図2
  • 特開-電子メッセージのフィルタリング 図3
  • 特開-電子メッセージのフィルタリング 図4
  • 特開-電子メッセージのフィルタリング 図5
  • 特開-電子メッセージのフィルタリング 図6
  • 特開-電子メッセージのフィルタリング 図7
  • 特開-電子メッセージのフィルタリング 図8
  • 特開-電子メッセージのフィルタリング 図9
  • 特開-電子メッセージのフィルタリング 図10
  • 特開-電子メッセージのフィルタリング 図11
  • 特開-電子メッセージのフィルタリング 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024069219
(43)【公開日】2024-05-21
(54)【発明の名称】電子メッセージのフィルタリング
(51)【国際特許分類】
   H04L 51/21 20220101AFI20240514BHJP
   G06F 16/35 20190101ALI20240514BHJP
【FI】
H04L51/21
G06F16/35
【審査請求】有
【請求項の数】21
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024021128
(22)【出願日】2024-02-15
(62)【分割の表示】P 2022076161の分割
【原出願日】2018-05-01
(31)【優先権主張番号】15/597,404
(32)【優先日】2017-05-17
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】521486376
【氏名又は名称】ミロ・アクイジション・サブ・リミテッド・ライアビリティ・カンパニー
(74)【代理人】
【識別番号】100099623
【弁理士】
【氏名又は名称】奥山 尚一
(74)【代理人】
【識別番号】100125380
【弁理士】
【氏名又は名称】中村 綾子
(74)【代理人】
【識別番号】100142996
【弁理士】
【氏名又は名称】森本 聡二
(74)【代理人】
【識別番号】100166268
【弁理士】
【氏名又は名称】田中 祐
(72)【発明者】
【氏名】サティ,コーナル
(72)【発明者】
【氏名】タラソフ,アレクサンダー
(72)【発明者】
【氏名】ミハイロフ,ディミトロ
(72)【発明者】
【氏名】コフリキャン,ナリーネ
(72)【発明者】
【氏名】イフチェンコ,ロマン
(57)【要約】      (修正有)
【課題】電子メッセージを自動的に発見してフィルタリングする。
【解決手段】システム118において、プリプロセッサが、電子メッセージヘッダのフェッチされたサンプル内の件名フィールドの前処理を行い、クラスタエンジンが、ヘッダのサンプルをクラスタ160に分類し、サンプラが、各クラスタにつき、ネットワークデータストレージシステム122~126が記憶している電子メッセージのサンプルを取得し、分類器が、購入関連ラベルと関連する信頼度とを含むラベルセット内のラベル168を用いて、前記サンプル内の電子メッセージを分類し、当該クラスタについての分類データセットを生成し、各クラスタラベルにマッピングするクラスタ分類ルールに基づいて、所定のラベルセットから選択されるクラスタラベルをクラスタに割り当て、購入関連ラベルの1つが割り当てられた各クラスタにつき、購入関連電子メッセージのフィルタ175を自動的に生成する。
【選択図】図7
【特許請求の範囲】
【請求項1】
ネットワークノード間で送信され、1以上のメッセージサーバによって管理される1以
上のネットワークデータストレージシステム(122、124、126)において各ユー
ザアカウントに関連付けられて記憶される電子メッセージ(22)の集合をフィルタリン
グする方法であって、
各電子メッセージ(22)は、送信者とヘッダと本文とに関連付けられており、
あるネットワークノードが、1以上の前記メッセージサーバから、複数の前記ユーザア
カウントにわたって、1以上の前記ネットワークデータストレージシステム(122、1
24、126)に記憶されている前記集合内のヘッダをフェッチするステップと、
1以上の送信者の各々につき、当該送信者に関連付けられているフェッチされたヘッダ
を、クラスタ(160)をクラスタリングデータ空間内の密な各領域と関連付ける密度ベ
ースのクラスタリングプロセスに基づいて、前記クラスタ(160)にグループ化するス
テップであって、前記クラスタリングデータ空間において、フェッチされた複数の前記ヘ
ッダは、フェッチされた前記ヘッダの各ペア間の類似度に基づいて互いに離れている、ス
テップと、
1以上の前記クラスタ(160)の各々につき、
あるネットワークノードが、1以上の前記メッセージサーバから、当該クラスタ(1
60)内のフェッチされたヘッダに関連付けられ、1以上の前記ネットワークデータスト
レージシステム(122、124、126)に記憶されている前記集合内の前記電子メッ
セージ(22)の各サンプル(164)を取得し、
機械学習分類器(166)により、1以上の購入関連ラベル(168)と、関連する
信頼度とを含む所定のラベルセット(168)内の各ラベル(168)を用いて、取得さ
れた前記サンプル(164)内の各電子メッセージ(22)を分類し、当該クラスタ(1
60)についての各分類データセットを生成し、
各分類データセットを各クラスタラベル(168)にマッピングする少なくとも1つ
のクラスタ分類ルールに基づいて、前記所定のラベルセット(168)から選択される各
クラスタラベル(168)を当該クラスタ(160)に割り当てるステップと、
購入関連ラベル(168)の1つが割り当てられた1以上のクラスタ(160)の各々
につき、購入関連電子メッセージ(22)をフィルタリングする各フィルタ(175)を
自動的に生成するステップと
を含む方法。
【請求項2】
プロセッサが、1以上のメッセージサーバによって管理される1以上のネットワークデ
ータストレージシステム(122、124、126)において各ユーザアカウントに関連
付けられて記憶されている電子メッセージ(22)の集合から購入関連の電子メッセージ
(22)を選択するために、少なくとも1つのネットワーク通信チャネルに1以上の前記
フィルタを設けるステップを更に含む請求項1に記載の方法。
【請求項3】
前記グループ化は、
各メッセージヘッダの件名フィールド内の文字列の比較に基づいて、フェッチされたメ
ッセージヘッダの各ペア間の類似度スコアを計算するステップと、
計算された前記類似度スコアに基づいて、フェッチされたヘッダをクラスタ(160)
にグループ化するステップと
を含む、請求項1に記載の方法。
【請求項4】
前記グループ化は、フェッチされた前記メッセージヘッダのクラスタ(160)を生成
するために、計算された前記類似度スコアに類似度閾値を適用するステップを含む、請求
項3に記載の方法。
【請求項5】
前記グループ化は、
前記類似度閾値を反復的に調整するステップと、
前記クラスタ(160)の数が収束したと判定されるまで、調整された前記類似度閾値
に基づいて、フェッチされた前記メッセージヘッダをクラスタ(160)にグループ化す
るステップと
を含む、請求項4に記載の方法。
【請求項6】
前記調整は、初期の類似度閾値の値から徐々に小さくなるように前記類似度閾値を調整
するステップを含む、請求項5に記載の方法。
【請求項7】
前記調整の少なくとも1回の反復につき、前記グループ化は、各クラスタ(160)内
のヘッダが共通した語を有することを要件とするステップを含む、請求項5に記載の方法
【請求項8】
前記グループ化は、前記サンプル(164)内のヘッダに関連付けられている本文とは
無関係に行われる、請求項1に記載の方法。
【請求項9】
取得される電子メッセージ(22)の各サンプル(164)は、所定数の電子メッセー
ジ(22)から構成される、請求項1に記載の方法。
【請求項10】
各電子メッセージ(22)の分類は、前記電子メッセージ(22)にそれぞれ関連付け
られているヘッダ及び本文の内容に基づくものである、請求項1に記載の方法。
【請求項11】
前記所定のラベルセット(168)は、
電子メッセージ(22)を受取りとして分類する第1のラベル(168)と、
電子メッセージ(22)を受取りではないものとして分類する第2のラベル(168)

を含むものである、請求項1に記載の方法。
【請求項12】
各フィルタ(175)の生成は、
各クラスタ(160)内のヘッダに共通する部分文字列を特定するステップと、
特定された前記部分文字列に基づいて各フィルタ(175)を生成するステップと
を含む、請求項1に記載の方法。
【請求項13】
各フィルタ(175)の生成は、
各クラスタ(160)内のヘッダに現れる各バイグラムの数を求めるステップと、
顕著な数に関連する1以上のバイグラムを各フィルタルールに組み込むステップと
を含む、請求項12に記載の方法。
【請求項14】
各フィルタルールは、電子メッセージ(22)内の件名フィールド文字列の各セットに
ついての照合パターンを定めるものである、請求項12に記載の方法。
【請求項15】
前記設けるステップは、あるネットワークノードと、1以上の前記メッセージサーバと
の間に1以上の前記フィルタを設けるステップを含む、請求項1に記載の方法。
【請求項16】
各フィルタ(175)は、1以上の抽出パーサの各セットに関連付けられ、
前記セット内の各電子メッセージ(22)と照合される各フィルタ(175)につき、
前記電子メッセージ(22)を、照合されたフィルタに関連付けられている1つ以上の前
記抽出パーサを用いて解析しようとするステップを更に含む請求項1に記載の方法。
【請求項17】
ネットワークノード間で送信され、1以上のメッセージサーバによって管理される1以
上のネットワークデータストレージシステム(122、124、126)において各ユー
ザアカウントに関連付けられて記憶されている電子メッセージ(22)の集合をフィルタ
リングするフィルタを生成する装置であって、
各電子メッセージ(22)は、送信者とヘッダと本文とに関連付けられており、
前記装置は、プロセッサ可読型命令を記憶するメモリと、前記メモリに接続され、前記
命令を実行し、前記命令の実行に少なくとも部分的に基づいて処理を行うプロセッサとを
有し、
前記処理は、
1以上の前記ネットワークデータストレージシステム(122、124、126)から
前記集合内のヘッダをフェッチするステップと、
1以上の送信者の各々につき、フェッチされたヘッダをクラスタ(160)にグループ
化するステップであって、前記グループ化は、いずれのメッセージ本文の内容とは無関係
に、前記クラスタ(160)内のヘッダ間の類似度に基づいて、フェッチされた各ヘッダ
を前記クラスタ(160)に割り当てるステップを含む、ステップと、
1以上の前記クラスタ(160)の各々につき、
1以上の前記ネットワークデータストレージシステム(122、124、126)か
ら、フェッチされ前記クラスタ(160)に割り当てられたヘッダに関連付けられている
1以上の電子メッセージ(22)のサンプル(164)を取得し、
機械学習分類器(166)により、前記サンプル(164)内の1以上の取得された
電子メッセージ(22)のヘッダ及び本文の内容に基づいて、受取りに関係するもの又は
受取りに関係しないものとして前記クラスタ(160)を指定するステップと、
受取りに関係するものとして指定された1以上の前記クラスタ(160)の各々につき
電子メッセージフィルタ(175)を自動的に生成するステップであって、各電子メッセ
ージフィルタ(175)は、電子メッセージ(22)のヘッダの件名フィールド文字列の
各パターンを照合する各ルールを定めるものである、ステップと
を含むものである、装置。
【請求項18】
前記グループ化は、
類似度閾値を反復的に調整するステップと、
前記クラスタ(160)の数が収束したと判定されるまで、調整された前記類似度閾値
に基づいて、フェッチされた前記メッセージヘッダをクラスタ(160)にグループ化す
るステップと
を含む、請求項17に記載の方法。
【請求項19】
前記プロセッサは、前記命令の実行に少なくとも部分的に基づき、
1以上のメッセージサーバによって管理される1以上のネットワークデータストレージ
システム(122、124、126)において各ユーザアカウントに関連付けられて記憶
されている電子メッセージ(22)のセットから購入関連の電子メッセージ(22)を選
択するために、少なくとも1つのネットワーク通信チャネルに1以上の前記フィルタを設
けるステップを更に含む処理を実行する、請求項17に記載の装置。
【請求項20】
前記フェッチは、前記送信者に関連付けられ、複数の前記ユーザアカウントにわたって
、1以上の前記ネットワークデータストレージシステム(122、124、126)に記
憶されている前記集合内のヘッダのサンプル(164)のフェッチを含む、請求項17に
記載の方法。
【請求項21】
コンピュータ可読プログラムコードが具現化されている少なくとも1つのコンピュータ
可読媒体であって、
前記コンピュータ可読プログラムコードは、ネットワークノード間で送信され、1以上
のメッセージサーバによって管理される1以上のネットワークデータストレージシステム
(122、124、126)において各ユーザアカウントに関連付けられて記憶されてい
る電子メッセージ(22)の集合を処理する方法を実施するためにネットワークノードに
よって実行されるものであり、
各電子メッセージ(22)は、送信者とヘッダと本文とに関連付けられており、
1以上の前記メッセージサーバから、複数の前記ユーザアカウントにわたって、1以上
の前記ネットワークデータストレージシステム(122、124、126)に記憶されて
いる前記集合内のヘッダをフェッチする実行可能命令と、
1以上の送信者の各々につき、当該送信者に関連付けられているフェッチされたヘッダ
を、クラスタ(160)をクラスタリングデータ空間内の密な各領域と関連付ける密度ベ
ースのクラスタリングプロセスに基づいて、前記クラスタ(160)にグループ化する実
行可能命令であって、前記クラスタリングデータ空間において、フェッチされた複数の前
記ヘッダは、フェッチされた前記ヘッダの各ペア間の類似度に基づいて互いに離れている
、実行可能命令と、
1以上の前記クラスタ(160)の各々につき、
1以上の前記メッセージサーバから、当該クラスタ(160)内のフェッチされたヘ
ッダに関連付けられ、1以上の前記ネットワークデータストレージシステム(122、1
24、126)に記憶されている前記集合内の前記電子メッセージ(22)の各サンプル
(164)を取得し、
機械学習分類器(166)により、1以上の購入関連ラベル(168)と、関連する
信頼度とを含む所定のラベルセット(168)内の各ラベル(168)を用いて、取得さ
れた前記サンプル(164)内の各電子メッセージ(22)を分類し、当該クラスタ(1
60)についての各分類データセットを生成し、
各分類データセットを各クラスタラベル(168)にマッピングする少なくとも1つ
のクラスタ分類ルールに基づいて、前記所定のラベルセット(168)から選択される各
クラスタラベル(168)を当該クラスタ(160)に割り当てることを含む処理を行う
実行可能命令と、
購入関連ラベル(168)の1つが割り当てられた1以上のクラスタ(160)の各々
につき、購入関連電子メッセージ(22)をフィルタリングする各フィルタ(175)を
自動的に生成するステップと
を含む少なくとも1つのコンピュータ可読媒体。
【発明の詳細な説明】
【背景技術】
【0001】
人々は、多くの販売業者から様々な支払いオプションを使って商品を購入する。このよ
うな購入の取引は、通常、店舗での物理的なレシート又は購入者のメッセージアカウント
(例えば、購入者の電子メールアカウント)宛ての電子的確認メッセージによって確認さ
れる。確認メッセージが大量、多様であることにより、人々が自身の購入を確認し、購入
履歴を全体的に把握することが困難となっている。加えて、人々が商品を購入する販売業
者の多様性が大きいことにより、販売業者が正確な顧客プロファイルを作るための十分な
購入履歴データを得ることが難しくなっている。ある人が、その人の全ての購入について
共通の識別子(例えば、ポイントカード又はクレジットカード)を用いたとしても、これ
らの購入は、通常、その識別子をその顧客に発行した販売業者によってしか追跡されない
。このように顧客情報が不足することで、販売業者をまたいだ顧客の購入取引情報を効率
的に見いだす能力には限りがある。
【0002】
このような問題を改善するために、購入確認メッセージ及び配送確認メッセージ等の、
販売業者から直接、消費者に対して発行されるデータソースから購入関連情報を抽出する
レポートシステムが開発されている。
【発明の概要】
【0003】
本発明は、ネットワークノード間で送信され、1以上のメッセージサーバによって管理
される1以上のネットワークデータストレージシステムにおいて各ユーザアカウントに関
連付けられて記憶される電子メッセージの集合を処理する、コンピュータ装置によって実
行される方法を特徴とする。各電子メッセージは、送信者、ヘッダ、及び本文に関連付け
られる。この方法によれば、ネットワークデータストレージシステムのうちの1つ以上に
記憶された集合内のヘッダは、メッセージサーバのうちの1つ以上から、複数のユーザア
カウントにわたって、ネットワークノードによってフェッチされる。1以上の送信者の各
々に関して、クラスタを、クラスタリングデータ空間内のそれぞれの密な領域と関連付け
る密度ベースのクラスタリングプロセスに基づいて、送信者に関連付けられてフェッチさ
れたヘッダは、クラスタにグループ化される。クラスタリングデータ空間内では、フェッ
チされたヘッダは、フェッチされたヘッダの各ペア間の類似度に基づいて互いに離れてい
る。複数のクラスタのうちの1つ以上の各々につき、ネットワークノードによって、メッ
セージサーバのうちの1つ以上から、クラスタ内のフェッチされたヘッダに関連付けられ
、ネットワークデータストレージシステムのうちの1つ以上に記憶された集合内の電子メ
ッセージのそれぞれのサンプルが取得される。取得されたサンプル内の各電子メッセージ
は、クラスタに関する各分類データセットを生成するために、1つ以上の購入関連ラベル
と、関連する信頼度とを含む所定のラベルセットの各ラベルを用いて、機械学習分類器に
よって分類される。クラスタは、それぞれの分類データセットをそれぞれのクラスタラベ
ルにマッピングする少なくとも1つのクラスタ分類ルールに基づいて、所定のラベルセッ
トから選択された各クラスタラベルを割り当てられる。購入関連ラベルのうちの1つが割
り当てられた1以上のクラスタの各々に関して、購入関連電子メッセージをフィルタリン
グするフィルタが自動的に生成される。
【0004】
また、本発明は、ネットワークノード間で送信され、1以上のメッセージサーバによっ
て管理される1以上のネットワークデータストレージシステムにおいて各ユーザアカウン
トに関連付けられて記憶されている電子メッセージの集合を処理する、コンピュータ装置
によって実行される方法を特徴とする。各電子メッセージは、送信者、ヘッダ、及び本文
に関連付けられる。この方法によれば、集合内のヘッダは、1人以上の送信者の各々に関
して、ネットワークデータストレージシステムのうちの1つ以上からフェッチされる。1
人以上の送信者の各々に関して、フェッチされたヘッダは、クラスタにグループ化される
。フェッチされたヘッダをグループ化するプロセスは、メッセージ本文の内容に関係なく
クラスタ内のヘッダ間の類似度に基づいて、フェッチされたヘッダを複数のクラスタのう
ちのそれぞれのクラスタに割り当てることを含む。複数のクラスタのうちの各々につき、
ネットワークデータストレージシステムのうちの1つ以上から、フェッチされクラスタに
割り当てられたヘッダに関連付けられた電子メッセージのうちの1通以上のサンプルが取
得される。クラスタは、サンプル内の1通以上の取得された電子メッセージのヘッダ及び
本文の内容に基づいて、受取りに関係するもの又は受取りに関係しないものとして、機械
学習分類器によって指定される。それぞれの電子メッセージフィルタは、受取りに関係す
るものとして指定された複数のクラスタのうちの1つ以上の各々に関して自動的に生成さ
れ、各電子メッセージフィルタは、電子メッセージのヘッダ内の件名フィールド文字列の
それぞれのパターンを照合するそれぞれのルールを定める。
【0005】
いくつかの例では、フィルタのうちの1つ以上は、1つ以上のメッセージサーバによっ
て管理される1つ以上のネットワークデータストレージシステムにおいて各ユーザアカウ
ントに関連付けられて記憶された電子メッセージのセットから購入関連電子メッセージを
選択するために、少なくとも1つのネットワーク通信チャネルにプロセッサによって設け
られる。
【0006】
また、本発明は、上述した方法を実施するように動作可能なコンピュータ装置及び上述
した方法をコンピュータ装置に実施させるコンピュータ可読命令を記憶するコンピュータ
可読媒体を特徴とする。
【図面の簡単な説明】
【0007】
図1】ネットワーク通信環境の一例を示す説明図である。
図2】購入取引データ検索システムの一例によって行われる電子メッセージ処理ステージの全体説明図である。
図3】電子メッセージの一例を示す説明図である。
図4】電子メッセージフィルタを生成するプロセスの一例を示すフロー図である。
図5図4の電子メッセージフィルタ生成プロセスの複数のステージに関係するデータの説明図である。
図6】電子メッセージフィルタを生成するプロセスの一例を示すフロー図である。
図7】電子メッセージフィルタを生成するシステムの一例を示す説明図である。
図8】クラスタリングデータ空間におけるヘッダのクラスタの一例を示す説明図である。
図9】電子メッセージのヘッダをクラスタへとグループ化するプロセスの一例を示すフロー図である。
図10】電子メッセージフィルタを生成するシステムの一例を示す説明図である。
図11】電子メッセージフィルタを生成するプロセスの一例を示すフロー図である。
図12】コンピュータ装置の一例を示すブロック図である。
【発明を実施するための形態】
【0008】
以下の説明において、同じ要素を識別するために同じ符号を用いる。さらに、図面は、
例示的な実施形態の主要な特徴を図示するためのものである。図面は、実際の実施形態の
あらゆる特徴を示すことを目的としているわけではなく、描かれている要素の相対的な寸
法を示すためのものでもなく、一定の縮尺で描かれているわけでもない。
【0009】
[I.用語の定義]
「商品(product)」は、購入又は利用の対象となり得る任意の有形又は無形の物品又
はサービスである。
【0010】
「電子メッセージ」は、物理的なネットワークノード間で送信者から受信者へと送られ
、非一時的なコンピュータ可読型メモリに記憶される永続的なテキストベースの情報記録
である。電子メッセージは、構造化されたもの(例えば、構造化タグ要素を含むハイパー
テキストマークアップ言語(HTML)メッセージ)又は構造化されていないもの(例え
ば、プレーンテキストメッセージ)とすることができる。
【0011】
「購入関連電子メッセージ」は、商品の購入に関連する電子メッセージである。購入関
連電子メッセージの例には、注文確認、配送確認、払戻し、キャンセル、取寄せ注文、ク
ーポン、及び販売促進が含まれる。
【0012】
電子メッセージにおける「送信者ドメイン」は、電子メッセージの送信元であるメッセ
ージアドレスの管理範囲を指す。例えば、電子メッセージアドレスが「local-pa
rt@domain」というフォーマットを有する場合、「local-part」はメ
ッセージアドレスを特定し、「domain」はメッセージアドレスの管理範囲を特定す
る。複数のメッセージアドレスが同じ送信者ドメインを共有する場合がある。
【0013】
「受領(受取り、receipt)」は、1つ以上の商品の購入ステータスを確認する電子メ
ッセージである。受領の例には、注文確認電子メッセージと配送確認電子メッセージとが
含まれる。
【0014】
「購入取引情報」(「購入取引データ」とも呼ぶ)は、商品の購入に関連する情報であ
る。購入取引データは、例えば、インボイスデータと、購入確認データと、商品注文情報
(例えば、販売者名、注文番号、注文日、商品説明、商品名、商品数量、商品価格、消費
税、送料、及び注文金額)と、商品出荷情報(例えば、請求先住所、配送会社、送付先住
所、出荷予定日、配送予定日、及び追跡番号)とを含む。
【0015】
「コンピュータ」は、コンピュータ可読型媒体に一時的又は恒久的に記憶されているコ
ンピュータ可読型命令に従ってデータを処理する任意の機械、デバイス、又は装置である
。「コンピュータ装置」は、1つ以上の独立したコンピュータを指す。「コンピュータオ
ペレーティングシステム」は、タスクの動作と、コンピューティングリソース及びハード
ウェアリソースの共有とを管理及び調整するコンピュータのソフトウェア構成要素である
。「ソフトウェアアプリケーション」(ソフトウェア、アプリケーション、コンピュータ
ソフトウェア、コンピュータアプリケーション、プログラム、及びコンピュータプログラ
ムともいう)は、コンピュータが解釈及び実行して1つ以上の特定のタスクを実行するこ
とができる一組の命令である。「データファイル」は、ソフトウェアアプリケーションに
よって用いられるデータを永続的に記憶する情報のブロックである。
【0016】
「コンピュータ可読型媒体」(「メモリ」ともいう)という用語は、機械(例えば、コ
ンピュータ)によって読み出すことができる情報(例えば、命令及びデータ)を記憶する
ことが可能な任意の有形で非一時的なデバイスを指す。このような情報を有形なものとし
て具現化するのに適した記憶デバイスには、例えば、ランダムアクセスメモリ(RAM)
、EPROM、EEPROM、及びフラッシュメモリデバイス等の半導体メモリデバイス
、内部ハードディスク及びリムーバブルハードディスク等の磁気ディスク、光磁気ディス
ク、DVD-ROM/RAM、並びにCD-ROM/RAMを含むあらゆる形態の物理的
で非一時的なコンピュータ可読型メモリが含まれるが、これらに限定されるわけではない
【0017】
「ネットワークノード」は、通信ネットワーク内の物理的な接合点又は接続点である。
ネットワークノードの例には、端末、コンピュータ、及びネットワークスイッチが含まれ
るが、これらに限定されない。「サーバシステム」は、1つ以上のネットワークノードを
備え、情報又はサービスの要求に応じるものである。「クライアントノード」は、情報又
はサービスをサーバシステムに要求するネットワークノードである。
【0018】
本明細書において、「含む(備える)」という用語は、その対象を含む(備える)が、
それらに限定されないことを意味し、「含んでいる(備えている)」という用語は、その
対象を含んでいる(備えている)が、それらに限定されないことを意味する。「基づく」
は、その対象に少なくとも部分的に基づくことを意味する。
【0019】
[II.購入関連電子メッセージのフィルタリング]
A.序論
人々は、世界中で毎日、2000億通近くの電子メールを送受信している。しかし、こ
れらの電子メールのうち、購入に関するものはごく少数にすぎない。結果として、ユーザ
のメッセージアカウントを取捨選択し、目下実用的な情報を定期的に得るのに十分な量の
購入関連電子メールを特定し、取得するのに、相当量の時間及びリソースが必要である。
【0020】
本明細書において説明する例によれば、購入関連情報を指定された受信者に伝えるため
に物理的なネットワークノード間で送信される購入関連電子メッセージを発見してフィル
タリングする改良されたシステム及び方法が提供される。これらのシステム及び方法は、
各販売業者によって使用され、販売業者間で異なる様々な電子メッセージフォーマットが
急増した結果として生じている実際的な問題を解決するものである。この点につき、これ
らの例は、機械生成の電子メッセージヘッダの構造及びセマンティックを自動的に学習で
き、これにより、新しいメッセージソース、新しいマーケット、及び種々の言語をサポー
トする能力が促進される。これらの例は、多種多様な電子メッセージフォーマットにわた
る購入関連電子メッセージを高精度で識別しフィルタリングすることができる、購入関連
電子メッセージの発見及びフィルタリングのサービスを提供する。
【0021】
本明細書において説明する例は、機械により生成された購入関連電子メッセージに特有
の構造的特徴に関する知見を利用して、購入関連電子メッセージを自動的に発見しフィル
タリングするプロセスを実施するものである。このプロセスは、コンピュータ装置の処理
を改良し、従来の手法に比べて、処理リソース、データストレージリソース、ネットワー
クリソース、及びフィルタ生成回数を大幅に削減する。いくつかの例では、この改良は、
ネットワーク通信環境における特定の電子メッセージ処理ルールの独自のシーケンスが実
行されるようにコンピュータ装置を構成することによる。いくつかの例では、複数の販売
業者によって送られる、複数の機械生成による購入関連電子メッセージの個別の特性を自
動的に学習し、処理がそれらの特性に自動的に合うようにコンピュータ装置を構成するこ
とによって、従来の手法を上回る更なる利点が得られる。いくつかの例は、例えば、機械
生成の購入関連電子メッセージのテンプレートの各セットを生成するために、複数の販売
業者によって用いられるそれぞれのテンプレートにおける種々のレベルの違いに合わせて
コンピュータ装置の処理を自動的に調整することによって、メッセージ発見プロセスの精
度及び効率を実質的に向上させる。
【0022】
特定の例において、これらのシステム及び方法は、一組の電子メッセージから、購入関
連電子メッセージの本文の構造的要素を定める各メッセージテンプレートに従って、機械
により生成される購入関連電子メッセージのヘッダを照合する電子メッセージフィルタを
自動的に学習できるようにプログラミングされる改良された特定用途のコンピュータ装置
を含む。また、これらのシステム及び方法は、1つ以上のメッセージサーバによって管理
される1つ以上のネットワークデータストレージシステムにおいて各ユーザアカウントに
関連付けられて記憶された一組の電子メッセージから購入関連電子メッセージを選択でき
るように、少なくとも1つのネットワーク通信チャネルに学習済み電子メッセージフィル
タを設ける(インストールする)ようプログラミングされる改良された特定用途のコンピ
ュータ装置を含む。
【0023】
これらの改良されたシステム及び方法によれば、商品購入情報を多種多様な電子メッセ
ージのタイプから識別、抽出し、集約することで、個人の購入履歴を可視化及び整理する
強化ツールを個人に提供できるとともに、的を絞った、あまり押し付けがましくない広告
戦略及び他のマーケティング戦略を可能にする様々な消費者層にわたる改良された販売業
者間の購入情報を販売業者及び他の組織へ提供することができる。これらの改良されたシ
ステム及び方法を展開して、消費者の購入を経時的にモニタし、個別の消費者について又
は多くの消費者にわたって集約することができる更新された購入履歴情報を取得し、消費
者の行動及び組織的マーケティング戦略を導く実用的な情報を提供することができる。例
えば、これらの改良されたシステム及び方法は、個別の電子メッセージから抽出された異
なる商品購入情報を、消費者が自身の以前の購入を整理し、自身の購入行動の理解を高め
るために用いることができるとともに、販売業者及び他の組織が自身のマーケティングキ
ャンペーンの精度及び投資利益率を改善するために用いることができる実用的なデータへ
と編成することができる。
【0024】
B.動作環境の例
図1に、ネットワーク11を有するネットワーク通信環境10の例を示す。ネットワー
ク11は、購入取引データ検索システム12と、商品を販売する1以上の商品販売業者1
4と、購入商品を購入者に配送する1以上の商品配送業者16と、メッセージ処理サービ
スを提供する1以上のメッセージプロバイダ18と、商品情報及びマーケット情報並びに
サービスを購入取引データ検索システム12から購入する1以上の購入取引情報利用者2
0とを相互に接続する。
【0025】
ネットワーク11は、ローカルエリアネットワーク(LAN)、メトロポリタンエリア
ネットワーク(MAN)、及びワイドエリアネットワーク(WAN)(例えば、インター
ネット)のうちの任意のものを含むことができる。ネットワーク11は、通常、購入取引
データ検索システム12と、1以上の商品販売業者14と、商品配送業者16と、メッセ
ージプロバイダ18と、購入取引情報利用者20との各ネットワークノード間での多種多
様な異なるメディアタイプ(例えば、テキスト、音声、オーディオ、及びビデオ)の伝送
をサポートする複数のコンピューティングプラットフォーム及び配信設備を有する。購入
取引データ検索システム12と、商品販売業者14と、商品配送業者16と、メッセージ
プロバイダ18と、購入取引情報利用者20との各々は、通常、ネットワークノード(例
えば、クライアントコンピュータ又はサーバシステム)を介してネットワーク11に接続
する。このネットワークノードは、有形のコンピュータ可読型メモリと、プロセッサと、
入出力(I/O)ハードウェア(ディスプレイを含みうる)とを備える。
【0026】
商品販売業者14のうちの1以上は、通常、個人及び会社が、ウェブブラウザ等のネッ
トワーク対応ソフトウェアアプリケーションを使用しネットワーク11を通じて商品を直
接購入することを可能とする。商品販売業者14のうちの1以上は、個人及び会社が物理
的な小売店舗において商品を購入することも可能とすることができる。いずれの場合も、
購入取引が完了した後、商品販売業者14は、商品購入者に関連付けられているメッセー
ジアドレスに商品購入確認電子メッセージを送信することができる。この商品購入確認メ
ッセージは、例えば、販売業者名、注文番号、注文日、配送予定日、商品説明、商品名、
商品数量、商品価格、消費税、送料、及び注文金額等の商品注文情報を含むことができる
。商品販売業者14は、商品を商品配送業者16のうちの一者によって配送してもらうよ
うに手配することもできる。購入された商品のタイプに応じて、商品配送業者16は、商
品を購入者へ物理的又は電子的に送ることができる。いずれの場合も、商品配送業者16
又は商品販売業者14は、購入者に関連付けられているメッセージアドレスに配送通知電
子メッセージを送信することができる。この配送通知電子メッセージは、例えば、商品注
文情報、請求先住所、配送会社、送付先住所、出荷予定日、配送予定日、及び追跡番号等
の商品出荷情報を含むことができる。
【0027】
一般に、購入者のメッセージアドレスは、電子メッセージを送信することができる任意
のタイプのネットワークアドレスとすることができる。そのようなメッセージアドレスの
例には、電子メール(eメール)アドレス、テキストメッセージアドレス(例えば、電話
番号又はテキストメッセージサービスのユーザ識別子などの送信者識別子)、ソーシャル
ネットワーキングサービスのユーザ識別子、及びファクシミリ電話番号が含まれる。購入
に関連した電子メッセージは、通常、購入者のメッセージアドレスに関連付けられている
メッセージプロバイダ18の各々を経て購入者へとルーティングされる。メッセージプロ
バイダ18は、通常、1つ以上のメッセージサーバによって管理される1つ以上のネット
ワークデータストレージシステムにおいて購入者のメッセージアドレスに関連付けられた
各メッセージフォルダに購入者の電子メッセージを保存する。
【0028】
購入取引データ検索システム12は、商品購入者の電子メッセージから購入取引情報を
抽出する。いくつかの例では、購入取引データ検索システムは、メッセージプロバイダ1
8によって管理される商品購入者の各メッセージフォルダにアクセスする許可を商品購入
者から得る。別の例では、商品購入者は、購入取引データ検索システム12が、商品購入
者のローカル通信デバイス(例えば、パーソナルコンピュータ又はモバイルフォン)に記
憶された電子メッセージにアクセスすることを許可する。
【0029】
図2に示すように、購入取引データ検索システム12は、購入者の電子メッセージ22
にアクセスする許可を得たのち、複数のステージを通じて電子メッセージ22を処理し、
購入取引情報利用者20に提供されることになる処理済みデータ24を生成する。これら
のステージには、メッセージ発見ステージ26と、フィールド抽出ステージ28と、デー
タ処理ステージ30とが含まれる。
【0030】
メッセージ発見ステージ26では、購入取引データ検索システム12は、商品購入に関
係する電子メッセージ22を特定する。いくつかの例では、ルールベースのフィルタ及び
機械学習分類器を用いて、購入関連電子メッセージを特定する。
【0031】
フィールド抽出ステージ28では、購入取引データ検索システム12は、電子メッセー
ジ22のうち、特定されたものから商品購入情報を抽出する。このような商品購入情報の
例には、販売業者名、注文番号、注文日、商品説明、商品名、商品数量、商品価格、消費
税、送料、注文金額、請求先住所、配送会社、送付先住所、出荷予定日、配送予定日、及
び追跡番号が含まれる。
【0032】
データ処理ステージ30では、購入取引データ検索システム12は、種々のタイプの購
入取引情報利用者20に従って、抽出された商品購入情報を処理する。例えば、個人ユー
ザの場合、抽出された商品購入情報は、例えば、そのユーザの購入についての情報が示さ
れるように処理される。この情報は、配送中の注文を追跡するための情報と、購入の詳細
にアクセスするための情報と、集約された購入サマリ情報とを含む。広告主の場合、抽出
された商品購入情報は、例えば、消費者の購入履歴に基づいて消費者への的を絞った広告
を支援できるように処理される。マーケットアナリストの場合、抽出された商品購入情報
は、例えば、小売業者、カテゴリ、及びデバイスにわたる匿名の品目レベルの購入詳細を
提供できるように処理される。
【0033】
C.購入関連電子メッセージの発見及びフィルタリング
以下で詳細に説明する例では、購入取引情報データ検索システム12は、フィルタ学習
システムを有する。このフィルタ学習システムは、購入関連電子メッセージの構造的要素
をそれぞれ定める各メッセージテンプレートに従って機械により生成される電子メッセー
ジの組などの、類似した購入関連電子メッセージの各組のヘッダを照合する電子メッセー
ジフィルタを自動的に学習する。
【0034】
図3に、商品注文の確認電子メッセージ32の一例を示す。確認電子メッセージ32は
、ヘッダ34及び本文35を含む。ヘッダ34は、以下の標準の構造的要素、すなわち、
「From:」と、「To:」と、「Date:」と、「Subject:」とを含む。
また、ヘッダは、図3には示されていない以下の構造的要素、すなわち、「Cc:」と、
「Content-Type」と、「Precedence:」と、「Message-
ID:」と、「In-Reply-To:」と、「References:」と、「Re
ply-To:」と、「Archived-At:」と、「Received:」と、「
Return-Path:」とのうちの1つ以上を含む。本文36は、以下の、販売業者
ごとの機械生成による構造的要素、すなわち冒頭の「Dear」36と、情報を有する標準的
なテキスト37(すなわち、「Thank you for placing your order ... once your item
has been shipped.」)と、「Order Number:」38と、「Order Summary」40と、「Pro
duct Subtotal:」42と、「Discounts:」と、「Shipping Charges:」46と、「Tax:」
48と、「Total:」50と、「Part No」52と、「Product Price」54と、「Discount
」56と、「Part No」58と、「Product Price」60と、「Discount」62とを含む。
構造的要素34~50は、固定要素であり、構造的要素52~56の組及び58~62の
組は、それぞれ反復する要素において繰り返される同じ固定要素を含む。電子メッセージ
の非構造的要素(例えば、価格、注文番号、及び品番)は、商品購入情報プロバイダ12
のパーサ部によって抽出及び分類されるデータフィールドである。
【0035】
図4に、一例として、1以上の電子メッセージフィルタを自動的に作る方法66を示す
。この方法により、コンピュータ装置は、ネットワークノード間で送信され、1以上のメ
ッセージサーバによって管理される1以上のネットワークデータストレージシステムにお
いて各ユーザアカウントに関連付けられて記憶されている電子メッセージの集合を処理す
る。この集合における電子メッセージの各々は、送信者とヘッダと本文とに関連付けられ
ている。
【0036】
図示の例では、コンピュータ装置は、1以上の電子メッセージ送信者の各々に関して図
4の方法を実行するようプログラムが組まれている(図4、ブロック68)。送信者は、
単一の電子メッセージアドレス(例えば、sales@store.com)又は複数の
電子メッセージアドレスに関連付けることができる送信者ドメイン(例えば、@sto
re.com)に対応しているものとすることができる。
【0037】
コンピュータ装置は、ネットワークデータストレージシステムのうちの1つ以上からヘ
ッダをフェッチする(図4、ブロック70)。フェッチされたヘッダは、特定の送信者ド
メインに関連付けられる場合もあれば、送信者ドメインとは無関係にフェッチされる場合
もある。コンピュータ装置は、フェッチされたヘッダをクラスタへとグループ化する(図
4、ブロック72)。このプロセスでは、各送信者につき、フェッチされた各ヘッダは、
メッセージ本文の内容とは無関係に、クラスタ内のヘッダ同士の類似度に基づいてクラス
タに割り当てられる。1以上のクラスタの各々につき(図4、ブロック74、80)、コ
ンピュータ装置は、1つ以上のネットワークデータストレージシステムから、フェッチさ
れてクラスタに割り当てられたヘッダに関連付けられている電子メッセージのうちの1つ
以上の各サンプルを取得する(図4、ブロック76)。また、コンピュータ装置は、機械
学習分類器を用いて、サンプル内の検索された1つ以上の電子メッセージのヘッダ及び本
文の内容に基づいて、クラスタを受取りに関係するもの又は受取りに関係しないものとし
て指定する(図4、ブロック78)。コンピュータ装置は、受取りに関係するものとして
指定された1以上のクラスタの各々につき、各電子メッセージフィルタを自動的に生成す
る。各電子メッセージフィルタは、電子メッセージのヘッダ内の件名フィールド文字列の
各パターンを照合するそれぞれのルールを定めるとともに、1つ以上のネットワークデー
タストレージシステムによって管理される1つ以上のデータストレージシステムにおいて
各ユーザアカウントに関連して記憶されている電子メッセージのクロールを行う(図4
ブロック82)。
【0038】
図4に示す手法は、3つの主要なステージ、すなわち、(i)ヘッダを、類似した構造
的要素を有する電子メッセージのクラスタにグループ化するヘッダ構造学習ステージと、
(ii)どのヘッダクラスタが1つ以上の購入関連電子メッセージタイプに対応している
かを正確に特定するサンプルベースの分類ステージと、(iii)フィルタ生成ステージ
とを有する。(例えば、ヘッダ及び本文を含む)完全な電子メッセージの処理は、ヘッダ
のみの処理よりも実質的に多くのリソースを消費する。検索され、分類ステージにおいて
処理される完全な電子メッセージの数を、サンプリングにより大幅に減らすことができる
。このように、図4の方法によれば、従来の手法に比べて、処理リソース、データストレ
ージリソース、ネットワークリソース、及び電子メッセージフィルタを作るのに必要なフ
ィルタ生成回数を大幅に減らすことができる。加えて、本システムは、ヘッダと、ヘッダ
クラスタに対応する(通常、受領等の機械生成の電子メッセージに対応する)完全な電子
メッセージの少数のサンプルとのみを取得するため、ユーザの個人的な電子メッセージを
不注意で取得してしまう可能性が低く、したがってユーザプライバシは本質的に守られる
【0039】
この手法は、各クラスタに関連付けられる完全な電子メッセージのサンプルのみに基づ
いてヘッダが分類されているものの、高精度なフィルタを生成するために機械生成の電子
メッセージの本質的な構造的性質を利用するものである。特に、ヘッダ構造学習ステージ
では、機械生成の電子メッセージに適用されると、同じメッセージテンプレートによって
生成されている可能性のある電子メッセージヘッダの密なクラスタを生成することができ
る。結果として、分類ステージにおいて各クラスタを表すのに必要なのは、ほんのわずか
又はたった1つの、サンプルとなる完全な電子メッセージのみである。
【0040】
図5に、図4のフィルタ構築方法の複数のステージにおいて処理されるデータの一例を
示す。この例では、フェッチするステージ84は、特定の送信者ドメインに対応する電子
メッセージの例としての集合内の1000万個のヘッダ全てをフェッチすることを含む。
クラスタリングステージ86は、1000万個のヘッダを200個のヘッダクラスタに分
けることを含む。クラスタ分類ステージ88は、200個のクラスタの各々につき10通
の電子メッセージからなる所定の固定的なサイズのサンプルに対応する2000通の完全
な電子メッセージを取得することと、機械学習分類器を用いてそれぞれの電子メッセージ
サンプルを分類することとを含む。フィルタ生成ステージ90は、購入に関連するものと
して分類される各クラスタのフィルタを構築することを含む。したがって、この仮定的な
例では、電子メッセージフィルタを生成するために処理される完全な電子メッセージの数
(すなわち、2000通)は、この集合における電子メッセージの総数のたった0.02
%に過ぎない。結果として、従来の手法に比べて、処理リソース、データストレージリソ
ース、ネットワークリソース、及びフィルタ生成回数が大幅に削減される。
【0041】
いくつかの例では、これらの実質的な利点は、少なくとも部分的に、コンピュータ装置
が購入関連電子メッセージのヘッダを特定する方法を改良する特定のコンピュータ可読型
命令をコンピュータ装置にプログラミングすることから得られる。場合によっては、コン
ピュータ装置の購入関連ヘッダの識別能力は、コンピュータ装置に、電子メッセージヘッ
ダを密なクラスタに分類させ、次いで、機械学習分類器を用いて、各ヘッダクラスタに関
連付けられる完全な電子メッセージの少数のサンプルに基づいて購入関連ヘッダクラスタ
を識別させる特定の命令をコンピュータ装置に設定することによるものである。
【0042】
図6は、図4の電子メッセージフィルタ構築プロセスの一例98のフロー図である。こ
の方法によれば、コンピュータ装置は、ネットワークノード間で送信され、1つ以上のメ
ッセージサーバによって管理される1つ以上のネットワークデータストレージシステムに
おいて各ユーザアカウントに関連付けられて記憶されている電子メッセージの集合を処理
する。この集合における電子メッセージの各々は、送信者とヘッダと本文とに関連付けら
れている。
【0043】
この例では、コンピュータ装置は、1以上の電子メッセージ送信者からの電子メッセー
ジに基づいて、図6の方法の1つ以上の要素を実行できるようにプログラミングされてい
る(図6、ブロック100)。前述のとおり、送信者は、単一の電子メッセージアドレス
(例えば、sales@store.com)又は複数の電子メッセージアドレスに関連
付けることができる送信者ドメイン(例えば、@store.com)に対応したもの
とすることができる。
【0044】
図6の方法によれば、コンピュータ装置(例えば、クライアントネットワークノード)
は、1以上のメッセージサーバから、送信者に関連付けられ、複数のユーザアカウントに
わたってネットワークデータストレージシステムのうちの1つ以上に記憶されている集合
内のヘッダをフェッチする(図6、ブロック102)。ある例では、コンピュータ装置は
、電子メッセージの集合内の全ての電子メッセージヘッダをフェッチする。別の例では、
コンピュータ装置は、この集合内の電子メッセージヘッダの1つ以上のサンプルをフェッ
チする。
【0045】
ヘッダをフェッチする前に、コンピュータ装置は、通常、ユーザから直接、又は、アク
セス許可サービス等の第三者サービスにより間接的にユーザのメッセージアカウントにア
クセスする許可を取得する。コンピュータ装置は、その後、アクセス許可により、ユーザ
のメッセージアカウントから送信者に関連付けられたヘッダをフェッチする。いくつかの
例では、コンピュータ装置は、(例えば、電子メッセージAPIを呼び出すことによって
)ユーザのメッセージアカウントのクロールを行い、電子メッセージヘッダの内容を解析
し評価する電子メッセージクローリングエンジンを実装する。いくつかの例では、電子メ
ッセージクローリングエンジンは、「From:」フィールド及び「Subject:」
フィールドの一方又は両方を解析し、1つ以上のフィルタ(例えば、正規表現フィルタ)
を解析された結果に適用して、対象の送信者に対応するヘッダを特定する。
【0046】
コンピュータ装置は、クラスタを、クラスタリングデータ空間内のそれぞれの密な領域
と関連付ける密度ベースのクラスタリングプロセスに基づいて、フェッチされたヘッダを
クラスタにグループ化する(図6、ブロック104)。クラスタリングデータ空間におい
て、フェッチされたヘッダは、フェッチされたヘッダの各ペア間の類似度に基づいて互い
に離れている。一般的に、任意の密度ベースのクラスタリングプロセスを用いることがで
きる。いくつかの例では、図8及び図9に関連して後述する反復型クラスタリングプロセ
スを用いて、フェッチされたヘッダをクラスタに分ける。別の例では、コンピュータ装置
は、ノイズを認める密度ベースの空間クラスタリング(DBSCAN:Density-Based Sp
atial Clustering of Applications with Noise)というクラスタリングプロセスを用い
て、フェッチされたヘッダをクラスタに分ける。
【0047】
いくつかの例では、コンピュータ装置は、ヘッダをクラスタに分ける前に、電子メッセ
ージヘッダ内の件名フィールドの前処理を行う。いくつかの例では、コンピュータ装置は
、空白スペースによって隔てられた、記号(例えば、英数字を表す記号)の連続する文字
列を抽出することによってヘッダ内の件名フィールドのテキストベースの内容をトークン
化する。連続する記号文字列は、通常、単語及び数字に対応する。いくつかの例では、コ
ンピュータ装置は、大文字を小文字に置き換えることと、句読点を削除することと、電子
メッセージヘッダ内の整数及び実数のパターンに合うトークンをワイルドカードトークン
に置き換えることとによって、件名フィールドの内容を正規化する。いくつかの例では、
整数は「INT」というワイルドカードトークンに置き換えられ、実数は「FLOAT」
というワイルドカードトークンに置き換えられる。件名フィールドの正規化により、コン
ピュータ装置が購入関連電子メッセージを見いだす能力が向上する。
【0048】
いくつかの例では、フェッチされたヘッダの各ペア間の類似度は、電子メッセージのヘ
ッダ内の文字列のペアの内容の類似度及び相違の度合いを比較する内容類似度の基準に基
づいて求められる。これらの例のうちのいくつかでは、各ヘッダの件名フィールドは、バ
イグラム(すなわち、2文字の語句)の組に分解される。これらの例のうちのいくつかで
は、類似度の基準は、ジャッカード(Jaccard)類似度係数に対応する。ジャッカ
ード類似度係数は、2つのヘッダ間の類似度を、両ヘッダのバイグラムの共通集合のサイ
ズを和集合のサイズで割った結果に基づいて測るものである。
【0049】
ヘッダがクラスタに分けられたのち、コンピュータ装置は、1つ以上のクラスタの各々
につき、以下のプロセスを実行する(図6、ブロック108)。
【0050】
コンピュータ装置(例えば、クライアントネットワークノード)は、メッセージサーバ
のうちの1つ以上から、クラスタ内のフェッチされたヘッダに関連付けられ、ネットワー
クデータストレージシステムのうちの1つ以上に記憶されている集合内の電子メッセージ
のそれぞれのサンプルを取得する(図6、ブロック108)。いくつかの例では、コンピ
ュータ装置は、各クラスタにつき、所定の数(例えば、10通、5通、又は1通)の電子
メッセージを取得する。他の例では、コンピュータ装置は、例えば、クラスタ内のヘッダ
を特徴付ける統計的な基準に応じた、各クラスタについて変えられる数の電子メッセージ
を取得する。
【0051】
コンピュータ装置は、機械学習分類器により、1以上の購入関連ラベルと、関連する信
頼度とを含むラベルの所定の組の各ラベルを用いて、検索されたサンプル内の各電子メッ
セージを分類し、当該クラスタのそれぞれの分類データセットを生成する(図6、ブロッ
ク110)。
【0052】
いくつかの例では、機械学習分類器は、教師あり機械学習モデル(例えば、ロジスティ
ック回帰モデル又は単純ベイズモデル)により、購入関連電子メッセージのバッグオブワ
ーズ(bag-of-words)表現についての学習がなされている。これらの例のうちのいくつか
では、バッグオブワーズ表現は、特定の購入関連電子メッセージを記述する記述的特徴を
含む。いくつかの例では、各特徴は、文字列(例えば、単語)及びその文字列が所定の辞
書に現れる回数を表す。いくつかの例では、その辞書は、件名フィールド内の単語又はn
グラムと、送信者アドレスの態様(例えば、「@」記号の前のテキスト)と、メッセージ
本文内の単語と、メッセージ本文内の画像の数とを含む。
【0053】
いくつかの例では、ラベルの所定の組は、電子メッセージが受取りに関係するものか、
又は受取りに関係しないものであるかを示すラベルからなる。このタイプの一例としての
ラベルセットは、{「受取り」、「不明」}である。他の例では、機械学習分類器は、電
子メッセージを複数の購入関連電子メッセージのカテゴリに分類する。このタイプの一例
としてのラベルセットは、以下のラベルすなわち{「注文通知」、「配送通知」、「払戻
し」、「キャンセル」、「取寄せ注文」、「クーポン」、「販売促進」、「不明」}のう
ちのいくつか又は全てを含む。
【0054】
いくつかの例では、機械学習分類器は、各クラスタにつき、サンプリングされた電子メ
ッセージの各々に、所定のラベルセットから選択されたそれぞれの予測されるラベル、及
び、予測されたラベルに関連付けられる信頼度を割り当てる。各クラスタのそれぞれの分
類データセットは、電子メッセージの対応するサンプルに関する予測されたラベル及びそ
れらの関連付けられたラベルの信頼度のセットを含む。
【0055】
コンピュータ装置は、それぞれの分類データセットをそれぞれのクラスタラベルにマッ
ピングする少なくとも1つのクラスタ分類ルールに基づいて、各クラスタに、所定のラベ
ルセットから選択されたそれぞれのクラスタラベルを割り当てる(図6、ブロック112
)。いくつかの例では、クラスタ分類ルールは、コンピュータ装置に対し、1つ以上の信
頼因子に基づく特定のラベルを使ってクラスタのラベル付けをするように命令する。信頼
因子は、同じラベルが割り当てられた対応するサンプル内の電子メッセージの数、及び、
割り当てられたラベルに関連付けられた信頼度などである。このようなクラスタ分類ルー
ルの一例に従って、特定のラベルが、信頼度閾値(例えば、98%以上)を満たすそれぞ
れの信頼度を持ってサンプル内の全ての電子メッセージに割り当てられた場合、クラスタ
は、その特定のラベルでラベル付けされる。いくつかの例では、特定のクラスタの信頼因
子が信頼閾値を満たさない場合、クラスタ内の電子メッセージは手動分類用としてのフラ
グが付けられる。
【0056】
いくつかの例では、特定の電子メッセージの予測されたラベルが、信頼度閾値未満であ
ると判断されると、コンピュータ装置は、手動分類用としてその特定の電子メッセージに
フラグを付ける。いくつかの例では、手動でラベルが付けられた電子メッセージを用いて
、機械学習分類器の学習用セットを拡張する。
【0057】
コンピュータ装置は、購入関連ラベルが割り当てられた各クラスタにつき、購入関連電
子メッセージをフィルタリングするそれぞれのフィルタを自動的に生成する(図6、ブロ
ック116)。いくつかの例では、フィルタを生成するプロセスは、それぞれのクラスタ
におけるヘッダ内の共通の部分文字列を特定することと、特定された部分文字列に基づい
て、それぞれのフィルタ(例えば、正規表現フィルタ)を生成することとを含む。各フィ
ルタは、通常、電子メッセージ内の件名フィールド文字列のそれぞれのセットの一致パタ
ーンを定める。いくつかの例では、シーケンスマイニングを用いて、ヘッダ内のnグラム
(すなわち、テキストの所与のシーケンスに関するn個のアイテムが連続するシーケンス
)の解析に基づいてフィルタを生成する。これらの例は、各クラスタ内のヘッダの件名フ
ィールドに現れるnグラムのそれぞれの個数を求めることと、それぞれのフィルタに、顕
著な個数(例えば、そのnグラムは、高い割合でこのヘッダ内に現れる)に関連付けられ
るnグラムのうちの1つ以上を組み込むこととを含む。これらの例のうちのいくつかでは
、シーケンスマイニングは、ヘッダの件名フィールド内のバイグラムを解析することを含
む。各クラスタからそれぞれのフィルタを自動的に生成する方法の一例は、図11に関連
して以下に説明する。
【0058】
各購入関連クラスタのそれぞれのフィルタを生成した後、プロセッサは、1つ以上のメ
ッセージサーバによって管理される1つ以上のネットワークデータストレージシステムに
おいて各ユーザアカウントに関連付けられて記憶されている電子メッセージのセットから
購入関連電子メッセージを選択するために、少なくとも1つのネットワーク通信チャネル
内にフィルタのうちの1つ以上を設ける(インストールする)ことができる。いくつかの
例では、コンピュータ装置は、ユーザのメッセージアカウントのクロールを行い、電子メ
ッセージヘッダの内容を解析し評価する電子メッセージクローリングエンジンを実装する
。いくつかの例では、電子メッセージクローリングエンジンは、ユーザの電子メッセージ
の「From:」というヘッダフィールド及び「Subject:」というヘッダフィー
ルドを解析し、生成されたフィルタ(例えば、正規表現フィルタ)のうちの1つ以上を解
析された結果に適用して、対象の送信者に対応する購入関連ヘッダを識別する。その後、
電子メッセージクローリングエンジンは、識別された購入関連ヘッダに対応する完全な電
子メッセージを検索する。いくつかの例では、各フィルタは、1つ以上の電子メッセージ
本文抽出パーサのそれぞれのセットに関連付けられる。これらの例では、そのセット内の
電子メッセージのうちのそれぞれ1つに一致する各フィルタに関して、コンピュータ装置
は、一致したフィルタに関連付けられた1つ以上の電子メッセージ本文抽出パーサを用い
て電子メッセージ本文を解析することを試みる。メッセージ本文抽出パーサの例は、米国
特許第8,844,010号、米国特許第9,563,915号及び米国特許第9,56
3,904号に記載されている。
【0059】
図7は、メッセージフィルタを構築するシステム118の例の説明図である。システム
118は、ネットワークノード間で送信され、それぞれのメッセージサーバ(例えば、メ
ッセージプロバイダ1、メッセージプロバイダ2、...、メッセージプロバイダM)に
よって管理される1つ以上のネットワークデータストレージシステム122、124、1
26において各ユーザアカウント(例えば、alice、bob、clark、dan、eric、peter、及
びrob)に関連付けられて記憶されている電子メッセージの集合を処理する。
【0060】
システム118は、1人以上の送信者の各々につき、送信者に関連付けられ、複数のユ
ーザアカウントにわたってネットワークデータストレージシステム122~126のうち
の1つ以上に記憶されている電子メッセージの集合内のヘッダのそれぞれのサンプルをフ
ェッチするヘッダサンプラ120を有する。送信者に関連付けられている全てのヘッダを
フェッチするのではなく、利用可能なヘッダのサンプルのみをフェッチすることにより、
ヘッダサンプラ120は、処理リソース、データストレージリソース、ネットワークリソ
ース、及び、電子メッセージフィルタを作るのに必要な生成回数を削減することでコンピ
ュータ装置の動作を向上させる。他の例では、ヘッダサンプラ120は、送信者ドメイン
にわたるヘッダのサンプルをフェッチする。
【0061】
プリプロセッサ128は、ヘッダをクラスタに分ける前に電子メッセージヘッダのフェ
ッチされたサンプル内の件名フィールドの前処理を行う。いくつかの例では、プリプロセ
ッサ128は、図6の方法について上述のフェッチプロセスに関して上述した前処理ステ
ップのうちの1つ以上を実行する。いくつかの例では、プリプロセッサ122はまた、同
一の件名フィールドコンテンツを有する全てのヘッダを単一のインスタンスとして扱うこ
とによりヘッダデータの重複を取り除く。このようにして、プリプロセッサ128は、処
理リソース、データストレージリソース、ネットワークリソース、及び電子メッセージフ
ィルタを構築するのに必要な生成回数を更に削減する。
【0062】
クラスタエンジン130は、送信者ドメインによりサンプル内の前処理されたヘッダを
クラスタに分ける。いくつかの例では、グループ分けは、クラスタを、クラスタリングデ
ータ空間内のそれぞれの密な領域と関連付ける密度ベースのクラスタリングプロセスに基
づく。クラスタリングデータ空間内では、前処理されたヘッダは、前処理されたヘッダの
それぞれのペア間の類似度に基づいて互いに離れている。いくつかの例では、フェッチさ
れたヘッダのそれぞれのペア間の類似度は、電子メッセージのヘッダ内の内容の類似度及
び相違度を比較する内容類似度の基準に基づいて求められる。比較される一例としてのヘ
ッダ内容は、件名フィールド及び送信者メッセージアドレス内のテキスト(例えば、文字
列、nグラム、及び/又は語)を含む。これらの例のうちのいくつかでは、2つのヘッダ
の件名フィールドの類似度は、ジャッカード類似度係数を用いて測定される。ジャッカー
ド類似度係数は、両ヘッダの類似度を、件名フィールド内のバイグラムの共通部分のサイ
ズを和集合のサイズで割った結果に基づいて測るものである。
【0063】
図8に示すように、前処理されたヘッダの各ペア間で計算される類似度スコアは、ヘッ
ダが、クラスタリングデータ空間132内で互いにどれほど近接しているかを定めるもの
である。いくつかの例では、クラスタリングプロセスは、グラフ内で接続される要素を特
定することを含む。それらの接続類似度スコアが類似度閾値レベルよりも大きい場合、(
ヘッダを表す)円形ノード間には関連性がある。図8は、前処理された20個のヘッダの
サンプルを、(破線で囲まれて示されている)12個のクラスタに分けた例を示している
【0064】
図9に、変えられる類似度閾値を用いた代替的なクラスタリングプロセスを示す。これ
は、複数の送信者によって生成される機械生成の電子メッセージ内のそれぞれの可変性を
本質的に表す、ヘッダ間の関連性の最適なセットを反復的に求めるためのものである。
【0065】
クラスタリングプロセスは、現在の類似度閾値レベルを類似度閾値の初期値Tに設定
することで開始する(図9、ブロック140)。いくつかの例では、類似度閾値は、ジャ
ッカード類似度基準に対応する。いくつかの例では、類似度閾値の初期値Tは、0から
1の類似度尺度に関して初期レベルに設定される。いくつかのこれらの例では、類似度閾
値の初期値Tは、0.6≦T≦0.8の範囲である。
【0066】
次に、サンプル内のヘッダは、現在の閾値レベルTに基づいてセットC内のクラス
タに分けられ(図9、ブロック142)、セットC内の分けられたクラスタのセット内
のクラスタの数Nが記憶される(図9、ブロック144)。いくつかの例では、ヘッダ
を分類するプロセスは、それぞれのメッセージヘッダの件名フィールド内のテキスト(例
えば、文字列、nグラム、及び/又は単語)の比較に基づいて、フェッチされたメッセー
ジヘッダのそれぞれのペア間の類似度スコアを計算することと、計算された類似度スコア
と現在の閾値レベルとの比較に基づいて、フェッチされたヘッダをクラスタに分けること
とを含む。
【0067】
プロセスの第2回目の反復は、別の閾値Tを用いて繰り返される(図9、ブロック1
46、148、142、144)。いくつかの例では、各反復につき、現在の閾値は、そ
れまでの閾値よりも小さい。閾値のセット{T}は、(例えば、数式又はアルゴリズム
に基づいて)動的に定めることができるか、前もって定めておくことができる。いくつか
の例では、所定の値(例えば、0から1の類似度尺度において0.1)だけ、それまでの
閾値をデクリメントすることによって、一連の閾値の各々が求められる。
【0068】
クラスタリングプロセスの第2回目の反復において、サンプル内のヘッダは、現在の閾
値レベルTに基づいてクラスタのセットCに再び分けられ(図9、ブロック142)
、分けられたクラスタCのセット内のクラスタ数Nが記憶される(図9、ブロック1
44)。ユニークな(一意の、独自の)件名を含むヘッダからなるC内のクラスタが識
別され、ユニークな件名を含むヘッダからなるC内の全ての識別されたヘッダ数M
求められる(図9、ブロック150)。いくつかの例では、件名がクラスタ内の他のヘッ
ダの件名と共通する単語を一切含まない場合、ヘッダは、ユニークな件名を有していると
判断される。他の例では、ユニークな件名フィールドラインは、クラスタ内のヘッダの件
名フィールドライン内の文字列又はnグラムの間の比較等、件名フィールドコンテンツの
他のテキストベースの比較に基づいて識別される。
【0069】
ユニークな件名を有するヘッダからなるクラスタ内のヘッダ数Mが、閾値MTHより
も大きい場合(図9、ブロック152)、ユニークな件名の数が多すぎると見なされ、複
数のクラスタのうちの先行するセット内のクラスタ(すなわち、Ci-1)が、ヘッダの
現在のサンプルの出力クラスタセット160として、クラスタエンジン130から返され
る(図9、ブロック156)。また、現在の反復におけるクラスタ数N及び先行する反
復におけるクラスタ数Ni-1が、類似度基準を満たす場合(図9、ブロック152)、
クラスタの数は収束したと見なされ、複数のクラスタのうち、前回のセット内のクラスタ
(すなわち、Ci-1)が、ヘッダの現在のサンプルの出力クラスタセット160として
、クラスタエンジン130により返される(図9、ブロック156)。
【0070】
いくつかの例では、類似度の基準は、現在のクラスタ数及び先行するクラスタ数の間の
差の比を、先行する反復におけるクラスタの数と比較する。いくつかのこれらの例では、
類似度基準は、以下の式に対応する。
【数1】
【0071】
ブロック152及びブロック154におけるテストがいずれも満たされない場合、クラ
スタリングプロセスの別の反復が、次のクラスタリング閾値を用いて繰り返される(図9
、ブロック148)。
【0072】
図7を再び参照すると、クラスタエンジン130が、ヘッダのサンプルをクラスタ16
0に分類した後、電子メッセージサンプラ162は、各ヘッダクラスタ160内のヘッダ
のそれぞれのサンプルを選択し、メッセージプロバイダから、選択されたヘッダに関連付
けられている完全な電子メッセージ164を取得する。その結果は、ヘッダ160の各ク
ラスタiに関する電子メッセージ164のそれぞれのサンプルiである。
【0073】
電子メッセージ164の各サンプルiに関して、電子メッセージ分類器166は、サン
プル内の要素の電子メッセージの各々を分類する。いくつかの例では、電子メッセージ分
類器166は、図4及び図6に関して上述したタイプの機械学習分類器である。機械学習
分類器は、ラベル及び関連付けられた信頼度のそれぞれのセット168を、各サンプル内
の電子メッセージ164に割り当てる。いくつかの例では、特定の電子メッセージの予測
されたラベルが、信頼度閾値未満であるとの判断に応じて、コンピュータ装置は、手動の
分類用として特定の電子メッセージにフラグを付ける(図7、ブロック170)。いくつ
かの例では、手動でラベル付けがされた電子メッセージを用いて、電子メッセージ分類器
166に学習させる。
【0074】
いくつかの例では、クラスタ分類ルールは、コンピュータ装置に対し、同じラベルを割
り当てられた対応するサンプル内の電子メッセージの数、及び、割り当てられたラベルに
関連付けられた信頼度などの1つ以上の信頼因子に基づく特定のラベルを用いてクラスタ
にラベル付けするように命令する。いくつかの例では、信頼因子が、1つ以上の信頼閾値
を満たさない場合(図7、ブロック172)、クラスタ内の電子メッセージは、手動分類
用としてのフラグが付けられる(図7、ブロック170)。
【0075】
それぞれの購入関連ラベルが割り当てられた各クラスタに関して(図7、ブロック17
4)、コンピュータ装置は、購入関連電子メッセージをフィルタリングするそれぞれのフ
ィルタ175を自動的に生成する(図7、ブロック176)。
【0076】
図示の例では、あるクラスタに各購入関連ラベルが割り当てられない場合(図7、ブロ
ック174)、コンピュータ装置は、ヘッダ160の次のクラスタに関する電子メッセー
ジ164の次のサンプルi=i+1を処理することに直接進む(図7、ブロック177)
。このプロセスでは、コンピュータ装置は、次のサンプルi=i+1内の構成要素の電子
メッセージの分類に基づいてクラスタラベリングプロセスを繰り返す(図7、ブロック1
66~172)。
【0077】
代替的な例では、電子メッセージ164の次のサンプルi=i+1を処理することに直
接進む(図7、ブロック177)のではなく、コンピュータ装置は、購入関連ラベルが割
り当てられていない各クラスタに関して、非商品購入関連電子メッセージをフィルタリン
グするそれぞれのフィルタ179を自動的に生成する(図7、ブロック178)。これら
の例のうちのいくつかでは、非商品購入関連電子メッセージフィルタ179は、ヘッダサ
ンプラ120の構成要素(図7に示されている)又は別個のプリフィルタの部分として、
メッセージフィルタ構築システム118のフロントエンドに設けられる(インストールさ
れる)。非商品購入関連電子メッセージフィルタ179を用いて、ヘッダサンプラ120
によってフェッチされた非商品購入関連電子メッセージのヘッダを取り除く。このように
して、それまでに識別された非商品購入関連電子メッセージに対応するヘッダを有する電
子メッセージを取り除き、処理リソース、データストレージリソース、ネットワークリソ
ース、及び、購入関連電子メッセージフィルタを構築するのに必要な生成回数を更に削減
することができる。
【0078】
図10に、図7のメッセージフィルタ構築システム118の要素が組み込まれ、さらに
、フェッチされたヘッダデータのサンプルからフィルタを構築する反復プロセスを実装し
たメッセージフィルタ構築システム180の一例を示す。
【0079】
この例では、ヘッダサンプラ120は、1人以上の送信者の各々につき、送信者に関連
付けられ、複数のユーザアカウントにわたってネットワークデータストレージシステム1
22~126のうちの1つ以上において記憶されている電子メッセージの集合内のヘッダ
の各サンプルをフェッチする。他の例では、ヘッダサンプラ120は、送信者ドメインに
わたってヘッダのサンプルをフェッチする。プリプロセッサ128は、ヘッダをクラスタ
に分ける前に、電子メッセージヘッダのフェッチされたサンプル内の件名フィールドの前
処理をする。クラスタエンジン130は、クラスタを、クラスタリングデータ空間内のそ
れぞれの密な領域と関連付ける密度ベースのクラスタリングプロセスに基づいて、前処理
されたヘッダをクラスタ160に分ける。クラスタリングデータ空間内では、前処理され
たヘッダは、前処理されたヘッダのそれぞれのペア間の類似度に基づいて互いに離れてい
る。購入関連ラベルが割り当てられたヘッダクラスタ160の各セットiに関して、コン
ピュータ装置は、図7に関して上述した方法に従って、購入関連電子メッセージをフィル
タリングするフィルタのそれぞれのセットiを自動的に生成する(例えば、図7、ブロッ
ク176を参照)。
【0080】
フィルタ構築プロセスの第1回目の反復において、メッセージフィルタ構築システム1
80は、送信者に関連付けられたヘッダのそれぞれの第1のサンプルから、各送信者に関
するフィルタのそれぞれの第1のセット(すなわち、{フィルタセットi})を構築する
【0081】
このプロセスは、各送信者に関する電子メッセージ集合内のヘッダのそれぞれの第2の
サンプルに関して繰り返される。フィルタ構築プロセスのこの第2の反復では、メッセー
ジフィルタ構築システム180は、送信者に関連付けられたヘッダのそれぞれの第2のサ
ンプルから、各送信者に関するフィルタのそれぞれの第2のセット(すなわち、{フィル
タセットi+1})を構築する。
【0082】
フィルタ結果は、送信者ごとに比較される(図10、ブロック182)。このプロセス
において、コンピュータ装置は、各送信者に関して、当該送信者に対応する集合内の全て
のヘッダのそれぞれのセットを検索する(図10、ブロック183)。送信者に関するフ
ィルタのそれぞれの第1のセット及び第2のセット(すなわち、{フィルタセットi}及
び{フィルタセットi+1})は、その後、{フィルタ結果i}及び{フィルタ結果i+
1}を生成するために、送信者に対応する集合内の全てのヘッダのそれぞれのセットに適
用される。
【0083】
フィルタリング結果が似ている場合(図10、ブロック184)、フィルタ構築プロセ
スは終了する(図10、ブロック186)。いくつかの例では、フィルタの第1のセット
及び第2のセット内のどのフィルタにも一致しない、ヘッダの完全なセット内で検索され
たヘッダの数の比較に基づいて、第1のフィルタリング結果と第2のフィルタリング結果
との類似度が求められる。フィルタの第1のセット及び第2のセットに一致しないヘッダ
の数が類似している場合、フィルタのセットは十分類似であると見なされ、フィルタ構築
プロセスは終了する(図10、ブロック186)。
【0084】
フィルタ結果が似ていない場合(図10、ブロック184)、フィルタ構築プロセスは
、以下のように続く。いくつかの例では、比較されたフィルタセット間で共有されるフィ
ルタが、電子メッセージのフィルタリングで用いるためにメモリ188内に保存される(
図10、ブロック190)。前のヘッダサンプルサイズを増やし(図10、ブロック19
2)、各送信者に関するヘッダのより大きいそれぞれのサンプルを用いて、フィルタ構築
プロセスの別の反復が実行される(図10、ブロック194)。
【0085】
図11に、ヘッダクラスタ198のためのフィルタを生成するプロセスを示す。いくつ
かの例では、コンピュータ装置は、各購入関連クラスタ(例えば、購入関連ラベルにより
ラベル付けされた各クラスタ)について本プロセスを実行する(図11、ブロック200
)。コンピュータ装置は、クラスタ198内の全てのヘッダの件名内に各バイグラムが合
計何回現れるかを数える(図11、ブロック202)。コンピュータ装置は、クラスタ1
98からヘッダを選択する(図11、ブロック204)。選択されたヘッダの件名フィー
ルド内の各バイグラムに関して、コンピュータ装置は、バイグラムがヘッダの件名フィー
ルド内に現れる頻度についてのそれぞれの基準を求める(図11、ブロック206)。そ
のような頻度基準の例として、バイグラムを含む件名フィールドの数を、バイグラムを含
まない件名フィールドの数で割った比と、バイグラムを含む件名フィールドの数を件名フ
ィールドの合計数で割ることによる割合と、バイグラムを含む件名フィールドが件名フィ
ールド内に現れる頻度の比とを含む。コンピュータ装置は、閾値(例えば、80%)を満
たすそれぞれの頻度基準に関連付けられた選択されたヘッダ内のバイグラムの各々を組み
込むことによって、クラスタのフィルタを構築する(図11、ブロック208)。コンピ
ュータ装置は、クラスタのフィルタに組み込まれたバイグラムのセット(集合、組)が収
束したか否かを判断する(図11、ブロック210)。いくつかの例では、バイグラムの
セットは、最後の反復において変化しなかった場合に、収束したと見なされる。バイグラ
ムのセットが収束した場合(図11、ブロック210)、セット内のバイグラムは、クラ
スタのフィルタに変換される(図11、ブロック212)。いくつかの例では、バイグラ
ムは、フィルタを定める1つ以上の正規表現に変換される。バイグラムのセットが収束し
ていない場合(図11、ブロック210)、このプロセスは、クラスタ198から選択さ
れた別のヘッダに関して繰り返される(図11、ブロック204~210)。
【0086】
図11のフィルタ構築プロセスの他の例では、バイグラムを使う代わりに、ヘッダ件名
フィールドの解析が、件名フィールド内に現れる文字列、nグラム、及び単語を含む、他
のテキストの特徴に対して行われる。
【0087】
[III.コンピュータ装置の例]
コンピュータ装置は、本明細書において説明したプロセスの機能を実行する改良された
処理システムを提供できるようにプログラミングされる。いくつかの例では、電子メッセ
ージフィルタを構築するプロセス及び1つ以上の電子メッセージフィルタで電子メッセー
ジをフィルタリングするプロセスは、別個のかつ異なるコンピュータ装置によって実行さ
れる。他の例では、同じコンピュータ装置が、これらのプロセスを実行する。
【0088】
図12に、コンピュータシステム320によって実装されるコンピュータ装置の一例示
の実施形態を示す。コンピュータシステム320は、処理ユニット322と、システムメ
モリ324と、処理ユニット322をコンピュータシステム320の様々な要素に接続す
るシステムバス326とを備えている。処理ユニット322は、1つ以上のデータプロセ
ッサを含むことができ、それらのデータプロセッサの各々は、様々な市販のコンピュータ
プロセッサのうちの任意の1つの形態とすることができる。システムメモリ324は、通
常、ソフトウェアアプリケーションに利用可能なアドレスを規定するソフトウェアアプリ
ケーションアドレス指定空間に関連付けられた1つ以上のコンピュータ可読媒体を含む。
システムメモリ324は、コンピュータシステム320の起動ルーチンを含む基本入出力
システム(BIOS)を記憶する読み出し専用メモリ(ROM)と、ランダムアクセスメ
モリ(RAM)とを備えることができる。システムバス326は、メモリバス、周辺バス
又はローカルバスとすることができ、PCI、VESA、Microchannel(マ
イクロチャネル)、ISA、及びEISAを含む様々なバスプロトコルのうちの任意のも
のと互換性を有することができる。コンピュータシステム320は、永続的記憶メモリ3
28(例えば、ハードドライブ、フロッピードライブ、CD-ROMドライブ、磁気テー
プドライブ、フラッシュメモリデバイス、及びデジタルビデオディスク)も備える。この
永続的記憶メモリは、システムバス326に接続され、データ、データ構造体及びコンピ
ュータ実行可能命令の不揮発性記憶装置又は永続的記憶装置を提供する1つ以上のコンピ
ュータ可読媒体ディスクを含む。
【0089】
ユーザは、1つ以上の入力デバイス330(例えば、1つ以上のキーボード、コンピュ
ータマウス、マイクロフォン、カメラ、ジョイスティック、物理運動センサ、及びタッチ
パッド)を用いて、コンピュータシステム320と対話する(例えば、コマンド又はデー
タを入力する)ことができる。情報は、表示コントローラ334によって制御される表示
モニタ332上でユーザに提示されるグラフィカルユーザインタフェース(GUI)を通
じて提示することができる。コンピュータシステム320は、他の入出力ハードウェア(
例えば、スピーカ及びプリンタ等の周辺出力デバイス)も備えることができる。コンピュ
ータシステム320は、ネットワークアダプタ336(「ネットワークインタフェースカ
ード」又はNICともいう)を通じて他のネットワークノードに接続する。
【0090】
複数のプログラムモジュールは、システムメモリ324内に記憶することができ、これ
らのモジュールは、アプリケーションプログラミングインタフェース338(API)、
オペレーティングシステム(OS)340(例えば、Microsoft Corporation社(米国ワ
シントン州レドモンド所在)から入手できるWindows(登録商標)オペレーティン
グシステム)、電子メッセージフィルタを構築するプロセス及び電子メッセージフィルタ
で電子メッセージをフィルタリングするプロセスのうちの1つ以上を実行するようにコン
ピュータシステム320をプログラミングする1つ以上のソフトウェアアプリケーション
を含むソフトウェアアプリケーション341、ドライバ342(例えば、GUIドライバ
)、ネットワークトランスポートプロトコル344、及びデータ346(例えば、入力デ
ータ、出力データ、プログラムデータ、レジストリ、及び構成設定)を含む。
【0091】
開示対象のシステム、方法、プロセス、機能的動作、及び論理フローを含む本明細書に
おいて説明された主題の例は、入力を操作し、出力を生成することによって機能を実行す
るように動作可能なデータ処理装置(例えば、コンピュータハードウェア及びデジタル電
子回路)に実装することができる。また、本明細書において説明された主題の例は、デー
タ処理装置による実行のために、1つ以上の有形で非一時的な搬送媒体(例えば、機械可
読型記憶デバイス、基板、又はシーケンシャルアクセスメモリデバイス)上で符号化され
るコンピュータ命令のうちの1つ以上のセットとして、ソフトウェア又はファームウェア
に有形なものとして具現化することができる。
【0092】
本明細書において説明された特定の実施態様の詳細は、特定の発明の特定の実施形態に
特有のものである場合があり、特許請求される任意の発明の範囲を限定するものとみなさ
れるべきではない。例えば、別々の実施形態に関して説明された特徴は、単一の実施形態
にも組み込むことができ、単一の実施形態に関して説明された特徴は、複数の別個の実施
形態内でも実施することができる。さらに、特定の順序で実行されるステップ、タスク、
動作、又はプロセスの開示は、必ずしも、ステップ、タスク、動作、又はプロセスがその
特定の順序で実行されることを必要とはせず、むしろ、いくつかの場合では、開示されて
いるステップ、タスク、動作、及びプロセスのうちの1つ以上は、異なる順序で、又は複
数のタスクスケジュールに従って、又は並行して実行することができる。
【0093】
[IV.結論]
本明細書において説明された実施形態によれば、購入関連電子メッセージフィルタを構
築し、購入関連電子メッセージをフィルタリングする改良されたシステム、方法、及びコ
ンピュータ可読媒体が提供される。
【0094】
他の実施形態も、特許請求の範囲に含まれる。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
【手続補正書】
【提出日】2024-05-07
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
インタフェース回路と、
機械可読命令と、
1つ以上のプロセッサ回路と
を備え、
前記1つ以上のプロセッサ回路は前記機械可読命令を実行して、
複数の第1電子メッセージヘッダを類似度に基づいて複数のクラスタにグループ分けするステップであって、複数の前記クラスタは前記複数の第1電子メッセージヘッダに対応する本文の内容とは無関係に生成される、ステップと、
複数の前記クラスタの各々につき、前記複数の第1電子メッセージヘッダの各々と関連付けられている電子メッセージ全体のサンプルを取得するステップであって、前記電子メッセージ全体はヘッダ及び本文を有する、ステップと、
複数の前記クラスタの各々につき前記サンプルの各々を分類して複数の前記クラスタからなる第1集合を特定するステップであって、複数の前記クラスタからなる前記第1集合は機械学習分類器により購入取引に関連するものとして分類される、ステップと、
複数の前記クラスタからなる前記第1集合における各クラスタのための各フィルタを生成することにより計算リソース消費量を削減するステップであって、前記フィルタの各々は購入取引に関連する電子メッセージを特定するためのものである、ステップと
を行う、
装置。
【請求項2】
前記複数の第1電子メッセージヘッダの各々は送信元と関連付けられており、前記送信元は電子メールアドレスと送信元ドメインとの少なくともいずれかである、請求項1に記載の装置。
【請求項3】
前記1つ以上のプロセッサ回路のうちの1つ以上が、前記機械可読命令を実行して、前記複数の電子メッセージヘッダの各々をジャッカード類似度係数に基づいて複数の前記クラスタにグループ分けする、請求項1に記載の装置。
【請求項4】
前記1つ以上のプロセッサ回路のうちの1つ以上が、前記機械可読命令を実行して、複数の前記クラスタからなる前記第1集合を複数のサブカテゴリにさらに分類し、
複数の前記サブカテゴリは、購入取引に関連する電子メッセージのタイプに基づくものであり、
複数の前記サブカテゴリは、注文通知と、配送通知と、返金と、キャンセルと、取寄せ注文と、クーポンと、販売促進と、不明との1つ以上を含む、
請求項1に記載の装置。
【請求項5】
前記1つ以上のプロセッサ回路のうちの1つ以上が、前記機械可読命令を実行して、
複数の第2電子メッセージヘッダを解析し、
各々の前記クラスタのための各々の前記フィルタを前記複数の第2電子メッセージヘッダに適用して、前記複数の第2電子メッセージヘッダのうち購入関連の電子メッセージであるものを特定し、
前記複数の第2電子メッセージヘッダの各々に対応する複数の電子メッセージ全体を取得する、
請求項1に記載の装置。
【請求項6】
前記1つ以上のプロセッサ回路のうちの1つ以上が、前記機械可読命令を実行して、複数の前記第2電子メッセージヘッダの各々に対応する電子メッセージ全体から購入情報を抽出する、請求項5に記載の装置。
【請求項7】
前記購入情報は、販売者名と、注文番号と、注文日と、商品説明と、商品名と、商品の数量と、商品の価格と、消費税と、送料と、注文金額と、請求先住所と、配送業者と、配送先住所と、出荷予定日と、配達予定日と、追跡番号とのうちの1つ以上を含む、請求項6に記載の装置。
【請求項8】
少なくとも、
複数の第1電子メッセージヘッダを類似度に基づいて複数のクラスタにグループ分けするステップであって、複数の前記クラスタは前記複数の第1電子メッセージヘッダに対応する本文の内容とは無関係に生成される、ステップと、
複数の前記クラスタの各々につき、前記複数の第1電子メッセージヘッダの各々と関連付けられている電子メッセージ全体のサンプルを取得するステップであって、前記電子メッセージ全体はヘッダ及び本文を有する、ステップと、
複数の前記クラスタの各々につき前記サンプルの各々を分類して複数の前記クラスタからなる第1集合を特定するステップであって、複数の前記クラスタからなる前記第1集合は機械学習分類器により購入取引に関連するものとして分類される、ステップと、
複数の前記クラスタからなる前記第1集合における各クラスタのための各フィルタを生成することにより計算リソース消費量を削減するステップであって、前記フィルタの各々は購入取引に関連する電子メッセージを特定するためのものである、ステップと
を少なくとも1つのプロセッサ回路に実行させる機械可読命令を有する少なくとも1つの機械可読媒体。
【請求項9】
前記複数の第1電子メッセージヘッダの各々は送信元と関連付けられており、前記送信元は電子メールアドレスと送信元ドメインとの少なくともいずれかである、請求項8に記載の少なくとも1つの機械可読媒体。
【請求項10】
前記機械可読命令が、少なくとも1つの前記プロセッサ回路の1つ以上に対し、前記複数の第1電子メッセージヘッダの各々をジャッカード類似度係数に基づいて複数の前記クラスタにグループ分けするステップを実行させる、請求項8に記載の少なくとも1つの機械可読媒体。
【請求項11】
前記機械可読命令が、少なくとも1つの前記プロセッサ回路の1つ以上に対し、複数の前記クラスタからなる前記第1集合を複数のサブカテゴリにさらに分類するステップを実行させ、
複数の前記サブカテゴリは、購入取引に関連する電子メッセージのタイプに基づくものであり、
複数の前記サブカテゴリは、注文通知と、配送通知と、返金と、キャンセルと、取寄せ注文と、クーポンと、販売促進と、不明との1つ以上を含む、
請求項8に記載の少なくとも1つの機械可読媒体。
【請求項12】
前記機械可読命令が、少なくとも1つの前記プロセッサ回路の1つ以上に対し、
複数の第2電子メッセージヘッダを解析するステップと、
各々の前記クラスタのための各々の前記フィルタを前記複数の第2電子メッセージヘッダに適用して、前記複数の第2電子メッセージヘッダのうち購入関連の電子メッセージであるものを特定するステップと、
前記複数の第2電子メッセージヘッダの各々に対応する複数の電子メッセージ全体を取得するステップと
を実行させる、
請求項8に記載の少なくとも1つの機械可読媒体。
【請求項13】
前記機械可読命令が、少なくとも1つの前記プロセッサ回路の1つ以上に対し、複数の前記第2電子メッセージヘッダの各々に対応する電子メッセージ全体から購入情報を抽出するステップを実行させる、請求項12に記載の少なくとも1つの機械可読媒体。
【請求項14】
前記購入情報は、販売者名と、注文番号と、注文日と、商品説明と、商品名と、商品の数量と、商品の価格と、消費税と、送料と、注文金額と、請求先住所と、配送業者と、配送先住所と、出荷予定日と、配達予定日と、追跡番号とのうちの1つ以上を含む、請求項13に記載の少なくとも1つの機械可読媒体。
【請求項15】
少なくとも1つのプロセッサ回路が、複数の第1電子メッセージヘッダを類似度に基づいて複数のクラスタにグループ分けするステップであって、複数の前記クラスタは前記複数の第1電子メッセージヘッダに対応する本文の内容とは無関係に生成される、ステップと、
少なくとも1つのプロセッサ回路が、複数の前記クラスタの各々につき、前記複数の第1電子メッセージヘッダの各々と関連付けられている電子メッセージ全体のサンプルを取得するステップであって、前記電子メッセージ全体はヘッダ及び本文を有する、ステップと、
少なくとも1つのプロセッサ回路が、複数の前記クラスタの各々につき前記サンプルの各々を分類して複数の前記クラスタからなる第1集合を特定するステップであって、複数の前記クラスタからなる前記第1集合は機械学習分類器により購入取引に関連するものとして分類される、ステップと、
少なくとも1つのプロセッサ回路が、複数の前記クラスタからなる前記第1集合における各クラスタのための各フィルタを生成することにより計算リソース消費量を削減するステップであって、前記フィルタの各々は購入取引に関連する電子メッセージを特定するためのものである、ステップと
を含む方法。
【請求項16】
前記複数の第1電子メッセージヘッダの各々は送信元と関連付けられており、前記送信元は電子メールアドレスと送信元ドメインとの少なくともいずれかである、請求項15に記載の方法。
【請求項17】
前記複数の第1電子メッセージヘッダの各々の、複数の前記クラスタへのグループ分けが、ジャッカード類似度係数に基づくものである、請求項15に記載の方法。
【請求項18】
複数の前記クラスタからなる前記第1集合を複数のサブカテゴリにさらに分類するステップをさらに含み、
複数の前記サブカテゴリは、購入取引に関連する電子メッセージのタイプに基づくものであり、
複数の前記サブカテゴリは、注文通知と、配送通知と、返金と、キャンセルと、取寄せ注文と、クーポンと、販売促進と、不明との1つ以上を含む、
請求項15に記載の方法。
【請求項19】
複数の第2電子メッセージヘッダを解析するステップと、
各々の前記クラスタのための各々の前記フィルタを前記複数の第2電子メッセージヘッダに適用して、前記複数の第2電子メッセージヘッダのうち購入関連の電子メッセージであるものを特定するステップと、
前記複数の第2電子メッセージヘッダの各々に対応する複数の電子メッセージ全体を取得するステップと
をさらに含む請求項15に記載の方法。
【請求項20】
複数の前記第2電子メッセージヘッダの各々に対応する電子メッセージ全体から購入情報を抽出するステップをさらに含む請求項19に記載の方法。
【請求項21】
前記購入情報は、販売者名と、注文番号と、注文日と、商品説明と、商品名と、商品の数量と、商品の価格と、消費税と、送料と、注文金額と、請求先住所と、配送業者と、配送先住所と、出荷予定日と、配達予定日と、追跡番号とのうちの1つ以上を含む、請求項20に記載の方法。
【外国語明細書】