(58)【調査した分野】(Int.Cl.,DB名)
前記の各フレーズの前記ターゲットテキストでの単語の出現頻度-逆文書頻度と、前記候補キーワードと各フレーズとの類似度とに基づいて、前記候補キーワードと前記ターゲットテキストとの関連度を計算するステップにおいては、
前記フレーズの集合における各フレーズに対して、前記候補キーワードと当該フレーズとの類似度に当該フレーズの前記ターゲットテキストでの単語の出現頻度-逆文書頻度を乗じ、得られた各積を加算し、前記候補キーワードと前記ターゲットテキストとの関連度を取得するステップを含む
ことを特徴とする請求項1に記載の方法。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本願は、改良された情報をプッシュするための方法及び装置を提供することで、以上の背景技術に記載の技術的問題を解決することを目的とする。
【課題を解決するための手段】
【0005】
第1態様では、本願は情報をプッシュするための方法を提供し、この方法は、ターゲットテキストを単語分割して、フレーズの集合を生成するステップと、フレーズの集合における各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度を計算するステップと、予め設定した候補キーワードと各フレーズとの類似度を取得するステップと、各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度と、候補キーワードと各フレーズとの類似度とに基づいて、候補キーワードとターゲットテキストとの関連度を計算するステップと、予め設定した関連度閾値に基づいて、又は関連度と予め設定したプッシュ数とに基づいて、候補キーワードからプッシュしようとする候補キーワードを選択し、第1ユーザ端末へプッシュしようとする候補キーワードをプッシュするステップと、を含む。
【0006】
いくつかの実施例では、各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度と、候補キーワードと各フレーズとの類似度とに基づいて、候補キーワードとターゲットテキストとの関連度を計算するステップにおいては、フレーズの集合における各フレーズに対して、候補キーワードと当該フレーズとの類似度に当該フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度を乗じ、得られた各積を加算し、候補キーワードとターゲットテキストとの関連度を取得するステップを含む。
【0007】
いくつかの実施例では、第1ユーザ端末へプッシュしようとする候補キーワードをプッシュした後に、さらに、プッシュしようとする候補キーワードとターゲットテキストの対応関係を確立するステップと、プッシュしようとする候補キーワードに対する第2ユーザ端末の検索操作を検出したことに応答して、第2ユーザ端末へプッシュしようとする候補キーワードに対応するテキストをプッシュするステップと、を含む。
【0008】
いくつかの実施例では、フレーズの集合における各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度を計算するステップにおいては、各フレーズが予め設定したテキスト集合に出現した逆文書頻度を統計するステップと、各フレーズがターゲットテキストに出現した頻度を統計するステップと、逆文書頻度と頻度との積を各フレーズの単語の出現頻度-逆文書頻度として計算するステップと、を含む。
【0009】
いくつかの実施例では、フレーズの集合を生成した後に、さらに、フレーズの集合におけるストップワードを削除するステップを含む。
【0010】
第2態様では、本願は、情報をプッシュするための装置を提供し、この装置は、ターゲットテキストを単語分割して、フレーズの集合を生成するように配置されている生成ユニットと、フレーズの集合における各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度を計算するように配置されている第1計算ユニットと、予め設定した候補キーワードと各フレーズとの類似度を取得するように配置されている取得ユニットと、各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度と、候補キーワードと各フレーズとの類似度とに基づいて、候補キーワードとターゲットテキストとの関連度を計算するように配置されている第2計算ユニットと、予め設定した関連度閾値に基づいて、又は関連度と予め設定したプッシュ数とに基づいて、候補キーワードからプッシュしようとする候補キーワードを選択し、第1ユーザ端末へプッシュしようとする候補キーワードをプッシュするように配置されている第1プッシュユニットと、を備える。
【0011】
いくつかの実施例では、第2計算ユニットは、さらに、フレーズの集合における各フレーズに対して、候補キーワードと当該フレーズとの類似度に当該フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度を乗じ、得られた各積を加算し、候補キーワードとターゲットテキストとの関連度を取得するように配置されている。
【0012】
いくつかの実施例では、当該装置は、さらに、プッシュしようとする候補キーワードとターゲットテキストとの対応関係を確立するように配置されている確立ユニットと、プッシュしようとする候補キーワードに対する第2ユーザ端末の検索操作を検索したことに応答して、第2ユーザ端末へプッシュしようとする候補キーワードに対応するテキストをプッシュするように配置されている第2プッシュユニットと、さらにを備える。
【0013】
いくつかの実施例では、第1計算ユニットは、各フレーズが予め設定したテキスト集合に出現した逆文書頻度を統計するように配置されている第1統計モジュールと、各フレーズがターゲットテキストに発生した頻度を統計するように配置されている第2統計モジュールと、逆文書頻度と頻度との積を各フレーズの単語の出現頻度-逆文書頻度として計算するように配置されている計算モジュールと、を備える。
【0014】
いくつかの実施例では、フレーズの集合におけるストップワードを削除するように配置されている削除ユニットをさらに備える。
【発明の効果】
【0015】
本願に係る情報プッシュ用の方法及び装置は、ターゲットテキストでの各フレーズと候補キーワードとの類似度及び各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度に基づいて、各候補キーワードとターゲットテキストとの関連度を得て、関連度に基づいて情報プッシュを行うことによって、情報プッシュの精度を向上させる。
【発明を実施するための形態】
【0018】
以下、図面及び実施例を参照しながら本発明をより詳細に説明する。ここで説明する具体的な実施例は、かかる発明を説明するものに過ぎず、当該発明を限定するものではないと理解すべきである。ただし、説明の便宜上、図面に発明に関連する部分のみが示されている。
【0019】
なお、衝突しない場合、本願の実施例及び実施例の特徴を相互に組み合せてもよい。以下、図面及び実施例を参照しながら本願を詳細に説明する。
【0020】
図1は本願を適用できる、プッシュ用の方法又はプッシュ用の装置の実施例の例示的なシステムアーキテクチャー100である。
【0021】
図1に示されるように、システムアーキテクチャー100は、端末装置101、102、103、ネットワーク104及びサーバ105を備えてもい。ネットワーク104は端末装置101、102、103とサーバ104の間に通信リンクを提供する媒体に用いられている。ネットワーク104は様々な接続タイプ、例えば有線、無線通信リンク又は光ファイバーケーブルなどを含んでもよい。
【0022】
ユーザ110は端末装置101、102、103を用いてネットワーク104を介してサーバ105とインタラクションして、それによりメッセージなどを送受信することができる。端末装置101、102、103に、様々な通信クライアントアプリケーション、例えば、ショッピングアプリケーション、捜索アプリケーション、ウェブブラウザアプリケーション、インスタントメッセージツール、電子メールクライアント、ソーシャルプラットフォームソフト、支払ソフトなどがインストールされてもよい。
【0023】
端末装置101、102、103はディスプレイを有するとともにデータ送受信をサポートする様々な電子デバイスであってもよく、スマートフォン、タブレットPC、スマートウォッチ、ラップトップ型コンピュータ及びデスクトップコンピュータなどを含むが、それらに限定されるものではない。端末装置101、102、103は広告主がある第1ユーザ端末であってもよく、検索ユーザがある第2ユーザ端末であってもよい。
【0024】
スケジューリングサーバ105は様々なサービスを提供するサーバ、例えば、ターゲットテキストと候補キーワードをサポートするバックグラウンドサーバであってもよい。バックグラウンドサーバはターゲットテキストと候補キーワードに分析などの処理を行って、処理結果(例えばプッシュしようとするキーワード)を端末装置にフィードバックすることができる。
【0025】
本願の実施例に係る情報プッシュ用の方法は通常にサーバ105で実行される。それに対応して、情報プッシュ用の装置は通常にサーバ105に設置されることを理解すべきである。
【0026】
なお、
図1における端末装置、ネットワーク及びサーバの数は例示的なものに過ぎない。必要に応じて、端末装置、ネットワーク及びサーバの数が任意であってもよい。
【0027】
次に、本願に係る情報プッシュ用の方法の一実施例のプロセス200を示す
図2を参照する。当該情報プッシュ用の方法は、ステップ201〜205を含む。
【0028】
ステップ201:ターゲットテキストを単語分割して、フレーズの集合を生成する。
【0031】
ステップ202:フレーズの集合における各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度を計算する。
【0032】
本実施例では、上記電子機器はステップ201において生成したフレーズの集合における各フレーズの上記ターゲットテキストでの単語の出現頻度逆文書頻度(単語の出現頻度-逆文書頻度(Term Frequency-Inverse Document Frequency、TF-IDF)と呼ばれてもよい)を計算し、すなわち各フレーズの上記ターゲットテキストに対する重要性を計算する。上記単語の出現頻度-逆文書頻度方法の主旨は、ある単語又はフレーズが1つの文章に出現した頻度(Term Frequency、TF)が高く、且つほかの文章に非常にめったに出現しない場合、この単語又はフレーズが非常に良好なカテゴリ区分能力を有し、分類に適すると考えられる。逆文書頻度(Inverse Document Frequency、IDF)については、主に、ある単語又はフレーズを含むドキュメントが少なければ少ないほど、IDFが大きくなり、当該単語又はフレーズが非常に良好なカテゴリ区分能力を有することでなる。したがって、単語の出現頻度-逆文書頻度方法を用いることで、ある単語又はフレーズのある文章内での重要性を計算できる。
【0033】
本実施例のいくつかの好ましい実施形態では、上記電子機器、先ず各フレーズが予め設定したテキスト集合に出現した逆文書頻度を統計してもよく、テキスト集合におけるすべてのテキストを単語分割し、各フレーズがすべてのテキストのフレーズの集合に出現した逆文書頻度を統計してもよく、予め設定したテキスト集合における、各フレーズのそれぞれを含むテキストの数を統計してもよく、それから、すべてのテキスト数を当該フレーズを含むテキストの数で割って当該フレーズの逆文書頻度を得て、ここで、上記ターゲットテキストが広告コンセプトテキストである場合、上記テキスト集合はすべての広告コンセプトテキストで構成される集合であってもよく、上記ターゲットテキストとの関連度が予め設定した関連度閾値より大きい広告コンセプトテキストで構成される集合であってもよく、上記ターゲットテキストが所属するユーザのアカウントにおけるすべての広告コンセプトテキストで構成される集合であってもよい。次に、上記電子機器は各フレーズの上記テキスト集合に出現した頻度を統計し、最終的に、上記統計した逆文書頻度と上記統計した頻度との積を当該ワードの単語の出現頻度-逆文書頻度とすることができる。
【0034】
ステップ203:予め設定した候補キーワードと各フレーズとの類似度を取得する。
【0035】
本実施例では、上記電子機器は、先ず例えば推薦アルゴリズム(例えば、協調フィルタリング(Collaborative Filtering)アルゴリズム、コンテンツベースの推薦アルゴリズムなど)で、予め設定した候補キーワードを取得でき、例えば、協調フィルタリングアルゴリズムでユーザの候補キーワードを取得する場合、通常、先ずキーワードに対するユーザの履歴行為データ、例えばユーザの購買履歴、フォロー、お気に入りに追加する行為、評価や採点行為などを収集し、次に、ユーザの履歴行為データに基づいて類似度アルゴリズム(例えば、ユークリッド距離(Euclidean distance)、ピアソン相関係数(Pearson Correlation Coefficient)など)で当該ユーザとほかのユーザとの類似度、又はユーザが興味を持つキーワードとほかのキーワードとの類似度を計算し、最終的に、キーワードに対する当該ユーザの好みに基づいて当該ユーザと同じ好みを有する近傍ユーザを探し、次に近傍ユーザが興味を持つキーワードを候補キーワードとして、又は当該ユーザが興味を持つキーワードとの類似度が高いほかのキーワードを候補キーワードとすることができる。それから、上記候補キーワードと各フレーズに対してコサイン類似度(cosine similarity)アルゴリズムなどの公知の類似度計算方法で類似度計算を行ってもよい。
【0036】
ステップ204:各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度と、候補キーワードと各フレーズとの類似度とに基づいて、候補キーワードとターゲットテキストとの関連度を計算する。
【0037】
本実施例では、上記電子機器はステップ202において計算した各フレーズの上記ターゲットテキストでの単語の出現頻度-逆文書頻度、及びステップ203において取得した候補キーワードと各フレーズとの類似度に基づいて、当該候補キーワードとターゲットテキストとの関連度を計算するようにしてもよい。例として、単語の出現頻度-逆文書頻度が最大のフレーズの単語の出現頻度-逆文書頻度と、候補キーワードと当該フレーズとの類似度との積を当該候補キーワードとターゲットテキストとの関連度としてもよく、単語の出現頻度-逆文書頻度が予め設定した頻度閾値より大きい各フレーズのそれぞれの単語の出現頻度-逆文書頻度に当該候補キーワードと当該フレーズとの類似度を乗じ、積を加算して当該候補キーワードとターゲットテキストとの関連度を取得するようにしてもよい。
【0038】
本実施例のいくつかの選択可能な実施形態では、上記テキスト集合における各フレーズに対して、候補キーワードと当該ワードとの類似度に当該ワードの上記ターゲットテキストでの単語の出現頻度-逆文書頻度を乗じ、得られた各積を加算し、上記候補キーワードと上記ターゲットテキストとの関連度を取得することができ、下記式(1)により候補キーワードとターゲットテキストとの関連度を計算することができる。
【0041】
ステップ205:予め設定した関連度閾値に基づいて、又は関連度と予め設定したプッシュ数とに基づいて、候補キーワードからプッシュしようとする候補キーワードを選択し、第1ユーザ端末へプッシュしようとする候補キーワードをプッシュする。
【0042】
本実施例では、ステップ204において各候補キーワードと上記ターゲットテキストとの関連度を計算した後に、上記電子機器は候補キーワードから予め設定した関連度閾値より大きい候補キーワードをプッシュしようとする候補キーワードとして選択してもよく、関連度の降順に従って候補キーワードから予め設定したプッシュ数の候補キーワードをプッシュしようとする候補キーワードとして選択してもよく、次に、第1ユーザ端末へ上記プッシュしようとする候補キーワードをプッシュする。例として、第1ユーザ端末が広告主である場合、上記電子機器は広告主へプッシュしようとする候補キーワードをプッシュすることができ、これによって、上記広告主が候補キーワードを購買に供する。
【0043】
本願の上記実施例に係る方法はターゲットテキストでの各フレーズと候補キーワードとの類似度及び各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度に基づいて、各候補キーワードとターゲットテキストとの関連度を得て、関連度に基づいて情報をプッシュすることによって、情報プッシュの精度を向上させる。
【0044】
さらに、情報プッシュ用の方法の別の実施例のプロセス300を示す
図3を参照する。当該情報プッシュ用の方法のプロセス300は、ステップ301〜ステップ308を含む。
【0045】
ステップ301:ターゲットテキストを単語分割して、フレーズの集合を生成する。
【0046】
本実施例では、情報プッシュ用の方法を実行する電子機器(例えば
図1に示されるサーバ)は予め取得したターゲットテキスト(例えば、広告コンセプトテキスト)を有線接続又は無線接続で単語分割し、フレーズの集合を生成することができる。上記電子機器は多種の単語分割方法でターゲットテキストを単語分割でき、単語分割方法は辞書に基づく単語分割方法(例えば、最大マッチングアルゴリズム、隣接マッチングアルゴリズム、最短パスマッチングアルゴリズム及び統計に基づく最短パス単語分割アルゴリズムなど)、統計に基づく単語分割方法(例えば、N-グラムモデル又は隠れマルコフモデルを用いる統計単語分割方法)、ルールに基づく単語分割方法や人工知能技術に基づく中国語単語分割方法などを含むが、それらに制限されない。
【0047】
ステップ302:フレーズの集合における各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度を計算する。
【0048】
本実施例では、上記電子機器はステップ301において生成したフレーズの集合における各フレーズの上記ターゲットテキストでの単語の出現頻度逆文書頻度(単語の出現頻度-逆文書頻度と呼ばれてもよい)を計算し、すなわち各フレーズの上記ターゲットテキストに対する重要性を計算する。上記単語の出現頻度-逆文書頻度方法の主旨は、ある単語又はフレーズが1つの文章に出現した頻度が高く、且つほかの文章に非常にめったに出現しない場合、この単語又はフレーズが非常に良好なカテゴリ区分能力を有し、分類に適すると考えられる。逆文書頻度については、主に、ある単語又はフレーズを含むドキュメントが少なければ少ないほど、IDFが大きくなり、当該単語又はフレーズが非常に良好なカテゴリ区分能力を有することでなる。したがって、単語の出現頻度-逆文書頻度方法を用いることで、ある単語又はフレーズのある文章内での重要性を計算できる。
【0049】
ステップ303:予め設定した候補キーワードと各フレーズとの類似度を取得する。
【0050】
本実施例では、上記電子機器は、先ず例えば推薦アルゴリズム(例えば、協調フィルタリングアルゴリズム、コンテンツベースの推薦アルゴリズムなど)で、予め設定した候補キーワードを取得でき、例えば、協調フィルタリングアルゴリズムでユーザの候補キーワードを取得する場合、通常、先ずキーワードに対するユーザの履歴行為データ、例えばユーザの購買履歴、フォロー、お気に入りに追加する行為、評価や採点行為などを収集し、次に、ユーザの履歴行為データに基づいて類似度アルゴリズム(例えば、ユークリッド距離、ピアソン相関係数など)で当該ユーザとほかのユーザとの類似度、又はユーザが興味を持つキーワードとほかのキーワードとの類似度を計算し、最終的に、キーワードに対する当該ユーザの好みに基づいて当該ユーザと同じ好みを有する近傍ユーザを探し、次に近傍ユーザが興味を持つキーワードを候補キーワードとして、又は当該ユーザが興味を持つキーワードとの類似度が高いほかのキーワードを候補キーワードとすることができる。それから、上記候補キーワードと各フレーズに対してコサイン類似度アルゴリズムなどの公知の類似度計算方法で類似度計算を行ってもよい。
【0051】
ステップ304:各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度、候補キーワードと各フレーズの類似度に基づいて、候補キーワードとターゲットテキストの関連度を計算する。
【0052】
本実施例では、上記電子機器はステップ302において計算した各フレーズの上記ターゲットテキストでの単語の出現頻度-逆文書頻度と、ステップ303において取得した候補キーワードと各フレーズとの類似度に基づいて、当該候補キーワードとターゲットテキストとの関連度を計算するようにしてもよい。例として、さらに上記候補キーワードとの類似度が予め設定した類似度閾値より大きい各フレーズのそれぞれの類似度に当該フレーズの単語の出現頻度-逆文書頻度を乗じ、積を加算して当該候補キーワードとターゲットテキストとの関連度を取得するようにしてもよい。
【0053】
ステップ305:予め設定した関連度閾値に基づいて、又は関連度と予め設定したプッシュ数とに基づいて、候補キーワードからプッシュしようとする候補キーワードを選択する。
【0054】
本実施例では、ステップ304において各候補キーワードと上記ターゲットテキストとの関連度を計算した後に、上記電子機器は候補キーワードから予め設定した関連度閾値より大きい候補キーワードをプッシュしようとする候補キーワードとして選択してもよく、関連度の降順に従って候補キーワードから予め設定したプッシュ数の候補キーワードをプッシュしようとする候補キーワードとして選択してもよい。
【0055】
ステップ306:プッシュしようとする候補キーワードとターゲットテキストとの対応関係を確立する。
【0056】
本実施例では、上記電子機器はステップ305で選択されたプッシュしようとする候補キーワードと上記ターゲットテキストとの対応関係を確立でき、1つのターゲットテキストは複数のプッシュしようとする候補キーワードに対応してもよく、1つのプッシュしようとする候補キーワードは複数のテキストに対応してもよい。
【0057】
ステップ307:プッシュしようとする候補キーワードに対する第2ユーザ端末の検索操作を検出したことに応答して、第2ユーザ端末へプッシュしようとする候補キーワードに対応するテキストをプッシュする。
【0059】
図3から分かるように、
図2に対応する実施例に比べて、本実施例における情報プッシュ用の方法のプロセス300はプッシュしようとする候補キーワードとターゲットテキストとの対応関係を確立するステップ306、及びプッシュしようとする候補キーワードに対する第2ユーザ端末の検索操作を検出したことに応答して、第2ユーザ端末へプッシュしようとする候補キーワードに対応するテキストをプッシュするステップ307を強調する。したがって、本実施例で説明した手段は、検索側が検索する時に、プッシュしようとする候補キーワードに対応するテキストに対するプッシュに用いられるため、さらに情報プッシュの精度を向上させる。
【0060】
さらに
図4参照し、上記各図に示す方法の実現として、本願はプッシュ用の装置の一実施例を提供し、当該装置の実施例は
図2に示される方法の実施例に対応し、当該装置は具体的に各種の電子機器に適用できる。
【0061】
図4に示すように、本実施例の情報プッシュ用の装置400は、生成ユニット401、第1計算ユニット402、取得ユニット403、第2計算ユニット404及び第1プッシュユニット405を備える。生成ユニット401はターゲットテキストを単語分割して、フレーズの集合を生成するように配置され、第1計算ユニット402はフレーズの集合における各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度を計算するように配置され、取得ユニット403は予め設定した候補キーワードと各フレーズとの類似度を取得するように配置され、第2計算ユニット404は各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度と、候補キーワードと各フレーズとの類似度とに基づいて、候補キーワードとターゲットテキストとの関連度を計算するように配置され、第1プッシュユニット405は予め設定した関連度閾値に基づいて、又は関連度と予め設定したプッシュ数とに基づいて、候補キーワードからプッシュしようとする候補キーワードを選択し、第1ユーザ端末へプッシュしようとする候補キーワードをプッシュするように配置されている。
【0062】
本実施例では、情報プッシュ用の装置400の生成ユニット401は予め取得したターゲットテキストを有線接続又は無線接続で単語分割し、フレーズの集合を生成することができる。上記電子機器は多種の単語分割方法でターゲットテキストを単語分割することができ、単語分割方法は、辞書に基づく単語分割方法、統計に基づく単語分割方法、ルールに基づく単語分割方法や、人工知能技術に基づく中国語単語分割方法などを含むが、それらに制限されない。
【0063】
本実施例では、上記第1計算ユニット402は、上記生成ユニット401が生成したフレーズの集合における各フレーズの上記ターゲットテキストでの単語の出現頻度逆文書頻度(単語の出現頻度-逆文書頻度と呼ばれてもよい)を計算でき、すなわち各フレーズの上記ターゲットテキストに対する重要性を計算する。上記用語頻度-逆文書頻度方法の主旨は、ある単語又はフレーズが1つの文章に発生した頻度が高く、ほかの文章に非常に少なく発生する場合、この単語又はフレーズが非常に良好なカテゴリ区分能力を有し、分類に適すると考えられる。逆文書頻度については、主に、ある単語又はフレーズを含むドキュメントが少なければ少ないほど、IDFが大きくなり、当該単語又はフレーズが非常に良好なカテゴリ区分能力を有することでなる。したがって、単語の出現頻度-逆文書頻度方法を用いることで、ある単語又はフレーズのある文章内での重要性を計算できる。
【0064】
本実施例では、上記取得ユニット403は、先ず例えば推薦アルゴリズムで予め設定した候補キーワードを取得でき、例えば、協調フィルタリングアルゴリズムでユーザの候補キーワードを取得する場合、通常、先ずキーワードに対するユーザの履歴行為データ、例えばユーザの購買履歴、フォロー、お気に入りに追加する行為、評価や採点行為などを収集し、次に、ユーザの履歴行為データに基づいて類似度アルゴリズムで当該ユーザとほかのユーザとの類似度、又はユーザが興味を持つキーワードとほかのキーワードとの類似度を計算し、最終的に、キーワードに対する当該ユーザの好みに基づいて当該ユーザと同じ好みを有する近傍ユーザを探し、次に近傍ユーザが興味を持つキーワードを候補キーワードとして、又は当該ユーザが興味を持つキーワードとの類似度が高いほかのキーワードを候補キーワードとすることができる。それから、上記候補キーワードと各フレーズに対してコサイン類似度アルゴリズムなどの公知の類似度計算方法で類似度計算を行ってもよい。
【0065】
本実施例では、上記第2計算ユニット404は上記第1計算ユニット402が計算した各フレーズの上記ターゲットテキストでの単語の出現頻度-逆文書頻度と、上記取得ユニット403が取得した候補キーワードと各フレーズの類似度とに基づいて、当該候補キーワードとターゲットテキストとの関連度を計算することができる。例として、単語の出現頻度-逆文書頻度が最大のフレーズの単語の出現頻度-逆文書頻度と、候補キーワードと当該フレーズとの類似度との積を当該候補キーワードとターゲットテキストとの関連度としてもよく、単語の出現頻度-逆文書頻度が予め設定した頻度閾値より大きい各フレーズにおける各フレーズの単語の出現頻度-逆文書頻度に当該候補キーワードと当該フレーズとの類似度を乗じ、積を加算して当該候補キーワードとターゲットテキストとの関連度を取得するようにしてもよい。
【0066】
本実施例では、上記第2計算ユニット404で各候補キーワードと上記ターゲットテキストとの関連度が計算された後に、上記第1プッシュユニット405は候補キーワードから予め設定した関連度閾値より大きい候補キーワードをプッシュしようとする候補キーワードとして選択してもよく、関連度の降順に従って候補キーワードから予め設定したプッシュ数の候補キーワードをプッシュしようとする候補キーワードとして選択してもよく、次に、第1ユーザ端末へ上記プッシュしようとする候補キーワードをプッシュする。
【0067】
本実施例のいくつかの選択可能な実施形態では、上記テキスト集合における各フレーズに対して、上記第2計算ユニット404は候補キーワードと当該ワードとの類似度に当該ワードの上記ターゲットテキストでの単語の出現頻度-逆文書頻度を乗じ、得られた各積を加算し、上記候補キーワードと上記ターゲットテキストとの関連度を取得することができ、上記第2計算ユニット404は下記式(1)によって候補キーワードとターゲットテキストとの関連度を計算できる。
【0069】
本実施例のいくつかの好ましい実施形態では、情報プッシュ用の装置400はさらに、確立ユニット407と第2プッシュユニット408を備えてもよい。上記確立ユニット407は上記第1プッシュユニット405から選択されたプッシュしようとする候補キーワードと上記ターゲットテキストとの対応関係を確立でき、ここで、1つのターゲットテキストは複数のプッシュしようとする候補キーワードに対応してもよく、1つのプッシュしようとする候補キーワードは複数のテキストに対応してもよい。プッシュしようとする候補キーワードに対する第2ユーザ端末の検索操作を検出した場合、上記第2プッシュユニット408は上記第2ユーザ端末へそれが検索したプッシュしようとする候補キーワードに対応するテキストをプッシュすることができる。上記第2プッシュユニット408は、先ず第2ユーザ端末が検索したプッシュしようとする候補キーワードに対応するテキスト集合を取得し、次に、検索したプッシュしようとする候補キーワードに対応するすべてのテキストをプッシュしてもよく、上記プッシュしようとする候補キーワードに対応するテキスト集合における予め設定した数のテキストをプッシュしてもよい。
【0070】
本実施例のいくつかの好ましい実施形態では、上記第1計算ユニット402は第1統計モジュール4021、第2統計モジュール4022及び計算モジュール4023を備えてもよい。ここで、上記第1統計モジュール4021は先ず各フレーズが予め設定したテキスト集合に出現した逆文書頻度を統計してもよく、テキスト集合におけるすべてのテキストを単語分割し、各フレーズがすべてのテキストのフレーズの集合に出現した逆文書頻度を統計してもよく、予め設定したテキスト集合において各フレーズのそれぞれを含むテキストの数を統計してもよく、次にすべてのテキスト数を当該フレーズを含むテキストの数で割って当該フレーズの逆文書頻度を得て、上記ターゲットテキストが広告コンセプトテキストである場合、上記テキスト集合はすべての広告コンセプトテキストで構成される集合であってもよく、上記ターゲットテキストとの関連度が予め設定した関連度閾値より大きい広告コンセプトテキストで構成される集合であってもよく、上記ターゲットテキストの属するユーザのアカウントにおけるすべての広告コンセプトテキストで構成される集合であってもよく、次に、上記第2統計モジュール4022は各フレーズの上記テキスト集合に出現した頻度を統計し、最終的に、上記計算モジュール4023は上記統計した逆文書頻度と上記統計した頻度の積を当該ワードの単語の出現頻度-逆文書頻度とすることができる。
【0071】
本実施例のいくつかの好ましい実施形態では、情報プッシュ用の装置400はさらに削除ユニット406を備えてもよい。フレーズの集合を生成した後に、上記削除ユニット406は上記フレーズの集合におけるストップワードを削除できる。情報検索において、メモリ領域を節約し且つ検索効率を向上させるために、自然言語データ(又はテキスト)を処理する前又は処理した後に、ストップワード(Stop Words)と呼ばれる所定の字又は単語を自動的にフィルタリングする。これらのストップワードは手動で入力されたものであり、自動的に生成するものではなく、生成後のストップワードはストップワードテーブルを形成する。上記削除ユニット406はフレーズの集合におけるフレーズとストップワードテーブルにおけるワードを比較し、ストップワードテーブルに発生したフレーズを削除することができる。
【0072】
以下、本発明の実施例を実現するためのサーバに適用されるコンピュータシステム500を示す構造模式図である
図5を参照する。
【0073】
図5に示すように、コンピュータシステム500は、読み出し専用メモリ(ROM)502に記憶されているプログラム又は記憶部508からランダムアクセスメモリ(RAM)503にロードされたプログラムに基づいて様々な適当な動作及び処理を実行することができる中央処理装置(CPU)501を備える。RAM503には、システム500の操作に必要な様々なプログラム及びデータがさらに記憶されている。CPU501、ROM502及びRAM503は、バス504を介して互いに接続されている。入力/出力(I/O)インターフェース505もバス504に接続されている。
【0074】
キーボード、マウスなどを含む入力部506、陰極線管(CRT)、液晶ディスプレイ(LCD)など、及びスピーカなどを含む出力部507、ハードディスクなどを含む記憶部508、及びLANカード、モデムなどを含むネットワークインターフェースカードの通信部509は、I/Oインターフェース505に接続されている。通信部509は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライバ510は、必要に応じてI/Oインターフェース505に接続される。リムーバブルメディア511は、例えば、マグネチックディスク、光ディスク、光磁気ディスク、半導体メモリなどのようなものであり、必要に応じてドライバ510に取り付けられ、したがって、ドライバ510から読み出されたコンピュータプログラムが必要に応じて記憶部508にインストールされる。
【0075】
特に、本発明の実施例によれば、フローチャートを参照しながら記載された上記のプロセスは、コンピュータのソフトウェアプログラムとして実現されてもよい。例えば、本発明の実施例は、コンピュータプログラム製品を含み、当該コンピュータプログラム製品は、機械可読媒体に有形に具現化されるコンピュータプログラムを含み、前記コンピュータプログラムは、フローチャートで示される方法を実行するためのプログラムコードを含む。このような実施例では、当該コンピュータプログラムは、通信部509を介してネットワークからダウンロードされてインストールされてもよく、及び/又はリムーバブルメディア511からインストールされてもよい。
【0076】
図面におけるフローチャート及びブロック図は、本発明の各実施例に係るシステム、方法及びコンピュータプログラム製品により実現可能なアーキテクチャ、機能及び操作を示す。ここで、フローチャート又はブロック図における各枠は、1つのモジュール、プログラムセグメント、又はコードの一部を代表してもよく、前記モジュール、プログラムセグメント、又はコードの一部は、規定された論理機能を達成するための1つ以上の実行可能な命令を含む。また、いくつかの代替実施態様として、枠に示された機能は、図面に示された順番と異なる順番で実行されてもよい。例えば、連続して示された2つの枠は、関連する機能に応じて、実際にほぼ並行に実行されてもよく、逆の順番で実行されてもよい。また、ブロック図及び/又はフローチャートにおける各枠と、ブロック図及び/又はフローチャートにおける枠の組合せは、規定された機能又は操作を実行する、ハードウェアに基づく専用システムで実現されてもよく、あるいは、専用ハードウェアとコンピュータの命令との組合せで実行されてもよい。
【0077】
本発明の実施例に記載されたユニットは、ソフトウェアで実現されてもよく、ハードウェアで実現されてもよい。記載されたユニットは、プロセッサに設定されてもよく、例えば、「生成ユニット、第1計算ユニット、取得ユニット、第2計算ユニット及び第1プッシュユニットを備えるプロセッサ」として記載されてもよい。その中でも、これらのユニットの名称は、ある場合において当該ユニットその自体を限定するものではなく、例えば、生成ユニットは、「フレーズの集合を生成するユニット」として記載されてもよい。
【0078】
一方、本発明は、不揮発性コンピュータ記憶媒体をさらに提供し、当該不揮発性コンピュータ記憶媒体は、上記実施例の装置に含まれる不揮発性コンピュータ記憶媒体であってもよく、独立に存在して端末に組み立てられていない不揮発性コンピュータ記憶媒体であってもよい。不揮発性コンピュータ記憶媒体は、1つ以上のプログラムが記憶され、1つ以上のプログラムが1つの機器により実行された場合、機器に、ターゲットテキストを単語分割して、フレーズの集合を生成し、フレーズの集合における各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度を計算し、予め設定した候補キーワードと各フレーズとの類似度を取得し、各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度と、候補キーワードと各フレーズとの類似度とに基づいて、候補キーワードとターゲットテキストとの関連度を計算し、予め設定した関連度閾値に基づいて、又は関連度と予め設定したプッシュ数とに基づいて、候補キーワードからプッシュしようとする候補キーワードを選択し、第1ユーザ端末へプッシュしようとする候補キーワードをプッシュするようにさせる。
【0079】
以上の記載は、本発明の好ましい実施例、及び使用された技術的原理の説明に過ぎない。本発明に係る特許請求の範囲が、上記した技術的特徴の特定な組合せからなる技術案に限定されることではなく、本発明の趣旨を逸脱しない範囲で、上記の技術的特徴又は同などの特徴の任意の組合せからなる他の技術案も含むべきであることを、当業者は理解すべきである。例えば、上記の特徴と、本発明に開示された類似の機能を持っている技術的特徴(これらに限定されていない)とを互いに置き換えてなる技術案が挙げられる。