特許6511487 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ バイドゥ　オンライン　ネットワーク　テクノロジー　（ベイジン）　カンパニー　リミテッドの特許一覧

特許6511487情報プッシュ用の方法及び装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6511487

(24)【登録日】2019年4月12日

(45)【発行日】2019年5月15日

(54)【発明の名称】情報プッシュ用の方法及び装置

(51)【国際特許分類】

G06F 16/00 20190101AFI20190425BHJP

G06F 16/30 20190101ALI20190425BHJP

【ＦＩ】

G06F17/30 210A

G06F17/30 170A

G06F17/30 350C

【請求項の数】10

【外国語出願】

【全頁数】18

(21)【出願番号】特願2017-108224(P2017-108224)

(22)【出願日】2017年5月31日

(65)【公開番号】特開2018-106658(P2018-106658A)

(43)【公開日】2018年7月5日

【審査請求日】2017年6月1日

(31)【優先権主張番号】201611216735.3

(32)【優先日】2016年12月26日

(33)【優先権主張国】CN

(73)【特許権者】

【識別番号】513224353

【氏名又は名称】バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド

(74)【代理人】

【識別番号】100147485

【弁理士】

【氏名又は名称】杉村憲司

(74)【代理人】

【識別番号】230118913

【弁護士】

【氏名又は名称】杉村光嗣

(74)【代理人】

【識別番号】100163511

【弁理士】

【氏名又は名称】辻啓太

(72)【発明者】

【氏名】ウェイティアン

(72)【発明者】

【氏名】ダイウェンカイ

(72)【発明者】

【氏名】サンカイ

【審査官】鹿野博嗣

(56)【参考文献】

【文献】特開２０１６−０６２２７５（ＪＰ，Ａ）

【文献】特開２０１３−０２０４６２（ＪＰ，Ａ）

【文献】特開２０１１−００８４２０（ＪＰ，Ａ）

【文献】特開２０１０−０４４５８５（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１６／０３７１３７９（ＵＳ，Ａ１）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ１６／００

Ｇ０６Ｆ１６／３０

(57)【特許請求の範囲】

【請求項1】

情報プッシュ用の装置が実行する情報プッシュ用の方法であって、
ターゲットテキストを単語分割して、フレーズの集合を生成するステップと、
前記フレーズの集合における各フレーズの前記ターゲットテキストでの単語の出現頻度-逆文書頻度を計算するステップと、
予め設定した候補キーワードと各フレーズとの類似度を取得するステップと、
各フレーズの前記ターゲットテキストでの単語の出現頻度-逆文書頻度と、前記候補キーワードと各フレーズとの類似度との積に基づいて、前記候補キーワードと前記ターゲットテキストとの関連度を計算するステップと、
予め設定した関連度閾値に基づいて、又は関連度と予め設定したプッシュ数とに基づいて、前記候補キーワードからプッシュしようとする候補キーワードを選択し、第１ユーザ端末へ前記プッシュしようとする候補キーワードをプッシュするステップと、を含む
ことを特徴とする情報プッシュ用の方法。

【請求項2】

前記の各フレーズの前記ターゲットテキストでの単語の出現頻度-逆文書頻度と、前記候補キーワードと各フレーズとの類似度とに基づいて、前記候補キーワードと前記ターゲットテキストとの関連度を計算するステップにおいては、
前記フレーズの集合における各フレーズに対して、前記候補キーワードと当該フレーズとの類似度に当該フレーズの前記ターゲットテキストでの単語の出現頻度-逆文書頻度を乗じ、得られた各積を加算し、前記候補キーワードと前記ターゲットテキストとの関連度を取得するステップを含む
ことを特徴とする請求項１に記載の方法。

【請求項3】

前記の第１ユーザ端末へ前記プッシュしようとする候補キーワードをプッシュするステップの後に、さらに、
前記プッシュしようとする候補キーワードと前記ターゲットテキストの対応関係を確立するステップと、
前記プッシュしようとする候補キーワードに対する第２ユーザ端末の検索操作を検出したことに応答して、前記第２ユーザ端末へ前記プッシュしようとする候補キーワードに対応するテキストをプッシュするステップと、を含む
ことを特徴とする請求項１に記載の方法。

【請求項4】

前記の前記フレーズの集合における各フレーズの前記ターゲットテキストでの単語の出現頻度-逆文書頻度を計算するステップにおいては、
各フレーズが予め設定したテキスト集合に出現した逆文書頻度を統計するステップと、
各フレーズが前記ターゲットテキストに出現した頻度を統計するステップと、
前記逆文書頻度と前記頻度との積を各フレーズの単語の出現頻度-逆文書頻度として計算するステップと、を含む
ことを特徴とする請求項１に記載の方法。

【請求項5】

前記のフレーズの集合を生成するステップの後に、さらに、前記フレーズの集合におけ
るストップワードを削除するステップを含む
ことを特徴とする請求項１に記載の方法。

【請求項6】

ターゲットテキストを単語分割して、フレーズの集合を生成するように配置されている生成ユニットと、
前記フレーズの集合における各フレーズの前記ターゲットテキストでの単語の出現頻度-逆文書頻度を計算するように配置されている第１計算ユニットと、
予め設定した候補キーワードと各フレーズとの類似度を取得するように配置されている取得ユニットと、
各フレーズの前記ターゲットテキストでの単語の出現頻度-逆文書頻度と、前記候補キーワードと各フレーズとの類似度との積に基づいて、前記候補キーワードと前記ターゲットテキストとの関連度を計算するように配置されている第２計算ユニットと、
予め設定した関連度閾値に基づいて、又は関連度と予め設定したプッシュ数とに基づいて、前記候補キーワードからプッシュしようとする候補キーワードを選択し、第１ユーザ端末へ前記プッシュしようとする候補キーワードをプッシュするように配置されている第１プッシュユニットと、を備える
ことを特徴とする情報プッシュ用の装置。

【請求項7】

前記第２計算ユニットは、さらに、
前記フレーズの集合における各フレーズに対して、前記候補キーワードと当該フレーズとの類似度に当該フレーズの前記ターゲットテキストでの単語の出現頻度-逆文書頻度を乗じ、得られた各積を加算し、前記候補キーワードと前記ターゲットテキストとの関連度を取得するように配置されている
ことを特徴とする請求項６に記載の装置。

【請求項8】

前記プッシュしようとする候補キーワードと前記ターゲットテキストとの対応関係を確立するように配置されている確立ユニットと、
前記プッシュしようとする候補キーワードに対する第２ユーザ端末の検索操作を検索したことに応答して、前記第２ユーザ端末へ前記プッシュしようとする候補キーワードに対応するテキストをプッシュするように配置されている第２プッシュユニットと、さらにを備える
ことを特徴とする請求項６に記載の装置。

【請求項9】

前記第１計算ユニットは、
各フレーズが予め設定したテキスト集合に出現した逆文書頻度を統計するように配置されている第１統計モジュールと、
各フレーズが前記ターゲットテキストに発生した頻度を統計するように配置されている第２統計モジュールと、
前記逆文書頻度と前記頻度との積を各フレーズの単語の出現頻度-逆文書頻度として計算するように配置されている計算モジュールと、を備える
ことを特徴とする請求項６に記載の装置。

【請求項10】

前記フレーズの集合におけるストップワードを削除するように配置されている削除ユニットをさらに備える
ことを特徴とする請求項６に記載の装置。

【発明の詳細な説明】

【技術分野】

【0001】

本願はコンピュータ技術分野に関し、具体的にインターネット技術分野に関し、特に情報をプッシュするための方法及び装置に関する。

【背景技術】

【0002】

検索広告はインターネット商業の換金可能な市場を構成する重要な一部である。インターネットユーザが検索する問題と広告主が購買したキーワードとの関連度をマッチングすることによって、検索エンジンはインターネットユーザへ彼らが興味を持つ可能性がある広告を表示し、インターネットユーザのクリックで広告主から所定の費用を請求することによって、検索エンジン、インターネットユーザ、広告主の三方のウィンウィン（tripartite win-win）を実現する。この過程で、広告主が購買したキーワードは三方を結びつける重要な絆である。従って、適切なキーワードをどのように選択するかは、多くの広告主と検索エンジンマーケティング（ＳｅａｒｃｈＥｎｇｉｎｅＭａｒｋｅｔｉｎｇ、ＳＥＭ）会社が直面している基本的な問題の１つである。

【0003】

しかしながら、従来のキーワード選別方式は通常、広告主が購買したワードから見て、それらと候補キーワードとの字面の関連性（literal relevance）を、広告主サービスと候補キーワードとの関連性として計算するが、このような方式は精度が低いという問題が存在する。

【発明の概要】

【発明が解決しようとする課題】

【0004】

本願は、改良された情報をプッシュするための方法及び装置を提供することで、以上の背景技術に記載の技術的問題を解決することを目的とする。

【課題を解決するための手段】

【0005】

第１態様では、本願は情報をプッシュするための方法を提供し、この方法は、ターゲットテキストを単語分割して、フレーズの集合を生成するステップと、フレーズの集合における各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度を計算するステップと、予め設定した候補キーワードと各フレーズとの類似度を取得するステップと、各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度と、候補キーワードと各フレーズとの類似度とに基づいて、候補キーワードとターゲットテキストとの関連度を計算するステップと、予め設定した関連度閾値に基づいて、又は関連度と予め設定したプッシュ数とに基づいて、候補キーワードからプッシュしようとする候補キーワードを選択し、第１ユーザ端末へプッシュしようとする候補キーワードをプッシュするステップと、を含む。

【0006】

いくつかの実施例では、各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度と、候補キーワードと各フレーズとの類似度とに基づいて、候補キーワードとターゲットテキストとの関連度を計算するステップにおいては、フレーズの集合における各フレーズに対して、候補キーワードと当該フレーズとの類似度に当該フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度を乗じ、得られた各積を加算し、候補キーワードとターゲットテキストとの関連度を取得するステップを含む。

【0007】

いくつかの実施例では、第１ユーザ端末へプッシュしようとする候補キーワードをプッシュした後に、さらに、プッシュしようとする候補キーワードとターゲットテキストの対応関係を確立するステップと、プッシュしようとする候補キーワードに対する第２ユーザ端末の検索操作を検出したことに応答して、第２ユーザ端末へプッシュしようとする候補キーワードに対応するテキストをプッシュするステップと、を含む。

【0008】

いくつかの実施例では、フレーズの集合における各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度を計算するステップにおいては、各フレーズが予め設定したテキスト集合に出現した逆文書頻度を統計するステップと、各フレーズがターゲットテキストに出現した頻度を統計するステップと、逆文書頻度と頻度との積を各フレーズの単語の出現頻度-逆文書頻度として計算するステップと、を含む。

【0009】

いくつかの実施例では、フレーズの集合を生成した後に、さらに、フレーズの集合におけるストップワードを削除するステップを含む。

【0010】

第２態様では、本願は、情報をプッシュするための装置を提供し、この装置は、ターゲットテキストを単語分割して、フレーズの集合を生成するように配置されている生成ユニットと、フレーズの集合における各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度を計算するように配置されている第１計算ユニットと、予め設定した候補キーワードと各フレーズとの類似度を取得するように配置されている取得ユニットと、各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度と、候補キーワードと各フレーズとの類似度とに基づいて、候補キーワードとターゲットテキストとの関連度を計算するように配置されている第２計算ユニットと、予め設定した関連度閾値に基づいて、又は関連度と予め設定したプッシュ数とに基づいて、候補キーワードからプッシュしようとする候補キーワードを選択し、第１ユーザ端末へプッシュしようとする候補キーワードをプッシュするように配置されている第１プッシュユニットと、を備える。

【0011】

いくつかの実施例では、第２計算ユニットは、さらに、フレーズの集合における各フレーズに対して、候補キーワードと当該フレーズとの類似度に当該フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度を乗じ、得られた各積を加算し、候補キーワードとターゲットテキストとの関連度を取得するように配置されている。

【0012】

いくつかの実施例では、当該装置は、さらに、プッシュしようとする候補キーワードとターゲットテキストとの対応関係を確立するように配置されている確立ユニットと、プッシュしようとする候補キーワードに対する第２ユーザ端末の検索操作を検索したことに応答して、第２ユーザ端末へプッシュしようとする候補キーワードに対応するテキストをプッシュするように配置されている第２プッシュユニットと、さらにを備える。

【0013】

いくつかの実施例では、第１計算ユニットは、各フレーズが予め設定したテキスト集合に出現した逆文書頻度を統計するように配置されている第１統計モジュールと、各フレーズがターゲットテキストに発生した頻度を統計するように配置されている第２統計モジュールと、逆文書頻度と頻度との積を各フレーズの単語の出現頻度-逆文書頻度として計算するように配置されている計算モジュールと、を備える。

【0014】

いくつかの実施例では、フレーズの集合におけるストップワードを削除するように配置されている削除ユニットをさらに備える。

【発明の効果】

【0015】

本願に係る情報プッシュ用の方法及び装置は、ターゲットテキストでの各フレーズと候補キーワードとの類似度及び各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度に基づいて、各候補キーワードとターゲットテキストとの関連度を得て、関連度に基づいて情報プッシュを行うことによって、情報プッシュの精度を向上させる。

【図面の簡単な説明】

【0016】

以下の図面を参照しながら行った非限定的な実施例についての詳細な説明に基づいて、本願の他の特徴、目的や利点はより明瞭になる。

【0017】

【図1】本願を適用できる例示的なシステムアーキテクチャー図である。

【図2】本願に係る情報プッシュ用の方法の一実施例のフローチャートである。

【図3】本願に係る情報プッシュ用の方法の別実施例のフローチャートである。

【図4】本願に係る情報プッシュ用の装置の一実施例の構造模式図である。

【図5】本願の実施例を実現するための端末装置又はサーバに適用されるコンピュータシステムを示す構造模式図である。

【発明を実施するための形態】

【0018】

以下、図面及び実施例を参照しながら本発明をより詳細に説明する。ここで説明する具体的な実施例は、かかる発明を説明するものに過ぎず、当該発明を限定するものではないと理解すべきである。ただし、説明の便宜上、図面に発明に関連する部分のみが示されている。

【0019】

なお、衝突しない場合、本願の実施例及び実施例の特徴を相互に組み合せてもよい。以下、図面及び実施例を参照しながら本願を詳細に説明する。

【0020】

図１は本願を適用できる、プッシュ用の方法又はプッシュ用の装置の実施例の例示的なシステムアーキテクチャー１００である。

【0021】

図１に示されるように、システムアーキテクチャー１００は、端末装置１０１、１０２、１０３、ネットワーク１０４及びサーバ１０５を備えてもい。ネットワーク１０４は端末装置１０１、１０２、１０３とサーバ１０４の間に通信リンクを提供する媒体に用いられている。ネットワーク１０４は様々な接続タイプ、例えば有線、無線通信リンク又は光ファイバーケーブルなどを含んでもよい。

【0022】

ユーザ１１０は端末装置１０１、１０２、１０３を用いてネットワーク１０４を介してサーバ１０５とインタラクションして、それによりメッセージなどを送受信することができる。端末装置１０１、１０２、１０３に、様々な通信クライアントアプリケーション、例えば、ショッピングアプリケーション、捜索アプリケーション、ウェブブラウザアプリケーション、インスタントメッセージツール、電子メールクライアント、ソーシャルプラットフォームソフト、支払ソフトなどがインストールされてもよい。

【0023】

端末装置１０１、１０２、１０３はディスプレイを有するとともにデータ送受信をサポートする様々な電子デバイスであってもよく、スマートフォン、タブレットＰＣ、スマートウォッチ、ラップトップ型コンピュータ及びデスクトップコンピュータなどを含むが、それらに限定されるものではない。端末装置１０１、１０２、１０３は広告主がある第１ユーザ端末であってもよく、検索ユーザがある第２ユーザ端末であってもよい。

【0024】

スケジューリングサーバ１０５は様々なサービスを提供するサーバ、例えば、ターゲットテキストと候補キーワードをサポートするバックグラウンドサーバであってもよい。バックグラウンドサーバはターゲットテキストと候補キーワードに分析などの処理を行って、処理結果（例えばプッシュしようとするキーワード）を端末装置にフィードバックすることができる。

【0025】

本願の実施例に係る情報プッシュ用の方法は通常にサーバ１０５で実行される。それに対応して、情報プッシュ用の装置は通常にサーバ１０５に設置されることを理解すべきである。

【0026】

なお、図１における端末装置、ネットワーク及びサーバの数は例示的なものに過ぎない。必要に応じて、端末装置、ネットワーク及びサーバの数が任意であってもよい。

【0027】

次に、本願に係る情報プッシュ用の方法の一実施例のプロセス２００を示す図２を参照する。当該情報プッシュ用の方法は、ステップ２０１〜２０５を含む。

【0028】

ステップ２０１：ターゲットテキストを単語分割して、フレーズの集合を生成する。

【0029】

【0030】

【0031】

ステップ２０２：フレーズの集合における各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度を計算する。

【0032】

本実施例では、上記電子機器はステップ２０１において生成したフレーズの集合における各フレーズの上記ターゲットテキストでの単語の出現頻度逆文書頻度（単語の出現頻度-逆文書頻度（ＴｅｒｍＦｒｅｑｕｅｎｃｙ-ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ、ＴＦ-ＩＤＦ）と呼ばれてもよい）を計算し、すなわち各フレーズの上記ターゲットテキストに対する重要性を計算する。上記単語の出現頻度-逆文書頻度方法の主旨は、ある単語又はフレーズが１つの文章に出現した頻度（ＴｅｒｍＦｒｅｑｕｅｎｃｙ、ＴＦ）が高く、且つほかの文章に非常にめったに出現しない場合、この単語又はフレーズが非常に良好なカテゴリ区分能力を有し、分類に適すると考えられる。逆文書頻度（ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ、ＩＤＦ）については、主に、ある単語又はフレーズを含むドキュメントが少なければ少ないほど、ＩＤＦが大きくなり、当該単語又はフレーズが非常に良好なカテゴリ区分能力を有することでなる。したがって、単語の出現頻度-逆文書頻度方法を用いることで、ある単語又はフレーズのある文章内での重要性を計算できる。

【0033】

本実施例のいくつかの好ましい実施形態では、上記電子機器、先ず各フレーズが予め設定したテキスト集合に出現した逆文書頻度を統計してもよく、テキスト集合におけるすべてのテキストを単語分割し、各フレーズがすべてのテキストのフレーズの集合に出現した逆文書頻度を統計してもよく、予め設定したテキスト集合における、各フレーズのそれぞれを含むテキストの数を統計してもよく、それから、すべてのテキスト数を当該フレーズを含むテキストの数で割って当該フレーズの逆文書頻度を得て、ここで、上記ターゲットテキストが広告コンセプトテキストである場合、上記テキスト集合はすべての広告コンセプトテキストで構成される集合であってもよく、上記ターゲットテキストとの関連度が予め設定した関連度閾値より大きい広告コンセプトテキストで構成される集合であってもよく、上記ターゲットテキストが所属するユーザのアカウントにおけるすべての広告コンセプトテキストで構成される集合であってもよい。次に、上記電子機器は各フレーズの上記テキスト集合に出現した頻度を統計し、最終的に、上記統計した逆文書頻度と上記統計した頻度との積を当該ワードの単語の出現頻度-逆文書頻度とすることができる。

【0034】

ステップ２０３：予め設定した候補キーワードと各フレーズとの類似度を取得する。

【0035】

本実施例では、上記電子機器は、先ず例えば推薦アルゴリズム（例えば、協調フィルタリング（ＣｏｌｌａｂｏｒａｔｉｖｅＦｉｌｔｅｒｉｎｇ）アルゴリズム、コンテンツベースの推薦アルゴリズムなど）で、予め設定した候補キーワードを取得でき、例えば、協調フィルタリングアルゴリズムでユーザの候補キーワードを取得する場合、通常、先ずキーワードに対するユーザの履歴行為データ、例えばユーザの購買履歴、フォロー、お気に入りに追加する行為、評価や採点行為などを収集し、次に、ユーザの履歴行為データに基づいて類似度アルゴリズム（例えば、ユークリッド距離（Ｅｕｃｌｉｄｅａｎｄｉｓｔａｎｃｅ）、ピアソン相関係数（ＰｅａｒｓｏｎＣｏｒｒｅｌａｔｉｏｎＣｏｅｆｆｉｃｉｅｎｔ）など）で当該ユーザとほかのユーザとの類似度、又はユーザが興味を持つキーワードとほかのキーワードとの類似度を計算し、最終的に、キーワードに対する当該ユーザの好みに基づいて当該ユーザと同じ好みを有する近傍ユーザを探し、次に近傍ユーザが興味を持つキーワードを候補キーワードとして、又は当該ユーザが興味を持つキーワードとの類似度が高いほかのキーワードを候補キーワードとすることができる。それから、上記候補キーワードと各フレーズに対してコサイン類似度（ｃｏｓｉｎｅｓｉｍｉｌａｒｉｔｙ）アルゴリズムなどの公知の類似度計算方法で類似度計算を行ってもよい。

【0036】

ステップ２０４：各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度と、候補キーワードと各フレーズとの類似度とに基づいて、候補キーワードとターゲットテキストとの関連度を計算する。

【0037】

本実施例では、上記電子機器はステップ２０２において計算した各フレーズの上記ターゲットテキストでの単語の出現頻度-逆文書頻度、及びステップ２０３において取得した候補キーワードと各フレーズとの類似度に基づいて、当該候補キーワードとターゲットテキストとの関連度を計算するようにしてもよい。例として、単語の出現頻度-逆文書頻度が最大のフレーズの単語の出現頻度-逆文書頻度と、候補キーワードと当該フレーズとの類似度との積を当該候補キーワードとターゲットテキストとの関連度としてもよく、単語の出現頻度-逆文書頻度が予め設定した頻度閾値より大きい各フレーズのそれぞれの単語の出現頻度-逆文書頻度に当該候補キーワードと当該フレーズとの類似度を乗じ、積を加算して当該候補キーワードとターゲットテキストとの関連度を取得するようにしてもよい。

【0038】

本実施例のいくつかの選択可能な実施形態では、上記テキスト集合における各フレーズに対して、候補キーワードと当該ワードとの類似度に当該ワードの上記ターゲットテキストでの単語の出現頻度-逆文書頻度を乗じ、得られた各積を加算し、上記候補キーワードと上記ターゲットテキストとの関連度を取得することができ、下記式（１）により候補キーワードとターゲットテキストとの関連度を計算することができる。

【0039】

【0040】

【0041】

ステップ２０５：予め設定した関連度閾値に基づいて、又は関連度と予め設定したプッシュ数とに基づいて、候補キーワードからプッシュしようとする候補キーワードを選択し、第１ユーザ端末へプッシュしようとする候補キーワードをプッシュする。

【0042】

本実施例では、ステップ２０４において各候補キーワードと上記ターゲットテキストとの関連度を計算した後に、上記電子機器は候補キーワードから予め設定した関連度閾値より大きい候補キーワードをプッシュしようとする候補キーワードとして選択してもよく、関連度の降順に従って候補キーワードから予め設定したプッシュ数の候補キーワードをプッシュしようとする候補キーワードとして選択してもよく、次に、第１ユーザ端末へ上記プッシュしようとする候補キーワードをプッシュする。例として、第１ユーザ端末が広告主である場合、上記電子機器は広告主へプッシュしようとする候補キーワードをプッシュすることができ、これによって、上記広告主が候補キーワードを購買に供する。

【0043】

本願の上記実施例に係る方法はターゲットテキストでの各フレーズと候補キーワードとの類似度及び各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度に基づいて、各候補キーワードとターゲットテキストとの関連度を得て、関連度に基づいて情報をプッシュすることによって、情報プッシュの精度を向上させる。

【0044】

さらに、情報プッシュ用の方法の別の実施例のプロセス３００を示す図３を参照する。当該情報プッシュ用の方法のプロセス３００は、ステップ３０１〜ステップ３０８を含む。

【0045】

ステップ３０１：ターゲットテキストを単語分割して、フレーズの集合を生成する。

【0046】

本実施例では、情報プッシュ用の方法を実行する電子機器（例えば図１に示されるサーバ）は予め取得したターゲットテキスト（例えば、広告コンセプトテキスト）を有線接続又は無線接続で単語分割し、フレーズの集合を生成することができる。上記電子機器は多種の単語分割方法でターゲットテキストを単語分割でき、単語分割方法は辞書に基づく単語分割方法（例えば、最大マッチングアルゴリズム、隣接マッチングアルゴリズム、最短パスマッチングアルゴリズム及び統計に基づく最短パス単語分割アルゴリズムなど）、統計に基づく単語分割方法（例えば、Ｎ-グラムモデル又は隠れマルコフモデルを用いる統計単語分割方法）、ルールに基づく単語分割方法や人工知能技術に基づく中国語単語分割方法などを含むが、それらに制限されない。

【0047】

ステップ３０２：フレーズの集合における各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度を計算する。

【0048】

本実施例では、上記電子機器はステップ３０１において生成したフレーズの集合における各フレーズの上記ターゲットテキストでの単語の出現頻度逆文書頻度（単語の出現頻度-逆文書頻度と呼ばれてもよい）を計算し、すなわち各フレーズの上記ターゲットテキストに対する重要性を計算する。上記単語の出現頻度-逆文書頻度方法の主旨は、ある単語又はフレーズが１つの文章に出現した頻度が高く、且つほかの文章に非常にめったに出現しない場合、この単語又はフレーズが非常に良好なカテゴリ区分能力を有し、分類に適すると考えられる。逆文書頻度については、主に、ある単語又はフレーズを含むドキュメントが少なければ少ないほど、ＩＤＦが大きくなり、当該単語又はフレーズが非常に良好なカテゴリ区分能力を有することでなる。したがって、単語の出現頻度-逆文書頻度方法を用いることで、ある単語又はフレーズのある文章内での重要性を計算できる。

【0049】

ステップ３０３：予め設定した候補キーワードと各フレーズとの類似度を取得する。

【0050】

本実施例では、上記電子機器は、先ず例えば推薦アルゴリズム（例えば、協調フィルタリングアルゴリズム、コンテンツベースの推薦アルゴリズムなど）で、予め設定した候補キーワードを取得でき、例えば、協調フィルタリングアルゴリズムでユーザの候補キーワードを取得する場合、通常、先ずキーワードに対するユーザの履歴行為データ、例えばユーザの購買履歴、フォロー、お気に入りに追加する行為、評価や採点行為などを収集し、次に、ユーザの履歴行為データに基づいて類似度アルゴリズム（例えば、ユークリッド距離、ピアソン相関係数など）で当該ユーザとほかのユーザとの類似度、又はユーザが興味を持つキーワードとほかのキーワードとの類似度を計算し、最終的に、キーワードに対する当該ユーザの好みに基づいて当該ユーザと同じ好みを有する近傍ユーザを探し、次に近傍ユーザが興味を持つキーワードを候補キーワードとして、又は当該ユーザが興味を持つキーワードとの類似度が高いほかのキーワードを候補キーワードとすることができる。それから、上記候補キーワードと各フレーズに対してコサイン類似度アルゴリズムなどの公知の類似度計算方法で類似度計算を行ってもよい。

【0051】

ステップ３０４：各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度、候補キーワードと各フレーズの類似度に基づいて、候補キーワードとターゲットテキストの関連度を計算する。

【0052】

本実施例では、上記電子機器はステップ３０２において計算した各フレーズの上記ターゲットテキストでの単語の出現頻度-逆文書頻度と、ステップ３０３において取得した候補キーワードと各フレーズとの類似度に基づいて、当該候補キーワードとターゲットテキストとの関連度を計算するようにしてもよい。例として、さらに上記候補キーワードとの類似度が予め設定した類似度閾値より大きい各フレーズのそれぞれの類似度に当該フレーズの単語の出現頻度-逆文書頻度を乗じ、積を加算して当該候補キーワードとターゲットテキストとの関連度を取得するようにしてもよい。

【0053】

ステップ３０５：予め設定した関連度閾値に基づいて、又は関連度と予め設定したプッシュ数とに基づいて、候補キーワードからプッシュしようとする候補キーワードを選択する。

【0054】

本実施例では、ステップ３０４において各候補キーワードと上記ターゲットテキストとの関連度を計算した後に、上記電子機器は候補キーワードから予め設定した関連度閾値より大きい候補キーワードをプッシュしようとする候補キーワードとして選択してもよく、関連度の降順に従って候補キーワードから予め設定したプッシュ数の候補キーワードをプッシュしようとする候補キーワードとして選択してもよい。

【0055】

ステップ３０６：プッシュしようとする候補キーワードとターゲットテキストとの対応関係を確立する。

【0056】

本実施例では、上記電子機器はステップ３０５で選択されたプッシュしようとする候補キーワードと上記ターゲットテキストとの対応関係を確立でき、１つのターゲットテキストは複数のプッシュしようとする候補キーワードに対応してもよく、１つのプッシュしようとする候補キーワードは複数のテキストに対応してもよい。

【0057】

ステップ３０７：プッシュしようとする候補キーワードに対する第２ユーザ端末の検索操作を検出したことに応答して、第２ユーザ端末へプッシュしようとする候補キーワードに対応するテキストをプッシュする。

【0058】

【0059】

図３から分かるように、図２に対応する実施例に比べて、本実施例における情報プッシュ用の方法のプロセス３００はプッシュしようとする候補キーワードとターゲットテキストとの対応関係を確立するステップ３０６、及びプッシュしようとする候補キーワードに対する第２ユーザ端末の検索操作を検出したことに応答して、第２ユーザ端末へプッシュしようとする候補キーワードに対応するテキストをプッシュするステップ３０７を強調する。したがって、本実施例で説明した手段は、検索側が検索する時に、プッシュしようとする候補キーワードに対応するテキストに対するプッシュに用いられるため、さらに情報プッシュの精度を向上させる。

【0060】

さらに図４参照し、上記各図に示す方法の実現として、本願はプッシュ用の装置の一実施例を提供し、当該装置の実施例は図２に示される方法の実施例に対応し、当該装置は具体的に各種の電子機器に適用できる。

【0061】

図４に示すように、本実施例の情報プッシュ用の装置４００は、生成ユニット４０１、第１計算ユニット４０２、取得ユニット４０３、第２計算ユニット４０４及び第１プッシュユニット４０５を備える。生成ユニット４０１はターゲットテキストを単語分割して、フレーズの集合を生成するように配置され、第１計算ユニット４０２はフレーズの集合における各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度を計算するように配置され、取得ユニット４０３は予め設定した候補キーワードと各フレーズとの類似度を取得するように配置され、第２計算ユニット４０４は各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度と、候補キーワードと各フレーズとの類似度とに基づいて、候補キーワードとターゲットテキストとの関連度を計算するように配置され、第１プッシュユニット４０５は予め設定した関連度閾値に基づいて、又は関連度と予め設定したプッシュ数とに基づいて、候補キーワードからプッシュしようとする候補キーワードを選択し、第１ユーザ端末へプッシュしようとする候補キーワードをプッシュするように配置されている。

【0062】

本実施例では、情報プッシュ用の装置４００の生成ユニット４０１は予め取得したターゲットテキストを有線接続又は無線接続で単語分割し、フレーズの集合を生成することができる。上記電子機器は多種の単語分割方法でターゲットテキストを単語分割することができ、単語分割方法は、辞書に基づく単語分割方法、統計に基づく単語分割方法、ルールに基づく単語分割方法や、人工知能技術に基づく中国語単語分割方法などを含むが、それらに制限されない。

【0063】

本実施例では、上記第１計算ユニット４０２は、上記生成ユニット４０１が生成したフレーズの集合における各フレーズの上記ターゲットテキストでの単語の出現頻度逆文書頻度（単語の出現頻度-逆文書頻度と呼ばれてもよい）を計算でき、すなわち各フレーズの上記ターゲットテキストに対する重要性を計算する。上記用語頻度-逆文書頻度方法の主旨は、ある単語又はフレーズが１つの文章に発生した頻度が高く、ほかの文章に非常に少なく発生する場合、この単語又はフレーズが非常に良好なカテゴリ区分能力を有し、分類に適すると考えられる。逆文書頻度については、主に、ある単語又はフレーズを含むドキュメントが少なければ少ないほど、ＩＤＦが大きくなり、当該単語又はフレーズが非常に良好なカテゴリ区分能力を有することでなる。したがって、単語の出現頻度-逆文書頻度方法を用いることで、ある単語又はフレーズのある文章内での重要性を計算できる。

【0064】

本実施例では、上記取得ユニット４０３は、先ず例えば推薦アルゴリズムで予め設定した候補キーワードを取得でき、例えば、協調フィルタリングアルゴリズムでユーザの候補キーワードを取得する場合、通常、先ずキーワードに対するユーザの履歴行為データ、例えばユーザの購買履歴、フォロー、お気に入りに追加する行為、評価や採点行為などを収集し、次に、ユーザの履歴行為データに基づいて類似度アルゴリズムで当該ユーザとほかのユーザとの類似度、又はユーザが興味を持つキーワードとほかのキーワードとの類似度を計算し、最終的に、キーワードに対する当該ユーザの好みに基づいて当該ユーザと同じ好みを有する近傍ユーザを探し、次に近傍ユーザが興味を持つキーワードを候補キーワードとして、又は当該ユーザが興味を持つキーワードとの類似度が高いほかのキーワードを候補キーワードとすることができる。それから、上記候補キーワードと各フレーズに対してコサイン類似度アルゴリズムなどの公知の類似度計算方法で類似度計算を行ってもよい。

【0065】

本実施例では、上記第２計算ユニット４０４は上記第１計算ユニット４０２が計算した各フレーズの上記ターゲットテキストでの単語の出現頻度-逆文書頻度と、上記取得ユニット４０３が取得した候補キーワードと各フレーズの類似度とに基づいて、当該候補キーワードとターゲットテキストとの関連度を計算することができる。例として、単語の出現頻度-逆文書頻度が最大のフレーズの単語の出現頻度-逆文書頻度と、候補キーワードと当該フレーズとの類似度との積を当該候補キーワードとターゲットテキストとの関連度としてもよく、単語の出現頻度-逆文書頻度が予め設定した頻度閾値より大きい各フレーズにおける各フレーズの単語の出現頻度-逆文書頻度に当該候補キーワードと当該フレーズとの類似度を乗じ、積を加算して当該候補キーワードとターゲットテキストとの関連度を取得するようにしてもよい。

【0066】

本実施例では、上記第２計算ユニット４０４で各候補キーワードと上記ターゲットテキストとの関連度が計算された後に、上記第１プッシュユニット４０５は候補キーワードから予め設定した関連度閾値より大きい候補キーワードをプッシュしようとする候補キーワードとして選択してもよく、関連度の降順に従って候補キーワードから予め設定したプッシュ数の候補キーワードをプッシュしようとする候補キーワードとして選択してもよく、次に、第１ユーザ端末へ上記プッシュしようとする候補キーワードをプッシュする。

【0067】

本実施例のいくつかの選択可能な実施形態では、上記テキスト集合における各フレーズに対して、上記第２計算ユニット４０４は候補キーワードと当該ワードとの類似度に当該ワードの上記ターゲットテキストでの単語の出現頻度-逆文書頻度を乗じ、得られた各積を加算し、上記候補キーワードと上記ターゲットテキストとの関連度を取得することができ、上記第２計算ユニット４０４は下記式（１）によって候補キーワードとターゲットテキストとの関連度を計算できる。

【0068】

【0069】

本実施例のいくつかの好ましい実施形態では、情報プッシュ用の装置４００はさらに、確立ユニット４０７と第２プッシュユニット４０８を備えてもよい。上記確立ユニット４０７は上記第１プッシュユニット４０５から選択されたプッシュしようとする候補キーワードと上記ターゲットテキストとの対応関係を確立でき、ここで、１つのターゲットテキストは複数のプッシュしようとする候補キーワードに対応してもよく、１つのプッシュしようとする候補キーワードは複数のテキストに対応してもよい。プッシュしようとする候補キーワードに対する第２ユーザ端末の検索操作を検出した場合、上記第２プッシュユニット４０８は上記第２ユーザ端末へそれが検索したプッシュしようとする候補キーワードに対応するテキストをプッシュすることができる。上記第２プッシュユニット４０８は、先ず第２ユーザ端末が検索したプッシュしようとする候補キーワードに対応するテキスト集合を取得し、次に、検索したプッシュしようとする候補キーワードに対応するすべてのテキストをプッシュしてもよく、上記プッシュしようとする候補キーワードに対応するテキスト集合における予め設定した数のテキストをプッシュしてもよい。

【0070】

本実施例のいくつかの好ましい実施形態では、上記第１計算ユニット４０２は第１統計モジュール４０２１、第２統計モジュール４０２２及び計算モジュール４０２３を備えてもよい。ここで、上記第１統計モジュール４０２１は先ず各フレーズが予め設定したテキスト集合に出現した逆文書頻度を統計してもよく、テキスト集合におけるすべてのテキストを単語分割し、各フレーズがすべてのテキストのフレーズの集合に出現した逆文書頻度を統計してもよく、予め設定したテキスト集合において各フレーズのそれぞれを含むテキストの数を統計してもよく、次にすべてのテキスト数を当該フレーズを含むテキストの数で割って当該フレーズの逆文書頻度を得て、上記ターゲットテキストが広告コンセプトテキストである場合、上記テキスト集合はすべての広告コンセプトテキストで構成される集合であってもよく、上記ターゲットテキストとの関連度が予め設定した関連度閾値より大きい広告コンセプトテキストで構成される集合であってもよく、上記ターゲットテキストの属するユーザのアカウントにおけるすべての広告コンセプトテキストで構成される集合であってもよく、次に、上記第２統計モジュール４０２２は各フレーズの上記テキスト集合に出現した頻度を統計し、最終的に、上記計算モジュール４０２３は上記統計した逆文書頻度と上記統計した頻度の積を当該ワードの単語の出現頻度-逆文書頻度とすることができる。

【0071】

本実施例のいくつかの好ましい実施形態では、情報プッシュ用の装置４００はさらに削除ユニット４０６を備えてもよい。フレーズの集合を生成した後に、上記削除ユニット４０６は上記フレーズの集合におけるストップワードを削除できる。情報検索において、メモリ領域を節約し且つ検索効率を向上させるために、自然言語データ（又はテキスト）を処理する前又は処理した後に、ストップワード（ＳｔｏｐＷｏｒｄｓ）と呼ばれる所定の字又は単語を自動的にフィルタリングする。これらのストップワードは手動で入力されたものであり、自動的に生成するものではなく、生成後のストップワードはストップワードテーブルを形成する。上記削除ユニット４０６はフレーズの集合におけるフレーズとストップワードテーブルにおけるワードを比較し、ストップワードテーブルに発生したフレーズを削除することができる。

【0072】

以下、本発明の実施例を実現するためのサーバに適用されるコンピュータシステム５００を示す構造模式図である図５を参照する。

【0073】

図５に示すように、コンピュータシステム５００は、読み出し専用メモリ（ＲＯＭ）５０２に記憶されているプログラム又は記憶部５０８からランダムアクセスメモリ（ＲＡＭ）５０３にロードされたプログラムに基づいて様々な適当な動作及び処理を実行することができる中央処理装置（ＣＰＵ）５０１を備える。ＲＡＭ５０３には、システム５００の操作に必要な様々なプログラム及びデータがさらに記憶されている。ＣＰＵ５０１、ＲＯＭ５０２及びＲＡＭ５０３は、バス５０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インターフェース５０５もバス５０４に接続されている。

【0074】

キーボード、マウスなどを含む入力部５０６、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）など、及びスピーカなどを含む出力部５０７、ハードディスクなどを含む記憶部５０８、及びＬＡＮカード、モデムなどを含むネットワークインターフェースカードの通信部５０９は、Ｉ／Ｏインターフェース５０５に接続されている。通信部５０９は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライバ５１０は、必要に応じてＩ／Ｏインターフェース５０５に接続される。リムーバブルメディア５１１は、例えば、マグネチックディスク、光ディスク、光磁気ディスク、半導体メモリなどのようなものであり、必要に応じてドライバ５１０に取り付けられ、したがって、ドライバ５１０から読み出されたコンピュータプログラムが必要に応じて記憶部５０８にインストールされる。

【0075】

特に、本発明の実施例によれば、フローチャートを参照しながら記載された上記のプロセスは、コンピュータのソフトウェアプログラムとして実現されてもよい。例えば、本発明の実施例は、コンピュータプログラム製品を含み、当該コンピュータプログラム製品は、機械可読媒体に有形に具現化されるコンピュータプログラムを含み、前記コンピュータプログラムは、フローチャートで示される方法を実行するためのプログラムコードを含む。このような実施例では、当該コンピュータプログラムは、通信部５０９を介してネットワークからダウンロードされてインストールされてもよく、及び／又はリムーバブルメディア５１１からインストールされてもよい。

【0076】

図面におけるフローチャート及びブロック図は、本発明の各実施例に係るシステム、方法及びコンピュータプログラム製品により実現可能なアーキテクチャ、機能及び操作を示す。ここで、フローチャート又はブロック図における各枠は、１つのモジュール、プログラムセグメント、又はコードの一部を代表してもよく、前記モジュール、プログラムセグメント、又はコードの一部は、規定された論理機能を達成するための１つ以上の実行可能な命令を含む。また、いくつかの代替実施態様として、枠に示された機能は、図面に示された順番と異なる順番で実行されてもよい。例えば、連続して示された２つの枠は、関連する機能に応じて、実際にほぼ並行に実行されてもよく、逆の順番で実行されてもよい。また、ブロック図及び／又はフローチャートにおける各枠と、ブロック図及び／又はフローチャートにおける枠の組合せは、規定された機能又は操作を実行する、ハードウェアに基づく専用システムで実現されてもよく、あるいは、専用ハードウェアとコンピュータの命令との組合せで実行されてもよい。

【0077】

本発明の実施例に記載されたユニットは、ソフトウェアで実現されてもよく、ハードウェアで実現されてもよい。記載されたユニットは、プロセッサに設定されてもよく、例えば、「生成ユニット、第１計算ユニット、取得ユニット、第２計算ユニット及び第１プッシュユニットを備えるプロセッサ」として記載されてもよい。その中でも、これらのユニットの名称は、ある場合において当該ユニットその自体を限定するものではなく、例えば、生成ユニットは、「フレーズの集合を生成するユニット」として記載されてもよい。

【0078】

一方、本発明は、不揮発性コンピュータ記憶媒体をさらに提供し、当該不揮発性コンピュータ記憶媒体は、上記実施例の装置に含まれる不揮発性コンピュータ記憶媒体であってもよく、独立に存在して端末に組み立てられていない不揮発性コンピュータ記憶媒体であってもよい。不揮発性コンピュータ記憶媒体は、１つ以上のプログラムが記憶され、１つ以上のプログラムが１つの機器により実行された場合、機器に、ターゲットテキストを単語分割して、フレーズの集合を生成し、フレーズの集合における各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度を計算し、予め設定した候補キーワードと各フレーズとの類似度を取得し、各フレーズのターゲットテキストでの単語の出現頻度-逆文書頻度と、候補キーワードと各フレーズとの類似度とに基づいて、候補キーワードとターゲットテキストとの関連度を計算し、予め設定した関連度閾値に基づいて、又は関連度と予め設定したプッシュ数とに基づいて、候補キーワードからプッシュしようとする候補キーワードを選択し、第１ユーザ端末へプッシュしようとする候補キーワードをプッシュするようにさせる。

【0079】

以上の記載は、本発明の好ましい実施例、及び使用された技術的原理の説明に過ぎない。本発明に係る特許請求の範囲が、上記した技術的特徴の特定な組合せからなる技術案に限定されることではなく、本発明の趣旨を逸脱しない範囲で、上記の技術的特徴又は同などの特徴の任意の組合せからなる他の技術案も含むべきであることを、当業者は理解すべきである。例えば、上記の特徴と、本発明に開示された類似の機能を持っている技術的特徴（これらに限定されていない）とを互いに置き換えてなる技術案が挙げられる。

【図1】

【図2】

【図3】

【図4】

【図5】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

特許第6511487号(P6511487)IP Force 特許公報掲載プロジェクト 2022.1.31 β版