(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-15
(45)【発行日】2023-09-26
(54)【発明の名称】コンピュータ機器が実行するロングテールキーワードの識別方法、キーワード検索方法及びコンピュータ機器
(51)【国際特許分類】
G06F 16/903 20190101AFI20230919BHJP
【FI】
G06F16/903
【外国語出願】
(21)【出願番号】P 2021209618
(22)【出願日】2021-12-23
【審査請求日】2022-02-25
(31)【優先権主張番号】202011620258.3
(32)【優先日】2020-12-30
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】521423821
【氏名又は名称】深▲ゼン▼市世強元件網絡有限公司
【氏名又は名称原語表記】SHENZHEN SEKORM COMPONENT NETWORK CO.,LTD
【住所又は居所原語表記】Room 2401,2402,Building 3A,1st Phase,Tian an Cloud Park,No.2018 Xuegang Rd.,Bantian Street,Longgang District,Shenzhen,Guangdong,China
(74)【代理人】
【識別番号】100091683
【氏名又は名称】▲吉▼川 俊雄
(74)【代理人】
【識別番号】100179316
【氏名又は名称】市川 寛奈
(72)【発明者】
【氏名】宋字林
【審査官】早川 学
(56)【参考文献】
【文献】特表2014-532928(JP,A)
【文献】中国特許出願公開第111831786(CN,A)
【文献】特開2017-062771(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
S101:検索キーワードを受信すると、履歴語ライブラリにより前記検索キーワードに含まれる原子キーワードの数量を識別する工程であって、このうち前記履歴語ライブラリは複数の前記原子キーワード及び各前記原子キーワードの重み値を含む、工程、
S102:
前記数量が2つまたは2つ以上である場合、前記検索キーワードを組合せキーワードとし、前記組合せキーワードにおけるすべての前記原子キーワードの重み値に基づいて、前記組合せキーワードのロングテール重み値を計算する工程、
を含
み、
工程S102において、前記組合せキーワードにおけるすべての前記原子キーワードの重み値に基づいて、前記組合せキーワードのロングテール重み値を計算するのは、
S1021:前記組合せキーワードのすべての前記原子キーワード間に語句包含関係を有するかどうかを判断する工程、
S1022:語句包含関係を有する場合、前記語句包含関係に対応する原子キーワードにおける重み値が低い原子キーワードを削除し、重み値が高い原子キーワードを残す工程、
S1023:前記組合せキーワードに残した前記原子キーワードの重み値に基づいて、前記組合せキーワードのロングテール重み値を計算する工程、を含むことを特徴とする、
コンピュータ機器が実行するロングテールキーワードの識別方法。
【請求項2】
工程S1022の後、工程S1023の前に、
S1024:前記組合せキーワードに残した前記原子キーワードの数量を判断する工程、
S1025:少なくとも2つの前記原子キーワードを残した場合、前記工程S1023を実行する工程、
S1026:1つの前記原子キーワードを残した場合、前記検索キーワードを原子キーワードとして前記履歴語ライブラリに保存し、さらに対応する重み値を設定する工程、をさらに含むことを特徴とする、請求項
1に記載の
コンピュータ機器が実行するロングテールキーワードの識別方法。
【請求項3】
工程S1023が、前記組合せキーワードに残した前記原子キーワードの重み値の和を前記組合せキーワードのロングテール重み値とすることを含むことを特徴とする、請求項
1に記載の
コンピュータ機器が実行するロングテールキーワードの識別方法。
【請求項4】
工程S101の後に、
S103工:前記検索キーワードが1つの前記原子キーワードを含む場合、前記検索キーワードを原子キーワードとして前記履歴語ライブラリに保存し、さらに対応する重み値を設定する工程、をさらに含むことを特徴とする、請求項1に記載の
コンピュータ機器が実行するロングテールキーワードの識別方法。
【請求項5】
工程S102で、前記組合せキーワードにおけるすべての前記原子キーワードの重み値に基づいて、前記組合せキーワードのロングテール重み値を計算するのは、
前記組合せキーワードにおけるすべての前記原子キーワードの重み値の和を前記組合せキーワードのロングテール重み値とすることを含むことを特徴とする、請求項1に記載の
コンピュータ機器が実行するロングテールキーワードの識別方法。
【請求項6】
S201:検索欄がユーザの入力する少なくとも2つの検索キーワードを受信する工程、
S202:請求項1~
5のいずれか1項に記載の
コンピュータ機器が実行するロングテールキーワードの識別方法を使用して、各前記検索キーワードのロングテール重み値を計算する工程、
を含
み、
工程S202の後に、
S203:前記ロングテール重み値が最大の前記検索キーワードをロングテールキーワードとし、前記ロングテールキーワードに対応する検索結果を得る工程、をさらに含むことを特徴とする、キーワード検索方法。
【請求項7】
工程S202の後に、
S204:各前記検索キーワードに対応する検索結果を得、前記検索結果を前記ロングテール重み値に基づいて高から低にソートする工程、をさらに含むことを特徴とする、請求項
6に記載のキーワード検索方法。
【請求項8】
メモリ及びプロセッサを含み、
前記メモリがコンピュータプログラムを保存するのに用いられ、
前記プロセッサが前記メモリに保存したコンピュータプログラムを実行して、請求項1~
5のいずれか1項に記載の
コンピュータ機器が実行するロングテールキーワードの識別方
法を実現することを特徴とするコンピュータ機器。
【請求項9】
メモリ及びプロセッサを含み、
前記メモリがコンピュータプログラムを保存するのに用いられ、
前記プロセッサが前記メモリに保存したコンピュータプログラムを実行して、請求項6又は7に記載のキーワード検索方法を実現することを特徴とするコンピュータ機器。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は検索分野に関し、より具体的には、ロングテールキーワードの識別方法、キーワード検索方法及びコンピュータ機器に関する。
【背景技術】
【0002】
ユーザはインターネットで各種情報を得るが、通常1つ又は複数の検索キーワードを入力し、検索エンジンにより関連する情報を得る。例えば、
図1を参考にすると、検索エンジンに検索キーワードa及び検索キーワードbの対応関係を予め設定し、すなわち検索キーワードaはドキュメント1、ドキュメント2及びドキュメント3に対応し、検索キーワードbはドキュメント3、ドキュメント4、ドキュメント5及びドキュメント6に対応する。ユーザが検索キーワードbを入力したとき、検索エンジンは予め設定した検索キーワードa及び検索キーワードbの対応関係に基づいて、検索キーワードbに対応するドキュメント3、ドキュメント4、ドキュメント5及びドキュメント6を得る。
【0003】
ユーザが2つ又は2つ以上の検索キーワードを同時に入力するとき、検索エンジンにすべての検索キーワードに適合するデータがない場合、異なる検索キーワードに対応するデータをどのようにして優先度でソートし、予測により符合する結果をユーザにレコメンドするかということは、検索分野に長く存在する問題である。既存技術は簡単に各検索キーワードの字数の多少により、検索キーワードのロングテール属性を確定しているが、この種の方式は容易にエラー判定され、検索精度は高くない。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明が解決しようとする技術的課題は、既存技術の上記欠点に対して、ロングテールキーワードの識別方法、キーワード検索方法及びコンピュータ機器を提供することである。
【課題を解決するための手段】
【0005】
本発明がその技術的課題を解決するために採用した技術案として、ロングテールキーワードの識別方法を構成する。以下の工程を含む。
S101、検索キーワードを受信すると、履歴語ライブラリにより検索キーワードに含まれる原子キーワードの数量を識別し、このうち履歴語ライブラリは複数の原子キーワード及び各原子キーワードの重み値を含む。
S102、検索キーワードが少なくとも2つの原子キーワードを含む場合、検索キーワードを組合せキーワードとし、組合せキーワードにおけるすべての原子キーワードの重み値に基づいて、組合せキーワードのロングテール重み値を計算する。
【0006】
さらに、本発明に記載するロングテールキーワードの識別方法において、工程S102で、組合せキーワードにおけるすべての原子キーワードの重み値に基づいて、組合せキーワードのロングテール重み値を計算するのは、以下の工程を含む。
S1021、組合せキーワードにおけるすべての原子キーワード間に語句包含関係を有するかどうかを判断する。
S1022、語句包含関係を有する場合、語句包含関係に対応する原子キーワードにおける重み値が低い原子キーワードを削除し、重み値が高い原子キーワードを残す。
S1023、組合せキーワードに残した原子キーワードの重み値に基づいて、組合せキーワードのロングテール重み値を計算する。
【0007】
さらに、本発明に記載するロングテールキーワードの識別方法において、工程S1022の後、工程S1023の前に以下の工程をさらに含む。
S1024、組合せキーワードに残した原子キーワードの数量を判断する。
S1025、少なくとも2つの原子キーワードを残した場合、工程S1023を実行する。
S1026、1つの原子キーワードを残した場合、検索キーワードを原子キーワードとして履歴語ライブラリに保存し、さらに対応する重み値を設定する。
【0008】
さらに、本発明に記載するロングテールキーワードの識別方法において、工程S1023は、組合せキーワードに残した原子キーワードの重み値の和を組合せキーワードのロングテール重み値とすることを含む。
【0009】
さらに、本発明に記載するロングテールキーワードの識別方法において、工程S101の後に、
S103、検索キーワードが1つの原子キーワードを含む場合、検索キーワードを原子キーワードとして履歴語ライブラリに保存し、さらに対応する重み値を設定する、をさらに含む。
【0010】
さらに、本発明に記載するロングテールキーワードの識別方法において、工程S102で、組合せキーワードにおけるすべての原子キーワードの重み値に基づいて、組合せキーワードのロングテール重み値を計算するのは、
組合せキーワードにおけるすべての原子キーワードの重み値の和を組合せキーワードのロングテール重み値とすることを含む。
【0011】
他に、本発明はさらにキーワード検索方法を提供する。以下の工程を含む。
S201、検索欄がユーザの入力する少なくとも2つの検索キーワードを受信する。
S202、上記のようなロングテールキーワードの識別方法を使用して、各検索キーワードのロングテール重み値を計算する。
【0012】
さらに、本発明に記載するキーワード検索方法において、工程S202の後に以下の工程をさらに含む。
S203、ロングテール重み値が最大の検索キーワードをロングテールキーワードとし、ロングテールキーワードに対応する検索結果を得る。
【0013】
さらに、本発明に記載するキーワード検索方法において、工程S202の後に以下の工程をさらに含む。
S204、各検索キーワードに対応する検索結果を得、検索結果をロングテール重み値に基づいて高から低にソートする。
【0014】
他に、本発明はさらにメモリ及びプロセッサを含むコンピュータ機器を提供する。
メモリはコンピュータプログラムを保存するのに用いられる。
プロセッサは、メモリに保存したコンピュータプログラムを実行して、上記のようなロングテールキーワードの識別方法、又は上記のようなキーワード検索方法を実現する。
【発明の効果】
【0015】
本発明のロングテールキーワードの識別方法、キーワード検索方法及びコンピュータ機器を実施すると、以下の有益な効果を有する。本発明はロングテールキーワードを効果的に識別することができ、さらにロングテールキーワードのロングテール重み値を計算し、検索過程において目標にヒットする精度を高める。
【0016】
以下、図及び実施例を組み合わせて、本発明についてさらに説明する。
【図面の簡単な説明】
【0017】
【
図1】
図1は、既存技術におけるキーワード検索過程のフローチャートである。
【
図2】
図2は、実施例が提供するロングテールキーワードの識別方法のフローチャートである。
【
図3】
図3は、実施例が提供するロングテールキーワードの識別方法のフローチャートである。
【
図4】
図4は、実施例が提供するロングテールキーワードの識別方法のフローチャートである。
【
図5】
図5は、実施例が提供するロングテールキーワードの識別方法のフローチャートである。
【
図6】
図6は、実施例が提供するキーワード検索方法のフローチャートである。
【
図7】
図7は、実施例が提供するキーワード検索方法のフローチャートである。
【
図8】
図8は、実施例が提供するキーワード検索方法のフローチャートである。
【発明を実施するための形態】
【0018】
本発明の技術的特徴、目的及び効果をより明確に理解できるようにするため、図を照らし合わせ、本発明の具体的な実施形態を詳細に説明する。
【0019】
好ましい実施例において、
図2を参考にすると、本実施例のロングテールキーワードの識別方法は以下の工程を含む。
S101、検索キーワードを受信すると、履歴語ライブラリにより検索キーワードに含まれる原子キーワードの数量を識別し、このうち履歴語ライブラリは複数の原子キーワード及び各原子キーワードの重み値を含む。履歴語ライブラリ中の原子キーワードは、人為的に設定するか、又は機械学習により得られ、各原子キーワードに重み値が対応する。検索キーワードを受信すると、履歴語ライブラリに保存された原子キーワードに基づいて検索キーワードを分割し、検索キーワードに対応する1つ又は複数の原子キーワードを得る。分割過程で、語句包含関係が存在する可能性があり、すなわち1つの原子キーワードがもう1つの原子キーワードを含む。例えば、検索キーワードが「工業系制御装置」であると、「制御装置」及び「制御」はいずれも原子キーワードであり、「制御装置」及び「制御」は語句包含関係を形成し、すなわち「制御装置」は「制御」を含む。検索キーワードの各文字はいずれも対応する原子キーワードを有するのではないことを理解することができ;例えば、検索キーワードが「制御装置」であり、履歴語ライブラリに「制御」の原子キーワードのみを有する場合、検索キーワード「制御装置」に対応する原子キーワードは「制御」である。
【0020】
S102、検索キーワードが少なくとも2つの原子キーワードを含む場合、検索キーワードを組合せキーワードとし、組合せキーワードにおけるすべての原子キーワードの重み値に基づいて、組合せキーワードのロングテール重み値を計算する。検索キーワードを原子キーワードに分割すると、1つ又は複数の原子キーワードを得ることができ、検索キーワードが少なくとも2つの原子キーワードを含む場合、検索キーワードを組合せキーワードとし、組合せキーワードにおけるすべての原子キーワードの重み値に基づいて、組合せキーワードのロングテール重み値を計算する。選択として、組合せキーワードにおけるすべての原子キーワードの重み値の和を組合せキーワードのロングテール重み値とする。その他の計算方法を使用して、組合せキーワードにおけるすべての原子キーワードの重み値に対応するロングテール重み値を計算することもできる。
【0021】
本実施例はロングテールキーワードを効果的に識別することができ、さらにロングテールキーワードのロングテール重み値を計算し、検索過程において目標にヒットする精度を高める。
【0022】
いくつかの実施例において、
図3を参考にすると、本実施例のロングテールキーワードの識別方法で、工程S101の後にさらに以下の工程を含む。
S103、検索キーワードが1つの原子キーワードを含む場合、検索キーワードを原子キーワードとして履歴語ライブラリに保存し、さらに対応する重み値を設定する。検索キーワードを原子キーワードに分割すると、1つ又は複数の原子キーワードを得ることができ、検索キーワードが1つの原子キーワードを含む場合、該検索キーワードを原子キーワードとして履歴語ライブラリに保存し、さらに対応する重み値を設定することができる。例えば、検索キーワードが「制御装置」であり、履歴語ライブラリに「制御」の原子キーワードのみを有する場合、検索キーワード「制御装置」を新しい原子キーワードとして履歴語ライブラリに保存し、さらに対応する重み値を設定することができる。ユーザの長期的な入力の蓄積により、履歴語ライブラリをユーザの習慣により符合させることができる。
【0023】
いくつかの実施例において、
図4を参考にすると、本実施例のロングテールキーワードの識別方法で、工程S102の組合せキーワードにおけるすべての原子キーワードの重み値に基づいて、組合せキーワードのロングテール重み値を計算するのは、以下の工程を含む。
S1021、組合せキーワードにおけるすべての原子キーワード間に語句包含関係を有するかどうかを判断する。分割過程で、語句包含関係が存在する可能性があり、すなわち1つの原子キーワードがもう1つの原子キーワードを含む。例えば、検索キーワードが「工業系制御装置」であると、「制御装置」及び「制御」はいずれも原子キーワードであり、「制御装置」及び「制御」は語句包含関係を形成し、すなわち「制御装置」は「制御」を含む。
【0024】
S1022、組合せキーワードにおけるすべての原子キーワード間に語句包含関係を有する場合、語句包含関係に対応する原子キーワードにおける重み値が低い原子キーワードを削除し、重み値が高い原子キーワードを残す。本実施例は、原子キーワードの字数の多少で削除するのではないことを説明する必要がある。すなわち字数が少ない原子キーワードを一定に削除するのではなく;原子キーワードの重み値を基準として削除する。すなわち組合せキーワードにおけるすべての原子キーワードの重み値の大きさを比較し、語句包含関係に対応する原子キーワードにおける重み値が低い原子キーワードを削除し、重み値が高い原子キーワードを残す。例えば、原子キーワード「制御装置」及び「制御」が語句包含関係を形成し、「制御装置」の重み値が「制御」の重み値より大きい場合、原子キーワード「制御」を削除し;「制御装置」の重み値が「制御」の重み値より小さい場合、原子キーワード「制御装置」を削除する。
【0025】
S1023、組合せキーワードに残した原子キーワードの重み値に基づいて、組合せキーワードのロングテール重み値を計算する。一部の原子キーワードを削除した後、組合せキーワードに残した原子キーワードの重み値に基づいて、組合せキーワードのロングテール重み値を計算する。選択として、組合せキーワードに残した原子キーワードの重み値の和を組合せキーワードのロングテール重み値とする。その他の計算方法を使用して、組合せキーワードに残した原子キーワードの重み値に対応するロングテール重み値を計算することもできる。
【0026】
本実施例は原子キーワード間に語句包含関係を有することをさらに考慮し、重み値が低い原子キーワードを削除する。検索範囲がより精確であることを確実に保証し、検索過程において目標にヒットする精度を高める。
【0027】
いくつかの実施例において、
図5を参考にすると、本実施例のロングテールキーワードの識別方法で、工程S1022の後、工程S1023の前に以下の工程をさらに含む。
S1024、組合せキーワードに残した原子キーワードの数量を判断する。一部の原子キーワードを削除すると、組合せキーワードに残した原子キーワードは1つ又は複数の可能性がある。
【0028】
S1025、少なくとも2つの原子キーワードを残した場合、工程S1023を実行する。
【0029】
S1026、1つの原子キーワードを残した場合、検索キーワードを原子キーワードとして履歴語ライブラリに保存し、さらに対応する重み値を設定する。
【0030】
好ましい実施例において、
図6を参考にすると、本実施例はさらにキーワード検索方法を提供する。以下の工程を含む。
S201、検索欄がユーザの入力する少なくとも2つの検索キーワードを受信する。検索欄は検索の入口であり、ユーザは検索欄に検索したい内容を入力することができ、スペース又はその他デフォルトの分離する符号により異なる検索キーワードを区別することができる。ユーザが2つ又は2つ以上の検索キーワードを入力したことを識別したとき、上記実施例のロングテールキーワードの識別方法を使用して、各検索キーワードのロングテール重み値を計算する。ユーザが1つの検索キーワードのみを入力した場合、既存技術を使用して検索すればよい。
【0031】
S202、上記実施例のようなロングテールキーワードの識別方法を使用して、各検索キーワードのロングテール重み値を計算する。
【0032】
本実施例はロングテールキーワードを効果的に識別することができ、さらにロングテールキーワードのロングテール重み値を計算し、検索過程において目標にヒットする精度を高める。
【0033】
いくつかの実施例において、
図7を参考にすると、本実施例のキーワード検索方法における工程S202の後に、S203、ロングテール重み値が最大の検索キーワードをロングテールキーワードとし、ロングテールキーワードに対応する検索結果を得る、をさらに含む。本実施例は、ロングテール重み値が最大の検索キーワードを選択して検索するのみであり、検索範囲を最小化、精確化することができる。バックグラウンドサーバは各ロングテールキーワードに対応する内容を保存し、バックグラウンドサーバはロングテールキーワードに対応する検索結果を得、ブラウザに戻ってユーザに表示する。
【0034】
いくつかの実施例において、
図8を参考にすると、本実施例のキーワード検索方法における工程S202の後に、S204、各検索キーワードに対応する検索結果を得、検索結果をロングテール重み値に基づいて高から低にソートする、をさらに含む。いくつかの検索キーワードについて、ロングテール重み値が最大の検索キーワードのみを採用した場合、検索結果が比較的少ない状況が存在する可能性があるため、すべての検索キーワードですべて検索する方針を採用することができる。しかし、検索結果をソートする必要があり、すなわち検索結果をロングテール重み値に基づいて高から低にソートする。検索結果をロングテール重み値に基づいて高から低にソートし、ユーザが見たい内容を前に配列させ、ユーザの確認を便利にする。
【0035】
好ましい実施例において、本実施例のコンピュータ機器はメモリ及びプロセッサを含む。メモリはコンピュータプログラムを保存するのに用いられ;プロセッサはメモリに保存したコンピュータプログラムを実行して、上記実施例のようなロングテールキーワードの識別方法、又は上記実施例のようなキーワード検索方法を実現する。
【0036】
本明細書中の各実施例は累加方式で記載しており、各実施例で重点的に説明するのは、いずれもその他の実施例と異なる部分である。各実施例の間の同じ、似ている部分は相互に参照すればよい。実施例で開示した装置は、実施例で開示した方法に対応するため、記載の比較は簡単であり、関連する部分は方法の一部の説明を参照すればよい。
【0037】
専門家は、本文で開示した実施例に記載する各例のユニット及びアルゴリズムを組み合わせた工程が、電子ハードウェア、コンピュータソフトウェア、または両者の組合せにより実現することができることを認識することができ、ハードウェア及びソフトウェアの互換性を明確に説明するため、上記説明で機能に基づいて各例の構成及び工程を一般的に記載した。これらの機能は結果的にハードウェア又はソフトウェアの方式で実行され、技術案の特定の応用及び設計の制約条件によって決まる。専門技術者は各特定の応用に対して異なる方法を使用し、記載する機能を実現することができるが、この種の実現は本発明の範囲を超えるとみなすべきではない。
【0038】
本文で開示した実施例に記載する方法又はアルゴリズムを組み合わせた工程は、ハードウェア、プロセッサが実行するソフトウェアモジュール、又は両者の組合せを直接使用して実施することができる。ソフトウェアモジュールは、ランダムアクセスメモリ(RAM)、メモリ、リードオンリーメモリ(ROM)、電気的プログラマブルROM、電気的消去可能プログラマブルROM、レジスタ、ハードディスクドライブ、リムーバブルディスク、CD-ROM、又は技術分野で公知である任意のその他の形式の記憶媒体に含まれることができる。
【0039】
以上の実施例は本発明の技術的構想及び特徴を説明したに過ぎず、その目的は当業者が本発明の内容を理解し、これに基づいて実施できるようにすることであり、本発明の保護範囲を制限することはできない。本発明の特許請求の範囲に基づいて行う均等な変更及び修飾は、いずれも本発明の特許請求の範囲に包含される範囲に属するべきである。