(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023026362
(43)【公開日】2023-02-24
(54)【発明の名称】単語マイニング方法、装置、電子機器、及び読み取り可能な記憶媒体
(51)【国際特許分類】
G06F 16/33 20190101AFI20230216BHJP
【FI】
G06F16/33
【審査請求】有
【請求項の数】17
【出願形態】OL
(21)【出願番号】P 2022125610
(22)【出願日】2022-08-05
(31)【優先権主張番号】202110925212.0
(32)【優先日】2021-08-12
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】ジャン、ヤン
(72)【発明者】
【氏名】ヤン、シュアンクアン
(72)【発明者】
【氏名】ハン、レイ
(72)【発明者】
【氏名】ジョウ、ケケ
(72)【発明者】
【氏名】シエ、イ
(72)【発明者】
【氏名】ジョウ、ウェイ
(72)【発明者】
【氏名】チェン、ジュンイ
(72)【発明者】
【氏名】シ、ドンジアン
(72)【発明者】
【氏名】バイ、グイフア
(72)【発明者】
【氏名】リ、シュアン
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FB03
5B175FB04
5B175KA12
(57)【要約】 (修正有)
【課題】単語マイニングの精度と効率を向上させる単語マイニング方法、装置、電子機器、及び読み取り可能な記憶媒体を提供する。
【解決手段】単語マイニング方法は、検索データを取得するステップと、前記検索データ内の第1の識別情報、検索文、及び第2の識別情報をノードとし、第1の識別情報と検索文との間の関係、第1の識別情報と第2の識別情報との間の関係、及び検索文と第2の識別情報との間の関係をエッジとし、行為グラフを構築するステップと、前記行為グラフ内の予め設定されたラベルを有する検索文に基づいて、前記行為グラフ内の各検索文のラベルベクトルを取得するステップと、前記ラベルベクトルに基づいて、前記行為グラフ内のターゲット検索文を決定するステップと、前記ターゲット検索文からターゲットワードを抽出し、前記ターゲットワードを前記検索データの単語マイニング結果とするステップと、を含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
検索データを取得するステップと、
前記検索データ内の第1の識別情報、検索文、及び第2の識別情報をノードとし、第1の識別情報と検索文との間の関係、第1の識別情報と第2の識別情報との間の関係、及び検索文と第2の識別情報との間の関係をエッジとし、行為グラフを構築するステップと、
前記行為グラフ内の予め設定されたラベルを有する検索文に基づいて、前記行為グラフ内の各検索文のラベルベクトルを取得するステップと、
前記ラベルベクトルに基づいて、前記行為グラフ内のターゲット検索文を決定するステップと、
前記ターゲット検索文からターゲットワードを抽出し、前記ターゲットワードを前記検索データの単語マイニング結果とするステップと、を含む、
単語マイニング方法。
【請求項2】
前記検索データ内の第1の識別情報、検索文、及び第2の識別情報をノードとし、第1の識別情報と検索文との間の関係、第1の識別情報と第2の識別情報との間の関係、及び検索文と第2の識別情報との間の関係をエッジとし、行為グラフを構築するステップは、
既知のターゲットワードを取得するステップと、
前記既知のターゲットワード、第1の識別情報、検索文、及び第2の識別情報をノードとするステップと、
第1の識別情報と検索文との間の関係、第1の識別情報と第2の識別情報との間の関係、検索文と第2の識別情報との間の関係、及び検索文と既知のターゲットワードとの間の関係をエッジとし、行為グラフを構築するステップと、を含む、
請求項1に記載の単語マイニング方法。
【請求項3】
前記行為グラフ内の予め設定されたラベルを有する検索文に基づいて、前記行為グラフ内の各検索文のラベルベクトルを取得するステップは、
前記行為グラフ内の予め設定されたノード間の関係に基づいて、各検索文の隣接する検索文を決定するステップと、
前記隣接する検索文の予め設定されたラベルに基づいて、各検索文のラベルベクトルを取得するステップと、を含む、
請求項1に記載の単語マイニング方法。
【請求項4】
前記行為グラフ内の予め設定されたノード間の関係に基づいて、各検索文の隣接する検索文を決定するステップは、
各検索文について、現在の検索文と同じ第1の識別情報及び/又は同じ第2の識別情報を有する検索文を、現在の検索文の隣接する検索文とするステップを含む、
請求項3に記載の単語マイニング方法。
【請求項5】
前記隣接する検索文の予め設定されたラベルに基づいて、各検索文のラベルベクトルを取得するステップは、
各検索文について、隣接する検索文の数と異なる予め設定されたラベルの出現回数に基づいて、各検索文が異なる予め設定されたラベルに属する確率情報を、各検索文のラベルベクトルとして取得するステップと、
検索文内の検証サンプルのラベルベクトルとラベリング結果に基づいて損失値を計算するステップと、
計算された損失値が予め設定された条件を満たしていないと決定された場合、各検索文のラベルベクトルにおける最大確率値に対応する予め設定されたラベルを各検索文の予め設定されたラベルとした後、計算された損失値が予め設定された条件を満たすまで、隣接する検索文の数と異なる予め設定されたラベルの出現回数に基づいて、各検索文が異なる予め設定されたラベルに属する確率情報を、各検索文のラベルベクトルとして取得するステップに移して実行するステップと、を含む、
請求項3に記載の単語マイニング方法。
【請求項6】
前記ラベルベクトルに基づいて、前記行為グラフ内のターゲット検索文を決定するステップは、
各検索文について、現在の検索文のラベルベクトルにおける最大確率値に対応する予め設定されたラベルを、現在の検索文のラベリングされたラベルとするステップと、
前記ラベリングされたラベルのラベル閾値を取得するステップと、
最大確率値が前記ラベル閾値より大きいと決定された場合、現在の検索文をターゲット検索文とするステップと、を含む、
請求項1に記載の単語マイニング方法。
【請求項7】
前記ターゲット検索文からターゲットワードを抽出した後、前記ターゲットワードに基づいて第1のサンプルセットと第2のサンプルセットを取得するステップと、
前記第1のサンプルセットと第2のサンプルセットとの間のマッチング度合いを計算するステップと、
前記マッチング度合いが予め設定された条件を満していると決定された場合、前記ターゲットワードを前記検索データの単語マイニング結果とするステップと、をさらに含む、
請求項1に記載の単語マイニング方法。
【請求項8】
検索データを取得する取得ユニットと、
前記検索データ内の第1の識別情報、検索文、及び第2の識別情報をノードとし、第1の識別情報と検索文との間の関係、第1の識別情報と第2の識別情報との間の関係、及び検索文と第2の識別情報との間の関係をエッジとし、行為グラフを構築する構築ユニットと、
前記行為グラフ内の予め設定されたラベルを有する検索文に基づいて、前記行為グラフ内の各検索文のラベルベクトルを取得する処理ユニットと、
前記ラベルベクトルに基づいて、前記行為グラフ内のターゲット検索文を決定する決定ユニットと、
前記ターゲット検索文からターゲットワードを抽出し、前記ターゲットワードを前記検索データの単語マイニング結果とするマイニングユニットと、を含む、
単語マイニング装置。
【請求項9】
前記構築ユニットは、前記検索データ内の第1の識別情報、検索文、及び第2の識別情報をノードとし、第1の識別情報と検索文との間の関係、第1の識別情報と第2の識別情報との間の関係、及び検索文と第2の識別情報との間の関係をエッジとし、行為グラフを構築する場合、
既知のターゲットワードを取得し、
前記既知のターゲットワード、第1の識別情報、検索文、及び第2の識別情報をノードとし、
第1の識別情報と検索文との間の関係、第1の識別情報と第2の識別情報との間の関係、検索文と第2の識別情報との間の関係、及び検索文と既知のターゲットワードとの間の関係をエッジとし、行為グラフを構築する、
請求項8に記載の単語マイニング装置。
【請求項10】
前記処理ユニットは、前記行為グラフ内の予め設定されたラベルを有する検索文に基づいて、前記行為グラフ内の各検索文のラベルベクトルを取得する場合、
前記行為グラフ内の予め設定されたノード間の関係に基づいて、各検索文の隣接する検索文を決定し、
前記隣接する検索文の予め設定されたラベルに基づいて、各検索文のラベルベクトルを取得する、
請求項8に記載の単語マイニング装置。
【請求項11】
前記処理ユニットは、前記行為グラフ内の予め設定されたノード間の関係に基づいて、各検索文の隣接する検索文を決定する場合、
各検索文について、現在の検索文と同じ第1の識別情報及び/又は同じ第2の識別情報を有する検索文を、現在の検索文の隣接する検索文とする、
請求項10に記載の単語マイニング装置。
【請求項12】
前記処理ユニットは、前記隣接する検索文の予め設定されたラベルに基づいて、各検索文のラベルベクトルを取得する場合、
各検索文について、隣接する検索文の数と異なる予め設定されたラベルの出現回数に基づいて、各検索文が異なる予め設定されたラベルに属する確率情報を、各検索文のラベルベクトルとして取得し、
検索文内の検証サンプルのラベルベクトルとラベリング結果に基づいて損失値を計算し、
計算された損失値が予め設定された条件を満たしていないと決定された場合、各検索文のラベルベクトルにおける最大確率値に対応する予め設定されたラベルを各検索文の予め設定されたラベルとした後、計算された損失値が予め設定された条件を満たすまで、隣接する検索文の数と異なる予め設定されたラベルの出現回数に基づいて、各検索文が異なる予め設定されたラベルに属する確率情報を、各検索文のラベルベクトルとして取得するステップに移して実行する、
請求項10に記載の単語マイニング装置。
【請求項13】
前記決定ユニットは、前記ラベルベクトルに基づいて、前記行為グラフ内のターゲット検索文を決定する場合、
各検索文について、現在の検索文のラベルベクトルにおける最大確率値に対応する予め設定されたラベルを、現在の検索文のラベリングされたラベルとし、
前記ラベリングされたラベルのラベル閾値を取得し、
最大確率値が前記ラベル閾値より大きいと決定された場合、現在の検索文をターゲット検索文とする、
請求項8に記載の単語マイニング装置。
【請求項14】
前記マイニングユニットが前記ターゲット検索文からターゲットワードを抽出した後、前記ターゲットワードに基づいて第1のサンプルセットと第2のサンプルセットを取得し、
前記第1のサンプルセットと第2のサンプルセットとの間のマッチング度合いを計算し、
前記マッチング度合いが予め設定された条件を満していると決定された場合、前記ターゲットワードを前記検索データの単語マイニング結果とする、評価ユニットをさらに含む、
請求項8に記載の単語マイニング装置。
【請求項15】
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサに通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項1~7のいずれかの一つに記載の単語マイニング方法を実行する、
電子機器。
【請求項16】
コンピュータに請求項1~7のいずれかの一つに記載の単語マイニング方法を実行させる、コンピュータ命令が記憶されている、
非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項17】
プロセッサによって実行される場合に請求項1~7のいずれかの一つに記載の単語マイニング方法を実現するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、データ処理技術の分野に関し、特に、自然言語処理、ディープラーニング、クラウドサービスなどの人工知能技術の分野に関する。単語マイニング方法、装置、電子機器、及び読み取り可能な記憶媒体を提供する。
【背景技術】
【0002】
スマートフォンとモバイルインターネットの普及に伴い、インターネットは人々の衣食住と交通手段を貫き始め、インターネットにも新しいネット用語が絶えず現れ、これらの新しいネット用語は一定の隠蔽性を持っている。インターネット上の一部のセンシティブな言葉は、監督を回避するために関係者によって作成されるため、これらのセンシティブな言葉はより隠蔽され、既存のテクノロジーではインターネットからセンシティブな言葉をマイニングする場合、マイニングの精度とマイニングの効率が低い技術的な問題が存在する。
【発明の概要】
【課題を解決するための手段】
【0003】
本開示の第1の態様によれば、単語マイニング方法を提供し、検索データを取得するステップと、前記検索データ内の第1の識別情報、検索文、及び第2の識別情報をノードとし、第1の識別情報と検索文との間の関係、第1の識別情報と第2の識別情報との間の関係、及び検索文と第2の識別情報との間の関係をエッジとし、行為グラフを構築するステップと、前記行為グラフ内の予め設定されたラベルを有する検索文に基づいて、前記行為グラフ内の各検索文のラベルベクトルを取得するステップと、前記ラベルベクトルに基づいて、前記行為グラフ内のターゲット検索文を決定するステップと、前記ターゲット検索文からターゲットワードを抽出し、前記ターゲットワードを前記検索データの単語マイニング結果とするステップと、を含む。
【0004】
本開示の第2の態様によれば、単語マイニング装置を提供し、検索データを取得するための取得ユニットと、前記検索データ内の第1の識別情報、検索文、及び第2の識別情報をノードとし、第1の識別情報と検索文との間の関係、第1の識別情報と第2の識別情報との間の関係、及び検索文と第2の識別情報との間の関係をエッジとし、行為グラフを構築するための構築ユニットと、前記行為グラフ内の予め設定されたラベルを有する検索文に基づいて、前記行為グラフ内の各検索文のラベルベクトルを取得するための処理ユニットと、前記ラベルベクトルに基づいて、前記行為グラフ内のターゲット検索文を決定するための決定ユニットと、前記ターゲット検索文からターゲットワードを抽出し、前記ターゲットワードを前記検索データの単語マイニング結果とするためのマイニングユニットと、を含む。
【0005】
本開示の第3の態様によれば、電子機器を提供し、少なくとも一つのプロセッサと、前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが上記の方法を実行させる。
【0006】
本開示の第4の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに上記の方法を実行させる。
【0007】
本開示の第5の態様によれば、コンピュータプログラム製品を提供し、コンピュータプログラムを含み、前記コンピュータプログラムがプロセッサによって実行される場合に上記の方法を実現する。
【0008】
上記の技術的解決策から分かるように、本実施例では、検索データにおける検索行為間の関連性に基づいてターゲットワードをマイニングすることができ、ターゲットワードをマイニングする場合の精度と効率を向上させることができる。
【0009】
本明細書で説明された内容は、本開示の実施例のキー又は重要な特徴を特定することを意図しておらず、本開示の範囲を制限するためにも使用されないことを理解されたい。本開示の他の特徴は、以下の明細書を通じて容易に理解できる。
【図面の簡単な説明】
【0010】
図面は、本開示をより良く理解するためのものであり、本開示を限定しない。
【
図6】本開示の実施例の単語マイニング方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0011】
以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
【0012】
図1は本開示の第1の実施例による概略図である。
図1に示すように、本実施例の単語マイニング方法は、具体的には、以下のようなステップを含むことができる。
S101、検索データを取得し、
S102、前記検索データ内の第1の識別情報、検索文、及び第2の識別情報をノードとし、第1の識別情報と検索文との間の関係、第1の識別情報と第2の識別情報との間の関係、及び検索文と第2の識別情報との間の関係をエッジとし、行為グラフを構築し、
S103、前記行為グラフ内の予め設定されたラベルを有する検索文に基づいて、前記行為グラフ内の各検索文のラベルベクトルを取得し、
S104、前記ラベルベクトルに基づいて、前記行為グラフ内のターゲット検索文を決定し、
S105、前記ターゲット検索文からターゲットワードを抽出し、前記ターゲットワードを前記検索データの単語マイニング結果とする。
【0013】
本実施例の単語マイニング方法では、検索データ内の第1の識別情報、検索文、及び第2の識別情報に基づいて行為グラフを構築した後、行為グラフ内の予め設定されたラベルを有する第1の検索文と行為グラフ内の各ノードとの間の関係によって、行為グラフ内のターゲット検索文を決定し、さらに、ターゲット検索文から抽出されたターゲットワードを検索データの単語マイニング結果とし、本実施例では、検索データにおける検索行為間の関連性に基づいてターゲットワードをマイニングするため、ターゲットワードをマイニングする場合の精度と効率を向上させる。
【0014】
本実施例においてS101を実行して取得された検索データは異なる入力側が検索する場合に生成された行為データであり、本実施例では異なる入力側に対応するログデータに基づいて検索データを取得することができる。
【0015】
本実施例においてS101を実行して取得された検索データでは、第1の識別情報、検索文、及び第2の識別情報を含み、その中、第1の識別情報は、入力側ID、入力側UIDなどの入力側の識別情報であり、検索文は、入力側が検索する場合に入力されたクエリテキスト(query)であり、第2の識別情報は、SessionIDなどの、入力側が検索する場合にサーバ側によって生成されたセッション(Session)識別情報であり、同じセッション識別情報は、入力側が一定期間内に行うすべての検索行為に対応する。
【0016】
本実施例においてS101を実行して取得された検索データでは、第2の識別情報の検索時間範囲、検索文の検索時間などの、入力側が検索する場合の時間情報をさらに含むことができる。
【0017】
本実施例においてS101を実行して検索データを取得した後、S102を実行して取得された検索データに基づいて行為グラフを構築する。
【0018】
本実施例においてS102を実行して構築された行為グラフでは、複数のノードと複数のノードとの間のエッジを含み、その中、本実施例では検索データ内の第1の識別情報、検索文、及び第2の識別情報を行為グラフ内のノードとし、第1の識別情報と検索文との間の関係、第1の識別情報と第2の識別情報との間の関係、及び第2の識別情報と検索文との間の関係を行為グラフ内のエッジとする。
【0019】
具体的には、本実施例においてS102を実行して行為グラフを構築する場合、第1の識別情報と検索文との間の関係は検索行為関係であり、異なる検索文がどの入力側から入力されるかを示すために用いられ、第1の識別情報と第2の識別情報との間の関係は検索行為関係であり、異なるセッションがどの入力側から開始するかを示すために用いられ、第2の識別情報と検索文との間の関係は検索帰属関係であり、同じセッションで入力側がどの検索文を入力したかを示すために用いられる。
【0020】
例えば、本実施例においてS101を実行して取得された検索データが入力側1、検索文1、検索文2、Session1、及びSession2を含み、入力側1がSession1で検索文1を入力し、Session2で検索文2を入力した場合、本実施例においてS102を実行して構築された行為グラフでは、入力側1と検索文1との間のエッジ、入力側1と検索文2との間のエッジ、入力側1とSession1との間のエッジ、入力側1とSession2との間のエッジ、Session1と検索文1との間のエッジ、及びSession2と検索文2との間のエッジを確立する。
【0021】
また、本実施例においてS102を実行して第1の識別情報、検索文、及び第2の識別情報をノードとし、第1の識別情報と検索文との間の関係、第1の識別情報と第2の識別情報との間の関係、及び検索文と第2の識別情報との間の関係をエッジとし、行為グラフを構築する場合、使用できる選択可能な実現方式は、既知のターゲットワードを取得し、既知のターゲットワード、第1の識別情報、検索文、及び第2の識別情報をノードとし、第1の識別情報と検索文との間の関係、第1の識別情報と第2の識別情報との間の関係、検索文と第2の識別情報との間の関係、及び検索文と既知のターゲットワードとの間の関係をエッジとし、行為グラフを構築し、本実施例によって構築された行為グラフにおいて、検索文と既知のターゲットワードとの間の関係は、検索敏感関係であり、入力側によって入力された検索文が敏感内容に関するか否かを示すために用いられる。
【0022】
本実施例では、既知のターゲットワードは既知のセンシティブな言葉である。つまり、本実施例では行為グラフを構築する場合、さらに、既知のターゲットワード、及び検索文と既知のターゲットワードとの間の関係を追加して、行為グラフの完全性を向上させ、行為グラフ内の検索文の予め設定されたラベルをラベリングする場合の精度をさらに向上させる。
【0023】
本実施例においてS102を実行して検索文と既知のターゲットワードとの間の関係をエッジとする場合、検索文と既知のターゲットワードをマッチングし、マッチング結果に基づいて検索文に含まれる既知のターゲットワードを決定し、さらに、行為グラフでの検索文と当該検索文に含まれる既知のターゲットワードとの間のエッジを確立することができる。
【0024】
例えば、本実施例においてS102を実行して取得された既知のターゲットワードがターゲットワード1とターゲットワード2であり、検索文1がターゲットワード2を含み、検索文2がターゲットワード1を含む場合、本実施例においてS102を実行して構築された行為グラフでは、検索文1とターゲットワード2との間のエッジを確立し、検索文2とターゲットワード1との間のエッジを確立する。
【0025】
本実施例においてS102を実行して行為グラフを構築した後、S103を実行して行為グラフ内の予め設定されたラベルを有する検索文に基づいて、行為グラフ内の各検索文のラベルベクトルを取得し、本実施例における予め設定されたラベルは敏感ラベルであり、本実施例におけるラベルベクトルは、検索文が異なる予め設定されたラベルに属する確率情報を指示するために用いられる。
【0026】
本実施例においてS103を実行する場合、行為グラフ内の予め設定されたラベルを有する検索文は第1の検索文であり、当該第1の検索文は既知のターゲットワードを含み、第1の検索文の予め設定されたラベルは含まれる既知のターゲットワードに対応するラベルである。
【0027】
本実施例においてS102を実行して構築された行為グラフでは、既知のターゲットワード、及び検索文と既知のターゲットワードとの間の関係を含む場合、本実施例においてS103を実行する場合、直接に既知のターゲットワードと連続関係が存在する検索文を第1の検索文とし、連続する既知のターゲットワードに基づいて第1の検索文の予め設定されたラベルを取得することができる。
【0028】
本実施例においてS102を実行して構築された行為グラフでは、既知のターゲットワード、及び検索文と既知のターゲットワードとの間の関係が含まれていない場合、本実施例においてS103を実行する場合、行為グラフから選択された特定の文を第1の検索文とし、第1の検索文の予め設定されたラベルをラベリングすることができる。
【0029】
具体的には、本実施例においてS103を実行して行為グラフ内の予め設定されたラベルを有する検索文に基づいて、行為グラフ内の各検索文のラベルベクトルを取得する場合、使用できる選択可能な実現方式は、行為グラフ内の予め設定されたノード間の関係に基づいて、各検索文の隣接する検索文を決定し、隣接する検索文は第1の検索文を含み、決定された隣接する検索文の予め設定されたラベルに基づいて、各検索文のラベルベクトルを取得する。
【0030】
つまり、本実施例においてS103を実行して行為グラフ内の各検索文のラベルベクトルを取得し、すなわち行為グラフ内のノード間の関係に基づいて、予め設定されたラベルを有する検索文の予め設定されたラベルを予め設定されたラベルのない検索文に伝達する。
【0031】
本実施例においてS103を実行して行為グラフ内の予め設定されたノード間の関係に基づいて、各検索文の隣接する検索文を決定する場合、使用できる選択可能な実現方式は、行為グラフ内の各検索文について、現在の検索文と同じ第1の識別情報及び/又は同じ第2の識別情報を有する検索文を、現在の検索文の隣接する検索文とする。
【0032】
本実施例においてS103を実行して使用する第1の識別情報は、予め設定された第1の識別情報であってもよく、例えば、指定された入力側の識別情報に対応し、本実施例においてS103を実行して使用する第2の識別情報は、予め設定された第2の識別情報であってもよく、例えば、予め設定されたラベルを有する検索文のセッション識別情報を含む。
【0033】
つまり、本実施例は、「ユーザがターゲットワードを含む検索文を入力して検索した後、当該ユーザが入力した他の検索文にターゲットワードを含む可能性がある場合」、「ユーザが一回のセッション中にターゲットワードを含む検索文を入力して検索し、当該ユーザが今回セッション中に入力した他の検索文にターゲットワードを含む可能性がある場合」に基づくと仮定すると、行為グラフ内の各検索文の隣接する検索文を正確に決定し、取得された確率情報の精度をさらに向上させることができる。
【0034】
本実施例においてS103を実行して決定された隣接する検索文の予め設定されたラベルに基づいて、各検索文のラベルベクトルを取得する場合、使用できる選択可能な実現方式は、各検索文について、隣接する検索文の数と異なる予め設定されたラベルの出現回数に基づいて、各検索文が異なる予め設定されたラベルに属する確率情報を、各検索文のラベルベクトルとして取得し、検索文内の検証サンプルのラベルベクトルとラベリング結果に基づいて損失値を計算し、本実施例における検証サンプルは予め設定され、例えば、行為グラフで一定数の検索文を検証サンプルとして選択してラベリングし、本実施例では、ラベルベクトルとラベリング結果との間の類似度を損失値として計算し、計算された損失値が予め設定された条件を満たしていないと決定された場合、各検索文のラベルベクトルにおける最大確率値に対応する予め設定されたラベルを各検索文の予め設定されたラベルとした後、計算された損失値が予め設定された条件を満たすまで、隣接する検索文の数と異なる予め設定されたラベルの出現回数に基づいて、各検索文が異なる予め設定されたラベルに属する確率情報を、各検索文のラベルベクトルとして取得するステップに移して実行することができる。
【0035】
つまり、本実施例は、予め設定された検証サンプルを組み合わせて、絶えず反復する方式で行為グラフ内の各検索文のラベルベクトルを取得し、取得されたラベルベクトルの精度を向上させ、対応する抽出されたターゲットワードの精度を向上させることができる。
【0036】
例えば、本実施例における予め設定されたラベルがラベル1、ラベル2、及びラベル3を含み、検証サンプルが行為グラフ内の検索文1であり、検索文1の予め設定されたラベルがラベル2である場合、検索文1のラベリング結果は(0、1、0)であり、取得された検索文1のラベルベクトルが(0.1、0.7、0.2)である場合、(0、1、0)と(0.1、0.7、0.2)との間の類似度を計算し、例えば、コサイン類似度を、損失値とする。
【0037】
本実施例においてS103を実行して計算された損失値が予め設定された条件を満たすか否かを決定する場合、計算された損失値が予め設定された損失閾値より大きいか否かを決定することができ、計算された損失値が予め設定された損失閾値より大きい回数が予め設定された回数を超えるか否かを決定することもできる。
【0038】
本実施例においてS103を実行して行為グラフ内の各検索文のラベルベクトルを取得した後、S104を実行して取得されたラベルベクトルに基づいて行為グラフ内のターゲット検索文を決定する。
【0039】
本実施例ではS104を実行して取得されたラベルベクトルに基づいて行為グラフ内のターゲット検索文を決定する場合、使用できる選択可能な実現方式は、各検索文について、現在の検索文のラベルベクトルにおける最大確率値に対応する予め設定されたラベルを、現在の検索文のラベリングされたラベルとし、ラベリングされたラベルのラベル閾値を取得し、最大確率値が取得されたラベル閾値より大きいと決定された場合、現在の検索文をターゲット検索文とする。
【0040】
つまり、本実施例は、ラベリングされたラベルのラベル閾値を設置する方式で、ターゲットワードを含まない検索文をターゲット検索文とする問題を可能な限り回避し、行為グラフ内のターゲット検索文をより正確に決定することができる。
【0041】
本実施例ではS104を実行して取得されたラベルベクトルに基づいて行為グラフ内のターゲット検索文を決定する場合、直接に確率値がすべてゼロではないラベルベクトルに対応する検索文をターゲット検索文とすることもできる。
【0042】
また、本実施例ではS104を実行して行為グラフ内のターゲット検索文を決定した後、決定されたターゲット検索文内の既知の検索文を除外するステップをさらに含むことができる。
【0043】
本実施例ではS104を実行してターゲット検索文を決定した後、S105を実行して決定されたターゲット検索文からターゲットワードを抽出し、抽出されたターゲットワードを検索データの単語マイニング結果とし、本実施例ではS106を実行し、ターゲット検索文から抽出されたターゲットワードはセンシティブな言葉である。
【0044】
具体的には、本実施例においてS105を実行して決定されたターゲット検索文からターゲットワードを抽出する場合、使用できる選択可能な実現方式は、ターゲット検索文を予めトレーニングされたターゲットワード予測モデルに入力し、ターゲットワード予測モデルの出力結果に基づいて、ターゲット検索文内のターゲットワードを抽出する。
【0045】
また、本実施例においてS105を実行してターゲット検索文からターゲットワードを抽出する場合、ターゲット検索文とターゲット検索文のラベリングされたラベルに基づいてターゲットワードを抽出することもでき、例えば、ターゲット検索文とターゲット検索文のラベリングされたラベルをターゲットワード予測モデルに共に入力して、抽出されたターゲットワードの精度を向上させることができる。
【0046】
本実施例においてS105を実行してターゲット検索文からターゲットワードを抽出した後、すなわち抽出されたターゲットワードを検索データの単語マイニング結果とすることができる。
【0047】
本実施例のS105を実行して取得された単語マイニング結果を使用して、テキストにターゲットワードが出現したか否かを正確に判断することができ、又は単語マイニング結果を既知のターゲットワードとし、他の検索データ内のターゲットワードを継続に抽出することができる。
【0048】
本実施例の上記の方法によれば、検索データ内の第1の識別情報、検索文、及び第2の識別情報に基づいて行為グラフを構築した後、行為グラフ内の予め設定されたラベルを有する第1の検索文と行為グラフ内の各ノードとの間の関係によって、行為グラフ内のターゲット検索文を決定し、さらに、ターゲット検索文から抽出されたターゲットワードを検索データの単語マイニング結果とし、本実施例では、検索データにおける検索行為間の関連性に基づいてターゲットワードをマイニングするため、ターゲットワードをマイニングする場合の精度と効率を向上させる。
【0049】
図2は本開示の第2の実施例による概略図である。
図2に示すように、本実施例は、以下の方式を使用してターゲットワード予測モデルを予めトレーニングして取得する。
S201、トレーニングデータを取得し、前記トレーニングデータは、複数のトレーニング文と複数のトレーニング文のターゲットワードラベリング結果を含み、
S202、第1のネットワーク層、第2のネットワーク層、及び第3のネットワーク層を含むニューラルネットワークモデルを構築し、
S203、前記複数のトレーニング文と複数のトレーニング文のターゲットワードラベリング結果を使用して前記ニューラルネットワークモデルをトレーニングして、前記ターゲットワード予測モデルを取得する。
【0050】
その中、本実施例においてS201を実行して取得されたトレーニングデータでは、トレーニング文のターゲットワードラベリング結果がBIOラベリング方法で取得され、ターゲットワードラベリング結果内のラベルBはターゲットワードの開始を示し、ラベルIはターゲットワードの内容を示し、ラベルOはターゲットワードの外部を示す。
【0051】
本実施例においてS202を実行して構築されたニューラルネットワークモデルでは、第1のネットワーク層は入力された文内の各セマンティック単位(例えば、文字又はワード)のセマンティック情報を出力するために用いられ、第1のネットワーク層は、ERNIEなどの事前トレーニングモデルであってもよく、第2のネットワーク層は、第1のネットワーク層の出力結果に基づいて、入力された文内の各セマンティック単位の予測ラベルを出力するために用いられ、第2のネットワーク層は、長短期記憶ネットワーク(Long Short-Term Memory、LSTM)であってもよく、例えば、双方向長短期記憶ネットワークであり、第3のネットワーク層は、第2のネットワーク層の出力結果に基づいて、入力文の最適ラベルシーケンスを出力するために用いられ、第3のネットワーク層は、条件付き確率場(Conditional Random Field、CRF)モデルであってもよい。
【0052】
本実施例においてS203を実行して複数のトレーニング文と複数のトレーニング文のターゲットワードラベリング結果を使用してニューラルネットワークモデルをトレーニングして、ターゲットワード予測モデルを取得する場合、使用できる選択可能な実現方式は、複数のトレーニング文をニューラルネットワークモデルにそれぞれ入力し、ニューラルネットワークモデルが各トレーニング文に対して出力されたターゲットワード予測結果を取得し、トレーニング文のターゲットワード予測結果とターゲットワードラベリング結果によって計算された損失関数値に基づいて、ニューラルネットワークモデルが収束するまで、ニューラルネットワークモデルのパラメータを調整し、ターゲットワード予測モデルを取得する。
【0053】
本実施例のトレーニングされたターゲットワード予測モデルを使用して、ターゲット検索文内のターゲットワードをより正確に抽出することができる。
【0054】
図3は本開示の第3の実施例による概略図である。
図3に示すように、本実施例においてS105を実行して「前記ターゲット検索文からターゲットワードを抽出した」後、以下のようなステップをさらに含み、
S301、前記ターゲットワードに基づいて第1のサンプルセットと第2のサンプルセットを取得し、
S302、前記第1のサンプルセットと第2のサンプルセットとの間のマッチング度合いを計算し、
S303、前記マッチング度合いが予め設定された条件を満していると決定された場合、前記ターゲットワードを前記検索データの単語マイニング結果とする。
【0055】
つまり、本実施例は、ターゲットワードから構築された第1のサンプルセットと第2のサンプルセットとの間のマッチング度合いに基づいて、ターゲット検索文から抽出されたターゲットワードを検証し、抽出されたターゲットワードがより高い品質を確保し、単語マイニングの精度を向上させることができる。
【0056】
本実施例においてS301を実行してターゲットワードに基づいて第1のサンプルセットと第2のサンプルセットを取得する場合、使用できる選択可能な実現方式は、抽出されたターゲットワードを使用して既知の検索文内のターゲットワードを置き換え、置き換えテキストに基づいて第1のサンプルセットを取得し、抽出されたターゲットワードを使用して検索し、検索結果にターゲットワードを含むテキストに基づいて第2のサンプルセットを取得する。
【0057】
また、本実施例においてS301を実行してターゲットワードに基づいて第1のサンプルセットと第2のサンプルセットを取得する場合、使用できる選択可能な実現方式は、予め設定された時間間隔に従って、抽出されたターゲットワードを使用して検索し、検索結果にターゲットワードを含むテキストの数が予め設定されたリコール閾値を超えると決定された場合、ターゲットワードに基づいて第1のサンプルセットと第2のサンプルセットを取得する。
【0058】
本実施例においてS302を実行して第1のサンプルセットと第2のサンプルセットとの間のマッチング度合いを計算する場合、2つのサンプルセット内の同一又は類似度が予め設定された類似度閾値を超えるテキストの数を、第1のサンプルセットと第2のサンプルセットとの間のマッチング度合いとすることができ、2つのサンプルセット内の同一又は類似度が予め設定された類似度閾値を超えるテキストの数と第2のサンプルセット内のすべてのテキストの数との間の除算結果を、第1のサンプルセットと第2のサンプルセットとの間のマッチング度合いとすることもできる。
【0059】
図4は本開示の第4の実施例による概略図である。
図4は本実施例使用予めトレーニングされたターゲットワード予測モデルターゲット検索文内のターゲットワードを抽出するフローチャートを示す。ターゲット検索文は、文字1、文字2、文字3、文字4、文字5、及び文字6から構成され、ターゲット検索文をターゲットワード予測モデルに入力し、第1のネットワーク層、第2のネットワーク層、及び第3のネットワーク層の処理を経て、対応するラベルシーケンス「BIOOOO」を出力し、ラベルシーケンスに基づいて、ターゲット検索文内のラベルBとラベルIに対応する文字を抽出してターゲットワードとし、すなわち文字1と文字2を抽出してターゲットワードを取得する。
【0060】
図5は本開示の第5の実施例による概略図である。
図5に示すように、本実施例の単語マイニング装置500は、取得ユニット501、構築ユニット502、処理ユニット503、決定ユニット504、及びマイニングユニット505を含み、
取得ユニット501は、検索データを取得するために用いられ、
構築ユニット502は、前記検索データ内の第1の識別情報、検索文、及び第2の識別情報をノードとし、第1の識別情報と検索文との間の関係、第1の識別情報と第2の識別情報との間の関係、及び検索文と第2の識別情報との間の関係をエッジとし、行為グラフを構築するために用いられ、
処理ユニット503は、前記行為グラフ内の予め設定されたラベルを有する検索文に基づいて、前記行為グラフ内の各検索文のラベルベクトルを取得するために用いられ、
決定ユニット504は、前記ラベルベクトルに基づいて、前記行為グラフ内のターゲット検索文を決定するために用いられ、
マイニングユニット505は、前記ターゲット検索文からターゲットワードを抽出し、前記ターゲットワードを前記検索データの単語マイニング結果とするために用いられる。
【0061】
取得ユニット501によって取得された検索データは異なる入力側が検索する場合に生成された行為データであり、取得ユニット501は、異なる入力側に対応するログデータに基づいて検索データを取得することができる。
【0062】
取得ユニット501によって取得された検索データでは、第1の識別情報、検索文、及び第2の識別情報を含み、その中、第1の識別情報は入力側の識別情報であり、検索文は入力側が検索する場合に入力されたクエリテキスト(query)であり、第2の識別情報は、入力側が検索する場合にサーバ側によって生成されたセッション(Session)識別情報である。
【0063】
取得ユニット501によって取得された検索データでは、第2の識別情報の検索時間範囲、検索文の検索時間などの、入力側が検索する場合の時間情報をさらに含むことができる。
【0064】
本実施例では取得ユニット501から検索データを取得した後、構築ユニット502から取得された検索データに基づいて行為グラフを構築する。
【0065】
構築ユニット502によって構築された行為グラフでは、複数のノードと複数のノードとの間のエッジを含み、その中、構築ユニット502が検索データ内の第1の識別情報、検索文、及び第2の識別情報を行為グラフ内のノードとし、第1の識別情報と検索文との間の関係、第1の識別情報と第2の識別情報との間の関係、及び第2の識別情報と検索文との間の関係を行為グラフ内のエッジとする。
【0066】
具体的には、構築ユニット502が行為グラフを構築する場合、第1の識別情報と検索文との間の関係は検索行為関係であり、異なる検索文がどの入力側から入力されるかを示すために用いられ、第1の識別情報と第2の識別情報との間の関係は検索行為関係であり、異なるセッションがどの入力側から開始するかを示すために用いられ、第2の識別情報と検索文との間の関係は検索帰属関係であり、同じセッションで入力側がどの検索文を入力したか示すために用いられる。
【0067】
また、構築ユニット502が第1の識別情報、検索文、及び第2の識別情報をノードとし、第1の識別情報と検索文との間の関係、第1の識別情報と第2の識別情報との間の関係、及び検索文と第2の識別情報との間の関係をエッジとし、行為グラフを構築する場合、使用できる選択可能な実現方式は、既知のターゲットワードを取得し、既知のターゲットワード、第1の識別情報、検索文、及び第2の識別情報をノードとし、第1の識別情報と検索文との間の関係、第1の識別情報と第2の識別情報との間の関係、検索文と第2の識別情報との間の関係、及び検索文と既知のターゲットワードとの間の関係をエッジとし、行為グラフを構築する。
【0068】
つまり、構築ユニット502が行為グラフを構築する場合、さらに、既知のターゲットワード、及び検索文と既知のターゲットワードとの間の関係を追加して、行為グラフの完全性を向上させ、行為グラフ内の検索文の予め設定されたラベルをラベリングする場合の精度をさらに向上させる。
【0069】
構築ユニット502が検索文と既知のターゲットワードとの間の関係をエッジとする場合、検索文と既知のターゲットワードをマッチングし、マッチング結果に基づいて検索文に含まれる既知のターゲットワードを決定し、さらに、行為グラフでの検索文と当該検索文に含まれる既知のターゲットワードとの間のエッジを確立することができる。
【0070】
本実施例では、構築ユニット502が行為グラフを構築した後、処理ユニット503が行為グラフ内の予め設定されたラベルを有する検索文に基づいて、行為グラフ内の各検索文のラベルベクトルを取得し、処理ユニット503は、取得されたラベルベクトル検索文が異なる予め設定されたラベルに属する確率情報を指示するために用いられる。
【0071】
行為グラフ内の予め設定されたラベルを有する検索文は第1の検索文であり、構築ユニット502によって構築された行為グラフでは、既知のターゲットワード、及び検索文と既知のターゲットワードとの間の関係を含む場合、処理ユニット503は、直接に既知のターゲットワードと連続関係が存在する検索文を第1の検索文とし、連続する既知のターゲットワードに基づいて第1の検索文の予め設定されたラベルを取得することができる。
【0072】
構築ユニット502によって構築された行為グラフでは、既知のターゲットワード、及び検索文と既知のターゲットワードとの間の関係が含まれていない場合、処理ユニット503は、行為グラフから選択された特定の文を第1の検索文とし、第1の検索文の予め設定されたラベルをラベリングすることができる。
【0073】
処理ユニット503が行為グラフ内の予め設定されたラベルを有する検索文に基づいて、行為グラフ内の各検索文のラベルベクトルを取得する場合、使用できる選択可能な実現方式は、行為グラフ内の予め設定されたノード間の関係に基づいて、各検索文の隣接する検索文を決定し、に基づいて決定された隣接する検索文のターゲットラベル、各検索文のラベルベクトルを取得する。
【0074】
つまり、処理ユニット503は、行為グラフ内の各検索文のラベルベクトルを取得し、すなわち行為グラフ内のノード間の関係に基づいて、予め設定されたラベルを有する検索文の予め設定されたラベルを予め設定されたラベルのない検索文に伝達する。
【0075】
処理ユニット503は、行為グラフ内の予め設定されたノード間の関係に基づいて、各検索文の隣接する検索文を決定する場合、使用できる選択可能な実現方式は、行為グラフ内の各検索文について、現在の検索文と同じ第1の識別情報及び/又は同じ第2の識別情報を有する検索文を、現在の検索文の隣接する検索文とする。
【0076】
処理ユニット503が使用する第1の識別情報は、予め設定された第1の識別情報であってもよく、例えば、指定された入力側の入力側識別情報に対応し、処理ユニット503が使用する第2の識別情報は、予め設定された第2の識別情報であってもよく、例えば、予め設定されたラベルを有する検索文のセッション識別情報を含む。
【0077】
処理ユニット503が決定された隣接する検索文の予め設定されたラベルに基づいて、各検索文のラベルベクトルを取得する場合、使用できる選択可能な実現方式は、各検索文について、隣接する検索文の数と異なる予め設定されたラベルの出現回数に基づいて、各検索文が異なる予め設定されたラベルに属する確率情報を、各検索文のラベルベクトルとして取得し、検索文内の検証サンプルのラベルベクトルとラベリング結果に基づいて損失値を計算し、計算された損失値が予め設定された条件を満たしていないと決定された場合、各検索文のラベルベクトルにおける最大確率値に対応する予め設定されたラベルを各検索文の予め設定されたラベルとした後、計算された損失値が予め設定された条件を満たすまで、隣接する検索文の数と異なる予め設定されたラベルの出現回数に基づいて、各検索文が異なる予め設定されたラベルに属する確率情報を、各検索文のラベルベクトルとして取得するステップに移して実行する。
【0078】
つまり、処理ユニット503が予め設定された検証サンプルを組み合わせて、絶えず反復する方式で行為グラフ内の各検索文のラベルベクトルを取得し、取得されたラベルベクトルの精度を向上させ、対応する抽出されたターゲットワードの精度を向上させることができる。
【0079】
処理ユニット503が計算された損失値が予め設定された条件を満たすか否かを決定する場合、計算された損失値が予め設定された損失閾値より大きいか否かを決定することができ、計算された損失値が予め設定された損失閾値より大きい回数が予め設定された回数を超えるか否かを決定することもできる。
【0080】
本実施例では処理ユニット503から行為グラフ内の各検索文のラベルベクトルを取得した後、決定ユニット504から取得されたラベルベクトルに基づいて行為グラフ内のターゲット検索文を決定する。
【0081】
決定ユニット504が取得されたラベルベクトルに基づいて行為グラフ内のターゲット検索文を決定する場合、使用できる選択可能な実現方式は、各検索文について、現在の検索文のラベルベクトルにおける最大確率値に対応する予め設定されたラベルを、現在の検索文のラベリングされたラベルとし、ラベリングされたラベルのラベル閾値を取得し、最大確率値が取得されたラベル閾値より大きいと決定された場合、現在の検索文をターゲット検索文とする。
【0082】
つまり、決定ユニット504がラベリングされたラベルのラベル閾値を設置する方式で、ターゲットワードを含まない検索文をターゲット検索文とする問題を可能な限り回避し、行為グラフ内のターゲット検索文をより正確に決定することができる。
【0083】
決定ユニット504が取得されたラベルベクトルに基づいて行為グラフ内のターゲット検索文を決定する場合、直接に確率値がすべてゼロではないラベルベクトルに対応する検索文をターゲット検索文とすることもできる。
【0084】
また、決定ユニット504が行為グラフ内のターゲット検索文を決定した後、決定されたターゲット検索文内の既知の検索文を除外することをさらに含むことができる。
【0085】
本実施例では決定ユニット504からターゲット検索文を決定した後、マイニングユニット505から決定されたターゲット検索文からターゲットワードを抽出し、抽出されたターゲットワードを検索データの単語マイニング結果とする。
【0086】
マイニングユニット505が決定されたターゲット検索文からターゲットワードを抽出する場合、使用できる選択可能な実現方式は、ターゲット検索文を予めトレーニングされたターゲットワード予測モデルに入力し、ターゲットワード予測モデルの出力結果に基づいて、ターゲット検索文内のターゲットワードを抽出する。
【0087】
また、マイニングユニット505がターゲット検索文からターゲットワードを抽出する場合、ターゲット検索文とターゲット検索文のラベリングされたラベルに基づいてターゲットワードを抽出することもでき、例えば、ターゲット検索文とターゲット検索文のラベリングされたラベルをターゲットワード予測モデルに共に入力して、抽出されたターゲットワードの精度を向上させることができる。
【0088】
本実施例の単語マイニング装置500はトレーニングユニット506をさらに含み、トレーニングユニット506は、以下の方式を使用してターゲットワード予測モデルを予めトレーニングして取得するために用いられ、前記方式は、トレーニングデータを取得し、取得されたトレーニングデータは、複数のトレーニング文と複数のトレーニング文のターゲットワードラベリング結果を含み、第1のネットワーク層、第2のネットワーク層、及び第3のネットワーク層を含むニューラルネットワークモデルを構築し、複数のトレーニング文と複数のトレーニング文のターゲットワードラベリング結果を使用してニューラルネットワークモデルをトレーニングして、ターゲットワード予測モデルを取得する。
【0089】
その中、トレーニングユニット506によって取得されたトレーニングデータでは、トレーニング文のターゲットワードラベリング結果がBIOラベリング方法で取得され、ターゲットワードラベリング結果内のラベルBはターゲットワードの開始を示し、ラベルIはターゲットワードの内容を示し、ラベルOはターゲットワードの外部を示す。
【0090】
トレーニングユニット506によって構築されたニューラルネットワークモデルでは、第1のネットワーク層は入力された文内の各セマンティック単位(例えば、文字又はワード)のセマンティック情報を出力するために用いられ、第2のネットワーク層は、第1のネットワーク層の出力結果に基づいて、入力された文内の各セマンティック単位の予測ラベルを出力するために用いられ、第3のネットワーク層は、第2のネットワーク層の出力結果に基づいて、入力文の最適ラベルシーケンスを出力するために用いられる。
【0091】
トレーニングユニット506が複数のトレーニング文と複数のトレーニング文のターゲットワードラベリング結果を使用してニューラルネットワークモデルをトレーニングして、ターゲットワード予測モデルを取得する場合、使用できる選択可能な実現方式は、複数のトレーニング文をニューラルネットワークモデルにそれぞれ入力し、ニューラルネットワークモデルが各トレーニング文に対して出力されたターゲットワード予測結果を取得し、トレーニング文のターゲットワード予測結果とターゲットワードラベリング結果によって計算された損失関数値に基づいて、ニューラルネットワークモデルが収束するまで、ニューラルネットワークモデルのパラメータを調整し、ターゲットワード予測モデルを取得する。
【0092】
本実施例の単語マイニング装置500は評価ユニット507をさらに含み、評価ユニット507は、マイニングユニット505がターゲット検索文からターゲットワードを抽出した後、ターゲットワードに基づいて第1のサンプルセットと第2のサンプルセットを取得し、第1のサンプルセットと第2のサンプルセットとの間のマッチング度合いを計算し、マッチング度合いが予め設定された条件を満していると決定された場合、ターゲットワードを検索データの単語マイニング結果とするために用いられる。
【0093】
評価ユニット507がターゲットワードに基づいて第1のサンプルセットと第2のサンプルセットを取得する場合、使用できる選択可能な実現方式は、抽出されたターゲットワードを使用して既知の検索文内のターゲットワードを置き換え、置き換えテキストに基づいて第1のサンプルセットを取得し、抽出されたターゲットワードを使用して検索し、検索結果にターゲットワードを含むテキストに基づいて第2のサンプルセットを取得する。
【0094】
また、評価ユニット507がターゲットワードに基づいて第1のサンプルセットと第2のサンプルセットを取得する場合、使用できる選択可能な実現方式は、予め設定された時間間隔に従って、抽出されたターゲットワードを使用して検索し、検索結果にターゲットワードを含むテキストの数が予め設定されたリコール閾値を超えると決定された場合、ターゲットワードに基づいて第1のサンプルセットと第2のサンプルセットを取得する。
【0095】
評価ユニット507が第1のサンプルセットと第2のサンプルセットとの間のマッチング度合いを計算する場合、2つのサンプルセット内の同一又は類似度が予め設定された類似度閾値を超えるテキストの数を、第1のサンプルセットと第2のサンプルセットとの間のマッチング度合いとすることができ、2つのサンプルセット内の同一又は類似度が予め設定された類似度閾値を超えるテキストの数と第2のサンプルセット内のすべてのテキストの数との間の除算結果を、第1のサンプルセットと第2のサンプルセットとの間のマッチング度合いとすることもできる。
【0096】
本開示の技術案において、関するユーザ個人情報の取得、記憶、応用などは、すべて関連する法律及び規定を満たし、公序良俗に違反しない。
【0097】
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラム製品をさらに提供する。
【0098】
図6に示すように、本開示の実施例に係る単語マイニング方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様の計算デバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本開示の実現を制限することを意図したものではない。
【0099】
図6に示すように、機器600は計算ユニット601を含み、計算ユニット601は、読み取り専用メモリ(ROM)602に記憶されているコンピュータプログラム又は記憶ユニット608からランダムアクセスメモリ(RAM)603にローディングされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行することができる。RAM603には、機器600が動作するに必要な様々なプログラムとデータも記憶することができる。計算ユニット601、ROM602、及びRAM603は、バス604を介してお互いに接続される。入出力(I/O)インターフェース605もバス604に接続される。
【0100】
機器600内の複数のコンポーネントは、I/Oインターフェース605に接続されており、キーボード、マウスなどの入力ユニット606と、様々なタイプのディスプレイ、スピーカなどの出力ユニット607と、ディスク、光ディスクなどの記憶ユニット608と、及びネットワークカード、モデム、無線通信トランシーバなどの通信ユニット609と、を含む。通信ユニット609は、機器600が、インターネットなどのコンピュータネットワーク、及び/又は様々な電気通信ネットワークを介して他の機器と情報/データを交換することを可能にする。
【0101】
計算ユニット601は、様々な処理と計算能力を備える汎用及び/又は専用の処理コンポーネントである。計算ユニット601のいくつかの例は、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット601は、単語マイニング方法などの上記の様々な方法と処理を実行する。例えば、いくつかの実施例では、単語マイニング方法は、記憶ユニット608などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。
【0102】
いくつかの実施例では、コンピュータプログラムの一部又は全部は、ROM602及び/又は通信ユニット609を介して機器600にローディング及び/又はインストールされる。コンピュータプログラムがRAM603にローディングされて計算ユニット601によって実行される場合、上記の単語マイニング方法の一つ又は複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット601は、他の任意の適切な方式(例えば、ファームウェアによって)を介して単語マイニング方法を実行するように構成されることができる。
【0103】
本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、ローディングプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
【0104】
本開示の方法を実施するためのプログラムコードは、一つ又は複数のプログラミング言語の任意の組み合わせを使用して作成することができる。これらのプログラムコードは、プログラムコードがプロセッサ又はコントローラによって実行される時にフローチャート及び/又はブロック図に規定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供することができる。プログラムコードは、完全に機械上で実行されたり、部分的に機械上で実行されたり、独立したソフトウェアパッケージとして部分的に機械上で実行され、部分的にリモート機械上実行されたり、又は完全にリモート機械又はサーバ上で実行されたりすることができる。
【0105】
本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置、又は機器の使用、又は命令実行システム、装置又は機器と組み合わせて使用するプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、又は半導体システム、装置又は機器、又は上記の内容の任意の適切な組み合わせを含むが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、一つ又は複数のワイヤに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM 又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は上記の内容の任意の適切な組み合わせを含む。
【0106】
ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
【0107】
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークと、を含む。
【0108】
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウド計算又はクラウドホストとも呼ばれ、クラウド計算サービスシステムの中の一つのホスト製品であり、従来の物理ホストとVPSサービス(「Virtual Private Server」、又は「VPS」と略称する)に、存在する管理困難度が高く、業務拡張性が弱い欠陥を解決する。サーバは、分散システムのサーバであってもよく、又はブロックチェーンを組み合わせるサーバであってもよい。
【0109】
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
【0110】
上記の具体的な実施方式は、本開示に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。