特許第5744892号(P5744892)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アリババ・グループ・ホールディング・リミテッドの特許一覧

特許5744892テキストフィルタリングの方法およびシステム
<>
  • 特許5744892-テキストフィルタリングの方法およびシステム 図000002
  • 特許5744892-テキストフィルタリングの方法およびシステム 図000003
  • 特許5744892-テキストフィルタリングの方法およびシステム 図000004
  • 特許5744892-テキストフィルタリングの方法およびシステム 図000005
  • 特許5744892-テキストフィルタリングの方法およびシステム 図000006
  • 特許5744892-テキストフィルタリングの方法およびシステム 図000007
  • 特許5744892-テキストフィルタリングの方法およびシステム 図000008
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5744892
(24)【登録日】2015年5月15日
(45)【発行日】2015年7月8日
(54)【発明の名称】テキストフィルタリングの方法およびシステム
(51)【国際特許分類】
   G06F 17/30 20060101AFI20150618BHJP
【FI】
   G06F17/30 210D
   G06F17/30 170A
   G06F17/30 340Z
【請求項の数】18
【全頁数】19
(21)【出願番号】特願2012-537879(P2012-537879)
(86)(22)【出願日】2010年9月3日
(65)【公表番号】特表2013-510368(P2013-510368A)
(43)【公表日】2013年3月21日
(86)【国際出願番号】US2010047795
(87)【国際公開番号】WO2011059551
(87)【国際公開日】20110519
【審査請求日】2013年8月13日
(31)【優先権主張番号】200910211715.0
(32)【優先日】2009年11月10日
(33)【優先権主張国】CN
(73)【特許権者】
【識別番号】510330264
【氏名又は名称】アリババ・グループ・ホールディング・リミテッド
【氏名又は名称原語表記】ALIBABA GROUP HOLDING LIMITED
(74)【代理人】
【識別番号】110001243
【氏名又は名称】特許業務法人 谷・阿部特許事務所
(72)【発明者】
【氏名】ウェン ジンチ
(72)【発明者】
【氏名】イエ チャンチェン
【審査官】 伊知地 和之
(56)【参考文献】
【文献】 特開平08−305729(JP,A)
【文献】 特開2000−268039(JP,A)
【文献】 特開2006−293573(JP,A)
【文献】 国際公開第2009/059420(WO,A1)
【文献】 特開2007−172571(JP,A)
【文献】 特開2008−197929(JP,A)
【文献】 特開2000−200278(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
G06F 17/27
CSDB(日本国特許庁)
(57)【特許請求の範囲】
【請求項1】
予め定義された意味キーワードをテキストフィルタリングシステムに格納するステップであって、前記意味キーワードは、少なくとも基本キーワード論理演算子、およびフィルタリング条件備えている、ステップと、
テキストフィルタリングシステムが、前記予め定義された意味キーワードの基本キーワードに合致する、入力テキストにおけるテキストコンテンツを見つけるステップと、
前記基本キーワードに合致する前記テキストコンテンツが見つかった場合、前記見つかったテキストコンテンツにおいて意味マッチングを実行するステップであって前記意味マッチングは、
前記意味キーワードの前記論理演算子にしたがって、前記見つかったテキストコンテンツと前記意味キーワードとをマッチングすることと、
前記見つかったテキストコンテンツ、または、前記見つかったテキストコンテンツのカテゴリと、前記フィルタリング条件とをマッチングすることと
を備えており、
前記フィルタリング条件は、前記入力テキストのカテゴリに少なくとも部分的に基づいて、前記見つかったテキストコンテンツ、または、前記見つかったテキストコンテンツの前記カテゴリに制限を加える、ステップと、
前記意味マッチングが成功した場合、前記見つかったテキストコンテンツをフィルタリングするステップと
備えていることを特徴とするテキストフィルタリング方法。
【請求項2】
前記基本キーワードは、文字を単位として使用し、および、ツリー型構造にしたがってテキストフィルタリングシステムに格納されておりならびに、
前記基本キーワードの第1の文字は、ルートノードであり、および、前記基本キーワードの最後の文字は、ツリー型構造におけるリーフノードであり、同一の第1の文字を有する基本キーワードは、共通のルートノードを共有している
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記予め定義された意味キーワードの基本キーワードに合致する、前記入力テキストにおける前記テキストコンテンツを見つけるステップ
前記入力テキストにおける文字c1を取得するステップと、
c1を現在の文字として使用し、および、ツリー型構造の前記ルートノードを現在のノードとして使用して、前記現在の文字を前記現在のノードとマッチングするステップと、
前記現在の文字が前記現在のノードに合致し、および、前記現在のノードが子ノードを有する場合、前記現在の文字につづく次の文字と前記現在のノードの前記子ノードをマッチングするステップと、
前記現在の文字が前記現在のノードに合致せず、および、前記現在のノードが兄弟ノードを有する場合、前記現在のノードと前記現在のノードの前記兄弟ノードをマッチングするステップと、
前記現在のノードを前記ルートノードと結合してマッチングルートを取得するステップと、
前記マッチングルート成功した合致結果を有する前記リーフノードにしたがって、前記基本キーワードを確立するステップと
備えていることを特徴とする請求項2に記載の方法。
【請求項4】
前記現在の文字前記現在のノードとマッチングする前に、前記現在の文字が対応するプロトタイプ文字を辞書に有するか判断するステップと、
肯定の場合、前記現在の文字を前記対応するプロトタイプ文字に変換し、および、前記対応するプロトタイプ文字を前記現在の文字として使用して、前記現在のノードとマッチングするステップと
さらに備えていることを特徴とする請求項3に記載の方法。
【請求項5】
前記意味マッチングは、前記入力テキストの特性と前記フィルタリング条件とをマッチングすることさらに備えていることを特徴とする請求項1に記載の方法。
【請求項6】
前記意味キーワードは、フィルタリングアクションをさらに備えておりおよび、
前記見つかったテキストコンテンツをフィルタリングするステップは、前記フィルタリングアクションにしたがって、前記見つかったテキストコンテンツフィルタリングすること備えている
ことを特徴とする請求項1に記載の方法。
【請求項7】
予め定義された意味キーワードを格納するキーワード記憶ユニットであって、前記意味キーワードは、少なくとも基本キーワード論理演算子、およびフィルタリング条件備えている、キーワード記憶ユニットと、
入力テキストをサーチして、前記予め定義された意味キーワードの前記基本キーワードに合致するテキストコンテンツを見つける基本発見ユニットと、
前記入力テキストにおいて前記基本キーワードに合致する前記テキストコンテンツが見つかった場合、前記見つかったテキストコンテンツにおいて意味マッチングを実行する意味マッチングユニットであって、前記意味マッチングは、
前記意味キーワードの前記論理演算子にしたがって、前記見つかったテキストコンテンツと前記意味キーワードとをマッチングすることと、
前記見つかったテキストコンテンツ、または、前記見つかったコンテンツのカテゴリと、前記フィルタリング条件とをマッチングすることと
備え
前記フィルタリング条件は、前記入力テキストの前記カテゴリに少なくとも部分的に基づいて、前記見つかったテキストコンテンツ、または、前記見つかったテキストコンテンツの前記カテゴリに制限を加える、意味マッチングユニットと、
前記意味マッチングが成功した場合、前記見つかったテキストコンテンツをフィルタリングするフィルタ処理ユニットと
を備えていことを特徴とするテキストフィルタリングシステム。
【請求項8】
前記キーワード記憶ユニットは、文字を単位として使用し、および、ツリー型構造にしたがって前記基本キーワードを格納し、ならびに、
前記基本キーワードの第1の文字は、ルートノードであり、および、前記基本キーワードの最後の文字は、リーフノードであり、同一の第1の文字を有する基本キーワードは、共通のルートノードを共有している
ことを特徴とする請求項7に記載のシステム。
【請求項9】
基本発見ユニット
前記入力テキストにおける文字c1を取得するテキスト取得サブユニットと、
c1を現在の文字として使用し、および、ツリー型構造の前記ルートノードを現在のノードとして使用して、前記現在の文字と前記現在のノードをマッチングする文字マッチングサブユニットであって、
前記現在の文字が前記現在のノード合致し、および、前記現在のノードが子ノードを有する場合、前記文字マッチングサブユニットは、前記現在の文字につづく次の文字と前記現在のノードの前記子ノードをマッチングし、
前記現在の文字が前記現在のノードに合致せず、および、前記現在のノードが兄弟ノードを有する場合、前記文字マッチングサブユニットは、前記現在のノードと前記現在のノードの前記兄弟ノードをマッチングする、文字マッチングサブユニットと、
前記現在のノードと前記ルートノードを結合してマッチングルートを取得し、および、前記マッチングルート上で成功した合致結果を有する前記リーフノードにしたがって、前記基本キーワードを確立する判断サブユニットと
を備えていことを特徴とする請求項に記載のシステム。
【請求項10】
前記基本発見ユニット、前記文字マッチングサブユニットがマッチングを実行する前に、前記現在の文字が対応するプロトタイプ文字を辞書に有するかを判定し、および、肯定の場合、前記現在の文字を前記対応するプロトタイプ文字に変換する、文字変換サブユニットを備え、ならびに、
前記文字マッチングサブユニットは、前記対応するプロトタイプ文字を前記現在の文字
として使用し、前記現在のノードとマッチングする
ことを特徴とする請求項9に記載のシステム。
【請求項11】
前記意味マッチングユニット、前記入力テキストの特性と前記フィルタリング条件をマッチングするカテゴリマッチングサブユニットを備えていることを特徴とする請求項7に記載のシステム。
【請求項12】
前記意味キーワードは、フィルタリングアクションを備えおよび、
前記フィルタ処理ユニット、前記フィルタリングアクションにしたがって、前記見つかったテキストコンテンツをフィルタリングする
ことを特徴とする請求項7に記載のシステム。
【請求項13】
コンピュータにより実行されるとき前記コンピュータにプロセスを実行させる、格納されたコンピュータ実行可能な命令を有する1つまたは複数のコンピュータ可読記憶媒体
であって、前記プロセスは、
予め定義された意味キーワードをテキストフィルタリングシステムに格納するステップであって、前記意味キーワードは、少なくとも基本キーワード論理演算子、およびフィルタリング条件備えている、ステップと、
前記テキストフィルタリングシステムが、前記予め定義された意味キーワードの基本キーワードに合致する、入力テキストにおけるテキストコンテンツを見つけるステップと、
前記基本キーワードに合致する前記テキストコンテンツが見つかった場合、前記見つかったテキストコンテンツにおいて意味マッチングを実行するステップであって前記意味マッチングは、
前記意味キーワードの前記論理演算子にしたがって、前記見つかったテキストコンテンツと、前記意味キーワードとをマッチングすることと、
前記見つかったテキストコンテンツ、または、前記見つかったテキストコンテンツのカテゴリと、前記フィルタリング条件とをマッチングすることと
を備え、
前記フィルタリング条件は、前記入力テキストのカテゴリに少なくとも部分的に基づいて、前記見つかったテキストコンテンツ、または、前記見つかったテキストコンテンツの前記カテゴリに制限を加える、ステップと、
前記意味マッチングが成功した場合、前記見つかったテキストコンテンツをフィルタリングするステップと
備えていることを特徴とする記憶媒体。
【請求項14】
前記基本キーワードは、文字を単位として使用し、および、ツリー型構造にしたがってテキストフィルタリングシステムに格納され、ならびに、
前記基本キーワードの第1の文字は、ルートノードであり、および、前記基本キーワードの最後の文字は、ツリー型構造におけるリーフノードであり、同一の第1の文字を有する基本キーワードは、共通のルートノードを共有している
ことを特徴とする請求項13に記載の1つまたは複数のコンピュータ可読記憶媒体。
【請求項15】
前記予め定義された意味キーワードの前記基本キーワードに合致する、前記入力テキストにおける前記テキストコンテンツを見つけるステップ
前記入力テキストにおける文字c1を取得するステップと、
c1を現在の文字として使用し、および、ツリー型構造の前記ルートノードを現在のノードとして使用して、前記現在の文字を前記現在のノードとマッチングするステップと、
前記現在の文字が前記現在のノードに合致し、および、前記現在のノードが子ノードを有する場合、前記現在の文字につづく次の文字と前記現在のノードの前記子ノードをマッチングするステップと、
前記現在の文字が前記現在のノードに合致せず、および、前記現在のノードが兄弟ノードを有する場合、前記現在のノードと前記現在のノードの前記兄弟ノードをマッチングするステップと、
前記現在のノードを前記ルートノードと結合してマッチングルートを取得するステップと、
前記マッチングルート成功した合致結果を有する前記リーフノードにしたがって、前記基本キーワードを確立するステップと
備えていることを特徴とする請求項14に記載の1つまたは複数のコンピュータ可読記憶媒体。
【請求項16】
前記プロセスは、
前記現在の文字を前記現在のノードとマッチングする前に、前記現在の文字が対応するプロトタイプ文字を辞書に有するかを判定するステップと、
肯定の場合、前記現在の文字を前記対応するプロトタイプ文字に変換し、および、前記対応するプロトタイプ文字を前記現在の文字として使用して前記現在のノードとマッチングするステップと
さらに備えていることを特徴とする請求項15に記載の1つまたは複数のコンピュータ可読記憶媒体。
【請求項17】
前記意味マッチング、前記入力テキストの特性と前記フィルタリング条件とをマッチングすること備えていることを特徴とする請求項13に記載の1つまたは複数のコンピュータ可読記憶媒体。
【請求項18】
前記意味キーワードは、フィルタリングアクションをさらに備えおよび、
前記見つかったテキストコンテンツをフィルタリングするステップは、前記フィルタリングアクションにしたがって、前記見つかったテキストコンテンツフィルタリングすること備えている
ことを特徴とする請求項13に記載の1つまたは複数のコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2009年11月10日出願の中国特許出願第200910211715.0号、表題「テキストフィルタリングの方法およびシステム」から優先権を主張し、その全体を参照によって本出願に組み込んだものとする。
【0002】
本開示は、インターネット技術に関し、特に、テキストフィルタリングの方法およびシステムに関する。
【背景技術】
【0003】
インターネットの発展とともに、インターネット上で伝達される情報量は常に増加してきた。インターネットの開放性は、多量の有害な情報をインターネットに氾濫させることも可能にする。よって、インターネット上の情報を監視しフィルタリングする全般的なニーズが存在する。
【0004】
コンテンツフィルタリング技術の適用は、インターネット上の有害な情報のフィルタリングを実現でき、それによって安全なネットワーク環境を提供する。インターネット上で可能な、複数の表現形式がある。テキストは、最も一般的な情報の表現形式である。テキストフィルタリングは、大量のテキスト情報から特定のテキストを見つけるプロセスをいう。現在、一般的なテキストフィルタリング方法は、通常、有害な情報に関する予めセットされた複数のキーワードにより入力テキストをサーチするシステムのような基本キーワードマッチング技術に基づく。入力テキスト内にキーワードに合致するコンテンツがあれば、そのようなコンテンツまたは入力テキスト全体がフィルタリングされるか置換される。
【0005】
そのようなテキストフィルタリング方法は、キーワードと完全に合致するテキストのみフィルタリングができるが、テキスト内に反映された作者の立場または姿勢の判断はできない。例えば、電子商取引ウェブサイトは「電話盗聴器」をフィルタリングキーワードとして定義するかもしれない。現行のテキストフィルタリング方法は、しかしこの例で、「電話盗聴器の販売禁止」のようなもっともなテキストをフィルタリングする有害な情報としてみなすことが起こりえるだろう。よって、基本キーワードマッチング技術に基づいた現行のテキストフィルタリング方法は、識別の精度が低く、情報フィルタリングの実務の適用の必要条件を満たすことができない。
【発明の概要】
【課題を解決するための手段】
【0006】
前述の問題を解決するため、本開示はテキストフィルタリングの精度を向上するテキストフィルタリングの方法およびシステムを提供する。この技術は、以下に要約される。
【0007】
1つの態様では、テキストフィルタリング方法は、少なくとも基本キーワードおよび論理演算子を有する予め定義された意味キーワードを、テキストフィルタリングシステム内に格納するステップと、テキストフィルタリングシステムが、予め定義された意味キーワードにより、入力テキスト内の意味キーワードの基本キーワードを見つけるステップと、テキストコンテンツと入力テキスト内の基本キーワードの合致が見つかった場合、意味キーワードの論理演算子による見つかったテキストコンテンツと意味キーワードのマッチングを含む、見つかったテキストコンテンツ内の意味マッチングを実行するステップと、意味マッチングが成功した場合、合致したテキストコンテキストをフィルタリングするステップとを含む。
【0008】
基本キーワードは文字を単位として使用してもよく、ツリー型構造によりテキストフィルタリングシステム内に格納されてもよい。基本キーワードの第1の文字はツリー型構造内のルートノードであってもよく、基本キーワードの最後の文字がリーフノードであってもよい。同一の第1の文字を持つ基本キーワードは、共通のルートノードを共有してもよい。
【0009】
予め定義された意味キーワードにより入力テキスト内の意味キーワードの基本キーワードを見つけるステップは、入力テキスト内の文字c1を取得するステップと、c1を現在の文字として使用し、かつツリー型構造のルートノードを現在のノードとして使用して、現在の文字を現在のノードとマッチングするステップと、現在の文字が現在のノードに合致し、かつ現在のノードが子ノードを持つ場合、現在の文字につづく次の文字と現在のノードの子ノードをマッチングするステップと、現在の文字が現在のノードに合致せず、かつ現在のノードが兄弟ノードを持つ場合、現在のノードと現在のノードの兄弟ノードをマッチングするステップと、現在のノードをルートノードと結合してマッチングルートを取得するステップと、マッチングルートで正常な合致結果があるリーフノードにより、基本キーワードを確立するステップとを含んでもよい。
【0010】
方法は、さらに、現在の文字を現在のノードとマッチングする前に、現在の文字が対応するプロトタイプ文字を辞書内に有するかどうか判断するステップと、肯定の場合、現在の文字を対応するプロトタイプ文字に変換し、対応するプロトタイプ文字を現在の文字として用いて現在のノードとマッチングするステップとを含んでもよい。
【0011】
意味キーワードは、さらにフィルタリング条件を有してもよい。意味マッチングは、さらに入力テキストの特性とフィルタリング条件のマッチングを含んでもよい。
【0012】
代わりに、意味キーワードは、さらにフィルタリングアクションを有してもよい。合致したテキストコンテキストのフィルタリングは、フィルタリングアクションによる合致したテキストコンテンツのフィルタリングを含んでもよい。
【0013】
別の態様では、テキストフィルタリングシステムは、キーワード記憶ユニット、基本発見ユニット、意味マッチングユニット、およびフィルタ処理ユニットを有してもよい。キーワード記憶ユニットは、少なくとも基本キーワードおよび論理演算子を有する予め定義された意味キーワードを格納してもよい。基本発見ユニットは、予め定義された意味キーワードにより、入力テキスト内の意味キーワードの基本キーワードを見つけてもよい。テキストコンテンツと入力テキスト内の基本キーワードとの合致が見つかった場合、見つかったテキストコンテンツ内の意味マッチングを実行してもよい、意味マッチングは、意味キーワードの論理演算子による、見つかったテキストコンテンツと意味キーワードのマッチングを含む、意味マッチングユニット。意味マッチングが成功した場合、合致したテキストコンテキストをフィルタリングするフィルタ処理ユニット。
【0014】
キーワード記憶ユニットは、文字を単位として使用し、ツリー型構造により基本キーワードを格納してもよい。基本キーワードの第1の文字がルートノードであってもよく、基本キーワードの最後の文字がリーフノードであってもよく、同一の第1の文字を持つ基本キーワードが共通ルートノードを共有する。
【0015】
基本発見ユニットは、入力テキスト内の文字c1を取得するテキスト取得サブユニット、文字マッチングサブユニット、および判断サブユニットを有してもよい。
【0016】
文字マッチングサブユニットは、c1を現在の文字として使用し、ツリー型構造のルートノードを現在のノードとして使用して、現在の文字と現在のノードをマッチングしてもよい。現在の文字が現在のノードに合致し、かつ現在のノードが子ノードを持つ場合、文字マッチングサブユニットは、現在につづく次の文字と現在のノードの子ノードをマッチングしてもよい。現在の文字が現在のノードに合致せず、かつ現在のノードが兄弟ノードを持つ場合、文字マッチングサブユニットは、現在のノードと現在のノードの兄弟ノードをマッチングしてもよい。
【0017】
判断サブユニットは、現在のノードとルートノードを結合してマッチングルートを取得し、マッチングルートで正常な合致があるリーフノードにより、基本キーワードを確立してもよい。
【0018】
基本発見ユニットは、さらに、文字マッチングサブユニットがマッチングを実行する前に、現在の文字が対応するプロトタイプ文字を辞書内に有するかどうか判断し、肯定の場合、現在の文字を対応するプロトタイプ文字に変換する、文字変換サブユニットを有してもよい。
【0019】
文字マッチングサブユニットは、対応するプロトタイプ文字を現在の文字として使用し、現在のノードとマッチングしてもよい。
【0020】
意味キーワードは、フィルタリング条件を有してもよい。意味マッチングユニットは、入力テキストの特性とフィルタリング条件をマッチングするカテゴリマッチングサブユニットを有してもよい。
【0021】
代わりに、意味キーワードは、フィルタリングアクションを有してもよい。フィルタ処理ユニットは、フィルタリングアクションにより合致したテキストコンテンツをフィルタリングしてもよい。
【0022】
本開示により開示されたテキストフィルタリングの方法およびシステムは、基本キーワードと局所演算子の組み合わせを使用し、テキストコンテンツをフィルタリングする。既存の技術と比較して、これは基本キーワードを効果的に組み合わせて全体のテキスト内の意味をフィルタリングでき、それによってフィルタリング精度を上げる。
【0023】
本開示または現在の技術のテクニックをよりよく示すための実施形態または既存の技術の記載に用いる図を、以下に簡潔に紹介する。以下の図は本開示のいくつかの実施形態にのみ関する。当業者は、図によって、創作的に努力することなく他の図も得ることが可能である。
【図面の簡単な説明】
【0024】
図1】本開示によるテキストフィルタリングのプロセスを示す図である。
図2】本開示による基本キーワードのツリー型格納構造を示す図である。
図3】本開示による基本キーワードのサーチ方法のプロセスを示す図である。
図4】本開示によるテキストフィルタリングシステムの例示的なダイアグラムを示す図である。
図5】本開示による基本発見ユニットの例示的なダイアグラムを示す図である。
図6】本開示による他の基本発見ユニットの例示的なダイアグラムを示す図である。
図7】本開示による意味マッチングユニットの例示的なダイアグラムを示す図である。
【発明を実施するための形態】
【0025】
既存のテキストフィルタリング方法は、概して単に基本キーワードに基づいていたし、論理分析機能を持たない。よって、誤報の状況が多くある。例えば、前述の「電話盗聴器の販売禁止」のテキストは、否定語「禁止」と組み合わさったキーワード「電話盗聴器」を含むにもかかわらず、有効な情報として扱うべきであり、取り除くべきではない。この問題に対して、本開示はテキストフィルタリングの技法を提供する。
【0026】
1つの実施形態では、テキストフィルタリング方法は、少なくとも1つの基本キーワードおよび1つの論理演算子を有する意味キーワードをテキストフィルタリングシステム内に予め定義し格納するステップと、入力テキストを取得した後、テキストフィルタリングシステムが、予め定義された意味キーワードにより、入力テキスト内の意味キーワードを構成する基本キーワードを見つけるステップと、テキストコンテンツと入力テキスト内の少なくとも1つの基本キーワードの合致が見つかった場合、意味キーワードを構成された論理演算子による見つかったテキストコンテンツと意味キーワードのマッチングをさらに含む、見つかったテキストコンテンツ内の意味マッチングをさらに実行するステップと、意味マッチングが成功した場合、合致したテキストコンテキストをフィルタリングするステップとを含む。
【0027】
前述のテキストフィルタリング方法は、テキストコンテンツをフィルタリングするために、基本キーワードと論理演算子の組み合わせを使用する。既存の技術と比較すると、提案された技術は、全体のテキスト内の基本キーワードの意味を検討することにより効果的にテキストをフィルタリングすることが可能で、誤報を減らしフィルタリングの精度を上げる。
【0028】
本開示の技法を当業者によりよく理解してもらう助けとするため、本開示の技法を図を参照して明らかにおよび完全に記載する。本明細書に記載された実施形態は、本開示の実施形態のいくつかのみに関し、全てには関しない。当業者は、本開示内で開示された実施形態に基づき他の実施形態を創作的に努力することなく得ることが可能である。そのような実施形態も、本開示の保護範囲内に入る。
【実施例1】
【0029】
本開示では、テキストコンテンツは意味キーワードに基づきフィルタリングされる。意味キーワードは、2つの基本構成要素である基本キーワードと論理演算子で構成される。基本キーワードは独立した単語または句であり、既存の技術で受け入れられた単純なキーワードと同等のものであってもよい。論理演算子は、論理関係を表現するのに用いられる。基本論理関係は論理積、論理和、および否定を有し、それぞれ記号“&”、“│”、および“〜”で表わすことが可能である。以下は、電子商取引ウェブサイトのテキストフィルタリングの意味キーワードのいくつかの簡単な例である。
【0030】
(a)携帯電話盗聴〜対
前述の意味キーワードで表わされる意味は、製品情報が「携帯電話盗聴」を含み、「対」を含まない場合、そのような製品情報がフィルタリングされる必要があることを意味すると解釈してもよい。
【0031】
(b)監視カメラ│無線監視カメラ
前述の意味キーワードで表わされる意味は、製品情報が「監視カメラ」または「無線監視カメラ」を含む場合、そのような製品情報がフィルタリングされる必要があることを意味すると解釈してもよい。
【0032】
(c)軍&縛る
前述の意味キーワードで表わされる意味は、製品情報が「軍」および「縛る」を含む場合、そのような製品情報がフィルタリングされる必要があることを意味すると解釈してもよい。
【0033】
1つの意味キーワードに対し、最も単純な型は論理演算子を加えた2つの基本キーワードであってもよい。前述の3つの例は、全てそのような状態である。意味キーワードが基本キーワードにのみ載せられるとき、テキストフィルタリングは実際は既存の技術と同一である。本開示は、そのような状態の詳細は記載しない。1つの意味キーワードがより多くの基本キーワードおよび論理演算子を有し、より複雑な意味を表現することが可能であることが理解される。1つの例を以下に示す。
【0034】
(d)携帯電話盗聴〜(対│防ぐ)
前述の意味キーワードで表わされる意味は、製品情報が「携帯電話盗聴」を含み、「対」または「防ぐ」を含まない場合、そのような製品情報がフィルタリングされる必要があることを意味すると解釈してもよい。
【0035】
本開示の望ましい実施形態において、意味キーワードのコンテンツは、後述するようにさらに拡張が可能である。
【0036】
意味キーワードは、フィルタリング条件を含むことができる。実際に、前述の基本キーワードおよび論理演算子と異なり、フィルタリング条件はテキストのコンテンツ内の詳細と無関係である。フィルタリング条件の機能は、テキストまたはテキストのカテゴリのソースへの制限のような、テキストの他の特性に基づいたフィルタリングへのさらなる制限を行い、より正確なフィルタリングを実施することである。
【0037】
意味キーワードはさらに、フィルタリングアクションを有して、意味キーワードと合致するテキストコンテンツのコンテンツフィルタ、コンテンツ置換などのような詳細な処理を提供できる。
【0038】
以下の3つの例は、前述の(a)、(b)、および(c)の例にそれぞれフィルタリング条件およびフィルタリングアクションを追加し、意味キーワードの拡張した型を説明する。セミコロンの前の部分は、基本キーワードおよび論理演算子である。セミコロンの後の部分は、拡張したコンテンツである。種々の拡張したコンテンツは、コンマで分離される。本開示の実施形態は、意味の特定のフォーマットを制限しない。
【0039】
(a1)携帯電話盗聴〜対;製品カテゴリ:1002,フィルタリングアクション:在庫有り
前述の意味キーワードで表わされる意味は、製品情報が「携帯電話盗聴」を含み、「対」を含まず、製品カテゴリが1002である場合、そのような製品情報が在庫有りである必要があることを意味すると解釈してもよい。
【0040】
(b1)監視カメラ│無線監視カメラ;製品カテゴリ:101,フィルタリングアクション:在庫有り
前述の意味キーワードで表わされる意味は、製品情報が「監視カメラ」または「無線監視カメラ」を含み、製品カテゴリが101である場合、そのような製品情報が在庫有りである必要があることを意味すると解釈してもよい。
【0041】
(c1)軍&縛る;製品カテゴリ:50001,フィルタリングアクション:在庫有り
前述の意味キーワードで表わされる意味は、製品情報が「軍」および「縛る」を含み、製品カテゴリが50001である場合、そのような製品情報が在庫有りである必要があることを意味すると解釈してもよい。
【0042】
以下の記載で、詳細なプロセスを参照して実施形態を説明する。図1は、後述するようないくつかのステップを有するテキストフィルタリング方法を示す。
【0043】
S101:入力テキストの取得後、テキストフィルタリングシステムは、予め定義された意味キーワードにより、入力テキスト内の意味キーワードを構成する基本キーワードを見つける。
【0044】
このステップで、テキストフィルタリングシステムは、入力テキストの部分の取得後、入力テキスト内の基本キーワードをサーチし、サーチの結果を記録する。例えば、前述の例(b)または(b1)に対し、テキストフィルタリングシステムは最初に「監視カメラ」および「無線監視カメラ」をサーチする。このステップの詳細な実施は既存の技術による単純なキーワードに基づくマッチング方法と同様であり、簡潔にするため、本明細書には詳細に記載しない。
【0045】
S102:入力テキスト内のテキストコンテンツの少なくとも1つの基本キーワードとの合致が見つかった場合、プロセスは見つかったテキストコンテンツ内の意味マッチングを実行する。
【0046】
ステップS101で、サーチは基本キーワードにのみ基づく。コンテンツマッチングでいずれの基本キーワードも見つからない場合、入力テキストのフィルタリング処理を実行する必要はない。テキストコンテンツの少なくとも1つの基本キーワードとの合致が見つかった場合、テキストフィルタリングシステムは、さらに見つかったテキストコンテンツを完全な意味キーワードと比較する。このステップは、意味マッチングと呼ばれる。
【0047】
意味キーワードが基本キーワードおよび論理演算子のみを有する場合、意味マッチングの詳細な内容は以下のようになる。予め定義された意味キーワード内の論理演算子により、見つかったテキストコンテンツが意味キーワードとマッチングされる。例を以下に述べる。
【0048】
前述の例(a)に対し、テキストフィルタリングシステムは、入力テキストに基本キーワード「携帯電話盗聴」を見つけ、基本キーワード「対」を見つけない。言い換えれば、2つの基本キーワードの実際のサーチ結果は、意味キーワード(a)内の2つの基本キーワードの定義された論理関係「否定」に合致する。よって、見つかったテキストコンテンツは、意味キーワード(a)に合致する。
【0049】
前述の例(c)に対し、テキストフィルタリングシステムは、基本キーワード「縛る」を見つけ、基本キーワード「軍」を見つけない。言い換えれば、2つの基本キーワードの実際のサーチ結果は、意味キーワード(c)内の2つの基本キーワードの論理関係「論理積」に合致しない。よって、見つかったテキストコンテンツは、意味キーワード(c)に合致しない。
【0050】
意味キーワードが拡張したコンテンツ「フィルタリング条件」も有する場合、入力テキストの特性とフィルタリング条件の間のマッチング結果は、意味マッチングが実行されるときさらに検討される。
【0051】
S103:意味マッチングが成功した場合、プロセスは合致したテキストコンテキストをフィルタリングする。
【0052】
ステップS102で、意味キーワードに正常に合致するテキストに対し、テキストフィルタリングシステムは、フィルタリングプロセスを実行する。意味キーワードが「フィルタリングアクション」を含む場合、テキストフィルタリングシステムは、「フィルタリングアクション」の詳細な内容によりテキストのフィルタリング処理を実行する。意味キーワードが「フィルタリングアクション」を含まない場合、テキストフィルタリングシステムは、予め定義された既定の方法によりフィルタリングプロセスを実行する。
【実施例2】
【0053】
既存の技術は、通常入力テキスト内の全ての単語の1つずつのサーチを必要とする。ステップS101に対し、本開示は、キーワードサーチの処理効率を上げるための基本キーワードをサーチする改善された方法を提供する。
【0054】
実際のテキストフィルタリングの適用において、フィルタリングされる多くの単語は、「盗聴」、「盗聴装置」、「盗聴ソフトウェア」などのような同一の部分を有する。そのような単語に対し、ツリー型サーチ方法をサーチ効率の改善に使用できる。
【0055】
最初に、テキストフィルタリングシステムは、文字を単位として使用し、ツリー型構造によりそれぞれの基本キーワードを格納する。基本キーワードの第1の文字はルートノードであり、基本キーワードの最後の文字はリーフノードである。第1の文字が同一の基本キーワードは、同一のルートノードを共有する。例えば、“ab”、“abc”および“ade”に対し、これらを図2に示された構造を用いて格納できる。
【0056】
図2では、円形がルートノードまたは一般ノードを表す。菱形がリーフノードを表す。3つの単語“ab”、“abc”および“ade”は同一の第1の文字“a”で始まるので、これらは同一のルートノード1を共有する。この3つの単語の最後の文字は、それぞれ“b”、“c”および“e”である。よってこれらの3文字は、それぞれリーフノード2、3、および5である。文字“b”に対し、これはキーワード“abc”の最後の文字ではないが、キーワード“ab”の最後の文字であることが分かる。よって文字“b”は、なおリーフノードになる。言い換えれば、リーフノードは必ずしもツリー型構造の終了ノードではない。しかし、ツリー型構造の終了ノードはリーフノードである。
【0057】
図3は、本開示による基本キーワードのサーチ方法を示す。方法は、後述のように、いくつかのステップを有する。
【0058】
S301:プロセスは入力テキスト内の文字を取得し、文字を現在の文字に、またツリー型構造のルートノードを現在のノードに設定する。実際のフィルタリング適用の要求によって、取得された文字が入力テキストの第1の文字であってもよいし、または入力テキストのいずれの位置の文字であってもよい。
【0059】
S302:プロセスは、現在の文字を現在のノードとマッチングする。合致する場合、プロセスはS303へ進む。そうでなければ、プロセスはS304へ進む。
【0060】
S303:プロセスは、現在のノードが子ノードを持つかどうか判断する。結果が否定であれば、サーチは終了する。結果が肯定であれば、サーチは現在のノードの子ノードである入力テキスト内の現在の文字の次の文字に続き、ステップS302が実行される。
【0061】
S304:プロセスは、現在のノードが兄弟ノードを有するかどうか判断する。結果が否定であれば、サーチは終了する。結果が肯定であれば、現在の文字は保持されて変更されず、サーチは現在のノードの兄弟ノードに続き、ステップS302が実行される。
【0062】
サーチが完了した後、テキストフィルタリングシステムは現在のノードをルートノードと結合してマッチングルートを取得し、リーフノードによって見つかった基本キーワードがマッチングルートで正常な合致があるかどうか判断する。
【0063】
2つの特定の例で、ツリー型構造に基づく基本キーワードのサーチ方法を後述する。
【0064】
(1)入力テキストを“adf”と仮定する。文字“a”を取得した後、テキストフィルタリングシステムはキーワードデータベースのルートノードをスキャンし、それがノード1に合致するのを見つける。ノード1は子ノードも有する。テキストフィルタリングシステムは、さらに文字“d”をノード1の子ノード2および4とマッチングする。
【0065】
文字“d”はノード4と正常に合致し、ノード4は子ノードを有する。テキストフィルタリングシステムは、さらに文字“f”をノード4の子ノード5とマッチングする。
【0066】
文字“f”とノード5の間のマッチングが失敗し、ノード5は他の兄弟ノードを持たない。この時点でサーチは終了する。現在のマッチングルートは1−4−5であり、マッチングルートは正常に合致したリーフノードを有さない。従って、入力テキスト内に基本キーワードが存在しないと判断することができる。
【0067】
(2)入力テキストを“abc”と仮定する。文字“a”を取得した後、テキストフィルタリングシステムはキーワードデータベースのルートノードを横断し、それがノード1に合致するのを見つける。ノード1は子ノードも有する。テキストフィルタリングシステムは、さらに文字“b”をノード1の子ノード2および4とマッチングする。
【0068】
文字“b”はノード2と正常に合致し、ノード2は子ノードを有する。テキストフィルタリングシステムは、さらに文字“c”をノード2の子ノード3とマッチングする。
【0069】
文字“c”とノード4の間のマッチングが成功し、ノード3は他の兄弟ノードを持たない。この時点でサーチは終了する。現在のマッチングルートは1−2−3である。ノード2およびノード3の両方が、正常に合致したリーフノードである。従って、ノード2およびノード3の内容によって、入力テキスト内で基本キーワード“ab”および“abc”が見つかったと判断できる。
【0070】
ツリー型構造に基づく基本キーワードのサーチ方法の適用において、それぞれのレベルのマッチング動作は、最後のマッチングで正常に合致するノードのみを対象とする。よって、入力テキストのそれぞれの文字を全てのキーワード文字とマッチングする必要がなく、それによって効果的にキーワードサーチの処理効率を上げる。
【0071】
前述の例は、第1の文字をルートノードとして用いることで説明される。そのような方法は、複数の基本キーワードが同一の接頭辞、例えば同一の第1の文字を有するときの状況に適用可能である。複数の基本キーワードが「電話盗聴」、「携帯電話盗聴」、「装置盗聴」のような同一の接尾辞を有するとき、基本キーワードを、基本キーワードの最後の文字がルートノードで第1の文字がリーフノードであるツリー型構造で基本キーワードを格納することもできることが理解される。マッチングプロセスに応じて、プロセスはキーワードの終わりから始めへの順番に従い、入力テキストの文字マッチングをしてもよい。そのようなプロセスの詳細な実施は前述と同様であり、よって、簡潔にするためここでは重掲しない。
【0072】
また、テキストフィルタリングを防ぐため、発表されたテキスト内に「盗−聴−装−置」などのような特殊文字を使用する多くの人がいる。そのような状況に対し、テキストフィルタリングシステムはさらに辞書機能を組み合わせてキーワードをサーチすることができる。
【0073】
辞書は文字のセットを定義し、文字のプロトタイプを定義する。プロトタイプは、文字そのものでありうる。例えば、文字“a”のプロトタイプは“a”自身である。プロトタイプは、他の文字でもありうる。例えば、中国語繁体字のプロトタイプは、それに対応する中国語簡体字である。中国語の適用において、頻繁に使用される辞書は、中国語簡体字辞書、中国語繁体字辞書、英語辞書、および数字辞書を含む。また、管理担当者は、実際の必要により自分で定義する辞書も使用できる。例えば、文字“−”のプロトタイプは、空文字として定義される。
【0074】
前述のステップS302によれば、テキストフィルタリングシステムは、現在の文字を現在のノードとマッチングする前に、現在の文字がプロトタイプ文字を含むかどうかサーチが可能である。肯定の場合、テキストフィルタリングシステムは現在の文字を対応するプロトタイプ文字に変換し、プロトタイプ文字を現在の文字として使用し、現在のノードとマッチングする。
【0075】
前述の例(2)の1つの例として、入力テキストを“aBc”と仮定すると、テキストフィルタリングシステムは、文字“B”をノード2とマッチングする前に、全ての辞書を横断して文字“B”がプロトタイプ“b”を有することを見つけ、オリジナルの入力テキスト内の“B”をプロトタイプ“b”に変換し、“b”を現在の文字として使用してノード2をマッチングする。
【0076】
「盗−聴」のようなテキストに対し、テキストフィルタリングシステムは辞書の問い合わせをし、文字“−“を空文字に変換する。マッチングプロセスの間、テキストフィルタリングシステムが”盗“の後の文字をマッチングするとき、システムは空文字を飛ばして直接文字”聴“をマッチングする。
【0077】
従って、1つまたは複数の辞書を使用して文字を変換することにより、テキストフィルタリングシステムはより不適切な情報を識別でき、それによってよりよいテキストフィルタリング結果を実現する。
【0078】
前述の方法の実施形態に対応して、本開示は図4を参照してテキストフィルタリングシステムも提供する。テキストフィルタリングシステムは、後述のように、いくつかの構成要素を有する。
【0079】
キーワード記憶ユニット410は予め定義された意味キーワードを格納し、意味キーワードは少なくとも1つの基本キーワードおよび1つの論理演算子を有する。
【0080】
基本発見ユニット420は、システムが入力テキストを取得した後、予め定義された意味キーワードにより、入力テキスト内の意味キーワードを構成する基本キーワードを見つける。
【0081】
意味マッチングユニット430は、入力テキスト内のテキストコンテンツと少なくとも1つの基本キーワードとの合致が見つかった場合、見つかったテキストコンテンツ内の意味マッチングを実行する。意味マッチングユニット430は、さらに、意味キーワードを構成する論理演算子により、見つかったテキストコンテンツと意味キーワードをマッチングする論理マッチングサブユニット431も有する。
【0082】
フィルタリング処理ユニット440は、意味マッチングユニット430が正常に合致する場合、合致したテキストコンテキストをフィルタリングする。
【0083】
キーワード記憶ユニット410は、文字を単位として使用し、ツリー型構造により基本キーワードを格納する。基本キーワードの第1の文字はルートノードであり、最後の文字はリーフノードである。同一の第1の文字を持つ基本キーワードは、同一のルートノードを共有する。
【0084】
図5に示されたように、基本発見ユニット420は、後述のようにいくつかのサブ構成要素を有してもよい。
【0085】
テキスト取得サブユニット421は、入力テキスト内の文字c1を取得する。
【0086】
文字マッチングサブユニット422は、c1を現在の文字として、およびツリー型構造のルートノードを現在のノードとして使用し、現在の文字と現在のノードをマッチングする。現在の文字が現在のノードに合致し、現在のノードが子ノードを持つ場合、文字マッチングサブユニット422は、現在につづく次の文字と現在のノードの子ノードをマッチングする。現在の文字が現在のノードに合致せず、現在のノードが兄弟ノードを持つ場合、文字マッチングサブユニット422は、現在のノードと現在のノードの兄弟ノードをマッチングする。このプロセスは、繰り返すことができる。
【0087】
判断サブユニット423は、現在のノードとルートノードを結合してマッチングルートを取得し、リーフノードにより見つかった基本キーワードがマッチングルートで正常に合致する結果を判断する。
【0088】
図6に示されたように、基本発見ユニット420は、さらに、文字マッチングサブユニット422がマッチングを実行する前に、現在の文字がプロトタイプ文字を辞書内に有するかどうかを判断する、文字変換サブユニット424を有する。肯定の場合、文字変換サブユニット424は、現在の文字を対応するプロトタイプ文字に変換する。
【0089】
文字マッチングサブユニット422は、現在の文字としてプロトタイプ文字を使用し、これを現在のノードとマッチングする。
【0090】
意味キーワードは、さらにフィルタリング条件を有してもよい。
【0091】
図7に示されたように、意味マッチングユニット430は、さらに、入力テキストの特性をフィルタリング条件とマッチングする、カテゴリマッチングサブユニット432を有してもよい。
【0092】
意味キーワードは、さらにフィルタリングアクションを有してもよい。
【0093】
フィルタ処理ユニット440は、さらに、フィルタリングアクションにより見つかったテキストコンテンツをフィルタリングするように構成してもよい。
【0094】
記述の都合で、前述のシステムは分けて記載した種々のユニットに機能的に分けられる。開示されたシステムを実行するとき、種々のユニットの機能は、ソフトウェアおよび/またはハードウェアの1つまたは複数の例で実行してもよい。
【0095】
前述の例示的な実施形態から、当業者は、開示された方法およびシステムをソフトウェアおよび汎用ハードウェアプラットフォームを用いて実行してもよいことを明らかに理解できる。この理解に基づき、本開示の技術的スキームを、ROM/RAM、フラッシュメモリ、EEPROM、USBドライブ、ハードドライブおよび光ディスクのような1つまたは複数の非一過性コンピュータ可読な記憶媒体内に格納される、コンピュータに実行される指示の形態で実行してもよい。コンピュータ実行可能な指示は、本開示に記載された方法の実施形態を実行する計算装置(例えば、パーソナルコンピュータ、サーバまたはネットワーク接続された装置)で実行してもよい。
【0096】
種々の例示的な実施形態が、本開示に漸次記載される。例示的な実施形態の同一のまたは類似の部分を、互いに参照することが可能である。それぞれの例示的な実施形態は、他の例示的な実施形態と異なる焦点を持つ。特に、例示的なシステムの実施形態は、例示的な方法との基本的な対応のため、比較的単純な方法で記載した。その詳細は、例示的な方法の関連する部分を参照できる。前述の例示的なシステムの記載は、実例の目的のみを意味する。その中の分離した構成要素として記載されたユニットは、物理的に分離されていてもいなくてもよい。ユニットに関して説明された構成要素は、物理ユニットであってもなくてもよく、例えば、1箇所に設置されても、または複数のネットワークユニットの中に分散してもよい。実際のニーズにより、例示的な実施形態の目標を、選択する部分または全てのモジュールにより達成してもよい。当業者は、開示された実施形態を、革新的な効果なしに理解および実行が可能である。
【0097】
本開示は、汎用または専用コンピュータシステムの環境または構成内で使用してもよい。例は、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルド装置または持ち運び可能な装置、タブレット装置、マルチプロセッサシステム、マイクロプロセッサベースシステム、セットアップボックス、プログラム可能な顧客電子装置、ネットワークPC、小規模コンピュータ、大規模コンピュータ、および前記のあらゆるシステムまたは装置を含む分散コンピューティング環境を含む。
【0098】
本開示は、プログラムモジュールのような、コンピュータにより実行されるコンピュータ実行可能な指示の一般的なコンテキスト内に記載してもよい。通常、プログラムモジュールは、特定のタスクの実行または特定の抽象データ型の実施のため、ルーチン、プログラム、オブジェクト、モジュール、およびデータ構造などを有する。開示された方法及びサーバはまた、分散コンピューティング環境で実行されてもよい。分散コンピューティング環境では、通信ネットワークを介して接続された遠隔処理装置により、タスクが実行される。分散コンピューティング環境では、プログラムモジュールが局所的または遠隔のコンピュータの記憶媒体(記憶装置を含む)内に配置される。
【0099】
本開示の望ましい例示的な実施形態のみを前述した。しかし、本開示はこれらに限定されない。当業者が、この開示の趣旨および範囲から逸脱することなく多くの異なる方法で本開示を変更または修正可能であることが理解される。これらの修正および変形は、従って、本開示の請求項およびそれらの均等物の範囲内に入ると考えるべきである。
図1
図2
図3
図4
図5
図6
図7