(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022122231
(43)【公開日】2022-08-22
(54)【発明の名称】トレジャーキーワードの判断及び再分類方法並びにシステム
(51)【国際特許分類】
G06N 20/00 20190101AFI20220815BHJP
G06F 16/35 20190101ALI20220815BHJP
【FI】
G06N20/00
G06F16/35
【審査請求】有
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2021077473
(22)【出願日】2021-04-30
(31)【優先権主張番号】110105019
(32)【優先日】2021-02-09
(33)【優先権主張国・地域又は機関】TW
(71)【出願人】
【識別番号】521190325
【氏名又は名称】アウー インテリジェンス, インコーポレイテッド
【氏名又は名称原語表記】Awoo Intelligence, Inc.
【住所又は居所原語表記】14F., No.96, Sec. 2, Zhongshan N. Rd., Zhongshan Dist., Taipei City 104, Taiwan
(74)【代理人】
【識別番号】100137095
【弁理士】
【氏名又は名称】江部 武史
(74)【代理人】
【識別番号】100091627
【弁理士】
【氏名又は名称】朝比 一夫
(72)【発明者】
【氏名】クオ ミン リン
(72)【発明者】
【氏名】チェン ウェイ リー
(72)【発明者】
【氏名】シュ ウ リン
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA03
(57)【要約】
【課題】トレジャーキーワードの判断及び再分類方法並びにシステムを提供する。
【解決手段】主にまずワードプロセッシングサーバーに大量のテキスト及びトレジャーキーワードを入力して機械学習を行い、トレジャーキーワード及びトレジャーキーワードと関連する多くのラベルのラーニングを行い、価値の定義に適合するテキスト内のトレジャーキーワードを学習及び判断する。さらにテキスト中から抜粋した後に再分類を行い、各トレジャーキーワードに各種関連性ラベルを貼り、後続のトレジャーキーワードの応用を便利にする。
【選択図】
図3
【特許請求の範囲】
【請求項1】
ワードプロセッシングサーバーのデータ収集モジュールが第三者検索システムによりテストするテキスト情報を収集し、前記テストする前記テキスト情報を前記ワードプロセッシングサーバーのワード判断モジュールに伝送する、テストする情報の入力ステップと、
前記ワード判断モジュールは、前記テストする前記テキスト情報を分析及び比較して前記トレジャーキーワードを判断し、前記ワード判断モジュールは前記ワードプロセッシングサーバーのワード判断データベース中のテキスト情報を第一ラーニング入力情報とし、第一トレジャーキーワード情報を第一ラベル情報として第一機械学習を行うと共に学習を完了するモジュールである第一モデル比較ステップと、
前記第一モデル比較ステップを受けて、前記ワード判断モジュールが前記テストする前記テキスト情報から、前記第一機械学習の結果に基づいてテストするトレジャーキーワード情報を抜粋し、前記テストする前記トレジャーキーワード情報を前記ワードプロセッシングサーバーのワード再分類モジュールに伝送するトレジャーキーワードの判断ステップと、
前記ワード再分類モジュールは前記テストする前記トレジャーキーワード情報を分析及び比較し、前記テストする前記トレジャーキーワード情報を分類し、前記ワード再分類モジュールは、前記ワードプロセッシングサーバーのワード再分類データベース中の第二トレジャーキーワード情報を第二ラーニング入力情報とし、分類カテゴリ情報を第二ラベル情報として第二機械学習を行うと共に学習を完了するモジュールである第二モデル比較ステップと、
前記第二モデル比較ステップを受けて、前記ワード再分類モジュールは前記第二機械学習の結果に基づいて前記テストする前記トレジャーキーワード情報に分類ラベル情報を付与し、且つ前記テストする前記トレジャーキーワード情報及び前記分類ラベル情報を前記ワードプロセッシングサーバーの分類完全データベースに保存するトレジャーキーワードの再分類ステップと、を含むことを特徴とするトレジャーキーワードの判断及び再分類方法。
【請求項2】
前記テキスト情報はネット記事、電子メール広告テキスト、商品説明文、公開文献、ショートテキストのうちの何れか1種類またはそれらの組み合わせ情報であることを特徴とする請求項1に記載のトレジャーキーワードの判断及び再分類方法。
【請求項3】
前記テキスト情報、前記第一トレジャーキーワード情報、前記第二トレジャーキーワード情報、及び前記分類カテゴリ情報はデータプロバイダーデバイスから提供されていることを特徴とする請求項1に記載のトレジャーキーワードの判断及び再分類方法。
【請求項4】
前記第一機械学習及び前記第二機械学習は教師あり学習法、半教師あり学習法、及び強化学習法のうちの何れか1種類を主に使用していることを特徴とする請求項1に記載のトレジャーキーワードの判断及び再分類方法。
【請求項5】
前記トレジャーキーワードの再分類ステップ後にさらに続けて抜粋使用ステップを実行し、使用者側が使用者側装置により前記ワードプロセッシングサーバーから前記トレジャーキーワードを抜粋すると、前記分類ラベル情報も前記ワードプロセッシングサーバーから一緒に抜粋されることを特徴とする請求項1に記載のトレジャーキーワードの判断及び再分類方法。
【請求項6】
主にデータストレージモジュール、データ収集モジュール、ワード判断モジュール、及びワード再分類モジュールと情報接続しているデータ処理モジュールを含み、前記データ処理モジュールが作動させるワードプロセッシングサーバーと、
テストするテキスト情報を前記ワードプロセッシングサーバーに提供する第三者検索システムと、
前記テキスト情報、第一トレジャーキーワード情報、第二トレジャーキーワード情報、及び分類カテゴリ情報を前記ワードプロセッシングサーバーに提供するデータプロバイダーデバイスと、を備え、
前記データストレージモジュールは主にワード判断データベースと、ワード再分類データベースと、分類完全データベースとを含み、
前記データ収集モジュールは主に前記テストする前記テキスト情報を収集すると共に前記ワード判断モジュールに伝送し、
前記ワード判断モジュールは前記ワード判断データベースに保存しているテキスト情報を第一ラーニング入力情報とし、第一トレジャーキーワード情報を第一ラベル情報として第一機械学習を行い、前記ワード判断モジュールは前記第一機械学習の結果に基づいて前記テストする前記テキスト情報中からテストするトレジャーキーワード情報を判断し、前記テストする前記トレジャーキーワード情報を抜粋すると共に前記ワード再分類モジュールに伝送し、
前記ワード再分類モジュールは前記ワード再分類データベースに保存している第二トレジャーキーワード情報を第二ラーニング入力情報とし、分類カテゴリ情報を第二ラベル情報として第二機械学習を行い、前記ワード再分類モジュールは第二機械学習の結果に基づいて前記テストする前記トレジャーキーワード情報を分類し、且つ分類の結果に基づいて前記テストする前記トレジャーキーワード情報に分類ラベル情報を付与し、前記テストする前記トレジャーキーワード情報及び前記分類ラベル情報を前記分類完全データベースに保存することを特徴とするトレジャーキーワードの判断及び再分類システム。
【請求項7】
前記テキスト情報はネット記事、電子メール広告テキスト、商品説明文、公開文献、ショートテキストのうちの何れか1種類またはそれらの組み合わせ情報であることを特徴とする請求項6に記載のトレジャーキーワードの判断及び再分類システム。
【請求項8】
前記第一機械学習及び前記第二機械学習は教師あり学習法、半教師あり学習法、及び強化学習法のうちの何れか1種類を主に使用していることを特徴とする請求項6に記載のトレジャーキーワードの判断及び再分類システム。
【請求項9】
前記ワードプロセッシングサーバーは、前記データプロバイダーデバイスから提供される補正情報に基づいて前記第一機械学習及び前記第二機械学習の結果を調整するための補正モジュールをさらに備えていることを特徴とする請求項6に記載のトレジャーキーワードの判断及び再分類システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習を利用したシステムに関し、より詳しくは、テキストからトレジャーキーワードを抜粋し、トレジャーキーワードを分類するシステム及び方法に関する。
【背景技術】
【0002】
現在ネットの世界には大量の情報テキスト、文章、短文等が溢れている。このような大量の情報コンテンツは、ネットワークのユーザー側、ネットワークデータ処理側、ネットワーク広告提供側等にとって大量の情報の中から有用な情報を精確に取得する或いはその有用な情報を応用することが難しかった。よって、ネットワークの情報の中から有用な情報を高速且つ精確に取得することは、ネットワークの発展にとって非常に重要であった。また、人力の代わりに機械を使用してテキスト情報を能動的に収集し、機械学習により有用な情報を判断すると共に取り出すことが、現在各業界が注力している目標であった。従来の特許文献では、例えば、下記特許文献1の「マーケティングターゲットの人気予測方法及び非一時的なコンピュータ可読媒体」という記載があり、前記技術では、まずソーシャルメディアからマーケティングカテゴリに対応する文章をダウンロードし、単語に分割することによって複数のキーワードを取得し、時系列方式でキーワードの関連性を決定すると共にニューラルネットワークモデルを構築する。最後に適用する者がキーワードを使用した際に、関連度に基づいてユーザーにその他のキーワードを提供する。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、前述の台湾特許出願は、キーワードを分析する際に露出量のみを考慮しており、クリック頻度、ワード出現頻度、ワード使用頻度等の他のデータは考慮していない。また、前記出願は複数のキーワードを取得する際に、ワード分割技術を採用している。ワード分割技術は現在テキストからキーワードを抜粋する技術で一定のシェアを得ているが、例えば、流行語、中英混成語、ネットスラング等はキーワードではないが、データ分析においては有意義(または有価値)なワードである。最後に、前記台湾特許出願はユーザーがキーワードを使用すると、関連するまたは相似するキーワードのみを提供し、その他の分類、カテゴリ、分野等のその他のデータを提供することに関しては言及していない。
【0005】
そこで、本発明者は従来のトレジャーキーワードの抜粋及び使用技術には前述の欠点が確かに存在するため、鋭意検討を重ねた結果、合理的設計で上記の課題を効果的に改善する本発明の提案に至った。
【0006】
本発明はこうした状況に鑑みてなされたものであり、その目的は、テキストからトレジャーキーワードを識別し、且つトレジャーキーワードの再分類を行うシステム及び方法を提供することにある。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明は主にワードプロセッシングサーバーを備え、データプロバイダーがまずネット記事、電子メール広告テキスト、商品説明文等のテキストデータを入力し、テキスト情報が対応するトレジャーキーワードの基礎とし、且つ第一回機械学習を行い、システムにテキスト内のトレジャーキーワードを学習及び判断させる。また、システムはまず入力されたトレジャーキーワード及びトレジャーキーワードと関連する分類ラベルの第二回機械学習を行い、システムがテキストからトレジャーキーワードを抜粋するのみならず、抜粋完了後に抜粋したトレジャーキーワードの分類を行う。最後にトレジャーキーワードに関連する各種ラベルを付与し、後続のトレジャーキーワードの使用時に、テキストから分離して判断するのみならず、ラベル分類に基づいた異なる応用を可能とする。
【0008】
本発明の他の特徴については、本明細書及び添付図面の記載により明らかにする。
【図面の簡単な説明】
【0009】
【
図1】本発明に係るトレジャーキーワードの判断及び再分類システムを示す概略構成図(1)である。
【
図2】本発明に係るトレジャーキーワードの判断及び再分類システムを示す概略構成図(2)である。
【
図3】本発明の実施形態に係るトレジャーキーワードの判断及び再分類システムを示すフローチャートである。
【
図4】本発明の実施形態に係るトレジャーキーワードの判断及び再分類システムを示す概略図(1)である。
【
図5】本発明の実施形態に係るトレジャーキーワードの判断及び再分類システムを示す概略図(2)である。
【
図6】本発明の実施形態に係るトレジャーキーワードの判断及び再分類システムを示す概略図(3)である。
【
図7】本発明の実施形態に係るトレジャーキーワードの判断及び再分類システムを示す概略図(4)である。
【
図8】本発明の実施形態に係るトレジャーキーワードの判断及び再分類システムを示す概略図(5)である。
【
図9】本発明の他の実施形態に係るトレジャーキーワードの判断及び再分類システムを示す概略図である。
【
図10】本発明のさらなる他の実施形態に係るトレジャーキーワードの判断及び再分類システムを示す概略図である。
【発明を実施するための形態】
【0010】
以下、本開示の実施形態について図面を用いて説明する。なお、本開示は、下記の実施形態に何ら限定されることはなく、本開示の技術的範囲に属する限り種々の形態を採りうる。
【0011】
本発明のトレジャーキーワードの判断及び再分類システム1は、ワードプロセッシングサーバー11を備え、ワードプロセッシングサーバー11と情報接続している第三者検索システム12及びデータプロバイダーデバイス13を少なくとも有している(
図1参照)。以下、各構成部材の機能を例示する。
<ワードプロセッシングサーバー11>
【0012】
ワードプロセッシングサーバー11はデータプロバイダーデバイス13が送信したデータを受信した後に機械学習を行い、学習したデータに基づいて複数のモデルを構築する。ワードプロセッシングサーバー11が第三者検索システム12により収集したテストするデータ中からトレジャーキーワードを判断して抜粋し、トレジャーキーワードの分類を行う。最後に、分類したカテゴリに基づいて各トレジャーキーワードに分類ラベル情報を付与する。
<第三者検索システム12>
【0013】
第三者検索システム12は検索エンジンデータベース、広告データベース、テキストデータベースのうちの何れか1種類またはそれらの組み合わせであり、但し、ワードプロセッシングサーバー11は必要なテストする入力サンプルを獲得可能なシステムであれば全て実施可能である。
<データプロバイダーデバイス13>
【0014】
データプロバイダーデバイス13は携帯電話、タブレット端末、パソコン等の設備のうちの何れか1種類であり、但し、ワードプロセッシングサーバー11が機械学習を行うために必要なデータを提供できるものであれば全て実施可能である。データプロバイダーデバイス13は主にワードプロセッシングサーバー11が機械学習を行ってモデルを構築する際に必要なテキスト情報、トレジャーキーワード情報、及び分類カテゴリ情報を提供する。前述の情報については後述する。
【0015】
また、ワードプロセッシングサーバー11は主に、データストレージモジュール112、データ収集モジュール113、ワード判断モジュール114、及びワード再分類モジュール115にそれぞれ情報接続しているデータ処理モジュール111を備えている。データ処理モジュール111はワードプロセッシングサーバー11を作動させ、上述の各モジュールが作動するように駆動させる。データ処理モジュール111は論理演算を行い、演算結果を一時保存し、命令実行位置を保存する等の機能を備え、例えば、中央処理装置(Central Processing Unit、CPU)であるが、これに限られない。
【0016】
データストレージモジュール112は電子データを保存するためのSSD(Solid State Disk or Solid State Drive)、HDD(Hard Disk Drive)、或いはメモリのうちの何れか1種類である。データストレージモジュール112はワード判断データベース1121、ワード再分類データベース1122、及び分類完全データベース1123を保存している。ワード判断データベース1121はテキスト情報T1及び第一トレジャーキーワード情報L1を保存及び記録し、テキスト情報T1及び第一トレジャーキーワード情報L1はデータプロバイダーデバイス13から提供される。テキスト情報T1は主にネット記事、電子メール広告テキスト、商品説明文、公開文献、ショートテキスト等の文字テキストまたはそれらの組み合わせを指す。また、第一トレジャーキーワード情報L1は主にテキスト情報T1内の文中にあるトレジャーキーワードに対応し、さらにトレジャーキーワードはキーワードのみならず流行語、中英混成語、ネットスラング等の有意義な時代を表すワードを含み、これらは全てトレジャーキーワードの定義に適合する。また、トレジャーキーワードはデータプロバイダーデバイス13により標記し、この標記はトレジャーキーワードがテキストに出現する出現頻度、使用頻度、接触頻度、クリック頻度、共通ワード出現頻度等の関連データを基礎として行う。ワード再分類データベース1122は第二トレジャーキーワード情報T2及び分類カテゴリ情報L2を保存し、第二トレジャーキーワード情報T2は前述の第一トレジャーキーワード情報T1と同じであるが、ここでは、第二トレジャーキーワード情報T2は後述する第二機械学習に基づいて入力するデータであり、よって対応していないテキスト情報である。ここでは、分類カテゴリ情報L2は第二トレジャーキーワード情報T2に対応する情報であり、分類カテゴリ情報L2はデータプロバイダーデバイス13により標記し、トレジャーキーワードが属する分野、使用頻度、使用範囲、使用習慣、ワードの長さ等に対応し、分類ラベルの属性、機能、効果、特徴、ブランド等でもよい。分類完全データベース1123は主にテストするトレジャーキーワード情報及び分類ラベル情報を保存する。上述の情報については詳しく後述する。
【0017】
データ収集モジュール113は主に第三者検索システム12によりテストするテキスト情報を収集し、且つテストするテキスト情報を後続のワード判断モジュール114に伝送する。データ収集モジュール113は主にブラウザ検索、データキャプチャ、Webクローラー(Web Crawler)等の方式またはそれらの組み合わせを使用してテストするテキストデータを収集する。また、テストするテキスト情報はネット記事、電子メール広告テキスト、商品説明文、公開文献、ショートテキスト等の文字テキストまたはそれらの組み合わせを指すが、これらに限られない。なお、テストするテキスト情報は単一の自然言語或いは単一の自然語族のみならず、複数の自然言語または自然言語の混成語も含む。
【0018】
ワード判断モジュール114は主にデータ収集モジュール113が送信したテストするテキスト情報内にあるトレジャーキーワードを判断し、テストするトレジャーキーワード情報として抜粋し、後続のワード再分類モジュール115に伝送する。ワード判断モジュール114は主に教師あり学習(Supervised Learning)、半教師あり学習(Semi-Supervised Learning)、或いは強化学習(Reinforcement Learning)等の強化学習(Machine Learning)を使用してモデルを構築するが、これに限られない。ワード判断モジュール114は主にテキスト情報T1をモデルのラーニング時の入力データとし、第一トレジャーキーワード情報L1をモデルのラーニング時のラベルデータとして第一機械学習を行うと共にモデルを構築する。
【0019】
ワード再分類モジュール115は主にワード判断モジュール114が送信したテストするトレジャーキーワード情報を分類すると共に分類結果に基づいてトレジャーキーワード情報を分類ラベル情報に付与する。最後に、テストするトレジャーキーワード情報及び分類ラベル情報を分類完全データベース1123に保存する。ワード再分類モジュール115は主に教師あり学習(Supervised Learning)、半教師あり学習(Semi-Supervised Learning)、或いは強化学習(Reinforcement Learning)等の強化学習(Machine Learning)を使用してモデルを構築する。ワード再分類モジュール115は主に第二トレジャーキーワード情報T2をモデルのラーニング時の入力データとし、分類カテゴリ情報L2をモデルのラーニング時のラベルデータとして第二機械学習を行うと共にモデルを構築する。
【0020】
次に、
図1~3を参照しながら、本発明の実施形態を詳しく説明する。
<テストする情報の入力ステップS1>
【0021】
図4に示すように、ワードプロセッシングサーバー11のデータ収集モジュール113は第三者検索システム12によりテストするテキスト情報D1を収集すると共にワードプロセッシングサーバー11に伝送した後、テストするテキスト情報D1をワード判断モジュール114に伝送する。テストするテキスト情報D1はネット記事、電子メール広告テキスト、商品説明文、公開文献、ショートテキスト等の文字テキストまたはそれらの組み合わせを指すが、これに限られない。また、テストするテキスト情報D1は単一の自然言語或いは単一の自然語族のみならず、複数の自然言語または自然言語の混成語も含む。
<第一モデル比較ステップS2>
【0022】
前項のステップを受けて、
図5と
図6を併せて参照し、ワード判断モジュール114はデータ収集モジュール113が送信したテストするテキスト情報D1を受信した後、テストするテキスト情報D1及び第一機械学習の比較及び分析を行う。第一機械学習モデルを構築する場合、ワード判断データベース1121中のテキスト情報T1を第一ラーニング入力情報とし、第一トレジャーキーワード情報L1を第一ラベル情報としてモデルを構築し、最後にテストするテキスト情報D1の分析、比較、及び判断を行う。テキスト情報T1は主にネット記事、電子メール広告テキスト、商品説明文、公開文献、ショートテキスト等の文字テキストまたはそれらの組み合わせを指す。また、第一トレジャーキーワード情報L1は主にテキスト情報T1内の文中にあるトレジャーキーワードに対応し、さらに、トレジャーキーワードはキーワードのみならず、流行語、中英混成語、ネットスラング等の有意義なワードを全てトレジャーキーワードとして含んでいる。例えば、第一機械学習により、ワード判断モジュール114がテキスト情報T1から「防疫」、「マスク」、「肺炎」、「COVID-19」等の単語をトレジャーキーワードとして学習し、且つ防疫公報等のネット記事やネットエッセイ中に「防疫」、「マスク」、「肺炎」、「COVID-19」等の関連するトレジャーキーワードがあるか否か判断する。以上は例示にすぎず、これに限定するわけではない。
<トレジャーキーワードの判断ステップS3>
【0023】
前項のステップを受けて、
図7を併せて参照し、ワード判断モジュール114はテストするテキスト情報D1を判断し、第一機械学習の結果に基づいてテストするテキスト情報D1内のテキストからテストするトレジャーキーワード情報D2を抜粋し、且つテストするトレジャーキーワード情報D2をワード再分類モジュール115に伝送する。例えば、ワード判断モジュール114が防疫公報中から「防疫」、「マスク」、「肺炎」、及び関連するトレジャーキーワードとして「ワクチン」、「隔離」等のワードを抜粋し、抜粋したトレジャーキーワードを後続のモジュールに伝送して分類する。以上は例示にすぎず、これに限定するわけではない。
<第二モデル比較ステップS4>
【0024】
図7に示すように、ワード再分類モジュール115はワード判断モジュール114が抜粋したテストするトレジャーキーワード情報D2を受信し、且つテストするトレジャーキーワード情報D2及び第二機械学習の分析及び比較を行う。第二機械学習モデルを構築する場合、ワード再分類データベース1122中の第二トレジャーキーワード情報T2を第二ラーニング入力情報とし、分類カテゴリ情報L2を第二ラベル情報としてモデルを構築し、最後にテストするトレジャーキーワード情報D2の分析及び比較を行う。第二トレジャーキーワード情報T2はキーワード、流行語、同義語、表音文字等でもよく、但しこれらに限られない。また、分類カテゴリ情報L2は主に第二トレジャーキーワード情報T2に対応する分類カテゴリであり、さらに、分類カテゴリ情報L2は第二トレジャーキーワード情報T2中のトレジャーキーワードが属する分野、使用頻度、使用範囲、使用習慣、ワードの長さ等を含むが、これに限られない。例えば、第二機械学習により、ワード再分類モジュール115が第二トレジャーキーワード情報T2から「マスク」が属する分類が医療、疾病、食品、健康、旅行等であることを学習する。特に、前述の属する分類は分類されるラベル属性を含み、ラベル属性としては「マスク」のブランド、商品の特徴、機能、効果、効用等がある。また、肺炎が属する分類としては医療、疾病、感染、インフルエンザがあり、「COVID-19」が属する分類としては医療、ウィルス、コロナウィルス、世界的、変異種等の分類カテゴリがある。以上は例示にすぎず、これに限定するわけではない。
<トレジャーキーワードの再分類ステップS5>
【0025】
前項のステップを受けて、
図8を併せて参照し、ワード再分類モジュール115はテストするトレジャーキーワード情報D2を判断し、第二機械学習の結果に基づいてテストするトレジャーキーワード情報D2に分類ラベル情報D3を付与する。最後に、ワード再分類モジュール115はテストするトレジャーキーワード情報D2及び分類ラベル情報D3を分類完全データベース1123に保存する。分類ラベル情報D3は分類カテゴリ情報L2と同じであるが、ここではテストするトレジャーキーワード情報D2に対応する、属する分野、使用頻度、使用範囲、使用習慣、ワードの長さ等についてのみであり、これらに限られない。例えば、トレジャーキーワードの判断ステップS3の例としては、トレジャーキーワードである「防疫」、「マスク」、「肺炎」、「ワクチン」、及び「隔離」は全て医療に分類され、「マスク」はさらに疾病、食品、健康にも分類され、「肺炎」はさらに医療、疾病、感染、インフルエンザ等にも分類される。以上は例示にすぎず、これに限定するわけではない。
【0026】
また、
図9に示すように、トレジャーキーワードの再分類ステップS5の後にさらに続けて抜粋使用ステップS6を実行し、ユーザーがユーザー側装置を使用してワードプロセッシングサーバー11によりトレジャーキーワードを検索、抜粋、または使用する場合、トレジャーキーワードに対応する分類カテゴリラベルも一緒にワードプロセッシングサーバー11により抜粋され、ユーザー側装置により使用される。例えば、ユーザーAが携帯電話を使用し、ワードプロセッシングサーバー11により「マスク」を検索すると、「マスク」に属する分類ラベルの医療、疾病、食品、健康、交通も一緒に抜粋し、ユーザーAに提供する。以上は例示にすぎず、これに限定するわけではない。
【0027】
また、
図10に示すように、ワードプロセッシングサーバー11は、データプロバイダーデバイス13が提供する補正情報を受信し、受信した補正情報に基づいて前記ワード判断モジュール114の第一機械学習及びワード再分類モジュール115の第二機械学習の結果を調整するための補正モジュール116をさらに備えている。例えば、データプロバイダーデバイス13が補正情報を送信し、「マスク」の分類ラベルの食品を削除すると、補正モジュール116がこの補正情報を受信した後にワード再分類モジュール115を調整する。以上は例示にすぎず、これに限定するわけではない。
【0028】
以上を総合すると、本発明に係るトレジャーキーワードの判断及び再分類方法並びにシステムは、2回の機械学習方式により、システムがトレジャーキーワードを文中から判断して抜粋し、トレジャーキーワードの分類を行い、分類カテゴリに基づいてトレジャーキーワードに各種ラベルを付与する。これにより、本発明を実施することで、テキストからトレジャーキーワードを確実に識別し、トレジャーキーワードを再分類する目的を達成している。
【0029】
上記の実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。本発明は、その趣旨を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物が含まれることは言うまでもない。
【符号の説明】
【0030】
1 トレジャーキーワードの判断及び再分類システム
11 ワードプロセッシングサーバー
111 データ処理モジュール
112 データストレージモジュール
1121 ワード判断データベース
1122 ワード再分類データベース
1123 分類完全データベース
113 データ収集モジュール
114 ワード判断モジュール
115 ワード再分類モジュール
116 補正モジュール
12 第三者検索システム
13 データプロバイダーデバイス
T1 テキスト情報
L1 第一トレジャーキーワード情報
T2 第二トレジャーキーワード情報
L2 分類カテゴリ情報
D1 テストするテキスト情報
D2 テストするトレジャーキーワード情報
D3 分類ラベル情報
S1 テストする情報の入力ステップ
S2 第一モデル比較ステップ
S3 トレジャーキーワードの判断ステップ
S4 第二モデル比較ステップ
S5 トレジャーキーワードの再分類ステップ
S6 抜粋使用ステップ