IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アウー インテリジェンス, インコーポレイテッドの特許一覧

特許7212961トレジャーキーワードの抽出及びトレジャーキーワードネットを形成する方法、並びに、そのシステム
<>
  • 特許-トレジャーキーワードの抽出及びトレジャーキーワードネットを形成する方法、並びに、そのシステム 図1
  • 特許-トレジャーキーワードの抽出及びトレジャーキーワードネットを形成する方法、並びに、そのシステム 図2
  • 特許-トレジャーキーワードの抽出及びトレジャーキーワードネットを形成する方法、並びに、そのシステム 図3
  • 特許-トレジャーキーワードの抽出及びトレジャーキーワードネットを形成する方法、並びに、そのシステム 図4
  • 特許-トレジャーキーワードの抽出及びトレジャーキーワードネットを形成する方法、並びに、そのシステム 図5
  • 特許-トレジャーキーワードの抽出及びトレジャーキーワードネットを形成する方法、並びに、そのシステム 図6
  • 特許-トレジャーキーワードの抽出及びトレジャーキーワードネットを形成する方法、並びに、そのシステム 図7
  • 特許-トレジャーキーワードの抽出及びトレジャーキーワードネットを形成する方法、並びに、そのシステム 図8
  • 特許-トレジャーキーワードの抽出及びトレジャーキーワードネットを形成する方法、並びに、そのシステム 図9
  • 特許-トレジャーキーワードの抽出及びトレジャーキーワードネットを形成する方法、並びに、そのシステム 図10
  • 特許-トレジャーキーワードの抽出及びトレジャーキーワードネットを形成する方法、並びに、そのシステム 図11
  • 特許-トレジャーキーワードの抽出及びトレジャーキーワードネットを形成する方法、並びに、そのシステム 図12
  • 特許-トレジャーキーワードの抽出及びトレジャーキーワードネットを形成する方法、並びに、そのシステム 図13
  • 特許-トレジャーキーワードの抽出及びトレジャーキーワードネットを形成する方法、並びに、そのシステム 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-01-18
(45)【発行日】2023-01-26
(54)【発明の名称】トレジャーキーワードの抽出及びトレジャーキーワードネットを形成する方法、並びに、そのシステム
(51)【国際特許分類】
   G06F 16/36 20190101AFI20230119BHJP
   G06F 16/383 20190101ALI20230119BHJP
【FI】
G06F16/36
G06F16/383
【請求項の数】 12
(21)【出願番号】P 2021077467
(22)【出願日】2021-04-30
(65)【公開番号】P2022122230
(43)【公開日】2022-08-22
【審査請求日】2021-06-08
(31)【優先権主張番号】110105017
(32)【優先日】2021-02-09
(33)【優先権主張国・地域又は機関】TW
(73)【特許権者】
【識別番号】521190325
【氏名又は名称】アウー インテリジェンス, インコーポレイテッド
【氏名又は名称原語表記】Awoo Intelligence, Inc.
【住所又は居所原語表記】14F., No.96, Sec. 2, Zhongshan N. Rd., Zhongshan Dist., Taipei City 104, Taiwan
(74)【代理人】
【識別番号】100137095
【弁理士】
【氏名又は名称】江部 武史
(74)【代理人】
【識別番号】100091627
【弁理士】
【氏名又は名称】朝比 一夫
(72)【発明者】
【氏名】クオ ミン リン
(72)【発明者】
【氏名】シュ ウ リン
【審査官】早川 学
(56)【参考文献】
【文献】特開2019-016074(JP,A)
【文献】特開2001-243223(JP,A)
【文献】米国特許出願公開第2017/0004208(US,A1)
【文献】米国特許出願公開第2015/0112664(US,A1)
【文献】韓国公開特許第10-2008-0029417(KR,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06F 40/00-40/58
(57)【特許請求の範囲】
【請求項1】
サーバーがネットワークを介して第三者検索システムに接続し、前記サーバーは自主的に前記第三者検索システムにより1つまたは複数のテキスト情報及び前記テキスト情報に関連するテキスト関連情報を検索するテキスト収集ステップと、
前記テキスト収集ステップを受けて、前記サーバーは持続的に前記テキスト情報及び前記テキスト関連情報を収集すると共に前記サーバーのワード抽出モジュールに伝送し、前記ワード抽出モジュールは前記テキスト情報及び前記テキスト関連情報を第一ラーニング情報として第一機械学習を行うテキストラーニングステップと、
前記テキストラーニングステップを受けて、前記ワード抽出モジュールが前記第一機械学習の完了後、前記第一機械学習の結果に基づいて前記テキスト情報から1つまたは複数のトレジャーキーワードを抽出し、前記サーバーに保存するトレジャーキーワード抽出ステップと、
前記サーバーのワードネットリンクモジュールが、前記サーバー内に保存してある1つまたは複数の前記トレジャーキーワード及び前記テキスト関連情報を第二ラーニングデータとして第二機械学習を行うトレジャーキーワードラーニングステップと、
前記トレジャーキーワードラーニングステップを受けて、前記ワードネットリンクモジュールが前記第二機械学習の完了後、前記第二機械学習の結果に基づいて、前記トレジャーキーワードをワードウェイトにより他の1つまたは複数の前記トレジャーキーワードにリンクするトレジャーキーワードリンクステップと、
前記トレジャーキーワードリンクステップを受けて、前記ワードネットリンクモジュールが前記ワードウェイトに基づいてリンクが完了した1組または複数組の前記トレジャーキーワードをワードネットとして統合し、前記ワードネットを前記サーバー内に保存するワードネット形成ステップと、を含むことを特徴とするトレジャーキーワードの抽出及びトレジャーキーワードネットを形成する方法。
【請求項2】
前記テキスト情報はネット記事、電子メール広告テキスト、商品説明文、公開文献、ショートテキストのうちの何れか1種類またはそれらの組み合わせであることを特徴とする請求項1に記載のトレジャーキーワードの抽出及びトレジャーキーワードネットを形成する方法。
【請求項3】
前記テキスト関連情報はテキスト使用回数、テキストリンク回数、テキスト引用回数、テキストクリック回数、テキスト閲覧回数、及び前記テキスト情報内のワードの出現頻度、使用頻度、接触頻度、クリック頻度、共通ワード出現頻度、他サイト関連程度、専門知識変換、確率空間、シャノンエントロピー、空間分布のうちの何れか1種類またはそれらの組み合わせであることを特徴とする請求項1に記載のトレジャーキーワードの抽出及びトレジャーキーワードネットを形成する方法。
【請求項4】
前記第一機械学習及び前記第二機械学習は主に教師なし学習法、自己教師あり学習法、及びヒューリスティックアルゴリズムのうちの1種類またはそれらの組み合わせを採用していることを特徴とする請求項1に記載のトレジャーキーワードの抽出及びトレジャーキーワードネットを形成する方法。
【請求項5】
前記ワード抽出モジュールは異なる各語族の前記テキスト情報について学習を行い、且つ異なる各語族の同じまたは相似する前記トレジャーキーワードを抽出することを特徴とする請求項1に記載のトレジャーキーワードの抽出及びトレジャーキーワードネットを形成する方法。
【請求項6】
前記ワードネット形成ステップの後にさらに持続して抜粋使用ステップを実行し、ユーザー側はユーザー側装置により前記サーバーから前記トレジャーキーワードを抜粋し、前記ワードウェイトによるリンクに基づいて前記トレジャーキーワードに属する前記ワードネットも前記サーバーから一緒に抜粋することを特徴とする請求項1に記載のトレジャーキーワードの抽出及びトレジャーキーワードネットを形成する方法。
【請求項7】
主にデータ処理モジュールを含み、情報リンクするデータストレージモジュールと、データ収集モジュールと、ワード抽出モジュールと、ワードネットリンクモジュールとを有し、前記データ処理モジュールが作動させるサーバーと、
テキスト情報及び前記テキスト情報に関連するテキスト関連情報を前記サーバーに提供する第三者検索システムと、を備え、
前記データストレージモジュールは主に学習データベースと、トレジャーキーワードデータベースと、ワードネットデータベースとを含み、
前記データ収集モジュールは主に前記テキスト情報及び前記テキスト関連情報を収集すると共に前記学習データベースに保存し、
前記ワード抽出モジュールは前記学習データベースに保存した前記テキスト情報及び前記テキスト関連情報を第一ラーニング情報として第一機械学習を行い、前記第一機械学習の結果に基づいて前記テキスト情報からトレジャーキーワードを抽出すると共に前記トレジャーキーワードデータベースに保存し、
前記ワードネットリンクモジュールは前記トレジャーキーワード及び前記テキスト関連情報を第二ラーニング情報として第二機械学習を行い、前記第二機械学習の結果に基づいて前記トレジャーキーワードをワードウェイトに基づいて他の1つまたは複数の前記トレジャーキーワードにリンクし、前記ワードネットリンクモジュールは前記ワードウェイトによりリンクした1組または複数組の前記トレジャーキーワードに基づいてワードネットを生成し、且つ前記ワードネットを前記ワードネットデータベースに保存することを特徴とするトレジャーキーワードの抽出及びトレジャーキーワードネットを形成するシステム。
【請求項8】
前記テキスト情報はネット記事、電子メール広告テキスト、商品説明文、公開文献、ショートテキストのうちの何れか1種類またはそれらの組み合わせであることを特徴とする請求項7に記載のトレジャーキーワードの抽出及びトレジャーキーワードネットを形成するシステム。
【請求項9】
前記テキスト関連情報はテキスト使用回数、テキストリンク回数、テキスト引用回数、テキストクリック回数、テキスト閲覧回数、及び前記テキスト情報内ワードの出現頻度、使用頻度、接触頻度、クリック頻度、共通ワード出現頻度、他サイト関連程度、専門知識変換、確率空間、シャノンエントロピー、空間分布のうちの何れか1種類またはそれらの組み合わせであることを特徴とする請求項7に記載のトレジャーキーワードの抽出及びトレジャーキーワードネットを形成するシステム。
【請求項10】
前記第一機械学習及び前記第二機械学習は、教師なし学習法、自己教師あり学習法、及びヒューリスティックアルゴリズムのうちの1種類またはそれらの組み合わせを採用していることを特徴とする請求項7に記載のトレジャーキーワードの抽出及びトレジャーキーワードネットを形成するシステム。
【請求項11】
前記データ処理モジュールはワード分割補助モジュールとさらに情報リンクし、前記ワード分割補助モジュールは主に前記テキスト情報をワード分割し、前記ワード抽出モジュールによる前記トレジャーキーワードの抽出を補助することを特徴とする請求項7に記載のトレジャーキーワードの抽出及びトレジャーキーワードネットを形成するシステム。
【請求項12】
前記ワードネットリンクモジュールは自己複製機能をさらに含み、前記トレジャーキーワードに基づいて前記ワードネットを形成する際に、前記自己複製機能は前記ワードネットデータベースの過去の前記ワードネットを抜粋し、新しく形成する前記ワードネットに適用し、且つ前記第二機械学習の結果の前記ワードウェイトを高速調整して他の前記ワードネットを形成することを特徴とする請求項7に記載のトレジャーキーワードの抽出及びトレジャーキーワードネットを形成するシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、トレジャーキーワードの抽出及びトレジャーキーワードネットを形成する方法、並びに、そのシステムに関し、換言すれば、ワード分析及び機械学習を利用し、特にワードを抽出し、大量のワードをリンクすることでトレジャーキーワードネットを形成する方法及びその方法を実施するシステムに関する。
【背景技術】
【0002】
現在ネットの世界には大量の情報テキスト、文章、短文等が溢れている。このような大量の情報コンテンツは、ネットワークのユーザー側、ネットワークデータ処理側、ネットワーク広告提供側等にとって大量の情報の中から有用な情報を精確に取得する或いはその有用な情報を応用することが難しかった。よって、ネットワークの情報の中から有用な情報を高速且つ精確に取得することは、ネットワークの発展にとって非常に重要であった。このため、多くの従来技術には関連する記載があり、従来の特許文献では、例えば、下記特許文献1の「自己学習型のワード分割方法、デバイス、コンピューター機器、記憶媒体」と特許文献2の「主題発見方法、システム、電子機器」という記載があり、その技術的特徴は、ユーザーがキーワードを使用して検索する際に、検索するホットワードまたはテキスト履歴に対しワード頻度の統計をとってホットワードを判断する。これ以外にも、特許文献3の「テキスト抽出システムとツール」、特許文献4の「ホットワード抽出方法とシステム」、特許文献5の「Hotspot aggregation method and device」、特許文献6の「Ecosystem method of aggregation and search and related techniques」、特許文献7の「トレジャーキーワード探索システム」、特許文献8の「情報収集装置、情報収集方法、及び情報収集プログラム」という記載がある。
【先行技術文献】
【特許文献】
【0003】
【文献】中国特許出願公開第111488736号明細書
【文献】中国特許出願公開第111125484号明細書
【文献】中国特許出願公開第106055545号明細書
【文献】中国特許出願公開第107423444号明細書
【文献】米国特許出願公開第2015/0341771号明細書
【文献】米国特許出願公開第2014/0122493号明細書
【文献】特開2020-181463号公報
【文献】特開2019-003406号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上述のように、ユーザー側がテキスト中から有効な(或いは「有価値」、「キー」と定義する)ワードやフレーズ等を抜粋する方法は多く存在し、特に「キーワード」と定義するものが、前記技術が探求する軸となっている。例えば、キーワード出現頻度、ワード分割分析方法、ワード使用頻度等である。しかしながら、機械学習のみを利用してキーワードの抜粋を行えば、キーワードではなくても有用なワードを見落としてしまう可能性がある。また、キーワードを抜粋する過程で容易に人為的に操作しやすく、システムの判断結果が歪められてしまうこともあった。例えば、流行語、ダブルミーニング、中英混成語等である。さらに、テキスト中のキーワードを抜粋するのみで、システマティックに整理しないのであれば、前記キーワードを応用する際に、他のキーワードと有効的に組み合わせて使用できなくなることもあった。
【0005】
そこで、本発明者は従来のキーワードの収集及び使用に存在する前述の欠点を鑑み、鋭意検討を重ねた結果、合理的設計で上記の課題を効果的に改善する本発明の提案に至った。
【0006】
本発明は前記技術的課題に鑑みて開発されたものであり、トレジャーキーワードの抽出及びトレジャーキーワードネットを形成する方法、並びに、そのシステムを提供することを目的とする。つまり、ネットワーク上にある各種テキストを自主的に収集し、機械学習によりトレジャーキーワードを抽出し、各トレジャーキーワードをリンクすることで「トレジャーキーワードネット」を形成する。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明のある態様のトレジャーキーワードの抽出及びトレジャーキーワードネットを形成する方法、並びに、そのシステムは、主に各種ネット記事、EDMテキスト(電子メール広告)、商品説明文等の文字コンテンツを有しているテキストに対し、サーバーにより能動的或いは自主的に収集する方式で各種テキストを収集し、且つ機械学習により大量のテキストをラーニングし、各テキスト内のトレジャーキーワードまたは単語を抽出する。トレジャーキーワードはキーワードに限定せず、サーバーは各種状況に応じて(例えば、流行語、ダブルミーニング、中英混成語等)抽出を行うと共に応用価値のある「トレジャーキーワード」を保存する。トレジャーキーワードの抽出完了後に、サーバーはトレジャーキーワードに対するラーニングを行い、各トレジャーキーワードの閲覧数、クリック数、接触数、他サイト関連程度、専門知識変換、確率空間、空間分布等の各種数値及びその変換、及び他のトレジャーキーワードとのウェイトリンク等の数値に基づいて、他のトレジャーキーワードとのウェイトリンクを行う。前記ウェイトリンクは各トレジャーキーワード間の関連性を示し、時間性及び地域性の違いに基づいて異なる調整を行う。これにより、サーバーはさらにリンクを完了した複数組のトレジャーキーワードを統合し、綿密な「トレジャーキーワードネット」を形成する。後続のユーザーがトレジャーキーワードを使用する場合、サーバーを介してデータベースから関連するトレジャーキーワードを抜粋すると、同時にトレジャーキーワードのトレジャーキーワードネットも一緒に取り出される。また、トレジャーキーワードが異なる分野や異なる方面に分かれて属している場合、サーバーは自己複製学習により、トレジャーキーワードネットを分野の違いに基づいて直接ウェイト調整を行い、トレジャーキーワードに対して再度ウェイトリンクを行う必要がなく、ユーザーが後続の各種応用及び処理を行いやすくなる。
【0008】
本発明の他の特徴については、本明細書及び添付図面の記載により明らかにする。
【図面の簡単な説明】
【0009】
図1】本発明を示す概略構成図である。
図2】本発明の一実施形態を示すフローチャートである。
図3】本発明の一実施形態を示す概略図(1)である。
図4】本発明の一実施形態を示す概略図(2)である。
図5】本発明の一実施形態を示す概略図(3)である。
図6】本発明の一実施形態を示す概略図(4)である。
図7】本発明の一実施形態を示す概略図(5)である。
図8】本発明の一実施形態を示す概略図(6)である。
図9】本発明の一実施形態を示す概略図(7)である。
図10】本発明の一実施形態を示す概略図(8)である。
図11】本発明の一実施形態を示す概略図(9)である。
図12】本発明の他の実施形態を示す概略図である。
図13】本発明のさらなる他の実施形態を示す概略図である。
図14】本発明のさらなる他の実施形態を示す概略図である。
【発明を実施するための形態】
【0010】
以下、本発明の実施の形態について、図面を参照して詳細に説明する。なお、本発明は以下の例に限定されるものではなく、本発明の要旨を逸脱しない範囲で、任意に変更可能であることは言うまでもない。
【0011】
本発明に係るトレジャーキーワードの抽出及びトレジャーキーワードネットを形成するシステム1は、サーバー11及び第三者検索システム12を備え(図1参照)、以下では各構成部材の機能について例を示しながら説明する。
(1)サーバー11は主に第三者検索システム12との情報リンクを完成し、且つサーバー11は第三者検索システム12により必要なラーニングサンプルを獲得し、ラーニングしたサンプルに基づいてモデルを構築する。このモデルは主に機械学習によりテキストをラーニングし、且つテキスト中からトレジャーキーワードを抽出し、抽出した複数のトレジャーキーワードをさらにリンクしてトレジャーキーワードネットを形成する。
(2)第三者検索システム12は検索エンジンデータベース、広告データベース、或いはテキストデータベースであるが、サーバー11が必要なラーニングサンプルを獲得可能にするシステムであれば全て実施可能である。
(3)サーバー11は主にデータ処理モジュール111を備え、データストレージモジュール112、データ収集モジュール113、ワード抽出モジュール114、及びワードネットリンクモジュール115とそれぞれ情報リンクを形成し、データ処理モジュール111はサーバー11を作動させ、且つこれと情報リンクしている各モジュールを作動するように駆動するために用いている。データ処理モジュール111は論理演算を行い、演算結果を一時保存し、命令実行位置を保存する等の機能を備え、例えば、中央処理装置(Central Processing Unit、CPU)である。
(4)データストレージモジュール112は電子データを保存し、例えば、SSD(Solid State Disk or Solid State Drive)、HDD(Hard Disk Drive)、SRAM(Static Random Access Memory)、DRAM(Random Access Memory)等である。データストレージモジュール112は学習データベース1121、トレジャーキーワードデータベース1122、及びワードネットデータベース1123を主に保存している。学習データベース1121は、データ収集モジュール113が収集したテキスト情報及びテキスト関連情報を主に保存している。トレジャーキーワードデータベース1122はワード抽出モジュール114が抽出したトレジャーキーワードを主に保存している。ワードネットデータベース1123はワードネットリンクモジュール115がリンクし統合したワードネットを主に保存している。
(5)データ収集モジュール113は主に第三者検索システムによりテキスト情報及びテキスト関連情報を獲得する。データ収集モジュール113はブラウザによる検索、データキャプチャ、Webクローラー(Web Crawler)等の方式またはそれらの組み合わせを主に使用し、テキスト情報及びテキスト関連情報を獲得する。また、テキスト情報とはネット記事、電子メール広告テキスト、商品説明文、公開文献、ショートテキスト等の文字テキストまたはそれらの組み合わせを指す。また、テキスト情報は単一の自然言語或いは単一の自然語族のみならず、多種類の自然言語または自然言語の混成も含む。テキスト関連情報はテキスト使用回数、テキストリンク回数、テキスト引用回数、テキストクリック回数、テキスト閲覧回数、テキスト内の文字クリック数、及び前記テキスト内のワード出現頻度、使用頻度、接触頻度、クリック頻度、共通ワード出現頻度、他サイト関連程度、専門知識変換、確率空間(Probability Space)、シャノンエントロピー(Shannon Entropy)、空間分布(Spatial Distribution)等の各種数値及びその変換、並びに他のトレジャーキーワードとウェイトリンクしたテキスト、或いはテキスト内のワードの関連データのうちの何れか1種類またはそれらの組み合わせである。前記他サイト関連程度は、外部からクロールしたデータの分析演算を行い、且つそれに関連するワードを個別に計算し、外部からクロールしたデータテキストに点数を与える。前記専門知識変換は従来の企業内の専門ルール及び従来の知識を形式知(Explicit Knowledge)のような量子化数値に変換する。
(6)ワード抽出モジュール114はテキスト情報に対しラーニングを行い、トレジャーキーワードを抽出する。ラーニングは教師なし学習法(Unsupervised learning)、自己教師あり学習法(Self-Supervised Learning)、またはヒューリスティックアルゴリズム(Heuristic Algorithms)等を主に使用して実行するラーニングの機械学習(Machine Learning)である。ワード抽出モジュール114はデータ収集モジュール113により自主的に収集し、或いは学習データベース1121に保存しているテキスト情報及びテキスト関連情報をラーニングデータとし、トレジャーキーワードを抽出すると共にトレジャーキーワードデータベース1122に保存し、或いは後続のワードネットリンクモジュール115に伝送する。また、ワード抽出モジュール114が抽出するトレジャーキーワードは単一の言語や語族に限定せず、異なる言語や語族等の同じまたは相似するワードも抽出する。
(7)ワードネットリンクモジュール115は、ワード抽出モジュール114が伝送した、或いはトレジャーキーワードデータベース1122に保存しているトレジャーキーワード及びテキスト関連情報のラーニングを行い、トレジャーキーワード及び他のトレジャーキーワードを付与し、ワードウェイトに基づいてリンクを生成する。ラーニングには教師なし学習(Unsupervised learning)、自己教師あり学習(Self-Supervised Learning)、またはヒューリスティックアルゴリズム(Heuristic Algorithms)等を主に使用してラーニングを行う機械学習(Machine Learning)であるが、これらに限られない。また、トレジャーキーワードは他の複数のトレジャーキーワードとのワードウェイトを有し、且つリンクを生成し、他のトレジャーキーワードも後続のトレジャーキーワードとリンクさせる。これにより、ワードネットリンクモジュール115が連綿と続くトレジャーキーワードリンクによりトレジャーキーワードネットを形成し、ワードネットデータベース1123に保存する。
【0012】
次に、図1~3を参照しながら、本発明の実施形態を詳しく説明する。
<テキスト収集ステップS1>
【0013】
図3に示すように、サーバー11のデータ収集モジュール113は、インターネットを介して第三者検索システム12に接続し、第三者検索システム12によりテキスト情報D1及びテキスト情報D1と関連性があるテキスト関連情報D2を収集し、且つ各テキスト情報D1及び各テキスト関連情報D2を学習データベース1121に保存し、或いは後続のワード抽出モジュール114に直接伝送する。テキスト情報D1はネット記事、電子メール広告テキスト、商品説明文、公開文献、ショートテキスト等の文字テキストまたはそれらの組み合わせである。テキスト関連情報D2はテキスト使用回数、テキストリンク回数、テキスト引用回数、テキストクリック回数、テキスト閲覧回数、テキスト内の文字クリック数、及び前記テキスト内のワード出現頻度、使用頻度、接触頻度、クリック頻度、共通ワード出現頻度等のテキスト或いはテキスト内のワードの関連データののうちの何れか1種類またはそれらの組み合わせであるが、これらに限られない。また、サーバー11は主に第三者検索システム12により、ブラウザ検索、データキャプチャ、Webクローラー(Web Crawler)等の方式またはそれらの組み合わせを使用し、テキスト情報D1及びテキスト関連情報D2を獲得する。
<テキストラーニングステップS2>
【0014】
前項のステップを受けて、図4に示すように、ワード抽出モジュール114はテキスト情報D1及びテキスト関連情報D2を第一ラーニング情報として第一機械学習を行い、第一機械学習は教師なし学習(Unsupervised learning)、自己教師あり学習(Self-Supervised Learning)、またはヒューリスティックアルゴリズム(Heuristic Algorithms)等を主に使用してラーニングを行う機械学習(Machine Learning)である。また、ワード抽出モジュール114がラーニングしたテキスト情報D1及びテキスト関連情報D2はデータ収集モジュール113により、まず情報をデータストレージモジュール112の学習データベース1121に保存し、テキスト情報D1が充足してから或いは一定期間にラーニングを行い、時間の推移及び保存したデータ量の違いに基づいて、即時更新し、異なる方面の現実に則した結果を生成する。
<トレジャーキーワード抽出ステップS3>
【0015】
前項のステップを受けて、図5図6を併せて参照し、ワード抽出モジュール114はラーニング完了後に第一機械学習の結果に基づいて、データ収集モジュール113が収集したテキスト情報D1に対してトレジャーキーワードD3の抽出を行い、抽出したトレジャーキーワードD3をトレジャーキーワードデータベース1122に保存し、或いはトレジャーキーワードD3を後続のワードネットリンクモジュール115に伝送する。ワード抽出モジュール114はテキスト情報D1及びテキスト関連情報D2中から、トレジャーキーワードD1のテキスト使用回数、テキストリンク回数、テキスト引用回数、テキストクリック回数、テキスト閲覧回数、テキスト内の文字クリック数、及び前記テキスト内のワード出現頻度、使用頻度、接触頻度、クリック頻度、共通ワード出現頻度等のうちの1つのデータまたはそれらの組み合わせを、トレジャーキーワードD3を抽出する基準とする。例えば、ワード抽出モジュール114は第一機械学習の結果に基づいて、テキスト情報D1中の「ワードA(マスク)」という単語が10000のラーニングデータ中の7000のデータに出現し、且つ接触人数が約10万人であり、クリック人数が約7万人である等のデータに基づいて「ワードA(マスク)」をトレジャーキーワードとして抽出し、これに基づいて「ワードB(病院)」及び「ワードC(疫病)」をトレジャーキーワードD3として抽出する。以上は例示にすぎず、これに制限するわけではない。
<トレジャーキーワードラーニングステップS4>
【0016】
図7に示すように、サーバー11のワードネットリンクモジュール115はトレジャーキーワードD3及びテキスト関連情報D2を第二ラーニング情報として第二機械学習を行う。第二機械学習は教師なし学習法(Unsupervised learning)、自己教師あり学習法(Self-Supervised Learning)、またはヒューリスティックアルゴリズム(Heuristic Algorithms)等を主に使用して実行するラーニングの機械学習(Machine Learning)である。また、ワードネットリンクモジュール115はワード抽出モジュール114が抽出したトレジャーキーワードD3に基づいて、まずトレジャーキーワードデータベース1122に保存し、待価値ワードD3が充足した後にラーニングを行い、時間の推移及び保存したデータ量の増加に基づいて、即時更新し、異なる方面の現実に則した結果を生成する。
<トレジャーキーワードリンクステップS5>
【0017】
前項のステップを受けて、図8図9を併せて参照し、ワードネットリンクモジュール115は第二機械学習の完了後、第二機械学習の結果に基づいてワードウェイトD4を生成し、ワードウェイトD4に基づいてトレジャーキーワードD3を他のトレジャーキーワードD31にリンクさせる。ワードウェイトD4はトレジャーキーワードD3と他のトレジャーキーワードD31との関連度であり、これはテキスト関連情報中のトレジャーキーワードD3及び他のトレジャーキーワードD31のテキストの使用回数、テキストリンク回数、テキスト引用回数、テキストクリック回数、テキスト閲覧回数、テキスト内の文字クリック数、及び前記テキスト内のワード出現頻度、使用頻度、接触頻度、クリック頻度、共通ワード出現頻度、ラーニング使用回数、出現回数、検索回数、他サイト関連程度、専門知識変換、確率空間(Probability Space)、シャノンエントロピー(Shannon Entropy)、空間分布(Spatial Distribution)等の各種数値及びその変換の組み合わせに基づくが、これらに限られない。また、ワードウェイトD4のデータはワードネットリンクモジュール115によるラーニングが完了した後に提供し、時間の違い、空間の違い、所属する分野の違いに応じて調整する。例えば、ワードネットリンクモジュール115は、ネットニュース中の「トレジャーキーワードA(マスク)」及び他の「トレジャーキーワードB(病院)」の共通出現回数、共通使用頻度、検索回数等の第二機械学習の結果に基づいて、「トレジャーキーワードA(マスク)」及び「トレジャーキーワードB(病院)」の関連度(ワードウェイト数値D4)0.8を付与する。以上の実例は例示にすぎず、これに限定しない。また、トレジャーキーワードD3は他のトレジャーキーワードD31とのリンクを生成するのみならず、他の無数のトレジャーキーワード(D32、D33…)とワードウェイトD4に基づいてリンクを生成してもよく、例えば、「トレジャーキーワードA(マスク)」は関連度0.8の「トレジャーキーワードB(病院)」とリンクするのみならず、関連度0.5の「トレジャーキーワードC(生活)」とさらにリンクしてもよい。以上の実例は例示にすぎず、これに限定しない。
<ワードネット形成ステップS6>
【0018】
前項のステップを受けて、トレジャーキーワードリンクステップS5は、図10図11を併せて参照し、ワードネットリンクモジュール115がワードウェイトD4に基づいてリンクが完了した複数組のトレジャーキーワードD3、D31、D32…からワードネットD5を形成し、且つワードネットD5をワードネットデータベース1123に保する。
【0019】
前項のステップを受けて、ワードネット形成ステップS6は、図12に示すように、ワードネット形成ステップS6の後に続けて抜粋使用ステップS7を実行する。ユーザーはトレジャーキーワードD3を使用する場合、ユーザー情報装置によりサーバー11からトレジャーキーワードD3を抜粋して使用し、且つトレジャーキーワードD3は複数組の他のトレジャーキーワードD31、D32…とワードネットD5としてリンクする。これにより、ユーザー情報装置は抜粋したトレジャーキーワードD3を取得するのみならず、残りの関連するトレジャーキーワードD3を抜粋する。例えば、ユーザーはパソコンやモバイル情報装置を使用し、サーバー11を介してワード「マスク」を入力すると共に検索し、サーバー11は検索されたワード「マスク」に関連する残りのワードを一緒に抜粋し、例えば、サーバー11内に保存したキーワード「マスク」との関連度が0.8である「病院」、関連度が0.5である「生活」、関連度が0.3である「旅行」等を一緒に抜粋する。また、サーバー11は「病院」、「生活」、「旅行」に関連するワードネットD5を抜粋するが、以上は例示にすぎず、これに限定しない。
【0020】
図13に示すように、サーバー11のデータ処理モジュール111はワード分割補助モジュール116と情報リンクし、ワード分割補助モジュール116はワード抽出モジュール114を補助し、ワード分割動作によりワード抽出モジュール114のトレジャーキーワードD3の学習及び抽出を補助する。ワード分割動作は主に自然言語の名詞、形容詞、副詞、主語等の品詞に基づいてワード分割を行い、且つ主に自然分詞のない中国語や日本語等の語族に対してワード分割補助を行う。例えば、ワード抽出モジュール114は「今日、台北国際家具展に参加する」というテキストに対しトレジャーキーワードD3の学習及び抽出を行い、ワード分割補助モジュール116が「今日」、「参加」、「台北」、「国際」、「家具展」等の品詞に分割し、ワード抽出モジュール114により後続のトレジャーキーワードD3の学習及び抽出を行う。以上は例示にすぎず、これに限定しない。
【0021】
図14に示すように、ワードネットリンクモジュール115は自己複製学習機能を備え、ワードネットリンクモジュール115は、トレジャーキーワードD3をワードネットD5として統合し、過去すでに統合したワードネットD5に基づいて、過去のワードネットD5のトレジャーキーワードD3との間のワードウェイトD4を複製し、新たに統合するワードネットD5に適用する。或いは、トレジャーキーワードD3をラーニングする分野、期間、ラーニングサンプル数の違いに応じて過去のワードネットD5を適用し、ワードウェイトD4を高速調整する方式により他のワードネットD5を形成する。例えば、図14の左側のワードネットD5では、「トレジャーキーワードA(マスク)」が過去に関連度0.8であった「トレジャーキーワードB(病院)」とリンクし、関連度0.5であった「トレジャーキーワードC(生活)」とリンクしている。しかしながら、大規模なインフルエンザが発生した年はテキストが大量にマスク及び生活に言及する等のラーニングした時間の違いに応じて、或いは、サーバー11が検索したテキストが医療分野及び飲食分野で使用する「トレジャーキーワードA(マスク)」であるという状況の違いに応じて、ワードネットリンクモジュール115は過去のワードネットD5を適用し、「トレジャーキーワードA(マスク)」を関連度0.3の「トレジャーキーワードB(病院)」とリンクさせ、ワードウェイト0.9の「トレジャーキーワードC(生活)」とリンクさせる(図14の右側のワードネットD5参照)。これにより、ワードネットリンクモジュール115が「トレジャーキーワードA(マスク)」が「トレジャーキーワードB(病院)」、「トレジャーキーワードC(生活)」等とリンクするか否かを再度判断する必要がなくなる。以上は例示にすぎず、これに限定しない。
【0022】
以上を総合すると、トレジャーキーワードの抽出及びトレジャーキーワードネットを形成する方法、並びそのシステムは、システムがテキストを大量に収集することを主とし、機械学習によりトレジャーキーワードを抜粋し、トレジャーキーワードリンクからワードネットを形成して後続の使用を便利にする。これにより、本発明を実施すると、テキストを自主的に収集し、機械学習によりトレジャーキーワードを抽出し、トレジャーキーワードリンクからワードネットを形成する方法及びそのシステムという目的を確実に達成させる。
【0023】
本発明は、その精神又は主な特徴から逸脱することなく、他のいろいろな形態で実施することができる。そのため、上述の実施形態はあらゆる点で単なる例示に過ぎず、限定的に解釈してはならない。本発明の範囲は特許請求の範囲によって示すものであって、明細書本文には何ら拘束されない。更に、特許請求の範囲の均等範囲に属する変形や変更は、すべて本発明の範囲内のものである。
【符号の説明】
【0024】
1 トレジャーキーワードの抽出及びトレジャーキーワードネットを形成するシステム
11 サーバー
12 第三者検索システム
111 データ処理モジュール
112 データストレージモジュール
1121 学習データベース
1122 トレジャーキーワードデータベース
1123 ワードネットデータベース
113 データ収集モジュール
114 ワード抽出モジュール
115 ワードネットリンクモジュール
116 ワード分割補助モジュール
D1 テキスト情報
D2 テキスト関連情報
D3 トレジャーキーワード
D4 ワードウェイト
D5 ワードネット
S1 テキスト収集ステップ
S2 テキストラーニングステップ
S3 トレジャーキーワード抽出ステップ
S4 トレジャーキーワードラーニングステップ
S5 トレジャーキーワードリンクステップ
S6 ワードネット形成ステップ
S7 抜粋使用ステップ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14