(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-02-08
(54)【発明の名称】台風事件情報収束方法
(51)【国際特許分類】
G06F 16/35 20190101AFI20230201BHJP
【FI】
G06F16/35
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022505249
(86)(22)【出願日】2021-01-20
(85)【翻訳文提出日】2022-01-24
(86)【国際出願番号】 CN2021072796
(87)【国際公開番号】W WO2022099927
(87)【国際公開日】2022-05-19
(31)【優先権主張番号】202011245204.3
(32)【優先日】2020-11-10
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】508135448
【氏名又は名称】南京師範大学
(74)【代理人】
【識別番号】110002262
【氏名又は名称】TRY国際弁理士法人
(72)【発明者】
【氏名】張 雪英
(72)【発明者】
【氏名】懐 安
(72)【発明者】
【氏名】叶 鵬
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA03
5B175FB03
(57)【要約】
【課題】本発明に係る台風事件情報の収束方法は、ソーシャルメディアにおいて由来がばらばらである台風事件情報について選別、組織及び整合を行うことにより、台風事件についてその過程が進行する段階や態勢を探すことに規則化の情報基礎を提供する。
【解決手段】本発明に係る台風事件情報収束方法は、ソーシャルメディアにおける台風事件と関連するメッセージ文書を集めて、台風事件情報を抽出しながら、構造化の情報タプルフォーマットに転換する第一ステップと、多特徴の類似度に基づいて対象情報を収束する第二ステップと、時空特徴に基づいて状態情報を収束する第三ステップと、状態の過程情報を収束し、対象情報を収束した結果から、時間と位置範囲の要求を満たす時空ノード情報を選別し、これらの時空ノードについてそれぞれ状態情報を収束しながら、複数の状態情報の収束結果をソートして、動的特徴が現れる過程情報の収束結果を形成する、第四ステップを主に含む。
【特許請求の範囲】
【請求項1】
ソーシャルメディアにおける台風事件と関連するメッセージ文書を集めて、台風事件情報を抽出しながら、構造化の情報タプルフォーマットに転換する第一ステップと、
多特徴の類似度に基づく対象情報収束というステップであって、対象名称間の類似度によって同一の対象の情報タプルに該当するかどうかを判断し、同一の対象を表現する情報タプルを収束することが必要である第二ステップと、
時空特徴に基づく状態情報収束というステップであって、対象情報を収束した結果から単一の時間と位置条件の要求を満たす属性値と行為値を選別しており、時間情報、位置情報及び選別された属性値と行為値は、共に、特定の時空状態での対象情報を収束した結果を構成する、第三ステップと、
状態に基づく過程情報収束というステップであって、対象情報を収束した結果から、時間と位置範囲の要求を満たす時空ノード情報を選別し、これらの時空ノードについてそれぞれ、状態情報を収束しながら、複数の状態情報を収束した結果をソートして、動的特徴が現れる過程情報の収束結果を形成する、第四ステップを主に含む、ことを特徴とする台風事件情報収束方法。
【請求項2】
前記第一ステップでは、前記台風事件情報には、対象名称、時間情報、位置情報、属性情報及び行為情報が含まれている、ことを特徴とする請求項1に記載の台風事件情報収束方法。
【請求項3】
前記第二ステップでは、同一の対象を表現する異なる情報タプルについて、同じ類別の属性項目と行為項目をさらに収束することが必要である、ことを特徴とする請求項1に記載の台風事件情報収束方法。
【請求項4】
前記第一ステップでは、台風事件情報を抽出することには、情報要素の識別と情報要素の関連付けという二つの部分が少なくとも含まれており、
情報要素の識別は、台風事件における構造対象を特定し分類体系を構築し、ソーシャルメディア文書から、異なる類別対象を表現する名称と特徴情報を抽出し、ただし、特徴情報に、時間、位置、属性及び行為を含み、属性情報は、さらに、属性の類別を示す属性項目、及び、類別属性の有するデータ又はデータ量を示す属性値に分けられてもよく、行為情報は、属性情報と同様であり、
情報要素の関連付けは、同一のソーシャルメディア文書において、特徴情報についてその表れる対象と名称を関連付け、On=<T、L、A、B>というフォーマットである情報タプルを形成し、ただし、Onは対象名称、Tは時間情報、Lは位置情報、Aは属性情報、Bは行為情報である、ことを特徴とする請求項1に記載の台風事件情報収束方法。
【請求項5】
前記第二ステップでは、単語の埋め込みの類似度を用いて、対象名称、属性項目及び行為項目間の類似性を判断し、
全てのソーシャルメディア文書のデータを切り出すステップS1と、
取り出した結果を訓練用データセットとして、Skip-gramモデルを用いて、単語の埋め込みを訓練するステップS2と、
対象名称をOn1、On2、属性項目をA1、A2、行為項目をB1、B2とすると、訓練された単語の埋め込みモデルに基づいて、それぞれ、On1、On2、A1、A2、B1、B2について単語の埋め込みE(On1)、E(On2)、E(A1)、E(A2)、E(B1)、E(B2)を取得するステップS3と、
コサイン類似度を用いて、それぞれ、E(On1)与E(On2)、E(A1)とE(A2)、E(B1)とE(B2)間の類似度値simn、sima及びsimbを算出し、simn≧εn、sima≧εa、simb≧εb(ただし、εn、εa、εbは閾値)である場合に、表明On1とOn2、A1とA2、B1とB2が同じの対象名称、属性項目及び行為項目であり、情報を対応的に収束することが可能であるということが分かる、ステップS4、を含む、ことを特徴とする請求項1に記載の台風事件情報収束方法。
【請求項6】
前記第四ステップでは、複数の状態情報を収束した結果をソートすることは、
状態の時間情報に基づいて、正順又は逆順という方式に従ってソートするステップA1と、
状態の位置情報に基づいて、寸法が大きいから或いは小さいからという方式に従ってソートするステップA2と、
状態の属性情報と行為情報に基づいて、特徴値の大きさ又は等階級に従ってソートしてもよいし、利用者の収束条件との類似度に従ってソートしてもよいステップA3を含む、ことを特徴とする請求項1に記載の台風事件情報収束方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ビッグデータマイニングの分野に関し、特に、台風事件情報収束方法に関する。
【背景技術】
【0002】
台風は、自然生態、社会経済、ひいては、人間の持続可能な発展に、非常に悪い破壊的影響を与えてしまうことから、台風事件が進行する過程についての関連情報をタイムリーで取得することは、災害のインシデントレスポンス用の重要な根拠や参照となっている。現在、ビッグデータによる環境では、ソーシャルメディア(social media)は、効率が高い更新の頻度、数多くの源からの広がりルート及び深い関与程度により、災害を管理する際に、大きな適用の見通しが現れると共に、段々と、台風事件情報を取得する新たな手段となる。しかしながら、ソーシャルメディアそのものは、文書が短いという特徴を有する以外、情報が非常に断片化し、表現のフォーマットがばらばらであり、情報の粒度が多様化するなどの特徴も有する。乱れ散るようなソーシャルメディア情報は、台風事件の進行する全貌を示すことが難しいのみならず、利用者が台風事件過程を効果的に予測することを妨げてしまう。
【0003】
情報収束方法は、有効な情報資源を利用者が取得するニーズと利便性を満たすように、情報資源を効果的に表現することにより、情報構造の合理性を向上させると共にアクセス効率を最適化させる。災害事件向けの情報収束方式は、主に、統計による方法、主題モデルによる方法及び知識要素による方法が含まれる。(1)統計による方法は、単語頻度、TF-IDF、N-gram、相互情報量などの統計特徴を用いて、情報セルにおけるキーワードの重みを算出し、そのうち最も代表的なキーワードを選び、それに基づいて収束を行うものである。当該方法は、簡単で主観的に分かりやすいが、キーワードを選別する精度が高くなく、一般的に補助情報と共に二回目の選別が必要となる。(2)確率主題モデルは、各ドキュメントは全ての主題ワードに潜在的な分布が存在するとして、主題ワードの確率分布を用いて、情報セルにおける主題を表現するものである。しかしながら、当該方法の效果は、主題の数により定められており、現実におけるソーシャルメディアに、異なる主題が常に動的に変わっている。ソーシャルメディアにおける同一のメッセージには複数の主題による内容を含むことがあり、これにより、主題ワードを解釈する範囲にも大きな争いが存在する。(3)知識要素は、異なる概念間の倫理関係及び階級構造を定義するものであり、知識要素における良く見られる形態に、主体、語義のネットワークや関連データなどが存在する。知識要素による収束は、知識要素理論を基に、災害事件の構成を表現する概念モデルを構築することにより、モデルにおいて定義された語義の関係に基づいて、情報を再度ソートして構成し、情報の特徴及びその関連が表れるようにする。
【発明の概要】
【発明が解決しようとする課題】
【0004】
現在、統計と主題モデルによる方法は、災害事件情報収束に最もよく用いられる形態である。しかしながら、この二つの方法により収束する結果は、その情報の粒度が大きく、通常に、災害事件と関連する各種の情報を集めたものに過ぎない。一方、知識要素による収束方法は、災害分野における概念の体系に基づいて、原始の資源を分解して再構成し、一定の知識構造を有する深い収束結果を取得することができる。しかし、現在、台風事件知識のモデリングは、台風事件における各概念の階級構造と関連関係がよく注目されるが、台風事件の動的過程を記載して表現することがよく見落とされる。大量かつ類別が複雑であるソーシャルメディアの資源が散在する状況に鑑み、情報収束方法を作成し、事件の進行する過程に基づいて台風事件情報をソートして整合することが必要である。
【課題を解決するための手段】
【0005】
本発明は、ソーシャルメディアにおける由来が散在する台風事件情報について、選別、組織及び整合を行うことにより、台風事件について過程の発展段階や態勢を調べることに、規則化する情報の基礎を築くと共に、インシデントレスポンスを管理する際において、ソーシャルメディア資源によるサービスのレベルを向上させることに役立つ、台風事件情報収束方法を提供することを目的とする。
【0006】
上記の目的を達成するために、本発明は、以下の技術的手段を提供する。
台風事件情報収束方法は、
ソーシャルメディアにおける台風事件と関連するメッセージ文書を集めて、台風事件情報を抽出しながら、構造化の情報タプルのフォーマットに転換する第一ステップと、
【0007】
多特徴の類似度に基づく対象情報収束というステップであって、対象名称間の類似度によって、同一の対象の情報タプルに該当するかどうかを判断し、同一の対象を表現する情報タプルを収束することが必要である第二ステップと、
【0008】
時空特徴に基づく状態情報収束というステップであって、対象情報を収束した結果から、単一の時間と位置条件の要求を満たす属性値と行為値を選別しており、時間情報、位置情報及び選別された属性値と行為値は、共に、特定の時空状態で対象情報を収束した結果を構成する第三ステップと、
【0009】
状態に基づく過程情報収束というステップであって、対象情報を収束した結果から、時間と位置範囲の要求を満たす時空ノード情報を選別し、これらの時空ノードについて、それぞれ、状態情報を収束しながら、複数の状態情報を収束した結果をソートして、動的特徴が表れる過程情報の収束結果を形成する、第四ステップを主に含む。
【0010】
好ましくは、第一ステップでは、前記台風事件情報には、対象名称、時間情報、位置情報、属性情報及び行為情報が含まれている。
【0011】
好ましくは、第二ステップでは、同一の対象を表現する異なる情報タプルについて、同じ類別の属性項目と行為項目をさらに収束することが必要である。
【0012】
好ましくは、第一ステップでは、台風事件情報を抽出することには、情報要素の識別と情報要素の関連付けという二つの部分が少なくとも含まれている。
情報要素の識別は、台風事件における構成対象を特定し、分類体系を構築し、ソーシャルメディア文書から、異なる類別対象を表現する名称と特徴情報を抽出し、ただし、特徴情報に時間、位置、属性及び行為を含む。属性情報は、さらに、属性の類別を示す属性項目、及び、当該類別属性の有するデータ又はデータ量を示す属性値に分けられてもよい。行為情報は、属性情報と同様である。
【0013】
情報要素の関連付けは、同一のソーシャルメディア文書において、特徴情報について、その表れる対象と名称を関連付け、On=<T、L、A、B>というフォーマットである情報タプルを形成する。ただし、Onは対象名称、Tは時間情報、Lは位置情報、Aは属性情報、Bは行為情報である。
【0014】
好ましくは、第二ステップでは、単語の埋め込みの類似度を用いて、対象名称、属性項目及び行為項目間の類似性を判断し、以下のステップを含む。
ステップS1は、全てのソーシャルメディア文書のデータを切り出す。
【0015】
ステップS2は、取り出した結果を訓練用データセットとして、Skip-gramモデルを用いて、単語の埋め込みを訓練する。
【0016】
ステップS3は、対象名称をOn1、On2、属性項目をA1、A2、行為項目をB1、B2とすると、訓練された単語の埋め込みモデルに基づいて、それぞれ、On1、On2、A1、A2、B1、B2について、単語の埋め込みE(On1)、E(On2)、E(A1)、E(A2)、E(B1)、E(B2)を取得する。
【0017】
ステップS4は、コサイン類似度を用いて、それぞれ、E(On1)とE(On2)、E(A1)とE(A2)、E(B1)与E(B2)との間の類似度の値simn、sima及びsimbを算出する。simn≧εn、sima≧εa、simb≧εb(εn、εa、εbは閾値である)である場合は、On1とOn2、A1とA2、B1とB2が同じの対象名称、属性項目及び行為項目であり、情報を対応的に収束することが可能であるということが分かる。
【0018】
好ましくは、第四ステップでは、複数の状態情報を収束した結果をソートすることは、以下のステップを含む。
ステップA1は、状態の時間情報に基づいて、正順又は逆順という方式に従ってソートする。
【0019】
ステップA2は、状態の位置情報に基づいて、寸法が大きいから或いは小さいからという方式に従ってソートする。
【0020】
ステップA3は、状態の属性情報と行為情報に基づいて、特徴値の大きさ又は階級に基づいてソートしてもよいし、利用者の収束条件との類似度に基づいてソートしてもよい。
【発明の効果】
【0021】
以上の技術的手段を用いて、以下の技術的効果を得ることができる。
本発明は、ソーシャルメディアに基づく台風事件過程情報収束方法を構築しており、ソーシャルメディア文書における台風事件と関連する異なる対象情報タプルを識別する上で、それぞれ、「対象-状態-過程」から、多等級の収束モードを論述する。まず、対象層において多次元特徴の類似度に基づいて、同一の対象における散在する各特徴情報を収束し、次に、状態層において特定する時空特徴を満たす対象の属性情報と行為情報を収束して、情報の時空粒度を統一にし、最後、過程層において、複数の状態を時空の関係でソートして、情報を規則化にして構造した效果を達成する。このような収束モードは、ソーシャルメディアに、情報が分散化し、粒度が大きく、規則化でないという表現の特徴に応じる以外、台風事件が動的に進行する特徴を十分に考えて、いずれかの時空ノードにおいて、異なる対象の特徴情報を取得できると共に、台風事件の過程特徴を表す規則化の情報を形成する。実際応用の場面では、政府機関により、インシデントレスポンスのタスクを行うというニーズと社会中の公衆が事理を認知するというニーズを満たす際に、重要な役割を果たすことができる。
【図面の簡単な説明】
【0022】
【
図1】多等級の台風事件の過程情報の収束モードである。
【
図2】ソーシャルメディアに作成された時空語義手段である。
【
図3】ソーシャルメディアに台風事件情報を抽出した結果の例示である。
【
図4】対象情報を収束した結果について組織構成及び例示である。
【
図5】状態情報を収束した結果について組織構成及び例示である。
【
図7】過程情報を収束した結果について組織構成及び例示である。
【発明を実施するための形態】
【0023】
以下、図面と具体的な実施例を参照しながら、本発明を詳しく説明する。
実施例
本発明は、ソーシャルメディアに基づく台風事件の過程情報を収束する方法を開示しており、以下のステップを含む。
第一ステップは、ソーシャルメディアにおける台風事件と関連するメッセージ文書を集めて、対象名称、時間情報、位置情報、属性情報及び行為情報を含む台風事件情報を抽出しながら構造化の情報タプルのフォーマットに転換する。
【0024】
第二ステップは、多特徴の類似度に基づく対象情報収束である。対象名称間の類似度によって同一の対象の情報タプルに該当するかどうかを判断し、同一の対象を表現する情報タプルを収束することが必要である。同一の対象を表現する異なる情報タプルについては、その同じ類別である属性項目と行為項目をさらに収束することが必要である。
【0025】
第三ステップは、時空特徴に基づく状態情報収束である。対象情報を収束した結果から単一の時間と位置条件の要求を満たす属性値と行為値を選別しており、時間情報、位置情報及び選別された属性値と行為値は、共に、特定の時空状態で対象情報を収束した結果を構成する。
【0026】
第四ステップは、状態に基づく過程情報収束である。対象情報を収束した結果から、時間と位置範囲の要求を満たす時空ノード情報を選別し、これらの時空ノードについてそれぞれ状態情報を収束しながら、複数の状態を収束した結果をソートして、動的特徴が表れる過程情報の収束結果を形成する。
【0027】
好ましい技術的手段としては、第一ステップにおいて台風事件情報を抽出することは、以下のことを含む。
1、台風事件における構成対象を特定し、分類体系を作成し、ソーシャルメディア文書から、異なる類別対象を表現する名称と特徴情報を抽出し、ただし、特徴情報に時間、位置、属性及び行為を含む。属性情報は、さらに、属性の類別を示す属性項目、及び、当該類別属性の有するデータ又はデータ量を示す属性値に分けられてもよい。行為情報は、属性情報と同様である。
【0028】
2、同一のソーシャルメディア文書において、特徴情報について、その表れる対象と名称を関連付け、On=<T、L、A、B>というフォーマットである情報タプルを形成する。ただし、Onは対象名称、Tは時間情報、Lは位置情報、Aは属性情報、Bは行為情報である。
【0029】
好ましい技術的手段としては、台風事件における構成対象は、主体対象と客体対象に分けられる。サイクロンは、災害をもたらす要素として事件における主体対象に該当しており、サイクロンに破壊され、作用され、又は、影響された他の対象は、いずれも、事件における客体対象に該当する。客体対象における異なる性質は、人物、インフラストラクチャー、交通設施や社会活動などの類別を主に含むように、それぞれ分類されてもよい。説明すべきことは、異なる対象について、関連分野における分類方法を参照して、実際のニーズに応じて、より詳しい類別で分けてもよい(表1)。
【0030】
表1 台風事件中主要の対象類別
対象類別 対象名称
主体対象 サイクロン
客体対象 人物 人類
事物 インフラストラクチャー 建物/外壁の装飾/看板/…
通信設施
電力供給設施
水供給設施
ガス供給設施
都市緑化/樹木/庭園/…
交通設施 一般道路/橋/トンネル/…
高速道路
飛行機
汽車/動力車/高速鉄道
自動車
汽船/フェリー
社会活動 商業地区/ショッピングモール
工場
幼稚園/小学校/高等学校/大学
観光地/生態園/遊園地/…
…
【0031】
好ましい技術的手段としては、ソーシャルメディア文書における異なる類別対象を表現する名称と特徴情報を抽出することは、以下のことを含む。
ステップS1は、ソーシャルメディア文書における台風事件の情報を表記するコーパスを構築して、表記された内容に、異なる類別対象を表現する名称、時間、位置、属性及び行為情報要素を含む。
【0032】
ステップS2は、表記コーパスに従って、条件付き確率場のモデルに基づいて、時間情報抽出モデルを構築してソーシャルメディア文書における時間情報を自動識別する。
【0033】
ステップS3は、表記コーパスに従って、ディープビリーフネットワークに基づいて、位置情報抽出モデルを構築し、ソーシャルメディア文書における位置情報を自動識別する。
【0034】
ステップS4は、表記コーパスに従って、トリガーの辞典と文法モードを含む、対象名称、属性情報及び行為情報の規則モデルを纏めて、ソーシャルメディア文書における対象名称、属性情報及び行為情報を自動識別する。
好ましい技術的手段としては、ソーシャルメディアから抽出された各情報の要素を関連付けることは、以下のステップを含む。
【0035】
ステップS1は、時空語義手段を構築する。文字、語彙、フレーズ、サブセンテンス、センテンス又は段落などは、それぞれ、文書における言語の単位であり、異なる言語の単位同士は、語義の関係により文書の基本的な構造を形成する。一部の言語の単位により、又は、異なる言語の単位を組み合わせると、完全的な語義の内包を表現でき、つまり、語義の手段を表現できる。語義手段に時間情報と空間情報を含み、語義手段に内容を論述すると、存在する時空特徴を明確に表現することから、本方法では、この語義手段を時空語義手段として定義する。
【0036】
台風事件を含んだソーシャルメディア文書を分析する。時空語義手段の分布は、大別すると、(1)同一の時間と位置しか記載しない対象情報であり、このような文書は、ソーシャルメディア文書の大部分を占めている。(2)描述了時間が同一であるが位置が異なるように記載する対象情報であり、このような文書の数が比較的少ない。(3)複数の時間と位置を挙げて比較した対象情報であり、それは、統合的報道に該当しており、このような文書の数が少ないという三つの種類に分けられる。
【0037】
時空情報を用いて、追跡文書における対象特徴の変化状況を追跡することができる。従って、本方法では、抽出された時空情報に基づいて、ソーシャルメディア文書を、異なる時空語義手段(
図2)に分ける。文書における時空情報の存在位置によって、時空語義手段の根拠を分ける。具体的に、以下のことを含む。
(1)第一種類の場合について、唯一の時間と位置の情報しか含まないことから、文書全体を一つの時空語義手段に分ける。
【0038】
(2)第二と第三の場合について、先に、時間情報に基づいて、文書を複数の時間手段に分ける。時間手段に複数の位置情報が存在する場合に、位置情報に基づいて、さらに分けを行い、分けられた時空語義手段について、時間手段における時間情報を共有する。
【0039】
ステップS2は、対象名称と特徴情報の関連規則である。ソーシャルメディア文書を複数の時空語義手段に分けることを基に、識別された対象名称及び各種類の特徴情報を異なる手段内に分布させる。従って、各情報要素がそれぞれ所属する手段により組織を構造化させることができる。各時空語義手段では、以下のステップに従って、異なる情報要素を関連づける。
【0040】
(1)特徴のトリガーワードと特徴値を関連付ける。特徴のトリガーワードと特徴値とが共に、対象の特徴情報を構成する。この場合には、属性特徴と行為特徴だけを意味しており、特徴のトリガーワードは、属性項目と行為項目を示し、特徴値は、属性値と行為値を示す。特徴のトリガーワードと特徴値を表現する際に、近接の規律に準ずるため、「特徴のトリガーワード特徴値」という構成を形成する。属性値における先の三つの語彙の単語頻度を統計することにより、特徴のトリガーワードが現れる頻度が99%よりも高い。従って、特徴値と、その位置が先に最も近接する特徴のトリガーワードとを関連付ける。
【0041】
(2)属性、行為情報及び対象名称を関連付ける。中国語の基本的な表現の習慣では、一般的に、対象名称を言及し、次に、それぞれ、対象が有する各種の特徴を論述する。従って、同一の時空語義手段に、属性情報と行為情報を、それぞれ、その位置が先に最も近接する対象名称に関連付ける。
【0042】
(3)対象名称と時間、位置情報に関連付ける。対象名称が所在する時空語義手段について、その時間情報と位置情報を、それぞれ対象名称に関連付ける。
順に関連関係を構築する対象名称と各種の特徴情報について、On=<T、L、A、B>というタプルフォーマットに従って、充填する(
図3)。説明するべきことは、一つの時空語義手段において台風事件を表現するは、一つの局面しか限定されないことがあり、対象情報タプルを構築する場合に、属性と行為のうちの一つが欠けることがある。
【0043】
好ましい技術的手段としては、第二ステップにおいて対象情報を収束することは、以下の収束を含む。
1、対象名称に基づく収束。収束条件の対象名称をNとすると、On名称とNの類似度simnを順次に判断する。simn≧εn(εnは対象の類似度の閾値)である場合には、同一の対象であると分かり、そして、同一の対象の情報タプルを合弁する。
【0044】
対象名称の類似度の大きさを判断する方法は、単語の埋め込み類似度法が採用される。単語の埋め込み類似度法は、Skip-gramモデルを用いて、単語の埋め込みモデルを訓練することを基に、まず、対象名称を一つの多次元空間のベクトルに写像し、類似度の算法により、異なるベクトルが多次元空間における方向に一致するかどうかを判断すると共に、コサイン類似度を用いて大きさを判断する。
例えば、O(台風)=<2019年8月10日1:45、浙江省温嶺市、風速、16階級、上陸>、O(熱帯サイクロン)=<2019年8月11日20:50、山東省青島市、風速、9階級、上陸>は、ソーシャルメディアから抽出された情報タプルである。収束条件の対象名称を「台風」とすると、それぞれ、情報タプルにおける対象名称「台風」及び「熱帯サイクロン」について類似度を判断し、その語義が共に、サイクロンそのものを表現するものであると、この二つの項目情報タプルを収束結果とする。
【0045】
2、対象特徴を結合する収束。同一の対象の情報タプルを収束する場合には、多項目に、類別が同じである属性と行為の特徴情報が現れることになり、そして、特定の特徴に合致する対象情報をさらに収束する。対象名称を収束した結果に基づいて、収束条件における対象属性特徴Aと行為特徴Bを設定する。属性特徴の収束については、単語の埋め込み類似度法を用いて、On属性項目とAの類似度simaを判断する。sima≧εa(εaが属性の類似度の閾値)である場合には、属性項目が同じであり情報を収束すると共に、収束してから、同様に、各属性値及び時空特徴をそのまま保留でき、さもなければ、同一の対象における異なる属性項目を表現し、属性項目を収束しないと分かる。
【0046】
行為特徴を収束することは、単語の埋め込み類似度法を用いて、On行為項目とBの類似度simbを判断する。simb≧εb(εbは行為の類似度閾値)である場合には、表明行為項目が同じであり、情報を収束すると共に、収束してから同様に、各行為情報及び時空特徴をそのまま保留でき、さもなければ、同一の対象における異なる行為項目を表現し、行為項目を収束しないと分かる。
例えば、上記したO(台風)とO(熱帯サイクロン)対象情報タプルに基づいて、台風に係る「風速」の属性特徴情報をさらに収束する。O(台風)とO(熱帯サイクロン)とに、それぞれ、類似度閾値に合致する属性項目「風速」があることから、<2019年8月10日1、45、浙江省温嶺市、風速、16階級>と<2019年8月11日20、50、山東省青島市、風速、9階級>を、対象特徴の収束結果とする。
【0047】
3、対象収束結果の情報を構造化する。対象情報収束結果の組織フォーマットは、
図4に示される。ただし、O(N)は収束の対象、Alは収束された対象の属性項目、alsは具体の属性値、Bnは収束された対象の行為項目、bnuは具体の行為値、<T、S>は属性値又は行為値が発生した時間と場所である。そして、そもそも散在する情報の断片は、表現された対象と関連付け、対象における同じの属性項目と行為項目が合弁されており、各属性と行為項目には、複数の時空条件で表現された異なる特徴値が含まれると分かる。
【0048】
好ましい技術的手段としては、第三ステップに状態情報を収束することは、以下のことを含む。
1、時空基準を統一させること。時空框架は、状態が存在する基礎であり、状態情報を収束することに、統一の時空基準を構築することが必要である。本明細書に係る時間基準は、日期を西暦、時間を北京時間、空間基準をCGCS2000座標系とする。
【0049】
2、時空情報を正規化させること。時間情報と位置情報は、それに関連する属性情報と行為情報が、特定時空条件で対象状態を表現する特徴であるかどうか根拠となる。時間情報については、現在、人々が日常に使用する習慣に従って、西暦、暦時間及び時計時間を用いて正規化で表現する。時間の正規化フォーマットは、「日期+時間」というフォーマットによる「YYYY-MM-DD HH、MM、SS」であり、例えば、「2019-08-10 12、00、00」である。位置情報は、統一の空間基準に従って、正規化の表示フォーマットに転換し、地名、アドレスと空間座標などの表現内容を含む。ただし、地名は、特定時間で国家が公表した標準名称、コード及び類別を参照してもよい。アドレスに含まれるアドレス要素の類別と要素の組み合わせ形態は、国家または業界が公表した標準規範を参照してもよい。空間座標は、空間基準の要求に従って、座標転換を対応的に行う。
【0050】
3、状態向けの収束。収束すべき時間特徴tと位置特徴lを設定し、対象層情報に基づいて、結果O(N)を収束し、O(N)における各属性項目と行為項目に、T=tかつS=lの特徴値(属性値と行為値)が存在するかどうかを判断し、存在する場合にこの特徴値を収束情報とし、さもなければ、S=l、T<tかつtと最も近接する特徴値が存在するかどうかを引き続き判断し、存在する場合に、この特徴値を収束情報とする。存在しない場合に、Sがlと近く、T<tかつtと最も近接する特徴値が存在するかどうかを引き続き判断し、存在する場合に、同様に、この特徴値を収束情報とする。依然として不存在しない場合に、この属性項目又は行為項目を収束しない。O(N)におけるあらゆる属性項目と行為項目をトラバーサルすることにより、各属性項目と行為項目から、多くても一つの項目が最も時空特徴に合致するする特徴値を選別する。これらの属性情報と行為情報を収束し、共に、特定時空条件下で対象の状態情報を収束した結果を形成する。
【0051】
例えば、ソーシャルメディアに、8月10日1:45、サイクロン風速が浙江省温嶺市に16階級になるというメッセージが記録されるとすると、(2、00、温嶺市)のサイクロン状態を収束する時、1:45-2:00間に風速についての情報が更新されないことから、「風速が16階級」を、サイクロン対象における(2:00、温嶺市)状態の一つ項目の属性特徴とする。このような収束のメカニズムにより、取得されたいずれかの時空ノードにおける収束結果について、状態情報に、現在時空に所属すると明確に言及される対象特徴が限定されておらず、今までのすべての時間に、あらゆる対象の特徴における現在までの最新進捗をさらに含み、全面的にかつ完全的に収束結果を保証することができる。
【0052】
4、状態を収束した結果の情報の構造化。状態の情報を収束した結果の組織フォーマットは、
図5に示される。ただし、Sは対象O(N)が時間tと位置lに存在する状態であり、Alとalsは、状態の属性特徴を示し、Bnとbnuは、状態の行為特徴を示し、<T、S>は、属性と行為特徴が発生した時間と位置である。
【0053】
好ましい技術的手段としては、第四ステップに、過程情報を収束することは、状態序列の収束と事件過程の収束という二つの部分を含む。過程は、異なる状態の時空上の繋がりであり、状態における属性情報と行為情報の変化により過程の動的が表れる。台風事件には、事件の発生期間に複数の対象が進化する過程を含み、台風事件の過程は、複数の対象の異なる状態により一緒に構成されたものである。従って、過程層情報を収束する時に、階級ごとに分解するという形態を用いて、状態情報と過程情報の繋がりを階級ごとに対象状態、状態序列及び事件過程という三つの段階に抽象する(
図6)。ただし、対象状態は、ある時空で対象の属性情報と行為情報が収束されており、状態序列は、同一の対象の進化過程を記録したものであり、同一の対象について異なる状態を収束する必要があり、事件過程は、複数の対象が共に進化した過程であり、複数の状態の序列により一緒に構成される。
【0054】
好ましい技術的手段としては、状態序列を収束することは、以下のステップを含む。
ステップS1は、収束すべき時間範囲trと空間範囲srを設定し、対象情報に基づいて、結果O(N)を収束し、O(N)における全ての属性項目と行為項目を順次にトラバーサルする。各属性項目と行為項目について、T⊆trとS⊆srの属性値又は行為値が存在するかどうかを判断し、tr与sr範囲を満たす全ての<T、S>を時空ノード集合として形成する。集合における全ての時空ノードについて、それぞれ、第三ステップに係る方法により、複数の状態の収束結果を取得する。
【0055】
ステップS2は、すべての状態の収束結果をソートして、まず、状態の時間情報に基づいて、正順又は逆順の形態でソートし、次に、状態の位置情報に基づいて、大きさが大きいから又は小さいからという形態でソートし、最後に、状態の属性情報と行為情報に基づいて、特徴値の大きさ又は階級によりソートしてもよいし、利用者の収束条件との類似度によりソートしてもよい。三次元条件により並べた状態の序列は、単一の対象の過程を収束した結果となる。
【0056】
ステップS3は、状態序列を収束した結果の情報を構造化させる。状態序列情報を収束した結果の組織フォーマットは、
図5に示される。ただし、Pは対象O(N)が時間範囲trと空間範囲srに経過した上過程であり、Sは、時空ノード<tn、ln>での対象状態である。
【0057】
好ましい技術的手段、事件の過程を収束することは、以下のステップを含む。
ステップS1は、収束すべき時間範囲trと空間範囲srを設定し、多項目の対象情報について結果O(Ns)-O(Nt)を収束し、まず、O(Ns)における全ての属性項目と行為項目をトラバーサルして、trとsr範囲に合致する<T、S>を取得する。次に、O(Nt)の全てがトラバーサルされるまで、O(Ns+1)を繰り返してトラバーサルする。tr与sr範囲に合致する全ての<T、S>を時空ノードの集合として形成する。
【0058】
ステップS2は、複数の対象状態序列について、収束結果全体に秩序が一致しているように保証するように、同じのソートメカニズムを用いることが必要である。事件過程向けの収束結果について、過程の前後において異なる時間ノードにおける状態特徴を比べると、空間特徴の移動及び属性や行為特徴の相違を分析し、台風事件全体の動的過程(
図7)を明示的に記録する。
【0059】
以上、本発明創造における好ましい実施例を詳しく説明したが、本発明創造は、前記の実施例に限定されておらず、当業者にとって、本発明創造の趣旨を逸脱しない限り、様々な均等変化や置換が可能である。これら均等変化や置換は、いずれも、本願の特許請求の範囲に限定される範囲に含まれる。
【国際調査報告】