(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-26
(45)【発行日】2022-11-04
(54)【発明の名称】データのインテリジェント分析方法、装置、コンピュータ機器及び記憶媒体
(51)【国際特許分類】
G06N 20/00 20190101AFI20221027BHJP
【FI】
G06N20/00 130
(21)【出願番号】P 2021506707
(86)(22)【出願日】2019-11-11
(86)【国際出願番号】 CN2019116942
(87)【国際公開番号】W WO2020215671
(87)【国際公開日】2020-10-29
【審査請求日】2021-02-08
(31)【優先権主張番号】201910763137.5
(32)【優先日】2019-08-19
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】517406065
【氏名又は名称】平安科技(深▲せん▼)有限公司
【氏名又は名称原語表記】PING AN TECHNOLOGY (SHENZHEN) CO.,LTD.
【住所又は居所原語表記】23F,Ping’an Financial Center,No.5033 Yitian Road,Fu’an Community of Futian Street,Futian District Shenzhen,Guangdong 518000 China
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】チェン,シャンシャン
(72)【発明者】
【氏名】ルアン,シャオウェン
(72)【発明者】
【氏名】スー,リャン
【審査官】久保 光宏
(56)【参考文献】
【文献】韓国公開特許第10-2018-0052489(KR,A)
【文献】特開2019-53433(JP,A)
【文献】荒牧 英治(外2名),「文章分類と疾患モデルの融合によるソーシャルメディアからの感染症把握」,自然言語処理,日本,言語処理学会,2012年12月14日,Vol.19, No.5,第419~435頁,ISSN: 1340-7619.
【文献】津田 博史 監修,嶋田 康史 編著,「FinTechライブラリー ディープラーニング入門 - Pythonではじめる金融データ解析-」,初版,日本,株式会社 朝倉書店,2018年05月25日,第39~48頁,ISBN: 978-4-254-27583-4.
【文献】谷田 和章(外4名),「ソーシャルメディアによる風邪流行の予測」,言語処理学会第18回年次大会発表論文集, [CD-ROM],日本,言語処理学会,2012年03月13日,第563~566頁.
【文献】村山 太一(外4名),「位置関係を考慮した地域ごとのインフルエンザ流行予測」,第11回データ工学と情報マネジメントに関するフォーラム(第17回日本データベース学会年次大会(DEIM Forum 2019)),Session-ID: D1-3,日本,データ工学研究専門委員会,日本データベース学会,データベースシステム研究会,2019年03月04日,全8頁,[online], [平成31年4月19日検索], インターネット, <URL: http://db-event.jpn.org/deim2019/post/papers/315.pdf>.
【文献】栗原 聡 監修,「人と共生するAI革命」,初版,日本,株式会社エヌ・ティー・エス,2019年06月10日,第416,417,420頁,ISBN: 978-4-86043-608-7.
(58)【調査した分野】(Int.Cl.,DB名)
G06N3/00-99/00
CSDB(日本国特許庁)
IEEEXplore(IEEE)
(57)【特許請求の範囲】
【請求項1】
データのインテリジェント分析装置により実行されるデータのインテリジェント分析方法であって、
プリセットキーワードにしたがって、クローラーツールでサードパーティ情報プラットフォームをクローリングして世論データを取得するステップと、
前記世論データに基づいて、
複数種類の感染性疾患のうち前記世論データに対応する少なくとも1種類の感染性疾患を決定するステップと、
過去の単位時間内の医療データと、時間タグを有する、前記
少なくとも1種類の感染性疾患に対応する
発症者数とを取得するステップと、
前記
感染性疾患及び前記時間タグを有する
発症者数を第1画像データとするステップと、
前記第1画像データ及び前記医療データに基づいて、オリジナルサンプルデータを取得するステップと、
前記オリジナルサンプルデータに対してデータクレンジングを行って、処理対象サンプルデータを取得するステップと、
前記処理対象サンプルデータに対して時間遅延処理を行って、時間遅延サンプルデータを取得するステップと、
前記時間遅延サンプルデータ
を拡張する処理を行って、目標サンプルデータを取得するステップと、
データ特徴を保持するためのプール化層を含む改良型マルチグレイン・カスケード・ランダムフォレストアルゴリズムで前記目標サンプルデータを
用いて目標予測モデルを訓練して、目標予測モデルを取得するステップと、を含むことを特徴とするデータのインテリジェント分析方法。
【請求項2】
プリセットキーワードにしたがって、クローラーツールでサードパーティ情報プラットフォームをクローリングして世論データを取得する前記ステップの前に、前記データのインテリジェント分析方法は、さらに、
気象要因と、対応する気象データとを取得するステップと、
前記気象要因と、対応する気象データとを第2画像データとするステップと、を含み、
前記第1画像データ及び前記医療データに基づいて、オリジナルサンプルデータを取得する前記ステップは、
前記第1画像データ、前記第2画像データ、及び前記医療データをオリジナルサンプルデータとするステップを含むことを特徴とする請求項1に記載のデータのインテリジェント分析方法。
【請求項3】
前記オリジナルサンプルデータに対してデータクレンジングを行って、処理対象サンプルデータを取得する前記ステップは、
前記オリジナルサンプルデータに対して欠測値補完を行って、第1サンプルデータを取得するステップと、
前記第1サンプルデータに対して異常値検出を行って、少なくとも1つの異常値を取得し、前記異常値をヌルとマークするステップと、
前記ヌルとマークされた異常値に対して欠測値補完を行って、前記処理対象サンプルデータを取得するステップと、を含むことを特徴とする請求項1に記載のデータのインテリジェント分析方法。
【請求項4】
前記時間遅延サンプルデータ
を拡張する処理を行って、目標サンプルデータを取得する前記ステップは、
前記時間遅延サンプルデータ
を拡張する処理を行って、少なくとも1つの統計指標に対応する特徴値を取得するステップと、
前記特徴値を前記時間遅延サンプルデータと結合して、前記目標サンプルデータを取得するステップと、を含むことを特徴とする請求項1に記載のデータのインテリジェント分析方法。
【請求項5】
目標サンプルデータを取得した前記ステップの後、前記データのインテリジェント分析方法は、
前記目標サンプルデータに対して分散分析を行って、分散がプリセットの分散閾値より小さいデータを除去して、第2サンプルデータを取得するステップと、
前記第2サンプルデータに対して特異値分解を行って、前記目標サンプルデータを更新するステップと、を含むことを特徴とする請求項1又は請求項4に記載のデータのインテリジェント分析方法。
【請求項6】
前記改良型マルチグレイン・カスケード・ランダムフォレストアルゴリズムは、多粒子スキャンアルゴリズム、及びカスケード・ランダムフォレストアルゴリズムを含み、前記多粒子スキャンアルゴリズムは少なくとも1つのスライディングウィンドウに対応し、
前記改良型マルチグレイン・カスケード・ランダムフォレストアルゴリズムで前記目標サンプルデータを
用いて目標予測モデルを訓練して、目標予測モデルを取得するステップは、
前記多粒子スキャンアルゴリズムで、少なくとも1つの前記スライディングウィンドウに従って、前記目標サンプルデータに対して多粒子スキャンを行って、少なくとも1つの中間データを取得するステップと、
前記プール化層を基に、少なくとも1つの前記中間データに対してプール化処理を行って、訓練対象データを取得するステップと、
カスケード・ランダムフォレストアルゴリズムで前記訓練対象データを
用いて目標予測モデルを訓練して、目標予測モデルを取得するステップと、を含むことを特徴とする請求項1に記載のデータのインテリジェント分析方法。
【請求項7】
前記少なくとも1つの前記中間データに対してプール化処理を行って、訓練対象データを取得するステップは、
隣接する2つの中間データを選択して1つの処理対象データ群として、前記中間データに対応する少なくとも1つの前記処理対象データ群を取得するステップと、
前記処理対象データ群ごとに平均化演算を行って、第1データシーケンスを取得するステップと、
前記処理対象データ群ごとに最小値演算を行って、第2データシーケンスを取得し、前記第2データシーケンスには各前記処理対象データ群の2つの前記中間データのうちの最小値が含まれるステップと、
前記処理対象データ群ごとに最大値演算を行って、第3データシーケンスを取得し、前記第3データシーケンスには各前記処理対象データ群の2つの前記中間データのうちの最大値が含まれるステップと、
前記第1データシーケンス、前記第2データシーケンスを前記第3データシーケンスと結合して、前記訓練対象データを取得するステップと、を含むことを特徴とする請求項6に記載のデータのインテリジェント分析方法。
【請求項8】
プリセットキーワードにしたがって、クローラーツールでサードパーティ情報プラットフォームをクローリングして世論データを取得するための世論データ取得モジュールと、
前記世論データに基づいて、
複数種類の感染性疾患のうち前記世論データに対応する少なくとも1種類の感染性疾患を決定するための
決定モジュールと、
過去の単位時間内の医療データと、時間タグを有する、
前記少なくとも1種類の感染性疾患に対応する
発症者数とを取得するための
取得モジュールと、
前記
感染性疾患及び前記時間タグを有する
発症者数を第1画像データとするための第1画像データ取得モジュールと、
前記第1画像データ及び前記医療データに基づいて、オリジナルサンプルデータを取得するためのオリジナルサンプルデータ取得モジュールと、
前記オリジナルサンプルデータに対してデータクレンジングを行って、処理対象サンプルデータを取得するための処理対象サンプルデータ取得モジュールと、
前記処理対象サンプルデータに対して時間遅延処理を行って、時間遅延サンプルデータを取得するための時間遅延サンプルデータ取得モジュールと、
前記時間遅延サンプルデータ
を拡張する処理を行って、目標サンプルデータを取得するための目標サンプルデータ取得モジュールと、
データ特徴を保持するためのプール化層を含む改良型マルチグレイン・カスケード・ランダムフォレストアルゴリズムで前記目標サンプルデータを
用いて目標予測モデルを訓練して、目標予測モデルを取得するための目標予測モデル取得モジュールと、を含むことを特徴とするデータのインテリジェント分析装置。
【請求項9】
メモリと、プロセッサと、前記メモリに記憶され、前記プロセッサ上で実行できるコンピュータ読み取り可能な命令とを含むコンピュータ機器であって、前記プロセッサが前記コンピュータ読み取り可能な命令を実行すると、
プリセットキーワードにしたがって、クローラーツールでサードパーティ情報プラットフォームをクローリングして世論データを取得するステップと、
前記世論データに基づいて、
複数種類の感染性疾患のうち前記世論データに対応する少なくとも1種類の感染性疾患を決定するステップと、
過去の単位時間内の医療データと、時間タグを有する、前記
少なくとも1種類の感染性疾患に対応する
発症者数とを取得するステップと、
前記
感染性疾患及び前記時間タグを有する
発症者数を第1画像データとするステップと、
前記第1画像データ及び前記医療データに基づいて、オリジナルサンプルデータを取得するステップと、
前記オリジナルサンプルデータに対してデータクレンジングを行って、処理対象サンプルデータを取得するステップと、
前記処理対象サンプルデータに対して時間遅延処理を行って、時間遅延サンプルデータを取得するステップと、
前記時間遅延サンプルデータ
を拡張する処理を行って、目標サンプルデータを取得するステップと、
データ特徴を保持するためのプール化層を含む改良型マルチグレイン・カスケード・ランダムフォレストアルゴリズムで前記目標サンプルデータ
を用いて目標予測モデルを訓練して、目標予測モデルを取得するステップと、が実施されることを特徴とするコンピュータ機器。
【請求項10】
プリセットキーワードにしたがって、クローラーツールでサードパーティ情報プラットフォームをクローリングして世論データを取得する前記ステップの前に、
データのインテリジェント分析方法は、さらに、
気象要因と、対応する気象データとを取得するステップと、
前記気象要因と、対応する気象データとを第2画像データとするステップと、を含み、
前記第1画像データ及び前記医療データに基づいて、オリジナルサンプルデータを取得する前記ステップは、
前記第1画像データ、前記第2画像データ、及び前記医療データをオリジナルサンプルデータとするステップを含むことを特徴とする請求項9に記載のコンピュータ機器。
【請求項11】
前記オリジナルサンプルデータに対してデータクレンジングを行って、処理対象サンプルデータを取得する前記ステップは、
前記オリジナルサンプルデータに対して欠測値補完を行って、第1サンプルデータを取得するステップと、
前記第1サンプルデータに対して異常値検出を行って、少なくとも1つの異常値を取得し、前記異常値をヌルとマークするステップと、
前記ヌルとマークされた異常値に対して欠測値補完を行って、前記処理対象サンプルデータを取得するステップと、を含むことを特徴とする請求項9に記載のコンピュータ機器。
【請求項12】
前記時間遅延サンプルデータ
を拡張する処理を行って、目標サンプルデータを取得する前記ステップは、
前記時間遅延サンプルデータ
を拡張する処理を行って、少なくとも1つの統計指標に対応する特徴値を取得するステップと、
前記特徴値を前記時間遅延サンプルデータと結合して、前記目標サンプルデータを取得するステップと、を含むことを特徴とする請求項9に記載のコンピュータ機器。
【請求項13】
前記改良型マルチグレイン・カスケード・ランダムフォレストアルゴリズムは、多粒子スキャンアルゴリズム、及びカスケード・ランダムフォレストアルゴリズムを含み、前記多粒子スキャンアルゴリズムは少なくとも1つのスライディングウィンドウに対応し、
前記改良型マルチグレイン・カスケード・ランダムフォレストアルゴリズムで前記目標サンプルデータを
用いて目標予測モデルを訓練して、目標予測モデルを取得するステップは、
前記多粒子スキャンアルゴリズムで、少なくとも1つの前記スライディングウィンドウに従って、前記目標サンプルデータに対して多粒子スキャンを行って、少なくとも1つの中間データを取得するステップと、
前記プール化層を基に、少なくとも1つの前記中間データに対してプール化処理を行って、訓練対象データを取得するステップと、
カスケード・ランダムフォレストアルゴリズムで前記訓練対象データを
用いて目標予測モデルを訓練して、目標予測モデルを取得するステップと、を含むことを特徴とする請求項9に記載のコンピュータ機器。
【請求項14】
前記少なくとも1つの前記中間データに対してプール化処理を行って、訓練対象データを取得するステップは、
隣接する2つの中間データを選択して1つの処理対象データ群として、前記中間データに対応する少なくとも1つの前記処理対象データ群を取得するステップと、
前記処理対象データ群ごとに平均化演算を行って、第1データシーケンスを取得するステップと、
前記処理対象データ群ごとに最小値演算を行って、第2データシーケンスを取得し、前記第2データシーケンスには各前記処理対象データ群の2つの前記中間データのうちの最小値が含まれるステップと、
前記処理対象データ群ごとに最大値演算を行って、第3データシーケンスを取得し、前記第3データシーケンスには各前記処理対象データ群の2つの前記中間データのうちの最大値が含まれるステップと、
前記第1データシーケンス、前記第2データシーケンスを前記第3データシーケンスと結合して、前記訓練対象データを取得するステップと、を含むことを特徴とする請求項13に記載のコンピュータ機器。
【請求項15】
コンピュータ読み取り可能な命令が記憶されている1つ又は複数の読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な命令が1つ又は複数のプロセッサによって実行されると、前記1つ又は複数のプロセッサは、
プリセットキーワードにしたがって、クローラーツールでサードパーティ情報プラットフォームをクローリングして世論データを取得するステップと、
前記世論データに基づいて、
複数種類の感染性疾患のうち前記世論データに対応する少なくとも1種類の感染性疾患を決定するステップと、
過去の単位時間内の医療データと、時間タグを有する、前記
少なくとも1種類の感染性疾患に対応する
発症者数とを取得するステップと、
前記
感染性疾患及び前記時間タグを有する
発症者数を第1画像データとするステップと、
前記第1画像データ及び前記医療データに基づいて、オリジナルサンプルデータを取得するステップと、
前記オリジナルサンプルデータに対してデータクレンジングを行って、処理対象サンプルデータを取得するステップと、
前記処理対象サンプルデータに対して時間遅延処理を行って、時間遅延サンプルデータを取得するステップと、
前記時間遅延サンプルデータ
を拡張する処理を行って、目標サンプルデータを取得するステップと、
データ特徴を保持するためのプール化層を含む改良型マルチグレイン・カスケード・ランダムフォレストアルゴリズムで前記目標サンプルデータを
用いて目標予測モデルを訓練して、目標予測モデルを取得するステップと、を実行する読み取り可能な記憶媒体。
【請求項16】
プリセットキーワードにしたがって、クローラーツールでサードパーティ情報プラットフォームをクローリングして世論データを取得する前記ステップの前に、
データのインテリジェント分析方法は、さらに、
気象要因と、対応する気象データとを取得するステップと、
前記気象要因と、対応する気象データとを第2画像データとするステップと、を含み
前記第1画像データ及び前記医療データに基づいて、オリジナルサンプルデータを取得する前記ステップは、
前記第1画像データ、前記第2画像データ、及び前記医療データをオリジナルサンプルデータとするステップを含むことを特徴とする請求項15に記載の読み取り可能な記憶媒体。
【請求項17】
前記オリジナルサンプルデータに対してデータクレンジングを行って、処理対象サンプルデータを取得する前記ステップは、
前記オリジナルサンプルデータに対して欠測値補完を行って、第1サンプルデータを取得するステップと、
前記第1サンプルデータに対して異常値検出を行って、少なくとも1つの異常値を取得し、前記異常値をヌルとマークするステップと、
前記ヌルとマークされた異常値に対して欠測値補完を行って、前記処理対象サンプルデータを取得するステップと、を含むことを特徴とする請求項15に記載の読み取り可能な記憶媒体。
【請求項18】
前記時間遅延サンプルデータ
を拡張する処理を行って、目標サンプルデータを取得する前記ステップは、
前記時間遅延サンプルデータ
を拡張する処理を行って、少なくとも1つの統計指標に対応する特徴値を取得するステップと、
前記特徴値を前記時間遅延サンプルデータと結合して、前記目標サンプルデータを取得するステップと、を含むことを特徴とする請求項15に記載の読み取り可能な記憶媒体。
【請求項19】
前記改良型マルチグレイン・カスケード・ランダムフォレストアルゴリズムは、多粒子スキャンアルゴリズム、及びカスケード・ランダムフォレストアルゴリズムを含み、前記多粒子スキャンアルゴリズムは少なくとも1つのスライディングウィンドウに対応し、
前記改良型マルチグレイン・カスケード・ランダムフォレストアルゴリズムで前記目標サンプルデータを
用いて目標予測モデルを訓練して、目標予測モデルを取得するステップは、
前記多粒子スキャンアルゴリズムで、少なくとも1つの前記スライディングウィンドウに従って、前記目標サンプルデータに対して多粒子スキャンを行って、少なくとも1つの中間データを取得するステップと、
前記プール化層を基に、少なくとも1つの前記中間データに対してプール化処理を行って、訓練対象データを取得するステップと、
カスケード・ランダムフォレストアルゴリズムで前記訓練対象データを
用いて目標予測モデルを訓練して、目標予測モデルを取得するステップと、を含むことを特徴とする請求項15に記載の読み取り可能な記憶媒体。
【請求項20】
前記少なくとも1つの前記中間データに対してプール化処理を行って、訓練対象データを取得するステップは、
隣接する2つの中間データを選択して1つの処理対象データ群とし、前記中間データに対応する少なくとも1つの前記処理対象データ群を取得するステップと、
前記処理対象データ群ごとに平均化演算を行って、第1データシーケンスを取得するステップと、
前記処理対象データ群ごとに最小値演算を行って、第2データシーケンスを取得し、前記第2データシーケンスには各前記処理対象データ群の2つの前記中間データのうちの最小値が含まれるステップと、
前記処理対象データ群ごとに最大値演算を行って、第3データシーケンスを取得し、前記第3データシーケンスには各前記処理対象データ群の2つの前記中間データのうちの最大値が含まれるステップと、
前記第1データシーケンス、前記第2データシーケンスを前記第3データシーケンスと結合して、前記訓練対象データを取得するステップと、を含むことを特徴とする請求項19に記載の読み取り可能な記憶媒体。
【発明の詳細な説明】
【関連出願の相互参照】
【0001】
本願は、2019年8月19日に提出された、出願番号201910763137.5、名称「データのインテリジェント分析方法、装置、コンピュータ機器及び記憶媒体」の中国特許出願を基礎とし、その優先権を主張する。
【技術分野】
【0002】
本願は、データ予測技術の分野に関し、特に、データのインテリジェント分析方法、装置、コンピュータ機器及び記憶媒体に関する。
【背景技術】
【0003】
情報時代の急速な発展に伴って、データ予測技術も発展を続けている。現在、各主要科学研究機関は、医療データを予測する場合、部分的な医療データに時間遅延性があるため、モデルの予測精度が低くなり、例えば、一定の潜伏期を有する感染性疾患(水痘など)に対して、疾患が爆発する条件(例えば、気温、湿度等)を満たした場合、次の時間周期に爆発する可能性があり、それにより、モデルの予測精度が低くなり、市民が即時に予防することができず、疾患爆発の深刻さを制御する役割を果たすことができない。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本願の実施例は、現在、時間遅延性のあるデータに対してデータ予測を行う際に、モデルの予測精度が低いという問題を解決するために、データのインテリジェント分析方法、装置、コンピュータ機器及び記憶媒体を提供する
【課題を解決するための手段】
【0005】
データのインテリジェント分析方法であって、
プリセットキーワードにしたがって、クローラーツールでサードパーティ情報プラットフォームをクローリングして世論データを取得するステップと、
前記世論データに基づいて、世論要因に対応する少なくとも1つのヒットエントリを決定するステップと、
過去の単位時間内の医療データと、時間タグを有する、前記ヒットエントリに対応する世論指数とを取得するステップと、
前記世論要因及び前記時間タグを有する世論指数を第1画像データとするステップと、
前記第1画像データ及び前記医療データに基づいて、オリジナルサンプルデータを取得するステップと、
前記オリジナルサンプルデータに対してデータクレンジングを行って、処理対象サンプルデータを取得するステップと、
前記処理対象サンプルデータに対して時間遅延処理を行って、時間遅延サンプルデータを取得するステップと、
前記時間遅延サンプルデータに対して特徴拡張処理を行って、目標サンプルデータを取得するステップと、
データ特徴を保持するためのプール化層を含む改良型マルチグレイン・カスケード・ランダムフォレスト(Multi-Grained cascade random forest)アルゴリズムを用いて前記目標サンプルデータを訓練して、目標予測モデルを取得するステップと、を含む。
【0006】
データのインテリジェント分析装置であって、
プリセットキーワードにしたがって、クローラーツールでサードパーティ情報プラットフォームをクローリングして世論データを取得するための世論データ取得モジュールと、
世論データに基づいて、世論要因に対応する少なくとも1つのヒットエントリを決定するためのヒットエントリ決定モジュールと、
過去の単位時間内の医療データと、時間タグを有する、前記ヒットエントリに対応する世論指数とを取得するための世論指数取得モジュールと、
前記世論要因及び前記時間タグを有する世論指数を第1画像データとするための第1画像データ取得モジュールと、
前記第1画像データ及び前記医療データに基づいて、オリジナルサンプルデータを取得するためのオリジナルサンプルデータ取得モジュールと、
前記オリジナルサンプルデータに対してデータクレンジングを行って、処理対象サンプルデータを取得するための処理対象サンプルデータ取得モジュールと、
前記処理対象サンプルデータに対して時間遅延処理を行って、時間遅延サンプルデータを取得するための時間遅延サンプルデータ取得モジュールと、
前記時間遅延サンプルデータに対して特徴拡張処理を行って、目標サンプルデータを取得するための目標サンプルデータ取得モジュールと、
データ特徴を保持するためのプール化層を含む改良型マルチグレイン・カスケード・ランダムフォレストアルゴリズムで前記目標サンプルデータを訓練して、目標予測モデルを取得するための目標予測モデル取得モジュールと、を含む。
【0007】
コンピュータ機器であって、メモリと、プロセッサと、前記メモリに記憶され、前記プロセッサ上で実行できるコンピュータ読み取り可能な命令とを含み、前記プロセッサが前記コンピュータ読み取り可能な命令を実行すると、上述データのインテリジェント分析方法のステップが実施される。
【0008】
コンピュータ読み取り可能な命令が格納されている読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な命令がプロセッサによって実行されると、上述のデータのインテリジェント分析方法のステップが実施される。
【0009】
本願の1つ又は複数の実施例の詳細は、以下の図面及び説明によって提供され、本願の他の特徴及び利点は明細書、図面及び特許請求の範囲から明らかになる。
【図面の簡単な説明】
【0010】
本願の実施例の技術的解決手段をより明確に説明するために、以下では、本願の実施例の説明に必要な図面を簡単に紹介するが、以下の説明における図面は本願の一部の実施例にすぎず、当業者にとって、これらの図面に基づいて創造的な働きなしに他の図面を取得できることは明らかである。
【
図1】本願の一実施例におけるデータのインテリジェント分析方法の応用環境の模式図である。
【
図2】本願の一実施例におけるデータのインテリジェント分析方法のフローチャートである。
【
図3】
図2のステップS60の具体的なフローチャートである。
【
図4】
図2のステップS80の具体的なフローチャートである。
【
図5】本願の一実施例におけるデータのインテリジェント分析方法のフローチャートである。
【
図6】
図2のステップS90の具体的なフローチャートである。
【
図7】
図6のステップS92の具体的なフローチャートである。
【
図8】本願の一実施例におけるデータのインテリジェント分析装置の模式図である。
【
図9】本願の一実施例におけるコンピュータ機器の模式図である。
【発明を実施するための形態】
【0011】
以下、本願の実施例における図面を参照しながら、本願の実施例における技術的解決手段について明確且つ完全に説明し、記載された実施例は、本願の一部の実施例であるが、全ての実施例ではないことは明らかである。本願の実施例に基づいて、当業者の創造的な働きなしに得られたすべての他の実施例は、いずれも本願の保護範囲に属する。
【0012】
本願の実施例にて提供されるデータのインテリジェント分析方法は、データのインテリジェント分析ツールに適用でき、当該データのインテリジェント分析ツールは異なるテーマ(例えば水痘、インフルエンザなど)に対応するサンプルデータに基づいて異なる予測モデルを訓練することができ、特に時間遅延性があるサンプルデータについて、モデルの予測精度を効果的に保証できる。当該データのインテリジェント分析方法は、
図1の応用環境などに適用でき、ここで、コンピュータ機器は、ネットワークを介してサーバと通信する。コンピュータ機器は、様々なパーソナルコンピュータ、スマートフォン、タブレットコンピュータ、及びポータブルウェアラブルデバイスであり得るが、これらに限定されない。サーバは、独立のサーバで実現されてもよい。
【0013】
一実施例において、
図2に示すように、データのインテリジェント分析方法を提供し、当該方法を
図1のサーバに適用した例を挙げて説明すると、ステップS10~S90を含む。
【0014】
S10:プリセットキーワードにしたがって、クローラーツールでサードパーティ情報プラットフォームをクローリングして世論データを取得する。
【0015】
ここで、プリセットキーワードは、水痘、赤く腫れ、掻痒性疱疹及び帯状疱疹などのような予め設定された感染性疾患に関する一部のキーワードである。世論データとは、サードパーティ情報プラットフォームにおける様々なユーザによって公開されたテキストデータを言い、社会的な出来事の発生を反映するために用いられる。具体的には、情報時代の急速な発展に伴って、ユーザは、様々な情報プラットフォームを使用して必要な情報を照会する傾向が強く、例えば、自分の症状に基づいて疾患にかかっているか否かなどを照会し、ある感染性疾患(例えば水痘)が爆発すると、検索量や関心度は必然的により大きくなるので、本実施例では、プリセットキーワードにしたがって、クローラーツールでサードパーティ情報プラットフォーム(例えば、Baidu、Weibo又はWeChat)におけるプリセットキーワードを含む世論データをクローリングする。なお、本実施例の感染性疾患に関する一部のプリセットキーワードについて、一部のデフォルトキーワードを予め設定してから、当該デフォルトキーワードに対応する同義語を取ることができ、それにより、より多くのキーワードを取得してクローリングを行い、より多くの関連情報を取得して、後続のモデル訓練に十分なデータセットを提供する。
【0016】
S20:世論データに基づいて、世論要因に対応する少なくとも1つのヒットエントリを決定する。
【0017】
具体的には、情報時代の急速な発展に伴って、ユーザは、様々な情報プラットフォームで必要な情報を照会する傾向が強く、例えば、自分の症状に基づいて疾患にかかっているか否かなどを照会し、ある感染性疾患(例えば水痘)が爆発すると、検索量や関心度は必然的により大きくなるので、本実施例では、異なる地域の過去20年間の毎日の世論要因を選択して、別の部分の画像データとする。当該世論要因は、水痘、赤く腫れ、掻痒性疱疹及び帯状疱疹などを含むが、これらに限定されない。
【0018】
ここで、世論データは、少なくとも1つのオリジナルエントリ(如Baiduエントリ)を含む。具体的には、専門家が、クローリングされた各オリジナルエントリに含まれている情報に基づいて、水痘と関連があるか否かを判断することにより、水痘と真に関連するエントリを少なくとも1つ決定してヒットエントリとする。その後、決定したヒットエントリに基づく。各ヒットエントリは世論要因に対応する。当該論要因とは、ヒットエントリに含まれている少なくとも1つのプリセットキーワードに関連する要因であり、例えば水痘、赤く腫れ、掻痒性疱疹及び帯状疱疹である。
【0019】
S30:過去の単位時間内の医療データと、時間タグを有する、ヒットエントリに対応する世論指数とを取得する。
【0020】
ここで、医療データとは、疾患管理センターによって提供される、異なる地域のセンチネル病院(中国政府が主に疫病や感染症を監視、管理、治療するために設置した病院)の過去の単位時間、例えば過去20年間の単位時間内の過去の発症者数(即ちタグデータ)を言う。当該単位時間は、時間タグであり、当該単位時間は、ユーザによってカスタマイズされてもよく、ここでは限定されないことを理解されたい。本実施例において、当該単位時間は、1日、1週間、1ヶ月、1四半期又は1年などにあり得、ここでは一々列挙しない。
【0021】
本実施例では、1週間を単位時間とする例を挙げて説明し、具体的には、単位時間内のヒットエントリに対応する世論指数及び医療データを取得し、世論指数ごとに、ヒットエントリの発表時間である時間タグを有する。
【0022】
S40:世論要因及び時間タグを有する世論指数を第1画像データとする。
【0023】
ここで、第1画像データとは、世論要因及び時間タグを有する世論指数をモデルとして訓練した特徴データを言う。具体的には、将来のある時間区間内に、ある疾患が爆発するか否かを予測する必要がある場合、当該時間区間は1週間、1週間、1ヶ月、1四半期又は1年であり得、異なる予測の時間区間に応じて、サンプルデータの処理も異なり、1週間を時間区間とする例を挙げて説明すると、世論要因(例えば水痘、赤く腫れ及び疱疹)を列タグとし、N週目の世論指数を行タグとして、一部の画像データを作成する。ここで、N週目の世論指数は、N週目の平均世論指数(即ち、1週間7日分の世論指数の平均)、N週目の最大世論指数及びN週目の最小世論指数を含むが、これらに限定されない。
【0024】
なお、下記のテーブルは、本実施例の世論要因に基づいて作成された画像データの模式図である。当該模式図は単なる例示であり、ここでは限定しないことを理解されたい。
【0025】
【0026】
S50:第1画像データ及び医療データに基づいて、オリジナルサンプルデータを取得する。
【0027】
具体的には、第1画像データをモデル訓練の特徴データとし、医療データをモデル訓練のタグデータとして、オリジナルサンプルデータを取得する。
【0028】
S60:オリジナルサンプルデータに対してデータクレンジングを行って、処理対象サンプルデータを取得する。
【0029】
具体的には、オリジナルサンプルデータに欠測値又は異常値が含まれる可能性があるため、後続のモデルの予測精度をより一層保証するために、オリジナルサンプルデータに対してデータクレンジングを行う必要があり、それにより処理対象サンプルデータの品質を保証する。
【0030】
S70:処理対象サンプルデータに対して時間遅延処理を行って、時間遅延サンプルデータを取得する。
【0031】
【0032】
最後に、concat関数で時間遅延処理を数回行って取得した時間遅延サンプルデータと処理対象サンプルデータとを1つのデータフレーム(DataFrame)、即ち、時間遅延サンプルデータにマージする。ここで、concat関数は、2つ以上のフレームを連結するための関数である。データフレームは、2次元データ構造であり、即ち、データは行と列のテーブル方式で排列される。
【0033】
S80:時間遅延サンプルデータに対して特徴拡張処理を行って、目標サンプルデータを取得する。
【0034】
具体的には、サンプルデータセットを拡張して、モデルの予測精度をさらに向上させるために、本実施例では、時間遅延サンプルデータに対して特徴拡張処理を行って、目標サンプルデータを取得して、サンプルデータセットをさらに拡張する目的を達成する。
【0035】
S90:改良型マルチグレイン・カスケード・ランダムフォレストアルゴリズムで目標サンプルデータを訓練して、目標予測モデルを取得し、改良型マルチグレイン・カスケード・ランダムフォレストアルゴリズムは、データ特徴を保持するためのプール化層を含む。
【0036】
ここで、改良型マルチグレイン・カスケード・ランダムフォレストアルゴリズムは、マルチグレイン・カスケード・ランダムフォレストアルゴリズムに畳み込みニューラルネットワークのプール化思想を導入したアルゴリズムである。マルチグレイン・カスケード・ランダムフォレストアルゴリズムは、意思決定ツリーの統合方法であり、カスケード方式で複数層のランダムフォレストを積み重ねて、より良い特徴表現や学習性能を取得し、当該アルゴリズムは、過度なハイパーパラメータの調整を必要とせずに、良好な性能を達成することができる。
【0037】
ここで、マルチグレイン・カスケードランダムフォレスト(Gcforest)において、各層は、複数のランダムフォレストから構成される。ランダムフォレストで入力された特徴ベクトルの特徴情報を学習し、処理後に次の層に入力される。モデルの一般化能力を強化するために、層ごとに複数の異なる種類のランダムフォレストを選択し、例えば層ごとに2種類のランダムフォレスト構造を選択し、それぞれcompletely-random tree forests(完全ランダムフォレスト)とrandom forests(ランダムフォレスト)である。
【0038】
本実施例では、まず、世論データに基づいて、予測テーマと真に関連するヒットエントリを少なくとも1つ決定するように、プリセットキーワードにしたがって、クローラーツールでサードパーティ情報プラットフォームをクローリングして世論データを取得して、後続の取得された世論要因の有効性と正確性を保証する。次に、単位時間内のヒットエントリに対応する世論指数及び医療データを取得する。最後に、世論要因及び時間タグを有する世論指数をオリジナルサンプルデータとして、モデルに過去20年間の単位時間内の世論データを分析させる。その後、オリジナルサンプルデータに対してデータクレンジングを行うことにより、処理対象サンプルデータを取得して、処理対象サンプルデータの品質を保証する。その後、サンプルデータセットを拡張するために、処理対象サンプルデータに対して時間遅延処理を行って、時間遅延サンプルデータを取得する。そして、時間遅延性があるデータに対して、時間遅延特徴の効果を実現でき、モデルの予測精度を保証する。続いて、時間遅延サンプルデータに対して特徴拡張処理を行って、目標サンプルデータを取得し、それによりサンプルデータセットをさらに拡張する目的を達成し、モデルの予測精度を向上させる。最後に、改良型マルチグレイン・カスケード・ランダムフォレストアルゴリズムで目標サンプルデータを訓練して、目標予測モデルを取得し、それにより、より良い特徴表現や学習性能を取得し、且つ、アルゴリズムは、過度なハイパーパラメータの調整を必要とせずに良好な性能を達成することができ、モデルの予測精度を保証する。そして、改良型マルチグレイン・カスケード・ランダムフォレストアルゴリズムは、プール化層をさらに含んで、データ特徴を十分に保持し、モデルの予測精度をさらに向上させる。
【0039】
一実施例において、ステップS10の前に、当該データのインテリジェント分析方法は、S101とS102とをさらに含む。
【0040】
S101:気象要因と、対応する気象データとを取得する。
【0041】
本実施例は、異なる予測テーマに基づいて、異なる画像データを選択可能であることは理解できる。本実施例では、水痘の予測を例として説明し、水痘ウイルスは、気候と非常に密接な関連性があるため、異なる地域の過去20年間の毎日の気象要因を画像データの一部として選択する。当該気象要因は、異なる地域の昼と夜の気温、昼と夜の気圧、昼と夜の降水量、湿度、光強度及び風力などを含むが、これらに限定されない。
【0042】
S102:気象要因及び対応する気象データを第2画像データとする。
【0043】
ここで、第2画像データとは、気象要因及び対応する気象データをモデルとして訓練した特徴データである。具体的には、気象要因について、画像データを作成する方法はステップS40と一致し、即ち、気象要因を列タグとし、N週目の気象状況を行タグとして、第2画像データを作成できる。ここで、N週目の気象状況には、N週目の平均気象状況(例えば平均降水量)、N週目の最大気象状況(例えば最大降水量)、及びN週目の最小気象状況(例えば最小降水量)が含まれるが、これらに限定されない。
【0044】
対応して、第1画像データ及び医療データに基づいて、オリジナルサンプルデータを取得するステップS50は、
第1画像データ、第2画像データ及び医療データをオリジナルサンプルデータとするS51を含む。
【0045】
本実施例において、気象状況に世論データの大量伝播という思想を組み合わせることにより、疾患が爆発する時間周期を効果的に予測して、モデルの予測精度を向上させる。
【0046】
一実施例において、
図3に示すように、オリジナルサンプルデータに対してデータクレンジングを行って、処理対象サンプルデータを取得するステップS60は、具体的には、S61~S63を含む。
【0047】
S61:オリジナルサンプルデータに対して欠測値補完を行って、第1サンプルデータを取得する。
【0048】
ここで、欠測値の補完方法は、平均値補完、最頻値補完、中央値補完、期待値最大化方法、多重補完及びk-meansクラスタリング方法などを含むが、これらに限定されない。具体的には、k-meansクラスタリング方法で補完することを例とすると、欠測値がある画像データをクラスタリングして、クラスタリングされたクラスクラスターの平均値で欠測値を補完する。
【0049】
S62:第1サンプルデータに対して異常値検出を行って、少なくとも1つの異常値を取得し、異常値をヌルとマークする。
【0050】
S63:ヌルとマークされた異常値に対して欠測値補完を行って、処理対象サンプルデータを取得する。
【0051】
【0052】
具体的には、異常値に対応するサンプルデータは必ずしも不要なものであるとは限らないため、当該異常値に対応するサンプルデータを直接削除すると、サンプルデータの特徴の欠測になり、サンプルデータの品質に影響を与え、さらに、モデルの予測精度に影響を与えるので、本実施例では、異常値を削除してヌル値とマークしてから、ヌル値とマークされた異常値に対して欠測値補完を行って、処理対象サンプルデータを取得する。本実施例において、異常値に対応するサンプルデータを直接削除することにより、サンプルデータの当該部分の特徴が不足して、モデルの予測精度に影響を与えるという問題を回避するために、ヌル値とマークされた異常値に対して欠測値補完を行って、処理対象サンプルデータを取得する。
【0053】
本実施例において、オリジナルサンプルデータに対して欠測値補完を行うことにより、第1サンプルデータを取得してから、第1サンプルデータに対して異常値検出を行って、少なくとも1つの異常値を取得し、サンプルデータにおける異常値と欠測値を処理することにより、データクレンジングの目的を達成し、サンプルデータの品質を保証する。その後、取得された異常値をヌルとマークし、ヌルとマークされた異常値に対して欠測値の補完を再度行って、処理対象サンプルを取得し、オリジナルサンプルデータに対して欠測値補完を2回行うことにより、サンプルデータの品質及び規範性を保証して、モデルの予測精度を向上させる。
【0054】
一実施例において、
図4に示すように、時間遅延サンプルデータに対して特徴拡張処理を行って、目標サンプルデータを取得するステップS80は、具体的には、
時間遅延サンプルデータに対して特徴拡張を行って、少なくとも1つの統計指標に対応する特徴値を取得するS81と、
特徴値を時間遅延サンプルデータと結合して、目標サンプルデータを取得するS82と、を含む。
【0055】
ここで、統計指標には、各行のデータに対応する最大値、最小値、平均値及び標準偏差が含まれるが、これらに限定されず、各統計指標を新しい列として時間遅延サンプルデータに追加して、データセットを拡張し、且つ特徴画像を増加して、より多くの特徴情報を収集し、モデルの予測精度を向上させる。当該時間遅延サンプルデータはマトリックスであり、特徴値を時間遅延サンプルデータと結合して、目標サンプルデータを取得し、即ち、サンプルマトリックスにN個の列を増加し、Nは統計指標(例えば、各行に対応するデータの最大値、最小値や平均値)の数であり、各行に対応するデータの最大値、最小値及び平均値は、特徴値であることは理解できる。
【0056】
本実施例において、時間遅延サンプルデータに対して特徴拡張を行って、少なくとも1つの統計指標に対応する特徴値を取得し、特徴値を時間遅延サンプルデータと結合して、目標サンプルデータを取得することにより、データセットを拡張し、且つ特徴画像を増加して、より多くの特徴情報を収集し、モデルの予測精度を向上させる。
【0057】
一実施例において、
図5に示すように、ステップS80の後、当該データのインテリジェント分析方法は、さらに、
目標サンプルデータに対して分散分析を行い、分散がプリセットの分散閾値より小さいデータを除去して、第2サンプルデータを取得するS111と、
第2サンプルデータに対して特異値分解を行って、目標サンプルデータを更新するS112と、を含む。
【0058】
具体的には、データ量は、大きすぎると有害になる場合があるため、データ解析アプリケーションにおいて、大量のデータがかえって性能を悪化させる。このため、冗長データを除去して、データ列数を減らしつつ、データ情報の損失をできるだけ少なくすることを達成するため、目標サンプルデータをフィルタリングする必要がある。
【0059】
ここで、分散分析とは、データ列の分散に基づく分析により、分散が小さすぎる(即ち、プリセットの分散閾値より小さい)シーケンスを除去して、第2サンプルデータを取得することを言う。具体的には、分散の大きさは、ある変数の情報量を説明するものであり、分散が過度に小さいシーケンスは、含まれている情報量が少ないものであると見なされるため、分散が小さいデータ列を全部除去することで、データの次元縮退の効果を達成し、データの処理量を減少させ、後続のモデル訓練の効率を向上させる。
【0060】
具体的には、目標サンプルデータには、複数の特徴が含まれているが、一部の特徴は、モデルの予測精度にあまり影響を与えないか、或いは過度に関連性の大きい特徴と等価置換ができると考えられるため、冗長変数を除去して、データの次元縮退の目的、及びモデルの訓練時間の節約を達成できる。具体的には、分散分析を用いる場合、分散がプリセットの分散閾値より小さいデータ列を除去するため、分散分析の正確性は、プリセットの分散閾値に依存し、したがって、より一層、冗長データを除去しつつ、データ情報の損失をできるだけ少なくすることを保証できるようにするため、本実施例では、冗長データを除去して、データ圧縮の目的を実現し、目標サンプルデータの品質を保証するように、第2サンプルデータに対して特異値分解を行う必要もある。
【0061】
本実施例において、目標サンプルデータに対して分散分析を行って、分散がプリセットの分散閾値より小さいデータを除去することにより、第2サンプルデータを取得し、それにより、冗長データを除去して、データ列の数を減らしつつ、データ情報の損失をできるだけ少なくし、モデルの訓練時間を節約することを保証する。その後、第2サンプルデータに対して特異値分解を行って、目標サンプルデータを更新し、それにより、冗長データをさらに除去して、目標サンプルデータの品質を保証する。
【0062】
一実施例において、改良型マルチグレイン・カスケード・ランダムフォレストアルゴリズムは、多粒子スキャンアルゴリズム及びカスケード・ランダムフォレストアルゴリズムを含み、多粒子スキャンアルゴリズムは少なくとも1つのスライディングウィンドウに対応し、
図6に示すように、ステップS90は、具体的には、ステップS91~S93を含む。
【0063】
S91:多粒子スキャンアルゴリズムで、少なくとも1つのスライディングウィンドウに従って、目標サンプルデータに対して多粒子スキャンを行い、少なくとも1つの中間データを取得する。
【0064】
ここで、多粒子スキャンとは、スライディングウィンドウを用いて目標サンプルデータをスキャンして、少なくとも1つの中間データを取得することを言う。本実施例では、異なる次元のスライディングウィンドウを設定することができ、当該スライディングウィンドウはi*jのウィンドウであってもよいことは理解できる。例えば、目標テーブルサンプルデータの行タグがi週目であると、スライディングウィンドウのwindow_sizeとして、2(2週間ごと)、4(毎月)、12(四半期ごと)などを取ってもよい。なお、当該スライディングウィンドウは、少なくとも1つの特徴画像をスキャンすることができ、即ち、1列ずつ、2列ずつ、j列ずつスキャンすることができ、且つ特徴とタグセットとの間、特徴と特徴との間の固有の関連性の検索を最大化にすることができる。
【0065】
S92:プール化層に基づいて、少なくとも1つの中間データに対してプール化処理を行って、訓練対象データを取得する。
【0066】
本実施例において、プール化層は、少なくとも1つの中間データに対してプール化処理を行って、訓練対象データを取得することにより、データに対する次元縮退の目的を達成し、算出量を減少させ、モデルの訓練効率を向上させる。
【0067】
S93:カスケード・ランダムフォレストアルゴリズムで訓練対象データを訓練して、目標予測モデルを取得する。
【0068】
【0069】
【0070】
本実施例において、多粒子スキャンアルゴリズムで、少なくとも1つのスライディングウィンドウに従って、目標サンプルデータに対して多粒子スキャンを行い、少なくとも1つの中間データを取得することにより、特徴とタグセットとの間、特徴と特徴との間の固有の関連性の検索を最大化にした。その後、プール化層と結合して、少なくとも1つの中間データに対してプール化処理を行い、訓練対象データを取得することにより、機械学習をニューラルネットワーク思想と結合して、より多くの直観的には取得できない情報を取得し、モデルを豊富にし、モデルの予測精度をさらに向上させる。
【0071】
一実施例において、
図7に示すように、プール化層に基づいて、少なくとも1つの中間データに対してプール化処理を行って、訓練対象データを取得するステップS92は、具体的には、
隣接する2つの中間データを選択して1つの処理対象データ群として、中間データに対応する少なくとも1つの処理対象データ群を取得するS921と、
処理対象データ群ごとに平均化演算を行って、第1データシーケンスを取得するS922と、
処理対象データ群ごとに最小値演算を行って、各処理対象データ群における2つの中間データのうちの最小値を含む第2データシーケンスを取得するS923と、
処理対象データ群ごとに最大値演算を行って、各処理対象データ群における2つの中間データのうちの最大値を含む第3データシーケンスを取得するS924と、
第1データシーケンスと、第2データシーケンスと、第3データシーケンスとを組み合わせて、訓練対象データを取得するS925と、を含む。
【0072】
【0073】
本実施例において、3つの種類のプール化方法で少なくとも1つの中間データをプール化してから、各種類の方法でプール化して取得した結果を統合して、訓練対象データを取得することにより、データの特徴を十分に保持し、サンプルデータの品質を保証し、モデルの予測精度を向上させる。
【0074】
上記実施例において、各ステップの番号の大きさは、その実行順序の前後を意味するものではなく、各プロセスの実行順序はその機能及び固有ロジックによって決定されるべきであり、本願の実施例の実施プロセスに対するいかなる限定も構成しないことを理解すべきである。
【0075】
一実施例において、データのインテリジェント分析装置を提供し、当該データのインテリジェント分析装置は、上述の実施例のデータのインテリジェント分析方法と1対1に対応する。
図8に示すように、当該データのインテリジェント分析装置は、世論データ取得モジュール10、ヒットエントリ決定モジュール20、世論指数取得モジュール30、第1画像データ取得モジュール40、オリジナルサンプルデータ取得モジュール50、処理対象サンプルデータ取得モジュール60、時間遅延サンプルデータ取得モジュール70、目標サンプルデータ取得モジュール80、及び目標予測モデル取得モジュール90を含む。各機能モジュールの詳細な説明は次のとおりである。
【0076】
世論データ取得モジュール10は、プリセットキーワードにしたがって、クローラーツールでサードパーティ情報プラットフォームをクローリングして世論データを取得するために用いられる。
【0077】
ヒットエントリ決定モジュール20は、世論データに基づいて、世論要因に対応する少なくとも1つのヒットエントリを決定するために用いられる。
【0078】
世論指数取得モジュール30は、過去の単位時間内の医療データと、時間タグを有する、ヒットエントリに対応する世論指数とを取得するために用いられる。
【0079】
第1画像データ取得モジュール40は、世論要因及び時間タグを有する世論指数を第1画像データとするために用いられる。
【0080】
オリジナルサンプルデータ取得モジュール50は、第1画像データ及び医療データに基づいて、オリジナルサンプルデータを取得するために用いられる。
【0081】
処理対象サンプルデータ取得モジュール60は、オリジナルサンプルデータに対してデータクレンジングを行って、処理対象サンプルデータを取得するために用いられる。
【0082】
時間遅延サンプルデータ取得モジュール70は、処理対象サンプルデータに対して時間遅延処理を行って、時間遅延サンプルデータを取得するために用いられる。
【0083】
目標サンプルデータ取得モジュール80は、時間遅延サンプルデータに対して特徴拡張処理を行って、目標サンプルデータを取得するために用いられる。
【0084】
目標予測モデル取得モジュール90は、データ特徴を保持するためのプール化層を含む改良型マルチグレイン・カスケード・ランダムフォレストアルゴリズムで目標サンプルデータを訓練して、目標予測モデルを取得するために用いられる。
【0085】
具体的には、処理対象サンプルデータ取得モジュールは、第1サンプルデータ取得ユニット、異常値取得ユニット、及び処理対象サンプルデータ取得ユニットを含む。
【0086】
第1サンプルデータ取得ユニットは、オリジナルサンプルデータに対して欠測値補完を行って、第1サンプルデータを取得するために用いられる。
【0087】
異常値取得ユニットは、第1サンプルデータに対して異常値検出を行って、少なくとも1つの異常値を取得し、異常値をヌルとマークするために用いられる。
【0088】
処理対象サンプルデータ取得ユニットは、ヌルとマークされた異常値に対して欠測値補完を行って、処理対象サンプルデータを取得するために用いられる。
【0089】
具体的には、目標サンプルデータ取得モジュールは、特徴値取得ユニット、及び目標サンプルデータ取得ユニットを含む。
【0090】
特徴値取得ユニットは、時間遅延サンプルデータに対して特徴拡張を行って、少なくとも1つの統計指標に対応する特徴値を取得するために用いられる。
【0091】
目標サンプルデータ取得ユニットは、特徴値を時間遅延サンプルデータと結合して、目標サンプルデータを取得するために用いられる。
【0092】
具体的には、当該データのインテリジェント分析装置は、第2サンプルデータ取得ユニット、及び目標サンプルデータ更新ユニットを含む。
【0093】
第2サンプルデータ取得ユニットは、目標サンプルデータに対して分散分析を行い、分散がプリセットの分散閾値より小さいデータを除去して、第2サンプルデータを取得するために用いられる。
【0094】
目標サンプルデータ更新ユニットは、第2サンプルデータに対して特異値分解を行って、目標サンプルデータを更新するために用いられる。
【0095】
具体的には、改良型マルチグレイン・カスケード・ランダムフォレストアルゴリズムは、多粒子スキャンアルゴリズム、及びカスケード・ランダムフォレストアルゴリズムを含み、多粒子スキャンアルゴリズムは少なくとも1つのスライディングウィンドウに対応し、目標予測モデル取得モジュールは、目標予測モデル、訓練対象データ取得ユニット、及び目標予測モデル取得ユニットを含む。
【0096】
中間データ取得ユニットは、多粒子スキャンアルゴリズムで、少なくとも1つのスライディングウィンドウに従って、目標サンプルデータに対して多粒子スキャンを行い、少なくとも1つの中間データを取得するために用いられる。
【0097】
訓練対象データ取得ユニットは、プール化層に基づいて、少なくとも1つの中間データに対してプール化処理を行って、訓練対象データを取得するために用いられる。
【0098】
目標予測モデル取得ユニットは、カスケード・ランダムフォレストアルゴリズムで訓練対象データを訓練して、目標予測モデルを取得するために用いられる。
【0099】
具体的には、訓練対象データ取得ユニットは、処理対象データ群取得サブユニット、第1データシーケンス取得サブユニット、第2データシーケンス取得サブユニット、第3データシーケンス取得サブユニット、及び訓練対象データ取得サブユニットを含む。
【0100】
処理対象データ群取得サブユニットは、隣接する2つの中間データを選択して1つの処理対象データ群として、中間データに対応する少なくとも1つの処理対象データ群を取得するために用いられる。
【0101】
第1データシーケンス取得サブユニットは、処理対象データ群ごとに平均化演算を行って、第1データシーケンスを取得するために用いられる。
【0102】
第2データシーケンス取得サブユニットは、処理対象データ群ごとに最小値演算を行って、各処理対象データ群における2つの中間データのうちの最小値を含む第2データシーケンスを取得するために用いられる。
【0103】
第3データシーケンス取得サブユニットは、処理対象データ群ごとに最大値演算を行って、各処理対象データ群における2つの中間データのうちの最大値を含む第3データシーケンスを取得するために用いられる。
【0104】
訓練対象データ取得サブユニットは、第1データシーケンスと、第2データシーケンスと、第3データシーケンスとを組み合わせて、訓練対象データを取得するために用いられる。
【0105】
データのインテリジェント分析装置の具体的な限定については、上記のデータのインテリジェント分析方法に関する限定を参照することができ、ここでは詳細な説明を省略する。上述のデータのインテリジェント分析装置の各モジュールの全部又は一部は、ソフトウェア、ハードウェア及びその組み合わせによって実現できる。上記の各モジュールは、プロセッサが以上の各モジュールに対応する操作を呼び出して実行することが容易になるように、ハードウェア形態でコンピュータ機器内のプロセッサに内蔵されても、それから独立してもよいし、ソフトウェア形態でコンピュータ機器内のメモリに記憶されてもよい。
【0106】
一実施例において、コンピュータ機器を提供し、当該コンピュータ機器は、サーバであってもよく、その内部構造図は
図9に示すとおりであり得る。当該コンピュータ機器は、システムバスを介して接続されるプロセッサ、メモリ、ネットワークインターフェイス及びデータベースを含む。ただし、当該コンピュータ機器のプロセッサは、コンピューティング及び制御能力を提供するために用いられる。当該コンピュータ機器のメモリには、読み取り可能な記憶媒体、及び内部メモリが含まれる。当該読み取り可能な記憶媒体にはオペレーティングシステム、コンピュータ読み取り可能な命令及びデータベースが記憶されている。当該内部メモリは、読み取り可能な記憶媒体内のオペレーティングシステム及びコンピュータ読み取り可能な命令に実行環境を提供する。当該コンピュータ機器のデータベースは、データのインテリジェント分析方法の実行中に生成または取得されたデータ、例えば目標サンプルデータを記憶するために用いられる。当該コンピュータ機器のネットワークインターフェイスは、ネットワークを介する外部端末との接続、通信のために用いられる。当該コンピュータ読み取り可能な命令がプロセッサによって実行されると、データのインテリジェント分析方法が実施される。
【0107】
一実施例において、コンピュータ機器を提供し、当該コンピュータ機器は、メモリと、プロセッサと、メモリに記憶され、且つプロセッサ上で実行できるコンピュータ読み取り可能な命令とを含み、プロセッサがコンピュータ読み取り可能な命令を実行すると、上述の実施例におけるデータのインテリジェント分析方法のステップ、例えば
図2に示すステップS10~S90、又は
図3から
図7に示すステップが実施される。又は、プロセッサがコンピュータ読み取り可能な命令を実行すると、データのインテリジェント分析装置のこの実施例における各モジュール/ユニットの機能、例えば
図8に示す各モジュール/ユニット機能が実施される。繰返し説明を回避するために、ここでは詳細な説明を省略する。
【0108】
一実施例において、コンピュータ読み取り可能な命令が記憶されている1つ又は複数の読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体には、コンピュータ読み取り可能な命令が記憶され、前記コンピュータ読み取り可能な命令が1つ又は複数のプロセッサによって実行されると、前記1つ又は複数のプロセッサが実行する際に上述の実施例におけるデータのインテリジェント分析方法のステップ、例えば
図2に示すステップS10~S90、又は
図3から
図7に示すステップが実施されることを特徴とし、繰返し説明を回避するために、ここでは詳細な説明を省略する。又は、当該コンピュータ読み取り可能な命令がプロセッサに実行されると、上述のデータのインテリジェント分析装置のこの実施例における各モジュール/ユニットの機能、例えば
図8に示す各モジュール/ユニットの機能が実施され、繰返し説明を回避するために、ここでは詳細な説明を省略する。本実施例における読み取り可能な記憶媒体は、不揮発性読み取り可能な記憶媒体、及び揮発性読み取り可能な記憶媒体を含む。
【0109】
当業者は、上記の実施例における方法の全部又は一部のプロセスの実施は、コンピュータ読み取り可能な命令により、関連のハードウェアを命令して完了することができ、前記コンピュータ読み取り可能な命令は不揮発性コンピュータ読み取り可能な記憶媒体に記憶されてもよく、当該コンピュータ読み取り可能な命令は、実行される際に、上記各方法の実施例のプロセスを含み得ることは理解できる。ただし、本願にて提供される各実施例で使用されるメモリ、記憶、データベース又は他の媒体の如何なる引用は、いずれも不揮発性及び/又は揮発性メモリを含み得る。不揮発性メモリは、読み取り専用メモリ(ROM)、プログラマブルROM(PROM)、電気的にプログラマブルROM(EPROM)、電気的に消去可能なプログラマブルROM(EEPROM)又はフラッシュメモリを含み得る。揮発性メモリは、ランダムアクセスメモリ(RAM)又は外部キャッシュメモリを含み得る。説明として、RAMは、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、同期DRAM(SDRAM)、ダブルデータレートSDRAM(DDRSDRAM)、拡張型SDRAM(ESDRAM)、同期式リンク(Synchlink)、DRAM(SLDRAM)、メモリバス(Rambus)ダイレクトRAM(RDRAM)、ダイレクトメモリバスダイナミックRAM(DRDRAM)、及びメモリバスダイナミックRAM(RDRAM)などのような様々な形態であり得るが、これらに限定されない。
【0110】
当業者であれば、説明の便宜上及び簡潔さのために、上記の各機能ユニット、モジュールの分割を例として説明しただけで、実際の応用において、ニーズに応じて、上記機能の割り当ては異なる機能ユニット、モジュールによって完了されてもよく、即ち、前記装置の内部構造は、上記に説明した全部又は一部の機能を完了するために、異なる機能ユニット又はモジュールに分割されることを明確に理解できる。
【0111】
以上、前記実施例は、本願の技術的解決手段を説明するためのものにすぎず、本願を限定するものではない。前述の実施例を参照して、本願について詳細に説明したが、当業者であれば、前述の各実施例に記載の技術的解決手段を変更するか、又は技術特徴の一部に対して等価置換を行ってもよく、対応する技術的解決手段の本質が本願の各実施例の技術的解決手段の趣旨及び範囲から逸脱しないこれらの変更又は置換は、いずれも本願の保護範囲内に含まれるべきである。