IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 平安科技(深▲せん▼)有限公司の特許一覧

特許7058797不均衡標本データの前処理方法、装置及びコンピュータ機器
<>
  • 特許-不均衡標本データの前処理方法、装置及びコンピュータ機器 図1
  • 特許-不均衡標本データの前処理方法、装置及びコンピュータ機器 図2
  • 特許-不均衡標本データの前処理方法、装置及びコンピュータ機器 図3
  • 特許-不均衡標本データの前処理方法、装置及びコンピュータ機器 図4
  • 特許-不均衡標本データの前処理方法、装置及びコンピュータ機器 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-04-14
(45)【発行日】2022-04-22
(54)【発明の名称】不均衡標本データの前処理方法、装置及びコンピュータ機器
(51)【国際特許分類】
   G06F 16/00 20190101AFI20220415BHJP
   G06F 17/40 20060101ALI20220415BHJP
【FI】
G06F16/00
G06F17/40 330A
【請求項の数】 15
(21)【出願番号】P 2021506496
(86)(22)【出願日】2018-12-24
(65)【公表番号】
(43)【公表日】2021-12-02
(86)【国際出願番号】 CN2018123208
(87)【国際公開番号】W WO2020048048
(87)【国際公開日】2020-03-12
【審査請求日】2021-02-05
(31)【優先権主張番号】201811018913.0
(32)【優先日】2018-09-03
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】517406065
【氏名又は名称】平安科技(深▲せん▼)有限公司
【氏名又は名称原語表記】PING AN TECHNOLOGY (SHENZHEN) CO.,LTD.
【住所又は居所原語表記】23F,Ping’an Financial Center,No.5033 Yitian Road,Fu’an Community of Futian Street,Futian District Shenzhen,Guangdong 518000 China
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】ユ,シウミン
(72)【発明者】
【氏名】ワン,ウェイ
(72)【発明者】
【氏名】シャオ,ジン
【審査官】後藤 彰
(56)【参考文献】
【文献】中国特許出願公開第105786970(CN,A)
【文献】特開2018-106216(JP,A)
【文献】特開2010-204966(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06F 17/00-17/60
(57)【特許請求の範囲】
【請求項1】
コンピュータによって実行される、不均衡標本データの前処理方法であって、
データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得するステップと、
予め設定された分類ルールに従って前記初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第1クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第2クラスの標本集合とを取得するステップと、
前記第1クラスの標本集合におけるK個の第1標本点を抽出するステップと、
K個の前記第1標本点を特徴解析して、前記第1クラスの標本集合の追加データ特徴を取得するステップと、
第1クラスの標本集合に対応する第1クラスのラベルを取得し、かつ前記第1クラスのラベルに基づいて前記第1クラスの標本集合の追加データラベルを生成するステップと、
前記第1クラスの標本集合の数と前記第2クラスの標本集合の数をそれぞれ取得し、かつ前記第1クラスの標本集合の数と前記第2クラスの標本集合の数との比率を算出するステップと、
前記追加データ特徴及び前記追加データラベルに基づいて前記第1クラスの標本集合の追加データを生成し、かつ前記比率に応じて前記追加データの数を調整して、前記第1クラスの標本集合の数を増加させるステップと、を含むことを特徴とする方法。
【請求項2】
データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得する前記ステップは、
前記データ取得要求に応じてデータベースから生データを取得するステップと、
前記生データに対応するデータタイプを取得するステップと、
予め設定されたデータタイプと処理方式との対応関係を取得するステップと、
前記処理方式に応じて、各データタイプに対応する生データに対してデータ処理を行って、初期データを取得するステップと、を含むことを特徴とする請求項1に記載の方法。
【請求項3】
予め設定された分類ルールに従って前記初期データを分類して、複数の第1クラスの標本集合と第2クラスの標本集合とを取得する前記ステップは、
前記初期データに対応するデータタイプに基づいて、各データタイプに対応する標本集合を得るステップと、
前記標本集合の初期データのデータ量を算出するステップと、
各標本集合の前記データ量を予め設定されたデータ量閾値と照合し、データ量が前記データ量閾値を超えると、対応する標本集合に基づいて、第2クラスの標本集合を得るステップと、
前記データ量が前記データ量閾値よりも小さいと、対応する標本集合に基づいて、第1クラスの標本集合を得るステップと、を含むことを特徴とする請求項1に記載の方法。
【請求項4】
前記第1クラスの標本集合におけるK個の第1標本点を抽出する前記ステップは、
前記第1クラスの標本集合から1つの標本集合を任意に抽出し、第1標本集合を得るステップと、
前記第1標本集合における全ての第1標本点から、第1クラスの標本集合における他の標本集合の各標本点までの距離をそれぞれ算出するステップと、
前記第1標本点を前記距離に応じて並び替えて、前K個の第1標本点を取得するステップと、を含むことを特徴とする請求項1乃至3のいずれか一項に記載の方法。
【請求項5】
前記第1標本集合における全ての第1標本点から、第1クラスの標本集合における各標本点までのユークリッド距離をそれぞれ算出するステップと、
前記ユークリッド距離を小さい順に並び替えるステップと、
前記ユークリッド距離の並び順に基づいて、前記前K個のユークリッド距離に対応する第1標本点を取得するステップと、をさらに含むことを特徴とする請求項4に記載の方法。
【請求項6】
K個の前記第1標本点を特徴解析して、追加データ特徴を取得する前記ステップは、
K個の前記第1標本点の特徴を抽出するステップと、
前記特徴を解析処理して、特徴属性を取得するステップと、
前記特徴属性に基づいてK個の前記第1標本点をそれぞれ特徴抽出して、K個の前記第1標本点の共通特徴をそれぞれ取得するステップと、
前記共通特徴に基づいて対応する共通特徴組み合わせを形成し、かつ前記共通特徴組み合わせに含まれる共通特徴の数を算出するステップと、
前記共通特徴組み合わせを前記共通特徴の数に応じて並び替えて、最大数に対応する共通特徴組み合わせを取得するステップと、
前記最大数に対応する共通特徴組み合わせに基づいて、追加データ特徴を生成するステップと、を含むことを特徴とする請求項1乃至3のいずれか一項に記載の方法。
【請求項7】
不均衡標本データの前処理装置であって、
データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得するための初期データ取得モジュールと、
予め設定された分類ルールに従って前記初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第1クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第2クラスの標本集合とを取得するための分類モジュールと、
前記第1クラスの標本集合におけるK個の第1標本点を抽出するための抽出モジュールと、
K個の前記第1標本点を特徴解析して、前記第1クラスの標本集合の追加データ特徴を取得するための追加データ特徴取得モジュールと、
第1クラスの標本集合に対応する第1クラスのラベルを取得し、かつ前記第1クラスのラベルに基づいて前記第1クラスの標本集合の追加データラベルを生成するための追加データラベル生成モジュールと、
前記第1クラスの標本集合の数と前記第2クラスの標本集合の数をそれぞれ取得し、かつ前記第1クラスの標本集合の数と前記第2クラスの標本集合の数との比率を算出するための比率算出モジュールと、
前記追加データ特徴及び前記追加データラベルに基づいて前記第1クラスの標本集合の追加データを生成し、かつ前記比率に応じて前記追加データの数を調整して、前記第1クラスの標本集合の数を増加させるための追加データ生成モジュールと、を含むことを特徴とする装置。
【請求項8】
前記初期データ取得モジュールは、さらに、
前記データ取得要求に応じてデータベースから生データを取得することと、
前記生データに対応するデータタイプを取得することと、
予め設定されたデータタイプと処理方式との対応関係を取得することと、
前記処理方式に応じて、各データタイプに対応する生データに対してデータ処理を行って、初期データを取得することと、に用いられることを特徴とする請求項7に記載の装置。
【請求項9】
前記分類モジュールは、さらに、
前記初期データに対応するデータタイプに基づいて、各データタイプに対応する標本集合を得ることと、
前記標本集合の初期データのデータ量を算出することと、
各標本集合の前記データ量を予め設定されたデータ量閾値と照合し、データ量が前記データ量閾値を超えると、対応する標本集合に基づいて、第2クラスの標本集合を得ることと、
前記データ量が前記データ量閾値よりも小さいと、対応する標本集合に基づいて、第1クラスの標本集合を得ることと、に用いられることを特徴とする請求項7に記載の装置。
【請求項10】
コンピュータ機器であって、メモリと1つ又は複数のプロセッサとを含み、前記メモリには、コンピュータ読取可能な命令が記憶されており、前記コンピュータ読取可能な命令は、前記1つ又は複数のプロセッサによって実行されるとき、前記1つ又は複数のプロセッサに、
データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得するステップと、
予め設定された分類ルールに従って前記初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第1クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第2クラスの標本集合とを取得するステップと、
前記第1クラスの標本集合におけるK個の第1標本点を抽出するステップと、
K個の前記第1標本点を特徴解析して、前記第1クラスの標本集合の追加データ特徴を取得するステップと、
第1クラスの標本集合に対応する第1クラスのラベルを取得し、かつ前記第1クラスのラベルに基づいて前記第1クラスの標本集合の追加データラベルを生成するステップと、
前記第1クラスの標本集合の数と前記第2クラスの標本集合の数をそれぞれ取得し、かつ前記第1クラスの標本集合の数と前記第2クラスの標本集合の数との比率を算出するステップと、
前記追加データ特徴及び前記追加データラベルに基づいて前記第1クラスの標本集合の追加データを生成し、かつ前記比率に応じて前記追加データの数を調整して、前記第1クラスの標本集合の数を増加させるステップと、を実行させるコンピュータ機器。
【請求項11】
前記プロセッサは、前記コンピュータ読取可能な命令を実行するとき、さらに、
前記データ取得要求に応じてデータベースから生データを取得するステップと、
前記生データに対応するデータタイプを取得するステップと、
予め設定されたデータタイプと処理方式との対応関係を取得するステップと、
前記処理方式に応じて、各データタイプに対応する生データに対してデータ処理を行って、初期データを取得するステップと、を実行することを特徴とする請求項10に記載のコンピュータ機器。
【請求項12】
前記プロセッサは、前記コンピュータ読取可能な命令を実行するとき、さらに、
前記初期データに対応するデータタイプに基づいて、各データタイプに対応する標本集合を得るステップと、
前記標本集合の初期データのデータ量を算出するステップと、
各標本集合の前記データ量を予め設定されたデータ量閾値と照合し、データ量が前記データ量閾値を超えると、対応する標本集合に基づいて、第2クラスの標本集合を得るステップと、
前記データ量が前記データ量閾値よりも小さいと、対応する標本集合に基づいて、第1クラスの標本集合を得るステップと、を実行することを特徴とする請求項10に記載のコンピュータ機器。
【請求項13】
前記プロセッサは、前記コンピュータ読取可能な命令を実行するとき、さらに、
前記第1クラスの標本集合から1つの標本集合を任意に抽出し、第1標本集合を得るステップと、
前記第1標本集合における全ての第1標本点から、第1クラスの標本集合における他の標本集合の各標本点までの距離をそれぞれ算出するステップと、
前記第1標本点を前記距離に応じて並び替えて、前K個の第1標本点を取得するステップと、を実行することを特徴とする請求項10乃至12のいずれか一項に記載のコンピュータ機器。
【請求項14】
前記プロセッサは、前記コンピュータ読取可能な命令を実行するとき、さらに、
前記第1標本集合における全ての第1標本点から、第1クラスの標本集合における各標本点までのユークリッド距離をそれぞれ算出するステップと、
前記ユークリッド距離を小さい順に並び替えるステップと、
前記ユークリッド距離の並び順に基づいて、前記前K個のユークリッド距離に対応する第1標本点を取得するステップと、を実行することを特徴とする請求項13に記載のコンピュータ機器。
【請求項15】
コンピュータ読取可能な命令が記憶された1つ又は複数の不揮発性コンピュータ読取可能な記憶媒体であって、前記コンピュータ読取可能な命令は、1つ又は複数のプロセッサによって実行されるとき、前記1つ又は複数のプロセッサに、
データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得するステップと、
予め設定された分類ルールに従って前記初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第1クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第2クラスの標本集合とを取得するステップと、
前記第1クラスの標本集合におけるK個の第1標本点を抽出するステップと、
K個の前記第1標本点を特徴解析して、前記第1クラスの標本集合の追加データ特徴を取得するステップと、
第1クラスの標本集合に対応する第1クラスのラベルを取得し、かつ前記第1クラスのラベルに基づいて前記第1クラスの標本集合の追加データラベルを生成するステップと、
前記第1クラスの標本集合の数と前記第2クラスの標本集合の数をそれぞれ取得し、かつ前記第1クラスの標本集合の数と前記第2クラスの標本集合の数との比率を算出するステップと、
前記追加データ特徴及び前記追加データラベルに基づいて前記第1クラスの標本集合の追加データを生成し、かつ前記比率に応じて前記追加データの数を調整して、前記第1クラスの標本集合の数を増加させるステップと、を実行させることを特徴とする記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本願は、2018年9月3日に中国国家知識産権局に提出された、出願番号2018110189130、出願の名称「不均衡標本データの前処理方法、装置及びコンピュータ機器」の中国特許出願の優先権を主張し、その内容の全てが参照によって本願に組み込まれる。
【0002】
本願は、不均衡標本データの前処理方法、装置、コンピュータ機器、及び記憶媒体に関する。
【背景技術】
【0003】
コンピュータ技術及び社会の情報化の進展に伴い、実際の製造及び応用では、大量のデータに対してデータ処理を行う必要があり、取得した生データが不均衡データに属していることが多く、即ち、データセット標本空間全体のうち1クラスの標本と残りの1クラス又は複数のクラスの標本には、大きな差異がある。
【0004】
現在、標本が不均衡である場合、即ち、2クラスのラベルに対応するデータ量の差異が非常に大きい場合には、標本量の少ないデータセットに対しては、一般的に、オーバーサンプリングを用いて標本を均衡させる。従来の、SMOTEアルゴリズムのようなオーバーサンプリングアルゴリズムで生成し得た新データは、X_new=X+rand(0,1)*(X_mean-X)に基づいて、(0,1)の間の新データとなる。
【0005】
しかしながら、本発明者らは、現在、不均衡標本に対する従来の処理方法では、生成した新データが実データの基準を満たすことができず、標本が不均衡であるという問題も存在することに注意した。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本願の開示する様々な実施例によれば、不均衡標本データの前処理方法、装置、コンピュータ機器、及び記憶媒体を提供する。
【課題を解決するための手段】
【0007】
不均衡標本データの前処理方法であって、データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得するステップと、予め設定された分類ルールに従って前記初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第1クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第2クラスの標本集合とを取得するステップと、前記第1クラスの標本集合におけるK個の第1標本点を抽出するステップと、K個の前記第1標本点を特徴解析して、前記第1クラスの標本集合の追加データ特徴を取得するステップと、第1クラスの標本集合に対応する第1クラスのラベルを取得し、かつ前記第1クラスのラベルに基づいて前記第1クラスの標本集合の追加データラベルを生成するステップと、前記第1クラスの標本集合の数と前記第2クラスの標本集合の数をそれぞれ取得し、かつ前記第1クラスの標本集合の数と前記第2クラスの標本集合の数との比率を算出するステップと、前記追加データ特徴及び前記追加データラベルに基づいて前記第1クラスの標本集合の追加データを生成し、かつ前記比率に応じて前記追加データの数を調整して、前記第1クラスの標本集合の数を増加させるステップと、を含む。
【0008】
不均衡標本データの前処理装置であって、データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得するための初期データ取得モジュールと、予め設定された分類ルールに従って前記初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第1クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第2クラスの標本集合とを取得するための分類モジュールと、前記第1クラスの標本集合におけるK個の第1標本点を抽出するための抽出モジュールと、K個の前記第1標本点を特徴解析して、前記第1クラスの標本集合の追加データ特徴を取得するための追加データ特徴取得モジュールと、第1クラスの標本集合に対応する第1クラスのラベルを取得し、かつ前記第1クラスのラベルに基づいて前記第1クラスの標本集合の追加データラベルを生成するための追加データラベル生成モジュールと、前記第1クラスの標本集合の数と前記第2クラスの標本集合の数をそれぞれ取得し、かつ前記第1クラスの標本集合の数と前記第2クラスの標本集合の数との比率を算出するための比率算出モジュールと、前記追加データ特徴及び前記追加データラベルに基づいて前記第1クラスの標本集合の追加データを生成し、かつ前記比率に応じて前記追加データの数を調整して、前記第1クラスの標本集合の数を増加させるための追加データ生成モジュールと、を含む。
【0009】
コンピュータ機器であって、メモリと1つ又は複数のプロセッサとを含み、前記メモリには、コンピュータ読取可能な命令が記憶されており、前記コンピュータ読取可能な命令は、前記プロセッサによって実行されるとき、前記1つ又は複数のプロセッサに、データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得するステップと、予め設定された分類ルールに従って前記初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第1クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第2クラスの標本集合とを取得するステップと、前記第1クラスの標本集合におけるK個の第1標本点を抽出するステップと、K個の前記第1標本点を特徴解析して、前記第1クラスの標本集合の追加データ特徴を取得するステップと、第1クラスの標本集合に対応する第1クラスのラベルを取得し、かつ前記第1クラスのラベルに基づいて前記第1クラスの標本集合の追加データラベルを生成するステップと、前記第1クラスの標本集合の数と前記第2クラスの標本集合の数をそれぞれ取得し、かつ前記第1クラスの標本集合の数と前記第2クラスの標本集合の数との比率を算出するステップと、前記追加データ特徴及び前記追加データラベルに基づいて前記第1クラスの標本集合の追加データを生成し、かつ前記比率に応じて前記追加データの数を調整して、前記第1クラスの標本集合の数を増加させるステップと、を実行させる。
【0010】
コンピュータ読取可能な命令が記憶された1つ又は複数の不揮発性コンピュータ読取可能な記憶媒体であって、コンピュータ読取可能な命令は、1つ又は複数のプロセッサによって実行されるとき、1つ又は複数のプロセッサに、データ取得要求を受信し、かつ前記データ取得要求に応じて初期データを取得するステップと、予め設定された分類ルールに従って前記初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第1クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第2クラスの標本集合とを取得するステップと、前記第1クラスの標本集合におけるK個の第1標本点を抽出するステップと、K個の前記第1標本点を特徴解析して、前記第1クラスの標本集合の追加データ特徴を取得するステップと、第1クラスの標本集合に対応する第1クラスのラベルを取得し、かつ前記第1クラスのラベルに基づいて前記第1クラスの標本集合の追加データラベルを生成するステップと、前記第1クラスの標本集合の数と前記第2クラスの標本集合の数をそれぞれ取得し、かつ前記第1クラスの標本集合の数と前記第2クラスの標本集合の数との比率を算出するステップと、前記追加データ特徴及び前記追加データラベルに基づいて前記第1クラスの標本集合の追加データを生成し、かつ前記比率に応じて前記追加データの数を調整して、前記第1クラスの標本集合の数を増加させるステップと、を実行させる。
【0011】
本願の他の特徴及び利点は、明細書、添付の図面及び特許請求の範囲から明らかになる。
【図面の簡単な説明】
【0012】
本願の実施例の技術的解決手段をより明確に説明するために、実施例を説明するのに必要な添付の図面を以下で簡単に紹介するが、明らかに、以下の説明において添付の図面は単に本願のいくつかの実施例であり、当業者であれば、創造的な労力を要することなく、これらの図面に基づいて他の図面を得ることもできる。
図1】1つ又は複数の実施例に係る不均衡標本データの前処理方法の応用シーン図である。
図2】1つ又は複数の実施例に係る不均衡標本データの前処理方法のフローチャートである。
図3】1つ又は複数の実施例に係るK個の第1標本点に対して特徴分析を行って、追加データ特徴を取得するフローチャートである。
図4】1つ又は複数の実施例に係る不均衡標本データの前処理装置のブロック図である。
図5】1つ又は複数の実施例に係るコンピュータ機器のブロック図である。
【発明を実施するための形態】
【0013】
本願の技術的解決手段及び利点をさらに明確にするために、以下、図面及び実施例を参照しながら、本願をさらに詳細に説明する。なお、ここに記載された具体的な実施例は、あくまでも本願を解釈するためのものであり、本願を限定するものではない。
【0014】
本願に係る不均衡標本データの前処理方法は、図1に示すような応用環境に適用することができる。端末102とサーバ104とは、ネットワークを介して通信を行う。サーバ104は、端末102から送信されたデータ取得要求を受信し、かつデータ取得要求に応じて初期データを取得する。予め設定された分類ルールに従って初期データを分類して、第1クラスの標本集合と第2クラスの標本集合とを取得する。第1クラスの標本集合における各標本集合の標本数はデータ量閾値よりも少なく、第2クラスの標本集合における各標本集合の数はデータ量閾値よりも大きい。第1クラスの標本集合におけるK個の第1標本点を抽出し、K個の第1標本点を特徴解析して、第1クラスの標本集合の追加データ特徴を取得する。第1クラスの標本集合に対応する第1クラスのラベルを取得し、かつ第1クラスのラベルに基づいて第1クラスの標本集合の追加データラベルを生成する。第1クラスの標本集合の数と第2クラスの標本集合の数をそれぞれ取得し、かつ第1クラスの標本集合の数と第2クラスの標本集合の数との比率を算出する。追加データ特徴及び追加データラベルに基づいて第1クラスの標本集合の追加データを生成し、かつ比率に応じて追加データの数を調整して、第1クラスの標本集合の数を増加させる。端末102は、様々なパーソナルコンピュータ、ノート型パーソナルコンピュータ、スマートフォン、タブレット型コンピュータ、及び携帯型ウェアラブルデバイスであってもよいが、それらに限定されないものであり、サーバ104は、別個のサーバであってもよいし、複数のサーバからなるサーバクラスタであってもよい。
【0015】
一実施例では、図2に示すように、不均衡標本データの前処理方法を提供し、該方法を図1のサーバに適用した場合を例にして説明するが、以下のステップを含む。
【0016】
S202、サーバは、端末から送信されたデータ取得要求を受信し、かつデータ取得要求に応じて初期データを取得する。
【0017】
具体的には、異なるデータ取得要求が異なる初期データに対応し、サーバは、予め設定されたデータ取得要求と初期データとの対応関係に基づいて、端末から送信されたデータ取得要求に対応する初期データを取得することができる。データ取得要求が、データ識別子を搬送し、サーバは、データ識別子と初期データとの対応関係に基づいて、データ識別子に対応する初期データを取得することができる。
【0018】
モデル化フェーズを例にすると、端末は、大量の標本データを取得してモデル確立を実現する必要があり、サーバは、端末から送信されたモデル化データ取得要求を受信し、かつモデル化データ取得要求が搬送するモデル化データ識別子を抽出し、予め設定されたモデル化データ識別子と初期データとの対応関係を取得し、モデル化データ識別子に対応する初期データを取得する。
【0019】
サーバは、データ取得要求に応じてデータベースから生データを取得し、かつ生データに対応するデータタイプを取得する。予め設定されたデータタイプと処理方式との対応関係を取得し、処理方式に応じて、各データタイプに対応する生データに対してデータ処理を行って、初期データを取得する。
【0020】
S204、サーバは、予め設定された分類ルールに従って初期データを分類して、各標本集合の標本数がデータ量閾値よりも少ない第1クラスの標本集合と、各標本集合の数がデータ量閾値よりも大きい第2クラスの標本集合とを取得する。
【0021】
具体的には、予め設定された分類ルールは、データ量閾値に基づいて初期データを分類するルールであり、サーバは、標本数がデータ量閾値よりも少ない初期データを第1クラスの標本集合に分け、標本数がデータ量閾値よりも多い初期データを第2クラスの標本集合に分ける。
【0022】
モデル化フェーズを例にすると、取得可能な初期データが不均衡データに属していることが多く、即ち、データセット標本空間全体のうち1クラスの標本と残りの1クラス又は複数のクラスの標本とには、大きな差異がある。本実施例では、サーバは、予め設定されたデータ量閾値に基づいて、取得した初期データを分類して、第1クラスの標本集合、即ち、標本数がデータ量閾値よりも少ない初期データを得ることができる。サーバは、さらに、標本数がデータ量閾値よりも多い初期データを、第2クラスの標本集合に分けることもできる。
【0023】
第1クラスの標本集合は、複数の第1標本点を含む複数の第1クラスの標本を含み、第1クラスの標本の数は、予め設定されたデータ量閾値よりも少ないため、第1クラスの標本集合は、少数クラス標本集合とも呼ばれ、その対応する標本は、少数クラス標本とも呼ばれ、第1標本点は、少数クラス標本点と呼ばれてもよい。第2クラスの標本集合は、複数の第2標本点を含む複数の第2クラスの標本を含み、第2クラスの標本の数は、予め設定されたデータ量閾値よりも大きいため、第2クラスの標本集合は、多数クラス標本集合とも呼ばれ、その対応する標本は、多数クラス標本とも呼ばれ、第2標本点は、多数クラス標本点と呼ばれてもよい。
【0024】
S206、サーバは、第1クラスの標本集合におけるK個の第1標本点を抽出する。
【0025】
具体的には、第1クラスの標本集合は、複数の第1標本点を含む複数の第1クラスの標本を含む。サーバは、第1クラスの標本集合から1つの標本集合を任意に抽出して、第1標本集合を得る。第1標本集合における全ての第1標本点から、第1クラスの標本集合における他の標本集合の各標本点までの距離をそれぞれ算出し、かつ第1標本点を距離に応じて並び替えて、前K個の第1標本点を取得する。
【0026】
サーバは、第1標本集合における全ての第1標本点から、第1クラスの標本集合における各標本点までのユークリッド距離をそれぞれ算出し、かつユークリッド距離を小さい順に並び替え、ユークリッド距離の並び順に基づいて、前K個のユークリッド距離に対応する第1標本点を取得する。
【0027】
ユークリッド距離は、m次元空間における2つの点の間の実距離、又はベクトルの自然長、即ち、該点から原点までの距離を表す。しかしながら、二次元と三次元空間でのユークリッド距離は、二点の間の実際の距離である。算出されたユークリッド距離を小さい順に並べ、かつ並び順における前K個のユークリッド距離に対応する第1標本点を取得し、即ち、取得した第1標本点が、前K個の最小ユークリッド距離に対応する標本点である。
【0028】
S208、サーバは、K個の第1標本点を特徴解析して、第1クラスの標本集合の追加データ特徴を取得する。
【0029】
具体的には、サーバは、K個の第1標本点の特徴を抽出し、かつ特徴を解析処理して、特徴属性を取得する。特徴属性に基づいてK個の第1標本点をそれぞれ特徴抽出して、K個の第1標本点の共通特徴をそれぞれ取得する。共通特徴に基づいて対応する共通特徴組み合わせを形成し、かつ共通特徴組み合わせに含まれる共通特徴の数を算出し、共通特徴組み合わせを共通特徴の数に応じて並び替えて、最大数に対応する共通特徴組み合わせを取得する。最大数に対応する共通特徴組み合わせに基づいて、追加データ特徴を生成する。特徴属性は、第1標本点の備える特徴に対して解析処理を行った後に得られた第1標本点の特徴に関する属性を表し、特徴が属するクラス及び特徴の定義を含む。特徴抽出とは、コンピュータを用いて画像情報を抽出し、各画像の点が1つの画像特徴に属するか否かを決定するということである。
【0030】
サーバは、得られた共通特徴に基づいて、対応する共通特徴組み合わせを形成する。異なる共通特徴組み合わせに含まれる共通特徴の数を算出し、算出された共通特徴の数の大きさに応じて共通特徴組み合わせを並び替えて、最大数に対応する共通特徴組み合わせを取得する。例えば、異なる共通特徴組み合わせに含まれる共通特徴の数は、4、5、3、6、2であり、並び替えた後に得られた共通特徴の数は、6、5、4、3、2であり、取得された最大数に対応する共通特徴組み合わせは、即ち、共通特徴の数が6であることに対応する共通特徴組み合わせである。サーバは、算出された最大数に対応する共通特徴組み合わせを取得し、かつ該共通特徴組み合わせに含まれる共通特徴を取得し、複数の共通特徴を追加データ特徴として、追加データ特徴は、追加された第1クラスの標本集合に含まれる標本データに対応する特徴である。
【0031】
S210、サーバは、第1クラスの標本集合に対応する第1クラスのラベルを取得し、かつ第1クラスのラベルに基づいて第1クラスの標本集合の追加データラベルを生成する。
【0032】
具体的には、サーバは、第1クラスの標本集合における第1クラスの標本を取得し、予め設定された第1クラスの標本と第1クラスのラベルとの対応関係に基づいて、第1クラスの標本に対応する第1クラスのラベルを取得する。第1クラスの標本集合は、複数の第1クラスの標本を含み、異なる第1クラスの標本は、異なる第1クラスのラベルに対応し、サーバは、第1クラスの標本と第1クラスのラベルとの対応関係に基づいて、異なる第1クラスの標本に対応する第1クラスのラベルをそれぞれ取得し、取得した第1クラスのラベルに基づいて、追加データラベルを生成することができる。追加データラベルは、第1クラスの標本集合に対して追加されたデータが搬送したラベルを示し、追加データラベル及び追加データ特徴に基づいて第1クラスの標本集合の追加データを生成することができる。
【0033】
S212、サーバは、第1クラスの標本集合の数と第2クラスの標本集合の数をそれぞれ取得し、かつ第1クラスの標本集合の数と第2クラスの標本集合の数との比率を算出する。
【0034】
S214、サーバは、追加データ特徴及び追加データラベルに基づいて第1クラスの標本集合の追加データを生成し、かつ比率に応じて追加データの数を調整して、第1クラスの標本集合の数を増加させる。
【0035】
具体的には、サーバは、第1標本集合の数、即ち、第1標本集合における標本点の数を取得し、かつ第2クラスの標本集合の数、即ち、第2標本集合における標本点の数を取得し、かつ第1標本集合における標本点の数と第2標本集合における標本点の数との比率を算出し、算出された比率に基づいて、追加データの数を調整して、第1クラスの標本集合における標本点の数を増加させて、第1クラスの標本集合と第2クラスの標本集合が均衡状態となるようにする。サーバは追加データ特徴及び追加データラベルに基づいて第1クラスの標本集合の追加データを生成し、つまり、追加データは、追加データ特徴及び追加データラベルにより生成される。
【0036】
サーバが取得した第1標本集合における標本点の数が20であり、取得した第2標本集合における標本点の数が50であり、第1クラスの標本集合の数と第2クラスの標本集合の数との比率が2:5であると算出され、算出された比率に基づいて、追加データの数を調整して、30単位の追加データを生成して第1クラスの標本集合と第2クラスの標本集合との均衡を取ると共に、追加データが追加データ特徴と追加データラベルとによって生成される。
【0037】
上記不均衡標本データの前処理方法において、サーバは、予め設定された分類ルールに従って初期データを分類し、第1クラスの標本集合と第2クラスの標本集合を取得する。K個の第1標本点を抽出して特徴解析を行い、取得された第1クラスの標本集合の追加データ特徴に基づいて第1クラスの標本集合の追加データラベルを生成する。第1クラスの標本集合の数と第2クラスの標本集合の数との比率を算出する。追加データ特徴及び追加データラベルに基づいて第1クラスの標本集合の追加データを生成し、かつ比率に応じて追加データの数を調整して、第1クラスの標本集合の数を増加させることにより、第1クラスの標本集合と第2クラスの標本集合の数が均衡状態になり、さらに、標本の不均衡問題が解決される。
【0038】
一実施例では、図3に示すように、K個の第1標本点を特徴解析して、追加データ特徴を取得するステップを提供し、以下を含む。
【0039】
S302、サーバは、K個の第1標本点の特徴を抽出する。
【0040】
S304、サーバは、特徴を解析処理して、特徴属性を取得する。
【0041】
具体的には、サーバは、K個の第1標本点の特徴を抽出して、K個の第1標本点の特徴を取得した後、特徴を解析処理して、特徴が属するクラス及び特徴の定義を含む特徴の属性を取得する。K個の第1標本点のうちいずれかの第1標本点を例にすると、サーバは、該第1標本点の特徴を抽出し、特徴を解析処理して、異なる特徴が属するクラス及び異なる特徴のそれぞれの定義を含む対応する特徴の属性を取得する。
【0042】
S306、サーバは、特徴属性に基づいてK個の第1標本点をそれぞれ特徴抽出して、K個の第1標本点の共通特徴をそれぞれ取得する。
【0043】
具体的には、特徴抽出とは、コンピュータを用いて画像情報を抽出し、各画像の点が1つの画像特徴に属するか否かを決定するということである。サーバは、特徴抽出により、K個の第1標本点のそれぞれの共通特徴を取得することができる。特徴が属するクラスを判定し、かつ異なる第1標本点を特徴が属するクラスに応じて分類する。サーバは、異なる特徴の定義を抽出し、かつ特徴の定義に基づいて異なる特徴の交差点を取得し、その交差点を抽出して、異なる特徴間の共通特徴を取得する。
【0044】
S308、サーバは、共通特徴に基づいて対応する共通特徴組み合わせを形成し、かつ共通特徴組み合わせに含まれる共通特徴の数を算出する。
【0045】
S310、サーバは、共通特徴組み合わせを共通特徴の数に応じて並び替え、最大数に対応する共通特徴組み合わせを取得する。
【0046】
具体的には、サーバは、取得された共通特徴に基づいて、対応する共通特徴組み合わせを形成する。異なる共通特徴組み合わせに含まれる共通特徴の数を算出し、算出された共通特徴の数の大きさに応じて共通特徴組み合わせを並び替えて、最大数に対応する共通特徴組み合わせを取得する。例えば、異なる共通特徴組み合わせに含まれる共通特徴の数は、2、7、4、6、9であり、並び替えた後に得られた共通特徴の数は、9、7、6、4、2であり、取得された最大数に対応する共通特徴組み合わせは、即ち、共通特徴の数が9であることに対応する共通特徴組み合わせである。
【0047】
S312、サーバは、最大数に対応する共通特徴組み合わせに基づいて、追加データ特徴を生成する。
【0048】
具体的には、サーバは、算出された最大数に対応する共通特徴組み合わせを取得し、かつ該共通特徴組み合わせに含まれる共通特徴を取得し、複数の共通特徴を追加データ特徴として、追加データ特徴は、追加された第1クラスの標本集合に含まれる標本データに対応する特徴である。
【0049】
K個の第1標本点を特徴解析して、追加データ特徴を取得する上記ステップでは、サーバは、K個の第1標本点の特徴を解析処理して、特徴属性を取得し、かつ特徴属性に基づいてK個の第1標本点をそれぞれ特徴抽出して、K個の第1標本点の共通特徴をそれぞれ取得する。共通特徴に基づいて対応する共通特徴組み合わせを形成し、かつ共通特徴組み合わせに含まれる共通特徴の数を算出し、共通特徴組み合わせを共通特徴の数に応じて並び替えて、最大数に対応する共通特徴組み合わせを取得する。最大数に対応する共通特徴組み合わせに基づいて、追加データ特徴を生成することにより、生成した追加データ特徴は、第1クラスの標本集合に対応する特徴を最大限に含み、追加データと第1標本集合における標本点との類似度を保証することができる。
【0050】
一実施例では、データ取得要求を受信し、かつデータ取得要求に応じて初期データを取得するステップを提供し、サーバがデータ取得要求に応じてデータベースから生データを取得するステップと、生データに対応するデータタイプを取得するステップと、予め設定されたデータタイプと処理方式との対応関係を取得するステップと、処理方式に応じて、各データタイプに対応する生データに対してデータ処理を行って、初期データを取得するステップとを含む。
【0051】
具体的には、異なる生データは、異なるデータタイプに対応し、データタイプは、デジタル型、バイト型、及びテキスト型等を含み、対応する生データは、デジタル型生データ、バイト型生データ、及びテキスト型生データを含む。サーバは、予め設定されたデータタイプと生データとの対応関係に基づいて、生データに対応するデータタイプを取得することができる。異なるデータタイプは、異なる処理方式に対応し、データタイプは、デジタル型、バイト型、及びテキスト型等を含み、対応する処理方式は、判定処理、代入処理及び宣言処理である。
【0052】
さらに、デジタル型生データに対して、判定処理を実行し、予め設定された値範囲を取得し、予め設定された値範囲をデジタル型生データの値と照合し、デジタル型生データの値が予め設定された値範囲に合致するか否かを判定し、予め設定された値範囲に合致するデジタル型生データを抽出し、デジタル型初期データを生成する。バイト型生データに対して、代入処理を実行し、バイト型生データの値が予め設定された値に合致するか否かを判定し、バイト型生データの値が予め設定された値に合致しない場合、対応するバイト型生データに予め設定された値を代入し、かつ代入されたバイト型生データに基づいて、バイト型初期データを生成する。テキスト型生データに対して、宣言処理を実行し、テキスト型生データの組成成分を取得し、組成成分と予め設定された組成成分とに基づいて照合を行い、テキスト型生データの組成成分と予め設定された組成成分とが一致しない場合に、テキスト型生データを予め設定された組成成分と宣言する。
【0053】
受信データ要求を受信し、かつデータ取得要求に応じて初期データを取得する上記ステップは、データタイプに応じて生データに対してデータ処理を行って、データタイプ別に意図的に初期データを生成し、作業効率を向上させる。
【0054】
一実施例では、予め設定された分類ルールに従って初期データを分類して、複数の第1クラスの標本集合と第2クラスの標本集合とを取得するステップを提供し、サーバが初期データに対応するデータタイプに基づいて、各データタイプに対応する標本集合を得るステップと、標本集合の初期データのデータ量を算出するステップと、各標本集合のデータ量を予め設定されたデータ量閾値と照合し、データ量がデータ量閾値を超えると、対応する標本集合に基づいて、第2クラスの標本集合を得るステップと、データ量がデータ量閾値よりも小さいと、対応する標本集合に基づいて、第1クラスの標本集合を得るステップとを含む。
【0055】
具体的には、サーバは、予め設定された初期データとデータタイプとの対応関係に基づいて、初期データに対応するデータタイプを取得し、かつ各データタイプに対応する標本集合を取得する。サーバは、標本集合の初期データに対応するデータ量を算出し、かつ各標本集合のデータ量を予め設定されたデータ量閾値とそれぞれ照合し、各標本集合のデータ量が予め設定されたデータ量閾値を超えるか否かを判定する。データ量がデータ量閾値を超えると、データ量がデータ量閾値を超えた標本集合が第2クラスの標本集合であることを示す。データ量がデータ量閾値より下回ると、データ量がデータ量閾値より下回る標本集合が第1クラスの標本集合であることを示す。
【0056】
データタイプは、デジタル型、バイト型、及びテキスト型等を含み、対応する標本集合は、デジタル型標本集合、バイト型標本集合、及びテキスト型標本集合である。サーバは、デジタル型初期データに基づいて対応するデジタル型データタイプを取得し、かつ対応するデジタル型標本集合を取得することができる。同様に、サーバは、それぞれ、バイト型初期データ、テキスト型初期データに基づいて、対応するバイト型データタイプ及びテキスト型データタイプを取得し、さらに、対応するバイト型標本集合及びテキスト型標本集合を取得することができる。
【0057】
さらに、データ量閾値を100個とし、取得された各標本集合のデータ量をそれぞれ80個、95個、108個、及び120個とすれば、そのうちデータ量が80個と95個の標本集合が第1クラスの標本集合となり、データ量が108個と120個の標本集合が第2クラスの標本集合となる。
【0058】
予め設定された分類ルールに従って初期データを分類して、複数の第1クラスの標本集合と第2クラスの標本集合を取得する上記ステップは、標本集合をデータ量の大きさに応じて予め分類しておくことにより、第1クラスの標本集合と第2クラスの標本集合を取得し、データを追加する必要がある標本集合をできるだけ早く知り、データの追加プロセスを速め、作業効率を向上させる。
【0059】
一実施例では、第1クラスの標本集合におけるK個の第1標本点を抽出するステップを提供し、サーバが第1クラスの標本集合から1つの標本集合を任意に抽出し、第1標本集合を得るステップと、第1標本集合における全ての第1標本点から、第1クラスの標本集合における他の標本集合の各標本点までの距離をそれぞれ算出するステップと、第1標本点を距離に応じて並び替えて、前K個の第1標本点を取得するステップとを含む。
【0060】
具体的には、第1クラスの標本集合は、複数の第1標本点を含む複数の第1クラスの標本を含む。サーバは、第1クラスの標本集合から1つの標本集合を任意に抽出し、第1標本集合を得る。第1標本集合における全ての第1標本点から、第1クラスの標本集合における他の標本集合の各標本点までの距離をそれぞれ算出し、かつ第1標本点を距離の小さい順に並び替えて、前K個の第1標本点を取得する。
【0061】
第1クラスの標本集合におけるK個の第1標本点を抽出する上記ステップは、第1の標本集合における全ての第1標本点から、第1クラスの標本集合における他の標本集合の各標本点までの距離を算出し、かつ前K個の距離に対応する第1標本点を取得することにより、抽出した第1標本点が、前K個の距離が最小となる標本点であることが保証され、標本点の抽出精度が向上する。
【0062】
一実施例では、第1クラスの標本集合におけるK個の第1標本点を抽出するステップを提供し、さらに、サーバが第1標本集合における全ての第1標本点から、第1クラスの標本集合における各標本点までのユークリッド距離をそれぞれ算出するステップと、ユークリッド距離を小さい順に並び替えるステップと、ユークリッド距離の並び順に基づいて、前K個のユークリッド距離に対応する第1標本点を取得するステップとを含む。
【0063】
具体的には、ユークリッド距離は、m次元空間における2つの点の間の実距離、又はベクトルの自然長、即ち、該点から原点までの距離を表す。サーバは、算出されたユークリッド距離を小さい順に並べ、かつ並び順における前K個のユークリッド距離に対応する第1標本点を取得し、即ち、取得した第1標本点が、前K個の最小ユークリッド距離に対応する標本点である。
【0064】
第1クラスの標本集合におけるK個の第1標本点を抽出する上記ステップは、サーバが第1標本集合における全ての第1標本点から、第1クラスの標本集合における各標本点までのユークリッド距離をそれぞれ算出し、かつユークリッド距離を小さい順に並び替える。ユークリッド距離の並び順に基づいて、前K個のユークリッド距離に対応する第1標本点を取得し、さらに、抽出した第1標本点が、前K個のユークリッド距離が最小となる標本点であることが保証され、標本点の抽出精度が向上する。
【0065】
なお、図2~3のフローチャートの各ステップは、矢印の指示に従って順次表示されるものであるが、必ずしも矢印で指示された順序で順次実行されるものではないと理解すべきである。なお、本明細書では明示した説明がない限り、これらのステップの実行は、厳密な順序で限定されるものではなく、他の順序で実行されてもよい。また、図2~3の少なくとも一部のステップは、複数のサブステップ又は複数のフェーズを含んでもよく、これらのサブステップ又はフェーズは、必ずしも同一のタイミングで実行されるものではないが、異なるタイミングで実行されてもよく、これらのサブステップ又はフェーズの実行順序は、必ずしも順番に実行されるものではないが、他のステップ又は他のステップのサブステップ又はフェーズの少なくとも一部と順番に又は交互に実行されてもよい。
【0066】
一実施例では、図4に示すように、初期データ取得モジュール402、分類モジュール404、抽出モジュール406、追加データ特徴取得モジュール408、追加データラベル生成モジュール410、比率算出モジュール412、及び追加データ生成モジュール414を含む、不均衡標本データの前処理装置を提供する。
【0067】
ここで、初期データ取得モジュール402は、データ取得要求を受信し、かつデータ取得要求に応じて初期データを取得するために用いられる。
【0068】
分類モジュール404は、予め設定された分類ルールに従って初期データを分類して、第1クラスの標本集合と第2クラスの標本集合とを取得するために用いられる。第1クラスの標本集合における各標本集合の標本数はデータ量閾値よりも少なく、第2クラスの標本集合における各標本集合の数はデータ量閾値よりも大きい。
【0069】
抽出モジュール406は、第1クラスの標本集合におけるK個の第1標本点を抽出するために用いられる。
【0070】
追加データ特徴取得モジュール408は、K個の第1標本点を特徴解析して、第1クラスの標本集合の追加データ特徴を取得するために用いられる。
【0071】
追加データラベル生成モジュール410は、第1クラスの標本集合に対応する第1クラスのラベルを取得し、かつ第1クラスのラベルに基づいて第1クラスの標本集合の追加データラベルを生成するために用いられる。
【0072】
比率算出モジュール412は、第1クラスの標本集合の数と第2クラスの標本集合の数をそれぞれ取得し、かつ第1クラスの標本集合の数と第2クラスの標本集合の数との比率を算出するために用いられる。
【0073】
追加データ生成モジュール414は、追加データ特徴及び追加データラベルに基づいて第1クラスの標本集合の追加データを生成し、かつ比率に応じて追加データの数を調整して、第1クラスの標本集合の数を増加させるために用いられる。
【0074】
上記不均衡標本データの前処理装置において、サーバは、予め設定された分類ルールに従って初期データを分類して、第1クラスの標本集合と第2クラスの標本集合を取得する。K個の第1標本点を抽出して特徴解析を行い、取得された第1クラスの標本集合の追加データ特徴に基づいて第1クラスの標本集合の追加データラベルを生成する。第1クラスの標本集合の数と第2クラスの標本集合の数との比率を算出する。追加データ特徴及び追加データラベルに基づいて第1クラスの標本集合の追加データを生成し、かつ比率に応じて追加データの数を調整して、第1クラスの標本集合の数を増加させることにより、第1クラスの標本集合と第2クラスの標本集合の数が均衡状態になり、さらに、標本の不均衡問題が解決される。
【0075】
一実施例では、初期データ取得モジュールを提供し、さらに、データ取得要求に応じてデータベースから生データを取得することと、生データに対応するデータタイプを取得することと、予め設定されたデータタイプと処理方式との対応関係を取得することと、処理方式に応じて、各データタイプに対応する生データに対してデータ処理を行って、初期データを取得することと、に用いられる。
【0076】
上記初期データ取得モジュールは、データタイプに応じて生データに対してデータ処理を行うことにより、異なるデータタイプに応じて初期データを意図的に生成し、作業効率を向上させる。
【0077】
一実施例では、分類モジュールを提供し、さらに、初期データに対応するデータタイプに基づいて、各データタイプに対応する標本集合を得ることと、標本集合の初期データのデータ量を算出することと、各標本集合のデータ量を予め設定されたデータ量閾値と照合し、データ量がデータ量閾値を超えると、対応する標本集合に基づいて、第2クラスの標本集合を得ることと、データ量がデータ量閾値よりも小さいと、対応する標本集合に基づいて、第1クラスの標本集合を得ることと、に用いられる。
【0078】
上記分類モジュールは、標本集合をデータ量の大きさに応じて予め分類しておくことにより、第1クラスの標本集合と第2クラスの標本集合を取得し、データを追加する必要がある標本集合をできるだけ早く知り、データの追加プロセスを速め、作業効率を向上させる。
【0079】
一実施例では、抽出モジュールを提供し、さらに、第1クラスの標本集合から1つの標本集合を任意に抽出し、第1標本集合を得ることと、第1標本集合における全ての第1標本点から、第1クラスの標本集合における他の標本集合の各標本点までの距離をそれぞれ算出することと、第1標本点を距離に応じて並び替えて、前K個の第1標本点を取得することと、に用いられる。
【0080】
上記抽出モジュールは、第1の標本集合における全ての第1標本点から、第1クラスの標本集合における他の標本集合の各標本点までの距離を算出し、かつ前K個の距離に対応する第1標本点を取得することにより、抽出した第1標本点が、前K個の距離が最小となる標本点であることが保証され、標本点の抽出精度が向上する。
【0081】
一実施例では、抽出モジュールを提供し、さらに、第1標本集合における全ての第1標本点から、第1クラスの標本集合における各標本点までのユークリッド距離をそれぞれ算出することと、ユークリッド距離を小さい順に並び替えることと、ユークリッド距離の並び順に基づいて、前K個のユークリッド距離に対応する第1標本点を取得することと、に用いられる。
【0082】
上記抽出モジュールについて、サーバが第1標本集合における全ての第1標本点から、第1クラスの標本集合における各標本点までのユークリッド距離をそれぞれ算出し、かつユークリッド距離を小さい順に並び替える。ユークリッド距離の並び順に基づいて、前K個のユークリッド距離に対応する第1標本点を取得し、さらに、抽出した第1標本点が、前K個のユークリッド距離が最小となる標本点であることが保証され、標本点の抽出精度が向上する。
【0083】
一実施例では、追加データ生成モジュールを提供し、さらに、K個の第1標本点の特徴を抽出することと、特徴を解析処理して、特徴属性を取得することと、特徴属性に基づいてK個の第1標本点をそれぞれ特徴抽出して、K個の第1標本点の共通特徴をそれぞれ取得することと、共通特徴に基づいて対応する共通特徴組み合わせを形成し、かつ共通特徴組み合わせに含まれる共通特徴の数を算出することと、共通特徴組み合わせを共通特徴の数に応じて並び替えて、最大数に対応する共通特徴組み合わせを取得することと、最大数に対応する共通特徴組み合わせに基づいて、追加データ特徴を生成することと、に用いられる。
【0084】
上記追加データ生成モジュールについて、サーバは、K個の第1標本点の特徴を解析処理して、特徴属性を取得し、かつ特徴属性に基づいてK個の第1標本点をそれぞれ特徴抽出し、K個の第1標本点の共通特徴をそれぞれ取得する。共通特徴に基づいて対応する共通特徴組み合わせを形成し、かつ共通特徴組み合わせに含まれる共通特徴の数を算出し、共通特徴組み合わせを共通特徴の数に応じて並び替えて、最大数に対応する共通特徴組み合わせを取得する。最大数に対応する共通特徴組み合わせに基づいて、追加データ特徴を生成することにより、生成した追加データ特徴は、第1クラスの標本集合に対応する特徴を最大限に含み、追加データと第1標本集合における標本点との類似度を保証することができる。
【0085】
不均衡標本データの前処理装置の具体的な限定は、上記のような不均衡標本データの前処理方法に関する限定を参照することができ、ここでは重複した説明を省略する。上記不均衡標本データの前処理装置における各モジュールの全て又は一部は、ソフトウェア、ハードウェア及びその組み合わせにより実現されてもよい。上記各モジュールは、プロセッサが以上の各モジュールに対応する動作を呼び出して実行するように、コンピュータ機器内のプロセッサにハードウェアで組み込まれてもよいし、プロセッサから独立してもよいし、コンピュータ機器内のメモリにソフトウェアで記憶されてもよい。
【0086】
一実施例では、コンピュータ機器を提供し、該コンピュータ機器はサーバであってもよく、その内部構成図は図5に示すものであってもよい。該コンピュータ機器は、システムバスを介して接続されたプロセッサ、メモリ、ネットワークインタフェース及びデータベースを含む。ここで、該コンピュータ機器のプロセッサは、演算及び制御能力を提供するために用いられる。該コンピュータ機器のメモリは、不揮発性コンピュータ読取可能な記憶媒体及び内部メモリを含む。該不揮発性コンピュータ読取可能な記憶媒体には、オペレーティングシステム、コンピュータ読取可能な命令、及びデータベースが記憶される。該内部メモリは、不揮発性コンピュータ読取可能な記憶媒体におけるオペレーティングシステム及びコンピュータ読取可能な命令の実行に環境を提供する。該コンピュータ機器のデータベースは、不均衡標本データを記憶するために用いられる。該コンピュータ機器のネットワークインタフェースは、外部の端末とネットワーク接続を介して通信するために用いられる。該コンピュータ読取可能な命令は、プロセッサにより実行されるとき、不均衡標本データの前処理方法を実現する。
【0087】
なお、図5に示した構成は、本願の解決手段に係る一部の構成を示すブロック図であるが、本願の解決手段が適用されるコンピュータ機器を限定するものではなく、具体的なコンピュータ機器は、図示よりも多いか又は少ない部品を含んでもよいし、一部の部品を組み合わせて構成されてもよいし、異なる部品で配置されてもよいことは、当業者であれば理解すべきである。コンピュータ読取可能な命令が記憶されたメモリ及び1つ又は複数のプロセッサを含むコンピュータ機器であって、コンピュータ読取可能な命令がプロセッサによって実行されるとき、本願のいずれかの実施例で提供される不均衡標本データの前処理方法のステップを実現する。
【0088】
コンピュータ読取可能な命令が記憶された1つ又は複数の不揮発性コンピュータ読取可能な記憶媒体であって、コンピュータ読取可能な命令が1つ又は複数のプロセッサによって実行されるとき、1つ又は複数のプロセッサに本願のいずれかの実施例で提供される不均衡標本データの前処理方法のステップを実現させる。
【0089】
上記実施例の方法のフローの全て又は一部は、コンピュータ読取可能な命令を介して関連するハードウェアに命令することによって実施することができ、前記コンピュータ読取可能な命令は、不揮発性コンピュータ読取可能な記憶媒介に記憶されることができ、該コンピュータ読取可能な命令は、実行時に、上記各方法の実施例のフローを含み得ることは、当業者であれば理解すべきものである。なお、本願で提供される各実施例に使用されるメモリ、記憶、データベース又はその他の媒体への任意の参照は、不揮発性及び/又は揮発性メモリを含み得る。不揮発性メモリは、リードオンリーメモリ(ROM)、プログラム可能なROM(PROM)、電気的プログラム可能なROM(EPROM)、電気的消去可能プログラム可能なROM(EEPROM)、又はフラッシュメモリを含み得る。揮発性メモリは、ランダムアクセスメモリ(RAM)又は外部キャッシュメモリを含み得る。なお、限定のためではなく、説明として、RAMは、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、同期DRAM(SDRAM)、ダブルデータレートSDRAM(DDRSDRAM)、拡張型SDRAM(ESDRAM)、同期リンク(Synchlink)DRAM(SLDRAM)、ラムバス(Rambus)ダイレクトRAM(RDRAM)、ダイレクトメモリバスダイナミックRAM(DRDRAM)、及びメモリバスダイナミックRAM(RDRAM)等の多くの形で使用可能である。
【0090】
以上の実施例の各技術的特徴は、任意の組み合わせが可能であり、説明を簡単にするために、上記実施例における各技術的特徴の全ての可能な組み合わせについて説明していないが、これらの技術的特徴の組み合わせに矛盾がない限り、本明細書に記載された範囲内であると考えられるべきである。
【0091】
上記の実施例は、本願のいくつかの実施形態を示したものに過ぎず、その記述は具体的で詳細なものであるが、これらによって特許請求の範囲を限定するものであると理解されるべきではない。なお、当業者であれば、本願の構想から逸脱することなく、いくつかの変形、改良が可能であり、それらはいずれも本願の保護範囲に含まれると理解すべきである。したがって、本願の保護範囲は、特許請求の範囲に記載の内容に準拠する。
図1
図2
図3
図4
図5