(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-04-27
(45)【発行日】2022-05-11
(54)【発明の名称】マルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステム
(51)【国際特許分類】
G06N 20/00 20190101AFI20220428BHJP
【FI】
G06N20/00 130
(21)【出願番号】P 2021532354
(86)(22)【出願日】2020-04-07
(86)【国際出願番号】 CN2020083589
(87)【国際公開番号】W WO2020233259
(87)【国際公開日】2020-11-26
【審査請求日】2021-06-07
(31)【優先権主張番号】201910629792.1
(32)【優先日】2019-07-12
(33)【優先権主張国・地域又は機関】CN
【早期審査対象出願】
(73)【特許権者】
【識別番号】521162399
【氏名又は名称】之江実験室
(74)【代理人】
【識別番号】100128347
【氏名又は名称】西内 盛二
(72)【発明者】
【氏名】李 ▲勁▼松
(72)【発明者】
【氏名】王 ▲豊▼
(72)【発明者】
【氏名】胡 佩君
(72)【発明者】
【氏名】▲張▼ ▲瑩▼
(72)【発明者】
【氏名】▲楊▼ 子▲ユエ▼
【審査官】多胡 滋
(56)【参考文献】
【文献】米国特許出願公開第2019/0197578(US,A1)
【文献】中国特許出願公開第109242021(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
マルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステムであって、
協調計算に参加する各センターに配置されるフロントエンドプロセッサと、各センター特徴重要度ソート結果を受信して統合するセンターサーバーと、最終的な特徴重要度ソート結果をユーザーにフィードバックする結果表示モジュールと、を備え、
前記フロントエンドプロセッサは各センターのデータベースインターフェースからデータを読み取り、ランダムフォレストアルゴリズムにより該センターの特徴重要度ソート結果を計算することに用いられ、その具体的な計算ステップは、
該センターデータベースインターフェースからデータをサンプルセットとして読み取るステップAと、
ブートストラップ法(bootstrap)でサンプルセットからn個のサンプルを1つのトレーニングセットとしてランダムに選択するステップBと、
サンプリングにより取得されたトレーニングセットで1つの決定木を生成し、決定木の各ノードでいずれもd個の特徴をランダムに繰り返しなしで選択し、これらのd個の特徴を利用してそれぞれトレーニングセットを区画するステップCと、
ステップB~Cを合計q回繰り返し、qがランダムフォレストにおける決定木の個数であるステップDと、
トレーニングにより取得されたランダムフォレストでサンプルセットを予測するステップEと、
ジニ指数を評価指標として利用してステップEの予測結果に対して特徴重要度ソートを行うステップFと、
を含み、
前記ステップFは、
サンプルセットにh個の特徴
がある
場合に、各特徴X
jについて、ノードmにおける特徴X
jの重要度
即ちノードmの分岐前後のジニ指数変化量を計算し、その式が以下のとおりであり、
【数1】
式中、GI
mが分岐前のノードmのジニ指数を示し、GI
lとGI
rがそれぞれ分岐後の2つの新しいノードl及びノードrのジニ指数を示し、ジニ指数の計算式が以下のとおりであり、
【数2】
KがK個の類別があることを示し、p
xkがノードxにおける類別kが占有する比率を示すサブステップa)と、
特徴X
jが決定木iに出現するノードは集合Eを構成する
場合に、i番目の決定木におけるX
jの重要度
が、
【数3】
であるサブステップb)と、
ランダムフォレストにq個の決定木がある
場合に、各特徴X
jのジニ指数スコア
即ちランダムフォレストのすべての決定木におけるj番目の特徴のノード分割不純度の平均変化量を計算し、その式が
【数4】
であるサブステップc)と、
特徴X
jのジニ指数スコア
を正規化処理し、その式が、
【数5】
であるサブステップd)と、
すべての特徴の正規化後のジニ指数スコアを降順ソートするサブステップe)と、を含み、
前記センターサーバーがグローバルな特徴重要度ソート結果を計算することは、
各センターから送信された特徴重要度ソート結果を受信するサブステップAと、
各特徴について、すべてのセンターにおける該特徴のジニ指数スコアの平均値をグローバルな特徴重要度値として求めるサブステップBと、
グローバルな特徴重要度値の降順で、特徴を改めてソートするサブステップCと、を含むことを特徴とするマルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は特徴選択技術分野に属し、特にマルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステムに関する。
【背景技術】
【0002】
特徴選択は特徴空間次元を削減するために、1組の特徴からいくつかの最も効果的な特徴を選択する過程である。特徴選択は特徴数を減少し、次元を削減し、モデルの汎化性能を向上させ、オーバーフィッティングを減少し、特徴及び特徴値への理解を強化することができ、データ科学分野の肝心な問題の1つである。生物医学分野では、常にオーミクスデータセット等の高次元データを処理する必要があり、一般的に、変数の数が個体の数より遥かに大きく、このような場合、特徴選択の意味は特に重要となる。ランダムフォレストは生物医学分野で広く応用されている統合学習アルゴリズムであり、分類過程において変数重要度の推定を行うことができ、効果的な特徴選択アルゴリズムと見なされている。
【0003】
マルチセンターにおけるデータ協調計算はビッグデータの背景で出現する応用シーンであり、地域で分散状態にある1つのグループがコンピュータ及びネットワーク技術を利用して互いに協力して1つのタスクを遂行することを意味する。マルチセンターにおけるデータに基づいて特徴選択を行うことは、そのうちの1つの重要な問題である。ビッグデータの背景で、各センターデータ協調計算の需要は大きくなっている。
【0004】
従来の解決案は、各センターのデータを取り出してセンターサーバーに集め、次に、センターサーバーにおいて特徴選択を行ってグローバルな特徴選択結果を取得する必要がある。ところが、データを各センターから取り出す過程は潜在的な危険が多く、データ漏洩等の安全上の問題を引き起こす恐れがあり、センター同士の協調計算の積極性を大きく損なってしまう。特に、生物医学分野では、各センター即ち各病院のデータには治療のために病院に来る患者のプライバシーが含まれ、データを取り出して集中処理する方法は患者のプライバシーの保護にとって不利になり、リスクが大きい。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の目的は、従来技術の欠点に対して、実際の需要に応じて、各センターのデータを漏洩しない条件で、マルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステムを提供することにあり、該システムにおいて、各センターのデータを常に各センターにあり、センターサーバーにモデルの中間パラメータのみを送信し、元のデータを送信せず、最終的に安全で効果的なグローバルな特徴重要度ソート結果を取得する。
【課題を解決するための手段】
【0006】
本発明の目的は以下の技術案により実現される。
マルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステムであって、
協調計算に参加する各センターに配置されるフロントエンドプロセッサと、各センター特徴重要度ソート結果を受信して統合するセンターサーバーと、最終的な特徴重要度ソート結果をユーザーにフィードバックする結果表示モジュールと、を備え、
前記フロントエンドプロセッサは各センターのデータベースインターフェースからデータを読み取り、ランダムフォレストアルゴリズムにより該センターの特徴重要度ソート結果を計算することに用いられ、その具体的な計算ステップは、
該センターデータベースインターフェースからデータをサンプルセットとして読み取るステップAと、
ブートストラップ法(bootstrap)でサンプルセットからn個のサンプルを1つのトレーニングセットとしてランダムに選択するステップBと、
サンプリングにより取得されたトレーニングセットで1つの決定木を生成し、決定木の各ノードでいずれもd個の特徴をランダムに繰り返しなしで選択し、これらのd個の特徴を利用してそれぞれトレーニングセットを区画するステップCと、
ステップB~Cを合計q回繰り返し、qがランダムフォレストにおける決定木の個数であるステップDと、
トレーニングにより取得されたランダムフォレストでサンプルセットを予測するステップEと、
ジニ指数を評価指標として利用してステップEの予測結果に対して特徴重要度ソートを行うステップFと、
を含み、
前記ステップFは、
サンプルセットにh個の特徴
があると仮定するとき、各特徴X
jについて、ノードmにおける特徴X
jの重要度
即ちノードmの分岐前後のジニ指数変化量を計算し、その式が以下のとおりであり、
【数1】
式中、GI
mが分岐前のノードmのジニ指数を示し、GI
lとGI
rがそれぞれ分岐後の新しい2つのノードl及びノードrのジニ指数を示し、ジニ指数の計算式が以下のとおりであり、
【数2】
KがK個の類別があることを示し、p
xkがノードxにおける類別kが占有する比率を示すサブステップa)と、
特徴X
jが決定木iに出現するノードは集合Eを構成すると仮定すれば、i番目の決定木におけるX
jの重要度
が、
【数3】
であるサブステップb)と、
ランダムフォレストにq個の決定木があると仮定するとき、各特徴X
jのジニ指数スコア
即ちランダムフォレストのすべての決定木におけるj番目の特徴のノード分割不純度の平均変化量を計算し、その式が
【数4】
であるサブステップc)と、
特徴X
jのジニ指数スコア
を正規化処理し、その式が、
【数5】
であるサブステップd)と、
すべての特徴の正規化後のジニ指数スコアを降順ソートするサブステップe)と、を含み、
前記センターサーバーがグローバルな特徴重要度ソート結果を計算することは、
各センターから送信された特徴重要度ソート結果を受信するサブステップAと、
各特徴について、すべてのセンターにおける該特徴のジニ指数スコアの平均値をグローバルな特徴重要度値として求めるサブステップBと、
グローバルな特徴重要度値の降順で、特徴を改めてソートするサブステップCと、を含むことを特徴とするマルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステム。
【発明の効果】
【0007】
本発明の有益な効果は、以下の通りである。
本発明は、マルチセンターのランダムフォレストアルゴリズムに基づいて各センターにおいてそれぞれ特徴重要度ソート結果を計算し、センターサーバーにおいて各センターのソート結果を統合してグローバルな特徴重要度ソート結果を形成するということである。本発明は、各センターのデータを漏洩しない条件で、該システムにおいて各センターのデータを常にセンターにあり、センターサーバーにモデルの中間パラメータのみを送信し、元のデータを送信しないため、データセキュリティ及びデータに含まれる個人のプライバシーを効果的に確保する。
【図面の簡単な説明】
【0008】
【
図1】
図1は本発明に係るマルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステムの実現フローチャートである。
【
図2】
図2は本発明に係るマルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステムの構成ブロック図である。
【
図3】
図3は各センターのフロントエンドプロセッサにおける特徴重要度ソートのフローチャートである。
【
図4】
図4はセンターサーバーにおけるグローバルな重要度ソートのフローチャートである。
【発明を実施するための形態】
【0009】
以下、図面を参照しながら具体的な実施例によって本発明を更に詳しく説明する。
【0010】
図1及び
図2に示すように、本発明に係るマルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステムは、協調計算に参加する各センターに配置されるフロントエンドプロセッサと、各センター特徴重要度ソート結果を受信して統合するセンターサーバーと、最終的な特徴重要度ソート結果をユーザーにフィードバックする結果表示モジュールと、を備える。
【0011】
前記フロントエンドプロセッサは各センターのデータベースインターフェースからデータを読み取り、ランダムフォレストアルゴリズムにより該センターの特徴重要度ソート結果を計算することに用いられ、
図3に示すように、具体的な計算ステップは、以下のとおりである。
ステップA:該センターデータベースインターフェースからデータをサンプルセットとして読み取る;
ステップB:ブートストラップ法(bootstrap)でサンプルセットからn個のサンプルを1つのトレーニングセットとしてランダムに選択する;
ステップC:サンプリングにより取得されたトレーニングセットで1つの決定木を生成し、決定木の各ノードでいずれもd個の特徴をランダムに繰り返しなしで選択し、これらのd個の特徴を利用してそれぞれトレーニングセットを区画する;
ステップD:ステップB~Cを合計q回繰り返し、qがランダムフォレストにおける決定木の個数である;
ステップE:トレーニングにより取得されたランダムフォレストでサンプルセットを予測する;
ステップF:ジニ指数を評価指標として利用してステップEの予測結果に対して特徴重要度ソートを行う。
該ステップFは、
サンプルセットにh個の特徴
があると仮定するとき、各特徴X
jについて、ノードmにおける特徴X
jの重要度
即ちノードmの分岐前後のジニ指数変化量を計算し、その式が以下のとおりであり、
【数6】
式中、GI
mが分岐前のノードmのジニ指数を示し、GI
lとGI
rがそれぞれ分岐後の新しい2つのノードl及びノードrのジニ指数を示し、ジニ指数の計算式が以下のとおりであり、
【数7】
KがK個の類別があることを示し、p
xkがノードxにおける類別kが占有する比率を示すサブステップa)と、
特徴X
jが決定木iに出現するノードは集合Eを構成すると仮定すれば、i番目の決定木におけるX
jの重要度
が、
【数8】
であるサブステップb)と、
ランダムフォレストにq個の決定木があると仮定するとき、各特徴X
jのジニ指数スコア
即ちランダムフォレストのすべての決定木におけるj番目の特徴のノード分割不純度の平均変化量を計算し、その式が
【数9】
であるサブステップc)と、
特徴X
jのジニ指数スコア
を正規化処理し、その式が、
【数10】
であるサブステップd)と、
すべての特徴の正規化後のジニ指数スコアを降順ソートするサブステップe)と、を含み、
前記センターサーバーがグローバルな特徴重要度ソート結果を計算することは、
図4に示すように、
各センターから送信された特徴重要度ソート結果を受信するサブステップAと、
各特徴について、すべてのセンターにおける該特徴のジニ指数スコアの平均値をグローバルな特徴重要度値として求めるサブステップBと、
グローバルな特徴重要度値の降順で、特徴を改めてソートするサブステップCと、を含む。
【0012】
以下はマルチセンターモードにおけるランダムフォレストアルゴリズムに基づく、身体検査データから糖尿病リスクを予測する特徴重要度ソートシステムを示す1つの具体的な例である。該システムは、協調計算に参加する各病院内に配置されるフロントエンドプロセッサと、各病院の特徴重要度ソート結果を受信して統合するセンターサーバーと、最終的な特徴重要度ソート結果をユーザーにフィードバックする結果表示モジュールと、を備える。
【0013】
前記フロントエンドプロセッサは各病院のデータベースインターフェースから身体検査データを読み取り、ランダムフォレストアルゴリズムにより糖尿病リスクを予測し、該病院内の糖尿病リスクの特徴重要度ソート結果を計算することに用いられ、その具体的な計算ステップは、以下のとおりである。
ステップA:該病院のデータベースインターフェースから身体検査データをサンプルセットとして読み取り、合計5000例の身体検査データがあると仮定する;
ステップB:ブートストラップ法(bootstrap)でサンプルセットから70個のサンプルを1つのトレーニングセットとしてランダムに選択する;
ステップC:サンプリングにより取得されたトレーニングセットで1つの決定木を生成し、決定木の各ノードでいずれも7つの特徴をランダムに繰り返しなしで選択し、これらの7つの特徴を利用してそれぞれトレーニングセットを区画する;
ステップD:ステップB~Cを合計15回繰り返し、15がランダムフォレストにおける決定木の個数である;
ステップE:トレーニングにより取得されたランダムフォレストでサンプルセットを予測する;
ステップF:ジニ指数を評価指標として利用してステップEの予測結果に対して特徴重要度ソートを行う。
該ステップFは、
サンプルセットには、年齢、性別、教育レベル、胴囲、血液型、収縮期血圧、ヘモグロビン等の特徴50個があると仮定し、これらの特徴を
とする。各特徴X
jについて、ノードmにおける特徴X
jの重要度
即ちノードmの分岐前後のジニ指数変化量を計算し、その式が以下のとおりであり、
【数11】
式中、GI
mが分岐前のノードmのジニ指数を示し、GI
lとGI
rがそれぞれ分岐後の新しい2つのノードl及びノードrのジニ指数を示し、ジニ指数の計算式が以下のとおりであり、
【数12】
KがK個の類別があることを示し、p
xkがノードxにおける類別kが占有する比率を示すサブステップa)と、
特徴X
jが決定木iに出現するノードは集合Eを構成すると仮定すれば、i番目の決定木におけるX
jの重要度
が、
【数13】
であるサブステップb)と、
ランダムフォレストに15個の決定木があることが知られ、各特徴X
jのジニ指数スコア
即ちランダムフォレストのすべての決定木におけるj番目の特徴のノード分割不純度の平均変化量を計算し、その式が
【数14】
であるサブステップc)と、
特徴X
jのジニ指数スコア
を正規化処理し、その式が
【数15】
であるサブステップd)と、
すべての特徴の正規化後のジニ指数スコアを降順ソートするサブステップe)と、を含み、
前記センターサーバーは身体検査データにおける糖尿病リスクに影響するグローバルな特徴重要度ソート結果を計算し、該ステップは、
各病院から送信された特徴重要度ソート結果を受信するサブステップAと、
各特徴について、すべての病院における該特徴のジニ指数スコアの平均値をグローバルな特徴重要度値として求め、例えば、特徴的な糖化ヘモグロビンについて、病院1における特徴重要度スコアは0.182483であり、病院2における特徴重要度スコアは0.150948であり、病院3における特徴重要度スコアは0.078243である場合、病院1、病院2、病院3が共同で開催したマルチセンター身体検査データ糖尿病リスク予測研究におけるグローバルな特徴重要度値は(0.182483+0.150948+0.078243)/3=0.137224であるサブステップBと、
グローバルな特徴重要度値の降順で、特徴を改めてソートするサブステップCと、を含む。
【0014】
本発明は各サイトでジニ指数に基づく局所変数重要度ソートを計算して、センターサーバーに送信する。センターサーバーは各サイトの変数重要度ソートを統合して計算し、最終的なソート結果を取得する。この過程において、センターサーバーは各サイトの変数重要度ソート結果のみを受信し、患者レベルまでのデータを交換する必要がないため、効果的なグローバルな解を取得するだけでなく、データの安全性を効果的に確保し、特徴選別モデルの構築に安全・確実で効率的な解決案を提供する。
【0015】
上記は本発明の実施例に過ぎず、本発明の保護範囲を制限するためのものではない。本発明の趣旨や原則でに創造的労働を経ずに行われたいかなる修正、等価置換、改良等は、いずれも本発明の保護範囲内に含まれるべきである。