(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-31
(45)【発行日】2023-11-09
(54)【発明の名称】遺伝子診断リスク判定システム
(51)【国際特許分類】
G16B 40/20 20190101AFI20231101BHJP
G16H 50/30 20180101ALI20231101BHJP
【FI】
G16B40/20
G16H50/30
(21)【出願番号】P 2021170125
(22)【出願日】2021-10-18
【審査請求日】2021-12-23
(32)【優先日】2021-08-27
(33)【優先権主張国・地域又は機関】TW
(73)【特許権者】
【識別番号】519298743
【氏名又は名称】長佳智能股▲分▼有限公司
【住所又は居所原語表記】Rm.1,8F.,No.573,Sec.2,Taiwan,Blvd.,West Dist.,Taichung City,Taiwan,R.O.C.
(74)【代理人】
【識別番号】100091683
【氏名又は名称】▲吉▼川 俊雄
(74)【代理人】
【識別番号】100179316
【氏名又は名称】市川 寛奈
(72)【発明者】
【氏名】李友錚
(72)【発明者】
【氏名】黄建豪
【審査官】渡邉 加寿磨
(56)【参考文献】
【文献】中国特許出願公開第112487287(CN,A)
【文献】特開2007-199948(JP,A)
【文献】国際公開第2015/050174(WO,A1)
【文献】米国特許出願公開第2021/0118571(US,A1)
【文献】特開2019-153222(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
G06Q 10/00-99/00
G16H 10/00-80/00
G16Z 99/00
(57)【特許請求の範囲】
【請求項1】
(1)使用者の遺伝子シークエンシング出力信号を読み取り、前記遺伝子シークエンシング出力信号がUSB2.0インターフェースを介してFPGAに送信される遺伝子シークエンシング読取工程;
(2)読取装置により、使用者が書き込んだアンケート結果がD-SUBインターフェースを介して前記FPGAに送信される使用者データ入力工程;
(3)アクセラレータカードの内蔵されたゲノムデータにより、その内部のハードウェアが演算の加速を補助するデータ計算加速工程;
(4)前記FPGAが
アクセラレータカードから前処理後の遺伝子データを得た後、アルゴリズムを実行し、疾病の発生頻度及び疾病の流行率からリスク平均値及び標準偏差を計算して、前記前処理後の遺伝子データは、遺伝子データベースに対して圧縮、分類、検索などのデータ処理を行うことを含み、且つ、前記リスク平均値は各遺伝子座の疾病の発生頻度にリスク値を乗じて合計した数値に等しく、複数の遺伝子診断に関する遺伝子座の疾病の発生頻度を疾病の流行率に累加して予測を行うことによって、より多くの遺伝子座により、1つ又は複数の人体的特徴に影響を及ぼすかどうかを決定し、且つ、前記アルゴリズムは対象となる遺伝子データ、疾病の流行率でモデルトレーニング及び多遺伝子リスクスコアを行い、各種の疾病のリスク平均値及び標準偏差を得るように実行されるアルゴリズム演算工程;
(5)サーバが教師あり機械学習アルゴリズム及び数個の分類器モジュールにより
使用者のリスク予測を行うサーバのデバック工程;
(
6)レベル分け及び閾値を表示する方式を採用して、健康リスクレベルを分類する結果出力工程;
を含む、多遺伝子リスク評価方法。
【請求項2】
前記データ計算加速工程は、前記FPGAが前記アクセラレータカードに電気的に接続し、二分探索及び再帰工程を採用して、行列値の検索及び前記FPGAの計算に必要な複雑さを減少させる、請求項1に記載の多遺伝子リスク評価方法。
【請求項3】
前記遺伝子シークエンシング読取工程及び前記使用者データ入力工程が、RJ45、D-Sub、USB、GPIO、SPI、CCI方式によりサーバと電気的に接続し、データ整合を行うことができる、請求項1に記載の多遺伝子リスク評価方法。
【請求項4】
前記遺伝子シークエンシング読取工程が、Affymetrix、Agilent、Illuminaの診断装置からの信号を読み取る、請求項1に記載の多遺伝子リスク評価方法。
【請求項5】
前記第(1)から第(3)工程で使用するFPGAが、Stratix 10、REFLEX CES Xpress VUP-LP9P、又はArria 10 GX FPGAであり、データ演算に使用される、請求項1に記載の多遺伝子リスク評価方法。
【請求項6】
前記遺伝子シークエンシング読取工程が、遺伝子シークエンサの内部に設定されたゲノムデータを読み取り、これは疾病及びその疾病に対応する塩基に関する高密度の診断遺伝子座を含み、データジェネレータがデータベースの選択及び比較を行う、請求項1に記載の多遺伝子リスク評価方法。
【請求項7】
前記アルゴリズム演算工程が主成分分析であり、分散共分散行列により前の5つの主成分又は主成分の分散パーセントの総和を決定し、原データの累積寄与率(Cumulative Proportion)の99パーセントを超過するまで計算する、請求項1に記載の多遺伝子リスク評価方法。
【請求項8】
前記サーバのデバック工程が、データモジュールのトレーニングの後、テストデータモジュールの予測を行う、請求項1に記載の多遺伝子リスク評価方法。
【請求項9】
前記結果出力工程が、スクリープロット(scree plot)、ヒートプロット(heat plot)、又は多次元尺度法(MDS plot)で表される、請求項1に記載の多遺伝子リスク評価方法。
【請求項10】
前記
結果出力工程が、点、線の様々な色で閾値を表示する、請求項1に記載の多遺伝子リスク評価方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は遺伝子診断リスク判定システムに関し、フィールドプログラマブルゲートアレイ(FPGA)及びアクセラレータカードが、遺伝子診断データ及び体質診断データに対してアルゴリズムにより多遺伝子座を計算する。
【背景技術】
【0002】
遺伝疫学において、遺伝子及び環境は主に人体が疾病に罹患するのに影響を及ぼす2つの大きな側面であり、この側面がどのようにして使用者の生理的反応を評価するかは極めて不明瞭である。台湾実用新案第606684号公報(以下’684実用新案と称す)の「個別化特定代謝基因栄養補充品配対装置」において、個別化した特定の代謝遺伝子に対して栄養補充品を適合させることを利用した発明に言及している。臨床医師が血糖の代謝経路及び細胞情報伝達経路における各種遺伝子配列を精密に使用するのを助けることができ、その後薬物アレルギー遺伝子及び栄養効果を高める処方を組み合わせる。特定の16個の一塩基多型(single nucleotide polymorphism、SNP)遺伝子座を検出することにより、そこから鍵となる13個の遺伝子座、4つの大きな細胞レベルに分類し、演算により異なる代謝経路中の1つの評価に対して分析を行う。該’684実用新案に開示された方法は、遺伝子シークエンシングモジュールと;単一遺伝子の華人リスク生成モジュールと;総合的な4種類のリスク演算ユニット、データベースユニット及び配列ユニットを含み、最後の血糖の代謝経路におけるリスク指数を計算する、多遺伝子代謝の総合リスク評価モジュールと;該血糖代謝の分子レベルリスク報告表、及び臨床医師に標的に対する栄養処方を示す図表を表示する表示モジュールとを順番に含む。該実用新案で使用するデータベースは13個の遺伝子座しか含まず、これらの遺伝子座の発生率はある種の人体に特徴的な確率を引き起こす。該実用新案は単純な分析態様に属する。
【0003】
また米国特許出願公開第20210104321号明細書(以下’321と称す)の「機械学習的疾病預防及優先治療(MACHINE LEARNING DISEASE PREDICTION AND TREATMENT PRIORITIZATION)」において、特定の表現型(phenotype)を有する1つ又は複数のレコードを識別する方法に機械学習を応用することに言及している。該’321特許出願公開明細書に記載する発明は、複数の第1レコードを受信すること;複数の第2レコードを受信すること;機械学習アルゴリズムを少なくとも1つの第1レコード及び少なくとも1つの第2レコードに使用して、分類器を確定すること;分類器を第3のレコードに使用して特定の表現型を識別すること;を含む。該使用した設計は、限りないメモリ資源又は論理ゲートで使用可能であることを前提とし、モバイル機器でデータを使用する使用コストを低下させることができない。
【0004】
他に米国特許出願公開第20210118571号明細書(以下’571と称す)の「用於提供複雑性状和風険的基於多基因預測的系統和方法(SYSTEM AND METHOD FOR DELIVERING POLYGENIC-BASED PREDICTIONS OF COMPLEX TRAITS AND RISKS)」において、国立ヒトゲノム研究所が提供したeMERGEゲノムデータを患者の年齢及び性別と組み合わせて、多遺伝子疾患のリスクスコアを計算することを提供している。該’571特許出願公開明細書は視覚化システム機能を提供しておらず、さらにリスクを予測する対象について、多数の華人人口に対して利用可能性をあまり有さない。
【先行技術文献】
【特許文献】
【0005】
【文献】台湾実用新案第606684号公報
【文献】米国特許出願公開第20210104321号明細書
【文献】米国特許出願公開第20210118571号明細書
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明が解決しようとする課題は、複数の遺伝子診断の遺伝子座及び台湾で発生した複数の疾病の流行率を組み合わせることにより、リスク値を計算する工程;単独でFPGAにより、又は該FPGAにアクセラレータカードを組み合わせることにより、診断の演算を加速させる工程;該診断の演算結果及びサーバの演算が一致すると、警告を出力し、これにより予測の正確度を上昇させ、ディスプレイに表示する工程を含む。
【課題を解決するための手段】
【0007】
本発明の課題を解決するための手段は、本発明の方法に記載の台湾地区華人細胞株及基因資料庫(Taiwan Han Chinese Cell and Genome Bank)を使用し、さらに予測結果を台湾地区の漢族に必要な健康リスク評価に適用することができることを含む。’684実用新案と比較して、本発明が利用するのは、複数の遺伝子診断に関する遺伝子座の発生頻度を流行率に累加して予測を行うものであり、より多くの遺伝子座により、1つ又は複数の人体的特徴に影響を及ぼすかどうかを決定することができる。
【0008】
また本発明の方法を使用し、FPGAにより又は該FPGAにアクセラレータカードを組み合わせることにより、迅速に診断の演算を行う。信号の入力及び読取、コントローラをそれぞれFPGAに設計し、他に重複して演算する必要がある平均値及び標準偏差をアクセラレータカードの回路に合成し、多遺伝子診断のリスク数値に必須のハードウェアリソースによる実現を簡略化することができる。
【発明の効果】
【0009】
本発明の効果として、ARMを利用したマイクロプロセッサに異なるブランドの遺伝子分析装置を結合することにより、データ分析を加速させて処理効果を2~3倍増加させることができ、消費電力の効率は30~200%増加させることができる。熱機関、試験管を設置する時間を省き、3時間以上の演算分析時間を必要とする可能性がある単一の遺伝子座の結果を30分間以内に短縮して得ることができ、顕著に省エネし、運転コストを低下させる効果を有することができる。
【図面の簡単な説明】
【0010】
【
図2】
図2は、本発明を糖尿病の多遺伝子診断に使用したリスク確率の分布図である。
【
図3】
図3は、本発明を糖尿病の多遺伝子診断に使用した高リスク閾値の概要図である。
【
図4】
図4は、本発明の設計工程のフローチャートである。
【
図5】
図5は、本発明の癌発症予測のスクリープロット及びリスク予測図である。
【
図6】
図6は、本発明の癌発症予測の多次元尺度図である。
【
図7】
図7は、本発明の癌発症予測のヒートプロットである。
【発明を実施するための形態】
【0011】
以下、図を参照して、本発明を使用した遺伝子診断リスク判定システムについて詳細に説明する。
【0012】
図1は健康補助識別システムであり、USB2.0を介してフィールドプログラマブルゲートアレイ(400)と電気的に接続し、信号を送信する遺伝子診断装置(200)と;D-subインターフェースを介して該フィールドプログラマブルゲートアレイ(400)と電気的に接続し、信号を送信するアンケート装置(300)と;を含み、該フィールドプログラマブルゲートアレイ(400)は、CCIインターフェースを介してハードウェアアクセラレータカード(500)と電気的に接続して信号を送信し;該ハードウェアアクセラレータカード(500)はUSB2.0を介してサーバ(600)と電気的に接続し、該フィールドプログラマブルゲートアレイ(400)及び該ハードウェアアクセラレータカード(500)が演算を行うとき、同時に別の演算処理を行うことができる。該フィールドプログラマブルゲートアレイ(400)はI/Oインターフェース設計を提供することができ、そのブランド(例えばStratix10、REFLEX CES XpressVUP-LP9P、Arria 10 GX FPGA)、規格(例えばRJ45、D-sub、USB、GPIO、SPI、CCI)及びポートの数量は信号ケーブルの通信プロトコル又はデータケーブルを制御するとみなすことができる。
【0013】
図1の健康補助識別システムにおいて、サーバが他にもテスト設計に電気的に接続することができるとき、目的はトラブルシューティング(troubleshooting)を行うことである。
【0014】
図1のフィールドプログラマブルゲートアレイ(FPGA)はAltera Cyclone V 28nm FPGAでよく、フィールドプログラマブルゲートアレイは遺伝子シークエンシング読取工程(S11)及び使用者データ入力工程(S21)を実行する。該遺伝子シークエンシング読取工程(S11)において、フィールドプログラマブルゲートアレイ(400)のUSB2.0インターフェースにより、使用者が遺伝子診断装置(200)を使用することで得られた遺伝子シークエンシング出力信号を読み取る。該使用者データ入力工程(S21)において、フィールドプログラマブルゲートアレイ(400)のD-subインターフェースにより、アンケート装置(300)又はその他の電子アンケートのデータが読み取られる。
【0015】
このほか、フィールドプログラマブルゲートアレイ(400)が実行する必要がある工程は、
図4に示す通りである。フィールドプログラマブルゲートアレイ(400)はCCLインターフェースを介してアクセラレータカード(500)に連結し、データ計算加速工程(S31)を実行する。該データ計算加速工程(S31)は、Intelが開発したArria 10 GX FPGA大データ専用アクセラレータカードを採用しており、これはApache Hadoop及びApache Sparkシステムと互換性を有することができるが、このブランドのアクセラレータカードに制限されず、Affymetrix、Agilent、Illuminaなどの機器の信号又はデータベースと互換性を有することができればよい。アクセラレートカードは任天堂のホストに類似し、FPGAのシングルチップの演算を加速するのを補助する。該フィールドプログラマブルゲートアレイ(400)は、アクセラレータカード(500)から前処理後の遺伝子データベースのデータを得た後、アルゴリズム演算工程(S41)を実行する。この前処理は、遺伝子データベースに対して圧縮、分類、検索などのデータ処理を行うことを指す。他に、該アルゴリズム演算工程(S41)は、次世代遺伝子シークエンシングの2次データの分析を実行するとき、該フィールドプログラマブルゲートアレイ開発ボードにより平均値を計算することができ、及びアクセラレータカードにより標準偏差を計算する。或いは、該フィールドプログラマブルゲートアレイ開発ボードにより標準偏差を計算し、及び該アクセラレータカードにより平均値を計算し、このようにして演算を平行処理することができる。リスク平均値(Ave)の計算方法は式1の通りである。Aをリスク値(risk score)、Fを発生頻度(frequency)として定義し、平均値は単一項目の合計(各遺伝子座の発生頻度×リスク値)に等しい。
【0016】
【0017】
標準偏差も式2のように定義することができる。
【0018】
【0019】
RTL(Register-Transistor-Level)シミュレータにより、フィールドプログラマブルゲートアレイ開発ボードに書き込んだプログラムと異なる互換性を有するLibraryをロードして分析報告を行うとき、以下の表1の数値を得ることができる。
【0020】
【0021】
表1から、異なるブランドの遺伝子分析装置はその機器内部のマイクロプロセッサ及び管路の多少により、フィールドプログラマブルゲートアレイと結合して効果的な違いを引き起こす可能性があることがわかる。特に遺伝子診断を実行するとき、遺伝子配列の比較はかなり時間を要し、比較的好ましいメーカの診断装置を適切に選択して迅速に演算するように考慮することができ、例えばIlluminaの実行性能は最も高い。
【0022】
遺伝子診断モジュール
ヒトの染色体はタンパク質及び遺伝子からなる。遺伝子は核酸DNAのA、T、C、G核酸塩基が様々に配列してなり、この4種の塩基の配列は人体に遺伝するすべての因子を決定し、疾病、成長状況、老化状況などを含む。他に、A、T、C、Gからなるゲノム(genome)の1つの一塩基多型に、2つ又は複数のヌクレオチドが出現し、遺伝子の欠失、挿入、又は置換反応などの変異の原因を引き起こす可能性がある。遺伝子学において、これらの一塩基多型は、対応する対立遺伝子の発生頻度が1%以下の場合、突然変異(mutation)と呼ぶため、一塩基多型(SNP)及びmutationの違いは前者が1%より大きく、後者が1%以下であることである。突然変異の比率は低いが、全体の比較に必要なハードウェアの消費は甚大であるため、特定のハードウェア、例えばIlluminiaを選択して時間を短縮することができ、商業目的で時間節約、節電、マンパワーの節約効果を達成することができる。
【0023】
近年、大型ゲノムデータセットの機械学習(machine learing)分析における最新の発展により、ヒトに特徴的で、複雑な多遺伝子予測要素を構築することができる。これは多くの重要で複雑な疾病のリスクを含み、通常、多くの遺伝的変異の影響を受ける。各変異が全体のリスクに及ぼす影響は小さい。しかし、多遺伝子リスクの予測装置において、疾病に対する一生(又は年齢範囲)のリスクは点数の数値の関数であり、該点数は数千の個体の遺伝的変異(すなわち一塩基多型又はSNP)の状態によって決まる。従って、多遺伝子のすでに決まっている評価法も機械学習の応用の1つとなっている。
【0024】
多遺伝子リスクスコア法
遺伝子環境の相互作用は遺伝形質において極めて重要な役割を担っており、遺伝疫学において、ますます重視されている。ゲノムワイド関連解析において、遺伝子環境の相互作用を検出することにより、一塩基多型及び環境因子の相互作用の効果を1つの検査にまとめて、疾病の原因に対する認識を深めることができる。例えばリスクのレベル分けを行う、臨床診断を助ける、特徴的な遺伝子のオーバーラップ現象を検査する(例えば鬱病で心血管疾患を測定する)、欠損した特徴を挿入する、個別化治療などである。
【0025】
遺伝子リスク数に対応する重み付けアルゴリズム
多遺伝子リスクスコア(PRS)はエフェクトサイズβ1SNP1にβ2SNP2)を加え、βnSNPnまで加える。式3に示す通りである。
【0026】
【0027】
βはエフェクトサイズ、SNPはリスク遺伝子の対数、nはSNPの数量である。
図2に示すのは一般的なリスク分布関数であり、ガウス分布の態様である。横軸は対数のリスクスコア(log risk score)、縦軸は人口(population)である。ベイズ理論(Bayesian theorem)により得られた特定疾病の発生確率の関数を発生のリスクスコアとすることもできる。疾病予測の目的について、分布関数の分散(variance)は主に分類(stratification)又はリスク判別(risk discrimination)の判断の鍵とする。例えば疾病の分布及び
図2の比較下で、横軸の右側に向かうほどより多くの人口又はより高い人口比率である。このモデル中の人口は、ある疾病の事例数又は症例数でよい。一般的なリスク分布関数を該疾病の分布人口と重ね合わせると、リスク閾値がどこなのかを知ることができる。例えば
図3の糖尿病を例とすると、台湾の糖尿病の流行率は約12%であり、平均値及び標準偏差を利用して88%(100-12%)の数値を推算することができる。遺伝子診断を行うとき、結果の数値を累加してこの高リスク閾値を超えると、高リスクと判定される。
【0028】
一般的に対応する遺伝子リスク数の表現は、遺伝可能性(inheritability)、エフェクトサイズ(effect size)、及びサンプルサイズ(sample size)によって決まる。最も理想的な遺伝可能性は正しい相関係数を指し、推計する必要はないか、又は選択でエラーが生じることはない。しかし科学的に許容可能な方式は特定の遺伝子プラットフォーム、例えばGWAS Catalogデータベースプラットフォームを採用することであり、このプラットフォームにより変異数と関係し、許容される最も大きな潜在値を決定する。
【0029】
GWAS研究において、遺伝子座検索の主要な分析方式は、連鎖不均衡分析(linkage disequilibrium、LD)である。異なる遺伝子座の各対立遺伝子は、個体群で一定の頻度で出現するが、ある個体群において、異なる遺伝子座のある2つの対立遺伝子が同一染色体に出現する頻度が、予想される任意の頻度より高い場合、これを連鎖不均衡(linkage disequilibrium)と呼ぶ。ゲノム中の至る所に分布する大量の遺伝子マーカ遺伝子座、又は候補遺伝子付近の遺伝子マーカを検出することにより、疾病と関係する遺伝子座を見つけることができる。このほか、サンプル数が過度に少ないと、容易に偽陽性が生じるが、公開されているGWASデータベースと比較することにより、この問題を改善することができる。或いは、より多くのデータベースを利用し、ビッグデータによりSNPスクリーニングの正確性を検証する。現在、既存のツールはC+T、PLINK、PRSice2、bigsnpR、LDpred2、SBayersR、Lassosum、PRS-CS、JAMPredなどであり、いずれも凝集表現型(clumping phenotype)に必要な回帰計算に用いることができる。
【0030】
癌を実施例とする
遺伝性乳癌卵巣癌症候群(Hereditary breast and ovary cance syndrome)について、この症候群を促す最も重要な2つの遺伝子はBRCA1及びBRCA2である。BRCA1及びBRCA2は1990年代にアメリカで発見された。1990年、Hallらは若年性及び遺伝性乳癌ファミリーを研究し、連鎖分析(linkage analysis)により、染色体17q21が若年性家族性乳癌と高度に関係することを発見した。その後1994年に、Mikiらは染色体17q21上のBRCA1遺伝子が乳癌(及び卵巣癌)を引き起こす遺伝子であることを証明した。同年、Woosterらは、13q12~13も乳癌の発生と関係することを発見し、これによりBRCA2遺伝子を発見した。BRCA1は24個のexonを有し、翻訳物のBRCA1タンパク質は全部で1863個のアミノ酸を有する。BRCA2は27個のexonを有し、翻訳物のBRCA2タンパク質は全部で3418個のアミノ酸を有する。この2つの遺伝子は癌抑制遺伝子(tumor-suppressor gene)に属し、2本鎖DNA損傷の修復機構を担う。細胞内の2本鎖DNAが損傷したとき、細胞は2つの方式で補修を行う。1つ目の修復方式は相同組換え(Homologous Recombination)と呼ばれ、もう1つは非相同末端結合(non-Homologous end-joint)である。相同組換え方式により修復すれば、2本鎖DNAを正確に誤りなく修復することができる。BRCA1及びBRCA2が関与する2本鎖DNAの修復機構は相同組換えであり、従って2つの遺伝子のうち1つに欠損が生じた場合、2本鎖DNAは攻撃を受けて断裂する。その後細胞内のDNA損傷が一定程度まで累積すると、正確に修復することができず、細胞の癌化が生じる。相同組換え修復(Homologous Recombination repair)には、多くのタンパク質が関与し、主にFanconi’s pathway関連タンパク質である。近年、相同組換えに関与する遺伝子に病原性の変異が生じると、BRCA1及びBRCA2の突然変異に類似した表現型も生じ、つまり乳癌、卵巣癌又は関連する癌が生じることが研究により分かっている。
【0031】
従って乳癌、卵巣癌又は関連する癌の発症をさらに理解したいとき、統計したPRSの表により癌の種類における罹患率を得ることができる。表2から、統計ソフトウェアにより、その内部のアルゴリズムを利用して異なる癌のSNPにより得られた数値を得ることができる。乳癌を例とすると、得られたSNP群に影響を及ぼす可能性があるのは4530例であり、可能性がある標準偏差は1615である。遺伝性の多遺伝子リスクスコアにより、重み0.77の発病率に達し、標準偏差は0.04である。曲線下面積に関連する多遺伝子リスクスコアは0.73、標準偏差は0.01である。該曲線下面積(AUC)の計算は式4の通りである。
【0032】
【0033】
Φは累積標準正規分布の密度(the cumulative density function of standard normal distribution)である。発病数を得た後、その他の重みの要素を組み合わせて癌を分類することができる。
【0034】
【0035】
以上の癌の模範例は本発明で使用可能な実施模範例に過ぎないが、癌に制限されない。同様に、多遺伝子リスクスコア(PRS)はその他の珍しい癌又は診断項目に使用することができる。
【0036】
二分探索及び再帰関数の使用
本発明は台湾地区華人細胞株及基因資料庫(Taiwan Han Chinese Cell and Genome Bank)の遺伝子データベースのデータを、1xNの行列に展開して、アクセラレータカードに保存し、これにより異なる遺伝子配列を比較するのに便利である。行列が過度に長い可能性があるため、異なる配列方式により演算を減少させなければならない。本発明で使用する二分探索について、そのアルゴリズムは表3に示す通りである。
【0037】
【0038】
上記アルゴリズムを既知の多遺伝子リスクスコア全体に適用し、探索した遺伝子データベース中の配列を2つの断片に分けて、比較しようとする遺伝子配列を探索する。他に、FORK関数を適用することもできる。このアルゴリズムを適用して、複数部分で演算を平行処理することができ、遺伝子配列の探索を加速させる。
【0039】
行列転置アルゴリズム
他に、遺伝子データベースの行列を1xNの大きさの行列A1[1]からA[n]に転換するとき、これを他にも逆に配列してもう1つの行列A2[n]からA1[1]にする必要もある。さらに以下のプログラムを適用し、アクセラレータカード中のデータベースに存在する遺伝子座について、行列の探索及び比較を行う。
【0040】
【0041】
上記行列転置のアルゴリズムは、一時保存する空白の行列を追加しなくてよく、直接照会しようとする遺伝子配列を前後で交換する。例えばAATTCCGGの遺伝子配列を探そうとし、遺伝子データベース中にGGCCTTAAが出現した場合も、有効な遺伝子配列であるため、上記アルゴリズムを適用しなくてはならない。このアルゴリズムは一般的にtempを適用するより複雑ではなく、プロセッサ演算の時間を節約することもできる。
【0042】
また、該アルゴリズム演算工程(S41)は、因子分析法(factor analysis)、主成分分析法(principal component analysis)でもよい。因子分析法を採用するとき、独自因子(unique factor)の存在、例えば珍しい疾病に適用する。主成分分析法を採用するとき、複数の遺伝子座の間で、ある特徴に対する寄与量を考慮し、各因子をすべて組み込む必要はない。本発明での使用は、分散共分散行列により前5つの主成分又は主成分の分散パーセントの総和を決定し、原データの累積寄与率(Cumulative Proportion)の99パーセントを超えるまで計算する。
【0043】
教師あり機械学習
図1のサーバ(600)は機械学習により演算することができ、さらにフィールドプログラマブルゲートアレイ(400)に対してデバックを行う。さらに予測結果検証工程(S61)に対して、アルゴリズム演算工程(41)及びサーバのデバック工程(51)の結果の一致性を比較する。
【0044】
該サーバのデバック工程(S51)において、サーバが教師あり機械学習アルゴリズム及び数個の分類器モジュールにより、リスク予測を行う。
使用する別のアルゴリズムは機械学習における教師ありランダムフォレストアルゴリズムであり、主に大量の遺伝子データベースのデータでトレーニングを実行しなければならない。教師あり機械学習は、分類及び回帰の2種類に分けられる。本発明の予測結果検証工程(S61)において、分類方式及び回帰方式で一致性判断を行うため、ランダムフォレストの使用は、リスク領域の閾値表現が正確であるかどうかを判断、決定する検証方式にもなる。
【0045】
分類を行う過程で、演算中に過学習(overfitting)が生じることは望ましくない。つまり確率の分布が過度に緊密であるか、又は特定の遺伝子データ配列に精確に整合し、その他のデータ又は将来の観察結果の予測を良好に適応させることができない。従って、複数の決定木を採用して分類し、プロセッサの演算時間を短縮する利点を生じさせることもできる。2つ目の利点は、ランダムフォレスト法により特に大量のデータベースで、高度に正確な予測に達することができる。3つ目の利点は、いくつかの数値の不足について、特に遺伝子対がいくつかの疾病に対して十分に顕著でない可能性があるとき、その数値を予測することができる。例えば決定木Aは出力結果GENO1を生成し、決定木Bは出力結果GENO2を生成し、決定木Cは結果GENO1を生成する。すべての決定木を共に1つの森林のように置くと、GENO1の生成及びGENO2の生成が2:1であることがわかり、従って該予測結果はGENO1である。
【0046】
ランダムフォレストアルゴリズムを利用すると、サーバの演算により、遺伝子配列中のランダム変化する乱数のエントロピー(entropy)を低下させて比較的低いランダム変化に変えることができる。情報を獲得(information gain)しようとするとき、高次エントロピーを低次エントロピーから引いて分類を行うことができ、例えば発生頻度及び流行率である。相関測定した確率をノード(node)として分類することにより、さらにアルゴリズムを分類することにより、複数の決定ノード(decision node)を得ることができる。本発明で遺伝子データベースをロードしてデータセットとした後、Bayes分類器、Panda分類器、numpy分類器などを選ぶことができ、さらに一つ一つ条件に符合させたい決定ノードを検査するが、上記分類器に制限されない。分類の後、さらに2つのデータフレーム(dataframe)に分け、トレーニングモジュール及びテストモジュールを設ける。その後、選定した分類器がトレーニングモジュールに対して行列分解(matrix factorization)又はテンソル分解(tensor factorization)を行い、その後ランダム状態の初期化及び実行した条件回数により、ランダムフォレスト分類器を構築する。さらにトレーニングした分類器をテストモジュールに適用し、その後その特性(feature)を観察する。最後に、さらにサーバの演算結果によりFPGA及びアクセラレータカードを比較し、偽陽性の発生を減少させることができ、さらに正確なリスク予測結果を提供する。
【0047】
リスク予測結果は、結果出力工程(S71)により、
図5から
図7のように、スクリープロット(scree plot)、ヒートプロット(heat plot)、又は多次元尺度法(MDS plot)で表される。
【符号の説明】
【0048】
1 健康補助識別システム
200 遺伝子診断装置
300 アンケート装置
400 フィールドプログラマブルゲートアレイ
500 アクセラレータカード
600 サーバ
S11 遺伝子シークエンシング読取工程
S21 使用者データ入力工程
S31 データ計算加速工程
S41 アルゴリズム演算工程
S51 サーバのデバック工程
S61 予測結果検証工程
S71 結果出力工程