特許7376878 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 長佳智能股▲分▼有限公司の特許一覧

特許7376878遺伝子診断リスク判定システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-10-31

(45)【発行日】2023-11-09

(54)【発明の名称】遺伝子診断リスク判定システム

(51)【国際特許分類】

G16B 40/20 20190101AFI20231101BHJP

G16H 50/30 20180101ALI20231101BHJP

【ＦＩ】

G16B40/20

G16H50/30

【請求項の数】 10

(21)【出願番号】P 2021170125

(22)【出願日】2021-10-18

(65)【公開番号】P2023033052

(43)【公開日】2023-03-09

【審査請求日】2021-12-23

(31)【優先権主張番号】110131868

(32)【優先日】2021-08-27

(33)【優先権主張国・地域又は機関】TW

(73)【特許権者】

【識別番号】519298743

【氏名又は名称】長佳智能股▲分▼有限公司

【住所又は居所原語表記】Ｒｍ．１，８Ｆ．，Ｎｏ．５７３，Ｓｅｃ．２，Ｔａｉｗａｎ，Ｂｌｖｄ．，ＷｅｓｔＤｉｓｔ．，ＴａｉｃｈｕｎｇＣｉｔｙ，Ｔａｉｗａｎ，Ｒ．Ｏ．Ｃ．

(74)【代理人】

【識別番号】100091683

【弁理士】

【氏名又は名称】▲吉▼川俊雄

(74)【代理人】

【識別番号】100179316

【弁理士】

【氏名又は名称】市川寛奈

(72)【発明者】

【氏名】李友錚

(72)【発明者】

【氏名】黄建豪

【審査官】渡邉加寿磨

(56)【参考文献】

【文献】中国特許出願公開第１１２４８７２８７（ＣＮ，Ａ）

【文献】特開２００７－１９９９４８（ＪＰ，Ａ）

【文献】国際公開第２０１５／０５０１７４（ＷＯ，Ａ１）

【文献】米国特許出願公開第２０２１／０１１８５７１（ＵＳ，Ａ１）

【文献】特開２０１９－１５３２２２（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１６Ｂ５／００－９９／００

Ｇ０６Ｑ１０／００－９９／００

Ｇ１６Ｈ１０／００－８０／００

Ｇ１６Ｚ９９／００

(57)【特許請求の範囲】

【請求項1】

（１）使用者の遺伝子シークエンシング出力信号を読み取り、前記遺伝子シークエンシング出力信号がＵＳＢ２．０インターフェースを介してＦＰＧＡに送信される遺伝子シークエンシング読取工程；
（２）読取装置により、使用者が書き込んだアンケート結果がＤ－ＳＵＢインターフェースを介して前記ＦＰＧＡに送信される使用者データ入力工程；
（３）アクセラレータカードの内蔵されたゲノムデータにより、その内部のハードウェアが演算の加速を補助するデータ計算加速工程；
（４）前記ＦＰＧＡがアクセラレータカードから前処理後の遺伝子データを得た後、アルゴリズムを実行し、疾病の発生頻度及び疾病の流行率からリスク平均値及び標準偏差を計算して、前記前処理後の遺伝子データは、遺伝子データベースに対して圧縮、分類、検索などのデータ処理を行うことを含み、且つ、前記リスク平均値は各遺伝子座の疾病の発生頻度にリスク値を乗じて合計した数値に等しく、複数の遺伝子診断に関する遺伝子座の疾病の発生頻度を疾病の流行率に累加して予測を行うことによって、より多くの遺伝子座により、１つ又は複数の人体的特徴に影響を及ぼすかどうかを決定し、且つ、前記アルゴリズムは対象となる遺伝子データ、疾病の流行率でモデルトレーニング及び多遺伝子リスクスコアを行い、各種の疾病のリスク平均値及び標準偏差を得るように実行されるアルゴリズム演算工程；
（５）サーバが教師あり機械学習アルゴリズム及び数個の分類器モジュールにより使用者のリスク予測を行うサーバのデバック工程；
（６）レベル分け及び閾値を表示する方式を採用して、健康リスクレベルを分類する結果出力工程；
を含む、多遺伝子リスク評価方法。

【請求項2】

前記データ計算加速工程は、前記ＦＰＧＡが前記アクセラレータカードに電気的に接続し、二分探索及び再帰工程を採用して、行列値の検索及び前記ＦＰＧＡの計算に必要な複雑さを減少させる、請求項１に記載の多遺伝子リスク評価方法。

【請求項3】

前記遺伝子シークエンシング読取工程及び前記使用者データ入力工程が、ＲＪ４５、Ｄ－Ｓｕｂ、ＵＳＢ、ＧＰＩＯ、ＳＰＩ、ＣＣＩ方式によりサーバと電気的に接続し、データ整合を行うことができる、請求項１に記載の多遺伝子リスク評価方法。

【請求項4】

前記遺伝子シークエンシング読取工程が、Ａｆｆｙｍｅｔｒｉｘ、Ａｇｉｌｅｎｔ、Ｉｌｌｕｍｉｎａの診断装置からの信号を読み取る、請求項１に記載の多遺伝子リスク評価方法。

【請求項5】

前記第（１）から第（３）工程で使用するＦＰＧＡが、Ｓｔｒａｔｉｘ１０、ＲＥＦＬＥＸＣＥＳＸｐｒｅｓｓＶＵＰ－ＬＰ９Ｐ、又はＡｒｒｉａ１０ＧＸＦＰＧＡであり、データ演算に使用される、請求項１に記載の多遺伝子リスク評価方法。

【請求項6】

前記遺伝子シークエンシング読取工程が、遺伝子シークエンサの内部に設定されたゲノムデータを読み取り、これは疾病及びその疾病に対応する塩基に関する高密度の診断遺伝子座を含み、データジェネレータがデータベースの選択及び比較を行う、請求項１に記載の多遺伝子リスク評価方法。

【請求項7】

前記アルゴリズム演算工程が主成分分析であり、分散共分散行列により前の５つの主成分又は主成分の分散パーセントの総和を決定し、原データの累積寄与率（ＣｕｍｕｌａｔｉｖｅＰｒｏｐｏｒｔｉｏｎ）の９９パーセントを超過するまで計算する、請求項１に記載の多遺伝子リスク評価方法。

【請求項8】

前記サーバのデバック工程が、データモジュールのトレーニングの後、テストデータモジュールの予測を行う、請求項１に記載の多遺伝子リスク評価方法。

【請求項9】

前記結果出力工程が、スクリープロット（ｓｃｒｅｅｐｌｏｔ）、ヒートプロット（ｈｅａｔｐｌｏｔ）、又は多次元尺度法（ＭＤＳｐｌｏｔ）で表される、請求項１に記載の多遺伝子リスク評価方法。

【請求項10】

前記結果出力工程が、点、線の様々な色で閾値を表示する、請求項１に記載の多遺伝子リスク評価方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は遺伝子診断リスク判定システムに関し、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）及びアクセラレータカードが、遺伝子診断データ及び体質診断データに対してアルゴリズムにより多遺伝子座を計算する。

【背景技術】

【0002】

遺伝疫学において、遺伝子及び環境は主に人体が疾病に罹患するのに影響を及ぼす２つの大きな側面であり、この側面がどのようにして使用者の生理的反応を評価するかは極めて不明瞭である。台湾実用新案第６０６６８４号公報（以下’６８４実用新案と称す）の「個別化特定代謝基因栄養補充品配対装置」において、個別化した特定の代謝遺伝子に対して栄養補充品を適合させることを利用した発明に言及している。臨床医師が血糖の代謝経路及び細胞情報伝達経路における各種遺伝子配列を精密に使用するのを助けることができ、その後薬物アレルギー遺伝子及び栄養効果を高める処方を組み合わせる。特定の１６個の一塩基多型（ｓｉｎｇｌｅｎｕｃｌｅｏｔｉｄｅｐｏｌｙｍｏｒｐｈｉｓｍ、ＳＮＰ）遺伝子座を検出することにより、そこから鍵となる１３個の遺伝子座、４つの大きな細胞レベルに分類し、演算により異なる代謝経路中の１つの評価に対して分析を行う。該’６８４実用新案に開示された方法は、遺伝子シークエンシングモジュールと；単一遺伝子の華人リスク生成モジュールと；総合的な４種類のリスク演算ユニット、データベースユニット及び配列ユニットを含み、最後の血糖の代謝経路におけるリスク指数を計算する、多遺伝子代謝の総合リスク評価モジュールと；該血糖代謝の分子レベルリスク報告表、及び臨床医師に標的に対する栄養処方を示す図表を表示する表示モジュールとを順番に含む。該実用新案で使用するデータベースは１３個の遺伝子座しか含まず、これらの遺伝子座の発生率はある種の人体に特徴的な確率を引き起こす。該実用新案は単純な分析態様に属する。

【0003】

また米国特許出願公開第２０２１０１０４３２１号明細書（以下’３２１と称す）の「機械学習的疾病預防及優先治療（ＭＡＣＨＩＮＥＬＥＡＲＮＩＮＧＤＩＳＥＡＳＥＰＲＥＤＩＣＴＩＯＮＡＮＤＴＲＥＡＴＭＥＮＴＰＲＩＯＲＩＴＩＺＡＴＩＯＮ）」において、特定の表現型（ｐｈｅｎｏｔｙｐｅ）を有する１つ又は複数のレコードを識別する方法に機械学習を応用することに言及している。該’３２１特許出願公開明細書に記載する発明は、複数の第１レコードを受信すること；複数の第２レコードを受信すること；機械学習アルゴリズムを少なくとも１つの第１レコード及び少なくとも１つの第２レコードに使用して、分類器を確定すること；分類器を第３のレコードに使用して特定の表現型を識別すること；を含む。該使用した設計は、限りないメモリ資源又は論理ゲートで使用可能であることを前提とし、モバイル機器でデータを使用する使用コストを低下させることができない。

【0004】

他に米国特許出願公開第２０２１０１１８５７１号明細書（以下’５７１と称す）の「用於提供複雑性状和風険的基於多基因預測的系統和方法（ＳＹＳＴＥＭＡＮＤＭＥＴＨＯＤＦＯＲＤＥＬＩＶＥＲＩＮＧＰＯＬＹＧＥＮＩＣ－ＢＡＳＥＤＰＲＥＤＩＣＴＩＯＮＳＯＦＣＯＭＰＬＥＸＴＲＡＩＴＳＡＮＤＲＩＳＫＳ）」において、国立ヒトゲノム研究所が提供したｅＭＥＲＧＥゲノムデータを患者の年齢及び性別と組み合わせて、多遺伝子疾患のリスクスコアを計算することを提供している。該’５７１特許出願公開明細書は視覚化システム機能を提供しておらず、さらにリスクを予測する対象について、多数の華人人口に対して利用可能性をあまり有さない。

【先行技術文献】

【特許文献】

【0005】

【文献】台湾実用新案第６０６６８４号公報

【文献】米国特許出願公開第２０２１０１０４３２１号明細書

【文献】米国特許出願公開第２０２１０１１８５７１号明細書

【発明の概要】

【発明が解決しようとする課題】

【0006】

本発明が解決しようとする課題は、複数の遺伝子診断の遺伝子座及び台湾で発生した複数の疾病の流行率を組み合わせることにより、リスク値を計算する工程；単独でＦＰＧＡにより、又は該ＦＰＧＡにアクセラレータカードを組み合わせることにより、診断の演算を加速させる工程；該診断の演算結果及びサーバの演算が一致すると、警告を出力し、これにより予測の正確度を上昇させ、ディスプレイに表示する工程を含む。

【課題を解決するための手段】

【0007】

本発明の課題を解決するための手段は、本発明の方法に記載の台湾地区華人細胞株及基因資料庫（ＴａｉｗａｎＨａｎＣｈｉｎｅｓｅＣｅｌｌａｎｄＧｅｎｏｍｅＢａｎｋ）を使用し、さらに予測結果を台湾地区の漢族に必要な健康リスク評価に適用することができることを含む。’６８４実用新案と比較して、本発明が利用するのは、複数の遺伝子診断に関する遺伝子座の発生頻度を流行率に累加して予測を行うものであり、より多くの遺伝子座により、１つ又は複数の人体的特徴に影響を及ぼすかどうかを決定することができる。

【0008】

また本発明の方法を使用し、ＦＰＧＡにより又は該ＦＰＧＡにアクセラレータカードを組み合わせることにより、迅速に診断の演算を行う。信号の入力及び読取、コントローラをそれぞれＦＰＧＡに設計し、他に重複して演算する必要がある平均値及び標準偏差をアクセラレータカードの回路に合成し、多遺伝子診断のリスク数値に必須のハードウェアリソースによる実現を簡略化することができる。

【発明の効果】

【0009】

本発明の効果として、ＡＲＭを利用したマイクロプロセッサに異なるブランドの遺伝子分析装置を結合することにより、データ分析を加速させて処理効果を２～３倍増加させることができ、消費電力の効率は３０～２００％増加させることができる。熱機関、試験管を設置する時間を省き、３時間以上の演算分析時間を必要とする可能性がある単一の遺伝子座の結果を３０分間以内に短縮して得ることができ、顕著に省エネし、運転コストを低下させる効果を有することができる。

【図面の簡単な説明】

【0010】

【図1】図１は、本発明の構成概要図である。

【図2】図２は、本発明を糖尿病の多遺伝子診断に使用したリスク確率の分布図である。

【図3】図３は、本発明を糖尿病の多遺伝子診断に使用した高リスク閾値の概要図である。

【図4】図４は、本発明の設計工程のフローチャートである。

【図5】図５は、本発明の癌発症予測のスクリープロット及びリスク予測図である。

【図6】図６は、本発明の癌発症予測の多次元尺度図である。

【図7】図７は、本発明の癌発症予測のヒートプロットである。

【発明を実施するための形態】

【0011】

以下、図を参照して、本発明を使用した遺伝子診断リスク判定システムについて詳細に説明する。

【0012】

図１は健康補助識別システムであり、ＵＳＢ２．０を介してフィールドプログラマブルゲートアレイ（４００）と電気的に接続し、信号を送信する遺伝子診断装置（２００）と；Ｄ－ｓｕｂインターフェースを介して該フィールドプログラマブルゲートアレイ（４００）と電気的に接続し、信号を送信するアンケート装置（３００）と；を含み、該フィールドプログラマブルゲートアレイ（４００）は、ＣＣＩインターフェースを介してハードウェアアクセラレータカード（５００）と電気的に接続して信号を送信し；該ハードウェアアクセラレータカード（５００）はＵＳＢ２．０を介してサーバ（６００）と電気的に接続し、該フィールドプログラマブルゲートアレイ（４００）及び該ハードウェアアクセラレータカード（５００）が演算を行うとき、同時に別の演算処理を行うことができる。該フィールドプログラマブルゲートアレイ（４００）はＩ／Ｏインターフェース設計を提供することができ、そのブランド（例えばＳｔｒａｔｉｘ１０、ＲＥＦＬＥＸＣＥＳＸｐｒｅｓｓＶＵＰ－ＬＰ９Ｐ、Ａｒｒｉａ１０ＧＸＦＰＧＡ）、規格（例えばＲＪ４５、Ｄ－ｓｕｂ、ＵＳＢ、ＧＰＩＯ、ＳＰＩ、ＣＣＩ）及びポートの数量は信号ケーブルの通信プロトコル又はデータケーブルを制御するとみなすことができる。

【0013】

図１の健康補助識別システムにおいて、サーバが他にもテスト設計に電気的に接続することができるとき、目的はトラブルシューティング（ｔｒｏｕｂｌｅｓｈｏｏｔｉｎｇ）を行うことである。

【0014】

図１のフィールドプログラマブルゲートアレイ（ＦＰＧＡ）はＡｌｔｅｒａＣｙｃｌｏｎｅＶ２８ｎｍＦＰＧＡでよく、フィールドプログラマブルゲートアレイは遺伝子シークエンシング読取工程（Ｓ１１）及び使用者データ入力工程（Ｓ２１）を実行する。該遺伝子シークエンシング読取工程（Ｓ１１）において、フィールドプログラマブルゲートアレイ（４００）のＵＳＢ２．０インターフェースにより、使用者が遺伝子診断装置（２００）を使用することで得られた遺伝子シークエンシング出力信号を読み取る。該使用者データ入力工程（Ｓ２１）において、フィールドプログラマブルゲートアレイ（４００）のＤ－ｓｕｂインターフェースにより、アンケート装置（３００）又はその他の電子アンケートのデータが読み取られる。

【0015】

このほか、フィールドプログラマブルゲートアレイ（４００）が実行する必要がある工程は、図４に示す通りである。フィールドプログラマブルゲートアレイ（４００）はＣＣＬインターフェースを介してアクセラレータカード（５００）に連結し、データ計算加速工程（Ｓ３１）を実行する。該データ計算加速工程（Ｓ３１）は、Ｉｎｔｅｌが開発したＡｒｒｉａ１０ＧＸＦＰＧＡ大データ専用アクセラレータカードを採用しており、これはＡｐａｃｈｅＨａｄｏｏｐ及びＡｐａｃｈｅＳｐａｒｋシステムと互換性を有することができるが、このブランドのアクセラレータカードに制限されず、Ａｆｆｙｍｅｔｒｉｘ、Ａｇｉｌｅｎｔ、Ｉｌｌｕｍｉｎａなどの機器の信号又はデータベースと互換性を有することができればよい。アクセラレートカードは任天堂のホストに類似し、ＦＰＧＡのシングルチップの演算を加速するのを補助する。該フィールドプログラマブルゲートアレイ（４００）は、アクセラレータカード（５００）から前処理後の遺伝子データベースのデータを得た後、アルゴリズム演算工程（Ｓ４１）を実行する。この前処理は、遺伝子データベースに対して圧縮、分類、検索などのデータ処理を行うことを指す。他に、該アルゴリズム演算工程（Ｓ４１）は、次世代遺伝子シークエンシングの２次データの分析を実行するとき、該フィールドプログラマブルゲートアレイ開発ボードにより平均値を計算することができ、及びアクセラレータカードにより標準偏差を計算する。或いは、該フィールドプログラマブルゲートアレイ開発ボードにより標準偏差を計算し、及び該アクセラレータカードにより平均値を計算し、このようにして演算を平行処理することができる。リスク平均値（Ａｖｅ）の計算方法は式１の通りである。Ａをリスク値（ｒｉｓｋｓｃｏｒｅ）、Ｆを発生頻度（ｆｒｅｑｕｅｎｃｙ）として定義し、平均値は単一項目の合計（各遺伝子座の発生頻度×リスク値）に等しい。

【0016】

【数1】

【0017】

標準偏差も式２のように定義することができる。

【0018】

【数2】

【0019】

ＲＴＬ（Ｒｅｇｉｓｔｅｒ－Ｔｒａｎｓｉｓｔｏｒ－Ｌｅｖｅｌ）シミュレータにより、フィールドプログラマブルゲートアレイ開発ボードに書き込んだプログラムと異なる互換性を有するＬｉｂｒａｒｙをロードして分析報告を行うとき、以下の表１の数値を得ることができる。

【0020】

【表1】

【0021】

表１から、異なるブランドの遺伝子分析装置はその機器内部のマイクロプロセッサ及び管路の多少により、フィールドプログラマブルゲートアレイと結合して効果的な違いを引き起こす可能性があることがわかる。特に遺伝子診断を実行するとき、遺伝子配列の比較はかなり時間を要し、比較的好ましいメーカの診断装置を適切に選択して迅速に演算するように考慮することができ、例えばＩｌｌｕｍｉｎａの実行性能は最も高い。

【0022】

遺伝子診断モジュール
ヒトの染色体はタンパク質及び遺伝子からなる。遺伝子は核酸ＤＮＡのＡ、Ｔ、Ｃ、Ｇ核酸塩基が様々に配列してなり、この４種の塩基の配列は人体に遺伝するすべての因子を決定し、疾病、成長状況、老化状況などを含む。他に、Ａ、Ｔ、Ｃ、Ｇからなるゲノム（ｇｅｎｏｍｅ）の１つの一塩基多型に、２つ又は複数のヌクレオチドが出現し、遺伝子の欠失、挿入、又は置換反応などの変異の原因を引き起こす可能性がある。遺伝子学において、これらの一塩基多型は、対応する対立遺伝子の発生頻度が１％以下の場合、突然変異（ｍｕｔａｔｉｏｎ）と呼ぶため、一塩基多型（ＳＮＰ）及びｍｕｔａｔｉｏｎの違いは前者が１％より大きく、後者が１％以下であることである。突然変異の比率は低いが、全体の比較に必要なハードウェアの消費は甚大であるため、特定のハードウェア、例えばＩｌｌｕｍｉｎｉａを選択して時間を短縮することができ、商業目的で時間節約、節電、マンパワーの節約効果を達成することができる。

【0023】

近年、大型ゲノムデータセットの機械学習（ｍａｃｈｉｎｅｌｅａｒｉｎｇ）分析における最新の発展により、ヒトに特徴的で、複雑な多遺伝子予測要素を構築することができる。これは多くの重要で複雑な疾病のリスクを含み、通常、多くの遺伝的変異の影響を受ける。各変異が全体のリスクに及ぼす影響は小さい。しかし、多遺伝子リスクの予測装置において、疾病に対する一生（又は年齢範囲）のリスクは点数の数値の関数であり、該点数は数千の個体の遺伝的変異（すなわち一塩基多型又はＳＮＰ）の状態によって決まる。従って、多遺伝子のすでに決まっている評価法も機械学習の応用の１つとなっている。

【0024】

多遺伝子リスクスコア法
遺伝子環境の相互作用は遺伝形質において極めて重要な役割を担っており、遺伝疫学において、ますます重視されている。ゲノムワイド関連解析において、遺伝子環境の相互作用を検出することにより、一塩基多型及び環境因子の相互作用の効果を１つの検査にまとめて、疾病の原因に対する認識を深めることができる。例えばリスクのレベル分けを行う、臨床診断を助ける、特徴的な遺伝子のオーバーラップ現象を検査する（例えば鬱病で心血管疾患を測定する）、欠損した特徴を挿入する、個別化治療などである。

【0025】

遺伝子リスク数に対応する重み付けアルゴリズム
多遺伝子リスクスコア（ＰＲＳ）はエフェクトサイズβ１ＳＮＰ１にβ２ＳＮＰ２）を加え、βｎＳＮＰｎまで加える。式３に示す通りである。

【0026】

【数3】

【0027】

βはエフェクトサイズ、ＳＮＰはリスク遺伝子の対数、ｎはＳＮＰの数量である。図２に示すのは一般的なリスク分布関数であり、ガウス分布の態様である。横軸は対数のリスクスコア（ｌｏｇｒｉｓｋｓｃｏｒｅ）、縦軸は人口（ｐｏｐｕｌａｔｉｏｎ）である。ベイズ理論（Ｂａｙｅｓｉａｎｔｈｅｏｒｅｍ）により得られた特定疾病の発生確率の関数を発生のリスクスコアとすることもできる。疾病予測の目的について、分布関数の分散（ｖａｒｉａｎｃｅ）は主に分類（ｓｔｒａｔｉｆｉｃａｔｉｏｎ）又はリスク判別（ｒｉｓｋｄｉｓｃｒｉｍｉｎａｔｉｏｎ）の判断の鍵とする。例えば疾病の分布及び図２の比較下で、横軸の右側に向かうほどより多くの人口又はより高い人口比率である。このモデル中の人口は、ある疾病の事例数又は症例数でよい。一般的なリスク分布関数を該疾病の分布人口と重ね合わせると、リスク閾値がどこなのかを知ることができる。例えば図３の糖尿病を例とすると、台湾の糖尿病の流行率は約１２％であり、平均値及び標準偏差を利用して８８％（１００－１２％）の数値を推算することができる。遺伝子診断を行うとき、結果の数値を累加してこの高リスク閾値を超えると、高リスクと判定される。

【0028】

一般的に対応する遺伝子リスク数の表現は、遺伝可能性（ｉｎｈｅｒｉｔａｂｉｌｉｔｙ）、エフェクトサイズ（ｅｆｆｅｃｔｓｉｚｅ）、及びサンプルサイズ（ｓａｍｐｌｅｓｉｚｅ）によって決まる。最も理想的な遺伝可能性は正しい相関係数を指し、推計する必要はないか、又は選択でエラーが生じることはない。しかし科学的に許容可能な方式は特定の遺伝子プラットフォーム、例えばＧＷＡＳＣａｔａｌｏｇデータベースプラットフォームを採用することであり、このプラットフォームにより変異数と関係し、許容される最も大きな潜在値を決定する。

【0029】

ＧＷＡＳ研究において、遺伝子座検索の主要な分析方式は、連鎖不均衡分析（ｌｉｎｋａｇｅｄｉｓｅｑｕｉｌｉｂｒｉｕｍ、ＬＤ）である。異なる遺伝子座の各対立遺伝子は、個体群で一定の頻度で出現するが、ある個体群において、異なる遺伝子座のある２つの対立遺伝子が同一染色体に出現する頻度が、予想される任意の頻度より高い場合、これを連鎖不均衡（ｌｉｎｋａｇｅｄｉｓｅｑｕｉｌｉｂｒｉｕｍ）と呼ぶ。ゲノム中の至る所に分布する大量の遺伝子マーカ遺伝子座、又は候補遺伝子付近の遺伝子マーカを検出することにより、疾病と関係する遺伝子座を見つけることができる。このほか、サンプル数が過度に少ないと、容易に偽陽性が生じるが、公開されているＧＷＡＳデータベースと比較することにより、この問題を改善することができる。或いは、より多くのデータベースを利用し、ビッグデータによりＳＮＰスクリーニングの正確性を検証する。現在、既存のツールはＣ＋Ｔ、ＰＬＩＮＫ、ＰＲＳｉｃｅ２、ｂｉｇｓｎｐＲ、ＬＤｐｒｅｄ２、ＳＢａｙｅｒｓＲ、Ｌａｓｓｏｓｕｍ、ＰＲＳ－ＣＳ、ＪＡＭＰｒｅｄなどであり、いずれも凝集表現型（ｃｌｕｍｐｉｎｇｐｈｅｎｏｔｙｐｅ）に必要な回帰計算に用いることができる。

【0030】

癌を実施例とする
遺伝性乳癌卵巣癌症候群（Ｈｅｒｅｄｉｔａｒｙｂｒｅａｓｔａｎｄｏｖａｒｙｃａｎｃｅｓｙｎｄｒｏｍｅ）について、この症候群を促す最も重要な２つの遺伝子はＢＲＣＡ１及びＢＲＣＡ２である。ＢＲＣＡ１及びＢＲＣＡ２は１９９０年代にアメリカで発見された。１９９０年、Ｈａｌｌらは若年性及び遺伝性乳癌ファミリーを研究し、連鎖分析（ｌｉｎｋａｇｅａｎａｌｙｓｉｓ）により、染色体１７ｑ２１が若年性家族性乳癌と高度に関係することを発見した。その後１９９４年に、Ｍｉｋｉらは染色体１７ｑ２１上のＢＲＣＡ１遺伝子が乳癌（及び卵巣癌）を引き起こす遺伝子であることを証明した。同年、Ｗｏｏｓｔｅｒらは、１３ｑ１２～１３も乳癌の発生と関係することを発見し、これによりＢＲＣＡ２遺伝子を発見した。ＢＲＣＡ１は２４個のｅｘｏｎを有し、翻訳物のＢＲＣＡ１タンパク質は全部で１８６３個のアミノ酸を有する。ＢＲＣＡ２は２７個のｅｘｏｎを有し、翻訳物のＢＲＣＡ２タンパク質は全部で３４１８個のアミノ酸を有する。この２つの遺伝子は癌抑制遺伝子（ｔｕｍｏｒ－ｓｕｐｐｒｅｓｓｏｒｇｅｎｅ）に属し、２本鎖ＤＮＡ損傷の修復機構を担う。細胞内の２本鎖ＤＮＡが損傷したとき、細胞は２つの方式で補修を行う。１つ目の修復方式は相同組換え（ＨｏｍｏｌｏｇｏｕｓＲｅｃｏｍｂｉｎａｔｉｏｎ）と呼ばれ、もう１つは非相同末端結合（ｎｏｎ－Ｈｏｍｏｌｏｇｏｕｓｅｎｄ－ｊｏｉｎｔ）である。相同組換え方式により修復すれば、２本鎖ＤＮＡを正確に誤りなく修復することができる。ＢＲＣＡ１及びＢＲＣＡ２が関与する２本鎖ＤＮＡの修復機構は相同組換えであり、従って２つの遺伝子のうち１つに欠損が生じた場合、２本鎖ＤＮＡは攻撃を受けて断裂する。その後細胞内のＤＮＡ損傷が一定程度まで累積すると、正確に修復することができず、細胞の癌化が生じる。相同組換え修復（ＨｏｍｏｌｏｇｏｕｓＲｅｃｏｍｂｉｎａｔｉｏｎｒｅｐａｉｒ）には、多くのタンパク質が関与し、主にＦａｎｃｏｎｉ’ｓｐａｔｈｗａｙ関連タンパク質である。近年、相同組換えに関与する遺伝子に病原性の変異が生じると、ＢＲＣＡ１及びＢＲＣＡ２の突然変異に類似した表現型も生じ、つまり乳癌、卵巣癌又は関連する癌が生じることが研究により分かっている。

【0031】

従って乳癌、卵巣癌又は関連する癌の発症をさらに理解したいとき、統計したＰＲＳの表により癌の種類における罹患率を得ることができる。表２から、統計ソフトウェアにより、その内部のアルゴリズムを利用して異なる癌のＳＮＰにより得られた数値を得ることができる。乳癌を例とすると、得られたＳＮＰ群に影響を及ぼす可能性があるのは４５３０例であり、可能性がある標準偏差は１６１５である。遺伝性の多遺伝子リスクスコアにより、重み０．７７の発病率に達し、標準偏差は０．０４である。曲線下面積に関連する多遺伝子リスクスコアは０．７３、標準偏差は０．０１である。該曲線下面積（ＡＵＣ）の計算は式４の通りである。

【0032】

【数4】

【0033】

Φは累積標準正規分布の密度（ｔｈｅｃｕｍｕｌａｔｉｖｅｄｅｎｓｉｔｙｆｕｎｃｔｉｏｎｏｆｓｔａｎｄａｒｄｎｏｒｍａｌｄｉｓｔｒｉｂｕｔｉｏｎ）である。発病数を得た後、その他の重みの要素を組み合わせて癌を分類することができる。

【0034】

【表2】

【0035】

以上の癌の模範例は本発明で使用可能な実施模範例に過ぎないが、癌に制限されない。同様に、多遺伝子リスクスコア（ＰＲＳ）はその他の珍しい癌又は診断項目に使用することができる。

【0036】

二分探索及び再帰関数の使用
本発明は台湾地区華人細胞株及基因資料庫（ＴａｉｗａｎＨａｎＣｈｉｎｅｓｅＣｅｌｌａｎｄＧｅｎｏｍｅＢａｎｋ）の遺伝子データベースのデータを、１ｘＮの行列に展開して、アクセラレータカードに保存し、これにより異なる遺伝子配列を比較するのに便利である。行列が過度に長い可能性があるため、異なる配列方式により演算を減少させなければならない。本発明で使用する二分探索について、そのアルゴリズムは表３に示す通りである。

【0037】

【表3】

【0038】

上記アルゴリズムを既知の多遺伝子リスクスコア全体に適用し、探索した遺伝子データベース中の配列を２つの断片に分けて、比較しようとする遺伝子配列を探索する。他に、ＦＯＲＫ関数を適用することもできる。このアルゴリズムを適用して、複数部分で演算を平行処理することができ、遺伝子配列の探索を加速させる。

【0039】

行列転置アルゴリズム
他に、遺伝子データベースの行列を１ｘＮの大きさの行列Ａ１［１］からＡ［ｎ］に転換するとき、これを他にも逆に配列してもう１つの行列Ａ２［ｎ］からＡ１［１］にする必要もある。さらに以下のプログラムを適用し、アクセラレータカード中のデータベースに存在する遺伝子座について、行列の探索及び比較を行う。

【0040】

【表4】

【0041】

上記行列転置のアルゴリズムは、一時保存する空白の行列を追加しなくてよく、直接照会しようとする遺伝子配列を前後で交換する。例えばＡＡＴＴＣＣＧＧの遺伝子配列を探そうとし、遺伝子データベース中にＧＧＣＣＴＴＡＡが出現した場合も、有効な遺伝子配列であるため、上記アルゴリズムを適用しなくてはならない。このアルゴリズムは一般的にｔｅｍｐを適用するより複雑ではなく、プロセッサ演算の時間を節約することもできる。

【0042】

また、該アルゴリズム演算工程（Ｓ４１）は、因子分析法（ｆａｃｔｏｒａｎａｌｙｓｉｓ）、主成分分析法（ｐｒｉｎｃｉｐａｌｃｏｍｐｏｎｅｎｔａｎａｌｙｓｉｓ）でもよい。因子分析法を採用するとき、独自因子（ｕｎｉｑｕｅｆａｃｔｏｒ）の存在、例えば珍しい疾病に適用する。主成分分析法を採用するとき、複数の遺伝子座の間で、ある特徴に対する寄与量を考慮し、各因子をすべて組み込む必要はない。本発明での使用は、分散共分散行列により前５つの主成分又は主成分の分散パーセントの総和を決定し、原データの累積寄与率（ＣｕｍｕｌａｔｉｖｅＰｒｏｐｏｒｔｉｏｎ）の９９パーセントを超えるまで計算する。

【0043】

教師あり機械学習
図１のサーバ（６００）は機械学習により演算することができ、さらにフィールドプログラマブルゲートアレイ（４００）に対してデバックを行う。さらに予測結果検証工程（Ｓ６１）に対して、アルゴリズム演算工程（４１）及びサーバのデバック工程（５１）の結果の一致性を比較する。

【0044】

該サーバのデバック工程（Ｓ５１）において、サーバが教師あり機械学習アルゴリズム及び数個の分類器モジュールにより、リスク予測を行う。
使用する別のアルゴリズムは機械学習における教師ありランダムフォレストアルゴリズムであり、主に大量の遺伝子データベースのデータでトレーニングを実行しなければならない。教師あり機械学習は、分類及び回帰の２種類に分けられる。本発明の予測結果検証工程（Ｓ６１）において、分類方式及び回帰方式で一致性判断を行うため、ランダムフォレストの使用は、リスク領域の閾値表現が正確であるかどうかを判断、決定する検証方式にもなる。

【0045】

分類を行う過程で、演算中に過学習（ｏｖｅｒｆｉｔｔｉｎｇ）が生じることは望ましくない。つまり確率の分布が過度に緊密であるか、又は特定の遺伝子データ配列に精確に整合し、その他のデータ又は将来の観察結果の予測を良好に適応させることができない。従って、複数の決定木を採用して分類し、プロセッサの演算時間を短縮する利点を生じさせることもできる。２つ目の利点は、ランダムフォレスト法により特に大量のデータベースで、高度に正確な予測に達することができる。３つ目の利点は、いくつかの数値の不足について、特に遺伝子対がいくつかの疾病に対して十分に顕著でない可能性があるとき、その数値を予測することができる。例えば決定木Ａは出力結果ＧＥＮＯ１を生成し、決定木Ｂは出力結果ＧＥＮＯ２を生成し、決定木Ｃは結果ＧＥＮＯ１を生成する。すべての決定木を共に１つの森林のように置くと、ＧＥＮＯ１の生成及びＧＥＮＯ２の生成が２：１であることがわかり、従って該予測結果はＧＥＮＯ１である。

【0046】

ランダムフォレストアルゴリズムを利用すると、サーバの演算により、遺伝子配列中のランダム変化する乱数のエントロピー（ｅｎｔｒｏｐｙ）を低下させて比較的低いランダム変化に変えることができる。情報を獲得（ｉｎｆｏｒｍａｔｉｏｎｇａｉｎ）しようとするとき、高次エントロピーを低次エントロピーから引いて分類を行うことができ、例えば発生頻度及び流行率である。相関測定した確率をノード（ｎｏｄｅ）として分類することにより、さらにアルゴリズムを分類することにより、複数の決定ノード（ｄｅｃｉｓｉｏｎｎｏｄｅ）を得ることができる。本発明で遺伝子データベースをロードしてデータセットとした後、Ｂａｙｅｓ分類器、Ｐａｎｄａ分類器、ｎｕｍｐｙ分類器などを選ぶことができ、さらに一つ一つ条件に符合させたい決定ノードを検査するが、上記分類器に制限されない。分類の後、さらに２つのデータフレーム（ｄａｔａｆｒａｍｅ）に分け、トレーニングモジュール及びテストモジュールを設ける。その後、選定した分類器がトレーニングモジュールに対して行列分解（ｍａｔｒｉｘｆａｃｔｏｒｉｚａｔｉｏｎ）又はテンソル分解（ｔｅｎｓｏｒｆａｃｔｏｒｉｚａｔｉｏｎ）を行い、その後ランダム状態の初期化及び実行した条件回数により、ランダムフォレスト分類器を構築する。さらにトレーニングした分類器をテストモジュールに適用し、その後その特性（ｆｅａｔｕｒｅ）を観察する。最後に、さらにサーバの演算結果によりＦＰＧＡ及びアクセラレータカードを比較し、偽陽性の発生を減少させることができ、さらに正確なリスク予測結果を提供する。

【0047】

リスク予測結果は、結果出力工程（Ｓ７１）により、図５から図７のように、スクリープロット（ｓｃｒｅｅｐｌｏｔ）、ヒートプロット（ｈｅａｔｐｌｏｔ）、又は多次元尺度法（ＭＤＳｐｌｏｔ）で表される。

【符号の説明】

【0048】

１健康補助識別システム
２００遺伝子診断装置
３００アンケート装置
４００フィールドプログラマブルゲートアレイ
５００アクセラレータカード
６００サーバ
Ｓ１１遺伝子シークエンシング読取工程
Ｓ２１使用者データ入力工程
Ｓ３１データ計算加速工程
Ｓ４１アルゴリズム演算工程
Ｓ５１サーバのデバック工程
Ｓ６１予測結果検証工程
Ｓ７１結果出力工程

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版