(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-09-16
(54)【発明の名称】機械学習モデルに基づいた必須遺伝子識別方法および分析装置
(51)【国際特許分類】
G16B 5/00 20190101AFI20220909BHJP
G06N 20/00 20190101ALI20220909BHJP
G16B 40/20 20190101ALI20220909BHJP
【FI】
G16B5/00
G06N20/00 130
G16B40/20
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022501195
(86)(22)【出願日】2020-07-07
(85)【翻訳文提出日】2022-01-07
(86)【国際出願番号】 KR2020008843
(87)【国際公開番号】W WO2021006596
(87)【国際公開日】2021-01-14
(31)【優先権主張番号】10-2019-0083016
(32)【優先日】2019-07-10
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
(71)【出願人】
【識別番号】592127149
【氏名又は名称】韓国科学技術院
【氏名又は名称原語表記】KOREA ADVANCED INSTITUTE OF SCIENCE AND TECHNOLOGY
【住所又は居所原語表記】291,Daehak-ro Yuseong-gu,Daejeon 34141,Republic of Korea
(71)【出願人】
【識別番号】522010657
【氏名又は名称】ペンタメディクス・カンパニー・リミテッド
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ジュン・キョン・チェ
(72)【発明者】
【氏名】キウォン・ジャン
(72)【発明者】
【氏名】テ・ヨン・チョ
(57)【要約】
機械学習モデルに基づいた必須遺伝子識別方法は、分析装置が特定細胞の遺伝子に対する発現パターン情報の入力を受ける段階、前記分析装置が前記発現パターン情報を機械学習モデルに入力する段階および前記分析装置が前記機械学習モデルが出力する情報を基準として、前記遺伝子のうちターゲット遺伝子が前記細胞の生存に必須であるかどうかを決定する段階を含む。前記機械学習モデルは学習データセットを基準として学習されるパラメータを含み、前記学習データセットは特定細胞の遺伝子発現量データおよび前記特定細胞の死滅の有無に対するラベル値を含む。
【特許請求の範囲】
【請求項1】
分析装置が特定細胞の遺伝子に対する発現パターン情報の入力を受ける段階、
前記分析装置が前記発現パターン情報を機械学習モデルに入力する段階、および
前記分析装置が、前記機械学習モデルが出力する情報を基準として、前記遺伝子のうちターゲット遺伝子が前記細胞の生存に必須であるかどうかを決定する段階を含むものの、
前記機械学習モデルは学習データセットを基準として学習されるパラメータを含み、前記学習データセットは特定細胞の遺伝子発現量データおよび前記特定細胞の死滅の有無に対するラベル値を含む、機械学習モデルに基づいた必須遺伝子識別方法。
【請求項2】
前記発現パターン情報は前記ターゲット遺伝子の発現量が変更された情報であり、
前記分析装置は前記特定細胞の遺伝子の最初の発現量情報で、前記ターゲット遺伝子の発現量を変更して前記発現パターン情報を生成する段階をさらに含む、請求項1に記載の機械学習モデルに基づいた必須遺伝子識別方法。
【請求項3】
前記分析装置は遺伝子調節ネットワークを利用して、前記ターゲット遺伝子の発現量が一定に減少する場合に予測される前記特定細胞の遺伝子の発現量を決定して前記発現パターン情報を生成する、請求項2に記載の機械学習モデルに基づいた必須遺伝子識別方法。
【請求項4】
前記学習データセットの遺伝子発現量データは実験的に測定された前記特定細胞の遺伝子発現量であり、前記ラベル値は前記遺伝子発現量を有する前記特定細胞の死滅の有無に対する値である、請求項1に記載の機械学習モデルに基づいた必須遺伝子識別方法。
【請求項5】
前記学習データセットの遺伝子発現量データは遺伝子調節ネットワークを利用して特定遺伝子の発現量が減少する場合に予測される前記特定細胞の遺伝子の発現量データであり、前記ラベル値は前記特定遺伝子の発現量減少または抑制された場合に実験的に観察される細胞の死滅の有無に対する値である、請求項1に記載の機械学習モデルに基づいた必須遺伝子識別方法。
【請求項6】
分析装置が同一の対象の正常細胞および腫瘍細胞それぞれの遺伝子発現データの入力を受ける段階、
前記分析装置が前記腫瘍細胞に対して、分析対象であるターゲット遺伝子の発現量が調節された第1遺伝子発現パターン情報を機械学習モデルに入力して第1値を生成する段階、
前記分析装置が前記正常細胞に対して、前記ターゲット遺伝子と同一の遺伝子の発現量が調節された第2遺伝子発現パターン情報を前記機械学習モデルに入力して第2値を生成する段階、および
前記分析装置が前記第1値と前記第2値を比較して前記ターゲット遺伝子が前記腫瘍細胞に特異的な必須遺伝子であるかどうかを決定する段階を含むものの、
前記機械学習モデルは学習データセットを基準として学習されるパラメータを含み、前記学習データセットは特定細胞の遺伝子発現量データおよび前記特定細胞の死滅の有無に対するラベル値を含む、機械学習モデルに基づいた腫瘍細胞特異的必須遺伝子識別方法。
【請求項7】
前記分析装置が前記正常細胞および前記腫瘍細胞それぞれに対して、前記遺伝子発現データのうち分析対象である前記ターゲット遺伝子の発現量を調節する前処理を遂行する段階をさらに含む、請求項6に記載の機械学習モデルに基づいた腫瘍細胞特異的必須遺伝子識別方法。
【請求項8】
前記分析装置は
前記正常細胞および前記腫瘍細胞それぞれに対して、遺伝子調節ネットワークを利用して前記ターゲット遺伝子の発現量が一定に減少する場合に予測される遺伝子の発現量を含む前記第1遺伝子発現パターン情報および前記第2遺伝子発現パターン情報を生成する段階をさらに含む、請求項6に記載の機械学習モデルに基づいた腫瘍細胞特異的必須遺伝子識別方法。
【請求項9】
前記学習データセットの遺伝子発現量データは実験的に測定された前記特定細胞の遺伝子発現量であり、前記ラベル値は前記遺伝子発現量を有する前記特定細胞の死滅の有無に対する値である、請求項6に記載の機械学習モデルに基づいた腫瘍細胞特異的必須遺伝子識別方法。
【請求項10】
前記学習データセットの遺伝子発現量データは遺伝子調節ネットワークを利用して特定遺伝子の発現量が減少する場合に予測される前記特定細胞の遺伝子の発現量データであり、前記ラベル値は前記特定遺伝子の発現量減少または抑制された場合に実験的に観察される細胞の死滅の有無に対する値である、請求項6に記載の機械学習モデルに基づいた腫瘍細胞特異的必須遺伝子識別方法。
【請求項11】
前記分析装置は前記第1値が前記腫瘍細胞の死滅を示し、前記第2値が前記正常細胞の生存を示す場合、前記ターゲット遺伝子が前記腫瘍細胞に特異的な必須遺伝子であると決定する、請求項6に記載の機械学習モデルに基づいた腫瘍細胞特異的必須遺伝子識別方法。
【請求項12】
細胞の遺伝子に発現量データの入力を受ける入力装置、
特定遺伝子の発現量が調節された遺伝子発現量パターンの入力を受けて前記特定遺伝子の必須性情報を出力する機械学習モデルを保存する保存装置、および
前記入力装置で入力される発現量データでターゲット遺伝子の発現量が調節された前記細胞に対する遺伝子発現量パターンを前記機械学習モデルに入力し、前記機械学習モデルが出力する値を基準として前記ターゲット遺伝子の必須性を決定するプロセッサを含むものの、
前記機械学習モデルは学習データセットを基準として決定されるパラメータを含み、前記学習データセットは特定細胞の遺伝子発現量データおよび前記特定細胞の死滅の有無に対するラベル値を含む、機械学習モデル基盤の必須遺伝子選別のための分析装置。
【請求項13】
前記保存装置は遺伝子調節ネットワークをさらに含み、
前記プロセッサは前記遺伝子調節ネットワークを利用して、前記ターゲット遺伝子の発現量が一定に減少する場合に予測される前記細胞の前記遺伝子発現量パターンを生成する、請求項12に記載の機械学習モデル基盤の必須遺伝子選別のための分析装置。
【請求項14】
前記入力装置は腫瘍細胞に対する遺伝子の発現量データの入力を受け、
前記プロセッサは前記腫瘍細胞に対する前記遺伝子発現量パターンを前記機械学習モデルに入力して第1値を算出して前記腫瘍細胞の前記ターゲット遺伝子が必須であるかどうかを判断する、請求項12に記載の機械学習モデル基盤の必須遺伝子選別のための分析装置。
【請求項15】
前記入力装置は正常細胞に対する遺伝子の発現量データの入力を受け、
前記プロセッサは前記正常細胞に対する前記遺伝子発現量パターンを前記機械学習モデルに入力して第2値を算出し、
前記第1値が前記腫瘍細胞の死滅を示し、前記第2値が前記正常細胞の生存を示す場合、前記ターゲット遺伝子が前記腫瘍細胞に特異的な必須遺伝子であると決定する、請求項14に記載の機械学習モデル基盤の必須遺伝子選別のための分析装置。
【請求項16】
演算装置は遺伝子発現パターンをベクトルに変換し、前記ベクトルを前記機械学習モデルに入力するものの、
前記ベクトルは遺伝子配列の順序および各遺伝子の発現量情報を含む、請求項12に記載の機械学習モデル基盤の必須遺伝子選別のための分析装置。
【発明の詳細な説明】
【技術分野】
【0001】
以下で説明する技術は、特定細胞の転写体の様相に基づいて該当細胞の生存に必須の遺伝子を識別する技法に関する。
【背景技術】
【0002】
RNAiおよびCRISPR技法で特定遺伝子の発現を減らしたり(knockdown)、除去(knockout)して、特定遺伝子が細胞の生存に必須のものであるかどうかを判別することができる。このような技法はRNAi/CRISPRスクリーンという。例えば、RNAi/CRISPRスクリーンは腫瘍細胞に必須の遺伝子を識別することができる。
【発明の概要】
【発明が解決しようとする課題】
【0003】
ただし、RNAi/CRISPRスクリーンは試験管細胞環境(in vitro)でのみ分析が可能である。したがって、RNAi/CRISPRスクリーンは多くの時間と費用が消費される限界がある。
【0004】
以下で説明する技術は、細胞の遺伝子発現量データを基準としてコンピュータ環境(in silico)で細胞の必須遺伝子を識別する方法を提供しようとする。
【課題を解決するための手段】
【0005】
機械学習モデルに基づいた必須遺伝子識別方法は、分析装置が特定細胞の遺伝子に対する発現パターン情報の入力を受ける段階、前記分析装置が前記発現パターン情報を機械学習モデルに入力する段階および前記分析装置が前記機械学習モデルが出力する情報を基準として、前記遺伝子のうちターゲット遺伝子が前記細胞の生存に必須であるかどうかを決定する段階を含む。
【0006】
機械学習モデルに基づいた腫瘍細胞特異的必須遺伝子識別方法は、分析装置が同一対象の正常細胞および腫瘍細胞それぞれの遺伝子発現データの入力を受ける段階、前記分析装置が前記腫瘍細胞に対して、分析対象であるターゲット遺伝子の発現量が調節された第1遺伝子発現パターン情報を機械学習モデルに入力して第1値を生成する段階、前記分析装置が前記正常細胞に対して、前記ターゲット遺伝子と同一の遺伝子の発現量が調節された第2遺伝子発現パターン情報を前記機械学習モデルに入力して第2値を生成する段階および前記分析装置が前記第1値と前記第2値を比較して前記ターゲット遺伝子が前記腫瘍細胞に特異的な必須遺伝子であるかどうかを決定する段階を含む。
【0007】
機械学習モデル基盤の必須遺伝子選別のための分析装置は、細胞の遺伝子に発現量データの入力を受ける入力装置、特定遺伝子の発現量が調節された遺伝子発現量パターンの入力を受けて前記特定遺伝子の必須性情報を出力する機械学習モデルを保存する保存装置および前記入力装置で入力される発現量データでターゲット遺伝子の発現量が調節された前記細胞に対する遺伝子発現量パターンを前記機械学習モデルに入力して、前記機械学習モデルが出力する値を基準として前記ターゲット遺伝子の必須性を決定するプロセッサを含む。
【0008】
前記機械学習モデルは学習データセットを基準として学習されるパラメータを含み、前記学習データセットは特定細胞の遺伝子発現量データおよび前記特定細胞の死滅の有無に対するラベル値を含む。
【発明の効果】
【0009】
以下で説明する技術は、機械学習モデルを利用して細胞の必須遺伝子を短時間かつ低費用で識別することができる。以下で説明する技術は、腫瘍細胞の必須遺伝子を選別して新生抗原(neoantigen)スクリーニングに活用され得る。
【図面の簡単な説明】
【0010】
【
図1】特定細胞の必須遺伝子を識別するシステムに対する例である。
【
図2】分析装置で必須遺伝子を識別する概略的な過程に対する例である。
【
図3】攪乱された遺伝子発現量を基準として必須遺伝子を識別する過程を図示した例である。
【
図4】攪乱された遺伝子発現量を基準として必須遺伝子を識別する過程を図示した他の例である。
【
図5】ディープラーニングモデルの学習過程に対する例である。
【
図6】ディープラーニングモデルを利用した必須遺伝子予測過程に対する例である。
【
図7】ディープラーニングモデルを利用して細胞の必須遺伝子を予測するコンピューティング装置に対する例である。
【
図8】必須遺伝子を識別する分析装置に対する例である。
【
図9】ディープラーニングモデルの効果を検証した実験結果である。
【発明を実施するための形態】
【0011】
以下で説明する技術は多様な変更を加えることができ、多様な実施例を有することができるところ、特定の実施例を図面に例示して詳細に説明しようとする。しかし、これは以下で説明する技術を特定の実施形態に対して限定しようとするものではなく、以下で説明する技術の思想および技術範囲に含まれるすべての変更、均等物乃至代替物を含むものと理解されるべきである。
【0012】
第1、第2、A、Bなどの用語は多様な構成要素を説明するのに使われ得るが、該当構成要素は前記用語によって限定されはせず、単に一つの構成要素を他の構成要素から区別する目的でのみ使われる。例えば、以下で説明する技術の権利範囲を逸脱することなく第1構成要素は第2構成要素と命名され得、同様に第2構成要素も第1構成要素と命名され得る。および/またはという用語は複数の関連した記載された項目の組み合わせまたは複数の関連した記載された項目のうちいずれかの項目を含む。
【0013】
本明細書で使われる用語で単数の表現は文脈上明白に異なるように解釈されない限り、複数の表現を含むものと理解されるべきである、「含む」等の用語は説明された特徴、個数、段階、動作、構成要素、部分品またはこれらを組み合わせたものが存在することを意味するものであって、一つまたはそれ以上の他の特徴や個数、段階動作構成要素、部分品またはこれらを組み合わせたものなどの存在または付加の可能性を排除しないものと理解されるべきである。
【0014】
図面に対する詳細な説明に先立ち、本明細書での構成部に対する区分は各構成部が担当する主機能別に区分したものに過ぎないことを明確にされたい。すなわち、以下で説明する2個以上の構成部が一つの構成部で統合されたり、または一つの構成部がより細分化された機能別に2個以上に分化して備えられてもよい。そして、以下で説明する構成部それぞれは、自身が担当する主機能以外にも他の構成部が担当する機能のうち一部又は全ての機能を追加的に遂行してもよく、構成部それぞれが担当する主機能のうち一部の機能が異なる構成部によって専担して遂行されてもよいのは言うまでもない。
【0015】
また、方法または動作方法を遂行するにおいて、前記方法をなす各過程は文脈上明白に特定の順序を記載しない以上、明記された順序と異なるように遂行されてもよい。すなわち、各過程は明記された順序と同一に遂行されてもよく、実質的に同時に遂行されてもよく、反対順に遂行されてもよい。
【0016】
以下の説明で使われる主な用語について説明する。
【0017】
細胞は分析対象である個体や個体の特定組織から獲得した試料であって、細胞株、細胞の集団、あるいは単一細胞を意味し得る。個体は基本的に人間から獲得する。ただし、個体は必ずしも人間に限定されるものではない。
【0018】
転写体(transcriptome)は細胞、細胞グループまたは個体に存在する発現されたRNAの集合を意味する。
【0019】
必須遺伝子(essential gene)または依存性遺伝子は細胞の増殖または生存に必須の遺伝子を意味する。必須遺伝子はその発現が減少したり除去されると、細胞の死滅を招く遺伝子である。普遍的必須遺伝子は多様な種類の腫瘍または腫瘍細胞の生存に普遍的に必須の遺伝子を意味する。癌患者特異的必須遺伝子は個別の癌患者から由来した腫瘍細胞の生存に特異的に必須の遺伝子である。以下、必須遺伝子は普遍的必須遺伝子および/または癌患者特異的必須遺伝子を意味する。以下、説明の便宜のために腫瘍(tumor)を中心に説明する。
【0020】
機械学習(machine learning)または学習は人工知能の一分野であり、コンピュータが学習できるようにアルゴリズムを開発する分野を意味する。機械学習モデルまたは学習モデルはコンピュータが学習できるように開発されたモデルを意味する。学習モデルは接近方法により、人工ニューラルネットワーク、ディシジョンツリーなどのような多様なモデルがある。以下、説明の便宜のためにディープラーニングモデル(deep learning model)を中心に説明する。
【0021】
分析装置は学習モデルを利用して細胞の必須遺伝子を識別する装置である。分析装置は設置されたプログラムを利用して遺伝体データを処理し分析する。分析装置はスマート機器(スマートフォン、タブレット)、コンピュータ装置(PC、ノートパソコン)、サーバーまたは分析専用チップセットなどのような装置である。
【0022】
図1は、特定細胞の必須遺伝子を識別するシステム10に対する例である。
【0023】
転写体処理装置11は細胞を分析して遺伝子発現量情報を生成する。転写体処理装置11はRNAシーケンシング(RNA-Seq)、DNAマイクロアレイなどのような技法を利用して細胞の遺伝子発現量情報を獲得することができる。
【0024】
図1で分析装置は二種類の類型を図示した。分析装置12はネットワーク上に存在するサーバーである。分析装置13はPCのようなコンピュータ装置である。分析装置(12または13)は細胞の遺伝子発現量パターンの入力を受ける。遺伝子発現量パターンは各遺伝子の発現量情報を含む。分析装置(12または13)は遺伝子発現量パターンを学習モデルを入力して、該当細胞での必須遺伝子を識別する。
【0025】
分析装置(12または13)は分析結果を研究者(A)に提供することができる。または分析装置(12または13)は必須遺伝子に対する情報を利用して追加的な分析をする他の分析装置(B)に分析結果を提供することができる。例えば、他の分析装置(B)は腫瘍細胞特異的な変移情報とともに必須遺伝子情報を利用して新生抗原の識別をすることもできる。
【0026】
図2は、分析装置で必須遺伝子を識別する概略的な過程20に対する例である。分析装置は細胞の遺伝体発現量パターンの入力を受ける(21)。分析装置は評価対象である特定の遺伝子を選択する。例えば、分析装置は遺伝子セットのうちk番目の遺伝子を選択することができる。評価対象であるk番目の遺伝子をターゲット遺伝子と命名する。分析装置はk番目の遺伝子の発現量を調節する(22)。例えば、分析装置はk番目の遺伝子の発現量を減らすことができる。
【0027】
分析装置は調節された遺伝体発現量パターンをディープラーニングモデルの入力値に変換することができる。分析装置は遺伝体発現量パターンをベクトル値に変換することができる。遺伝体発現量パターンは連続した遺伝子の発現量に対する情報である。したがって、遺伝体発現量パターンは1次元ベクトルシーケンスで表現され得る。ベクトルシーケンスは遺伝子配列の順序および該当遺伝子の発現量に対する情報を含むことになる。
【0028】
分析装置は遺伝子発現量パターンのベクトルシーケンスをディープラーニングモデルに入力することができる。分析装置はk番目の遺伝子の発現量が調節された細胞の遺伝子発現量パターンをディープラーニングモデルが入力して分析する(23)。ディープラーニングモデルはk番目の遺伝子が細胞で必須遺伝子であるかどうかを示す分析結果を出力する。
【0029】
分析装置は他の評価対象遺伝子を選択し、同じ過程を繰り返して必須遺伝子であるかどうかを分析することができる。例えば、分析装置はl(k≠l)番目の遺伝子を選択し、21過程で入力を受けた原本遺伝子発現量パターンでl番目の遺伝子の発現量を減らす。分析装置はl番目の遺伝子の発現量が調節された遺伝子発現量パターンをディープラーニングモデルが入力して分析する。
【0030】
必須遺伝子分類に利用されるディープラーニングモデルについて説明する。ディープラーニングモデルは細胞の遺伝子発現量情報の入力を受けて、細胞の死滅の有無に対する情報を出力する。ディープラーニングモデルの学習過程について説明する。学習データセットは特定レファレンスの遺伝子発現量情報(入力値)および該当発現量を有するレファレンスの細胞死滅の有無に対する情報(ラベル値)を含む。学習データは実験的に確認されたデータを使うことができる。
【0031】
図3は、攪乱された遺伝子発現量を基準として必須遺伝子を識別する過程を図示した例である。
図3は、腫瘍細胞の必須遺伝子を識別する過程の例である。
【0032】
図3Aは、腫瘍細胞の遺伝子の発現量および攪乱された腫瘍細胞の遺伝子の発現量をダイヤグラムで提示したものである。
図3Bは、細胞の遺伝子の発現量の入力を受けて細胞の死滅に関する確率を出力する予測モデルの一実施例に係る構造を説明するためのダイヤグラムである。
図3Cは、腫瘍細胞10のk
th-遺伝子100kが含まれたk
th-遺伝子調節ネットワーク30
kを概念的に示したものである。遺伝子調節ネットワークは後述する。
【0033】
図3Aを参照して説明すると、癌患者の腫瘍細胞10はN個の遺伝子100を含むことができる。
【0034】
腫瘍細胞10のkth-遺伝子100kが含まれたkth-遺伝子調節ネットワーク30kでkth-遺伝子の発現量110kを減少させる攪乱をシミュレーションすることができる。このような攪乱のシミュレーションは従来技術によって多様な方式で可能であり、このような攪乱のシミュレーションに対する具体的な方式は本発明の範囲を制限するものではない。
【0035】
攪乱された-腫瘍細胞102は腫瘍細胞10に対する前記撹乱が起きた状態の腫瘍細胞を意味する。
図3Aで、上下方向に連続的に配列された四角形はそれぞれ腫瘍細胞10または攪乱された-腫瘍細胞102の遺伝子を示す。k番目の遺伝子は下付きkを利用して100
kという参照番号で提示した。ここで、k=1、2、3、...、Nであって、1以上の自然数であり得る。
【0036】
図3Aで腫瘍細胞10の遺伝子の発現量は参照番号110で提示した。攪乱された-腫瘍細胞102の遺伝子の発現量は参照番号112で提示した。
図3Aおよび以下で提示する他の図面で、任意の細胞または細胞株の遺伝子の発現量は統合的に参照番号1000で指示した。
【0037】
攪乱された-腫瘍細胞102の一セットの遺伝子100の発現量112は後述するディープラーニングモデル1に入力されるkth-セット入力値として見なされ得る。
【0038】
図3Aで上下方向に連続的に配列された円の内部に提示された数字は該当遺伝子の発現量を数字で提示したものである。
【0039】
図3Aに提示したように、k
th-遺伝子の発現量110kを減少させる撹乱がなされた時に遺伝子の発現量が変化することを確認することができる。
【0040】
図3Bは、ディープラーニングモデル1に対する例である。ディープラーニングモデル1は入力レイヤ、隠れレイヤおよび出力レイヤを含んで構成されるニューラルネットワークであり得る。ディープラーニングモデル1の入力レイヤに前記k
th-セット入力値が入力されると、出力レイヤには二つの確率値が出力され得る。二つの出力値の和は1以下であり得る。前記二つの確率値のうちの一つは細胞が死滅に至る確率を示し、他の一つは前記細胞が成長する確率を示す。またはディープラーニングモデル1は細胞生存または細胞死滅に対する単一情報を出力してもよい。
【0041】
ディープラーニングモデル1が出力する出力値は参照番号11で提示され得る。出力値11は前記腫瘍細胞が死滅に至る確率前記腫瘍細胞が成長する確率のうちの一つ以上を含むことができる。
【0042】
分析装置は腫瘍細胞の死滅に関する確率に基づいてkth-遺伝子が腫瘍細胞の必須遺伝子であるかどうかを決定する段階を含むことができる。例えば腫瘍細胞の死滅に関する確率が予め決定された臨界値(例えば、0.8)以上であれば、kth-遺伝子が前記腫瘍細胞の必須遺伝子であるものと決定し、前記臨界値より小さければ必須遺伝子ではないものと決定することができる。
【0043】
図4は、攪乱された遺伝子発現量を基準として必須遺伝子を識別する過程を図示した他の例である。
図4は、正常細胞の必須遺伝子を識別する過程に対する例である。
【0044】
図4Aは、正常細胞の遺伝子の発現量および攪乱された正常細胞の遺伝子の発現量をダイヤグラムで提示したものである。
【0045】
図4Bは、細胞の遺伝子の発現量の入力を受けて細胞の死滅に関する確率を出力する予測モデルの一実施例に係る構造を説明するためのダイヤグラムである。
【0046】
図4Cは、正常細胞70のk
th-遺伝子100
kが含まれたk
th-遺伝子調節ネットワーク130kを概念的に示したものである。
【0047】
図4Cに示したk
th-遺伝子調節ネットワーク130
kは正常細胞70での遺伝子調節ネットワーク130
kを概念的に示したものであり、
図3に示した腫瘍細胞10のk
th-遺伝子調節ネットワーク30
kとは互いに異なり得る。
【0048】
図4Aを参照して説明すると、癌患者の正常細胞70はN個の遺伝子100を含むことができる。
【0049】
正常細胞70のkth-遺伝子100kが含まれたkth-遺伝子調節ネットワーク130kでkth-遺伝子の発現量710kを減少させる攪乱をシミュレーションすることができる。
【0050】
攪乱された-正常細胞702は正常細胞70に対する前記撹乱が起きた状態の正常細胞を意味する。
【0051】
図4Aで、上下方向に連続的に配列された四角形はそれぞれ正常細胞70または攪乱された-正常細胞702の遺伝子を示す。k番目の遺伝子は下付きkを利用して100
kという参照番号で提示した。ここで、k=1、2、3、...、Nであって、1以上の自然数であり得る。
【0052】
図4Aで正常細胞70の遺伝子の発現量は参照番号710で提示したし、攪乱された-正常細胞702の遺伝子の発現量は参照番号712で提示した。
図4Aおよびこれを含む他の図面で、任意の細胞または細胞株の遺伝子の発現量は統合的に参照番号1000で指示した。
【0053】
攪乱された-正常細胞702の一セットの遺伝子100の発現量712は後述するディープラーニングモデル1に入力されるkth-セット入力値として見なされ得る。
【0054】
図4Aで上下方向に連続的に配列された円の内部に提示された数字は該当遺伝子の発現量を数字で提示したものである。
【0055】
図4Aに提示したように、k
th-遺伝子の発現量710
kを減少させる撹乱がなされた時に遺伝子の発現量が変化することを確認することができる。
【0056】
図4Bに提示されたディープラーニングモデル1は
図3Bに提示したものと同一のニューラルネットワークであり得る。
【0057】
ディープラーニングモデル1が出力する出力値は参照番号71で提示され得る。出力値71は前記正常細胞が死滅に至る確率前記正常細胞が成長する確率のうちの一つ以上を含むことができる。
【0058】
分析装置は出力値71、すなわち、前記正常細胞の死滅に関する確率に基づいてkth-遺伝子が正常細胞の必須遺伝子であるかどうかを決定することができる。例えば、分析装置は正常細胞の死滅に関する確率が予め決定された臨界値(例えば、0.8)以上であれば、kth-遺伝子が前記正常細胞の必須遺伝子であるものと決定し、前記臨界値より小さければ必須遺伝子ではないものと決定することができる。
【0059】
分析装置は腫瘍細胞の必須遺伝子であるものと決定された遺伝子に関する情報と、前記正常細胞の必須遺伝子であるものと決定された遺伝子に関する情報を共に利用して、腫瘍細胞に特異的な必須遺伝子を決定してもよい。
【0060】
例えば、分析装置はkth-遺伝子100kに対して前記腫瘍細胞10の死滅に関する確率11と正常細胞70の死滅に関する確率71に基づいて、kth-遺伝子100kが腫瘍細胞10に特異的な必須遺伝子であるかどうかを決定することができる。
【0061】
万一、kth-遺伝子100kの発現量を抑制した時に、腫瘍細胞10の死滅に関する確率11と前記正常細胞70の死滅に関する確率71がいずれも臨界値以上であるものと決定されたのであれば、分析装置はkth-遺伝子100kは腫瘍細胞10に特異的な必須遺伝子ではないものと決定することができる。すなわち、kth-遺伝子100kが腫瘍細胞10および正常細胞70の全てに対する必須遺伝子であるものと決定された場合には、分析装置はkth-遺伝子100kは前記腫瘍細胞10に特異的な必須遺伝子ではないものと決定することができる。
【0062】
これとは異なり、万一、kth-遺伝子100kの発現量を抑制した時に、腫瘍細胞10の死滅に関する確率11は臨界値以上であるが、正常細胞70の死滅に関する確率71が臨界値より小さいものと決定されたのであれば、分析装置はkth-遺伝子100kを腫瘍細胞10に特異的な必須遺伝子であると決定することができる。すなわち、kth-遺伝子100kが腫瘍細胞10の必須遺伝子であるが正常細胞70の必須遺伝子ではないものと決定された場合に、分析装置はkth-遺伝子100kは腫瘍細胞10に特異的な必須遺伝子であるものと決定することができる。
【0063】
万一、kth-遺伝子100kが腫瘍細胞10に特異的な必須遺伝子であるものと決定されたのであれば、kth-遺伝子100kの発現量を減少させることによって腫瘍細胞10は死滅に至るようにし、正常細胞70は継続して生き残るようにする可能性が大きい。
【0064】
図5は、ディープラーニングモデルの学習過程に対する例である。ディープラーニングモデルは
図5に図示した構造とは異なる構造を有してもよい。
【0065】
図5Aは、M個の細胞株を表現したものである。p番目の細胞株は下付きpを利用して参照番号50pを利用して指示する。この時、pは1、2、3、....、Mの値を有する自然数であり得る。
【0066】
図5Bは、p番目の細胞株に対する遺伝子発現量を攪乱する例である。実験的にRNAiおよびCRISPRのような技法を利用して遺伝子発現量を調節することができる。したがって、入力値は実際に実験的に測定されたデータを利用することができる。ひいては、遺伝子発現量はin silicoで一定に攪乱することができる。in silicoで遺伝子発現量を変動するモデルは遺伝子調節ネットワークと命名する。遺伝子調節ネットワークは後述する。
【0067】
遺伝子調節ネットワークはp
th-細胞株50pのk
th-遺伝子100kの発現量510kを減少させる攪乱をすることができる。入力値は撹乱が起きた状態の細胞株50
2pの一セットの遺伝子100の発現量512
pとなる。
図5で遺伝子セットは四角形のボックスで表現され、遺伝子セット内の遺伝子発現量は円形内に表示した。遺伝子セット全体の発現量は1000で表示した。
【0068】
図5Cは、ディープラーニングモデル1に対する学習過程の例である。
【0069】
ディープラーニングモデル1はその内部に前述したレイヤおよび前記レイヤに含まれたノード、そして前記ノードの間の信号の流れを示すリンクを含むことができる。前記リンクが有する加重値はディープラーニングモデル1に含まれるパラメータとして見なされ得る。
【0070】
ディープラーニングモデル1はパラメータの値を更新するプロセスを繰り返し実行する過程を含むことができる。パラメータを更新するプロセスは特定細胞株の特定遺伝子に対して実行され得る。すなわち、ディープラーニングモデル1は特定細胞株の特定遺伝子の発現を阻害する攪乱を加えて得た各遺伝子の発現量を利用して1回学習され得る。万一、前述したM個の細胞株がそれぞれN個の遺伝子を含んでいる場合、ディープラーニングモデル1のパラメータは少なくともM*N回更新されて学習され得る。
【0071】
pth-細胞株50pの遺伝子100の発現量値と必須遺伝子の有無を示すpth-基準値251pを準備することができる。この時、前記pth-基準値251pは実験的にRNAiとCRISPR技法を通じてのpth-細胞株50pの遺伝子100を抑制して観察された必須遺伝子結果から得たものであり得る。
【0072】
ディープラーニングモデル1は前記pth.kth-セット入力値512pをディープラーニングモデル1に入力を受けて、前記pth-細胞株50pの死滅に関する確率51pを出力することができる。
【0073】
ディープラーニングモデルを構築するコンピュータ装置はpth-細胞株50pの死滅に関する確率51pに基づいてkth-遺伝子100kがpth-細胞株50pの必須遺伝子であるかどうかを示すpth-決定値1051pを算出することができる。コンピュータ装置は前記pth-決定値1051pと前記pth-基準値251p間の差値を減少させるようにディープラーニングモデル1のパラメータを更新することができる。ディープラーニングモデル1はこのようにパラメータを更新する過程を繰り返して学習される。
【0074】
図6は、ディープラーニングモデルの学習過程に対する他の例である。
【0075】
図6Aは、細胞株の転写体を示したものである。細胞株はN個の遺伝子を含むことができ、
図6Aに四角形で区分された領域は互いに異なる遺伝子を示す。各遺伝子に提示された数字は各遺伝子の発現量を表す。
【0076】
該当細胞株の遺伝子1~遺伝子Nまでの転写体発現量810は
図6Aに図示した通りである。分析装置は遺伝子調節ネットワークを活用して、分析しようとする遺伝子の遺伝子発現量を調節することができる。
図6Aは遺伝子1と遺伝子kの遺伝子発現量を減少させた例をそれぞれ図示する。
【0077】
図6Aは、分析装置が遺伝子1の発現量を減少させる攪乱をシミュレーションした時に得ることができる細胞株の遺伝子の発現量812を図示する。この時、遺伝子1の発現量は当然減少したし、他の遺伝子の発現量にも変化が発生したことを確認することができる。遺伝子1の発現量が減少すると、遺伝子3の発現量が減少し、遺伝子Nの発現量が増加した。
【0078】
図6Aは、分析装置が遺伝子kの発現量を減少させる攪乱をシミュレーションした時に得ることができる細胞株の遺伝子の発現量813を図示する。この時、遺伝子kの発現量は減少したが、他の遺伝子の発現量は減少しなかった。
【0079】
図6Aは遺伝子1と遺伝子kの発現量を減少した結果を図示するが、分析装置は必須性評価を望む他の遺伝子の発現量も調節してディープラーニングモデルに入力することができる。
【0080】
図6Bは、細胞株の各遺伝子が細胞株を死滅に導く必須遺伝子であるかどうかを示す情報である。該当情報は特定遺伝子に対する遺伝子発現減少と細胞株死滅関係を実験した結果から獲得することができる。
図6Bで四角形で区分された領域は互いに異なる遺伝子を示す。
図6Bで黒色で示した四角形は必須遺伝子であることを示し、白色四角形は必須遺伝子でないことを示す。
図6Bで各四角形の右側に示した数字は1(黒色)または0(白色)の値を有し、必須遺伝子には1の値が割り当てられ、必須遺伝子でない遺伝子には0の値が割り当てられ得る。
【0081】
図6Cは、ディープラーニングモデルの学習過程の例である。学習は教師あり学習方法でなされ得る。教師あり学習方法で学習データは入力データおよびラベル値を含む。入力データは
図6Aのような過程を獲得したNセットの遺伝子発現量であり得る。ラベル値は
図6Bのように実験的にすでに知られている情報を活用することができる。
【0082】
必須遺伝子情報はディープラーニングモデルの出力値が有すべきラベル値(正解値)で与えられ得る。ディープラーニングモデルは特定セットの遺伝子発現量を入力した時に細胞が死滅する確率に関する値を生成するモデルであり得る。ディープラーニングモデルは予測結果値(出力値)が実際値(正解値)と近い値を出力するように学習され得る。
【0083】
以下、研究者が使った遺伝子調節ネットワークとディープラーニングモデルについて説明する。
【0084】
遺伝子調節ネットワークの例
【0085】
前述した遺伝子調節ネットワークについて説明する。
【0086】
ターゲット遺伝子が他の遺伝子の発現量に影響を与える関係はネットワークモデルで説明され得る。例えば、ARACNe(Algorithm for the Reconstruction of Accurate Cellular Networks)のような遺伝子ネットワークモデルは遺伝子間の相互関係を説明する。以下、ARACNeを基準として説明する。ARACNe構築過程についての詳細な説明は省略する。遺伝子ネットワークモデルは特定遺伝子aとbの発現情報を基準として遺伝子aとbの関係を説明することができる。P(a=on| b=on)が遺伝子bが発現する時に遺伝子aが発現する確率を示すと仮定する。P(a=on| b=on)>P(b=on| a=on)の関係であれば、遺伝子bは遺伝子aの調節遺伝子と言える。
【0087】
遺伝子間の発現量関係は遺伝子関係を示すネットワークモデルを活用してin silicoで把握され得る。遺伝子の発現関係を示すネットワークモデルを遺伝子調節ネットワークと命名する。遺伝子調節ネットワークは評価対象であるターゲット遺伝子を抑制(suppression)する場合、遺伝子発現量に影響を受ける遺伝子を識別することができる。以下、遺伝子調節ネットワークについて説明する。
【0088】
遺伝子調節ネットワークはin silicoでCRISPRまたはRNAiの遺伝子撹乱効果をシミュレーションする。したがって、遺伝子調節ネットワークはin silico CRISPRまたはin silico RNAiと命名することができる。
【0089】
ネットワークモデルでターゲット遺伝子はターゲット遺伝子の影響を受ける下位(descendant)遺伝子を有する。ネットワークモデルは遺伝子であるノードと遺伝子の関係をエッジで表現する。したがって、ターゲット遺伝子はエッジで直接連結された一番目の下位遺伝子だけでなく、他のノードを通じて連結されるj番目の下位遺伝子を置くことができる。
【0090】
いずれか一つの遺伝子発現量が他の遺伝子の発現量に影響を与える関係を下記の数式1で表現することができる。
【数1】
【0091】
数式1でYはターゲット遺伝子であり、yは細胞のターゲット遺伝子の基本発現量である。Xjはターゲット遺伝子のj番目の下位遺伝子であり、xjはXjの基本発現量である。rjはYとXjの遺伝子発現量の相関関係を示す係数である。yTはYの攪乱された(perturbed)遺伝子発現量である。
【0092】
研究者はネットワーク構成のために同一の転写体データをレファレンスサンプルとして使った。CRISPRシミュレーションはyT=0に設定したし、RNAiシミュレーションはyT=0.2yに設定した。このような設定は従来の研究結果を考慮したものである。
【0093】
ターゲット遺伝子iによって影響を受けるj番目の遺伝子の遺伝子発現量は下記の数式2のようなマトリクスPで表現することができる。
【数2】
【0094】
数式2でRは発現量関係を示すマトリクスである。Bは対角を除いて0で満たされた基本発現量マトリクスである。
【0095】
ARACNeを利用するために、研究者は相関係数の代わりに条件付き確率を使った。ターゲット遺伝子Yが影響を与えるj番目の隣の遺伝子X
jは下記の数式3のような条件付き確率で表現することができる。
【数3】
【0096】
発現量増加(up)または減少(down)はネットワーク構築のために使ったレファレンス転写体サンプルを基準として決定した。各遺伝子はレファレンスサンプルを通じて決定される平均発現量μおよび標準偏差(standard deviation)発現量σを有する。
【0097】
レファレンスサンプルでXjとYの発現量がμ+σより大きいのであれば、研究者はXj=upであり、Y=upであると設定した。その反対に、レファレンスサンプルでXjとYの発現量がμ+σより小さいのであれば、研究者はXj=downであり、Y=downであると設定した。
【0098】
ターゲット遺伝子Yと下位遺伝子Xjが「P(Xj=activator)+P(Xj=inhibitor)<P(Y=activator)+P(Y=inhibitor)」関係であれば、XjはYの調節対象(regulatory target)であると言える。XjとYのリンク関係(増加または減少)はP(Y=activator)およびP(Y=inhibitor)を比較して決定され得る。
【0099】
Yの攪乱された発現量により影響を受けるX
jの発現量X
T
jは下記の数式4のように定義することができる。
【数4】
【0100】
ディープラーニングモデル構築過程の例
【0101】
前述したディープラーニングモデルの構築過程について説明する。ディープラーニングモデルは多様な構造で具現され得る。研究者は(i)隠れレイヤの個数および隠れノードの個数のようなモデル構造に対するパラメータ、(ii)学習率、モメンタム(momentum)、バッチサイズ、活性関数、初期加重値分布のようなモデルアルゴリズムに対するパラメータおよび(iii)正規化パラメータ(L1およびL2)、ドロップアウト率(dropout rate)のようなオーバーフィッティング(overfitting)問題を解決するためのパラメータを調節してモデルを構築した。
【0102】
研究者はスタックされたデノイジングオートエンコーダ(stacked denoising autoencoder、SdA)構造のモデルを使った。ただし、出力階層は入力階層と同一の個数のノードを使った。
【0103】
研究者はデノイジング(denosing)として知られているプロセスを使って攪乱されたn個の遺伝子の発現量で構成される入力ベクトルxの確率的に損傷したバージョン(stochastically corrupted version)を生成した。x∈[0、1]
nである。SdAは活性化関数fを使って損傷したxを隠れレイヤyにマッピングする。y∈[0、1]
mである。このようなエンコーディング過程は下記の数式5で表現され得る。
【数5】
【0104】
Wは加重値マトリクスであり、bはバイアス(bias)である。
【0105】
デコーディング過程を通じて再構成されたベクトルzは下記の数式6のように表現され得る。デコーディングは再構成エラーで表現される費用を最小化する方向に遂行される。
【数6】
【0106】
費用は活性化関数の種類によって異なるように定義され得る。下記の数式7はReLU関数に対する費用であり、下記の数式8はsigmoid関数に対する費用である。
【数7】
【数8】
【0107】
Bはバッチサイズを示す。入力ベクトルxの一部の値はドロップアウト率によりマスクされる。パラメータθ(加重値およびバイアス)は確率的傾斜下降法(stochastic gradient descent)により訓練過程ごとに更新される。更新されるパラメータは下記の数式9のように表現することができる。
【数9】
【0108】
tは訓練エポック(training epoch)を示す。
【0109】
初期学習過程後に、研究者は下記の数式10で表現される損失関数を最適化した。
【数10】
【0110】
NLLは負のログ尤度(negative log likelihood)の平均である。λ
1||w||
1+λ
2||w||
2は伸縮網(elastic net)の正規化項目(regularization term)である。||・||
pは下記の数式11で表現されるL
pノーム(norm)である。
【数11】
【0111】
λ
pは各正規化項目の相対的寄与を制御するハイパーパラメータである。伸縮網はL
1またはL
2単独で使う場合より性能が良いものと知られている。損失関数のNLL(θ)は下記の数式12のように表現され得る。
【数12】
【0112】
f(θ)
iはミニバッチサイズBでターゲット遺伝子iの遺伝子発現量である。各ターゲットYは0または1の値を有することができる。1は該当細胞でYが必須遺伝子であることを示す。損失関数のパラメータはモメンタムと共に逆転写アルゴリズムを通じて更新される。損失関数に対するモメンタムは下記の数式13のように表現され得る。
【数13】
【0113】
εは学習率、μはモメンタム係数、∇(Loss(θt))dはθtでの傾斜である。v0は0で設定される。
【0114】
図7は、ディープラーニングモデルを利用して細胞の必須遺伝子を予測するコンピューティング装置80に対する例である。
【0115】
コンピューティング装置80は細胞の遺伝子の発現量の入力を受けて、細胞の死滅に関する確率を出力するディープラーニングモデルを利用して腫瘍細胞の必須遺伝子を決定するようになっている。前記細胞は腫瘍細胞または正常細胞であり得る。
【0116】
コンピューティング装置80はディープラーニングモデルに関する情報および一個以上の遺伝子調節ネットワークに関する情報を獲得するようになっているデータ獲得部81を含むことができる。
【0117】
コンピューティング装置80は処理部82を含むことができる。
【0118】
コンピューティング装置80は処理部82で実行される命令コードをコンピューティング装置がアクセスできる保存部83から読み出す命令コード読み出し部84を含むことができる。
【0119】
保存部83はコンピューティング装置80の内部または外部に提供されているものであり得、ネットワークを通じてコンピューティング装置80が接近できるものであってもよい。
【0120】
処理部82は命令コードを実行して、入力を受けたサンプルの入力値に対する結果値を出力するようにすることができる。
【0121】
ひいては、細胞の遺伝子の発現量の入力を受けて、前記細胞の死滅に関する確率を出力するディープラーニングモデルを利用して細胞の必須遺伝子を決定するようにする命令コードが記録されている、コンピュータで読み取り可能な非一過性(non-transitory)の記録媒体が提供され得る。各命令コードは該当コードが動作するコンピュータ装置で前述した入力データ前処理(遺伝子発現量撹乱)、ディープラーニングモデルに入力値を入力して予測される必須遺伝子情報出力の過程を遂行するようにする。
【0122】
図8は、必須遺伝子を識別する分析装置に対する例である。分析装置90は
図1の分析装置(12または13)に該当する装置である。
【0123】
分析装置90は物理的に多様な形態で具現され得る。例えば、分析装置90はPCのようなコンピュータ装置、ネットワークのサーバー、映像処理専用チップセットなどの形態を有することができる。コンピュータ装置はスマート機器などのようなモバイル機器を含むことができる。
【0124】
分析装置90は保存装置91、メモリ92、演算装置93、インターフェース装置94、通信装置95および出力装置96を含むことができる。
【0125】
保存装置91は細胞の必須遺伝子を予測するディープラーニングモデルを保存する。ディープラーニングモデルは事前に学習されなければならない。保存装置91は特定遺伝子発現量を攪乱する遺伝子発現量撹乱プログラム(遺伝子調節ネットワーク)を保存することができる。さらに、保存装置91はデータ処理に必要なプログラム乃至ソースコードなどを保存することができる。保存装置91は入力される遺伝体発現量および予測された必須遺伝子情報を保存することができる。
【0126】
メモリ92は分析装置90がデータを分析する過程で生成されるデータおよび情報などを保存することができる。
【0127】
インターフェース装置94は外部から一定の命令およびデータの入力を受ける装置である。インターフェース装置94は物理的に連結された入力装置または外部保存装置から細胞の遺伝体発現量データの入力を受けることができる。インターフェース装置94はデータ分析のための学習モデルの入力を受けることができる。インターフェース装置94は学習モデル訓練のための学習データ、情報およびパラメータ値の入力を受けてもよい。
【0128】
インターフェース装置94は使用者から分析対象であるターゲット遺伝子に対する選択命令の入力を受けることができる。
【0129】
通信装置95は有線または無線ネットワークを通じて一定の情報を受信し伝送する構成を意味する。通信装置95は外部客体から細胞の遺伝体発現量データを受信することができる。通信装置95はモデル学習のためのデータも受信することができる。通信装置95は入力された細胞に対し、決定された必須遺伝子情報を外部客体に送信することができる。
【0130】
通信装置95乃至インターフェース装置94は外部から一定のデータ乃至命令の伝達を受ける装置である。通信装置95乃至インターフェース装置94を入力装置と命名することができる。
【0131】
出力装置96は一定の情報を出力する装置である。出力装置96はデータ処理過程に必要なインターフェース、分析結果などを出力することができる。
【0132】
演算装置93は保存装置91に保存されたプログラムを利用して、ターゲット遺伝子の発現量を調節することができる。
【0133】
演算装置93は遺伝子の発現量データを前述したベクトルシーケンスに変換することができる。この時、ベクトルシーケンスは遺伝子配列の情報および各遺伝子の発現量情報を含むことになる。
【0134】
演算装置93はディープラーニングモデルに調節された細胞の遺伝子発現量パターンを入力して細胞の死滅の有無を出力することができる。演算装置93は遺伝子発現量パターンのベクトルをディープラーニングモデルに入力して一定の出力値を得る。
【0135】
演算装置93は出力される情報を基準としてターゲット遺伝子が細胞の必須遺伝子であるかどうかを予測することができる。
【0136】
演算装置93は同一サンプルの正常細胞と腫瘍細胞それぞれに対し、ターゲット遺伝子の発現量が調節された発現量パターン情報を生成することができる。演算装置93は正常細胞に対する発現量パターン情報をディープラーニングモデルに入力して第1値を算出することができる。また、演算装置93は腫瘍細胞に対する発現量パターン情報をディープラーニングモデルに入力して第2値を算出することができる。演算装置93は第1値が細胞生存を示し、第2値が細胞死滅を示す場合、前記ターゲット遺伝子が前記サンプルの腫瘍細胞の特異的必須遺伝子であると判断することができる。
【0137】
一方、演算装置93は与えられた訓練データを利用して必須遺伝子予測に使われる学習モデルを訓練してもよい。
【0138】
演算装置93はデータを処理し、一定の演算を処理するプロセッサ、AP、プログラムがエンベデッドされたチップのような装置であり得る。
【0139】
効果検証実験
【0140】
前述したディープラーニングモデルの効果を検証した結果を説明する。研究者は従来研究結果のうち、乳ガン患者に対して依存性点数(dependency score)を算出した結果をレファレンスとして利用した。依存性点数は乳癌に必須の遺伝子に対する定量値を意味する。
【0141】
図9は、ディープラーニングモデルの効果を検証した実験結果である。
【0142】
研究者はそれぞれCERESと命名された依存性点数を算出した28個の乳ガン細胞株およびBAGELと命名された依存性点数を算出した25個の乳ガン細胞株のCRISPR-Cas9スクリーン結果を併合してレファレンスとした。研究者は細胞株別に類似する依存性を示すように、CERESとBAGELのカットオフ(cutoff)値を基準としてレファレンスを区分した。第1レファレンス(a)はCERES=-1.5+BAGEL=4である。第2レファレンス(b)はCERES=-1.0+BAGEL=2である。第3レファレンス(c)はCERES=-0.6+BAGEL=0である。
図9Aは、前述したディープラーニングモデルで予測した結果とレファレンスを比較してROCカーブを表示した。
図9Aは、in silico CRISPRに基づいた遺伝子撹乱方法で遺伝子発現パターンを作ってディープラーニングモデルに入力した例である。第1レファレンスに対するAUCは0.884であり、第2レファレンスに対するAUCは0.680であり、第3レファレンスに対するAUCは0.611であった。
【0143】
また、研究者は従来研究のうち、77個の乳ガン細胞株に対するshRNAドロップアウトスクリーン結果をレファレンスとして使った。この実験結果は各遺伝子に対して正規化されたGARP(Gene Activity Ranking Profile)点数を導き出した。該当点数はzGARPと命名したりもする。研究者は3個のカットオフ値(zGARP=-2、-3、or -4)を使った。
図9Bは、前述したディープラーニングモデルで予測した結果とレファレンスを比較してROCカーブを表示した。
図9Aは、in silico RNAiに基づいた遺伝子撹乱方法で遺伝子発現パターンを作ってディープラーニングモデルに入力した例である。zGARP -4で設定されたレファレンス(a)に対するAUCは0.830であり、zGARP -3で設定されたレファレンス(b)に対するAUCは0.716であり、zGARP -2で設定されたレファレンス(c)に対するAUCは0.589であった。
【0144】
また、前述したような細胞特異的必須遺伝子識別方法乃至腫瘍特異的必須遺伝子識別方法は、コンピュータで実行され得る実行可能なアルゴリズムを含むプログラム(またはアプリケーション)で具現され得る。前記プログラムは一過性または非一過性の読み取り可能媒体(non-transitory computer readable medium)に保存されて提供され得る。
【0145】
非一過性の読み取り可能媒体とは、レジスタ、キャッシュ、メモリなどのように短い瞬間の間データを保存する媒体ではなく、半永久的にデータを保存し、機器によって読み取り(reading)が可能な媒体を意味する。具体的には、前述した多様なアプリケーションまたはプログラムはCD、DVD、ハードディスク、ブルーレイディスク、USB、メモリカード、ROM(read-only memory)、PROM(programmable read only memory)、EPROM(Erasable PROM、EPROM)またはEEPROM(Electrically EPROM)またはフラッシュメモリなどのような非一過性の読み取り可能媒体に保存されて提供され得る。
【0146】
一過性の読み取り可能媒体はスタティックラム(Static RAM、SRAM)、ダイナミックラム(Dynamic RAM、DRAM)、シンクロナスディーラム(Synchronous DRAM、SDRAM)、2倍速SDRAM(Double Data Rate SDRAM、DDR SDRAM)、増強型SDRAM(Enhanced SDRAM、ESDRAM)、同期化DRAM(Synclink DRAM、SLDRAM)および直接ラムバスラム(Direct Rambus RAM、DRRAM)のような多様なRAMを意味する。
【0147】
本実施例および本明細書に添付された図面は前述した技術に含まれる技術的思想の一部を明確に示しているものに過ぎず、前述した技術の明細書および図面に含まれた技術的思想の範囲内で当業者が容易に類推できる変形例と具体的な実施例はすべて前述した技術の権利範囲に含まれることは自明であると言える。
【符号の説明】
【0148】
10 特定細胞の必須遺伝子を識別するシステム
11 転写体処理装置
12 分析装置
13 分析装置
80 コンピューティング装置
81 データ獲得部
82 処理部
83 保存部
84 命令コード読み出し部
【国際調査報告】