特許7433408 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 韓国科学技術院の特許一覧 ▶ ペンタメディクス・カンパニー・リミテッドの特許一覧

特許7433408機械学習モデルに基づいた必須遺伝子識別方法および分析装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9A
9B

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-02-08

(45)【発行日】2024-02-19

(54)【発明の名称】機械学習モデルに基づいた必須遺伝子識別方法および分析装置

(51)【国際特許分類】

G16B 40/20 20190101AFI20240209BHJP

G06N 20/00 20190101ALI20240209BHJP

【ＦＩ】

G16B40/20

G06N20/00 130

【請求項の数】 14

(21)【出願番号】P 2022501195

(86)(22)【出願日】2020-07-07

(65)【公表番号】

(43)【公表日】2022-09-16

(86)【国際出願番号】 KR2020008843

(87)【国際公開番号】W WO2021006596

(87)【国際公開日】2021-01-14

【審査請求日】2022-01-07

(31)【優先権主張番号】10-2019-0083016

(32)【優先日】2019-07-10

(33)【優先権主張国・地域又は機関】KR

(73)【特許権者】

【識別番号】592127149

【氏名又は名称】韓国科学技術院

【氏名又は名称原語表記】ＫＯＲＥＡＡＤＶＡＮＣＥＤＩＮＳＴＩＴＵＴＥＯＦＳＣＩＥＮＣＥＡＮＤＴＥＣＨＮＯＬＯＧＹ

【住所又は居所原語表記】２９１，Ｄａｅｈａｋ－ｒｏＹｕｓｅｏｎｇ－ｇｕ，Ｄａｅｊｅｏｎ３４１４１，ＲｅｐｕｂｌｉｃｏｆＫｏｒｅａ

(73)【特許権者】

【識別番号】522010657

【氏名又は名称】ペンタメディクス・カンパニー・リミテッド

(74)【代理人】

【識別番号】100108453

【弁理士】

【氏名又は名称】村山靖彦

(74)【代理人】

【識別番号】100110364

【弁理士】

【氏名又は名称】実広信哉

(74)【代理人】

【識別番号】100133400

【弁理士】

【氏名又は名称】阿部達彦

(72)【発明者】

【氏名】ジュン・キョン・チェ

(72)【発明者】

【氏名】キウォン・ジャン

(72)【発明者】

【氏名】テ・ヨン・チョ

【審査官】藤澤美穂

(56)【参考文献】

【文献】米国特許出願公開第２０１５／０３３１９９２（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１６／０２８３６５０（ＵＳ，Ａ１）

【文献】米国特許出願公開第２００３／００７３０８３（ＵＳ，Ａ１）

【文献】特表２００５－５１４８９９（ＪＰ，Ａ）

【文献】Jinmyung JUNG et al.，Deconvoluting essential gene signatures for cancer growth from genomic expression in compound-treated cells，Bioinformatics [online]，2018年09月01日，p.1167-1173，[retrieved on 2023.03.27], <URL : https://academic.oup.com/bioinformatics/article/35/7/1167/5089233?login=true>，DOI : 10.1093/bioinformatics/bty774

【文献】Chong PENG et al.，A Comprehensive Overview of Online Resources to Identify and Predict Bacterial Essential Genes，Frontiers in Microbiology [online]，2017年11月27日，Vol. 8，p.1-13，[令和5年10月3日検索], <URL : https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5711816/>，DOI : 10.3389/fmicb.2017.02331

【文献】Yao LU et al.，Computational Methods for the Prediction of Microbial Essential Genes，Current Bioinformatics，2014年，p.89-101

【文献】JUNG, J. et al.，Deconvoluting essential gene signatures for cancer growth from genomic expression in compound-treated cells，Bioinformatics [online]，2018年09月01日，p.1167-1173，[retrieved on 2023.03.27], <URL : https://academic.oup.com/bioinformatics/article/35/7/1167/5089233?login=true>，DOI : 10.1093/bioinformatics/bty774

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１６Ｂ５／００－９９／００

Ｇ０６Ｎ２０／００

(57)【特許請求の範囲】

【請求項1】

分析装置が特定細胞の遺伝子に対する発現パターン情報の入力を受ける段階、
前記分析装置が前記発現パターン情報を機械学習モデルに入力する段階、および
前記分析装置が、前記機械学習モデルが出力する情報を基準として、前記遺伝子のうちターゲット遺伝子が前記特定細胞の生存に必須であるかどうかを決定する段階であって、前記出力は前記特定細胞の生存又は死滅に関する情報を示す、段階を含むものの、
前記発現パターン情報は前記遺伝子のうち前記ターゲット遺伝子が減少した前記遺伝子の発現量データを含み、
前記機械学習モデルは学習データセットを基準として学習されるパラメータを含み、前記学習データセットは入力値としての前記特定細胞における遺伝子の発現量データセットと、前記発現量データセットによる前記特定細胞の細胞死滅に対するラベル値とを含む、機械学習モデルに基づいた必須遺伝子識別方法。

【請求項2】

前記分析装置が前記ターゲット遺伝子の発現量を変更して前記発現パターン情報を生成する段階をさらに含む、請求項１に記載の機械学習モデルに基づいた必須遺伝子識別方法。

【請求項3】

前記分析装置は前記ターゲット遺伝子の発現量が減少する場合に前記遺伝子の発現量を予測する遺伝子調節ネットワークを利用して、前記発現パターン情報を生成する、請求項２に記載の機械学習モデルに基づいた必須遺伝子識別方法。

【請求項4】

前記学習データセットの遺伝子の前記発現量データセットは実験的に測定され、前記ラベル値は遺伝子発現量を有する前記特定細胞が死滅しているか否かの情報である、請求項１に記載の機械学習モデルに基づいた必須遺伝子識別方法。

【請求項5】

前記学習データセットの遺伝子の前記発現量データセットは特定遺伝子の発現量が減少する場合に遺伝子調節ネットワークによって予測される前記特定細胞の遺伝子の発現量データである、請求項１に記載の機械学習モデルに基づいた必須遺伝子識別方法。

【請求項6】

分析装置が同一の対象の正常細胞および腫瘍細胞それぞれの遺伝子発現量データの入力を受ける段階、
前記分析装置が前記腫瘍細胞の第１遺伝子発現パターン情報を、機械学習モデルに入力して第１値を生成する段階であって、前記第１値は前記腫瘍細胞の生存又は死滅に関する情報を示す、段階と、
前記分析装置が前記正常細胞の第２遺伝子発現パターン情報を前記機械学習モデルに入力して第２値を生成する段階であって、前記第２値は前記正常細胞の生存又は死滅に関する情報を示す、段階、および
前記分析装置が前記第１値と前記第２値を比較してターゲット遺伝子が前記腫瘍細胞に特異的な必須遺伝子であるかどうかを決定する段階を含むものの、
前記第１遺伝子発現パターン情報は前記ターゲット遺伝子が減少した前記腫瘍細胞における遺伝子の発現量データを含み、
前記第２遺伝子発現パターン情報は前記ターゲット遺伝子が減少した前記正常細胞における遺伝子の発現量データを含み、
前記機械学習モデルは学習データセットを基準として学習されるパラメータを含み、前記学習データセットは入力値としての特定細胞の遺伝子における発現量データセットと、前記発現量データによる前記特定細胞の細胞死滅に対するラベル値とを含む、機械学習モデルに基づいた腫瘍細胞特異的必須遺伝子識別方法。

【請求項7】

前記分析装置は
前記正常細胞および前記腫瘍細胞それぞれに対して、遺伝子調節ネットワークを利用して前記ターゲット遺伝子の発現量が減少する場合に予測される遺伝子の発現量を含む前記第１遺伝子発現パターン情報および前記第２遺伝子発現パターン情報を生成する段階をさらに含む、請求項６に記載の機械学習モデルに基づいた腫瘍細胞特異的必須遺伝子識別方法。

【請求項8】

前記学習データセットの遺伝子の前記発現量データセットは実験的に測定され、前記ラベル値は前記遺伝子発現量を有する前記特定細胞が死滅しているか否かの情報である、請求項６に記載の機械学習モデルに基づいた腫瘍細胞特異的必須遺伝子識別方法。

【請求項9】

前記学習データセットの遺伝子の前記発現量データセットは特定遺伝子の発現量が減少する場合に遺伝子調節ネットワークによって予測される前記特定細胞の遺伝子の発現量データである、請求項６に記載の機械学習モデルに基づいた腫瘍細胞特異的必須遺伝子識別方法。

【請求項10】

前記分析装置は前記第１値が前記腫瘍細胞の死滅を示し、前記第２値が前記正常細胞の生存を示す場合、前記ターゲット遺伝子が前記腫瘍細胞に特異的な必須遺伝子であると決定する、請求項６に記載の機械学習モデルに基づいた腫瘍細胞特異的必須遺伝子識別方法。

【請求項11】

特定細胞の遺伝子に関する発現量データの入力を受ける入力装置、
細胞の遺伝子発現パターンを入力して前記遺伝子発現パターンを有する前記細胞に対する細胞死滅に関する情報を出力する機械学習モデルを保存する保存装置、および
前記特定細胞に対する遺伝子発現パターン情報を前記機械学習モデルに入力し、前記機械学習モデルの出力を基準として、前記特定細胞の生存におけるターゲット遺伝子の必須性を決定するプロセッサであって、前記出力は前記特定細胞の生存又は死滅に関する情報を示す、プロセッサを含むものの、
前記遺伝子発現パターン情報は前記遺伝子のうち前記ターゲット遺伝子が減少した前記遺伝子の発現量データを含み、
前記機械学習モデルは学習データセットを基準として決定されるパラメータを含み、前記学習データセットは入力値としての前記特定細胞における遺伝子の発現量データセットと、前記発現量データセットによる前記特定細胞の細胞死滅に対するラベル値とを含む、機械学習モデル基盤の必須遺伝子選別のための分析装置。

【請求項12】

前記保存装置は遺伝子調節ネットワークをさらに含み、
前記プロセッサは前記遺伝子調節ネットワークを利用して、前記ターゲット遺伝子の発現量が減少する場合に予測される前記特定細胞の前記遺伝子発現パターン情報を生成する、請求項１１に記載の機械学習モデル基盤の必須遺伝子選別のための分析装置。

【請求項13】

前記入力装置は前記特定細胞の腫瘍細胞に対する第１遺伝子発現量データの入力を受け、前記特定細胞の正常細胞に対する第２遺伝子発現量データの入力を受け、
前記プロセッサは前記腫瘍細胞に対する前記第１遺伝子発現量データを前記機械学習モデルに入力して第１値を出力し、前記正常細胞に対する前記第２遺伝子発現量データを前記機械学習モデルに入力して第２値を出力し、
前記プロセッサは前記第１値が前記腫瘍細胞の死滅を示し、前記第２値が前記正常細胞の生存を示す場合、前記ターゲット遺伝子が前記腫瘍細胞に特異的な必須遺伝子であると決定する、請求項１１に記載の機械学習モデル基盤の必須遺伝子選別のための分析装置。

【請求項14】

前記プロセッサは前記遺伝子発現パターン情報をベクトルに変換し、前記ベクトルを前記機械学習モデルに入力し、
前記ベクトルは遺伝子配列の順序および各遺伝子の発現量情報を含む、請求項１１に記載の機械学習モデル基盤の必須遺伝子選別のための分析装置。

【発明の詳細な説明】

【技術分野】

【0001】

以下で説明する技術は、特定細胞の転写体の様相に基づいて該当細胞の生存に必須の遺伝子を識別する技法に関する。

【背景技術】

【0002】

ＲＮＡｉおよびＣＲＩＳＰＲ技法で特定遺伝子の発現を減らしたり（ｋｎｏｃｋｄｏｗｎ）、除去（ｋｎｏｃｋｏｕｔ）して、特定遺伝子が細胞の生存に必須のものであるかどうかを判別することができる。このような技法はＲＮＡｉ／ＣＲＩＳＰＲスクリーンという。例えば、ＲＮＡｉ／ＣＲＩＳＰＲスクリーンは腫瘍細胞に必須の遺伝子を識別することができる。

【発明の概要】

【発明が解決しようとする課題】

【0003】

ただし、ＲＮＡｉ／ＣＲＩＳＰＲスクリーンは試験管細胞環境（ｉｎｖｉｔｒｏ）でのみ分析が可能である。したがって、ＲＮＡｉ／ＣＲＩＳＰＲスクリーンは多くの時間と費用が消費される限界がある。

【0004】

以下で説明する技術は、細胞の遺伝子発現量データを基準としてコンピュータ環境（ｉｎｓｉｌｉｃｏ）で細胞の必須遺伝子を識別する方法を提供しようとする。

【課題を解決するための手段】

【0005】

機械学習モデルに基づいた必須遺伝子識別方法は、分析装置が特定細胞の遺伝子に対する発現パターン情報の入力を受ける段階、前記分析装置が前記発現パターン情報を機械学習モデルに入力する段階および前記分析装置が前記機械学習モデルが出力する情報を基準として、前記遺伝子のうちターゲット遺伝子が前記細胞の生存に必須であるかどうかを決定する段階を含む。

【0006】

機械学習モデルに基づいた腫瘍細胞特異的必須遺伝子識別方法は、分析装置が同一対象の正常細胞および腫瘍細胞それぞれの遺伝子発現データの入力を受ける段階、前記分析装置が前記腫瘍細胞に対して、分析対象であるターゲット遺伝子の発現量が調節された第１遺伝子発現パターン情報を機械学習モデルに入力して第１値を生成する段階、前記分析装置が前記正常細胞に対して、前記ターゲット遺伝子と同一の遺伝子の発現量が調節された第２遺伝子発現パターン情報を前記機械学習モデルに入力して第２値を生成する段階および前記分析装置が前記第１値と前記第２値を比較して前記ターゲット遺伝子が前記腫瘍細胞に特異的な必須遺伝子であるかどうかを決定する段階を含む。

【0007】

機械学習モデル基盤の必須遺伝子選別のための分析装置は、細胞の遺伝子に発現量データの入力を受ける入力装置、特定遺伝子の発現量が調節された遺伝子発現量パターンの入力を受けて前記特定遺伝子の必須性情報を出力する機械学習モデルを保存する保存装置および前記入力装置で入力される発現量データでターゲット遺伝子の発現量が調節された前記細胞に対する遺伝子発現量パターンを前記機械学習モデルに入力して、前記機械学習モデルが出力する値を基準として前記ターゲット遺伝子の必須性を決定するプロセッサを含む。

【0008】

前記機械学習モデルは学習データセットを基準として学習されるパラメータを含み、前記学習データセットは特定細胞の遺伝子発現量データおよび前記特定細胞の死滅の有無に対するラベル値を含む。

【発明の効果】

【0009】

以下で説明する技術は、機械学習モデルを利用して細胞の必須遺伝子を短時間かつ低費用で識別することができる。以下で説明する技術は、腫瘍細胞の必須遺伝子を選別して新生抗原（ｎｅｏａｎｔｉｇｅｎ）スクリーニングに活用され得る。

【図面の簡単な説明】

【0010】

【図1】特定細胞の必須遺伝子を識別するシステムに対する例である。

【図2】分析装置で必須遺伝子を識別する概略的な過程に対する例である。

【図3】攪乱された遺伝子発現量を基準として必須遺伝子を識別する過程を図示した例である。

【図4】攪乱された遺伝子発現量を基準として必須遺伝子を識別する過程を図示した他の例である。

【図5】ディープラーニングモデルの学習過程に対する例である。

【図6】ディープラーニングモデルを利用した必須遺伝子予測過程に対する例である。

【図7】ディープラーニングモデルを利用して細胞の必須遺伝子を予測するコンピューティング装置に対する例である。

【図8】必須遺伝子を識別する分析装置に対する例である。

【図9】ディープラーニングモデルの効果を検証した実験結果である。

【発明を実施するための形態】

【0011】

以下で説明する技術は多様な変更を加えることができ、多様な実施例を有することができるところ、特定の実施例を図面に例示して詳細に説明しようとする。しかし、これは以下で説明する技術を特定の実施形態に対して限定しようとするものではなく、以下で説明する技術の思想および技術範囲に含まれるすべての変更、均等物乃至代替物を含むものと理解されるべきである。

【0012】

第１、第２、Ａ、Ｂなどの用語は多様な構成要素を説明するのに使われ得るが、該当構成要素は前記用語によって限定されはせず、単に一つの構成要素を他の構成要素から区別する目的でのみ使われる。例えば、以下で説明する技術の権利範囲を逸脱することなく第１構成要素は第２構成要素と命名され得、同様に第２構成要素も第１構成要素と命名され得る。および／またはという用語は複数の関連した記載された項目の組み合わせまたは複数の関連した記載された項目のうちいずれかの項目を含む。

【0013】

本明細書で使われる用語で単数の表現は文脈上明白に異なるように解釈されない限り、複数の表現を含むものと理解されるべきである、「含む」等の用語は説明された特徴、個数、段階、動作、構成要素、部分品またはこれらを組み合わせたものが存在することを意味するものであって、一つまたはそれ以上の他の特徴や個数、段階動作構成要素、部分品またはこれらを組み合わせたものなどの存在または付加の可能性を排除しないものと理解されるべきである。

【0014】

図面に対する詳細な説明に先立ち、本明細書での構成部に対する区分は各構成部が担当する主機能別に区分したものに過ぎないことを明確にされたい。すなわち、以下で説明する２個以上の構成部が一つの構成部で統合されたり、または一つの構成部がより細分化された機能別に２個以上に分化して備えられてもよい。そして、以下で説明する構成部それぞれは、自身が担当する主機能以外にも他の構成部が担当する機能のうち一部又は全ての機能を追加的に遂行してもよく、構成部それぞれが担当する主機能のうち一部の機能が異なる構成部によって専担して遂行されてもよいのは言うまでもない。

【0015】

また、方法または動作方法を遂行するにおいて、前記方法をなす各過程は文脈上明白に特定の順序を記載しない以上、明記された順序と異なるように遂行されてもよい。すなわち、各過程は明記された順序と同一に遂行されてもよく、実質的に同時に遂行されてもよく、反対順に遂行されてもよい。

【0016】

以下の説明で使われる主な用語について説明する。

【0017】

細胞は分析対象である個体や個体の特定組織から獲得した試料であって、細胞株、細胞の集団、あるいは単一細胞を意味し得る。個体は基本的に人間から獲得する。ただし、個体は必ずしも人間に限定されるものではない。

【0018】

転写体（ｔｒａｎｓｃｒｉｐｔｏｍｅ）は細胞、細胞グループまたは個体に存在する発現されたＲＮＡの集合を意味する。

【0019】

必須遺伝子（ｅｓｓｅｎｔｉａｌｇｅｎｅ）または依存性遺伝子は細胞の増殖または生存に必須の遺伝子を意味する。必須遺伝子はその発現が減少したり除去されると、細胞の死滅を招く遺伝子である。普遍的必須遺伝子は多様な種類の腫瘍または腫瘍細胞の生存に普遍的に必須の遺伝子を意味する。癌患者特異的必須遺伝子は個別の癌患者から由来した腫瘍細胞の生存に特異的に必須の遺伝子である。以下、必須遺伝子は普遍的必須遺伝子および／または癌患者特異的必須遺伝子を意味する。以下、説明の便宜のために腫瘍（ｔｕｍｏｒ）を中心に説明する。

【0020】

機械学習（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）または学習は人工知能の一分野であり、コンピュータが学習できるようにアルゴリズムを開発する分野を意味する。機械学習モデルまたは学習モデルはコンピュータが学習できるように開発されたモデルを意味する。学習モデルは接近方法により、人工ニューラルネットワーク、ディシジョンツリーなどのような多様なモデルがある。以下、説明の便宜のためにディープラーニングモデル（ｄｅｅｐｌｅａｒｎｉｎｇｍｏｄｅｌ）を中心に説明する。

【0021】

分析装置は学習モデルを利用して細胞の必須遺伝子を識別する装置である。分析装置は設置されたプログラムを利用して遺伝体データを処理し分析する。分析装置はスマート機器（スマートフォン、タブレット）、コンピュータ装置（ＰＣ、ノートパソコン）、サーバーまたは分析専用チップセットなどのような装置である。

【0022】

図１は、特定細胞の必須遺伝子を識別するシステム１０に対する例である。

【0023】

転写体処理装置１１は細胞を分析して遺伝子発現量情報を生成する。転写体処理装置１１はＲＮＡシーケンシング（ＲＮＡ－Ｓｅｑ）、ＤＮＡマイクロアレイなどのような技法を利用して細胞の遺伝子発現量情報を獲得することができる。

【0024】

図１で分析装置は二種類の類型を図示した。分析装置１２はネットワーク上に存在するサーバーである。分析装置１３はＰＣのようなコンピュータ装置である。分析装置（１２または１３）は細胞の遺伝子発現量パターンの入力を受ける。遺伝子発現量パターンは各遺伝子の発現量情報を含む。分析装置（１２または１３）は遺伝子発現量パターンを学習モデルを入力して、該当細胞での必須遺伝子を識別する。

【0025】

分析装置（１２または１３）は分析結果を研究者（Ａ）に提供することができる。または分析装置（１２または１３）は必須遺伝子に対する情報を利用して追加的な分析をする他の分析装置（Ｂ）に分析結果を提供することができる。例えば、他の分析装置（Ｂ）は腫瘍細胞特異的な変移情報とともに必須遺伝子情報を利用して新生抗原の識別をすることもできる。

【0026】

図２は、分析装置で必須遺伝子を識別する概略的な過程２０に対する例である。分析装置は細胞の遺伝体発現量パターンの入力を受ける（２１）。分析装置は評価対象である特定の遺伝子を選択する。例えば、分析装置は遺伝子セットのうちｋ番目の遺伝子を選択することができる。評価対象であるｋ番目の遺伝子をターゲット遺伝子と命名する。分析装置はｋ番目の遺伝子の発現量を調節する（２２）。例えば、分析装置はｋ番目の遺伝子の発現量を減らすことができる。

【0027】

分析装置は調節された遺伝体発現量パターンをディープラーニングモデルの入力値に変換することができる。分析装置は遺伝体発現量パターンをベクトル値に変換することができる。遺伝体発現量パターンは連続した遺伝子の発現量に対する情報である。したがって、遺伝体発現量パターンは１次元ベクトルシーケンスで表現され得る。ベクトルシーケンスは遺伝子配列の順序および該当遺伝子の発現量に対する情報を含むことになる。

【0028】

分析装置は遺伝子発現量パターンのベクトルシーケンスをディープラーニングモデルに入力することができる。分析装置はｋ番目の遺伝子の発現量が調節された細胞の遺伝子発現量パターンをディープラーニングモデルが入力して分析する（２３）。ディープラーニングモデルはｋ番目の遺伝子が細胞で必須遺伝子であるかどうかを示す分析結果を出力する。

【0029】

分析装置は他の評価対象遺伝子を選択し、同じ過程を繰り返して必須遺伝子であるかどうかを分析することができる。例えば、分析装置はｌ（ｋ≠ｌ）番目の遺伝子を選択し、２１過程で入力を受けた原本遺伝子発現量パターンでｌ番目の遺伝子の発現量を減らす。分析装置はｌ番目の遺伝子の発現量が調節された遺伝子発現量パターンをディープラーニングモデルが入力して分析する。

【0030】

必須遺伝子分類に利用されるディープラーニングモデルについて説明する。ディープラーニングモデルは細胞の遺伝子発現量情報の入力を受けて、細胞の死滅の有無に対する情報を出力する。ディープラーニングモデルの学習過程について説明する。学習データセットは特定レファレンスの遺伝子発現量情報（入力値）および該当発現量を有するレファレンスの細胞死滅の有無に対する情報（ラベル値）を含む。学習データは実験的に確認されたデータを使うことができる。

【0031】

図３は、攪乱された遺伝子発現量を基準として必須遺伝子を識別する過程を図示した例である。図３は、腫瘍細胞の必須遺伝子を識別する過程の例である。

【0032】

図３Ａは、腫瘍細胞の遺伝子の発現量および攪乱された腫瘍細胞の遺伝子の発現量をダイヤグラムで提示したものである。図３Ｂは、細胞の遺伝子の発現量の入力を受けて細胞の死滅に関する確率を出力する予測モデルの一実施例に係る構造を説明するためのダイヤグラムである。図３Ｃは、腫瘍細胞１０のｋ^ｔｈ－遺伝子１００ｋが含まれたｋ^ｔｈ－遺伝子調節ネットワーク３０_ｋを概念的に示したものである。遺伝子調節ネットワークは後述する。

【0033】

図３Ａを参照して説明すると、癌患者の腫瘍細胞１０はＮ個の遺伝子１００を含むことができる。

【0034】

腫瘍細胞１０のｋ^ｔｈ－遺伝子１００ｋが含まれたｋ^ｔｈ－遺伝子調節ネットワーク３０ｋでｋ^ｔｈ－遺伝子の発現量１１０ｋを減少させる攪乱をシミュレーションすることができる。このような攪乱のシミュレーションは従来技術によって多様な方式で可能であり、このような攪乱のシミュレーションに対する具体的な方式は本発明の範囲を制限するものではない。

【0035】

攪乱された－腫瘍細胞１０２は腫瘍細胞１０に対する前記撹乱が起きた状態の腫瘍細胞を意味する。図３Ａで、上下方向に連続的に配列された四角形はそれぞれ腫瘍細胞１０または攪乱された－腫瘍細胞１０２の遺伝子を示す。ｋ番目の遺伝子は下付きｋを利用して１００_ｋという参照番号で提示した。ここで、ｋ＝１、２、３、．．．、Ｎであって、１以上の自然数であり得る。

【0036】

図３Ａで腫瘍細胞１０の遺伝子の発現量は参照番号１１０で提示した。攪乱された－腫瘍細胞１０２の遺伝子の発現量は参照番号１１２で提示した。図３Ａおよび以下で提示する他の図面で、任意の細胞または細胞株の遺伝子の発現量は統合的に参照番号１０００で指示した。

【0037】

攪乱された－腫瘍細胞１０２の一セットの遺伝子１００の発現量１１２は後述するディープラーニングモデル１に入力されるｋ^ｔｈ－セット入力値として見なされ得る。

【0038】

図３Ａで上下方向に連続的に配列された円の内部に提示された数字は該当遺伝子の発現量を数字で提示したものである。

【0039】

図３Ａに提示したように、ｋ^ｔｈ－遺伝子の発現量１１０ｋを減少させる撹乱がなされた時に遺伝子の発現量が変化することを確認することができる。

【0040】

図３Ｂは、ディープラーニングモデル１に対する例である。ディープラーニングモデル１は入力レイヤ、隠れレイヤおよび出力レイヤを含んで構成されるニューラルネットワークであり得る。ディープラーニングモデル１の入力レイヤに前記ｋ^ｔｈ－セット入力値が入力されると、出力レイヤには二つの確率値が出力され得る。二つの出力値の和は１以下であり得る。前記二つの確率値のうちの一つは細胞が死滅に至る確率を示し、他の一つは前記細胞が成長する確率を示す。またはディープラーニングモデル１は細胞生存または細胞死滅に対する単一情報を出力してもよい。

【0041】

ディープラーニングモデル１が出力する出力値は参照番号１１で提示され得る。出力値１１は前記腫瘍細胞が死滅に至る確率前記腫瘍細胞が成長する確率のうちの一つ以上を含むことができる。

【0042】

分析装置は腫瘍細胞の死滅に関する確率に基づいてｋ^ｔｈ－遺伝子が腫瘍細胞の必須遺伝子であるかどうかを決定する段階を含むことができる。例えば腫瘍細胞の死滅に関する確率が予め決定された臨界値（例えば、０．８）以上であれば、ｋ^ｔｈ－遺伝子が前記腫瘍細胞の必須遺伝子であるものと決定し、前記臨界値より小さければ必須遺伝子ではないものと決定することができる。

【0043】

図４は、攪乱された遺伝子発現量を基準として必須遺伝子を識別する過程を図示した他の例である。図４は、正常細胞の必須遺伝子を識別する過程に対する例である。

【0044】

図４Ａは、正常細胞の遺伝子の発現量および攪乱された正常細胞の遺伝子の発現量をダイヤグラムで提示したものである。

【0045】

図４Ｂは、細胞の遺伝子の発現量の入力を受けて細胞の死滅に関する確率を出力する予測モデルの一実施例に係る構造を説明するためのダイヤグラムである。

【0046】

図４Ｃは、正常細胞７０のｋ^ｔｈ－遺伝子１００_ｋが含まれたｋ^ｔｈ－遺伝子調節ネットワーク１３０ｋを概念的に示したものである。

【0047】

図４Ｃに示したｋ^ｔｈ－遺伝子調節ネットワーク１３０_ｋは正常細胞７０での遺伝子調節ネットワーク１３０_ｋを概念的に示したものであり、図３に示した腫瘍細胞１０のｋ^ｔｈ－遺伝子調節ネットワーク３０_ｋとは互いに異なり得る。

【0048】

図４Ａを参照して説明すると、癌患者の正常細胞７０はＮ個の遺伝子１００を含むことができる。

【0049】

正常細胞７０のｋ^ｔｈ－遺伝子１００_ｋが含まれたｋ^ｔｈ－遺伝子調節ネットワーク１３０ｋでｋ^ｔｈ－遺伝子の発現量７１０_ｋを減少させる攪乱をシミュレーションすることができる。

【0050】

攪乱された－正常細胞７０２は正常細胞７０に対する前記撹乱が起きた状態の正常細胞を意味する。

【0051】

図４Ａで、上下方向に連続的に配列された四角形はそれぞれ正常細胞７０または攪乱された－正常細胞７０２の遺伝子を示す。ｋ番目の遺伝子は下付きｋを利用して１００_ｋという参照番号で提示した。ここで、ｋ＝１、２、３、．．．、Ｎであって、１以上の自然数であり得る。

【0052】

図４Ａで正常細胞７０の遺伝子の発現量は参照番号７１０で提示したし、攪乱された－正常細胞７０２の遺伝子の発現量は参照番号７１２で提示した。図４Ａおよびこれを含む他の図面で、任意の細胞または細胞株の遺伝子の発現量は統合的に参照番号１０００で指示した。

【0053】

攪乱された－正常細胞７０２の一セットの遺伝子１００の発現量７１２は後述するディープラーニングモデル１に入力されるｋ^ｔｈ－セット入力値として見なされ得る。

【0054】

図４Ａで上下方向に連続的に配列された円の内部に提示された数字は該当遺伝子の発現量を数字で提示したものである。

【0055】

図４Ａに提示したように、ｋ^ｔｈ－遺伝子の発現量７１０_ｋを減少させる撹乱がなされた時に遺伝子の発現量が変化することを確認することができる。

【0056】

図４Ｂに提示されたディープラーニングモデル１は図３Ｂに提示したものと同一のニューラルネットワークであり得る。

【0057】

ディープラーニングモデル１が出力する出力値は参照番号７１で提示され得る。出力値７１は前記正常細胞が死滅に至る確率前記正常細胞が成長する確率のうちの一つ以上を含むことができる。

【0058】

分析装置は出力値７１、すなわち、前記正常細胞の死滅に関する確率に基づいてｋ^ｔｈ－遺伝子が正常細胞の必須遺伝子であるかどうかを決定することができる。例えば、分析装置は正常細胞の死滅に関する確率が予め決定された臨界値（例えば、０．８）以上であれば、ｋ^ｔｈ－遺伝子が前記正常細胞の必須遺伝子であるものと決定し、前記臨界値より小さければ必須遺伝子ではないものと決定することができる。

【0059】

分析装置は腫瘍細胞の必須遺伝子であるものと決定された遺伝子に関する情報と、前記正常細胞の必須遺伝子であるものと決定された遺伝子に関する情報を共に利用して、腫瘍細胞に特異的な必須遺伝子を決定してもよい。

【0060】

例えば、分析装置はｋ^ｔｈ－遺伝子１００_ｋに対して前記腫瘍細胞１０の死滅に関する確率１１と正常細胞７０の死滅に関する確率７１に基づいて、ｋ^ｔｈ－遺伝子１００_ｋが腫瘍細胞１０に特異的な必須遺伝子であるかどうかを決定することができる。

【0061】

万一、ｋ^ｔｈ－遺伝子１００_ｋの発現量を抑制した時に、腫瘍細胞１０の死滅に関する確率１１と前記正常細胞７０の死滅に関する確率７１がいずれも臨界値以上であるものと決定されたのであれば、分析装置はｋ^ｔｈ－遺伝子１００ｋは腫瘍細胞１０に特異的な必須遺伝子ではないものと決定することができる。すなわち、ｋ^ｔｈ－遺伝子１００ｋが腫瘍細胞１０および正常細胞７０の全てに対する必須遺伝子であるものと決定された場合には、分析装置はｋ^ｔｈ－遺伝子１００_ｋは前記腫瘍細胞１０に特異的な必須遺伝子ではないものと決定することができる。

【0062】

これとは異なり、万一、ｋ^ｔｈ－遺伝子１００_ｋの発現量を抑制した時に、腫瘍細胞１０の死滅に関する確率１１は臨界値以上であるが、正常細胞７０の死滅に関する確率７１が臨界値より小さいものと決定されたのであれば、分析装置はｋ^ｔｈ－遺伝子１００_ｋを腫瘍細胞１０に特異的な必須遺伝子であると決定することができる。すなわち、ｋ^ｔｈ－遺伝子１００_ｋが腫瘍細胞１０の必須遺伝子であるが正常細胞７０の必須遺伝子ではないものと決定された場合に、分析装置はｋ^ｔｈ－遺伝子１００_ｋは腫瘍細胞１０に特異的な必須遺伝子であるものと決定することができる。

【0063】

万一、ｋ^ｔｈ－遺伝子１００_ｋが腫瘍細胞１０に特異的な必須遺伝子であるものと決定されたのであれば、ｋ^ｔｈ－遺伝子１００ｋの発現量を減少させることによって腫瘍細胞１０は死滅に至るようにし、正常細胞７０は継続して生き残るようにする可能性が大きい。

【0064】

図５は、ディープラーニングモデルの学習過程に対する例である。ディープラーニングモデルは図５に図示した構造とは異なる構造を有してもよい。

【0065】

図５Ａは、Ｍ個の細胞株を表現したものである。ｐ番目の細胞株は下付きｐを利用して参照番号５０ｐを利用して指示する。この時、ｐは１、２、３、．．．．、Ｍの値を有する自然数であり得る。

【0066】

図５Ｂは、ｐ番目の細胞株に対する遺伝子発現量を攪乱する例である。実験的にＲＮＡｉおよびＣＲＩＳＰＲのような技法を利用して遺伝子発現量を調節することができる。したがって、入力値は実際に実験的に測定されたデータを利用することができる。ひいては、遺伝子発現量はｉｎｓｉｌｉｃｏで一定に攪乱することができる。ｉｎｓｉｌｉｃｏで遺伝子発現量を変動するモデルは遺伝子調節ネットワークと命名する。遺伝子調節ネットワークは後述する。

【0067】

遺伝子調節ネットワークはｐ^ｔｈ－細胞株５０ｐのｋ^ｔｈ－遺伝子１００ｋの発現量５１０ｋを減少させる攪乱をすることができる。入力値は撹乱が起きた状態の細胞株５０_２ｐの一セットの遺伝子１００の発現量５１２_ｐとなる。図５で遺伝子セットは四角形のボックスで表現され、遺伝子セット内の遺伝子発現量は円形内に表示した。遺伝子セット全体の発現量は１０００で表示した。

【0068】

図５Ｃは、ディープラーニングモデル１に対する学習過程の例である。

【0069】

ディープラーニングモデル１はその内部に前述したレイヤおよび前記レイヤに含まれたノード、そして前記ノードの間の信号の流れを示すリンクを含むことができる。前記リンクが有する加重値はディープラーニングモデル１に含まれるパラメータとして見なされ得る。

【0070】

ディープラーニングモデル１はパラメータの値を更新するプロセスを繰り返し実行する過程を含むことができる。パラメータを更新するプロセスは特定細胞株の特定遺伝子に対して実行され得る。すなわち、ディープラーニングモデル１は特定細胞株の特定遺伝子の発現を阻害する攪乱を加えて得た各遺伝子の発現量を利用して１回学習され得る。万一、前述したＭ個の細胞株がそれぞれＮ個の遺伝子を含んでいる場合、ディープラーニングモデル１のパラメータは少なくともＭ＊Ｎ回更新されて学習され得る。

【0071】

ｐ^ｔｈ－細胞株５０ｐの遺伝子１００の発現量値と必須遺伝子の有無を示すｐ^ｔｈ－基準値２５１ｐを準備することができる。この時、前記ｐ^ｔｈ－基準値２５１ｐは実験的にＲＮＡｉとＣＲＩＳＰＲ技法を通じてのｐｔｈ－細胞株５０ｐの遺伝子１００を抑制して観察された必須遺伝子結果から得たものであり得る。

【0072】

ディープラーニングモデル１は前記ｐ^ｔｈ．ｋ^ｔｈ－セット入力値５１２ｐをディープラーニングモデル１に入力を受けて、前記ｐ^ｔｈ－細胞株５０ｐの死滅に関する確率５１ｐを出力することができる。

【0073】

ディープラーニングモデルを構築するコンピュータ装置はｐ^ｔｈ－細胞株５０ｐの死滅に関する確率５１ｐに基づいてｋ^ｔｈ－遺伝子１００ｋがｐ^ｔｈ－細胞株５０ｐの必須遺伝子であるかどうかを示すｐ^ｔｈ－決定値１０５１ｐを算出することができる。コンピュータ装置は前記ｐ^ｔｈ－決定値１０５１ｐと前記ｐ^ｔｈ－基準値２５１ｐ間の差値を減少させるようにディープラーニングモデル１のパラメータを更新することができる。ディープラーニングモデル１はこのようにパラメータを更新する過程を繰り返して学習される。

【0074】

図６は、ディープラーニングモデルの学習過程に対する他の例である。

【0075】

図６Ａは、細胞株の転写体を示したものである。細胞株はＮ個の遺伝子を含むことができ、図６Ａに四角形で区分された領域は互いに異なる遺伝子を示す。各遺伝子に提示された数字は各遺伝子の発現量を表す。

【0076】

該当細胞株の遺伝子１～遺伝子Ｎまでの転写体発現量８１０は図６Ａに図示した通りである。分析装置は遺伝子調節ネットワークを活用して、分析しようとする遺伝子の遺伝子発現量を調節することができる。図６Ａは遺伝子１と遺伝子ｋの遺伝子発現量を減少させた例をそれぞれ図示する。

【0077】

図６Ａは、分析装置が遺伝子１の発現量を減少させる攪乱をシミュレーションした時に得ることができる細胞株の遺伝子の発現量８１２を図示する。この時、遺伝子１の発現量は当然減少したし、他の遺伝子の発現量にも変化が発生したことを確認することができる。遺伝子１の発現量が減少すると、遺伝子３の発現量が減少し、遺伝子Ｎの発現量が増加した。

【0078】

図６Ａは、分析装置が遺伝子ｋの発現量を減少させる攪乱をシミュレーションした時に得ることができる細胞株の遺伝子の発現量８１３を図示する。この時、遺伝子ｋの発現量は減少したが、他の遺伝子の発現量は減少しなかった。

【0079】

図６Ａは遺伝子１と遺伝子ｋの発現量を減少した結果を図示するが、分析装置は必須性評価を望む他の遺伝子の発現量も調節してディープラーニングモデルに入力することができる。

【0080】

図６Ｂは、細胞株の各遺伝子が細胞株を死滅に導く必須遺伝子であるかどうかを示す情報である。該当情報は特定遺伝子に対する遺伝子発現減少と細胞株死滅関係を実験した結果から獲得することができる。図６Ｂで四角形で区分された領域は互いに異なる遺伝子を示す。図６Ｂで黒色で示した四角形は必須遺伝子であることを示し、白色四角形は必須遺伝子でないことを示す。図６Ｂで各四角形の右側に示した数字は１（黒色）または０（白色）の値を有し、必須遺伝子には１の値が割り当てられ、必須遺伝子でない遺伝子には０の値が割り当てられ得る。

【0081】

図６Ｃは、ディープラーニングモデルの学習過程の例である。学習は教師あり学習方法でなされ得る。教師あり学習方法で学習データは入力データおよびラベル値を含む。入力データは図６Ａのような過程を獲得したＮセットの遺伝子発現量であり得る。ラベル値は図６Ｂのように実験的にすでに知られている情報を活用することができる。

【0082】

必須遺伝子情報はディープラーニングモデルの出力値が有すべきラベル値（正解値）で与えられ得る。ディープラーニングモデルは特定セットの遺伝子発現量を入力した時に細胞が死滅する確率に関する値を生成するモデルであり得る。ディープラーニングモデルは予測結果値（出力値）が実際値（正解値）と近い値を出力するように学習され得る。

【0083】

以下、研究者が使った遺伝子調節ネットワークとディープラーニングモデルについて説明する。

【0084】

遺伝子調節ネットワークの例

【0085】

前述した遺伝子調節ネットワークについて説明する。

【0086】

ターゲット遺伝子が他の遺伝子の発現量に影響を与える関係はネットワークモデルで説明され得る。例えば、ＡＲＡＣＮｅ（ＡｌｇｏｒｉｔｈｍｆｏｒｔｈｅＲｅｃｏｎｓｔｒｕｃｔｉｏｎｏｆＡｃｃｕｒａｔｅＣｅｌｌｕｌａｒＮｅｔｗｏｒｋｓ）のような遺伝子ネットワークモデルは遺伝子間の相互関係を説明する。以下、ＡＲＡＣＮｅを基準として説明する。ＡＲＡＣＮｅ構築過程についての詳細な説明は省略する。遺伝子ネットワークモデルは特定遺伝子ａとｂの発現情報を基準として遺伝子ａとｂの関係を説明することができる。Ｐ（ａ＝ｏｎ｜ｂ＝ｏｎ）が遺伝子ｂが発現する時に遺伝子ａが発現する確率を示すと仮定する。Ｐ（ａ＝ｏｎ｜ｂ＝ｏｎ）＞Ｐ（ｂ＝ｏｎ｜ａ＝ｏｎ）の関係であれば、遺伝子ｂは遺伝子ａの調節遺伝子と言える。

【0087】

遺伝子間の発現量関係は遺伝子関係を示すネットワークモデルを活用してｉｎｓｉｌｉｃｏで把握され得る。遺伝子の発現関係を示すネットワークモデルを遺伝子調節ネットワークと命名する。遺伝子調節ネットワークは評価対象であるターゲット遺伝子を抑制（ｓｕｐｐｒｅｓｓｉｏｎ）する場合、遺伝子発現量に影響を受ける遺伝子を識別することができる。以下、遺伝子調節ネットワークについて説明する。

【0088】

遺伝子調節ネットワークはｉｎｓｉｌｉｃｏでＣＲＩＳＰＲまたはＲＮＡｉの遺伝子撹乱効果をシミュレーションする。したがって、遺伝子調節ネットワークはｉｎｓｉｌｉｃｏＣＲＩＳＰＲまたはｉｎｓｉｌｉｃｏＲＮＡｉと命名することができる。

【0089】

ネットワークモデルでターゲット遺伝子はターゲット遺伝子の影響を受ける下位（ｄｅｓｃｅｎｄａｎｔ）遺伝子を有する。ネットワークモデルは遺伝子であるノードと遺伝子の関係をエッジで表現する。したがって、ターゲット遺伝子はエッジで直接連結された一番目の下位遺伝子だけでなく、他のノードを通じて連結されるｊ番目の下位遺伝子を置くことができる。

【0090】

いずれか一つの遺伝子発現量が他の遺伝子の発現量に影響を与える関係を下記の数式１で表現することができる。

【数1】

【0091】

数式１でＹはターゲット遺伝子であり、ｙは細胞のターゲット遺伝子の基本発現量である。Ｘ_ｊはターゲット遺伝子のｊ番目の下位遺伝子であり、ｘ_ｊはＸ_ｊの基本発現量である。ｒ_ｊはＹとＸ_ｊの遺伝子発現量の相関関係を示す係数である。y^ＴはＹの攪乱された（ｐｅｒｔｕｒｂｅｄ）遺伝子発現量である。

【0092】

研究者はネットワーク構成のために同一の転写体データをレファレンスサンプルとして使った。ＣＲＩＳＰＲシミュレーションはy^Ｔ＝０に設定したし、ＲＮＡｉシミュレーションはy^Ｔ＝０．２ｙに設定した。このような設定は従来の研究結果を考慮したものである。

【0093】

ターゲット遺伝子ｉによって影響を受けるｊ番目の遺伝子の遺伝子発現量は下記の数式２のようなマトリクスＰで表現することができる。

【数2】

【0094】

数式２でＲは発現量関係を示すマトリクスである。Ｂは対角を除いて０で満たされた基本発現量マトリクスである。

【0095】

ＡＲＡＣＮｅを利用するために、研究者は相関係数の代わりに条件付き確率を使った。ターゲット遺伝子Ｙが影響を与えるｊ番目の隣の遺伝子Ｘ_ｊは下記の数式３のような条件付き確率で表現することができる。

【数3】

【0096】

発現量増加（ｕｐ）または減少（ｄｏｗｎ）はネットワーク構築のために使ったレファレンス転写体サンプルを基準として決定した。各遺伝子はレファレンスサンプルを通じて決定される平均発現量μおよび標準偏差（ｓｔａｎｄａｒｄｄｅｖｉａｔｉｏｎ）発現量σを有する。

【0097】

レファレンスサンプルでＸ_ｊとＹの発現量がμ＋σより大きいのであれば、研究者はＸ_ｊ＝ｕｐであり、Ｙ＝ｕｐであると設定した。その反対に、レファレンスサンプルでＸ_ｊとＹの発現量がμ＋σより小さいのであれば、研究者はＸ_ｊ＝ｄｏｗｎであり、Ｙ＝ｄｏｗｎであると設定した。

【0098】

ターゲット遺伝子Ｙと下位遺伝子Ｘ_ｊが「Ｐ（Ｘ_ｊ＝ａｃｔｉｖａｔｏｒ）＋Ｐ（Ｘ_ｊ＝ｉｎｈｉｂｉｔｏｒ）＜Ｐ（Ｙ＝ａｃｔｉｖａｔｏｒ）＋Ｐ（Ｙ＝ｉｎｈｉｂｉｔｏｒ）」関係であれば、Ｘ_ｊはＹの調節対象（ｒｅｇｕｌａｔｏｒｙｔａｒｇｅｔ）であると言える。Ｘ_ｊとＹのリンク関係（増加または減少）はＰ（Ｙ＝ａｃｔｉｖａｔｏｒ）およびＰ（Ｙ＝ｉｎｈｉｂｉｔｏｒ）を比較して決定され得る。

【0099】

Ｙの攪乱された発現量により影響を受けるＸ_ｊの発現量Ｘ^Ｔ _ｊは下記の数式４のように定義することができる。

【数4】

【0100】

ディープラーニングモデル構築過程の例

【0101】

前述したディープラーニングモデルの構築過程について説明する。ディープラーニングモデルは多様な構造で具現され得る。研究者は（ｉ）隠れレイヤの個数および隠れノードの個数のようなモデル構造に対するパラメータ、（ｉｉ）学習率、モメンタム（ｍｏｍｅｎｔｕｍ）、バッチサイズ、活性関数、初期加重値分布のようなモデルアルゴリズムに対するパラメータおよび（ｉｉｉ）正規化パラメータ（Ｌ１およびＬ２）、ドロップアウト率（ｄｒｏｐｏｕｔｒａｔｅ）のようなオーバーフィッティング（ｏｖｅｒｆｉｔｔｉｎｇ）問題を解決するためのパラメータを調節してモデルを構築した。

【0102】

研究者はスタックされたデノイジングオートエンコーダ（ｓｔａｃｋｅｄｄｅｎｏｉｓｉｎｇａｕｔｏｅｎｃｏｄｅｒ、ＳｄＡ）構造のモデルを使った。ただし、出力階層は入力階層と同一の個数のノードを使った。

【0103】

研究者はデノイジング（ｄｅｎｏｓｉｎｇ）として知られているプロセスを使って攪乱されたｎ個の遺伝子の発現量で構成される入力ベクトルｘの確率的に損傷したバージョン（ｓｔｏｃｈａｓｔｉｃａｌｌｙｃｏｒｒｕｐｔｅｄｖｅｒｓｉｏｎ）を生成した。ｘ∈［０、１］^ｎである。ＳｄＡは活性化関数ｆを使って損傷したｘを隠れレイヤｙにマッピングする。ｙ∈［０、１］^ｍである。このようなエンコーディング過程は下記の数式５で表現され得る。

【数5】

【0104】

Ｗは加重値マトリクスであり、ｂはバイアス（ｂｉａｓ）である。

【0105】

デコーディング過程を通じて再構成されたベクトルｚは下記の数式６のように表現され得る。デコーディングは再構成エラーで表現される費用を最小化する方向に遂行される。

【数6】

【0106】

費用は活性化関数の種類によって異なるように定義され得る。下記の数式７はＲｅＬＵ関数に対する費用であり、下記の数式８はｓｉｇｍｏｉｄ関数に対する費用である。

【数7】

【数8】

【0107】

Ｂはバッチサイズを示す。入力ベクトルｘの一部の値はドロップアウト率によりマスクされる。パラメータθ（加重値およびバイアス）は確率的傾斜下降法（ｓｔｏｃｈａｓｔｉｃｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ）により訓練過程ごとに更新される。更新されるパラメータは下記の数式９のように表現することができる。

【数9】

【0108】

ｔは訓練エポック（ｔｒａｉｎｉｎｇｅｐｏｃｈ）を示す。

【0109】

初期学習過程後に、研究者は下記の数式１０で表現される損失関数を最適化した。

【数10】

【0110】

ＮＬＬは負のログ尤度（ｎｅｇａｔｉｖｅｌｏｇｌｉｋｅｌｉｈｏｏｄ）の平均である。λ_１｜｜ｗ｜｜_１＋λ_２｜｜ｗ｜｜_２は伸縮網（ｅｌａｓｔｉｃｎｅｔ）の正規化項目（ｒｅｇｕｌａｒｉｚａｔｉｏｎｔｅｒｍ）である。｜｜・｜｜_ｐは下記の数式１１で表現されるＬ_ｐノーム（ｎｏｒｍ）である。

【数11】

【0111】

λ_ｐは各正規化項目の相対的寄与を制御するハイパーパラメータである。伸縮網はＬ_１またはＬ_２単独で使う場合より性能が良いものと知られている。損失関数のＮＬＬ（θ）は下記の数式１２のように表現され得る。

【数12】

【0112】

ｆ（θ）^ｉはミニバッチサイズＢでターゲット遺伝子ｉの遺伝子発現量である。各ターゲットＹは０または１の値を有することができる。１は該当細胞でＹが必須遺伝子であることを示す。損失関数のパラメータはモメンタムと共に逆転写アルゴリズムを通じて更新される。損失関数に対するモメンタムは下記の数式１３のように表現され得る。

【数13】

【0113】

εは学習率、μはモメンタム係数、∇（Ｌｏｓｓ（θ^ｔ））ｄはθ^ｔでの傾斜である。ｖ_０は０で設定される。

【0114】

図７は、ディープラーニングモデルを利用して細胞の必須遺伝子を予測するコンピューティング装置８０に対する例である。

【0115】

コンピューティング装置８０は細胞の遺伝子の発現量の入力を受けて、細胞の死滅に関する確率を出力するディープラーニングモデルを利用して腫瘍細胞の必須遺伝子を決定するようになっている。前記細胞は腫瘍細胞または正常細胞であり得る。

【0116】

コンピューティング装置８０はディープラーニングモデルに関する情報および一個以上の遺伝子調節ネットワークに関する情報を獲得するようになっているデータ獲得部８１を含むことができる。

【0117】

コンピューティング装置８０は処理部８２を含むことができる。

【0118】

コンピューティング装置８０は処理部８２で実行される命令コードをコンピューティング装置がアクセスできる保存部８３から読み出す命令コード読み出し部８４を含むことができる。

【0119】

保存部８３はコンピューティング装置８０の内部または外部に提供されているものであり得、ネットワークを通じてコンピューティング装置８０が接近できるものであってもよい。

【0120】

処理部８２は命令コードを実行して、入力を受けたサンプルの入力値に対する結果値を出力するようにすることができる。

【0121】

ひいては、細胞の遺伝子の発現量の入力を受けて、前記細胞の死滅に関する確率を出力するディープラーニングモデルを利用して細胞の必須遺伝子を決定するようにする命令コードが記録されている、コンピュータで読み取り可能な非一過性（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）の記録媒体が提供され得る。各命令コードは該当コードが動作するコンピュータ装置で前述した入力データ前処理（遺伝子発現量撹乱）、ディープラーニングモデルに入力値を入力して予測される必須遺伝子情報出力の過程を遂行するようにする。

【0122】

図８は、必須遺伝子を識別する分析装置に対する例である。分析装置９０は図１の分析装置（１２または１３）に該当する装置である。

【0123】

分析装置９０は物理的に多様な形態で具現され得る。例えば、分析装置９０はＰＣのようなコンピュータ装置、ネットワークのサーバー、映像処理専用チップセットなどの形態を有することができる。コンピュータ装置はスマート機器などのようなモバイル機器を含むことができる。

【0124】

分析装置９０は保存装置９１、メモリ９２、演算装置９３、インターフェース装置９４、通信装置９５および出力装置９６を含むことができる。

【0125】

保存装置９１は細胞の必須遺伝子を予測するディープラーニングモデルを保存する。ディープラーニングモデルは事前に学習されなければならない。保存装置９１は特定遺伝子発現量を攪乱する遺伝子発現量撹乱プログラム（遺伝子調節ネットワーク）を保存することができる。さらに、保存装置９１はデータ処理に必要なプログラム乃至ソースコードなどを保存することができる。保存装置９１は入力される遺伝体発現量および予測された必須遺伝子情報を保存することができる。

【0126】

メモリ９２は分析装置９０がデータを分析する過程で生成されるデータおよび情報などを保存することができる。

【0127】

インターフェース装置９４は外部から一定の命令およびデータの入力を受ける装置である。インターフェース装置９４は物理的に連結された入力装置または外部保存装置から細胞の遺伝体発現量データの入力を受けることができる。インターフェース装置９４はデータ分析のための学習モデルの入力を受けることができる。インターフェース装置９４は学習モデル訓練のための学習データ、情報およびパラメータ値の入力を受けてもよい。

【0128】

インターフェース装置９４は使用者から分析対象であるターゲット遺伝子に対する選択命令の入力を受けることができる。

【0129】

通信装置９５は有線または無線ネットワークを通じて一定の情報を受信し伝送する構成を意味する。通信装置９５は外部客体から細胞の遺伝体発現量データを受信することができる。通信装置９５はモデル学習のためのデータも受信することができる。通信装置９５は入力された細胞に対し、決定された必須遺伝子情報を外部客体に送信することができる。

【0130】

通信装置９５乃至インターフェース装置９４は外部から一定のデータ乃至命令の伝達を受ける装置である。通信装置９５乃至インターフェース装置９４を入力装置と命名することができる。

【0131】

出力装置９６は一定の情報を出力する装置である。出力装置９６はデータ処理過程に必要なインターフェース、分析結果などを出力することができる。

【0132】

演算装置９３は保存装置９１に保存されたプログラムを利用して、ターゲット遺伝子の発現量を調節することができる。

【0133】

演算装置９３は遺伝子の発現量データを前述したベクトルシーケンスに変換することができる。この時、ベクトルシーケンスは遺伝子配列の情報および各遺伝子の発現量情報を含むことになる。

【0134】

演算装置９３はディープラーニングモデルに調節された細胞の遺伝子発現量パターンを入力して細胞の死滅の有無を出力することができる。演算装置９３は遺伝子発現量パターンのベクトルをディープラーニングモデルに入力して一定の出力値を得る。

【0135】

演算装置９３は出力される情報を基準としてターゲット遺伝子が細胞の必須遺伝子であるかどうかを予測することができる。

【0136】

演算装置９３は同一サンプルの正常細胞と腫瘍細胞それぞれに対し、ターゲット遺伝子の発現量が調節された発現量パターン情報を生成することができる。演算装置９３は正常細胞に対する発現量パターン情報をディープラーニングモデルに入力して第１値を算出することができる。また、演算装置９３は腫瘍細胞に対する発現量パターン情報をディープラーニングモデルに入力して第２値を算出することができる。演算装置９３は第１値が細胞生存を示し、第２値が細胞死滅を示す場合、前記ターゲット遺伝子が前記サンプルの腫瘍細胞の特異的必須遺伝子であると判断することができる。

【0137】

一方、演算装置９３は与えられた訓練データを利用して必須遺伝子予測に使われる学習モデルを訓練してもよい。

【0138】

演算装置９３はデータを処理し、一定の演算を処理するプロセッサ、ＡＰ、プログラムがエンベデッドされたチップのような装置であり得る。

【0139】

効果検証実験

【0140】

前述したディープラーニングモデルの効果を検証した結果を説明する。研究者は従来研究結果のうち、乳ガン患者に対して依存性点数（ｄｅｐｅｎｄｅｎｃｙｓｃｏｒｅ）を算出した結果をレファレンスとして利用した。依存性点数は乳癌に必須の遺伝子に対する定量値を意味する。

【0141】

図９は、ディープラーニングモデルの効果を検証した実験結果である。

【0142】

研究者はそれぞれＣＥＲＥＳと命名された依存性点数を算出した２８個の乳ガン細胞株およびＢＡＧＥＬと命名された依存性点数を算出した２５個の乳ガン細胞株のＣＲＩＳＰＲ－Ｃａｓ９スクリーン結果を併合してレファレンスとした。研究者は細胞株別に類似する依存性を示すように、ＣＥＲＥＳとＢＡＧＥＬのカットオフ（ｃｕｔｏｆｆ）値を基準としてレファレンスを区分した。第１レファレンス（ａ）はＣＥＲＥＳ＝－１．５＋ＢＡＧＥＬ＝４である。第２レファレンス（ｂ）はＣＥＲＥＳ＝－１．０＋ＢＡＧＥＬ＝２である。第３レファレンス（ｃ）はＣＥＲＥＳ＝－０．６＋ＢＡＧＥＬ＝０である。図９Ａは、前述したディープラーニングモデルで予測した結果とレファレンスを比較してＲＯＣカーブを表示した。図９Ａは、ｉｎｓｉｌｉｃｏＣＲＩＳＰＲに基づいた遺伝子撹乱方法で遺伝子発現パターンを作ってディープラーニングモデルに入力した例である。第１レファレンスに対するＡＵＣは０．８８４であり、第２レファレンスに対するＡＵＣは０．６８０であり、第３レファレンスに対するＡＵＣは０．６１１であった。

【0143】

また、研究者は従来研究のうち、７７個の乳ガン細胞株に対するｓｈＲＮＡドロップアウトスクリーン結果をレファレンスとして使った。この実験結果は各遺伝子に対して正規化されたＧＡＲＰ（ＧｅｎｅＡｃｔｉｖｉｔｙＲａｎｋｉｎｇＰｒｏｆｉｌｅ）点数を導き出した。該当点数はｚＧＡＲＰと命名したりもする。研究者は３個のカットオフ値（ｚＧＡＲＰ＝－２、－３、ｏｒ－４）を使った。図９Ｂは、前述したディープラーニングモデルで予測した結果とレファレンスを比較してＲＯＣカーブを表示した。図９Ａは、ｉｎｓｉｌｉｃｏＲＮＡｉに基づいた遺伝子撹乱方法で遺伝子発現パターンを作ってディープラーニングモデルに入力した例である。ｚＧＡＲＰ－４で設定されたレファレンス（ａ）に対するＡＵＣは０．８３０であり、ｚＧＡＲＰ－３で設定されたレファレンス（ｂ）に対するＡＵＣは０．７１６であり、ｚＧＡＲＰ－２で設定されたレファレンス（ｃ）に対するＡＵＣは０．５８９であった。

【0144】

また、前述したような細胞特異的必須遺伝子識別方法乃至腫瘍特異的必須遺伝子識別方法は、コンピュータで実行され得る実行可能なアルゴリズムを含むプログラム（またはアプリケーション）で具現され得る。前記プログラムは一過性または非一過性の読み取り可能媒体（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉｕｍ）に保存されて提供され得る。

【0145】

非一過性の読み取り可能媒体とは、レジスタ、キャッシュ、メモリなどのように短い瞬間の間データを保存する媒体ではなく、半永久的にデータを保存し、機器によって読み取り（ｒｅａｄｉｎｇ）が可能な媒体を意味する。具体的には、前述した多様なアプリケーションまたはプログラムはＣＤ、ＤＶＤ、ハードディスク、ブルーレイディスク、ＵＳＢ、メモリカード、ＲＯＭ（ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ）、ＰＲＯＭ（ｐｒｏｇｒａｍｍａｂｌｅｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰＲＯＭ、ＥＰＲＯＭ）またはＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥＰＲＯＭ）またはフラッシュメモリなどのような非一過性の読み取り可能媒体に保存されて提供され得る。

【0146】

一過性の読み取り可能媒体はスタティックラム（ＳｔａｔｉｃＲＡＭ、ＳＲＡＭ）、ダイナミックラム（ＤｙｎａｍｉｃＲＡＭ、ＤＲＡＭ）、シンクロナスディーラム（ＳｙｎｃｈｒｏｎｏｕｓＤＲＡＭ、ＳＤＲＡＭ）、２倍速ＳＤＲＡＭ（ＤｏｕｂｌｅＤａｔａＲａｔｅＳＤＲＡＭ、ＤＤＲＳＤＲＡＭ）、増強型ＳＤＲＡＭ（ＥｎｈａｎｃｅｄＳＤＲＡＭ、ＥＳＤＲＡＭ）、同期化ＤＲＡＭ（ＳｙｎｃｌｉｎｋＤＲＡＭ、ＳＬＤＲＡＭ）および直接ラムバスラム（ＤｉｒｅｃｔＲａｍｂｕｓＲＡＭ、ＤＲＲＡＭ）のような多様なＲＡＭを意味する。

【0147】

本実施例および本明細書に添付された図面は前述した技術に含まれる技術的思想の一部を明確に示しているものに過ぎず、前述した技術の明細書および図面に含まれた技術的思想の範囲内で当業者が容易に類推できる変形例と具体的な実施例はすべて前述した技術の権利範囲に含まれることは自明であると言える。

【符号の説明】

【0148】

１０特定細胞の必須遺伝子を識別するシステム
１１転写体処理装置
１２分析装置
１３分析装置
８０コンピューティング装置
８１データ獲得部
８２処理部
８３保存部
８４命令コード読み出し部

【図1】