(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-05-08
(54)【発明の名称】ペプチド及びHLA対立遺伝子配列を用いて新生抗原を予測する方法及びコンピュータプログラム
(51)【国際特許分類】
G16B 35/00 20190101AFI20230426BHJP
【FI】
G16B35/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022555140
(86)(22)【出願日】2020-12-23
(85)【翻訳文提出日】2022-11-14
(86)【国際出願番号】 KR2020019017
(87)【国際公開番号】W WO2021194057
(87)【国際公開日】2021-09-30
(31)【優先権主張番号】10-2020-0035815
(32)【優先日】2020-03-24
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
(71)【出願人】
【識別番号】522362903
【氏名又は名称】テラジェン バイオ カンパニー,リミテッド
(74)【代理人】
【識別番号】100091683
【氏名又は名称】▲吉▼川 俊雄
(74)【代理人】
【識別番号】100179316
【氏名又は名称】市川 寛奈
(72)【発明者】
【氏名】ファン,テスン
(72)【発明者】
【氏名】ホン,ソン-ウィ
(57)【要約】
本開示は、対象癌組職から抽出されたペプチド配列及びHLA対立遺伝子配列を入力として受信する段階と、前記ペプチド配列からT細胞活性データを獲得し、前記T細胞活性データを兔疫性予測モデルに入力して、前記ペプチド配列の兔疫性を予測する第1予測値を出力する段階と、前記HLA対立遺伝子配列から結合データを獲得し、前記結合データを結合性予測モデルに入力して、前記ペプチド配列及び前記HLA対立遺伝子配列の結合性を予測する第2予測値を出力する段階と、免疫耐性予測モデルに前記T細胞活性データ及び前記結合データを入力して、前記対象癌組職の免疫耐性を予測する第3予測値を出力する段階と、前記T細胞活性データ及び前記第1~第3予測値を用いて前記対象細胞についての新生抗原情報を生成する段階とを含む、ペプチド配列及びHLA対立遺伝子配列を用いて新生抗原を予測する方法を開示する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
対象癌組職から抽出されたペプチド配列及びHLA対立遺伝子配列を入力として受信する段階と、
前記ペプチド配列からT細胞活性データを獲得し、前記T細胞活性データを兔疫性予測モデルに入力して、前記ペプチド配列の兔疫性を予測する第1予測値を出力する段階と、
前記HLA対立遺伝子配列から結合データを獲得し、前記結合データを結合性予測モデルに入力して、前記ペプチド配列及び前記HLA対立遺伝子配列の結合性を予測する第2予測値を出力する段階と、
免疫耐性予測モデルに前記T細胞活性データ及び前記結合データを入力して、前記対象癌組職の免疫耐性を予測する第3予測値を出力する段階と、
前記T細胞活性データ及び前記第1~第3予測値を用いて前記対象細胞についての新生抗原情報を生成する段階と、を含む、ペプチド配列及びHLA対立遺伝子配列を用いて新生抗原を予測する方法。
【請求項2】
前記兔疫性予測モデル、前記結合性予測モデル、及び前記免疫耐性予測モデルのうちの少なくとも一つは、複数の対象癌組職に存在するペプチド配列及びHLA対立遺伝子配列を含む訓練データセットに基づいて機械学習アルゴリズムによって訓練される、請求項1に記載のペプチド配列及びHLA対立遺伝子配列を用いて新生抗原を予測する方法。
【請求項3】
前記対象癌組職は、単一MHC部類Iまたは部類II対立遺伝子を発現するように操作された細胞を含む、請求項2に記載のペプチド配列及びHLA対立遺伝子配列を用いて新生抗原を予測する方法。
【請求項4】
前記対象癌組職は、複数の患者から収得されるか、これから由来した人間細胞を含む、請求項2に記載のペプチド配列及びHLA対立遺伝子配列を用いて新生抗原を予測する方法。
【請求項5】
前記対象癌組職は、複数の患者から収得された新鮮なまたは冷凍された腫瘍細胞を含む、請求項2に記載のペプチド配列及びHLA対立遺伝子配列を用いて新生抗原を予測する方法。
【請求項6】
前記対象癌組職は、複数の患者から収得された新鮮なまたは冷凍された組職細胞を含む、請求項2に記載のペプチド配列及びHLA対立遺伝子配列を用いて新生抗原を予測する方法。
【請求項7】
前記対象癌組職は、T細胞分析を使って確認されたペプチドを含む、請求項2に記載のペプチド配列及びHLA対立遺伝子配列を用いて新生抗原を予測する方法。
【請求項8】
前記訓練データセットは、前記対象癌組職に関連したタンパク体配列に関連したデータ、前記対象癌組職に関連したMHCペプチド配列に関連したデータ、前記対象癌組職に関連したペプチドとHLA対立遺伝子との間の結合データ、前記対象癌組職に関連したトランスクリプトームに関連したデータ、及び前記対象癌組職に関連したゲノムに関連したデータのうちの少なくとも一つを含む、請求項2に記載のペプチド配列及びHLA対立遺伝子配列を用いて新生抗原を予測する方法。
【請求項9】
前記兔疫性予測モデルは、ペプチド配列からのT細胞活性データを入力とし、前記ペプチド配列の兔疫性を出力として学習されたモデルである、請求項1に記載のペプチド配列及びHLA対立遺伝子配列を用いて新生抗原を予測する方法。
【請求項10】
前記結合性予測モデルは、HLA対立遺伝子配列及びペプチド配列からの結合データを入力とし、前記ペプチド配列及び前記HLA対立遺伝子配列の結合性を出力として学習されたモデルである、請求項1に記載のペプチド配列及びHLA対立遺伝子配列を用いて新生抗原を予測する方法。
【請求項11】
前記免疫耐性予測モデルは、ペプチド配列及びHLA対立遺伝子配列からのT細胞活性データ及びHLA対立遺伝子配列及びペプチド配列からの結合データを入力とし、ペプチド配列及びHLA対立遺伝子配列の間の免疫耐性を出力として学習されたモデルである、請求項1に記載のペプチド配列及びHLA対立遺伝子配列を用いて新生抗原を予測する方法。
【請求項12】
コンピュータを用いて請求項1から11のいずれか一項に記載の方法を実行させるためにコンピュータ可読の保存媒体に保存された、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示はペプチド配列及びHLA対立遺伝子配列を用いて新生抗原を予測する方法及びコンピュータプログラムに関する。
【背景技術】
【0002】
坑癌新薬物質の開発及び発展につれて、1世代抗癌剤である化学抗癌剤、2世代標的抗癌剤を経て最近の3世代免疫抗癌剤が脚光を浴びている。特に、3世代免疫抗癌剤の場合、以前の世代の抗癌剤と違って、患者自身の免疫システムを活用した治療戦略なので、副作用が著しく小さい利点がある。しかし、このような利点にもかかわらず、PD-L1のような標識遺伝子の発現及びマイクロサテライト不安定性(MSI-H)を現す患者のみが免疫抗癌剤を用いた治療戦略を樹立することができる限界を有している。このような制約によって、既存の抗癌剤の投与が難しい患者を治療するための戦略樹立が必要であり、代案の一つとして提示されているものがまさに新生抗原を活用した癌ワクチンである。各患者の癌組職には正常組職では発見されない突然変異が存在し、このような突然変異から由来するペプチドを新生抗原として活用して、患者の免疫システムが当該新生抗原を認知して攻撃することができるようにすることが癌ワクチンの核心戦略である。この過程で必ず先決しなければならない過程は、まず、突然変異由来のペプチドと患者特異的HLA対立遺伝子との間の安定的な結合であり、次に、当該突然変異由来のペプチドが患者の免疫システムをよく刺激する免疫原性の有無の確認である。特に、免疫原性を最大限反映するためには、免疫原性が発生するすべての段階を模写し、主要特徴を抽出しなければならないが、この過程で漏れるか消失する段階が発生することがあり、このような点は以後に免疫原性予測に限界点として作用することがある。
【0003】
そこで、本技術は現在まで知られた免疫原性を有するペプチド及びMHC(人の場合にはHLA)配列の組合せデータに基づいて免疫過程の漏れを防止し、主要特徴を抽出する戦略を実現しようとした。また、新生抗原としてのHLAとの結合力、ペプチド配列自体の免疫原性、結合力はあるが免疫を誘導しない免疫耐性をそれぞれモデリングすることで、患者に適用可能な新生抗原を導出しようとした。前述した背景技術は発明者が本発明の導出のために保有していたか、本発明の導出過程で習得した技術情報であり、必ずしも本発明の出願前に一般公衆に公開された公知技術であるとは言えない。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明は上述した必要性によるものであり、患者の癌組職内に存在する突然変異由来のペプチド配列が患者特異的HLAと結合する一方で、一連の免疫過程を経て最終的に免疫原性を現すことを予測し、これに基づいて癌患者に適した癌ワクチンに活用可能な新生抗原を決定することを目的とする。
【課題を解決するための手段】
【0005】
本発明の実施例によるペプチド配列及びHLA対立遺伝子配列を用いて新生抗原を予測する方法は、対象癌組職から抽出されたペプチド配列及びHLA対立遺伝子配列を入力として受信する段階と、前記ペプチド配列からT細胞活性データを獲得し、前記T細胞活性データを兔疫性予測モデルに入力して、前記ペプチド配列の兔疫性を予測する第1予測値を出力する段階と、前記HLA対立遺伝子配列から結合データを獲得し、前記結合データを結合性予測モデルに入力して、前記ペプチド配列及び前記HLA対立遺伝子配列の結合性を予測する第2予測値を出力する段階と、免疫耐性予測モデルに前記T細胞活性データ及び前記結合データを入力して、前記対象癌組職の免疫耐性を予測する第3予測値を出力する段階と、前記T細胞活性データ及び前記第1~第3予測値を用いて前記対象細胞についての新生抗原情報を生成する段階とを含む。
【0006】
前記兔疫性予測モデル、前記結合性予測モデル、及び前記免疫耐性予測モデルのうちの少なくとも一つは、複数の対象癌組職に存在するペプチド配列及びHLA対立遺伝子配列を含む訓練データセットに基づいて機械学習アルゴリズムによって訓練されることができる。
【0007】
前記対象癌組職は、単一MHC部類Iまたは部類II対立遺伝子を発現するように操作された細胞を含むことができる。
【0008】
前記対象癌組職は、複数の患者から収得されるかこれから由来した人間細胞を含むことができる。
【0009】
前記対象癌組職は、複数の患者から収得された新鮮なまたは冷凍された腫瘍細胞を含むことができる。
【0010】
前記対象癌組職は、複数の患者から収得された新鮮なまたは冷凍された組職細胞を含むことができる。
【0011】
前記対象癌組職は、T細胞分析を使って確認されたペプチドを含むことができる。
【0012】
前記訓練データセットは、前記対象癌組職に関連したタンパク体配列に関連したデータ、前記対象癌組職に関連したMHCペプチド配列に関連したデータ、前記対象癌組職に関連したペプチドとHLA対立遺伝子との間の結合データ、前記対象癌組職に関連したトランスクリプトームに関連したデータ、及び前記対象癌組職に関連したゲノムに関連したデータのうちの少なくとも一つを含むことができる。
【0013】
前記兔疫性予測モデルは、ペプチド配列からのT細胞活性データを入力とし、前記ペプチド配列の兔疫性を出力として学習されたモデルであることができる。
【0014】
前記結合性予測モデルは、HLA対立遺伝子配列及びペプチド配列からの結合データを入力とし、前記ペプチド配列及び前記HLA対立遺伝子配列の結合性を出力として学習されたモデルであることができる。
【0015】
前記免疫耐性予測モデルは、ペプチド配列及びHLA対立遺伝子配列からのT細胞活性データ及びHLA対立遺伝子配列及びペプチド配列からの結合データを入力とし、ペプチド配列及びHLA対立遺伝子配列の間の免疫耐性を出力として学習されたモデルであることができる。
【0016】
本発明の実施例によるコンピュータプログラムは、コンピュータを用いて本発明の実施例による方法のうちのいずれか一方法を実行させるために媒体に保存されることができる。
【0017】
その他にも、本発明を具現するための他の方法、他のシステム、及び前記方法を実行するためのコンピュータプログラムを記録するコンピュータ可読の記録媒体をさらに提供する。
【0018】
前述したもの以外の側面、特徴、及び利点は以下の図面、特許請求の範囲及び発明の詳細な説明から明らかになるであろう。
【発明の効果】
【0019】
前述したような本発明の一実施例によれば、癌組職に含まれたペプチド配列及びHLA対立遺伝子配列の間の結合力だけでなく、ペプチド配列の兔疫性を測定し、測定された兔疫性に基づいて癌組職内の新生抗原を決定することができる。
【図面の簡単な説明】
【0020】
【
図1】本発明の実施例による新生抗原決定装置100のブロック図である。
【
図2】韓国人の細胞内に含まれたHLA部類I型の情報についての例示図である。
【
図3】本発明の実施例による新生抗原決定装置100のブロック図である。
【
図4】新生抗原決定装置100の入力データ(input)及び出力データ(output)を説明する図である。
【
図5】本発明の実施例による新生抗原決定システムの具現例示の図である。
【
図6】本発明の実施例による新生抗原決定システムの具現例示の図である。
【
図7】本発明の実施例による新生抗原決定システムの具現例示の図である。
【
図8】兔疫性予測モデル、結合性予測モデル、免疫耐性予測モデルなどを学習させる学習サーバー10のブロック図である。
【
図9】兔疫性予測モデル、結合性予測モデル、及び免疫耐性予測モデルに対する例示図である。
【発明を実施するための形態】
【0021】
以下、添付図面に示す本発明の実施例に基づいて本発明の構成及び作用を詳細に説明する。
【0022】
本発明は多様な変換を加えることができ、さまざまな実施例を有することができるが、特定の実施例を図面に例示し、詳細に説明する。本発明の効果及び特徴、そしてそれらを達成する方法は図面に基づいて詳細に後述する実施例を参照すれば明らかになるであろう。しかし、本発明は以下で開示する実施例に限定されるものではなく、多様な形態に具現可能である。
【0023】
以下、添付図面に基づいて本発明の実施例を詳細に説明する。図面を参照して説明するとき、同一または対応の構成要素は同じ図面符号を付与し、これについての重複説明は省略する。
【0024】
以下の実施例で、第1、第2などの用語は限定的な意味ではなく、一構成要素を他の構成要素と区別する目的で使う。
【0025】
以下の実施例で、単数の表現は文脈上明らかに他に指示しない限り、複数の表現を含む。
【0026】
以下の実施例で、「含む」または「有する」などの用語は明細書上に記載された特徴または構成要素が存在することを意味するものであり、一つ以上の他の特徴または構成要素を付加することができる可能性を予め排除するものではない。
【0027】
図面では、説明の便宜のために構成要素の大きさが誇張されるか縮小されることがある。例えば、図面に示す各構成の大きさ及び厚さは説明の便宜のために任意に示したものであるので、本発明が必ずしも図示のものに限定されない。
【0028】
ある実施例が他に具現可能な場合、特定の工程順序は説明の順序と異なるように遂行することもできる。例えば、連続して遂行される二つの工程が実質的に同時に遂行されることもでき、説明の順序と反対の順に遂行されることもできる。
【0029】
ここで、対象癌組職は実験対象になる組職を意味する。例えば、対象癌組職は免疫反応を引き起こすことができる抗原を探知しようとする癌組職である。好ましくは、前記対象癌組職は腫瘍細胞または癌細胞の集合体である。
【0030】
ここで、突然変異は、各生命体内の遺伝情報を有している遺伝子の塩基配列A(アデニン)、T(チアミン)、G(グアニン)、C(シトシン)の配列が当該種の原本遺伝情報と異なって変質されるすべての現象を意味する。このような突然変異は小規模または大規模に構造的変異を引き起こし、小規模突然変異は単一の塩基配列が変換されて現れる点突然変異があり、塩基配列がさらに挿入されるか欠失される突然変異も存在する。大規模に発生して構造に影響を及ぼす突然変異は、遺伝子重複、遺伝子欠失、染色体逆位、癲癇性欠失、染色体転座、ヘテロ接合性消失などがある。
【0031】
突然変異は、発生する細胞の種類によって、大別して生殖細胞突然変異と体細胞突然変異とに区分される。体細胞突然変異は体細胞に生ずる遺伝子突然変異であり、体細胞突然変異または体細胞変異とも言い、遺伝子の突然変異や染色体異常に起因することができる。
【0032】
このような突然変異の発生によって当該遺伝子から生産されるタンパク質の機能に変化が発生することがあり、特定の機能が消失されるか他の機能として活性化することもある。このようなタンパク質機能の変化は癌発生を引き起こすか加速化させるので、このような突然変異は癌の発生及び進行と直間接的に深い関連があり得る。
【0033】
上述したように、生命体の遺伝情報を有しているDNA内の塩基配列は、A、T、G、Cからなっており、このような塩基配列が一列に3個ずつ集まれば一つの特定のアミノ酸を形成するコードになり、このようなコードが多数集まれば一つのタンパク質に変換が可能である。アミノ酸は、アラニン(Ala)、システイン(Cys)、アスパラギン酸(Asp)、グルタミン酸(Glu)、フェニルアラニン(Phe)、グリシン(Gly)、ヒスチジン(His)、イソロイシン(Ile)、リシン(Lys)、ロイシン(Leu)、メチオニン(Met)、アスパラギン(Asn)、ピロリシン(Ply)、プロリン(Pro)、グルタミン(Gln)、アルギニン(Arg)、セリン(Ser)、スレオニン(Thr)、セレノシステイン(Sec)、バリン(Val)、及びトリプトファン(Trp)、チロシン(Tyr)からなっている。
【0034】
ペプチドはアミノ酸配列が成すペプチドまたはポリペプチドを意味することができる。生命体内には各種の遺伝情報から由来しない外部物質を除去するための免疫システムが存在し、特に、外部由来のペプチドのうち免疫反応を引き起こすことができる免疫原性ペプチドが存在する。癌の発生過程で原本遺伝情報と異なるように発生する突然変異もこのような免疫原性ペプチドを生成し、このようなペプチドは一連の免疫システム内の過程を経てMHCIタンパク質と結合することができる。さらに、前記免疫原性ペプチドは突然変異アミノ酸配列を有することができ、そのアミノ酸の長さは25個以下であることができるが、これに限定されず、多様な長さであることができる。
【0035】
新生抗原は免疫反応を引き起こすペプチドを意味する。すなわち、新生抗原は免疫原性ペプチドであることができる。新生抗原は腫瘍細胞特異的突然変異によって誘導されることができ、腫瘍細胞のエピトープで示すことができる。以下では、説明の簡潔さのために、免疫原性ペプチドを新生抗原と名付けて説明する。
【0036】
ここで、T細胞活性データとは、特定のHLA対立遺伝子に対して特定のペプチド配列が結合することにより、刺激されたときに発生する免疫反応を測定したデータであり、multimer/tetramer、ELISPOTを含む免疫原性測定実験方法論によって検出された細胞内サイトカイン発現値及び兔疫細胞特異的活性マーカーの発現値などのデータとして獲得され、結果値は“Positive”、“Positive-High”、“Positive-Low”、“Positive-Intermediate”、“Negative”に分類されることができる。
【0037】
本発明の実施例による新生抗原決定装置は、対象癌組職のペプチド配列及び患者のHLA対立遺伝子配列を分析し、対象癌組職の治療に用いる対象癌組職の特定のペプチドを新生抗原と決定することができる。対象癌組職に含まれたペプチドのうち、抗原として適した新生抗原を決定することができる。決定された新生抗原に作用する抗体を検索して当該患者の対象癌組職の治療に用いることができる。
【0038】
図1は本発明の実施例による新生抗原決定装置100のブロック図である。
【0039】
新生抗原決定装置100は癌組職の遺伝体データに基づいて癌組職に存在する疾病を治療するための新生抗原決定のための装置である。
【0040】
遺伝体データ入力部110は、癌組職から抽出されたペプチド配列及びHLA対立遺伝子配列を受信することができる。ペプチド配列は癌組職に含まれた一つ以上のペプチドに対するものである。ペプチド配列はペプチドに対する配列を含むように2次元マトリックスで表現することができる。HLA対立遺伝子配列は疑似配列(pseudo sequence)または全体配列(full sequence)で表現され、1個からk個のアミノ酸単位を一つの単語に設定したワードエンベッディング技法によって特定のサイズでエンベッディングベクターで表現されることができるが、これに限定されず、多様な形式で表現されることができる。
【0041】
遺伝体データ入力部110は、ペプチド配列及びHLA対立遺伝子配列に基づいて、ペプチドのT細胞活性データまたはペプチドとHLA対立遺伝子との間の結合データを個別的に算出することができる。
【0042】
遺伝体データ入力部110は、ペプチドに対するT細胞活性データを測定し、測定したデータが記録されたテーブルまたはデータベースを用いて癌組職のペプチドに対するT細胞活性データを算出することができる。
【0043】
ここで、HLA対立遺伝子は、全体配列や疑似配列に無関係に、HLA対立遺伝子配列を1~kmer単位で分割し、仮想の単語セットで表現して入力することができる。
【0044】
遺伝体データ入力部110は、ペプチドとHLA対立遺伝子との間のすべての結合関係に対する結合力に関連した結合データを測定し、測定した結合データが記録されたテーブルまたはデータベースを用いて対象癌組職のペプチドとHLA対立遺伝子との間の結合データを算出することができる。
【0045】
兔疫性予測部121は、T細胞活性データとしてペプチド及びHLAを入力とし、ペプチドに対する兔疫性に対応する予測値を出力することができる。兔疫性予測部121は、T細胞活性データとペプチドに対する兔疫性によって学習されたモデルを用いてペプチドに対する兔疫性に対応する第1予測値を出力することができる。ペプチドは複数または単数である。T細胞活性データは、ペプチド配列に対するもの及び/またはHLA配列に対するものを含むことができる。
【0046】
結合性予測部122は、ペプチドとHLA対立遺伝子との間のすべての結合関係に対する結合データを入力とし、ペプチドに対する結合性に対応する第2予測値を出力することができる。
【0047】
免疫耐性予測部123は、ペプチドとHLA対立遺伝子との間のすべての結合関係に対する結合データを入力とし、ペプチドに対する免疫耐性に対応する第3予測値を出力することができる。
【0048】
新生抗原決定部130は、第1~第3予測値に基づいて学習された決定モデルを用いて対象癌組職の新生抗原情報を出力することができる。新生抗原決定部130は、第1~第3予測値のうち、ペプチド別に決定された一つの第1~第3予測値に基づいて治療に活用することができる兔疫性及び結合性を有する新生抗原であるかを出力することができる。
【0049】
これにより、新生抗原決定装置100は、対象癌組職に含まれた腫瘍細胞または癌細胞の結合的特性だけでなく兔疫性特性を考慮し、治療に活用することができる新生抗原であるかを出力することができる。また、新生抗原決定装置100は、対象癌組職のペプチドに対するT細胞活性データを考慮して新生抗原であるかを出力することができる。
【0050】
新生抗原決定装置100は、図示しない通信部、入力部、及び出力部のうちの少なくとも一つを含んで具現されることができるが、これに限定されない。新生抗原決定装置100は、出力部を介して新生抗原であるかなどのデータを出力することができる。新生抗原決定装置100は、入力部を介してデータの出力及び入力を受けることができる。新生抗原決定装置100は通信部を備え、外部の装置と通信することができる。新生抗原決定装置100の遺伝体データ入力部110、兔疫性予測部121、結合性予測部122、免疫耐性予測部123、及び新生抗原決定部130のうちの少なくとも一つはソフトウェアまたはハードウェアから具現されることができる。兔疫性予測部121、結合性予測部122、免疫耐性予測部123、及び新生抗原決定部130のうちの少なくとも一つは単一の構成要素から具現されることができる。
【0051】
対象癌組職は単一のMHC部類I型または部類II型対立遺伝子を発現するように操作された細胞である。対象癌組職は複数の患者から収得されるかまたはこれから由来した人間細胞である。対象癌組職は複数の患者から収得された新鮮なまたは冷凍された腫瘍細胞を含む。対象癌組職は、複数の患者から収得された新鮮なまたは冷凍された組職細胞を含む。対象癌組職は、T細胞分析によって確認されたペプチド(等)を含む。
【0052】
新生抗原決定装置100は、複数の対象癌組職に基づいて、兔疫性予測部121、結合性予測部122、免疫耐性予測部123、及び新生抗原決定部130のアルゴリズムを学習させることができる。新生抗原決定装置100は、対象癌組職のタンパク体配列に関連したデータ、MHCペプチド配列に関連したデータ、ペプチドとHLA対立遺伝子との間の結合データ、対象癌組職に関連したトランスクリプトームに関連したデータ、対象癌組職に関連したゲノムに関連したデータなどを用いて、兔疫性予測部121、結合性予測部122、免疫耐性予測部123、及び新生抗原決定部130のうちの少なくとも一つのアルゴリズムを学習させることができる。
【0053】
兔疫性予測部121、結合性予測部122、免疫耐性予測部123、及び新生抗原決定部130のうちの少なくとも一つはペプチドの長さ別に独立的に構築されず、ペプチドを長さに無関係に一つのワードと認識してアルゴリズム(モデル)を構築することができる。兔疫性予測部121、結合性予測部122、免疫耐性予測部123、及び新生抗原決定部130のうちの少なくとも一つは、ワードエンベッディング技法を用いてペプチドを単一のワードで具現することができる。
【0054】
兔疫性予測部121、結合性予測部122、免疫耐性予測部123、及び新生抗原決定部130のうちの少なくとも一つのアルゴリズムに対する訓練データもペプチドの長さに無関係に入力されることができる。新生抗原決定部130は、ディープラーニングを用いて学習されたアルゴリズムを用いることができる。
【0055】
新生抗原決定装置100は、データに基づいてそれぞれの陽性(Y)/陰性(N)を分類するディープラーニングモデルを構築することができる。新生抗原決定装置100は、兔疫性予測部121、結合性予測部122、免疫耐性予測部123、及び新生抗原決定部130に対する加重値(weight)を固定して追加の神経網を用いることができる。これにより、T細胞活性データ内のHLA対立遺伝子とペプチドとの間の免疫データを用いて、兔疫性予測部121、結合性予測部122、免疫耐性予測部123、及び新生抗原決定部130のうちの少なくとも一つが具現されることができる。
【0056】
兔疫性予測部121は、ペプチドの各アミノ酸を対象としてワードエンベッディング技法を適用することができる。兔疫性予測部121は、ワードエンベッディング技法を適用して獲得したペプチドのベクターにCNNを適用して特徴値を抽出することができる。ここで、特徴値はCNNなどのように多様なレイヤーで学習によって獲得することができる。兔疫性予測部121は、ペプチドのベクターに対する抽出された特徴値に対してGRU(Gated Recurrent Unit)を適用して各ペプチドの兔疫性に対する陽性または陰性を訓練する過程によってアルゴリズムを生成することができる。
【0057】
結合性予測部122は、HLA対立遺伝子及びペプチドの両者にワードエンベッディング技法を適用してベクターを生成し、HLA対立遺伝子のベクター及びペプチドのベクターを対象としてCNNを適用して特徴値を抽出することができる。結合性予測部122は、特徴値を2個の神経網に適用してHLA対立遺伝子のエンコーダー及びペプチドのエンコーダーを生成し、HLA対立遺伝子のエンコーダー及びペプチドのエンコーダーを用いて結合性に対する陽性または陰性を訓練する過程によってアルゴリズムを生成することができる。
【0058】
免疫耐性予測部123のアルゴリズムを生成するのに用いられる訓練データは兔疫性に対する陽性と陰性とに分けることができる。免疫耐性予測部123は、HLA対立遺伝子と結合される結合性を有するが治療能力である兔疫性がない場合を耐性があるペプチドと定義し、結合性及び兔疫性を有するペプチドを耐性がないペプチドと定義することができる。
【0059】
図2は韓国人の細胞内に含まれたHLA部類I型の情報に対する例示図である。
【0060】
図3は本発明の実施例による新生抗原決定装置100のブロック図である。
【0061】
図3に示すように、新生抗原決定装置100は、T細胞活性データ及び結合データを生成することができる。
【0062】
新生抗原決定装置100の兔疫性予測部は、T細胞活性データを入力とし、兔疫性に対する第1予測値を出力することができる。
【0063】
結合性予測部は、T細胞活性データ及び結合データを入力とし、結合性に対する第2予測値を出力することができる。
【0064】
免疫耐性予測部は、T細胞活性データ及び結合データを入力とし、免疫耐性に対する第3予測値を出力することができる。
【0065】
新生抗原決定装置100の120は、兔疫性予測部、結合性予測部、免疫耐性予測部以外の多様な因子を予測する予測部をさらに含むことができる。
【0066】
新生抗原決定装置100の130は、第1~第3予測値とT細胞活性データを入力とし、治療に活用することができる新生抗原であるかをY及びNのうちの一つとして出力することができる。
【0067】
図4は新生抗原決定装置100の入力データ(input)及び出力データ(output)を説明する図である。
【0068】
本発明の実施例によれば、対象癌組職から抽出されたHLA対立遺伝子配列(X1)及びペプチド配列(X2)を入力データとして使い、新生抗原であるかに対応するN/Yを出力データとして出力(return)することができる。
【0069】
ここで、新生抗原決定装置100は、兔疫性予測モデルM1、結合性予測モデルM2、及び免疫耐性予測モデルM3を用いて、新生抗原であるかに対応するN/Yを出力することができる。ここで、兔疫性予測モデルM1を介して出力された第1予測値、結合性予測モデルM2を介して出力された第2予測値、及び免疫耐性予測モデルM3を介して出力された第3予測値を入力とし、新生抗原であるかに対応するN/Yを出力として学習されたモデル(NN)をさらに用いて新生抗原であるかに対応するN/Yを出力(return)することができる。
【0070】
【0071】
前記表に示すように、対象癌組職のペプチド配列及びHLA対立遺伝子配列の間に兔疫性があるが結合性がない場合、結合性があるが兔疫性がない場合には、新生抗原であるかがNとして出力されることができる。対象癌組職のペプチド配列及びHLA対立遺伝子配列の間に兔疫性及び結合性の両者がある場合に新生抗原であるかがYとして出力されることができる。
図5~
図7は本発明の実施例による新生抗原決定システムの具現例示に対する図である。
【0072】
図5に示すように、新生抗原決定装置100は、外部の電子装置200から癌組職に対する遺伝体データを受信することができる。新生抗原決定装置100は、出力された癌組職の新生抗原であるかについての情報を電子装置200に伝送することができる。
【0073】
電子装置200は癌組職に対する遺伝体データを保存した一つ以上のプロセッサを含むコンピュータ装置である。電子装置200は癌組職の遺伝体データを出力する装置であることができる。電子装置200は新生抗原決定装置100と電気的に連結されるかネットワークを介して連結されることにより、データを送受信することができる。
【0074】
電子装置200は、数回にかけて複数のサンプルの癌組職に対する遺伝体データを獲得して保存することができる。新生抗原決定装置100は、電子装置200から受信した遺伝体データに対する新生抗原であるかなどを順次出力することができる。
【0075】
図6に示すように、新生抗原決定装置100は、複数の電子装置201、202、…、20nからデータを受信し、複数の電子装置201、202、…、20nに出力データを伝送することができる。
【0076】
新生抗原決定装置100は、複数の電子装置201、202、…、20nから遺伝体データを受信することができる。複数の電子装置201、202、…、20nは一つ以上の主体によって管理されることができる。
【0077】
図7に示すように、新生抗原決定装置100は、一つ以上の端末装置301、302、…、30nの出力部を介して出力データを出力することができる。出力データは新生抗原決定装置100の出力部を介して出力されることができる。出力データは一つ以上の端末装置301、302、…、30nの出力部を介して出力されることができる。新生抗原決定装置100は、新生抗原に関連したデータを伝送することで、所定の費用に対する決済を一つ以上の端末装置301、302、…、30nに要請することができる。一つ以上の端末装置301、302、…、30nは、癌組職に含まれたペプチド及びHLA対立遺伝子についての新生抗原関連情報を要請することができる。要請に応じて、出力データが出力されることができる。
【0078】
図8は兔疫性予測モデル、結合性予測モデル、免疫耐性予測モデルなどを学習させる学習サーバー10のブロック図である。
【0079】
学習サーバー10は、データ入力部11、第1学習部12、第2学習部13、第3学習部14、及び第4学習部15を含むことができる。
【0080】
第1学習部12は兔疫性予測モデルを学習して生成するものであり、ペプチド配列またはHLA対立遺伝子配列のT細胞活性データ及びペプチド配列の兔疫性を訓練データセットで学習するようになる。第1学習部12によって学習された兔疫性予測モデルは、
図10の12’に示すように、ペプチド配列をワードエンベッディング技法で処理し、処理されたペプチド配列をCNN、GRU、NNのレイヤーに入力して学習するようになる。
【0081】
第2学習部13は結合性予測モデルを学習して生成するものであり、ペプチド配列の結合データまたはHLA対立遺伝子配列を入力としてペプチド配列及びHLA対立遺伝子配列の間の結合性を訓練データセットで学習するようになる。第2学習部13によって学習された結合性予測モデルは、
図9の13’に示すように、ペプチド配列及びHLA対立遺伝子配列をそれぞれワードエンベッディング技法で処理し、処理されたペプチド配列をCNN、GRUのレイヤーに入力して学習し、HLA対立遺伝子配列をCNN、CNN、GRUのレイヤーに入力して学習するようになる。結合性予測モデルは、ペプチド配列に対する結合性に対する予測値とHLA対立遺伝子配列に対する結合性に対する予測値とによってさらに他のモデルNN1を学習させ、最終的に対象癌組職に対する免疫耐性に対する予測値を出力するように学習させることができる。
【0082】
第3学習部14は免疫耐性予測モデルを学習して生成するものであり、ペプチド配列及びHLA対立遺伝子配列を入力としてペプチド配列及びHLA対立遺伝子配列の間の免疫耐性を訓練データセットで学習するようになる。第3学習部14によって学習された免疫耐性予測モデルは、
図10の14’に示すように、ペプチド配列及びHLA対立遺伝子配列をそれぞれワードエンベッディング技法で処理し、処理されたペプチド配列をCNN、GRUのレイヤーに入力して学習し、HLA対立遺伝子配列をCNN、CNN、GRUのレイヤーに入力して学習するようになる。免疫耐性予測モデルは、ペプチド配列に対する免疫耐性に対する予測値とHLA対立遺伝子配列に対する免疫耐性に対する予測値とによってさらに他のモデルNN2を学習させ、最終的に対象癌組職に対する免疫耐性に対する予測値を出力するように学習させることができる。
【0083】
学習サーバー10は、第1~第3学習部12、13、14によって生成された学習モデルを新生抗原決定装置100に伝送することができる。これにより、新生抗原決定装置100の兔疫性予測部121、結合性予測部122、及び免疫耐性予測部123のアルゴリズムが周期的に更新(アップデート)されることが可能である。以上で説明する装置は、ハードウェア構成要素、ソフトウェア構成要素、及び/またはハードウェア構成要素及びソフトウェア構成要素の組合せによって実現される。例えば、実施例で説明した装置及び構成要素は、例えばプロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令(instruction)を実行し応答することができる他の任意の装置のように、一つ以上の汎用コンピュータまたは特殊目的コンピュータから具現されることができる。処理装置は、オペレーティングシステム(OS)及び前記オペレーティングシステム上で実行される一つ以上のソフトウェアアプリケーションを実行することができる。また、処理装置は、ソフトウェアの実行に応答して、データを接近、保存、操作、処理及び生成することもできる。理解の便宜のために、処理装置一つを使うものとして説明した場合もあるが、当該技術分野で通常の知識を有する者は、処理装置が複数の処理要素(processing element)及び/または複数の類型の処理要素を含むことができることが分かる。例えば、処理装置は、複数のプロセッサまたは一つのプロセッサ及び一つのコントローラを含むことができる。また、並列プロセッサ(parallel processor)のような他の処理構成(processing configuration)も可能である。
【0084】
ソフトウェアは、コンピュータプログラム(computer program)、コード(code)、命令(instruction)、またはこれらのうちの一つ以上の組合せを含むことができ、所望の通りに動作するように処理装置を構成するか独立的にまたは集団で(collectively)処理装置を命令することができる。ソフトウェア及び/またはデータは、処理装置によって解釈されるか処理装置に命令またはデータを提供するために、任意の類型の機械、構成要素(component)、物理的装置、仮想装置(virtual equipment)、コンピュータ保存媒体または装置、または伝送される信号波(signal wave)によって永久的にまたは一時的に具体化(embody)されることができる。ソフトウェアはネットワークで連結されたコンピュータシステム上に分散され、分散された方法で保存されるか実行されることもできる。ソフトウェア及びデータは一つ以上のコンピュータ可読の記録媒体に保存されることができる。
【0085】
実施例による方法は、多様なコンピュータ手段によって実行可能なプログラム命令形態として具現されてコンピュータ可読の媒体に記録されることができる。前記コンピュータ可読の媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組合せで含むことができる。前記媒体に記録されるプログラム命令は実施例のために特別に設計されて構成されたものであるかコンピュータソフトウェア当業者に公知となって使用可能なものであることができる。コンピュータ可読の記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体(magnetic media)、CD-ROM、DVDのような光記録媒体(optical media)、フロプティカルディスク(floptical disk)のような光磁気媒体(magneto-optical media)、及びROM、RAM、フラッシュメモリなどのようにプログラム命令を保存して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例には、コンパイラーによって作られるもののような機械語コードだけではなく、インタープリターなどを使ってコンピュータによって実行可能な高級言語コードを含む。前記ハードウェア装置は本発明の動作を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成されることができ、その逆もまた同様である。
【0086】
以上のように、実施例を限定された実施例及び図面に基づいて説明したが、当該技術分野で通常の知識を有する者であれば前記開示から多様な修正及び変形が可能である。例えば、説明した技術が説明した方法と異なる順に遂行されるか、及び/または説明したシステム、構造、装置、回路などの構成要素が説明した方法と異なる形態に結合または組合せされるか、他の構成要素または均等物に対置されるか置換されても適切な結果を達成することができる。
【0087】
したがって、他の具現、他の実試例及び特許請求の範囲と均等なものなども後述する特許請求の範囲の範囲に属する。
【国際調査報告】