IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ サントル・オスピタリエ・ユニヴェルシテール・ドゥ・モンペリエの特許一覧 ▶ ユニヴェルシテ ドュ モンペリエの特許一覧 ▶ サントル ナシオナル ドゥ ラ ルシェルシェ シアンティフィクの特許一覧 ▶ アンスティテュ ナシオナル ドゥ ラ サンテ エ ドゥ ラ ルシェルシュ メディカルの特許一覧

<>
  • 特表-腫瘍を特徴付けるための方法 図1
  • 特表-腫瘍を特徴付けるための方法 図2
  • 特表-腫瘍を特徴付けるための方法 図3A
  • 特表-腫瘍を特徴付けるための方法 図3B
  • 特表-腫瘍を特徴付けるための方法 図3C
  • 特表-腫瘍を特徴付けるための方法 図4
  • 特表-腫瘍を特徴付けるための方法 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-08-14
(54)【発明の名称】腫瘍を特徴付けるための方法
(51)【国際特許分類】
   G01N 33/50 20060101AFI20240806BHJP
【FI】
G01N33/50 P
G01N33/50 U
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024506155
(86)(22)【出願日】2022-07-21
(85)【翻訳文提出日】2024-02-27
(86)【国際出願番号】 EP2022070551
(87)【国際公開番号】W WO2023006588
(87)【国際公開日】2023-02-02
(31)【優先権主張番号】2108279
(32)【優先日】2021-07-29
(33)【優先権主張国・地域又は機関】FR
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVA
2.PYTHON
(71)【出願人】
【識別番号】513096967
【氏名又は名称】サントル・オスピタリエ・ユニヴェルシテール・ドゥ・モンペリエ
【氏名又は名称原語表記】CENTRE HOSPITALIER UNIVERSITAIRE DE MONTPELLIER
(71)【出願人】
【識別番号】515031137
【氏名又は名称】ユニヴェルシテ ドュ モンペリエ
【氏名又は名称原語表記】UNIVERSITE DE MONTPELLIER
(71)【出願人】
【識別番号】509025832
【氏名又は名称】サントル ナシオナル ドゥ ラ ルシェルシェ シアンティフィク
【氏名又は名称原語表記】CENTRE NATIONAL DE LA RECHERCHE SCIENTIFIQUE
(71)【出願人】
【識別番号】518261618
【氏名又は名称】アンスティテュ ナシオナル ドゥ ラ サンテ エ ドゥ ラ ルシェルシュ メディカル
【氏名又は名称原語表記】INSTITUT NATIONAL DE LA SANTE ET DE LA RECHERCHE MEDICALE
(74)【代理人】
【識別番号】100139594
【弁理士】
【氏名又は名称】山口 健次郎
(74)【代理人】
【識別番号】100194973
【弁理士】
【氏名又は名称】尾崎 祐朗
(72)【発明者】
【氏名】リヴァルス,エリク
(72)【発明者】
【氏名】イルツ,クリストフ
(72)【発明者】
【氏名】ダヴィド,アレクサンドル
(72)【発明者】
【氏名】レリエ,セバスチャン
(72)【発明者】
【氏名】ボーシェ,リュック
【テーマコード(参考)】
2G045
【Fターム(参考)】
2G045AA24
2G045AA26
2G045BB16
2G045CA26
2G045CB02
2G045CB03
2G045DA14
2G045FB06
2G045JA01
(57)【要約】
本発明は、生体試料から抽出された、総細胞RNA由来の、細胞外RNA由来の、及び/又は単離されたヌクレオシド由来の修飾又は非修飾ヌクレオシドの定量分析に基づいて腫瘍を特徴付けるためのインビトロ方法に関する。より詳細には、本発明は、神経膠腫のグレードを予測するための方法に関する。より詳細には、本発明はまた、腫瘍を検出するための方法に関する。本発明はしたがって、がん腫学及び分子生物学の分野の範囲内に存在し、より詳細には医療診断に適用される。
【特許請求の範囲】
【請求項1】
個体から単離された生体試料に基づいて、前記個体の腫瘍を特徴付けるためのインビトロ方法であって、
a)i)総細胞RNA及びそのヌクレオシド断片化、ii)細胞外RNA及びそのヌクレオシド断片化、並びに/又はiii)前記単量体異化産物由来のヌクレオシドを抽出することで前記生体試料からヌクレオシドを単離する工程と、
b)工程a)由来の、少なくとも3個、好ましくは少なくとも5個、好ましくは少なくとも10個、好ましくは少なくとも20個の異なるヌクレオシドのそれぞれの量をクロマトグラフィーによって単離し、かつ決定する工程と、
c)工程b)中に取得された各ヌクレオシドのそれぞれの量に基づいて、前記生体試料についてのヌクレオシドプロファイルを規定する工程であって、前記プロファイルが前記腫瘍の特徴である、工程と、を含む、方法。
【請求項2】
前記生体試料が、生検又は液体生体試料であり、前記液体生体試料が、血液、血清、血漿及び尿から選択される、請求項1に記載の方法。
【請求項3】
前記ヌクレオシドが、
前記非修飾ヌクレオシド:アデノシン(A)、シチジン(C)、グアノシン(G)、ウリジン(U)と、
前記修飾ヌクレオシド:2’-O-メチルアデノシン(Am)、1-メチルアデノシン(m1A)、N6,N6-ジメチルアデノシン(m66A)、N6,N6,2’-O-トリメチルアデノシン(m66Am)、N6-メチルアデノシン(m6A)、N6,2’-O-ジメチルアデノシン(m6Am)、N4-アセチルシチジン(ac4C)、2’-O-メチルシチジン(Cm)、5-ヒドロキシメチルシチジン(hm5C)、3-メチルシチジン(m3C)、5-メチルシチジン(m5C)、2’-O-メチルグアノシン(Gm)、1-メチルグアノシン(m1G)、N2,N2,7-トリメチルグアノシン(m227G)、N2,7-ジメチルグアノシン(m27G)、7-メチルグアノシン(m7G)、8-ヒドロキシグアノシン(オキソ8G)、イノシン(I)、シュードウリジン(Psi)、キューオシン(Q)、3,2’-O-ジメチルウリジン(m3Um)、5-メトキシカルボニルメチル-2-チオウリジン(mcm5s2U)、5-メトキシカルボニルメチルウリジン(mcm5U)、5-カルバモイルメチルウリジン(ncm5U)、2’-O-メチルウリジン(Um)と、から選択される、請求項1又は2に記載の方法。
【請求項4】
前記腫瘍が神経膠腫であり、工程c中に規定された前記プロファイルに基づき、事前に訓練された第1の分類モデルで前記神経膠腫のグレードを予測する工程を含むことを特徴とする、請求項1~3のいずれか一項に記載の方法。
【請求項5】
前記第1の分類モデルが、訓練データセットを用いて事前に訓練された
機械学習アルゴリズム、
管理された学習ニューラルネットワーク、又は
確率論的多項分類アルゴリズム、を含むことを特徴とする、
請求項4に記載の方法。
【請求項6】
神経膠腫のグレードを予測することが、グレードIIの神経膠腫を予測すること、グレードIIIの神経膠腫を予測すること、及びグレードIVの神経膠腫を予測することから選択される、請求項4又は5に記載の方法。
【請求項7】
工程c)中に規定された前記プロファイルに基づき、事前に訓練された第2の分類モデルによって前記個体の生存状態を予測する工程を含むことを特徴とする、請求項1~6のいずれか一項に記載の方法。
【請求項8】
前記第2の分類モデルが、訓練データセットを用いて事前に訓練された
機械学習アルゴリズム、
管理された学習ニューラルネットワーク、又は
確率論的分類アルゴリズム、を含むことを特徴とする、
請求項7に記載の方法。
【請求項9】
個体から単離された生体試料に基づいて、前記個体における腫瘍の存在を検出するためのインビトロ方法であって、
a)i)総細胞RNA及びそのヌクレオシド断片化、ii)細胞外RNA及びそのヌクレオシド断片化、並びに/又はiii)前記単量体異化産物由来のヌクレオシドを抽出することで前記生体試料からヌクレオシドを単離する工程と、
b)工程a)由来の、少なくとも3個、好ましくは少なくとも5個、好ましくは少なくとも10個、好ましくは少なくとも20個の異なるヌクレオシドのそれぞれの量をクロマトグラフィーによって単離し、かつ決定する工程と、
c)工程b)中に取得された各ヌクレオシドのそれぞれの量に基づいて、前記生体試料についてのヌクレオシドプロファイルを規定する工程であって、前記プロファイルが前記腫瘍の存在の特徴である、工程と、を含む、方法。
【請求項10】
分類モデルであって、請求項4~8のいずれか一項に記載の方法にて、
工程c)中に規定された前記プロファイルに基づき、
腫瘍のグレード及び/又は
個体の生存状態
を予測するための、訓練データセット上で事前に訓練された分類モデル。
【請求項11】
腫瘍のグレードを予測するための、かつ/又は個体の生存状態を予測するための、請求項9に記載の分類モデルの使用。
【請求項12】
腫瘍を検出するための、請求項1~3のいずれか一項に記載の方法の使用。
【請求項13】
大腸腫瘍を検出するための、請求項12に記載の使用。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、生体試料から単離された修飾又は非修飾ヌクレオシドの定量分析に基づいて腫瘍を特徴付けるためのインビトロ方法に関する。より詳細には、本発明は、神経膠腫のグレードを予測するための方法に関する。別の特定の態様によれば、本発明は、腫瘍の存在を検出するための方法に関する。
【0002】
本発明はしたがって、腫瘍学及び分子生物学の分野の範囲内に存在し、より詳細には医療診断に適用される。
【先行技術】
【0003】
腫瘍を特徴付けることは、患者にとって最適な治療を選択するために不可欠である前提条件である。「腫瘍を特徴付けること」は、所与の腫瘍の発生段階又はそのグレードを特徴付けることを意味しており、特に例えば既知の組織の腫瘍の発生段階を評価すること、腫瘍に所定のグレードを割り当てること、特に腫瘍の特性が原発性か転移性かを判別することなどの任意の他の特徴付けに関与し得る。
【0004】
グリオーマ、すなわち神経膠腫は、中枢神経系の最も一般的な腫瘍であり、年齢による見た目、分類、組織学的特性並びに進行能力及び場合によっては転移能力の大きなばらつきを特徴とする。
【0005】
グリオーマは、それらの形態及び悪性度に従って分類される。広く受け入れられている世界保健機関(World Health Organization、WHO)分類は、グリオーマに対するI~IVの悪性度に帰属しており、グレードIVの腫瘍である神経膠芽腫は、最も悪性度が高く、最も高い死亡率を有する形態である。
【0006】
グリオーマ及び神経膠芽腫のケアにおける主要な制限の1つは、有効な診断戦略が現在欠如していることに関連している。個別化医療の選択は、腫瘍の正確な分類を必要とする。現在、グリオーマを検出するために臨床で使用される主要な診断方法は、神経学的検査及び神経画像技術に依拠しているが、これは疾患が既に進行段階にあるときに実施されるものである。
【0007】
腫瘍診断は、生検又は外科切除由来の患者組織の分析を必要とする。この試料に基づき、候補遺伝子の発現試験、DNAのコピー数の計測、メチル化プロファイル、リンタンパク質経路のプロファイリング及び遺伝子配列決定といったいくつかの分子解析が実施される。しかしながら、生検に基づく診断には、腫瘍グレード及び患者の階層化の決定に関して制限がある。事実、例えばより詳細には神経膠腫に関しては、グリオーマのグレード、より詳細にはグレードIIとグレードIIIを区別するのは困難である。グレードの規定には、多くの場合には2人の専門家によって独立して実施されるものである、難解な解剖病理学分析を必要とする。グレードIIは、良性腫瘍を示すが、グレードIIIは、最も悪性度が高い状態である多形性神経膠芽腫への移行を表している。
【0008】
純粋な組織学的分類を再現するには困難であり、これらは技術的な視覚的知見に基づいており、なおかつ2人の専門家による介入を必要とする。核磁気共鳴画像法(magnetic resonance imaging、MRI)による画像分析と併用した解剖病理学的分析は費用が高く、長時間にわたるものであり、特にMRIにアクセスする待ち時間に応じて変化する。現在、抗がん治療の決定を誘導する上でそのままで十分なバイオマーカは存在しない。
【0009】
したがって、腫瘍を特徴付けるためのインビトロ方法への一般的な必要性が存在している。当該方法は、客観的で正確、再現可能、容易かつ利用可能な場合には疾患の早期段階で実施可能である。当該方法によって、診断を強化し、かつ患者の階層化を促進することが可能となる。
【0010】
Janzerによる刊行物(“Neuropathologie et pathologie moleculaire des gliomes.”[Neuropathology and molecular pathology of gliomas]R-C Janzer,Rev.Med.Suisse,5,1501-4,2009)は、組織学的基準及び免疫組織化学的基準、並びに細胞DNA変性、(神経膠芽腫については)MGMT遺伝子プロモータ過剰メチル化の判定及び(乏突起膠細胞系腫瘍については)染色体1p及び19q欠損の検出を明らかにする遺伝子プロファイルに基づくWHOによるグリオーマの分類を説明している。
【0011】
Relierらによる刊行物(“FTO-mediated cytoplasmic m demethylation adjusts stem-like properties in colorectal cancer cell.”,Nat.Commun 12,1716,2021)は、がん幹細胞株における脂肪量と肥満関連タンパク質(fat mass and obesity-associated protein、FTO)によるmメチル化レベルの細胞質における調節を説明している。著者らは、m修飾及び大腸がん管理のその潜在的な有害結果の生物学的機能を強調している。この文献は、質量分析法(LC-MS/MS)によるフラグメント化されたmRNAの分析工程に言及している。mA、A、m及びAヌクレオシドのみが検出され、定量化される。
【0012】
国際公開第2007/008647号“Diagnosing and grading gliomas using a proteomics approach”は、プロテオミクスアプローチを使用してグリオーマを診断及び段階分けする方法に関する。この方法では、腫瘍組織は、質量分析法によって分析され、表されるタンパク質のプロファイルが取得される。
【0013】
したがって、神経膠腫の悪性度の評価、特にその分類のためのインビトロ方法が特に必要とされている。特に、診断を強化し、かつ患者の階層化を促進するために、神経膠腫のグレードIIとグレードIIIとの区別を可能にする客観的方法が特に必要とされている。
【0014】
さらには、腫瘍の存在を最も早期の段階から検出するための方法が特に必要とされている。実際、大部分のがんの早期治療は、患者の生存時間を大幅に増加させ、又はその回復を可能にする。したがって、腫瘍の存在の早期特徴付けを可能にする客観的方法が必要とされている。
【発明の開示】
【0015】
本発明者らは、エピトランスクリプトームの定量データを利用する腫瘍を特徴付けるための方法を開発した。
エピトランスクリプトームは、「RNAエピジェネティクス」といった用語でも知られているセットであるリボ核酸(RNA)塩基によって担われる化学修飾のすべてを包含する。本発明による方法は、腫瘍に罹患している対象から生体試料を提供することと、当該試料由来の修飾及び非修飾ヌクレオシドの量を取得することと、を含み、当該量は、(数学的な意味の)ベクトルでともにグループ化される。特定の態様によれば、本発明による方法は、腫瘍の特徴付けのために当該ベクトルのその後のコンピュータ分析を含む。腫瘍の当該特徴付けによって、分析対象の試料に基づいて腫瘍に関する臨床情報及び医学情報の項目を予測することが可能になる。より詳細には、本発明による方法は、当該腫瘍のグレードを予測するための当該ベクトルのコンピュータ分析を含む。
【0016】
簡略化のため、所与の試料について、修飾又は非修飾ヌクレオシドのそれぞれの量をともにグループ化するベクトルは、「エピトランスクリプトームプロファイル」又は非常に単純に「プロファイル」と呼ばれる。
【0017】
修飾及び非修飾ヌクレオシドは、i)患者からの生体試料の細胞から抽出された総RNA、ii)患者からの生体試料由来の細胞外RNA、及び/又はiii)患者から単離された生体試料からの代謝産物の抽出物に由来する。
【0018】
患者からの生体試料の細胞から抽出された総RNA及び/又は患者からの生体試料由来の細胞外RNA由来のヌクレオシドは、ヌクレオチドへのRNAの断片化、次いでそれらの脱リン酸化によって取得される。患者から単離された生体試料からの代謝産物の抽出物由来のヌクレオシドは、当業者に周知の好適な方法に従って、生体試料からの代謝産物の抽出、次いで当該代謝産物の脱リン酸化によって取得される。当該代謝産物は、特にRNAの異化由来のものであり、単量体形態で存在するヌクレオシドはまた、「遊離」ヌクレオシドとして知られる表現によって示すことができる。
より詳細には、修飾及び非修飾ヌクレオシドは、当該腫瘍の生検の細胞から抽出された総RNAに存在するヌクレオシドである。
【0019】
「ヌクレオシド」は、ピリミジンのN1窒素又はプリンのN9からのグリコシド結合によってペントース残基のアノマー炭素に結合したヌクレオチド塩基によって構成されるグリコシルアミンを意味する。本発明による方法の特定の態様によれば、当該ペントースがリボースであるとき、「ヌクレオシド」といった用語は、この場合、リボヌクレオシドを示す。
【0020】
さらに、修飾RNAヌクレオシドは、「エピトランスクリプトームマーク」又は「エピトランスクリプトーム修飾」といった用語によって示される。腫瘍の特徴付けのために使用され得る通常のRNAヌクレオシド(表1)とは別に、本発明による方法、特にグリオーマの分析で使用され得る修飾ヌクレオシドが列挙される(表2)。
【0021】
【表1】
【0022】
【表2】
【0023】
本発明による方法の実施形態によれば、エピトランスクリプトームプロファイルは、用途の要件に応じて、既知のヌクレオシドの中から決定される大量の修飾ヌクレオシドを含むことができる(Jonkhout et al,“The RNA modification landscape in human disease”,RNA,Dec;23(12):1754-1769,2017)。分析の要件に応じて、トランスクリプトームプロファイルに含まれ得るすべての修飾ヌクレオシドの完全なリストは、公的にアクセス可能である。
【0024】
試料のエピトランスクリプトームプロファイルは、当該試料を特徴付ける。当該エピトランスクリプトームプロファイルは、最新技術の任意の既知の技術によって、特に質量分析法、特にクロマトグラフィーと組み合わせた質量分析法によって取得されることができる。
予測される医学情報の項目を示すため、「臨床的変数」又は「臨床的特徴」といった用語もまた使用される。
【0025】
本発明による方法では、臨床予測目的のためのエピトランスクリプトームプロファイルの分析のステップは、管理された機械学習法に基づいている。学習は、コホート、すなわち予測される特徴的な臨床的変数が事前に知られている細胞試料に由来するプロファイル上で実施される。したがって、任意の新しい試料について臨床的変数を予測するために、学習によって生成された「計算モデル」が(予測モードで)使用され得る。
本発明者らはまた、同等の相対量を含有するエピトランスクリプトームプロファイルを取得可能にする生の定量データの正規化方法を開発した。
【0026】
学習プロセス前に、コホートの試料のプロファイルの試験的分析は、プロファイルにおける変動を明らかにした。当該変動は、試料を抽出した対象の腫瘍グレードと相関していた。特徴的なコホートのプロファイルに基づいて、かつ機械学習予測ツールを用いることで、本発明による方法によって、腫瘍に罹患している患者からの生体試料に基づいて、特に腫瘍細胞を含む試料に基づいて、グリオーマのグレードを予測することが可能になる。より詳細には、本発明による方法によって、腫瘍細胞を含む試料に基づいてグリオーマのグレードIIとグレードIIIとを区別することが可能になる。
【0027】
最後に、正規化されたエピトランスクリプトームプロファイルと患者の生存時間データとを組み合わせることで、かつ機械学習予測ツールを用いることで、本発明による方法によって、患者から単離された生体試料、特に腫瘍試料に基づいて、当該患者の生存時間を予測することが可能となる。
【0028】
本発明者らは、個体から単離された生体試料に基づいて、この個体における腫瘍の存在を検出するための方法であって、
a)i)総細胞RNA及びそのヌクレオシド断片化、ii)細胞外RNA及びそのヌクレオシド断片化、並びに/又はiii)単量体異化産物由来のヌクレオシドを抽出することで当該生体試料からヌクレオシドを単離する工程と、
b)工程a)中に取得された少なくとも3個、好ましくは少なくとも5個、好ましくは少なくとも10個、好ましくは少なくとも20個の異なるヌクレオシドのそれぞれの量を単離し、かつ決定する工程と、
c)工程b)中に取得された各ヌクレオシドのそれぞれの量に基づいて、当該生体試料についてのヌクレオシドプロファイルを規定する工程であって、当該プロファイルが当該腫瘍の存在の特徴である、工程と、を含む。
【0029】
個体における腫瘍の存在を検出するための方法の技術的工程は、腫瘍を特徴付けるための方法の技術的工程と同じ特性に一致する。
したがって、本発明者らは、一方では腫瘍を特徴付けるための、及び他方では腫瘍の存在を検出するための、エピトランスクリプトームの定量データを利用する方法を開発した。一実施形態によれば、本発明による方法はそのため、有利には、腫瘍を特徴付けるために使用される。別の実施形態によれば、本発明による方法は、有利には、腫瘍の存在を検出するために使用される。
【発明の詳細な説明】
【0030】
第1の態様によれば、本発明は、個体から単離された生体試料に基づいて、この個体の腫瘍を特徴付けるためのインビトロ方法に関し、
a)i)総細胞RNA及びそのヌクレオシド断片化、ii)細胞外RNA及びそのヌクレオシド断片化、並びに/又はiii)単量体異化産物由来のヌクレオシドを抽出することで当該生体試料からヌクレオシドを単離する工程と、
b)工程a)中に取得された少なくとも3個、好ましくは少なくとも5個、好ましくは少なくとも10個、好ましくは少なくとも20個の異なるヌクレオシドのそれぞれの量を単離し、かつ決定する工程と、
c)工程b)中に取得された各ヌクレオシドのそれぞれの量に基づいて、当該生体試料についてのヌクレオシドプロファイルを規定する工程であって、当該プロファイルが当該腫瘍の特徴である、工程と、を含む。
【0031】
第1の実施形態によれば、本発明による方法は、生体試料の総細胞RNA由来の、並びに/又は細胞外RNA及びそのヌクレオシド断片化由来の、並びに/又は当該試料に存在する単量体異化産物から取得されたヌクレオシド由来の、異なるヌクレオシドの量の同時分析に基づいており、したがって、本発明による方法は複数の変数の同時分析を含み、単独マーカの定量的検出に基づくものではない。
【0032】
「プロファイル」又は「ヌクレオシドプロファイル」は、ヌクレオシドの量のベクトルを意味する。
「総細胞RNA」は、周知のアクセス可能な方法に従って抽出された細胞RNAの総計を意味する。総細胞RNAは、転移RNA(tRNA)、メッセンジャーRNA(mRNA)、リボソームRNA(rRNA)及び他のノンコーディングRNAを含む。そのため、当該総細胞RNAは、ここでは高分子形態で存在する。
【0033】
「細胞外RNA」は、周知のアクセス可能な方法に従って抽出された、高分子形態で存在する細胞外RNAの総計を意味する。細胞外RNAの高分子形態はまた、特に「循環RNA」といった表現によって示される。当該細胞外RNAは、輸送RNA(tRNA)、メッセンジャーRNA(mRNA)及び/又はリボソームRNA(rRNA)並びに他のタイプのRNA、特にノンコーディングRNAのインビボ酵素分解由来である。
【0034】
「単量体異化産物由来のヌクレオシド」は、周知のアクセス可能な方法に従って、試料の単量体形態に存在する異化産物から取得されたヌクレオシドを意味する。これらの単量体異化産物は、輸送RNA(tRNA)、メッセンジャーRNA(mRNA)及び/又はリボソームRNA(rRNA)並びに他のタイプのRNA、特にノンコーディングRNAのインビボ酵素分解由来である。
【0035】
「少なくとも3個の異なるヌクレオシドのそれぞれの量を単離し、かつ決定すること」は、個々に採取された「少なくとも3個の」ヌクレオシドのそれぞれの量を単離し、かつ決定することを意味する。
【0036】
この第1の実施形態によれば、本発明はしたがって、個体から単離された生体試料に基づいて、この個体の腫瘍を特徴付けるためのインビトロ方法に関し、
a)総細胞RNA及びそのヌクレオシド断片化を抽出することで当該生体試料からヌクレオシドを単離する工程と、
b)工程a)中に取得された少なくとも3個、好ましくは少なくとも5個、好ましくは少なくとも10個、好ましくは少なくとも20個の異なるヌクレオシドのそれぞれの量を単離し、かつ決定する工程と、
c)工程b)中に取得された各ヌクレオシドのそれぞれの量に基づいて、当該生体試料についてのヌクレオシドプロファイルを規定する工程であって、当該プロファイルが当該腫瘍の特徴である、工程と、を含む。
【0037】
ヌクレオシドは、細胞外高分子形態で生体試料に存在するものであり得、特に「循環RNA」といった表現でも示される。ヌクレオシドはまた、生体試料中に単量体形態(代謝産物)で存在し得る。当該細胞外RNA及び単量体ヌクレオシドは、輸送RNA(tRNA)、メッセンジャーRNA(mRNA)及び/又はリボソームRNA(rRNA)並びに他のタイプのRNA、特にノンコーディングRNAのインビボ酵素分解由来である。
【0038】
第2の実施形態によれば、本発明による方法は、生体試料の細胞外RNA由来の異なるヌクレオシドの量の同時分析に基づいている。
この第2の実施形態によれば、本発明は、個体から単離された生体試料に基づいて、この個体の腫瘍を特徴付けるためのインビトロ方法に関し、
a)細胞外RNA及びそのヌクレオシド断片化を抽出することで当該生体試料からヌクレオシドを単離する工程と、
b)工程a)中に取得された少なくとも3個、好ましくは少なくとも5個、好ましくは少なくとも10個、好ましくは少なくとも20個の異なるヌクレオシドのそれぞれの量を単離し、かつ決定する工程と、
c)工程b)中に取得された各ヌクレオシドのそれぞれの量に基づいて、当該生体試料についてのヌクレオシドプロファイルを規定する工程であって、当該プロファイルが当該腫瘍の特徴である、工程と、を含む。
【0039】
第3の実施形態によれば、本発明による方法は、生体試料の単量体異化産物由来の異なるヌクレオシドの量の同時分析に基づいている。
この第3の実施形態によれば、本発明は、個体から単離された生体試料に基づいて、この個体の腫瘍を特徴付けるためのインビトロ方法に関し、
a)当該試料に存在する単量体異化産物を抽出することで当該生体試料からヌクレオシドを単離する工程と、
b)工程a)中に取得された少なくとも3個、好ましくは少なくとも5個、好ましくは少なくとも10個、好ましくは少なくとも20個の異なるヌクレオシドのそれぞれの量を単離し、かつ決定する工程と、
c)工程b)中に取得された各ヌクレオシドのそれぞれの量に基づいて、当該生体試料についてのヌクレオシドプロファイルを規定する工程であって、当該プロファイルが当該腫瘍の特徴である、工程と、を含む。
【0040】
個体の腫瘍を特徴付けるためのインビトロ方法では、当該個体から単離された生体試料に基づき、当該生体試料は、
固体の生体試料、特に生検、より詳細には当該腫瘍の生検、及び
液体生体試料、特に当該個体から採取された体液、より詳細には血液、血漿、血清又は尿試料、から選択される。
【0041】
「生検」は、組織又は臓器のごく一部をサンプリングすることを意味する。生体試料が生検であるときには、総細胞RNAが抽出、その後にフラグメント化される、本発明による方法の第1の実施形態が好ましい。
【0042】
生体試料が液体生体試料であるときには、細胞外RNAが抽出、その後にフラグメント化される、又は単離されたヌクレオシドの形態であるRNAが抽出される、本発明による方法の第2の実施形態及び第3の実施形態がそれぞれ好ましい。
【0043】
本発明による方法では、当該生体試料は、十分な量であるか、十分な数の細胞を含み、当該試料からの総細胞RNAの抽出物の断片化由来の、少なくとも3個のヌクレオシドの信頼度の高い定量が可能になる。
【0044】
生検の場合には、総細胞RNAは、当業者がアクセス可能である方法から選択された方法、特に本実施例に説明されるような方法に従って抽出される。血液又は尿などの液体試料の場合には、当該試料は、必要な場合には、特に任意の干渉化合物を除去するために事前に処理され、当該試料を濃縮かつ/又は尿中のクレアチンなどの参照要素の標準的な濃縮値を決定する。この標準値は、ヌクレオシドプロファイルが規定される試料に基づいてその濃度を標準化するのに役立つ。
【0045】
本発明による方法では、総細胞RNA、細胞外RNA及び単離されたヌクレオシドは、当業者に知られている任意の方法によって生体試料から取得され、当該方法は、特に抽出工程、任意では断片化工程及び脱リン酸化工程を含む。
【0046】
特定の態様によれば、本発明はしたがって、当該腫瘍の生検に基づいて個体の腫瘍を特徴付けるためのインビトロ方法に関し、当該方法が、当該生検、総細胞RNAの抽出物及び当該RNAのヌクレオシド断片化に基づいて調製することを含む。
【0047】
一実施形態によれば、本発明による個体の腫瘍を特徴付けるためのインビトロ方法では、i)総細胞RNA及びそのヌクレオシド断片化の抽出物を調製することによって、ii)細胞外RNA及びそのヌクレオシド断片化の抽出物を調製することによって、並びに/又はiii)単離されたヌクレオシドを抽出することによって取得された、生体試料由来の少なくとも3個の単離されたヌクレオシドは単離され、それらのそれぞれの量が決定され、当該少なくとも3個のヌクレオシドは、
非修飾ヌクレオシド:アデノシン(A)、シチジン(C)、グアノシン(G)、ウリジン(U)及び
修飾ヌクレオシド(表2を参照)から選択される。
【0048】
修飾ヌクレオシドは、多数の高特異的酵素の作用から生じ、ヌクレオシドは、特にメチル化及び炭素-窒素結合の転位を受ける。当該修飾ヌクレオシドは、本願の日付で既知であるすべての修飾ヌクレオシドであり、これらのヌクレオシドは、特にJonkhout et al(“The RNA modification landscape in human disease”,RNA,Dec;23(12):1754-1769,2017)及び本願の表2に言及されている。
【0049】
本発明が関連する方法の異なる実施形態によれば、当該少なくとも3個のヌクレオシドは、
非修飾ヌクレオシド:アデノシン(A)、シチジン(C)、グアノシン(G)、ウリジン(U)、
2’-Oーメチルアデノシン(Am)、1-メチルアデノシン(m1A)、N6,N6-ジメチルアデノシン(m66A)、N6,N6,2’-O-トリメチルアデノシン(m66Am)、N6-メチルアデノシン(m6A)、N6,2’-O-ジメチルアデノシン(m6Am)、N4-アセチルシチジン(ac4C)、2’-O-メチルシチジン(Cm)、5-ヒドロキシメチルシチジン(hm5C)、3-メチルシチジン(m3C)、5-メチルシチジン(m5C)、2’-O-メチルグアノシン(Gm)、1-メチルグアノシン(m1G)、N2,N2,7-トリメチルグアノシン(m227G)、N2,7-ジメチルグアノシン(m27G)、7-メチルグアノシン(m7G)、8-ヒドロキシグアノシン(オキソ8G)、イノシン(I)、シュードウリジン(Psi)、キューオシン(Q)、3,2’-O-ジメチルウリジン(m3Um)、5-メトキシカルボニルメチル-2-チオウリジン(mcm5s2U)、5-メトキシカルボニルメチルウリジン(mcm5U)、5-カルバモイルメチルウリジン(ncm5U)、2’-O-メチルウリジン(Um)及び/又は
3-(3-アミノ-3-カルボキシプロピル)ウリジン(acp3U)、2’-O-リボシルアデノシン(ホスファット)(Ar(p))、5-カルボキシメチルアミノメチル-2-チオウリジン(cmnm5s2U)、5-カルボキシメチルアミノメチルウリジン(cmnm5U)、5-カルボキシメチルアミノメチル-2’-O-メチルウリジン(cmnm5Um)、ジヒドロウリジン(D)、5-ホルミルシチジン(f5C)、ガラクトシル-キューオシン(galQ)、2’-O-メチル-5-ヒドロキシメチルシチジン(hm5Cm)、5-ヒドロキシウリジン(ho5U)、5-ヒドロキシアデノシン(ho8A)、8-ヒドロキシグアノシン(ho8G)、N6-イソペンテニルアデノシン(i6A)、N6-(シス-ヒドロキシイソペンテニル)アデノシン(io6A)、1-メチルイノシン(m1I)、1-メチルシュードウリジン(m1psi)、N2,N2-ジメチルグアノシン(m22G)、2-メチルアデノシン(m2A)、N2-メチルグアノシン(m2G)、5-メチルウリジン(m5U)、5,2’-O-ジメチルウリジン(m5Um)、N6-メチル-N6-スレオニルカルバモイルアデノシン(m6t6A)、マンノシル-キューオシン(manQ)、5-(カルボキシヒドロキシメチル)ウリジンメチルエステル(mchm5U)、5-メチルアミノメチル-2-チオウリジン(mnm5s2U)、2-メチルチオ-N6-イソペンテニルアデノシン(ms2i6A)、2-メチルチオ-N6-スレオニルカルバモイルアデノシン(ms2t6A)、ペルオキシウィブトシン(o2yW)、2’-O-メチルシュードウリジン(psi m)、2-チオウリジン(s2U)、N6-スレオニルカルバモイルアデノシン(t6A)、ウィブトシン(yW)によって構成された群から選択される。
【0050】
本発明が関連する方法の一実施形態によれば、当該少なくとも3個のヌクレオシドは、
非修飾ヌクレオシド:アデノシン(A)、シチジン(C)、グアノシン(G)、ウリジン(U)と、
2’-Oーメチルアデノシン(Am)、1-メチルアデノシン(m1A)、N6,N6-ジメチルアデノシン(m66A)、N6,N6,2’-O-トリメチルアデノシン(m66Am)、N6-メチルアデノシン(m6A)、N6,2’-O-ジメチルアデノシン(m6Am)、N4-アセチルシチジン(ac4C)、2’-O-メチルシチジン(Cm)、5-ヒドロキシメチルシチジン(hm5C)、3-メチルシチジン(m3C)、5-メチルシチジン(m5C)、2’-O-メチルグアノシン(Gm)、1-メチルグアノシン(m1G)、N2,N2,7-トリメチルグアノシン(m227G)、N2,7-ジメチルグアノシン(m27G)、7-メチルグアノシン(m7G)、8-ヒドロキシグアノシン(オキソ8G)、イノシン(I)、シュードウリジン(Psi)、キューオシン(Q)、3,2’-O-ジメチルウリジン(m3Um)、5-メトキシカルボニルメチル-2-チオウリジン(mcm5s2U)、5-メトキシカルボニルメチルウリジン(mcm5U)、5-カルバモイルメチルウリジン(ncm5U)、2’-O-メチルウリジン(Um)と、によって構成された群から選択される。
【0051】
より特定の実施形態によれば、本発明に関連する方法は、当該生体試料からの総RNAの断片化由来の少なくとも3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、23個、24個、25個、26個、27個、28個又は29個の異なるヌクレオシドの単離及び定量を含む。
【0052】
より特定の別の実施形態によれば、本発明に関連する方法は、当該生体試料からの細胞外RNAの断片化由来の少なくとも3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、23個、24個、25個、26個、27個、28個又は29個の異なるヌクレオシドの単離及び定量を含む。
【0053】
より特定の別の実施形態によれば、本発明に関連する方法は、当該生体試料からのヌクレオシドの抽出由来の少なくとも3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、23個、24個、25個、26個、27個、28個又は29個の異なるヌクレオシドの単離及び定量を含む。
【0054】
より特定の実施形態によれば、本発明が関連する方法は、当該生体試料からの総RNAの断片化及び/又は細胞外RNAの断片化及び/又は単離されたヌクレオシドの抽出由来の少なくとも3個の異なるヌクレオシドの単離及び定量を含み、当該ヌクレオシドは、アデノシン(A)、シチジン(C)、グアノシン(G)、ウリジン(U)、-2’-Oーメチルアデノシン(Am)、1-メチルアデノシン(m1A)、N6,N6-ジメチルアデノシン(m66A)、N6,N6,2’-O-トリメチルアデノシン(m66Am)、N6-メチルアデノシン(m6A)、N6,2’-O-ジメチルアデノシン(m6Am)、N4-アセチルシチジン(ac4C)、2’-O-メチルシチジン(Cm)、5-ヒドロキシメチルシチジン(hm5C)、3-メチルシチジン(m3C)、5-メチルシチジン(m5C)、2’-O-メチルグアノシン(Gm)、1-メチルグアノシン(m1G)、N2,N2,7-トリメチルグアノシン(m227G)、N2,7-ジメチルグアノシン(m27G)、7-メチルグアノシン(m7G)、8-ヒドロキシグアノシン(オキソ8G)、イノシン(I)、シュードウリジン(Psi)、キューオシン(Q)、3,2’-O-ジメチルウリジン(m3Um)、5-メトキシカルボニルメチル-2-チオウリジン(mcm5s2U)、5-メトキシカルボニルメチルウリジン(mcm5U)、5-カルバモイルメチルウリジン(ncm5U)、2’-O-メチルウリジン(Um)から選択される。
【0055】
本発明による方法では、少なくとも3個のヌクレオシドのそれぞれの量の単離及び判定は、当業者に既知の任意の分析手段によって実行される。これらの手段は、特にクロマトグラフィー、特に逆相高速液体クロマトグラフィー(RP-HPLC)又はキャピラリー電気泳動(CE)を含む。
【0056】
これらの手段はまた、分光測定手段、特に質量分析法を含む。より詳細には、これらの手段は、液相クロマトグラフィーの分解能と、トリプル四重極質量分析計の高感度かつ選択的質量分析能力とを組み合わせた分析技術である液相クロマトグラフィーと連結されたタンデム質量分析(LC-MS/MS)を含む。この技術の長所は、目的のそれぞれの化合物の固有の質量/電荷(m/z)遷移の関数としての、高い感度及び選択性で化合物を定量する質量分析法の能力と組み合わせた幅広い化合物向けの液相クロマトグラフィーの分解能にある。
【0057】
特定の態様によれば、本発明による方法では、断片化によって取得されたヌクレオシドの混合物は、多重反応モニタリング(multiple reaction monitoring、MRM)モードにてトリプル四重極型のタンデム質量分析(LC-MS/MS)と連結された高速液体クロマトグラフィーを使用して分析される。MRMモードは、質量分析法によって分子を定量することを可能にする高感度かつ特異的な技術である。この走査モードは、タンデム、より詳細にはトリプル四重極質量分析計又はハイブリッドイオントラップ質量分析システムに依拠している。MRM走査モードは、分子の特異的な質量及び電荷数のイオン、プリカーサーイオン又は親イオンと呼ばれるイオン、並びに衝突セルでの断片化後の対応するフラグメントイオンの選択に基づいている。第1の四重極は、第2の四重極でフラグメント化される目的の分子の特異的なプリカーサーイオンを正確に選択することが可能になる。得られたフラグメントイオンは、第3の四重極で選択される。次に、2つのイオン(質量/電荷)は目的の分子の高い特異的な遷移に対応する。
【0058】
このより特定の実施形態によれば、本発明は、個体から単離された生検に基づいて、この個体の腫瘍を特徴付けるためのインビトロ方法に関し、
a)当該生体試料に基づいて、総細胞RNA及び高分子RNAのヌクレオシド断片化の抽出物を調製する工程と、
b)工程a)由来の少なくとも3個、好ましくは少なくとも5個、好ましくは少なくとも10個、好ましくは少なくとも20個の異なるヌクレオシドのそれぞれの量を単離し、かつ決定する工程と、
c)工程b)中に取得された各ヌクレオシドのそれぞれの量に基づいて、当該生体試料についてのヌクレオシドプロファイルを規定する工程であって、当該プロファイルが当該腫瘍の特徴である、工程と、を含む。
【0059】
さらにより特定の実施形態によれば、本発明は、個体の腫瘍を特徴付けるためのインビトロ方法に関し、当該腫瘍は、直腸、結腸、乳房、膵臓、腎臓、肺といった臓器のうちの1つに位置する腫瘍、又は血液腫瘍、特に白血病である。
【0060】
このより特定の実施形態によれば、本発明は、個体から単離された生体試料に基づいて、この個体の神経膠腫を特徴付けるためのインビトロ方法に関し、
a)当該生体試料に基づいて、総細胞RNA及び当該RNAのヌクレオシド断片化の抽出物を調製する工程と、
b)工程a)由来の少なくとも3個、好ましくは少なくとも5個、好ましくは少なくとも10個、好ましくは少なくとも20個の異なるヌクレオシドのそれぞれの量を単離し、かつ決定する工程と、
c)工程b)中に取得された各ヌクレオシドのそれぞれの量に基づいて、当該生体試料についてのヌクレオシドプロファイルを規定する工程であって、当該プロファイルが当該腫瘍の特徴である、工程と、
d)工程c)中に規定されたプロファイルに基づき、事前に訓練された第1の分類モデルによって当該神経膠腫のグレードを予測する工程と、を含む。
【0061】
「神経膠腫」又は「グリオーマ」といった用語は、脳の正常なグリア細胞から発生する様々な脳腫瘍をともにグループ化したものである。神経膠腫のグレードは、かかる腫瘍を有する個体の生存時間にとって最も重要な決定要因を表す。非腫瘍脳組織は、内皮増殖なく、正常な特徴といくつかの有糸分裂特徴を有する多数の細胞を特徴とする。「星状芽細胞腫」とも呼ばれるグレードII腫瘍は、有糸分裂中に多形核を含む多数の細胞を含む。グレードIII腫瘍は、「未分化星状芽細胞腫」とも呼ばれる。グレードIV腫瘍は、多形性神経膠芽腫に相当する。
【0062】
「分類モデル」は、事前に、特に管理された学習中に訓練された機械学習アルゴリズム、並びに上述のアルゴリズムを訓練することを可能にする訓練データセット及び評価データセットを意味する。
【0063】
実施形態によれば、当該第1の分類モデルは、訓練データセットを用いて事前に訓練された
機械学習アルゴリズム、
より詳細には管理された学習ニューラルネットワーク、又は
確率論的多項分類アルゴリズム、
を含むことができる。
【0064】
訓練データは、一方では原因となる質問に固有であるが、他方では標的とされるがんのタイプに固有である。したがって、学習アルゴリズムの訓練段階は、それ自体が原因となる質問に固有であり、標的とされるがんのタイプに固有である分類モデルを生成するために訓練データを使用する。学習フェーズは、これらのデータ及び質問の関数としてモデルのパラメータを推論する。例えば、グレードを決定する質問について、分類モデルは、4つのグレードが区別される場合には可能な4つの応答の中から応答を戻して送る。反対に、腫瘍の存在を検出するという質問については、分類モデルは、「腫瘍」又は「健常」、すなわち2つの可能な応答からの選択で応答する。
【0065】
学習フェーズによって生成された分類モデルは、試料由来のエピトランスクリプトームプロファイルのデータ項目に基づき、考慮される質問に関する予測を取得するためにコンピュータ上で実行されたプログラムである。このプログラムはダウンロード及びインストールすることができ、そのため生成されたシステム以外のシステム上でのインストールが可能である。
【0066】
訓練データセットは、多数のデータ対を含むことができ、データ対のそれぞれは、ヌクレオシドプロファイルを表す第1のデータ項目及びこのプロファイルについて腫瘍グレードを表す第2のデータ項目を含む。
【0067】
訓練データセットは、モデルの「評価セット[CF1]」によっても示されている訓練セット及びテストセットを含むことができる。モデルはそのため、訓練セット上で試験されることができ、モデルの学習が満足のいくものかどうかを決定するためにテストセットを使用することができる。
訓練セット及びテストセットは異なるものであり得る。代替的には、テストセットは、訓練セットの一部に相当することができる。
【0068】
訓練データセットは、がんに罹患している個体から取得され、その腫瘍グレードが事前に決定された試料を分析することで実験室で取得されたデータに基づいて事前に形成することができる。
【0069】
分類モデルは、分類が例えば85%の精度に到達する場合には、テストセットのプロファイルのすべてに関して満足のいく学習レベルに到達すると考えられる。言い換えれば、分類モデルは、分類が例えば最大で15%の誤差に到達する場合は、テストセットのプロファイルのすべてに関して満足のいく学習レベルに到達すると考えられる。
【0070】
分類モデルは、コンピュータプログラムからなり得る。本発明の好ましい実施形態によれば、本発明による方法で実装される分類モデルは、分類方法のステップからなる技術的な機能を潜在的に実行するコンピュータプログラムからなる。コンピュータによる当該プログラムの実行は、技術的な対象物であるデジタル対象物を生成する。
当該コンピュータプログラムは、例えばC、C++、Java、Pythonなど、任意のコンピュータ言語で書くことができる。
【0071】
実施形態によれば、分類モデルは、サポートベクターマシン、ランダムフォレスト、線形判別分析(linear discriminant analysis、LDA)を含むことができる。
【0072】
より詳細には、当該学習アルゴリズムは特に、
線形カーネル又は低コストパラメータ値を有する放射基底関数(radial basis function、RBF)カーネルのいずれかを備えたサポートベクターマシン、
Ledoit-Wolf手順による次元縮小パラメータの自動決定とともに最小二乗解を使用するLDAアルゴリズム、から選択される。
【0073】
機械学習アルゴリズムのこれら3つのファミリーは、文献(Cornuejols and Miclet,“Apprentissage Artificiel:Concepts et Algorithmes”[Machine learning:concepts and algorithms]Eyrolles,2012;Hastie et al.“The Elements of Statistical Learning:Data Mining,Inference,and Prediction”,2nd Edition.Springer Series in Statistics,Springer 2009,ISBN 9780387848570)にて概念的に説明されており、これらは多項分類にとって完全に好適である。
【0074】
本発明による方法の実施形態によれば、神経膠腫のグレードを予測することは、
グレードIIの神経膠腫を予測すること、
グレードIIIの神経膠腫を予測すること、又は
グレードIVの神経膠腫を予測すること、を含むことができる。
【0075】
より詳細には、本発明は、個体からの生体試料、特に神経膠腫の生検に基づき、当該個体の当該神経膠腫のグレードを予測するためのインビトロ方法に関し、事前に訓練された分類モデルによって当該神経膠腫のグレードを予測することは、グレードIIの神経膠腫を予測すること、グレードIIIの神経膠腫を予測すること及びグレードIVの神経膠腫を予測することを含む。より詳細には、個体の神経膠腫のグレードを予測するための本発明による方法は、グレードIIの神経膠腫とグレードIII又はIVの神経膠腫とを区別すること、グレードIIIの神経膠腫とグレードII又はIVの神経膠腫とを区別すること、グレードIVの神経膠腫とグレードII又はIIIの神経膠腫とを区別すること、を含む。
【0076】
さらにより詳細には、本発明は、神経膠腫の生検に基づき、個体の当該腫瘍を特徴付けるためのインビトロ方法に関し、
a)当該生検、総細胞RNA及び当該RNAのヌクレオシド断片化の抽出物を調製することと、
b)アデノシン(A)、シチジン(C)、グアノシン(G)、ウリジン(U)、-2’-Oーメチルアデノシン(Am)、1-メチルアデノシン(m1A)、N6,N6-ジメチルアデノシン(m66A)、N6,N6,2’-O-トリメチルアデノシン(m66Am)、N6-メチルアデノシン(m6A)、N6,2’-O-ジメチルアデノシン(m6Am)、N4-アセチルシチジン(ac4C)、2’-O-メチルシチジン(Cm)、5-ヒドロキシメチルシチジン(hm5C)、3-メチルシチジン(m3C)、5-メチルシチジン(m5C)、2’-O-メチルグアノシン(Gm)、1-メチルグアノシン(m1G)、N2,N2,7-トリメチルグアノシン(m227G)、N2,7-ジメチルグアノシン(m27G)、7-メチルグアノシン(m7G)、8-ヒドロキシグアノシン(オキソ8G)、イノシン(I)、シュードウリジン(Psi)、キューオシン(Q)、3,2’-O-ジメチルウリジン(m3Um)、5-メトキシカルボニルメチル-2-チオウリジン(mcm5s2U)、5-メトキシカルボニルメチルウリジン(mcm5U)、5-カルバモイルメチルウリジン(ncm5U)、2’-O-メチルウリジン(Um)から選択される、当該断片化由来の少なくとも3個のヌクレオシドを単離して量的に決定することと、
c)当該腫瘍について、工程b)中に取得されたヌクレオシドのそれぞれの定量値に基づきプロファイルを規定することであって、当該プロファイルが当該腫瘍の特徴である、ことと、
d)工程c)中に規定されたプロファイルに基づき、事前に訓練された分類モデルによって当該神経膠腫のグレードを予測することであって、神経膠腫のグレードを予測することが、グレードIIの神経膠腫を予測すること、グレードIIIの神経膠腫を予測すること及びグレードIVの神経膠腫を予測すること、から選択されることと、を含む。
【0077】
別の態様によれば、本発明は、この個体の神経膠腫を特徴付けるためのインビトロ方法に関し、当該方法は、
a)当該生体試料に基づいて、総細胞RNA及び当該RNAのヌクレオシド断片化の抽出物を調製する工程と、
b)工程a)由来の少なくとも3個、好ましくは少なくとも5個、好ましくは少なくとも10個、好ましくは少なくとも20個の異なるヌクレオシドのそれぞれの量を単離し、かつ決定する工程と、
c)工程b)中に取得された各ヌクレオシドのそれぞれの量に基づいて、当該生体試料についてのヌクレオシドプロファイルを規定する工程であって、当該プロファイルが当該腫瘍の特徴である、工程と、
d)工程c)中に規定されたプロファイルに基づき、事前に訓練された第2の分類モデルによって個体の生存状態を予測する工程と、を含む。
【0078】
実施形態によれば、当該第2の分類モデルは、第2の訓練データセットを用いて事前に訓練された
機械学習アルゴリズム、
より詳細には管理された学習ニューラルネットワーク、又は
確率論的分類アルゴリズム、
を含むことができる。
【0079】
当該第2の訓練データセットは、多数のデータ対を含むことができ、データ対のそれぞれは、ヌクレオシドプロファイルを表す第1のデータ項目及びこのプロファイルについて生存状態を表す第2のデータ項目を含む。
【0080】
この訓練データセットは、訓練セット及びモデルの評価セットを含むことができる。モデルはそのため、訓練セット上で試験されることができ、モデルの学習が満足のいくものかどうかを決定するために評価セットを使用することができる。訓練セット及び評価セットは異なるものであり得る。代替的には、評価セットは、訓練セットの一部に相当することができる。訓練データセットは、がんに罹患している個体から取得され、その生存状態が事前に決定された試料を分析することで実験室で取得されたデータに基づいて事前に形成することができる。
【0081】
分類モデルは、分類が85%の精度に到達する場合には、評価セットのプロファイルのすべてに関して満足のいく学習レベルに到達すると考えられる。言い換えれば、分類モデルは、分類が最大で15%の誤差に到達する場合は、評価セットのプロファイルのすべてに関して満足のいく学習レベルに到達すると考えられる。
【0082】
第1の分類モデルに関しては、第2の分類モデルは、コンピュータプログラムからなり得る。コンピュータプログラムは、例えばC、C++、Java、Pythonなど、任意のコンピュータ言語で書くことができる。
【0083】
実施形態によれば、第2の分類モデルは、サポートベクターマシン、ランダムフォレスト、線形判別分析を含むことができる。
別の態様によれば、本発明は、本発明による方法を実行することによって取得されたヌクレオシドプロファイルに基づき、腫瘍に罹患している個体の神経膠腫のグレードを予測するための、訓練データセット上で事前に訓練された分類モデルに関する。
【0084】
神経膠腫のグレードを予測するための当該分類モデルは、事前に、特に管理された学習中に訓練かつ評価された機械学習アルゴリズムを含み、訓練データセットが神経膠腫のグレードを予測することに関し、当該訓練セットは、どちらも神経膠腫のグレードを予測することに関連する訓練セットと評価セットとを含む。
【0085】
本発明はまた、神経膠腫のグレードを予測するための分類モデルを構築するための方法に関し、少なくとも、
分類タスク用の機械学習アルゴリズムを選択することと、
訓練セット及びテストセットを含む、神経膠腫のグレードを予測することに関連する訓練データセットを提供することと、
当該訓練データセットを使用し、当該アルゴリズムによって神経膠腫のグレードを予測する学習段階と、を含む。
【0086】
特定の態様によれば、本発明は、本発明による方法を実行することによって取得されたヌクレオシドプロファイルに基づき、腫瘍に罹患している個体の生存状態を予測するための、訓練データセット上で事前に訓練された第2の分類モデルに関する。
【0087】
腫瘍に罹患している個体の生存状態を予測するための当該分類モデルは、事前に、特に管理された学習中に訓練かつ評価された機械学習アルゴリズムを含み、訓練データセットが個体の生存状態を予測することに関し、当該訓練セットは、どちらも腫瘍に罹患している個体の生存状態を予測することに関連する訓練セットとテストセットとを含む。
【0088】
本発明はまた、個体の生存状態を予測するための分類モデルを構築するための方法に関し、少なくとも、
分類タスク用の機械学習アルゴリズムを選択することと、
訓練セット及びテストセットを含む、個体の生存状態を予測することに関連する訓練データセットを提供することと、
当該訓練データセットを使用し、当該アルゴリズムによって個体の生存状態を予測する学習段階と、を含む。
別の態様によれば、本発明は、神経膠腫のグレードを予測するための、本発明による分類モデルの使用に関する。
【0089】
一態様によれば、本発明は、神経膠腫に罹患している患者の少なくとも1つの他の生物学的マーカ特性と組み合わせて、当該患者を階層化するための、本発明による分類モデルの使用に関する。
別の態様によれば、本発明は、個体の生存状態を予測するための、本発明による分類モデルの使用に関する。
【0090】
別の特定の実施形態によれば、本発明は、個体から単離された生体試料に基づいて、この個体における腫瘍の存在を検出するためのインビトロ方法であって、
a)i)総細胞RNA及びそのヌクレオシド断片化、ii)細胞外RNA及びそのヌクレオシド断片化、並びに/又はiii)単量体異化産物由来のヌクレオシドであって、好ましくは単量体異化産物由来のヌクレオシドを抽出することで当該生体試料からヌクレオシドを単離する工程と、
b)工程a)中に取得された少なくとも3個、好ましくは少なくとも5個、好ましくは少なくとも10個、好ましくは少なくとも20個の異なるヌクレオシドのそれぞれの量を単離し、かつ決定する工程と、
c)工程b)中に取得された各ヌクレオシドのそれぞれの量に基づいて、当該生体試料についてのヌクレオシドプロファイルを規定する工程であって、当該プロファイルが当該腫瘍の存在の特徴である、工程と、を含む。
【0091】
さらにより特定の実施形態によれば、本発明は、個体から単離された血液試料に基づいて、この個体の腫瘍の存在を検出するためのインビトロ方法に関し、
a)単量体異化産物由来のヌクレオシドを抽出することによって、当該生体試料からヌクレオシドを単離する工程と、
b)工程a)由来の少なくとも3個、好ましくは少なくとも5個、好ましくは少なくとも10個、好ましくは少なくとも20個の異なるヌクレオシドのそれぞれの量を単離し、かつ決定する工程と、
c)工程b)中に取得された各ヌクレオシドのそれぞれの量に基づいて、当該生体試料についてのヌクレオシドプロファイルを規定する工程であって、当該プロファイルが当該腫瘍の特徴である、工程と、
d)工程c)中に規定されたプロファイルに基づき、事前に訓練された分類モデルによって当該腫瘍の存在を予測する工程と、を含む。
【0092】
さらにより特定の実施形態によれば、本発明は、個体から単離された血液試料に基づいて、この個体の大腸腫瘍の存在を検出するためのインビトロ方法に関し、
a)単量体異化産物由来のヌクレオシドを抽出することによって、当該生体試料からヌクレオシドを単離する工程と、
b)工程a)由来の少なくとも3個、好ましくは少なくとも5個、好ましくは少なくとも10個、好ましくは少なくとも20個の異なるヌクレオシドのそれぞれの量を単離し、かつ決定する工程と、
c)工程b)中に取得された各ヌクレオシドのそれぞれの量に基づいて、当該生体試料についてのヌクレオシドプロファイルを規定する工程であって、当該プロファイルが当該腫瘍の特徴である、工程と、
d)工程c)中に規定されたプロファイルに基づき、事前に訓練された分類モデルによって当該大腸腫瘍の存在を予測する工程と、を含む。
【0093】
本発明はまた、腫瘍の存在を検出するための本発明による方法の使用に関し、当該腫瘍は、直腸、結腸、乳房、膵臓、腎臓、肺といった臓器のうちの1つに位置する腫瘍、又は血液腫瘍、特に白血病である。
本発明はまた、消化管の腫瘍、特に大腸腫瘍の存在を検出するための本発明による方法の使用に関する。
【0094】
別の態様によれば、本発明は、本発明による方法を実行することによって取得されたヌクレオシドプロファイルに基づき、個体の腫瘍の存在を検出するための、訓練データセット上で事前に訓練された分類モデルに関する。この分類モデルは、事前に、特に管理された学習中に訓練かつ評価された機械学習アルゴリズムを含み、訓練データセットは個体における腫瘍の存在を検出することに関し、当該訓練セットは、どちらも個体における腫瘍の存在を検出することに関連する訓練セットとテストセットを含む。
【0095】
より詳細には、本発明は、本発明による方法を実行することによって取得されたヌクレオシドプロファイルに基づき、個体の大腸腫瘍の存在を検出するための、訓練データセット上で事前に訓練された分類モデルに関する。当該分類モデルは、事前に、特に管理された学習中に訓練かつ評価された機械学習アルゴリズムを含み、訓練データセットは、個体の大腸腫瘍の存在を検出することに関連する。
【0096】
本発明はまた、腫瘍の存在を検出するための当該分類モデルを構築するための方法に関し、少なくとも、
分類タスク用の機械学習アルゴリズムを選択することと、
訓練セット及びテストセットを含む、個体における腫瘍の存在を検出することに関連する訓練データセットを提供することと、
当該訓練データセットを使用し、当該アルゴリズムによって個体における腫瘍の存在を予測する学習段階と、を含む。
【0097】
特定の実施形態によれば、本発明はまた、大腸腫瘍の存在を検出するための分類モデルを構築するための方法に関し、少なくとも、分類タスク用の機械学習アルゴリズムを選択することと、訓練セット及びテストセットを含む、個体における大腸腫瘍の存在を検出することに関連する訓練データセットを提供することと、当該訓練データセットを使用し、当該アルゴリズムによって個体における大腸腫瘍の存在を予測する学習段階と、を含む。
【0098】
別の態様によれば、本発明は、腫瘍、特に大腸腫瘍を検出するための、本発明による分類モデルの使用に関する。
一態様によれば、本発明は、当該患者の少なくとも1つの他の生物学的マーカ特性と組み合わせて、腫瘍、特に大腸腫瘍を検出するための、本発明による分類モデルの使用に関する。
【0099】
特定の態様によれば、本発明は最終的に、腫瘍を特徴付けるための本発明による方法を実行することを含む診断方法に関する。本発明はまた、神経膠腫のグレードを予測するための本発明による方法を実行することを含む診断方法に関する。本発明はまた、患者の生存状態を予測するための本発明による方法を実行することを含む診断方法に関する。当該診断方法は、組織の組織学的分析をさらに含むことができる。
【0100】
特定の態様によれば、本発明は最終的に、腫瘍を検出するための本発明による方法を実行することを含む診断方法に関する。本発明はまた、大腸腫瘍を検出するための本発明による方法を実行することを含む診断方法に関する。当該診断方法は、組織の組織学的分析を含むことができる。
【図面の簡単な説明】
【0101】
他の利点及び特徴は、決して限定的ではない一実施形態の詳細な説明の検討及び添付の図面から明らかになるであろう。
図1は、LC-MS/MSが質量分析と組み合わせられた液体クロマトグラフィーを表し、生データ(データ)がLC-MS/MSによって取得されたエピトランスクリプトームプロファイルである、全体的な実験スキームを示す。
図2は、バイオインフォマティックスプロセスの全体的なスキームを示し、生データは、LC-MS/MSによって取得されたエピトランスクリプトームプロファイルであり、正規化データは、正規化後のエピトランスクリプトームプロファイルであり、MSは、(液体クロマトグラフィーと組み合わせられた)質量分析を示す。
図3A図3B及び図3Cは、箱ひげ図形態で、神経膠腫のグレードによる6個の修飾ヌクレオシドの相対量(百分率として)をそれぞれ示す6個のグラフを示す。グラフのそれぞれについては、当該グレードは、非腫瘍性である神経膠組織の試料、又はグレードII、III若しくはIVの神経膠腫の試料をそれぞれ示す、「正常」、「グレードII」、「グレードIII」又は「グレードIV」によってx軸上に示されている。図3Aは、その量が神経膠腫のグレードが高くなるのにつれて減少するヌクレオシドの2つの例:(左から右に)オキソ8G及びm1Gを示す。図3Bは、その量が神経膠腫のグレードが高くなるのにつれて増加するヌクレオシドの2つの例:(左から右に)m6Am及びGmを示す。図3Cは、その量が神経膠腫のグレードが高くなるのにつれてわずかに変動するヌクレオシドの2つの例:(左から右に)m1A及びm7Gを示す。スケールは、グラフによって異なる。
図4は、コホートのエピトランスクリプトームプロファイルの主成分分析(principal component analysis、PCA)の第1の成分の分散説明率を示す。x軸では、成分は0~9までの番号が付けられている。y軸には、これらの成分の分散説明率がある。
図5は、主成分分析(PCA)の当該最初の3成分、すなわち、コホートのエピトランスクリプトームプロファイルの分散が39.2+23.3+8.6=71.1%を表す3成分によるコホートのプロファイルの3次元視覚化を示す。軸のそれぞれは、主成分0(39.24%)、主成分1(23.27%)及び主成分2(8.58%)をそれぞれ示す。「星」記号は、「正常」グレードを表し、「三角形」はグレードIIを表し、「四角形」はグレードIIIを表し、「十字型」はグレードIVをそれぞれ表す。
【発明を実施するための形態】
【0102】
以下に記載の実施形態は、決して限定的ではないことが十分理解される。本発明の変形例は、記載の他の特徴とは異なり、この特徴の選択が先行技術水準に対し、技術的な利点を与える、又は本発明を差別化するのに十分なものである場合、以下に記載される特徴の選択のみを特に含むことが想定され得る。本発明は、本発明を例示するために提供され、その範囲を限定するものではない、以下の実施例を読むことでさらに良好に理解されるだろう。
【実施例
【0103】
実施例1:グリア細胞の試料のトランスクリプトームデータの分析
この節は、使用されるコホート、試料の調製、エピトランスクリプトームプロファイルを取得するための方法及びコンピュータ分析プログラムを提示する。続いてこの節は、コホートのプロファイル、腫瘍グレードの予測及び生存時間予測の試験的分析結果を提示する。
【0104】
試料の調製及び質量分析によるプロファイルの取得は、以下のように行う:グリオーマと診断され、手術までに化学療法又は放射線療法を誰も受けていない成人患者の外科切除した腫瘍由来の58個の試料を、患者の情報及び同意についてフランスの生命倫理法に従った上で使用した。切除時に、それぞれの腫瘍についてアリコートを直ちに凍結して-80℃で保存し、残りの組織を4%ホルマリン中で固定した。パラフィン中にこれを包埋し、3ミクロンの切片を切断してヘマトキシリン及びエオシンで染色した。改訂された世界保健機関分類(Wesseling&Capper,“WHO 2016 Classification of gliomas”.Neuropathol Appl Neurobiol.44,139-150,2018)に従い、腫瘍の病理組織学的タイプを決定した。腫瘍の群は、グレードII(n=20)、グレードIII(n=20)グリオーマ及びグレードIV(n=18)神経膠芽腫によって構成されている。さらに、腫瘍試料と同じプロトコール(以下に記載)に従い、非腫瘍性グリア細胞の19個の「対照」試料(n=19)を調製した。
【0105】
酸性グアニジン-フェノール法を使用することで、腫瘍の試料から総RNAを抽出した。アガロースゲル電気泳動及び臭化エチジウムによる染色によってRNA試料の品質を決定し、18S及び28SRNAバンドをUV光下で可視化した。生体試料の処理は、少なくとも100ngのRNA試料を取得するように相分離することでRNAを抽出することによって開始する。処理は、高分子RNAの酵素加水分解及びヌクレオシドの脱リン酸化とともに継続する。
【0106】
RNAの酵素消化を以下のように行う:400ngの量のRNAを、酢酸アンモニウム3μl(0.1M pH5.3)及びヌクレアーゼP1(Sigma,N8630)0.001酵素単位(U)を加えた総体積20μLのmilliQ水に希釈する。42℃で2時間インキュベーションを行う。続いて、酢酸アンモニウム3μl(1M)及びアルカリンホスファターゼ(Sigma,P4252)0.001Uを加える。続いて、混合物を37℃で2時間インキュベートする。最後に、ヌクレオシド溶液を2回希釈し、0.22μmのフィルタ(Millex(登録商標)-GV,Millipore,SLGVR04NL)を用いて濾過する。最後に、各試料5μLを注入し、試料すべてをLC-MSMSによって三つ組で分析する。
【0107】
液体クロマトグラフィー(LC)を以下のように行う:Synergi(商標)Fusion-RP C18カラム(粒径4μm,250mm×2mm,80Å)(Phenomenex,00G-4424-B0)を使用し、Nexera LC-40システム(Shimadzu)でヌクレオシドを分離した。移動相は、酢酸(溶媒A)及び純アセトニトリル(溶媒B)を用いてpH5.3に調整した酢酸アンモニウム(5mM)で構成されている。30分間のグラジエント溶出は、100%相Aで開始し、続いて13分時点で8%溶媒Bへと線形勾配する。溶媒Bを、10分間で40%までさらに増加する。2分後、溶媒Bを25.5分時点で0%に戻す。さらに4.5分間100%溶媒Aですすぐことで初期条件に再生する。流量は0.4ml/分であり、カラム温度は35℃である。
【0108】
多重反応モニタリング(multiple reaction monitoring、MRM)モードで質量分析を以下のように行う:正イオンモードのShimadzu TripleQuad 8060によって検出を行う。質量分析は、3分間の保持時間ウィンドウ及び258msに設定された最大サイクル時間を用いて動的MRMモードで走査する。Skyline 4.1ソフトウェア(Pino LK et al,“The Skyline ecosystem:Informatics for quantitative mass spectrometry proteomics.” Mass Spectrom Rev.2020 May;39(3):229-244.2020)を使用し、ピーク領域を決定する。
【0109】
質量分析計を較正し、25個の修飾ヌクレオシド(表2)及び4個の非修飾ヌクレオシド(A、U、G、T)(表1)を正確に同定及び定量した。使用する質量分析装置は、多重反応モニタリングモードのShimadzu TripleQuad 8060である。
【0110】
各試料を3回注入し、3つの技術的反復を供給する。各ヌクレオシドについては、質量分析計によって与えられた保持時間の均一性を検証する。6%超の発散を示す測定値を破棄した。すべての試料についてそれぞれ反復して、各ヌクレオシドの量測定値を含有するデータテーブルを得た。続いて、出願人のコンピュータプログラムによってこのテーブルを分析する。
【0111】
内部で開発されたPythonプログラムですべてのバイオインフォマティックス分析を行う。この目的のために、著者らは周知のオープンソースモジュール:表形式データの管理用の「Pandas」(Reback et al,Pandas-dev/pandas:Pandas 1.0.3(バージョンv1.0.3).Zenodo March 18,2020)、データの試験的統計分析及び機械学習用の「scikit-learn」(Pedregosa et al,Journal of Machine Learning Research,vol.12,pp.2825-2830,2011)、視覚化用の「Matplotlib」(JD Hunter,Computing in Science&Engineering,vol.9,no.3,pp.90-95,2007)を使用した。
【0112】
プログラムの必要な特徴は、a)プログラムは、表形式でファイル中に入力質量分析データとして確定する(.csvフォーマット)、b)分光計に由来する領域及び保持時間の定量化は、少なくとも10-1の精度で実数値形態で与えられなければならない、c)プログラムは、上述されたものの中から多項管理された機械学習アルゴリズムを実行する、d)プログラムは学習フェーズ、検証フェーズ及び予測モードを実行する、e)プログラムは、予測モードの分類モデルを使用し、腫瘍のグレードを予測するように患者試料のエピトランスクリプトームプロファイルを分類する、というものである。
【0113】
データ前処理及び正規化については、生の量テーブルをメモリにロードし、そのフォーマットを検証する。続いて、各ヌクレオシドの平均量を算出し、テーブルを再フォーマットして各生体試料について一行にすべての測定値を取得する。質量分光計は、分子の絶対算出値を生成しないが、相対的な測定値は生成する。本発明者らは、非修飾ヌクレオシドA、C、G及びUの量を一緒に加算する新しい正規化式を提案する。この合計を基準とする。続いてすべての基準測定値を合計で除算する。こうして、相対的測定値を取得する。すべては、区間[0,1]内に含まれていた。例として、かかるデータテーブルからの抽出を表3、表4及び表5に提供する。
【0114】
【表3】
【0115】
【表4】
【0116】
【表5】
【0117】
表3、表4及び表5は、分析されるヌクレオシドのそれぞれについて、グリオーマのグレードII、グレードIII及びグレードIVのそれぞれについて、及び健常組織(「正常」)についての正規化データ値を示す。
【0118】
特に、グリオーマの場合のグレードに関連して、目的のエピトランスクリプトームプロファイル及び臨床的変数の共同解析(図1)を行う。この手順を、任意のタイプの臨床的変数に適合することができる。本実施例では、解剖病理学的検査によって規定することが困難であり得るがんのグレードを区別することが求められている。
【0119】
コホートプロファイルの前処理によって、77行(試料あたり1行)及び29列(測定値あたり1列)を得た。試料のそれぞれについては、腫瘍グレードの記号説明又は健常試料についての「正常」といった記号説明を加えた。プロファイル中に含まれる試料とグレード情報との関連性を評価するために、このテーブルの試験的統計分析を行った。
【0120】
最初に、各ヌクレオシドの量の変動を同一グレードの試料で調査し、これらの変動をグレード間で比較した。図3A図3B及び図3Cの箱ひげ図のグラフに見られるように、実験結果は、4つの群:1)その量がグレードとともに、すなわち、非腫瘍脳組織(簡略化のため、グラフのy軸上では「正常」として示される)とグレードII、グレードIII及びグレードIV、特にヌクレオシドであるオキソ8G、m1G、キューオシン及びAc4C(例えば図3Aに示されるもの)との間で増加するもの、ii)その量がグレードとともに減少するもの(例えば図3Bに示されるもの)、iii)その量がグレードとともにわずかに変動するもの(例えば図3Cに示されるもの)並びにiv)最初の3つの群に属する条件を満たさない残りのヌクレオシド、のヌクレオシドを集めたグループ化を提案する。
【0121】
一見すると、これらの群は、その構成要素の既知の特異的な特徴(例えば、ヌクレオシドの修飾エッジ)と関連しない。しかしながら、リボソームRNA(rRNA)及び核内低分子RNA(snRNA)で主に見られる小2’-O-メチル化(Am、Um、Cm、Gm)は、rRNAの特異的修飾であるm6Amを含む中心クラスタにて同様に挙動することに留意されたい。
【0122】
続いて、「特徴」、言い換えればヌクレオシドの選択と混同せずに次元縮小を実施するためにこれらのデータの主成分分析(PCA)を行い、量の変動が小数の成分で組み合わせることができるかどうかを確認した。図4は、PCAの最初の10成分についての分散説明率を示す:明確に最初の3成分は、プロファイル変動の大部分を一緒にグループ化する。実際には、最初の3成分のみが一緒にグループ化されることに留意されたい:39.2+23.3+8.6=71.1%のコホートのエピトランスクリプトームプロファイルの分散。
【0123】
xヌクレオシドの測定値を含む各エピトランスクリプトームプロファイルは、数学的用語においてはx次元を有する空間の点として見られる。PCAは、次元の変動を依然として捕捉しながらもデータの次元を縮小することを可能にする多変量試験的分析方法である。成分は、分析すべき変数の数を依然として減らしながらも、それらの変動をより良好に捕捉するように初期観測データを組み合わせた新規変数である。成分は、多次元空間の他の軸に初期データを投影することで生じる。成分は、分散説明率の多いものから順に並べられている。各成分に関連するこうしたパーセンテージは、初期データを説明するためのその重要性を示している。図4は、最初の10個の成分についての分散説明率のグラフを示す。PCAは、標準的なデータ分析技術である。
【0124】
最初の3成分に関する投影プロファイルの3次元での視覚化を図5に示す。最初に、非腫瘍組織及びグレードIIの試料を、グレードIII及びグレードIVの試料と明確に分離する。さらには、グレードIIIの試料は、グレードIVの試料から比較的離れた量を占めている。これらの試験結果は、管理された機械学習アルゴリズムが、異なるグレードの試料群間の境界を学習可能でなければならないことを示唆している。
【0125】
腫瘍グレード及び健常試料を正確に予測することを可能にする機械学習方法
試料のグレードがエピトランスクリプトームプロファイルのみに基づいて、すなわちヌクレオシドの量以外の情報を使用することなく予測可能かどうかを決定するため、機械学習方法を試験した(図1)。これを行うため、プロファイルを2つの別個のサブセットに分けた:第1のサブセットは、機械学習モデルを訓練するためにだけ使用し(n=60、すなわち78%)、第2のサブセットはモデルを評価するように機能した(n=17、すなわち22%)。
【0126】
予測される変数(ここではグレード)は分類別のデータ項目であるため、学習方法は分類カテゴリに属していなくてはならない。学習において標準的であるカーネルのタイプを変更することで境界式を適合しようとする見込みのため、主要なタイプの学習アルゴリズムから、サポートベクターマシン(SVM)分類アルゴリズムを選択した。テストサブセットのプロファイル上で線形カーネルを備えたSVMアルゴリズムの予測精度は最大1のうちの0.90であったが、これは注目に値するものであった。予測精度のレベルは、学習時、続いて検査が反復されるときにも、開発された学習ツールの堅牢性を実証するデータセットの新たなランダムパーティショニングを用いて維持されている。
【0127】
さらには、評価結果によって出願人の正規化方法(合計については、SUMによって示されている)と、文献で使用される式とを比較することが可能になる。事実、従来の正規化は、例えばm1Aといった修飾ヌクレオシドの測定値を、対応する非修飾ヌクレオシド(ここではAの測定値)で除算することからなる。表6では、異なる式の使用に依存する精度は0.8~0.9の間に含まれており、したがって、常に正規化式SUMの精度以下(ただし決して精度以上とはならない)となる。
【0128】
【表6】
【0129】
さらには、グレードの予測は、分類アルゴリズムの変化に対して堅牢である。SVMアルゴリズムの代わりに、線形判別分析アプローチに基づくアルゴリズムが使用される場合には、90%の再現能力度(又は感度)及び90%のF1スコアとともに92%の精度が取得される。各グレードの予測の詳細を表7に提供する。
【0130】
【表7】
【0131】
結論として、全く異なる2つの学習方法が同様の結果を取得することから、グレードの予測の品質は、所与のコホートでは学習方法の最適化に特に関連しない。予測の品質はしたがって、トランスクリプトームプロファイルに含まれる信号の能力に関連する。
【0132】
さらには、ここで報告される訓練モデルの結果は、モデルの一般化能力に悪影響を与え得る過学習のリスクを回避するため、それらのパラメータに関しては意図的に最適化されなかった。
【0133】
患者生存状態の予測
管理された学習による同じアプローチを使用し、生存状態、すなわちコホートの追跡調査終了時(すなわち2020年)の「生存」又は「死亡」状態を示す臨床的変数を予測した。ここでは、分類は、「生存」又は「死亡」の2値である。
SVM学習アルゴリズムは、80%にて正確な予測を提供した。これは、議論の対象となっているコホートサイズに関しては妥当である(表8)。
【0134】
【表8】
【0135】
結論
RNAのある特定のエピジェネティック修飾の相対量の差分を、試料が健常か腫瘍性であるかにかかわらず、異なる試料に従って強調した。これらの差分によって、異なる腫瘍グレードを特に分離することが可能となる。ヌクレオシド量のベクトルに適用される管理された機械学習アルゴリズムによって、グリオーマのグレードを効率的に区別することが可能となり、かつ、コホートの比較的限定されたサイズを考慮した注目に値する精度で特にグレードIIとグレードIIIを区別することが可能となる。さらには、本方法によって、同じデータに基づき、管理された機械学習法を使用して患者の生存時間を推定することも可能となる。
【0136】
実施例2:対象からの血液血清試料のトランスクリプトームデータの分析
手術前に化学療法又は放射線療法を誰も受けていない、大腸がんと診断された成人患者又は対照対象(Etablissement Francais du Sang[French blood service],n=20)からの47個の血液試料を、患者の情報及び同意についてフランスの生命倫理法に従った上で使用した。地域倫理委員会(Comite de Recherche Translationnelle[試料解析研究委員会](CORT))は、これらの試料の使用を評価し、承認した。
【0137】
循環RNAを、キット(miRNeasy血清/血漿)を使用し、血漿から抽出する。RNAをヌクレアーゼP1で消化し、ヌクレオシドの混合物を取得するためにあるかリンホスファターゼで処理する。メタノールによる抽出手順を使用し、同一の血漿試料から循環遊離ヌクレオシドを抽出する。これらは、質量分析に通す前に酵素処理を必要としない。
【0138】
液体クロマトグラフィー(LC)及び質量分析並びにバイオインフォマティックス分析を、実施例1に示されるように行う。特に、各試料を3回独立して分析し、それによってそれぞれについての3つの技術的反復を取得することが可能となる。実施例1にあるように正規化するため、生データを処理する。したがって、これらの工程は、試料あたり1つのエピトランスクリプトームプロファイルを生成する。エピトランスクリプトームプロファイルのみに基づいて、すなわちヌクレオシドの量以外の情報を使用することなく腫瘍の存在又は不在を決定するため、機械学習方法を開発して試験した。実施例1にあるように、「分類」タスクと呼ばれるこのバイナリタスクのため、線形カーネルを備えたサポートベクターマシン(SVM)分類アルゴリズムを選択した。アルゴリズムをまず訓練し、続いて試料中の腫瘍の存在又は不在を予測する能力を評価するためにこれを試験した。遊離ヌクレオシドの測定値を含むエピトランスクリプトームプロファイルについては、機械学習法によって100%の精度及び100%の感度を備えた予測が提供される。
図1
図2
図3A
図3B
図3C
図4
図5
【国際調査報告】