(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-02-03
(54)【発明の名称】遺伝子発現解析のための機械学習技法
(51)【国際特許分類】
G16B 25/10 20190101AFI20230127BHJP
C12Q 1/6874 20180101ALI20230127BHJP
C12Q 1/686 20180101ALI20230127BHJP
G16B 40/20 20190101ALI20230127BHJP
【FI】
G16B25/10
C12Q1/6874 Z
C12Q1/686 Z
G16B40/20
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022533583
(86)(22)【出願日】2020-12-05
(85)【翻訳文提出日】2022-08-02
(86)【国際出願番号】 US2020063503
(87)【国際公開番号】W WO2021113784
(87)【国際公開日】2021-06-10
(32)【優先日】2020-08-03
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2019-12-05
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】519434813
【氏名又は名称】ボストンジーン コーポレイション
【氏名又は名称原語表記】BostonGene Corporation
【住所又は居所原語表記】95 Sawyer Rd. Suite 500 Waltham, Massachusetts 02453 United States of America
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ゾイア・アンティシェヴァ
(72)【発明者】
【氏名】ヴィクトル・スヴェコルキン
(72)【発明者】
【氏名】ニキータ・コトロフ
(72)【発明者】
【氏名】アントン・カレリン
(72)【発明者】
【氏名】エカテリーナ・ポストヴァロヴァ
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA13
4B063QA19
4B063QQ02
4B063QQ53
4B063QR08
4B063QR55
4B063QR62
4B063QS25
4B063QS28
4B063QS36
4B063QX02
(57)【要約】
1つまたは複数のシーケンシングプラットフォームを使用して取得された発現データにおける遺伝子発現レベルのランキングを使用して、生体試料の1つまたは複数の特性を決定するための技法が説明される。これらの技法は、対象の生体試料のための発現データを取得することを含み得る。これらの技法は、遺伝子のセットにおける遺伝子を、発現データにおけるそれらの発現レベルに基づいてランク付けして、遺伝子ランキングを取得すること、ならびに遺伝子ランキングおよび統計モデルを使用して、生体試料の1つまたは複数の特性を決定することをさらに含む。
【特許請求の範囲】
【請求項1】
コンピュータ実装方法であって、
少なくとも1つのコンピュータハードウェアプロセッサを使用して、
がんを有するか、有する疑いがあるか、または有する危険性がある対象の生体試料をシーケンシングすることによって少なくとも部分的に取得される、発現データを取得するステップであって、前記発現データが、複数の遺伝子のための発現レベルを備え、前記複数の遺伝子が、遺伝子のセットを構成する、ステップと、
前記遺伝子のセットにおける少なくともいくつかの遺伝子を、前記発現データにおけるそれらの発現レベルに基づいてランク付けして、遺伝子ランキングを取得するステップと、
前記遺伝子ランキングと、取得された前記遺伝子のセットにおける前記遺伝子のうちの少なくともいくつかの、複数の遺伝子ランキングを示すトレーニングデータを使用してトレーニングされた、統計モデルとを使用して、前記生体試料の少なくとも1つの特性を決定するステップであって、前記複数の遺伝子ランキングの各々が、前記遺伝子のセットにおける前記少なくともいくつかの遺伝子のためのそれぞれの発現レベルに基づいて取得される、ステップと
を実行するステップ
を含むコンピュータ実装方法。
【請求項2】
前記生体試料の前記少なくとも1つの特性が、前記生体試料における細胞、または前記細胞がそこから発生する組織の、生理学的特性である、請求項1に記載の方法。
【請求項3】
前記少なくとも1つの特性が、前記生体試料における細胞のためのがんグレード、前記生体試料における細胞のための起源組織、前記生体試料における細胞のための組織タイプ、および前記生体試料における細胞のためのがんサブタイプから選択される、請求項1または2に記載の方法。
【請求項4】
前記発現データを取得するステップより前に、遺伝子発現マイクロアレイを使用して、前記生体試料のシーケンシングを実行するステップをさらに含む、請求項1に記載の方法。
【請求項5】
前記発現データを取得するステップより前に、前記生体試料の次世代シーケンシングを実行するステップをさらに含む、請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記少なくとも1つの特性が、前記生体試料における細胞のためのがんグレードを含む、請求項1から5のいずれか一項に記載の方法。
【請求項7】
前記少なくとも1つの特性が、前記生体試料における細胞のための起源組織を含む、請求項1から6のいずれか一項に記載の方法。
【請求項8】
前記対象が、乳がんを有するか、有する疑いがあるか、または有する危険性がある、請求項1から7のいずれか一項に記載の方法。
【請求項9】
前記遺伝子のセットが、Table 1(表1)に記載されている遺伝子群から選択される、請求項1から8のいずれか一項に記載の方法。
【請求項10】
前記遺伝子のセットが、Table 1(表1)に記載されている遺伝子群から選択された、少なくとも3つの遺伝子を備える、請求項8に記載の方法。
【請求項11】
前記遺伝子のセットが、Table 1(表1)に記載されている遺伝子群から選択された、少なくとも5つの遺伝子を備える、請求項8に記載の方法。
【請求項12】
前記遺伝子のセットが、Table 1(表1)に記載されている遺伝子群から選択された、少なくとも10個の遺伝子を備える、請求項8に記載の方法。
【請求項13】
前記遺伝子のセットが、Table 1(表1)に記載されている遺伝子群から選択された、少なくとも20個の遺伝子を備える、請求項8に記載の方法。
【請求項14】
前記対象が、腎臓がんを有するか、有する疑いがあるか、または有する危険性がある、請求項1に記載の方法。
【請求項15】
前記対象が、明細胞腎臓がんを有するか、有する疑いがあるか、または有する危険性がある、請求項1から14のいずれか一項に記載の方法。
【請求項16】
前記遺伝子のセットが、Table 2(表2)に記載されている遺伝子群から選択される、請求項1から15のいずれか一項に記載の方法。
【請求項17】
前記遺伝子のセットが、Table 2(表2)に記載されている遺伝子群から選択された、少なくとも3つの遺伝子を備える、請求項15に記載の方法。
【請求項18】
前記遺伝子のセットが、Table 2(表2)に記載されている遺伝子群から選択された、少なくとも5つの遺伝子を備える、請求項15に記載の方法。
【請求項19】
前記遺伝子のセットが、Table 2(表2)に記載されている遺伝子群から選択された、少なくとも10個の遺伝子を備える、請求項15に記載の方法。
【請求項20】
前記遺伝子のセットが、Table 2(表2)に記載されている遺伝子群から選択された、少なくとも20個の遺伝子を備える、請求項15に記載の方法。
【請求項21】
前記対象が、リンパ腫を有するか、有する疑いがあるか、または有する危険性がある、請求項1から20のいずれか一項に記載の方法。
【請求項22】
前記遺伝子のセットが、Table 3(表3)に記載されている遺伝子群から選択される、請求項1から21のいずれか一項に記載の方法。
【請求項23】
前記遺伝子のセットが、Table 3(表3)に記載されている遺伝子群から選択された、少なくとも3つの遺伝子を備える、請求項21に記載の方法。
【請求項24】
前記遺伝子のセットが、Table 3(表3)に記載されている遺伝子群から選択された、少なくとも5つの遺伝子を備える、請求項21に記載の方法。
【請求項25】
前記遺伝子のセットが、Table 3(表3)に記載されている遺伝子群から選択された、少なくとも10個の遺伝子を備える、請求項21に記載の方法。
【請求項26】
前記遺伝子のセットが、Table 3(表3)に記載されている遺伝子群から選択された、少なくとも20個の遺伝子を備える、請求項21に記載の方法。
【請求項27】
前記対象が、頭頸部扁平上皮癌を有するか、有する疑いがあるか、または有する危険性がある、請求項1から26のいずれか一項に記載の方法。
【請求項28】
前記遺伝子のセットが、Table 8(表8)に記載されている遺伝子群から選択される、請求項1から27のいずれか一項に記載の方法。
【請求項29】
前記遺伝子のセットが、Table 8(表8)に記載されている遺伝子群から選択された、少なくとも10個の遺伝子を備える、請求項27に記載の方法。
【請求項30】
前記少なくとも1つの特性が、前記生体試料における細胞のためのヒトパピローマウイルス状態を含む、請求項1から29のいずれか一項に記載の方法。
【請求項31】
前記遺伝子のセットが、Table 8(表8)に記載されている遺伝子群から選択される、請求項1から30のいずれか一項に記載の方法。
【請求項32】
前記遺伝子のセットが、Table 8(表8)に記載されている遺伝子群から選択された、少なくとも10個の遺伝子を備える、請求項30に記載の方法。
【請求項33】
遺伝子の第2のセットにおける少なくともいくつかの遺伝子を、前記発現データにおけるそれらの発現レベルに基づいてランク付けして、第2の遺伝子ランキングを取得するステップと、
前記第2の遺伝子ランキングと、前記遺伝子の第2のセットにおける前記遺伝子のうちの前記少なくともいくつかのための複数のランキングを示す第2のトレーニングデータを使用してトレーニングされた、第2の統計モデルとを使用して、前記生体試料の少なくとも1つの第2の特性を決定するステップと
をさらに含む、請求項1から32のいずれか一項に記載の方法。
【請求項34】
前記少なくとも1つの第2の特性が、前記生体試料における細胞のためのがんグレードを含む、請求項1から33のいずれか一項に記載の方法。
【請求項35】
前記少なくとも1つの第2の特性が、前記生体試料における細胞のための起源組織を含む、請求項1から34のいずれか一項に記載の方法。
【請求項36】
前記遺伝子ランキングを決定するステップが、前記発現レベルに基づいて、前記遺伝子のセットにおける各遺伝子のための相対ランクを決定するステップを含む、請求項1から35のいずれか一項に記載の方法。
【請求項37】
前記少なくとも1つの特性を決定するステップが、前記統計モデルへの入力として、前記遺伝子ランキングを提供するステップと、前記少なくとも1つの特性を示す出力を取得するステップとをさらに含む、請求項1から36のいずれか一項に記載の方法。
【請求項38】
前記統計モデルが、勾配ブースト決定木分類器を備える、請求項1から37のいずれか一項に記載の方法。
【請求項39】
前記統計モデルが、勾配ブースト決定木分類器、決定木分類器、勾配ブースト分類器、ランダムフォレスト分類器、クラスタリングベースの分類器、ベイズ分類器、ベイジアンネットワーク分類器、ニューラルネットワーク分類器、カーネルベースの分類器、およびサポートベクターマシン分類器からなる群から選択された分類器を備える、請求項1から38のいずれか一項に記載の方法。
【請求項40】
前記遺伝子のセットが、少なくとも5つの遺伝子を含む、請求項1から39のいずれか一項に記載の方法。
【請求項41】
前記遺伝子のセットが、5~50個の遺伝子からなる、請求項1から40のいずれか一項に記載の方法。
【請求項42】
前記遺伝子のセットが、5~300個の遺伝子からなる、請求項1から41のいずれか一項に記載の方法。
【請求項43】
ユーザに、前記少なくとも1つの特性の指示を提示するステップをさらに含む、請求項1に記載の方法。
【請求項44】
前記少なくとも1つの特性の前記指示を提示するステップが、グラフィカルユーザインターフェース(GUI)において、前記ユーザに前記少なくとも1つの特性を表示するステップをさらに含む、請求項43に記載の方法。
【請求項45】
システムであって、
少なくとも1つのコンピュータハードウェアプロセッサと、
前記少なくとも1つのハードウェアプロセッサによって実行されると、前記少なくとも1つのハードウェアプロセッサに、請求項1から44のいずれか一項に記載の方法を実行させる、プロセッサ実行可能命令を記憶する、少なくとも1つの非一時的コンピュータ可読記憶媒体と
を備えるシステム。
【請求項46】
少なくとも1つのコンピュータハードウェアプロセッサによって実行されると、前記少なくとも1つのコンピュータハードウェアプロセッサに、請求項1から44のいずれか一項に記載の方法を実行させる、プロセッサ実行可能命令を記憶する、少なくとも1つの非一時的コンピュータ可読記憶媒体。
【請求項47】
方法であって、
少なくとも1つのコンピュータハードウェアプロセッサを使用して、
がんを有するか、有する疑いがあるか、または有する危険性がある対象の生体試料における細胞のための発現データを取得するステップと、
遺伝子の少なくとも1つのセットにおける少なくともいくつかの遺伝子を、前記発現データにおけるそれらの発現レベルに基づいてランク付けして、少なくとも1つの遺伝子ランキングを取得するステップと、
前記少なくとも1つの遺伝子ランキングと、前記遺伝子の少なくとも1つのセットにおける少なくともいくつかの遺伝子のための複数のランキングを示すトレーニングデータを使用してトレーニングされた、少なくとも1つの統計モデルとを使用して、前記生体試料における前記細胞のうちの少なくともいくつかのための起源組織を決定するステップであって、前記複数の遺伝子ランキングの各々が、前記遺伝子の少なくとも1つのセットにおける前記少なくともいくつかの遺伝子のためのそれぞれの発現レベルに基づいて取得される、ステップと
を実行するステップ
を含む方法。
【請求項48】
前記発現データが、遺伝子発現マイクロアレイを使用して取得された、請求項47に記載の方法。
【請求項49】
前記発現データが、次世代シーケンシングを実行することによって取得された、請求項47から48のいずれか一項に記載の方法。
【請求項50】
前記起源組織が、肺組織、膵臓組織、胃組織、結腸組織、肝臓組織、膀胱組織、腎臓組織、甲状腺組織、リンパ節組織、副腎組織、皮膚組織、乳房組織、卵巣組織、前立腺組織、尿路上皮組織、子宮頸部組織、食道組織、脳組織、軟組織、結合組織、頭部組織、および頸部組織からなる群から選択される、請求項47から49のいずれか一項に記載の方法。
【請求項51】
前記少なくとも1つの遺伝子ランキングと、前記少なくとも1つの統計モデルとを使用して、前記生体試料における前記細胞のうちの少なくともいくつかのための組織タイプを決定するステップ
をさらに含む、請求項47から50のいずれか一項に記載の方法。
【請求項52】
前記組織タイプが、腺癌、扁平上皮癌、癌腫、嚢胞腺癌、肉腫、および神経膠腫からなる群から選択される、請求項47から51のいずれか一項に記載の方法。
【請求項53】
前記起源組織と前記組織タイプとの組合せが、肺腺癌、肺扁平上皮癌、黒色腫、乳癌、結腸直腸腺癌、卵巣漿液性嚢胞腺癌、褐色細胞腫、膀胱尿路上皮癌、子宮頸部扁平上皮癌、多形性膠芽腫、頭部扁平上皮癌、頸部扁平上皮癌、腎臓腎明細胞癌、腎臓腎乳頭細胞癌、肝臓肝細胞癌、膵臓腺癌、傍神経節腫、前立腺腺癌、肉腫、胃腺癌、甲状腺癌、および子宮体子宮内膜癌からなる群から選択される、請求項47から52のいずれか一項に記載の方法。
【請求項54】
前記対象が、リンパ腫を有するか、有する疑いがあるか、または有する危険性がある、請求項47から53のいずれか一項に記載の方法。
【請求項55】
前記対象が、びまん性大細胞型B細胞リンパ腫(DLBCL)を有するか、有する疑いがあるか、または有する危険性がある、請求項54に記載の方法。
【請求項56】
前記起源組織が、胚中心B細胞(GCB)および活性化B細胞(ABC)からなる群から選択された起源細胞である、請求項55に記載の方法。
【請求項57】
前記遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、Table 3(表3)に記載されている遺伝子群から選択される、請求項47から56のいずれか一項に記載の方法。
【請求項58】
前記遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、Table 3(表3)に記載されている遺伝子群から選択された、少なくとも3つの遺伝子を備える、請求項54に記載の方法。
【請求項59】
前記遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、Table 3(表3)に記載されている遺伝子群から選択された、少なくとも5つの遺伝子を備える、請求項54に記載の方法。
【請求項60】
前記遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、Table 3(表3)に記載されている遺伝子群から選択された、少なくとも10個の遺伝子を備える、請求項54に記載の方法。
【請求項61】
前記遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、少なくとも5つの遺伝子を含む、請求項47から60のいずれか一項に記載の方法。
【請求項62】
前記遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、5~100個の遺伝子からなる、請求項47から61のいずれか一項に記載の方法。
【請求項63】
前記遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、10~200個の遺伝子からなる、請求項47から62のいずれか一項に記載の方法。
【請求項64】
前記遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、20~100個の遺伝子からなる、請求項47から63のいずれか一項に記載の方法。
【請求項65】
前記遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、50~100個の遺伝子からなる、請求項47から64のいずれか一項に記載の方法。
【請求項66】
前記発現データが、前記遺伝子の少なくとも1つのセットにおける遺伝子のための発現レベルを各々表す値を含み、前記少なくとも1つの遺伝子ランキングのうちの遺伝子ランキングを決定するステップが、前記値に基づいて、前記遺伝子の少なくとも1つのセットのうちの1つにおける各遺伝子のための相対ランクを決定するステップを含む、請求項47から65のいずれか一項に記載の方法。
【請求項67】
前記起源組織を決定するステップが、前記少なくとも1つの統計モデルへの入力として、前記少なくとも1つの遺伝子ランキングを使用するステップと、前記起源組織を示す出力を取得するステップとをさらに含む、請求項47から66のいずれか一項に記載の方法。
【請求項68】
前記少なくとも1つの統計モデルが、勾配ブースト決定木分類器を備える、請求項47から67のいずれか一項に記載の方法。
【請求項69】
前記少なくとも1つの統計モデルが、勾配ブースト決定木分類器、決定木分類器、勾配ブースト分類器、ランダムフォレスト分類器、クラスタリングベースの分類器、ベイズ分類器、ベイジアンネットワーク分類器、ニューラルネットワーク分類器、カーネルベースの分類器、およびサポートベクターマシン分類器からなる群から選択された少なくとも1つの分類器を備える、請求項47から68のいずれか一項に記載の方法。
【請求項70】
前記遺伝子の少なくとも1つのセットが、組織の第1のタイプを予測することに関連付けられた遺伝子の第1のセットと、組織の第2のタイプを予測することに関連付けられた遺伝子の第2のセットとを備える、請求項47に記載の方法。
【請求項71】
システムであって、
少なくとも1つのコンピュータハードウェアプロセッサと、
前記少なくとも1つのコンピュータハードウェアプロセッサによって実行されると、前記少なくとも1つのコンピュータハードウェアプロセッサに、請求項47から70のいずれか一項に記載の方法を実行させる、プロセッサ実行可能命令を記憶する、少なくとも1つの非一時的コンピュータ可読記憶媒体と
を備えるシステム。
【請求項72】
少なくとも1つのコンピュータハードウェアプロセッサによって実行されると、前記少なくとも1つのコンピュータハードウェアプロセッサに、請求項47から70のいずれか一項に記載の方法を実行させる、プロセッサ実行可能命令を記憶する、少なくとも1つの非一時的コンピュータ可読記憶媒体。
【請求項73】
方法であって、
少なくとも1つのコンピュータハードウェアプロセッサを使用して、
がんを有するか、有する疑いがあるか、または有する危険性がある対象の生体試料における細胞のための発現データを取得するステップと、
遺伝子のセットにおける少なくともいくつかの遺伝子を、前記発現データにおけるそれらの発現レベルに基づいてランク付けして、遺伝子ランキングを取得するステップと、
前記遺伝子ランキングと、前記遺伝子のセットにおける少なくともいくつかの遺伝子のための複数のランキングを示すトレーニングデータを使用してトレーニングされた、統計モデルとを使用して、前記生体試料における前記細胞のうちの少なくともいくつかのためのがんグレードを決定するステップであって、前記複数の遺伝子ランキングの各々が、前記遺伝子のセットにおける前記少なくともいくつかの遺伝子のためのそれぞれの発現レベルに基づいて取得される、ステップと
を実行するステップ
を含む方法。
【請求項74】
前記発現データが、遺伝子発現マイクロアレイを使用して取得された、請求項73に記載の方法。
【請求項75】
前記発現データが、次世代シーケンシングを実行することによって取得された、請求項73から74のいずれか一項に記載の方法。
【請求項76】
前記がんグレードが、少なくともグレード1、グレード2、およびグレード3からなる群から選択される、請求項73から75のいずれか一項に記載の方法。
【請求項77】
前記がんグレードが、グレード1、グレード2、グレード3、グレード4、およびグレード5からなる群から選択される、請求項73から76のいずれか一項に記載の方法。
【請求項78】
前記対象が、乳がんを有するか、有する疑いがあるか、または有する危険性がある、請求項73から77のいずれか一項に記載の方法。
【請求項79】
前記遺伝子のセットが、Table 1(表1)に記載されている遺伝子群から選択される、請求項73から78のいずれか一項に記載の方法。
【請求項80】
前記遺伝子のセットが、Table 1(表1)に記載されている遺伝子群から選択された、少なくとも3つの遺伝子を備える、請求項78に記載の方法。
【請求項81】
前記遺伝子のセットが、Table 1(表1)に記載されている遺伝子群から選択された、少なくとも5つの遺伝子を備える、請求項78に記載の方法。
【請求項82】
前記遺伝子のセットが、Table 1(表1)に記載されている遺伝子群から選択された、少なくとも10個の遺伝子を備える、請求項78に記載の方法。
【請求項83】
前記対象が、腎臓がんを有するか、有する疑いがあるか、または有する危険性がある、請求項73から82のいずれか一項に記載の方法。
【請求項84】
前記対象が、明細胞腎臓がんを有するか、有する疑いがあるか、または有する危険性がある、請求項73から83のいずれか一項に記載の方法。
【請求項85】
前記遺伝子のセットが、Table 2(表2)に記載されている遺伝子群から選択される、請求項73から84のいずれか一項に記載の方法。
【請求項86】
前記遺伝子のセットが、Table 2(表2)に記載されている遺伝子群から選択された、少なくとも3つの遺伝子を備える、請求項84に記載の方法。
【請求項87】
前記遺伝子のセットが、Table 2(表2)に記載されている遺伝子群から選択された、少なくとも5つの遺伝子を備える、請求項84に記載の方法。
【請求項88】
前記遺伝子のセットが、Table 2(表2)に記載されている遺伝子群から選択された、少なくとも10個の遺伝子を備える、請求項84に記載の方法。
【請求項89】
前記対象が、肺腺癌を有するか、有する疑いがあるか、または有する危険性がある、請求項73から88のいずれか一項に記載の方法。
【請求項90】
前記遺伝子のセットが、Table 6(表6)に記載されている遺伝子群から選択される、請求項73から89のいずれか一項に記載の方法。
【請求項91】
前記遺伝子のセットが、Table 6(表6)に記載されている遺伝子群から選択された、少なくとも10個の遺伝子を備える、請求項89に記載の方法。
【請求項92】
前記遺伝子のセットが、少なくとも50個の遺伝子を含む、請求項73から91のいずれか一項に記載の方法。
【請求項93】
前記遺伝子のセットが、10~100個の遺伝子からなる、請求項73から92のいずれか一項に記載の方法。
【請求項94】
前記遺伝子のセットが、10~30個の遺伝子からなる、請求項73から93のいずれか一項に記載の方法。
【請求項95】
前記発現データが、前記遺伝子のセットにおける遺伝子のための発現レベルを各々表す値を含み、前記遺伝子ランキングを決定するステップが、前記値に基づいて、前記遺伝子のセットにおける各遺伝子のための相対ランクを決定するステップを含む、請求項73から94のいずれか一項に記載の方法。
【請求項96】
前記がんグレードを決定するステップが、前記統計モデルへの入力として、前記遺伝子ランキングを使用するステップと、前記がんグレードを示す出力を取得するステップとをさらに含む、請求項73から95のいずれか一項に記載の方法。
【請求項97】
前記統計モデルが、勾配ブースト決定木分類器を備える、請求項73から96のいずれか一項に記載の方法。
【請求項98】
前記統計モデルが、勾配ブースト決定木分類器、決定木分類器、勾配ブースト分類器、ランダムフォレスト分類器、クラスタリングベースの分類器、ベイズ分類器、ベイジアンネットワーク分類器、ニューラルネットワーク分類器、カーネルベースの分類器、およびサポートベクターマシン分類器からなる群から選択された分類器を備える、請求項73から97のいずれか一項に記載の方法。
【請求項99】
システムであって、
少なくとも1つのコンピュータハードウェアプロセッサと、
前記少なくとも1つのコンピュータハードウェアプロセッサによって実行されると、前記少なくとも1つのコンピュータハードウェアプロセッサに、請求項73から98のいずれか一項に記載の方法を実行させる、プロセッサ実行可能命令を記憶する、少なくとも1つの非一時的コンピュータ可読記憶媒体と
を備えるシステム。
【請求項100】
少なくとも1つのコンピュータハードウェアプロセッサによって実行されると、前記少なくとも1つのコンピュータハードウェアプロセッサに、請求項73から98のいずれか一項に記載の方法を実行させる、プロセッサ実行可能命令を記憶する、少なくとも1つの非一時的コンピュータ可読記憶媒体。
【請求項101】
方法であって、
少なくとも1つのコンピュータハードウェアプロセッサを使用して、
がんを有するか、有する疑いがあるか、または有する危険性がある対象の生体試料における細胞のための発現データを取得するステップと、
遺伝子の少なくとも1つのセットにおける少なくともいくつかの遺伝子を、前記発現データにおけるそれらの発現レベルに基づいてランク付けして、少なくとも1つの遺伝子ランキングを取得するステップと、
前記少なくとも1つの遺伝子ランキングと、少なくとも1つの統計モデルとを使用して、前記生体試料における前記細胞のうちの少なくともいくつかのための末梢T細胞リンパ腫(PTCL)のサブタイプを決定するステップと
を実行するステップ
を含む方法。
【請求項102】
前記少なくとも1つの統計モデルが、前記遺伝子の少なくとも1つのセットにおける少なくともいくつかの遺伝子のための発現レベルの複数のランキングを示すトレーニングデータを使用してトレーニングされた、請求項101に記載の方法。
【請求項103】
前記複数の遺伝子ランキングの各々が、前記遺伝子の少なくとも1つのセットにおける前記少なくともいくつかの遺伝子のためのそれぞれの発現レベルに基づいて取得される、請求項101から102のいずれか一項に記載の方法。
【請求項104】
前記発現データが、遺伝子発現マイクロアレイを使用して取得された、請求項101から103のいずれか一項に記載の方法。
【請求項105】
前記発現データが、次世代シーケンシングを実行することによって取得された、請求項101から104のいずれか一項に記載の方法。
【請求項106】
前記発現データが、ハイブリダイゼーションベースの発現アッセイを使用して取得された、請求項101から105のいずれか一項に記載の方法。
【請求項107】
前記PTCLのサブタイプが、未分化大細胞リンパ腫(ALCL)、血管免疫芽球性T細胞リンパ腫(AITL)、ナチュラルキラー/T細胞リンパ腫(NKTCL)、および成人T細胞白血病/リンパ腫(ATLL)からなる群から選択される、請求項101から106のいずれか一項に記載の方法。
【請求項108】
前記PTCLのサブタイプが、末梢T細胞リンパ腫、非特定型(PTCL-NOS)、未分化大細胞リンパ腫(ALCL)、血管免疫芽球性T細胞リンパ腫(AITL)、皮膚T細胞性リンパ腫(CTCL)、ナチュラルキラー/T細胞リンパ腫(NKTCL)、セザリー症候群、成人T細胞白血病/リンパ腫(ATLL)、腸症型T細胞リンパ腫、鼻NK/T細胞リンパ腫、肝脾ガンマデルタT細胞リンパ腫、濾胞性T細胞(TFH)起源のT細胞リンパ腫、および消化管のT細胞リンパ腫からなる群から選択される、請求項101から107のいずれか一項に記載の方法。
【請求項109】
前記遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、Table 10(表10)に記載されている遺伝子群から選択される、請求項101から108のいずれか一項に記載の方法。
【請求項110】
前記遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、Table 10(表10)に記載されている遺伝子群から選択された、少なくとも3つの遺伝子を備える、請求項101に記載の方法。
【請求項111】
前記遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、Table 10(表10)に記載されている遺伝子群から選択された、少なくとも5つの遺伝子を備える、請求項101に記載の方法。
【請求項112】
前記遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、Table 10(表10)に記載されている遺伝子群から選択された、少なくとも10個の遺伝子を備える、請求項101に記載の方法。
【請求項113】
前記遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、Table 10(表10)に記載されている遺伝子群から選択された、少なくとも50個の遺伝子を備える、請求項101に記載の方法。
【請求項114】
前記遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、少なくとも1つの、AITLにおいて上方制御される遺伝子を含む、請求項101から113のいずれか一項に記載の方法。
【請求項115】
前記遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、少なくとも1つの、AITLにおいて下方制御される遺伝子を含む、請求項101から114のいずれか一項に記載の方法。
【請求項116】
前記遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、少なくとも1つのMFプロファイル遺伝子を含む、請求項101から115のいずれか一項に記載の方法。
【請求項117】
前記対象が、リンパ腫を有するか、有する疑いがあるか、または有する危険性がある、請求項101から116のいずれか一項に記載の方法。
【請求項118】
前記対象が、末梢T細胞リンパ腫(PTCL)を有するか、有する疑いがあるか、または有する危険性がある、請求項117に記載の方法。
【請求項119】
前記遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、少なくとも5つの遺伝子を含む、請求項101から118のいずれか一項に記載の方法。
【請求項120】
前記遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、5~100個の遺伝子からなる、請求項101から119のいずれか一項に記載の方法。
【請求項121】
前記遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、10~200個の遺伝子からなる、請求項101から120のいずれか一項に記載の方法。
【請求項122】
前記遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、20~100個の遺伝子からなる、請求項101から121のいずれか一項に記載の方法。
【請求項123】
前記遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、50~100個の遺伝子からなる、請求項101から122のいずれか一項に記載の方法。
【請求項124】
前記発現データが、前記遺伝子の少なくとも1つのセットにおける遺伝子のための発現レベルを各々表す値を含み、前記少なくとも1つの遺伝子ランキングのうちの遺伝子ランキングを決定するステップが、前記値に基づいて、前記遺伝子の少なくとも1つのセットのうちの1つにおける各遺伝子のための相対ランクを決定するステップを含む、請求項101から123のいずれか一項に記載の方法。
【請求項125】
前記PTCLのサブタイプを決定するステップが、前記少なくとも1つの統計モデルへの入力として、前記少なくとも1つの遺伝子ランキングを使用するステップと、前記PTCLのサブタイプを示す出力を取得するステップとをさらに含む、請求項101から124のいずれか一項に記載の方法。
【請求項126】
前記少なくとも1つの統計モデルが、勾配ブースト決定木分類器を備える、請求項101から125のいずれか一項に記載の方法。
【請求項127】
前記少なくとも1つの統計モデルが、勾配ブースト決定木分類器、決定木分類器、勾配ブースト分類器、ランダムフォレスト分類器、クラスタリングベースの分類器、ベイズ分類器、ベイジアンネットワーク分類器、ニューラルネットワーク分類器、カーネルベースの分類器、およびサポートベクターマシン分類器からなる群から選択された少なくとも1つの分類器を備える、請求項101から126のいずれか一項に記載の方法。
【請求項128】
前記少なくとも1つの統計モデルが、マルチクラス分類器を含む、請求項101から127のいずれか一項に記載の方法。
【請求項129】
前記マルチクラス分類器が、PTCLの異なるサブタイプに各々対応する少なくとも4つの出力を有する、請求項101から128のいずれか一項に記載の方法。
【請求項130】
前記少なくとも4つの出力が、未分化大細胞リンパ腫(ALCL)に対応する第1の出力と、血管免疫芽球性T細胞リンパ腫(AITL)に対応する第2の出力と、ナチュラルキラー/T細胞リンパ腫(NKTCL)に対応する第3の出力と、成人T細胞白血病/リンパ腫(ATLL)に対応する第4の出力とを含む、請求項129に記載の方法。
【請求項131】
前記少なくとも1つの統計モデルが、PTCLの異なるサブタイプに対応する複数の分類器を備える、請求項101から130のいずれか一項に記載の方法。
【請求項132】
前記複数の分類器が、第1の分類器と、第2の分類器と、第3の分類器と、第4の分類器とを含み、前記第1の分類器が未分化大細胞リンパ腫(ALCL)に対応し、前記第2の分類器が血管免疫芽球性T細胞リンパ腫(AITL)に対応し、前記第3の分類器がナチュラルキラー/T細胞リンパ腫(NKTCL)に対応し、前記第4の分類器が成人T細胞白血病/リンパ腫(ATLL)に対応する、請求項131に記載の方法。
【請求項133】
前記遺伝子の少なくとも1つのセットが、前記複数の分類器のうちの第1の分類器に関連付けられた遺伝子の第1のセットと、前記複数の分類器のうちの第2の分類器に関連付けられた遺伝子の第2のセットとを含む、請求項131に記載の方法。
【請求項134】
前記対象が、リンパ腫を有するか、有する疑いがあるか、または有する危険性がある、請求項101から133のいずれか一項に記載の方法。
【請求項135】
前記対象が、PTCLを有するか、有する疑いがあるか、または有する危険性がある、請求項101から134のいずれか一項に記載の方法。
【請求項136】
ユーザに、前記PTCLのサブタイプの指示を提示するステップをさらに含む、請求項101に記載の方法。
【請求項137】
前記PTCLのサブタイプの前記指示を提示するステップが、グラフィカルユーザインターフェース(GUI)において、前記ユーザに前記PTCLのサブタイプを表示するステップをさらに含む、請求項136に記載の方法。
【請求項138】
システムであって、
少なくとも1つのコンピュータハードウェアプロセッサと、
前記少なくとも1つのコンピュータハードウェアプロセッサによって実行されると、前記少なくとも1つのコンピュータハードウェアプロセッサに、請求項101から137のいずれか一項に記載の方法を実行させる、プロセッサ実行可能命令を記憶する、少なくとも1つの非一時的コンピュータ可読記憶媒体と
を備えるシステム。
【請求項139】
少なくとも1つのコンピュータハードウェアプロセッサによって実行されると、前記少なくとも1つのコンピュータハードウェアプロセッサに、請求項101から137のいずれか一項に記載の方法を実行させる、プロセッサ実行可能命令を記憶する、少なくとも1つの非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願
本出願は、その各々の内容全体が参照により本明細書に組み込まれる、2019年12月5日に出願した「MACHINE LEARNING TECHNIQUES FOR GENE EXPRESSION ANALYSIS」と題する米国仮特許出願第62/943,976号、および2020年8月3日に出願した「MACHINE LEARNING TECHNIQUES FOR DETERMINING PERIPHERAL T-CELL LYMPHOMA (PTCL) SUBTYPE USING GENE EXPRESSION DATA」と題する米国仮特許出願第63/060,512号の、米国特許法第119条(e)項に基づく利益を主張し、それらの継続出願である。
【0002】
本明細書で説明される技術の態様は、1つまたは複数のシーケンシングプラットフォームを使用して、生体試料をシーケンシングすること、および機械学習技法を使用して、得られた遺伝子発現データ(gene expression data)を解析することによって、がんを有するか、有する疑いがあるか、または有する危険性があることがわかっている対象から取得された生体試料の特性を決定することに関する。特に、本明細書で説明される技術は、1つまたは複数のシーケンシングプラットフォームからの遺伝子発現データを使用して、起源組織(tissue of origin)およびがんグレード(cancer grade)など、生体試料の特性を決定することを伴う。
【背景技術】
【0003】
生体細胞の特性は、いくつかの遺伝子の発現レベルに関係し得る。たとえば、癌細胞は、正常で健康な細胞に対して上方制御されるいくつかの遺伝子と、下方制御される他の遺伝子とを有し得る。細胞特性と遺伝子発現レベルとの間のこの関係は、生体細胞の特性を決定するために、遺伝子発現マイクロアレイを使用して、または次世代シーケンシングを行うことによって取得されたデータなど、生体細胞のための遺伝子発現データを解析する際に利用され得る。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】米国特許第10,311,967号
【特許文献2】米国特許出願第16/920,636号
【非特許文献】
【0005】
【非特許文献1】American Joint Committee on Cancer AJCC Cancer Staging Manual. 7th ed. New York、NY: Springer、2010
【非特許文献2】Guolin Ke、Qi Meng、Thomas Finley、Taifeng Wang、Wei Chen、Weidong Ma、Qiwei YeおよびTie-Yan Liu、LightGBM: A highly efficient gradient boosting decision tree、Advances in Neural Information Processing Systems、3149~3157頁、2017(https://dl.acm.org/doi/10.5555/3294996.3295074)
【非特許文献3】Tianqi ChenおよびCarlos Guestrin. XGBoost: A scalable tree boosting system、In Proceedings of the 22Nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining、785~794頁、ACM、2016(https://dl.acm.org/doi/10.1145/2939672.2939785)
【非特許文献4】Stephen Tyree、Kilian Q Weinberger、Kunal Agrawal、およびJennifer Paykin、Parallel boosted regression trees for web search ranking、In Proceedings of the 20th international conference on World wide web、387~396頁、ACM、2011(https://dl.acm.org/doi/10.1145/1963405.1963461)
【非特許文献5】Scott M. LundbergおよびSu-In Leeによる「A Unified Approach to Interpreting Model Predictions」(https://arxiv.org/pdf/1705.07874.pdf)
【非特許文献6】Wright G他、A gene expression-based method to diagnose clinically distinct subgroups of diffuse large B cell lymphoma、PNAS、2003、100:9991~9996 (doi:10.1073/pnas.1732008100)
【非特許文献7】Chakravarthy他、Human Papillomavirus Drives Tumor Development Throughout the Head and Neck: Improved Prognosis Is Associated With an Immune Response Largely Restricted to the Oropharynx、Journal of Clinical Oncology、34、no. 34 (2016年12月01日) 4132~4141 (DOI:10.1200/JCO.2016.68.2955)
【非特許文献8】Iqbal J、Wright G、Wang C他、Gene expression signatures delineate biological and prognostic subgroups in peripheral T-cell lymphoma、Blood、2014、123(19):2915~2923 (doi:10.1182/blood-2013-11-536359)
【非特許文献9】Jiang他、Expert Rev. Hematol. 2017年3月、10(3):239~249
【非特許文献10】Alizadeh他、Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling、Nature 403、503~511 (2000) (doi:10.1038/35000501)
【発明の概要】
【課題を解決するための手段】
【0006】
いくつかの実施形態は、コンピュータ実装方法であって、少なくとも1つのコンピュータハードウェアプロセッサを使用して、がんを有するか、有する疑いがあるか、または有する危険性がある対象の生体試料をシーケンシングすることによって少なくとも部分的に取得される、発現データを取得するステップであって、発現データが、複数の遺伝子のための発現レベルを備え、複数の遺伝子が、遺伝子のセットを構成する、ステップと、遺伝子のセットにおける少なくともいくつかの遺伝子を、発現データにおけるそれらの発現レベルに基づいてランク付けして、遺伝子ランキングを取得するステップと、遺伝子ランキングと、取得された遺伝子のセットにおける遺伝子のうちの少なくともいくつかの、複数の遺伝子ランキングを示すトレーニングデータを使用してトレーニングされた、統計モデルとを使用して、生体試料の少なくとも1つの特性を決定するステップであって、複数の遺伝子ランキングの各々が、遺伝子のセットにおける少なくともいくつかの遺伝子のためのそれぞれの発現レベルに基づいて取得される、ステップとを実行するステップを含む、コンピュータ実装方法を対象とする。
【0007】
少なくとも1つの特性は、生体試料における細胞のためのがんグレード(たとえば、乳がんグレード、腎臓明細胞(kidney clear cell)がんグレード、肺腺癌グレード)、生体試料における細胞のための起源組織(たとえば、肺、膵臓、胃、結腸、肝臓、膀胱、腎臓、甲状腺、リンパ節、副腎、皮膚、乳房、卵巣、前立腺、または、たとえば、胚中心B細胞(GCB)もしくは活性化B細胞(ABC)などの組織における起源細胞(cell of origin))、生体試料における細胞のための組織学的情報(たとえば、腺癌、扁平上皮癌、癌腫、嚢胞腺癌、肉腫、および神経膠腫などの組織タイプ)、および生体試料における細胞のためのがんサブタイプ(たとえば、未分化大細胞リンパ腫(ALCL)、血管免疫芽球性T細胞リンパ腫(AITL)、ナチュラルキラー/T細胞リンパ腫(NKTCL)、および成人T細胞白血病/リンパ腫(ATLL)などのPTCLサブタイプ)、ウイルス状態(たとえば、頭頸部扁平上皮癌についてのHPV陽性またはHPV陰性などのHPV状態)から選択され得る。
【0008】
いくつかの実施形態では、生体試料の少なくとも1つの特性が、生体試料における細胞、または細胞がそこから発生する組織の、生理学的特性である。いくつかの実施形態では、少なくとも1つの特性が、生体試料における細胞のためのがんグレード、生体試料における細胞のための起源組織、生体試料における細胞のための組織タイプ、および生体試料における細胞のためのがんサブタイプから選択される。
【0009】
いくつかの実施形態では、方法が、発現データを取得するステップより前に、遺伝子発現マイクロアレイを使用して、生体試料のシーケンシングを実行するステップをさらに含む。いくつかの実施形態では、方法が、発現データを取得するステップより前に、生体試料の次世代シーケンシングを実行するステップをさらに含む。
【0010】
いくつかの実施形態では、少なくとも1つの特性が、生体試料における細胞のためのがんグレードを含む。いくつかの実施形態では、少なくとも1つの特性が、生体試料における細胞のための起源組織を含む。
【0011】
いくつかの実施形態では、対象が、乳がんを有するか、有する疑いがあるか、または有する危険性がある。いくつかの実施形態では、遺伝子のセットが、Table 1(表1)に記載されている遺伝子群から選択される。いくつかの実施形態では、遺伝子のセットが、Table 1(表1)に記載されている遺伝子群から選択された、少なくとも3つの遺伝子を備える。いくつかの実施形態では、遺伝子のセットが、Table 1(表1)に記載されている遺伝子群から選択された、少なくとも5つの遺伝子を備える。いくつかの実施形態では、遺伝子のセットが、Table 1(表1)に記載されている遺伝子群から選択された、少なくとも10個の遺伝子を備える。いくつかの実施形態では、遺伝子のセットが、Table 1(表1)に記載されている遺伝子群から選択された、少なくとも20個の遺伝子を備える。
【0012】
いくつかの実施形態では、対象が、腎臓がんを有するか、有する疑いがあるか、または有する危険性がある。いくつかの実施形態では、対象が、明細胞腎臓がん(clear cell kidney cancer)を有するか、有する疑いがあるか、または有する危険性がある。いくつかの実施形態では、遺伝子のセットが、Table 2(表2)に記載されている遺伝子群から選択される。いくつかの実施形態では、遺伝子のセットが、Table 2(表2)に記載されている遺伝子群から選択された、少なくとも3つの遺伝子を備える。いくつかの実施形態では、遺伝子のセットが、Table 2(表2)に記載されている遺伝子群から選択された、少なくとも5つの遺伝子を備える。いくつかの実施形態では、遺伝子のセットが、Table 2(表2)に記載されている遺伝子群から選択された、少なくとも10個の遺伝子を備える。いくつかの実施形態では、遺伝子のセットが、Table 2(表2)に記載されている遺伝子群から選択された、少なくとも20個の遺伝子を備える。
【0013】
いくつかの実施形態では、対象が、リンパ腫を有するか、有する疑いがあるか、または有する危険性がある。いくつかの実施形態では、遺伝子のセットが、Table 3(表3)に記載されている遺伝子群から選択される。いくつかの実施形態では、遺伝子のセットが、Table 3(表3)に記載されている遺伝子群から選択された、少なくとも3つの遺伝子を備える。いくつかの実施形態では、遺伝子のセットが、Table 3(表3)に記載されている遺伝子群から選択された、少なくとも5つの遺伝子を備える。いくつかの実施形態では、遺伝子のセットが、Table 3(表3)に記載されている遺伝子群から選択された、少なくとも10個の遺伝子を備える。いくつかの実施形態では、遺伝子のセットが、Table 3(表3)に記載されている遺伝子群から選択された、少なくとも20個の遺伝子を備える。
【0014】
いくつかの実施形態では、対象が、頭頸部扁平上皮癌を有するか、有する疑いがあるか、または有する危険性がある。いくつかの実施形態では、遺伝子のセットが、Table 8(表8)に記載されている遺伝子群から選択される。いくつかの実施形態では、遺伝子のセットが、Table 8(表8)に記載されている遺伝子群から選択された、少なくとも10個の遺伝子を備える。
【0015】
いくつかの実施形態では、少なくとも1つの特性が、生体試料における細胞のためのヒトパピローマウイルス状態を含む。いくつかの実施形態では、遺伝子のセットが、Table 8(表8)に記載されている遺伝子群から選択される。いくつかの実施形態では、遺伝子のセットが、Table 8(表8)に記載されている遺伝子群から選択された、少なくとも10個の遺伝子を備える。
【0016】
いくつかの実施形態では、方法が、遺伝子の第2のセットにおける少なくともいくつかの遺伝子を、発現データにおけるそれらの発現レベルに基づいてランク付けして、第2の遺伝子ランキングを取得するステップと、第2の遺伝子ランキングと、遺伝子の第2のセットにおける遺伝子のうちの少なくともいくつかのための複数のランキングを示す第2のトレーニングデータを使用してトレーニングされた、第2の統計モデルとを使用して、生体試料の少なくとも1つの第2の特性を決定するステップとをさらに含む。
【0017】
いくつかの実施形態では、少なくとも1つの第2の特性が、生体試料における細胞のためのがんグレードを含む。いくつかの実施形態では、少なくとも1つの第2の特性が、生体試料における細胞のための起源組織を含む。
【0018】
いくつかの実施形態では、遺伝子ランキングを決定するステップが、発現レベルに基づいて、遺伝子のセットにおける各遺伝子のための相対ランクを決定するステップを含む。いくつかの実施形態では、少なくとも1つの特性を決定するステップが、統計モデルへの入力として、遺伝子ランキングを提供するステップと、少なくとも1つの特性を示す出力を取得するステップとをさらに含む。いくつかの実施形態では、統計モデルが、勾配ブースト決定木分類器(gradient boosted decision tree classifier)を備える。いくつかの実施形態では、統計モデルが、勾配ブースト決定木分類器、決定木分類器、勾配ブースト分類器(gradient boosted classifier)、ランダムフォレスト分類器、クラスタリングベースの分類器(clustering-based classifier)、ベイズ分類器、ベイジアンネットワーク分類器、ニューラルネットワーク分類器、カーネルベースの分類器(kernel-based classifier)、およびサポートベクターマシン分類器からなる群から選択された分類器を備える。
【0019】
いくつかの実施形態では、遺伝子のセットが、少なくとも5つの遺伝子を含む。いくつかの実施形態では、遺伝子のセットが、5~50個の遺伝子からなる。いくつかの実施形態では、遺伝子のセットが、5~300個の遺伝子からなる。
【0020】
いくつかの実施形態では、方法が、ユーザに、少なくとも1つの特性の指示を提示するステップをさらに含む。いくつかの実施形態では、少なくとも1つの特性の指示を提示するステップが、グラフィカルユーザインターフェース(GUI)において、ユーザに少なくとも1つの特性を表示するステップをさらに含む。
【0021】
いくつかの実施形態では、少なくとも1つの特性が、生体試料における細胞のためのがんグレードを含み、がんグレードが、グレード1、グレード2、グレード3、グレード4、およびグレード5からなる群から選択される。いくつかの実施形態では、少なくとも1つの特性が、生体試料における細胞のための起源組織を含み、起源組織が、肺組織、膵臓組織、胃組織、結腸組織、肝臓組織、膀胱組織、腎臓組織、甲状腺組織、リンパ節組織、副腎組織、皮膚組織、乳房組織、卵巣組織、前立腺組織、尿路上皮組織、子宮頸部組織(cervical tissue)、食道組織、脳組織、軟組織、結合組織、頭部組織、および頸部組織からなる群から選択される。いくつかの実施形態では、少なくとも1つの特性が、生体試料における細胞のための組織タイプを含み、組織タイプが、腺癌、扁平上皮癌、癌腫、嚢胞腺癌、肉腫、および神経膠腫からなる群から選択される。
【0022】
いくつかの実施形態では、少なくとも1つの特性が、生体試料における細胞のためのヒトパピローマウイルス(HPV)状態を含み、遺伝子のセットが、Table 8(表8)に記載されている遺伝子群から選択された、少なくとも5つの遺伝子を含む。いくつかの実施形態では、少なくとも1つの特性が、生体試料における細胞のための末梢T細胞リンパ腫(PTCL)のサブタイプを含み、遺伝子のセットが、Table 10(表10)に記載されている遺伝子群から選択された、少なくとも5つの遺伝子を含む。いくつかの実施形態では、PTCLのサブタイプが、未分化大細胞リンパ腫(ALCL)、血管免疫芽球性T細胞リンパ腫(AITL)、ナチュラルキラー/T細胞リンパ腫(NKTCL)、および成人T細胞白血病/リンパ腫(ATLL)からなる群から選択される。
【0023】
いくつかの実施形態では、対象が、乳がんを有するか、有する疑いがあるか、または有する危険性があり、遺伝子のセットが、Table 1(表1)に記載されている遺伝子群から選択された、少なくとも5つの遺伝子を備える。いくつかの実施形態では、遺伝子のセットが、Table 1(表1)に記載されている遺伝子群から選択された、少なくとも10個の遺伝子を備える。いくつかの実施形態では、対象が、腎臓がんを有するか、有する疑いがあるか、または有する危険性があり、遺伝子のセットが、Table 2(表2)に記載されている遺伝子群から選択された、少なくとも5つの遺伝子を備える。いくつかの実施形態では、対象が、リンパ腫を有するか、有する疑いがあるか、または有する危険性があり、遺伝子のセットが、Table 3(表3)に記載されている遺伝子群から選択された、少なくとも5つの遺伝子を備える。いくつかの実施形態では、対象が、びまん性大細胞型B細胞リンパ腫(DLBCL)を有するか、有する疑いがあるか、または有する危険性があり、遺伝子のセットが、Table 3(表3)に記載されている遺伝子群から選択された、少なくとも10個の遺伝子を備え、少なくとも1つの特性が、胚中心B細胞(GCB)および活性化B細胞(ABC)からなる群から選択された起源細胞である。いくつかの実施形態では、対象が、肺腺癌を有するか、有する疑いがあるか、または有する危険性があり、遺伝子のセットが、Table 6(表6)に記載されている遺伝子群から選択された、少なくとも5つの遺伝子を備える。
【0024】
いくつかの実施形態では、少なくとも1つの特性が、生体試料における細胞のためのがんグレード、生体試料における細胞のための起源組織、生体試料における細胞のための組織タイプ、および生体試料における細胞のためのがんサブタイプからなる群から選択される。
【0025】
いくつかの実施形態では、少なくとも1つの特性を決定するステップが、統計モデルへの入力として、遺伝子ランキングを提供するステップと、少なくとも1つの特性を示す出力を取得するステップとをさらに含む。いくつかの実施形態では、少なくとも1つの特性が、生体試料における細胞のためのがんグレード、生体試料における細胞のための起源組織、生体試料における細胞のための組織タイプ、および生体試料における細胞のためのがんサブタイプからなる群から選択される。
【0026】
いくつかの実施形態では、対象が、頭頸部扁平上皮癌を有するか、有する疑いがあるか、または有する危険性があり、遺伝子のセットが、Table 8(表8)に記載されている遺伝子群から選択された、少なくとも5つの遺伝子を備える。いくつかの実施形態では、遺伝子のセットが、Table 8(表8)に記載されている遺伝子群から選択された、少なくとも10個の遺伝子を備える。
【0027】
いくつかの実施形態では、少なくとも1つの特性が、生体試料における細胞のためのヒトパピローマウイルス(HPV)状態を含む。いくつかの実施形態では、少なくとも1つの特性が、生体試料における細胞のための末梢T細胞リンパ腫(PTCL)のサブタイプを含み、遺伝子のセットが、Table 10(表10)に記載されている遺伝子群から選択された、少なくとも5つの遺伝子を含む。いくつかの実施形態では、遺伝子のセットが、Table 10(表10)に記載されている遺伝子群から選択された、少なくとも10個の遺伝子を備える。いくつかの実施形態では、PTCLのサブタイプが、未分化大細胞リンパ腫(ALCL)、血管免疫芽球性T細胞リンパ腫(AITL)、ナチュラルキラー/T細胞リンパ腫(NKTCL)、および成人T細胞白血病/リンパ腫(ATLL)からなる群から選択される。
【0028】
いくつかの実施形態は、システムであって、少なくとも1つのハードウェアプロセッサと、少なくとも1つのハードウェアプロセッサによって実行されると、少なくとも1つのハードウェアプロセッサに、方法を実行させる、プロセッサ実行可能命令を記憶する、少なくとも1つの非一時的コンピュータ可読記憶媒体とを備える、システムを対象とする。方法は、がんを有するか、有する疑いがあるか、または有する危険性がある対象の生体試料をシーケンシングすることによって少なくとも部分的に取得される、発現データを取得するステップであって、発現データが、複数の遺伝子のための発現レベルを備え、複数の遺伝子が、遺伝子のセットを構成する、ステップと、遺伝子のセットにおける少なくともいくつかの遺伝子を、発現データにおけるそれらの発現レベルに基づいてランク付けして、遺伝子ランキングを取得するステップと、遺伝子ランキングと、取得された遺伝子のセットにおける遺伝子のうちの少なくともいくつかの、複数の遺伝子ランキングを示すトレーニングデータを使用してトレーニングされた、統計モデルとを使用して、生体試料の少なくとも1つの特性を決定するステップであって、複数の遺伝子ランキングの各々が、遺伝子のセットにおける少なくともいくつかの遺伝子のためのそれぞれの発現レベルに基づいて取得される、ステップとを含む。
【0029】
いくつかの実施形態は、プロセッサ実行可能命令を記憶する、少なくとも1つの非一時的コンピュータ可読記憶媒体を対象とし、プロセッサ実行可能命令が、少なくとも1つのハードウェアプロセッサによって実行されると、少なくとも1つのハードウェアプロセッサに、がんを有するか、有する疑いがあるか、または有する危険性がある対象の生体試料をシーケンシングすることによって少なくとも部分的に取得される、発現データを取得することであって、発現データが、複数の遺伝子のための発現レベルを備え、複数の遺伝子が、遺伝子のセットを構成する、こと、遺伝子のセットにおける少なくともいくつかの遺伝子を、発現データにおけるそれらの発現レベルに基づいてランク付けして、遺伝子ランキングを取得すること、および、遺伝子ランキングと、取得された遺伝子のセットにおける遺伝子のうちの少なくともいくつかの、複数の遺伝子ランキングを示すトレーニングデータを使用してトレーニングされた、統計モデルとを使用して、生体試料の少なくとも1つの特性を決定することであって、複数の遺伝子ランキングの各々が、遺伝子のセットにおける少なくともいくつかの遺伝子のためのそれぞれの発現レベルに基づいて取得される、ことを実行させる。
【0030】
いくつかの実施形態は、方法であって、少なくとも1つのコンピュータハードウェアプロセッサを使用して、がんを有するか、有する疑いがあるか、または有する危険性がある対象の生体試料における細胞のための発現データを取得するステップと、遺伝子の少なくとも1つのセットにおける少なくともいくつかの遺伝子を、発現データにおけるそれらの発現レベルに基づいてランク付けして、少なくとも1つの遺伝子ランキングを取得するステップと、少なくとも1つの遺伝子ランキングと、遺伝子の少なくとも1つのセットにおける少なくともいくつかの遺伝子のための複数のランキングを示すトレーニングデータを使用してトレーニングされた、少なくとも1つの統計モデルとを使用して、生体試料における細胞のうちの少なくともいくつかのための起源組織を決定するステップであって、複数の遺伝子ランキングの各々が、遺伝子の少なくとも1つのセットにおける少なくともいくつかの遺伝子のためのそれぞれの発現レベルに基づいて取得される、ステップとを実行するステップを含む、方法を対象とする。
【0031】
いくつかの実施形態では、発現データが、遺伝子発現マイクロアレイを使用して取得された。いくつかの実施形態では、発現データが、次世代シーケンシングを実行することによって取得された。いくつかの実施形態では、起源組織が、肺組織、膵臓組織、胃組織、結腸組織、肝臓組織、膀胱組織、腎臓組織、甲状腺組織、リンパ節組織、副腎組織、皮膚組織、乳房組織、卵巣組織、前立腺組織、尿路上皮組織、子宮頸部組織、食道組織、脳組織、軟組織、結合組織、頭部組織、および頸部組織からなる群から選択される。
【0032】
いくつかの実施形態では、方法が、少なくとも1つの遺伝子ランキングと、少なくとも1つの統計モデルとを使用して、生体試料における細胞のうちの少なくともいくつかのための組織タイプを決定するステップをさらに含む。いくつかの実施形態では、組織タイプが、腺癌、扁平上皮癌、癌腫、嚢胞腺癌、肉腫、および神経膠腫からなる群から選択される。いくつかの実施形態では、起源組織と組織タイプとの組合せが、肺腺癌、肺扁平上皮癌、黒色腫、乳癌、結腸直腸腺癌、卵巣漿液性嚢胞腺癌、褐色細胞腫、膀胱尿路上皮癌、子宮頸部扁平上皮癌、多形性膠芽腫、頭部扁平上皮癌、頸部扁平上皮癌、腎臓腎明細胞癌(kidney renal clear cell carcinoma)、腎臓腎乳頭細胞癌(kidney renal papillary cell carcinoma)、肝臓肝細胞癌、膵臓腺癌、傍神経節腫、前立腺腺癌、肉腫、胃腺癌、甲状腺癌、および子宮体子宮内膜癌(uterine corpus endometrial carcinoma)からなる群から選択される。
【0033】
いくつかの実施形態では、対象が、リンパ腫を有するか、有する疑いがあるか、または有する危険性がある。いくつかの実施形態では、対象が、びまん性大細胞型B細胞リンパ腫(DLBCL)を有するか、有する疑いがあるか、または有する危険性がある。いくつかの実施形態では、起源組織が、胚中心B細胞(GCB)および活性化B細胞(ABC)からなる群から選択された起源細胞である。いくつかの実施形態では、遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、Table 3(表3)に記載されている遺伝子群から選択される。いくつかの実施形態では、遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、Table 3(表3)に記載されている遺伝子群から選択された、少なくとも3つの遺伝子を備える。いくつかの実施形態では、遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、Table 3(表3)に記載されている遺伝子群から選択された、少なくとも5つの遺伝子を備える。いくつかの実施形態では、遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、Table 3(表3)に記載されている遺伝子群から選択された、少なくとも10個の遺伝子を備える。
【0034】
いくつかの実施形態では、遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、少なくとも5つの遺伝子を含む。いくつかの実施形態では、遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、5~100個の遺伝子からなる。いくつかの実施形態では、遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、10~200個の遺伝子からなる。いくつかの実施形態では、遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、20~100個の遺伝子からなる。いくつかの実施形態では、遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、50~100個の遺伝子からなる。
【0035】
いくつかの実施形態では、発現データが、遺伝子の少なくとも1つのセットにおける遺伝子のための発現レベルを各々表す値を含み、少なくとも1つの遺伝子ランキングのうちの遺伝子ランキングを決定するステップが、値に基づいて、遺伝子の少なくとも1つのセットのうちの1つにおける各遺伝子のための相対ランクを決定するステップを含む。いくつかの実施形態では、起源組織を決定するステップが、少なくとも1つの統計モデルへの入力として、少なくとも1つの遺伝子ランキングを使用するステップと、起源組織を示す出力を取得するステップとをさらに含む。
【0036】
いくつかの実施形態では、少なくとも1つの統計モデルが、勾配ブースト決定木分類器を備える。いくつかの実施形態では、少なくとも1つの統計モデルが、勾配ブースト決定木分類器、決定木分類器、勾配ブースト分類器、ランダムフォレスト分類器、クラスタリングベースの分類器、ベイズ分類器、ベイジアンネットワーク分類器、ニューラルネットワーク分類器、カーネルベースの分類器、およびサポートベクターマシン分類器からなる群から選択された少なくとも1つの分類器を備える。
【0037】
いくつかの実施形態では、遺伝子の少なくとも1つのセットが、組織の第1のタイプを予測することに関連付けられた遺伝子の第1のセットと、組織の第2のタイプを予測することに関連付けられた遺伝子の第2のセットとを備える。
【0038】
いくつかの実施形態は、システムであって、少なくとも1つのハードウェアプロセッサと、少なくとも1つのハードウェアプロセッサによって実行されると、少なくとも1つのハードウェアプロセッサに、方法を実行させる、プロセッサ実行可能命令を記憶する、少なくとも1つの非一時的コンピュータ可読記憶媒体とを備える、システムを対象とする。方法は、がんを有するか、有する疑いがあるか、または有する危険性がある対象の生体試料における細胞のための発現データを取得するステップと、遺伝子の少なくとも1つのセットにおける少なくともいくつかの遺伝子を、発現データにおけるそれらの発現レベルに基づいてランク付けして、少なくとも1つの遺伝子ランキングを取得するステップと、少なくとも1つの遺伝子ランキングと、遺伝子の少なくとも1つのセットにおける少なくともいくつかの遺伝子のための複数のランキングを示すトレーニングデータを使用してトレーニングされた、少なくとも1つの統計モデルとを使用して、生体試料における細胞のうちの少なくともいくつかのための起源組織を決定するステップであって、複数の遺伝子ランキングの各々が、遺伝子の少なくとも1つのセットにおける少なくともいくつかの遺伝子のためのそれぞれの発現レベルに基づいて取得される、ステップとを含む。
【0039】
いくつかの実施形態は、プロセッサ実行可能命令を記憶する、少なくとも1つの非一時的コンピュータ可読記憶媒体を対象とし、プロセッサ実行可能命令が、少なくとも1つのハードウェアプロセッサによって実行されると、少なくとも1つのハードウェアプロセッサに、がんを有するか、有する疑いがあるか、または有する危険性がある対象の生体試料における細胞のための発現データを取得すること、遺伝子の少なくとも1つのセットにおける少なくともいくつかの遺伝子を、発現データにおけるそれらの発現レベルに基づいてランク付けして、少なくとも1つの遺伝子ランキングを取得すること、および、少なくとも1つの遺伝子ランキングと、遺伝子の少なくとも1つのセットにおける少なくともいくつかの遺伝子のための複数のランキングを示すトレーニングデータを使用してトレーニングされた、少なくとも1つの統計モデルとを使用して、生体試料における細胞のうちの少なくともいくつかのための起源組織を決定することであって、複数の遺伝子ランキングの各々が、遺伝子の少なくとも1つのセットにおける少なくともいくつかの遺伝子のためのそれぞれの発現レベルに基づいて取得される、決定することを実行させる。
【0040】
いくつかの実施形態は、方法であって、少なくとも1つのコンピュータハードウェアプロセッサを使用して、がんを有するか、有する疑いがあるか、または有する危険性がある対象の生体試料における細胞のための発現データを取得するステップと、遺伝子のセットにおける少なくともいくつかの遺伝子を、発現データにおけるそれらの発現レベルに基づいてランク付けして、遺伝子ランキングを取得するステップと、遺伝子ランキングと、遺伝子のセットにおける少なくともいくつかの遺伝子のための複数のランキングを示すトレーニングデータを使用してトレーニングされた、統計モデルとを使用して、生体試料における細胞のうちの少なくともいくつかのためのがんグレードを決定するステップであって、複数の遺伝子ランキングの各々が、遺伝子のセットにおける少なくともいくつかの遺伝子のためのそれぞれの発現レベルに基づいて取得される、ステップとを実行するステップを含む、方法を対象とする。
【0041】
いくつかの実施形態では、発現データが、遺伝子発現マイクロアレイを使用して取得された。いくつかの実施形態では、発現データが、次世代シーケンシングを実行することによって取得された。いくつかの実施形態では、がんグレードが、少なくともグレード1、グレード2、およびグレード3からなる群から選択される。いくつかの実施形態では、がんグレードが、少なくともグレード1、グレード2、グレード3、およびグレード4からなる群から選択される。いくつかの実施形態では、がんグレードが、グレード1、グレード2、グレード3、グレード4、およびグレード5からなる群から選択される。
【0042】
いくつかの実施形態では、対象が、乳がんを有するか、有する疑いがあるか、または有する危険性がある。いくつかの実施形態では、遺伝子のセットが、Table 1(表1)に記載されている遺伝子群から選択される。いくつかの実施形態では、遺伝子のセットが、Table 1(表1)に記載されている遺伝子群から選択された、少なくとも3つの遺伝子を備える。いくつかの実施形態では、遺伝子のセットが、Table 1(表1)に記載されている遺伝子群から選択された、少なくとも5つの遺伝子を備える。いくつかの実施形態では、遺伝子のセットが、Table 1(表1)に記載されている遺伝子群から選択された、少なくとも10個の遺伝子を備える。
【0043】
いくつかの実施形態では、対象が、腎臓がんを有するか、有する疑いがあるか、または有する危険性がある。いくつかの実施形態では、対象が、明細胞腎臓がんを有するか、有する疑いがあるか、または有する危険性がある。いくつかの実施形態では、遺伝子のセットが、Table 2(表2)に記載されている遺伝子群から選択される。いくつかの実施形態では、遺伝子のセットが、Table 2(表2)に記載されている遺伝子群から選択された、少なくとも3つの遺伝子を備える。いくつかの実施形態では、遺伝子のセットが、Table 2(表2)に記載されている遺伝子群から選択された、少なくとも5つの遺伝子を備える。いくつかの実施形態では、遺伝子のセットが、Table 2(表2)に記載されている遺伝子群から選択された、少なくとも10個の遺伝子を備える。
【0044】
いくつかの実施形態では、対象が、肺腺癌を有するか、有する疑いがあるか、または有する危険性がある。いくつかの実施形態では、遺伝子のセットが、Table 6(表6)に記載されている遺伝子群から選択される。いくつかの実施形態では、遺伝子のセットが、Table 6(表6)に記載されている遺伝子群から選択された、少なくとも10個の遺伝子を備える。いくつかの実施形態では、遺伝子のセットが、少なくとも50個の遺伝子を含む。いくつかの実施形態では、遺伝子のセットが、10~100個の遺伝子からなる。いくつかの実施形態では、遺伝子のセットが、10~30個の遺伝子からなる。
【0045】
いくつかの実施形態では、発現データが、遺伝子のセットにおける遺伝子のための発現レベルを各々表す値を含み、遺伝子ランキングを決定するステップが、値に基づいて、遺伝子のセットにおける各遺伝子のための相対ランクを決定するステップを含む。いくつかの実施形態では、がんグレードを決定するステップが、統計モデルへの入力として、遺伝子ランキングを使用するステップと、がんグレードを示す出力を取得するステップとをさらに含む。
【0046】
いくつかの実施形態では、統計モデルが、勾配ブースト決定木分類器を備える。いくつかの実施形態では、統計モデルが、勾配ブースト決定木分類器、決定木分類器、勾配ブースト分類器、ランダムフォレスト分類器、クラスタリングベースの分類器、ベイズ分類器、ベイジアンネットワーク分類器、ニューラルネットワーク分類器、カーネルベースの分類器、およびサポートベクターマシン分類器からなる群から選択された分類器を備える。
【0047】
いくつかの実施形態は、システムであって、少なくとも1つのハードウェアプロセッサと、少なくとも1つのハードウェアプロセッサによって実行されると、少なくとも1つのハードウェアプロセッサに、方法を実行させる、プロセッサ実行可能命令を記憶する、少なくとも1つの非一時的コンピュータ可読記憶媒体とを備える、システムを対象とする。方法は、がんを有するか、有する疑いがあるか、または有する危険性がある対象の生体試料における細胞のための発現データを取得するステップと、遺伝子のセットにおける少なくともいくつかの遺伝子を、発現データにおけるそれらの発現レベルに基づいてランク付けして、遺伝子ランキングを取得するステップと、遺伝子ランキングと、遺伝子のセットにおける少なくともいくつかの遺伝子のための複数のランキングを示すトレーニングデータを使用してトレーニングされた、統計モデルとを使用して、生体試料における細胞のうちの少なくともいくつかのためのがんグレードを決定するステップであって、複数の遺伝子ランキングの各々が、遺伝子のセットにおける少なくともいくつかの遺伝子のためのそれぞれの発現レベルに基づいて取得される、ステップとを含む。
【0048】
いくつかの実施形態は、プロセッサ実行可能命令を記憶する、少なくとも1つの非一時的コンピュータ可読記憶媒体を対象とし、プロセッサ実行可能命令が、少なくとも1つのハードウェアプロセッサによって実行されると、少なくとも1つのハードウェアプロセッサに、がんを有するか、有する疑いがあるか、または有する危険性がある対象の生体試料における細胞のための発現データを取得すること、遺伝子のセットにおける少なくともいくつかの遺伝子を、発現データにおけるそれらの発現レベルに基づいてランク付けして、遺伝子ランキングを取得すること、および、遺伝子ランキングと、遺伝子のセットにおける少なくともいくつかの遺伝子のための複数のランキングを示すトレーニングデータを使用してトレーニングされた、統計モデルとを使用して、生体試料における細胞のうちの少なくともいくつかのためのがんグレードを決定することであって、複数の遺伝子ランキングの各々が、遺伝子のセットにおける少なくともいくつかの遺伝子のためのそれぞれの発現レベルに基づいて取得される、決定することを実行させる。
【0049】
いくつかの実施形態は、方法であって、少なくとも1つのコンピュータハードウェアプロセッサを使用して、がんを有するか、有する疑いがあるか、または有する危険性がある対象の生体試料における細胞のための発現データを取得するステップと、遺伝子の少なくとも1つのセットにおける少なくともいくつかの遺伝子を、発現データにおけるそれらの発現レベルに基づいてランク付けして、少なくとも1つの遺伝子ランキングを取得するステップと、少なくとも1つの遺伝子ランキングと、少なくとも1つの統計モデルとを使用して、生体試料における細胞のうちの少なくともいくつかのための末梢T細胞リンパ腫(PTCL)のサブタイプを決定するステップとを実行するステップを含む、方法を対象とする。
【0050】
いくつかの実施形態では、少なくとも1つの統計モデルが、遺伝子の少なくとも1つのセットにおける少なくともいくつかの遺伝子のための発現レベルの複数のランキングを示すトレーニングデータを使用してトレーニングされた。いくつかの実施形態では、複数の遺伝子ランキングの各々が、遺伝子の少なくとも1つのセットにおける少なくともいくつかの遺伝子のためのそれぞれの発現レベルに基づいて取得される。
【0051】
いくつかの実施形態では、発現データが、遺伝子発現マイクロアレイを使用して取得された。いくつかの実施形態では、発現データが、次世代シーケンシングを実行することによって取得された。いくつかの実施形態では、発現データが、ハイブリダイゼーションベースの発現アッセイ(hybridization-based expression assay)を使用して取得された。
【0052】
いくつかの実施形態では、PTCLのサブタイプが、未分化大細胞リンパ腫(ALCL)、血管免疫芽球性T細胞リンパ腫(AITL)、ナチュラルキラー/T細胞リンパ腫(NKTCL)、および成人T細胞白血病/リンパ腫(ATLL)からなる群から選択される。いくつかの実施形態では、PTCLのサブタイプが、末梢T細胞リンパ腫、非特定型(PTCL-NOS:Peripheral T-Cell Lymphoma, Not Otherwise Specified)、未分化大細胞リンパ腫(ALCL)、血管免疫芽球性T細胞リンパ腫(AITL)、皮膚T細胞性リンパ腫(CTCL)、ナチュラルキラー/T細胞リンパ腫(NKTCL)、セザリー症候群、成人T細胞白血病/リンパ腫(ATLL)、腸症型T細胞リンパ腫、鼻NK/T細胞リンパ腫、肝脾ガンマデルタT細胞リンパ腫(hepatosplenic gamma-delta T-cell lymphoma)、濾胞性T細胞(TFH)起源のT細胞リンパ腫(T-cell lymphomas of Follicular T-cell (TFH) origin)、および消化管のT細胞リンパ腫(T-cell lymphomas of the gastrointestinal tract)からなる群から選択される。
【0053】
いくつかの実施形態では、遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、Table 10(表10)に記載されている遺伝子群から選択される。いくつかの実施形態では、遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、Table 10(表10)に記載されている遺伝子群から選択された、少なくとも3つの遺伝子を備える。いくつかの実施形態では、遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、Table 10(表10)に記載されている遺伝子群から選択された、少なくとも5つの遺伝子を備える。いくつかの実施形態では、遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、Table 10(表10)に記載されている遺伝子群から選択された、少なくとも10個の遺伝子を備える。いくつかの実施形態では、遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、Table 10(表10)に記載されている遺伝子群から選択された、少なくとも50個の遺伝子を備える。
【0054】
いくつかの実施形態では、遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、少なくとも1つの、AITLにおいて上方制御される遺伝子(up-regulated in AITL gene)を含む。いくつかの実施形態では、遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、少なくとも1つの、AITLにおいて下方制御される遺伝子(down-regulated in AITL gene)を含む。いくつかの実施形態では、遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、少なくとも1つのMFプロファイル遺伝子を含む。
【0055】
いくつかの実施形態では、対象が、リンパ腫を有するか、有する疑いがあるか、または有する危険性がある。いくつかの実施形態では、対象が、末梢T細胞リンパ腫(PTCL)を有するか、有する疑いがあるか、または有する危険性がある。
【0056】
いくつかの実施形態では、遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、少なくとも5つの遺伝子を含む。いくつかの実施形態では、遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、5~100個の遺伝子からなる。いくつかの実施形態では、遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、10~200個の遺伝子からなる。いくつかの実施形態では、遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、20~100個の遺伝子からなる。いくつかの実施形態では、遺伝子の少なくとも1つのセットのうちの遺伝子のセットが、50~100個の遺伝子からなる。
【0057】
いくつかの実施形態では、発現データが、遺伝子の少なくとも1つのセットにおける遺伝子のための発現レベルを各々表す値を含み、少なくとも1つの遺伝子ランキングのうちの遺伝子ランキングを決定するステップが、値に基づいて、遺伝子の少なくとも1つのセットのうちの1つにおける各遺伝子のための相対ランクを決定するステップを含む。
【0058】
いくつかの実施形態では、PTCLのサブタイプを決定するステップが、少なくとも1つの統計モデルへの入力として、少なくとも1つの遺伝子ランキングを使用するステップと、PTCLのサブタイプを示す出力を取得するステップとをさらに含む。
【0059】
いくつかの実施形態では、少なくとも1つの統計モデルが、勾配ブースト決定木分類器を備える。いくつかの実施形態では、少なくとも1つの統計モデルが、勾配ブースト決定木分類器、決定木分類器、勾配ブースト分類器、ランダムフォレスト分類器、クラスタリングベースの分類器、ベイズ分類器、ベイジアンネットワーク分類器、ニューラルネットワーク分類器、カーネルベースの分類器、およびサポートベクターマシン分類器からなる群から選択された少なくとも1つの分類器を備える。
【0060】
いくつかの実施形態では、少なくとも1つの統計モデルが、マルチクラス分類器を含む。いくつかの実施形態では、マルチクラス分類器が、PTCLの異なるサブタイプに各々対応する少なくとも4つの出力を有する。いくつかの実施形態では、少なくとも4つの出力が、未分化大細胞リンパ腫(ALCL)に対応する第1の出力と、血管免疫芽球性T細胞リンパ腫(AITL)に対応する第2の出力と、ナチュラルキラー/T細胞リンパ腫(NKTCL)に対応する第3の出力と、成人T細胞白血病/リンパ腫(ATLL)に対応する第4の出力とを含む。
【0061】
いくつかの実施形態では、少なくとも1つの統計モデルが、PTCLの異なるサブタイプに対応する複数の分類器を備える。いくつかの実施形態では、複数の分類器が、第1の分類器と、第2の分類器と、第3の分類器と、第4の分類器とを含み、第1の分類器が未分化大細胞リンパ腫(ALCL)に対応し、第2の分類器が血管免疫芽球性T細胞リンパ腫(AITL)に対応し、第3の分類器がナチュラルキラー/T細胞リンパ腫(NKTCL)に対応し、第4の分類器が成人T細胞白血病/リンパ腫(ATLL)に対応する。いくつかの実施形態では、遺伝子の少なくとも1つのセットが、複数の分類器のうちの第1の分類器に関連付けられた遺伝子の第1のセットと、複数の分類器のうちの第2の分類器に関連付けられた遺伝子の第2のセットとを含む。
【0062】
いくつかの実施形態では、対象が、リンパ腫を有するか、有する疑いがあるか、または有する危険性がある。いくつかの実施形態では、対象が、PTCLを有するか、有する疑いがあるか、または有する危険性がある。
【0063】
いくつかの実施形態では、方法が、ユーザに、PTCLのサブタイプの指示を提示するステップをさらに含む。いくつかの実施形態では、PTCLのサブタイプの指示を提示するステップが、グラフィカルユーザインターフェース(GUI)において、ユーザにPTCLのサブタイプを表示するステップをさらに含む。
【0064】
いくつかの実施形態は、システムであって、少なくとも1つのハードウェアプロセッサと、少なくとも1つのハードウェアプロセッサによって実行されると、少なくとも1つのハードウェアプロセッサに、方法を実行させる、プロセッサ実行可能命令を記憶する、少なくとも1つの非一時的コンピュータ可読記憶媒体とを備える、システムを対象とする。方法は、がんを有するか、有する疑いがあるか、または有する危険性がある対象の生体試料における細胞のための発現データを取得するステップと、遺伝子の少なくとも1つのセットにおける少なくともいくつかの遺伝子を、発現データにおけるそれらの発現レベルに基づいてランク付けして、少なくとも1つの遺伝子ランキングを取得するステップと、少なくとも1つの遺伝子ランキングと、少なくとも1つの統計モデルとを使用して、生体試料における細胞のうちの少なくともいくつかのための末梢T細胞リンパ腫(PTCL)のサブタイプを決定するステップとを含む。
【0065】
いくつかの実施形態は、プロセッサ実行可能命令を記憶する、少なくとも1つの非一時的コンピュータ可読記憶媒体を対象とし、プロセッサ実行可能命令が、少なくとも1つのハードウェアプロセッサによって実行されると、少なくとも1つのハードウェアプロセッサに、がんを有するか、有する疑いがあるか、または有する危険性がある対象の生体試料における細胞のための発現データを取得すること、遺伝子の少なくとも1つのセットにおける少なくともいくつかの遺伝子を、発現データにおけるそれらの発現レベルに基づいてランク付けして、少なくとも1つの遺伝子ランキングを取得すること、および、少なくとも1つの遺伝子ランキングと、少なくとも1つの統計モデルとを使用して、生体試料における細胞のうちの少なくともいくつかのための末梢T細胞リンパ腫(PTCL)のサブタイプを決定することを実行させる。
【0066】
様々な態様および実施形態が、以下の図を参照しながら説明される。図は、必ずしも一定の縮尺で描かれているとは限らない。
【図面の簡単な説明】
【0067】
【
図1】本明細書で説明される機械学習技法を使用して、生体試料のための1つまたは複数のそれぞれの遺伝子ランキングに基づいて、生体試料の1つまたは複数の特性を決定するための例示的なプロセスの図である。
【
図2】本明細書で説明される機械学習技法を使用して、複数の統計モデルを使用して、複数の特性予測を取得すること、および特性予測を集約することに基づいて、生体試料の特性を決定するための例示的なプロセスの図である。
【
図3】本明細書で説明される機械学習技法を使用して、遺伝子ランキングおよび統計モデルを使用して、生体試料の特性を決定するための例示的なプロセスのフローチャートである。
【
図4】本明細書で説明される機械学習技法を使用して、生体試料における細胞のための起源組織を決定するための例示的なプロセスのフローチャートである。
【
図5】本明細書で説明される機械学習技法を使用して、生体試料における細胞のためのがんグレードを決定するための例示的なプロセスのフローチャートである。
【
図6A】乳がんグレードを決定するための、例示的な異なるデータセット、データセットの試料のための関連付けられた臨床的がんグレード、および本明細書で説明される機械学習技法を使用して取得された予測がんグレードを示す図である。
【
図6B】乳がんグレード1およびグレード3に関連付けられた遺伝子発現プロファイルを示す、異なる経路のための例示的な濃縮シグネチャ(enrichment signature)を示す図である。
【
図6C】乳がんグレードを決定するための、例示的な異なるデータセット、データセットの試料のための関連付けられた臨床的がんグレード、および本明細書で説明される機械学習技法を使用する、予測がんグレードを示す図である。
【
図6D】乳がんグレード1およびグレード3に関連付けられた遺伝子発現プロファイルを示す、異なる経路のための例示的な濃縮シグネチャを示す図である。
【
図7】本明細書で説明される機械学習技法を使用して、異なる生体試料の乳がんグレードを予測するための、真陽性率対偽陽性率の例示的なプロットである。
【
図8A】本明細書で説明される機械学習技法を使用して、遺伝子セットを選択するための例示的なプロセスのフローチャートである。
【
図8B】本明細書で説明される機械学習技法を使用して、遺伝子セットを選択するための例示的なプロセスのフローチャートである。
【
図9A】本明細書で説明される機械学習技法を使用して、起源組織を決定するために使用された、品質スコア対遺伝子の数の例示的なプロットである。
【
図9B】本明細書で説明される機械学習技法を使用して、胚中心B細胞(GCB)および活性化B細胞(ABC)など、びまん性大細胞型B細胞リンパ腫(DLBCL)のための起源組織を決定するために使用された、F1スコア対遺伝子の数の例示的なプロットである。
【
図10】本明細書で説明される機械学習技法を実装する際に使用され得る、例示的なコンピュータシステムのブロック図である。
【
図11】本明細書で説明される機械学習技法が実装され得る、例示的な環境1100のブロック図である。
【
図12】PAM50サブタイプの間の分子がんグレードの例示的な分布の図である。
【
図13】子孫プロセススコア(progeny process score)がTCGA BRCAにおける所与のがんグレードおよび予測がんグレードにどのように対応するかを示す、データセットおよび濃縮シグネチャを示す図である。
【
図14】異なる予測がんグレードのための異なるタンパク質発現レベルを比較する例示的なプロットである。
【
図15】異なる予測がんグレードのための細胞傷害性スコア(cytolitic score)の例示的なプロットである。
【
図16】WESデータによる、異なるがんグレード間の突然変異における差異を示す例示的なプロットである。
【
図17】WESデータによる、予測がんグレード間で差次的に増幅または欠失される例示的なセグメントを示す図である。
【
図18】子孫プロセススコアがTCGA KIRCにおける所与のがんグレードおよび予測がんグレードにどのように対応するかを示す、データセットおよび濃縮シグネチャを示す図である。
【
図19】異なるがんグレードのための染色体不安定性を示すプロットである。
【
図20】異なる予測がんグレードのための異なるタンパク質発現を比較するプロットである。
【
図21】予測がんグレード間で差次的に増幅または欠失される、WESデータによる、遺伝子を示す図である。
【
図22】予測がんグレード間で差次的に増幅または欠失される、WESデータによる、遺伝子を示す図である。
【
図23A】肺腺癌のがんグレードを決定するための、例示的な検証データセット、データセットの試料について報告された関連付けられたがんグレード、本明細書で説明される機械学習技法を使用して取得された予測がんグレード、ならびに、グレード1およびグレード3に関連付けられた遺伝子発現プロファイルを示す、異なる経路のための濃縮シグネチャを示す図である。
【
図23B】本明細書で説明される機械学習技法を使用して、検証データセットを肺腺癌がんグレード分類器に適用した例示的な結果を示す図である。
【
図23C】本明細書で説明される機械学習技法を使用して、異なる生体試料のがんグレードを予測するための、真陽性率対偽陽性率の例示的なプロットである。
【
図24A】DLBCLサブタイプを決定するための、例示的な検証データセット、データセットの試料について報告された関連付けられた起源細胞、本明細書で説明される機械学習技法を使用して取得された予測起源細胞、ならびにABCサブタイプおよびGCBサブタイプのための濃縮シグネチャを示す図である。
【
図24B】DLBCLサブタイプを決定するための、例示的な検証データセット、データセットの試料について報告された関連付けられた起源細胞、本明細書で説明される機械学習技法を使用して取得された予測起源細胞、ならびにABCサブタイプおよびGCBサブタイプのための濃縮シグネチャを示す図である。
【
図24C】異なる群(ABC、GCB)のための生存率の例示的なプロットである。
【
図24D】異なる群(ABC、GCB)のための生存率の例示的なプロットである。
【
図24E】本明細書で説明される機械学習技法を使用して、異なる生体試料のDLBCLサブタイプを予測するための、真陽性率対偽陽性率の例示的なプロットである。
【
図25A】HPV状態を決定するための、例示的な検証データセット、データセットの試料について報告された関連付けられたHPV状態、本明細書で説明される機械学習技法を使用して取得された予測HPV状態、ならびに、HPV状態に関連付けられた遺伝子発現プロファイルを示す、異なる経路のための濃縮シグネチャを示す図である。
【
図25B】HPV状態の異なる群(陽性HPVおよび陰性HPV)のための生存率の例示的なプロットである。
【
図25C】HPV状態の異なる群(陽性HPVおよび陰性HPV)のための生存率の例示的なプロットである。
【
図25D】本明細書で説明される機械学習技法を使用して、異なる生体試料のHPV状態を予測するための、真陽性率対偽陽性率の例示的なプロットである。
【
図25E】本明細書で説明される機械学習技法を使用して、異なる生体試料のHPV状態を予測するための、真陽性率対偽陽性率の例示的なプロットである。
【
図25F】本明細書で説明される機械学習技法を使用する、異なるHPV株(HPV strain)のための分類器の性能を示す例示的なプロットである。
【
図26】本明細書で説明される機械学習技法を使用して、生体試料の末梢T細胞リンパ腫(PTCL)サブタイプを決定するための例示的なプロセスの図である。
【
図27】本明細書で説明される機械学習技法を使用して、生体試料の末梢T細胞リンパ腫(PTCL)サブタイプを決定するための例示的なプロセスの図である。
【
図28】本明細書で説明される機械学習技法を使用して、複数の統計モデルを使用して、生体試料の末梢T細胞リンパ腫(PTCL)サブタイプを決定することに基づいて、生体試料の特性を決定するための例示的なプロセスの図である。
【
図29】本明細書で説明される機械学習技法を使用して、遺伝子ランキングおよび統計モデルを使用して、生体試料のための末梢T細胞リンパ腫(PTCL)のサブタイプを決定するための例示的なプロセスのフローチャートである。
【
図30】異なる末梢T細胞リンパ腫(PTCL)サブタイプのための生存率の例示的なプロットである。
【発明を実施するための形態】
【0068】
生体細胞の特性は、いくつかの遺伝子の発現レベルに関係し得る。たとえば、癌細胞は、正常で健康な細胞に対して上方制御されるいくつかの遺伝子と、下方制御される他の遺伝子とを有し得る。細胞特性と遺伝子発現レベルとの間のこの関係は、生体細胞のための遺伝子発現データを解析する際に利用され得る。特に、そのような関係は、人(たとえば、病理学者)によって目視観測される生体細胞の特徴に一般に関係する、起源組織およびがんグレードを含む、組織学的特性と見なされる生体細胞の特性を解析する際に、いくつかの利益を提供し得る。いくつかの事例では、遺伝子発現データは、病理学者の間の査定における差異の間の変動を受けることがある、組織学的技法を使用することによるよりも、ある細胞特性のより一貫した査定を提供し得る。
【0069】
大量の遺伝子発現データは、遺伝子発現マイクロアレイを使用することによるもの、および次世代シーケンシングを実行することによるものを含めて、異なるプラットフォームを通して取得され得、生体細胞を特性化するために現在利用可能であるか、または生成され得る。しかしながら、本発明者は、これらのデータから導出可能である情報が、異なる遺伝子シーケンシングプラットフォームの間の差異によって損なわれ、その差異が、それらのシーケンシングプラットフォームが同じ生体試料をシーケンシングするために使用される場合でも、それらのシーケンシングプラットフォームによって生じる遺伝子発現データにおける変動につながり得ることを認識している。たとえば、マイクロアレイおよび次世代シーケンシング(NGS)技法は、遺伝子発現レベルを表す特定の値が、同じ生体試料から取得される場合でも、プラットフォームの間で変動し得る、遺伝子発現データを生じ得る。異なるシーケンシングプラットフォームにわたる発現値におけるこの変動は、発現データが取得される方法のために生じ得る。特定のタイプのシーケンシングプラットフォーム(たとえば、次世代シーケンシング、マイクロアレイ)を使用して、遺伝子発現データを取得するために使用されるプロセスおよびデバイスは、取得される発現レベルのための特定の値に影響を及ぼし得る。次に、発現レベルのための値は、どのシーケンシングプラットフォームが、遺伝子発現データを取得するために使用されたかに依存する。この変動は、異なるタイプのシーケンシングプラットフォームのみにわたって生じ得るのではなく、異なるシーケンシングプラットフォームが同じタイプ(たとえば、次世代シーケンシング)のものであり、異なるシステム(たとえば、光学系、検出器)およびプロセス(たとえば、生体試料調製)、または(たとえば、較正、使用、環境などにおける差異のために)異なるロケーションにおける同じデバイスさえも伴う場合にも生じ得る。
【0070】
本発明者は、発現レベル値におけるそのような変動が、特に、異なるシーケンシングプラットフォームを使用して取得された遺伝子発現データを使用するとき、細胞を特性化するために、遺伝子発現データを解析する際に、重要な課題をもたらすことを認識している。いくつかの発現データの場合、異なるシーケンシングプラットフォームを使用して取得された発現データが、同じまたは同様の技法を使用して解析され得るような方法で、発現レベル値を正規化することが課題であり得る。
【0071】
発現データを解析するための従来の技法は、一般に、単一のシーケンシングプラットフォームを使用して取得された発現データの解析、ならびに試料の調製およびシーケンシングにおいて使用された特定の条件のみに適用可能である。そのような従来の技法は、複数のシーケンシングプラットフォームが同じタイプ(たとえば、次世代シーケンシング、マイクロアレイ)のものであるときでも、それらのシーケンシングプラットフォームから取得された発現データの解析に適用可能ではない。たとえば、遺伝子発現データを解析するための従来の技法は、異なる次世代シーケンシングデバイスを使用して取得された発現データのための異なるデータ解析パイプラインを伴い得る。加えて、いくつかの従来の技法は、同じシーケンシングデバイスが使用された場合でも、発現データがどのように取得されたかに応じて、異なるデータ解析パイプラインを実装することを伴う。たとえば、遺伝子発現データを解析するための従来の技法は、異なるシーケンシング条件または異なる試料処理方法によって異なり得る。結果として、発現データを解析するための従来の技法を、異なるシーケンシングプラットフォーム、試料調製技法、およびシーケンシング条件にわたって実装することができない。このことは、細胞の特性を決定するための遺伝子発現データの有用性に著しく影響を及ぼす。
【0072】
発現データを解析するための技法の1つの重要な群は、入力として発現レベル値(またはその派生物)を受信して、予測または分類など、関心のある出力を生じるように構成される、統計モデル(たとえば、機械学習モデル)を含む。本発明者によって開発された、そのような統計モデルの例が、本明細書で提供される。使用されるより前に、そのような統計モデルは、入力/出力の対を備えるトレーニングデータにおいてトレーニングされる。トレーニングデータ入力が、あるタイプのシーケンシングプラットフォームから来る発現レベル値(またはその派生物)を含む場合、そのようなデータを用いてトレーニングされた統計モデルは、別のタイプのシーケンシングプラットフォームから来る発現レベル値が提供されるとき、(そのためにトレーニングされるタスクにおいて)不十分な性能を示すようになる。実際に、異なるシーケンシングプラットフォームからの発現レベル値にわたる変動によって、複数のタイプのシーケンシングプラットフォームのうちのいずれか1つからのデータを使用して、タスクを実行するようにトレーニングされた単一の統計モデルを設計することは、困難または不可能になる。代わりに、別個の統計モデルが、各特定のシーケンシングプラットフォームのために、その特定のシーケンシングプラットフォームのために取得されたトレーニングデータを使用して、トレーニングされなければならないようになり、そのことは困難であり、その理由は、それによって各プラットフォームのための複数のモデルをトレーニングすることが必要であり、このために、追加の計算リソースが必要になるだけでなく、各タイプのプラットフォームのために利用可能な十分なトレーニングデータがない場合があるので、単に可能でない場合があるからである。
【0073】
本発明者は、プラットフォームによって生成された発現レベルデータのタイプにおける差異にもかかわらず、異なるシーケンシングプラットフォームにわたって取得された発現データを解析するために使用され得る、共通の技法の必要を認識している。そのような技法は、従来の遺伝子発現レベル解析技法が可能にしようとしなかった、異なる対象にわたる遺伝子発現データの解析を容易にするようになる。たとえば、遺伝子発現データを解析するための本明細書で説明される技法は、複数の対象のために、同じタイプのシーケンシングプラットフォーム(たとえば、次世代シーケンシング、マイクロアレイ)を使用して取得された発現データのために、同じまたは同様のデータ解析パイプライン(そのパイプラインは、1つまたは複数の統計モデルを含み得、その例が本明細書で提供される)を使用することを伴い得る。そのようなデータ解析パイプラインは、発現データを取得する際に使用された試料処理(たとえば、DNA抽出、増幅)、シーケンシング条件(たとえば、温度、pH)、データ処理(たとえば、次世代シーケンシング、マイクロアレイのためのデータ処理)にかかわらず、発現データが同じまたは同様の方法で解析されることを可能にし得る。
【0074】
発現データを解析するための従来の技法とともに生じる困難のうちのいくつかに対処するために、本発明者は、発現データを取得するために使用されたシーケンシングプラットフォームおよびデータ処理とは無関係である、発現データを解析する際の改善された技法を開発した。特に、本発明者は、シーケンシングプラットフォームの間の発現レベルの変動が、後続のデータ解析において、データにおける発現レベルの特定の値ではなく、遺伝子のセットのランキングを使用することによって、考慮され得ることを認識している。たとえば、本発明者は、生体試料の様々な特性(たとえば、組織試料のための起源組織、がんグレード、がんタイプ)を決定するための様々な統計モデルを開発した。各そのような統計モデルは、発現レベル自体を使用するのではなく、遺伝子のそれぞれのセットのランキングを使用して、生体試料のそれぞれの特性を決定するためにトレーニングされ、それによって、統計モデルが、異なるタイプのシーケンシングプラットフォームから取得された発現データにおいて動作することが可能になる。
【0075】
したがって、いくつかの実施形態では、統計モデルは、シーケンシングプラットフォームのための、それらのそれぞれの発現レベルに基づいてランク付けされた、遺伝子の入力ランキングに基づいて、生体試料の特性を予測するために使用され得る。発現レベルのための特定の値ではなく、入力ランキングを使用することによって、発現レベルが取得された特定の方法にかかわらず(たとえば、発現レベルを取得するための、どのシーケンシングプラットフォーム、シーケンシング条件、試料調製、データ処理か、などにかかわらず)、同じまたは同様のデータ処理パイプラインが、異なる発現データにわたって使用されることが可能になる。本明細書で説明されるように、統計モデルは、決定されている特定の特性に特異的であり得る。本明細書で説明される技法による統計モデルは、1つまたは複数の特性を予測するために使用され得、特性は、生体試料における細胞のためのがんグレード(たとえば、乳がんグレード、腎臓明細胞がんグレード、肺腺癌グレード)、生体試料における細胞のための起源組織(たとえば、肺、膵臓、胃、結腸、肝臓、膀胱、腎臓、甲状腺、リンパ節、副腎、皮膚、乳房、卵巣、前立腺、または、たとえば、胚中心B細胞(GCB)もしくは活性化B細胞(ABC)などの組織における起源細胞)、生体試料における細胞のための組織学的情報(たとえば、腺癌、扁平上皮癌、癌腫、嚢胞腺癌、肉腫、および神経膠腫などの組織タイプ)、および生体試料における細胞のためのがんサブタイプ(たとえば、未分化大細胞リンパ腫(ALCL)、血管免疫芽球性T細胞リンパ腫(AITL)、ナチュラルキラー/T細胞リンパ腫(NKTCL)、および成人T細胞白血病/リンパ腫(ATLL)などのPTCLサブタイプ)、ウイルス状態(たとえば、頭頸部扁平上皮癌についてのHPV陽性またはHPV陰性などのHPV状態)を含む。
【0076】
たとえば、いくつかの実施形態では、シーケンシングプラットフォームによって決定された(生体試料における)遺伝子発現レベルに基づく遺伝子のランキングが、生体試料のための起源組織を予測するためにトレーニングされた統計モデルへの入力として提供され得る。別の例として、いくつかの実施形態では、シーケンシングプラットフォームによって決定された(生体試料における)遺伝子発現レベルに基づく遺伝子のランキングが、生体試料のためのがんグレードを予測するためにトレーニングされた統計モデルへの入力として提供され得る。いくつかの実施形態では、ランク付けされている遺伝子のセットは、関心のある特定の生物学的特性に依存する。たとえば、遺伝子のあるセットは、起源組織を決定するために使用され得、遺伝子の別のセットは、がんグレードを決定するために使用され得る。
【0077】
本明細書で説明されるような遺伝子のランキングを使用することを伴う機械学習技法は、従来の機械学習技法の改善であり、その理由は、遺伝子発現データを解析するために、遺伝子発現値を直接使用する、従来の機械学習技法よりも向上するからである。たとえば、発現データがどのように生成されたかにかかわらず、共通の統計モデルが実装されることを可能にする際に、遺伝子ランキングを使用することによって提供される利益のために、異なるシーケンシングプラットフォームを使用して取得されたトレーニングデータが、本明細書で説明される統計モデルをトレーニングする際に使用され得る。対照的に、遺伝子発現値を使用することを伴う従来の機械学習技法は、異なるシーケンシングプラットフォーム、試料調製技法などを使用するときなど、発現データがどのように生成されたかに応じて、個々の別個の統計モデルを必要とする。したがって、本明細書で説明される機械学習技法は、異なる方法で生成された発現データを解析するために必要とされた複数の統計モデルをトレーニングするために、異なるシーケンシングプラットフォームにわたってトレーニングデータを収集するための必要性を低減する。加えて、本明細書で説明される統計モデルは、従来の技法とは対照的に、より良い性能を有し得る。たとえば、本明細書で説明される技法による統計モデルは、異なるソースから取得されたトレーニングデータ、および、したがって、一般により多くのトレーニングデータを使用してトレーニングされ得、それによって、使用されている統計モデルの全体的な性能を向上させる。対照的に、従来の機械学習モデルのためのトレーニングデータのソースは、特定のシーケンシングプラットフォーム、試料調製技法などに限定され得、性能は、発現データを生成する特定の方法を使用して利用可能なトレーニングデータの量に依存し得る。
【0078】
加えて、使用されたシーケンシングプラットフォーム、試料調製、およびシーケンシング条件とは無関係である統計モデルを有することによって、そのような統計モデルの展開および使用がより実用的になり得る。実際の臨床では、異なる患者からのデータは、異なる試料調製技法およびシーケンシングプラットフォームを使用して生成された発現データなど、複数のソースから発生する可能性がある。上記で説明されたように、本明細書で説明される技法は、共通の統計モデルを使用することによって、これらの異なるソースから発生する患者データを一様に扱うための能力を可能にする。このようにして患者データを解析するための能力は、患者データによって表された患者の数に依存するバイオインフォマティクス技術の改善を提供し、その理由は、患者のより大きいプールが、共通の統計モデルを使用して解析され得るからである。これらの利益は、生体試料における細胞の特性を予測することを含む、バイオインフォマティクス解析が使用され得る適用例に及び、その場合、多数の患者にわたる、より大きい試料サイズを使用可能であることが有利である。
【0079】
さらに、本明細書で説明される機械学習技法は、発現データを記憶するための異なるフォーマットの扱いを合理化し得る。異なるタイプのシーケンシングプラットフォームは、異なるデータフォーマットを使用して、発現データを出力する。本明細書で説明されるように、ランキングプロセスが、遺伝子ランキングを生成するために使用され、次いで、遺伝子ランキングが、共通の統計モデルに入力される。ランキングプロセスは、異なるデータフォーマットを使用するソースから発生する発現データが、統計モデルへの同様のタイプの入力を有することを可能にし得る。これによって、異なるデータ処理パイプラインが異なる入力データフォーマットのために必要とされる、従来の解析技法と比較して、異なるシーケンシングプラットフォームから取得された発現データの扱いを改善し得る。
【0080】
本明細書で説明されるいくつかの実施形態は、遺伝子発現データを使用して、生体試料の特性を決定することに関して、本発明者が認識した、上記で説明された問題のすべてに対処する。しかしながら、本明細書で説明されるあらゆる実施形態が、これらの問題のあらゆるものに対処するとは限らず、いくつかの実施形態は、それらのいずれかに対処しないことがある。したがって、本明細書で説明される技術の実施形態は、遺伝子発現データを使用して、生体試料の特性を決定することに関する、上記で説明された問題のすべてまたはいずれかに対処することに限定されないことを諒解されたい。
【0081】
いくつかの実施形態は、対象の生体試料のための遺伝子発現データを取得すること、遺伝子のセットにおける遺伝子を、発現データにおけるそれらの発現レベルに基づいてランク付けして、1つまたは複数の遺伝子ランキングを取得することを伴う。1つまたは複数の遺伝子ランキングは、起源組織およびがんグレードを含む、生体試料の1つまたは複数の特性を決定するために、統計モデルとともに使用され得る。統計モデルは、遺伝子のセットにおける一部または全部の遺伝子のための発現レベルのランキングを使用してトレーニングされ得る。
【0082】
遺伝子ランキングは、遺伝子の1つまたは複数のセットにおける遺伝子を、発現データにおけるそれらの発現レベルに基づいてランク付けすることによって取得され得る。いくつかの実施形態では、発現データは、遺伝子のセットにおける遺伝子のための発現レベルを各々表す値を含む。遺伝子ランキングを決定することは、値に基づいて、遺伝子のセットにおける各遺伝子のための相対ランクを決定することを伴い得る。たとえば、第1の遺伝子ランキングは、遺伝子の第1のセットにおける遺伝子を、それらの発現レベルに基づいてランク付けすることによって取得され得、第2の遺伝子ランキングは、遺伝子の第2のセットにおける遺伝子を、それらの発現レベルに基づいてランク付けすることによって取得され得る。いくつかの実施形態では、遺伝子の第1のセットおよび遺伝子の第2のセットは、一部または全部の遺伝子を共有し得る。1つまたは複数の特性を決定することは、第1の遺伝子ランキング、第2の遺伝子ランキング、および統計モデルを使用することを伴い得、そこで、統計モデルは、遺伝子の第1のセットおよび遺伝子の第2のセットにおける一部または全部の遺伝子のための発現レベルの遺伝子ランキングを示す、トレーニングデータを使用してトレーニングされる。異なる遺伝子セットは、生体試料の特定の特性を予測することに対応し得、特定の遺伝子セットのための遺伝子ランキングは、その遺伝子セットに関連付けられた特性を決定するために使用され得る。たとえば、遺伝子セットのための発現レベルが、がんグレードを予測することに関連付けられる、遺伝子ランキングが、そこから発現データが取得される生体試料における細胞のためのがんグレードを予測するために使用され得る。
【0083】
いくつかの実施形態では、発現データは、生体試料における細胞について取得され得、そこで、対象は、がんを有するか、または有する疑いがある。起源組織が、決定されている特性である文脈においては、起源組織は、生体試料における細胞のためのものである。起源組織は、肺、膵臓、胃、結腸、肝臓、膀胱、腎臓、甲状腺、リンパ節、副腎、皮膚、乳房、卵巣、および前立腺など、そこから細胞が発生する特定の組織タイプを指すことがある。
【0084】
たとえば、いくつかの実施形態は、胚中心B細胞(GCB)および活性化B細胞(ABC)など、びまん性大細胞型B細胞リンパ腫(DLBCL)のための、起源細胞を含み得る、起源組織を予測するための遺伝子セットを使用することを伴う。遺伝子セットにおける遺伝子は、ITPKB、MYBL1、LMO2、BATF、IRF4、LRMP、CCND2、SLA、SP140、PIM1、CSTB、BCL2、TCF4、P2RX5、SPINK2、VCL、PTPN1、REL、FUT8、RPL21、PRKCB1、CSNK1E、GPR18、IGHM、ACP1、SPIB、HLA-DQA1、KRT8、FAM3C、およびHLA-DMBからなる群から選択され得る。
【0085】
がんグレードが、決定されている特性である文脈においては、がんグレードは、生体試料における細胞のためのものである。がんグレードは、生体試料における細胞の増殖および分化特性を指すことがあり、グレード1、グレード2、グレード3、およびグレード4など、顕微鏡検査を使用する細胞の目視観測によって一般に決定される数値グレードを指すことがある。たとえば、病理学者は、顕微鏡の下で生検された組織を検査し、組織のためのがんグレードを決定し得る。がんグレードは、一般に、組織における細胞の異常の量に依存し、がんタイプに依存し得る。グレード1では、腫瘍細胞、および腫瘍組織の組織化は、正常で健康な組織に近いように見える。グレード1の腫瘍は、緩やかに成長し、広がる傾向がある。対照的に、グレード3およびグレード4の腫瘍の細胞および組織は、正常な細胞および組織のように見えない。グレード3およびグレード4の腫瘍は、急速に成長し、より低いグレードをもつ腫瘍よりも速く広がる傾向がある。がん組織のための例示的なグレーディングシステムについては、American Joint Committee on Cancer AJCC Cancer Staging Manual.7th ed. New York、NY: Springer、2010において説明されており、その全体が参照により組み込まれる。このグレーディングシステムは、以下の定義を適用し、すなわち、グレードX(GX)は、未決定のグレードであり、組織のグレードを査定することができないときに適用され、グレード1(G1)は、低グレードであり、細胞が十分に分化しているときに適用され、グレード2(G2)は、中間グレードであり、細胞が中程度に分化しているときに適用され、グレード3(G3)は、高グレードであり、細胞が不十分に分化しているときに適用され、グレード4(G4)は、高グレードであり、細胞が未分化であるときに適用される。
【0086】
たとえば、いくつかの実施形態は、乳がんグレードを予測するための遺伝子セットを使用することを伴う。遺伝子セットにおける遺伝子は、UBE2C、MYBL2、PRAME、LMNB1、CXCL9、KPNA2、TPX2、PLCH1、CCL18、CDK1、MELK、CCNB2、RRM2、CCNB1、NUSAP1、SLC7A5、TYMS、GZMK、SQLE、C1orf106、CDC25B、ATAD2、QPRT、CCNA2、NEK2、IDO1、NDC80、ZWINT、ABCA12、TOP2A、TDO2、S100A8、LAMP3、MMP1、GZMB、BIRC5、TRIP13、RACGAP1、ASPM、ESRP1、MAD2L1、CENPF、CDC20、MCM4、MKI67、PBK、CKS2、KIF2C、MRPL13、TTK、BUB1、TK1、FOXM1、CEP55、EZH2、ECT2、PRC1、CENPU、CCNE2、AURKA、HMGB3、APOBEC3B、LAGE3、CDKN3、DTL、ATP6V1C1、KIAA0101、CD2、KIF11、KIF20A、CDCA8、NCAPG、CENPN、MTFR1、MCM2、DSCC1、WDR19、SEMA3G、KCND3、SETBP1、KIF13B、NR4A2、NAV3、PDZRN3、MAGI2、CACNA1D、STC2、CHAD、PDGFD、ARMCX2、FRY、AGTR1、MARCH8、ANG、ABAT、THBD、RAI2、HSPA2、ERBB4、ECHDC2、FST、EPHX2、FOSB、STARD13、ID4、FAM129A、FCGBP、LAMA2、FGFR2、PTGER3、NME5、LRRC17、OSBPL1A、ADRA2A、LRP2、C1orf115、COL4A5、DIXDC1、KIAA1324、HPN、KLF4、SCUBE2、FMO5、SORBS2、CARD10、CITED2、MUC1、BCL2、RGS5、CYBRD1、OMD、IGFBP4、LAMB2、DUSP4、PDLIM5、IRS2、およびCX3CR1からなる群から選択され得る。
【0087】
別の例として、いくつかの実施形態は、腎臓明細胞がんグレードを予測するための遺伝子セットを使用することを伴う。遺伝子セットにおける遺伝子は、PLTP、C1S、LY96、TSKU、TPST2、SERPINF1、SRPX2、SAA1、CTHRC1、GFPT2、CKAP4、SERPINA3、CFH、PLAU、BASP1、PTTG1、MOCOS、LEF1、SLPI、PRAME、STEAP3、LGALS2、CD44、FLNC、UBE2C、CTSK、SULF2、TMEM45A、FCGR1A、PLOD2、C19orf80、PDGFRL、IGF2BP3、SLC7A5、PRRX1、RARRES1、LHFPL2、KDELR3、TRIB3、IL20RB、FBLN1、KMO、C1R、CYP1B1、KIF2A、PLAUR、CKS2、CDCP1、SFRP4、HAMP、MMP9、SLC3A1、NAT8、FRMD3、NPR3、NAT8B、BBOX1、SLC5A1、GBA3、EMCN、SLC47A1、AQP1、PCK1、UGT2A3、BHMT、FMO1、ACAA2、SLC5A8、SLC16A9、TSPAN18、SLC17A3、STK32B、MAP7、MYLIP、SLC22A12、LRP2、CD34、PODXL、ZBTB42、TEK、FBP1、およびBCL2からなる群から選択され得る。
【0088】
別の例として、いくつかの実施形態は、肺腺癌のためのがんグレードを予測するための遺伝子セットを使用することを伴う。遺伝子セットにおける遺伝子は、AADAC、ALDOB、ANXA10、ASPM、BTNL8、CEACAM8、CENPA、CHGB、CHRNA9、COL11A1、CRABP1、F11、GGTLC1、HJURP、IGF2BP3、IHH、KCNE2、KIF14、LRRC31、MYBL2、MYOZ1、PCSK2、PI15、SCTR、SHH、SLC22A3、SLC7A5、SPOCK1、TM4SF4、TRPM8、YBX2からなる群から選択され得る。
【0089】
いくつかの実施形態は、本明細書で説明される機械学習技法を使用して、生体試料のためのびまん性大細胞型B細胞リンパ腫(DLBCL)のための起源細胞を予測することを伴う。そのような実施形態は、胚中心B細胞(GCB)および活性化B細胞(ABC)など、起源細胞を予測するための遺伝子セットを使用することを伴い得る。遺伝子セットにおける遺伝子は、ITPKB、MYBL1、LMO2、BATF、IRF4、LRMP、CCND2、SLA、SP140、PIM1、CSTB、BCL2、TCF4、P2RX5、SPINK2、VCL、PTPN1、REL、FUT8、RPL21、PRKCB1、CSNK1E、GPR18、IGHM、ACP1、SPIB、HLA-DQA1、KRT8、FAM3C、およびHLA-DMBからなる群から選択され得る。
【0090】
いくつかの実施形態は、本明細書で説明される機械学習技法を使用して、生体試料のための末梢T細胞リンパ腫(PTCL)のサブタイプを予測することを伴う。そのような実施形態は、未分化大細胞リンパ腫(ALCL)、血管免疫芽球性T細胞リンパ腫(AITL)、ナチュラルキラー/T細胞リンパ腫(NKTCL)、および成人T細胞白血病/リンパ腫(ATLL)などのPTCLサブタイプを予測するための遺伝子セットを使用することを伴い得る。遺伝子セットにおける遺伝子は、EFNB2、ROBO1、S1PR3、ANK2、LPAR1、SNAP91、SOX8、RAMP3、TUBB2B、ARHGEF10、NOTCH1、ZBTB17、CCNE1、FGF18、MYCN、PTHLH、SMARCA2、WNK1、NKX2-1、CYP26A1、HPSE、CTLA4、PELI1、PRKCB、SPAST、ALS2、KIF3B、ZFYVE27、GF18、FNTB、REL、DMRT1、SLC19A2、STK3、PERP、TNFRSF8、TMOD1、BATF3、CDC14B、WDFEY3、AGT、ALK、ANXA3、BTBD11、CCNA1、DNER、GAS1、HS6ST2、IL1RAP、PCOLCE2、PDE4DIP、SLC16A3、TIAM2、TUBB6、WNT7B、SMOX、TMEM158、NLRP7、ADRB2、GALNT2、HRASLS、CD244、FASLG、KIR2DL4、LOC100287534、KLRD1、SH2D1B、KLRC2、NCAM1、CXCR5、IL6、ICOS、CD40LG、CD84、IL21、BCL6、MAF、SH2D1A、IL4、PTPN1、PIM1、ENTPD1、IRF4、CCND2、IL16、ETV6、BLNK、SH3BP5、FUT8、CCR4、GATA3、IL5、IL10、IL13、MMEITPKB、MYBL1、LRMP、KIAA0870、LMO2、CR1、LTBR、PDPN、TNFRSF1A、FCER2、ICAM1、FCGR2B、IKZF2、CCR8、TNFRSF18、IKZF4、FOXP3、IL2、TBX21、IFNG、GZMH、GNLY、EOMES、NCR1、GZMB、NKG7、FGFBP2、KLRF1、CD160、KLRK1、CD226、NCR3、TNFRSF8、BATF3、TM
OD1、TMEM158、MSC、POPDC3からなる群から選択され得る。
【0091】
いくつかの実施形態は、本明細書で説明される機械学習技法を使用して、生体試料のためのウイルス状態を予測することを伴う。いくつかの実施形態では、ウイルス状態は、生体試料のためのヒトパピローマウイルス(HPV)状態(たとえば、HPV陽性状態、HPV陰性状態)である。いくつかの実施形態では、HPV状態は、頭頸部扁平上皮癌を有するか、有する疑いがあるか、または有する危険性がある対象について決定され得る。遺伝子セットにおける遺伝子は、APOBEC3B、ATAD2、BIRC5、CCL20、CCND1、CDC45、CDC7、CDK1、CDKN2A、CDKN2C、CDKN3、CENPF、CENPN、CXCL14、DCN、DHFR、DKK3、DLGAP5、EPCAM、FANCI、FEN1、GMNN、GPX3、ID4、IGLC1、IL18、IL1R2、KIF18B、KIF20A、KIF4A、KLK13、KLK7、KLK8、KNTC1、KRT19、LAMP3、LMNB1、MCM2、MCM4、MCM5、ME1、MELK、MKI67、MLF1、MMP12、MTHFD2、NDN、NEFH、NEK2、NUP155、NUP210、NUSAP1、PDGFD、PLAGL1、PLOD2、PPP1R3C、PRIM1、PRKDC、PSIP1、RAD51AP1、RASIP1、RFC5、RNASEH2A、RPA2、RPL39L、RSRC1、RYR1、SLC35G2、SMC2、SPARCL1、STMN1、SYCP2、SYNGR3、TIMELESS、TMPO、TPX2、TRIP13、TYMS、UCP2、UPF3B、USP1、ZSCAN18からなる群から選択され得る。
【0092】
本明細書で説明される様々な態様および実施形態は、個々に、すべて一緒に、または2つ以上の任意の組合せにおいて使用され、その理由は、本明細書で説明される技術がこの点について限定されないからであることを諒解されたい。
【0093】
図1は、本明細書で説明される技術のいくつかの実施形態による、生体試料のための1つまたは複数のそれぞれの遺伝子ランキングに基づいて、生体試料の1つまたは複数の特性(たとえば、起源組織、がんグレード、PTCLサブタイプ)を決定するための例示的な処理パイプライン100の図であり、例示的な処理パイプライン100は、遺伝子を、それらの遺伝子発現レベルに基づいてランク付けすること、ならびに、ランキングおよび1つまたは複数の統計モデルを使用して、1つまたは複数の特性を決定することを含み得る。処理パイプライン100は、任意の好適なコンピューティングデバイス(たとえば、単一のコンピューティングデバイス、単一の物理的ロケーションにコロケートされるか、または互いからリモートの複数の物理的ロケーションに位置する複数のコンピューティングデバイス、クラウドコンピューティングシステムの1つまたは複数のコンピューティングデバイス部分など)上で実行され得、その理由は、本明細書で説明される技術の態様が、この点について限定されないからである。いくつかの実施形態では、処理パイプライン100は、デスクトップコンピュータ、ラップトップコンピュータ、モバイルコンピューティングデバイスによって実行され得る。いくつかの実施形態では、処理パイプライン100は、クラウドコンピューティング環境の部分である1つまたは複数のコンピューティングデバイス内で実行され得る。
【0094】
図1に示されているように、遺伝子発現データ102は、対象の生体試料について取得され得る。対象は、がん(たとえば、乳がん、腎臓がん、明細胞腎臓がん、リンパ腫)を有するか、有する疑いがあるか、または有する危険性があり得る。がんを有するか、有する疑いがあるか、または有する危険性がある対象は、がんの1つもしくは複数の兆候もしくは症状を示す対象、がんを有すると診断される対象、がんを有する家族歴および/もしくは遺伝的素因を有する対象、ならびに/または、がんに対する1つもしくは複数の他の危険因子(たとえば、年齢、発癌物質への曝露、環境曝露、がんを生じるより高い可能性に関連付けられたウイルスへの曝露など)を有する対象であり得る。発現データ102は、任意の好適なシーケンシングプラットフォーム(たとえば、遺伝子発現マイクロアレイ、次世代シーケンシング、ハイブリダイゼーションベースの発現アッセイ)を使用して取得され、生体試料のための発現データ(たとえば、マイクロアレイデータ、RNAseqデータ、ハイブリダイゼーションベースの発現アッセイデータ)を生じ得る。いくつかの実施形態は、発現データ102を取得することより前に、生体試料のシーケンシングプロセス(たとえば、遺伝子発現マイクロアレイ、次世代シーケンシング)を実行することを伴う。いくつかの実施形態では、遺伝子発現データ102を取得することは、コンピューティングデバイスを使用して、1つもしくは複数のデータストアにおける発現データ(たとえば、生体試料から前に取得された発現データ)にアクセスすること、1つもしくは複数の他のデバイスから発現データを受信すること、または任意の他の方法などによって、インシリコで遺伝子発現データ102を取得することを伴い得る。いくつかの実施形態では、遺伝子発現データ102を取得することは、(生体外で)生体試料を解析すること、および(たとえば、コンピューティングデバイスによって、プロセッサによって)発現データにアクセスすることを伴い得る。発現データを取得することに関するさらなる態様は、「発現データの取得」と題するセクションにおいて提供される。
【0095】
図1に示されているように、発現データ102は、「試料1」のN個の異なる遺伝子、「遺伝子1」、「遺伝子2」、「遺伝子3」、...「遺伝子N」のための発現レベル値を含む。異なるシーケンシングプラットフォームが、発現データ102を取得するために使用され得る。いくつかの実施形態では、発現データ102は、遺伝子発現マイクロアレイを使用して(たとえば、マイクロアレイ上の異なるプローブに結合するRNAの量を決定することによって)取得され得る。遺伝子発現マイクロアレイは、一度に数千個の遺伝子の発現を検出し得る。遺伝子発現マイクロアレイを使用することに関連付けられた発現データ102は、1,000個、少なくとも10,000個、または少なくとも100,000個の遺伝子検出イベントに関連付けられ得る。いくつかの実施形態では、発現データ102は、次世代シーケンシングを実行することによって取得され得る。そのような発現データは、次世代シーケンシングを使用して、配列リードを取得すること、(たとえば、1つまたは複数の配列アライメントアルゴリズムを使用することによって)シーケンシングリードをリファレンスにアライメントすること、アライメントに基づいて、いくつかの遺伝子のための発現レベル値を決定することなどに関連付けられ得る。次世代シーケンシングを実行することに関連付けられた発現データ102は、少なくとも10,000個、少なくとも100,000個、少なくとも1,000,000個、または少なくとも10,000,000個の配列リードに関連付けられ得る。いくつかの実施形態では、発現データ102は、ハイブリダイゼーションベースの発現アッセイ(たとえば、生物学的配列における関心領域を標的にするための標識プローブ)を使用することによって取得され得る。ハイブリダイゼーションベースの発現を使用することに関連付けられた発現データ102は、1,000個、少なくとも10,000個、または少なくとも100,000個の遺伝子検出イベントに関連付けられ得る。
【0096】
いくつかの実施形態では、発現データ102は、RNA Seqデータを含む。そのような実施形態では、発現データ102は、RNAシーケンシングを実行することによって取得されるRNA発現レベルを取得することを伴い得る。いくつかの実施形態では、発現データ102は、全ゲノムシーケンシング(WGS)を実行することによって取得される。いくつかの実施形態では、発現データ102は、全エクソームシーケンシング(WES)を実行することによって取得される。いくつかの実施形態では、発現データ102は、RNA SeqデータとWGSデータとの組合せを含む。いくつかの実施形態では、発現データ102は、RNA SeqデータとWESデータとの組合せを含む。
【0097】
いくつかの実施形態では、発現データ102は、N個の異なる遺伝子のための値を含み、そこで、値は、特定の遺伝子のための発現レベルを表す。たとえば、第1の発現データ102は、遺伝子2のための発現レベルを表す10.455の値と、遺伝子Nのための発現レベルを表す0.001の値とを含み、このことは、遺伝子2が試料1において遺伝子Nよりも高い発現レベルを有することを示す。上記で説明されたように、発現データ102を取得するために使用されたシーケンシングプラットフォームは、発現データの特定の値、および遺伝子の間の相対値に影響を及ぼし得る。
【0098】
いくつかの実施形態によれば、ランキングプロセス108は、遺伝子を、発現データ102におけるそれらの発現レベルに基づいてランク付けして、遺伝子ランキング110を取得することを伴い得る。ランキングプロセス108は、遺伝子のセットにおける遺伝子を、それらの発現レベルの数値に基づいてランク付けすることを伴い得る。いくつかの実施形態では、ランキングプロセス108は、発現データ102における遺伝子の一部または全部をランク付けして、遺伝子ランキング110を取得することを伴い得る。異なる遺伝子ランキングが、異なる遺伝子セットのための発現レベルをランク付けすることによって取得され得る。遺伝子ランキングを決定することは、遺伝子のセットにおける各遺伝子のための相対ランクを決定することを伴い得る。
図1に示されているように、発現データ102における遺伝子は、遺伝子セット1 106aに対してランキングプロセス108を使用して、それらの発現レベルに基づいてランク付けされて、第1の遺伝子ランキング110aが取得され得る。同様に、発現データ102における遺伝子は、遺伝子セット2 106bに対してランキングプロセス108を使用して、それらの発現レベルに基づいてランク付けされて、第2の遺伝子ランキング110bが取得され得る。遺伝子ランキング110aおよび遺伝子ランキング110bは、異なる遺伝子のための相対ランクを有する。
図1に示されているように、遺伝子ランキング110aは、それぞれ遺伝子1、遺伝子2、遺伝子3、および遺伝子Nのための30、N-1、2、および1の相対ランクを有し、遺伝子ランキング110bは、それぞれ遺伝子1、遺伝子2、遺伝子3、および遺伝子Nのための15、21、2、および1の相対ランクを有する。遺伝子ランキングは、遺伝子ランキングにおける遺伝子のための相対ランクを特定する値を含み得る。いくつかの実施形態では、相対ランクを特定する値は、序数を含み得る。いくつかの実施形態では、相対ランクを特定する値は、
図1に示されているものなど、整数を含み得る。いくつかの実施形態では、相対ランクを特定する値は、本明細書で説明される技法を使用して、特性を予測するための統計モデルへの入力(たとえば、相対ランクのベクトル)として使用され得る。いくつかの実施形態では、遺伝子ランキングは、遺伝子の相対ランクによる遺伝
子のソートされたリストを含み得る。そのような実施形態では、遺伝子のソートされたリストは、本明細書で説明される技法を使用して、特性を予測するための統計モデルへの入力(たとえば、遺伝子のソートされたリストをもつベクトル)として使用され得る。たとえば、遺伝子セットは、遺伝子リストA=[x1,x2,x3,...xN-1,xN]を含み得、ランキングプロセス108は、それらの対応する相対ランクを[1,2,3,...N-1,N]としてもつ、遺伝子のソートされたリスト[x2,x15,xN-1...x1,xN]を出力し得る。遺伝子のソートされたリスト[x2,x15,xN-1...x1,xN]およびそれらの相対ランク[1,2,3,...N-1,N]は、統計モデルへの入力として使用され得る。
【0099】
いくつかの実施形態では、ランキングプロセス108は、最低から最高発現レベルまで、遺伝子セットにおける遺伝子を順序付けること、および個々の遺伝子のためのランクを用いて、遺伝子のリストにラベリングすることを伴い得る。たとえば、最低発現レベル値は、遺伝子のリスト上で最初に順序付けられ、それらの対応するラベルは、最低(たとえば、1、2、3など)であるが、最高発現レベル値は、対応するより高いラベルを有する。いくつかの実施形態では、ランキングプロセス108は、遺伝子セットにおける遺伝子が最高から最低発現レベル値までランク付けされるように、降順で遺伝子を順序付けることを伴い得る。いくつかの実施形態では、ランキングプロセス108は、遺伝子発現値をビニングすること、遺伝子発現値を丸めることを含む、遺伝子をランク付けすることより前の1つまたは複数の前処理ステップを伴い得る。たとえば、いくつかの実施形態では、遺伝子発現値は、ビンにソートされ、次いでランク付けされ得る。別の例として、いくつかの実施形態では、遺伝子発現値は、切り捨てられ、次いでランク付けされ得る。他の前処理ステップが発現レベルに適用され得、ランク付けが、前処理された値において実行され得、その理由は、本明細書で説明される技術の態様が、取得された正確な遺伝子発現レベルにおいてソートすることのみによるランク付けに限定されないからである。
【0100】
遺伝子群が等しいかまたは実質的に同様の発現レベル値を有する事例では、群における遺伝子は、共通ランクと、共通ランクを示すラベルとを有し得る。いくつかの実施形態では、共通ランクは、群における遺伝子のためのランクの平均であるとして決定され得る。たとえば、遺伝子セットにおけるある遺伝子は、30の発現レベル値を有し得、4としてランク付けされ、順序付きリストにおける次の遺伝子は、それぞれ5、6、および7としてランク付けされる、35、35、および35の発現レベル値を有し、次いで、これらの遺伝子が、すべて6(5、6、および7の平均である)としてランク付けされる。いくつかの実施形態では、遺伝子ランキングは、共通ランクを有する2つ以上の遺伝子を含み得る。いくつかの実施形態では、遺伝子群が共通ランクを有する遺伝子ランキングは、連続するランキングラベル(たとえば、1、2、2、2、3、4、5など)を含み得る。いくつかの実施形態では、遺伝子群が共通ランクを有する遺伝子ランキングは、1つまたは複数の値をスキップするランキングラベル(たとえば、1、2、2、2、5、6、6、8など)を含み得る。いくつかの実施形態では、等しいかまたは実質的に同様の発現レベル値を有する遺伝子群は、遺伝子群における最小ランクまたは最大ランクに従ってランク付けされ得る。
【0101】
生体試料の特定の特性(たとえば、起源組織、がんグレード、組織タイプ、たとえば、PTCLサブタイプなどの組織サブタイプ、たとえば、HPV状態などのウイルス状態)を決定するために、遺伝子の選択されたセットがランキングプロセス108において使用されて、遺伝子ランキング110が取得され得る。
図1に示されているように、遺伝子セット1 106aが、遺伝子ランキング110aを取得するために使用され、次いで、遺伝子ランキング110aが、特性1 114aを決定するために使用される。同様に、遺伝子セット2 106bが、遺伝子ランキング110bを取得するために使用され、次いで、遺伝子ランキング110bが、特性2 114bを決定するために使用される。たとえば、遺伝子のあるセットは、生体試料のための起源組織を決定するために使用され得、遺伝子の別のセットは、がんグレードを決定するために使用され得る。
【0102】
遺伝子のセットにおける遺伝子の数は、3~1,000個の遺伝子、5~500個の遺伝子、5~200個の遺伝子、5~100個の遺伝子、3~50個の遺伝子、20~100個の遺伝子、50~100個の遺伝子、50~200個の遺伝子、50~300個の遺伝子、100~300個の遺伝子、および50~500個の遺伝子の範囲内であり得る。遺伝子のセットは、少なくとも3つの遺伝子、少なくとも5つの遺伝子、少なくとも10個の遺伝子、または少なくとも20個の遺伝子を含み得る。遺伝子のセットは、5~50個の遺伝子、5~100個の遺伝子、20~100個の遺伝子、50~100個の遺伝子、5~200個の遺伝子、5~300個の遺伝子、10~200個の遺伝子、50~300個の遺伝子、5~500個の遺伝子、または50~500個の遺伝子からなり得る。
【0103】
遺伝子ランキングおよび統計モデルは、生体試料の特定の特性を決定するために使用され得る。特に、遺伝子ランキングは、統計モデルへの入力として使用され得、特性を示す出力が取得され得る。異なる特性を取得するために、異なる遺伝子セットおよび異なる統計モデルが使用され、そこで、特定の特性を決定することは、特定の遺伝子セットと、遺伝子のセットにおける一部または全部の遺伝子のための発現レベルのランキングを示すトレーニングデータを使用してトレーニングされた、統計モデルとを使用することを伴う。たとえば、統計モデル112aは、特性1 114aを決定するために特有のものであり、遺伝子セット1 106aにおける遺伝子の一部または全部のための発現レベルのランキングを示すトレーニングデータを使用してトレーニングされた。同様に、統計モデル112bは、特性2 114bを決定するために特有のものであり、遺伝子セット2 106bにおける遺伝子の一部または全部のための発現レベルのランキングを示すトレーニングデータを使用してトレーニングされた。たとえば、統計モデル112aおよび遺伝子セット1 106aは、生体試料における細胞のためのがんグレードを決定するために使用され得、統計モデル112bおよび遺伝子セット2 106bは、生体試料における細胞のための起源組織を決定するために使用され得る。
【0104】
トレーニングデータは、統計モデルを使用して決定されている特性に関連付けられた試料を含む、複数の試料に関連付けられた発現レベルのランキングを含み得る。たとえば、統計モデルががんグレードを予測するために使用される実施形態では、トレーニングデータは、複数のがんグレード(たとえば、グレード1、グレード2、グレード3)の試料に関連付けられた発現レベルのランキングを含み得る。別の例として、統計モデルが起源組織を予測するために使用される実施形態では、トレーニングデータは、複数の起源組織(たとえば、甲状腺組織、リンパ節組織、副腎組織、皮膚組織、乳房組織、卵巣組織、前立腺組織、尿路上皮組織、子宮頸部組織、食道組織、脳組織、軟組織、結合組織、頭部組織、および頸部組織)からの試料に関連付けられた発現レベルのランキングを含み得る。別の例として、統計モデルがHPV状態を予測するために使用される実施形態では、トレーニングデータは、HPV陽性状態とHPV陰性状態の両方からの試料に関連付けられた発現レベルのランキングを含み得る。別の例として、統計モデルがPTCLサブタイプを予測するために使用される実施形態では、トレーニングデータは、異なるPTCLサブタイプ(たとえば、成人T細胞白血病/リンパ腫(ATLL)、血管免疫芽球性T細胞リンパ腫(AITL)、NK/T細胞リンパ腫(NKTCL)、未分化大細胞リンパ腫(ALCL)、および非特定型に属するケース(PTCL-NOS))からの試料に関連付けられた発現レベルのランキングを含み得る。
【0105】
統計モデル112aおよび統計モデル112bなどの統計モデルは、異なる対象から取得された異なる生体試料のための1つまたは複数の特性を決定するために使用され得ることを諒解されたい。いくつかの事例では、同じ統計モデルを使用し得る対象の数は、少なくとも50、100、200、300、500、1,000、2,000、5,000、10,000、またはそれ以上であり得る。異なる対象のために統計モデルを使用することによって、異なる対象にわたる発現データの解析を容易にすることができ、その理由は、同じデータ処理パイプラインが個々の対象のために実装され得るからである。
【0106】
いくつかの実施形態では、ランキングプロセス108は、発現データにおける遺伝子のすべてがランクを取得し得るか、または遺伝子ランキング中に含まれ得るとは限らないように、遺伝子のセット中に含まれた遺伝子のみをランク付けし得る。そのような実施形態では、ランキングは、遺伝子のセットに固有であり、統計モデル112への入力として使用され得る。
【0107】
いくつかの実施形態では、ランキングプロセス108は、各遺伝子がそれぞれのランクを有するように、発現データ102における遺伝子のすべてをランク付けすることを伴い得る。そのような実施形態では、ランキングは、遺伝子のセットの外側の遺伝子を含む。いくつかの実施形態では、統計モデルへの入力は、遺伝子のセットのための、ランキングプロセス108によって決定されたランクを含み得る。いくつかの実施形態では、統計モデルへの入力は、ランキングプロセス108によって取得されたランキングを含み得、統計モデルは、1つまたは複数の特性を決定することの一部として、ランキングにおける遺伝子のセットのためのランクを選択的に使用し得る。
【0108】
統計モデルは、1つまたは複数の分類器を含む、1つまたは複数の好適な機械学習アルゴリズムを使用することを伴い得る。統計モデルが含み得る分類器の例は、勾配ブースト決定木分類器、決定木分類器、勾配ブースト分類器、ランダムフォレスト分類器、クラスタリングベースの分類器、ベイズ分類器、ベイジアンネットワーク分類器、ニューラルネットワーク分類器、カーネルベースの分類器、およびサポートベクターマシン分類器である。いくつかの実施形態では、統計モデルは、勾配ブースト決定木分類器を使用することを伴い得る。いくつかの実施形態では、統計モデルは、決定木分類器を使用することを伴い得る。いくつかの実施形態では、統計モデルは、勾配ブースト分類器を使用することを伴い得る。いくつかの実施形態では、統計モデルは、ランダムフォレスト分類器を使用することを伴い得る。いくつかの実施形態では、統計モデルは、クラスタリングベースの分類器を使用することを伴い得る。いくつかの実施形態では、統計モデルは、ベイズ分類器を使用することを伴い得る。いくつかの実施形態では、統計モデルは、ベイジアンネットワーク分類器を使用することを伴い得る。いくつかの実施形態では、統計モデルは、ニューラルネットワーク分類器を使用することを伴い得る。いくつかの実施形態では、統計モデルは、カーネルベースの分類器を使用することを伴い得る。いくつかの実施形態では、統計モデルは、サポートベクターマシン分類器を使用することを伴い得る。
【0109】
いくつかの実施形態では、統計モデルは、統計モデルの出力として、1つまたは複数の特徴の二項分類を実行し得る。たとえば、そのような統計モデルは、1つまたは複数のがんグレード(たとえば、グレード1、グレード2、グレード3)の分類を実行し得、統計モデルの出力は、生体試料が特定のがんグレードであるとしてカテゴリー化されるか否かを示す1つまたは複数のがんグレードの各々のための予測を含み得る。
【0110】
いくつかの実施形態では、統計モデルは、勾配ブースティング決定木(GBDT:gradient boosting decision tree)および勾配ブースト回帰木(GBRT:gradient boosted regression tree)など、勾配ブースティングフレームワークを実装する機械学習アルゴリズムを使用することを伴い得る。勾配ブースティング決定木を実装する機械学習アルゴリズムの一例は、LightGBMパッケージであり、それについては、Guolin Ke、Qi Meng、Thomas Finley、Taifeng Wang、Wei Chen、Weidong Ma、Qiwei YeおよびTie-Yan Liu、LightGBM: A highly efficient gradient boosting decision tree、Advances in Neural Information Processing Systems、3149~3157頁、2017(https://dl.acm.org/doi/10.5555/3294996.3295074)においてさらに説明されており、その全体が参照により本明細書に組み込まれる。勾配ブースティングフレームワークを実装する機械学習アルゴリズムの一例は、XGBoostパッケージであり、それについては、Tianqi ChenおよびCarlos Guestrin.XGBoost: A scalable tree boosting system、In Proceedings of the 22Nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining、785~794頁、ACM、2016(https://dl.acm.org/doi/10.1145/2939672.2939785)においてさらに説明されており、その全体が参照により本明細書に組み込まれる。勾配ブースト回帰木を実装する機械学習アルゴリズムの一例は、pGBRTパッケージであり、それについては、Stephen Tyree、Kilian Q Weinberger、Kunal Agrawal、およびJennifer Paykin、Parallel boosted regression trees for web search ranking、In Proceedings of the 20th international conference on World wide web、387~396頁、ACM、2011(https://dl.acm.org/doi/10.1145/1963405.1963461)においてさらに説明されており、その全体が参照により本明細書に組み込まれる。
【0111】
統計モデルは、遺伝子のセットにおける遺伝子の一部または全部のための発現レベルの複数のランキングを使用してトレーニングされ得る。トレーニングデータは、国立がん研究所(NCI:National Cancer Institute)(たとえば、遺伝子発現オムニバス(GEO:Gene Expression Omnibus))、国立バイオテクノロジー情報センター(NCBI:National Center for Biotechnology Information)(たとえば、配列リードアーカイブ(SRA:Sequence Read archive))、がんゲノムアトラスプログラム(TCGA:The Cancer Genome Atlas Program)、機能的ゲノミクスデータのArrayExpressアーカイブ(ArrayExpress Archive of Functional Genomics Data)(欧州分子生物学研究所(European Molecular Biology Laboratory)による)、および国際がんゲノムコンソーシアム(International Cancer Genome Consortium)を含む、研究組織を通して取得された、利用可能な発現データを含み得る。
【0112】
たとえば、乳がんのためのがんグレードを決定するために使用される統計モデルは、NCIを通して利用可能なシリーズGSE96058からのデータを使用してトレーニングされ得る。別の例として、腎臓明細胞がんのためのがんグレードを決定するために使用される統計モデルは、がんゲノムアトラス腎臓腎明細胞癌(TCGA-KIRC:The Cancer Genome Atlas Kidney Renal Clear Cell Carcinoma)データコレクションからのデータを使用してトレーニングされ得る。また別の例として、DLBCLのための起源組織(たとえば、ABC、GCB)を決定するために使用される統計モデルは、シリーズGSE117556、ライプツィヒリンパ腫データセット(Leipzig Lymphoma data set)(10.1186/s13073-019-0637-7)、シリーズGSE31312、シリーズGSE10846、シリーズGSE87371、シリーズGSE11318、シリーズGSE32918、シリーズGSE23501、リンパ腫/白血病分子プロファイリングプロジェクト(LLMPP:Lymphoma/Leukemia Molecular Profiling Project)、およびシリーズGSE93984のうちの1つまたは複数からのデータを使用してトレーニングされ得る。別の例として、がんのための起源組織および組織学的情報(たとえば、組織タイプ)を決定するために使用される統計モデルは、がんゲノムアトラスプログラム(TCGAP)からのデータを使用してトレーニングされ得る。
【0113】
本明細書で説明される技法を使用して決定され得る1つの特性は、生体試料における細胞のためのがんグレードである。がんグレードは、グレード1、グレード2、グレード3、グレード4、およびグレード5を含み得る。いくつかのがんグレーディングシステムは、任意の好適な数のグレード、または他のスコアを含み得ること、および本明細書で説明される技法は、実装されているがんグレーディングシステムにかかわらず、任意の数のがんグレードを決定するために使用され得ることを諒解されたい。たとえば、いくつかのがんグレーディングシステムは、1~10の範囲内のいくつかのがんグレードの数を有し得る。別の特性は、生体試料における細胞のための起源組織である。起源組織は、肺組織、膵臓組織、胃組織、結腸組織、肝臓組織、膀胱組織、腎臓組織、甲状腺組織、リンパ節組織、副腎組織、皮膚組織、乳房組織、卵巣組織、前立腺組織、尿路上皮組織、子宮頸部組織、食道組織、脳組織、軟組織、結合組織、頭部組織、および頸部組織を含み得る。いくつかの事例では、起源組織は、起源細胞を指すことがある。たとえば、対象が、びまん性大細胞型B細胞リンパ腫(DLBCL)を有するか、有する疑いがあるか、または有する危険性がある場合、起源組織は、胚中心B細胞(GCB)および活性化B細胞(ABC)を含み得る起源細胞である。
【0114】
別の特性は、生体試料における細胞のための組織学的情報である。組織学的情報は、生体試料を目視検査するために、顕微鏡検査を使用する医師(たとえば、病理学者)によって行われた決定に対応し得る。組織学的情報は、組織タイプを含み得る。組織タイプの例には、腺癌、扁平上皮癌、癌腫、嚢胞腺癌、肉腫、および神経膠腫が含まれる。いくつかの実施形態では、統計モデルは、起源組織と組織学的情報との組合せを出力し得る。起源組織と組織学的情報との組合せは、肺腺癌、肺扁平上皮癌、黒色腫、乳癌、結腸直腸腺癌、卵巣漿液性嚢胞腺癌、褐色細胞腫、膀胱尿路上皮癌、子宮頸部扁平上皮癌、多形性膠芽腫、頭頸部扁平上皮癌、腎臓腎明細胞癌、腎臓腎乳頭細胞癌、肝臓肝細胞癌、膵臓腺癌、傍神経節腫、前立腺腺癌、肉腫、胃腺癌、甲状腺癌、および子宮体子宮内膜癌を含み得る。
【0115】
特性(たとえば、がんグレード、起源組織、PTCLサブタイプ)は、グラフィカルユーザインターフェース(GUI)においてユーザに特性を表示すること、特性を報告に含めること、ユーザに電子メールを送ることによって、および/または任意の他の好適な方法で、医師または臨床医などのユーザに出力され得る。対象の特性は、がんのための治療の有効性を査定すること、対象のための治療を特定すること、対象のための治療を行うこと、対象のための予後を決定すること、および/または臨床試験に参加するための対象の適合性を評価することを含む、様々な臨床的目的のために使用され得る。いくつかの実施形態では、対象の特性は、対象のための治療を特定する際に使用され得る。たとえば、起源組織が生体試料における細胞について決定される実施形態では、決定された起源組織は、決定された起源組織のがんを治療することに関連付けられた対象のための治療を特定するために使用され得る。また別の例として、がんグレードが生体試料における細胞について決定される実施形態では、決定されたがんグレードは、決定されたがんグレードを有するがんを治療することに関連付けられた対象のための治療を特定するために使用され得る。また別の例として、PTCLサブタイプが生体試料における細胞について決定される実施形態では、決定されたPTCLサブタイプは、決定されたPTCLサブタイプのリンパ腫を治療するために好適な対象のための治療を特定するために使用され得る。次に、特定された治療が行われ得る。
【0116】
いくつかの実施形態では、対象の特性は、対象のための治療を行うために使用され得る。たとえば、起源組織が生体試料における細胞について決定される実施形態では、医師は、決定された起源組織のがんを治療することに関連付けられた対象のための治療を行い得る。また別の例として、がんグレードが生体試料における細胞について決定される実施形態では、医師は、決定されたがんグレードを有するがんを治療することに関連付けられた対象のための治療を行い得る。また別の例として、PTCLサブタイプが生体試料における細胞について決定される実施形態では、医師は、決定されたPTCLサブタイプのリンパ腫を治療するために好適な対象のための治療を行い得る。本明細書で説明される技法を使用して決定された生体試料の特性が、治療を行うために使用される、さらなる例は、「治療の方法」と題するセクションにおいて提供される。
【0117】
いくつかの実施形態では、対象の特性は、対象のための予後を決定する際に使用され得る。対象が、がん(たとえば、腎臓がん、明細胞腎臓がん、リンパ腫、頭頸部扁平上皮癌、肺腺癌)を有するか、有する疑いがあるか、または有する危険性がある実施形態では、決定された対象の特性は、対象のための予後を決定するために使用され得る。たとえば、対象の特性ががんグレードである実施形態では、決定されたがんグレード(たとえば、グレード1、グレード2、グレード3)は、対象のための予後を決定するために使用され得る。本明細書で説明される技法を使用して決定された生体試料の特性が、予後を決定する際に使用される、他の適用例に関するさらなる態様は、「適用例」と題するセクションにおいて提供される。
【0118】
いくつかの実施形態では、生体試料の決定された特性は、生体試料における細胞のためのがんグレードを含み得る。そのような実施形態では、遺伝子ランキングを取得するために使用される遺伝子のセットは、生物学的特徴、発現経路(expression pathway)に関連付けられた、またはがんグレードを決定することに別様に関連付けられた遺伝子を含み得る。いくつかの実施形態は、乳癌のためのがんグレードを決定するための遺伝子セットを使用することを伴う。そのような遺伝子セット中に含まれ得る遺伝子の例は、以下のTable 1(表1)に記載されている。
【0119】
【0120】
【0121】
【0122】
【0123】
【0124】
いくつかの実施形態は、腎臓明細胞がんのためのがんグレードを決定するための遺伝子セットを使用することを伴う。そのような遺伝子セット中に含まれ得る遺伝子の例は、以下のTable 2(表2)に記載されている。
【0125】
【0126】
【0127】
【0128】
いくつかの実施形態では、生体試料の決定された特性は、生体試料における細胞のための起源組織を含み得る。そのような実施形態では、遺伝子ランキングを取得するために使用される遺伝子のセットは、生物学的特徴、発現経路に関連付けられた、または起源組織を決定することに別様に関連付けられた遺伝子を含み得る。いくつかの実施形態は、胚中心B細胞(GCB)および活性化B細胞(ABC)など、びまん性大細胞型B細胞リンパ腫(DLBCL)のための起源組織を予測するための遺伝子セットを使用することを伴う。そのような遺伝子セット中に含まれ得る遺伝子の例は、以下のTable 3(表3)に記載されている。
【0129】
【0130】
【0131】
いくつかの実施形態は、異なる遺伝子セットと、異なる遺伝子セットに対応する統計モデルとを使用して、特性予測を取得することによって、生体試料の特性を決定することを伴い得、特性予測が特性を決定するために使用される。
図2は、本明細書で説明される技術のいくつかの実施形態による、生体試料の特性を決定するための例示的な処理パイプライン200の図であり、例示的な処理パイプライン200は、遺伝子を、それらの遺伝子発現レベルに基づいてランク付けすること、ならびに、ランキングおよび統計モデルを使用して、特性を決定することを含み得る。処理パイプライン200は、任意の好適なコンピューティングデバイス(たとえば、単一のコンピューティングデバイス、単一の物理的ロケーションにコロケートされるか、または互いからリモートの複数の物理的ロケーションに位置する複数のコンピューティングデバイス、クラウドコンピューティングシステムの1つまたは複数のコンピューティングデバイス部分など)上で実行され得、その理由は、本明細書で説明される技術の態様が、この点について限定されないからである。いくつかの実施形態では、処理パイプライン200は、デスクトップコンピュータ、ラップトップコンピュータ、モバイルコンピューティングデバイスによって実行され得る。いくつかの実施形態では、処理パイプライン200は、クラウドコンピューティング環境の部分である1つまたは複数のコンピューティングデバイス内で実行され得る。
【0132】
いくつかの実施形態では、遺伝子発現データ102は、遺伝子の異なるセットにおける遺伝子を、遺伝子発現データ102におけるそれらの発現レベルに基づいてランク付けして、複数の遺伝子ランキングを取得するために使用される。たとえば、遺伝子ランキングは、各遺伝子セットについて取得され得、遺伝子ランキングは、遺伝子セットにおける一部または全部の遺伝子のための発現レベルのランキングを示すトレーニングデータを使用してトレーニングされた、統計モデルに入力され得る。
図2に示されているように、ランキングプロセス108は、発現データ102を使用して、遺伝子セット1 106a、遺伝子セット2 106b、遺伝子セット3 106c、および遺伝子セット4 106dを含む、異なる遺伝子セットにおける遺伝子をランク付けして、それぞれ遺伝子ランキング1 110a、遺伝子ランキング2 110b、遺伝子ランキング3 110c、および遺伝子ランキング4 110dを取得することを伴い得る。ランキングプロセス108は、遺伝子のセットにおける遺伝子を、それらの発現レベルの数値に基づいてランク付けすることを伴い得る。異なる遺伝子ランキングが、異なる遺伝子セットのための発現レベルをランク付けすることによって取得され得、各遺伝子ランキングが、そのそれぞれの統計モデルに入力されて、特性予測が取得され得る。
図2に示されているように、遺伝子ランキング1 110a、遺伝子ランキング2 110b、遺伝子ランキング3 110c、および遺伝子ランキング4 110dは、それぞれ統計モデル1 112a、統計モデル2 112b、統計モデル3 112c、および統計モデル4 112dへの入力として提供される。
【0133】
いくつかの実施形態では、異なる統計モデルおよびそれらのそれぞれの遺伝子セットは、生体試料の特定の特性に対応し得る。そのような実施形態では、統計モデルの各々は、特定の特性を有する生体試料の予測を出力し得る。いくつかの事例では、統計モデルによって出力された予測は、生体試料が特性を有する確率を含み得る。
【0134】
図2に示されているように、統計モデル1 112aは特性予測1 116aを出力し、統計モデル2 112bは特性予測2 116bを出力し、統計モデル3 112cは特性予測3 116cを出力し、統計モデル4 112dは特性予測4 116dを出力する。異なる統計モデルによって出力された予測は、予測解析プロセス118を使用して解析されて、生体試料のための特性114が決定され得る。予測解析プロセス118は、異なる予測を集約すること、および異なる特性予測の中から生体試料のための特定の特性を選択することを伴い得る。いくつかの実施形態では、特性予測は、生体試料が特定の特性を有する確率を含み得る。そのような実施形態では、予測解析プロセス118は、異なる特性予測のための確率を集約すること、および確率に基づいて、特性を選択することを伴い得る。いくつかの実施形態では、特性を選択することは、最高確率を有する特性を特性114であるとして選択することを伴い得る。
【0135】
4つの遺伝子セットおよび4つの統計モデルが
図2に示されているが、任意の好適な数の遺伝子セットおよび対応する統計モデルが、特性予測を決定すること、および特性予測を集約して、生体試料の特性を取得することを行う際に、上記で説明された技法を使用して実装され得ることを諒解されたい。いくつかの実施形態では、遺伝子セットおよび対応する統計モデルの数は、3~100、3~70、3~50、3~40、3~30、5~50、10~60、または10~70の範囲内であり得る。
【0136】
いくつかの実施形態では、遺伝子セットおよび対応する統計モデルの数は、処理パイプライン200を使用して予測されている特性のためのクラスの数以下である。たとえば、予測されている特性が起源組織である実施形態では、クラスの数は、処理パイプライン200を使用して決定され得る組織の異なるタイプに対応し得る。そのような実施形態は、組織の各タイプのための異なる遺伝子セットおよび対応する統計モデルを伴い得る。たとえば、遺伝子セット1 106aおよび統計モデル1 112aは、(特性予測1 116aとして)生体試料が肺組織であるという予測を生成するために使用され得、遺伝子セット2 106bおよび統計モデル2 112bは、(特性予測2 116bとして)生体試料が胃組織であるという予測を生成するために使用され得、遺伝子セット3 106cおよび統計モデル3 112cは、(特性予測3 116cとして)生体試料が肝臓組織であるという予測を生成するために使用され得、遺伝子セット4 106dおよび統計モデル4 112dは、(特性予測4 116dとして)生体試料が膀胱組織であるという予測を生成するために使用され得る。追加の遺伝子セットおよびそれらの対応する統計モデルが、異なる組織タイプのために実装され得ることを諒解されたい。いくつかの実施形態では、21個の遺伝子セットおよび対応する統計モデルがあり得、処理パイプライン200が組織の21個のタイプを予測することが可能になる。
【0137】
図3は、本明細書で説明される技術のいくつかの実施形態による、遺伝子ランキングおよび統計モデルを使用して、生体試料の1つまたは複数の特性を決定するための例示的なプロセス300のフローチャートである。プロセス300は、任意の好適なコンピューティングデバイス(たとえば、単一のコンピューティングデバイス、単一の物理的ロケーションにコロケートされるか、または互いからリモートの複数の物理的ロケーションに位置する複数のコンピューティングデバイス、クラウドコンピューティングシステムの1つまたは複数のコンピューティングデバイス部分など)上で実行され得、その理由は、本明細書で説明される技術の態様が、この点について限定されないからである。いくつかの実施形態では、ランキングプロセス108および統計モデル112は、特性114など、1つまたは複数の特性を決定するために、プロセス300の一部または全部を実行し得る。
【0138】
プロセス300は、動作310において開始し、そこで、対象の生体試料のための発現データが取得される。いくつかの実施形態では、発現データは、遺伝子発現マイクロアレイを使用して取得され得る。いくつかの実施形態では、発現データは、次世代シーケンシングを実行することによって取得され得る。いくつかの実施形態は、発現データ102を取得することより前に、生体試料のシーケンシングプロセス(たとえば、遺伝子発現マイクロアレイ、次世代シーケンシング)を実行することを伴う。いくつかの実施形態では、遺伝子発現データ102を取得することは、コンピューティングデバイスを使用して、1つもしくは複数のデータストアにおける発現データ(たとえば、生体試料から前に取得された発現データ)にアクセスすること、1つもしくは複数の他のデバイスから発現データを受信すること、または任意の他の方法などによって、インシリコで遺伝子発現データ102を取得することを伴い得る。いくつかの実施形態では、遺伝子発現データ102を取得することは、(生体外で)生体試料を解析すること、および(たとえば、コンピューティングデバイス、プロセッサによって)発現データにアクセスすることを伴い得る。発現データを取得することに関するさらなる態様は、「発現データの取得」と題するセクションにおいて提供される。
【0139】
次に、プロセス300は動作320に進み、そこで、ランキングプロセス108を使用することなどによって、遺伝子のセットにおける遺伝子が、発現データにおけるそれらの発現レベルに基づいてランク付けされて、遺伝子ランキングが取得される。発現データは、遺伝子のセットにおける遺伝子のための発現レベルを各々表す値を含み得、遺伝子ランキングを決定することは、値に基づいて、遺伝子のセットにおける各遺伝子のための相対ランクを決定することを伴い得る。
【0140】
いくつかの実施形態では、対象は、乳がんを有するか、有する疑いがあるか、または有する危険性がある。遺伝子のセットは、Table 1(表1)に記載されている遺伝子群から選択され得る。遺伝子のセットは、Table 1(表1)に記載されている遺伝子群から選択された、少なくとも3つ、5つ、10個、または20個の遺伝子を含み得る。いくつかの実施形態では、遺伝子のセットは、Table 1(表1)に記載されているすべての遺伝子を含み得る。いくつかの実施形態では、遺伝子のセットは、Table 1(表1)に記載されている3~100個の遺伝子、5~100個の遺伝子、20~100個の遺伝子、50~100個の遺伝子、80~100個の遺伝子を含み得る。いくつかの実施形態では、遺伝子のセットは、Table 1(表1)に記載されている100個以下の遺伝子、80個以下の遺伝子、50個以下の遺伝子、20個以下の遺伝子を含み得る。
【0141】
いくつかの実施形態では、対象は、明細胞腎臓がんを有するか、有する疑いがあるか、または有する危険性がある。遺伝子のセットは、Table 2(表2)に記載されている遺伝子群から選択され得る。遺伝子のセットは、Table 2(表2)に記載されている遺伝子群から選択された、少なくとも3つ、5つ、10個、または20個の遺伝子を含み得る。いくつかの実施形態では、遺伝子のセットは、Table 2(表2)に記載されているすべての遺伝子を含み得る。いくつかの実施形態では、遺伝子のセットは、Table 2(表2)に記載されている3~80個の遺伝子、5~80個の遺伝子、20~80個の遺伝子、50~80個の遺伝子、70~80個の遺伝子を含み得る。いくつかの実施形態では、遺伝子のセットは、Table 2(表2)に記載されている80個以下の遺伝子、50個以下の遺伝子、20個以下の遺伝子を含み得る。
【0142】
いくつかの実施形態では、対象は、リンパ腫を有するか、有する疑いがあるか、または有する危険性がある。遺伝子のセットは、Table 3(表3)に記載されている遺伝子群から選択され得る。遺伝子のセットは、Table 3(表3)に記載されている遺伝子群から選択された、少なくとも3つ、5つ、10個、または20個の遺伝子を含み得る。いくつかの実施形態では、遺伝子のセットは、Table 3(表3)に記載されているすべての遺伝子を含み得る。いくつかの実施形態では、遺伝子のセットは、Table 3(表3)に記載されている3~25個の遺伝子、5~25個の遺伝子、10~25個の遺伝子、20~25個の遺伝子を含み得る。いくつかの実施形態では、遺伝子のセットは、Table 3(表3)に記載されている25個以下の遺伝子、20個以下の遺伝子、15個以下の遺伝子、10個以下の遺伝子を含み得る。
【0143】
次に、プロセス300は動作330に進み、そこで、生体試料の1つまたは複数の特性が、遺伝子ランキング、および統計モデル112などの統計モデルを使用して決定される。いくつかの実施形態では、プロセス300によって決定された特性は、生体試料における細胞のためのがんグレードを含み得る。いくつかの実施形態では、プロセス300によって決定された特性は、生体試料における細胞のための起源組織を含み得る。統計モデルは、遺伝子のセットにおける1つまたは複数の遺伝子のための発現レベルのランキングを使用してトレーニングされ得る。いくつかの実施形態では、遺伝子ランキングは、1つまたは複数の特性を示す出力を取得するために、統計モデルへの入力として使用され得る。いくつかの実施形態では、統計モデルは、勾配ブースト決定木分類器、決定木分類器、勾配ブースト分類器、ランダムフォレスト分類器、クラスタリングベースの分類器、ベイズ分類器、ベイジアンネットワーク分類器、ニューラルネットワーク分類器、カーネルベースの分類器、およびサポートベクターマシン分類器からなる群から選択された分類器を備える。
【0144】
いくつかの実施形態では、プロセス300は、遺伝子の第2のセットにおける遺伝子を、発現データにおけるそれらの発現レベルに基づいてランク付けして、第2の遺伝子ランキングを取得することを含み得る。第2の遺伝子ランキングおよび第2の統計モデルは、生体試料の1つまたは複数の第2の特性を決定するために使用され得る。第2の統計モデルは、遺伝子の第2のセットにおける遺伝子の一部または全部のための発現レベルのランキングを示す第2のトレーニングデータを使用してトレーニングされ得る。生体試料の1つまたは複数の第2の特性は、動作330によって決定された特性とは異なり得る。たとえば、いくつかの実施形態では、動作330によって決定された特性は、生体試料における細胞のためのがんグレードを含み得、第2の特性は、生体試料における細胞のための起源組織を含み得る。
【0145】
いくつかの実施形態では、プロセス300は、グラフィカルユーザインターフェース(GUI)において、ユーザ(たとえば、医師)に1つまたは複数の特性を表示すること、1つまたは複数の特性を報告に含めること、ユーザに電子メールを送ることによって、および任意の他の好適な方法などで、1つまたは複数の特性をユーザに出力することを含み得る。
【0146】
いくつかの実施形態では、プロセス300は、生体試料の決定された1つまたは複数の特性に基づいて、対象に治療を行うことを含み得る。たとえば、起源組織が生体試料における細胞について決定される実施形態では、医師は、決定された起源組織のがんを治療することに関連付けられた対象のための治療を行い得る。また別の例として、がんグレードが生体試料における細胞について決定される実施形態では、医師は、決定されたがんグレードを有するがんを治療することに関連付けられた対象のための治療を行い得る。本明細書で説明される技法を使用して決定された生体試料の特性が、治療を行うために使用される、さらなる例は、「治療の方法」と題するセクションにおいて提供される。
【0147】
いくつかの実施形態では、プロセス300は、生体試料の決定された特性に基づいて、対象のための治療を特定することを含み得る。たとえば、起源組織が生体試料における細胞について決定される実施形態では、決定された起源組織は、決定された起源組織のがんを治療することに関連付けられた対象のための治療を特定するために使用され得る。また別の例として、がんグレードが生体試料における細胞について決定される実施形態では、決定されたがんグレードは、決定されたがんグレードを有するがんを治療することに関連付けられた対象のための治療を特定するために使用され得る。
【0148】
いくつかの実施形態では、プロセス300は、生体試料の決定された1つまたは複数の特性に基づいて、対象のための予後を決定することを含み得る。たとえば、起源組織が生体試料における細胞について決定される実施形態では、決定された起源組織は、決定された起源組織のがんを治療することに関連付けられた対象のための予後を決定するために使用され得る。また別の例として、がんグレードが生体試料における細胞について決定される実施形態では、決定されたがんグレードは、決定されたがんグレードを有するがんを治療することに関連付けられた対象のための予後を決定するために使用され得る。本明細書で説明される技法を使用して決定された生体試料の特性が、予後を決定する際に使用される、他の適用例に関するさらなる態様は、「適用例」と題するセクションにおいて提供される。
【0149】
図4は、本明細書で説明される技術のいくつかの実施形態による、生体試料における細胞のための起源組織を決定するための例示的なプロセス400のフローチャートである。プロセス400は、任意の好適なコンピューティングデバイス(たとえば、単一のコンピューティングデバイス、単一の物理的ロケーションにコロケートされるか、または互いからリモートの複数の物理的ロケーションに位置する複数のコンピューティングデバイス、クラウドコンピューティングシステムの1つまたは複数のコンピューティングデバイス部分など)上で実行され得、その理由は、本明細書で説明される技術の態様が、この点について限定されないからである。いくつかの実施形態では、ランキングプロセス108および統計モデル112は、起源組織を決定するために、プロセス400の一部または全部を実行し得る。
【0150】
プロセス400は、動作410において開始し、そこで、がんを有するか、有する疑いがあるか、または有する危険性がある対象の生体試料における細胞のための発現データが取得される。いくつかの実施形態では、発現データは、遺伝子発現マイクロアレイを使用して取得された。いくつかの実施形態では、発現データは、次世代シーケンシングを実行することによって取得された。いくつかの実施形態は、発現データ102を取得することより前に、生体試料のシーケンシングプロセス(たとえば、遺伝子発現マイクロアレイ、次世代シーケンシング)を実行することを伴う。いくつかの実施形態では、遺伝子発現データ102を取得することは、コンピューティングデバイスを使用して、1つもしくは複数のデータストアにおける発現データ(たとえば、生体試料から前に取得された発現データ)にアクセスすること、1つもしくは複数の他のデバイスから発現データを受信すること、または任意の他の方法などによって、インシリコで遺伝子発現データ102を取得することを伴い得る。いくつかの実施形態では、遺伝子発現データ102を取得することは、(生体外で)生体試料を解析すること、および(たとえば、コンピューティングデバイス、プロセッサによって)発現データにアクセスすることを伴い得る。発現データを取得することに関するさらなる態様は、「発現データの取得」と題するセクションにおいて提供される。
【0151】
次に、プロセス400は動作420に進み、そこで、ランキングプロセス108を使用することなどによって、遺伝子の1つまたは複数のセットにおける遺伝子が、発現データにおけるそれらの発現レベルに基づいてランク付けされて、1つまたは複数の遺伝子ランキングが取得される。発現データは、遺伝子の1つまたは複数のセットにおける遺伝子のための発現レベルを各々表す値を含み得、遺伝子ランキングを決定することは、値に基づいて、遺伝子のセットにおける各遺伝子のための相対ランクを決定することを伴い得る。
【0152】
いくつかの実施形態では、対象は、乳がんを有するか、有する疑いがあるか、または有する危険性がある。遺伝子のセットは、Table 1(表1)に記載されている遺伝子群から選択され得る。遺伝子のセットは、Table 1(表1)に記載されている遺伝子群から選択された、少なくとも3つ、5つ、10個、または20個の遺伝子を含み得る。遺伝子のセットは、5~100個の遺伝子、10~200個の遺伝子、20~100個の遺伝子、または50~100個の遺伝子からなり得る。いくつかの実施形態では、遺伝子のセットは、Table 1(表1)に記載されているすべての遺伝子を含み得る。いくつかの実施形態では、遺伝子のセットは、Table 1(表1)に記載されている3~100個の遺伝子、5~100個の遺伝子、20~100個の遺伝子、50~100個の遺伝子、80~100個の遺伝子を含み得る。いくつかの実施形態では、遺伝子のセットは、Table 1(表1)に記載されている100個以下の遺伝子、80個以下の遺伝子、50個以下の遺伝子、20個以下の遺伝子を含み得る。
【0153】
次に、プロセス400は動作430に進み、そこで、生体試料における細胞の一部または全部のための起源組織が、1つまたは複数の遺伝子ランキング、および統計モデル112などの1つまたは複数の統計モデルを使用して決定される。統計モデルは、遺伝子のセットにおける一部または全部の遺伝子のための発現レベルのランキングを使用してトレーニングされ得る。遺伝子ランキングの各々は、遺伝子のセットにおける1つまたは複数の遺伝子のためのそれぞれの発現レベルに基づいて取得され得る。いくつかの実施形態では、1つまたは複数の遺伝子ランキングは、起源組織を示す出力を取得するために、1つまたは複数の統計モデルへの入力として使用され得る。起源組織は、肺組織、膵臓組織、胃組織、結腸組織、肝臓組織、膀胱組織、腎臓組織、甲状腺組織、リンパ節組織、副腎組織、皮膚組織、乳房組織、卵巣組織、前立腺組織、尿路上皮組織、子宮頸部組織、食道組織、脳組織、軟組織、結合組織、頭部組織、および頸部組織を含み得る。
【0154】
いくつかの実施形態では、1つまたは複数の統計モデルは、勾配ブースト決定木分類器、決定木分類器、勾配ブースト分類器、ランダムフォレスト分類器、クラスタリングベースの分類器、ベイズ分類器、ベイジアンネットワーク分類器、ニューラルネットワーク分類器、カーネルベースの分類器、およびサポートベクターマシン分類器からなる群から選択された1つまたは複数の分類器を備える。
【0155】
いくつかの実施形態では、プロセス400は、遺伝子ランキング、および1つまたは複数の統計モデルを使用して、生体試料における細胞のうちの少なくともいくつかのための組織学的情報(たとえば、組織タイプ)を決定することをさらに含み得る。組織学的情報は、腺癌、扁平上皮癌、癌腫、嚢胞腺癌、肉腫、および神経膠腫を含み得る。起源組織と組織学的情報との組合せは、肺腺癌、肺扁平上皮癌、黒色腫、乳癌、結腸直腸腺癌、卵巣漿液性嚢胞腺癌、褐色細胞腫、膀胱尿路上皮癌、子宮頸部扁平上皮癌、多形性膠芽腫、頭部扁平上皮癌、頸部扁平上皮癌、腎臓腎明細胞癌、腎臓腎乳頭細胞癌、肝臓肝細胞癌、膵臓腺癌、傍神経節腫、前立腺腺癌、肉腫、胃腺癌、甲状腺癌、および子宮体子宮内膜癌からなる群から選択され得る。
【0156】
図5は、本明細書で説明される技術のいくつかの実施形態による、生体試料における細胞のためのがんグレードを決定するための例示的なプロセス500のフローチャートである。プロセス500は、任意の好適なコンピューティングデバイス(たとえば、単一のコンピューティングデバイス、単一の物理的ロケーションにコロケートされるか、または互いからリモートの複数の物理的ロケーションに位置する複数のコンピューティングデバイス、クラウドコンピューティングシステムの1つまたは複数のコンピューティングデバイス部分など)上で実行され得、その理由は、本明細書で説明される技術の態様が、この点について限定されないからである。いくつかの実施形態では、ランキングプロセス108および統計モデル112は、がんグレードを決定するために、プロセス500の一部または全部を実行し得る。
【0157】
プロセス500は、動作510において開始し、そこで、がんを有するか、有する疑いがあるか、または有する危険性がある対象の生体試料における細胞のための発現データが取得される。いくつかの実施形態では、発現データは、遺伝子発現マイクロアレイを使用して取得された。いくつかの実施形態では、発現データは、次世代シーケンシングを実行することによって取得された。いくつかの実施形態は、発現データ102を取得することより前に、生体試料のシーケンシングプロセス(たとえば、遺伝子発現マイクロアレイ、次世代シーケンシング)を実行することを伴う。いくつかの実施形態では、遺伝子発現データ102を取得することは、コンピューティングデバイスを使用して、1つもしくは複数のデータストアにおける発現データ(たとえば、生体試料から前に取得された発現データ)にアクセスすること、1つもしくは複数の他のデバイスから発現データを受信すること、または任意の他の方法などによって、インシリコで遺伝子発現データ102を取得することを伴い得る。いくつかの実施形態では、遺伝子発現データ102を取得することは、(生体外で)生体試料を解析すること、および(たとえば、コンピューティングデバイス、プロセッサによって)発現データにアクセスすることを伴い得る。発現データを取得することに関するさらなる態様は、「発現データの取得」と題するセクションにおいて提供される。
【0158】
次に、プロセス500は動作520に進み、そこで、ランキングプロセス108を使用することなどによって、遺伝子のセットにおける遺伝子が、発現データにおけるそれらの発現レベルに基づいてランク付けされて、遺伝子ランキングが取得される。発現データは、遺伝子のセットにおける遺伝子のための発現レベルを各々表す値を含み得、遺伝子ランキングを決定することは、値に基づいて、遺伝子のセットにおける各遺伝子のための相対ランクを決定することを伴い得る。遺伝子のセットは、5~500個の遺伝子、5~200個の遺伝子、50~500個の遺伝子、または50~300個の遺伝子からなり得る。
【0159】
いくつかの実施形態では、対象は、乳がんを有するか、有する疑いがあるか、または有する危険性がある。遺伝子のセットは、Table 1(表1)に記載されている遺伝子群から選択され得る。遺伝子のセットは、Table 1(表1)に記載されている遺伝子群から選択された、少なくとも3つ、5つ、10個、または20個の遺伝子を含み得る。いくつかの実施形態では、遺伝子のセットは、Table 1(表1)に記載されているすべての遺伝子を含み得る。いくつかの実施形態では、遺伝子のセットは、Table 1(表1)に記載されている3~100個の遺伝子、5~100個の遺伝子、20~100個の遺伝子、50~100個の遺伝子、80~100個の遺伝子を含み得る。いくつかの実施形態では、遺伝子のセットは、Table 1(表1)に記載されている100個以下の遺伝子、80個以下の遺伝子、50個以下の遺伝子、20個以下の遺伝子を含み得る。
【0160】
いくつかの実施形態では、対象は、明細胞腎臓がんを有するか、有する疑いがあるか、または有する危険性がある。遺伝子のセットは、Table 2(表2)に記載されている遺伝子群から選択され得る。遺伝子のセットは、Table 2(表2)に記載されている遺伝子群から選択された、少なくとも3つ、5つ、10個、または20個の遺伝子を含み得る。いくつかの実施形態では、遺伝子のセットは、Table 2(表2)に記載されている3~80個の遺伝子、5~80個の遺伝子、20~80個の遺伝子、50~80個の遺伝子、70~80個の遺伝子を含み得る。いくつかの実施形態では、遺伝子のセットは、Table 2(表2)に記載されている80個以下の遺伝子、50個以下の遺伝子、20個以下の遺伝子を含み得る。
【0161】
次に、プロセス500は動作530に進み、そこで、生体試料における細胞のためのがんグレードが、遺伝子ランキング、および統計モデル112などの統計モデルを使用して決定される。統計モデルは、遺伝子のセットにおける1つまたは複数の遺伝子のための発現レベルの遺伝子ランキングを使用してトレーニングされ得る。遺伝子ランキングの各々は、遺伝子のセットにおける1つまたは複数の遺伝子のためのそれぞれの発現レベルに基づいて取得され得る。いくつかの実施形態では、遺伝子ランキングは、がんグレードを示す出力を取得するために、統計モデルへの入力として使用され得る。がんグレードは、グレード1、グレード2、グレード3、グレード4、およびグレード5を含み得る。いくつかの実施形態では、統計モデルは、勾配ブースト決定木分類器、決定木分類器、勾配ブースト分類器、ランダムフォレスト分類器、クラスタリングベースの分類器、ベイズ分類器、ベイジアンネットワーク分類器、ニューラルネットワーク分類器、カーネルベースの分類器、およびサポートベクターマシン分類器からなる群から選択された分類器を備える。
【0162】
本明細書で説明される技法が、乳がんグレードを予測する際にどのように実装され得るかの一例が、
図6A、
図6B、
図6C、
図6D、および
図7に関して説明される。
図6Aは、乳がんグレードを決定するための、異なるデータセット(発現データを取得するために使用された試料調製、シーケンシングプラットフォーム、データ処理において変動するデータセット)、データセットの試料のための関連付けられた臨床的がんグレード、および本明細書で説明される機械学習技法を使用して取得された予測がんグレードを示す。特に、
図6Aは、各垂直線が異なる試料に対応する、異なるデータセット(上部パネル)を示し、そこで、線の陰影は異なるデータセットに対応する。
図6Aはまた、データセットの試料に関連付けられた臨床グレードを示し、そこで、より明るい陰影はグレード1(「G1」)を示し、より暗い陰影はグレード3(「G3」)を示す。臨床グレードは、試料を目視検査するために、顕微鏡検査を使用する医師(たとえば、病理学者)による決定であり得る。
図6Bは、乳がんグレード1およびグレード3に関連付けられた遺伝子発現プロファイルを示す、異なる経路のための濃縮シグネチャを示す。これらの経路のうちの1つまたは複数における遺伝子は、本明細書で説明される技法によって、乳がんグレードを決定するために使用され得る。一例として、HALLMARK_G2M_CHECKPOINTシグネチャが、上部パネルに示されており、右部分の試料では大部分の上方制御される遺伝子、および左部分の試料では大部分の下方制御される遺伝子を有する。乳がんのためのがんグレード分類に関連付けられた経路の他の例は、以下のTable 4(表4)にある。特に、グレード3(「G3」)のために上方制御される遺伝子のセットにおいて濃縮される異なる経路と、グレード1(「G1」)のために上方制御される遺伝子のセットにおいて濃縮される経路とが、Table 4(表4)に記載されている。
【0163】
【0164】
【0165】
図12、
図13、
図14、
図15、
図16、および
図17は、生物学的特徴と異なる乳がんグレードとの間の関係を示す。特に、これらの図は、乳がんのための分子グレード(グレード1およびグレード3)の生物学について説明しており、そこで、示されているデータはTCGA BRCAについてのものであり、予測された乳がんグレードは、本明細書で説明される技法を使用して取得された。
図12は、PAM50サブタイプの間の分子がんグレードの分布である。
図12は、大部分の分子グレード1試料が内腔サブタイプに属することを示す。
図13~
図17についての乳がんデータセットにおけるさらなる比較は、内腔サブタイプのみについてのものである。
図13は、子孫プロセススコアがTCGA BRCAにおける所与のがんグレードおよび予測がんグレードにどのように対応するかを示す。子孫プロセススコアは、発現データから計算される。
図14は、異なる予測がんグレードのための異なるタンパク質発現を比較するプロットを示す。タンパク質発現は、RPPAデータによるものである。
図15は、異なる予測がんグレードのための細胞傷害性スコア(CYT)のプロットである。
図16は、異なるがんグレード間の突然変異における差異を示すプロットである。
図16は、予測がんグレード間で有意に差次的に突然変異される、WESデータによる、遺伝子を示す。
図17は、予測がんグレード間で差次的に増幅または欠失されるセグメントを示す。
図17に示されているセグメントは、WESデータによるものである。
【0166】
本明細書で説明される計算的技法と比較するために、
図6Aは、本明細書で説明される技法による、発現データおよび統計モデルを使用する予測グレード(下側パネル)を示す。予測グレードは、異なる試料が、どのように左部分の試料ではグレード1(「G1」)であるとして、および右部分の試料ではグレード3(「G3」)であるとして予測されるかを示す。これは、
図6Aの下部パネルの下の異なる試料にわたる「G3確率」のプロットにさらに示されており、そこで、グレード3の確率は、左部分の試料よりも右部分の試料ではより高い。
図6Cおよび
図6Dは、試料および経路シグネチャが、乳がんをグレード2試料についてグレード1またはグレード3であるとして予測することに関連付けられることを除いて、それぞれ
図6Aおよび
図6Bに示されているものと同様のデータを示す。ここで、
図6Cおよび
図6Dは、グレード2に関連付けられた生物学的特徴が、グレード1およびグレード3に関連付けられた生物学的特徴にどのくらい類似しているかを示す。
【0167】
図7は、(実線で示されている)いくつかの生体試料のための真陽性率対偽陽性率のプロットである。このプロットは、本明細書で説明される技法を使用する予測がんグレードが、低い偽陽性率を維持しながら、高い真陽性率を有することを示す。
【0168】
別の例として、腎臓明細胞のためのがんグレード分類に関連付けられた経路は、以下のTable 5(表5)にある。特に、グレード4(「G4」)のために、およびグレード1(「G1」)のために上方制御される遺伝子のセットにおいて濃縮される異なる経路が、Table 5(表5)に記載されている。
【0169】
【0170】
【0171】
【0172】
図18、
図19、
図20、
図21、および
図22は、生物学的特徴と異なる腎臓明細胞グレードとの間の関係を示す。特に、これらの図は、腎臓腎明細胞がんのための分子グレード(グレード1およびグレード4)の生物学について説明しており、そこで、示されているデータはTCGA KIRCについてのものであり、予測された腎臓明細胞グレードは、本明細書で説明される技法を使用して取得された。
図18は、子孫プロセススコアがTCGA KIRCにおける所与のがんグレードおよび予測がんグレードにどのように対応するかを示す。子孫プロセススコアは、発現データから計算される。
図19は、異なるがんグレードのための染色体不安定性(CIN)を示すプロットである。
図20は、異なる予測がんグレードのための、RPPAデータによる、異なるタンパク質発現を比較するプロットである。
図21および
図22は、予測がんグレード間で差次的に増幅または欠失される、WESデータによる、遺伝子を示す。
【0173】
いくつかの実施形態は、肺腺癌のためのがんグレードを決定するための本明細書で説明される技法を使用することを伴う。肺腺癌のためのがんグレードを決定するための遺伝子セット中に含まれ得る遺伝子の例は、以下のTable 6(表6)に記載されている。遺伝子のセットは、Table 6(表6)に記載されている遺伝子群から選択された、少なくとも3つ、5つ、10個、または20個の遺伝子を含み得る。いくつかの実施形態では、遺伝子のセットは、Table 6(表6)に記載されているすべての遺伝子を含み得る。いくつかの実施形態では、遺伝子のセットは、Table 6(表6)に記載されている3~25個の遺伝子、5~25個の遺伝子、10~25個の遺伝子、20~25個の遺伝子を含み得る。いくつかの実施形態では、遺伝子のセットは、Table 6(表6)に記載されている25個以下の遺伝子、20個以下の遺伝子、15個以下の遺伝子、10個以下の遺伝子を含み得る。
【0174】
【0175】
本明細書で説明される技法は、肺腺癌のためのがんグレードを予測する際に実装され得、
図23A、
図23B、および
図23Cに関して説明される。特に、肺腺癌のためのがんグレード分類器は、分子グレード1(mG1)、低グレードと、分子グレード3(mG3)、高グレードとの間で区別し得る。そのような分類器は、(国立がん研究所からの)TCGA LUADからの試料と、(NCBIからの)CPTAC3肺腺癌発現データとをトレーニングデータとして使用することによって、開発され得る。
図23A、
図23B、および
図23Cに関して説明される分類器では、TCGA LUADの117個の試料が、トレーニングデータセットから除外され、検証データとして含められた。初期遺伝子セットが、グレード1とグレード3との間で差次的に発現された遺伝子から形成された。初期遺伝子セットに基づくゲノムグレードインデックス(DOI: 10.1093/jnci/djj052)が計算され、トレーニングデータセット試料が、生存モードに基づいて、高いがんグレードおよび低いがんグレードに分割された。分類器のために使用された遺伝子セットの選択を通して、遺伝子の数が低減された。たとえば、
図23A、
図23B、および
図23Cに関して説明される分類器では、初期遺伝子セットは321個の遺伝子を含み、分類器において使用された遺伝子セットは、31個の遺伝子を含んだ。検証データセットは、TCGA LUADおよびシリーズGSE68465からの117個の試料を含んだ。ハイパーパラメータ調整の後、検証データセットにおける分類器の性能は、グレード1とグレード3との間で区別する際に0.89AUCスコアに達した。これらの結果は、生存を予測する際に統計的に有意になる肺分子グレードの能力を実証した。
【0176】
図23Aは、肺腺癌のがんグレードを決定するための、検証データセット、データセットの試料について報告された関連付けられたがんグレード、本明細書で説明される機械学習技法を使用して取得された予測がんグレード、ならびに、グレード1およびグレード3に関連付けられた遺伝子発現プロファイルを示す、異なる経路のための濃縮シグネチャを示す。
図23Aに示されている検証データセットは、発現データを取得するために使用された試料調製、シーケンシングプラットフォーム、およびデータ処理において変動する。
図23Aは、各垂直線が異なる試料に対応するデータセット(上部パネル)を示し、そこで、線の陰影は異なるデータセットに対応する。データセットの試料に関連付けられたがんグレードが示されており、そこで、より明るい陰影はグレード1を示し、より暗い陰影はグレード3を示す。試料に関連付けられたがんグレードは、試料を目視検査するために、顕微鏡検査を使用する医師(たとえば、病理学者)による決定であり得る。がんグレード分類器を使用して予測された分子グレード3の確率も示されている。
図23Aはまた、肺腺癌グレード1およびグレード3に関連付けられた遺伝子発現プロファイルを示す、異なる経路のための濃縮シグネチャを示す。これらの経路のうちの1つまたは複数における遺伝子は、本明細書で説明される技法によって、肺腺癌グレードを決定するために使用され得る。一例として、HALLMARK_G2M_CHECKPOINTシグネチャが、上部パネルに示されており、右部分の試料では大部分の上方制御される遺伝子、および左部分の試料では大部分の下方制御される遺伝子を有する。
図23Bは、検証データセットを肺腺癌がんグレード分類器に適用した結果を示す。
図23Cは、異なる生体試料のがんグレードを予測するための、真陽性率対偽陽性率のプロットであり、そこで、分類器は、0.894 AUCスコアを有した。
【0177】
図8Aは、本明細書で説明される技術のいくつかの実施形態による、遺伝子セットを選択するための例示的なプロセス800のフローチャートである。プロセス800は、任意の好適なコンピューティングデバイス(たとえば、単一のコンピューティングデバイス、単一の物理的ロケーションにコロケートされるか、または互いからリモートの複数の物理的ロケーションに位置する複数のコンピューティングデバイス、クラウドコンピューティングシステムの1つまたは複数のコンピューティングデバイス部分など)上で実行され得、その理由は、本明細書で説明される技術の態様が、この点について限定されないからである。いくつかの実施形態では、ランキングプロセス108および統計モデル112は、起源組織、がんグレード、およびPTCLサブタイプなど、生体試料の1つまたは複数の特性を決定する際に実装され得る、遺伝子セットを選択するために、プロセス800の一部または全部を実行し得る。
【0178】
プロセス800は、動作810において開始し、そこで、発現データがランク付けされて、発現データにおける発現レベルによって表された遺伝子のための遺伝子ランキングが取得される。ランキングプロセス108は、発現データをランク付けして、遺伝子ランキングを取得する際に使用され得る。
【0179】
遺伝子セットを選択する際に使用される発現データは、国立がん研究所(NCI)(たとえば、遺伝子発現オムニバス(GEO))、国立バイオテクノロジー情報センター(NCBI)、およびがんイメージングアーカイブ(TCIA:The Cancer Imaging Archive)を含む、研究組織を通して取得された、利用可能な発現データを含み得る。たとえば、乳がんグレードを予測するために使用される遺伝子セットは、NCIを通して利用可能なシリーズGSE2990からの発現データを使用することによって取得され得る。別の例として、腎臓明細胞がんのためのがんグレードを決定するために使用される遺伝子セットは、シリーズGSE40435からの発現データを使用することによって取得され得る。別の例として、がんのための起源組織および組織学的情報(たとえば、組織タイプ)を決定するために使用される遺伝子セットは、がんゲノムアトラスプログラム(TCGAP)からの発現データを使用することによって取得され得る。別の例として、PTCLサブタイプを予測するために使用される遺伝子セットは、Table 9(表9)に記載されている発現データを使用して取得され得る。
【0180】
次に、プロセス800は動作820に進み、そこで、ランク付けされた発現データが、統計モデル112などの統計モデルに入力される。1つまたは複数の所望の特性を示す出力は、ランク付けされた発現データを統計モデルに入力した結果として取得され得る。プロセス800は動作830に進み得、そこで、検証品質スコアが、動作820の、ランク付けされた発現データを統計モデルに入力することによって取得された出力に基づいて計算される。検証品質スコアは、負の対数損失(negative log loss)、AUC、Fスコア(マイクロ、マクロ、加重)、正解率、平均正解率(balanced accuracy)、適合率、および再現率を含む、1つまたは複数の好適なメトリクスを使用して計算され得る。
【0181】
次に、プロセス800は動作840に進み、そこで、ランキング中に含まれた異なる遺伝子のための重要度値が計算される。重要度値の一例は、Shapley Additive Explanations(SHAP)値であり、SHAP値については、Scott M. LundbergおよびSu-In Leeによる「A Unified Approach to Interpreting Model Predictions」(https://arxiv.org/pdf/1705.07874.pdf)において説明されており、その全体が参照により組み込まれる。例示的なSHAP値は、DLBCLのための起源細胞分類器に関してTable 7(表7)に示されている。
【0182】
次に、プロセス800は動作850に進み、そこで、N(たとえば、1、2、3、4)個の最も重要でない遺伝子が、重要度値に基づいて除外される。次に、プロセス800は動作860に進み、そこで、遺伝子セットが、N個の最も重要でない遺伝子を除外することに基づいて更新される。いくつかの実施形態では、少なくとも、最低の重要度値を有する遺伝子が、遺伝子セットから除去される。
【0183】
プロセス800は、遺伝子セットにおけるより多数の遺伝子(たとえば、約3,000個の遺伝子)を用いて初期化し、後続の反復を通して、セットにおける遺伝子の数を減少させ得る。プロセス800は、所望の品質スコア(たとえば、しきい値よりも高い品質スコア)が達成されるまで、前の反復の動作860において選択された遺伝子セットを用いて、これらの動作を繰り返すことによって継続し得る。いくつかの事例では、初期遺伝子セットは、動作810においてランク付けされ、本明細書で説明される分類器のために使用される制限された遺伝子セットを達成するために、プロセス800によって狭くされ得る。
【0184】
図8Bは、本明細書で説明される技術のいくつかの実施形態による、遺伝子セットを選択するための例示的なプロセス900のフローチャートである。プロセス900は、任意の好適なコンピューティングデバイス(たとえば、単一のコンピューティングデバイス、単一の物理的ロケーションにコロケートされるか、または互いからリモートの複数の物理的ロケーションに位置する複数のコンピューティングデバイス、クラウドコンピューティングシステムの1つまたは複数のコンピューティングデバイス部分など)上で実行され得、その理由は、本明細書で説明される技術の態様が、この点について限定されないからである。いくつかの実施形態では、ランキングプロセス108および統計モデル112は、起源組織、がんグレード、およびPTCLサブタイプなど、生体試料の1つまたは複数の特性を決定する際に実装され得る、遺伝子セットを選択するために、プロセス900の一部または全部を実行し得る。
【0185】
プロセス900は、動作910において開始し、そこで、初期遺伝子セットが選択される。初期遺伝子セットは、Table 1(表1)、Table 2(表2)、Table 3(表3)、Table 6(表6)、およびTable 8(表8)から選択された遺伝子のセットを含み得る。初期遺伝子の数は、少なくとも1,000個の遺伝子、少なくとも3,000個の遺伝子、または少なくとも5,000個の遺伝子であり得る。
【0186】
次に、プロセス900は、プロセス800に関して上記で説明された動作810に進む。次に、プロセス900は動作920に進み、そこで、統計モデルのためのハイパーパラメータが選択され、統計モデルに適合される。
【0187】
次に、プロセスは、プロセス800に関して上記で説明された動作840、850、および860に進む。プロセス800に関して説明されたように、遺伝子の初期セットは、これらのステップの後続の反復を通して、数が減少し得る。これらの反復ステップの結果として、プロセス900は動作925に進み、そこで、遺伝子セットの最小サイズに達する。
【0188】
これらの反復ステップの一部として、プロセス900は動作930に進み、そこで、交差検証スコアが、動作820の統計モデルへのランク付けされた発現データの入力に基づいて計算される。交差検証スコアは、k分割交差検証を実行することによって計算され得る。
【0189】
プロセス900は動作940に進み、そこで、遺伝子セットが、動作930において計算された交差検証スコアに基づいて選択される。いくつかの実施形態では、選択された遺伝子セットは、遺伝子セットの群からの最高交差検証スコアを有する。
【0190】
次に、プロセス900は動作950に進み、そこで、発現データがランク付けされて、発現データにおける発現レベルによって表された遺伝子のための遺伝子ランキングが取得される。ランキングプロセス108は、発現データをランク付けして、遺伝子ランキングを取得する際に使用され得る。
【0191】
次に、プロセス900は動作960に進み、そこで、統計モデルのためのハイパーパラメータが選択され、動作940において選択された遺伝子セットのための統計モデルに適合される。
【0192】
たとえば、
図9Aは、品質スコア対遺伝子の数のプロットであり、遺伝子の数を30から28に減少させることによって、どのくらい品質スコアが増すかを示す。
図9Bは、本明細書で説明される技術のいくつかの実施形態による、ABC/GCB起源組織予測のためのランク付けにおいて使用された、F1スコア対遺伝子の数の例示的なプロットである。
【0193】
起源細胞DLBCL分類器
本明細書で説明されるように、いくつかの実施形態は、DLBCLのための起源細胞を決定するための本明細書で説明される技法を使用することを伴う。特に、起源細胞DLBCL分類器は、試料を胚中心B細胞(GCB)および活性化B細胞(ABC)のいずれかであるとしてカテゴリー化し得る。そのような分類器は、トレーニングデータとして、シリーズGSE117556、ライプツィヒリンパ腫データセット(10.1186/s13073-019-0637-7)、シリーズGSE31312、シリーズGSE10846、シリーズGSE87371、シリーズGSE11318、シリーズGSE32918、シリーズGSE23501、リンパ腫/白血病分子プロファイリングプロジェクト(LLMPP)、およびシリーズGSE93984からの試料を使用することによって開発され得る。各データセットについて、データセットごとに40:60のバランスの取れた起源細胞比ABC:GCB比を有するように、試料が選択された。たとえば、このことは、起源細胞ラベリングを有する試料を選択すること、続いて、所望のABC:GCB比を取得するために、試料のランダム選択の丸めを伴い得る。例示的な起源細胞DLBCL分類器が、
図24A、
図24B、
図24C、
図24D、および
図24Eに関して説明される。この分類器では、トレーニングデータセットは、1,968個の試料を含む。
【0194】
好適なデータセットは、トレーニングされた起源細胞DLBCL分類器を検証するために使用され得る。起源細胞DLBCLの検証は、シリーズGSE34171(GPL96+GPL97)、シリーズGSE22898、シリーズGSE64555、シリーズGSE145043、シリーズGSE19246、および国立がん研究所がん研究センター(NCICCR:National Cancer Institute Center for Cancer Research)「Genetics and Pathogenesis of Diffuse Large B Cell Lymphoma」データセットからのデータを使用することを伴い得る。
図24A、
図24B、
図24C、
図24D、および
図24Eに関して説明される分類器の検証は、928個の試料の検証データセットを使用することを伴った。
【0195】
分類器は、未知および未分類の試料のデータセットを使用して、さらに検証され得る。起源細胞DLBCL分類器は、シリーズGSE69051、シリーズGSE69049、E-TABM-346、シリーズGSE68895、シリーズGSE38202、シリーズGSE2195、国際がんゲノムコンソーシアムMalignant Lymphoma-DE(ICGC_MALY_DE)データセット(https://icgc.org/node/53049)、および国立がん研究所がんゲノム特性化イニシアチブ(NCICGCI:National Cancer Institute Cancer Genome Characterization Initiative)Non-Hodgkin Lymphomaデータセット(https://ocg.cancer.gov/programs/cgci/projects/non-hodgkin-lymphoma)からのデータを使用して検証され得る。
図24A、
図24B、
図24C、
図24D、および
図24Eに関して説明される起源細胞DLBCL分類器については、1,169個の未知および未分類の試料が、分類器の検証において使用された。
【0196】
図24A、
図24B、
図24C、
図24D、および
図24Eに関して説明された起源細胞分類器は、
図8に示されたプロセス800などによって、遺伝子セットを特定することを伴い得る。特に、初期遺伝子セットは、Wright G他、A gene expression-based method to diagnose clinically distinct subgroups of diffuse large B cell lymphoma、PNAS、2003、100:9991~9996 (doi:10.1073/pnas.1732008100)において説明された遺伝子から特定され得、その全体が参照により本明細書に組み込まれる。初期遺伝子セットは、分類器において使用されることになる30個の遺伝子まで減るようにキュレートされた。ハイパーパラメータ調整の後、検証データセットにおける分類器の性能は、0.93 f1スコアおよび0.978 AUCスコアに達した。
【0197】
この例示的な分類器では、二項分類が、LightGBMにおける勾配ブースター決定器分類器(gradient booster decision tree classifier)を使用して実行された。特徴選択は、SHAPパッケージ(https://github.com/slundberg/shap)を使用して、モデルにおける特徴重要度を推定することによって実行された。DLBCLのための起源細胞分類器に含めるために、可能な遺伝子について計算された例示的なSHAP重要度値は、以下のTable 7(表7)に示されている。
【0198】
【0199】
図24Aは、DLBCLサブタイプを決定するための、検証データセット、データセットの試料について報告された関連付けられた起源細胞、本明細書で説明される機械学習技法を使用して取得された予測起源細胞、ならびにABCサブタイプおよびGCBサブタイプのための濃縮シグネチャを示す。
図24Bは、DLBCLサブタイプを決定するための、検証データセット、データセットの試料について報告された関連付けられた起源細胞、本明細書で説明される機械学習技法を使用して取得された予測起源細胞、ならびにABCサブタイプおよびGCBサブタイプのための濃縮シグネチャを示す。
図24Aおよび
図24Bに示されている検証データセットは、発現データを取得するために使用された試料調製、シーケンシングプラットフォーム、およびデータ処理において変動する。
図24Aと
図24Bの両方は、各垂直線が異なる試料に対応するデータセット(上部パネル)を示し、そこで、線の陰影は異なるデータセットに対応する。データセットの試料に関連付けられた起源細胞が示されており、そこで、より明るい陰影はGCBサブタイプを示し、より暗い陰影はABCサブタイプを示す。試料に関連付けられた起源細胞は、試料を目視検査するために、顕微鏡検査を使用する医師(たとえば、病理学者)による決定であり得る。ABCシグネチャおよびGCBシグネチャのための濃縮シグネチャが、
図24Aおよび
図24Bに示されている。ABCシグネチャは、一般に、右部分の試料において大部分の上方制御される遺伝子を有し、GCBシグネチャは、左部分の試料では大部分の上方制御される遺伝子を有する。
図24Cおよび
図24Dは、異なる群(ABC、GCB)のための生存率のプロットである。
図24Eは、異なる生体試料のDLBCLサブタイプを予測するための、真陽性率対偽陽性率のプロットであり、そこで、分類器は、0.978 AUCスコアを有した。
【0200】
ヒトパピローマウイルス(HPV)頭頸部扁平上皮癌分類器
いくつかの実施形態は、HPV状態(HPV陽性、HPV陰性)を予測するための本明細書で説明される技法を使用することを伴う。そのような実施形態は、試料を、HPV陽性状態またはHPV陰性状態を有するものとして決定することを伴い得る。いくつかの実施形態では、HPV状態は、頭頸部扁平上皮癌を有するか、有する疑いがあるか、または有する危険性がある対象について決定され得る。頭頸部扁平上皮癌のためのHPV状態を決定するための遺伝子セット中に含まれ得る遺伝子の例は、以下のTable 8(表8)に記載されている。遺伝子のセットは、Table 8(表8)に記載されている遺伝子群から選択された、少なくとも3つ、5つ、10個、または20個の遺伝子を含み得る。いくつかの実施形態では、遺伝子のセットは、Table 8(表8)に記載されているすべての遺伝子を含み得る。いくつかの実施形態では、遺伝子のセットは、Table 8(表8)に記載されている3~130個の遺伝子、5~130個の遺伝子、20~130個の遺伝子、50~130個の遺伝子、80~130個の遺伝子を含み得る。いくつかの実施形態では、遺伝子のセットは、Table 8(表8)に記載されている130個以下の遺伝子、100個以下の遺伝子、80個以下の遺伝子、50個以下の遺伝子、20個以下の遺伝子を含み得る。
【0201】
【0202】
【0203】
【0204】
【0205】
【0206】
そのような分類器は、トレーニングデータとして、シリーズGSE65858、シリーズGSE41613、(EMBL-EBIからの)E-TABM-302、シリーズGSE25727、シリーズGSE3292、シリーズGSE6791、シリーズGSE10300、(がんイメージングアーカイブ(TCIA)からの)TCGA HNSCデータセットからの試料を使用することによって開発され得る。
図25A、
図25B、
図25C、
図25D、
図25E、および
図25Fに関して説明される分類器では、TCGA HNSCデータセットの60個の試料が、トレーニングデータから除外され、検証データセットにおいて使用された。検証データセットは、TCGA HNSCデータセットおよびシリーズGSE40774からの60個の試料を含んだ。シリーズGSE74927は、HPVウイルスの異なる株が表される追加の検証データセットとして使用され、異なるHPV株にわたる分類器の性能の査定が可能になった。分類器のための遺伝子セットは、Chakravarthy他、Human Papillomavirus Drives Tumor Development Throughout the Head and Neck: Improved Prognosis Is Associated With an Immune Response Largely Restricted to the Oropharynx、Journal of Clinical Oncology、34、no. 34 (2016年12月01日) 4132~4141 (DOI:10.1200/JCO.2016.68.2955)において説明された遺伝子から特定されており、その全体が参照により本明細書に組み込まれる。初期遺伝子セットは、
図8に示されたプロセス800を使用することなどによって、82個の遺伝子まで減るようにキュレートされた。ハイパーパラメータ調整の後、TCGA HNSCデータセットおよびシリーズGSE40774をもつ検証データセットにおける分類器の性能は、0.975 AUCスコアおよび0.9 f1スコアに達した。シリーズGSE74927をもつ検証データセットにおける分類器の性能は、1.0 AUCスコアおよび1.0 f1スコアに達した。分類器が、HPV16株、HPV18株、HPV33株、およびHPV55を含む、いくつかのHPV株の認識に成功したことに留意されたい。
【0207】
図25Aは、HPV状態を決定するための、検証データセット、データセットの試料について報告された関連付けられたHPV状態、本明細書で説明される機械学習技法を使用して取得された予測HPV状態、ならびに、HPV状態に関連付けられた遺伝子発現プロファイルを示す、異なる経路のための濃縮シグネチャを示す。
図25Aは、各垂直線が異なる試料に対応するデータセット(上部パネル)を示し、そこで、線の陰影は異なるデータセットに対応する。データセットの試料に関連付けられたHPV状態が示されており、そこで、より明るい陰影は陰性HPV状態を示し、より暗い陰影は陽性HPV状態を示す。試料が陽性HPV状態を有する確率が、
図25Aの中間パネルに示されている。HPV状態に関連付けられた遺伝子発現プロファイルを示す、異なる経路のための濃縮シグネチャが、
図25A(下部パネル)に示されている。一例として、HALLMARK_E2F_TARGETSシグネチャが、
図25Aに示されており、右部分の試料では大部分の上方制御される遺伝子、および左部分の試料では大部分の下方制御される遺伝子を有する。
図25Bおよび
図25Cは、HPV状態の異なる群(陽性HPVおよび陰性HPV)のための生存率のプロットである。
図25Dは、(TCGA HNSCデータセットおよびシリーズGSE40774検証データからの)異なる生体試料のHPV状態を予測するための、真陽性率対偽陽性率のプロットであり、そこで、分類器は、0.975 AUCスコアを有した。
図25Eは、(シリーズGSE74927検証データからの)異なる生体試料のHPV状態を予測するための、真陽性率対偽陽性率のプロットであり、そこで、分類器は、1.0 AUCスコアを有した。
図25Fは、シリーズGSE74927検証データにおける異なるHPV株のための分類器の性能を示すプロットである。
【0208】
末梢T細胞リンパ腫(PTCL)分類器
本出願の態様は、生体試料のための末梢T細胞リンパ腫(PTCL)のサブタイプを決定するために、遺伝子発現データを解析するための、本発明者によって開発された技法に関する。これらの技法は、遺伝子発現レベルに基づいて、遺伝子のセットをランク付けすること、ならびに、ランキングおよび1つまたは複数の統計モデルを使用して、PTCLサブタイプを決定することを伴う。遺伝子のセットは、生物学的特徴(たとえば、細胞形態、細胞遊走、細胞周期)、発現経路に関連付けられるか、または末梢T細胞リンパ腫(PTCL)の1つもしくは複数のサブタイプに別様に関連付けられ得る。
【0209】
末梢T細胞リンパ腫は、すべての非ホジキンリンパ腫の約10%を占める。末梢T細胞リンパ腫は、その厳密な定義が検査室診断の現代的方法に制限される、20個よりも多いサブタイプを含む異種疾患群である。PTCLサブタイプの例には、限定はしないが、末梢T細胞リンパ腫、非特定型(PTCL-NOS)、未分化大細胞リンパ腫(ALCL)、血管免疫芽球性T細胞リンパ腫(AITL)、皮膚T細胞性リンパ腫(CTCL)、ナチュラルキラー/T細胞リンパ腫(NKTCL)、セザリー症候群、成人T細胞白血病/リンパ腫(ATLL)、腸症型T細胞リンパ腫、鼻NK/T細胞リンパ腫、肝脾ガンマデルタT細胞リンパ腫、濾胞性T細胞(TFH)起源のT細胞リンパ腫、消化管のT細胞リンパ腫(たとえば、EATL、MEITL)などが含まれる。
【0210】
PTCLの中で最も頻度の高いサブグループは、成人T細胞白血病/リンパ腫(ATLL)、血管免疫芽球性T細胞リンパ腫(AITL)、NK/T細胞リンパ腫(NKTCL)、未分化大細胞リンパ腫(ALCL)、および非特定型に属するケース(PTCL-NOS)であり、それらは、全PTCL患者の約35%に対応する。他のPTCLサブタイプは、まれであり、節外腫瘍(extranodal tumor)によってほぼ表される。PTCLのより有効なアノテーションは、個別化された治療の設計および実施に最終的につながるようになると予想される。本明細書で説明されるように、本発明者は、遺伝子発現レベルのための特定の値とは対照的に、遺伝子のセットのランキングを使用することによる、いくつかの利益を認識している。いくつかの実施形態では、本明細書で説明される技術は、生体試料のための末梢T細胞リンパ腫(PTCL)のサブタイプを決定することを伴う。
【0211】
たとえば、いくつかの実施形態では、シーケンシングプラットフォームによって決定された(生体試料における)遺伝子発現レベルに基づく遺伝子のランキングが、生体試料のためのPTCLサブタイプを予測するためにトレーニングされた統計モデルへの入力として提供され得る。統計モデルは、マルチクラス分類器を含み、異なるPTCLサブタイプに対応する複数の出力を有し得る。別の例として、いくつかの実施形態では、シーケンシングプラットフォームによって決定された(生体試料における)遺伝子発現レベルに基づく遺伝子のランキングが、異なるPTCLサブタイプを予測するためにトレーニングされた複数の統計モデルへの入力として提供され得る。たとえば、ある統計モデルは、生体試料のための未分化大細胞リンパ腫(ALCL)を予測するためにトレーニングされ得、別の統計モデルは、生体試料のための血管免疫芽球性T細胞リンパ腫(AITL)を予測するためにトレーニングされ得る。そのような実施形態では、統計モデルは、各々が異なるPTCLサブタイプのためにトレーニングされる二項分類器、または特定のPTCLサブタイプの尤度を推定する回帰型分類器であり得る。
【0212】
異なるPTCLサブタイプは、異なる分子シグネチャを有し得る。いくつかの実施形態では、ランク付けされている遺伝子のセットは、関心のある特定のPTCLサブタイプに依存する。いくつかの実施形態では、遺伝子のあるセットは、PTCLサブタイプの群を決定するために使用され得、遺伝子の別のセットは、PTCLサブタイプの異なる群を決定するために使用され得る。たとえば、遺伝子のあるセットは、未分化大細胞リンパ腫(ALCL)を含むPTCLサブタイプの群を決定するために使用され得、遺伝子の別のセットは、血管免疫芽球性T細胞リンパ腫(AITL)、ナチュラルキラー/T細胞リンパ腫(NKTCL)、および成人T細胞白血病/リンパ腫(ATLL)を含む、PTCLサブタイプの異なる群を決定するために使用され得る。遺伝子の別のセットは、腸症型T細胞リンパ腫、鼻NK/T細胞リンパ腫、および肝脾ガンマデルタT細胞リンパ腫を含む、PTCLサブタイプの群を決定するために使用され得る。別の例として、遺伝子のあるセットは、未分化大細胞リンパ腫(ALCL)を決定するために使用され得、遺伝子の別のセットは、ナチュラルキラー/T細胞リンパ腫(NKTCL)を決定するために使用され得る。
【0213】
本明細書で説明されるいくつかの実施形態は、遺伝子発現データを使用して、生体試料のPTCLサブタイプを決定することに関して、本発明者が認識した、上記で説明された問題のすべてに対処する。しかしながら、本明細書で説明されるあらゆる実施形態が、これらの問題のあらゆるものに対処するとは限らず、いくつかの実施形態は、それらのいずれかに対処しないことがある。したがって、本明細書で説明される技術の実施形態は、遺伝子発現データを使用して、生体試料のPTCLサブタイプを決定することに関する、上記で説明された問題のすべてまたはいずれかに対処することに限定されないことを諒解されたい。
【0214】
いくつかの実施形態は、対象の生体試料のための遺伝子発現データを取得すること、遺伝子のセットにおける遺伝子を、発現データにおけるそれらの発現レベルに基づいてランク付けして、1つまたは複数の遺伝子ランキングを取得することを伴う。1つまたは複数の遺伝子ランキングは、生体試料における細胞のためのPTCLのサブタイプを決定するために、1つまたは複数の統計モデルとともに使用され得る。統計モデルは、遺伝子のセットにおける一部または全部の遺伝子のための発現レベルのランキングを使用してトレーニングされ得る。
【0215】
いくつかの実施形態では、遺伝子ランキングは、遺伝子の1つまたは複数のセットにおける遺伝子を、発現データにおけるそれらの発現レベルに基づいてランク付けすることによって取得され得る。いくつかの実施形態では、発現データは、遺伝子のセットにおける遺伝子のための発現レベルを各々表す値を含む。遺伝子ランキングを決定することは、値に基づいて、遺伝子のセットにおける各遺伝子のための相対ランクを決定することを伴い得る。たとえば、第1の遺伝子ランキングは、遺伝子の第1のセットにおける遺伝子を、それらの発現レベルに基づいてランク付けすることによって取得され得る。
【0216】
いくつかの実施形態では、発現データは、生体試料における細胞について取得され得、そこで、対象は、がんを有するか、または有する疑いがある。いくつかの実施形態では、発現データは、生体試料における細胞について取得され得、そこで、対象は、リンパ腫を有するか、または有する疑いがある。いくつかの実施形態では、対象は、PTCLを有するか、または有する疑いがある。
【0217】
いくつかの実施形態では、
図1に示されている処理パイプライン100が、1つまたは複数のPTCLサブタイプを決定するために使用され得る。そのような実施形態では、遺伝子ランキングおよび統計モデルは、生体試料の1つまたは複数のPTCLサブタイプを決定するために使用され得る。いくつかの実施形態では、遺伝子のあるセットは、生体試料のためのPTCLサブタイプを決定するために使用され得、遺伝子の別のセットは、起源組織を決定するために使用され得る。たとえば、統計モデル112aおよび遺伝子セット1 106aは、生体試料における細胞のためのPTCLサブタイプを決定するために使用され得、統計モデル112bおよび遺伝子セット2 106bは、生体試料における細胞のための起源組織を決定するために使用され得る。いくつかの実施形態では、異なる遺伝子セットが、異なるPTCLサブタイプを決定するために使用され得る。たとえば、遺伝子セット1 106aは、生体試料がAITLサブタイプを有するか否かを決定するために使用され得、遺伝子セット2 106bは、生体試料がATLLサブタイプを有するか否かを決定するために使用され得る。
【0218】
いくつかの実施形態では、異なる遺伝子セットおよび異なる統計モデルが、異なるPTCLサブタイプを決定するために使用され得る。たとえば、統計モデル112aおよび遺伝子セット1 106aは、生体試料における細胞のためのあるPTCLサブタイプ(たとえば、AITL)を決定するために使用され得、統計モデル112bおよび遺伝子セット2 106bは、生体試料における細胞のための別のPTCLサブタイプ(たとえば、ATLL)のために使用され得る。
【0219】
PTCLサブタイプを決定するために使用される統計モデルは、GEOデータベースを通して利用可能なシリーズGSE58445、シリーズGSE45712、シリーズGSE1906、シリーズGSE90597、シリーズGSE6338、シリーズGSE36172、シリーズGSE65823、シリーズGSE118238、シリーズGSE78513、シリーズGSE51521、シリーズGSE14317、シリーズGSE80631、シリーズGSE19067、およびシリーズGSE20874のうちの1つまたは複数からのデータを使用してトレーニングされ得る。別の例として、PTCLサブタイプを決定するために使用される統計モデルは、以下のTable 9(表9)に記載されているコホートのうちの1つまたは複数からのデータを使用してトレーニングされ得る。
【0220】
【0221】
【0222】
いくつかの実施形態では、PTCLサブタイプは、生体試料における細胞について、本明細書で説明される技法を使用して決定され得る。PTCLサブタイプは、末梢T細胞リンパ腫、非特定型(PTCL-NOS)、未分化大細胞リンパ腫(ALCL)、血管免疫芽球性T細胞リンパ腫(AITL)、皮膚T細胞性リンパ腫(CTCL)、ナチュラルキラー/T細胞リンパ腫(NKTCL)、セザリー症候群、成人T細胞白血病/リンパ腫(ATLL)、腸症型T細胞リンパ腫、鼻NK/T細胞リンパ腫、肝脾ガンマデルタT細胞リンパ腫、濾胞性T細胞(TFH)起源のT細胞リンパ腫、および消化管のT細胞リンパ腫を含み得る。
【0223】
いくつかの実施形態では、遺伝子ランキングを取得するために使用される遺伝子のセットは、生物学的特徴、発現経路に関連付けられた、または1つもしくは複数のPTCLサブタイプを決定することに別様に関連付けられた遺伝子を含み得る。そのような遺伝子セット中に含まれ得る遺伝子の例は、以下のTable 10(表10)に記載されている。
【0224】
【0225】
【0226】
【0227】
【0228】
【0229】
【0230】
【0231】
いくつかの実施形態は、1つまたは複数のPTCLサブタイプの分子シグネチャに関連付けられた遺伝子を含む遺伝子セットを使用することを伴う。そのような遺伝子セット中に含まれ得る遺伝子の例は、以下のTable 11(表11)に記載されており、Table 11(表11)は、異なる遺伝子と、それらの対応するPTCLサブタイプとを示す。いくつかの実施形態では、Table 11(表11)に記載されている1つまたは複数の遺伝子が、Table 10(表10)に記載されている1つまたは複数の遺伝子と組み合わせられて、本明細書で説明される技法によって、PTCLサブタイプを決定するために使用される遺伝子セットが形成され得る。
【0232】
【0233】
本明細書で説明される技法によって、PTCLサブタイプを決定するために使用される遺伝子セット中に含まれ得る遺伝子のさらなる例については、Iqbal J、Wright G、Wang C他、Gene expression signatures delineate biological and prognostic subgroups in peripheral T-cell lymphoma、Blood、2014、123(19):2915~2923 (doi:10.1182/blood-2013-11-536359)において説明され、記載されており、その全体が参照により本明細書に組み込まれる。
【0234】
いくつかの実施形態は、正常なTリンパ球と比較して、血管免疫芽球性T細胞リンパ腫(AITL)において上方制御される遺伝子を含む、遺伝子セットを使用することを伴い得、これらの遺伝子は、本明細書では「AITLにおいて上方制御される遺伝子」と呼ばれることがある。たとえば、遺伝子セット濃縮解析(GSEA:Gene Set Enrichment Analysis)データベースにおいて系統名M12225をもつ、遺伝子セットPICCALUGA_ANGIOIMMUNOBLASTIC_LYMPHOMA_UPにおける1つまたは複数の遺伝子が、本明細書で説明される技法によって、PTCLサブタイプを決定する際に使用され得る。いくつかの実施形態では、遺伝子セットは、A2M、ABCC3、ABI3BP、ACKR1、ACTA2、ACVRL1、ADAMDEC1、ADAMTS1、ADAMTS9、ADGRF5、ADGRL4、ADRA2A、ANK2、ANKRD29、ANTXR1、APOC1、APOE、ARHGAP29、ARHGAP42、ARHGEF10、ASPM、ATOX1、C1QA、C1QB、C1QC、C1R、C1S、C2、C3、C4A、C7、CALD1、CARMN、CAV2、CAVIN1、CCDC102B、CCDC80、CCL14、CCL19、CCL2、CCL21、CCN4、CD63、CD93、CDH11、CDH5、CETP、CFB、CFH、CHI3L1、CLMP、CLU、CMKLR1、COL12A1、COL15A1、COL1A1、COL1A2、COL3A1、COL4A1、COL4A2、COL6A1、COL8A2、COX7A1、CP、CSRP2、CTHRC1、CTSC、CTSL、CTTNBP2NL、CXCL10、CXCL12、CXCL9、CYBRD1、CYFIP1、CYP1B1、CYP26B1、CYP27A1、DAB2、DCLK1、DDR2、DEPP1、DHRS7B、DOCK4、DPYSL3、EMCN、EMILIN1、ENG、ENPP2、EPHX1、FAM107A、FAM114A1、FAM20A、FBN1、FCHO2、FERMT2、FLRT2、FN1、FSTL1、FUCA1、GABBR1、GASK1B、GJA1、GJC1、GPNMB、GPRC5B、GUCY1B1、HNMT、HSPB8、HSPG2、IDH1、IFI27、IGFBP5、IGFBP7、IL18、IL33、IRAK3、ITGA9、ITPRIPL2、KCNJ10、KCNMA1、KCTD12、LAMA4、LAMB1、LAMC1、LIFR、LOXL1、LPAR1、LUM、MARCKS、MFAP4、MIR1245A、MIR34AHG、MMP9、MXRA5、MYL9、MYLK、NAGK、NEXN、NFIB、NNMT、NPL、NR1H3、NR2F2、OSMR、P2RY13、PAPSS2、PARVA、PCOLCE、PDGFRA、PDLIM5、PDPN、PGF、PLA2G2D、PLA2G4C、PLD1、PLPP3、PMP22、PPIC、PRRX1、PTGDS、RAB13、RAI14、RARRES2、RASSF4、RBP5、RBPMS、RGL1、RGS5、RHOBTB3、RND3、RPE、RRAS、RSPO3、S1PR3、SAMD9L、SEPTIN10、SERPING1、SERPINH1、SLAMF8、SLC1A3、SLC40A1、SLCO2B1、SMOC2、SPARC、SPARCL1、SPRED1、SULF1、TAGLN、TANC1、TCIM、TDO2、TEAD2、THY1、TJP1、TLR4、TMEM163、TMEM176A、TMEM176B、TNC、TNS1、TNS3、TPM1、TRIM47、VCAM1、VWF、WDFY3、WLS、WWTR1、YAP1、およびZNF226からなる群から選択された、1つまたは複数の遺伝子を含み得る。
【0235】
いくつかの実施形態は、正常なTリンパ球と比較して、血管免疫芽球性T細胞リンパ腫(AITL)において下方制御される遺伝子を含む、遺伝子セットを使用することを伴い得、これらの遺伝子は、本明細書では「AITLにおいて下方制御される遺伝子」と呼ばれることがある。たとえば、遺伝子セット濃縮解析(GSEA)データベースにおいて系統名M4781をもつ、遺伝子セットPICCALUGA_ANGIOIMMUNOBLASTIC_LYMPHOMA_DNにおける1つまたは複数の遺伝子が、本明細書で説明される技法によって、PTCLサブタイプを決定する際に使用され得る。いくつかの実施形態では、遺伝子セットは、AMD1、AREG、ATP2B1-AS1、B3GNT2、BOLA2、BTG1、C16orf72、CBX4、CCDC59、CCNL1、CD6、CD69、CHD1、CLK1、CNOT6L、CNST、COG3、CREM、CSGALNACT2、CSRNP1、DDX3X、DNAJB6、DUSP10、DUSP2、DUSP4、EIF1、EIF4E、EIF4G3、EIF5、EPC1、ETNK1、FBXO33、FBXW7、FOSB、FOSL2、FOXP1、G3BP2、GABARAPL1、GADD45A、GADD45B、GATA3、H2AC18、H3-3B、HAUS3、HECA、HIPK1、ID2、IDS、IER5、IFRD1、IKZF5、ING3、IRF2BP2、IRS2、JMJD1C、JMY、JUN、JUND、KDM3A、KDM6B、KLF10、KLF4、KLF6、LINC-PINT、LINC01578、LY9、MAP3K8、MCL1、MEX3C、MGAT4A、MOAP1、MPZL3、MXD1、MYLIP、NAMPT、NDUFA10、NR4A2、NR4A3、PCIF1、PDE4D、PELI1、PER1、PHF1、PIGA、PMAIP1、PNPLA8、PPP1R15A、PPP1R15B、PRNP、PTGER4、PTP4A1、PTP4A2、RAPGEF6、REL、RGCC、RGS1、RGS2、RNF103、RNF11、RNF139、RSRC2、SARAF、SBDS、SETD2、SIK1、SIK3、SLC2A3、SLC30A1、SMURF2、SNORD22、SNORD3B-1、SON、SRSF5、STK17B、SUCO、THAP2、TIPARP、TMX4、TNFAIP3、TOB1、TP53INP2、TRA2B、TSC22D2、TSC22D3、TSPYL2、TTC7A、TUBB2A、WIPF1、YPEL5、ZBTB10、ZBTB24、ZFAND2A、ZFAND5、ZFC3H1、ZFP36、およびZNF331からなる群から選択された、1つまたは複数の遺伝子を含み得る。
【0236】
いくつかの実施形態は、本明細書では「MFプロファイル遺伝子」と呼ばれることがある、対象の分子機能(MF)プロファイルに関連付けられた遺伝子を含む、遺伝子セットを使用することを伴い得る。いくつかの実施形態では、MFプロファイルに関連付けられた遺伝子は、MFプロファイルの1つまたは複数のモジュールにおける遺伝子を含み得る。MFプロファイルおよびMFプロファイルのモジュールに関連付けられた遺伝子の例については、2019年6月4日に発行された「SYSTEMS AND METHODS FOR GENERATING, VISUALIZING AND CLASSIFYING MOLECULAR FUNCTION PROFILES」と題する米国特許第10,311,967号において説明され、記載されており、その全体が参照により本明細書に組み込まれる。いくつかの実施形態では、MFプロファイルに関連付けられた遺伝子のうちの1つまたは複数、およびTable 10(表10)に記載されている遺伝子のうちの1つまたは複数が、PTCLサブタイプを決定するための遺伝子セットとして組み合わせて使用され得る。
【0237】
いくつかの実施形態は、生体試料のためのPTCLサブタイプを決定するために使用される、異なるPTCLサブタイプに対応する複数のPTCLサブタイプ予測を出力する統計モデルを使用することによって、生体試料における細胞のためのPTCLサブタイプを決定することを伴い得る。
図26は、本明細書で説明される技術のいくつかの実施形態による、生体試料のPTCLサブタイプを決定するための例示的な処理パイプライン2600の図であり、例示的な処理パイプライン2600は、遺伝子を、それらの遺伝子発現レベルに基づいてランク付けすること、ならびに、ランキングおよび統計モデルを使用して、PTCLサブタイプを決定することを含み得る。処理パイプライン2600は、任意の好適なコンピューティングデバイス(たとえば、単一のコンピューティングデバイス、単一の物理的ロケーションにコロケートされるか、または互いからリモートの複数の物理的ロケーションに位置する複数のコンピューティングデバイス、クラウドコンピューティングシステムの1つまたは複数のコンピューティングデバイス部分など)上で実行され得、その理由は、本明細書で説明される技術の態様が、この点について限定されないからである。いくつかの実施形態では、処理パイプライン2600は、デスクトップコンピュータ、ラップトップコンピュータ、モバイルコンピューティングデバイスによって実行され得る。いくつかの実施形態では、処理パイプライン2600は、クラウドコンピューティング環境の部分である1つまたは複数のコンピューティングデバイス内で実行され得る。
【0238】
いくつかの実施形態では、遺伝子発現データ102およびランキングプロセス108は、遺伝子を、遺伝子発現データ102におけるそれらの発現レベルに基づいてランク付けして、遺伝子ランキング110を取得するために使用される。遺伝子ランキング110は、統計モデル112に入力され得る。統計モデル112は、遺伝子セットにおける一部または全部の遺伝子のための発現レベルのランキングを示すトレーニングデータを使用してトレーニングされ得る。
【0239】
いくつかの実施形態では、統計モデル112は、特定のPTCLサブタイプを有する生体試料の予測を出力し得る。いくつかの事例では、統計モデルによって出力された予測は、生体試料がPTCLサブタイプを有する確率を含み得る。
図26に示されているように、統計モデル112は、PTCLサブタイプ予測1 216a、PTCLサブタイプ予測2 216b、PTCLサブタイプ予測3 216c、およびPTCLサブタイプ予測4 216dを出力する。統計モデル112によって出力された予測は、予測解析プロセス118を使用して解析されて、生体試料のためのPTCLサブタイプ214が決定され得る。予測解析プロセス118は、異なるPTCLサブタイプ予測の中から、生体試料のための特定のPTCLサブタイプを選択することを伴い得る。いくつかの実施形態では、PTCLサブタイプ予測は、生体試料が特定のPTCLサブタイプを有する確率を含み得る。そのような実施形態では、予測解析プロセス118は、確率に基づいて、PTCLサブタイプを選択することを伴い得る。いくつかの実施形態では、PTCLサブタイプを選択することは、最高確率を有するPTCLサブタイプをPTCLサブタイプ214であるとして選択することを伴い得る。
【0240】
いくつかの実施形態では、統計モデル112は、異なるPTCLサブタイプに各々対応する出力を提供し得る。たとえば、PTCLサブタイプ予測1 216aは、未分化大細胞リンパ腫(ALCL)に対応し得、PTCLサブタイプ予測2 216bは、血管免疫芽球性T細胞リンパ腫(AITL)に対応し得、PTCLサブタイプ予測3 216cは、ナチュラルキラー/T細胞リンパ腫(NKTCL)に対応し得、PTCLサブタイプ予測4 216dは、成人T細胞白血病/リンパ腫(ATLL)に対応し得る。いくつかの実施形態では、統計モデル112は、マルチクラス分類器を含み得る。いくつかの実施形態では、クラス重みが、マルチクラス分類器におけるクラスのうちの1つまたは複数のために実装され得る。統計モデル112が含み得る分類器の例は、勾配ブースト決定木分類器、決定木分類器、勾配ブースト分類器、ランダムフォレスト分類器、クラスタリングベースの分類器、ベイズ分類器、ベイジアンネットワーク分類器、ニューラルネットワーク分類器、カーネルベースの分類器、およびサポートベクターマシン分類器である。
【0241】
統計モデル112からの4つの出力が
図26に示されているが、PTCLサブタイプ予測のための任意の好適な数の出力を有する統計モデルが、生体試料のPTCLサブタイプを決定する際に、上記で説明された技法を使用して実装され得ることを諒解されたい。いくつかの実施形態では、出力は、3~5、3~10、3~15、または3~20の範囲内であり得る。
【0242】
いくつかの実施形態は、生体試料のためのPTCLサブタイプを決定するために使用される、異なるPTCLサブタイプに対応し、それらのPTCLサブタイプのための予測を出力する、複数の統計モデルを使用することによって、生体試料における細胞のためのPTCLサブタイプを決定することを伴い得る。
図27は、本明細書で説明される技術のいくつかの実施形態による、生体試料のPTCLサブタイプを決定するための例示的な処理パイプライン2700の図であり、例示的な処理パイプライン2700は、遺伝子を、それらの遺伝子発現レベルに基づいてランク付けすること、ならびに、ランキングおよび統計モデルを使用して、PTCLサブタイプを決定することを含み得る。処理パイプライン2700は、任意の好適なコンピューティングデバイス(たとえば、単一のコンピューティングデバイス、単一の物理的ロケーションにコロケートされるか、または互いからリモートの複数の物理的ロケーションに位置する複数のコンピューティングデバイス、クラウドコンピューティングシステムの1つまたは複数のコンピューティングデバイス部分など)上で実行され得、その理由は、本明細書で説明される技術の態様が、この点について限定されないからである。いくつかの実施形態では、処理パイプライン2700は、デスクトップコンピュータ、ラップトップコンピュータ、モバイルコンピューティングデバイスによって実行され得る。いくつかの実施形態では、処理パイプライン2700は、クラウドコンピューティング環境の部分である1つまたは複数のコンピューティングデバイス内で実行され得る。
【0243】
いくつかの実施形態では、遺伝子発現データ102およびランキングプロセス108は、遺伝子を、遺伝子発現データ102におけるそれらの発現レベルに基づいてランク付けして、遺伝子ランキング110を取得するために使用される。遺伝子ランキング110は、統計モデル1 112a、統計モデル2 112b、統計モデル3 112c、および統計モデル4 112dに入力され得る。統計モデル1 112a、統計モデル2 112b、統計モデル3 112c、および統計モデル4 112dの各々は、遺伝子セットにおける一部または全部の遺伝子のための発現レベルのランキングを示すトレーニングデータを使用してトレーニングされ得る。統計モデル1 112a、統計モデル2 112b、統計モデル3 112c、および統計モデル4 112dは、異なるPTCLサブタイプに各々対応し、その特定のPTCLサブタイプを有する生体試料の予測を出力し得る。いくつかの事例では、統計モデルによって出力された予測は、生体試料がPTCLサブタイプを有する確率を含み得る。
【0244】
図27に示されているように、統計モデル1 112aは、PTCLサブタイプ予測1 316aを出力し、統計モデル2 112bは、PTCLサブタイプ予測2 316bを出力し、統計モデル3 112cは、PTCLサブタイプ予測3 316cを出力し、統計モデル4 112dは、PTCLサブタイプ予測4 316dを出力する。統計モデル1 112a、統計モデル2 112b、統計モデル3 112c、および統計モデル4 112dの各々は、異なるPTCLサブタイプに対応し得る。たとえば、統計モデル1 112aおよびPTCLサブタイプ予測1 316aは、未分化大細胞リンパ腫(ALCL)に対応し得、統計モデル1 112aは、Table 11(表11)に記載されているものなど、ALCLに関連付けられた1つまたは複数の遺伝子のための発現レベルのランキングを使用してトレーニングされ得る。別の例として、統計モデル2 112bおよびPTCLサブタイプ予測2 316bは、血管免疫芽球性T細胞リンパ腫(AITL)に対応し得、統計モデル2 112bは、Table 11(表11)に記載されているものなど、AITLに関連付けられた1つまたは複数の遺伝子のための発現レベルのランキングを使用してトレーニングされ得る。また別の例として、統計モデル3 112cおよびPTCLサブタイプ予測3 316cは、ナチュラルキラー/T細胞リンパ腫(NKTCL)に対応し得、統計モデル3 112cは、Table 11(表11)に記載されているものなど、NKTCLに関連付けられた1つまたは複数の遺伝子のための発現レベルのランキングを使用してトレーニングされ得る。別の例として、統計モデル4 112dおよびPTCLサブタイプ予測4 316dは、成人T細胞白血病/リンパ腫(ATLL)に対応し得、統計モデル4 112dは、Table 11(表11)に記載されているものなど、ATLLに関連付けられた1つまたは複数の遺伝子のための発現レベルのランキングを使用してトレーニングされ得る。
【0245】
統計モデル1 112a、統計モデル2 112b、統計モデル3 112c、および統計モデル4 112dによって出力された予測は、予測解析プロセス118を使用して解析されて、生体試料のためのPTCLサブタイプ214が決定され得る。予測解析プロセス118は、異なるPTCLサブタイプ予測の中から、生体試料のための特定のPTCLサブタイプを選択することを伴い得る。いくつかの実施形態では、PTCLサブタイプ予測は、生体試料が特定のPTCLサブタイプを有する確率を含み得る。そのような実施形態では、予測解析プロセス118は、確率に基づいて、PTCLサブタイプを選択することを伴い得る。いくつかの実施形態では、PTCLサブタイプを選択することは、最高確率を有するPTCLサブタイプをPTCLサブタイプ214であるとして選択することを伴い得る。
【0246】
いくつかの実施形態では、統計モデル1 112a、統計モデル2 112b、統計モデル3 112c、および統計モデル4 112dのうちの1つまたは複数は、二項分類器を含み得る。いくつかの実施形態では、統計モデル1 112a、統計モデル2 112b、統計モデル3 112c、および統計モデル4 112dの各々は、二項分類器を含む。そのような実施形態では、使用される二項分類器のいずれも、どのクラスに生体試料が属するかについて決定的ではない場合、試料は未分類であると決定され得る。いくつかの実施形態では、統計モデル1 112a、統計モデル2 112b、統計モデル3 112c、および統計モデル4 112dは、階層分類器構成を有し得る。
【0247】
いくつかの実施形態は、NKTCL PTCLサブタイプのための第1の分類器、ATLL PTCLサブタイプのための第2の分類器、AITL PTCLサブタイプのための第3の分類器、ALCL PTCLサブタイプのための第4の分類器の順序で、4つの分類器の階層構成を伴い得る。いくつかの実施形態では、第1、第2、第3、および第4の分類器の各々は、二項分類器である。
【0248】
4つの統計モデルおよび対応する出力が
図27に示されているが、任意の数の統計モデルが、生体試料のPTCLサブタイプを決定する際に、上記で説明された技法を使用して実装され得ることを諒解されたい。いくつかの実施形態では、統計モデルの数は、3~5、3~10、3~15、または3~20の範囲内であり得る。
【0249】
いくつかの実施形態は、異なる遺伝子セットと、異なる遺伝子セットに対応する統計モデルとを使用して、PTCLサブタイプ予測を取得することによって、生体試料のPTCLサブタイプを決定することを伴い得、PTCLサブタイプ予測がPTCLサブタイプを決定するために使用される。
図28は、本明細書で説明される技術のいくつかの実施形態による、生体試料のPTCLサブタイプを決定するための例示的な処理パイプライン2800の図であり、例示的な処理パイプライン2800は、遺伝子を、それらの遺伝子発現レベルに基づいてランク付けすること、ならびに、ランキングおよび統計モデルを使用して、PTCLサブタイプを決定することを含み得る。処理パイプライン2800は、任意の好適なコンピューティングデバイス(たとえば、単一のコンピューティングデバイス、単一の物理的ロケーションにコロケートされるか、または互いからリモートの複数の物理的ロケーションに位置する複数のコンピューティングデバイス、クラウドコンピューティングシステムの1つまたは複数のコンピューティングデバイス部分など)上で実行され得、その理由は、本明細書で説明される技術の態様が、この点について限定されないからである。いくつかの実施形態では、処理パイプライン2800は、デスクトップコンピュータ、ラップトップコンピュータ、モバイルコンピューティングデバイスによって実行され得る。いくつかの実施形態では、処理パイプライン2800は、クラウドコンピューティング環境の部分である1つまたは複数のコンピューティングデバイス内で実行され得る。
【0250】
いくつかの実施形態では、遺伝子発現データ102は、遺伝子の異なるセットにおける遺伝子を、遺伝子発現データ102におけるそれらの発現レベルに基づいてランク付けして、複数の遺伝子ランキングを取得するために使用される。たとえば、遺伝子ランキングは、各遺伝子セットについて取得され得、遺伝子ランキングは、遺伝子セットにおける一部または全部の遺伝子のための発現レベルのランキングを示すトレーニングデータを使用してトレーニングされた、統計モデルに入力され得る。
図28に示されているように、ランキングプロセス108は、発現データ102を使用して、遺伝子セット1 106a、遺伝子セット2 106b、遺伝子セット3 106c、および遺伝子セット4 106dを含む、異なる遺伝子セットにおける遺伝子をランク付けして、それぞれ遺伝子ランキング1 110a、遺伝子ランキング2 110b、遺伝子ランキング3 110c、および遺伝子ランキング4 110dを取得することを伴い得る。ランキングプロセス108は、遺伝子のセットにおける遺伝子を、それらの発現レベルの数値に基づいてランク付けすることを伴い得る。異なる遺伝子ランキングが、異なる遺伝子セットのための発現レベルをランク付けすることによって取得され得、各遺伝子ランキングが、そのそれぞれの統計モデルに入力されて、PTCLサブタイプ予測が取得され得る。
図28に示されているように、遺伝子ランキング1 110a、遺伝子ランキング2 110b、遺伝子ランキング3 110c、および遺伝子ランキング4 110dは、それぞれ統計モデル1 112a、統計モデル2 112b、統計モデル3 112c、および統計モデル4 112dへの入力として提供される。
【0251】
いくつかの実施形態では、異なる統計モデルおよびそれらのそれぞれの遺伝子セットは、生体試料の特定のPTCLサブタイプに対応し得る。そのような実施形態では、統計モデルの各々は、特定のPTCLサブタイプを有する生体試料の予測を出力し得る。いくつかの事例では、統計モデルによって出力された予測は、生体試料がPTCLサブタイプを有する確率を含み得る。
【0252】
図28に示されているように、統計モデル1 112aは、PTCLサブタイプ予測1 416aを出力し、統計モデル2 112bは、PTCLサブタイプ予測2 416bを出力し、統計モデル3 112cは、PTCLサブタイプ予測3 416cを出力し、統計モデル4 112dは、PTCLサブタイプ予測4 416dを出力する。異なる統計モデルによって出力された予測は、予測解析プロセス118を使用して解析されて、生体試料のためのPTCLサブタイプ114が決定され得る。
【0253】
4つの遺伝子セットおよび4つの統計モデルが
図28に示されているが、任意の好適な数の遺伝子セットおよび対応する統計モデルが、生体試料のPTCLサブタイプを取得するために、PTCLサブタイプ予測を決定する際に、上記で説明された技法を使用して実装され得ることを諒解されたい。いくつかの実施形態では、遺伝子セットおよび対応する統計モデルの数は、3~100、3~70、3~50、3~40、3~30、5~50、10~60、または10~70の範囲内であり得る。
【0254】
いくつかの実施形態では、遺伝子セットおよび対応する統計モデルの数は、PTCLサブタイプのためのクラスの数以下である。そのような実施形態は、各PTCLサブタイプのための異なる遺伝子セットおよび対応する統計モデルを伴い得る。たとえば、遺伝子セット1 106aおよび統計モデル1 112aは、(PTCLサブタイプ予測1 416aとして)PTCLサブタイプが未分化大細胞リンパ腫(ALCL)であるという予測を生成するために使用され得、遺伝子セット2 106bおよび統計モデル2 112bは、(PTCLサブタイプ予測2 416bとして)PTCLサブタイプが血管免疫芽球性T細胞リンパ腫(AITL)であるという予測を生成するために使用され得、遺伝子セット3 106cおよび統計モデル3 112cは、(PTCLサブタイプ予測3 416cとして)PTCLサブタイプがナチュラルキラー/T細胞リンパ腫(NKTCL)であるという予測を生成するために使用され得、遺伝子セット4 106dおよび統計モデル4 112dは、(PTCLサブタイプ予測4 416dとして)PTCLサブタイプが成人T細胞白血病/リンパ腫(ATLL)であるという予測を生成するために使用され得る。追加の遺伝子セットおよびそれらの対応する統計モデルが、異なるPTCLサブタイプのために実装され得ることを諒解されたい。
【0255】
図29は、本明細書で説明される技術のいくつかの実施形態による、遺伝子ランキングおよび統計モデルを使用して、生体試料のPTCLサブタイプを決定するための例示的なプロセス2900のフローチャートである。プロセス2900は、任意の好適なコンピューティングデバイス(たとえば、単一のコンピューティングデバイス、単一の物理的ロケーションにコロケートされるか、または互いからリモートの複数の物理的ロケーションに位置する複数のコンピューティングデバイス、クラウドコンピューティングシステムの1つまたは複数のコンピューティングデバイス部分など)上で実行され得、その理由は、本明細書で説明される技術の態様が、この点について限定されないからである。いくつかの実施形態では、ランキングプロセス108および統計モデル112は、PTCLサブタイプを決定するために、プロセス2900の一部または全部を実行し得る。
【0256】
プロセス2900は、動作2910において開始し、そこで、対象の生体試料のための発現データが取得される。いくつかの実施形態では、発現データは、遺伝子発現マイクロアレイを使用して取得され得る。いくつかの実施形態では、発現データは、次世代シーケンシングを実行することによって取得され得る。いくつかの実施形態では、発現データは、ハイブリダイゼーションベースの発現アッセイを使用することによって取得され得る。いくつかの実施形態は、発現データ102を取得することより前に、生体試料のシーケンシングプロセス(たとえば、遺伝子発現マイクロアレイ、次世代シーケンシング)を実行することを伴う。いくつかの実施形態では、遺伝子発現データ102を取得することは、コンピューティングデバイスを使用して、1つもしくは複数のデータストアにおける発現データ(たとえば、生体試料から前に取得された発現データ)にアクセスすること、1つもしくは複数の他のデバイスから発現データを受信すること、または任意の他の方法などによって、インシリコで遺伝子発現データ102を取得することを伴い得る。いくつかの実施形態では、遺伝子発現データ102を取得することは、(生体外で)生体試料を解析すること、および(たとえば、コンピューティングデバイス、プロセッサによって)発現データにアクセスすることを伴い得る。発現データを取得することに関するさらなる態様は、「発現データの取得」と題するセクションにおいて提供される。
【0257】
次に、プロセス2900は動作2920に進み、そこで、ランキングプロセス108を使用することなどによって、遺伝子のセットにおける遺伝子が、発現データにおけるそれらの発現レベルに基づいてランク付けされて、遺伝子ランキングが取得される。発現データは、遺伝子のセットにおける遺伝子のための発現レベルを各々表す値を含み得、遺伝子ランキングを決定することは、値に基づいて、遺伝子のセットにおける各遺伝子のための相対ランクを決定することを伴い得る。
【0258】
いくつかの実施形態では、対象は、乳がんを有するか、有する疑いがあるか、または有する危険性がある。遺伝子のセットは、Table 10(表10)に記載されている遺伝子群から選択され得る。遺伝子のセットは、Table 10(表10)に記載されている遺伝子群から選択された、少なくとも3つ、5つ、10個、または20個の遺伝子を含み得る。いくつかの実施形態では、遺伝子のセットは、Table 10(表10)に記載されているすべての遺伝子を含み得る。いくつかの実施形態では、遺伝子のセットは、Table 10(表10)に記載されている3~120個の遺伝子、5~120個の遺伝子、20~120個の遺伝子、50~120個の遺伝子、80~120個の遺伝子を含み得る。いくつかの実施形態では、遺伝子のセットは、Table 10(表10)に記載されている120個以下の遺伝子、100個以下の遺伝子、80個以下の遺伝子、50個以下の遺伝子、20個以下の遺伝子を含み得る。
【0259】
いくつかの実施形態では、対象は、リンパ腫を有するか、有する疑いがあるか、または有する危険性がある。いくつかの実施形態では、対象は、PTCLを有するか、有する疑いがあるか、または有する危険性がある。
【0260】
次に、プロセス2900は動作2930に進み、そこで、生体試料のPTCLサブタイプが、遺伝子ランキング、および統計モデル112などの統計モデルを使用して決定される。統計モデルは、遺伝子のセットにおける1つまたは複数の遺伝子のための発現レベルのランキングを使用してトレーニングされ得る。いくつかの実施形態では、遺伝子ランキングは、PTCLサブタイプを示す出力を取得するために、統計モデルへの入力として使用され得る。いくつかの実施形態では、統計モデルは、勾配ブースト決定木分類器、決定木分類器、勾配ブースト分類器、ランダムフォレスト分類器、クラスタリングベースの分類器、ベイズ分類器、ベイジアンネットワーク分類器、ニューラルネットワーク分類器、カーネルベースの分類器、およびサポートベクターマシン分類器からなる群から選択された1つまたは複数の分類器を備える。いくつかの実施形態では、統計モデルは、勾配ブースティング決定木(GBDT)および勾配ブースト回帰木(GBRT)など、勾配ブースティングフレームワークを実装する機械学習アルゴリズムを使用することを伴い得る。本明細書で説明される技法によって使用され得る機械学習アルゴリズムを実装するソフトウェアパッケージの例には、LightGBMパッケージ、XGBoostパッケージ、およびpGBRTパッケージが含まれる。
【0261】
いくつかの実施形態では、統計モデルは、マルチクラス分類器を含み得る。マルチクラス分類器は、異なるPTCLサブタイプに各々対応する少なくとも4つの出力を提供し得る。たとえば、第1の出力は、未分化大細胞リンパ腫(ALCL)に対応し得、第2の出力は、血管免疫芽球性T細胞リンパ腫(AITL)に対応し得、第3の出力は、ナチュラルキラー/T細胞リンパ腫(NKTCL)に対応し得、第4の出力は、成人T細胞白血病/リンパ腫(ATLL)に対応し得る。
【0262】
いくつかの実施形態では、統計モデルは、異なるPTCLサブタイプに対応する複数の分類器を含み得る。たとえば、第1の分類器は、未分化大細胞リンパ腫(ALCL)に対応し得、第2の分類器は、血管免疫芽球性T細胞リンパ腫(AITL)に対応し得、第3の分類器は、ナチュラルキラー/T細胞リンパ腫(NKTCL)に対応し得、第4の分類器は、成人T細胞白血病/リンパ腫(ATLL)に対応し得る。いくつかの実施形態では、複数の分類器は、二項分類器であり得る。二項分類器は、階層分類を有し得る。たとえば、統計モデルは、NKTCL PTCLサブタイプのための第1の分類器、ATLL PTCLサブタイプのための第2の分類器、AITL PTCLサブタイプのための第3の分類器、ALCL PTCLサブタイプのための第4の分類器の順序で、階層構成を有する4つの二項分類器を含み得る。
【0263】
いくつかの実施形態では、PTCLのサブタイプは、未分化大細胞リンパ腫(ALCL)、血管免疫芽球性T細胞リンパ腫(AITL)、ナチュラルキラー/T細胞リンパ腫(NKTCL)、および成人T細胞白血病/リンパ腫(ATLL)からなる群から選択される。いくつかの実施形態では、PTCLのサブタイプは、末梢T細胞リンパ腫、非特定型(PTCL-NOS)、未分化大細胞リンパ腫(ALCL)、血管免疫芽球性T細胞リンパ腫(AITL)、皮膚T細胞性リンパ腫(CTCL)、ナチュラルキラー/T細胞リンパ腫(NKTCL)、セザリー症候群、成人T細胞白血病/リンパ腫(ATLL)、腸症型T細胞リンパ腫、鼻NK/T細胞リンパ腫、肝脾ガンマデルタT細胞リンパ腫、濾胞性T細胞(TFH)起源のT細胞リンパ腫、および消化管のT細胞リンパ腫からなる群から選択される。
【0264】
いくつかの実施形態では、プロセス2900は、グラフィカルユーザインターフェース(GUI)において、ユーザ(たとえば、医師)にPTCLサブタイプを表示すること、PTCLサブタイプを報告に含めること、ユーザに電子メールを送ることによって、および任意の他の好適な方法などで、PTCLサブタイプをユーザに出力することを含み得る。
【0265】
いくつかの実施形態では、プロセス2900は、生体試料の決定されたPTCLサブタイプに基づいて、対象に治療を行うことを含み得る。たとえば、医師は、決定されたPTCLサブタイプのリンパ腫を治療することに関連付けられた対象のための治療を行い得る。本明細書で説明される技法を使用して決定された生体試料のPTCLサブタイプが、治療を行うために使用される、さらなる例は、「治療の方法」と題するセクションにおいて提供される。
【0266】
いくつかの実施形態では、プロセス2900は、決定されたPTCLサブタイプに基づいて、対象のための治療を特定することを含み得る。たとえば、決定されたPTCLサブタイプは、決定されたPTCLサブタイプのリンパ腫を治療することに関連付けられた対象のための治療を特定するために使用され得る。
【0267】
いくつかの実施形態では、プロセス2900は、決定されたPTCLサブタイプに基づいて、対象のための予後を決定することを含み得る。たとえば、決定されたPTCLサブタイプは、決定されたPTCLサブタイプのリンパ腫を治療することに関連付けられた対象のための予後を決定するために使用され得る。
【0268】
本明細書で説明される技法を使用して決定された生体試料のPTCLサブタイプが、予後を決定するために使用される、他の適用例に関するさらなる態様は、「適用例」と題するセクションにおいて提供される。
【0269】
いくつかの実施形態では、PTCLサブタイプを決定するために使用される、トレーニングされた統計モデルが、PTCLサブタイプを特定する際のその性能を決定するために、既存の臨床データを使用して評価され得る。一例として、Table 10(表10)に記載されている遺伝子を有する遺伝子セットが、ランクプロセス108のために使用され、マルチクラス分類器が、試料がAITL、ATLL、ALCL、NKTCL、またはPTCL NOSサブタイプに属するか否かを決定するために使用された。Table 9(表9)に記載されている臨床データが、この評価プロセスのために使用されたものであり、以下のTable 12(表12)が、このプロセスを使用して特定されたPTCLサブタイプを示す。使用された統計モデルは、0.84 f1スコアを達成した。
図30は、異なるPTCLサブタイプ(AITL、ATLL、ALCL、NKTCL、およびPTCL NOS)のための生存率のプロットである。
【0270】
【0271】
【0272】
いくつかの態様では、本明細書で説明されるがんの特性化のための方法は、任意のリンパ腫に適用され得る。「リンパ腫」は、一般に、リンパ節およびリンパ細胞から発生するがん(たとえば、腫瘍)を指す。リンパ腫は、典型的には、たとえば、T細胞リンパ腫、B細胞リンパ腫、ホジキン(リンパ球)リンパ腫、ならびに組織球性および樹状細胞腫瘍など、そこから腫瘍細胞が発生する正常細胞タイプに従って分類される。リンパ腫の分類については、たとえば、Jiang他、Expert Rev. Hematol. 2017年3月、10(3):239~249によって説明されている。PTCLリンパ腫の分類については、たとえば、Iqbal J、Wright G、Wang C他、Gene expression signatures delineate biological and prognostic subgroups in peripheral T-cell lymphoma、Blood、2014、123(19):2915~2923 (doi:10.1182/blood-2013-11-536359)によって説明されており、その全体が参照により本明細書に組み込まれる。
【0273】
いくつかの実施形態では、リンパ腫は、B細胞リンパ腫である。いくつかの実施形態では、B細胞リンパ腫は、びまん性大細胞型B細胞リンパ腫(DLBCL)である。DLBCLの分類については、たとえば、Alizadeh他、Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling、Nature 403、503~511 (2000) (doi:10.1038/35000501)によって説明されている。DLBCLの例には、限定はしないが、胚中心B細胞(GCB)サブタイプ、および活性化B細胞(ABC)サブタイプが含まれる。
【0274】
いくつかの実施形態では、リンパ腫は、T細胞リンパ腫である。いくつかの実施形態では、T細胞リンパ腫は、末梢T細胞リンパ腫(PTCL)などの成熟T細胞リンパ腫である。25個を超える成熟T細胞リンパ腫が特定されている。PTCLの例には、限定はしないが、末梢T細胞リンパ腫、非特定型(PTCL-NOS)、未分化大細胞リンパ腫(ALCL)、血管免疫芽球性T細胞リンパ腫(AITL)、皮膚T細胞性リンパ腫(CTCL)、ナチュラルキラー/T細胞リンパ腫(NKTCL)、セザリー症候群、成人T細胞白血病/リンパ腫(ATLL)、腸症型T細胞リンパ腫、鼻NK/T細胞リンパ腫、肝脾ガンマデルタT細胞リンパ腫、濾胞性T細胞(TFH)起源のT細胞リンパ腫、消化管のT細胞リンパ腫(たとえば、EATL、MEITL)などが含まれる。
【0275】
いくつかの実施形態では、リンパ腫は、未分化大細胞リンパ腫(ALCL)である。いくつかの実施形態では、ALCLは、全身性ALCLである。いくつかの実施形態では、ALCLは、皮膚ALCL(たとえば、皮膚に影響を及ぼすALCL)である。いくつかの実施形態では、ALCLは、ALK陽性ALCLである。いくつかの実施形態では、ALCLは、ALK陰性ALCLである。
【0276】
いくつかの実施形態では、リンパ腫は、血管免疫芽球性T細胞リンパ腫(AITL)である。いくつかの実施形態では、AITL腫瘍細胞は、1つまたは複数の濾胞性T細胞マーカー(follicular T cell marker)、たとえば、CD10およびCD279(PD-1、PDCD1)、CXCL13、BCL6、CD40L、またはNFATC1を発現する。
【0277】
いくつかの実施形態では、リンパ腫は、成人T細胞白血病/リンパ腫(ATLL)である。いくつかの実施形態では、ATLLは、HTLV-1ウイルスの感染から生じる。
【0278】
いくつかの実施形態では、リンパ腫は、ナチュラルキラー/T細胞リンパ腫(NKTCL)である。いくつかの実施形態では、NKTCL腫瘍は、対象の口蓋および/または副鼻腔に位置する。いくつかの実施形態では、NKTCL腫瘍は、対象の鼻腔に位置する。
【0279】
発現データの取得
本明細書で説明される発現データ(たとえば、マイクロアレイデータ、次世代シーケンシング(NGS)データ)は、様々なソースから取得され得る。いくつかの実施形態では、発現データは、対象の生体試料を解析することによって取得され得る。生体試料は、遺伝子をそれらの発現レベルに基づいてランク付けすること、およびランキングを使用して、生体試料の1つまたは複数の特性を決定することを行うための技法を含む、本明細書で説明される技法の実行より前に解析され得る。いくつかのそのような実施形態では、生体試料から取得されたデータは、(たとえば、データベースに)記憶され、本明細書で説明される技法の実行中にアクセスされ得る。したがって、本明細書で説明される「発現データの取得」は、コンピューティングデバイスを使用して、1つもしくは複数のデータストアにおける発現データ(たとえば、生体試料から前に取得された発現データ)にアクセスすること、1つもしくは複数の他のデバイスから発現データを受信すること、または任意の他の方法、(生体外で)生体試料を解析すること、あるいはそれらの組合せなどによって、インシリコで遺伝子発現データを取得することを伴い得る。発現データがどのように取得されるかに関する追加の技法の例については、2019年6月4日に発行された「SYSTEMS AND METHODS FOR GENERATING, VISUALIZING AND CLASSIFYING MOLECULAR FUNCTION PROFILES」と題する米国特許第10,311,967号において説明されており、その全体が参照により本明細書に組み込まれる。
【0280】
いくつかの実施形態では、発現データは、細胞RNA全体のための、細胞におけるすべてのmRNA、または細胞におけるRNAのサブセットのための(たとえば、本出願で説明された1つまたは複数の遺伝子セット、あるいはそれらの遺伝子セットにおける遺伝子のうちの少なくともいくつかを備えるか、またはそれらからなる、遺伝子群から発現されたRNAのサブセットのための)発現レベルを含み得る。RNAレベルは、シーケンシングおよび/またはハイブリダイゼーションベースの技法を含む、任意の適切な技法(たとえば、全エクソームシーケンシングデータ、RNAのサブセットのための標的特異性のシーケンシングデータ、マイクロアレイデータなど)を使用して取得され得る。
【0281】
生体試料
方法、システム、アッセイ、または他の好適な技法のいずれかが、対象(たとえば、患者)からの任意の生体試料を解析するために使用され得る。いくつかの実施形態では、生体試料は、癌細胞または前癌細胞を含む、がんを有することがわかっているか、または有する疑いがある対象からの任意の試料であり得る。
【0282】
生体試料は、たとえば、体液の試料、1つもしくは複数の細胞、組織片、または器官の一部もしくは全部を含む、任意のタイプの試料であり得る。いくつかの実施形態では、試料は、癌組織または器官、あるいは、1つまたは複数の癌細胞を有する疑いがある組織または器官からのものであり得る。いくつかの実施形態では、試料は、健康な(たとえば、非癌)組織または器官からのものであり得る。いくつかの実施形態では、対象からの試料(たとえば、対象からの生検)は、健康な細胞および/または組織と、癌細胞および/または組織の両方を含み得る。いくつかの実施形態では、1つの試料が、解析のために対象から取られるようになる。
【0283】
本明細書で説明される生体試料のいずれも、任意の知られている技法を使用して、対象から取得され得る。いくつかの実施形態では、生体試料は、外科的手技(たとえば、腹腔鏡手術、顕微鏡制御手術、または内視鏡検査)、骨髄生検、パンチ生検、内視鏡生検、または針生検(たとえば、細針吸引、コア針生検、真空補助生検、または画像誘導生検)から取得され得る。いくつかの実施形態では、生体試料の各々は、体液試料、細胞試料、または組織生検である。いくつかの実施形態では、1つまたは2つ以上の細胞(細胞試料)が、スクレープ(scrape)またはブラシ方法を使用して、対象から取得される。細胞試料は、たとえば、以下のエリア、すなわち、頸部、食道、胃、気管支、または口腔のうちの1つまたは複数からを含む、対象の身体内の任意のエリアから、または対象の身体から取得され得る。いくつかの実施形態では、対象からの1つまたは2つ以上の組織片(たとえば、組織生検)が使用され得る。いくつかの実施形態では、組織生検は、1つもしくは複数の腫瘍、または癌細胞を有することがわかっているか、もしくは有する疑いがある組織からの、1つまたは2つ以上(たとえば、2つ、3つ、4つ、5つ、6つ、7つ、8つ、9つ、10個、または10個よりも多い)の試料を備え得る。
【0284】
試料解析
本明細書で説明される方法は、がん(たとえば、腫瘍)内および/またはその周囲に存在する、いくつかの生物学的プロセス、ならびに/または分子および細胞組成の、特定および特性化に少なくとも部分的に基づく。
【0285】
がん(たとえば、腫瘍)内および/またはその周囲の生物学的プロセスは、限定はしないが、血管形成、転移、増殖、細胞活性化(たとえば、T細胞活性化)、腫瘍浸潤、免疫応答、細胞シグナル伝達(たとえば、HER2シグナル伝達)、およびアポトーシスを含む。
【0286】
がん(たとえば、腫瘍)内および/またはその周囲の分子および細胞組成は、限定はしないが、核酸(たとえば、DNAおよび/またはRNA)、分子(たとえば、ホルモン)、タンパク質(たとえば、野生型および/または変異タンパク質)、および細胞(たとえば、悪性および/または非悪性細胞)を含む。本明細書で使用されるがん微小環境は、限定はしないが、腫瘍を囲む、かつ/または腫瘍の内部である血管、免疫細胞、線維芽細胞、骨髄由来炎症細胞(bone marrow-derived inflammatory cell)、リンパ球、シグナル伝達分子、および細胞外マトリックス(ECM)を含む、その中でがん(たとえば、腫瘍)が存在する分子および細胞環境を指す。
【0287】
腫瘍内および/またはその周囲に存在する、分子および細胞組成ならびに生物学的プロセスは、がん(たとえば、腫瘍)成長および生存を促進すること(たとえば、腫瘍促進(pro-tumor))、ならびに/またはがん(たとえば、腫瘍)成長および生存を抑制すること(たとえば、抗腫瘍)に向けられ得る。
【0288】
がん(たとえば、腫瘍)微小環境は、がん(たとえば、腫瘍)成長および生存を促進すること(たとえば、腫瘍促進微小環境)、ならびに/またはがん(たとえば、腫瘍)成長および生存を抑制すること(たとえば、抗腫瘍微小環境)に向けられた、細胞組成および生物学的プロセスを備え得る。いくつかの実施形態では、がん(たとえば、腫瘍)微小環境は、がん促進(pro-cancer)(たとえば、腫瘍促進)微小環境を備える。いくつかの実施形態では、がん(たとえば、腫瘍)微小環境は、抗がん(たとえば、抗腫瘍)微小環境を備える。いくつかの実施形態では、がん(たとえば、腫瘍)微小環境は、がん促進(たとえば、腫瘍促進)微小環境と、抗がん(たとえば、抗腫瘍)微小環境とを備える。
【0289】
がん(たとえば、腫瘍)内および/またはその周囲に存在する、分子および細胞組成ならびに生物学的プロセスに関する任意の情報が、本明細書で説明されるがん(たとえば、腫瘍)の特性化のための方法において使用され得る。いくつかの実施形態では、がん(たとえば、腫瘍)は、遺伝子群発現レベル(たとえば、遺伝子群RNA発現レベル)に基づいて特性化され得る。いくつかの実施形態では、がん(たとえば、腫瘍)は、タンパク質発現に基づいて特性化される。
【0290】
本明細書で説明されるがんの特性化のための方法は、任意のがん(たとえば、任意の腫瘍)に適用され得る。例示的ながんは、限定はしないが、副腎皮質癌、膀胱尿路上皮癌、浸潤性乳癌(breast invasive carcinoma)、子宮頸部扁平上皮癌、子宮頸部腺癌(endocervical adenocarcinoma)、結腸腺癌、食道癌、腎臓腎明細胞癌、腎臓腎乳頭細胞癌、肝臓肝細胞癌、肺腺癌、肺扁平上皮癌、卵巣漿液性嚢胞腺癌、膵臓腺癌、前立腺腺癌、直腸腺癌、皮膚皮膚黒色腫(skin cutaneous melanoma)、胃腺癌、甲状腺癌、子宮体子宮内膜癌、および胆管癌を含む。
【0291】
発現データ
複数の遺伝子のための(たとえば、発現レベルを示す)発現データが、本明細書で説明される方法のいずれかのために使用され得る。検討され得る遺伝子の数は、対象のすべての遺伝子を含みそれ以下であり得る。
【0292】
複数の遺伝子のための(たとえば、発現レベルを示す)発現データを獲得するために、任意の方法が、対象からの試料において使用され得る。非限定的な例のセットとして、発現データは、RNA発現データ、DNA発現データ、またはタンパク質発現データであり得る。
【0293】
DNA発現データは、いくつかの実施形態では、対象からの試料におけるDNAのレベルを指す。たとえば、がん患者の試料における遺伝子重複など、がんを有する対象からの試料におけるDNAのレベルは、がんを有していない対象からの試料におけるDNAのレベルと比較して高くなり得る。たとえば、がん患者の試料における遺伝子欠失など、がんを有する対象からの試料におけるDNAのレベルは、がんを有していない対象からの試料におけるDNAのレベルと比較して低減され得る。
【0294】
DNA発現データは、いくつかの実施形態では、試料において発現されたDNA(または遺伝子)についてのデータ、たとえば、患者の試料において発現される遺伝子についてのシーケンシングデータを指す。そのようなデータは、いくつかの実施形態では、患者が特定のがんに関連付けられた1つまたは複数の突然変異を有するか否かを決定するために有用であり得る。
【0295】
RNA発現データは、限定はしないが、全トランスクリプトームシーケンシング(whole transcriptome sequencing)、トータルRNAシーケンシング(total RNA sequencing)、mRNAシーケンシング、ターゲットRNAシーケンシング(targeted RNA sequencing)、スモールRNAシーケンシング(small RNA sequencing)、リボソームプロファイリング、RNAエクソームキャプチャシーケンシング(RNA exome capture sequencing)、および/またはディープRNAシーケンシング(deep RNA sequencing)を含む、当技術分野で知られている任意の方法を使用して獲得され得る。DNA発現データは、DNAシーケンシングの任意の知られている方法を含む、当技術分野で知られている任意の方法を使用して獲得され得る。たとえば、DNAシーケンシングは、対象のDNAにおける1つまたは複数の突然変異を特定するために使用され得る。DNAをシーケンシングするための当技術分野で使用される任意の技法が、本明細書で説明される方法とともに使用され得る。非限定的な例のセットとして、DNAは、単一分子リアルタイムシーケンシング、イオントレントシーケンシング、パイロシーケンシング、合成によるシーケンシング(sequencing by synthesis)、ライゲーションによるシーケンシング(sequencing by ligation)(SOLiDシーケンシング)、ナノポアシーケンシング、またはサンガーシーケンシング(チェーンターミネーションシーケンシング)を通してシーケンシングされ得る。タンパク質発現データは、限定はしないが、N末端アミノ酸解析、C末端アミノ酸解析、エドマン分解(タンパク質シークエネーター(protein sequenator)などの機械の使用によることを含む)、または質量分析法を含む、当技術分野で知られている任意の方法を使用して獲得され得る。
【0296】
いくつかの実施形態では、発現データは、次世代シーケンシング(NGS)データを備える。いくつかの実施形態では、発現データは、マイクロアレイデータを備える。いくつかの実施形態では、発現データは、全エクソームシーケンシング(WES)データを備える。いくつかの実施形態では、発現データは、全ゲノムシーケンシング(WGS)データを備える。いくつかの実施形態では、発現データは、(たとえば、RNAシーケンシングを実行することによる)RNA Seqデータを備える。いくつかの実施形態では、発現データは、RNA SeqデータとWGSデータとの組合せを備える。いくつかの実施形態では、発現データは、RNA SeqデータとWESデータとの組合せを備える。
【0297】
アッセイ
本明細書で説明される生体試料のいずれかが、従来のアッセイまたは本明細書で説明されるアッセイを使用して、発現データを取得するために使用され得る。発現データは、いくつかの実施形態では、遺伝子発現レベルを含む。遺伝子発現レベルは、mRNAおよび/またはタンパク質など、遺伝子発現の産物を検出することによって検出され得る。
【0298】
いくつかの実施形態では、遺伝子発現レベルは、試料におけるタンパク質のレベルを検出することによって、および/または試料におけるタンパク質の活動のレベルを検出することによって決定される。本明細書で使用される「決定すること」または「検出すること」という用語は、試料内の物質の存在、不在、量(quantity)、および/または量(amount)(有効量であり得る)を査定することを含み得、このことは、そのような物質の定性的もしくは定量的濃度レベルの導出、またはさもなければ、対象からの試料におけるそのような物質の値および/またはカテゴリー化を評価することを含む。
【0299】
タンパク質のレベルは、イムノアッセイを使用して測定され得る。イムノアッセイの例は、(限定はしないが)任意の知られているアッセイを含み、以下のもの、すなわち、免疫ブロットアッセイ(たとえば、ウエスタンブロット)、免疫組織化学的解析、フローサイトメトリアッセイ、免疫蛍光アッセイ(IF)、酵素結合免疫吸着アッセイ(ELISA)(たとえば、サンドイッチELISA)、ラジオイムノアッセイ、電気化学発光ベースの検出アッセイ(electrochemiluminescence-based detection assay)、磁気イムノアッセイ、ラテラルフローアッセイ、および関連技法のうちのいずれかを含み得る。本明細書で提供されるタンパク質のレベルを検出するための追加の好適なイムノアッセイは、当業者には明らかであろう。
【0300】
そのようなイムノアッセイは、標的タンパク質に特異的な作用剤(たとえば、抗体)の使用を伴い得る。標的タンパク質に「特異的に結合する」抗体などの作用剤は、当技術分野でよく理解された用語であり、そのような特異結合を決定するための方法も当技術分野でよく知られている。抗体は、代替タンパク質に対してそうするよりも頻繁に、より迅速に、より大きい持続時間とともに、および/またはより大きい親和性とともに、特定の標的タンパク質と反応するか、またはそれと関連する場合、「特異結合」を示すと言われる。また、この定義を読むことによって、たとえば、第1の標的ペプチドに特異的に結合する抗体が、第2の標的ペプチドに特異的または選択的に結合してもしなくてもよいことも理解されたい。したがって、「特異結合」または「選択的結合」は、必ずしも排他的結合を(含み得るが)必要とするとは限らない。一般に、必ずしもそうではないが、結合への言及は、選択的結合を意味する。いくつかの例では、標的ペプチドまたはそのエピトープに「特異的に結合する」抗体は、同じ抗原における他のペプチドまたは他のエピトープに結合しないことがある。いくつかの実施形態では、試料は、同時にまたは連続的に、異なるタンパク質を結合する2つ以上の結合剤と接触され得る(たとえば、多重解析)。
【0301】
本開示がイムノアッセイに限定されないことは、当業者には明らかであろう。質量分析法など、抗体に基づかない検出アッセイもまた、本明細書で提供されるタンパク質および/またはタンパク質のレベルの検出および/または定量化のために有用である。発色基質に依拠するアッセイもまた、本明細書で提供されるタンパク質および/またはタンパク質のレベルの検出および/または定量化のために有用であり得る。
【0302】
代替的に、試料における遺伝子をコードする核酸のレベルは、従来の方法を介して測定され得る。いくつかの実施形態では、遺伝子をコードする核酸の発現レベルを測定することは、mRNAを測定することを含む。いくつかの実施形態では、遺伝子をコードするmRNAの発現レベルは、リアルタイム逆転写酵素(RT)Q-PCR、または核酸マイクロアレイを使用して測定され得る。核酸配列を検出するための方法は、限定はしないが、ポリメラーゼ連鎖反応(PCR)、逆転写酵素PCR(RT-PCR)、インサイチュPCR、定量PCR(Q-PCR)、リアルタイム定量PCR(RT Q-PCR)、インサイチュハイブリダイゼーション、サザンブロット、ノーザンブロット、配列解析、マイクロアレイ解析、レポーター遺伝子の検出、または他のDNA/RNAハイブリダイゼーションプラットフォームを含む。
【0303】
いくつかの実施形態では、試料における遺伝子をコードする核酸のレベルは、ハイブリダイゼーションアッセイを介して測定され得る。いくつかの実施形態では、ハイブリダイゼーションアッセイは、少なくとも1つの結合パートナーを備える。いくつかの実施形態では、ハイブリダイゼーションアッセイは、少なくとも1つのオリゴヌクレオチド結合パートナーを備える。いくつかの実施形態では、ハイブリダイゼーションアッセイは、少なくとも1つの標識オリゴヌクレオチド結合パートナーを備える。いくつかの実施形態では、ハイブリダイゼーションアッセイは、少なくとも1対のオリゴヌクレオチド結合パートナーを備える。いくつかの実施形態では、ハイブリダイゼーションアッセイは、少なくとも1対の標識オリゴヌクレオチド結合パートナーを備える。
【0304】
所望の核酸またはタンパク質に特異的に結合する任意の結合剤が、試料における発現レベルを測定するために、本明細書で説明される方法およびキットにおいて使用され得る。いくつかの実施形態では、結合剤は、所望のタンパク質に特異的に結合する抗体またはアプタマーである。他の実施形態では、結合剤は、核酸またはその一部分と相補関係にある1つまたは複数のオリゴヌクレオチドであり得る。いくつかの実施形態では、試料は、同時にまたは連続的に、異なるタンパク質または異なる核酸を結合する2つ以上の結合剤と接触され得る(たとえば、多重解析)。
【0305】
タンパク質または核酸の発現レベルを測定するために、試料は、好適な条件下で結合剤と接触され得る。一般に、「接触」という用語は、結合剤と、もしあれば、試料における標的タンパク質または標的核酸との間の複合体の形成のために十分な好適な期間の間に、結合剤を、試料またはそこから収集された細胞に曝露することを指す。いくつかの実施形態では、接触することは、試料が支持膜の表面にわたって移動される毛管作用によって実行される。
【0306】
いくつかの実施形態では、アッセイは、単一アッセイ形式を含む、低スループットプラットフォームにおいて実行され得る。いくつかの実施形態では、アッセイは、高スループットプラットフォームにおいて実行され得る。そのような高スループットアッセイは、固体支持体(たとえば、1つまたは複数のチップ)に固定された結合剤を使用することを含み得る。結合剤を固定するための方法は、結合剤の性質および固体支持体の材料などの因子に依存するようになり、特定の緩衝物を必要とし得る。そのような方法は、当業者には明白であろう。
【0307】
遺伝子
本明細書で具陳する様々な遺伝子は、一般に、ヒト遺伝子命名法を使用して命名される。様々な遺伝子は、いくつかの実施形態では、発表されたジャーナル論文など、公的に入手可能なリソースにおいて説明されている。遺伝子名は、たとえば、www.ncbi.nlm.nih.govにおいて利用可能なNCBI GenBank(登録商標)データベース、www.genenames.orgにおいて利用可能なHUGO(ヒト遺伝子解析機構(Human Genome Organization))遺伝子命名委員会(HGNC:Gene Nomenclature Committee)データベース、www.david.ncifcrf.govにおいて利用可能なDAVIDバイオインフォマティクスリソース(DAVID Bioinformatics Resource)の使用による(配列情報を含む)追加の情報と相関させられ得る。遺伝子名はまた、上記の組織からの刊行物を通して、追加の情報と相関させられ得、これらの刊行物は、この目的のために参照により本明細書に組み込まれる。遺伝子は、その遺伝子のすべてのバリアントを包含し得ることを諒解されたい。ヒト対象以外の生物または対象の場合、対応する特異的な特定の遺伝子(specific-specific gene)が使用され得る。シノニム、均等物、および密接に関連する遺伝子(他の生物からの遺伝子を含む)は、上記で説明されたNCBI GenBank(登録商標)データベースを含む、同様のデータベースを使用して特定され得る。
【0308】
いくつかの実施形態は、Table 1(表1)に記載されている遺伝子を含む、乳がんグレードを予測するための遺伝子セットを使用することを伴う。いくつかの実施形態は、Table 2(表2)に記載されている遺伝子を含む、腎臓明細胞がんグレードを予測するための遺伝子セットを使用することを伴う。いくつかの実施形態は、Table 3(表3)に記載されている遺伝子を含む、胚中心B細胞(GCB)および活性化B細胞(ABC)など、びまん性大細胞型B細胞リンパ腫(DLBCL)のための起源組織を予測するための遺伝子セットを使用することを伴う。いくつかの実施形態は、Table 10(表10)に記載されている遺伝子を含む、PTCLサブタイプを予測するための遺伝子セットを使用することを伴う。
【0309】
適用例
本明細書で説明される、腫瘍タイプ特性化を含み得る、生体試料特性化のための方法は、限定はしないが、対象におけるがんの進行を監視すること、がんのための治療の有効性を査定すること、特定の治療のために好適な患者を特定すること、臨床試験に参加するための患者の適合性を評価すること、および/または対象における再発を予測することを含む、様々な臨床目的のために使用され得る。したがって、本明細書で説明されるものは、本明細書で説明される腫瘍タイプに基づくがん治療のための診断および予後方法である。
【0310】
本明細書で説明される方法は、がんタイプ(たとえば、腫瘍タイプ)とがん予後との間の相関に鑑みて、本明細書で説明されるものなどのがん治療の有効性を評価するために使用され得る。たとえば、本明細書で説明されるものなどの複数の生体試料が、それに対して治療が実行される対象から、治療の前および後に、または治療の過程においてのいずれかで収集され得る。対象からの生体試料におけるがんタイプ(たとえば、腫瘍タイプ)は、本明細書で説明される方法のいずれかを使用して決定され得る。たとえば、がんタイプが、対象が予後不良を有することを示し、治療後、または治療の過程にわたって、がんタイプが、予後良好を示すがんタイプに変化する場合、治療が効果的であることを示す。
【0311】
いくつかの実施形態では、がんタイプはまた、特異的な抗がん治療薬(たとえば、化学療法)を使用して治療可能であり得るがんを特定するためにも使用され得る。この方法を実施するために、がんを有する対象から収集された試料(たとえば、腫瘍生検)におけるがんタイプが、本明細書で説明される方法を使用して決定され得る。がんタイプが、ある抗がん治療薬を用いた治療を受けやすいとして特定される場合、方法は、がんを有する対象に、その抗がん治療薬の有効量を投与することをさらに含み得る。
【0312】
いくつかの実施形態では、本明細書で説明されるがんタイプ特性化のための方法は、がんのための新しい治療法の開発において依拠され得る。いくつかの実施形態では、がんタイプは、新しい療法の適用より前、その間、またはその後の、新しい治療法の有効性、または対象におけるがんの進行を示すかまたは予測し得る。
【0313】
いくつかの実施形態では、本明細書で説明されるがんタイプ特性化のための方法は、臨床試験に参加するための患者の適合性を評価するために使用され得る。いくつかの実施形態では、がんタイプは、臨床試験に患者を含めるために使用され得る。いくつかの実施形態では、特定のがんグレード(たとえば、グレード1)を有する患者が、臨床試験に含められる。いくつかの実施形態では、がんのための特定の起源組織を有する患者が、臨床試験に含められる。いくつかの実施形態では、がんタイプは、臨床試験における患者を除外するために使用され得る。いくつかの実施形態では、特定のがんグレード(たとえば、グレード3)を有する患者が、臨床試験から除外される。いくつかの実施形態では、特定の起源組織を有する患者が、臨床試験から除外される。いくつかの実施形態では、特定のPTCLサブタイプを有する患者が、臨床試験から除外される。
【0314】
いくつかの実施形態では、本明細書で説明される方法は、患者の疾患の進行を監視すること、および本明細書で説明される技法を使用して決定された病期に基づいて、1つまたは複数の治療を特定することにおいて使用され得る。いくつかの実施形態では、監視することは、第1の病期が1回目に患者について特定され、第2の病期が2回目に患者について特定される、時間期間にわたって行われる。第2の病期は、異なるタイプの治療を特定するために使用され得る。たとえば、がんグレードを予測するための本明細書で説明される技法を使用する文脈においては、患者の疾患を監視し、病期に基づいて異なる治療を特定することは、対象(たとえば、腎臓がんを有する対象)の第1の生体試料をシーケンシングすることによって取得される第1の発現データを取得すること、第1の発現データと、本明細書で説明される統計モデルとを使用して、第1のがんグレードを決定すること、第1のがんグレードに基づいて、対象のための第1の治療を特定または推奨すること、および場合によっては、第1の治療を行うことを伴い得る。患者の疾患を監視することは、対象の第2の生体試料(たとえば、第1の生体試料とは異なる時間に対象から取得された生体試料)をシーケンシングすることによって取得される第2の発現データを取得すること、第2の発現データを使用して、第2のがんグレードを決定すること、第2のがんグレードに基づいて、対象のための第2の治療を特定または推奨すること、および場合によっては、第2の治療を行うことをさらに伴い得る。いくつかの実施形態では、第1のがんグレードは第2のがんグレードとは異なり、第1の治療は第2の治療とは異なる。いくつかの実施形態では、監視することは、治療の進行を評価すること、患者が特定の治療にどのように反応しているかを決定すること、またはそれらの組合せを行うために、(たとえば、複数の医療訪問とともに)複数回実行され得る。
【0315】
いくつかの実施形態では、本明細書で説明される方法は、対象が治療にどのように反応したかを査定する際に使用され得る。たとえば、本明細書で説明されるこれらの技法は、対象が一連の治療に反応しているか否か、対象が寛解期であるか否か、および疾患の再発があるか否かを決定する際に使用され得る。
【0316】
いくつかの実施形態では、本明細書で説明される技法を使用して決定された対象の生体試料の細胞のための特性は、対象のための診断を特定する際に使用され得る。いくつかの実施形態では、特性は、医師または他のユーザが対象のための診断を決定するための情報を提供し得る。たとえば、特性のみで、医師が診断を決定することを可能にするために十分であり得る。いくつかの実施形態では、特性および他の患者医療データの組合せが、医師または他のユーザによって、対象のための診断を決定する際に使用され得る。
【0317】
いくつかの実施形態では、本明細書で説明される技法を使用して決定された対象の生体試料の細胞のための特性は、対象のための予後を特定する際に使用され得る。いくつかの実施形態では、特性は、医師または他のユーザが対象のための予後を決定するための情報を提供し得る。たとえば、特性のみで、医師が予後を決定することを可能にするために十分であり得る。いくつかの実施形態では、特性および他の患者医療データの組合せが、医師または他のユーザによって、対象のための予後を決定する際に使用され得る。
【0318】
いくつかの実施形態では、本明細書で説明される技法を使用して決定された診断または予後は、対象のための治療または療法を推奨する際に使用され得る。療法は、薬物治療、放射線、手術、ダイエットもしくはライフスタイルの変更、または他の療法であり得る。治療は、化学療法、免疫療法、ホルモン療法、または他の治療であり得る。いくつかの実施形態では、治療または療法を推奨することは、治療の変更(たとえば、異なる治療、追加の治療、または異なる頻度もしくは適用量)を含み得る。
【0319】
いくつかの実施形態では、本明細書で説明される技法を使用して決定された診断または予後は、患者のさらなる解析のための推奨を生成する際に使用され得る。たとえば、さらなる診断的介入(たとえば、より広範なCAT走査、MRI、より広範または侵襲的な生検、1つまたは複数の組織試料のより詳細な遺伝的、プロテオーム、または組織学的解析など)のための推奨である。
【0320】
いくつかの実施形態では、本明細書で説明される技法を使用して決定された診断または予後は、経過観察の医療検査の頻度を変更するための推奨を生成する際に使用され得る。たとえば、解析がより高い危険性を示唆する場合、より高い頻度の医療検査、または、解析がより低い危険性、もしくは対象が寛解期であることを示唆する場合、より低い頻度の医療検査を有するための推奨である。
【0321】
いくつかの実施形態では、本明細書で説明される技法を使用して決定された対象の生体試料の細胞のための特性は、対象に固有の報告を生成する際に使用され得る。たとえば、報告は、患者固有のがん特性報告であり得る。報告を生成することは、本明細書で説明される技法を使用して決定された疾患特性を示す情報(たとえば、がんグレード、起源組織、組織サブタイプ)を備えるファイルを生成することを伴い得る。
【0322】
推奨または他の情報を医師または他のユーザに提供する文脈においては、そのような情報を提供することは、電子情報を医師または他のユーザに送信することを伴い得る。いくつかの実施形態では、電子情報は、医療センターに、または患者医療情報をホストするコンピュータシステムに送信され得、医師または他のユーザは、コンピューティングデバイスを使用して、情報にアクセスし得る。
【0323】
本明細書で説明される技法を使用して決定されるような、生体試料の特性がどのように使用され得るかについての追加の適用例の例については、2019年6月4日に発行された「SYSTEMS AND METHODS FOR GENERATING, VISUALIZING AND CLASSIFYING MOLECULAR FUNCTION PROFILES」と題する米国特許第10,311,967号において説明されており、その全体が参照により本明細書に組み込まれる。
【0324】
治療の方法
本明細書で説明されるいくつかの方法では、有効量の、本明細書で説明される抗がん療法が、好適な経路(たとえば、静脈内投与)を介した治療を必要としている対象(たとえば、ヒト)に適用されるか、または適用のために推奨され得る。
【0325】
本明細書で説明される方法によって治療されることになる対象は、がんを有するか、有する疑いがあるか、またはその危険性があるヒト患者であり得る。がんを有するか、有する疑いがあるか、または有する危険性がある対象は、がんの1つもしくは複数の兆候もしくは症状を示す対象、がんを有すると診断される対象、がんを有する家族歴および/もしくは遺伝的素因を有する対象、ならびに/または、がんに対する1つもしくは複数の他の危険因子(たとえば、年齢、発がん物質への曝露、環境曝露、がんを生じるより高い可能性に関連付けられたウイルスへの曝露など)を有する対象であり得る。がんの例には、限定はしないが、黒色腫、肺がん、脳腫瘍、乳がん、大腸がん、膵臓がん、肝臓がん、前立腺がん、皮膚がん、腎臓がん、または膀胱がんが含まれる。本明細書で説明される方法によって治療されることになる対象は、哺乳動物であり得る(たとえば、ヒトであり得る)。哺乳動物は、限定はしないが、農場動物(たとえば、家畜)、競技動物、実験動物、愛玩動物、霊長動物、ウマ、イヌ、ネコ、マウス、およびラットを含む。
【0326】
本明細書で使用される「有効量」は、単独で、または1つもしくは複数の他の活性薬剤と組み合わせてのいずれかで、対象に治療効果を与えるために必要とされる各活性薬剤の量を指す。有効量は、当業者によって認識されているように、医療従事者の知識および専門知識内の、治療されている特定の状態、状態の重症度、ならびに年齢、健康状態、体格、性別、および体重を含む個々の患者パラメータ、治療の持続期間、(もしあれば)併用療法の性質、適用の具体的な経路および同様の因子に応じて変動する。これらの因子は、当業者によく知られており、日常的な実験のみによって対処され得る。個々の成分またはそれらの組合せの最大用量、すなわち、穏当な医学的判断による最も安全性の高い用量が使用されることが、一般に好ましい。しかしながら、患者が、医学的理由、心理的理由のために、またはほぼすべての他の理由のために、より低用量または許容用量を主張し得ることが、当業者には理解されよう。
【0327】
治療の追加の方法の例については、2019年6月4日に発行された「SYSTEMS AND METHODS FOR GENERATING, VISUALIZING AND CLASSIFYING MOLECULAR FUNCTION PROFILES」と題する米国特許第10,311,967号において説明されており、その全体が参照により本明細書に組み込まれる。
【0328】
品質管理解析
いくつかの実施形態では、本明細書で説明される技法は、品質管理を実行する際に使用され得る。1つの適用例は、実験室設定における品質管理解析である。たとえば、シーケンシング実験室は、生体試料についての情報と一緒に生体試料を受け取り得る。識別子および/または追跡番号の他に、そのような情報は、生体試料の特性(たとえば、組織源、がんタイプ、がんグレードなど)についての情報を含み得る。しかしながら、実験室の誤りのために、(たとえば、患者試料が差し替えられる、誤ったラベルを付けられる、間違った情報が提供されるなどの誤りのために)提供された生体試料が実際にこれらの特性を有していない可能性がある。
【0329】
別の適用例は、データ解析設定における品質管理解析に対するものである。たとえば、患者のシーケンシングデータ(たとえば、リード、アライメントされたリード、発現レベルなど)は、データ処理パイプラインへの入力として提供され得る。しかしながら、そのシーケンシングデータが、アライメントされたソースに対応しない(たとえば、誤りのために、異なる患者に由来する)場合、解析の結果は、おそらく無意味である。
【0330】
いくつかの実施形態では、品質管理は、生体試料の断定された特性を、本明細書で説明される技法を使用して決定された、予測された特性と比較することによって実行され得る。断定された特性および予測された特性が一致する(たとえば、同じであるか、または許容された差以内である)とき、品質管理検査が満たされたと決定され得る。他方では、予測された特性および断定された特性が一致しない場合、さらなる処置が取られる必要があり得る。たとえば、生体試料のさらなる解析が実行され得、生体試料が棄却され得、データ処理パイプラインが停止されるか、もしくは実行されない(それによって、貴重でコストがかかる計算リソースが節約される)ことがあり、実験室のオペレータおよび/または他の当事者(たとえば、臨床医、スタッフなど)は、(たとえば、電子メールアラート、メッセージ、報告、ログファイルへの入力などによって)潜在的な不一致を通知され得る。
【0331】
たとえば、がんグレードを決定するための分類器が、試料の遺伝子発現データからがんグレードを予測するために使用され得、予測されたがんグレードが、試料のための断定されたがんグレードと比較され得る。予測されたがんグレードおよび断定されたがんグレードが一致する場合、試料解析が品質管理基準を満たしたと決定され得る。しかしながら、予測されたがんグレードおよび断定されたがんグレードが一致しない場合、さらなる解析が実行され得る。別の例として、起源組織を決定するための分類器が、試料のための組織のタイプを予測するために使用され得、予測された組織タイプが、試料のための断定された組織タイプと比較され得る。予測された組織タイプおよび断定された組織タイプが一致しない場合、試料のための組織タイプを特定するために、生体試料のさらなる解析が実行され得る。本明細書で説明される分類技法のいずれも、複数の品質管理チェックポイントを提供するために、単独でまたは互いと組み合わせてのいずれかで、このようにして使用され得る。
【0332】
追加の品質管理解析の例については、2020年7月3日に出願された「TECHNIQUES FOR BIAS CORRECTION IN SEQUENCE DATA」と題する米国特許出願第16/920,636号において説明されており、その全体が参照により本明細書に組み込まれる。
【0333】
計算システム
本明細書で説明される技術の実施形態のいずれかに関して使用され得るコンピュータシステム1000の例示的な実装形態が、
図10に示されている。コンピュータシステム1000は、1つまたは複数のプロセッサ1010と、非一時的コンピュータ可読記憶媒体(たとえば、メモリ1020、および1つまたは複数の不揮発性記憶媒体1030)を備える、1つまたは複数の製造品とを含む。プロセッサ1010は、任意の好適な方法で、メモリ1020および不揮発性記憶デバイス1030へのデータの書込み、およびそれらからのデータの読取りを制御し得、その理由は、本明細書で説明される技術の態様が、この点について限定されないからである。本明細書で説明される機能のいずれかを実行するために、プロセッサ1010は、1つまたは複数の非一時的コンピュータ可読記憶媒体(たとえば、メモリ1020)に記憶された1つまたは複数のプロセッサ実行可能命令を実行し得、1つまたは複数の非一時的コンピュータ可読記憶媒体(たとえば、メモリ1020)は、プロセッサ1010による実行のためのプロセッサ実行可能命令を記憶する、非一時的コンピュータ可読記憶媒体として働き得る。
【0334】
コンピューティングデバイス1000はまた、それを介してコンピューティングデバイスが(たとえば、ネットワーク上で)他のコンピューティングデバイスと通信し得る、ネットワーク入出力(I/O)インターフェース1040を含み得、また、それを介してコンピューティングデバイスがユーザに出力を提供し、ユーザからの入力を受信し得る、1つまたは複数のユーザI/Oインターフェース1050を含み得る。ユーザI/Oインターフェースは、キーボード、マウス、マイクロフォン、ディスプレイデバイス(たとえば、モニタまたはタッチスクリーン)、スピーカー、カメラ、および/または様々な他のタイプのI/Oデバイスなどのデバイスを含み得る。
【0335】
上記で説明された実施形態は、多数の方法のいずれかにおいて実装され得る。たとえば、実施形態は、ハードウェア、ソフトウェア、またはそれらの組合せを使用して実装され得る。ソフトウェアで実装されるとき、ソフトウェアコードは、単一のコンピューティングデバイスにおいて提供されるか、複数のコンピューティングデバイスの間で分散されるかにかかわらず、任意の好適なプロセッサ(たとえば、マイクロプロセッサ)またはプロセッサの集合において実行され得る。上記で説明された機能を実行する任意の構成要素、または構成要素の集合は、一般的に、上記で説明された機能を制御する1つまたは複数のコントローラと見なされ得ることを諒解されたい。1つまたは複数のコントローラは、専用ハードウェアを用いて、または上記で具陳された機能を実行するためのマイクロコードもしくはソフトウェアを使用してプログラムされる汎用ハードウェア(たとえば、1つまたは複数のプロセッサ)を用いてなど、多数の方法で実装され得る。
【0336】
この点において、本明細書で説明される実施形態の一実装形態は、1つまたは複数のプロセッサ上で実行されると、1つまたは複数の実施形態の上記で説明された機能を実行する、コンピュータプログラム(たとえば、複数の実行可能命令)が符号化された、少なくとも1つのコンピュータ可読記憶媒体(たとえば、RAM、ROM、EEPROM、フラッシュメモリ、または他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)、または他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ、または他の磁気記憶デバイス、あるいは他の有形の非一時的コンピュータ可読記憶媒体)を備えることを諒解されたい。コンピュータ可読媒体は、その上に記憶されたプログラムが、本明細書で説明される技法の態様を実装するために、任意のコンピューティングデバイス上にロードされ得るように移送可能であり得る。加えて、実行されると、上記で説明された機能のいずれかを実行する、コンピュータプログラムへの言及は、ホストコンピュータ上で実行しているアプリケーションプログラムに限定されないことを諒解されたい。むしろ、コンピュータプログラムおよびソフトウェアという用語は、本明細書で説明される技法の態様を実装するために、1つまたは複数のプロセッサをプログラムするために採用され得る、任意のタイプのコンピュータコード(たとえば、アプリケーションソフトウェア、ファームウェア、マイクロコード、または任意の他の形態のコンピュータ命令)に言及するために、本明細書で一般的な意味において使用される。
【0337】
「プログラム」または「ソフトウェア」という用語は、上記で説明されたような実施形態の様々な態様を実装するために、コンピュータまたは他のプロセッサをプログラムするために採用され得る、任意のタイプのコンピュータコード、またはプロセッサ実行可能命令のセットを指すために、本明細書で一般的な意味において使用される。追加として、一態様によれば、実行されると、本明細書で提供される本開示の方法を実行する、1つまたは複数のコンピュータプログラムは、単一のコンピュータまたはプロセッサ上に存在する必要はなく、本明細書で提供される本開示の様々な態様を実装するために、異なるコンピュータまたはプロセッサの間でモジュール式で分散され得ることを諒解されたい。
【0338】
プロセッサ実行可能命令は、1つまたは複数のコンピュータまたは他のデバイスによって実行される、プログラムモジュールなどの多数の形態におけるものであり得る。一般に、プログラムモジュールは、特定のタスクを実行するか、または特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。典型的には、プログラムモジュールの機能は、様々な実施形態において必要に応じて組み合わせられるか、または分散され得る。
【0339】
また、データ構造は、任意の好適な形態において、1つまたは複数の非一時的コンピュータ可読記憶媒体に記憶され得る。例示を簡単にするために、データ構造は、データ構造内のロケーションを通して、関連するフィールドを有するように示され得る。そのような関係は、フィールド間の関係を伝える非一時的コンピュータ可読媒体内のロケーションとともに、フィールドのための記憶を割り当てることによって、同様に達成され得る。しかしながら、任意の好適な機構が、データ要素の間の関係を確立するポインタ、タグ、または他の機構の使用によることを含む、データ構造のフィールド内の情報の間の関係を確立するために使用され得る。
【0340】
また、様々な本発明の概念が、1つまたは複数のプロセスとして実施され得、その例が提供されている。各プロセスの一部として実行される動作は、任意の好適な方法で順序付けられ得る。したがって、動作が示された順序とは異なる順序で実行される実施形態が構成され得、それらの実施形態は、例示的な実施形態において連続した動作として示されるにもかかわらず、いくつかの動作を同時に実行することを含み得る。
【0341】
本明細書で説明される技術の態様は、がん患者の生物学的特性(たとえば、がんグレード、起源組織)を生成、可視化、および分類するためのコンピュータ実装方法を提供する。
【0342】
いくつかの実施形態では、ソフトウェアプログラムは、対話型グラフィカルユーザインターフェース(GUI)を使用して、患者の特性および/または患者のがんに関する他の情報の視覚表現をユーザに提供し得る。そのようなソフトウェアプログラムは、限定はしないが、クラウドコンピューティング環境、ユーザとコロケートされたデバイス(たとえば、ユーザのラップトップ、デスクトップ、スマートフォンなど)、ユーザからリモートの1つまたは複数のデバイス(たとえば、1つまたは複数のサーバ)などを含む、任意の好適なコンピューティング環境において実行し得る。
【0343】
たとえば、いくつかの実施形態では、本明細書で説明される技法は、
図11に示された例示的な環境1100において実装され得る。
図11に示されているように、例示的な環境1100内で、患者1102の1つまたは複数の生体試料が、実験室1104に提供され得る。実験室1104は、生体試料を処理して、発現データ(たとえば、DNA、RNA、および/またはタンパク質発現データ)を取得し、ネットワーク1108を介して、患者1102についての情報を記憶する少なくとも1つのデータベース1106に、発現データを提供し得る。
【0344】
ネットワーク1108は、ワイドエリアネットワーク(たとえば、インターネット)、ローカルエリアネットワーク(たとえば、企業イントラネット)、および/または任意の他の好適なタイプのネットワークであり得る。
図11に示されたデバイスのいずれも、1つもしくは複数のワイヤードリンク、1つもしくは複数のワイヤレスリンク、および/またはそれらの任意の好適な組合せを使用して、ネットワーク1108に接続し得る。
【0345】
図11の図示の実施形態では、少なくとも1つのデータベース1106は、患者のための発現データ、患者のための医療履歴データ、患者のための検査結果データ、および/または患者1102についての任意の他の好適な情報を記憶し得る。患者のための記憶された検査結果データの例は、生検検査結果、イメージング検査結果(たとえば、MRI結果)、および血液検査結果を含む。少なくとも1つのデータベース1106に記憶される情報は、任意の好適なフォーマットで、および/または任意の好適なデータ構造を使用して記憶され得、その理由は、本明細書で説明される技術の態様が、この点について限定されないからである。少なくとも1つのデータベース1106は、任意の好適な方法(たとえば、1つまたは複数のデータベース、1つまたは複数のファイル)で、データを記憶し得る。少なくとも1つのデータベース1106は、単一のデータベース、または複数のデータベースであり得る。
【0346】
図11に示されているように、例示的な環境1100は、患者1102以外の患者のための情報を記憶し得る、1つまたは複数の外部データベース1116を含む。たとえば、外部データベース1116は、1人または複数の患者のための(任意の好適なタイプの)発現データ、1人または複数の患者のための医療履歴データ、1人または複数の患者のための検査結果データ(たとえば、イメージング結果、生検結果、血液検査結果)、1人または複数の患者のための人口統計学的情報および/または経歴情報、ならびに/あるいは任意の他の好適なタイプの情報を記憶し得る。いくつかの実施形態では、外部データベース1116は、TCGA(がんゲノムアトラス)など、1つまたは複数の公的にアクセス可能なデータベース、臨床試験情報の1つまたは複数のデータベース、および/あるいは商用シーケンシング供給者によって維持された1つまたは複数のデータベースにおいて入手可能な情報を記憶し得る。外部データベース1116は、任意の好適なハードウェアを使用して、任意の好適な方法で、そのような情報を記憶し得、その理由は、本明細書で説明される技術の態様が、この点について限定されないからである。
【0347】
いくつかの実施形態では、少なくとも1つのデータベース1106および外部データベース1116は、同じデータベースであり得るか、同じデータベースシステムの一部であり得るか、または物理的にコロケートされ得、その理由は、本明細書で説明される技術の態様が、この点について限定されないからである。
【0348】
たとえば、いくつかの実施形態では、サーバ1110は、データベース1106および/または1116に記憶された情報にアクセスし、この情報を使用して、生体試料の1つまたは複数の特性を決定するための、
図3を参照しながら説明されたプロセス300を実行し得る。
【0349】
別の例として、いくつかの実施形態では、サーバ1110は、データベース1106および/または1116に記憶された情報にアクセスし、この情報を使用して、生体試料における一部または全部の細胞のための起源組織を決定するための、
図4を参照しながら説明されたプロセス400を実行し得る。
【0350】
別の例として、いくつかの実施形態では、サーバ1110は、データベース1106および/または1116に記憶された情報にアクセスし、この情報を使用して、生体試料における一部または全部の細胞のためのがんグレードを決定するための、
図5を参照しながら説明されたプロセス500を実行し得る。
【0351】
別の例として、いくつかの実施形態では、サーバ1110は、データベース1106および/または1116に記憶された情報にアクセスし、この情報を使用して、遺伝子セットを選択するための、
図8Aを参照しながら説明されたプロセス800を実行し得る。
【0352】
別の例として、いくつかの実施形態では、サーバ1110は、データベース1106および/または1116に記憶された情報にアクセスし、この情報を使用して、生体試料のPTCLサブタイプを決定するための、
図29を参照しながら説明されたプロセス2900を実行し得る。いくつかの実施形態では、サーバ1110は、1つまたは複数のコンピューティングデバイスを含み得る。サーバ1110が複数のコンピューティングデバイスを含むとき、それらのデバイスは、(たとえば、単一の室内に)物理的にコロケートされるか、または複数の物理的ロケーションにわたって分散され得る。いくつかの実施形態では、サーバ1110は、クラウドコンピューティングインフラストラクチャの一部であり得る。いくつかの実施形態では、1つまたは複数のサーバ1110は、医師1114が関連するエンティティ(たとえば、病院、研究機関)によって運営されている施設内にコロケートされ得る。そのような実施形態では、サーバ1110が患者1102のための個人的な医療データにアクセスすることを可能にすることがより容易であり得る。
【0353】
図11に示されているように、いくつかの実施形態では、サーバ1110によって実行された解析の結果が、コンピューティングデバイス1112(ラップトップもしくはスマートフォンなどのポータブルコンピューティングデバイス、またはデスクトップコンピュータなどの固定されたコンピューティングデバイスであり得る)を通して、医師1114に提供され得る。結果は、紙の報告書、電子メール、グラフィカルユーザインターフェース、および/または任意の他の好適な方法で提供され得る。
図11の実施形態では、結果が医師に提供されるが、他の実施形態では、解析の結果が、患者1102もしくは患者1102の介護者、看護師などのヘルスケア提供者、または臨床試験の関係者に提供され得ることを諒解されたい。
【0354】
いくつかの実施形態では、結果は、コンピューティングデバイス1112を介して、医師1114に提示される、グラフィカルユーザインターフェース(GUI)の一部であり得る。いくつかの実施形態では、GUIは、コンピューティングデバイス1112上で実行するウェブブラウザによって表示されたウェブページの一部として、ユーザに提示され得る。いくつかの実施形態では、GUIは、コンピューティングデバイス1112上で実行する(ウェブブラウザとは異なる)アプリケーションプログラムを使用して、ユーザに提示され得る。たとえば、いくつかの実施形態では、コンピューティングデバイス1112は、モバイルデバイス(たとえば、スマートフォン)であり得、GUIは、モバイルデバイス上で実行するアプリケーションプログラム(たとえば、「アプリ」)を介して、ユーザに提示され得る。
【0355】
コンピューティングデバイス1112上に提示されたGUIは、患者と患者のがんの両方に関する広範囲の腫瘍学的データを、コンパクトで高度に情報価値のある新しい方法で提供し得る。以前は、腫瘍学的データは、複数のデータソースから、複数回にわたって取得され、そのような情報を取得するプロセスは、時間と費用の両方の観点からコストがかかるようになっていた。本明細書で説明される技法およびグラフィカルユーザインターフェースを使用して、ユーザは、同じ量の情報に一度にアクセスすることができ、ユーザへの負担が減り、そのような情報を提供するために必要とされるコンピューティングリソースへの負担が減る。ユーザへの負担が少ないことは、様々な情報源を探索することに関連する臨床医の誤りを低減するために役立つ。コンピューティングリソースへの負担が少ないことは、広範囲の腫瘍学的データを提供するために必要とされるプロセッサパワー、ネットワーク帯域幅、およびメモリを低減するために役立ち、このことは、コンピューティング技術の向上である。本明細書で定義および使用されるようなすべての定義は、辞書的定義、および/または定義された用語の通常の意味に優先するものと理解されたい。
【0356】
本明細書および特許請求の範囲で使用される場合、1つまたは複数の要素の列挙に関して「少なくとも1つ」という句は、要素の列挙における要素のうちのいずれか1つまたは複数から選択された少なくとも1つの要素を意味するが、要素の列挙内で具体的に列挙されたあらゆる要素のうちの少なくとも1つを必ずしも含むとは限らず、要素の列挙における要素の任意の組合せを除外しないことを理解されたい。この定義はまた、「少なくとも1つ」という句が指す要素の列挙内で具体的に特定される要素と関係するか、無関係であるかにかかわらず、具体的に特定されるそれらの要素以外の要素が、随意に存在し得ることも可能にする。したがって、非限定的な例として、「AおよびBのうちの少なくとも1つ」(または同等に「AまたはBのうちの少なくとも1つ」、または同等に「Aおよび/またはBのうちの少なくとも1つ」)は、一実施形態では、Bが存在しない(および随意にB以外の要素を含む)、随意に2つ以上を含む、少なくとも1つのAを指し、別の実施形態では、Aが存在しない(および随意にA以外の要素を含む)、随意に2つ以上を含む、少なくとも1つのBを指し、また別の実施形態では、随意に2つ以上を含む、少なくとも1つのA、および随意に2つ以上を含む、少なくとも1つのB(および随意に他の要素を含む)などを指すことができる。
【0357】
本明細書および特許請求の範囲で使用される「および/または」という句は、そのように結合される要素、すなわち、いくつかの場合には連言的に存在し、他の場合には選言的に存在する要素の「いずれかまたは両方」を意味すると理解されたい。「および/または」とともに列挙される複数の要素は、同じように、すなわち、そのように結合される要素のうちの「1つまたは複数」と解釈されるべきである。「および/または」節によって具体的に特定される要素と関係するか、無関係であるかにかかわらず、具体的に特定されるそれらの要素以外に、他の要素が随意に存在し得る。したがって、非限定的な例として、「Aおよび/またはB」への言及は、「備える」などのオープンエンドの語とともに使用されるとき、一実施形態では、Aのみ(随意にB以外の要素を含む)を指し、別の実施形態では、Bのみ(随意にA以外の要素を含む)を指し、また別の実施形態では、AとBの両方(随意に他の要素を含む)などを指すことができる。
【0358】
クレーム要素を変更するための、特許請求の範囲における「第1の」、「第2の」、「第3の」などの序数用語の使用は、それ自体によって、あるクレーム要素の、別のクレーム要素に対するいかなる優先度、先行、もしくは順序、または方法の動作が実行される時間順序を含意するものでもない。そのような用語は、ある名称を有するあるクレーム要素を、(序数用語の使用を除いて)同じ名称を有する別の要素と区別するために、ラベルとして使用されるにすぎない。
【0359】
本明細書で使用される語法および用語は、説明のためのものであり、限定と見なされるべきではない。「含む」、「備える」、「有する」、「含有する」、「伴う」、およびそれらの変形態の使用は、その後で列挙される項目、および追加の項目を包含するものである。
【0360】
本明細書で説明される技法のいくつかの実施形態について詳細に説明したが、様々な変更形態、および改善を、当業者は容易に想到するであろう。そのような変更形態および改善は、本開示の趣旨および範囲内であるものとする。したがって、上記の説明は、単に例としてのものであり、限定とするものではない。これらの技法は、以下の特許請求の範囲およびその均等物によって定義されるようにのみ限定される。
【符号の説明】
【0361】
100、200、2600、2700、2800 例示的な処理パイプライン、処理パイプライン
102 遺伝子発現データ、発現データ、第1の発現データ
106a 遺伝子セット1
106b 遺伝子セット2
106c 遺伝子セット3
106d 遺伝子セット4
108 ランキングプロセス、ランクプロセス
110 遺伝子ランキング
110a 第1の遺伝子ランキング、遺伝子ランキング、遺伝子ランキング1
110b 第2の遺伝子ランキング、遺伝子ランキング、遺伝子ランキング2
110c 遺伝子ランキング3
110d 遺伝子ランキング4
112 統計モデル
112a 統計モデル、統計モデル1
112b 統計モデル、統計モデル2
112c 統計モデル3
112d 統計モデル4
114 特性、PTCLサブタイプ
114a 特性1
114b 特性2
116a 特性予測1
116b 特性予測2
116c 特性予測3
116d 特性予測4
118 予測解析プロセス
214 PTCLサブタイプ
216a、316a、416a PTCLサブタイプ予測1
216b、316b、416b PTCLサブタイプ予測2
216c、316c、416c PTCLサブタイプ予測3
216d、316d、416d PTCLサブタイプ予測4
300、400、500、800、900、2900 例示的なプロセス、プロセス
1000 コンピュータシステム
1010 プロセッサ
1020 メモリ
1030 不揮発性記憶媒体、不揮発性記憶デバイス
1040 ネットワーク入出力(I/O)インターフェース
1050 ユーザI/Oインターフェース
1100 例示的な環境
1102 患者
1104 実験室
1106 データベース
1108 ネットワーク
1110 サーバ
1112 コンピューティングデバイス
1114 医師
1116 外部データベース、データベース
【国際調査報告】