(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-01-13
(54)【発明の名称】癌の遺伝子および臨床データの統合分析のためのマルチオミクス検索エンジン
(51)【国際特許分類】
G16B 40/20 20190101AFI20220105BHJP
【FI】
G16B40/20
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021520420
(86)(22)【出願日】2019-10-14
(85)【翻訳文提出日】2021-06-11
(86)【国際出願番号】 US2019056166
(87)【国際公開番号】W WO2020077352
(87)【国際公開日】2020-04-16
(32)【優先日】2018-10-12
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】518339319
【氏名又は名称】ヒューマン ロンジェヴィティ インコーポレイテッド
(74)【代理人】
【識別番号】100124659
【氏名又は名称】白洲 一新
(72)【発明者】
【氏名】ハーリー,アレナ
(72)【発明者】
【氏名】シンブロット,イヴ
(72)【発明者】
【氏名】ラウ,コリン
(57)【要約】
腫瘍プロファイリングのためにマルチオミクスデータ索引を利用するための方法を提供する。この方法は、複数のマルチオミクスデータ索引を格納することを含むことができ、複数のマルチオミクスデータ索引のそれぞれは、癌固有のトークン化されたデータを含み、追加のマルチオミクスデータおよび追加のマルチオミクスデータに関連する注釈、1つまたは複数の索引に関連する追加のマルチオミクスデータを取り込み、トークン化された取り込まれた追加のマルチオミクスデータを生成するために、特定の索引内の同じ患者の異なるデータストリーム間の遺伝子名、遺伝子変異体名、およびマルチオミクスマッピングを保持しながら、取り込まれた追加のマルチオミックデータおよび注釈に索引付け、ユーザークエリの受信;ユーザークエリに基づいて、1つまたは複数の関連するマルチオミックデータ索引を選択、臨床的行動可能性、病原性、特徴の重み、または頻度の少なくとも1つに基づいて、選択された1つ以上のマルチオミックデータ索引をランク付け、ランク付けされた1つまたは複数のマルチオミクスデータ索引をユーザーに返すことを含む。
【特許請求の範囲】
【請求項1】
腫瘍プロファイリングのためにマルチオミクスデータ索引を利用するための方法であって、
複数のマルチオミクスデータ索引を格納する段階であって、ここで前記複数のマルチオミクスデータ索引のそれぞれは、癌固有のトークン化されたデータを含むよう格納する段階と、
追加のマルチオミクスデータおよび前記追加のマルチオミクスデータに関連する注釈、1つまたは複数の索引に関連する前記追加のマルチオミクスデータを取り込む段階と、
遺伝子名を保持しながら、前記取得した追加のマルチオミクスデータと注釈に索引を付け、取得された追加のマルチオミックデータのトークン化されたデータ生成するため前記特定の索引内の前記同じ患者の異なるデータストリーム間の遺伝子バリアント名とマルチオミクスマッピングする、インデキシング段階と、
ユーザークエリを受信する段階と、
前記ユーザークエリに基づいて、1つまたは複数の関連するマルチオミクスデータ索引を選択する段階と、
臨床的行動可能性、病原性、特徴の重み、または頻度の少なくとも1つに基づいて、前記選択された1つ以上のマルチオミクスデータ索引のランク付けをする段階と、
前記ランク付けされた1つ以上のマルチオミクスデータ索引をユーザーに戻す段階を含んで構成されることを特徴とする方法。
【請求項2】
前記マルチオミクスデータが、遺伝子、トランスクリプトミクス、エピジェネティック、クロマチンアクセシビリティ、マイクロバイオミクス、プロテオミクス、表現型、画像、関連文献、統合マルチオミクスデータ、およびそれらの組み合わせからなるグループから選択されることを特徴とする請求項1に記載の方法。
【請求項3】
前記複数のマルチオミクスデータ索引が、体細胞遺伝子変化、正常な遺伝子変化、および癌注釈源をさらに含むことを特徴とする請求項1に記載の方法。
【請求項4】
前記選択された1つまたは複数のマルチオミクスデータ索引の癌分析を導出することをさらに含み、前記癌分析が、品質管理、腫瘍突然変異負荷、遺伝子突然変異シグネチャー、マイクロサテライト不安定性状態、新抗原、HLA対立遺伝子タイピング、RNA確認変異、コピー数変異、構造変異、非コーディング調節変異体、遺伝子融合、経路濃縮、癌ドライバーの同定、突然変異の要約、差次的遺伝子発現、免疫シグネチャー、類似の患者の治療結果に関するマッチング情報、およびそれらの組み合わせによって構成されることを特徴とする請求項1に記載の方法。
【請求項5】
前記癌分析は、個々の試料または試料のコホートについて導出されることを特徴とする請求項4に記載の方法。
【請求項6】
前記癌分析が機械学習予測およびランク付けされた特徴を含むことを特徴とする請求項4に記載の方法。
【請求項7】
前記機械学習の予測は、原産地分類子のプライマリサイトで構成されるグループである将来の転移部位分類子の予測、マイクロサテライト不安定性状態の予測、ネオ抗原結合親和性の予測、病状の層別化、癌の系統、およびそれらの組み合わせから選択され決定されることを特徴とする請求項6の方法。
【請求項8】
より高いレベルの遺伝子階層からより低いレベルの遺伝子階層への注釈の伝播をさらに含むことを特徴とする請求項1に記載の方法。
【請求項9】
前記選択された1つまたは複数のマルチオミクスデータ索引を、より高いレベルの遺伝子階層からより低いレベルの遺伝子階層にランク付けすることをさらに含むことを特徴とする請求項1に記載の方法。
【請求項10】
前記ランキングが、癌変異体および遺伝子の臨床的および病原性ランキングを含むことを特徴とする請求項1に記載の方法。
【請求項11】
前記ランキングが、癌データの潜在空間表現を組み込むことによってコホートを層別化することを含むことを特徴とする請求項1に記載の方法。
【請求項12】
前記コホートが応答者および非応答者に階層化されることを特徴とする請求項11に記載の方法。
【請求項13】
前記コホートが、無増悪生存期間の長いものと無増悪生存期間の短いものとに階層化されることを特徴とする請求項11に記載の方法。
【請求項14】
前記コホートが、癌の異なるサブタイプに階層化されることを特徴とする請求項11に記載の方法。
【請求項15】
前記潜在空間表現が、ニューラルネットワークによって実行されることを特徴とする請求項11に記載の方法。
【請求項16】
前記潜在空間表現が、次元削減技術によって実行されることを特徴とする請求項11に記載の方法。
【請求項17】
前記ニューラルネットワークが、オートエンコーダー、変分オートエンコーダー、ディープビリーフネットワーク、制限付きボルツマンマシン、フィードフォワード、畳み込み、反復、ゲート付き回帰、長期短期記憶、残差、および生成的敵対的ネットワークからなる前記グループから選択されることを特徴とする請求項16に記載の方法。
【請求項18】
前記ランク付けが、サポートベクターマシン、ブーストされた決定木、回帰方法、ニューラルネットワーク、およびそれらの組み合わせからなる前記グループから選択されたランク付けを学習するためのモデルをさらに含むことを特徴とする請求項1に記載の方法。
【請求項19】
前記ランキングが、深層学習ランキングをさらに含むことを特徴とする請求項1に記載の方法。
【請求項20】
前記深層学習ランキングが、深層意味類似性モデル、畳み込み深層意味類似性モデル、反復深層意味類似性モデル、深層関連性マッチングモデル、深層およびワイドモデル、ディープ言語モデル、トランスフォーマーネットワーク、長期短期メモリネットワーク、学習されたディープラーニングテキストの埋め込み、学習された名前付きエンティティ認識、シャムニューラルネットワーク、インタラクションシャムネットワーク、字句および意味マッチングネットワーク、およびそれらの組み合わせの前記グループから選択されることを特徴する請求項19に記載の方法。
【請求項21】
前記マルチオミックデータが、全ゲノム配列データからの体細胞呼び出し、全エクソーム配列データからの体細胞呼び出し、新鮮な凍結組織からの体細胞パネル配列決定、ホルマリン固定パラフィン包埋組織からの体細胞パネル配列決定、液体生検からの体細胞パネル配列決定、腫瘍および正常のバリアントコール、からの体細胞パネル配列決定からなるグループ バリアントコール、RNAまたは遺伝子発現レベルで確認されたバリアントとして索引付けされた腫瘍//正常転写データ、エピジェネティックデータ、クロマチンアクセシビリティデータ、マイクロバイオミックデータ、プロテオミクスデータ、シングルセルシーケンスデータ、およびそれらの組み合わせからなる前記グループから選択されることを特徴とする請求項1に記載の方法。
【請求項22】
前記マルチオミクスデータ索引が、抽出された表現型データをさらに含むことを特徴とする請求項1に記載の方法。
【請求項23】
前記表現型データが、電子健康記録、臨床データ、機能データ、およびそれらの組み合わせからなる前記グループから選択されることを特徴する請求項22に記載の方法。
【請求項24】
前記マルチオミクスデータ索引が、特徴付けられた画像化データをさらに含むことを特徴とする請求項1に記載の方法。
【請求項25】
前記特徴付けられた画像化データが、組織学スライド、MRI画像、X線、マンモグラム、超音波、PET画像、CTスキャン、およびそれらの組み合わせからなる前記グループから選択されることを特徴とする請求項24に記載の方法。
【請求項26】
前記癌分析が、前記ユーザークエリの受信後に動的に計算されることを特徴とする請求項4に記載の方法。
【請求項27】
前記取得された追加のマルチオミクスデータおよび注釈の索引付けが、癌分析、注釈、画像データから抽出された特徴、表現型、医学文献データおよびその埋め込み、ならびにそれらの組み合わせからなる前記グループから選択された派生データの索引付けをさらに含むことを特徴とする請求項1に記載の方法。
【請求項28】
前記ランク付けが、試料の変更を、確立された薬物標的ラベルおよび利用可能な臨床試験と照合することをさらに含むことを特徴とする請求項1に記載の方法。
【請求項29】
前記ランキングが、関心のある臨床変数および/または統計的有意性に基づいて前記コホートを層別化する潜在的なバイオマーカーを検出することによる、コホートにおける抗がん剤標的の同定をさらに含み、ここで、前記ランク付けされた1つまたは複数のマルチオミクスデータ索引を前記ユーザーに返すことは、層化視覚化を含むことを特徴とする請求項1に記載の方法。
【請求項30】
前記ランク付けされた1つまたは複数のマルチオミクスデータ索引を前記ユーザーに返すことが、腫瘍の包括的なプロファイリングを提供する個々の患者および/またはコホートのためのハイパーリンクされたレポートの動的な作成をさらに含むことを特徴とする請求項1に記載の方法。
【請求項31】
前記ユーザークエリが、変異体、遺伝子、経路、病状状態、関心のある表現型のパネルからなるグループから選択されたユーザーがアップロードしたデータを含み、前記選択は、前記アップロードされたデータによってサブ選択された個々の試料またはコホートデータから選択されたことを特徴とする請求項1に記載の方法。
【請求項32】
前記ユーザークエリが、ユーザーインターフェイスを介して提供することができ、ゲノムデータ、トランスクリプトームデータ、エピジェネティックデータ、クロマチンアクセシビリティデータ、ミクロバイオミックデータ、プロテオミクスデータ、表現型データ、注釈データ、およびそれらの組み合わせで構成される前記グループから選択された索引作成のためのデータのアップロードを含むことを特徴とする請求項1に記載の方法。
【請求項33】
前記ユーザークエリの正規化および/または拡張、クエリの意図の分類、検索されたドキュメントの要約、およびディープラーニング手法を使用した潜在空間内のクエリとドキュメントとの類似性に基づくドキュメント検索の実行をさらに含んで構成されることを特徴とする請求項1に記載の方法。
【請求項34】
前記索引付け、選択、およびランク付けの少なくとも1つが、ディープニューラルネットワークを利用することを含むことを特徴とする請求項1に記載の方法。
【請求項35】
前記癌分析を導出することが、ディープニューラルネットワークを利用することを含むことを特徴とする請求項4に記載の方法。
【請求項36】
前記ランク付けされた1つまたは複数のマルチオミクスデータ索引をユーザーに返すことが、ランク付けされた結果のリストとともに、返された結果の要約視覚化を返すことをさらに含むことを特徴とする請求項1に記載の方法。
【請求項37】
腫瘍プロファイリングのためにマルチオミクスデータ索引を利用するための方法をコンピュータに実行させるためのプログラムが格納されている非一時的なコンピュータ可読媒体であって、
複数のマルチオミクスデータ索引を格納する段階が前記複数のマルチオミクスデータ索引のそれぞれは、癌固有のトークン化されたデータを含む段階と、
追加のマルチオミクスデータおよび追加のマルチオミクスデータに関連する注釈、1つまたは複数の索引に関連する前記追加のマルチオミクスデータを取り込む段階と、
前記トークン化された前記取得された追加のマルチオミクスデータを生成するために、特定の索引内の同じ患者の異なるデータストリーム間の遺伝子名、遺伝子バリアント名、およびマルチオミックマッピングを保持しながら、取り込まれた追加のマルチオミックデータおよび注釈に索引を付ける段階と、
ユーザークエリの受信する段階と、
前記ユーザークエリに基づいて、1つまたは複数の関連するマルチオミクスデータ索引を選択する段階と、
臨床的実行可能性の少なくとも1つに基づいて、前記選択された1つ以上のマルチオミクスデータ索引をランク付けする段階と、
前記ランク付けされた1つ以上のマルチオミクスデータ索引をユーザーに返す段階と、を含む方法によって構成される非一時的なコンピュータ可読媒体。
【請求項38】
前記マルチオミックデータが、ゲノム、トランスクリプトミクス、エピジェネティック、クロマチンアクセシビリティ、マイクロバイオミック、プロテオミクス、表現型、画像、関連文献、統合マルチオミックデータ、およびそれらの組み合わせからなるグループから選択されることを特徴とする請求項37に記載の方法。
【請求項39】
前記複数のマルチオミクスデータ索引が、体細胞ゲノム変化、正常なゲノム変化、および癌注釈源をさらに含むことを特徴とする請求項37に記載の方法。
【請求項40】
前記選択された1つまたは複数のマルチオミクスデータ索引の癌分析を導出することをさらに含み、前記癌分析が、品質管理、腫瘍突然変異負荷、ゲノム突然変異シグネチャー、マイクロサテライト不安定性状態、新抗原、HLA対立遺伝子タイピング、RNA確認変異、コピー数変異、構造変異、非 コーディング調節変異体、遺伝子融合、経路濃縮、癌ドライバーの同定、突然変異の要約、差次的遺伝子発現、免疫シグネチャー、類似の患者の治療結果に関するマッチング情報、およびそれらの組み合わせを含むことを特徴とする請求項37に記載の方法。
【請求項41】
前記癌分析が、個々の試料または試料のコホートについて導出されることを特徴とする請求項40に記載の方法。
【請求項42】
前記癌分析が、機械学習予測およびランク付けされた特徴を含むことを特徴とする請求項40に記載の方法。
【請求項43】
前記機械学習の予測が、原発部位分類子の主要部位、将来の転移部位分類子の予測、マイクロサテライト不安定性状態の予測、新抗原結合親和性の予測、病状の層別化、癌系統の決定、およびそれらの組み合わせである前記グループから選択されることを特徴とする請求項42に記載の方法。
【請求項44】
注釈をより高いレベルの遺伝子階層からより低いレベルの遺伝子階層に伝播することをさらに含むことを特徴とする請求項37に記載の方法。
【請求項45】
前記選択された1つまたは複数のマルチオミクスデータ索引を、より高いレベルのゲノム階層からより低いレベルのゲノム階層にランク付けすることをさらに含むことを特徴とする請求項37に記載の方法。
【請求項46】
前記ランキングが、癌変異体および遺伝子の臨床ランキングを含むことを特徴とする請求項37に記載の方法。
【請求項47】
前記ランキングが、癌データの潜在空間表現を組み込むことによってコホートを階層化することを含むことを特徴とする請求項3375に記載の方法。
【請求項48】
前記コホートが、応答者および非応答者に階層化されることを特徴とする請求項47に記載の方法。
【請求項49】
前記コホートが、無増悪生存期間の長いものと無増悪生存期間の短いものとに階層化されることを特徴とする請求項47に記載の方法。
【請求項50】
前記潜在空間表現が、ニューラルネットワークによって実行されることを特徴とする請求項47に記載の方法。
【請求項51】
前記ニューラルネットワークが、オートエンコーダー、変分オートエンコーダー、ディープビリーフネットワーク、制限付きボルツマンマシン、フィードフォワードネットワーク、畳み込みネットワーク、リカレントネットワーク、長期短期記憶ネットワーク、および生成的敵対的ネットワークからなるグループから選択されることを特徴とする請求項50に記載の方法。
【請求項52】
前記ランク付けが、サポートベクターマシン、ブーストされた決定木、回帰モデル、ニューラルネットワーク、およびそれらの組み合わせからなる前記グループから選択されたランク付けを学習するためのモデルをさらに含むことを特徴とする請求項37に記載の方法。
【請求項53】
前記ランキングが、深層学習ランキングをさらに含むことを特徴とする請求項37に記載の方法。
【請求項54】
前記深層学習ランキングが、ディープセマンティック類似性モデル、ディープワイドモデル、ディープ言語モデル、学習されたディープラーニングテキスト埋め込み、学習された固有表現抽出、シャムニューラルネットワーク、およびそれらの組み合わせで構成される前記グループから選択されることを特徴とする請求項53に記載の方法。
【請求項55】
前記マルチオミクスデータが、全ゲノム配列データからの体細胞呼び出し、全エクソームシーケンスデータからの体細胞呼び出し、新鮮な凍結組織からの体細胞パネルシーケンス、ホルマリン固定パラフィン包埋組織からの体細胞パネルシーケンシング、リキッドバイオプシーからの体細胞パネルシーケンシング、腫瘍と正常なバリアントの呼び出し、RNAまたは遺伝子発現レベルで確認されたバリアントとして索引付けされた腫瘍/正常トランスクリプトミクスデータ、エピジェネティックデータ、クロマチンアクセシビリティデータ、微生物学的データ、プロテオミクスデータ、シングルセルシーケンシングデータ、およびそれらの組み合わせからなる前記グループから選択されることを特徴とする請求項37に記載の方法。
【請求項56】
前記マルチオミクスデータ索引が、抽出された表現型データをさらに含むことを特徴とする請求項37に記載の方法。
【請求項57】
前記表現型データが、電子健康記録、臨床データ、機能データ、およびそれらの組み合わせからなる群から選択されることを特徴とする請求項56に記載の方法。
【請求項58】
前記マルチオミクスデータ索引が、特徴づけられた画像化データをさらに含むことを特徴とする請求項37に記載の方法。
【請求項59】
前記特徴付けられた画像化データが、組織学スライド、MRI画像、X線、マンモグラム、超音波、PET画像、CTスキャン、およびそれらの組み合わせからなる前記グループから選択されることを特徴とする請求項58に記載の方法。
【請求項60】
前記癌分析が、前記ユーザークエリの受信後に動的に計算されることを特徴とする請求項40に記載の方法。
【請求項61】
前記取得された追加のマルチオミックデータおよび注釈の索引付けおよび派生データの索引付けをさらに含み、癌分析、注釈、画像データから抽出された特徴、表現型、医学文献データとその埋め込み、およびそれらの組み合わせで構成される前記グループから選択されたことを特徴とする請求項37に記載の方法。
【請求項62】
前記ランキングが、確立された薬物標的ラベルおよび利用可能な臨床試験と試料変更を一致させることをさらに含むことを特徴とする請求項37に記載の方法。
【請求項63】
前記ランキングが、潜在的なバイオマーカーを検出することによるコホートにおける抗がん剤標的の同定をさらに含み、関心のある臨床変数および/または統計的有意性に基づいてコホートを層別化し、ランク付けされた1つまたは複数のマルチオミクスデータ索引をユーザーに返すことが、層別化の視覚化を含むことを特徴とする請求項37に記載の方法。
【請求項64】
前記ランク付けされた1つまたは複数のマルチオミクスデータ索引をユーザーに返すことが、腫瘍の包括的なプロファイリングを提供する個々の患者および/またはコホートのためのハイパーリンクされたレポートの動的な作成をさらに含むことを特徴とする請求項37に記載の方法。
【請求項65】
前記ユーザークエリが、変異体、遺伝子、経路、病状状態、関心のある表現型のパネルからなるグループから選択されたユーザーがアップロードしたデータを含み、前記選択は、前記アップロードされたデータによってサブ選択された個々の試料またはコホートデータから選択されたことを含むことを特徴とする請求項37に記載の方法。
【請求項66】
前記ユーザークエリが、ユーザーインターフェイスを介して提供することができ、ゲノムデータ、トランスクリプトームデータ、エピジェネティックデータ、クロマチンアクセシビリティデータ、ミクロバイオミックデータ、プロテオミクスデータ、表現型データ、注釈データ、およびそれらの組み合わせで構成される前記グループから選択される索引付けのためのデータをアップロードすることを含むことを特徴とする請求項37に記載の方法、
【請求項67】
前記クエリの正規化および/または拡張、クエリの意図の分類、検索されたドキュメントの要約、およびディープラーニング方法を使用した潜在空間内のクエリとドキュメントとの間の類似性に基づくドキュメント検索の実行をさらに含むことを特徴とする請求項37に記載の方法。
【請求項68】
前記索引付け、選択、およびランク付けの少なくとも1つが、ディープニューラルネットワークを利用することを含むことを特徴とする請求項37に記載の方法。
【請求項69】
前記癌分析を導出することが、ディープニューラルネットワークを利用することを含むことを特徴とする請求項40に記載の方法。
【請求項70】
前記ランク付けされた1つまたは複数のマルチオミクスデータ索引を前記ユーザーに返すことが、前記ランク付けされた結果のリストとともに返された結果の要約視覚化を返すことをさらに含むことを特徴とする請求項37に記載の方法。
【請求項71】
腫瘍プロファイリングにマルチオミックデータ索引を利用するためのシステムであって、
前記複数のマルチオミクスデータ索引のそれぞれは、癌固有のトークン化されたデータを含む、複数のマルチオミクスデータ索引を格納するように構成された記憶要素、および、
追加のマルチオミクスデータおよび前記追加のマルチオミクスデータに関連付けられた注釈、1つまたは複数の索引に関連する追加のマルチオミクスデータを取り込み、そして、前記特定の索引内の同じ患者の異なるデータストリーム間の遺伝子名、遺伝子変異体名、およびマルチオミクスマッピングを保持しながら、取得された前記追加のマルチオミクスデータと注釈に索引を付け、トークン化された取得された追加のマルチオミクスデータを生成するように構成された索引エンジンからなる、索引付けユニットと、
ユーザークエリを受信するように構成されたユーザーインターフェイスと、
前記ユーザークエリに基づいて索引ユニットから1つまたは複数の関連するマルチオミクスデータ索引を選択するように構成されたクエリエンジンと、
そして、臨床的行動可能性、病原性、特徴の重み、または頻度の少なくとも1つに基づいて、選択された1つ以上のマルチオミックデータ索引をランク付けする、前記選択された1つまたは複数の関連するマルチオミクスデータ索引を受信するように構成されたランキングエンジンと、を含むことを特徴とするシステム。
【請求項72】
前記マルチオミクスデータが、ゲノム、トランスクリプトミクス、エピジェネティック、クロマチンアクセシビリティ、マイクロバイオミック、プロテオミクス、表現型、画像、関連文献、統合マルチオミックデータ、およびそれらの組み合わせからなる前記グループから選択されることを特徴とする請求項71に記載のシステム。
【請求項73】
前記複数のマルチオミクスデータ索引が、体細胞遺伝子変化、正常な遺伝子変化、および癌注釈源をさらに含むことを特徴とする請求項71に記載のシステム。
【請求項74】
前記選択された1つまたは複数のマルチオミックデータ索引の癌分析を導出するように構成された癌分析エンジンをさらに含み、前記癌分析は、品質管理、腫瘍突然変異負荷、ゲノム突然変異シグネチャー、マイクロサテライト不安定性状態、新抗原、HLA対立遺伝子タイピング、RNA確認変異、コピー数変異、構造変異、非コーディング調節変異体、遺伝子融合、経路濃縮、癌ドライバーの同定、突然変異の要約、差次的遺伝子発現、免疫シグネチャー、類似の患者の治療結果に関するマッチング情報、およびそれらの組み合わせを含むことを特徴とする請求項71に記載のシステム。
【請求項75】
前記癌分析が、個々の試料または試料のコホートについて導出されることを特徴とする請求項74に記載のシステム。
【請求項76】
前記癌分析が機械学習予測およびランク付けされた特徴を含むことを特徴とする請求項74に記載のシステム。
【請求項77】
前記機械学習の予測が、原発部位分類子、将来の転移部位分類子の予測、マイクロサテライト不安定性状態の予測、新抗原結合親和性の予測、病状層別化、癌系統の決定、およびそれらの組み合わせからなる前記グループから選択されることを特徴とする請求項76に記載のシステム。
【請求項78】
前記索引付けエンジンが、注釈をより高いレベルの遺伝子階層からより低いレベルの遺伝子階層に伝播するように構成されることを特徴とする請求項71に記載のシステム。
【請求項79】
前記ランク付けエンジンが、前記選択された1つまたは複数のマルチオミクスデータ索引を、より高いレベルのゲノム階層からより低いレベルのゲノム階層にランク付けするように構成されることを特徴とする請求項71に記載のシステム。
【請求項80】
前記ランクが、癌変異体および遺伝子の臨床ランクを含むことを特徴とする請求項71に記載のシステム。
【請求項81】
前記ランクが、癌データの潜在空間表現を組み込むことによってコホートを階層化することを含むことを特徴とする請求項71に記載のシステム。
【請求項82】
前記コホートが、応答者および非応答者に階層化されることを特徴とする請求項81に記載のシステム。
【請求項83】
前記コホートが、無増悪生存期間の長いものと無増悪生存期間の短いものとに階層化されることを特徴とする請求項81に記載のシステム。
【請求項84】
前記コホートが、異なる癌サブタイプに階層化されることを特徴とする請求項79に記載のシステム。
【請求項85】
前記潜在空間表現が、ニューラルネットワークによって実行されることを特徴とする請求項81に記載のシステム。
【請求項86】
前記ニューラルネットワークが、オートエンコーダー、変分オートエンコーダー、ディープビリーフネットワーク、制限付きボルツマンマシン、フィードフォワード、畳み込み、反復、ゲート付き回帰、長短期記憶、残差、および生成的敵対的ネットワークで構成されるグループから選択されることを特徴とする請求項85に記載のシステム。
【請求項87】
前記ランク付けエンジンが、サポートベクターマシン、ブーストされた決定木、回帰モデル、ニューラルネットワーク、およびそれらの組み合わせからなるグループから選択されたランク付けを学習するためのモデルをさらに含むことを特徴とする請求項71に記載のシステム。
【請求項88】
前記ランクが、深層学習ランクをさらに含むことを特徴とする請求項71に記載のシステム。
【請求項89】
前記深層学習ランクが、ディープセマンティック類似性モデル、ディープワイドモデル、ディープ言語モデル、学習されたディープラーニングテキスト埋め込み、学習された固有表現抽出、シャムニューラルネットワーク、およびそれらの組み合わせから選択された深層学習モデルで構成される前記グループから作成されることを特徴とする請求項88に記載のシステム。
【請求項90】
前記マルチオミックデータが、全ゲノム配列データからの体細胞呼び出し、全エクソーム配列データからの体細胞呼び出し、新鮮な凍結組織からの体細胞パネル配列決定、ホルマリン固定パラフィン包埋組織からの体細胞パネル配列決定、液体生検からの体細胞パネル配列決定、腫瘍および正常のバリアントコール、RNAまたは遺伝子発現レベルで確認されたバリアントとして索引付けされた腫瘍/正常転写データ、エピジェネティックデータ、クロマチンアクセシビリティデータ、マイクロバイオミックデータ、プロテオミクスデータ、シングルセルシーケンスデータ、およびそれらの組み合わせからなる前記グループから選択されることを特徴とする請求項71に記載のシステム。
【請求項91】
前記マルチオミクスデータ索引が、抽出された表現型データをさらに含むことを特徴とする請求項71に記載のシステム。
【請求項92】
前記表現型データが、電子健康記録、臨床データ、機能データ、およびそれらの組み合わせで構成される前記グループから選択されることを特徴とする請求項91に記載のシステム。
【請求項93】
前記マルチオミクスデータ索引が、特徴付けられた画像化データをさらに含むことを特徴とする請求項71に記載のシステム。
【請求項94】
前記特徴づけられた画像データが、組織学スライド、MRI画像、X線、マンモグラム、超音波、PET画像、CTスキャン、およびそれらの組み合わせで構成される前記グループから選択されることを特徴とする請求項93に記載のシステム。
【請求項95】
前記癌分析が、前記ユーザークエリの受信後に動的に計算されることを特徴とする請求項74に記載のシステム。
【請求項96】
前記索引付けエンジンが、派生データに索引付けするようにさらに構成され、癌分析、注釈、画像データから抽出された特徴、表現型、医学文献データとその埋め込み、およびそれらの組み合わせで構成される前記グループから選択されることを特徴とする請求項71に記載のシステム。
【請求項97】
前記ランキングエンジンが、試料の変更を確立された創薬ターゲットラベルおよび利用可能な臨床試験と一致させるようにさらに構成されることを特徴とする請求項71に記載のシステム。
【請求項98】
前記ランキングエンジンが、関心のある臨床変数および/または統計的有意性に基づいてコホートを層別化する潜在的なバイオマーカーを検出することによって、コホート内の抗がん剤標的を特定するようにさらに構成され、さらに、階層化の視覚化を介して、ランク付けされた1つ以上のマルチオミックデータ索引をユーザーに返すように構成されることを特徴とする請求項71に記載のシステム。
【請求項99】
前記ランク付けエンジンが、腫瘍の包括的なプロファイリングを提供する個々の患者および/またはコホートのハイパーリンクされたレポートの動的な作成を介して、ランク付けされた1つまたは複数のマルチオミックデータ索引をユーザーに返すように構成されることを特徴とする請求項71に記載のシステム。
【請求項100】
前記ユーザークエリが、変異体、遺伝子、経路、病状状態、関心のある表現型のパネルからなる前記グループから選択されたユーザーアップロードデータを含み、前記選択が、アップロードされたデータによってサブ選択された個々の試料またはコホートデータをクエリすることを含むことを特徴とする請求項71に記載のシステム。
【請求項101】
前記ユーザーインターフェイスが、索引付けのためにアップロードされたデータを含むユーザークエリを受信するように構成され、ゲノムデータ、トランスクリプトームデータ、エピジェネティックデータ、クロマチンアクセシビリティデータ、ミクロバイオミックデータ、プロテオミクスデータ、表現型データ、注釈データ、およびそれらの組み合わせで構成される前記グループから選択されることを特徴とする請求項71に記載のシステム。
【請求項102】
前記クエリエンジンが、ユーザークエリを正規化および/または拡張し、クエリの意図を分類し、検索されたドキュメントを要約するようにさらに構成され、ディープラーニング手法を使用して、クエリと潜在空間内のドキュメントの類似性に基づいてドキュメント検索を実行することを特徴とする請求項71に記載のシステム。
【請求項103】
前記索引付けエンジン、クエリエンジン、およびランク付けエンジンのうちの少なくとも1つが、ディープニューラルネットワークを利用するように構成されることを特徴とする請求項71に記載のシステム。
【請求項104】
前記癌分析エンジンが、ディープニューラルネットワークを利用して癌分析を導出するように構成されることを特徴とする請求項74に記載のシステム。
【請求項105】
前記ランク付けエンジンが、ランク付けされた結果のリストとともに返された結果の要約視覚化を返すことによって、ランク付けされた1つまたは複数のマルチオミックデータ索引をさらにユーザーに返すようにさらに構成されることを特徴とする請求項71に記載のシステム。
【請求項106】
腫瘍プロファイリングのためにマルチオミックデータ索引を利用するためのシステムであって、
前記複数のマルチオミックデータ索引のそれぞれは、癌固有のトークン化されたデータを含む、複数のマルチオミクスデータ索引を格納するように構成された記憶要素、および、
追加のマルチオミクスデータと、前記追加のマルチオミクスデータ、1つ以上の索引に関連する前記追加のマルチオミクスデータに関連付けられた注釈、および、特定の索引内の同じ患者の異なるデータストリーム間の遺伝子名、遺伝子変異体名、およびマルチオミクスマッピングを保持しながら、取得された追加のマルチオミクスデータと注釈に索引を付け、トークン化された取得された前記追加のマルチオミックデータを生成するよう構成される、索引エンジンとからなる索引付けユニットと、
ユーザークエリを受信するように構成されたユーザーインターフェイスと、
前記ユーザークエリに基づいて索引ユニットから1つ以上の関連するマルチオミクスデータ索引を選択し、臨床的行動可能性、病原性、特徴の重み、の少なくとも1つに基づいて選択された1つ以上の前記マルチオミクスデータ索引をランク付け、または頻度、およびランク付けされた1つ以上のマルチオミクスデータ索引をユーザーインターフェイスを介してユーザーに返すように構成されたクエリエンジンとからなる、ことをと特徴とするマルチオミクスデータ索引利用システム。
【発明の詳細な説明】
【背景技術】
【0001】
癌遺伝子配列決定の重要性が高まるにつれて、何千もの癌遺伝子、エキソーム、トランスクリプトーム、プロテオーム、および他の癌データのいくつかは、民間および公的機関の両方によって配列決定される(例えば、The Cancer Genome Atlas [TCGA]、International Cancer Genome コンソーシアム[ICGC])。腫瘍と通常のシーケンシングデータの解釈と分析は、プライベートとパブリックの両方の遺伝子データとデータベースの統合分析に依存する。
【0002】
産業、バイオ製薬会社、研究機関、および国際的な癌コンソーシアムは、個々のがん患者の臨床的洞察と行動可能性を個々の癌患者だけでなく、潜在的なマルチオミクス予後、診断、または治療バイオマーカーに関する患者へも提供するために、例えば、(1)任意の試料または試料のサブセットへの即時アクセスの提供(2)マルチオミクスデータセットを統合して、腫瘍生物学の全体像の形成(3)予後、診断、および治療情報を利用可能な全てのデータ(例えば、遺伝子、転写、プロテオミクス、機能、医療、画像、文献など)な効果的に関連付けのハードルに直面する。
【0003】
現在、公開されているデータは、出版物、ガイドライン、およびウェブベースのリソースに散在する。最終的には、上記3つの問題に対処するソリューションにより、癌遺伝子分析が広く臨床で使用される。
【0004】
データの統合および調和は、ユーザーが複数のデータ源を組み込み、臨床的および生物学的に関連する情報を特定できるようにするための標準化および統合という、癌の配列決定において特に深刻な課題をもたらす。さらに、生殖細胞系列配列分析と比較して、癌の遺伝子分析は広範なバイオインフォマティクスパイプラインを必要とし、同じ試料のデータのマルチオミクスストリームを生成する。例えば、典型的な癌生検および血液正常の場合、腫瘍DNA、正常DNA、腫瘍RNAのバイナリベースコール(BCL)、場合によっては正常RNAを、リファレンス遺伝子へのアラインメント、重複排除を介して変異体コール形式(VCF)に変換、再調整、および変異体の再キャリブレーションする必要がある。さらに、一般に、複数の体細胞変異体の呼び出し元を実行して、体細胞の一塩基多型(SNV)と小さな挿入および削除(インデル)のコンセンサスセットを導出することは業界標準である。さらに興味深いのは、例えば、腫瘍のコピー数多型(CNV)検出、腫瘍と正常なRNA-Seq複製間の差次的遺伝子発現、体細胞(腫瘍)DNAで検出された変異がRNAでも発現していることを確認するデータ処理および遺伝子融合を検出するパイプラインである。さらに興味深いのは、大きな構造変異体を呼び出すツールの使用、および高度なバイオインフォマティクスの実行により癌の変化に注釈を付け、腫瘍の関連する特性(腫瘍の突然変異負荷、遺伝子突然変異の特徴、マイクロサテライトの状態、発現した新抗原など)を計算するツールの使用、HLA-正常遺伝子のタイピング)および臨床的に関連する腫瘍の変化を特定することである。
【0005】
現代の癌プロファイリング技術は、試料あたり25ギガバイトのマルチオミクスデータを容易に生成することができ、これは、中規模の癌バイオマーカー発見研究を実施する研究者がテラバイトの生データに容易に直面することを意味する。したがって、関連するバイオマーカーを特定することは、「干し草の山から針を見つける」ことに似ている。さらに、分析パイプラインの実行が終了すると、結果と対話して新しい仮説を立てる方法は事実上存在しない。
【0006】
癌データのアクセス可能性、多重統合および実用性の問題に現在対処する最も一般的な方法は、事前にフィルタリングされたデータテーブルおよび以前にキュレートされたファイルおよび事前に計算されたワークフローに基づく分析を表示するポータルを設計することである。ポータルの例には、Illumina BaseSpace Correlation Engine and Cohort Analyzer、WuXI nextCODE TCGAポータル、cBioPortal、IntOGen、Tumorscape、Tumorportal、Xena、ICGCデータポータル(Data Portal)、St.JudePeCan、QiagenOmicSoftが含まれる。ただし、これらのポータルは通常、対処できる質問の種類と実行できる追加の分析を制限する。さらに、データは通常、バイオインフォマティクスパイプラインの多くのレベルでの調査のためにアクセスできない。ポータル内のデータは、多くの場合、事前にフィルタリングされ、統合されておらず、通常はランク付けされない。さらに、ほとんどのポータルは個々のユーザーデータをホストしていない。自分のデータをアップロードできるようにするユーザーは、通常、ユーザーのデータをポータルデータと統合する手段を提供せず、または、高度ながん分析を導き出し、このデータにアクセスできるようにし、臨床的行動可能性、病原性、特徴の重み、または頻度の観点からランク付けするようなユーザーは殆んどいない。
【0007】
したがって、任意の試料または試料のサブセットへの即時アクセスを効果的かつ効率的に提供するシステムおよび方法を提供する必要がある。マルチオミクスデータセットを効果的かつ効率的に統合して腫瘍生物学の全体像を形成するシステムおよび方法を提供する必要もある。さらに、予後、診断、および治療情報を利用可能なすべてのデータ(例えば、遺伝子、転写、プロテオミクス、機能、医療、画像、文献)に効果的かつ効率的に関連付けて、個々の癌患者と潜在的なマルチオミクス予後または治療バイオマーカーに関する患者のコホートを層別化する。
【0008】
【発明の概要】
【0009】
プロファイリング。この方法は、複数のマルチオミクスデータ索引を格納することを含むことができ、複数のマルチオミクスデータ索引のそれぞれは、癌固有のトークン化されたデータを含む。この方法は、追加のマルチオミクスデータ任意のもの、および追加のマルチオミックデータに関連する注釈、1つまたは複数の索引に関連する追加のマルチオミクスデータを取り込むことをさらに含んでもよい。この方法は、特定の索引内の同じ患者の異なるデータストリーム間の遺伝子名、遺伝子変異体名、およびマルチオミクスマッピングを保持しながら、取得された追加のマルチオミクスデータおよび注釈に索引を付けて、トークン化された取得された追加のマルチオミクスデータを生成することをさらに含むことができる。この方法は、ユーザークエリを受信することをさらに含んでもよい。この方法は、ユーザークエリに基づいて1つまたは複数の関連するマルチオミクスデータ索引を選択することをさらに含んでもよい。この方法は、臨床的行動可能性、病原性、特徴の重み、または頻度のうちの少なくとも1つに基づいて、選択された1つまたは複数のマルチオミクスデータ索引をランク付けすることをさらに含んでもよい。この方法は、ランク付けされた1つまたは複数のマルチオミクスデータ索引をユーザーに返すことをさらに含んでもよい。
【0010】
様々な実施態様によれば、腫瘍プロファイリングのためにマルチオミクスデータ索引を利用するための方法をコンピュータに実行させるためのプログラムが格納されている非一時的なコンピュータ可読媒体が提供される。この方法は、複数のマルチオミクスデータ索引を格納することを含んでもよく、複数のマルチオミクスデータ索引のそれぞれは、癌固有のトークン化されたデータを含む。この方法は、追加のマルチオミクスデータおよび追加のマルチオミクスデータに関連する注釈、1つまたは複数の索引に関連する追加のマルチオミクスデータを取り込むことをさらに含んでもよい。この方法は、特定の索引内の同じ患者の異なるデータストリーム間の遺伝子名、遺伝子変異体名、およびマルチオミクスマッピングを保持しながら、取得された追加のマルチオミクスデータおよび注釈に索引を付けて、トークン化された取得された追加のマルチオミクスデータを生成することをさらに含んでもよい。この方法は、ユーザークエリを受信することをさらに含んでもよい。この方法は、ユーザークエリに基づいて1つまたは複数の関連するマルチオミクスデータ索引を選択することをさらに含んでもよい。この方法は、臨床的行動可能性、病原性、特徴の重み、または頻度のうちの少なくとも1つに基づいて、選択された1つまたは複数のマルチオミクスデータ索引をランク付けすることをさらに含んでもよい。この方法は、ランク付けされた1つまたは複数のマルチオミクスデータ索引をユーザーに返すことをさらに含んでもよい。
【0011】
様々な実施態様によれば、腫瘍プロファイリングのためにマルチオミクスデータ索引を利用するためのシステムが提供される。システムは、インデキシングユニットを含んでもよい。インデキシングユニットは、複数のマルチオミクスデータ索引を格納するように構成された記憶要素を含むことができ、複数のマルチオミクスデータ索引のそれぞれは、癌固有のトークン化されたデータを含む。インデキシングユニットは、インデキシングエンジンをさらに含んでもよい。インデキシングユニットは、追加のマルチオミクスデータおよび追加のマルチオミクスデータに関連する注釈、1つまたは複数の索引に関連する追加のマルチオミクスデータを取り込むように構成してもよい。インデキシングユニットは、特定の索引内の同じ患者の異なるデータストリーム間の遺伝子名、遺伝子変異体名、およびマルチオミクスマッピングを保持しながら、取得された追加のマルチオミクスデータと注釈に索引を付けるようにさらに構成でき、トークン化され取得された追加のマルチを生成する。システムは、ユーザークエリを受信するように構成されたユーザーインターフェイスをさらに備えてもよい。システムは、ユーザークエリに基づいてインデキシングユニットから1つまたは複数の関連するマルチオミクスデータ索引を選択するように構成されたクエリエンジンをさらに含んでもよい。システムは、選択された1つまたは複数の関連するマルチオミクスデータ索引を受け取り、臨床的行動可能性、病原性、特徴の重み、または頻度の少なくとも1つに基づいて選択された1つまたは複数のマルチオミクスデータ索引をランク付けするように構成されたランク付けエンジンをさらに含んでもよい。ランク付けエンジンは、ランク付けされた1つまたは複数のマルチオミクスデータ索引をユーザーにユーザーインターフェイスを介して返すようにさらに構成してもよい。
【0012】
様々な実施態様によれば、腫瘍プロファイリングのためにマルチオミクスデータ索引を利用するためのシステムが提供される。システムは、インデキシングユニットを含んでもよい。インデキシングユニットは、複数のマルチオミクスデータ索引を格納するように構成された記憶要素を含んでもよく、複数のマルチオミクスデータ索引のそれぞれは、癌固有のトークン化されたデータを含む。インデキシングユニットは、インデキシングエンジンをさらに含んでもよい。インデキシングユニットは、追加のマルチオミクスデータおよび追加のマルチオミクスデータに関連する注釈、1つまたは複数の索引に関連する追加のマルチオミクスデータを取り込むように構成してもよい。インデキシングユニットは、特定の索引内の同じ患者の異なるデータストリーム間の遺伝子名、遺伝子変異体名、およびマルチオミクスマッピングを保持しながら、取得された追加のマルチオミクスデータと注釈に索引を付けるようにさらに構成でき、トークン化され取得された追加のマルチオミクスデータを生成する。システムは、ユーザークエリを受信するように構成されたユーザーインターフェイスをさらに備えてもよい。システムは、ユーザークエリに基づいてインデキシングユニットから1つまたは複数の関連するマルチオミクスデータ索引を選択するように構成されたクエリエンジンをさらに含んでもよい。クエリエンジンは、臨床的行動可能性、病原性、特徴の重み、または頻度の少なくとも1つに基づいて、選択された1つまたは複数のマルチオミクスデータ索引をランク付けするようにさらに構成することができる。クエリエンジンは、ランク付けされた1つまたは複数のマルチオミクスデータ索引をユーザーにユーザーインターフェイスを介して返すようにさらに構成してもよい。
【0013】
様々な実施態様によれば、マルチオミクス癌検索エンジンシステムが腫瘍プロファイリングのために提供される。システムは、複数の統合されたマルチオミック索引を格納するように構成された記憶要素は、高度な癌分析ソフトウェアモジュール、マルチオミック索引パイプライン、マルチオミック癌の変化の臨床的有用性を反映するランキングエンジン、関連するマルチオミクス索引を選択して組み合わせ、個々の試料および試料のコホートに対してランク付けされたマルチオミクス変更を返すクエリエンジン、そして、ユーザークエリを受信し、癌データに対して検索を実行するように構成されたユーザーインターフェイスを含んで構成される。
【0014】
以下の詳細な説明、ならびに本明細書に添付された特許請求の範囲および図面から、追加の態様が明らかになるであろう。
【図面の簡単な説明】
【0015】
様々な態様および実装の前述の例示的な例は、請求された態様および実装の性質および特徴を理解するための概要またはフレームワークを提供する。
【0016】
図1は、様々な実施態様によるマルチオミクス癌検索エンジンのシステムアーキテクチャの例を示す。
【0017】
図2aは、様々な実施態様による、マルチオミクス索引編成の例を示す。
図2bは、様々な実施態様による、注釈の階層的伝播および変異体のランク付けの例を示す。
【0018】
図3は、様々な実施態様による、個々の試料およびコホートについて動的に事前計算および計算された一組の癌分析の例を示す。
【0019】
図4aは、様々な実施態様による、変異体ランキングを学習するための広くて深いモデルの例を示す。
図4bは、様々な実施態様による、生物医学データのための深い意味的類似性モデル(DSSM)に依存するランク付け学習エンジンの例を示す。
【0020】
図5aおよび5bは一緒に、様々な実施態様による、クエリエンジンの動作のためのワークフローの例を示す。
【0021】
図6は、様々な実施態様によるユーザーインターフェイスの例を示す。例えば、図に示すように、単一の検索ボックスを使用すると、ユーザーは様々なクエリを入力して、ランク付けされた結果を受け取ることができる。
【0022】
図7は、様々な実施態様による、特定の構文で得られた検索結果の例を示す。
【0023】
図8aおよび8bは、様々な実施態様による、特定の構文で得られた検索結果の例を示す。
【0024】
図9は、様々な実施態様による、ユーザークエリから返される検索結果の例を示す。
【0025】
図10は、様々な実施態様による、ユーザークエリから返される検索結果の例を示す。
【0026】
図11は、様々な実施態様による、ユーザークエリから返される検索結果の例を示す。
【0027】
図12は、様々な実施態様による、ユーザークエリから返される検索結果の例を示す。
【0028】
図13は、様々な実施態様による、コンピュータシステムのブロック図である。
【0029】
図14は、様々な実施態様による、腫瘍プロファイリングのためにマルチオミックデータ索引を利用するための方法のフローチャートを示す。
【0030】
図15は、様々な実施態様による、腫瘍プロファイリングのためにマルチオミックデータ索引を利用するためのシステムを示す。
【0031】
図16は、様々な実施態様による、腫瘍プロファイリングのためにマルチオミックデータ索引を利用するためのシステムを示す。
【0032】
必ずしも一定の縮尺で描かれているわけではなく、また、図中のオブジェクトは、必ずしも相互に関連して一定の縮尺で描かれているわけではないことを理解されたい。これらの図は、本明細書に開示される装置、システム、および方法の様々な実施態様に明確さと理解をもたらすことを意図した描写である。可能な限り、同じまたは同様の部品を参照するために、図面全体で同じ参照番号が使用される。さらに、図面は、いかなる形であれ、本教示の範囲を限定することを意図するものではないことを理解されたい。
【詳細な説明】
【0033】
本明細書は、癌の遺伝子および臨床データの統合的分析のためのマルチオミクス検索エンジンの様々な例示的な実施態様、ならびにそれに関連するシステムおよび方法を説明する。しかしながら、本開示は、これらの例示的な実施態様および用途、あるいは例示的な実施態様および用途が動作するか、または本明細書に記載される方法に限定されない。
【0034】
別段の定義がない限り、本明細書で使用されるすべての専門用語は、本明細書で開示される実施態様が属する当業者によって一般に理解されるのと同じ意味を有する。本明細書および添付の特許請求の範囲で使用されるように、単数形「a」、「an」、および「the」は、文脈が明確に別段の指示をしない限り、複数形の参照を含む。本明細書における「または」への言及は、特に明記しない限り、「および/または」を包含することを意図する。
【0035】
本開示は、癌の遺伝子および臨床データの統合的分析のためのマルチオミクス検索エンジンを操作するためのシステムおよび方法を説明し、本明細書では、略記「癌検索」(Cancer Search)または「癌検索」(cancer search)によって参照してもよい。
【0036】
別段の定義がない限り、本明細書に記載の本教示に関連して使用される科学的および技術的用語は、当業者によって一般的に理解される意味を有するものとする。さらに、文脈上別段の必要がない限り、単数形には複数形が含まれ、複数形には単数形が含まれる。一般に、細胞および組織培養、分子生物学、ならびに本明細書に記載のタンパク質およびオリゴまたはポリヌクレオチドの化学およびハイブリダイゼーションに関連して利用される命名法、およびそれらの技術は、当技術分野で周知であり、一般的に使用される。標準的な技術は、例えば、核酸の精製および調製、化学分析、組換え核酸、およびオリゴヌクレオチド合成に使用される。酵素反応および精製技術は、製造業者の仕様に従って、または当技術分野で一般的に達成されるように、または本明細書に記載されるように実施される。本明細書に記載の技術および手順は、一般に、当技術分野で周知の従来の方法に従って、本明細書全体で引用および論じられている様々な一般的かつより具体的な参考文献に記載されているように実施される。たとえば、Sambrook et al., Molecular Cloning:A Laboratory Manual(Third ed., Cold Spring Harbour Laboratory Press,Cold Spring Harbour,N.Y.2000)を参照されたい。本明細書に関連して利用される命名法、ならびに実験手順および技術は、当技術分野で周知であり、一般的に使用される。
【0037】
本明細書で使用される場合、「DNA」(デオキシリボ核酸)は、4種類のヌクレオチドからなるヌクレオチドの鎖を指し、A(アデニン)、T(チミン)、C(シトシン)、G(グアニン)、そしてそのRNA(リボ核酸)は4種類のヌクレオチドで構成され、A、U(ウラシル)、G、およびCである。ヌクレオチドの特定のペアは、相補的な方法で互いに特異的に結合する(相補的な塩基対と呼ばれる)。つまり、アデニン(A)はチミン(T)とペアになり(ただし、RNAの場合、アデニン(A)はウラシル(U)とペアになる)、シトシン(C)はグアニン(G)とペアになる。第1の核酸鎖が、第1の鎖のものと相補的なヌクレオチドからなる第2の核酸鎖に結合すると、2つの鎖が結合して二本鎖を形成する。本明細書で使用される場合、「核酸配列データ」、「塩基配列情報」、「塩基配列」、「遺伝子配列」、「遺伝子配列」、または「フラグメント配列」、または「核酸配列読み取り」は、任意の情報を示し、またはDNAまたはRNAの分子(例えば、全遺伝子、全トランスクリプトーム、エクソーム、オリゴヌクレオチド、ポリヌクレオチド、フラグメントなど)中のヌクレオチド塩基(例えば、アデニン、グアニン、シトシン、およびチミン/ウラシル)の順序を示すデータである。
【0038】
本教示は、利用可能なすべての種類の技術、プラットフォーム、または技術を使用して得られた配列情報を意図するものであって、キャピラリー電気泳動、マイクロアレイ、ライゲーションベースのシステム、ポリメラーゼベースのシステム、ハイブリダイゼーションベースのシステム、直接または間接のヌクレオチド同定システム、パイロシーケンス、イオンまたはpHベースの検出システム、電子署名ベースのシステムなど含むがこれらに限定されないことを理解されたい。
「ポリヌクレオチド」、「核酸」、または「オリゴヌクレオチド」は、ヌクレオシド間結合によって結合されたヌクレオシド(デオキシリボヌクレオシド、リボヌクレオシド、またはそれらの類似体を含む)の線状ポリマーを指す。典型的には、ポリヌクレオチドは少なくとも3つのヌクレオシドを含む。通常、オリゴヌクレオチドのサイズは、いくつかのモノマー単位からの範囲であり、3-4、数百のモノマー単位である。オリゴヌクレオチドなどのポリヌクレオチドが「ATGCCTG」などの一連の文字で表される場合は常に、ヌクレオチドは左から右に5'->3'の順序であり、「A」はデオキシアデノシンを示すことが理解される。特に断りのない限り、「C」はデオキシシチジンを示し、「G」はデオキシグアノシンを示し、「T」はチミジンを示す。文字A、C、G、およびTは、当技術分野で標準的であるように、塩基自体、ヌクレオシド、または塩基を構成するヌクレオチドを指すために使用されても良い。
【0039】
「次世代シーケンシング」(NGS)という句は、例えば、数十万の比較的小さなシーケンスリードを生成する能力を備えた、従来のサンガーおよびキャピラリー電気泳動ベースのアプローチと比較してスループットが向上したシーケンシング技術を指す。次世代シーケンシング技術のいくつかの例には、合成によるシーケンシング、ライゲーションによるシーケンシング、およびハイブリダイゼーションによるシーケンシングが含まれるが、これらに限定されない。より具体的には、イルミナのMISEQ、HISEQ、およびNEXTSEQシステムと、Life TechnologiesCorpのPersonalGenome Machine(PGM)およびSOLiDシーケンスシステムは、全遺伝子またはターゲット遺伝子の超並列シーケンスを提供する。SOLiDシステムおよび関連するワークフロー、プロトコル、化学などについては、「ビーズベースの配列決定のための試薬、方法、およびライブラリー」と題された国際出願日2006年2月1日のPCT公開番号WO2006/084132、2010年8月31日に出願された「少量配列決定システムおよび使用方法」と題された米国特許出願第12/873,190号、および2010年8月31日に出願された「高速索引フィルターホイールおよび使用方法」と題された米国特許出願第12/873,132号の各出願の全体は、参照により本明細書に組み込まれる。
【0040】
「配列決定実行(sequencing run)」という句は、少なくとも1つの生体分子(例えば、核酸分子)に関連するいくつかの情報を決定するために実行される配列決定実験の任意のステップまたは部分を指す。
【0041】
明細書で使用する「遺伝子特徴」という句は、いくつかの注釈付き機能(例えば、遺伝子、タンパク質コード配列、mRNA、tRNA、rRNA、反復配列、逆方向反復、miRNA、siRNAなど)を有する遺伝子領域を指すか、または、特定の種または特定の種内の亜集団に対して遺伝的/遺伝子変異(例えば、一塩基多型/変異、挿入/削除配列、コピー数多型、逆位など) 突然変異、組換え/クロスオーバーまたは遺伝的ドリフトにより変化を受けた遺伝子の単一またはグループ(DNAまたはRNA)を示す。
【0042】
明細書で使用する「バイオマーカー(biomarkers)」という用語は、生物学的状態の客観的に測定可能な指標を指す。
【0043】
本明細書で使用する「病原性(pathogenicity)」という用語は、特定の疾患または障害に対する個人の感受性または素因を増加させる遺伝的変化の特性を指す。素因突然変異、有害突然変異、および病気の原因となる突然変異とも呼ばれる。
【0044】
本明細書で使用する「生殖系列(germline)」という用語は、子孫の体内のすべての細胞のDNAに組み込まれるようになる生殖細胞(卵子または精子)に由来する組織を指す。 生殖細胞変異は親から子孫に受け継がれる可能性がある。
【0045】
本明細書で使用する「体細胞(somatic)」という用語は、細胞分裂の過程で細胞によって獲得される遺伝的変化を指す。体細胞変異は、生殖細胞で発生する遺伝的変化である生殖細胞変異とは異なる。
【0046】
本明細書で使用する「コドン(codon)」という用語は、特定のアミノ酸に対応するDNAまたはRNAのトリヌクレオチド配列を指す。
【0047】
本明細書で使用する「UI(User Interface)」という用語は、ユーザーインターフェイスの頭字語である。
【0048】
本明細書で使用する「クエリ時間(query time)」という用語は、ユーザーがクエリを送信する時点を指す。
【0049】
本明細書で使用する「ランク付け学習(learning-to-rank)」または「ランク付けエンジン(ranking engine)」または「関連性学習エンジン(releavance-learning)」という用語は、情報検索システムのランキングモデルの構築において、通常は教師あり(supervised)、半教師あり(semi-supervised)、または強化学習である機械学習の適用を指す。トレーニングデータは、各リストのアイテム間に指定された半順序のアイテムのリストで構成される。この順序は、通常、各項目に数値または序数のスコアまたはバイナリの判断(「関連性がある」または「関連性がない」など)を与えることによって引き起こされる。ランク付けモデルの目的は、ランク付けすることであり、つまり、ある意味でトレーニングデータのランク付けと「類似」した方法で、新しい未表示のリスト内のアイテムの順列を生成する。
【0050】
本明細書で使用する「潜在空間(latent space)」または「隠された空間(hidden space)」という用語は、特徴が存在する空間を指す。
【0051】
本明細書で使用する「埋め込み(embedding)」という用語は、オブジェクトの主な特性を保持する低次元の潜在空間への文書(例えば、テキスト、画像、構造化データ)のマッピングを指す。
【0052】
本明細書で使用する「深く広いモデル(deep-and-wide model)」という用語は、深いニューラルネットワーク(例えば、一般化のために)と共に広い線形モデル(例えば、記憶のために)を共同で訓練する深層学習モデルを指す。
【0053】
本明細書で使用する「言語モデル(language model)」という用語は、単語のシーケンスにわたる確率分布を指す。
【0054】
本明細書で使用する「トランスフォーマーモデル(transformer model)」という用語は、コアアイデアの自己注意(self-attention)、つまり入力シーケンスの様々な位置に注意を向けてそのシーケンスの表現を計算する機能を備えた深層学習モデルを指す。
【0055】
本明細書で使用する「BM25」という用語は、文書または文書のセットにおける各クエリ用語の出現数、すなわち、用語頻度(TF)および対応する逆文書を考慮する情報検索における統計関数の幅広いファミリーを指し、文書内での近接性に関係なく、各文書に表示されるクエリ用語に基づいて文書のセットをランク付けする。
【0056】
本明細書で使用する「RM3」という用語は、関連性および疑似関連性フィードバックの両方に有用な情報検索モデルを指す。
【0057】
本明細書で使用する「DSSM(Deep Semantic Similarity Model)」という用語は、ディープセマンティック類似性モデルを表す頭字語である。
【0058】
本明細書で使用する「シャムネットワーク(Siamese network)」という用語は、比較可能な出力ベクトルを計算するために2つの異なる入力ベクトルでタンデムに動作しながら同じ重みを使用する人工ニューラルネットワークを指す。
【0059】
本明細書で使用する「FDA(Food and Drug Administration)」という用語は、米国食品医薬品局の頭字語である。
【0060】
本明細書で使用する「NCCN(National Comprehensive Cancer Network)」という用語は、全米総合癌ネットワークの頭字語である。
【0061】
本明細書で使用する「COSMIC(Catalogue of Somatic Mutatios in Cancer)」という用語は、癌における体細胞変異のカタログの頭字語である。
【0062】
本明細書で使用する「TCGA(The Cancer Genome Atlas)」という用語は、癌遺伝子アトラスの頭字語である。
【0063】
本明細書で使用する「CPRA(chromosome, position, reference, and alternative)」という用語は、染色体、位置、参照、および代替の頭字語である。
【0064】
本明細書で使用する「SNV(Single Nucleotide Variants)」という用語は、一塩基多型の頭字語である。
【0065】
本明細書で使用する「CNV(copy number variatns)」という用語は、コピー数多型の頭字語である。
【0066】
本明細書で使用する「BCL(Binary Base Call)」という用語は、バイナリベースコールの頭字語である。
【0067】
本明細書で使用する「FAST()」という用語は、生物学的配列(通常はヌクレオチド配列)およびそれに対応する品質スコアの両方を保存するためのテキストベースのフォーマットを指す。シーケンス文字と品質スコアはどちらも、簡潔にするためにそれぞれ1つのASCII文字でエンコードされる。
【0068】
本明細書で使用する「BAM」という用語は、配列データを記憶するためのバイナリフォーマットを指す。
【0069】
本明細書で使用する「VCF」という用語は、変異体コールフォーマットを表す頭字語であり、遺伝子配列のバリエーションを保存するためにバイオインフォマティクスで使用されるテキストファイルのフォーマットを指す。
【0070】
本明細書で使用する「EHR(Electronic Health Records)」という用語は、電子健康記録を表す頭字語である。
【0071】
本明細書で使用する「ASCO(American Society of Clinical Oncology)」という用語は、米国臨床腫瘍学会を表す頭字語である。
【0072】
本開示は、本明細書では略記「癌検索」と呼ばれる、癌の遺伝子および臨床データの統合分析のためのマルチオミック検索エンジンの様々な実施態様を説明する。Cancer Searchは、2017年3月21日に出願された「Genomic Metabolic,and Microbiombic Search Engine」という名称の米国特許出願番号15/465,454に提示された研究の拡張であり、その内容は参照によりその全体が本明細書に組み込まれる。
【0073】
様々な実施態様によれば、癌マルチオミックデータの特定のニーズに適応するように構成することができる一般的な検索エンジンアーキテクチャが提供される。一般的なアーキテクチャには、
図1を参照して以下に詳細に論じられる様々なコンポーネントを含めてもよい。たとえば、一般的なアーキテクチャには、Webベースのユーザーインターフェイス、クエリエンジン、すべての注釈を使用して癌のマルチオミクスデータに索引を付与する索引パイプライン、癌分析ソフトウェアモジュール、およびランキングエンジンを含めてもよい。クエリエンジンは、個々の試料またはコホートで利用可能なマルチオミクスデータストリームの任意の組み合わせを検索する要求に応答するように構成してもよい。がん分析(ソフトウェアモジュールやエンジンなど)は、クエリ時に一部の特性を事前に計算し、他の特性を動的に計算することで、重要な腫瘍の特性を導き出すように構成してもよい。ランキングエンジンは、索引作成時にデフォルトの臨床的に実行可能なランキングまたは病原性関連のランキングをプリロードし、クエリの提供時に、検出されたクエリの意図に基づいてそのランキングをさらに強化するように構成してもよい。様々なデータ型、パイプライン、エンジン、モジュール、および分析に関連する詳細を以下に示す。
【0074】
ユーザーインターフェイス(UI)の全体的な機能は、マルチオミクス癌の検索結果を照会およびナビゲートするための統一された応答性の高い方法を提供するように構成してもよい。UIは、ユーザー検索セッションの状態をアクティブに維持する場合がある。UIは、ユーザークエリを受け入れるように構成し、クエリエンジンに中継し、結果として統合されたマルチオミクスランク付けされた結果とそれらの要約の視覚化をレンダリングし、ユーザーが検索結果を操作できるようにしてもよい。ユーザーは、UIを介して、検索結果とさまざまな方法で対話可能である。例えば、関連性のフィードバックを提供してもよい。検索結果によって提示された情報の正確性に関するコメント(例えば、特定の注釈ソース/出版物が古い、または一貫していない)による、結果がユーザー情報のニーズにどの程度対応しているかの促進/降格/固定/削除タイプの評価)、および動的な個々の患者またはコホートレポートに含まれる特定の結果をマークすることによって。UIに関連する詳細については、以下で説明する。
【0075】
図1は、マルチオミクス癌検索システム100の一般的なアーキテクチャの非限定的な例を表す。試料(例えば、腫瘍および/または通常の試料)は、体細胞ワークフロー120からインデキシングパイプラインまたはインデクサー115に追加するか、またはユーザーインターフェイス125を介してアップロードしてもよい。アップロード形式の非限定的な例には、FASTQ、BAM、腫瘍用VCF、通常、体細胞が含んでもよい。アップロード形式の非限定的な例には、FASTQ、BAM、腫瘍のVCF、正常、体細胞VCF、RNA-Seq変異体確認VCF、表形式のRNA-Seq差次的遺伝子発現、CNV VCF、構造変異体VCF、融合呼び出しVCF、またはそれらの任意の組み合わせであってよく、マルチオミクスデータ110は、BCL、FASTQ、BAM、VCF、表形式の癌データ、テキスト癌データ、画像癌データを含む癌マルチオミックデータであってもよい。注釈、文献、および表現型データ130のセットは、注釈パイプライン135を介してインデクサー115に追加してもよい。データは、ストレージユニット170(例えば、クラウドストレージ、内部コンピュータストレージ)に常駐するか、または専用の検索アップロードインターフェイスを介してユーザーによってアップロードしてもよい。インデキシングパイププライン115によって追加されたデータは、1つまたは複数の索引140に格納してもよい。システムアーキテクチャは、インデキシングおよびサービング時に腫瘍の重要な特性を導出するように構成できる癌分析エンジンまたはモジュール145をさらに含んでもよい。癌分析エンジン145は、分析が個々の試料またはコホートのどちらを対象とするかに関係なく、前記重要な特性を導き出すことができる。ユーザーインターフェイス125は、ユーザーがクエリを入力し、クエリエンジン150によって提供される結果を受け取ってもよい。クエリエンジン150は、ユーザークエリを受け入れるように構成してもよい。関連するマルチオミクス索引を選択、事前結合、集約、および要約する。ランク付けされたマルチオミクスデータまたは機能を返す。様々な実施態様によれば、システムアーキテクチャは、多数のユーザーのためにUI125とクエリエンジン150との間のデータの双方向転送に対応するためのロードバランサ155をさらに含んでもよい。様々な実施態様によれば、システムアーキテクチャは、認証プロキシ160をさらに含んでもよく、識別プロバイダ175(例えば、サードパーティプロバイダ)を含むことができる。インデクサー115から検索された結果は、ランク付けエンジン165(例えば、ランク付け学習エンジン)によってランク付けすることができ、これは、例えば、変異体、遺伝子、経路、表現型、テキストデータ、および画像のランク付けモデルを導出するように構成してもよい。索引から取得された結果は、ランキングエンジンによってランク付けされ、ランク付けされた順序でユーザーに表示される。ここで詳細に説明するように、クエリ、分析、ランク付けが可能なデータタイプは、遺伝子、トランスクリプトーム、エピジェネティック、クロマチンアクセシビリティデータ、マイクロバイオミック、プロテオミクス、医学文献、表現型データ、テキストデータ、イメージングデータ、注釈ソース、癌分析、予測モデル、モデルの精度に寄与する機能など、膨大である。一般的なアーキテクチャのこの例に関連する様々な方法およびシステムの実施態様に関して、より詳細に以下に提示する。
【0076】
図14を参照して説明するが、様々な実施態様によれば、腫瘍プロファイリングのためにマルチオミクスデータ索引を利用するための方法1400が提供される。この方法は、ステップ1410で、複数のマルチオミクスデータ索引を格納することを含むことができ、複数のマルチオミクスデータ索引のそれぞれは、癌固有のトークン化されたデータを含む。例えば、特徴、マルチオミクスデータ索引、および癌固有のデータの保存に関連するさらなる議論は、本開示全体を通して提供され、本明細書および本明細書で議論または企図されるすべての実施態様に適用可能である。
【0077】
この方法は、ステップ1420で、追加のマルチオミクスデータおよび追加のマルチオミクスデータに関連する注釈、1つまたは複数の索引に関連する追加のマルチオミクスデータを取り込むことをさらに含んでもよい。例えば、注釈および取り込み機能に関連するさらなる議論は、本開示全体を通して提供され、これおよび本明細書で議論または企図されるすべての実施態様に適用可能である。
【0078】
この方法は、ステップ1430で、特定の索引内の同じ患者の異なるデータストリーム間の遺伝子名、遺伝子変異体名、およびマルチオミクスマッピングを保持しながら、取得された追加のマルチオミクスデータおよび注釈に索引を付けることをさらに含んでもよい。トークン化されて取り込まれた追加のマルチオミクスデータを生成する。例えば、インデキシング、遺伝子名、遺伝子変異体名、およびマルチオミックマッピングに関連するさらなる議論は、本開示全体を通して提供され、本明細書および本明細書で議論または企図されるすべての実施態様に適用可能である。
【0079】
この方法は、ステップ1440で、ユーザークエリを受信することをさらに含んでもよい。例えば、受信機能およびユーザークエリに関連するさらなる議論は、本開示全体を通して提供され、これおよび本明細書で議論または企図されるすべての実施態様に適用可能である。
【0080】
この方法は、ステップ1450で、ユーザークエリに基づいて1つまたは複数の関連するマルチオミクスデータ索引を選択することをさらに含んでもよい。例えば、選択機能、マルチオミクス索引の事前結合、および関連性の決定に関連するさらなる議論は、本開示全体を通して提供され、本明細書および本明細書で議論または企図されるすべての実施態様に適用可能である。
【0081】
この方法は、ステップ1460において、臨床的行動可能性、病原性、特徴の重み、および頻度のうちの少なくとも1つに基づいて、選択された1つ以上のマルチオミクスデータ索引をランク付けすることをさらに含んでもよい。例えば、クエリの意図に関連する要素など、他のランキング要素も含めてもよい。ランク付けに関連するさらなる議論は、本開示全体を通して提供され、これおよび本明細書で議論または企図される全ての実施態様に適用可能である。
【0082】
この方法は、ステップ1470で、ランク付けされた1つまたは複数のマルチオミクスデータ索引をユーザーに返すことをさらに含んでもよい。例えば、復帰機能、表示およびレポートに関連するさらなる議論は、本開示全体を通して提供され、本明細書および本明細書で議論または企図されるすべての実施態様に適用可能である。
【0083】
様々な実施態様によれば、非一時的なコンピュータ可読媒体であり、コンピュータに腫瘍プロファイリングのためにマルチオミクスデータ索引を利用する方法を実行させるためのプログラムが保存される。この方法の手順は、上記の手順と同様にすることも、必要に応じて変更してもよい。
【0084】
この方法は、複数のマルチオミクスデータ索引を格納することを含んでもよく、複数のマルチオミクスデータ索引のそれぞれは、癌特異的なトークン化されたデータを含む。例えば、特徴、マルチオミクスデータ索引、および癌固有のデータの保存に関連するさらなる議論は、本開示全体を通して提供され、本明細書および本明細書で議論または企図されるすべての実施形態に適用可能である。
【0085】
この方法は、追加のマルチオミクスデータおよび追加のマルチオミクスデータに関連する注釈、1つまたは複数の索引に関連する追加のマルチオミックデータを取り込むことをさらに含んでもよい。例えば、注釈および取り込み機能に関連するさらなる議論は、本開示全体を通して提供され、これおよび本明細書で議論または企図されるすべての実施態様に適用可能である。
【0086】
この方法は、特定の索引内の同じ患者の異なるデータストリーム間の遺伝子名、遺伝子変異体名、およびマルチオミックマッピングを保存しながら、取得された追加のマルチオミクスデータおよび注釈に索引を付けて、トークン化された取得された追加のマルチオミクスデータを生成することをさらに含んでもよい。例えば、インデキシング、遺伝子名、遺伝子変異体名、およびマルチオミクスマッピングに関連するさらなる議論は、本開示全体を通して提供され、本明細書および本明細書で議論または企図される全ての実施態様に適用可能である。
【0087】
この方法は、ユーザークエリを受信することをさらに含んでもよい。例えば、機能およびユーザークエリの受信に関連するさらなる議論は、本開示全体を通して提供され、これおよび本明細書で議論または企図される全ての実施形態に適用可能である。
【0088】
この方法は、ユーザークエリに基づいて1つまたは複数の関連するマルチオミクスデータ索引を選択することをさらに含んでもよい。例えば、選択機能および関連性の決定に関連するさらなる議論は、本開示全体を通して提供され、これおよび本明細書で議論または企図される全ての実施形態に適用可能である。
【0089】
この方法は、臨床的行動可能性、病原性、特徴の重み、または頻度のうちの少なくとも1つを食べたことに基づいて、選択された1つまたは複数のマルチオミクスデータ索引をランク付けすることをさらに含んでもよい。ランク付けは、クエリの目的によってさらに変更できることに注意されたい(例えば、頻度が逆の順序でランク付け、モデルの特定の予測への特徴の寄与の順序でランク付け、変異シグネチャーの寄与を逆の順序でランク付けする重みなど)。そのため、他のランキングが要求されておらず、他の意図が容易に推測されない(または推測できない)場合、臨床的実行可能性はデフォルトのランキングとして機能する。例えば、ランク付け機能および決定に関連するさらなる議論は、本開示全体を通して提供され、これおよび本明細書で議論または企図されるすべての実施態様に適用可能である。
【0090】
この方法は、ランク付けされた1つまたは複数のマルチオミクスデータ索引をユーザーに返すことをさらに含んでもよい。例えば、復帰機能に関連するさらなる議論は、本開示を通して提供され、これおよび本明細書で議論または企図される全ての実施態様に適用可能である。
【0091】
様々な実施態様によれば、マルチオミクスデータは、遺伝子、トランスクリプトミクス、エピジェネティック、クロマチンアクセシビリティデータ、ミクロバイオミック、プロテオミクス、表現型、画像、関連文献、統合マルチオミクスデータ、およびそれらの組み合わせからなる群から選択してもよい。様々な実施態様によれば、複数のマルチオミクスデータ索引は、腫瘍(体細胞)遺伝子変化、正常(生殖細胞系列)遺伝子変化、および癌注釈源をさらに含んでもよい。
【0092】
様々な実施態様によれば、本明細書で論じられるかまたは企図される方法は、選択された1つまたは複数のマルチオミクスデータ索引について癌分析を導出することをさらに含んでもよい。癌分析は、品質管理、腫瘍突然変異負荷、遺伝子突然変異シグネチャー、マイクロサテライト不安定性状態、新抗原およびそれらの結合親和性、HLA対立遺伝子タイピング、RNA確認変異体、コピー数変異体、構造変異体、非コード調節変異体、遺伝子融合、経路濃縮、癌ドライバーの同定、突然変異の要約、差次的遺伝子発現、免疫シグネチャー、およびそれらの組み合わせからなるグループから選択された腫瘍特性を含んでもよい。様々な実施態様によれば、癌分析は、個々の試料または試料のコホートについて導き出すことができる。さらに、がん分析には、同様の患者の治療結果に関するマッチング情報を含めてもよい。様々な実施態様によれば、癌分析は、機械学習予測およびランク付けされた特徴を含んでもよい。様々な実施態様によれば、癌分析は、特定の予測との関連性の順にランク付けされた機械学習予測および機械学習モデル機能を含んでもよい。機械学習の予測は、原発部位分類子、将来の転移部位分類子の予測、マイクロサテライト不安定性状態の予測、新抗原結合親和性の予測、病状の層別化、癌系統の決定、および それらの組み合わせから選択してもよい。がん分析は、ユーザークエリの受信後に動的に計算できる。がん分析の導出には、ディープニューラルネットワークやその他の機械学習手法(サポートベクター分類器、ツリー手法、アンサンブル手法など)の利用を含む。モデル特徴重要度の導出には、勾配帰属法または他の特徴重要度法を含んでもよい。
【0093】
様々な実施態様によれば、本明細書で論じられるかまたは企図される方法は、より高いレベルの遺伝子階層からより低いレベルの遺伝子階層への注釈の伝播をさらに含んでもよい。
【0094】
様々な実施態様によれば、本明細書で論じまたは企図される方法は、選択された1つまたは複数のマルチオミクスデータ索引のランク付けを、より高いレベルの遺伝子階層からより低いレベルの遺伝子階層に伝播することをさらに含んでもよい。ランキングは、癌の変異体および遺伝子の臨床ランキングを含んでもよい。ランキングは、特定の経路に属する遺伝子の濃縮の確率を含んでもよい。ランキングには、機械学習モデルの機能に対して決定された重要度の重みを含んでもよい。ランキングは、癌データの潜在空間表現を組み込むことによってコホートを層別化し、表現をサブ選択することで、応答者と非応答者の間で最大のもつれを解き、短期間と長期間の無増悪生存期間、1つと別のサブタイプの癌などを含めてもよい。コホートは、レスポンダーとノンレスポンダーに階層化してもよい。コホートは、無増悪生存期間が長い場合(long-progression free survival time)と無増悪生存期間が短い場合(short-progression free survival time)に階層化できる。コホートは、癌の様々なサブタイプに階層化できる。潜在空間表現は、ニューラルネットワーク、またはその他の次元削減方法(主成分分析、個々の成分分析、多様体学習など)によって実行できる。ニューラルネットワークは、オートエンコーダー、変分オートエンコーダー、ディープビリーフネットワーク、制限付きボルツマンマシン、フィードフォワード、畳み込み、反復、ゲート付き回帰、長期短期記憶、残差、および生成的敵対的ネットワークで構成されるグループから選択してもよい。
【0095】
本明細書で論じられるまたは企図される方法を含む様々な実施態様によれば、ランク付けは、サポートベクターマシン、ブーストされた決定木、回帰方法、ニューラルネットワーク、およびそれらの組み合わせからなるグループから選択されるランク付けを学習するためのモデルをさらに含んでもよい。ランク付けを学習するためのモデルには、他の機械学習モデルやディープニューラルネットワークを含んでもよい。ランキングには、ディープラーニングランキングをさらに含んでもよい。ランキングは、ディープラーニング手法を介して学習された共同埋め込みスペースでのクエリの埋め込みと索引付きドキュメント間の類似性をさらに含んでもよい。ディープラーニングのランキングは、深い意味的類似性モデル(a deep semantic similarity model)、深くて広いモデル(a deep and wide model)、深い言語モデル(a deep language model)、学習した深層学習テキストの埋め込み(a learned deep learning text embedding)、学習した固有表現抽出(a learned named entity recognition)、シャムニューラルネットワーク(Siamese neural network)、およびそれらの組み合わせのグループから選択されたディープラーニングモデルから導き出してもよい。
【0096】
本明細書で論じられるまたは企図される方法を含む様々な実施態様によれば、マルチオミクスデータは、全遺伝子配列データからの体細胞(および生殖細胞系列)呼び出し、全エクソーム配列データからの体細胞(および生殖細胞系列)呼び出し、新鮮な凍結組織からの体細胞(および生殖細胞)パネルシーケンス、ホルマリン固定パラフィン包埋組織からの体細胞(および生殖細胞)パネルシーケンス、液体生検からの体細胞(および生殖細胞)パネルシーケンス、腫瘍および正常変異体コール、腫瘍/正常転写RNAまたは遺伝子発現レベルで確認された変異体として索引付けされたデータ、エピジェネティックデータ、クロマチンアクセシビリティデータ、マイクロバイオミックデータ、プロテオミクスデータ、単一細胞シーケンスデータ、およびそれらの組み合わせからなる群から選択してもよい。様々な実施態様において、インデキシングされたマルチオミクスデータは、内部の体細胞呼び出しおよび16mmuneパイプラインから来るか、または任意の外部パートナーからFASTQ、BAM、VCFおよび他の表形式の形式でリアルタイムに提供またはアップロードされてもよい。
【0097】
本明細書で論じられるかまたは企図される方法を含む様々な実施態様によれば、マルチオミクスデータ索引は、抽出された表現型データをさらに含んでもよい。表現型データは、電子健康記録、臨床データ、機能データ、およびそれらの組み合わせからなるグループから選択してもよい。
【0098】
本明細書で論じられるかまたは企図される方法を含む様々な実施態様によれば、マルチオミクスデータ索引は、特徴づけられた/埋め込まれた画像化データをさらに含んでもよい。特徴付けられた画像データは、組織学スライド、MRI画像、X線、マンモグラム、超音波、PET画像、CTスキャン、およびそれらの組み合わせからなるグループから選択してもよい。
【0099】
本明細書で論じられるまたは企図される方法を含む様々な実施態様によれば、取得された追加のマルチオミクスデータおよび注釈のインデキシングは、癌分析、注釈、画像データから抽出された特徴、表現型、医学文献データ、データ埋め込み、およびそれらの組み合わせからなる群から選択される派生データの索引付けをさらに含んでもよい。
【0100】
本明細書で論じられるまたは企図される方法を含む様々な実施態様によれば、ランク付けは、確立された薬物標的標識および利用可能な臨床試験との試料変更のマッチングをさらに含んでもよい。ランク付けは、潜在的なバイオマーカーを検出することにより、関心のある臨床変数および/または統計的有意性に基づいてコホートを層別化し、ランク付けされた1つまたは複数のマルチオミックデータ索引をユーザーに返すことは、層別化の視覚化を含むコホートにおける抗がん剤の標的同定をさらに含めてもよい。
【0101】
様々な実施形態によれば、本明細書で論じられるまたは企図される方法を含み、ランク付けされた1つまたは複数のマルチオミクスデータ索引をユーザーに返すことは、個々の患者および/またはコホートのハイパーリンクされたレポート(たとえば、各エントリが検索クエリにハイパーリンクされているランク付けされた変更を含む)の動的な作成をさらに含んでもよく、腫瘍または癌の包括的なプロファイリングを提供する。ランク付けされた1つまたは複数のマルチオミクスデータ索引をユーザーに返すことは、ランク付けされた結果のリストとともに、返された結果の要約視覚化を返すことをさらに含んでもよい。
【0102】
様々な実施形態によれば、本明細書で論じられるまたは企図される方法を含み、ユーザークエリは、変異体、遺伝子、経路、病状状態、関心のある表現型のパネルからなるグループから選択されたユーザーがアップロードしたデータを含んでもよく、ここで、選択は、アップロードされたデータによってサブ選択された個々の試料またはコホートデータを照会することを含む。ユーザークエリは、ユーザーインターフェイスを介して提供でき、遺伝子データ、トランスクリプトームデータ、エピジェネティックデータ、クロマチンアクセシビリティデータ、微生物学的データ、プロテオミクスデータ、表現型データ、注釈データ、および それらの組み合わせからなる群から選択されるインデキシングのためのデータをアップロードすることを含んでもよい。
【0103】
様々な実施態様によれば、ここで議論された方法またはここで検討されたユーザークエリの正規化および/または拡張、クエリの意図の分類、検索されたドキュメントの要約、およびディープラーニング方法を使用した潜在空間内のクエリとドキュメントとの類似性に基づくドキュメント検索の実行を含んでもよい。
【0104】
本明細書で論じられるかまたは企図される方法を含む様々な実施態様によれば、インデキシング、選択、およびランク付けの少なくとも1つは、ディープニューラルネットワークを利用することを含む。
【0105】
様々な実施態様によれば、本明細書で論じられるまたは企図される方法(およびシステム)は、腫瘍学者、開業医、研究科学者、および他の非プログラマーにプラットフォームを提供するために、膨大な量の癌マルチオミックデータを一元化するように機能してもよく、癌のバイオインフォマティクスパイプラインを詳細なレベルで調査し、癌の生物学と癌の潜在的な臨床治療に関する臨床的および生物学的洞察を得てもよい。データ型には次のものを含めてもよく、例えば、遺伝子(単一ヌクレオチド変異、腫瘍および正常のインデル、構造再配列、コピー数変異、遺伝子融合、および腫瘍遺伝子の発現変異)、転写、エピジェネティック、クロマチンアクセシビリティ、微生物、プロテオミクスの存在量および局在、医学文献データ(出版物、治療ガイドライン、臨床試験の包含/除外基準)、表現型データ(機能的、臨床的、電子的医療記録、組織病理学および放射線学レポート)、画像データ(組織病理学スライド、MRIスキャン、X線、マンモグラム、超音波、PET画像、CTスキャン)、癌注釈源(変異体、遺伝子、経路、薬剤)、派生癌分析(腫瘍変異負荷、変異シグネチャー、マイクロサテライト不安定性ステータス、RNA配列確認済み変異体、差次的に発現する遺伝子、空間オミクス系統表現、ネオ抗原結合親和性 MHCクラスIおよびクラスII分子)などが挙げられる。
【0106】
上述され、以下でさらに詳細に議論されるように、本明細書で説明および企図される様々な方法(およびシステム)は、様々な実施態様に従って、癌分析を含む(例えば、ステップ、機能、エンジン、モジュールまたはソフトウェアモジュールとして)。癌分析により、ユーザーは以下を含む腫瘍の重要な特性にアクセスでき、例えば、腫瘍変異負荷、変異シグネチャー、空間オミクス系統表現、MHCクラスIおよびクラスII分子に対する新抗原結合親和性、RNA配列確認変異、発現差のある遺伝子、経路濃縮、マイクロサテライト不安定性状態およびマイクロサテライト反復遺伝子座、および以下から抽出された特徴イメージングおよび臨床データなどが挙げられる。様々な実施形態によれば、このデータは、個々の試料について事前に計算するか、またはコホート試料について動的に計算することができる。様々な実施態様によれば、癌分析は、機械学習モデルからの予測と、特定の分類への寄与によってランク付けされたそれらの特徴との統合を提供することができる。特定の分類には、例えば、原発部位、将来の転移部位の予測、変異体の真または偽陽性としての分類、類似患者の治療結果に関する情報、シーケンス品質の異常検出、潜在的コホートを使用した病状予測および実際の表現などが含まれる。特定の分類への寄与によってランク付けされた特徴を返すことの利点は、モデルの予測がユーザーにとってより説明しやすくなる。
【0107】
上述され、以下でさらに詳細に議論されるように、本明細書で説明および企図される様々な方法(およびシステム)は、様々な実施態様に従って、(例えば、ステップ、機能、エンジン、モジュールまたはソフトウェアとして)マルチモーダルランキングを含む。マルチモーダルランキングは、関連性学習エンジンを提供して、マルチオミクス遺伝子データ、注釈ソース、文献データ、臨床試験結果、および大幅に変異した遺伝子を十分に特徴付けられたコホートに統合し、癌データの臨床的に実行可能なランキングを学習する。様々な実施態様において、機械学習モデルを使用して、マルチオミクスデータの注釈からの寄与を比較検討してもよい。様々な実施形態において、深層学習および機械学習の次元削減技術を使用して、試料のコホートの潜在空間表現を導出してもよい。様々な実施態様において、学習された埋め込みは、遺伝子、テキスト、および画像データをランク付けするために使用されても良い。
【0108】
上述され、以下でさらに詳細に議論されるように、本明細書で説明および企図される様々な方法(およびシステム)および様々な実施態様によれば、複数の癌注釈源を統合およびランク付けするためのメカニズム(例えば、ステップ、機能、エンジン、モジュール、またはソフトウェアモジュールとして)をさらに含んでもよい。これらのソースには、例えば、FDAラベル、NCCNガイドライン、臨床試験、CIViC、DocM、OncoKB、Mycancergenome、癌治療薬の遺伝子バイオマーカーのデータベース、TCGA、ICGC、COSMIC、NCI60、CCLE、Drugbank、ClinVar、HGMD、PGMD、PharmGKB、dbSNP、dbNSFP、1000Genomes、EXAC、CPDB、KEGG、BioCarta、BioCyc、Reactome、GenMAPP、MsigDB、Brenda、CTD、HPRD、GXD、BINDが含まれる。様々な実施態様において、注釈とランキングは、より高いレベルの表現からより低いレベルに伝播できる(例えば、遺伝子から変異体への経路、または遺伝子から変異体コドンから完全な変異体仕様への経路-染色体、位置、参照、代替)。
【0109】
上述され、そして以下でさらに詳細に説明するように、本明細書で説明および企図される様々な方法(およびシステム)および様々な実施形態によれば、さらに、多数の深層学習モデルを統合するためのメカニズム(たとえば、ステップ、機能、エンジン、モジュール、またはソフトウェアモジュールとして)を含む。統合は、ニューラルデータの索引作成を提供するように機能できる(例えば、マルチオミクスデータセットを個別に、または一緒に埋め込み、DNAおよびRNA腫瘍の変化に対するそれぞれの潜在空間を正規化し、電子健康記録、臨床ノート、文献、注釈からのテキストデータを埋め込み、固有表現抽出と要約のためのディープトランスフォーマーモデルおよびテキストおよび注釈データ、画像データの埋め込みを含んでもよい)。統合により、モデルをランク付けするためのニューラル学習(例えば、深い意味的類似性モデル、畳み込み深い意味的類似性モデル、反復的な深い意味的類似性モデル、深い関連性のマッチングモデル、相互作用シャムネットワーク、語彙および意味論的マッチングネットワーク、DeepRankなど)がさらに提供され、これは、ランク付けの学習という機能エンジニアリングの問題に対処するために用いられる。統合により、ニューラルクエリモデル(クエリの正規化、同義語の拡張、略語の拡張、用語の明確化、代替案の提案のための深層学習トランスフォーマーモデルなど)を提供できる。統合は、高度な癌分析のための神経モデルを提供するように機能することができる(例えば、起源の部位の分類、将来の転移部位の予測、新抗原結合親和性の予測、変異体を真または偽陽性として分類する、薬物および試験のマッチング、推奨システム 索引付けされた同様のケースからの情報を使用する治療の場合、減少、増加、対立遺伝子画分の維持、コピー数多型、連続生検の各位置でのRNA発現、およびコホート分析と層別化のための深層学習オートエンコーダー法およびその他の次元削減手法を比較するモデルなど)。
【0110】
上述され、そして以下でさらに詳細に説明するように、本明細書で説明および企図される様々な方法(およびシステム)、および様々な実施態様によれば、さらに、診断、予後、または予測バイオマーカーを識別するための統計的、機械学習、および深層学習の方法を(たとえば、ステップ、機能、エンジン、モジュール、またはソフトウェアモジュールとして)含めてもよい。ユーザー(学術研究者や業界研究者など)が試料のコホートに表現型クエリを入力すると、さまざまな実施形態で、コホート、それらの統計的有意性、およびそれらの要約の視覚化を階層化できるランク付けされたバイオマーカーが返される。様々な実施態様において、検証クエリは、ロバストなアルゴリズム的および統計的検証を実行するために検索エンジンによって提案されても良い。様々な実施態様において、システムおよび方法は、提案されたクエリの改良を介して反復的な仮説の改良を自動提案することができ、様々な実施形態によれば、癌コホートクエリ用に導出された統計的視覚化と分析には、例えば、カプランマイヤー生存分析の視覚化、ログランクテスト結果の視覚化、コックス比例ハザード回帰分析の視覚化、ツリー構造の生存モデルの視覚化、ヒートマップ、散布図、箱ひげ図および、統計的有意性を提供する棒グラフが含まれる。
【0111】
上述され、そして以下でさらに詳細に説明するように、本明細書で説明および企図される様々な方法(およびシステム)、および様々な実施態様によれば、さらに(例えば、ステップ、機能、エンジン、モジュール、またはソフトウェアモジュールとして)要約の視覚化および/またはランク付けされた変異体、遺伝子、経路、派生した癌分析、統合された機械学習モデルの出力のインタラクティブな使用および/または受信の使用を含めてもよい(例えば、癌の種類の分類、再発の可能性が最も高い部位)。これは、クエリエンジンを介して提供できる(以下でさらに詳しく説明する)。様々な実施態様では、要約の視覚化は動的であり得、全てのデータポイントは、返される特定の結果にリンクされても良い。
【0112】
上述され、そして以下でさらに詳細に説明するように、本明細書で説明および企図される様々な方法(およびシステム)、および様々な実施態様によれば、さらに、10000、5000、4000、3000、2000、1000、900、800、700、500、400、300、200、100ミリ秒以下のアクセス内でインタラクティブで高速なアクセスを提供でき、または、臨床的行動可能性、病原性、特徴の重み、または頻度によってランク付けされたマルチオミクス癌データへの、上記の値の間の任意の範囲のアクセスを提供できる。
【0113】
上述のとおり、本明細書に記載のシステムおよび方法、および様々な実施態様によれば、(多くの異なるエントリポイントとは対照的に)ユニバーサル検索インターフェイスを提供できる。様々な実施態様において、全ての知識、例えば、マルチオミクス癌データ、試料、変異体、遺伝子、薬物、経路、表現型、医学文献、画像データ、導出された癌分析、腫瘍の特徴およびそれらの特徴を予測するための機械学習モデル、アップロードを同じシンプルな検索インターフェイスから、ユーザーのデータなどにアクセスできる。
【0114】
上述され、そして以下でさらに詳細に説明するように、本明細書で説明および企図される様々な方法(およびシステム)、および様々な実施態様によれば、さらに(例えば、ステップ、機能、エンジン、モジュール、またはソフトウェアモジュールとして)連続生検試料を比較する機能、新旧のがんドライバーの違い(増加、減少、維持)を提供し、変異体対立遺伝子の割合の変化、コピー数の変更、そしてがん変化のRNA確認状態変化を提供できる。
【0115】
上述され、以下でさらに詳細に議論されるように、様々な実施態様に従って、本明細書で説明および企図される様々な方法(およびシステム)は、(例えば、ステップ、機能、エンジン、モジュールまたはソフトウェアモジュールとして)さらに様々な比較体制のために提供できる。これらのレジームには、例えば(1)試料間の比較、同じ患者内のデータのマルチオミクスストリームの任意の組み合わせの比較、(2)試料とコホートの比較(例えば、個々の試料を同じ癌のTCGAサブタイプと比較する)および(3)ペアワイズコホート比較(例えば、コホートを、同じ癌タイプの十分に特徴付けられたTCGAコホートと比較する)が含まれる。
【0116】
様々な実施態様によれば、本明細書で説明および企図される様々な方法(およびシステム)は、(例えば、ステップ、機能、エンジン、モジュール、またはソフトウェアモジュールとして)ユーザーの機関からの変異体/遺伝子創薬ターゲットパネル(または現在実際に使用されているパネル)の動的アップロード用として提供できる。後続のクエリは、アップロードされたパネルと試料用に保存されたマルチオミクスデータの共通部分を使用することを示す。
【0117】
共有資産(Public domain)であり、そしてすでにここで議論されるように、生殖細胞系遺伝子データへの即時アクセスの問題に対処するための一般的な遺伝子検索が提案される。これは、メンデルのまれな変異体、GWASヒット、一般的な疾患の負担テストとポリジーンリスク、および遺伝的リスクに焦点を当てた生殖細胞系列遺伝子プロファイリングの大幅に異なる問題を表す。上述および本明細書で論じた包括的な癌の特徴付けにおける3つの主要な問題全てを効果的に解決するために、本明細書で説明するシステムおよび方法は、提供および企図される様々な実施態様に従って、個々の試料およびコホートの高度な癌分析、ならびにランキングエンジン(上記および本明細書で詳細に説明されている)が含まれる。明細書に記載のシステムおよび方法は、本明細書に提供される様々な実施態様に従って、既存の一般的な生殖系列検索システムの全ての部分を増強して、インデキシングおよび提供時間中にマルチオミクスデータを統合し、それらの臨床的関連性および病原性による癌の変化をランク付けし、検索エンジンのパラダイムを、個々の試料やコホートの包括的ながんプロファイリングに役立てることができる。さらに、本明細書で提供される様々な実施態様による、本明細書で説明されるシステムおよび方法は、以前の研究から完全に欠落していた癌検索エンジンの上に構築された癌コホート層別分析を含んでもよい。
【0118】
様々な実施態様によれば、
図15は、腫瘍プロファイリングのためにマルチオミクスデータ索引を利用するために提供されるシステム1500を示す。システム1500は、索引付けユニット1510を備える。インデキシングユニットは、複数のマルチオミクスデータ索引を格納するように構成された記憶要素1520を含み、複数のマルチオミクスデータ索引のそれぞれは、癌固有のトークン化されたデータを含む。索引ユニット1510は、索引エンジン1530をさらに備えてもよい。インデキシングユニット1510は、データソース1540、1つまたは複数の索引に関連する追加のマルチオミクスデータを介して、追加のマルチオミクスデータおよび追加のマルチオミクスデータに関連する注釈を取り込むように構成してもよい。インデキシングユニット1510は、特定の索引内の同じ患者の異なるデータストリーム間の遺伝子名、遺伝子変異体名、およびマルチオミクスマッピングを保持しながら、データソース1540から取り込まれた追加のマルチオミクスデータおよび注釈に索引を付けるようにさらに構成することができ、トークン化されて取り込まれた追加のマルチオミックデータを提供する。
【0119】
システム1500は、ユーザークエリ1560を受信するように構成されたユーザーインターフェイス1550をさらに備えてもよい。
【0120】
システム1500は、ユーザークエリ1560に基づいてインデキシングユニット1510から1つまたは複数の関連するマルチオミクスデータ索引を選択するように構成されたクエリエンジン1570をさらに含んでもよい。
【0121】
システム1500は、選択された1つまたは複数の関連するマルチオミクスデータ索引(例えば、クエリエンジン1570から)を受信するように構成されたランキングエンジン1580をさらに備えることができ、選択した1つ以上のマルチオミクスデータ索引をランク付けし、および、ランク付けされた1つまたは複数のマルチオミクスデータ索引を、ユーザーインターフェイス1550を介してユーザーに返す。
【0122】
様々な実施態様によれば、
図16は、腫瘍プロファイリングのためにマルチオミクスデータ索引を利用するために提供されるシステム1600を示す。システム1600は、インデキシングユニット1610を備える。インデキシングユニットは、複数のマルチオミクスデータ索引を格納するように構成された記憶要素1620を含むことができ、複数のマルチオミクスデータ索引のそれぞれは、癌固有のトークン化されたデータを含む。インデキシングユニット1610は、索引エンジン1630をさらに備える。インデキシングユニット1610は、データソース1640、1つまたは複数の索引に関連する追加のマルチオミクスデータを介して、追加のマルチオミクスデータおよび追加のマルチオミクスデータに関連する注釈を取り込むように構成してもよい。インデキシングユニット1610は、特定の索引内の同じ患者の異なるデータストリーム間の遺伝子名、遺伝子変異体名、およびマルチオミクスマッピングを保持しながら、データソース1640から取り込んだ追加のマルチオミクスデータおよび注釈にインデキシングするようにさらに構成し、トークン化されて取り込まれた追加のマルチオミックデータを生成する。
【0123】
システム1600は、ユーザークエリ1660を受信するように構成されたユーザーインターフェイス1650をさらに備える。
【0124】
システム1600は、ユーザークエリ1660に基づいてインデキシングユニット1610から1つまたは複数の関連するマルチオミクスデータ索引を選択するように構成されたクエリエンジン1670をさらに備える。クエリエンジン1670は、臨床的実行可能性、病原性、特徴の重み、または頻度に基づいて、選択された1つまたは複数のマルチオミクスデータ索引をランク付けするようにさらに構成してもよい。クエリエンジンは、ランク付けされた1つまたは複数のマルチオミクスデータ索引をユーザーにユーザーインターフェイス1650を介して返すようにさらに構成してもよい。
【0125】
様々な実施態様による、特に前述の方法および非一時的なコンピュータ可読媒体に関する追加の特徴に関するこれまでの全ての議論は、本明細書で説明および企図される様々なシステムの実施形態の特徴に適用可能であることに留意されたい。
【0126】
様々な実施態様によれば、腫瘍プロファイリングのためにマルチオミクスデータ索引を利用するために、コンピュータで実装されたシステムを提供する。システムは、コンピュータストレージ、少なくとも1つのプロセッサを含むデジタル処理装置、実行可能命令を実行するように構成されたオペレーティングシステム、メモリ、およびマルチオミック癌検索エンジンアプリケーションを作成するためにデジタル処理装置によって実行可能な命令を含むコンピュータプログラムを含む。マルチオミクス癌検索エンジンアプリケーションは、コンピュータストレージに記録される複数の統合されたマルチオミクス索引と、高度な癌分析を提供するソフトウェアモジュールとを含む。マルチオミクス癌検索エンジンアプリケーションは、マルチオミクス癌データを取り込むマルチオミック索引パイプラインを提供するソフトウェアモジュールを含み、注釈、医療、そしてマルチオミクス遺伝子および画像データに関連する臨床データ、変異体の命名法を維持しながらデータをトークン化する、遺伝子名と薬の名前、そしてトークン化されたデータで索引を更新する。マルチオミクス癌検索エンジンアプリケーションは、癌変化の臨床的有用性を反映する統合マルチオミクスデータのランク付けを担当するソフトウェアモジュールをさらに含む。マルチオミクス癌検索エンジンアプリケーションは、関連するマルチオミクス索引を選択して組み合わせ、個々の試料および試料のコホートに対してランク付けされたマルチオミクス変更を返すクエリエンジンを含んでもよい。マルチオミクス癌検索エンジンアプリケーションは、ユーザーがユーザークエリを入力し、マルチオミクスデータに対してファセット検索を実行することを可能にするユーザーインターフェイスを提示するソフトウェアモジュールを含む。
【0127】
様々な実施態様によれば、マルチオミクス癌検索エンジンアプリケーションを作成するためにプロセッサによって実行可能な命令を含むコンピュータプログラムで符号化された非一時的なコンピュータ可読記憶媒体が提供される。マルチオミクス癌検索エンジンアプリケーションは、コンピュータストレージに記録される複数の統合されたマルチオミクス索引と、高度な癌分析を提供するソフトウェアモジュールとを含む。マルチオミクス癌検索エンジンアプリケーションは、マルチオミクス癌データ、注釈、マルチオミクス遺伝子およびイメージングデータに関連する医療および臨床データを取り込むマルチオミクス索引パイプラインを提供するソフトウェアモジュールを含み、変異体の命名法を維持しながら、遺伝子名と薬剤名、およびトークン化されたデータで索引を更新し、データをトークン化することができる。マルチオミクス癌検索エンジンアプリケーションは、臨床的有用性、病原性、頻度、返された結果の特徴の重みを反映する統合されたマルチオミクスデータのランク付けを担当するソフトウェアモジュールをさらに含む。マルチオミクス癌検索エンジンアプリケーションは、関連するマルチオミクス索引を選択して組み合わせ、個々の試料および試料のコホートに対してランク付けされたマルチオミクス変更を返すクエリエンジンを含む。マルチオミクス癌検索エンジンアプリケーションは、ユーザーがユーザークエリを入力し、マルチオミックデータに対してファセット検索を実行することを可能にするユーザーインターフェイスを提示するソフトウェアモジュールを含む。
【0128】
様々な実施態様によれば、マルチオミクス癌検索エンジンアプリケーションを提供するコンピュータ実装方法が提供される。マルチオミクス癌検索エンジンアプリケーションは、コンピュータストレージに記録される複数の統合されたマルチオミクス索引と、高度な癌分析を提供するソフトウェアモジュールとを含む。マルチオミクス癌検索エンジンアプリケーションは、マルチオミクス癌データ、注釈、マルチオミクス遺伝子およびイメージングデータに関連する医療および臨床データを取り込み、変異体を保持しながらデータをトークン化するマルチオミクス索引パイプラインを提供するソフトウェアモジュールを含み、命名法、遺伝子名、薬剤名、およびトークン化されたデータで索引を更新する。マルチオミクス癌検索エンジンアプリケーションは、癌の変化、病原性、頻度、返された結果の特徴の重みの臨床的有用性を反映する統合されたマルチオミクスデータのランク付けを担当するソフトウェアモジュールを含む。マルチオミクス癌検索エンジンアプリケーションは、関連するマルチオミクス索引を選択して組み合わせ、個々の試料および試料のコホートに対してランク付けされたマルチオミクス変更を返すクエリエンジンを含む。マルチオミクス癌検索エンジンアプリケーションは、ユーザーがユーザークエリを入力し、マルチオミクスデータに対してファセット検索を実行することを可能にするユーザーインターフェイスを提示するソフトウェアモジュールを含む。様々な実施態様において、索引は、部分的に事前結合された構成で最適にフォーマットされ、臨床ランキングは、検索速度が増加し、検索と結果との間の遅延時間が減少するように事前にロードされる。様々な実施態様において、マルチオミクス索引の事前結合は、ユーザーがクエリを入力する前に発生する。
【0129】
様々な実施態様による、特に前述のコンピュータ実装方法、コンピュータ実装システム、および非一時的なコンピュータ可読媒体に関する追加機能に関するこれまでのすべての議論および本明細書で企図される事項は、記載された様々なシステム実施態様の特徴に適用可能であることに留意されたい。
【0130】
上述のとおり、本明細書に記載の様々な実施態様によれば、システムおよび方法は、膨大な量の癌マルチオミックデータを一元化することができる。その日付には、例えば、遺伝子(例えば、一塩基多型、腫瘍および正常のインデル、構造の再配置、コピー数多型、遺伝子融合、および腫瘍遺伝子の発現変異体)、トランスクリプトミクス(例えば、RNA-Seq変異体の確認と差次的遺伝子発現)、エピジェネティック、クロマチンアクセシビリティ、微生物、プロテオミクスの存在量とローカリゼーション、医学文献データ (例えば、出版物、治療ガイドライン、臨床試験の包含/除外基準)、表現型データ (例えば、機能的、臨床的、EHR)、イメージングデータ(例えば、組織学、MRI、X線、マンモグラム、超音波、PET画像、CTスキャン)、がん注釈ソース(例えば、変異体、遺伝子、経路、薬剤)、派生したがん分析(例えば、腫瘍変異負荷、変異シグネチャー、マイクロサテライト不安定性状態、空間オミクス系統表現、MHCクラスIおよびクラスII分子に対する新抗原結合親和性)、機械学習モデルとその機能からの予測(例えば、原発部位、マイクロサテライト不安定性、将来の転移の可能性のある部位、薬物および試験の一致)を含む。様々な実施態様によれば、遺伝子データは、全エクソーム、全遺伝子、遺伝子パネルデータ、SNPアレイの形態であってもよい。様々な実施態様によれば、連続生検マルチオミクスデータは、疾患の進行、薬剤耐性の発生、および再発のモニタリングをモニタリングする目的でインデキシングされても良い。
【0131】
様々な実施態様によれば、インデキシングされたデータは、たとえば、腫瘍と正常の両方、または腫瘍のみの変異体コールフォーマット(VCF)、BAMおよびFASTQの形式にすることができるが、これに限定されない。様々な実施態様によれば、表現型データは、表形式または生の形式(例えば、EHR、臨床ノート、pdfレポート)で提供できる。
【0132】
上述のとおり、本明細書に記載の様々な実施態様によれば、システムおよび方法は、注釈ソースを含めることができ、注釈ソースの例には、FDAラベル、NCCNガイドライン、臨床試験、CIViC、DocM、OncoKB、Mycancergenome、癌治療薬の遺伝子バイオマーカーのデータベース、TCGA、ICGC、COSMIC、NCI60、CCLE、Drugbank、ClinVar、HGMD、PGMD、PharmGKB、dbSNP、dbNSFP、1000Genomes、EXAC、CPDB、CADD、PolyPhen、dbNSFP、その他多数が含まれるが、これらに限定されない。
【0133】
様々な実施態様による、本明細書に記載のシステムおよび方法はさらに複数の情報源から導出および統合することができる薬物標的情報を含むことができる。これらの情報源には、例えば、FDAラベル、NCCN医薬品および生物製剤大要、Thomson Micromedex DrugDex、Elsevier Gold Standardの臨床薬理学大要、American Hospital Formulary Serving-Drug Information Compendium、ESMOガイドライン、ASCOガイドライン、NCCNガイドラインが含まれ、例えば、OncoKB、CIViC、DocM、COSMICなどの他の癌知識データベースで注釈が付けられた突然変異も含まれる。様々な実施態様によれば、薬物標的は、変異体、遺伝子、および経路レベルでインデキシングできる。様々な実施態様によれば、薬物適応症、証拠、癌の種類、報告された副作用、および追加情報を検索索引に格納できる。
【0134】
上述のとおり、本明細書に記載の様々な実施態様によれば、システムおよび方法は、癌分析(または高度な癌分析)、または高度な癌分析を提供するソフトウェアモジュール、またはそれらの使用を含む。ソフトウェアモジュールは、事前に計算された(例えば、索引作成時に計算された)および動的な(例えば、クエリ時に計算された)両方の派生癌分析を提供する。様々な実施態様によれば、高度な分析はまた、クエリ時に視覚化できる。
図3は、個々の試料およびコホートについて動的に事前計算および計算された癌分析の例を示す。高度な分析モジュールは、機械学習モデルと深層学習モデルからの予測を統合して、腫瘍生物学の重要な特性を予測する。
【0135】
様々な実施態様によれば、個々の試料について事前に計算された導出された癌分析には、例えば、腫瘍の突然変異の負担(免疫療法などの治療のための重要なバイオマーカー)が含まれても良いが、これに限定せず、マイクロサテライト不安定性状態(ミスマッチ修復タンパク質が無効になっている重要な癌の状態)、遺伝子変異シグネチャー(癌の潜在的な病因的および機構的基盤)、検出されたneoORF(癌ワクチンに役立つ可能性のある新規アミノ酸配列につながる可能性のあるフレームシフト変異)、検出された新抗原、MHCクラスIおよびクラスII分子に対する新抗原結合親和性、HLA対立遺伝子タイピング(癌ワクチン設計の重要な変数)、発現した免疫遺伝子(例えば、免疫療法治療に応答して役割を果たす遺伝子)、RNA配列確認された変異体、そして差次的に発現する遺伝子も含まれる。
【0136】
様々な実施態様によれば、個々の試料の動的な高度ながん分析には、特定のタイプの変異体(クエリに基づく、たとえば非サイレント変異体)のパスウェイエンリッチメント分析、および空間オミクス系統表現が含まれるが、これに限定されない。様々な実施態様によれば、試料のコホートに対する動的な進行癌分析は、コホートの突然変異の特徴を含むが、これに限定されず、同じ遺伝子内の再発性の体細胞変化を崩壊させ、非サイレント変異体とサイレント変異体の比率、遺伝子複製時間、および癌生物学の他の特性を補正した後の、有意に変異した遺伝子および癌ドライバーの検出、病状の層別化、空間オミクス系統表現、変異体のサブセット(非サイレント変異など)の経路濃縮分析を含む。
【0137】
様々な実施態様によれば、癌分析は、たとえば、腫瘍生物学の重要な特性を予測するための機械学習モデルと深層学習モデル(たとえば、マイクロサテライトの不安定状態の腫瘍のみと腫瘍正常分類子、原因不明の転移性腫瘍の腫瘍起源分類、特定の患者、腫瘍のみの変異体呼び出しのための深層学習と機械学習の方法、新抗原結合予測、さまざまな癌タイプの継承された癌リスク予測のための機械学習モデル、免疫療法の結果予測のための機械学習モデル、変異体を真陽性または偽陽性として分類する、深い変異体、遺伝子、薬物、および疾患の学習方法、文献、EHR、および臨床試験データを処理するための名前付きエンティティ認識、関心のある領域を特定し、構造化されていない組織学および放射線学のスライドやその他の画像データから特徴を抽出するための深層学習方法、深層学習モデル潜在的なembeを学習するため癌のマルチオミクス病状の発病、薬物と試験のマッチングのための深層学習方法。類似の患者を特定するための機械学習モデル。同様の患者の治療からの結果に基づく癌治療のための推奨システム、コホートバイオマーカーの層別化とコホートの病状識別のための機械学習と深層学習の方法)からの予測を統合するように構成できる高度な分析モジュールを介して提供できる。
【0138】
本明細書に記載の様々な実施態様によれば、システムおよび方法は、例えば、表現型データの深層学習埋め込み(たとえば、電子健康記録、臨床および機能記録から学習)、注釈ソース、医学文献または画像データ(組織学スライド、MRI、X線、マンモグラム、超音波、PET画像、CTスキャンなど)を含めることができる。
【0139】
本明細書に記載の様々な実施態様によれば、システムおよび方法は、品質管理に関する統計的閾値を設定し、索引付けされた配列決定品質測定基準の外れ値を識別する高度な癌分析モジュールを含む。関心のある品質管理指標のいくつかの非限定的な例には、腫瘍と正常な一致の品質管理(例えば、親族および同一性の値)が含まれる場合があり、腫瘍および正常なシーケンスメトリック、例えば、潜在的な腫瘍/正常な汚染を反映するFreemix/Conpairメトリック、以下を含むシーケンスメトリック、平均総カバレッジ、読み取りの割合が調整され、重複率、そしてY/X比、および体細胞配列決定の品質管理指標には、dbSNPの変異体の数、dbSNPエンリッチメント、dbSNP挿入削除率、dbSNP遷移/変換比、そして不均一/均一変異体の比率(ヘテロ接合/ホモ接合変異体の比率)が含まれるが、これらに限定されない。
【0140】
様々な実施態様によれば、高度ながん分析(またはそれに関連するモジュール)が提供でき、例えば、突然変異の要約のための動的アルゴリズム、がんドライバーの識別、複数の生検の比較、そして試料のコホートにおける疑わしい(マルチオミック)バイオマーカーに基づくコホートの層別化を提供できる。様々な実施態様において、試料対試料のコホートの比較、ならびに複数のコホートの比較を実施できる。
【0141】
本明細書に記載の様々な実施態様によれば、システムおよび方法は、膨大な量の癌マルチオミクスデータのインデキシングおよび集中化を含む。上記である程度詳細に論じたように、データは、例えば、これらに限定されないが、遺伝子データ(例えば、単一ヌクレオチド変異、腫瘍および正常におけるインデル、構造的再配列、コピー数変異、遺伝子融合、および腫瘍遺伝子の発現変異体)を含み、トランスクリプトームデータ、エピジェネティックデータ、クロマチンアクセシビリティデータ、マイクロバイオミックデータ、プロテオミクスの存在量と局在化データ、医学文献データ(例えば、出版物、治療ガイドライン、臨床試験の包含/除外基準)、表現型データ(例えば、機能的、臨床的、EHR)、イメージングデータ(例えば、組織学スライド、MRI、X線、マンモグラム、超音波、PET画像、CTスキャン)、癌注釈源(例えば、変異体、遺伝子、経路、薬物)、派生癌分析(例えば、腫瘍突然変異)負担、突然変異の特徴、差次的に発現する遺伝子、空間オミクス系統表現、一次起源部位、将来の転移部位、マイクロセートの機械学習モデルからの予測と特徴lliteの不安定性状態、MHCクラスIおよびクラスII分子に対する新抗原結合親和性)を含む。
【0142】
出願人は、派生分析とともに生データにインデキシングすることにより、機械学習および深層学習モデルからの予測とそれらの(派生)機能および埋め込みに、機械学習の解釈可能性の向上、反復的な仮説の生成、およびユーザーによる連続クエリの改良が含まれる可能性があることを有利に見出し、腫瘍生物学をよりよく理解した。
【0143】
様々な実施態様により、そして上述のように、本明細書に開示されるシステムおよび方法は、遺伝子および画像データに関連する癌データ、注釈、医療および臨床データのマルチオミクスインデキシングのためのソフトウェアモジュールを含み得、保存しながらデータをトークン化し、変異体の命名法、遺伝子名、薬剤名、およびトークン化されたデータで索引を更新する。様々な実施態様によれば、マルチオミクスインデキシングのステップは、変異体、遺伝子、経路、癌サブタイプまたは試料のレベルでのマルチオミクス索引の統合および事前結合を含む。
【0144】
癌注釈データに固有であり、様々な実施態様によれば、本明細書に記載のシステムおよび方法は、索引付けステップ(上記を参照)、または癌注釈データのマルチオミクスインデキシングを提供するソフトウェアモジュールを含む。がん注釈データには、FDAラベルとNCCNガイドライン、臨床試験、公的な癌データベース(CIViC、DocM、OncoKB、Mycancergenome、COSMIC、癌治療薬の遺伝子バイオマーカーのデータベース、ICGC、TCGA)、公的な遺伝子データベース(ClinVar、dbNSFP、dbSNP)、商用データソース(HGMD、PGMD、PharmGKB、CPDB)を含むが、これらに限定されない。別の側面では、multiomix-indexingソフトウェアモジュールは、癌に焦点を当てていない注釈ソース(ClinVar、dbNSFP、dbSNP、CPDB、HGMD、PGMD)にもインデキシングする。様々な実施態様によれば、マルチオミクスインデキシングのためのソフトウェアモジュールは、変異体、遺伝子コドン番号、遺伝子、経路、癌サブタイプまたは試料のレベルでマルチオミック注釈データを統合および事前結合するように構成される。
【0145】
様々な実施態様によれば、インデキシングは、複雑な表現型、文献データ、組織病理学、MRI、X線、マンモグラム、超音波、PET画像、CTスキャン画像をインデキシングするために派生コンテンツ埋め込みを利用することをさらに含む。
【0146】
様々な実施態様による、本明細書に記載のシステムおよび方法は、インデキシング中のマルチオミクスデータ統合が最初に試料レベルで、次に変異体、遺伝子コドン番号、遺伝子または経路レベルのいずれかで行われるそれらの任意の組み合わせのインデキシング手順をさらに含み、これを
図2aおよび2bに示す。
【0147】
図2aに示すマルチオミクスインデクシング統合の非限定的な例では、取得されたマルチオミクス癌データは、一塩基多型(SNV)と小さなインデル(染色体番号、染色体位置、参照、代替対立遺伝子-CPRAとして表される)、コピー数多型(CNV)、および RNAで確認された変異体から選択される。SNVは、体細胞VCFを含むSNVと小さなインデルからインデキシングすることができる。染色体領域で呼び出されるコピー数多型(CNV)(例えば、高度な癌分析モジュールを使用して遺伝子レベルでマッピングされる)は、コピー数呼び出しVCFからインデキシングすることができる(CNVも遺伝子レベルでマッピングされる)。RNA-Seqで確認された変異体は、RNA-Seq分析(高度な癌分析モジュールから派生)から取得できる。マルチオミクス索引を結合して、複雑なクエリに答えることができる(例えば、試料のグループのRNAで表される、CNVのゲインとロスをオーバーラップするSNVと小さなインデルを取得する)。差次的に発現される遺伝子は、例えば、高度な分析ソフトウェアモジュールから導き出すことができる。様々な実施態様によれば、結合されたマルチオミクス索引は、例えば、KEYSxCPRA、KEYSxCNV、KEYSxCNV_RANGE、KEYSxCNV_GENE、KEYSxCPRA_RNA、およびKEYSxGENE_RNAなどの選択された索引方法を介して生成され、コピー数変異体および確認されたRNA変異体の索引を作成することができるが、これらに限定されない(
図2aを参照されたい)。出願人は、情報の複数のストリームのクロス索引が、例えば、データのマルチオミクスストリームまたは個々のストリーム自体の任意の組み合わせを照会し、変異体、遺伝子コドン番号、遺伝子、 経路およびその他のレベルも含まれる。
【0148】
図2aの図示の例を参照すると、第1の索引表210は、KEIS試料ID222を有する試料で生じるそれらのCPRA212(染色体214、位置216、参照218、代替対立遺伝子220)に関して、DNAにおける一塩基多型および小さなインデルを説明する。第2の索引テーブル230は、キー試料ID242を有する試料で発生するそれらの範囲232(染色体234、開始236、終了238)に関してコピー数多型(CNV)を説明する。第3の索引テーブル250は、キー試料ID262を有する試料で発生するRNS-Seqに関して、DNA(CPRA)252(第1の索引テーブル210を参照)の変異体を説明する。第4の索引表270は、コピー数多型CNV272を、それらの範囲対一塩基多型およびDNA(CPRA)274における小さなインデルとともに説明する。
【0149】
図2bに示す例を参照すると、CPRAxTEMランキング300が提供され、CPRAレベル310、GENE_CODONレベル312、およびGENEレベル314で集約された注釈(用語)のランキングで構成される。式320は、CPRAのGENE_CODONレベルでランクを計算する方法の例を示す。式322は、CPRAのGENEレベルでランクを計算する方法の例を示す。第5の索引テーブル330は、GENE_CODONマッピング索引テーブルによるCPRAの例を提供する。第6の索引テーブル340は、GENE_CODONレベルの注釈索引テーブルの例を提供する。第7の索引テーブル350は、CPRAレベルの注釈索引テーブルの例を提供する。
【0150】
上述のとおり、本明細書に記載の様々な実施態様によれば、システムおよび方法は、選択された1つ以上のマルチオミクスデータ索引のランキングを提供する。様々な実施態様において、ランク付けは、利用可能な癌マルチオミクスデータの関連するフィルタリングなしで起こり得る。上述のとおり、アクセス可能なデータは、例えば、変異体、遺伝子、経路、RNA配列確認変異体、差次的に発現する遺伝子、高/低メチル化領域、発現タンパク質、コピー数変異体、構造変異体、遺伝子融合、表現型、家族歴、注釈、薬物、臨床試験の包含/除外基準、派生分析(例えば、変異シグネチャーの重み、マイクロサテライト反復遺伝子座、画像データと画像自体から抽出された特徴、文献データとその埋め込み)、および、機械学習モデルの予測とその特徴(例えば、マイクロサテライト不安定状態とマイクロサテライト不安定遺伝子座、予測相対的な重要性の順にこのモデルの主要な特徴として特定された主要な起源および変化、モデルの予測される転移部位および主要な特徴、およびMHCクラスIおよびクラスII分子に対する予測される新抗原結合親和性)を含む。様々な実施態様では、異なるマルチオミクスストリームまたは個々のデータストリームの任意の組み合わせを、ユーザークエリに基づいて返してもよい。
【0151】
例えば、
図2bは、変異体レベルのCPRA x cpraTERM、コドンレベルのCPRA x codonTERM、および遺伝子レベルのCPRA x geneTERM注釈の加重ランキングによって累積された注釈の階層的伝播と変異体のランキング(CPRA)の例を示す。
【0152】
上述のとおり、本明細書に記載の様々な実施態様によれば、システムおよび方法は、複数のがん注釈ソースの統合とランク付けを提供できる。これらの複数のがん注釈ソースには、例えば、FDAラベル、NCCNガイドライン、NCCN大要バイオマーカー、臨床試験、CIViC、DocM、OncoKB、Mycancergenome、癌治療薬の遺伝子バイオマーカーのデータベース、TCGA、ICGC、COSMIC、NCI60、CCLE、DrugBank、ClinVar、HGMD、PGMD、PharmGKB、dbSNP、dbNSFP、1000Genomes、EXAC、CPDB、KEGG、BioCarta、BioCyc、Reactome、GenMAPP、MSigDB、Brenda、CTD、HPRD、GXD、およびBINDが含まれる。
【0153】
様々な実施態様によれば、マルチモーダルランキングエンジン(またはモジュール)には、統合する関連性学習エンジンをさらに含み、例えば、個々の患者とコホートクエリのユースケース設定の両方でマルチオミックデータの臨床的に実用的なランキングを学習するための、十分に特徴付けられたコホート(TCGAなど)の注釈ソース、文献データ、臨床試験の結果、および大幅に変異した遺伝子である。他の実施態様では、学習されたランク付けは、未知の臨床的重要性を有する変化の予測される病原性に基づく。
【0154】
上述のとおり、本明細書に記載の様々な実施態様によれば、システムおよび方法は、臨床的行動可能性、病原性、特徴の重み、または頻度の観点から、癌の遺伝子変化のランク付けを提供できる。様々な実施態様によれば、ランキングモデルは、マルチオミック癌データのために抽出された特徴を秤量することを学習することによって教師あり学習モデルを訓練することによって導出する。変異体(例えば、正確な位置と特定のコドン)または遺伝子(例えば、突然変異の種類が考慮される)の場合、これには、例えば、遺伝子の変異/またはタイプの変化がFDAラベル、NCCNガイドライン、NCCNバイオマーカー大要、ASCOガイドライン、ESMOガイドライン、またはその他の一流のがんガイドラインに関係しているかどうか、および適応症/禁忌があるかどうかの指標特定の薬、例えば、臨床試験、OncoKB、Mycancergenome、CIViC、DocM、および癌治療薬の遺伝子バイオマーカーのデータベースなど、他の癌注釈源からの遺伝子の変異/またはタイプの変化について抽出された特徴、例えば、TCGA、TCGA有意変異遺伝子、COSMIC癌遺伝子センサス、COSMIC、ICGC、Drugbank、Swissprot、dbNSFP、HGMD、PGMD、PharmGKB、ClinVarなどの他の関連する注釈ソースから抽出された機能、HLI、HLIがん、TCGA、COSMIC、ICGC、1000人遺伝子、EXAS、Gnomadからの集団対立遺伝子頻度データ、関連する臨床試験、PubMed、Medline、OMIMの記事、その他の医学文献から抽出されたテキストからの埋め込み、医療テキストから抽出された名前付きエンティティの埋め込みを含む。
【0155】
様々な実施態様によれば、ランク付けは、サポートベクター回帰、ブーストツリーなどであり、例えば、FDA、NCCNガイドライン、NCCNバイオマーカー大要、キュレートされた癌遺伝子、COSMIC、TCGA有意に変異した遺伝子、既知のホットスポット、臨床試験、およびインシリコで予測された機能喪失/獲得スコア(CADD、FATHMM、SIFT、Polyphenなど)のような注釈ソースからの情報に重みを付ける他の機械学習モデルに基づく。
【0156】
様々な実施態様によれば、3つのランク付け学習方法が、ランク付けを導出するために使用される。これらの方法には、ポイントワイズ(ロジスティック回帰など)、ペアワイズ(RankSVM、RankBoostなど)、リストワイズアプローチ(LambdaMart)が含まれる。
【0157】
様々な実施態様によれば、変異体と遺伝子のランキングは、他のドキュメント(医学文献など)のランキングとは別に学習でき、ここで、別のランク付け学習モデルは、例えば、BM25、PageRank、RM3、およびその他のテキストドキュメントのランキングモデル以下を含み、加重変換された機能セットを使用するようにトレーニングされる。
【0158】
様々な実施態様によれば、変異体および遺伝子のランク付けは、別々に、または他の文書タイプのランク付けと一緒にディープおよびワイドモードの一部として学習する。いくつかの実施態様では、テキスト文書のランク付けは、深層学習言語モデリング(LM)を利用して、クエリが与えられた文書の確率によって項目をランク付けする。様々な実施態様によれば、深層学習言語モデルは、関連するデータに微調整されたトランスフォーマーモデル(例えば、BERT、RoBERTa、Xlnet、Albert)であってもよい。このようなモデルは、大規模な、事前にトレーニングされた言語モデルの埋め込みでもよい。様々な実施態様によれば、ドキュメントの関連性は、ドキュメントのテキスト部分と時間部分を使用して生成され、例えば、以下を含む複数のクラスの機能を導出することにより、例えば、エンティティの特徴と時間の特徴は両方とも、名前付きエンティティ認識(NER)と時間的タグ付けの一連の注釈から派生する。
【0159】
様々な実施態様によれば、追加の意味理解を提供するために、ディープラーニング手法(例えば、ディープセマンティック類似性モデル、畳み込みディープセマンティック類似性モデル、反復ディープセマンティック類似性モデル、ディープ関連性マッチングモデル、相互作用シャムネットワーク、字句およびセマンティックマッチングネットワーク、長期短期記憶ネットワーク、トランスフォーマーネットワーク、Word 埋め込みメソッド、DeepRank)は、主にクエリとドキュメントの生のテキストから自動的に学習された機能を使用することによって、ランク付けの学習という機能エンジニアリングタスクに対処するために使用する。そのため、深層学習法では、畳み込み型か反復型かを問わず、様々なタイプのニューラルネットワークを使用する。
【0160】
本明細書の記載の様々な実施態様によれば、システムおよび方法は、ランキングには、癌の変異体と遺伝子の臨床ランキングを含む。ランキングには、ディープラーニングランキングを含み、ここで、深層学習ランキングは、深層意味類似性モデル、深層および広幅モデル、深層言語モデル、学習された深層学習テキスト埋め込み、学習された名前付きエンティティ認識からなるグループから選択された深層学習モデルから導出でき、シャムニューラルネットワーク、およびそれらの組み合わせを含む。
【0161】
図4aは、変異体ランキングを学習するための広くて深いモデルの例を示す。広い部分は、様々な注釈ソースからの外積特徴変換を使用して、まばらな特徴とそれらの相互作用を効果的に記憶し、一方、深い部分は、これまでに見られなかった特徴の相互作用と文献の埋め込みに一般化できる。
【0162】
図4bは、生物医学データのために深い意味的類似性モデル(上記の議論を参照)に依存するランク付け学習エンジンの例を示す。
図4に示される特定の例では、シャムネットワークは、共同クエリとドキュメント埋め込みを学習することにより、クエリ(Q)と関連ドキュメント(D
+)の間の意味的類似性を学習できるようにするために使用される。関連性は、クエリとドキュメントの埋め込みR(Q、D)間のコサイン類似度によって推定される。ネットワークは、ランダムにサンプリングされたネガティブドキュメントD-に対するクロスエントロピー損失を最小限に抑えることができる:
【数1】
【0163】
ランキングモデルがトレーニングされた後、ドキュメントの埋め込みは事前に計算される(例えば、ドキュメント内の単語のすべての単位ベクトルの重心として)。クエリ時に、クエリベクトルの埋め込みは、共同潜在空間におけるクエリ表現とドキュメント表現の類似性を評価する前に生成してもよい。
図4bは例示に過ぎず、参照される特定のクエリおよびドキュメントは、提出されたクエリのタイプおよび分析された文書に決して限定されない。
【0164】
様々な実施態様によれば、グローバルランキングは、臨床的実行可能性(または臨床的有用性が不明な場合の病原性)について最適化され、索引に事前にロードされ得、それにより、結果(例えば、top-Kアルゴリズムに従う)は、特定の情報ニーズをさらに満たす。様々な実施態様によれば、再ランク付けは、言語モデリングまたは標準的な情報検索モデル(例えば、PageRank、BM25、RM3)からの重み付けされた変換された特徴の使用を含んでもよい。
【0165】
様々な実施態様によれば、試料のコホートにおける潜在的なバイオマーカーのランク付けは、最初にマルチオミクスデータストリームの潜在空間表現(例えば、本明細書で論じられるDNAおよびRNAなど)を学習し、次に表現をクラスタリングすることによって達成される。関心のあるサブコホート間の最大のもつれを解く原因となる一連の特徴(例えば、バイオマーカー)を特定する。様々な実施態様によれば、マルチオミクス教師なし深層学習アプローチ(例えば、変分オートエンコーダ)がその目的のために構築される。様々な実施態様によれば、複数のデータストリーム間の周期的損失を利用して、深い生成的敵対的ネットワークが構築される。様々な実施態様によれば、標準的な次元削減技術(例えば、主成分分析、個々の成分分析、多様体学習)を使用して、まばらで広いマルチオミクスデータを意味のある潜在空間に変換される。これらのアプローチは、マルチオミクスバイオマーカーの検出能力を有利に高めることができる。
【0166】
上述のとおり、本明細書に記載のシステムおよび方法は、様々な実施態様に従って、より高いレベルの生物学的階層から学習したランキングを伝播して、より低いレベルの生物学的階層に通知しても良い。例えば、遺伝子レベルのランキングは、様々な癌注釈での変異体の発生に関する情報が利用できない可能性がある変異体レバーランキングに情報を提供する。
【0167】
様々な実施態様によれば、注釈が欠落している変異体のランク付けは、遺伝子および突然変異のタイプのランク付けの集合として構築することができる。例えば、これらの側面を考慮して全体的な関連性を予測する集計関数が学習され、その後、従来のランク付け学習アルゴリズムを適用してランク付けを学習する。
【0168】
様々な実施態様によれば、臨床的に実行可能で病原性のランク付けを索引に事前にロードして、検索の速度を上げでも良い。様々な実施態様によれば、マルチオミクスストリームの特定の組み合わせについて学習されたランキング式は、索引検索時に適用しても良い。
【0169】
上述のとおり、本明細書に記載のシステムおよび方法は、様々な実施態様に従って、特定のユーザークエリに対して返された結果のランキングを含めることができ、これは照会されたマルチオミクスデータストリームの組み合わせに依存してもよく、またユーザークエリに応じて、ユーザーの好みに応じて個々のマルチオミクスデータストリームと組み合わせたマルチオミクスデータストリームの臨床的関連性を考慮に入れて変化させてもよい。
【0170】
様々な実施態様によれば、ランクは、ユーザーによって変更させても良い(例えば、返された結果を昇格または降格させても良い)。様々な実施態様によれば、ランクは、例えば、特定の返された結果に対するクリック率および滞留時間などの、ユーザーからの間接的なフィードバックによって変更しても良い。
【0171】
上述のとおり、本明細書に記載のシステムおよび方法は、様々な実施態様に従って、結果のマルチオミクスランキングを改善するために、ウェブ対話性を介してユーザーフィードバックを収集することを提供する。例えば、変異体、遺伝子、経路、派生分析は、ユーザーのフィードバックに基づいて、返された結果のリストで昇格または降格しても良い。様々な実施態様によれば、追加のキュレーション情報が提供され、索引に保存しても良い。
【0172】
様々な実施態様において、本明細書に記載のシステムおよび方法は、返された結果の関連性に関する明示的なユーザーフィードバックを収集するためのインターフェイス(またはインターフェイスとの相互作用)を提供してもよい(例えば、ユーザーが満足な結果が得られる/宣伝する/保存する/報告のために保存する/ピン留めする/特定の結果をエクスポートするか、ユーザーが不本意な結果となる/降格する/返される結果のリストから結果を削除する)。
【0173】
様々な実施態様において、本明細書に記載されるシステムおよび方法は、検索ログからの暗黙のユーザーフィードバックの収集および分析(例えば、クリック、滞留時間、クエリシーケンス、返された結果の数の分析)を容易にする。
【0174】
様々な実施態様において、共同検索ユーザーインターフェイスが提供され(または相互作用され)、複数のユーザーが(例えば、仮想腫瘍ボード設定において)マルチオミクス癌の変化をランク付けする品質を共同で改善しても良い。
【0175】
上述のとおり、ここで説明するシステムは、様々な実施態様によれば、クエリエンジンを含めることができ、これは、少なくとも1つの受容するように構成してもよく、ユーザーがクエリを実行し、関連するマルチオミクス索引を選択、集約、および要約し、個々の試料および/または癌試料のコホートに対してランク付けされたマルチオミクスの変更されたものを返す。
【0176】
様々な実施態様において、クエリエンジンは、ユーザークエリを受け入れるステートレスサーバーにしても良い(たとえば、HTTP POSTリクエストとして)、そして事前に計算され、事前に結合されたマルチオミクス索引ファイルのコレクションに基づいて、ランク付けされた結果のリスト(たとえば、非同期JSONとして)で応答しても良い。様々な実施態様において、クエリエンジンは、以下の機能のうちの少なくとも1つを実行することができる、それらは、(a)クエリを解析し、ユーザーの意図の分類(例えば、ユーザーは変異体、遺伝子、経路、試料、単一試料データ、コホート試料データ、試料とコホートの比較、コホートとコホートの比較、出版物、画像を必要とするか)、(b)クエリの自動修正の提供(例えば、ログで微調整された自動修正の深層学習モデルの使用)、選択的な同義語拡張と略語拡張の提供、代替クエリの生成(例えば、深層学習の微調整されたトランスフォーマーモデルの使用)、コンテンツベースの提案の提供(例えば、連続するクエリに微調整された言語モデルを使用し、索引付きデータを利用するモデルの利用)、(c)使用する適切なマルチオミクス索引の組み合わせの決定、(e)予測されたクエリの意図との関連性による結果のランク付け(例えば、臨床的関連性と病原性-デフォルトのランク付け、一部のクエリの頻度、他のクエリの相互情報量、特徴の重みなど)、(f)注釈文書と医療の要約文献(例えば、深層学習の要約手法を使用)、および(g)UIからの相互作用/フィードバック信号の処理である。様々な実施態様において、クエリエンジンは、全てのクエリで1秒未満の待ち時間、および数十万の同時ユーザーへのスケーラビリティを可能にしても良い。
【0177】
これらの機能の少なくともいくつかは、
図5aおよび5bの例示的なワークフローに示され、これは、(1)同義語と略語の拡張を生成する、(2)代替(類似)クエリを生成する、(3)コンテンツベースの提案を作成し、クエリのオートコンプリートおよびオートコレクト機能を提供する、(4)ユーザークエリの意図を分類する(例えば、ユーザーは変異体、遺伝子、経路、試料、単一試料データ、コホート試料データ、試料とコホートの比較、コホートとコホートの比較、出版物、画像を必要とするか)、(5)ニューラル情報検索を実行する(例えば、クエリと索引付き文書の共同埋め込みに基づく)、そして、(6)システムUIを介してユーザーに返送できる文書の要約(複数のソースのテキスト要約など)を提供する、として機能するクエリエンジンワークフローを示す。様々な実施態様によれば、トピック固有の用語の埋め込みは、特に上記の(2)において、クエリ拡張のために使用しても良い。様々な実施態様によれば、テキストデータの場合、神経情報検索モデルは、用語空間での一致と潜在空間での一致の両方を考慮しても良い。さらに、例えば、変異体、遺伝子、経路、薬物、および癌の種類の固有表現抽出モデルを統合して、想起を改善しても良い。
図5aおよび5bで参照される特定のクエリ、データ、および要約の記載は、例示に過ぎず、提出されたクエリのタイプ、分析された文書、および作成された要約に決して限定されないことに注意されたい。例えば、
図5aおよび5bを通して示される特定の例示的なワークフローの場合、そのクエリの特定のパラメーターが与えられると、クエリエンジンは、TP53の機能喪失イベントは癌では非常に一般的であると結論付けることができるが、R248変異体は、腫瘍抑制の喪失をもたらすだけではなく、マウスモデルの腫瘍形成を促進する機能獲得型変異としても機能する(注釈ソースCIViCおよび癌治療薬の遺伝子バイオマーカーのデータベース[GDKB]を参照のこと)。
【0178】
上述のとおり、本明細書に記載のシステムおよび方法は、様々な実施態様に従って、生物医学文献および利用可能な医学オントロジー(例えば、GO、UMLS、DO、MeSH、eVOC、HPO、MPO)で訓練された深層学習モデルを使用して、容易にクエリ用語拡張の統合をしても良い。
【0179】
上述のとおり、ここで説明するシステムは、様々な実施態様によれば、神経情報検索モデルの統合を容易にすることができ、文献、画像、および注釈をランク付けするためのより良い意味理解機能を提供することを目的とする。さまざまな実施態様では、単語の分散表現(word2vecによって生成される表現など)を組み合わせて、クエリおよびドキュメントの埋め込みを生成でき、平均埋め込みを使用して、効果的なドキュメント類似性検索を生成する。
【0180】
クエリ固有のランキングを行う効果的な方法の例は、各クエリのランキングスキーマを個別に構築することである。しかしながら、各クエリのトレーニングモデルは、目に見えないクエリのラベル付きデータが不足するという問題がある。しかしながら、様々な実施態様によれば、癌遺伝子改変検索エンジンは、クエリのタイプをグループ化し、極めて臨床的に重要なクエリの特定のサブセット(例えば、臨床的行動可能性と病原性の順序で癌の変化を返すクエリ、臨床的行動可能性の順序で遺伝子を返すクエリ)のランキングを微調整することを可能にしても良い。変異体と遺伝子の臨床的実用性を導き出すために、手でラベル付けされたクエリのコーパスとドキュメントのペアを使用しても良い。様々な実施態様では、結果の適合率と再現率が測定される。
【0181】
様々な実施態様において、トレーニングコーパスセットは、癌分析者によって手動で検査された包括的な癌症例を含んでも良い。
【0182】
様々な実施態様において、手動トレーニングコーパスは、例えば、癌分析者/学芸員によって構築されても良い。アナリスト/キュレーターは、例えば、(1)同じ癌タイプの十分に特徴付けられたコホート(例えば、TCGA、ICGC、内部コホート)内で有意に変異している遺伝子の変化(>0.02pまたはMutSigCVからの値q)、(2)有意に変異した遺伝子のランク、(3)検出された突然変異が十分に特徴付けられたコホートと同じタイプである場合(例えば、ミスセンス、インデル、ナンセンス)、(4)突然変異がミスセンスである場合、それがホットスポットで発生するかどうか、(5)この突然変異を有する十分に特徴付けられたコホートからの患者の数、そして、(6)場合によっては、突然変異、位置、構造、および突然変異を有する患者の癌の種類のさらなる検査が行われるかを調べることができる。
【0183】
上述のとおり、本明細書に記載のシステムおよび方法、様々な実施態様によれば、(多くの異なるエントリポイントとは対照的に)ユニバーサル検索インターフェイスを提供しても良い。様々な実施態様において、全ての知識は、それがそうであるかどうかにかかわらず、例えば、マルチオミクス癌データ、試料、変異体、遺伝子、薬物、経路、表現型、医学文献、画像データ、派生癌分析、腫瘍の特徴とその特徴を予測するための機械学習モデル、ユーザーデータのアップロードなど。同じシンプルな検索インターフェイスからアクセスしても良い。
【0184】
上述のとおり、本明細書に記載のシステムおよび方法、様々な実施態様によれば、個々の試料または試料のコホートのいずれかを扱う臨床医または研究者のために、重要な実行可能で重要な癌の変化、派生した癌分析、および品質管理メトリックのチェックリスト/ターミナルを提供しても良い。
【0185】
様々な実施態様による、本明細書に記載のシステムおよび方法は、ACMGガイドラインに従って報告された重要な癌および遺伝性の癌変異体を提供しても良い。
【0186】
本明細書に記載のシステムおよび方法は、様々な実施態様によれば、動的にハイパーリンクされた個々の患者とコホートのレポートを提供できる。レポートの項目の少なくとも一部がマルチモーダル癌検索クエリにハイパーリンクされる場合、癌の変化がランク付けされる。様々な実施態様において、ハイパーリンクされたレポートコンテンツは、ユーザーがレポート目的のために作成および保存するクエリに基づいて動的に生成しても良い。
【0187】
本明細書に記載のシステムおよび方法は、様々な実施態様によれば、統合されたマルチオミクス結果、視覚化、画像、医学文献、高度な癌分析、およびあらゆるレベルの癌バイオインフォマティクスパイプラインからのデータの少なくとも1つを含んでも良い(例えば、シーケンスカバレッジ、タイプのベースペアの変更の割合、シーケンス読み取りの視覚化レポート用に保存されたユーザークエリによって生成された動的レポートで、個々の変異体をサポートする。
【0188】
本明細書に記載のシステムおよび方法は、様々な実施態様によれば、二要素認証とアクセス制御レイヤーを備えたWebサービスとして実行してもよく、全てのクライアントがアクセスを許可された試料にのみアクセスでき、独立したデータセット間で分析が実行されないようにするため、アクセスは様々なエンティティによって制御される。
【0189】
様々な実施態様において、クエリは自然言語の用語で構成でき(これは概念的に任意である可能性がある)、特別な演算子と組み合わせても良い。様々な実施態様において、クエリは、音声からテキストへのモデルを含んでも良い。様々な実施態様において、特別な演算子は、ユーザーが特定の情報(例えば、特定のクライアント)を明確に参照すること、または特定の制約を課すこと(例えば、結果として遺伝子または経路のみを提供すること)を可能にしても良い。様々な実施態様において、演算子には、例えば、プラス記号、マイナス記号、等号、アンパサンド、アスタリスク、引用符、括弧、角かっこ、中括弧、バックスラッシュ、スラッシュ、コロン、セミ コロン、ハッシュ記号(#)、アット記号(@)、ティルデ記号(~)、等号(=)、大括弧(>)、小記号(<)、およびAND、OR、NOT、EXCEPTという用語を含んでも良い。様々な実施形態において、クエリは、特別な演算子と組み合わされた自然言語用語からなる。様々な実施態様において、特別な演算子は、ユーザーが特定の情報を明確に参照することを可能にしても良い。
【0190】
図6は、ユーザーが異なるクエリを入力し、ランク付けされた結果を受け取ることを可能にする単一の検索ボックス610を備えたユーザーインターフェイス600の例を示す。各変異体は、例えば、変異体の品質管理、変異体メトリック、母集団データベースと比較した対立遺伝子頻度、治療薬の注釈、癌データベースおよび注釈ソースとの比較、変異と周囲のシーケンスを表示する機能などの豊富なデータとともに表示しても良く、統合された遺伝子変異体ブラウザ(IGV)を使用して読み取り、UCSC遺伝子ブラウザで変異体を探索しても良い。
【0191】
UI600のセクション620を使用して、ユーザーは変異体呼び出しの場所と品質を調べることができる。染色体、位置、および変異体は、参照とは異なる色で強調表示された変異塩基とともにリストできる。UCSCリンクを使用して、ユーザーは遺伝子ブラウザで変異体を表示できる(変異体の詳細な調査が可能となる)。実際のシーケンスリードは、IGVリンクを使用して視覚化でき、これにより、ユーザーは、例えば、変異体呼び出しの信頼性を判断し、変異体が乱雑な領域で発生するかどうか、またはシーケンスアーティファクトが原因で呼び出しの信頼性が低いかどうかを確認することが可能となる。
【0192】
UI600のセクション630には、遺伝子レベルの情報が記載される。遺伝子名が一覧表示され、クリックすると、遺伝子の概要、TCGAデータ内のその変異体の頻度など、変異体に関する詳細情報に進むことができる。そのため、ユーザーは、その変異体が見つかったかどうか、同じ頻度および他の種類の腫瘍で調査できる。その変異体の臨床試験およびその他の関連する臨床情報を表示できる。HGVSタブには、タンパク質レベルの変異体が表示される。Ensemblタブには、タンパク質のマッピングに使用される転写産物が表示され、dbSNPrsIDも一覧表示される。変異体は、健康な集団に見られる頻度と比較することができる(
図6の「HLI健康な対立遺伝子頻度」参照のこと)。PubMedタブは、PubMedの科学文献のその変種に関する関連論文にリンクする。
【0193】
UI600のセクション640を使用して、ユーザーは変異体呼び出しの品質管理を実行できる。RNA-Seqも実行された場合は、RNA-Seq対立遺伝子画分が表示される。腫瘍と正常な対立遺伝子の派閥および読み取り深度により、ユーザーは通話の質を判断し、正常な血液に変異の証拠があるかどうかを判断できる。
【0194】
UI600のボックス650は、可能であれば、臨床情報を提供する。
【0195】
様々な実施態様において、本明細書に記載されるシステムは、ユーザーがユーザークエリを入力すること、またはその使用を可能にするインターフェイスを含んでも良い。様々な実施態様において、本明細書に記載される方法は、インターフェイスを介したユーザークエリの入力、またはその使用を提供しても良い。上述のとおり、様々な実施態様において、ユーザークエリは、音声によるものであっても良い。様々な実施態様において、ユーザークエリには、例えば、患者/個人ID番号、コホート名/ID番号、特定の遺伝子名または遺伝子記号、特定の注釈源、変異体、および/または表現型を含む。様々な実施態様において、入力は、出力をシーケンスに制限またはフィルタリングするチェックボックスまたはクリック可能なボタンであっても良く、例えば、変異体、遺伝子、表現型データ、マルチオミクスデータストリームの特定の組み合わせ、そして統計的に有意な変異、遺伝子、経路である。様々な実施態様において、結果は、ソート可能であるか、適切な場合にお気に入りとして指定されるか、または別のプログラムにエクスポートされるか、または動的に生成されたレポートにエクスポートされても良い。様々な実施態様において、個々の検索語は組み合わせても良い。様々な実施態様では、個人(またはユーザー)は、追加のユーザークエリまたはフィルタリングを使用して、特定の結果セット内で追加情報を検索しても良い。表1は、必要な情報の例、ユーザー入力の例、および出力の例の網羅的ではないリストを例示する。表1は、ユーザーが展開できるクエリの排他的または網羅的なリストではない。
【表1】
【0196】
表1の図へのすべての参照はガイダンスのみを目的としており、ユーザーが希望する情報のタイプに関連する相対的なユーザー入力および出力例に限定するものではないことに注意されたい。例えば、
図7は、様々な実施態様による、特定の構文(“fda+nccn@PatientSeqID”)で得られた検索結果の例を示す。
【0197】
さらに、例えば、
図8aおよび8bは、様々な実施態様による特定の構文(“@PatientSeqID afrac>0.05tmb”)で得られた検索結果の例を示す。
図8bは、特に、この特定の例における腫瘍の全体的な腫瘍突然変異負荷に寄与する非サイレント突然変異の1つの表示を示す。さらに詳細には、
図8aおよび8bは、特定の上記参照構文で得られた検索結果の一例を示し、ユーザーが、対立遺伝子の割合が5%を超える突然変異のみをカウントする腫瘍突然変異負担値を希望する場合である。次に、腫瘍変異の負担を、コホートごとにグループ化されたCancer GenomeAtlas腫瘍変異値の背景に表示しても良い。腫瘍試料に見られる非サイレント変異のタイプの数は、図解された円グラフにも表示できる(
図8b参照のこと)。この表示により、ユーザーは、潜在的な癌のサブタイプ、潜在的なシーケンスの問題、および腫瘍の突然変異負荷値の背後にあるものの全体的な評価をすばやく評価できる。図の円グラフの中央の領域には、非サイレント変異の総数が表示される。非サイレント変異の総数は、特定された非サイレント変異のタイプにさらに分類され、さらに、円グラフの中央領域の外側を参照する(円グラフに隣接して表示される凡例)。多くの癌(この例で見られるように)では、ミスセンス変異が最も頻繁に起こる可能性がある。マイクロサテライトの不安定なフレームシフト変異が変異の大部分を占める場合、円グラフ表示機能により、そのパラメーターをすばやく調べることができる。様々なシーケンシングアーティファクトにより、その癌では通常見られない変異タイプの割合が高くなる可能性もある。円グラフ表示機能を使用して、腫瘍変異負荷の臨床的関連性を判断しても良い。一部の免疫療法剤は、主にフレームシフト変異または他の特定の変異タイプで構成される腫瘍に最適に機能する。そのため、円グラフ表示機能により、ユーザーはこれらの可能性をすばやく評価できる。チャートの下に、インターフェイスは、対立遺伝子の割合が5%を超えるすべての非サイレント変異体のランク付けされたリストを生成する(
図8bは、スペース不足による単一のヒットを表示する)。
【0198】
さらに、例えば、
図9は、様々な実施態様によるユーザークエリから返される検索結果の例を示す。特に、
図9は、特定の構文「@PatientSeqIDmutsig」で得られた検索結果の非限定的な例を示す。突然変異の特徴は、全ての遺伝子にわたって腫瘍で発生する塩基対の変化の全体的なパターンである。全体的な突然変異誘発パターンに到達するために、文脈における全ての塩基対の変化を数えることによって、突然変異の特徴を導き出しても良い。突然変異シグネチャーの簡単に使用できる定義は、https://cancer.sanger.ac.uk/cosmic/signaturesにある。突然変異の特徴の特定は、治療を導き、腫瘍の根本的な原因を説明するのに役立ち、重要性が不明な変異を解決するのに役立つ。したがって、腫瘍の全体的な特徴を分析するには、変異の特徴が重要となる。
【0199】
図9のセクションAは、突然変異を取り巻く塩基対の文脈における塩基対置換タイプのタイプ(すなわち、C>A、C>G、C>T、T>A、T>C、T>G)のXYチャートを表示する(すなわち、3bp、X軸に表示)。各変異タイプの頻度はY軸にプロットされる。この例の場合、グラフはCOSMICで識別されたシグネチャーと比較され、腫瘍の全体的な変異シグネチャーに到達する。
【0200】
セクションBは、円グラフ上に、腫瘍で見つかった全体的な突然変異の兆候のパーセンテージを表示す。この表示により、ユーザーは、識別されたマイナーなシグネチャーとともに、腫瘍のメジャーなシグネチャーを判別できる。この例では、黒色腫腫瘍から表示される主要なシグネチャーはS7であり、これは文献と一致する。表示された変異シグネチャーがその癌の種類で予期されない場合、ユーザーはさらに調査を行っても良い。
【0201】
突然変異の特徴は、臨床的決定を導く際の助けともなる。例えば、乳がんと卵巣がんのBRCA1/2変異について考える。PARP阻害剤は、乳がんおよび卵巣がんのBRCA1/2変異症例に使用できる。COSMICシグネチャー3は、BRCAまたは経路遺伝子の欠損によって特徴付けられ、これにより、腫瘍のシグネチャー3を特定することは、同定された突然変異がない場合でもBRCA変異プロセスを示す。腫瘍に未知の重要性のBRCA変異が含まれる場合、シグネチャー3の存在を分析することで、変異が機能しているかどうかを判断するのに役立つ。いずれの場合も、PARP阻害剤の潜在的な利点を調べても良い。
【0202】
ここでアクセス可能な別の関数は、96個のトリプレットのそれぞれの再構成の重みである(図示せず)。
【0203】
さらに、例えば、様々な実施態様により、
図10は、ユーザークエリから返される検索結果の例を示す。特に、
図10は、特定の構文「cohort:CohortID tmb」で得られた検索結果の非限定的な例を示す。この場合の注意点は、コホートにおける腫瘍の突然変異の負担を特定することである可能性がある。コホート内(それに関連する数値TMB値が関連付けられている円)の各腫瘍の腫瘍変異負荷(TMB、突然変異/mb)は、Cancer GenomeAtlas(プロット上の円の残りと大部分、関連するTMB値は参照されない)によって同じ癌タイプ(この場合は膵臓癌-PAAD)の腫瘍のTMBと比較できる。TMBはY軸で表され、これにより、ユーザーは、コホートで特定されたTMBがその癌に関する事前の知識と一致しているかどうかを確認できる。PAADのTCGA中央値は、ボックスの中央に水平線として表示される。箱ひげ図を使用した表現により、ユーザーは、コホート試料がTCGAで見つかった平均または外れ値の範囲内にプロットされているかどうかを確認できる。
【0204】
図10を参照すると、コホートTMBチャート500がY軸512にTMB510を表示し提供される。コホート内の各腫瘍の腫瘍突然変異負荷(TMB、突然変異/mb)は、それに関連する数値TMB値522を有する最初の点520である。これらの値は、2番目のポイント530で表されるCancer Genome Atlasによって、同じ癌タイプ(この場合は膵臓癌-PAAD)の腫瘍のTMBと比較されるが、TMB値は関連付けられず、それは本例では、キャプチャされたポイントの大部分を構成する。
【0205】
さらに、例えば、様々な実施態様により、
図11は、ユーザークエリから返される検索結果の例を示す。特に、
図11は、特定のコホートのCancer Gene Censusパネルで非サイレント変異を要約するように求め、ユーザークエリ「cohort:CohortID panel:cgc nonsilent」に応答して、試料のコホートで調べた複数の遺伝子変化と臨床情報の統合された要約を表示する。事実上、この場合のクエリは、特定のコホートの試料が同じ数とタイプの突然変異を持っているかどうかを識別することである。各腫瘍試料を列に表示し、各遺伝子を行に表示し、利用可能な臨床情報を表に追加できる。プロットは、表示された臨床パラメーターのいずれかによって階層化できる。プロットは、最初にコホート内で最も頻繁に変異した癌遺伝子によってソートでき(図参照のこと)、遺伝子レベルの頻度が表示される。突然変異のタイプ(例えば、ミスセンス、ナンセンス、フレームシフト)は、異なるボックスの色を使用して変異体のタイプによって識別できる(
図11のセクションB参照のこと)。図示した例では、ドライバー遺伝子(NRAS)は予想通りミスセンス変異である。各試料の総変異数も表示でき、ユーザーはその情報を使用してプロットを並べ替えることができる。表示機能を使用すると、ユーザーはコホートの詳細な分析を実行できるだけでなく、個々の試料の特定の変更を特定できる。このプロットでは、突然変異の共起または相互排他性を確認できる。個々の変異は、チャートの下にリストされる(図示せず)。
【0206】
図11に示される場合において、セクションAは、左端の試料に最も多くの変異があることを示す。突然変異のタイプは、このコホート間でかなり一貫する。ある場合には、フレームシフト型の変異が多く、変異数が非常に多い試料が観察される場合がある。この観察は、試料がマイクロサテライト不安定であるか、またはアーティファクトがあるかどうかを決定するために、より多くの調査を保証する可能性がある。さらに、左から3番目の試料には、残りの試料のようなNRAS変異がない。ただし、突然変異の数と種類は他のコホートとは異なる。この観察は、この違いが人為的であるか生物学的であるかを決定するために、より徹底的な調査が必要となる可能性がある。セクションCは、臨床データを使用して並べ替えることができる突然変異テーブルプロットを示す。
【0207】
さらに、例えば、様々な実施態様により、
図12は、ユーザークエリから返される検索結果の例を示す。特に、
図12は、特定の構文「コホート:レスポンダーコホート:非レスポンダーegfr」で得られた検索結果の非限定的な例を示す。ここで、ユーザーは、レスポンダーとノンレスポンダーの2つのサブコホートでEGFR遺伝子の変異を比較したいと考える。ランク付けされた個々の突然変異を以下にリストすることがでる(図示せず)。この例では、セクションAは、2つのコホート(コホート応答者とコホート非応答者)における生殖細胞変異/体細胞変異のEGFR遺伝子レベルの概略図を提供する。セクションBは、3Dタンパク質構造を提供する。2つのコホートの薬物(ゲフィチニブ)結合部位の近くに集まったホットスポット変異の影響を受ける位置を強調する。
【0208】
図13は、コンピュータシステム1000を示すブロック図であり、どの実施態様において、または実施態様の一部、現在の教えのいくつかが実行されるかもしれない。本教示の様々な実施形態において、コンピュータシステム1000は、情報を通信するためのバス1002または他の通信メカニズムを含むことができる。情報を処理するためにバス1002と結合されたプロセッサ1004。様々な実施形態では、コンピュータシステム1000はまた、プロセッサ1004によって実行される命令を決定するためにバス1002に結合されたランダムアクセスメモリ(RAM)または他の動的記憶装置であり得るメモリ1006を含むことができる。メモリ1006はまた、プロセッサ1004によって実行される命令の実行中に一時変数または他の中間情報を格納するために使用することができる。様々な実施形態では、コンピュータシステム1000は、静的情報およびプロセッサ1004の命令を記憶するために、バス1002に結合された読み取り専用メモリ(ROM)1008または他の静的記憶装置をさらに含むことができる。磁気ディスクまたは光ディスクなどの記憶装置1010を提供し、情報および命令を記憶するためにバス1002に結合することができる。
【0209】
様々な実施態様において、コンピュータシステム1000は、バス1002を介してディスプレイ1012、コンピュータユーザーに情報を表示するためのブラウン管(CRT)や液晶ディスプレイ(LCD)などに結合しても良い。入力装置1014、英数字およびその他のキーを含む、情報およびコマンド選択をプロセッサ1004に通信するためにバス1002に結合しても良い。他のタイプのユーザー入力装置は、カーソル制御1016であり、方向情報を伝達するためのマウス、トラックボール、カーソル方向キーなど、および、プロセッサ1004へのコマンド選択、および、ディスプレイ1012のカーソル移動を制御する。この入力装置1014は、通常、2つの軸、すなわち、第1の軸(すなわち、x)および第2の軸(すなわち、y)において2つの自由度を有し、これにより、装置は、平面内の位置を指定する。しかしながら、3次元(x、y、およびz)カーソル移動を可能にする入力装置1014もまた、本明細書で企図されることを理解されたい。ディスプレイおよび入力装置(または本明細書でも使用されるインターフェイス)は、本明細書で論じられる能力を超える機能に関して、本明細書でより詳細に論じられる。
【0210】
現在の教えの特定の実装と一致して、結果は、メモリ1006に含まれる1つまたは複数の命令の1つまたは複数のシーケンスを実行するプロセッサ1004に応答して、コンピュータシステム1000によって提供する。そのような命令は、別のコンピュータ可読媒体または記憶装置1010などのコンピュータ可読記憶媒体からメモリ1006に読み込んでも良い。メモリ1006に含まれる命令のシーケンスの実行は、プロセッサ1004に本明細書に記載のプロセスを実行させても良い。あるいは、ハードワイヤード回路をソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて使用して、本教示を実施しても良い。したがって、本教示の実施は、ハードウェア回路とソフトウェアの特定の組み合わせに限定されない。
【0211】
本明細書で使用される「コンピュータ可読媒体」(例えば、データストア、データストレージなど)または「コンピュータ可読記憶媒体」という用語は、および、実行のためにプロセッサ1004に命令を提供することに参加する任意のメディアを指すことを以下でより詳細に説明する。そのような媒体は、不揮発性媒体、揮発性媒体、および伝達媒体を含むがこれらに限定されない多くの形態をとっても良い。不揮発性媒体の例には、記憶装置1010などの光学的、固体状態、磁気ディスクが含まれ得るが、これらに限定されない。揮発性媒体の例には、メモリ1006などの動的メモリが含まれ得るが、これらに限定されない。伝送媒体の例には、同軸ケーブル、銅線、およびバス1002を構成する線を含む光ファイバーが含まれ得るが、これらに限定されない。
【0212】
コンピュータで読み取り可能なメディアの一般的な形式には、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、またはその他の磁気媒体、CD-ROM、その他の光学媒体、パンチカード、紙テープ、穴のパターンを持つその他の物理媒体、RAM、PROM、EPROM、FLASH-EPROM、その他のメモリチップまたはカートリッジ、またはコンピュータが読み取ることができるその他の有形の媒体などがある。メディアに関するさらなる議論は以下に提供される。
【0213】
コンピュータ可読媒体に加えて、命令またはデータは、実行のためにコンピュータシステム1000のプロセッサ1004に1つまたは複数の命令のシーケンスを提供するために、通信装置またはシステムに含まれる伝送媒体上の信号として提供されても良い。例えば、通信装置は、命令およびデータを示す信号を有するトランシーバを含んでもよい。命令およびデータは、1つまたは複数のプロセッサに、本明細書の開示に概説される機能を実装させるように構成される。データ通信伝送接続の代表的な例には、電話モデム接続、ワイドエリアネットワーク(WAN)、ローカルエリアネットワーク(LAN)、赤外線データ接続、NFC接続などが含まれるが、これらに限定されない。データ通信の詳細については、以下で説明する。
【0214】
フローチャート、図、および付随する開示を含む本明細書に記載の方法論は、コンピュータシステム1000をスタンドアロン装置として、またはクラウドコンピューティングネットワークなどの共有コンピュータ処理リソースの分散ネットワーク上で実装できることを理解されたい。
【0215】
特定の実施態様では、本明細書に記載の方法を実行または実行するための非一時的な機械可読命令を記憶するために、機械可読記憶装置が提供されることをさらに理解されたい。機械可読命令は、本明細書に記載のシステムおよび方法のすべての側面を制御しても良い。さらに、機械可読命令は、最初にメモリモジュールにロードするか、クラウドまたはAPIを介してアクセスしても良い。
【0216】
様々な実施態様において、本明細書に記載されるシステムおよび方法は、デジタル処理装置、またはその使用を含んでも良い。様々な実施態様では、デジタル処理装置は、装置の機能を実行する1つまたは複数のハードウェア中央処理装置(CPU)または汎用グラフィックス処理装置(GPGPU)を含んでも良い。様々な実施態様では、デジタル処理装置は、実行可能命令を実行するように構成されたオペレーティングシステムをさらに備える。様々な実施態様において、デジタル処理装置は、任意選択でコンピュータネットワークに接続しても良い。様々な実施態様では、デジタル処理装置は、ワールドワイドウェブにアクセスするように、オプションでインターネットに接続しても良い。様々な実施態様において、デジタル処理装置は、オプションで、クラウドコンピューティングインフラストラクチャに接続しても良い。様々な実施態様において、デジタル処理装置は、任意選択でイントラネットに接続しても良い。様々な実施態様において、デジタル処理装置は、任意選択でデータ記憶装置に接続しても良い。
【0217】
様々な実施態様によれば、適切なデジタル処理装置は、非限定的な例として、サーバーコンピューター、デスクトップコンピューター、ラップトップコンピューター、ノートブックコンピューター、サブノートブックコンピューター、ネットブックコンピューター、ネットパッドコンピューター、ハンドヘルドコンピューター、インターネットアプライアンス、モバイルスマートフォン、タブレットコンピューター、およびパーソナルデジタルアシスタントなどがある。当業者には、多くのスマートフォンが本明細書に記載のシステムでの使用に適していることを認識されたい。当業者はまた、選択されたテレビ、ビデオプレーヤー、およびオプションのコンピュータネットワーク接続を備えたデジタル音楽プレーヤーが、本明細書に記載のシステムでの使用に適することを認識されたい。適切なタブレットコンピューターには、当業者に知られており、小冊子、スレート、およびコンバーチブル構成を備えたものを含む。
【0218】
様々な実施態様では、デジタル処理装置は、実行可能命令を実行するように構成されたオペレーティングシステムを含む。オペレーティングシステムは、例えば、装置のハードウェアを管理し、アプリケーションを実行するためのサービスを提供し、プログラムやデータを含むソフトウェアにすることができる。当業者は、例として、FreeBSD、OpenBSD、Net BSD、Linux、Apple(登録商標)MacOSXServer(登録商標)、Oracle(登録商標)Solaris(登録商標)、WindowsServer(登録商標)、およびNovell(登録商標)NetWare(登録商標)などを含み適切なサーバーオペレーティングシステムに限定されない。当業者は、非限定的な例として、Microsoft(登録商標)Windows(登録商標)、Apple(登録商標)MacOSX(登録商標)、UNIX(登録商標)、およびGNU/Linux(登録商標)などのUNIXのようなオペレーティングシステムなどを含み、適切なパーソナルコンピュータのオペレーティングシステムには含まれることを認識されたい。様々な実施態様において、オペレーティングシステムは、クラウドコンピューティングによって提供される。当業者はまた、非限定的な例として、Nokia(登録商標)Symbian(登録商標)OS、Apple(登録商標)iOS(登録商標)、ResearchInMotion(登録商標)BlackBerryOS(登録商標)、Google(登録商標)Android(登録商標)、Microsoft(登録商標)WindowsPhone(登録商標)OS、Microsoft(登録商標)WindowsMobile(登録商標)OS、Linux(登録商標)、およびPalm(登録商標)WebOS(登録商標)などを含み、適切な携帯電話のオペレーティングシステムには含まれることを認識されたい。
【0219】
様々な実施態様では、装置は、ストレージおよび/またはメモリ装置を含む。ストレージおよび/またはメモリ装置は、一時的または永続的にデータまたはプログラムを格納するために使用される1つまたは複数の物理的装置である。様々な実施態様では、装置は揮発性メモリであり、記憶された情報を維持するために電力を必要とする。様々な実施態様では、装置は不揮発性メモリであり、デジタル処理装置に電力が供給されないとき、格納された情報を保持する。様々な実施態様において、不揮発性メモリはフラッシュメモリを含む。いくつかの実施形態では、不揮発性メモリは、ダイナミックランダムアクセスメモリ(DRAM)を含む。様々な実施態様において、不揮発性メモリは、強誘電体ランダムアクセスメモリ(FRAM)を含む。様々な実施態様において、不揮発性メモリは、相変化ランダムアクセスメモリ(PRAM)を含む。様々な実施態様では、装置は、非限定的な例として、CD-ROM、DVD、フラッシュメモリ装置、磁気ディスクドライブ、磁気テープドライブ、光ディスクドライブ、およびクラウドコンピューティングベースのストレージを含むストレージ装置である。様々な実施態様では、ストレージおよび/またはメモリ装置は、本明細書に開示されるような装置の組み合わせである。
【0220】
様々な実施態様では、デジタル処理装置は、視覚情報をユーザーに送信するためのディスプレイを含む。様々な実施態様では、ディスプレイはブラウン管(CRT)である。様々な実施態様において、ディスプレイは、液晶ディスプレイ(LDC)である。様々な実施態様において、ディスプレイは、薄膜トランジスタ液晶ディスプレイ(TFT-LDC)である。様々な実施態様において、ディスプレイは、有機発光ダイオード(OLED)ディスプレイである。様々な実施態様において、OLEDディスプレイ上には、パッシブマトリックスOLED(PMOLED)またはアクティブマトリックスOLED(AMOLED)ディスプレイがある。様々な実施態様において、ディスプレイはプラズマディスプレイである。様々な実施態様において、ディスプレイはビデオプロジェクターである。様々な実施態様において、ディスプレイは、本明細書に開示されるものなどのデバイスの組み合わせである。
【0221】
様々な実施態様では、デジタル処理装置は、ユーザーから情報を受信するための入力装置を含む。様々な実施態様では、入力装置はキーボードである。様々な実施態様では、入力装置は、非限定的な例として、マウス、トラックボール、トラックパッド、ジョイスティック、ゲームコントローラ、またはスタイラスを含むポインティングデバイスである。様々な実施態様では、入力装置は、タッチスクリーンまたはマルチタッチスクリーンである。様々な実施態様では、入力装置は、音声または他の音声入力をキャプチャするためのマイクロフォンである。様々な実施態様では、入力装置は、動きまたは視覚入力をキャプチャするためのビデオカメラまたは他のセンサーである。様々な実施態様では、入力装置は、Kinect、Leapモーションなどである。様々な実施態様において、入力装置は、本明細書に開示されるものなどのデバイスの組み合わせである。
【0222】
様々な実施態様において、本明細書に開示されるシステムは、任意選択でネットワーク化されたデジタル処理装置のオペレーティングシステムによって実行可能な命令を含むプログラムで符号化された1つ以上の非一時的なコンピュータ可読記憶媒体を含んでもよく、そして本明細書の方法は実行されても良い。様々な実施態様において、コンピュータ可読記憶媒体は、デジタル処理装置の有形の構成要素である。様々な実施装置において、コンピュータ可読記憶媒体は、任意選択で、デジタル処理装置から取り外し可能である。様々な実施態様において、コンピュータ可読記憶媒体は、非限定的な例として、CD-ROM、DVD、フラッシュメモリデバイス、ソリッドステートメモリ、磁気ディスクドライブ、磁気テープドライブ、光ディスクドライブ、クラウドコンピューティングシステムおよびサービスなどを含む。様々な実施態様において、プログラムおよび命令は、永久的、実質的に永久的、半永久的、または非一時的にメディア上に符号化される。
【0223】
様々な実施態様において、本明細書に開示されるシステムおよび方法は、少なくとも1つのコンピュータプログラムを含むか、または少なくとも1つのコンピュータプログラムを使用しても良い。コンピュータプログラムには、指定されたタスクを実行するために記述された、デジタル処理デバイスのCPUで実行可能な一連の命令が含んでも良い。コンピュータ可読命令は、特定のタスクを実行するか、または特定の抽象データ型を実装する、関数、オブジェクト、アプリケーションプログラミングインターフェース(APis)、データ構造などのようなプログラムモジュールとして実装されても良い。当業者には、コンピュータプログラムが様々な言語の様々なバージョンで書かれ得ることを認識されたい。
【0224】
コンピュータ可読命令の機能は、様々な環境で必要に応じて組み合わせたり、分散させたりしても良い。様々な実施態様において、コンピュータプログラムは、命令の1つのシーケンスを含む。様々な実施態様では、コンピュータプログラムは、複数の命令シーケンスを含む。様々な実施態様において、コンピュータプログラムは、1つの場所から提供される。様々な実施態様において、コンピュータプログラムは、複数の場所から提供される。様々な実施態様では、コンピュータプログラムは、1つまたは複数のソフトウェアモジュールを含む。様々な実施態様において、コンピュータプログラムは、部分的または全体的に、1つ以上のウェブアプリケーション、1つ以上のモバイルアプリケーション、1つ以上のスタンドアロンアプリケーション、1つ以上のウェブブラウザプラグイン、拡張機能、アドイン、またはアドオン、またはそれらの組み合わせを含む。
【0225】
様々な実施態様において、コンピュータプログラムには、Webアプリケーションが含まれる。当業者には、ウェブアプリケーションが、様々な実施形態において、1つまたは複数のソフトウェアフレームワークおよび1つまたは複数のデータベースシステムを利用することを、認識されたい。様々な実施態様において、Webアプリケーションは、Microsoft(登録商標).NETやRuby on Rails(RoR)などのソフトウェアフレームワーク上に作成される。様々な実施態様では、ウェブアプリケーションは、非限定的な例として、リレーショナル、非リレーショナル、オブジェクト指向、連想(associative)、そしてXMLデータベースシステムを含む1つまたは複数のデータベースシステムを利用する。様々な実施態様において、適切なリレーショナルデータベースシステムは、非限定的な例として、Microsoft(登録商標)SQLServer、mySQL(商標)、およびOracle(登録商標)を含む。当業者には、様々な実施形態において、ウェブアプリケーションが1つまたは複数の言語の1つまたは複数のバージョンで書かれることをも認識されたい。Webアプリケーションは、1つ以上のマークアップ言語、プレゼンテーション定義言語、クライアント側スクリプト言語、サーバー側コーディング言語、データベースクエリ言語、またはそれらの組み合わせで記述できる。様々な実施態様において、ウェブアプリケーションは、ハイパーテキストマークアップ言語(HTML)、拡張可能ハイパーテキストマークアップ言語(XHTML)、または拡張可能マークアップ言語(XML)などのマークアップ言語である程度書かれる。様々な実施態様において、ウェブアプリケーションは、カスケードスタイルシート(CSS)などのプレゼンテーション定義言語である程度書かれる。さまざまな実施態様では、ウェブアプリケーションは、非同期JavascriptおよびXML(AJAX)、Flash(登録商標)Actionscript、Javascript、またはSilverlight(登録商標)などのクライアント側スクリプト言語である程度記述される。様々な実施態様において、ウェブアプリケーションは、ある程度、Active Server Pages(ASP)、ColdFusion(登録商標)、Perl、Java(商標)、JavaServer Pages(JSP)、Hypertext Preprocessor(PHP)、Python(商標)、Ruby、Tel、Smalltalk、WebDNA(登録商標)、Groovyなどのサーバー側のコーディング言語で書かれている。様々な実施態様において、ウェブアプリケーションは、構造化照会言語(SQL)などのデータベース照会言語である程度書かれる。様々な実施態様では、ウェブアプリケーションは、IBM(登録商標)LotusDomino(登録商標)などのエンタープライズサーバー製品を統合する。様々な実施態様において、ウェブアプリケーションは、メディアプレーヤー要素を含む。 様々な実施態様において、メディアプレーヤー要素は、限定されない例として、アドビ(登録商標)フラッシュ(登録商標)、HTML5、アップル(登録商標)クイックタイム(登録商標)、マイクロソフト(登録商標)、Siverty(登録商標)、Java(商標)、およびユニティ(登録商標)を含む多くの適切なマルチメディア技術のうちの1つまたは複数を利用する。
【0226】
様々な実施態様では、コンピュータプログラムは、モバイルデジタル処理デバイスに提供されるモバイルアプリケーションを含む。様々な実施態様では、モバイルアプリケーションは、それが製造されるときにモバイルデジタル処理デバイスに提供される。様々な実施態様では、モバイルアプリケーションは、本明細書に記載のコンピュータネットワークを介してモバイルデジタル処理デバイスに提供される。
【0227】
モバイルアプリケーションは、当業者に周知のハードウェア、言語、および開発環境を使用して、当業者に周知の技術によって作成しても良い。当業者には、モバイルアプリケーションがいくつかの言語で書かれ得ることを認識されたい。適切なプログラミング言語には、非限定的な例として、C、C++、C#、Objective-C、Java(商標)、Javascript、Pascal、Object Pascal、Python(商標)、Ruby、VB.NET、WML、CSSの有無にかかわらずXHTML/HTML、またはそれらの組み合わせが含まれる。
【0228】
適切なモバイルアプリケーション開発環境は、いくつかのソースから入手できる。市販の開発環境には、非限定的な例として、AirplaySDK、alcheMo、Appcelerator(登録商標)、Celsius、Bedrock、Flash Lite、.NET Compact Frame work、Rhomobile、およびWorkLight MobilePlatformがある。他の開発環境として、非限定的な例として、Lazarus、MobiFlex、MoSync、およびPhonegapが無料で利用できる。さらに、モバイルデバイスメーカーは、次のようなソフトウェア開発キットが配布される。非限定的な例として、iPhoneおよびiPad(iOS)SDK、Android(商標)SDK、BlackBerry(登録商標)SDK、BREW SDK、Palm(登録商標)OSSDK、Symbian SDK、webOS SDK、およびWindows(登録商標)MobileSDKがある。
【0229】
当業者には、非限定的な例として、Apple(登録商標)AppStore、Google(登録商標)Play、Chrome WebStore、BlackBerry(登録商標)AppWorld、Palmデバイス用App Store、webOS用App Catalog、Windows(登録商標)Marketplacefor Mobile、Ovi StoreforNokia(登録商標)デバイス、Samsung(登録商標)Apps、Nintendo DSiShopを含むモバイルアプリケーションの配布のためにいくつかの商業フォーラムが利用可能であることを認識されたい。
【0230】
様々な実施態様において、コンピュータプログラムには、スタンドアロンアプリケーションが含まれ、これは、プラグインなどの既存のプロセスへのアドオンではなく、独立したコンピュータプロセスとして実行されるプログラムである。当業者には、スタンドアロンアプリケーションがしばしばコンパイルされることを認識されたい。コンパイラは、プログラミング言語で記述されたソースコードをアセンブリ言語や機械語などのバイナリオブジェクトコードに変換するコンピュータプログラムである。適切なコンパイル済みプログラミング言語には、非限定的な例として、C、C++、Objective-C、COBOL、Delphi、Eiffel、Java(商標)、Lisp、Python(商標)、Visual Basic、VB.NET、またはそれらの組み合わせが含まれる。コンパイルは、実行可能プログラムを作成するために、少なくとも部分的に実行されることがよくある。様々な実施態様では、コンピュータプログラムは、1つまたは複数の実行可能な準拠アプリケーションを含む。
【0231】
様々な実施態様では、コンピュータプログラムは、ウェブブラウザプラグイン(例えば、拡張機能など)を含む。コンピューティングでは、プラグインは、より大きなソフトウェアアプリケーションに特定の機能を追加する1つ以上のソフトウェアコンポーネントである。ソフトウェアアプリケーションのメーカーはプラグインをサポートしており、サードパーティの開発者がアプリケーションを拡張する機能を作成し、新しい機能の簡単な追加をサポートし、アプリケーションのサイズを縮小にする。プラグインがサポートされている場合、ソフトウェアアプリケーションの機能をカスタマイズできる。例えば、プラグインは、ビデオの再生、対話機能の生成、ウイルスのスキャン、および特定のファイルタイプの表示を行うために、Webブラウザで一般的に使用される。当業者には、Adobe(登録商標)Flash(登録商標)Player、Microsoft(登録商標)Silverlight(登録商標)、およびApple(登録商標)QuickTime(登録商標)を含むいくつかのWebブラウザプラグインに精通されているであろう。様々な実施態様では、ツールバーは、1つまたは複数のウェブブラウザ拡張機能、アドイン、またはアドオンを含む。様々な実施態様では、ツールバーは、1つまたは複数のエクスプローラバー、ツールバー、またはデスクバンドを含む。
【0232】
当業者には、非限定的な例として、C ++、Delphi、Java(商標)、PHP、Python(商標)、VB .NET、またはそれらの組み合わせを含む、様々なプログラミング言語でのプラグインの開発を可能にするいくつかのプラグインフレームワークが利用可能であることを認識されたい。
【0233】
Webブラウザ(インターネットブラウザとも呼ばれる)は、ネットワークに接続されたデジタル処理デバイスで使用するために設計されたソフトウェアアプリケーションであり、ワールドワイドウェブ上の情報リソースを取得、表示、およびトラバースする。適切なウェブブラウザには、限定されない例として、Microsoft(登録商標)InternetExplorer(登録商標)、Mozilla(登録商標)Firefox(登録商標)、Google(登録商標)Chrome、Apple(登録商標)Safari(登録商標)、OperaSoftware(登録商標)Opera(登録商標)、およびKDEKonquerorが含まれる。様々な実施態様において、ウェブブラウザはモバイルウェブブラウザである。モバイルWebブラウザ(マイクロブラウザ、ミニブラウザ、ワイヤレスブラウザとも呼ばれる)は、非限定的な例として、ハンドヘルドコンピューター、タブレットコンピューター、ネットブックコンピューター、サブノートブックコンピューター、スマートフォン、および携帯情報端末(PDA)などのモバイルデジタル処理デバイスで使用するように設計される。適切なモバイルWebブラウザには、非限定的な例として、Google(登録商標)Android(登録商標)ブラウザ、RIMBlackBerry(登録商標)ブラウザ、Apple(登録商標)Safari(登録商標)、Palm(登録商標)Blazer、Palm(登録商標)WebOS(登録商標)ブラウザ、Mozilla(登録商標)Firefox(登録商標)formobile、Microsoft(登録商標)InternetExplorer(登録商標)Mobile、Amazon(登録商標)Kindle(登録商標)BasicWeb、Nokia(登録商標)Browser 、OperaSoftware(登録商標)Opera(登録商標)Mobile、およびSonyPSP(商標)ブラウザなどがある。
【0234】
様々な実施態様において、本明細書に開示されるシステムおよび方法は、ソフトウェア、サーバーおよび/またはデータベースモジュールを含むか、または本明細書に開示される様々な実施態様による方法においてそれらの使用を組み込む。ソフトウェアモジュールは、当業者に知られている機械、ソフトウェア、および言語を使用して、当業者に知られている技術によって作成しても良い。本明細書に開示されるソフトウェアモジュールは、多くの方法で実装される。様々な実施態様では、ソフトウェアモジュールは、ファイル、コードのセクション、プログラミングオブジェクト、プログラミング構造、またはそれらの組み合わせを含む。さらに様々な実施態様では、ソフトウェアモジュールは、複数のファイル、コードの複数のセクション、複数のプログラミングオブジェクト、複数のプログラミング構造、またはそれらの組み合わせを含む。様々な実施態様では、1つまたは複数のソフトウェアモジュールは、非限定的な例として、ウェブアプリケーション、モバイルアプリケーション、およびスタンドアロンアプリケーションを含む。様々な実施態様において、ソフトウェアモジュールは、1つのコンピュータプログラムまたはアプリケーション内にある。様々な実施態様では、ソフトウェアモジュールは、複数のコンピュータプログラムまたはアプリケーションに含まれる。様々な実施態様において、ソフトウェアモジュールは1台のマシン上でホストされる。様々な実施態様において、ソフトウェアモジュールは、複数のマシン上でホストされる。様々な実施態様において、ソフトウェアモジュールは、クラウドコンピューティングプラットフォーム上でホストされる。様々な実施態様において、ソフトウェアモジュールは、1つの場所にある1つまたは複数のマシン上でホストされる。様々な実施態様において、ソフトウェアモジュールは、複数の場所にある1つまたは複数のマシン上でホストされる。
【0235】
様々な実施態様において、本明細書に開示されるシステムおよび方法は、1つまたは複数のデータベースを含むか、または本明細書に開示される様々な実施形態による方法に同じものの使用を組み込む。当業者には、多くのデータベースが、ユーザー、クエリ、トークン、および結果情報の保存および検索に適することを認識されたい。様々な実施態様において、非限定的な例として、リレーショナルデータベース、非リレーショナルデータベース、オブジェクト指向データベース、オブジェクトデータベース、エンティティリレーションシップモデルデータベース、連想データベース、およびXMLデータベースなどの適切なデータベースを含む。その他の非限定的な例には、SQL、PostgreSQL、MySQL、Oracle、DB2、およびSybaseが含まれる。様々な実施態様において、データベースはインターネットベースである。さらなるウェブで、非限定的な例として、Microsoft(登録商標)InternetExplorer(登録商標)、Mozilla(登録商標)Firefox(登録商標)、Google(登録商標)Chrome、Apple(登録商標)Safari(登録商標)、OperaSoftware(登録商標)Opera(登録商標)、およびKDEKonquerorなどの適切なWebブラウザがある。様々な実施態様において、ウェブブラウザはモバイルウェブブラウザである。モバイルWebブラウザ(マイクロブラウザ、ミニブラウザ、ワイヤレスブラウザとも呼ばれる)は、非限定的な例として、ハンドヘルドコンピューター、タブレットコンピューター、ネットブックコンピューター、サブノートブックコンピューター、スマートフォン、および携帯情報端末(PDA)などを含むモバイルデジタル処理デバイスで使用するために設計される。適切なモバイルWebブラウザには、非限定的な例として、Google(登録商標)Android(登録商標)ブラウザ、RIMBlackBerry(登録商標)ブラウザ、Apple(登録商標)Safari(登録商標)、Palm(登録商標)Blazer、Palm(登録商標)WebOS(登録商標)ブラウザ、Mozilla(登録商標)Firefox(登録商標)formobile、Microsoft(登録商標)InternetExplorer(登録商標)Mobile、Amazon(登録商標)Kindle(登録商標)BasicWeb、Nokia(登録商標)Browser 、OperaSoftware(登録商標)Opera(登録商標)Mobile、およびSonyPSP(商標)ブラウザなどがある。
【0236】
様々な実施態様において、データベースはウェブベースである。様々な実施態様において、データベースはクラウドコンピューティングベースである。他の実施態様では、データベースは、1つまたは複数のローカルコンピュータストレージデバイスに基づく。
【0237】
様々な実施態様において、本明細書に開示されるシステムおよび方法は、不正アクセスを防止するための1つまたは複数の機能を含む。セキュリティ対策は、例えば、ユーザーのデータを保護する。様々な実施態様において、データは暗号化される。様々な実施態様において、システムへのアクセスは、多要素認証およびアクセス制御層を必要とする。様々な実施態様において、システムへのアクセスは、2段階認証(例えば、ウェブベースのインターフェース)を必要とする。様々な実施態様において、2段階認証は、ユーザー名およびパスワードに加えて、ユーザーがユーザーの電子メールまたは携帯電話に送信されるアクセスコードを入力することを必要とする。場合によっては、適切なユーザー名とパスワードの入力に失敗した後、ユーザーがアカウントからロックアウトされる。本明細書に開示されるシステムおよび方法は、様々な実施態様において、ユーザーの遺伝子および任意の遺伝子にわたるそれらの検索の匿名性を保護するためのメカニズムを含んでも良い。
【0238】
本明細書に記載のシステムおよび方法は、様々な実施態様において、癌バイオインフォマティクスパイプラインの任意のレベルで患者または一連の患者のデータを探索できるようにすることで、腫瘍学者が症例レビュー中、または仮想腫瘍ボード中の共同設定で臨床的洞察を引き出すのを支援でき、どの癌の変化が実際のものであり、シーケンスアーティファクトを表していないかを確認し、品質管理値を報告し、マルチオミクスデータストリームと高度な分析を統合して、がんの特徴と所見の主要なダッシュボードまたは「見逃せない」チェックリストを提供し、返されたランク付けされた各結果の臨床、予後、診断、および治療情報を提供する。様々な実施態様において、本明細書に記載されるマルチオミクス癌検索は、臨床的決定を支援するために医師に「増強された知能」を提供する。
【0239】
様々な実施態様による、本明細書に記載のシステムおよび方法の使用は、ユーザーとして臨床医を含むことができる。これらのユーザーは、本明細書に記載のシステムおよび方法を使用して、腫瘍(および正常)遺伝子における薬物標的および主要な変化の包括的な報告を実行することができる。
【0240】
本明細書に記載のシステムおよび方法は、様々な実施態様によれば、仮想腫瘍ボードで使用できる。本明細書に記載のシステムおよび方法は、様々な実施態様によれば、個々の臨床医が重要な腫瘍特性を見逃さないためのチェックリストとして使用し、腫瘍学者の施設内または世界中で利用可能な臨床試験をチェックすることができる。本明細書に記載のシステムおよび方法は、様々な実施態様に従って、患者と腫瘍学者の訪問会話中に腫瘍学者が使用することができる。様々な実施態様において、複数の臨床医は、臨床的に実行可能で病原性の癌の変化を照会、視覚化、再ランク付けする協調機能を使用し、仮想分子腫瘍ボード中に利用可能な表現型、および画像および文献データをナビゲートして、最良の診断および治療を決定する一助となる。本明細書に記載のシステムおよび方法が対処できる質問の非限定的な例のいくつかには、臨床的に関連する癌の亜種は何であるか?潜在的な治療法(FDA承認、NCNN、臨床試験)はあるか?腫瘍で特定された突然変異は本当か?高品質のシーケンスリードでサポートされているか?シーケンスが難しい領域の変異はあるか?それは腫瘍にのみ存在し、正常には存在しないか?RNAで発現しているか?この突然変異は機能的であるか?グローバルな腫瘍特性、腫瘍突然変異の負担、またはマイクロサテライト不安定性とは何か?が含まれる。システムは、全体的な品質と単一のバリアントの品質の両方を決定するために使用できる複数のメトリックを表示できる。様々な実施態様によるシステムおよび方法は、患者の突然変異を、例えば、癌遺伝子アトラス(TCGA)などの公開データセットに以前に記載されたものと比較することを提供しても良い。様々な実施態様によるシステムおよび方法は、同じ患者について複数の生検を比較することを提供しても良い。
【0241】
様々な実施態様において、本明細書に記載のシステムおよび方法のユーザーは、バイオ医薬品または学術研究者を含むことができ、その後、誰が実行できるか、例えば、コホート腫瘍プロファイリングにより、予後が良好/不良の患者、レスポンダー/ノンレスポンダーの遺伝子プロファイルを特徴付け、品質管理チェック、創薬ターゲットの特定、潜在的な創薬反応バイオマーカーに関するコホートの層別化、およびより広範囲に実行する前の迅速で反復的な仮説生成追加の検証またはテストコホートに関する分析などが含まれる。様々な実施態様において、コホートを層別化することができるランク付けされたバイオマーカー、それらの統計的有意性、およびそれらの要約視覚化は、システムによって返される。様々な実施態様において、検証クエリは、ロバストなアルゴリズム的および統計的検証を実行するために検索エンジンによって提案され得る。様々な実施態様において、システムは、提案されたクエリの改良を介して、反復的な仮説の改良を自動提案される。
【0242】
様々な実施態様において、本明細書に記載のシステムおよび方法は、例えば、生存、耐性、反応と相関するタンパク質、経路、突然変異プロセスを特定、1つのグループで見つかった違いを深く掘り下げ、他のデータセットと比較、ホートの品質管理を調べて、コホート分析が信頼でき、品質管理パラメーターの1つに基づいて歪曲されていないことを確認、異常な結果を調査して、それらが体系的な問題によるものではないことを確認、個々の試料、外れ値または異常な結果にドリルダウンして、それが実際の結果であることを確認、さらに調査し、分析の統計的有意性をすばやく取得、マルチターゲットデータ探索を実行、潜在的な治療法について文献や注釈ソースを検索、を行うことができる。標準的なバイオインフォマティクス分析では、一般に、データをインタラクティブにクエリし、ドメイン知識を使用して仮説を洗練する機能はない。内部システムは通常、データベースシステムに基づいており、検索索引(ここで説明するものなど)ではなく、関連性のランク付けを提供し、情報の複数のストリーム(遺伝子、トランスクリプトミクス、注釈、文献など)の統合を実行でき、関連性のある組み込みの機械学習モデルが含まれる。
【0243】
上述のとおり、本明細書に記載のシステムおよび方法、様々な実施態様によれば、動的にハイパーリンクされた個々の患者とコホートのバリアントレポートを提供するように構成できる。レポートの全ての項目は、マルチモーダル癌検索クエリにハイパーリンクされる。様々な実施態様において、ハイパーリンクされたレポートコンテンツは、ユーザーが行うクエリに基づいて動的に生成され、レポート目的のために強調表示および保存される。
【0244】
上述のとおり、本明細書に記載のシステムおよび方法、変形の実施態様によれば、ハイパーリンクされたライブレポートの生成に使用するクエリ結果をユーザーが選択できるようにするエキスパートレビュー機能を所有するように構成できる。
【0245】
様々な実施態様において、動的レポートは決して古くならず、新たに索引付けされた情報に基づいて更新される。さらに、利用可能な新しい注釈、薬、臨床試験についてユーザーに通知することができる。
【0246】
様々な実施態様において、ここで提供されるシステムと方法により、静的な臨床レポートと事前に計算された癌ポータル分析の両方を超えて分析を拡張し、個々の患者またはコホートにハイパーリンクされたレポートを動的に生成できる。このようなレポートの例には、これらに限定されないが、腫瘍プロファイリング、薬物と試験のマッチング、個々の試料の免疫レポート、試料のコホートのコホートプロファイリングレポートなどが含まれる。レポートは、ユーザーのクエリに基づいて調整でき、様々な実施態様において、マルチオミクス癌検索によって返され、ユーザーが事前に選択した結果を含む。
【0247】
出願人は、マルチオミクス癌検索システムに基づく動的レポートパラダイムは、(1)広範なバイオインフォマティクスパイプラインの実行後に変更または更新できない標準の静的PDFレポートの機能を超えるデータとのユーザーインタラクション、(2)臨床的行動可能性、病原性、特徴の重み、または頻度の観点から、全てのマルチオミクス癌の変化をランク付け(3)より複雑な分析のための出力へのBAMからVCFへの任意のレベルでのパイプラインの出力のユーザー問い合わせ(4)機械学習モデルの予測だけでなく、特定の予測を導いたランク付けされた機能のリストのユーザービューの点で有利であることを発見した。
【国際調査報告】