IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ Icaria株式会社の特許一覧

特表2024-532874ニューラルネットワークベースの分類子
<>
  • 特表-ニューラルネットワークベースの分類子 図1
  • 特表-ニューラルネットワークベースの分類子 図2
  • 特表-ニューラルネットワークベースの分類子 図3
  • 特表-ニューラルネットワークベースの分類子 図4
  • 特表-ニューラルネットワークベースの分類子 図5
  • 特表-ニューラルネットワークベースの分類子 図6
  • 特表-ニューラルネットワークベースの分類子 図7
  • 特表-ニューラルネットワークベースの分類子 図8
  • 特表-ニューラルネットワークベースの分類子 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-09-10
(54)【発明の名称】ニューラルネットワークベースの分類子
(51)【国際特許分類】
   G16H 10/40 20180101AFI20240903BHJP
【FI】
G16H10/40
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024510724
(86)(22)【出願日】2022-08-22
(85)【翻訳文提出日】2024-02-21
(86)【国際出願番号】 JP2022031477
(87)【国際公開番号】W WO2023026996
(87)【国際公開日】2023-03-02
(31)【優先権主張番号】P 2021137228
(32)【優先日】2021-08-25
(33)【優先権主張国・地域又は機関】JP
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.TENSORFLOW
(71)【出願人】
【識別番号】519035643
【氏名又は名称】Craif株式会社
(74)【代理人】
【識別番号】100174252
【弁理士】
【氏名又は名称】赤津 豪
(72)【発明者】
【氏名】チェン ユーティン
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA03
5L099AA04
(57)【要約】
プロセッサによって実行される、患者の疾患状態を予測するために分類子をトレーニングする方法が提供され、この方法は、i)複数のバッチに由来する複数のトレーニングデータセットを受信することであって、各トレーニングデータセットが診断データと、バッチIDと、疾患IDとを含む、受信することと、ii)受信された複数のトレーニングデータセットを用いてバッチ分類子を生成することと、iii)受信された複数のトレーニングデータおよび生成されたバッチ分類子を用いて疾患状態分類子を生成することとを含む。
【選択図】図1

【特許請求の範囲】
【請求項1】
プロセッサによって実行される、患者の疾患状態を予測するために分類子をトレーニングする方法であって、前記方法が、
i)複数のバッチに由来する複数のトレーニングデータセットを受信することであって、各トレーニングデータセットが診断データと、バッチIDと、疾患IDとを含む、受信することと、
ii)前記受信された複数のトレーニングデータセットを用いてバッチ分類子を生成することと、
iii)前記受信された複数のトレーニングデータおよび前記生成されたバッチ分類子を用いて疾患状態分類子を生成することとを含む、方法。
【請求項2】
プロセッサによって実行される、対象の信頼性ある変数を予測するために分類子をトレーニングする方法であって、前記方法が、
i)複数のバッチに由来する複数のトレーニングデータセットを受信することであって、各トレーニングデータセットが(1つ以上の)説明変数と、バッチIDと、ターゲット変数とを含む、受信することと、
ii)前記受信された複数のトレーニングデータセットを用いてバッチ分類子を生成することと、
iii)前記受信された複数のトレーニングデータおよび前記生成されたバッチ分類子を用いてターゲット変数分類子を生成することとを含む、方法。
【請求項3】
前記疾患状態分類子を前記生成することが、ニューラルネットワークを用いることを含む、請求項1または2に記載の方法。
【請求項4】
前記ニューラルネットワークが入力レイヤと、少なくとも1つの隠されたレイヤと、出力レイヤとを含み、
ステップiii)が、前記バッチ分類子の出力を前記少なくとも1つの隠されたレイヤのうちの1つに入力することを含む、請求項3に記載の方法。
【請求項5】
前記ニューラルネットワークが入力レイヤと、複数の隠されたレイヤと、出力レイヤとを含み、
ステップiii)が、前記バッチ分類子の出力を前記複数の隠されたレイヤのうちの1つに入力することを含む、請求項3に記載の方法。
【請求項6】
ステップiii)が、前記バッチ分類子の出力を前記複数の隠されたレイヤの中間から後半のうちの1つに入力することを含む、請求項5に記載の方法。
【請求項7】
ステップiii)が、前記バッチ分類子の出力を前記複数の隠されたレイヤの最後の3分の1のうちの1つに入力することを含む、請求項5に記載の方法。
【請求項8】
ステップiii)が、前記バッチ分類子の出力を前記複数の隠されたレイヤの最後の4分の1のうちの1つに入力することを含む、請求項5に記載の方法。
【請求項9】
ステップiii)が、前記バッチ分類子の出力を前記出力レイヤの直前の最後の隠されたレイヤに入力することを含む、請求項5に記載の方法。
【請求項10】
前記ニューラルネットワークが、パーセプトロン(P)、フィードフォワード(FF)、動径基底ネットワーク(RBF)、ディープフィードフォワード(DFF)、再帰型ニューラルネットワーク(RNN)、長/短期記憶(LSTM)、ゲート付き再帰型ユニット(GRU)、オートエンコーダ(AE)、変分AE(VAE)、ノイズ除去オートエンコーダ(DAE)、スパースAE(SAE)、マルコフ連鎖(MC)、ホップフィールドネットワーク(HN)、ボルツマンマシン(BM)、制限付きBM(RBM)、深層信念ネットワーク(DBN)、深層畳み込みネットワーク(DCN)、逆畳み込みネットワーク(DN)、深層畳み込み逆グラフィックスネットワーク(DCIGN)、敵対的生成ネットワーク(GAN)、液体状態マシン(LSM)、エクストリームラーニングマシン(ELM)、エコー状態ネットワーク(ESN)、深層残差ネットワーク(DRN)、コホネンネットワーク(KN)、サポートベクターマシン(SVM)、およびニューラルチューリングマシン(NTM)からなる群より選択される、請求項4~9のいずれか一項に記載の方法。
【請求項11】
ステップii)が、前記バッチ分類子をトレーニングすることを含む、請求項1~10のいずれか一項に記載の方法。
【請求項12】
前記バッチ分類子を前記トレーニングすることが、回帰モデルを用いることを含む、請求項11に記載の方法。
【請求項13】
前記回帰モデルが線形回帰モデルである、請求項12に記載の方法。
【請求項14】
前記回帰モデルがロジスティック回帰モデルである、請求項13に記載の方法。
【請求項15】
前記診断データが遺伝子発現レベルを含む、請求項1~14のいずれか一項に記載の方法。
【請求項16】
前記診断データがRNA発現レベルを含む、請求項1~14のいずれか一項に記載の方法。
【請求項17】
前記RNA発現レベルがRNAに対するマイクロアレイ測定または配列決定の方法によって取得される、請求項16に記載の方法。
【請求項18】
前記RNA発現レベルが、複数のRNA発現レベルを含むプロファイルを含む、請求項17に記載の方法。
【請求項19】
前記RNAがcfRNA、細胞内のRNA、または細胞外小胞に含まれるRNAであってもよい、請求項16~18のいずれか一項に記載の方法。
【請求項20】
前記RNAが、miRNAおよびmRNAからなる群より選択される、請求項19に記載の方法。
【請求項21】
前記RNAが、血液、血清、血漿、リンパ液、組織液、間質液、細胞間液、体腔液、漿膜液、胸水、腹水、心膜液、脳脊髄液、滑液(関節液)、および眼の房水(水性)からなる群より選択される体液に由来する、請求項17または20のいずれか一項に記載の方法。
【請求項22】
前記RNAが、生検によって得られたか、または外科手術中に得られた組織に由来する、請求項17または20のいずれか一項に記載の方法。
【請求項23】
前記疾患が癌である、請求項1~22のいずれか一項に記載の方法。
【請求項24】
前記癌が脳腫瘍、肺癌、乳癌、甲状腺癌、食道癌、肝臓癌、胆道癌、胃癌、膵臓癌、結腸直腸癌、前立腺癌、腎臓癌、膀胱癌、子宮癌、子宮頸癌、卵巣癌、皮膚癌、リンパ腫、白血病の群より選択される、請求項23に記載の方法。
【請求項25】
プロセッサによって実行される、患者の疾患状態を予測する方法であって、前記方法が、
a)患者の疾患状態を予測するために分類子をトレーニングすることであって、
i)複数のコホートに由来する複数のトレーニングデータセットを受信することであって、各トレーニングデータセットが診断データと、コホートIDと、疾患IDとを含む、受信することと、
ii)前記受信された複数のトレーニングデータセットを用いて(複数のバッチIDを有する)バッチ分類子を生成することと、
iii)前記受信された複数のトレーニングデータおよび前記生成されたコホート分類子を用いて疾患状態分類子を生成することとを含む、トレーニングすることと、
b)前記患者に関する診断データを含む患者データを提供することと、
c)前記生成されたバッチ分類子を用いて、前記複数のバッチの中で前記患者データが適合すると考えられる前記複数のバッチの中のバッチIDを選択することと、
d)前記選択されたコホートIDおよび前記患者データを用いて前記患者の疾患状態を予測することとを含む、方法。
【請求項26】
プロセッサによって実行される、患者の疾患状態を予測する方法であって、前記方法が、
a)請求項1~24のいずれか一項に記載の方法を含む、患者の疾患状態を予測するために分類子をトレーニングすることと、
b)前記患者に関する診断データを含む患者データを提供することと、
c)前記生成されたコホート分類子を用いて、前記複数のコホートの中で前記患者データが適合すると考えられる前記複数のコホートの中のコホートIDを選択することと、
d)前記選択されたコホートIDおよび前記患者データを用いて前記患者の疾患状態を予測することとを含む、方法。
【請求項27】
プロセッサによって実行される、患者の疾患状態を予測する方法であって、前記方法が、
a)患者の疾患状態を予測するために分類子を提供することであって、前記分類子が、
i)複数のバッチに由来する複数のトレーニングデータセットを受信することであって、各トレーニングデータセットが診断データと、バッチIDと、疾患IDとを含む、受信することと、
ii)前記受信された複数のトレーニングデータセットを用いてバッチ分類子を生成することと、
iii)前記受信された複数のトレーニングデータおよび前記生成されたバッチ分類子を用いて疾患状態分類子を生成することとによってトレーニングされる、分類子を提供することと、
b)前記患者に関する診断データを含む患者データを提供することと、
c)前記生成されたコホート分類子を用いて、前記複数のコホートの中で前記患者データが適合すると考えられる前記複数のコホートの中のコホートIDを選択することと、
d)前記選択されたコホートIDおよび前記患者データを用いて前記患者の疾患状態を予測することとを含む、方法。
【請求項28】
プロセッサによって実行される、患者の疾患状態を予測する方法であって、前記方法が、
a)トレーニング済の疾患状態分類子を提供することであって、前記トレーニング済の疾患状態分類子が、
患者の疾患状態を予測するための、入力レイヤ、少なくとも1つの隠されたレイヤ、および出力レイヤを有する主ニューラルネットワークアーキテクチャと、
バッチIDのリストを有するバッチ分類子であって、前記バッチ分類子が前記少なくとも1つの隠されたレイヤのうちの1つに前記バッチIDを出力するように構成される、バッチ分類子とを含む、トレーニング済の疾患状態分類子を提供することと、
b)前記患者に関する診断データを含む患者データを前記疾患状態分類子に入力することと、
c)前記生成されたバッチ分類子を用いて、前記バッチのリストの中で前記患者データが適合すると考えられるバッチIDを選択することと、
d)前記選択されたバッチIDおよび前記患者データを用いて、前記患者の疾患状態を前記出力レイヤから出力することとを含む、方法。
【請求項29】
請求項26~28のいずれか一項に記載の方法を含む、プロセッサによって実行されるコンピュータプログラム。
【請求項30】
患者の疾患状態を分類するコンピュータシステムであって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサによって実行される少なくとも1つのプログラムを記憶するメモリとを含み、前記プログラムが請求項1~28の少なくとも一項を含む、コンピュータシステム。

【発明の詳細な説明】
【技術分野】
【0001】
本明細書の開示は一般的に、ニューラルネットワークを用いて説明変数交絡因子を含むデータを分類するための方法、プロセス、およびシステムに関し、一例においては、生物学的対象が少なくとも1つの医学的状態を有する可能性を分類するための方法、プロセス、およびシステムに関する。しかし、請求される発明および本開示は、このセクションの記載のために限定的なやり方で解釈されるべきではない。
【0002】
たとえば、疾患の診断の分野において、機械学習によってトレーニングされたニューラルネットワーク分類子を用いて、生物学的技術によって得られた測定値から対象の疾患を診断できる。DNA配列決定によって得られた対象の遺伝子情報、DNA/タンパク質/ペプチドマイクロアレイを用いた各生体分子の発現情報などが取得され、取得された情報が事前トレーニングされたニューラルネットワーク分類子に入力される。そうすることによって、対象の適切な診断を行うか、または診断のために有用な結果を得ることができる。
【0003】
ニューラルネットワークをトレーニングして適切な分類子を生成するために、トレーニングデータが用いられる。こうしたトレーニングデータは、複数のバッチから収集されることがある。しかし、複数のバッチから収集されたデータに基づく統計分析は、いわゆるバッチ効果に直面し得る。バッチ効果は、異なるバッチでサンプルが処理および測定されるときの系統的な技術的差異を表すものであり、マイクロアレイ遺伝子発現実験の際に記録される任意の生物学的変動とは無関係である(非特許文献1)。たとえばバッチ効果などの交絡因子が存在すると、ニューラルネットワークモデルをトレーニングして適切な分類子を生成することができない。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】リーク(Leek)、ジェフリー(Jeffrey)T.;ジョンソン(Johnson)、W.エバン(Evan);パーカー(Parker)、ヒラリー(Hilary)S.;ジャフェ(Jaffe)、アンドリュー(Andrew)E.;ストーレイ(Storey)、ジョン(John)D.(2012-03-15)。「高スループット実験におけるバッチ効果およびその他の望ましくない変動を取り除くためのsvaパッケージ(The sva package for removing batch effects and other unwanted variation in high-throughput experiments)。」バイオインフォマティクス(Bioinformatics)。28(6):882-883。
【発明の概要】
【課題を解決するための手段】
【0005】
本開示の非限定的な目的は、交絡因子が存在し得るトレーニングデータを用いて生成されたニューラルネットワーク分類子を用いて、交絡因子に影響され得る入力情報を分類することである。
【0006】
1つの態様において、所望の目的変数を予測する分類子をトレーニングする方法が提供される。この方法はコンピュータによって行われてもよい。この方法は、ニューラルネットワークの少なくとも一部を含んでもよい。この方法は、複数のバッチからのトレーニングデータと、トレーニングデータを用いてバッチ分類子を生成することと、トレーニングデータおよびバッチ分類子を用いて目的変数分類子を生成することとを含んでもよい。トレーニングデータは説明変数と、目的変数と、バッチ情報とを含んでもよい。
【0007】
1つの態様において、所望の目的変数を予測する方法が提供される。この方法はコンピュータによって行われてもよい。目的変数分類子が提供されてもよく、それは少なくとも自身の一部分としてニューラルネットワークを含む。この方法は、トレーニング済の目的変数分類子を提供すること;説明変数およびバッチ情報を含むターゲットデータを取得すること;目的変数分類子を用いて、取得されたターゲットデータのバッチ分類を行うこと;得られたターゲットデータのバッチ分類および説明変数に基づいてターゲットデータの目的変数を予測することを含んでもよい。
【図面の簡単な説明】
【0008】
図1図1は、ある実施形態に係るニューラルネットワークベースの分類子の構造を示す図である。
図2図2は、ある実施形態に係るニューラルネットワークベースの分類子の構造を示す図である。
図3図3は、ある実施形態に係るニューラルネットワークベースの分類子の構造を示す図である。
図4図4は、バッチ分類子のトレーニングの結果としての混同行列を示す図である。
図5図5は、トレーニングのためのニューラルネットワークベースの分類子の構造を示す図である。
図6図6は、一例によるニューラルネットワークベースの分類子のトレーニングの結果としての混同行列を示す図である。
図7図7は、一例によるニューラルネットワークベースの分類子のトレーニングの結果としてのROC曲線(A)および精度-再現率曲線(B)を示す図である。
図8図8は、比較例によるニューラルネットワークベースの分類子のトレーニングの結果としての混同行列を示す図である。
図9図9は、比較例によるニューラルネットワークベースの分類子のトレーニングの結果としてのROC曲線(A)および精度-再現率曲線(B)を示す図である。
【発明を実施するための形態】
【0009】
1つの態様において、所望の目的変数を予測または分類するシステムが提供される。図1は、実施形態によるシステム(分類子100)の構成を示す。分類子100は主ニューラルネットワーク150と、バッチ分類子140とを含む。
【0010】
主ニューラルネットワーク150は入力レイヤ110と、1つ以上の隠されたレイヤ120と、出力レイヤ130とを含む。バッチ分類子140は、入力レイヤ110から信号(以後データとも呼ばれる)を受信して、入力データのバッチIDを予測する。予測されたバッチIDは、主ニューラルネットワーク150の隠されたレイヤ120に入力される。主ニューラルネットワーク150は、入力データの目的変数を含むか、または入力レイヤ110からの前処理入力データおよびバッチ分類子140からの予測バッチIDに基づいて入力データを分類する。出力レイヤ130は分類結果を出力する。
【0011】
分類子100は、説明変数を含む入力データを次の処理(図示せず)に適したデータフォーマットに変換または処理するアルゴリズムまたはデバイスとしての前処理デバイスを含んでもよい。こうした前処理ユニットは、分類子100に含まれなくてもよく、分類子100に接続されるように構成されてもよい。
【0012】
本明細書において用いられる「分類子」という用語は一般的に、データを複数のグループに統計的に分類するアルゴリズムまたはソフトウェアを示す。
【0013】
本明細書において用いられる「ニューラルネットワーク分類子」という用語は一般的に、少なくとも部分的に人工ニューラルネットワークを含む分類子を示す。
【0014】
本明細書において用いられる「ニューラルネットワーク」という用語は一般的に、人工シナプスによって相互接続された人工ニューロン(ノード)で構成された数学的モデル(人工ニューラルネットワーク(artificial neural network)、ANN)を示す。ニューラルネットワークは1つ以上のレイヤを有してもよい。ニューラルネットワークは、部分的に非階層型であってもよい。レイヤはノードのセットとして定義されてもよい。レイヤは、限定的でなくたとえばケラス(Keras)などによるテンソルフロー(TensorFlow)変数(レイヤの重み)において保持されるテンソルイン・テンソルアウト計算機能(レイヤの呼び出し方法)および何らかの状態からなるものと定義されてもよい。
【0015】
ニューラルネットワークは、外部データを受け入れる入力レイヤを含んでもよい。複数の入力レイヤが配置されてもよい。ニューラルネットワークは、結果を生成または出力する出力レイヤを含んでもよい。それらの間に、少なくとも1つ以上の隠されたレイヤ(中間レイヤ)が提供されてもよい。
【0016】
レイヤは、たとえばケラス(Keras)の定義などに従うがそれに限定されず、コアレイヤ、たとえば入力オブジェクト、密レイヤ、活性化レイヤ、埋め込みレイヤ、マスクレイヤ、およびラムダレイヤなど;畳み込みレイヤ;プーリングレイヤ;再帰レイヤ;前処理レイヤ;正規化レイヤ;正則化レイヤ;アテンションレイヤ;再成形(reshaping)レイヤ;ならびにマージレイヤ、たとえば連結レイヤなどであってもよい。
【0017】
いくつかの実施形態において、ニューラルネットワークは、限定的でなくたとえば、パーセプトロン(P:Perceptron)、フィードフォワード(FF:Feed Forward)、動径基底ネットワーク(RBF:Radial Basis Network)、ディープフィードフォワード(DFF:Deep Feed Forward)、再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)、長/短期記憶(LSTM:Long/Short Term Memory)、ゲート付き再帰型ユニット(GRU:Gated Recurrent Unit)、オートエンコーダ(AE:Auto Encoder)、変分AE(VAE:Variational AE)、ノイズ除去オートエンコーダ(DAE:Denoising Auto Encoder)、スパースAE(SAE:Sparse AE)、マルコフ連鎖(MC:Markov Chain)、ホップフィールドネットワーク(HN:Hopfield Network)、ボルツマンマシン(BM:Boltzmann Machine)、制限付きBM(RBM:Restricted BM)、深層信念ネットワーク(DBN:Deep Belief Network)、深層畳み込みネットワーク(DCN:Deep Convolutional Network)、逆畳み込みネットワーク(DN:Deconvolutional Network)、深層畳み込み逆グラフィックスネットワーク(DCIGN:Deep Convolutional Inverse Graphics Network)、敵対的生成ネットワーク(GAN:Generative Adversarial Network)、液体状態マシン(LSM:Liquid State Machine)、エクストリームラーニングマシン(ELM:Extreme Learning Machine)、エコー状態ネットワーク(ESN:Echo State Network)、深層残差ネットワーク(DRN:Deep Residual Network)、コホネンネットワーク(KN:Kohonen Network)、およびニューラルチューリングマシン(NTM:Neural Turing Machine)などであってもよい。
【0018】
いくつかの実施形態において、「ニューラルネットワーク」はその一部として「バッチ分類子」を含んでもよく、または外部に位置する「バッチ分類子」と組み合わされてもよい。たとえ「ニューラルネットワーク」が「バッチ分類子」を含むときでも、「バッチ分類子」の出力は「ニューラルネットワーク」の「隠されたレイヤ」とみなされ得る。その場合、「ニューラルネットワーク」は実質的な(または主)ニューラルネットワークの部分と、バッチ分類子とを有するように構成され、これはバッチ分類子の出力がその実質的なニューラルネットワークに入力されることを意味する。本明細書において、「実質的なニューラルネットワーク」または「主ニューラルネットワーク」と、バッチ分類子を含む構成全体とはどちらも「ニューラルネットワーク」または「ニューラルネットワーク分類子」と呼ばれることがある。
【0019】
本明細書において用いられる「バッチ分類子」という用語は、入力ターゲット変数に基づくターゲット変数に適合する「バッチ」を予測するアルゴリズムを示す。バッチを予測するバッチ分類子は、たとえばトレーニングなどによって予め形成された有限数のバッチを含むバッチのグループから選択することを含んでもよい。バッチ分類子は、入力ターゲット変数に従って予め準備されていない新たなバッチを生成して、生成されたバッチを入力ターゲット変数に出力してもよい。
【0020】
いくつかの実施形態において、バッチ分類子は、いわゆるニューラルネットワークを含まないことがある。いくつかの実施形態において、バッチ分類子は回帰モデルを用いてもよい。回帰モデルは線形回帰モデルであってもよい。線形回帰モデルは、限定的でなくたとえば、一般線形モデルまたは一般化線形モデルなどであってもよい。いくつかの実施形態において、バッチ分類子はロジスティック回帰モデルを用いてもよい。
【0021】
いくつかの実施形態において、バッチ分類子は非線形回帰モデルを用いてもよい。非線形回帰モデルは、限定的でなくたとえば、非限定的にk近傍法、分類ツリー、ランダムフォレスト、ニューラルネットワーク、サポートベクター回帰、および射影追跡回帰などであってもよい。いくつかの実施形態において、バッチ分類子はニューラルネットワークを含んでもよい。
【0022】
説明変数およびバッチ情報は、同じ入力レイヤに入力されなくてもよい。いくつかの実施形態において、バッチ分類子の出力は、実質的なニューラルネットワークの隠されたレイヤのうちの1つに入力されてもよい。たとえば、説明変数はニューラルネットワークの入力レイヤに入力されてもよく、バッチ情報は別のバッチ分類子に入力されてもよく、バッチ分類子の出力はニューラルネットワークの隠されたレイヤのうちの1つに入力されてもよい。
【0023】
ニューラルネットワークは1つ以上の隠されたレイヤか、または少なくとも1つの隠されたレイヤを含んでもよい。隠されたレイヤは、複数の隠されたレイヤを含んでもよい。
【0024】
バッチ分類子の出力は、複数の隠されたレイヤのうちの1つに入力されてもよい。たとえば、図2に示されるとおり、ニューラルネットワーク分類子200は主ニューラルネットワーク250と、バッチ分類子240とを含んでもよい。主ニューラルネットワーク250は入力レイヤ210と、Nの隠されたレイヤ220-1~220-Nと、出力レイヤ230とを含む。バッチ分類子240は入力レイヤ210からデータを受信して、入力データのバッチIDを予測する。予測されたバッチIDは、複数のNの隠されたレイヤのうちの1つである隠されたレイヤ220-nに入力される。
【0025】
いくつかの実施形態において、バッチ分類子の出力は、複数の隠されたレイヤの中間または後半のレイヤのうちの1つ(n>または≧N/2)に入力されてもよい。たとえば、3つの隠されたレイヤが存在するとき、バッチ分類子の出力は第2の隠されたレイヤまたは第3の隠されたレイヤに入力されてもよい。たとえば、4つの隠されたレイヤが存在するとき、バッチ分類子の出力は第3の隠されたレイヤまたは第4の隠されたレイヤに入力されてもよい。(いくつかの態様において、「後半」はニューラルネットワークの出力により近いものを示し、「最後」と呼ばれることもある。いくつかの態様において、「前半」はニューラルネットワークの入力により近いものを示し、「最初(第1)」と呼ばれることもある。)
【0026】
いくつかの実施形態において、バッチ分類子の出力は、複数の隠されたレイヤの最後の3分の1のうちの1つ(n>または≧N/3)に入力されてもよい。いくつかの実施形態において、バッチ分類子の出力は、複数の隠されたレイヤの最後の4分の1のうちの1つ(n>または≧N/4)に入力されてもよい。バッチ分類子の出力は、複数の隠されたレイヤの後半N(N=整数)のうちの1つに入力されてもよい。いくつかの実施形態において、バッチ分類子の出力は、複数の隠されたレイヤの最後のレイヤまたは出力レイヤの直前の隠されたレイヤに入力されてもよい。
【0027】
バッチ分類子の出力を中間または後半の隠されたレイヤに入力することによって、たとえば非限定的なやり方で、ニューラルネットワークの最終出力に対するバッチ分類の影響を強化できる。
【0028】
いくつかの実施形態において、バッチ分類子の出力は、複数の隠されたレイヤの中間または前半のレイヤのうちの1つに入力されてもよい。いくつかの実施形態において、バッチ分類子の出力は、複数の隠されたレイヤの最初の3分の2(the first thirds)のうちの1つに入力されてもよい。いくつかの実施形態において、バッチ分類子の出力は、複数の隠されたレイヤの最初の4分の3(the first quarters)のうちの1つに入力されてもよい。いくつかの実施形態において、バッチ分類子の出力は、複数の隠されたレイヤの前半のうちの1つ(n<または≦N/2)に入力されてもよい。いくつかの実施形態において、バッチ分類子の出力は、複数の隠されたレイヤの最初のレイヤまたは入力レイヤの直後の隠されたレイヤに入力されてもよい。
【0029】
バッチ分類子の出力を中間または前半の隠されたレイヤに入力することによって、たとえば非限定的なやり方で、ニューラルネットワークの最終出力に対するバッチ分類の影響を強化できるが、その影響は入力レイヤに入れたときよりも小さい。
【0030】
いくつかの実施形態において、バッチ分類子の出力は、n1番目の隠されたレイヤからn2番目の隠されたレイヤ(1≦n1<n2≦N)の間の隠されたレイヤのうちの1つに入力されてもよい。こうした隠されたレイヤ「n」または隠されたレイヤのたとえばn1、n2などの範囲は、n1またはn2=N(p/q)またはN/rと表現されてもよく、ここでp、q、およびrは整数である。n、n1、またはn2=N(p/q)またはN/rが整数でないときは、端数の切り上げもしくは切り捨て、または最も近い整数への四捨五入による置換または算出が行われ得る。
【0031】
本明細書において用いられる「説明変数」という用語は、別様に指定されない限り、予測子および独立変数と交換可能に用いられる。
【0032】
本明細書において用いられる「目的変数」という用語は、別様に指定されない限り、応答変数、結果変数、従属変数、および参照変数と交換可能に用いられる。
【0033】
いくつかの実施形態において、説明変数は診断データまたは診断データに関連するデータであってもよく、目的変数は疾患、医学的状態、またはそれに関係するデータであってもよい。
【0034】
いくつかの実施形態において、診断データは、対象(例、患者)の病歴、臨床検査および医学的検査の結果、ならびに/またはそれらに基づく医師もしくは医療診断システムの推測を含んでもよい。
【0035】
いくつかの実施形態において、診断データは臨床検査(以後「実験室検査」とも呼ばれる)に由来していてもよい。臨床検査は、検体検査、生検、画像診断、病理診断、物理的検査、心理テスト、および関連情報を得るための、病気の存在もしくは不在を目的とするかまたはそれを伴わないその他の検査を限定なしに含む。
【0036】
検体検査は、生化学的検査、血液学的検査、検尿/検便、免疫学的検査、および微生物学的検査などを限定なしに含む。
【0037】
本開示において、検査に用いられる体液とは、対象から得られる体液またはその体液に由来するサンプルを意味する。体液は、血液、血清、血漿、リンパ液、たとえば間質液、細胞間液、細胞内液、および脳脊髄液などの組織液、脳脊髄液、ならびに脳脊髄液であってもよいが、それに限定されない。体液は腹腔液、血漿嚢液(plasma sac fluid)、脳脊髄液(脳脊髄液)、滑液(スリップ液)、または間質液(房水)であってもよい。体液はたとえば唾液、胃液、胆汁、膵液、および腸液などの消化液であってもよく、加えて汗、涙、鼻腔粘膜、尿、精液、膣液、羊水、および乳汁であってもよい。体液は動物の体液またはヒトの体液であってもよい。
【0038】
「生検」は、呼吸および循環機能検査、超音波検査、モニタリングデバイスを用いたさまざまな検査、脳波検査、神経/筋力検査、耳鼻咽喉科検査、眼科検査、皮膚科検査、臨床心理学/精神神経検査、放射性同位元素を用いた検査、および内視鏡検査などを限定なしに含む。いくつかの実施形態において、生検はリキッドバイオプシーであってもよい。いくつかの実施形態において、生検は手術中に得られた組織に対して行われてもよい。
【0039】
いくつかの実施形態において、診断データは、遺伝子検査における遺伝子発現に関連する量、頻度、またはその他の検査値であってもよい。たとえば、診断データは遺伝子発現レベルなどを含んでもよい。
【0040】
遺伝子は核酸(DNAおよびRNAの少なくとも一方)であってもよい。RNAはメッセンジャーRNA(mRNA:messenger RNA)、転移RNA(tRNA:transfer RNA)、リポソームRNA(rRNA:liposome RNA)、またはマイクロRNA(miRNA:microRNA)などであってもよい。DNAおよびRNAは、セルフリー(cell-free)DNA/RNA(cfDNA/RNA)、細胞内DNA/RNA、および細胞内DNA/RNAなどであってもよい。DNA/RNAは、リキッドバイオプシーによって得られてもよい。
【0041】
遺伝子検査において、対象の体液(血液、唾液、尿など)が得られてもよく、予め定められるかまたは任意の核酸の量(相対量、絶対量)が測定されてもよい。核酸は増幅されてもよい。核酸は、たとえばDNAチップ(マイクロアレイとも呼ばれる)またはシーケンサーなどの遺伝子分析デバイスを用いて測定されてもよい。
【0042】
遺伝子検査は、遺伝子置換の検査を含んでもよい。コピー数の変化は、遺伝子置換として測定されてもよい。一塩基多型(SNP:single nucleotide polymorphisms)の数および発現レベルの変化が測定されてもよい。融合遺伝子が測定されてもよい。たとえば、予め定められた遺伝子または塩基部位で融合が起こったか否かを決定してもよい。融合遺伝子の数が測定されてもよい。染色体異常が測定されてもよい。染色体異常の有無、および予め定められた領域内の量または頻度などが測定されてもよい。染色体異常は、構造変化、染色体数の変化、またはその両方であってもよい。腫瘍遺伝子置換(TMB)が測定されてもよい。腫瘍遺伝子の数またはTMGスコアが測定されてもよい。たとえばメチル化(部位の数、所与の部位における頻度)、アセチル化などのエピジェネティック変化の量が測定されてもよい。これらの置換が起こった部位の数、または予め定められた部位における変化の量が測定されてもよい。マイクロサテライト不安定性(MSI:Microsatellite instability)の分析または検査が行われてもよい。マイクロサテライト領域における変化した塩基の数または頻度が測定されてもよい。スプライシング異常が測定されてもよい。異常の有無が測定されてもよく、加えてその位置の数(番号または塩基数)、絶対数、頻度などが測定されてもよい。
【0043】
いくつかの実施形態において、説明変数は形態学的データであってもよい。生物学の分野における「形態学」という用語は一般的に、生物および生物の器官などの形状に関する特徴に対する包括的な識別方法を示す。
【0044】
たとえば説明変数は、たとえばレーザー顕微鏡、蛍光顕微鏡、電子顕微鏡、および原子間力顕微鏡(AFM:atomic force microscope)などの顕微鏡画像、X線画像、CT画像、ならびに超音波画像などの画像データなどを含んでもよい。生物学的画像は、器官または細胞などの顕微鏡像であってもよい。
【0045】
いくつかの実施形態において、説明変数は「オミクス」データであってもよい。「オミクス」という用語は一般的に、「オーム(ome)」という接尾辞によって表される物質または概念を示す。オミクスデータは、限定的でなくたとえば、ゲノム、トランスクリプトーム、プロテオーム、グライコーム、リピドーム、メタボローム、フィジオーム、フェノーム、およびバイオームなどに関するデータを含む。
【0046】
いくつかの実施形態において、診断データはRNA発現レベルを含んでもよい。RNA発現レベルは、限定的でなくたとえば、マイクロアレイ測定、配列決定、および電気泳動などの技術によって得られてもよい。RNA発現レベルは複数のRNAの発現レベルを含んでもよく、RNA発現プロファイルを含んでもよい。
【0047】
いくつかの実施形態において、分類子を用いて、対象の疾患を診断および/もしくは予知するか、または任意のタイプの医学的決定、予測、および/もしくは観察の実行および/もしくは支援を行ってもよい。疾患は癌であってもよい。癌は例として脳腫瘍、肺癌、乳癌、甲状腺癌、食道癌、肝臓癌、胆道癌、胃癌、膵臓癌、結腸直腸癌、前立腺癌、腎臓癌、膀胱癌、子宮癌、子宮頸癌、卵巣癌、皮膚癌、リンパ腫、白血病を含むが、それに限定されない。
【実施例
【0048】
<実施例1>
実施例として、miRNA発現データを用いてニューラルネットワーク分類子をトレーニングし、その分類子を用いて未知の対象(患者)の疾患状態を予測するか、または疾患状態が癌性および非癌性のいずれであるかを分類した。
【0049】
<1-1.ニューラルネットワークモデル>
図3は、この実施例に用いられた分類子300の構造を示す。この分類子300は本実施例に対するものであるがそれに限定されず、他の実施形態および実施例に適用され得る。この分類子は入力レイヤ310と、中間レイヤ(第1の中間レイヤ/隠されたレイヤ/密レイヤ321、および第2の中間レイヤ/連結レイヤ322)と、バッチ分類子340と、出力レイヤ330とを有する。
【0050】
入力レイヤ310は、診断データに関する800次元の入力データを受信し得る。特に本実施例において、これらの800の入力は、800のmiRNA発現レベルにそれぞれ対応する。入力レイヤ310は、この800のmiRNA発現レベルに関するデータを第1の中間レイヤ321およびバッチ分類子340に出力する。
【0051】
第1の中間レイヤ321は、密レイヤとして機能するように構成される。第1の中間レイヤ321は入力レイヤ310から800次元のデータを受信し、第2の中間レイヤ322に4次元のデータを出力する。
【0052】
バッチ分類子340は入力レイヤ310から800次元のデータを受信し、入力データのバッチIDを予測し、第2の中間レイヤ322に3次元のデータを出力する。図3のバッチ分類子340は3次元のデータを出力する。しかし、バッチ分類子からの出力データの次元はこれに限定されず、別の次元であり得る。
【0053】
第2の中間レイヤ330は、連結レイヤとして機能するように構成される。連結レイヤ322は、密レイヤ321から4次元の出力を受信し、かつバッチ分類子340から3次元の出力を受信し、それらを連結して7次元のデータにして、出力レイヤ330への出力とする。
【0054】
出力レイヤ330は、密レイヤとして機能するように構成される。出力レイヤ330は疾患状態を出力する。この出力は、800のmiRNAレベルの診断データによる分類子システム300全体の予測結果である。
【0055】
<1-2 サンプル>
3つのプロジェクトまたはコホートPJ001、PJ002、PJ003から合計102の尿サンプルを収集した。これらのうち、25の非癌および21の卵巣癌がPJ001プロジェクトからもたらされ、卵巣癌がPJ002プロジェクトからもたらされ、15の非癌がPJ003プロジェクトからもたらされた。よって、異なるプロジェクト間で非常にアンバランスなやり方でサンプルが収集された。
【0056】
<1-3 データの取得>
TORAY 3D-Geneマイクロアレイを用いてmiRNA発現レベルを測定した。品質管理および正規化を行った後、分類に用いるために、数千のmiRNAから最高平均発現レベルを有する800のmiRNAを選択した。102サンプルの全データセットを、トレーニングおよび検証のための81サンプル(80%)と、ホールドアウトテストのための21サンプル(20%)とに分けた。
【0057】
<1-4 ニューラルネットワークベースの分類子のトレーニング>
<1-4-1 バッチ分類子のトレーニング>
バッチ分類子340をトレーニングするために、ロジスティック回帰モデルを採用した。トレーニングセットを用いて、このモデルをトレーニングおよび検証した。L1正則化強度のハイパーパラメータCを調整するために、1つ抜き交差検証(LOOCV:leave-one-out cross validation)を用いた。
【0058】
4および5に対してユニットを調整し、最適化値4をもたらした。ハイパーパラメータC(L1)は0.001~10の間で調整され、最適化値C=0.001をもたらした。
【0059】
ホールドアウトテストデータセットにおいて、導出されたモデルを評価した。図4(A)はトレーニング結果の混同行列を示す。図4(B)はテスト結果の混同行列を示す。トレーニング結果は、バッチ分類子がトレーニングおよびテストデータセットの両方においてバッチラベルを正しく予測し得ることを示し、その全体の精度は0.96および0.93である。
【0060】
<1-4-2 主ニューラルネットワークのトレーニング>
図5は、図4に示される入力レイヤ310と、第1および第2の中間レイヤ321、322と、出力レイヤ330とを含む主ニューラルネットワークをトレーニングするための、ネットワークの視覚化またはニューラルネットワーク300bのネットワークグラフを示す。第1のレイヤ321は、隠されたレイヤとしての「密」レイヤである。第2のレイヤ322は連結レイヤである。トレーニングを受けるニューラルネットワーク300bにおいて、バッチ分類340は配置されない。代わりにバッチ入力レイヤ340bが配置される。
【0061】
81サンプル(80%)のトレーニングデータを、それらのバッチID(またはプロジェクト/コホートコード)と一緒に使用した。800次元の診断データを入力レイヤ310に入力した。3次元のバッチIDをバッチ入力レイヤ340bに入力した。バッチ入力レイヤ340bはバッチIDデータを連結レイヤ322に出力した。このやり方で、連結レイヤ322はバッチIDに関する正しい答を受信した。よって、連結レイヤ322は密レイヤ321から4次元の出力を受信し、かつバッチ入力レイヤ340bから3次元の出力を受信し、それらを連結して7次元のデータにして、出力レイヤ330への出力とした。このやり方で、主ニューラルネットワーク部分がトレーニングされた。
【0062】
<1-4-3 トレーニング済の分類子の検証>
どちらも上記で説明されたとおりにトレーニングされたバッチ分類子および主ニューラルネットワークを組み合わせて分類子を形成し、800のmiRNAレベルを入力として用いて疾患状態を予測した。
【0063】
ホールドアウトテストデータセットを用いて、図3に示されるトレーニング済の全分類子300を評価した。図6(A)および図6(B)は、それぞれトレーニング結果およびテスト結果の混同行列を示す。「N」は非癌性を表し、「C」は癌性を表す。テスト結果は、0.92の感度および0.88の特異性を示す。
【0064】
図7は、トレーニングセット(破線)およびテストセット(実線)に対するROC曲線(A)および精度-再現率曲線(B)を示す。図7(A)のROC曲線は、FPRおよびTPRによって表される。図7(B)の精度-再現率曲線は、「再現率」および「精度」によって表される。「再現率」はTPR/(TPR+FNR)によって定義され、「精度」はTPR/(TPR+FPR)によって定義される。ここでTPR、FPR、FNRは、それぞれ真陽性率(true positive rate)、偽陽性率(false positive rate)、および偽陰性率(false negative rate)を表す。テストセットのAUC(曲線下面積(Area Under the Curve)は、ROC曲線(図7(A))および精度-再現率曲線(図7(B))に対してそれぞれ0.981および0.962であった。
【0065】
比較として、バッチ分類子を有さないニューラルネットワークをトレーニングおよびテストする。図3を参照して、このニューラルネットワークモデルは、入力レイヤ310と、1つの隠されたレイヤ321と、出力レイヤ330とを有するが、バッチ分類子340を有さない構造を有する。図8(A)および図8(B)は、それぞれトレーニング結果およびテスト結果14の混同行列を示す。図(8)に示されるとおり、テスト結果は0.62の感度および0.88の特異性を示す。図9は、トレーニングセット(破線)およびテストセット(実線)に対する精度-再現率曲線(A)およびROC曲線(B)を示す。テストセットのAUCは、ROC曲線(図9(A))および精度-再現率曲線(図9(B))に対してそれぞれ0.865および0.899であった。
【0066】
よって、バッチ分類子を有するニューラルネットワークモデルは、感度、特異性、ならびに精度-再現率曲線およびROC曲線のAUCにおいてより良好な結果を示した。言い換えると、このニューラルネットワークモデルは、バッチ分類子を有さない対応するニューラルネットワークモデルよりも高い性能を有するようにトレーニングされた。
【0067】
本開示は以下の実施形態も含むが、これらに限定されない。
A001.プロセッサによって実行される、患者の疾患状態を予測するために分類子をトレーニングする方法であって、この方法が、
i)複数のバッチに由来する複数のトレーニングデータセットを受信することであって、各トレーニングデータセットが診断データと、バッチIDと、疾患IDとを含む、受信することと、
ii)受信された複数のトレーニングデータセットを用いてバッチ分類子を生成することと、
iii)受信された複数のトレーニングデータおよび生成されたバッチ分類子を用いて疾患状態分類子を生成することとを含む、方法。
A002.プロセッサによって実行される、対象の信頼性ある変数を予測するために分類子をトレーニングする方法であって、この方法が、
i)複数のバッチに由来する複数のトレーニングデータセットを受信することであって、各トレーニングデータセットが(1つ以上の)説明変数と、バッチIDと、ターゲット変数とを含む、受信することと、
ii)受信された複数のトレーニングデータセットを用いてバッチ分類子を生成することと、
iii)受信された複数のトレーニングデータおよび生成されたバッチ分類子を用いてターゲット変数分類子を生成することとを含む、方法。
A011.A001またはA002または実施形態のいずれか1つの方法であって、
疾患状態分類子を前記生成することが、ニューラルネットワークを用いることを含む、方法。
A012.A011または実施形態のいずれか1つの方法であって、
ニューラルネットワークが入力レイヤと、少なくとも1つの隠されたレイヤと、出力レイヤとを含み、
ステップiii)が、バッチ分類子の出力を少なくとも1つの隠されたレイヤのうちの1つに入力することを含む、方法。
A013.A011または実施形態のいずれか1つの方法であって、
ニューラルネットワークが入力レイヤと、複数の隠されたレイヤと、出力レイヤとを含み、
ステップiii)が、バッチ分類子の出力を複数の隠されたレイヤのうちの1つに入力することを含む、方法。
A014.A013または実施形態のいずれか1つの方法であって、
ステップiii)が、バッチ分類子の出力を複数の隠されたレイヤの中間から後半のうちの1つに入力することを含む、方法。
A015.A013または実施形態のいずれか1つの方法であって、
ステップiii)が、バッチ分類子の出力を複数の隠されたレイヤの最後の3分の1のうちの1つに入力することを含む、方法。
A016.A013または実施形態のいずれか1つの方法であって、
ステップiii)が、バッチ分類子の出力を複数の隠されたレイヤの最後の4分の1のうちの1つに入力することを含む、方法。
A017.A013または実施形態のいずれか1つの方法であって、
ステップiii)が、バッチ分類子の出力を出力レイヤの直前の最後の隠されたレイヤに入力することを含む、方法。
A021.A011~A017のいずれか1つまたは実施形態のいずれか1つの方法であって、
ニューラルネットワークが、パーセプトロン(P)、フィードフォワード(FF)、動径基底ネットワーク(RBF)、ディープフィードフォワード(DFF)、再帰型ニューラルネットワーク(RNN)、長/短期記憶(LSTM)、ゲート付き再帰型ユニット(GRU)、オートエンコーダ(AE)、変分AE(VAE)、ノイズ除去オートエンコーダ(DAE)、スパースAE(SAE)、マルコフ連鎖(MC)、ホップフィールドネットワーク(HN)、ボルツマンマシン(BM)、制限付きBM(RBM)、深層信念ネットワーク(DBN)、深層畳み込みネットワーク(DCN)、逆畳み込みネットワーク(DN)、深層畳み込み逆グラフィックスネットワーク(DCIGN)、敵対的生成ネットワーク(GAN)、液体状態マシン(LSM)、エクストリームラーニングマシン16(ELM)、エコー状態ネットワーク(ESN)、深層残差ネットワーク(DRN)、コホネンネットワーク(KN)、サポートベクターマシン(SVM:Support Vector Machine)、およびニューラルチューリングマシン(NTM)からなる群より選択される、方法。
A031.A001~A021のいずれか1つまたは実施形態のいずれか1つの方法であって、
ステップii)が、バッチ分類子をトレーニングすることを含む、方法。
A032.A031または実施形態のいずれか1つの方法であって、
バッチ分類子を前記トレーニングすることが、回帰モデルを用いることを含む、方法。
A033.A032または実施形態のいずれか1つの方法であって、
回帰モデルが線形回帰モデルである、方法。
A034.A033または実施形態のいずれか1つの方法であって、
回帰モデルがロジスティック回帰モデルである、方法。
A041.A001~A034のいずれか1つまたは実施形態のいずれか1つの方法であって、
診断データが遺伝子発現レベルを含む、方法。
A042.A001~A034のいずれか1つまたは実施形態のいずれか1つの方法であって、
診断データがRNA発現レベルを含む、方法。
A043.A042または実施形態のいずれか1つの方法であって、
RNA発現レベルがRNAに対するマイクロアレイ測定または配列決定の方法によって取得される、方法。
A044.A043または実施形態のいずれか1つの方法であって、
RNA発現レベルが、複数のRNA発現レベルを含むプロファイルを含む、方法。
A045.A042~A044のいずれか1つまたは実施形態のいずれか1つの方法であって、
RNAがcfRNA、細胞内のRNA、または細胞外小胞に含まれるRNAであってもよい、方法。
A046.A045または実施形態のいずれか1つの方法であって、
RNAが、miRNAおよびmRNAからなる群より選択される、方法。
A047.A043~A046のいずれか1つまたは実施形態のいずれか1つの方法であって、
RNAが、血液、血清、血漿、リンパ液、組織液、間質液、細胞間液、体腔液(cavity fluid)、漿膜液、胸水、腹水、心膜液、脳脊髄液、滑液(関節液)、および眼の房水(水性)からなる群より選択される体液に由来する、方法。
A048.A043~A046のいずれか1つまたは実施形態のいずれか1つの方法であって、
RNAが、生検によって得られたか、または外科手術中に得られた組織に由来する、方法。
A051.A001~A048のいずれか1つまたは実施形態のいずれか1つの方法であって、
疾患が癌である、方法。
A052.A051または実施形態のいずれか1つの方法であって、
癌が脳腫瘍、肺癌、乳癌、甲状腺癌、食道癌、肝臓癌、胆道癌、胃癌、膵臓癌、結腸直腸癌、前立腺癌、腎臓癌、膀胱癌、子宮癌、子宮頸癌、卵巣癌、皮膚癌、リンパ腫、白血病の群より選択される、方法。
B001.プロセッサによって実行される、患者の疾患状態を予測する方法であって、この方法が、
a)患者の疾患状態を予測するために分類子をトレーニングすることであって、
i)複数のコホートに由来する複数のトレーニングデータセットを受信することであって、各トレーニングデータセットが診断データと、コホートIDと、疾患IDとを含む、受信することと、
ii)受信された複数のトレーニングデータセットを用いて(複数のバッチIDを有する)バッチ分類子を生成することと、
iii)受信された複数のトレーニングデータおよび生成されたコホート分類子を用いて疾患状態分類子を生成することとを含む、トレーニングすることと、
b)患者に関する診断データを含む患者データを提供することと、
c)生成されたバッチ分類子を用いて、複数のバッチの中で患者データが適合すると考えられる複数のバッチの中のバッチIDを選択することと、
d)選択されたコホートIDおよび患者データを用いて患者の疾患状態を予測することとを含む、方法。
B001b.プロセッサによって実行される、患者の疾患状態を予測する方法であって、この方法が、
a)A001~A052のいずれか1つの方法を含む、患者の疾患状態を予測するために分類子をトレーニングすることと、
b)患者に関する診断データを含む患者データを提供することと、
c)生成されたコホート分類子を用いて、複数のコホートの中で患者データが適合すると考えられる複数のコホートの中のコホートIDを選択することと、
d)選択されたコホートIDおよび患者データを用いて患者の疾患状態を予測することとを含む、方法。
B002.プロセッサによって実行される、患者の疾患状態を予測する方法であって、この方法が、
a)患者の疾患状態を予測するために分類子を提供することであって、分類子が、
i)複数のバッチに由来する複数のトレーニングデータセットを受信することであって、各トレーニングデータセットが診断データと、バッチIDと、疾患IDとを含む、受信することと、
ii)受信された複数のトレーニングデータセットを用いてバッチ分類子を生成することと、
iii)受信された複数のトレーニングデータおよび生成されたバッチ分類子を用いて疾患状態分類子を生成することとによってトレーニングされる、分類子を提供することと、
b)患者に関する診断データを含む患者データを提供することと、
c)生成されたコホート分類子を用いて、複数のコホートの中で患者データが適合すると考えられる複数のコホートの中のコホートIDを選択することと、
d)選択されたコホートIDおよび患者データを用いて患者の疾患状態を予測することとを含む、方法。
B003.プロセッサによって実行される、患者の疾患状態を予測する方法であって、この方法が、
a)トレーニング済の疾患状態分類子を提供することであって、このトレーニング済の疾患状態分類子が、
患者の疾患状態を予測するための、入力レイヤ、少なくとも1つの隠されたレイヤ、および出力レイヤを有する主ニューラルネットワークアーキテクチャと、
バッチIDのリストを有するバッチ分類子であって、このバッチ分類子が少なくとも1つの隠されたレイヤのうちの1つにバッチIDを出力するように構成される、バッチ分類子とを含む、トレーニング済の疾患状態分類子を提供することと、
b)患者に関する診断データを含む患者データを疾患状態分類子に入力することと、
c)生成されたバッチ分類子を用いて、バッチのリストの中で患者データが適合すると考えられるバッチIDを選択することと、
d)選択されたバッチIDおよび患者データを用いて、患者の疾患状態を出力レイヤから出力することとを含む、方法。
C001.B001~B003のいずれか1つの方法を含む、プロセッサによって実行されるコンピュータプログラム。
D001.
C001のコンピュータプログラムを含むコンピュータ可読記憶媒体。
E001.患者の疾患状態を分類するコンピュータシステムであって、
少なくとも1つのプロセッサと、
その少なくとも1つのプロセッサによって実行される少なくとも1つのプログラムを記憶するメモリとを含み、このプログラムがA001~A052およびB001~B003の少なくとも1つを含む、コンピュータシステム。
【0068】
本開示のいくつかの実施形態および実施例を上述したが、これらの実施形態および実施例は本開示を例示するものである。たとえば、上述の各実施形態は、本開示を理解しやすいやり方で説明するために詳細に記載されたものであり、寸法、構成、材料、および回路は必要に応じて追加で変更されてもよい。上述の本開示の1つ以上の特徴が任意に組み合わされた実施形態も本開示の範囲に含まれる。添付の請求項は、本開示の趣旨および範囲から逸脱することなく実施形態に対する多数の修正を包含することが意図される。したがって、本明細書に開示される実施形態および実施例は例として示されたものであり、本開示の範囲を限定するものと考えられるべきではない。
【0069】
引用文献
リーク(Leek)、ジェフリー(Jeffrey)T.;ジョンソン(Johnson)、W.エバン(Evan);パーカー(Parker)、ヒラリー(Hilary)S.;ジャフェ(Jaffe)、アンドリュー(Andrew)E.;ストーレイ(Storey)、ジョン(John)D.(2012-03-15)。「高スループット実験におけるバッチ効果およびその他の望ましくない変動を取り除くためのsvaパッケージ(The sva package for removing batch effects and other unwanted variation in high-throughput experiments)。」バイオインフォマティクス(Bioinformatics)。28(6):882-883。

図1
図2
図3
図4
図5
図6
図7
図8
図9
【国際調査報告】