(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-23
(54)【発明の名称】複数の生体サンプル中の複数の分子を検出し定量化するためのシステム
(51)【国際特許分類】
C12M 1/00 20060101AFI20241016BHJP
C12Q 1/686 20180101ALI20241016BHJP
C12Q 1/6874 20180101ALI20241016BHJP
G01N 33/50 20060101ALI20241016BHJP
【FI】
C12M1/00 A
C12Q1/686 Z
C12Q1/6874 Z
G01N33/50 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024518610
(86)(22)【出願日】2022-09-29
(85)【翻訳文提出日】2024-05-22
(86)【国際出願番号】 IN2022050870
(87)【国際公開番号】W WO2023053140
(87)【国際公開日】2023-04-06
(31)【優先権主張番号】202141044465
(32)【優先日】2021-09-30
(33)【優先権主張国・地域又は機関】IN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】524111101
【氏名又は名称】アルゴリズミック・バイオロジクス プライベート・リミテッド
(74)【代理人】
【識別番号】110004196
【氏名又は名称】弁理士法人ナビジョン国際特許事務所
(72)【発明者】
【氏名】マノイ・ゴパラクリシュナン
【テーマコード(参考)】
2G045
4B029
4B063
【Fターム(参考)】
2G045AA25
2G045CA25
2G045CB03
2G045CB04
2G045CB07
2G045CB09
2G045CB12
2G045DA13
2G045DA14
2G045DA31
2G045DA36
2G045DA42
2G045FB06
2G045JA01
2G045JA03
4B029AA23
4B063QA01
4B063QQ41
4B063QS20
4B063QS25
4B063QX01
(57)【要約】
各プールに対するアッセイからのノイズの多い出力データに基づいて、複数の生体サンプル中の複数の分子を検出および定量するためのシステム(100)が提供される。システム(100)は、(i)少なくとも1つの入力に基づいて、複数の行(m)および複数の列(n)を有する感知行列を生成し、(ii)各プールにおけるアッセイを完了した後にノイズの多い出力データを取得し、(iii)非線形方程式に基づいて確率的グラフィカルモデルを生成する、(iv)各プールからのノイズの多い出力データを確率的グラフィカルモデルに提供し、ノイズの多い出力データとともに確率的グラフィカルモデルに対して厳密または近似的なベイズ推論を実行することにより、複数の生物学的サンプル中の分子の存在を同定および定量化することにより、複数の生物学的サンプル中の分子を検出および定量化する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
各プールに対する試験からのノイズの多い出力データに基づいて、複数の生体サンプル中の複数の分子を検出および定量するためのシステム(100)であって、
命令セットを記憶するメモリ(104)と;
一以上の操作を実行するために前記命令セットを実行するように構成されているプロセッサ(102)とを含み、前記プロセッサ(102)は、サンプル解読装置(106)を使用して、ユーザからの少なくとも1つの入力に基づいて、複数の行(m)および複数の列(n)を有する検出行列を生成するように構成されており、複数の生体サンプルが、該検出行列に基づいて組み合わされるか、またはグループ化されて、複数のプールを生成し;
検査機(108)から、各プールの試験終了後に各プールからのノイズを有する出力データである、ノイズの多い出力データを取得し;
サンプル解読装置(106)を使用して、複数の生体サンプル中の複数の分子を検出および定量化するための非線形方程式に基づき、確率的グラフィカルモデルを生成し、当該非線形方程式は、生成された感知行列を構成する複数の変数、複数のプールの複数の出力データ、および各分子の定量的測定値に基づいて生成され、当該複数の変数は、確率的グラフィカルモデル中の条件文として変換され;
サンプル解読装置(106)を使用して、各プールからのノイズの多い出力データを確率的グラフィカルモデルに提供し、ノイズの多い出力データと共に確率的グラフィカルモデルに対して、厳密または近似ベイズ推論を実行することによって、複数の生体サンプル中の複数の分子の存在を特定および定量化することによって、複数の生体サンプル中の複数の分子を検出および定量化することを特徴とするシステム(100)。
【請求項2】
請求項1に記載のシステム(100)であって、前記プロセッサ(102)は、前記複数の生体サンプル中の検出され定量された分子に基づいて、所定状態を検出するように構成され、前記所定状態は、感染症、癌、遺伝病、炎症状態、メタボリックシンドローム、心疾患、または糖尿病のうちの少なくとも1つを含むシステム(100)。
【請求項3】
検査機(108)が、ポリメラーゼ連鎖反応(PCR)装置、高速液体クロマトグラフィー(HPLC)、マイクロアレイスクリーン、次世代シーケンシング(NGS)装置、質量分析装置、核磁気共鳴(NMR)分光法、またはラマン分光法である、請求項1に記載のシステム(100)。
【請求項4】
前記非線形方程式が、v=f(A g(u))からなる、請求項1に記載のシステム(100)であって、
(a)Aは、複数の行(m)および複数の列(n)を有する検出行列であり;
(b)uは、次元nの列ベクトルであり、ここで、nは、検査される複数の生物体サンプルの数を示し、ここで、列ベクトル(u)の検出は、複数の生体サンプル中の複数の分子の存在または非存在を検出し、複数の分子が複数の生体サンプル中に存在する場合に、複数の分子を定量することを可能にし;
(c)vは、次元mのベクトルであり、vは、各プールからの出力データとみなされ、v'は、各プールからの出力データのノイズ出力データとみなされ;
(d)gは、n個の変数の非線形ベクトル値関数であり;
(e)fはm個の変数の非線形ベクトル値関数であることを特徴とするシステム(100)。
【請求項5】
厳密ベイズ推論または近似ベイズ推論を実行することは、確率的グラフィカルモデルの事前条件および調節条件をシステム的に指定することからなる、請求項1に記載のシステム(100)。
【請求項6】
請求項2に記載のシステム(100)であって、プロセッサ(102)は、
検出行列に非ゼロエントリの次数が複数ある場合に、ノイズの多い線形逆問題をノイズの多い非線形逆問題に変換し;
fおよびgを恒等関数として考慮する代わりに、fおよびgをlog関数およびexp関数として考慮することにより、非線形方程式v=log(A e
u)を構築するステップであって、非ゼロエントリは、検出行列(A)の複数の列(n)における各サンプルが少なくとも1つの信号を表すことを示すことを特徴とするシステム(100)。
【請求項7】
プロセッサ(102)が、(i)試験のサイズに基づいて第1の検出行列(306A)を作成し、続いて(ii)第2の検出行列を作成し、(iii)その後、第2の検出行列(306B)または以前の検出行列に基づいてn番目の検出行列(306N)を作成することにより、n(n=l,2,3,...)回の反復を行い、プーリングにおいて圧縮を得られるよう検出行列を作成するように構成されており、ここで、第2の検出行列(306B)のサイズまたは第2の検出行列(306B)のプールの数は、第1の検出行列(306A)のプールの数よりも小さいことを特徴とする請求項1に記載のシステム(100)。
【請求項8】
(i)複数の行(m)は、複数の生体サンプルの検査のために作成される複数のプールを示し、(ii)複数の列(n)は、試験される複数の生体サンプルを示す、請求項1に記載のシステム(100)。
【請求項9】
前記少なくとも入力が、試験の名称、および試験のサイズの少なくとも1つを含み、試験のサイズが、検査される生体サンプルの総数、および生体サンプルの総数のうち陽性と推定される生体サンプルの数を示す、請求項1に記載のシステム(100)。
【請求項10】
各プールの試験からのノイズの多い出力データに基づいて、複数の生体サンプル中の複数の分子を検出および定量するためのプロセッサ(102)実装方法であって:
サンプル解読装置(106)を使用して、ユーザからの少なくとも1つの入力に基づいて、複数の行(m)および複数の列(n)を有する検出行列を生成する工程であって、複数の生体サンプルが、感知行列に基づいて組み合わされるか、またはグループ化されて、複数のプールを生成する工程と
検査機(108)から、各プールの試験終了後にノイズの多い出力データを取得する工程であって、ノイズの多い出力データは、各プールからのノイズを含む出力データである工程と
サンプル解読装置(106)を使用して、複数の生体サンプル中の複数の分子を検出および定量化するための非線形方程式に基づく確率的グラフモデルを生成する工程であって、非線形方程式は、生成された感知行列を構成する複数の変数、複数のプールの複数の出力データ、および各分子の定量的尺度に基づいて生成され、複数の変数は、確率的グラフモデル中の条件文として変換される、ステップと 試料解読装置(106)を使用して、各プールからのノイズの多い出力データを確率的グラフィカルモデルに提供し、ノイズの多い出力データと共に確率的グラフィカルモデルに対して厳密または近似ベイズ推論を実行することによって、複数の生体サンプル中の複数の分子の存在を同定および定量化することによって、複数の生体サンプル中の複数の分子を検出および定量化する工程とを含むプロセッサ(102)実装方法。
【請求項11】
前記方法が、前記複数の生物学的試料中の検出され定量された分子に基づいて、関心対象の状態を検出することをさらに含み、前記関心対象の状態が、感染症、癌、遺伝病、炎症状態、メタボリックシンドローム、心疾患、または糖尿病のうちの少なくとも1つを含む、請求項10に記載のプロセッサ(102)の実装方法。
【請求項12】
前記非線形方程式が、v=f(A g(u))からなり
(a)Aは、複数の行(m)および複数の列(n)を有する検出行列であり
(b)uは、次元nの列ベクトルであり、ここで、nは、試験される複数の生物学的サンプルの数を示し、ここで、列ベクトル(u)の検出は、複数の生体サンプル中の複数の分子の存在または非存在を検出し、複数の分子が複数の生体サンプル中に存在する場合に、複数の分子を定量することを可能にし;
(c)vは、次元mのベクトルであり、vは、各プールからの出力データとみなされ、v'は、各プールからの出力データのノイズ出力データとみなされ;
(d)gは、n個の変数の非線形ベクトル値関数であり;
(e)fはm個の変数の非線形ベクトル値関数である、請求項10に記載のプロセッサ(102)実装方法。
【請求項13】
厳密ベイズ推論または近似ベイズ推論を実行することは、確率的グラフィカルモデルの事前および規制条件をシステム的に指定することからなる、請求項10に記載のプロセッサ(102)実装方法。
【請求項14】
検出行列に非ゼロエントリの次数が複数ある場合に、ノイズの多い線形逆問題をノイズの多い非線形逆問題に変換するステップと
fおよびgを恒等関数として考慮する代わりに、fおよびgをlogおよびexp関数として考慮することにより、非線形方程式v=log(A e
u)を構築するステップであって、非ゼロエントリは、検出行列(A)の複数の列(n)における各サンプルが少なくとも1つの信号を表すことを示す、ステップとさらに備える請求項12に記載のプロセッサ実装方法。
【請求項15】
(i)試験のサイズに基づいて第1の検出行列を作成し、(ii)その後、第1の検出行列に基づいて第2の検出行列を作成することにより、プーリングにおける圧縮を得るための検出行列を作成するためにn(n=l,2,3,....)の反復を実行し、(iii)その後、第2の検出行列または以前の検出行列に基づいてn番目の検出行列を作成し、ここで、第2の検出行列のサイズまたは第2の検出行列のプールの数は、第1の検出行列のプールの数よりも小さい、請求項10に記載のプロセッサ実装方法。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、参照されることにより本明細書の一部を構成する、2021年9月30日に出願されたインド仮出願第202141044465号の優先権を主張するものである。
【背景技術】
【0002】
本明細書における実施形態は、概して、逆問題を解決するものであり、非線形逆問題を確率的図形モデルを使用して解決するシステムと方法とを提供する。
より具体的には、本明細書における実施形態は、各プールに対する分析から得られた雑データを元に、複数の生体サンプル中の複数の分子を検出し量定するシステムと装置とを提供する。さらに、当該システム及び方法は、検出され量定された複数の生体サンプルにおける分子を元に、興味の状況を検出する。
【0003】
公共の健康診断においては、通常、コストが重視される。殆どの個人は、所定の状態に否定的であることが多い。それらは、費用の観点から、多くの国で実施されていないか、広い意味で実施されていない。
【0004】
逆問題は、医学診断、農業、ロボット工学、光学、地球物理学、画像形成学、音響学、土木工学および機械工学と言った多くの科学およびエンジニアリング分野に応用されている。"順問題"の場合には、出力(結果又は反応)が、入力(原因)から推論される。対照的に"逆問題"では、理由又は入力パラメーターを結果又は反応(出力)から推論することを要求される。逆問題は通常順問題と逆問題とを含む二つのカテゴリーに分類される。
【0005】
線形逆問題は、通常、行列Aにベクトルxを乗じて得られたy=Axの列ベクトルとして定式化される。ここで、x=(x1,x2...xn)Tは、ある信号を表す(例えば、非負の実数の)列ベクトルとする。例えば、iが1からnに変化するとき、xi第i番目のサンプルに存在するある分子検体のコピー数を表すこととなろう。検出行列又はプーリング行列Aは、全ての成分が非負実数であるm行とn列からなる行列である。
【0006】
今y'をyのノイズ測定値とする。例えば、サンプルにおいて、Aの列はサンプルをプールへの統合の仕方を説明する。番号yjは第j番目のプールの分子検体のコピー数を表す。番号yj'は、例えば定量的PCR検査のような分子診断試験法を用いることにより得られる測定値yjを表す。
【0007】
線形問題は、Aとy'からxを推論する問題である。m<nの場合、それは無限に多くの解法を無限に許容し、固有の解法を効果的に特定するため、解法の規則性や従来の情報のいずれかについて仮定が必要となる。代表的な規則性の仮定として、スパース性と言うものがあり、それはベクトルxが非ゼロ成分を殆ど有してないことを意味する。この状況に対して得られるアルゴリズムは、信号処理文献において圧縮検出として知られるものであり、統計学の文献に於いては、スパース回帰として知られるものである。線形逆問題は、良く研究されており、解くのに成功している。
【0008】
しかしながら線形逆問題の標準アルゴリズムは、コンピュータより実行される必要がある。このようにして、実数は、コンピュータにおいて、浮動小数点としてあらわされる。遭遇するであろう非ゼロ値の範囲が複数の度数に渡る場合には、この問題をコンピュータ上で浮動小数点で表すことは、数値的不正確性につながる。例として挙げると、定量的ポリマラーゼ連鎖反応(qPCR)のような検査法における分子数の測定がある。これらの数の範囲は、一分子から一兆分子に渡るであろう。
【0009】
さらに、実世界の逆問題は非線形であり、問題の複雑性ゆえに、線形逆問題とは異なり、十分に探求されていない。非線形逆問題は、v=f(u)タイプのものである。vのノイズ測定値をv'、関数をfとすると、ベクトルuを得たいと考えるであろう。非線形逆問題は解決不可能と考えられてきた。基本的にこの分野における唯一の成功は、逆散乱問題を関係がある。
【0010】
したがって、逆問題を解くのに既存の技術に存在する上記技術的欠陥に対応する必要性が存在する。
【発明の概要】
【発明が解決しようとする課題】
【0011】
上記に鑑み、本明細書における実施形態は、各プールに対する分析から得られた雑データを元に、複数の生体サンプル中の複数の分子を検出し量定するシステムと装置とを提供する。
【課題を解決するための手段】
【0012】
第1の態様では、各プールの試験からのノイズの多い出力データに基づいて、複数の生体サンプル中の複数の分子を検出および定量するためのシステムが提供される。このシステムは、命令セットを記憶するメモリと、(i)サンプル顔独装置を使用して、ユーザからの少なくとも1つの入力に基づいて、複数の行(m)および複数の列(n)を有する検出行列を生成し、複数の生体サンプルは、検出行列に基づいて結合またはグループ化されて、複数のプールを生成し、(ii)検査機から、各プールにおける検査を完了した後のノイズの多い出力データを取得し、当該ノイズの多い出力データは、各プールからのノイズを含む出力データであり、(iii)サンプル解読装置を使用して、複数の生体サンプル中の複数の分子を検出し定量化するための非線形方程式に基づく確率的グラフィカルモデルを生成し、 該非線形方程式は、生成された感知行列を構成する複数の変数、該複数のプールの複数の出力データ、および各分子の定量値に基づいて生成され、(iv)該サンプル解読装置を使用して、各プールからのノイズの多い出力データを確率的グラフィカルモデルに提供して、複数の生体サンプルにおける複数の分子を検出して定量化し、ノイズの多い出力データと共に確率的グラフィカルモデルに対して厳密または近似ベイズ推論を実行することにより、複数の生体サンプルにおける複数の分子の存在を特定し定量化するために、命令セットを実行するように構成されるプロセッサとを含む。複数の変数は、確率的グラフィカルモデルの条件文として変換される。
【0013】
いくつかの実施形態において、前記プロセッサは、複数の生体サンプル中の検出され定量された分子に基づいて、関心状態を検出するように構成される。関心状態は、感染症、癌、遺伝病、炎症状態、メタボリックシンドローム、心疾患、または糖尿病のうちの少なくとも1つを含む。
【0014】
いくつかの実施形態において、前記検査機は、ポリメラーゼ連鎖反応(PCR)装置、高速液体クロマトグラフィー(HPLC)、マイクロアレイスクリーン、次世代シーケンシング(NGS)装置、質量分析装置、核磁気共鳴(NMR)分光法、またはラマン分光法である。
【0015】
いくつかの実施形態において、非線形方程式は、v=f(A g(u))を含み、ここで、
(a)Aは、複数の行(m)および複数の行(n)を有する検出行列であり;
(b)uは、次元nの列ベクトルであり、ここで、nは、検査される複数の生体サンプルの数を示し、列ベクトル(u)の検出は、複数の生体サンプル中の複数の分子の存在または非存在を検出し、複数の分子が複数の生体サンプル中に存在する場合に、複数の分子を定量することを可能にし;
(c)vは、次元mのベクトルであり、ここで、vは、各プールからの出力データとみなされ、v'は、各プールからの出力データのノイズの多い出力データとみなされ;
(d)gは、n個の変数の非線形ベクトル値関数であり;
(e)fはm個の変数の非線形ベクトル値関数である、ことを特徴とする。
【0016】
いくつかの実施形態において、厳密ベイズ推論または近似ベイズ推論を実行することは、確率的グラフィカルモデルの従来の規制条件をシステム的に特定することを含む。
【0017】
いくつかの実施形態において、前記プロセッサは、(i)検出行列に非ゼロ成分の複数オーダ存在する場合、ノイズの多い線形逆問題をノイズの多い非線形逆問題に変換し、(ii)fおよびgを恒等関数として考慮する代わりにlogおよびexp関数として考慮することによって非線形方程式v=log(A eu)を構築するように構成され、ここで非ゼロ成分は、検出行列(A)の複数の列(n)内の各サンプルが少なくとも1つの信号を表すことを示す。
【0018】
いくつかの実施形態では、前記プロセッサは、(i)試験のサイズに基づいて第1検出行列を作成し、(ii)続いて、第1検出行列に基づいて第2検出行列を作成し、(iii)その後、第2検出行列または以前の検出行列に基づいてn番目検出行列を作成し、ここで、第2検出行列のサイズまたは第2検出行列のプールの数は、第1検出行列のプールの数よりも小さくなっており、これらにより、プーリングにおける圧縮を得るための検出行列を作成するためにn(n=l,2,3,.... )の反復を実行することを特徴とする。
【0019】
いくつかの実施形態において、(i)複数の行(m)は、複数の生体サンプルの検査のために作成される複数のプールを示し;そして(ii)複数の列(n)は、検査される複数の生体サンプルを示す。
【0020】
いくつかの実施形態では、少なくとも入力は、試験の名称、試験のサイズ、および生体サンプルの総数のうち陽性と推定される生体サンプルの数のうちの少なくとも1つを含む。試験のサイズは、検査される生体サンプルの総数を示す。
【0021】
別の態様において、各プールに対する検査からのノイズの多い出力データに基づいて、複数の生体サンプル中の複数の分子を検出および定量するためのプロセッサ実装方法が提供される。本方法は、(i)サンプル解読装置を用いて、ユーザからの少なくとも1つの入力に基づいて、複数の行(m)および複数の列(n)を有する検出行列を生成し、当該複数の生体サンプルを検出行列に基づいて結合またはグループ化して、複数のプールを生成し、(ii)検査機から、各プールにおける検査終了後のノイズの多い出力データを取得するステップであって、ノイズの多い出力データは、各プールからのノイズを含む出力データであり、(iii)サンプル解読装置を用いて、複数の生体サンプル中の複数の分子を検出および定量するための非線形方程式に基づく確率的グラフィカルモデルを生成し、該非線形方程式は、生成された検出行列を構成する複数の変数、該複数のプールの複数の出力データ、および各分子の定量値に基づいて生成され、(iv)該サンプル解読装置を使用して、各プールからのノイズの多い出力データを確率的グラフィカルモデルに提供することにより、複数の生体サンプルにおける複数の分子を検知し定量化するとともに、ノイズの多い出力データと共に確率的グラフィカルモデルに対して厳密または近似ベイズ推論を実行することにより、複数の生体サンプルにおける複数の分子の存在を特定し、定量化する。複数の変数は、確率的グラフィカルモデルの条件文として変換される。
【0022】
いくつかの実施形態において、本方法は、さらに、複数の生体サンプル中の検出され定量された分子に基づいて、関心状態を検出することをさらに含む。関心状態は、感染症、癌、遺伝病、炎症状態、メタボリックシンドローム、心疾患、または糖尿病のうちの少なくとも1つを含む。
【0023】
いくつかの実施形態において、非線形方程式は、v=f(A g(u))を含み、ここで、
(a)Aは、複数の行(m)および複数の列(n)を有する検出行列であり;
(b)uは、次元nの列ベクトルであり、ここで、nは、検査される複数の生体サンプルの数を示し、ここで、列ベクトル(u)の検出は、複数の生体サンプル中の複数の分子の存在または非存在を検出し、複数の分子が複数の生体サンプル中に存在する場合に、複数の分子を定量することを可能にし;
(c)vは、次元mのベクトルであり、vは、各プールからの出力データとみなされ、v'は、各プールからの出力データのノイズの多い出力データとみなされる;
(d)gは、n個の変数の非線形ベクトル値関数であり:
(e)fはm個の変数の非線形ベクトル値関数である。
【0024】
いくつかの実施形態において、厳密ベイズ推論または近似ベイズ推論を実行することは、確率的グラフィカルモデルの従前規制条件をシステム的に特定することを含む。
【0025】
いくつかの実施形態において、本方法は、(i)検出行列に非ゼロ成分の倍数オーダー存在する場合に、ノイズの多い線形逆問題をノイズの多い非線形逆問題に変換することと、(ii)fおよびgを恒等関数として考慮する代わりにlogおよびexp関数として考慮することによって非線形方程式v=log(A eu)を構築することとをさらに含み、非ゼロ成分は、検出行列(A)の複数の列(n)における各サンプルが少なくとも1つの信号を表すことを示す。
【0026】
いくつかの実施形態では、本方法は、n(n=l,2,3,....)の反復を実行し、(i)試験のサイズに基づいて第1検出行列を作成し、(ii)その後、第1検出グ行列に基づいて第2検出行列を作成し、(iii)その後、第2検出行列または以前の検出行列に基づいてn番目の検出行列を作成し、ここで、第2検行列のサイズまたは第2検出行列のプールの数は、第1検出行列のプールの数よりも小さい。
【0027】
本明細書の実施形態は、システムおよび方法が、検査用の単一ラウンドの組み合わせプーリングからから、複数の生体サンプル中の複数の分子の存在または非存在を、より少ない時間で正確に検出および定量する技術的に重要なアプローチを提供する点で有利である。
【0028】
本明細書における実施形態のこれらおよび他の態様は、以下の説明および添付の図面と併せて考慮すると、よりよく認識され、理解されるであろう。しかしながら、以下の記載は、好ましい実施形態およびその多数の具体的な詳細を示すが、例示のために与えられたものであり、限定するものではないことを理解されたい。その精神を逸脱することなく、本明細書における実施形態の範囲内で多くの変更および修正を行うことができ、本明細書における実施形態は、そのようなすべての修正を含む。
【図面の簡単な説明】
【0029】
本明細書の実施形態は、図面を参照した以下の詳細な説明からよりよく理解されるであろう。
【0030】
【
図1】本明細書のいくつかの実施形態による、複数の生体サンプル中の複数の分子を検出および定量するためのシステムを示すブロック図である。
【0031】
【
図2】本明細書のいくつかの実施形態による、ポリメラーゼ連鎖反応(PCR)から1つまたは複数の生体サンプルの検査結果を検出または取り出すための、
図1のシステムの使用を例示するブロック図である。
【0032】
【
図3】本明細書のいくつかの実施形態による、1以上の生体サンプルの検査結果を検出または取り出すための、
図1のシステムの使用を示す例示的なブロック図であって、ここでプーリング行列は、1回以上の反復プーリングから作成される。
【0033】
【
図4】本明細書のいくつかの実施形態による、各プール上の検査からのノイズの多い出力データに基づいて、複数の生体サンプル中の複数の分子を検出および定量するための方法を示す。
【0034】
【
図5A】本明細書のいくつかの実施形態による、複数の生体サンプル中の複数の分子の検出および定量する際における
図1のシステムの精度を示す実験結果の表である。
【0035】
【
図5B】本明細書のいくつかの実施形態による、複数の生体サンプル中の複数の分子の検出および定量するに際における
図1のシステムの計算効率を示す実験結果の表である。
【0036】
【
図5C】既存の線形ソルバーまたは圧縮検出ソルバーと比較して、複数の生体サンプル中の複数の分子の検出および定量する際における
図1のシステムの感度を示す例示的なグラフ表示である。
【0037】
【
図5D】本明細書のいくつかの実施形態による、既存の線形ソルバーまたは圧縮検出ソルバーと比較して、複数の生体サンプル料中の複数の分子を検出および定量化する際の、
図1のシステムの特異性を示す例示的なグラフ表示である。
【0038】
【
図6】本明細書のいくつかの実施形態による、
図1のシステムを使用して生成される例示的な24*64検出行列である。
【0039】
【
図7】本明細書の実施形態による、コンピューティングデバイスまたは分子コンピュータのコンピュータアーキテクチャの概略図である。
【発明を実施するための形態】
【0040】
本明細書における実施形態ならびにその様々な特徴および有利な詳細は、添付の図面に図示され、以下の説明において詳述される非限定的な実施形態を参照して、より十分に説明される。周知の構成要素および処理技術の説明は、本明細書における実施形態を不必要に不明瞭にしないように省略する。本明細書で使用される例は、単に、本明細書の実施形態が実施され得る方法の理解を容易にし、当業者が本明細書の実施形態を実施することをさらに可能にすることを意図している。したがって、実施例は、本明細書における実施形態の範囲を限定するものとして解釈されるべきではない。
【0041】
前述したように、非線形逆問題を解く技術が必要とされている。本明細書の実施形態は、確率的グラフィカルモデルを使用して非線形逆問題を解くためのシステムおよび方法を提供することによって、これを達成する。ここで図面、より詳細には
図1~
図7を参照するに、同様の参照文字は図全体を通して一貫して対応する特徴を示しており、好ましい実施形態が示されている。
【0042】
図1は、本明細書のいくつかの実施形態に係る、複数の生体サンプル中の複数の分子を検出および定量化するためのシステムを示すブロック図である。システム100は、プロセッサ102と、プロセッサ102によって実行可能であり、システム100に(i)サンプル解読装置106を使用して、ユーザからの少なくとも1つの入力に基づいて、複数の行(m)および複数の列(n)を有する検出行列を生成させ、複数の生体サンプルを検出行列に基づいて組み合わせまたはグループ化して複数のプールを準備し、(ii)検査機108を用いて、各プールにおける検査完了後のノイズの多い出力データを測定し、(iii)次式で定義される非線形方程式を作成する、コンピュータ実行可能命令をその上に記憶させたメモリ104とを含む
v=f(A g(u))
【0043】
ここで、(a)Aは、m行n列の検出行列であり;(b)uは、次元nの列ベクトルであり、nは、検査される複数の生体サンプルの数を示し、列ベクトル(u)の検出は、複数の生体サンプル中の分子の有無を検出し、分子が複数の生体サンプル中に存在する場合、分子を定量化することを可能にし;(c)vは、次元mのベクトルであり、vは、各プールからの出力データとみなされ、v'は、各プールからのノイズの多い出力データとみなされ;(d)gは、n個の変数の非線形ベクトル値関数であり;(e)fは、m個の変数の非線形ベクトル値関数であり、(ii)サンプル解読装置106を用いて、非線形方程式に基づく確率的グラフィカルモデルを生成し、(iii)サンプル解読装置106を用いて、各プールからのノイズの多い出力データを確率的グラフィカルモデルに提供することにより、複数の生体サンプル中の複数の分子を検出し定量化し、ノイズの多い出力データとともに確率的グラフィカルモデルに対して厳密ベイズ推論または近似ベイズ推論を実行することによって、複数の生体サンプル中の複数の分子の存在を特定し定量化する。ノイズを含む出力データは、各プールからのノイズを含む出力データである。一例では、ノイズの多い出力データは各プールの増幅曲線からのCt値である。PCR装置に由来するCt値である。検査は、実験室医学、採鉱学、薬理学、環境生物学、分子生物学において、標的実体の存在、量、または機能活性を定性的に評価または定量的に測定するための調査手順である。
【0044】
非線形方程式は、生成された検出行列を構成する複数の変数、複数のプールの複数の出力データ、および各分子の定量値に基づいて生成される。複数の変数は、確率的グラフィカルモデルの条件文として変換される。条件文は、実行された推論に基づいて分子の検出と定量化に関する決定を行うことを可能にする。
【0045】
いくつかの実施形態では、確率的グラフィカルモデルは、Stanなどの確率的プログラミング言語を使用して生成される。即ち(i)非線形方程式を記述し、(ii)複数の変数をStanの条件文として変換し、(iii)コード仕様から、確率的プログラミング言語インタプリタ/コンパイラを使用して、基礎となる確率的グラフィカルモデルを自動的に生成する。条件付けされた変数の観測値は、マルコフ連鎖モンテカルロ推論アルゴリズムのような厳密または近似ベイズ推論の際に供給される。
【0046】
非線形関数(f、g)は、引数ベクトルの各成分に適用される(log、exp)、(softmax、identity)、(RELU、identity)、または(tanh、identity)の少なくとも1つであるが、これらに限定されない。
【0047】
確率的グラフィカルモデルでは、非線形方程式を解くための事前情報と規則性条件とを系統的に指定することができる。例えば、1つの規則条件はスパース性である。もう一つの規則性条件は、ほとんどの成分が閾値以下の数値を持ち、閾値をはるかに超える数値を持つ成分が非常に少ない場合である。このような規則性は、例えば血液サンプルの代謝物レベルを測定する質量分析データで見られる。数値が高い数少ないサンプルは、代謝物の値が異常に高く、病気の状態を示している可能性がある。このように、確率的グラフィカルモデルでは、スパース性だけでなく、他の種類の規則性をモデル化し、利用することができる。
【0048】
いくつかの実施形態では、システム100は、fとgが恒等関数である場合に線形逆問題を解くことを可能にする。
【0049】
上述した非線形逆問題のクラスは、n個の入力ノードiの発火パターンが出力ノードの発火パターンから特定される神経回路網の単一層として解釈することもできる。そのような層は、そのような関係のシーケンスが含まれるように構成することができる:
v1 = f(A01 g(u))
v2 = f(A12 g(v1))
v3 = f(A23 g(V2))
・・・
vd = f(Ad-l,d g(vd-1))
【0050】
システム100は、層1=1~dのすべての行列Ai-i,iで、非線形関数(f,g)で、Vdのノイズの多い測定値Vd'の場合に、確率的グラフィカルモデルに対して適切なマルコフ連鎖モンテカルロ推論アルゴリズムを実行することによって、列ベクトル(u)を推定する。
【0051】
幾つかの実施形態では、サンプル解読装置106は、試験の名称、及び試験のサイズを含む少なくとも1つの入力に基づいて検出マトリクスを生成し、試験のサイズは、検査される生体サンプルの総数、及び生体サンプルの総数のうち陽性と推定されるサンプルの数を示す。少なくとも1つの入力は、ユーザによってユーザ機器110を介して与えられることができる。
【0052】
いくつかの実施形態において、検査機は、ポリメラーゼ連鎖反応(PCR)装置、高速液体クロマトグラフィー(HPLC)、マイクロアレイスクリーン、次世代シーケンシング(NGS)装置、質量分析装置、核磁気共鳴(NMR)分光法、またはラマン分光法である。
【0053】
システム100は、マルコフ連鎖モンテカルロ(MCMC)、変分推論、メッセージパッシング、または厳密推論を含む少なくとも1つの技術を使用して、厳密または近似ベイズ推論を実行する。
【0054】
いくつかの実施形態において、生体サンプルは、血液試料、尿試料、唾液試料、綿棒試料、任意の生物流体または体液、任意の組織試料、歯試料、汗試料、爪試料、皮膚試料、毛髪試料、または糞便試料であってもよいが、これらに限定されない。分子には、感染性物質または微生物分析物、または疾病原因物質または病原体、汚染物質、血液分析物、化学種または化学物質、タンパク質、核酸、対立遺伝子、マーカー領域、および任意の生体分子が含まれるが、これらに限定されない。感染性病原体には、ウイルス、細菌、真菌、原虫および蠕虫が含まれるが、これらに限定されない。化学種としては、ナトリウム(Na)、カリウム(K)、尿素、グルコース、クレアチニンが挙げられるが、これらに限定されない。化学種または化学物質は、化学的に同一の分子実体からなる物質である。タンパク質は、アミノ酸残基がペプチド結合で結合した生体分子である。タンパク質としては、抗体、酵素、ホルモン、輸送タンパク質、貯蔵タンパク質などが挙げられるが、これらに限定されない。核酸としては、デオキシリボ核酸(DNA)、リボ核酸(RNA)、ペプチド核酸(PNA)などが挙げられる。生体分子とは、細胞や生物によって産生されるあらゆる分子のことである。検査数は複合化された検査の数であってよい。
【0055】
システム100は、クラウドコンピューティング装置(パブリッククラウドまたはプライベートクラウドの一部であってもよい)、サーバ、またはコンピューティング装置の少なくとも1つであってもよい。サーバは、スタンドアロンサーバ、クラウド上のサーバなどの少なくとも1つであってもよい。コンピューティング装置は、パーソナルコンピュータ、ノートブック、タブレット、デスクトップコンピュータ、ラップトップ、ハンドヘルドデバイス、モバイルデバイス等であってもよいが、これらに限定されない。また、システム100は、マイクロコントローラ、プロセッサ、システムオンチップ(SoC)、集積チップ(IC)、マイクロプロセッサベースのプログラム可能な民生用電子機器などのうちの少なくとも1つであってもよい。システム100は、通信ネットワークを用いてユーザ機器と接続されてもよい。通信ネットワークの例としては、インターネット、有線ネットワーク、無線ネットワーク(Wi-Fiネットワーク、セルラーネットワーク、Wi-Fiホットスポット、Bluetooth、またはZigbee)などが挙げられるが、これらに限定されない。
【0056】
システム100は、複数の生体サンプル中の検出および定量化された分子に基づいて、関心対象の状態を検出するようにさらに構成され、関心対象の状態は、感染症、癌、遺伝病、炎症状態、メタボリックシンドローム、心疾患、または糖尿病のうちの少なくとも1つを含む。
【0057】
システム100は、医療診断検査、農業、ロボット工学、光学、地球物理学、イメージング、音響学、土木工学および機械工学における非線形逆問題の解決に使用することができる。
【0058】
例示的な一実施形態では、システム100は、定量ポリメラーゼ連鎖反応(qPCR)のための単一ラウンド組み合わせプーリングから個々のサンプル結果を回収するために使用される。試験された生体サンプルが、1,2,3...nと番号付けされ、「i」でインデックス付けされ、生体サンプルに対して作成されたプールまたは検査が、1,2,3...nと番号付けされ、「j」でインデックス付けされる、例示的なシナリオを考える。このようなシナリオでは、逆問題はノイズの多い線形逆問題である。
【0059】
既存のアプローチでは、圧縮検出法を使用して、(陽性である)各プールのウイルス負荷または微生物負荷の定量値と、生体サンプルの検査用に作成されたプーリング行列とを考慮してノイズの多い線形方程式を構築することにより、ノイズの多い線形逆問題が解かれる。しかしながら、ベクトルの各成分またはベクトルのより多くの成分が非ゼロ値を含む場合、既存のアプローチは検査結果に不正確さをもたらす可能性がある。
【0060】
したがって、システム100は、(i)fとgを恒等関数の代わりにlogとexpに選択することにより、ノイズの多い線形逆問題をノイズの多い非線形逆問題に変換する。ここでlog(x)は(log(x1), log(x2), ... log(xn))と理解され、u_i := log x_iを定義してy = Aeuを導き、両辺にlogをとり、v = log(y)を定義して非線形逆問題を導く。
v = log(A eu)
【0061】
(ii)は、検査に使用された各生体サンプルの状態または結果を決定するために、vのノイズの多い測定値v'、行列A、および関数fとgを受け取った後、uの規則性条件を指定することによって、非線形逆問題を解く。規則性条件がx上のスパース性であった場合、これは、十分に大きな負の値を中心とし、慎重に調整された分散を持つuの各成分上のラプラス事前分布としてモデル化され得る。生体サンプルの結果は、生体サンプル中にウイルスまたは微生物が存在するかどうか、および生体サンプル中にウイルスまたは微生物が存在する場合、生体サンプルのウイルス負荷または微生物負荷を示すことができる。このように、生体サンプルは、2回目の確認ラウンドを必要とすることなく、1回検査で検査することができる。
【0062】
別の例示的実施形態では、システム100は、(i)Covidl9、結核、エボラ出血熱、HIVなどの感染症の特定、(ii)早期癌検出のためのヒトパピローマウイルスまたは無細胞DNA/循環腫瘍DNAなどのオンマーカーの検出、(iii)炎症、メタボリックシンドローム、心疾患、糖尿病などを示すマーカーの検出のための公衆衛生PCRベースおよび核酸検査ベースのスクリーニングに使用される。
【0063】
別の例示的な実施形態では、システム100は、輸血レシピエントがHIVまたは肝炎または同様の危険な病原体を含む血液を不注意に受け取らないようにするために行われる輸血安全性検査に使用される。核酸検査(NAT)はゴールドスタンダードであるが、中央所得の低い国々ではコストの理由から、精度の低いELISAや免疫測定検査が使用されている。このことは、特に、例えばサラセミアの子供たちのように、常に輸血を行うためにリスクが高い人々の間で、公衆衛生の危機を招く。このシステム100は、NAT検査をより安価にすることを可能にし、その結果、この検査をより広く普及させ、すべての人に安全な輸血を提供することができる。
【0064】
さらに、公衆衛生次世代シーケンシングに基づく健診は、どの個人が心臓疾患、神経疾患などの様々な状態のリスクが高いかを明らかにすることができ、寿命だけでなく健康を向上させることができる実用的な情報を得ることができる。ここで開示したことを用いることで、そのような健診プログラムのコストを劇的に削減することができ、世界中のより多くの国でそのような公的健診を採用することが可能になる。
【0065】
同様に、質量分析に基づく公的健診は、先天性代謝異常による死亡や罹患のリスクがある新生児を明らかにすることができる。ここに開示したことに従えば、この健診を手ごろな価格にし、したがって多くの国で包括的に展開できるようにする。
【0066】
さらに、ここに開示したことは、農業における以下のような実用的応用がより安価になることにつながる。(i)植物の病原体のスクリーニング:例えば、オレンジの木はオレンジカンカーと呼ばれる細菌に感染する可能性がある。感染した樹木を非常に早期に特定することは、感染の拡大を抑制するための鍵となる。感染が広がれば、広大な耕作地に莫大な損失をもたらす。(ii)交配プログラムに投入する種子のスクリーニング、(iii)種子の品質管理。
【0067】
別の例示的な実施形態では、システム100は、どの画素クラスタが神経回路網による分類(例えば、画像内に猫が存在する)の原因であるかを見つけるために使用され、画素のスパース性仮定を有する確率的グラフィカルモデルが適用されてもよい。システム100は、画像内に猫が存在するという神経回路網の決定を最も強く後押しする画素を選び出すことができる。同様に、神経回路網が画像から猫がいないと言う場合、システム100は、画像のすべての部分が神経回路網を良好に映し出していることを確実にする。システム100がそうでないことを発見した場合、これは、神経回路網がより不十分にしか対応していない画像の部分に猫の画像を含めることによって、敵対的な例を作成する機会となる。
【0068】
別の例示的実施形態では、システム100は外れ値およびヘビーヒッター検出に使用される。ヘビーヒッター検出は、n個の対象(例えば、ミルクサンプル)が存在し、各対象がそれに関連する数値(例えば、抗生物質レベル)を有するグループ検査問題である。ごく少数の対象は、その数値が異常値であるという意味でヘビーヒッターである。例えば、牛乳サンプルの中には抗生物質レベルが非常に高いものがある。このようなシナリオの例では、システム100は、確率的グラフィカルモデルを使用して非線形逆問題を解くことにより、牛乳サンプル中の抗生物質レベルのようなヘビーヒッターを決定する。この規則性条件の仮定は、ベクトルの各成分が非ゼロであるため、スパース性とは異なる。そのため、スパース性を利用しようとする従来のアプローチは機能しない可能性がある。そこで、非線形逆問題は、(log, exp)変換を用い、数値に関する二峰性事前仮定を用いて定式化することができる。
【0069】
本明細書に開示したところによると、公的健康診断を安価にすることを可能にし、その包括的な展開を可能にする。システム100は、プーリングステップでラボを誘導し、システム100を使用して個々のサンプル結果を回復するために利用可能なソフトウェアウェブアプリケーションとして実施することができる。
【0070】
図2は、本明細書のいくつかの実施形態に係る、ポリメラーゼ連鎖反応(PCR)から1以上の生体サンプルの検査結果を検出または取り出すための、
図1のシステム100の使用を示す例示的ブロック図である。ブロック
図200は、システム100と、システム100と通信可能に接続されるPCRマシン202とを含む。PCR機202は、定量的逆転写ポリメラーゼ連鎖反応(RT-qPCR)機であってもよい。ユーザは、検出行列またはプーリング行列に従って作成されるプールまたは検査の数に応じてPCR反応プレートを選択することができる。検出行列またはプーリング行列は、任意の既知のプーリング方法またはプーリングスキームを用いてシステム100によって作成することができる。システム100は、1以上の生体サンプル204A~Nの検査に対する要求をユーザから受信し、1つまたは複数の生体サンプル204A~Nのサイズに基づいてプーリング行列を作成することができる。例えば、システム100は、40個の生体サンプルの検査に対する要求をユーザから受け取る。ユーザは、ユーザ機器を通じて要求を提供することができる。ユーザ機器は、パーソナルコンピュータ、ノートブック、タブレット、デスクトップコンピュータ、ラップトップ、ハンドヘルド機器、またはモバイル機器であってよいが、これらに限定されない。プーリング行列は、複数の行および列を含む。複数の列は、検査される生体サンプルの数を示し、複数の行は、生体サンプルの検査のために作成される検査またはプールの数を示す。プーリング行列は、単ラウンド組み合わせプーリング法を用いて作成される。
【0071】
ユーザは、作成されたプーリング行列に従って、生体サンプル204A~NおよびPCR反応プレートの井戸にマトリックス形式で番号付けを行う。次に、ユーザは、プーリング行列に従って、生体サンプルの各々をPCR反応プレートの異なる番号付けされた井戸またはプールにピペットで移動させるか移すことにより、生体サンプル204A~Nのプーリングを実行する。一実施形態では、生体サンプル204A~Nのプーリングは、生体サンプルの各々からRNAフラグメントを抽出または単離(適切なRNA抽出キットを使用)し、その後、プーリング行列サンプル解読装置に従って、抽出されたRNAフラグメントをPCR反応プレートの2つ以上の井戸またはプールにピペット移動させてもよい。RT-qPCR検査は、その名称から当業者であれば直感的に推察できるため、本明細書ではその詳細な説明を省略する。
【0072】
各プールに対してRT-qPCR試験を実施すると、PCR装置202は各プールに対応する増幅曲線を提供する。増幅曲線は、qPCRサイクルに対する蛍光強度(適切な配列の増幅DNAの総量に関する報告)を表す。PCR装置202は、各プールの増幅曲線からCt値を導出してもよい。Ct値が小さいほど、プール中のウイルスまたは微生物のコピー数が多いことを示す可能性がある。RT-qPCR検査によって得られた増幅曲線からCt値を導出することは、当業者であればその名称から直感的に推察することができるため、本明細書ではその詳細な説明を省略する。検査機202は、プールが陰性である場合(すなわち、対応するプールに含まれる1以上の生体サンプル204A~Nがウイルスまたは微生物を含まない場合)、プールについてゼロCt値を導出することとなる。検査機202は、プールが陽性(すなわち、対応するプールに含まれる1以上の生体サンプル204A~Nがウイルスまたは微生物を含む)である場合にのみ、プールのCt値を導出する。検査機202は、各生体サンプルの検査結果を取り出すか特定するために、各プールのCt値をシステム100に提供する。
【0073】
システム100は、陽性と特定されたプールを使用して、各生体サンプルの検査結果を取り出す。システム100は、1以上の生体サンプル204A~Nの検査のために作成されたプーリング行列(プーリング行列をAとする)、各プールに関連付けられたウイルス量の定量的測定値(ウイルス量の定量的測定値をvのv'とする)、および各生体サンプルのウイルス量の定量的測定値に基づいて、非線形方程式v=f(A g(u))を構築する。非線形関数(f、g)は、(log、exp)、(softmax、identity)、(RELU、identity)、または(tanh、identity)のうちの少なくとも1つであってよく、引数ベクトルの各成分に適用されるが、これらに限定されない。システム100は、確率的グラフィカルモデルを用いて、1つ以上の生体サンプル204A~Nの各々について非線形方程式を解き、各生体サンプルの検査結果を取り出す。
【0074】
図3は、本明細書のいくつかの実施形態に係る、プーリングの1つ以上の反復からプーリング行列が作成される、1つ以上の生体サンプルの検査結果を検出または取り出するための、
図1のシステム100の使用を示す例示的なブロック図である。ブロック
図300は、システム100と、システム100と通信可能に接続されるPCR機302とを含む。PCR機302は、定量的逆転写ポリメラーゼ連鎖反応(RT-qPCR)機であってもよい。システム100は、検査すべき生体サンプルのサイズを含む要求を、ユーザから受け取ることができる。生体サンプルのサイズは、生体サンプルの数である。さらに、システム100は、n(n=l,2,3,...)回のプーリングの反復を実行して、プーリング行列を作成することができる。一実施形態では、システム100は、(i)既知のプーリング方法を使用して、生体サンプルのサイズに基づいて第1のプーリング行列306Aを作成し、(ii)その後、第1のプーリング行列306Aに基づいて第2のプーリング行列306Bを作成し、(iii)その後、第2のプーリング行列306Bまたは以前のプーリング行列に基づいてn番目のプーリング行列306Nを作成する。第2のプーリング行列306Bのサイズまたは第2のプーリング行列306Bのプールの数は、第1のプーリング行列306Aのプールの数よりも小さい。したがって、n番目のプーリング行列306Nのサイズまたはn番目のプーリング行列306Nのプールの数は、第2のプーリング行列306Bまたは前のプーリング行列のプールの数よりも小さい。プーリング行列を作成するための反復の数は、検査される生体サンプルのサイズに依存し得る。プーリングの各レベルで圧縮される。これを複数回繰り返すと、倍数的に圧縮される。
【0075】
N番目のプーリング行列306Nの各プールに対してRT-qPCR検査を実施すると、検査機302は、各プールに対応する増幅曲線を提供する。増幅曲線は、qPCRサイクルに対する蛍光強度(適切な配列の増幅DNAの総量に関する報告)を表す。検査機202は、各プールの増幅曲線からCt値を導出してもよい。いくつかの実施形態において、検査機は、第1のプーリング行列306Aまたは第2のプーリング行列306Bの各プールに対してRT-qPCR検査を実施するために使用される。システム100は、陽性として特定されたプールを使用して、各生体サンプルの検査結果を取り出す。システム100は、1以上の生体サンプルの検査用に作成されたn番目のプーリング行列(プーリング行列をAとする)、各プールに関連付けられたウイルス量の定量的測定値(ウイルス量の定量的測定値をvのv'とする)、および各サンプルのウイルス量の定量的測定値に基づいて、非線形方程式v=f(A g(u))を構築する。非線形関数(f、g)は、(log、exp)、(softmax、identity)、(RELU、identity)、または(tanh、identity)の少なくとも1つであってよく、引数ベクトルの各成分に適用されるが、これらに限定されない。システム100は、確率的グラフィカルモデルを用いて、1つ以上の生体サンプルの各々について非線形方程式を解き、各生体サンプルの検査結果を取り出す。
【0076】
図4は、本明細書のいくつかの実施形態に係る、各プールに対する検査からのノイズの多い出力データに基づいて、複数の生体サンプル中の複数の分子を検出および定量するための方法を示す。ステップ402において、複数の行(m)および複数の列(n)を有する検出行列が、ユーザからの少なくとも1つの入力に基づいて、サンプル解読装置を用いて生成される。複数の生体サンプルは、複数のプールを調製するために、検出行列に基づいて結合またはグループ化される。複数の行(m)は、複数の生体サンプルの検査する為に作成される複数のプールを示す。複数の列(n)は、検査される複数の生体サンプルを示す。少なくとも入力は、試験の名称、及び試験のサイズの少なくとも1つを含み、試験のサイズは、検査される生体サンプルの総数、及び生体サンプルの総数のうち陽性と推定される生体サンプルの数を示す。いくつかの実施形態において、検出行列は、シュタイナー三重システムを使用して作成される。
【0077】
ステップ404において、各プールにおける検査終了後のノイズの多い出力データが、検査機から取得される。検査機は、ポリメラーゼ連鎖反応(PCR)装置、高速液体クロマトグラフィー(HPLC)、マイクロアレイスクリーン、次世代シーケンシング(NGS)装置、質量分析装置、核磁気共鳴(NMR)分光法、またはラマン分光法を含むグループから選択される。ノイズの多い出力データは、各プールからのノイズを含む出力データである。
【0078】
ステップ406において、複数の生体サンプル中の複数の分子を検出および定量化するための非線形方程式に基づいて、サンプル解読装置を使用して、確率的グラフィカルモデルが生成される。非線形方程式は、生成された検出行列、複数のプールの複数の出力データ、および各分子の定量的測定値を含む複数の変数に基づいて生成される。複数の変数は、確率的グラフィカルモデルの条件文として変換される。非線形方程式は、v=f(A g(u))を含み、(a)Aは、複数の行(m)および複数の列(n)を有する検出行列であり、(b)uは、次元nの列ベクトルであり、nは、検査される複数の生体サンプルの数を示し、列ベクトル(u)の検出は、複数の生体サンプル中の分子の有無を検出し、分子が複数の生体サンプル中に存在する場合に分子を定量化することを可能にし; (c)vはm次元のベクトルであり、vは各プールからの出力データとみなされ、v'は各プールからのノイズの多い出力データとみなされ、(d)gはn変数の非線形ベクトル値関数であり、(e)fはm変数の非線形ベクトル値関数である。いくつかの実施形態では、確率的グラフィカルモデルは、(i)確率的プログラミング言語を用いて非線形方程式を記述し、(ii)観測された変数を条件付け文に変換し、(iii)非線形方程式(確率的プログラミング言語による)と条件付け文に基づいて確率的グラフィカルモデルを生成することによって生成される。観測変数には、生成された検出行列、複数のプールの複数の出力データ、および各分子の定量的測定値が含まれる。条件付けされた変数の観測値は、マルコフ連鎖モンテカルロ(MCMC)推論時に供給される。
【0079】
ステップ408において、各プールからのノイズの多い出力データを確率的グラフィカルモデルに提供し、ノイズの多い出力データとともに確率的グラフィカルモデルに対して厳密または近似的なベイズ推論を実行することにより、複数の生体サンプル中の複数の分子の存在を特定および定量化することにより、サンプル解読装置を使用して、複数の生体サンプル中の複数の分子を検出および定量化する。
【0080】
本方法はさらに、複数の生体サンプル中の検出され定量された分子に基づいて、関心状態を検出することを含む。関心状態は、感染症、癌、遺伝病、炎症状態、メタボリックシンドローム、心疾患、糖尿病などである。
【0081】
図5Aは、本明細書のいくつかの実施形態に係る、複数の生体サンプル中の複数の分子の検出および定量における、
図1のシステム100の精度を示す実験結果の表500Aである。表500Aにおいて、kは、所与の生体サンプルから特定される陽性の数を示す。サンプル解読装置106の精度測定基準は、合成データを用いて45x105個の検出行列上でサンプル解読装置106を実行し、10回の実行にわたって平均化することによって特定される。表500Aを参照すると、
図1のシステム100の感度は0.904対1、特異度は0.989対1である。感度とは、ある疾患を持つ患者を正しく識別する検査の能力であり、特異度:その病気にかかっていない人を正しく識別する検査の能力である。
【0082】
図5Aを参照すると、
図5Bは、本明細書のいくつかの実施形態に係る、複数の生体サンプル中の複数の分子を検出および定量する際の、
図1のシステム100の計算効率を示す実験結果の表500Bである。表500Bを参照すると、
図1のシステム100は、36秒で、105個のサンプルのうち6個のサンプルを陽性として検出する。陽性は、サンプルが目的の分子(例えば、ウイルス)を含むことを示す。システム100は、45*105検出行列について生成された合成データとともに、確率的グラフィカルモデルについて厳密または近似ベイズ推論を実行することにより、与えられたサンプル中の目的分子を検出する。確率的グラフィカルモデルは、厳密ベイズ推論または近似ベイズ推論を実行する際に、非線形関数fとgをそれぞれlogとexpとして特定する。一方、既存の線形ソルバーや圧縮検出ソルバーは、3174秒で、105サンプルのうち6サンプルを要請正として検出する。
図1のシステム100は、45*105個の検出行列のような同じデータ上で実行されながら、既存の線形ソルバーよりも88.16倍高速であることが観察される。
【0083】
図5Aおよび
図5Bを参照すると、
図5Cは、本明細書のいくつかの実施形態に係る既存の線形ソルバーまたは圧縮検出ソルバーと比較して、複数の生体サンプル中の複数の分子を検出および定量化する際の、
図1のシステム100の感度を示す例示的なグラフ表現500Cである。例示的なグラフ表現500Cにおいて、陽性の数がX軸にプロットされ、感度スコアがY軸にプロットされる。例示的なグラフ表現500Cにおいて、実線502は、所与のサンプル中の陽性の数を検出するシステム100の感度を示す。例示的なグラフ表現500Cにおいて、実線504は、所定のサンプルにおける陽性の数を検出する際の、既存の線形ソルバーまたは圧縮検出ソルバーの感度を示す。システム100と比較すると、既存の線形ソルバーの感度が低下していることが観察される。
【0084】
図5A~5Cを参照すると、
図5Dは、本明細書のいくつかの実施形態に係る既存の線形ソルバーまたは圧縮検出ソルバーと比較して、複数の生体サンプル中の複数の分子を検出および定量化する際の、
図1のシステムの特異性を示す例示的なグラフ表示である。例示的なグラフ表現500Dにおいて、陽性の数がX軸にプロットされ、特異性スコアがY軸にプロットされる。例示的なグラフ表現500Dにおいて、実線506は、所与のサンプルにおける陽性の数を検出するシステム100の特異性を示す。例示的なグラフ表現500Dにおいて、実線508は、与えられたサンプルにおける陽性の数を検出する際の、既存の線形ソルバーまたは圧縮検出ソルバーの特異性を示す。システム100と比較すると、既存の線形ソルバーの特異性が低下することが観察される。システム100の特異度は1である。
【0085】
図6は、本明細書におけるいくつかの実施形態に係る、
図1のシステムを使用して生成される例示的な24*64個の検出行列600である。例示的な24*64個の検出行列は、プーリング技法を使用して、試験の名称(例えば、PCR)、および試験のサイズ(例えば、64)、ならびに生体サンプルの総数のうち陽性と推定される生体サンプルの数を含む少なくとも1つの入力に基づいて、サンプル解読装置106によって生成される。例示的な24*64検出マトリックスは、24行および64列を含む。例示的な24*64個の検出行列は、複数のゼロ(0)成分および複数の非ゼロ(1)成分を含む。各列に関する値1は、各列に対応する生体サンプルを含むためのプールを示す。例示的な検出行列の行数は、複数の生体サンプルを検査するために作成される24個のプールを示す。検出行列の列数は、検査される64個の生体サンプルを示す。
【0086】
図7は、本明細書の実施形態に係るコンピューティングデバイスまたは分子コンピュータ700のコンピュータアーキテクチャの概略図である。本明細書の実施形態を実践するための代表的なハードウェア環境が、
図1~
図6を参照して
図7に描かれている。この概略図は、本明細書の実施形態に係るサーバ/コンピュータシステム/コンピューティングデバイス/分子コンピュータのハードウェア構成を示す。
図lのシステム100は、本明細書の実施形態に係る、複数の生体サンプル中の複数の分子を検出および定量するために、コンピューティングデバイスまたは分子コンピュータ700を使用することができる。コンピューティングデバイスまたは分子コンピュータ700は、システムバス14を介して、ランダムアクセスメモリ(RAM)12、リードオンリーメモリ(ROM)16、および入出力(I/O)アダプタ18などの様々なデバイスに相互接続され得る少なくとも1つの処理デバイスCPU10を含む。入出力アダプタ18は、システムによって読み取り可能なディスク装置38やプログラム記憶装置40などの周辺装置に接続することができる。システムは、プログラム記憶装置40上の本発明の命令を読み取り、これらの命令に従って本明細書の実施形態の方法論を実行することができる。システムはさらに、キーボード28、マウス30、スピーカ32、マイクロフォン34、および/またはタッチスクリーン装置(図示せず)などの他のユーザインターフェース装置をバス14に接続してユーザ入力を収集するユーザインターフェースアダプタ22を含む。さらに、通信アダプタ20は、バス14をデータ処理ネットワーク42に接続し、表示アダプタ24は、バス14を表示装置26に接続し、この表示装置26は、本明細書の実施形態に従って出力データのグラフィカル・ユーザ・インターフェース(GUI)36を提供し、または、例えば、モニタ、プリンタ、または送信機などの出力装置として具現化され得る。
【0087】
具体的な実施形態に関する前述の説明は、本明細書における実施形態の一般的な性質を十分に明らかにするものであり、他の者は、現在の知識を適用することによって、一般的な概念から逸脱することなく、そのような具体的な実施形態を様々な用途のために容易に修正および/または適合させることができ、したがって、そのような適合および修正は、本明細書において採用される均等物の意味および範囲内で理解されるべきであり、また理解されることが意図されるが、これは、説明のためであって、限定するためではない。したがって、本明細書における実施形態は、好ましい実施形態の観点から説明されてきたが、当業者であれば、本明細書における実施形態は、その範囲内で変更を加えて実施することができることを認識するであろう。
【国際調査報告】