(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-04-11
(54)【発明の名称】微生物叢サンプルの混合物を予測し、生成する方法
(51)【国際特許分類】
C12Q 1/04 20060101AFI20240404BHJP
C12N 1/04 20060101ALI20240404BHJP
C12M 1/34 20060101ALI20240404BHJP
【FI】
C12Q1/04
C12N1/04
C12M1/34 A
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023567179
(86)(22)【出願日】2022-05-05
(85)【翻訳文提出日】2023-12-27
(86)【国際出願番号】 EP2022062226
(87)【国際公開番号】W WO2022234053
(87)【国際公開日】2022-11-10
(32)【優先日】2021-05-06
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】517369461
【氏名又は名称】マー ファルマ
(74)【代理人】
【識別番号】100099759
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100092624
【氏名又は名称】鶴田 準一
(74)【代理人】
【識別番号】100114018
【氏名又は名称】南山 知広
(74)【代理人】
【識別番号】100153729
【氏名又は名称】森本 有一
(74)【代理人】
【識別番号】100151459
【氏名又は名称】中村 健一
(72)【発明者】
【氏名】エルベ アファガール
(72)【発明者】
【氏名】カロル シュウィントナー
(72)【発明者】
【氏名】エマニュエル プレスタ
【テーマコード(参考)】
4B029
4B063
4B065
【Fターム(参考)】
4B029AA07
4B029BB02
4B029CC01
4B029CC02
4B029FA03
4B029FA10
4B063QA01
4B063QA18
4B063QQ03
4B063QQ06
4B063QQ54
4B063QS39
4B065AA01X
4B065BD14
(57)【要約】
複合微生物群集の混合物の予測は、基準となる真の混合物プロファイルおよび対応する基準となる線形予測プロファイルから学習された相互作用モデル、例えば行列を用いて修正された、例えば行列ベースの線形予測を含む。逆予測により、標的混合プロファイルが与えられた場合に、生成されるサンプルの混合を決定することが可能になる。
【特許請求の範囲】
【請求項1】
初期サンプル採取物に属する複合微生物群集サンプルの混合から生じる混合組成を予測するコンピュータ支援方法であって、
線形手法を用いて、選択された複合微生物群集サンプルの混合物に関する中間混合プロファイルを予測することと、
基準となる線形予測混合プロファイルおよび対応する基準となる真の混合プロファイルから学習された相互作用モデルを使用して、前記中間混合プロファイルを予測混合プロファイルに修正することと、
を含む方法。
【請求項2】
前記予測混合プロファイルは、混合結果生成物を得るために、前記初期サンプル採取物からの複合微生物群集サンプルの実際の取り出しおよび混合を制御するために使用される、請求項1に記載の方法。
【請求項3】
前記中間混合プロファイルを予測することは、前記初期サンプル採取物の前記複合微生物群集サンプルの割合で前記混合物を規定する第1行列と、前記複合微生物群集サンプルの個々のプロファイルを規定する第2行列との間の行列積を計算することを含む、請求項1または2に記載の方法。
【請求項4】
前記中間混合プロファイルを修正することが、前記中間混合プロファイルを表す行列と、前記学習された相互作用モデルの正方相互作用行列との間の行列積を計算することを含む、請求項1乃至3のいずれかに記載の方法。
【請求項5】
標的混合結果生成物を表す標的混合プロファイルが与えられた初期サンプル採取物中の複合微生物群集サンプルのセットを決定するコンピュータ支援方法であって、
前記初期サンプル採取物から複合微生物群集サンプルの候補セットを選択することと、
選択された各候補セットについて、請求項1に記載の予測方法を使用して、前記選択された候補セットのサンプルの前記混合から生じる混合プロファイルを予測することと、
前記予測混合プロファイルを前記標的混合プロファイルと比較して、1つの候補セットを標的セットとして選択することと、
を含む方法。
【請求項6】
サンプルの前記標的セットは、前記標的混合プロファイルの混合結果生成物の機能を得るために、前記初期サンプル採取物からの複合微生物群集サンプルの実際の取り出しおよび混合を制御するために使用される、請求項5に記載の方法。
【請求項7】
前記予測混合プロファイルを前記標的混合プロファイルと比較することは、各予測混合プロファイルと前記標的混合プロファイルとの間の距離を計算し、標的セットとして、最も短い距離を有する前記候補セットを選択することを含む、請求項5または6に記載の方法。
【請求項8】
微生物の複合群集のプロファイルが、前記微生物の複合群集におけるプロファイリング特徴の相対存在量を含む、請求項1乃至7のいずれかに記載の方法。
【請求項9】
微生物の複合群集のプロファイルを形成するプロファイリング特徴が、分類群、遺伝子、抗生物質耐性遺伝子、機能、代謝産物形質、および代謝産物およびタンパク質産生からなるグループから選択される1つまたは複数の特徴を含み、好ましくは分類群を含む、請求項1乃至8のいずれかに記載の方法。
【請求項10】
微生物の複合群集のプロファイルが、細菌、古細菌、ウイルス、ファージ、原虫および真菌から前記微生物の複合群集に存在する1つまたは複数の微生物に関して、好ましくは細菌および/または古細菌に関して、プロファイリング特徴を規定し、および/または、
菌株、種、属、科および目から1つまたは複数の分類学的レベル、好ましくは属、科および目から1つまたは複数の分類学的レベルで考慮される微生物の相対存在量を特定するプロファイリング特徴を規定し、および/または、
前記微生物の複合群集において、属、科および目の分類学的レベルで考慮される細菌および/または古細菌の分類群の相対存在量を含む、
請求項1乃至9のいずれかに記載の方法。
【請求項11】
前記相互作用モデルは、前記基準となる線形予測混合プロファイルおよび前記相互作用モデルから得られる基準となる予測混合プロファイルと、前記対応する基準となる真の混合プロファイルとの差の関数式を最小化する機械学習を使用して得られる、請求項1乃至10のいずれかに記載の方法。
【請求項12】
複合微生物群集生成物を生成する方法であって、
初期サンプル採取物から複合微生物群集サンプルを選択することと、
請求項1に記載の予測方法を使用して、前記選択されたサンプルの前記混合から生じる混合プロファイルを予測することと、
前記予測混合プロファイルを選択基準と比較することと、
前記比較の結果に応じて、前記選択されたサンプルを実際に取り出し、混合して、混合結果生成物を得ることと、
を含む方法。
【請求項13】
前記選択基準が、プロファイリング特徴の多様性の増加を代表する多様性基準、1つまたは複数のプロファイリング特徴の最小または最大の相対存在量、1つまたは複数の特定のプロファイリング特徴または最小数のプロファイリング特徴のゼロでない相対存在量、少なくとも2つのプロファイリング特徴間の相対比、標的混合プロファイルへの近さから選択される1つまたは複数を含む、請求項12に記載の方法。
【請求項14】
標的混合結果生成物を表す標的混合プロファイルを有する複合微生物群集生成物を生成する方法であって、
請求項5の決定方法を用いて、前記標的混合プロファイルが与えられた初期サンプル採取物に属する複合微生物群集サンプルの標的セットを選択することと、
前記選択された標的セットの前記微生物群集サンプルを実際に採取して混合し、混合結果生成物を得ることと、
を含む方法。
【請求項15】
1つの選択された複合微生物群集サンプルが仮想サンプルであり、前記方法はさらに、単離された菌株から、前記選択された仮想サンプルに対応する人工複合微生物群集サンプルを実際に生成することを含む、請求項14に記載の方法。
【請求項16】
請求項1乃至15のいずれかに記載の方法を実施するように構成された少なくとも1つのマイクロプロセッサを含むコンピュータ装置。
【請求項17】
装置内のマイクロプロセッサまたはコンピュータシステムによって実行されると、前記装置に請求項1乃至15のいずれかに記載の方法を実行させるプログラムを記憶した非一過性のコンピュータ読み取り可能媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、微生物の複合群集、即ち、微生物叢の混合または「プーリング」に関し、より詳細には、初期の微生物叢サンプルの個々のプロファイルまたは組成と、結果として得られる混合物のプロファイルとをリンクさせる、学習モデル、例えば行列ベースの予測モデルを使用する方法および装置に関する。
【背景技術】
【0002】
微生物の複合群集は微生物叢としても知られ、健康や疾病において重要な役割を果たしている。特に、例えば糞便微生物叢移植(FMT)を通じて、微生物の複合群集を投与または移植することで、感染症や病気を治療できる可能性が発見されている。
【0003】
微生物の複合群集を投与または移植する場合、投与または移植されたサンプルは、細菌、古細菌、ウイルス、ファージ、原虫および/または真菌などの微生物の生存率と多様性の点で適切なプロファイルを有することが重要である。
【0004】
投与や移植の方法の中には、経験に基づくものが多く、使用するサンプルに存在する微生物の多様性を確保し、または、微生物の生存率を最適に保つための特別な予防措置がとられていない。
【0005】
さらに、ドナーから採取したサンプルでは、効率的な治療のための微生物の複合群集のプロファイルを満足に得ることができない場合がある。
【0006】
そのため、投与や移植用の接種材料として使用できるサンプルの多様性を高めるために、複数のドナーから採取した複合微生物群集サンプルの混合物が検討されてきた。
【0007】
様々な混合物をテストするために、実際にサンプルの混合がランダムに行われ、最終的な混合プロファイルを得るために、得られた生成物がシーケンスされ、そこから硬化特性や処理特性が推測される。このテストベースの手法には、いくつかの欠点がある。特に、ドナーからサンプルを入手することが難しいため、希少な材料を消費し、シーケンス解析に時間がかかるため、完了までに数週間を要する。
【0008】
混合物組成の予測、即ち混合生成物のプロファイルの予測は、このように考えられてきた。
【0009】
出発物質として使用される微生物の複合群集の個々のプロファイルから混合物組成を予測する簡単な方法は、例えば、混合物中の対応する複合群集の比率で重み付けした後、個々のプロファイルにおける上記プロファイリング特徴の相対存在量を合計することにより、各プロファイリング特徴について線形予測を適用することである。
【0010】
しかしながら、このような線形予測プロファイルと、(混合結果生成物をプロファイリングして得られた)真のプロファイルとの間には、ある程度のシフトや、ずれが観察された。したがって、プロファイルの線形予測は誤った手法であると考えられる。
【0011】
本発明者らの仮定では、シフトは、共有環境における微生物の相互作用に起因する、何らかの重要かつ迅速な調整、例えば、共有環境の新しい条件への適応や微生物間の競争から生じる可能性がある。
【0012】
従って、例えば期待される治療効果を有する正確な複合体生成物組成の送達を保証する方法でプーリングを実施するために、正確な予測を行う必要がある。
【発明の概要】
【発明が解決しようとする課題】
【0013】
本発明は、特に投与法または移植法における微生物サンプルの実際の混合を推進、制御または指揮することを目的として、混合組成物を予測する際にこれらのシフトをコンピュータ支援設計することにより、前述の懸念のいくつかを克服しようとするものである。
【0014】
この点に関して、本発明は、初期サンプル採取物に属する複合微生物群集サンプルの混合から生じる混合組成を予測するコンピュータ支援方法を提案し、この方法は、
選択された複合微生物群集サンプルの混合物について、線形手法を用いて中間混合プロファイルを予測することと、
基準となる線形予測混合プロファイルおよび対応する基準となる真の混合プロファイルから学習された相互作用モデルを用いて、中間混合プロファイルを予測混合プロファイルに修正することと、を含む。
【0015】
特に、予測混合プロファイルは、混合結果生成物を得るために、初期サンプル採取物から複合微生物群集サンプルを実際に取り出し、混合することを制御するために使用することができる。サンプルの取り出しとは、単に、初期の採取物から適切かつ十分な量のサンプルを採取または取得することを意味する場合がある。取り出しは、オペレータによる手作業でも、制御されたロボットによる自動的なものでもよい。
【0016】
本発明は、また、複合微生物群集生成物を生成する方法を提供することが判明し、本発明は、
初期サンプル採取物から複合微生物群集サンプルを選択することと、
上記の予測方法を使用して、選択されたサンプルの混合から生じる混合プロファイルを予測することと、
予測混合プロファイルを、選択基準、例えば、関心対象の分類群の十分な存在または任意の標的混合プロファイルと比較することと、
比較の結果に応じて、混合結果生成物を得るために、選択されたサンプルを実際に採取し、混合することと、を含む。選択されたサンプルは、好ましくは予測に使用された相対存在量を使用して混合される。
【0017】
もちろん、比較の結果が不正確であった場合には、実際には混合を行わず、本発明の教示を用いて他の混合プロファイルを予測するために、他のサンプルの選択を行うこともできる。このように、選択されたサンプルの複数のセットを連続して検討することができる。次に、各セットについて、使用と比較のステップが実行され、その比較の結果に応じて実際の採取と混合が実行される。
【0018】
逆に、本発明は、標的混合結果生成物を表す標的混合プロファイルが与えられた初期サンプル採取物における複合微生物群集サンプルの標的セットを決定するコンピュータ支援方法による逆の手法も提案し、本方法は、
初期サンプル採取物から複合微生物群集サンプルの候補セットを選択することと、
選択された各候補セットについて、上記の予測方法を使用して、選択された候補セットのサンプルの混合から生じる混合プロファイルを予測することと、
予測混合プロファイルを標的混合プロファイルと比較して、1つの候補セットを標的セットとして選択することと、を含む。
【0019】
標的混合プロファイルは、一般的なもの、即ち、考慮されるプロファイル特徴それぞれを定量化するものであってもよいし、1つまたはいくつかのプロファイル特徴に特有なもの、例えば、1つ(または複数)のプロファイル特徴の有無および/またはその相対存在量もしくは量もしくは量の範囲などのいくつかの特徴仕様を定義するものであってもよいし、例えば、最小相対存在量を有するプロファイル特徴の数に関して、多様性の最小レベルを定義するものであってもよい。このように、標的混合プロファイルは、所与の特徴仕様について様々な可能な値を検査するプロファイルのセットであってもよい。
【0020】
その後、標的サンプルセットを使用して、初期サンプル採取物から複合微生物群集サンプルの実際の採取と混合を制御し、標的混合プロファイルの混合結果生成物の機能を得ることができる(それは、標的混合プロファイルを有するか、与えられた近似値に近い可能性がある)。
【0021】
本発明は、また、標的混合結果生成物を表す標的混合プロファイルを有する複合微生物群集生成物を生成する方法を提供することが判明し、本方法は、
上記決定方法を用いて、標的混合プロファイルが与えられた初期サンプル採取物に属する複合微生物群集サンプルの標的セットを選択することと、
混合結果生成物を得るために、選択された標的セットのサンプルを実際に採取し、混合することと、を含む。
【0022】
本発明は、特に実際の材料(初期サンプル採取物のサンプル)を消費することなく、低コストで様々な混合組成を瞬時にシミュレートすることを可能にする。
【0023】
さらに、混合基準を満たす混合結果生成物、例えば、疾患を治療するのに適合した標的群プロファイルや組成物を得るという観点から、複合微生物群集サンプルの効率的なセットを見出すことができる。
【0024】
したがって、使用目的(治療、予防、環境など)のニーズに応じて、生産ルーチンに先立ってプーリング方針を定めることができる。
【0025】
このようにして得られた混合結果生成物は、ヒトや動物の体内、あるいは肥料として植物に、さらにはバイオレメディエーションによる汚染処理のために、水、土壌、地下物質などの環境媒体に投与または移植することができる。
【0026】
好ましくは、微生物叢生態系療法(Microbiome Ecosystem Therapy)生成物は、上記の方法を用いて生成することができる。
【0027】
これに関連して、本発明は、上記のいずれかの方法のステップを実施するように構成された少なくとも1つのマイクロプロセッサを含むコンピュータ装置も提供する。従って、コンピュータ装置は、混合結果生成物を得るために、初期サンプル採取物から複合微生物群集サンプルを実際に採取し混合する混合装置を制御する信号を発するように構成されてよい。
【0028】
本発明の実施形態の任意の特徴は、添付の特許請求の範囲に規定されている。これらの特徴の一部は、方法を参照して以下に説明するが、装置の特徴に置き換えることも可能である。
【0029】
いくつかの実施形態において、中間混合プロファイルの予測は、初期サンプル採取物の複合微生物群集サンプルの割合の観点から混合を規定する第1行列と、複合微生物群集サンプルの個々のプロファイルを規定する第2行列との間の行列積を計算することを含む。第2行列は、以下、Aで示され、利用可能な初期サンプル採取物によって定義される。
【0030】
いくつかの実施形態において、中間混合プロファイルを修正することは、中間混合プロファイルを表す行列と、学習された相互作用モデルの正方相互作用行列との間の行列積を計算することを含む。ここで、相互作用モデルは、基準となる線形予測混合プロファイルおよび対応する基準となる真の混合プロファイルから学習された正方相互作用行列であってもよい。
【0031】
行列を使用してサンプル混合物の予測を行うことは、有利なことに、多数のプロファイル特徴を考慮に入れ、混合結果生成物または生成物に対する1つまたは複数の予測混合プロファイルを得るための迅速な計算を可能にする。
【0032】
ある実施形態において、予測方法は、予測混合プロファイルの各負の値をクリッピングすること、即ち負の値を0に設定することをさらに含む。これは、理論的予測(例えば相対存在量が負になる)を自然の現実に合わせて修正するためである。
【0033】
いくつかの実施形態において、予測方法は、予測される混合プロファイルを定義するプロファイリングの特徴の相対存在量の合計を1に正規化することをさらに含む。ここでも、理論的な予測を自然の現実に正規化することを目的としている。これは、真の相対存在量を持つことであり、その合計は組成物全体を表す。
【0034】
また、(混合物である)選択されたサンプルに存在しない特徴量は、予測混合プロファイルには存在しないはずである。したがって、選択されたサンプルに存在しない特徴量については、予測される混合プロファイルにおける非ゼロの存在量はゼロに設定される。
【0035】
逆の手法に関するいくつかの実施形態において、サンプルのセットを決定することは、セット内の各サンプルの相対存在量を決定することを含んでよい。換言すれば、逆予測は、一緒に混合される複合微生物群集サンプルの相対的な割合を得ることを目的とする。
【0036】
逆の手法に関する他の実施形態において、予測混合プロファイルを標的混合プロファイルと比較することは、各予測混合プロファイルと標的混合プロファイルとの間の距離を計算し、標的セットとして、最も短い距離を有する候補セットを選択することを含む。
【0037】
いくつかの実施形態において、微生物の複合群集(サンプルまたは混合物)のプロファイルは、微生物の複合群集におけるプロファイリング特徴の相対存在量を含む。
【0038】
具体的な実施形態において、相対存在量は、微生物の複合群集におけるプロファイル特徴の質量または体積の割合を代表するものである。
【0039】
いくつかの実施形態において、微生物の複合群集のプロファイルを形成するプロファイル特徴には、分類群、遺伝子、抗生物質耐性遺伝子、機能、代謝産物形質、代謝産物およびタンパク質産生からの1つまたは複数の特徴が含まれ、好ましくは分類群が含まれる。
【0040】
いくつかの実施形態において、複合微生物群集サンプルの個々のプロファイルは、16S rRNA遺伝子アンプリコンシーケンス、NGSショットガンシーケンス、16S rRNA遺伝子ベース以外のアンプリコンシーケンス、NGSアンプリコンベースのターゲットシーケンス、フィロチップベースのプロファイリング、ホールメタゲノムシーケンス(WMS)、ポリメラーゼ連鎖反応(PCR)による同定、質量分析計(LC/MSタイプやGC/MSタイプなど)、近赤外(NIR)分光法、核磁気共鳴(NMR)分光法などのようなプロファイリング技術を用いて得られ、16S rRNA遺伝子アンプリコンシーケンスまたはNGSを用いることが好ましい。
【0041】
いくつかの実施形態において、微生物の複合群集のプロファイルは、細菌、古細菌、ウイルス、ファージ、原虫および真菌から微生物の複合群集に存在する1つまたは複数の微生物に関して、好ましくは細菌および/または古細菌に関して、プロファイリング特徴を定義する。
【0042】
いくつかの実施形態において、微生物の複合群集のプロファイルは、菌株、種、属、科、目から1つまたは複数の分類学的レベル、好ましくは属、科、目から1つまたは複数の分類学的レベルで考慮される微生物の相対存在量を規定するプロファイル特徴を定義する。
【0043】
いくつかの実施形態において、微生物の複合群集のプロファイルは、属、科、目の分類学的レベルで考慮された細菌および/または古細菌の分類群の、微生物の複合群集における相対存在量を含む。
【0044】
いくつかの実施形態において、微生物の複合群集のプロファイルは、微生物の複合群集において、特定の遺伝子および/または機能の有無または発現によって定義される細菌および/または古細菌の分類群の相対存在量を含む(例えば、酪酸の生産、抗生物質耐性遺伝子の生産、有機リン酸ヒドロラーゼ、ホスホジエステラーゼ、スーパーオキシドジスムターゼなどの酵素の生産、抗微生物ペプチドの生産、有機リン酸加水分解酵素またはバイオレメディエーションプロセスに有用な他の酵素の生産、…)。
【0045】
いくつかの実施形態において、初期サンプル採取物は、生の複合微生物群集サンプル、人工/加工複合微生物群集サンプル、人工複合微生物群集サンプル(例えば、単離された菌株を混合することによって得られる細菌コンソーシアム)、および仮想複合微生物群集サンプルからなるグループから選択されるサンプルを含む。
【0046】
いくつかの実施形態において、初期サンプル採取物は、糞便、皮膚、頬、膣、鼻、腫瘍、ヒト、動物、植物、水、土壌サンプルのうちの1つまたは複数を含む。例えば、少なくとも1人のドナーから、好ましくは少なくとも2人のドナーから得られた1つまたは複数の糞便サンプルを含んでよい。
【0047】
いくつかの実施形態において、相互作用モデル(例えば正方相互作用行列)は、
基準となる線形予測混合プロファイルと相互作用モデルから得られる基準となる予測混合プロファイル(好ましくは、正方相互作用行列との行列積が実行される)と、
対応する基準となる真の混合プロファイルと、
の間の差の関数式を最小化する機械学習を用いて得られる。
【0048】
基準データ(ここではプロファイル)は、機械学習プロセスの訓練データとして知られている。行列ベースの予測プロファイルと対応する真のプロファイルの誤差を最小化するように探索され、正則化項が与えられることもある。
【0049】
この点で、この計算式は、正則化項、好ましくはリッジベースの正則化項を上記の差に加えることができる。
【0050】
特定の実施形態において、正則化項は、相互作用モデルの正方相互作用行列と単位行列との差を含む。
【0051】
正則化は、モデル解が恒等式から離れすぎるとペナルティを課す傾向がある。実際、混合物内の微生物間の相互作用はそれほど大きくないと予想されるため、同一性からかけ離れたモデル解は生物学的現実からかけ離れたものとなる。したがって正則化項は、このような偶発的な解決策(特定の訓練データセットに起因する理論的解決策)が得られるのを回避する。
【0052】
いくつかの実施形態では、基準となる予測混合プロファイルにおけるプロファイリング特徴の相対存在量の負の値は、式を最小化する前に除去される。
【0053】
いくつかの実施形態において、本方法は、式を最小化する前に、基準となる予測混合プロファイルの1つを定義するプロファイリング特徴の相対存在量の合計を1に正規化することをさらに含む。好ましくは、いくつかのまたは全ての基準となる予測混合プロファイルは、必要に応じて個別に1に正規化される。
【0054】
いくつかの実施形態において、基準となる線形予測混合プロファイルは、基準となる混合生成物を生成するために一緒に混合された複合微生物群集サンプルの個々のプロファイルから、線形手法を用いて予測され、対応する基準となる真の混合プロファイルは、基準となる混合生成物のプロファイリング(例えば、配列決定または16S rRNA遺伝子アンプリコン配列決定)から得られる。
【0055】
生成方法に関連するいくつかの実施形態において、選択基準は、プロファイリング特徴の多様性の増加を代表する多様性基準、1つまたは複数のプロファイリング特徴の最小相対存在量または最大相対存在量、1つまたは複数の特定のプロファイリング特徴または最小数のプロファイリング特徴のゼロでない相対存在量、少なくとも2つのプロファイリング特徴の間の相対比、標的混合プロファイルに対する近さ(または最小距離のような類似性)から1つまたは複数を含む。
【0056】
いくつかの実施形態において、選択された1つの複合微生物群集サンプルは仮想サンプルであり、本方法は、単離された菌株および/または複合微生物群集サンプルから、選択された仮想サンプルに対応する複合微生物群集サンプルを実際に生成することをさらに含む。これにより、有利なことに、サンプルを消費することなく、またまだサンプルを有することなく、先にプール法を規定することができる。所望の混合結果生成物を生成するのに有用であると同定された細菌コンソーシアムは、単離された菌株を混合するだけで生成することができる。同様に、所望の混合結果生成物の生成に有用であると同定されたサンプルは、単離された菌株の1つまたは複数を、1つまたは複数のサンプルと混合することによって生成することができ、その結果、所望の菌株が濃縮された人工サンプルが得られる。
【0057】
本発明の他の態様は、装置内のマイクロプロセッサまたはコンピュータシステムによって実行されると、装置に上記で規定した任意の方法を実行させるプログラムを記憶した非一過性のコンピュータ読み取り可能媒体に関する。
【0058】
本発明による方法の少なくとも一部は、コンピュータで実施することができる。したがって、本発明は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、またはソフトウェアとハードウェアの側面を組み合わせた実施形態の形態をとることができ、これらは全て、本明細書では一般に「回路」、「モジュール」または「システム」と呼ぶことができる。さらに、本発明は、媒体に具現化されたコンピュータ利用可能プログラムコードを有する任意の有形表現媒体に具現化されたコンピュータプログラム製品の形態をとることができる。
【0059】
本発明はソフトウェアで実施することができるため、本発明は、任意の適切なキャリア媒体上のプログラマブル装置に提供するためのコンピュータ可読コードとして具現化することができる。有形のキャリア媒体は、ハードディスクドライブ、磁気テープ装置、または固体メモリ装置などの記憶媒体を含むことができる。一時的なキャリア媒体は、電気信号、電子信号、光信号、音響信号、磁気信号、または電磁信号、例えばマイクロ波信号やRF信号などの信号を含むことができる。
【図面の簡単な説明】
【0060】
【
図1】
図1は、本発明の実施形態を実施する複合微生物群集混合プラットフォームを示す図である。
【
図1a】
図1aは、モデル化する際の正則化項のハイパーパラメータに依存する誤差測定の挙動を示す。
【
図2】
図2は、フローチャートを用いて、本発明の実施形態による、混合プロファイルの予測を含む、混合結果生成物を生成する一般的なステップを示す。
【
図3】
図3は、フローチャートを用いて、本発明の実施形態による、標的混合プロファイルが与えられた混合結果生成物を決定し、次に生成する一般的なステップを示す。
【
図4】
図4は、本発明の実施形態によるコンピュータ装置の概略図である。
【
図5a】
図5aは、微生物の天然の複合群集サンプルの混合に基づく、本発明の第1の実験の結果を示す。
【
図5b】
図5bは、微生物の天然の複合群集サンプルの混合に基づく、本発明の第1の実験の結果を示す。
【
図5c】
図5cは、微生物の天然の複合群集サンプルの混合に基づく、本発明の第1の実験の結果を示す。
【
図6a】
図6aは、微生物の発酵複合群集サンプルの混合に基づく、本発明の他の実験結果を示す。
【
図6b】
図6bは、微生物の発酵複合群集サンプルの混合に基づく、本発明の他の実験結果を示す。
【
図6c】
図6cは、微生物の発酵複合群集サンプルの混合に基づく、本発明の他の実験結果を示す。
【
図7a】
図7aは、天然および発酵サンプルを混合した、本発明のさらに他の実験結果を示す。
【
図7b】
図7bは、天然および発酵サンプルを混合した、本発明のさらに他の実験結果を示す。
【
図8】
図8は、本発明の第2の実験に使用されたサンプルプロファイルのコレクションを示す。
【
図9a】
図9aは、標的混合生成物に十分に近い混合生成物を得るための混合組成を見出そうとする第2の実験の結果を示す。
【
図9b】
図9bは、標的混合生成物に十分に近い混合生成物を得るための混合組成を見出そうとする第2の実験の結果を示す。
【
図10】
図10は、
図9aおよび
図9bに示す標的混合物と最良の予測混合物を比較したときの、実際の混合物または実際の混合物と予測混合物との類似性を示す図である。
【
図11】
図11は、実験3のサンプルのNGSショットガンシーケンスから得られたゲノムの相対存在量に基づくPCAを示す図である。
【
図12】
図12は、実験3で使用されたPCAベースの手法を示す。
【発明を実施するための形態】
【0061】
本発明は、微生物の複合群集、即ち「微生物叢」または「微生物叢サンプル」の混合または「プール」に関するものである。より詳細には、初期の複合微生物群集サンプルの個々のプロファイルまたは組成と、得られた混合物のプロファイルとを関連付ける学習予測モデルを使用する方法および装置に関する。
【0062】
本明細書において、「微生物叢」、「微生物叢組成物」、および「微生物の複合群集」という表現は、共存し、相互作用する可能性のある異なる種の多数の微生物を含む微生物集団を指すために互換的に使用することができる。微生物の複合群集に存在する可能性のある微生物には、酵母、細菌、古細菌、ウイルス、真菌、藻類、ファージ、および土壌由来、水由来、植物由来、動物由来、ヒト由来などの異なる起源のあらゆる原生動物が含まれる。
【0063】
本明細書による微生物群集には、天然に存在する微生物の複合群集(例えば、腸内細菌叢、即ち、動物の腸内に生息する微生物の集団など)、ならびに「人工的な微生物の複合群集」、即ち、単離された有益菌株の添加、潜在的な有害微生物を除去するための処理(例えば、病原体に特異的な遺伝子を標的とするレアカットエンドヌクレアーゼの使用)、特定の条件下での培養(例えば、適切な培地での発酵)による増殖などの形質転換工程から得られる複合群集が含まれる。本明細書において「単離された有益株」とは、特定の条件下で有益な効果を有することが知られている天然株(例えば、アッカーマンシア・ムシニフィラ)のほか、潜在的な有害遺伝子がノックアウトされた株(例えば、Cas9のようなレアカットエンドヌクレアーゼを使用したもの)、導入遺伝子が導入された株(例えば、バクテリオファージやCRISPRシステムを使用したもの)を含む遺伝子改変株を意味する。
【0064】
本明細書による微生物および微生物叢の複合体には、「生の」または「生来の」複合体叢または微生物叢、即ち、後処理によって処理されることなく、供給源、1人のドナーまたは複数のドナーから直接得られた複合体叢または微生物叢、および「加工された微生物の複合体叢」が含まれ、これには、操作された複合体叢または微生物叢、および1つまたは複数の天然の生の複合体微生物叢(例えば、WO2016/170285およびWO2017/103550に記載されているような、当業者に周知の技術によって、濾過、凍結、解凍、および/または、凍結乾燥され、ならびに/または、抽出、単離、または、初期行列から分離された複合群集または微生物叢)を含む。
【0065】
ここで、「サンプル」、「複合微生物群集サンプル」、「微生物叢サンプル」という表現は、互換的に使用することができ、本発明の意味における初期の微生物の複合群集または微生物叢、即ち混合物に利用可能なものを指す。
【0066】
本明細書において「微生物群集生態系療法生成物」という用語は、微生物群集(天然に存在するもの、または人工的に作られたもの、天然のもの、または加工されたもの)の複合体を含むあらゆる組成物を指し、それを必要とする個体への投与に適した形態であることを条件とする。微生物群集生態系療法は、個人の微生物叢を改変して、健康上の利益(例えば、疾患の症状を予防または緩和する、個人が治療に反応する可能性を高めるなど)を得ることを目的とする。典型的には、微生物群集生態系療法は、それを必要とする被験体において、機能不全および/または損傷した生態系の少なくとも一部を、微生物の異なる複合群集によって置き換えることによって行われる。微生物群集生態系療法には、糞便微生物叢移植(FMT)が含まれる。本明細書では、特に断りのない限り、「FMT」という用語は、あらゆる種類の微生物叢生態系療法を指すために広く用いられる。
【0067】
本発明の実施形態を実施する複合微生物群集混合プラットフォーム1を図示する
図1に示すように、サンプル100は、初期のサンプルバンクまたは採取物10を通じて入手可能である。単一の採取物またはバンクが示されているが、サンプルは、採取物またはバンク10を全体として形成する複数のサブバンクに保存することができる。
【0068】
本発明のサンプルは、1つまたは複数の供給源および/または1つまたは複数の供与体101に由来する微生物を含むか、または、それらから成ってよい。
【0069】
本発明のサンプルは、
単一の供給源、
少なくとも2つの供給源
単一のドナー、
少なくとも2つのドナー、
単一の供給源および単一のドナー、
単一の供給源および少なくとも2つのドナー、
少なくとも2つの供給源および単一のドナー、または、
少なくとも2つのソースおよび少なくとも2つのドナー、
から得ることができる。
【0070】
本明細書において、「供給源」という用語は、土壌、水、植物の一部、動物の体または体液の一部、ヒトの体または体液の一部など、サンプルが由来するあらゆる環境を指す。ヒトや動物の場合、供給源は身体のどの部分(皮膚、鼻粘膜など)でも、腸の内容物(便サンプルなど)のような体液でもよい。
【0071】
本明細書で使用する場合、「ドナー」という用語は、植物、物理的な場所(土壌や水などの供給源)、動物、またはヒト、好ましくはヒトを指す。
【0072】
ドナーは、先行技術、例えば、WO2019/171012 A1に記載されているような方法および基準に従って予め選択することができる。
【0073】
この例では、100d,100e,100f,100gと表記されているサンプルは、生の微生物の複合群集または微生物群集であり、後処理されることなく1人のドナーまたは複数のドナーから直接得られたものである。
【0074】
100a、100b、100cと表記されている他のサンプルは、「処理されたサンプル」、即ち、1つまたは複数の天然の生の複合群集に対する処理、またはその後処理、またはその形質転換の結果として生じた人工の複合微生物群集である。上述したように、処理には、ろ過、遠心分離、発酵、凍結、初期複合群集の凍結乾燥、さらには初期複合群集の混合が含まれるが、エタノール、クロロホルム、熱の使用など、芽胞および芽胞形成細菌を分離することを目的とした処理も含まれる。
【0075】
図示のように、初期複合群集は、初期サンプル採取物10に属する1つのサンプル100d、100e、100f、100gであってもよいし、外部サンプル99であってもよい。
【0076】
初期サンプル採取物10は、任意の起源(ヒト、動物、植物、土壌、…)の任意の供給源(糞便、皮膚、鼻腔、頬、膣、腫瘍…)からの1つまたは複数のサンプルを含んでよく、好ましくは、少なくとも1人のドナー、より好ましくは少なくとも2人のドナーからの1つまたは複数の糞便サンプルを含んでよい。
【0077】
特定の実施形態によれば、採取物10のサンプルには糞便サンプルが含まれる。
【0078】
ドナーから採取された糞便サンプルは、先行技術、例えば、WO2019/171012 A1に記載されている方法および定性的基準に従って管理することができる。例えば、サンプルの定性的基準は、WO2019/171012 A1に記載されているように、ブリストルスケールで1~6の間でサンプルが一定であること、サンプル中の血液および尿が存在しないこと、および/または特定の細菌、寄生虫および/またはウイルスが存在しないことを含むことができる。
【0079】
糞便サンプルは、例えばWO2016/170285 A1、WO2017/103550 A1および/またはWO2019/171012 A1などの先行技術に記載されている任意の方法に従って採取することができる。好ましくは、サンプルを採取した後、嫌気条件下に置く。例えば、WO2016/170285 A1、WO2017/103550 A1および/またはWO2019/171012 A1に記載されているように、サンプル採取後5分以内に、サンプルを酸素密閉採取装置に配置してもよい。
【0080】
サンプルは、例えば、WO2016/170285 A1、WO2017/103550 A1、および/または、WO2019/171012 A1などの先行技術に記載されている方法に従って調製することができる。
【0081】
図に示すサンプル100a~100gは全て、少なくとも1つのバンクに保存されている実際のサンプルである。
【0082】
点線で表されたサンプル100y~100zは、実際にドナーから採取されたものでも、生産されたものでもない理論上のサンプルであり、したがって、実際に保存バンクまたはバンク10に保存されたものでもない。以下に説明するように、これらの「仮想」サンプル100y~100zは、例えば、コンピュータ、オペレータ、研究者などのエンティティによって想像される理論上の複合群集プロファイル110zを例示するために描かれている。
【0083】
初期サンプル採取物10は、天然サンプル100d~100gのみを含んでいてもよいし、処理済みサンプル100a~100cのみを含んでいてもよいし、仮想サンプル100y~100zのみを含んでいてもよいし、それらの任意の組合せを含んでいてもよい。
【0084】
本発明の第1の目的は、初期サンプル採取物10に属するサンプル100a~100zの混合から生じる混合組成の予測に関する。予測には、
線形手法を用いて、選択された複合微生物群集サンプルの混合に関する中間混合プロファイルを予測すること、および、
基準となる線形予測混合プロファイルと対応する基準となる真の混合プロファイルから学習した相互作用モデルを用いて、中間混合プロファイルを予測混合プロファイルに修正すること、の2つの方法がある。相互作用モデルは、好ましくは、基準となる線形予測混合プロファイルと対応する基準となる真の混合プロファイルから学習された平方相互作用行列である。
【0085】
本発明者らは、驚くべきことに、学習された相互作用モデル、より詳細には行列に基づく方法が、相互作用モデルまたは行列が学習されると正確な予測結果を提供し、それゆえ初期サンプル採取物の材料を消費することなく、最終生成物に関連するヒントを与えることを発見した。
【0086】
予測はコンピュータで実施できるため、予測する混合物の数が多く、初期サンプル採取物10で利用可能なサンプルの数が多く、微生物(サンプルおよび混合物)の複合群集をプロファイリングする特徴の数が多いにもかかわらず、予測混合プロファイルを迅速に得ることができる。
【0087】
本発明の第2の目的は、標的混合結果生成物を表す標的混合プロファイルが与えられた初期サンプル採取物10からサンプルの標的セットが決定される逆の操作に関する。標的混合結果生成物は、例えば、疾患または感染症に関して治癒特性を有する微生物の所望の複合群集を表すことができる。
【0088】
逆の操作には、
初期サンプル採取物から複合微生物群集サンプルの候補セットを順次選択することと、
連続的に選択された各候補セットについて、上記の予測方法を使用して、選択された候補セットのサンプルの混合から生じる混合プロファイルを予測することと、
予測混合プロファイルを標的混合プロファイルと比較し、1つの候補セットを標的セットとして選択することと、
が含まれる。
【0089】
予測操作と逆操作の両方が、混合結果生成物を実際に生成するために使用できる。
【0090】
予測操作に関して、予測混合プロファイルは、選択基準、例えば目的の分類群が十分に存在することと比較される。その後、比較の結果に応じて、選択されたサンプルが取得され、実際に混合されて混合結果生成物が得られる。このように、予測混合プロファイルは、混合結果生成物を得るために、初期サンプル採取物からサンプルの実際の採取と混合を制御するために使用することができる。
【0091】
選択基準は、混合結果生成物に対する所望の特性の関数として設定することができる。
【0092】
相互作用モデルに基づく予測や行列に基づく予測を含む、このような手法を
図2に示し、以下でさらに詳しく説明する。
【0093】
逆操作に関しては、例えば所望の硬化特性を有する混合結果生成物に対応する標的混合プロファイルが与えられた逆操作を使用して、初期サンプル採取物に属するサンプルの標的セットが選択される。次に、標的セットのサンプルが選択され、所望の混合結果生成物が得られるように実際に混合される。このように、逆予測法によって決定されたサンプルの標的セットは、標的混合プロファイルの混合結果生成物の機能を得るために、初期サンプル採取物からサンプルの実際の採取および混合を制御するために使用することができる。
【0094】
標的混合プロファイルを使用したこのような逆方向の手法の実施形態を、
図3を参照して以下に説明する。
【0095】
「混合」とは、微生物の新たな複合群集または新たな微生物叢組成をもたらすサンプルの実際の混合を意味する。その結果は、上述のように投与または移植に使用することができるため、混合結果生成物とも呼ばれる。混合結果生成物は、例えば、FMT接種用培地として使用することができる。
【0096】
「プロファイル」とは、微生物複合群集の組成または微生物叢組成の記述(サンプルまたは混合物である)を意味する。例えば、プロファイルは、複合群集または微生物叢組成におけるプロファイリング特徴の相対存在量を規定する。「相対的」とは、存在量の合計が1に等しいことを意味する。相対存在量は、微生物の複合群集におけるプロファイリング特徴の質量(または重量)または体積割合で表すことができる。
【0097】
関係する用途に応じて(例えば、治療分野では対象とする疾患に応じて、バイオレメディエーション分野では除去する汚染物質に応じて)、プロファイリング特徴はタイプが異なる場合がある。通常は、分類群、遺伝子、抗生物質耐性遺伝子、機能、代謝産物形質、代謝産物およびタンパク質産生を含むグループから選択される。プロファイルは、例えば分類群と抗生物質耐性遺伝子など、異なるタイプのプロファイリング特徴を混合することができる。特定の実施形態においては、微生物の複合群集をプロファイリングするために分類群のみを考慮する。
【0098】
機能はタンパク質またはタンパク質ファミリーの既知の作用を記述する(系統学的に定義されたもの、例えばKEGG KOやNCBI COGs、酵素番号(Enzyme Commission Number)のデータベース)、あるいは代謝のコンテキストを定義することができる(例えば反応レベルのBiGGモデルのデータベースや代謝パスウェイレベルのKEGGパスウェイ)、例えば糖質活性酵素のカタログであるCaZyデータベースのように専門化されたデータベースもある。これらの機能カテゴリー(またはその組み合わせ)は、行列モデルの特徴として使用できる。
【0099】
KEGGは「京都遺伝子ゲノム百科事典(Kyoto Encyclopedia of Genes and Genomes)」、KOは「KEGG オーソロジー(Orthology)」、NCBIは「国立バイオテクノロジー情報センター(National Center for Biotechnology Information)」、COGは「オーソロガスグループのクラスター(Cluster of Orthologous Groups)」、BiGGは「生化学遺伝学・ゲノム学(Biochemical Genetic and Genomic)」の略である。
【0100】
複合群集プロファイルを得るために、16S rRNA遺伝子アンプリコン(即ち、メタゲノム)シーケンス、NGSショットガンシーケンス、16S rRNA遺伝子以外のアンプリコンシーケンス、NGSアンプリコンベースの標的シーケンス、18S/ITS遺伝子シーケンス、メタゲノム配列決定、ファイロチップベースのプロファイリング、ポリメラーゼ連鎖反応(PCR)による同定、質量分析(例えばLC/MSタイプやGC/MSタイプ)、近赤外(NIR)分光法、核磁気共鳴(NMR)分光法のような様々なプロファイリング技術が知られている。
【0101】
図1に示すように、プロファイラ(または、シーケンサ)12は、好ましくは、実際のサンプル100a~100gのプロファイル、例えば16Sシーケンスを提供するために使用される。このようにして得られた対応する個々のプロファイルは、110a~110gと称され、初期のプロファイルコレクションまたはバンク11を形成する。もちろん、16S rRNAシーケンシングは必須ではなく、プロファイル110を提供するために、上記で定義したように、他の方法を単独または組み合わせて使用することができる。
【0102】
個々のプロファイルは、使用されるシーケンシング技術が何であれ、同じフォーマットで変換され、行列またはベクトルaxとしてコンピュータのメモリ(図示せず)に格納される。個々のプロファイル「x」の係数ax(j)は、検討されたサンプル中のプロファイリング特徴「j」の相対存在量を示す。
【0103】
上述のように、いくつかの個別プロファイル110zは、例えば、理論上のサンプルにおけるプロファイリング特徴「j」の相対存在量を表す係数ax(i)を定義することによって、オペレータによって人為的に構築されてもよい。
【0104】
従って、初期プロファイルコレクション11が、天然サンプル100d~100gに対応する個別プロファイル110d~110gのみを含んでもよいし、処理済みサンプル100a~100cに対応する個別プロファイル110a~110cのみを含んでもよいし、仮想サンプル100y~100zに対応する仮想プロファイル110y~110zのみを含んでもよいし、それらの任意の組合せを含んでもよい。
【0105】
以降、扱われる他のプロファイル(例えば、いわゆる中間プロファイルや混合プロファイル)は、同じプロファイル形式、例えば、同じプロファイリング特徴「j」を同じ順番で並べたベクトルに従う。
【0106】
好ましくは、細菌の存在量プロファイルが得られ、これはプロファイルが細菌に関するプロファイリング特徴の相対存在量を規定することを意味する。より一般的には、微生物の複合生物群のプロファイルは、複合生物群に存在する1つまたは複数の微生物(細菌、古細菌、ウイルス、ファージ、原虫および真菌)に関して、好ましくは細菌および/または古細菌に関して、プロファイリング特徴を規定することができる。もちろん、同じプロファイル内のプロファイリングの特徴は、先に列挙したように、異なる微生物に関するものであってもよい。
【0107】
好ましくは、属ベースの細菌存在量プロファイルが得られ、これは、プロファイリング特徴が、微生物の複合生物群における属レベルの細菌の相対存在量を記述することを意味する。より一般的には、微生物の複合生物群のプロファイルは、菌株、種、属、科および目から1つまたは複数の分類学的レベル、好ましくは属、科および目から1つまたは複数の分類学的レベルで考慮される微生物の相対存在量を規定するプロファイリング特徴を定義することができる。
【0108】
予測操作および逆操作は、モジュール14の制御下でプール予測モジュール13によって実施される。モジュール14は、「テストおよび決定モジュール」または「決定モジュール」と呼ばれ、混合プロファイルの予測、および/または標的混合プロファイルが与えられたサンプルセットの決定、および/または少なくとも1つの混合結果生成物の生成を目的として、プラットフォーム1を駆動する。
【0109】
モジュール13および14は、オペレータがプラットフォーム1と対話できるように、入出力インターフェース(キーボード、マウス、スクリーンなど)を有するコンピュータによって実装されることが好ましい。
【0110】
図に示すように、プール予測器13は行列ベースであり、混合されたサンプルの初期プロファイルから結果混合プロファイルを予測するための2つのステップを含む。
【0111】
行列Aは、採取物10で利用可能な全てのサンプルの個々のプロファイルを規定する。それは、プロファイラまたはシーケンサ12によって、あるいは少なくともプロファイラから得られた個々のプロファイルによって形成される。さらに、任意の仮想個別プロファイルも行列に追加される。
【0112】
好ましくは、
【数1】
である。
ここで、j=1,・・・,mであり、mは考慮されるプロファイリング特徴の数であり、nは初期プロファイルコレクション11内の個々のプロファイル110の数であり、したがって初期サンプル採取物10内のサンプル100(仮想のものを含む)の数である。
【0113】
正方行列Wは、微生物間の相互作用をモデル化した上記で規定した相互作用行列である。モデル化行列Wの説明(学習方法も含む)を以下に詳細に示す。相互作用行列は、後者が一緒に混合されたときのサンプルの様々なプロファイリング特徴の間の非線形相互作用を表現することを目的としている。
【0114】
予測操作は、行列Aを用いて、選択されたサンプルの少なくとも1つの混合物について、行列Iによって形成される中間混合プロファイルを予測し、行列に基づく第1のステップを含み、I=P*Aであり、Pは、採取物10から選択されたサンプルの少なくとも1つの混合物を表す行列である。
【0115】
行列Pは、初期サンプル採取物のサンプルの質量比または体積比で、各混合を規定することができる。
【0116】
例えば、
【数2】
である。
ここで{p
x(j)}
jは混合「x」を規定し、p
x(k)はサンプルk(kは1から採取物10/11におけるサンプルの数Nsampまで)の割合である。比率の合計は1に等しい。
【数3】
サンプルrが混合xに使用されていない場合、p
x(r)=0となる。
【0117】
行列ベースの手法は、有利なことに、様々な数の混合物を一緒に予測することを可能にし、Pの各行は、予測する混合物を規定し(したがって、上記の例では、「t」個の混合物が規定されている)、その数「t」は、1つの予測から他の予測に変化することができる。
【0118】
決定モジュール14のリスト140において予め規定することができる。新しいテスト手順を開始すると、モジュール14はリスト140を読み出し、リストの1つ、または、いくつか、または、全ての混合物の規定を使用して、上記で規定された行列Pを形成する。もちろん、変形例として、または組み合わせて、オペレータは、モジュール14に接続された画面上で、採取物10からサンプル100を選択し、それらの相対比率を指定することにより、少なくとも1つの新しい混合物をその場で定義することができる。したがって、混合物{px(k)}kをその場で作成することができる。
【0119】
予測演算I=P*Aは、例えばコンピュータに実装されている。
【0120】
行列
【数4】
は、テストされた混合物Pの線形予測または「中間」混合プロファイルを規定して得られる。
【0121】
これらの混合プロファイルは、実際に混合が行われたときの微生物間の相互作用を考慮していないため、「ナイーブ」な予測である。
【0122】
そのため、本発明によれば、予測操作は、相互作用モデル、特に相互作用行列Wを用いて、中間混合プロファイル、即ち行列Iを、行列
【数5】
で表される予測混合プロファイルに修正する第2のステップを含み、R=I*W,j=1,…,mである。
【0123】
こうして、予測混合プロファイルは、採取物10の材料を消費することなく、様々な数の混合物について迅速に得ることができる。
【0124】
相対存在量rx(j)は負ではなく、全組成を共に形成することが期待される(即ち、所与の混合物「x」に対してそれらの合計は1に等しい)。しかしながら、これは行列積ではそうでない場合がある。したがって、本発明の実施形態は、生物学的制約を満たすために、結果行列RをR’に後処理することを含む。
【0125】
例えば、Rのそれぞれの負の値はクリップされ、つまり負の存在量は0に設定される。その後、相対存在量r
x(j)は正規化され、つまり(例えば、線形補間を用いて)r´
x(j)に調整され、それらの合計が1に等しくなる。
【数6】
最終的な混合結果行列は次のようになる。
【数7】
ここで、{r´
x(j)}
jは、テスト済み混合物x({p
x(k)}
kによって規定される)の予測混合プロファイルを表すベクトルである。任意選択的に、正規化する前に、一緒に混合された初期サンプルに存在しない(即ち、一緒に混合された全てのサンプルxについてa
x(j)がゼロである)プロファイリング特徴の非ゼロ相対存在量(Rの非ゼロ値)をゼロに設定する。
【0126】
本方法の効率性は、混合サンプルの微生物間の実際の正と負の相互作用を行列、いわゆる相互作用行列Wにモデル化することに基づく。そして、行列に基づく2段階のプロセスにより、実際の混合プロファイルを効率的に予測することができる。
【0127】
相互作用行列Wは、与えられたm個のプロファイリング特徴セットに対して学習される。プロファイリング特徴がプロファイル内で並び替えられた場合、相互作用行列Wの係数もそれに応じて並び替えられる。
【0128】
例えば、新たな特徴が発見されたり、ある特徴があまり意味を持たなくなったために削除されたり、および/または、ある特徴がより正確となるように、より多くの特徴に分割されたりするため、m個のプロファイリング特徴も時間とともに進化する可能性がある。プロファイリング特徴の進化は、新しいプロファイリングデータを提供するプロファイリング/シーケンス方法およびプロファイラ/シーケンサ12の強化、ならびにアルゴリズムと特徴の参照データベースを結合するバイオインフォマティクス手法の改善によっても生じる可能性がある。
【0129】
例えば、標的にする疾患や治療法の違いによって、プロファイリング特徴の異なるセットを考慮することもできる。
【0130】
プロファイリング特徴そのものだけでなく、セット内の特徴の数も進化したり変化したりする可能性がある。
【0131】
したがって、プロファイリング特徴の新しいセットが考慮されるたびに、相互作用行列Wは、初期プロファイルコレクション11を記述する行列Aと同様に、新たに計算することができる。計算された相互作用行列Wは、対応するプロファイリング特徴のセットが新たに使用される場合に再利用できるように、プール予測器13のメモリに格納することができる。
【0132】
相互作用行列は、好ましくは機械学習を用いて取得される。機械学習は、一組の訓練データを用いて行われる。訓練データは、サンプルkの複数の混合物{pref(k)}から得られる基準となる混合生成物「ref」から構築される。
【0133】
サンプルの実際の基準混合物は、10分から3時間、好ましくは、30分から1.5時間の間に均質化される。均質化は、0℃から10℃、好ましくは、2℃から6℃、より好ましくは、約4℃の温度で行われる。
【0134】
その後、混合物は、数時間、少なくとも混合から16時間以内、好ましくは、24時間以内は安定であると考えられる。
【0135】
つまり、この相互作用行列は、4℃で安定化された混合物について、微生物間に生じるはずの相互作用を表している。
【0136】
他の混合条件を表す他の相互作用行列を作成してもよい。
【0137】
サンプルxの個々のプロファイル{ax(j)}j(j=1,…,m)は既知であるか、またはサンプルxをプロファイリングするシーケンサから得られる。したがって、基準となる線形予測混合プロファイル{iref(j)}jも、上記の線形式I=P*Aを使用することにより分かる。
【0138】
基準となる混合生成物「ref」の混合プロファイルは、基準となる真の混合プロファイル{rtrue(j)}jと称され、基準となる混合生成物「ref」をプロファイリングするシーケンサから既知であるか、または取得される。
【0139】
基準となる予測混合プロファイル{rpred(j)}jは、基準となる線形予測混合プロファイル{iref(j)}jと(学習中の)正方相互作用行列Wとの間の行列積に対応し、単一の基準となる混合生成物「ref」について、RpredIref*W、または、{rpred(j)}j={iref(j)}j*Wである。
【0140】
機械学習は、基準となる混合プロファイルの予測誤差を最小化しようとするものである。換言すれば、基準となる真の混合プロファイル
【数8】
と、対応する基準となる線形予測混合プロファイル
【数9】
との間の差に基づく式を最小化しようとするものである。「pred-i」および「true-i」は、それぞれ同じ基準となる混合生成物「i」に対応する予測基準となる混合プロファイルおよび真の基準となる混合プロファイルを指す。「N」は,考慮する基準となる混合生成物の数を表す。
【0141】
機械学習の訓練データはIrefおよびRtrueである。
【0142】
いくつかの実施形態では、最小化する式は、残差ベクトルである
{rtrue-i(j)}j-{rpred-i(k)}k={rtrue-i(j)}j-{iref(k)}k*W、
または、残差行列Rtrue-Rpred=Rtrue-Iref*Wである。
【0143】
どのノルムを使ってもよく、L1、L2、Lpなどである。好ましくは、差の2乗和(SSD)またはそれに派生する平均2乗誤差(MSE)を使用することができる。また最小カイ2乗法も使用できる。
【0144】
機械学習は、次に示す凸最適化問題を解決しようとする。
【数10】
ここで、
【数11】
は、MSEであり、NはR
trueとR
predで考慮される混合生成物の数である。
【0145】
オーバーフィットWを回避する実施形態において、式は、正則化項、好ましくはリッジ(L2)ベースの正則化項を上記の差に追加する。変形として、ラッソ(L1)ベースの正則化項を使用することもできる。リッジ手法は、有利なことに、Wにおいてより多くの非ゼロ係数を持つことに役立ち、それゆえプロファイリング特徴間の相互作用をより正確にモデル化する。
【0146】
したがって、機械学習は以下の凸最適化問題を解決しようとする。
【数12】
ここで、
【数13】
は正則化項(好ましくはリッジ)、IDは単位行列、λは正則化重み付けのハイパーパラメータである。
【0147】
さらに、R
predが負の相対存在量を持たず、各基準となる予測混合プロファイルの相対存在量の合計が1になるように、機械学習中に制約を設定することができる。換言すれば、I
ref*Wの負の相対存在量をクリップし、各基準となる予測混合プロファイル、即ちI
ref*Wの各行の相対存在量の合計を1に正規化することに対応する修正行列R’
predを使用することが好ましい。修正されたI
ref*Wは、
【数14】
と表記される。したがって、実施形態において、機械学習は、以下の凸最適化問題を解決しようとする。
【数15】
【0148】
訓練データのセット(仮にN個の基準混合結果とする)は、2つのサブセットに分割され、1つはハイパーパラメータλの最適化のため、もう1つはWの最適化のためである。
【0149】
λを最適化する様々な方法が知られており、特に、情報量基準最小化法(例えば、赤池情報量基準最小化やベイズ情報量基準最小化)や、交差検証残差最小化法などがあり、これらは訓練データの最初のサブセットを使用する。この最適化では、WはデフォルトでIDとは異なる値に設定されてもよい。
【0150】
例えば、λを10
-5と10
3の間で変化させた上式のMSEを、訓練データセットとテストデータセット(ハイパーパラメータλの最適化のためにサブセットを分割)について計算する。結果のMSEは
図1aのようになる。
【0151】
図示のように、λが小さいとき、訓練データセットのMSEは0に近いが、テストデータセットのMSEは非常に高い。この状況では、モデルはオーバーフィットしている。
【0152】
一方、λが高い場合、モデルはアンダーフィットとなる。
【0153】
したがってλは、テストデータセットのMSEを最小化するように選ぶことができる。
【0154】
一旦λが既知になると、訓練データの2番目のサブセットは、交差検証された残差を最小化することによってWを学習するために使用され、kフォールド手順が実行される。
【0155】
訓練データのサブセット(即ち、{rtrue-i(j)}jと{iref-i(j)}j)はk個のサブセットに分割され、好ましくは、kは、3から20の整数、好ましくは、4から10の整数から選択され、より好ましくは、5に等しい。
【0156】
k個のサブセットのそれぞれは、テストサブセットを規定するためにラウンドロビン方式(循環順序)で連続的に選択され、残りのk-1個のサブセットは訓練サブセットを規定する。
【0157】
k回のラウンドごとに、訓練サブセットを使用してモデルを訓練する。即ち、Wを求めるために、
【数16】
を解く。有利なことに、1回のパスでWを学習するように、訓練サブセットの全ての線形予測混合プロファイルが単一の行列I
ref(および、R
trueの真の混合プロファイル)に供給される。
【0158】
学習された相互作用行列Wは、次にテストサブセットでチェックされ、テストサブセットは、行列ベースのモデルR
true=I
ref*Wに適用される。任意のノルム、例えば、MSE
【数17】
に基づくスコアが得られる。
【0159】
この操作をk個のテストサブセットごとに繰り返すと、k個のスコアが得られる。
【0160】
そして、最良のスコア(即ち、最も低いスコア)に対応する学習された相互作用行列Wを選択して、プール予測器13を構成することができる。
【0161】
もちろん、学習された相互作用行列Wが得られれば、機械学習の他の方法論を用いることもできる。
【0162】
いくつかの実施形態において、サンプル100(即ち、行列Aを形成するために使用される)のプロファイリング特徴は、最終混合結果(即ち、行列Rを形成するために使用される)のプロファイリング特徴と同じである。上述したように、それらは(以下の実験1および2のように)分類群、遺伝子、抗生物質耐性遺伝子、機能、および代謝産物形質、ならびに代謝産物およびタンパク質産生であってもよい。
【0163】
他の実施形態において、サンプル100(即ち、行列Aを形成するために使用される)のプロファイリング特徴は、最終混合結果(即ち、行列Rを形成するために使用される)のプロファイリング特徴とは(部分的または全体的に)異なる。上記のプロファイリング特徴(分類群、遺伝子、機能など)のいずれを用いてもよい。
【0164】
一例として、NGSショットガンシーケンスなどのプロファイリング技術が使用される場合、16Sシーケンスと比較して、サンプル100あたり、より多くのプロファイリング特徴が得られる。したがって、サンプル100は、NGSショットガンシーケンスを使用してプロファイリングすることができ(したがって、行列Aは、NGSショットガンプロファイリング特徴で形成される)、一方、最終的な混合結果は、例えば、16Sシーケンスを使用して得られたプロファイリング特徴の数を減らして保持することができる(したがって、行列Rは、16Sプロファイリング特徴で形成される)。その場合、行列IはNGS-ショットガンプロファイリング特徴で形成され、相互作用行列Wは正方行列ではなく、依然として微生物間の相互作用をモデル化するが、この例ではNGS-ショットガンプロファイリング特徴と16Sプロファイリング特徴との間の関係としてモデル化される。
【0165】
多数のNGSショットガンプロファイリング特徴を削減しようとする具体的な実施態様において、主成分分析(PCA)が実行され、この多数の特徴がk個の主成分(k個のPC)に投影される。一実施形態において、PCAは、サンプルをプロファイリングする特徴、即ち行列Aを構築する際に実行される。他の実施形態において、行列Iは、多数のプロファイリング特徴を用いて生成され、PCAは行列Iに対して実行される。
【0166】
上述したように、プール予測器13は、混合
【数18】
が入力として与えられると、最終的な混合結果行列
【数19】
を出力する。
【0167】
混合結果行列R’、即ち、テストおよび決定モジュール14によって得られた予測混合プロファイル{r´x(j)}jは、次に、混合結果生成物19を実際に生成するプロセスを制御するために使用することができる。例えば、信号S1および任意選択でS2を通じて、混合結果生成物を得るための初期サンプル採取物10からのサンプルの実際の取り出しおよび混合を制御するために使用することができる。
【0168】
R’における予測混合プロファイルの1つが、混合結果生成物19の生成をトリガーするために、決定モジュール14によって選択されてもよい。
【0169】
予測混合プロファイルの1つを選択するために、1つまたは複数の選択基準を使用することができる。
【0170】
選択基準は、メモリ内のファイル141に保存することができる。基準は、オペレータによってシステム(リスト141)に入力され、例えば硬化性または処理特性を有する混合結果生成物の要件を反映することができる。
【0171】
基準はプロファイルのプロファイリング特徴に関連する。したがって、これは標的混合プロファイルと同義であり、プロファイルの特徴に関する制約は、実施形態に応じて多かれ少なかれ緩められる。
【0172】
基準には、多様性基準、例えば細菌の多様性基準を含めることができる。
【0173】
「多様性」または「細菌の多様性」とは、微生物の複合群集(混合物またはサンプル)の多様性または変動性を意味し、例えば属、種、遺伝子、機能または代謝物のレベルで測定される。多様性は、豊富度(観察された種数、属数、遺伝子数)、シャノン指数、シンプソン指数、逆シンプソン指数など、複合群集を記述するためのアルファ多様性パラメータや、ブレイ・カーティス(Bray-Curtis)指数、ユニフラック(UniFrac)指数、ジャカード(Jaccard)指数など、複合群集を比較するためのベータ多様性パラメータで表すことができる。
【0174】
したがって、多様性基準は、最小数のプロファイリング特徴(例えば細菌属)または、1つまたは複数の事前定義されたプロファイリング特徴の存在(即ち、対応する相対存在量がゼロでないこと)の観点からの要件を表すことができる。プロファイリング特徴の最小数は、m個のプロファイリング特徴全てに関して考慮してもよいし、m個のプロファイリング特徴の予め規定されたサブリストに関して考慮してもよい。これにより、所望の混合結果生成物19のための特定の特徴に焦点を当てて選択プロセスを行うことができる。
【0175】
R’の予測混合プロファイルは、例えば、最小数のプロファイリング特徴の存在を満たすものが選択される。
【0176】
多様性基準は、1つまたは複数の特定のプロファイリング特徴の最小相対存在量または最大相対存在量を表す場合がある。例えば、所定の細菌属は、他の細菌(他のプロファイリング特徴で特定される)と比較して、少なくとも5%以内の割合(質量)で混合結果生成物中に存在することが望まれる場合がある。多様性基準はまた、1つまたは複数の特定のプロファイリング特徴の相対存在量が属するべき範囲を規定してもよい。もちろん、様々な多様性基準を混在させることもでき、1つのプロファイリング特徴の最小相対存在量または最大相対存在量と、別の特徴の範囲、および/または第3の特徴の最大相対存在量、などである。
【0177】
同様に、少なくとも2つのプロファイリング特徴間の相対比(場合によっては、最小比および/または最大比)を多様性基準として使用することもできる。
【0178】
例えば、特定のプロファイリング特徴の相対存在量の最小値または最大値を満たすR’の予測混合プロファイルを選択することができる。
【0179】
多様性基準は、プロファイリング特徴の多様性の増加を表す場合もある。
【0180】
多様性基準は、特定の標的混合プロファイルへの近さまたは類似性を規定してもよい。例えば、標的混合プロファイルは、標的混合プロファイルに正確に一致する混合結果生成物が望まれる場合に規定されてもよい。通常、標的混合プロファイルは、プロファイル間で評価される距離(測定値)に対応する最大値とともに提供される。両プロファイル間の距離(測定値が与えられる)が最大値以下である場合、混合プロファイルは標的混合プロファイルに近いと言われる。測定値は、ノルム、L1、L2、…、Lp、SSD、MSE、ベータダイバーシティインデックス、またはプロファイリング特徴間の他の既知の距離測定値(例えば、ブレイ・カーティス距離、ジャカード距離、ユニフラック距離または類似性測定値)である。
【0181】
例えば、標的混合プロファイルとの距離が最小となるR’の予測混合プロファイルが選択される。
【0182】
上記に規定された基準の全てまたは一部を組み合わせることができる。
【0183】
予測混合プロファイルの1つ(即ち、より一般的には標的混合プロファイル)を選択するために使用される1つまたは複数の選択基準は、決定モジュール14によって取得され、R’に適用される。
【0184】
R’内の予測混合プロファイルは、順番に連続して検討することができる。
【0185】
選択基準または基準を満たす最初の予測混合プロファイルは、混合結果生成物19の生成のために選択されてもよい。
【0186】
変形においては、R’の全ての予測混合プロファイルは、選択基準または基準に関して評価され、最良のスコア(例えば、いくつかの基準を満たし、かつ/またはいくつかの基準に最も近い)を有するものが選択される。
【0187】
より一般的には、例えば、治癒特性を有する標的混合物に対応する選択基準/標的混合物プロファイルが規定される逆予測が考慮されてもよい。ファイル140は、テストされるサンプルの候補セットを規定することができ、そこから標的混合プロファイルを考慮した「最良の」セットが検索される。このプロセスは、「最良」のものを見つけるために、ファイル140を通じて、異種の候補セットの第1のグループ(即ち、どのサンプルが一緒に混合され、それぞれどのような割合で混合されるかという点で異種の混合を有する)を最初にテストすることができ、次いで、「最良」のセットの近傍の候補セットの別のグループ(例えば、「最良」のセット内のサンプルの割合px(k)を変更し、および/または、セットへの/セットからのサンプルの1つもしくは最大2つのみを追加もしくは削除する)をテストすることができることを意味する反復的なものであってもよい。もちろん、標的混合プロファイルを考慮した「最良」結果のサンプルセットを漸進的に改良するために、1回または複数回の追加反復が考慮されてもよい。
【0188】
各反復において、例えば、標的混合プロファイルに対する最小距離(ブレイ・カーティス距離、ジャカード距離、ユニフラック距離など)を有するR’の予測混合プロファイルが、「最良」のものとして選択され得る。変形例として、複数の(例えば行列ベースの)予測を行い、得られた複数の(例えば様々な行列R’)予測混合プロファイルから「最良」の候補セットを選択することもできる。こうして、予測混合プロファイルと標的混合プロファイルとの比較が行われ、1つの候補セットが「最良」、即ち標的セットとして選択される。
【0189】
予測混合プロファイルが選択され、初期の採取物からサンプルの対応する標的セットがわかると、混合結果生成物19を生成するプロセスが開始される。
【0190】
決定モジュール14は、まず、選択された予測混合プロファイルに対応する混合組成{px(k)}kを取得する、即ち、初期採取物10中のサンプルの標的セットの各サンプルkに対する割合px(k)を取得する。そして、S1を使用して、セレクタおよびミキサ15に、これらの割合{px(k)}kで信号を送る。変形例において、信号S1は、オペレータへの表示であってもよく、例えば、割合{px(k)}kは、オペレータがサンプルの実際の取り出しおよび混合を手動で実行するために、オペレータにスクリーン上に表示される。
【0191】
セレクタおよびミキサ15は、サンプル採取物10に機械的にアクセスでき(例えば、制御された多関節アームを介して)、サンプルの混合を行うバイオリアクタを含む機械とすることができる。
【0192】
信号S1に応答して、セレクタおよびミキサ15は、バンク10から非ゼロの割合px(k)を有するサンプルをピックし、即ち、取得し、または、取り出し、対応する割合px(k)が与えられた各サンプルの量、および混合結果生成物19を標的とする総量または質量を取出す。取り出された全てのサンプルの量は、バイオリアクに注がれ、そこで実際に混合される。
【0193】
好ましくは、10分から3時間、好ましくは、30分から1.5時間の間に均質化される。均質化は、0℃から10℃、好ましくは、2℃から8℃、より好ましくは、約4℃の温度で行われる。混合結果生成物は、その後数時間、少なくとも混合から16時間以内、好ましくは、24時間以内は安定であると考えられる。
【0194】
得られた混合結果生成物19の真の混合プロファイル191{rtrue(j)}jは、プロファイラ/シーケンサ12を用いて取得することができる。これは、選択された予測混合プロファイル192{r’x(j)}jとわずかに異なる可能性があるため、Wを改善するための更なる訓練データとして(対応する中間混合プロファイル{ix(j)}jと共に)使用することができる。上述したような新たなラウンドは、訓練データのこの唯一の新たな項目(または、いくつかの項目が得られた場合)で実施することができ、λは変更せずに維持し、Wをその現在の値に初期設定することができる。このようにプラットフォーム1を使用しながらWを繰り返し学習することで、有利なことにWが改善され、より優れた将来の混合プロファイル予測が可能となる。
【0195】
上述したように、いくつかのサンプル100y~100zは、仮想であってもよい。そのような仮想サンプルが決定モジュール14によって選択された場合(即ち、選択された予測混合プロファイルにおける、その対応する相対存在量px(k)がゼロでない場合)、その仮想的な規定(即ち、対応する個々のプロファイル)から上記サンプルを実際に生成する必要性がある。
【0196】
決定モジュール14が、細菌コンソーシアムに対応する仮想サンプル100y~100zについて、そのようなゼロでない相対存在量を検出すると、S2を使用して、サンプルジェネレータ16に、上記人工サンプルを生成する必要性を通知する。S2は、当該サンプルを特定し、必要な材料の量(即ち、対応する割合px(k)に、混合結果生成物19の標的総量または質量を乗じた量)を示すことができる。
【0197】
サンプルジェネレータ16は、単離された菌株160のバンクに(例えば、制御された多関節アームを介して)機械的にアクセスでき、個々の菌株の混合という観点から、サンプルの組成を規定するファイル161にアクセスする記憶装置を有する機械とすることができる。サンプルジェネレータ16は、菌株の混合を行うバイオリアクタも含む。
【0198】
信号S2に応答して、サンプルジェネレータ16は、菌株の観点から人工サンプル(細菌コンソーシアム)の定義を取得し、必要とされる各菌株の適切な量を、信号で示された必要量が与えられた菌株バンク16から採取する。採取された必要な全菌株の量は、バイオリアクタに注入され、例えば4℃で30分間、実際に混合される。
【0199】
実施形態において、サンプルジェネレータ16は、バンク10および/または外部サンプルのバンク99にアクセスすることができる。決定モジュール14が、操作されたまたは処理された複合群集(即ち、サンプルを含む混合物)に対応する仮想サンプルについてゼロでない相対存在量を検出すると、S2を使用して、サンプルジェネレータ16に、上記操作されたまたは処理されたサンプルを生成する必要性を通知する。S2は、バンク10内の各菌株および/または各サンプル、および/または混合物に関係する各外部サンプルを同定し、必要な材料の量(即ち、対応する割合px(k)に、混合物結果生成物19の標的総量または質量を乗じた量)を示すことができる。
【0200】
信号S2に応答して、サンプルジェネレータ16は、材料を取得または採取し、バイオリアクタに注ぎ、そこで実際に混合する。
【0201】
混合が完了し、安定化すると、サンプルは生成されたことになるので、初期サンプル採取物またはバンク10に保管され、セレクタおよびミキサ15が実際に混合結果生成物19を生成することができる
【0202】
信号S1とS2は、セレクタおよびミキサ15、ならびに、サンプルジェネレータ16を駆動するための制御信号として上述したが、これらの一方または両方は、オペレータが実際に手動で混合を実行するためにオペレータに表示される単なる信号であってもよい。
【0203】
図2は、混合プロファイルの予測を含む、そのような混合結果生成物19を生成する一般的なステップを、フローチャートを用いて示している。これらのステップはプラットフォーム1によって実行される。
【0204】
ステップ200において、テストおよび決定モジュール14は、初期サンプル採取物11において利用可能なものからサンプルのセットを選択する。このステップは、単に、リスト140から1つの混合規定{px(k)}kを提供または選択することからなる場合がある。
【0205】
混合物「x」の定義は、予測のためにプール予測器13に提供される。
【0206】
「x」は、リスト140における混合規定が1からNmixまでのインデックスを持つとき、初期値として1に設定される。
【0207】
ステップ205において、プール予測器13は、まず、中間混合プロファイルを得るために混合プロファイルの線形予測を実行し、{ix(j)}j={px(k)}k*Aである。これは行列積である。
【0208】
ステップ210において、プール予測器13は、次に、相互作用行列Wを用いて中間混合プロファイルの修正を実行し、{rx(j)}j={ix(j)}j*Wである。これは行列積である。
【0209】
混合「x」の予測混合プロファイル215、{r’x(j)}jを得るために、必要に応じて{rx(j)}jのクリッピングと正規化も実行される。
【0210】
ステップ220において、{r’x(j)}jが選択基準に基づく条件を満たすか否かがチェックされる。この条件は、満たすべき単一の選択基準によって規定されてもよいし、複数の選択基準によって規定されてもよい。この条件は、所望の治癒特性または治療特性を有する微生物の複合群集または微生物組成物を規定する基準を反映することができる。
【0211】
{r’x(j)}jが条件を満たさない場合、ステップ200にループバックする前に、ステップ225(混合インデックスをインクリメントする)を通して別の混合が検討される。もちろん、全ての混合物がまだ考慮されていない場合(テスト221)、条件を満たす混合物がないままプロセスは終了する。この場合、オペレータに警告メッセージが発せられてもよい。
【0212】
{r’x(j)}jが条件を満たす場合、それが選択され、処理はステップ230に進む。
【0213】
ステップ230において、対応する混合規定{pselect(k)}kが、決定モジュール14によってリスト140から検索され、セレクタおよびミキサ15に送られるか、またはオペレータに表示される(信号S1)。
【0214】
任意選択的に、仮想サンプル「k」が対応する非ゼロの割合pselect(k)を有する場合、決定モジュール14は、信号S2の送信を通して、サンプルジェネレータ16による実際の生成をトリガーするか、またはオペレータに情報を表示する。
【0215】
ステップ235において、対応する非ゼロのpselect(k)を有するサンプルが、セレクタおよびミキサ15によってバンク10から取り出され、バイオリアクタ内で混合される。
【0216】
その結果、所望の混合結果生成物19が得られる。
【0217】
上記の予測操作のおかげで、材料(サンプル)を消費することなく、混合結果生成物の正確なプロファイルを迅速に取得(少なくとも推定)することができる。
【0218】
しかしながら、サンプルは時間の経過とともに(実際にいくつかの生成物を生成するため、または時間の経過とともに劣化するため)消滅する可能性がある一方、新たなサンプルは新たなドナーから採取される可能性がある。このことから、標的混合結果生成物を生成するために混合規定が決定された後、採取物10は経時的に進化する(したがって、Aは進化する)可能性があることがわかる。本発明の実施により、プール予測器13は進化した採取物で新たに構成され(Aは再定義され、Wは学習される)、進化した採取物に対応する別の混合物定義も(本発明の予測を使用して)決定され、同様の混合結果生成物を生成することができる。
【0219】
上記のステップ200~235のシーケンスにより、条件を満たすリスト140における最初の混合物が選択される。
【0220】
変形例において、「最良」の混合、即ちサンプルのセットを見つけるために、ステップ220において条件をチェックする前に、リスト140において定義された全ての混合物について、予測混合プロファイルがプール予測器13によって推定され得る。
【0221】
この手法は、
図3に示されているように、標的混合プロファイルから混合規定{p
x(k)}
k(即ち、採取物10のサンプルのセット)を見つけようとするものである。このような標的混合規定(即ち、サンプルの標的セット)の決定は、今説明したように、生産工程で行われることがある。実際、テストおよび決定モジュール14によって、標的混合プロファイルの標的混合規定{p
x(k)}
kが得られたら、それを使用して、上述したように、混合結果生成物19を実際に生成するプロセスを制御することができ、決定モジュール14は、信号S1、および任意選択で信号S2を、生産プロセスにおける制御モジュール15および16に送信するか、または実施すべき操作をオペレータに通知することができる。
【0222】
図3は、フローチャートを用いて、標的混合プロファイルが与えられた場合に、そのような混合結果生成物19を生成する一般的なステップを示している。これらのステップはプラットフォーム1によって実行される。
【0223】
ステップ300において、所望の混合結果生成物に対応する標的混合プロファイル{r’x(j)}jがファイル141に設定される。
【0224】
標的混合プロファイルは、プロファイリング特徴について明確に規定された値を持つプロファイルであってもよいが、例えば、1つまたは複数のプロファイリング特徴の最小相対存在量、1つまたは複数のプロファイリング特徴の最大相対存在量、1つまたは複数のプロファイリング特徴の相対存在量の範囲、プロファイルまたはプロファイリング特徴の予め規定されたサブセットにおける非ゼロ相対存在量の最小数、相対存在量がゼロでない、予め規定されたプロファイリング特徴、2つ以上のプロファイリング特徴の相対存在量間の規定された比率などのような、より緩やかな値を定義するプロファイルであってもよい。
【0225】
標的混合プロファイルは、テストおよび決定モジュール14が、{r´(j)}j(モデルの出力)としてこの標的混合プロファイルをプール予測器13に供給することができるように、ファイル141において規定することができる。
【0226】
ステップ305において、採取物10からサンプルの候補セットのグループが得られる。これらは予め規定されていてもよい。
【0227】
それぞれの混合比率px(k)をランダムに選択するのと同様に、採取物からサンプルのランダムな選択を実行することができる。
【0228】
混合するサンプルの数は、許容される数の範囲内で選択することができ、例えば、2個から1000個のサンプル、好ましくは、3個から100個のサンプルである。実際には、3個から10個が容易に扱うことができる。もちろん、本発明によるコンピュータ実装方法によって、より多くのサンプルを混合した場合の予測を低コストで実行することが可能になる。
【0229】
混合比率は、予め規定された比率のグループから選択することができる(比率の合計が100%でなければならないため、混合されたサンプルの数が与えられる)。
【0230】
候補セットの初期グループは、ランダムに形成されてもよく、通常、非常に分散したサンプルセットとなる。候補セットの他のグループは、1つまたは複数の既知のセット(例えば、
図3のプロセスの以前の反復で「最良」セットとして決定されたセット)が与えられて形成される場合がある。候補セットの他のグループは、例えば、異なる混合比率p
x(k)のみによって、および/または限定された数の異なるサンプル(例えば、1つまたは2つの異なるサンプルのみ)によって、既知のセットまたはセットから異なる他の候補セットを含むことができる。
【0231】
候補セットは、テストおよび決定モジュール14がプール予測器13にこれらの候補混合物({px(k)}kのリスト)を供給できるように、ファイル140において規定される。
【0232】
次に、候補セット/混合物について1つまたは複数の混合プロファイル{rx(j)}jを予測するために、上述のステップ205、210、215が実行される。行列ベースの手法により、複数の候補セット(おそらく、全て)の混合プロファイルを同時に予測することができ、ここでPは、リスト140からの複数または全ての{px(k)}kを含む。
【0233】
ステップ310は、全ての候補セット/混合物が処理されたか否かをチェックする(テスト216)。否定された場合、ステップ225を通じて次の混合規定が検討される。
【0234】
次に、ステップ315において、予測混合プロファイルは、1つの候補セットを標的セットとして選択する観点から、標的混合プロファイル(選択基準)と比較される。
【0235】
例えば、距離、例えばブレイ・カーティス距離、ジャカード距離、ユニフラック距離、またはそれらの組み合わせが、各予測混合プロファイルについて(したがって各候補セットについて)計算される。
【0236】
ステップ320は、考慮された距離において、標的混合プロファイルに最も近い予測混合プロファイルまたは複数のプロファイルを決定する。好ましくは、最も近いものが決定される。
【0237】
最も近い予測混合プロファイルが標的混合プロファイルに十分に近いことを保証するために、距離のマージンが適用されてもよい。この場合、最も近い予測混合プロファイルはマージンを満たさなければならず、これは計算された距離がこのマージンより小さくなければならないことを意味する。予測混合プロファイルがテストを満足しない場合、プロセスは終了し、オペレータに警告メッセージが発せられてもよい。
【0238】
そうでなければ、上述のステップ230に移行する際に、標的セット/混合組成物「選択」に対応する予測混合プロファイル{r’select(j)}j325が決定されている。
【0239】
いくつかの実施形態(図示せず)において、この標的セット/混合組成は、上記で説明したように、別の(さらに多くの)ラウンドのプロセスを実行し、ステップ230において使用される標的セット/混合組成を改良するために、新たな候補セットのグループを規定するために使用することができる。
【0240】
ステップ230において、混合規定「選択」は、セレクタおよびミキサ15またはオペレータに送られる(信号S1)。
【0241】
任意選択的に、仮想サンプル「k」が対応する非ゼロの割合pselect(k)を有する場合、決定モジュール14は、信号S2の送信を通して、サンプルジェネレータ16に信号を送るか、またはオペレータに通知することによって、その実際の生産をトリガーする。
【0242】
ステップ235において、対応するpselect(k)がゼロでないサンプルが、例えばセレクタおよびミキサ15によってバンク10から取り出され、あるいは選び出され、バイオリアクタ内で混合される。
【0243】
その結果、所望の混合結果生成物19が得られる。
【0244】
糞便微生物叢移植(FMT)製品、より一般的にはマイクロバイオーム生態系療法製品は、複数のサンプルから構築することができる。本発明が定義する混合方法により、最終的なFMT製品の多様性を、モノサンプル法と比較して効率的に、さらに材料を無駄にすることなく改善することができる。
【0245】
図1を参照して上述したプラットフォーム1は、中央コンピュータの制御下にあるいくつかのモジュールを含む。例えば、プール予測器13、ならびに、テストおよび決定モジュール14は中央コンピュータに実装され、シーケンサ12、セレクタおよびミキサ15、サンプルジェネレータ16、バンク10は中央コンピュータに接続された別個のマシンである。
【0246】
上記の説明では、主に、行列ベースの予測モデル、特に、正方相互作用行列を使用している。後者に代わるものとして、バックプロパゲーションによって訓練または学習される、パラメータ化された微分可能な非線形モジュールの多層からなるニューラルネットワークなどの深層学習モデルがある。
【0247】
図4は、生産プラットフォーム1を管理するコンピュータ装置400を概略的に示している。コンピュータ装置400は、例えば、プール予測器13、ならびに、テストおよび決定モジュール14を実装することができ、適合されたシグナリング(S1およびS2)を介して、シーケンサ12、セレクタおよびミキサ15、ならびに、サンプルジェネレータ16を制御することができる。
【0248】
コンピュータ装置400は、本発明の少なくとも一実施形態を実施するように構成されている。コンピュータ装置400は、好ましくは、マイクロコンピュータ、ワークステーション、または軽量の携帯機器などの装置とすることができる。コンピュータ装置400は、通信バス401を備えており、この通信バス401には、好ましくは、
- CPUと表記されるマイクロプロセッサなどの中央処理装置402と、
- 本発明を実施するためのコンピュータプログラムを記憶するためのROMと表記される読み出し専用メモリ403と、
- 本発明の実施形態による方法の実行可能コード、および本発明の実施形態による方法を実施するために必要な変数およびパラメータを記録するように適合されたレジスタを記憶するための、RAMと表記されるランダムアクセスメモリ404と、
- ユーザーまたはオペレータ装置と、および/またはプラットフォーム1の他の装置、例えばシーケンサ12、セレクタおよびミキサ15、サンプルジェネレータ16と通信するために、ネットワーク499に接続された通信インターフェース405と、
- ハードディスクまたはフラッシュメモリのようなデータ記憶手段406であって、本発明の1つまたは複数の実施形態による方法を実施するためのコンピュータプログラム、ならびに特に個々のサンプルプロファイル(即ち、コレクション11)、リスト140および141を含む本発明の実施形態に必要なデータを記憶するためのデータ記憶手段406と、
が接続されている。
【0249】
任意選択的に、コンピュータ装置400は、例えば、キーボード408または任意の他のポインティング手段(例えば、リスト140、141ならびにコレクション11および仮想サンプル110y~zを定義する)によってプラットフォームを構成するため、および/または予測プロセスの結果または逆操作の結果を表示するため、例えば、標的混合規定{pselect(j)}jを表示するため、オペレータとのグラフィカルインターフェースとして機能するスクリーン407を含むこともできる。
【0250】
コンピュータ装置400は、本発明であるシーケンサ12に無用な様々な周辺機器に任意に接続することができ、それぞれ入出力カード(図示せず)に接続される。
【0251】
好ましくは、通信バスは、コンピュータ装置400に含まれる、またはコンピュータ装置400に接続される様々な要素間の通信および相互操作を提供する。バスの表現は限定的なものではなく、特に中央処理装置は、コンピュータ装置400の任意の要素に直接またはコンピュータ装置400の別の要素によって命令を伝達するように動作可能である。
【0252】
実行可能コードは、任意選択的に、読み取り専用メモリ403、ハードディスク406、または取り外し可能なデジタル媒体(図示せず)のいずれかに格納することができる。任意選択的な変形例によれば、プログラムの実行可能コードは、実行される前にハードディスク406などのコンピュータ装置400の記憶手段の1つに記憶されるように、インターフェース405を介して通信ネットワーク499によって受信することができる。
【0253】
中央処理ユニット402は、好ましくは、本発明によるプログラムまたは複数のプログラムの命令またはソフトウェアコードの部分の実行を制御および指示するように適合され、これらの命令は、上述の記憶手段の1つに記憶される。電源投入時、不揮発性メモリ、例えばハードディスク406または読み出し専用メモリ403に格納されているプログラムまたは複数のプログラムは、ランダムアクセスメモリ404に転送され、このランダムアクセスメモリ404には、プログラムまたは複数のプログラムの実行可能コードと、本発明を実施するために必要な変数およびパラメータを格納するためのレジスタとが含まれる。
【0254】
実験結果
実験の範囲
実験の目的は、提案された機械学習手順を含む相互作用行列Wの効率性を調査することであり、微生物叢サンプルの混合プロファイルを予測し(実験1)、標的混合プロファイルが与えられた混合組成を決定する(実験2)ことである。
【0255】
実験1-プロトコル
初期サンプル採取物10について検討した。16Sベースの微生物群集分類プロファイリングを用いて、各微生物群集サンプルのシーケンスを行い、対応する初期プロファイルコレクション11を得た。その結果、131の分類群(属レベル)がプロファイリング特徴として評価された。
【0256】
次に、サンプルの混合が行われた。各混合生成物は、3から6個のサンプルをそれぞれの比率で組み合わせたものである。混合は4℃で行い、混合後30分から1時間30分の間に均質化した。混合生成物は、安定した状態(即ち、均質化後数時間、混合から16時間以内)の期間で、同じ16Sベースの微生物群集分類プロファイリングを用いてシーケンスされた。
【0257】
k=5でkフォールド交差検証法を採用し、プール予測器13を構成した。即ち、λおよび相互作用行列Wを学習した。kフォールド法は、どの観測も同じ評価期間において、訓練データとしてもテストセットとしても使用されないことを保証した。
【0258】
材料および方法の章で説明したモデル化手法は、3つの異なる分類学的ランク(種、属、科、目)でテストされ、適用された。しかしながら、種レベルのデータセットは非常に密度が低いため、テスト手順から除外した。属レベルから開始すると、分類表は分析を可能にするのに十分豊富であったため、より精度の低いレベル(科、目)は属の表から推論され、必要な場合にのみ可視化の目的で使用されたが、モデル化手順ではそのまま使用されなかった。その主な理由は、学習で使用した分類群レベルから、より高い精度のレベルの構成を推測することは不可能であり、属の情報を持つことが、我々のアプリケーションの観点から重要であるためである。
【0259】
天然サンプルのみ(
図5)、発酵サンプルのみ(
図6)について別々に、また両方を合わせた(
図7)モデルをトレーニングした。MSEは、データに適用した際のモデル化の質を定量化するために使用した。MSEは、機械学習モデルと線形モデル(ナイーブ予測を提供するもの)の間で系統的に比較された。
【0260】
実験1-結果
図5aは、天然の糞便微生物叢サンプルのみを含む初期サンプル採取物10に対応する初期プロファイルコレクション11を示す。27個の微生物叢サンプルが検討された。それらの個々のプロファイルが図示されている。
【0261】
図5bは、
図5aの27個の微生物サンプルの中から、3から6個の微生物サンプルを混合した24個の混合生成物の混合プロファイルを、それぞれの比率または割合で示したものである。混合規定{p
x(k)}
kが保存されている。
【0262】
図5cは、左側に、混合規定{p
x(k)}
kおよび個別のサンプルプロファイル{a
x(j)}
jが与えられた混合プロファイルの線形予測から生じる誤差を示す。線形予測は、唯一のステップ205に対応し、I=A*Pである。
【0263】
図には、右側に、本発明による予測(ステップ205および210)から生じる誤差、即ち相互作用行列Wを含む誤差も示されている。Wは、
図5aおよび
図5bのサンプルおよび混合プロファイル(天然サンプル)のみを用いて、kフォールド交差検証法を用いて機械学習された。
【0264】
本発明のモデルに基づく方法は、天然データセットに対して線形法よりも優れた性能をもたらす。
【0265】
図6aは、発酵糞便微生物叢サンプルのみを含む初期サンプル採取物10に対応する初期プロファイルコレクション11を示す。36個の微生物叢サンプルが検討された。それらの個々のプロファイルが図示されている。
【0266】
図6bは、
図6aの36個の微生物サンプルの中から、3から6個の微生物サンプルを混合した48個の混合生成物の混合プロファイルを、それぞれの比率または割合で示したものである。混合規定{p
x(k)}
kが保存されている。
【0267】
図6cは、左側に、混合規定{p
x(k)}
kおよび個別のサンプルプロファイル{a
x(j)}
jが与えられた混合プロファイルの線形予測から生じる誤差を示す。線形予測は、唯一のステップ205に対応し、I=A*Pである。
【0268】
図には、右側に、本発明による予測(ステップ205および210)から生じる誤差、即ち相互作用行列Wを含む誤差も示されている。Wは、
図6aおよび6b(発酵サンプル)のサンプルおよび混合プロファイルのみを用いて、kフォールド交差検証法により機械学習された。
【0269】
本発明のモデルベースの方法は、発酵データセットの線形方法よりも格段に優れたパフォーマンスをもたらす(MSEの中央値はMLモデルの予測値の方が5倍低い)。
【0270】
図7aおよび7bについては、
図5a、5b、6aおよび6b(即ち、天然および発酵サンプル)のサンプルおよび混合プロファイルの両方を訓練データとして用いて、相互作用行列Wを機械学習した。ここでもkフォールド交差検証法を用いた。
【0271】
図7aは、
図5a、5bのデータセット(即ち、天然サンプルおよびその混合物)が、このように構成されたプール予測器13に適用された場合の結果を示す。
【0272】
図の左側は、混合規定{px(k)}kと個別のサンプルプロファイル{ax(j)}jが与えられた場合に、混合プロファイルの線形予測から生じる誤差を示している。
【0273】
右側は、本発明による予測(ステップ205および210)から生じる誤差、即ち、学習が行われた相互作用行列Wを含む誤差を示している。
【0274】
単一データセットモデルと同様に、結合データセットモデルを天然データセットに適用すると、推定値がわずかに改善される。
【0275】
図7bは、
図6a、6bのデータセット(即ち、発酵槽サンプルとその混合物)が、このように構成されたプール予測器13に適用された場合の結果を示す。
【0276】
図の左側は、混合規定{px(k)}kおよび個別のサンプルプロファイル{ax(j)}jを与えて混合プロファイルを線形予測した結果の誤差を示している。
【0277】
右側は、本発明による予測(ステップ205および210)から生じる誤差、即ち、学習が行われた相互作用行列Wを含む誤差を示す。
【0278】
単一データセットモデルと同様、発酵データセットに適用した場合、結合データセットモデルは推定を大幅に改善した(MSEの中央値はMLモデルの予測値の4倍低い)。
【0279】
実験1-考察および結論
全てのケースにおいて、モデルベースの予測はナイーブ(線形)手法の推定を改善した。これは特に発酵データセットにおいて重要であり、特にいくつかの分類グループではナイーブ法がうまく機能しない。モデルベースの修正法はより効率的であったが、これはおそらく改善の余地があったからであろう。モデルを訓練するためにより多くのデータを追加すれば、全体的なパフォーマンスとロバスト性が向上すると考えられる。本発明の一部でもある学習方法は、このようなモデルの改良を可能にする。
【0280】
実験2-プロトコル
この実験では、天然サンプルと発酵サンプルを用いて学習した相互作用行列W(即ち、
図7aおよび7bのW)を使用する。
【0281】
この実験では、サンプルの別のコレクションが検討された。これは23個のサンプルで構成されている。プロファイリング特徴として131分類群(属レベル)が考慮された16Sベースの微生物群集分類プロファイリングを用いて、23個の微生物群集サンプルのそれぞれについて同じシーケンシングを行い、対応するプロファイルのコレクションを得た。
図8はプロファイルのコレクション(クラスレベル)を示している。
【0282】
プール予測器13を使用して、異なる入力微生物サンプル(23個のうち2個から4個のサンプルを混合)を用いて、異なる混合条件で160個の混合物を生成した。予測は4ラウンド(exp_1からexp_4)行われ、その中で8つの異なるサンプルセット(chunk_1からchunk_8)が5つの異なる比率セット(Mix1からMix5)で検討された。
【0283】
生成された各予測混合プロファイルは、トリプレット(i,j,k)(i=1,…,4(exp)、j=1,…,8(chunk)、k=1,…,5(Mix))によって特定され、対応する名称「exp_i-chunk_j-Mixk」を有する。
【0284】
比率(%)の異なるセットは、以下のように(混合物のサンプル数に応じて)予め規定されていた。
【表1】
【表2】
【表3】
【0285】
サンプルの異なる候補セットは以下のように規定された。
【表4】
【0286】
本実験では、混合物「exp_1-chunk_7-Mix5」、即ちサンプル-8を33%、サンプル-13を33%、サンプル-15を34%混合した混合物を標的混合物とみなした。その予測混合プロファイルを標的混合プロファイルとして使用した。
【0287】
全ての提案された混合物「exp_i-chunk_j-Mixk」と標的混合物「exp_1-chunk_7-Mix5」との間の類似性を、属レベルでブレイ・カーティス指数を用いて評価した(
図9)。
【0288】
ブレイ・カーティス指数は、混合物の少なくとも2個のサンプルが同じドナーに由来する場合、強制的に0にされる。これは、同じサンプルを有する混合物の同定を避けるためである。
【0289】
混合物「exp_1-chunk_7-Mix5」と、両方の測定基準で最も類似した混合物を実際に混合し、得られた生成物を、門と科レベルでの組成を比較するために、同じシーケンス技術を用いてシーケンスを行った。
【0290】
実験2-結果
以下の表5は、予測混合プロファイルから計算された、ブレイ・カーティス類似度(属の存在量に基づく)の最も高い15個を示す。ブレイ・カーティス類似度は、1-ブレイ・カーティス非類似度に等しい。
【表5】
【0291】
図9aは、exp_1-chunk_7-Mix5と、最も近い混合物であるexp_4-chunk_4-Mix4(サンプル-1の20%、サンプル-10の30%、サンプル-14の20%、サンプル-19の30%)を含むサンプルの真のプロファイルと、それらの真の混合プロファイルを、門レベルで示している。
【0292】
図9bは、同じ比較を科のレベルで示したものである。
【0293】
初期のサンプルはexp_1-chunk_7-Mix5とexp_4-chunk_4-Mix4で非常に異なるプロファイルを有するが、最終生成物は門レベルでも科レベルでも非常に類似した混合プロファイルを有する。
【0294】
表6および
図10は、exp_1-chunk_7-Mix5と、最も近い混合物であるexp_4-chunk_4-Mix4との比較のブレイ・カーティス類似度(属レベルで)の結果と、それらの真の混合プロファイルを示している。
【表6】
【0295】
2つの混合物の初期サンプルは非常に異なるプロファイルを有するが、ブレイ・カーティス距離指標によれば、最終生成物は属レベルで非常に類似した混合プロファイルを有する。表6および
図10は、実際の混合物とその予測との間の類似度のギャップを示している。しかしながら、これは実際の混合物間の類似度に実質的な影響を与えるものではなく、その類似度は許容可能なレベルに留まっている。
【0296】
実験2-考察および結論
実験2は、予測ツールを反復的に使用することで、標的サンプルに非常に近い混合物(属レベルでのブレイ・カーティス類似度が0.86以上)を予測し、試験管内実験段階に対応するサンプルと混合比率を選択できることを示している。
【0297】
また、予測レシピに従って生成された2つの混合物は、実際には非常に近いものであることも示している(属レベルでのブレイ・カーティス類似度は、0.75以上)。これは、予測ツールの性能と、実際に使用する場合の適用性を示している。
【0298】
実験3-プロトコル
この実験では、NGSショットガンシーケンスを用いてサンプル100のプロファイリングを行った。ドナーまたは個々の発酵槽からの76個のプールと69個のサンプルについてメタゲノムシーケンスデータが得られた。
【0299】
NGSショットガンプロファイリング特徴の数が多いため(16Sシーケンスと比較して、特に属レベルではなく種レベルで見た場合、あるいは特定の機能で見た場合)、各サンプルプロファイルの次元をk個のPCに削減するためにPCAが使用された。
【0300】
図11は、天然サンプル(天然、接種材料、混合物)、発酵サンプル(発酵、接種材料、混合物)のNGSショットガンシーケンスから得られた属相対存在量に基づくPCAを示している。発酵サンプルは、天然サンプルと同様にクラスター化する傾向がある。
【0301】
このPCAベースの方法は
図12にまとめられており、(実験1および2のように)「分類群×分類群」の相互作用行列Wを学習する代わりに、実験3では「上位k個の主成分×分類群」の相互作用行列Wを学習していることがわかる。
【0302】
この相互作用行列Wを学習する方法論は、実験1および2の16S解析と同じである。
【0303】
【0304】
相互作用行列WはMSEを用いて学習された。また、予測混合結果(Wを使用)と真の混合結果との比較は、MSEまたはブレイ・カーティス距離に基づいて行われた。
【0305】
両モデリング手法(PCAあり/なし)は、属レベルおよび種レベルでの分類学的プロファイル予測(MSEまたはBC測定基準による)を改善する。本発明による修正(行列Wに基づく)は、発酵サンプルからの混合物の予測において、天然サンプルと比較してより大きな影響を与える。
【0306】
PCAを用いたプロファイリング特徴の削減は、発酵サンプルからの予測精度を著しく向上させるが、天然サンプルからの予測についてはわずかに向上させるようである。
【0307】
以上、本発明を特定の実施形態を参照して説明したが、本発明は特定の実施形態に限定されるものではなく、本発明の範囲内にある変更は当業者には明らかであろう。
【0308】
上述の例示的な実施形態を参照すれば、多くのさらなる修正および変形が当業者に示唆されるであろうが、これらの実施形態は例示としてのみ与えられており、本発明の範囲を限定することを意図しておらず、その範囲は添付の特許請求の範囲によってのみ決定される。特に、異なる実施形態からの異なる特徴は、適切な場合、入れ替えることができる。
【0309】
特許請求の範囲において、「comprising」という語は他の要素やステップを排除するものではなく、「a」または「an」という不定冠詞は複数を排除するものではない。異なる特徴が相互に異なる従属請求項に記載されているという単なる事実は、これらの特徴の組み合わせが有利に使用できないことを示すものではない。
【国際調査報告】