特表2024-516025 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ マー　ファルマの特許一覧

特表2024-516025微生物叢サンプルの混合物を予測し、生成する方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
1a
2
3
4
5a
5b
5c
6a
6b
6c
7a
7b
8
9a
9b
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-04-11

(54)【発明の名称】微生物叢サンプルの混合物を予測し、生成する方法

(51)【国際特許分類】

C12Q 1/04 20060101AFI20240404BHJP

C12N 1/04 20060101ALI20240404BHJP

C12M 1/34 20060101ALI20240404BHJP

【ＦＩ】

C12Q1/04

C12N1/04

C12M1/34 A

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023567179

(86)(22)【出願日】2022-05-05

(85)【翻訳文提出日】2023-12-27

(86)【国際出願番号】 EP2022062226

(87)【国際公開番号】W WO2022234053

(87)【国際公開日】2022-11-10

(31)【優先権主張番号】21172578.3

(32)【優先日】2021-05-06

(33)【優先権主張国・地域又は機関】EP

(81)【指定国・地域】

(71)【出願人】

【識別番号】517369461

【氏名又は名称】マーファルマ

(74)【代理人】

【識別番号】100099759

【弁理士】

【氏名又は名称】青木篤

(74)【代理人】

【識別番号】100123582

【弁理士】

【氏名又は名称】三橋真二

(74)【代理人】

【識別番号】100092624

【弁理士】

【氏名又は名称】鶴田準一

(74)【代理人】

【識別番号】100114018

【弁理士】

【氏名又は名称】南山知広

(74)【代理人】

【識別番号】100153729

【弁理士】

【氏名又は名称】森本有一

(74)【代理人】

【識別番号】100151459

【弁理士】

【氏名又は名称】中村健一

(72)【発明者】

【氏名】エルベアファガール

(72)【発明者】

【氏名】カロルシュウィントナー

(72)【発明者】

【氏名】エマニュエルプレスタ

【テーマコード（参考）】

4B029

4B063

4B065

【Ｆターム（参考）】

4B029AA07

4B029BB02

4B029CC01

4B029CC02

4B029FA03

4B029FA10

4B063QA01

4B063QA18

4B063QQ03

4B063QQ06

4B063QQ54

4B063QS39

4B065AA01X

4B065BD14

(57)【要約】

複合微生物群集の混合物の予測は、基準となる真の混合物プロファイルおよび対応する基準となる線形予測プロファイルから学習された相互作用モデル、例えば行列を用いて修正された、例えば行列ベースの線形予測を含む。逆予測により、標的混合プロファイルが与えられた場合に、生成されるサンプルの混合を決定することが可能になる。

【特許請求の範囲】

【請求項1】

初期サンプル採取物に属する複合微生物群集サンプルの混合から生じる混合組成を予測するコンピュータ支援方法であって、
線形手法を用いて、選択された複合微生物群集サンプルの混合物に関する中間混合プロファイルを予測することと、
基準となる線形予測混合プロファイルおよび対応する基準となる真の混合プロファイルから学習された相互作用モデルを使用して、前記中間混合プロファイルを予測混合プロファイルに修正することと、
を含む方法。

【請求項2】

前記予測混合プロファイルは、混合結果生成物を得るために、前記初期サンプル採取物からの複合微生物群集サンプルの実際の取り出しおよび混合を制御するために使用される、請求項１に記載の方法。

【請求項3】

前記中間混合プロファイルを予測することは、前記初期サンプル採取物の前記複合微生物群集サンプルの割合で前記混合物を規定する第１行列と、前記複合微生物群集サンプルの個々のプロファイルを規定する第２行列との間の行列積を計算することを含む、請求項１または２に記載の方法。

【請求項4】

前記中間混合プロファイルを修正することが、前記中間混合プロファイルを表す行列と、前記学習された相互作用モデルの正方相互作用行列との間の行列積を計算することを含む、請求項１乃至３のいずれかに記載の方法。

【請求項5】

標的混合結果生成物を表す標的混合プロファイルが与えられた初期サンプル採取物中の複合微生物群集サンプルのセットを決定するコンピュータ支援方法であって、
前記初期サンプル採取物から複合微生物群集サンプルの候補セットを選択することと、
選択された各候補セットについて、請求項１に記載の予測方法を使用して、前記選択された候補セットのサンプルの前記混合から生じる混合プロファイルを予測することと、
前記予測混合プロファイルを前記標的混合プロファイルと比較して、１つの候補セットを標的セットとして選択することと、
を含む方法。

【請求項6】

サンプルの前記標的セットは、前記標的混合プロファイルの混合結果生成物の機能を得るために、前記初期サンプル採取物からの複合微生物群集サンプルの実際の取り出しおよび混合を制御するために使用される、請求項５に記載の方法。

【請求項7】

前記予測混合プロファイルを前記標的混合プロファイルと比較することは、各予測混合プロファイルと前記標的混合プロファイルとの間の距離を計算し、標的セットとして、最も短い距離を有する前記候補セットを選択することを含む、請求項５または６に記載の方法。

【請求項8】

微生物の複合群集のプロファイルが、前記微生物の複合群集におけるプロファイリング特徴の相対存在量を含む、請求項１乃至７のいずれかに記載の方法。

【請求項9】

微生物の複合群集のプロファイルを形成するプロファイリング特徴が、分類群、遺伝子、抗生物質耐性遺伝子、機能、代謝産物形質、および代謝産物およびタンパク質産生からなるグループから選択される１つまたは複数の特徴を含み、好ましくは分類群を含む、請求項１乃至８のいずれかに記載の方法。

【請求項10】

微生物の複合群集のプロファイルが、細菌、古細菌、ウイルス、ファージ、原虫および真菌から前記微生物の複合群集に存在する１つまたは複数の微生物に関して、好ましくは細菌および／または古細菌に関して、プロファイリング特徴を規定し、および／または、
菌株、種、属、科および目から１つまたは複数の分類学的レベル、好ましくは属、科および目から１つまたは複数の分類学的レベルで考慮される微生物の相対存在量を特定するプロファイリング特徴を規定し、および／または、
前記微生物の複合群集において、属、科および目の分類学的レベルで考慮される細菌および／または古細菌の分類群の相対存在量を含む、
請求項１乃至９のいずれかに記載の方法。

【請求項11】

前記相互作用モデルは、前記基準となる線形予測混合プロファイルおよび前記相互作用モデルから得られる基準となる予測混合プロファイルと、前記対応する基準となる真の混合プロファイルとの差の関数式を最小化する機械学習を使用して得られる、請求項１乃至１０のいずれかに記載の方法。

【請求項12】

複合微生物群集生成物を生成する方法であって、
初期サンプル採取物から複合微生物群集サンプルを選択することと、
請求項１に記載の予測方法を使用して、前記選択されたサンプルの前記混合から生じる混合プロファイルを予測することと、
前記予測混合プロファイルを選択基準と比較することと、
前記比較の結果に応じて、前記選択されたサンプルを実際に取り出し、混合して、混合結果生成物を得ることと、
を含む方法。

【請求項13】

前記選択基準が、プロファイリング特徴の多様性の増加を代表する多様性基準、１つまたは複数のプロファイリング特徴の最小または最大の相対存在量、１つまたは複数の特定のプロファイリング特徴または最小数のプロファイリング特徴のゼロでない相対存在量、少なくとも２つのプロファイリング特徴間の相対比、標的混合プロファイルへの近さから選択される１つまたは複数を含む、請求項１２に記載の方法。

【請求項14】

標的混合結果生成物を表す標的混合プロファイルを有する複合微生物群集生成物を生成する方法であって、
請求項５の決定方法を用いて、前記標的混合プロファイルが与えられた初期サンプル採取物に属する複合微生物群集サンプルの標的セットを選択することと、
前記選択された標的セットの前記微生物群集サンプルを実際に採取して混合し、混合結果生成物を得ることと、
を含む方法。

【請求項15】

１つの選択された複合微生物群集サンプルが仮想サンプルであり、前記方法はさらに、単離された菌株から、前記選択された仮想サンプルに対応する人工複合微生物群集サンプルを実際に生成することを含む、請求項１４に記載の方法。

【請求項16】

請求項１乃至１５のいずれかに記載の方法を実施するように構成された少なくとも１つのマイクロプロセッサを含むコンピュータ装置。

【請求項17】

装置内のマイクロプロセッサまたはコンピュータシステムによって実行されると、前記装置に請求項１乃至１５のいずれかに記載の方法を実行させるプログラムを記憶した非一過性のコンピュータ読み取り可能媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、微生物の複合群集、即ち、微生物叢の混合または「プーリング」に関し、より詳細には、初期の微生物叢サンプルの個々のプロファイルまたは組成と、結果として得られる混合物のプロファイルとをリンクさせる、学習モデル、例えば行列ベースの予測モデルを使用する方法および装置に関する。

【背景技術】

【0002】

微生物の複合群集は微生物叢としても知られ、健康や疾病において重要な役割を果たしている。特に、例えば糞便微生物叢移植（ＦＭＴ）を通じて、微生物の複合群集を投与または移植することで、感染症や病気を治療できる可能性が発見されている。

【0003】

微生物の複合群集を投与または移植する場合、投与または移植されたサンプルは、細菌、古細菌、ウイルス、ファージ、原虫および／または真菌などの微生物の生存率と多様性の点で適切なプロファイルを有することが重要である。

【0004】

投与や移植の方法の中には、経験に基づくものが多く、使用するサンプルに存在する微生物の多様性を確保し、または、微生物の生存率を最適に保つための特別な予防措置がとられていない。

【0005】

さらに、ドナーから採取したサンプルでは、効率的な治療のための微生物の複合群集のプロファイルを満足に得ることができない場合がある。

【0006】

そのため、投与や移植用の接種材料として使用できるサンプルの多様性を高めるために、複数のドナーから採取した複合微生物群集サンプルの混合物が検討されてきた。

【0007】

様々な混合物をテストするために、実際にサンプルの混合がランダムに行われ、最終的な混合プロファイルを得るために、得られた生成物がシーケンスされ、そこから硬化特性や処理特性が推測される。このテストベースの手法には、いくつかの欠点がある。特に、ドナーからサンプルを入手することが難しいため、希少な材料を消費し、シーケンス解析に時間がかかるため、完了までに数週間を要する。

【0008】

混合物組成の予測、即ち混合生成物のプロファイルの予測は、このように考えられてきた。

【0009】

出発物質として使用される微生物の複合群集の個々のプロファイルから混合物組成を予測する簡単な方法は、例えば、混合物中の対応する複合群集の比率で重み付けした後、個々のプロファイルにおける上記プロファイリング特徴の相対存在量を合計することにより、各プロファイリング特徴について線形予測を適用することである。

【0010】

しかしながら、このような線形予測プロファイルと、（混合結果生成物をプロファイリングして得られた）真のプロファイルとの間には、ある程度のシフトや、ずれが観察された。したがって、プロファイルの線形予測は誤った手法であると考えられる。

【0011】

本発明者らの仮定では、シフトは、共有環境における微生物の相互作用に起因する、何らかの重要かつ迅速な調整、例えば、共有環境の新しい条件への適応や微生物間の競争から生じる可能性がある。

【0012】

従って、例えば期待される治療効果を有する正確な複合体生成物組成の送達を保証する方法でプーリングを実施するために、正確な予測を行う必要がある。

【発明の概要】

【発明が解決しようとする課題】

【0013】

本発明は、特に投与法または移植法における微生物サンプルの実際の混合を推進、制御または指揮することを目的として、混合組成物を予測する際にこれらのシフトをコンピュータ支援設計することにより、前述の懸念のいくつかを克服しようとするものである。

【0014】

この点に関して、本発明は、初期サンプル採取物に属する複合微生物群集サンプルの混合から生じる混合組成を予測するコンピュータ支援方法を提案し、この方法は、
選択された複合微生物群集サンプルの混合物について、線形手法を用いて中間混合プロファイルを予測することと、
基準となる線形予測混合プロファイルおよび対応する基準となる真の混合プロファイルから学習された相互作用モデルを用いて、中間混合プロファイルを予測混合プロファイルに修正することと、を含む。

【0015】

特に、予測混合プロファイルは、混合結果生成物を得るために、初期サンプル採取物から複合微生物群集サンプルを実際に取り出し、混合することを制御するために使用することができる。サンプルの取り出しとは、単に、初期の採取物から適切かつ十分な量のサンプルを採取または取得することを意味する場合がある。取り出しは、オペレータによる手作業でも、制御されたロボットによる自動的なものでもよい。

【0016】

本発明は、また、複合微生物群集生成物を生成する方法を提供することが判明し、本発明は、
初期サンプル採取物から複合微生物群集サンプルを選択することと、
上記の予測方法を使用して、選択されたサンプルの混合から生じる混合プロファイルを予測することと、
予測混合プロファイルを、選択基準、例えば、関心対象の分類群の十分な存在または任意の標的混合プロファイルと比較することと、
比較の結果に応じて、混合結果生成物を得るために、選択されたサンプルを実際に採取し、混合することと、を含む。選択されたサンプルは、好ましくは予測に使用された相対存在量を使用して混合される。

【0017】

もちろん、比較の結果が不正確であった場合には、実際には混合を行わず、本発明の教示を用いて他の混合プロファイルを予測するために、他のサンプルの選択を行うこともできる。このように、選択されたサンプルの複数のセットを連続して検討することができる。次に、各セットについて、使用と比較のステップが実行され、その比較の結果に応じて実際の採取と混合が実行される。

【0018】

逆に、本発明は、標的混合結果生成物を表す標的混合プロファイルが与えられた初期サンプル採取物における複合微生物群集サンプルの標的セットを決定するコンピュータ支援方法による逆の手法も提案し、本方法は、
初期サンプル採取物から複合微生物群集サンプルの候補セットを選択することと、
選択された各候補セットについて、上記の予測方法を使用して、選択された候補セットのサンプルの混合から生じる混合プロファイルを予測することと、
予測混合プロファイルを標的混合プロファイルと比較して、１つの候補セットを標的セットとして選択することと、を含む。

【0019】

標的混合プロファイルは、一般的なもの、即ち、考慮されるプロファイル特徴それぞれを定量化するものであってもよいし、１つまたはいくつかのプロファイル特徴に特有なもの、例えば、１つ（または複数）のプロファイル特徴の有無および／またはその相対存在量もしくは量もしくは量の範囲などのいくつかの特徴仕様を定義するものであってもよいし、例えば、最小相対存在量を有するプロファイル特徴の数に関して、多様性の最小レベルを定義するものであってもよい。このように、標的混合プロファイルは、所与の特徴仕様について様々な可能な値を検査するプロファイルのセットであってもよい。

【0020】

その後、標的サンプルセットを使用して、初期サンプル採取物から複合微生物群集サンプルの実際の採取と混合を制御し、標的混合プロファイルの混合結果生成物の機能を得ることができる（それは、標的混合プロファイルを有するか、与えられた近似値に近い可能性がある）。

【0021】

本発明は、また、標的混合結果生成物を表す標的混合プロファイルを有する複合微生物群集生成物を生成する方法を提供することが判明し、本方法は、
上記決定方法を用いて、標的混合プロファイルが与えられた初期サンプル採取物に属する複合微生物群集サンプルの標的セットを選択することと、
混合結果生成物を得るために、選択された標的セットのサンプルを実際に採取し、混合することと、を含む。

【0022】

本発明は、特に実際の材料（初期サンプル採取物のサンプル）を消費することなく、低コストで様々な混合組成を瞬時にシミュレートすることを可能にする。

【0023】

さらに、混合基準を満たす混合結果生成物、例えば、疾患を治療するのに適合した標的群プロファイルや組成物を得るという観点から、複合微生物群集サンプルの効率的なセットを見出すことができる。

【0024】

したがって、使用目的（治療、予防、環境など）のニーズに応じて、生産ルーチンに先立ってプーリング方針を定めることができる。

【0025】

このようにして得られた混合結果生成物は、ヒトや動物の体内、あるいは肥料として植物に、さらにはバイオレメディエーションによる汚染処理のために、水、土壌、地下物質などの環境媒体に投与または移植することができる。

【0026】

好ましくは、微生物叢生態系療法（ＭｉｃｒｏｂｉｏｍｅＥｃｏｓｙｓｔｅｍＴｈｅｒａｐｙ）生成物は、上記の方法を用いて生成することができる。

【0027】

これに関連して、本発明は、上記のいずれかの方法のステップを実施するように構成された少なくとも１つのマイクロプロセッサを含むコンピュータ装置も提供する。従って、コンピュータ装置は、混合結果生成物を得るために、初期サンプル採取物から複合微生物群集サンプルを実際に採取し混合する混合装置を制御する信号を発するように構成されてよい。

【0028】

本発明の実施形態の任意の特徴は、添付の特許請求の範囲に規定されている。これらの特徴の一部は、方法を参照して以下に説明するが、装置の特徴に置き換えることも可能である。

【0029】

いくつかの実施形態において、中間混合プロファイルの予測は、初期サンプル採取物の複合微生物群集サンプルの割合の観点から混合を規定する第１行列と、複合微生物群集サンプルの個々のプロファイルを規定する第２行列との間の行列積を計算することを含む。第２行列は、以下、Ａで示され、利用可能な初期サンプル採取物によって定義される。

【0030】

いくつかの実施形態において、中間混合プロファイルを修正することは、中間混合プロファイルを表す行列と、学習された相互作用モデルの正方相互作用行列との間の行列積を計算することを含む。ここで、相互作用モデルは、基準となる線形予測混合プロファイルおよび対応する基準となる真の混合プロファイルから学習された正方相互作用行列であってもよい。

【0031】

行列を使用してサンプル混合物の予測を行うことは、有利なことに、多数のプロファイル特徴を考慮に入れ、混合結果生成物または生成物に対する１つまたは複数の予測混合プロファイルを得るための迅速な計算を可能にする。

【0032】

ある実施形態において、予測方法は、予測混合プロファイルの各負の値をクリッピングすること、即ち負の値を０に設定することをさらに含む。これは、理論的予測（例えば相対存在量が負になる）を自然の現実に合わせて修正するためである。

【0033】

いくつかの実施形態において、予測方法は、予測される混合プロファイルを定義するプロファイリングの特徴の相対存在量の合計を１に正規化することをさらに含む。ここでも、理論的な予測を自然の現実に正規化することを目的としている。これは、真の相対存在量を持つことであり、その合計は組成物全体を表す。

【0034】

また、（混合物である）選択されたサンプルに存在しない特徴量は、予測混合プロファイルには存在しないはずである。したがって、選択されたサンプルに存在しない特徴量については、予測される混合プロファイルにおける非ゼロの存在量はゼロに設定される。

【0035】

逆の手法に関するいくつかの実施形態において、サンプルのセットを決定することは、セット内の各サンプルの相対存在量を決定することを含んでよい。換言すれば、逆予測は、一緒に混合される複合微生物群集サンプルの相対的な割合を得ることを目的とする。

【0036】

逆の手法に関する他の実施形態において、予測混合プロファイルを標的混合プロファイルと比較することは、各予測混合プロファイルと標的混合プロファイルとの間の距離を計算し、標的セットとして、最も短い距離を有する候補セットを選択することを含む。

【0037】

いくつかの実施形態において、微生物の複合群集（サンプルまたは混合物）のプロファイルは、微生物の複合群集におけるプロファイリング特徴の相対存在量を含む。

【0038】

具体的な実施形態において、相対存在量は、微生物の複合群集におけるプロファイル特徴の質量または体積の割合を代表するものである。

【0039】

いくつかの実施形態において、微生物の複合群集のプロファイルを形成するプロファイル特徴には、分類群、遺伝子、抗生物質耐性遺伝子、機能、代謝産物形質、代謝産物およびタンパク質産生からの１つまたは複数の特徴が含まれ、好ましくは分類群が含まれる。

【0040】

いくつかの実施形態において、複合微生物群集サンプルの個々のプロファイルは、１６ＳｒＲＮＡ遺伝子アンプリコンシーケンス、ＮＧＳショットガンシーケンス、１６ＳｒＲＮＡ遺伝子ベース以外のアンプリコンシーケンス、ＮＧＳアンプリコンベースのターゲットシーケンス、フィロチップベースのプロファイリング、ホールメタゲノムシーケンス（ＷＭＳ）、ポリメラーゼ連鎖反応（ＰＣＲ）による同定、質量分析計（ＬＣ／ＭＳタイプやＧＣ／ＭＳタイプなど）、近赤外（ＮＩＲ）分光法、核磁気共鳴（ＮＭＲ）分光法などのようなプロファイリング技術を用いて得られ、１６ＳｒＲＮＡ遺伝子アンプリコンシーケンスまたはＮＧＳを用いることが好ましい。

【0041】

いくつかの実施形態において、微生物の複合群集のプロファイルは、細菌、古細菌、ウイルス、ファージ、原虫および真菌から微生物の複合群集に存在する１つまたは複数の微生物に関して、好ましくは細菌および／または古細菌に関して、プロファイリング特徴を定義する。

【0042】

いくつかの実施形態において、微生物の複合群集のプロファイルは、菌株、種、属、科、目から１つまたは複数の分類学的レベル、好ましくは属、科、目から１つまたは複数の分類学的レベルで考慮される微生物の相対存在量を規定するプロファイル特徴を定義する。

【0043】

いくつかの実施形態において、微生物の複合群集のプロファイルは、属、科、目の分類学的レベルで考慮された細菌および／または古細菌の分類群の、微生物の複合群集における相対存在量を含む。

【0044】

いくつかの実施形態において、微生物の複合群集のプロファイルは、微生物の複合群集において、特定の遺伝子および／または機能の有無または発現によって定義される細菌および／または古細菌の分類群の相対存在量を含む（例えば、酪酸の生産、抗生物質耐性遺伝子の生産、有機リン酸ヒドロラーゼ、ホスホジエステラーゼ、スーパーオキシドジスムターゼなどの酵素の生産、抗微生物ペプチドの生産、有機リン酸加水分解酵素またはバイオレメディエーションプロセスに有用な他の酵素の生産、…）。

【0045】

いくつかの実施形態において、初期サンプル採取物は、生の複合微生物群集サンプル、人工／加工複合微生物群集サンプル、人工複合微生物群集サンプル（例えば、単離された菌株を混合することによって得られる細菌コンソーシアム）、および仮想複合微生物群集サンプルからなるグループから選択されるサンプルを含む。

【0046】

いくつかの実施形態において、初期サンプル採取物は、糞便、皮膚、頬、膣、鼻、腫瘍、ヒト、動物、植物、水、土壌サンプルのうちの１つまたは複数を含む。例えば、少なくとも１人のドナーから、好ましくは少なくとも２人のドナーから得られた１つまたは複数の糞便サンプルを含んでよい。

【0047】

いくつかの実施形態において、相互作用モデル（例えば正方相互作用行列）は、
基準となる線形予測混合プロファイルと相互作用モデルから得られる基準となる予測混合プロファイル（好ましくは、正方相互作用行列との行列積が実行される）と、
対応する基準となる真の混合プロファイルと、
の間の差の関数式を最小化する機械学習を用いて得られる。

【0048】

基準データ（ここではプロファイル）は、機械学習プロセスの訓練データとして知られている。行列ベースの予測プロファイルと対応する真のプロファイルの誤差を最小化するように探索され、正則化項が与えられることもある。

【0049】

この点で、この計算式は、正則化項、好ましくはリッジベースの正則化項を上記の差に加えることができる。

【0050】

特定の実施形態において、正則化項は、相互作用モデルの正方相互作用行列と単位行列との差を含む。

【0051】

正則化は、モデル解が恒等式から離れすぎるとペナルティを課す傾向がある。実際、混合物内の微生物間の相互作用はそれほど大きくないと予想されるため、同一性からかけ離れたモデル解は生物学的現実からかけ離れたものとなる。したがって正則化項は、このような偶発的な解決策（特定の訓練データセットに起因する理論的解決策）が得られるのを回避する。

【0052】

いくつかの実施形態では、基準となる予測混合プロファイルにおけるプロファイリング特徴の相対存在量の負の値は、式を最小化する前に除去される。

【0053】

いくつかの実施形態において、本方法は、式を最小化する前に、基準となる予測混合プロファイルの１つを定義するプロファイリング特徴の相対存在量の合計を１に正規化することをさらに含む。好ましくは、いくつかのまたは全ての基準となる予測混合プロファイルは、必要に応じて個別に１に正規化される。

【0054】

いくつかの実施形態において、基準となる線形予測混合プロファイルは、基準となる混合生成物を生成するために一緒に混合された複合微生物群集サンプルの個々のプロファイルから、線形手法を用いて予測され、対応する基準となる真の混合プロファイルは、基準となる混合生成物のプロファイリング（例えば、配列決定または１６ＳｒＲＮＡ遺伝子アンプリコン配列決定）から得られる。

【0055】

生成方法に関連するいくつかの実施形態において、選択基準は、プロファイリング特徴の多様性の増加を代表する多様性基準、１つまたは複数のプロファイリング特徴の最小相対存在量または最大相対存在量、１つまたは複数の特定のプロファイリング特徴または最小数のプロファイリング特徴のゼロでない相対存在量、少なくとも２つのプロファイリング特徴の間の相対比、標的混合プロファイルに対する近さ（または最小距離のような類似性）から１つまたは複数を含む。

【0056】

いくつかの実施形態において、選択された１つの複合微生物群集サンプルは仮想サンプルであり、本方法は、単離された菌株および／または複合微生物群集サンプルから、選択された仮想サンプルに対応する複合微生物群集サンプルを実際に生成することをさらに含む。これにより、有利なことに、サンプルを消費することなく、またまだサンプルを有することなく、先にプール法を規定することができる。所望の混合結果生成物を生成するのに有用であると同定された細菌コンソーシアムは、単離された菌株を混合するだけで生成することができる。同様に、所望の混合結果生成物の生成に有用であると同定されたサンプルは、単離された菌株の１つまたは複数を、１つまたは複数のサンプルと混合することによって生成することができ、その結果、所望の菌株が濃縮された人工サンプルが得られる。

【0057】

本発明の他の態様は、装置内のマイクロプロセッサまたはコンピュータシステムによって実行されると、装置に上記で規定した任意の方法を実行させるプログラムを記憶した非一過性のコンピュータ読み取り可能媒体に関する。

【0058】

本発明による方法の少なくとも一部は、コンピュータで実施することができる。したがって、本発明は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態（ファームウェア、常駐ソフトウェア、マイクロコードなどを含む）、またはソフトウェアとハードウェアの側面を組み合わせた実施形態の形態をとることができ、これらは全て、本明細書では一般に「回路」、「モジュール」または「システム」と呼ぶことができる。さらに、本発明は、媒体に具現化されたコンピュータ利用可能プログラムコードを有する任意の有形表現媒体に具現化されたコンピュータプログラム製品の形態をとることができる。

【0059】

本発明はソフトウェアで実施することができるため、本発明は、任意の適切なキャリア媒体上のプログラマブル装置に提供するためのコンピュータ可読コードとして具現化することができる。有形のキャリア媒体は、ハードディスクドライブ、磁気テープ装置、または固体メモリ装置などの記憶媒体を含むことができる。一時的なキャリア媒体は、電気信号、電子信号、光信号、音響信号、磁気信号、または電磁信号、例えばマイクロ波信号やＲＦ信号などの信号を含むことができる。

【図面の簡単な説明】

【0060】

【図1】図１は、本発明の実施形態を実施する複合微生物群集混合プラットフォームを示す図である。

【図1a】図１ａは、モデル化する際の正則化項のハイパーパラメータに依存する誤差測定の挙動を示す。

【図2】図２は、フローチャートを用いて、本発明の実施形態による、混合プロファイルの予測を含む、混合結果生成物を生成する一般的なステップを示す。

【図3】図３は、フローチャートを用いて、本発明の実施形態による、標的混合プロファイルが与えられた混合結果生成物を決定し、次に生成する一般的なステップを示す。

【図4】図４は、本発明の実施形態によるコンピュータ装置の概略図である。

【図5a】図５ａは、微生物の天然の複合群集サンプルの混合に基づく、本発明の第１の実験の結果を示す。

【図5b】図５ｂは、微生物の天然の複合群集サンプルの混合に基づく、本発明の第１の実験の結果を示す。

【図5c】図５ｃは、微生物の天然の複合群集サンプルの混合に基づく、本発明の第１の実験の結果を示す。

【図6a】図６ａは、微生物の発酵複合群集サンプルの混合に基づく、本発明の他の実験結果を示す。

【図6b】図６ｂは、微生物の発酵複合群集サンプルの混合に基づく、本発明の他の実験結果を示す。

【図6c】図６ｃは、微生物の発酵複合群集サンプルの混合に基づく、本発明の他の実験結果を示す。

【図7a】図７ａは、天然および発酵サンプルを混合した、本発明のさらに他の実験結果を示す。

【図7b】図７ｂは、天然および発酵サンプルを混合した、本発明のさらに他の実験結果を示す。

【図8】図８は、本発明の第２の実験に使用されたサンプルプロファイルのコレクションを示す。

【図9a】図９ａは、標的混合生成物に十分に近い混合生成物を得るための混合組成を見出そうとする第２の実験の結果を示す。

【図9b】図９ｂは、標的混合生成物に十分に近い混合生成物を得るための混合組成を見出そうとする第２の実験の結果を示す。

【図10】図１０は、図９ａおよび図９ｂに示す標的混合物と最良の予測混合物を比較したときの、実際の混合物または実際の混合物と予測混合物との類似性を示す図である。

【図11】図１１は、実験３のサンプルのＮＧＳショットガンシーケンスから得られたゲノムの相対存在量に基づくＰＣＡを示す図である。

【図12】図１２は、実験３で使用されたＰＣＡベースの手法を示す。

【発明を実施するための形態】

【0061】

本発明は、微生物の複合群集、即ち「微生物叢」または「微生物叢サンプル」の混合または「プール」に関するものである。より詳細には、初期の複合微生物群集サンプルの個々のプロファイルまたは組成と、得られた混合物のプロファイルとを関連付ける学習予測モデルを使用する方法および装置に関する。

【0062】

本明細書において、「微生物叢」、「微生物叢組成物」、および「微生物の複合群集」という表現は、共存し、相互作用する可能性のある異なる種の多数の微生物を含む微生物集団を指すために互換的に使用することができる。微生物の複合群集に存在する可能性のある微生物には、酵母、細菌、古細菌、ウイルス、真菌、藻類、ファージ、および土壌由来、水由来、植物由来、動物由来、ヒト由来などの異なる起源のあらゆる原生動物が含まれる。

【0063】

本明細書による微生物群集には、天然に存在する微生物の複合群集（例えば、腸内細菌叢、即ち、動物の腸内に生息する微生物の集団など）、ならびに「人工的な微生物の複合群集」、即ち、単離された有益菌株の添加、潜在的な有害微生物を除去するための処理（例えば、病原体に特異的な遺伝子を標的とするレアカットエンドヌクレアーゼの使用）、特定の条件下での培養（例えば、適切な培地での発酵）による増殖などの形質転換工程から得られる複合群集が含まれる。本明細書において「単離された有益株」とは、特定の条件下で有益な効果を有することが知られている天然株（例えば、アッカーマンシア・ムシニフィラ）のほか、潜在的な有害遺伝子がノックアウトされた株（例えば、Ｃａｓ９のようなレアカットエンドヌクレアーゼを使用したもの）、導入遺伝子が導入された株（例えば、バクテリオファージやＣＲＩＳＰＲシステムを使用したもの）を含む遺伝子改変株を意味する。

【0064】

本明細書による微生物および微生物叢の複合体には、「生の」または「生来の」複合体叢または微生物叢、即ち、後処理によって処理されることなく、供給源、１人のドナーまたは複数のドナーから直接得られた複合体叢または微生物叢、および「加工された微生物の複合体叢」が含まれ、これには、操作された複合体叢または微生物叢、および１つまたは複数の天然の生の複合体微生物叢（例えば、ＷＯ２０１６／１７０２８５およびＷＯ２０１７／１０３５５０に記載されているような、当業者に周知の技術によって、濾過、凍結、解凍、および／または、凍結乾燥され、ならびに／または、抽出、単離、または、初期行列から分離された複合群集または微生物叢）を含む。

【0065】

ここで、「サンプル」、「複合微生物群集サンプル」、「微生物叢サンプル」という表現は、互換的に使用することができ、本発明の意味における初期の微生物の複合群集または微生物叢、即ち混合物に利用可能なものを指す。

【0066】

本明細書において「微生物群集生態系療法生成物」という用語は、微生物群集（天然に存在するもの、または人工的に作られたもの、天然のもの、または加工されたもの）の複合体を含むあらゆる組成物を指し、それを必要とする個体への投与に適した形態であることを条件とする。微生物群集生態系療法は、個人の微生物叢を改変して、健康上の利益（例えば、疾患の症状を予防または緩和する、個人が治療に反応する可能性を高めるなど）を得ることを目的とする。典型的には、微生物群集生態系療法は、それを必要とする被験体において、機能不全および／または損傷した生態系の少なくとも一部を、微生物の異なる複合群集によって置き換えることによって行われる。微生物群集生態系療法には、糞便微生物叢移植（ＦＭＴ）が含まれる。本明細書では、特に断りのない限り、「ＦＭＴ」という用語は、あらゆる種類の微生物叢生態系療法を指すために広く用いられる。

【0067】

本発明の実施形態を実施する複合微生物群集混合プラットフォーム１を図示する図１に示すように、サンプル１００は、初期のサンプルバンクまたは採取物１０を通じて入手可能である。単一の採取物またはバンクが示されているが、サンプルは、採取物またはバンク１０を全体として形成する複数のサブバンクに保存することができる。

【0068】

本発明のサンプルは、１つまたは複数の供給源および／または１つまたは複数の供与体１０１に由来する微生物を含むか、または、それらから成ってよい。

【0069】

本発明のサンプルは、
単一の供給源、
少なくとも２つの供給源
単一のドナー、
少なくとも２つのドナー、
単一の供給源および単一のドナー、
単一の供給源および少なくとも２つのドナー、
少なくとも２つの供給源および単一のドナー、または、
少なくとも２つのソースおよび少なくとも２つのドナー、
から得ることができる。

【0070】

本明細書において、「供給源」という用語は、土壌、水、植物の一部、動物の体または体液の一部、ヒトの体または体液の一部など、サンプルが由来するあらゆる環境を指す。ヒトや動物の場合、供給源は身体のどの部分（皮膚、鼻粘膜など）でも、腸の内容物（便サンプルなど）のような体液でもよい。

【0071】

本明細書で使用する場合、「ドナー」という用語は、植物、物理的な場所（土壌や水などの供給源）、動物、またはヒト、好ましくはヒトを指す。

【0072】

ドナーは、先行技術、例えば、ＷＯ２０１９／１７１０１２Ａ１に記載されているような方法および基準に従って予め選択することができる。

【0073】

この例では、１００ｄ，１００ｅ，１００ｆ，１００ｇと表記されているサンプルは、生の微生物の複合群集または微生物群集であり、後処理されることなく１人のドナーまたは複数のドナーから直接得られたものである。

【0074】

１００ａ、１００ｂ、１００ｃと表記されている他のサンプルは、「処理されたサンプル」、即ち、１つまたは複数の天然の生の複合群集に対する処理、またはその後処理、またはその形質転換の結果として生じた人工の複合微生物群集である。上述したように、処理には、ろ過、遠心分離、発酵、凍結、初期複合群集の凍結乾燥、さらには初期複合群集の混合が含まれるが、エタノール、クロロホルム、熱の使用など、芽胞および芽胞形成細菌を分離することを目的とした処理も含まれる。

【0075】

図示のように、初期複合群集は、初期サンプル採取物１０に属する１つのサンプル１００ｄ、１００ｅ、１００ｆ、１００ｇであってもよいし、外部サンプル９９であってもよい。

【0076】

初期サンプル採取物１０は、任意の起源（ヒト、動物、植物、土壌、…）の任意の供給源（糞便、皮膚、鼻腔、頬、膣、腫瘍…）からの１つまたは複数のサンプルを含んでよく、好ましくは、少なくとも１人のドナー、より好ましくは少なくとも２人のドナーからの１つまたは複数の糞便サンプルを含んでよい。

【0077】

特定の実施形態によれば、採取物１０のサンプルには糞便サンプルが含まれる。

【0078】

ドナーから採取された糞便サンプルは、先行技術、例えば、ＷＯ２０１９／１７１０１２Ａ１に記載されている方法および定性的基準に従って管理することができる。例えば、サンプルの定性的基準は、ＷＯ２０１９／１７１０１２Ａ１に記載されているように、ブリストルスケールで１～６の間でサンプルが一定であること、サンプル中の血液および尿が存在しないこと、および／または特定の細菌、寄生虫および／またはウイルスが存在しないことを含むことができる。

【0079】

糞便サンプルは、例えばＷＯ２０１６／１７０２８５Ａ１、ＷＯ２０１７／１０３５５０Ａ１および／またはＷＯ２０１９／１７１０１２Ａ１などの先行技術に記載されている任意の方法に従って採取することができる。好ましくは、サンプルを採取した後、嫌気条件下に置く。例えば、ＷＯ２０１６／１７０２８５Ａ１、ＷＯ２０１７／１０３５５０Ａ１および／またはＷＯ２０１９／１７１０１２Ａ１に記載されているように、サンプル採取後５分以内に、サンプルを酸素密閉採取装置に配置してもよい。

【0080】

サンプルは、例えば、ＷＯ２０１６／１７０２８５Ａ１、ＷＯ２０１７／１０３５５０Ａ１、および／または、ＷＯ２０１９／１７１０１２Ａ１などの先行技術に記載されている方法に従って調製することができる。

【0081】

図に示すサンプル１００ａ～１００ｇは全て、少なくとも１つのバンクに保存されている実際のサンプルである。

【0082】

点線で表されたサンプル１００ｙ～１００ｚは、実際にドナーから採取されたものでも、生産されたものでもない理論上のサンプルであり、したがって、実際に保存バンクまたはバンク１０に保存されたものでもない。以下に説明するように、これらの「仮想」サンプル１００ｙ～１００ｚは、例えば、コンピュータ、オペレータ、研究者などのエンティティによって想像される理論上の複合群集プロファイル１１０ｚを例示するために描かれている。

【0083】

初期サンプル採取物１０は、天然サンプル１００ｄ～１００ｇのみを含んでいてもよいし、処理済みサンプル１００ａ～１００ｃのみを含んでいてもよいし、仮想サンプル１００ｙ～１００ｚのみを含んでいてもよいし、それらの任意の組合せを含んでいてもよい。

【0084】

本発明の第１の目的は、初期サンプル採取物１０に属するサンプル１００ａ～１００ｚの混合から生じる混合組成の予測に関する。予測には、
線形手法を用いて、選択された複合微生物群集サンプルの混合に関する中間混合プロファイルを予測すること、および、
基準となる線形予測混合プロファイルと対応する基準となる真の混合プロファイルから学習した相互作用モデルを用いて、中間混合プロファイルを予測混合プロファイルに修正すること、の２つの方法がある。相互作用モデルは、好ましくは、基準となる線形予測混合プロファイルと対応する基準となる真の混合プロファイルから学習された平方相互作用行列である。

【0085】

本発明者らは、驚くべきことに、学習された相互作用モデル、より詳細には行列に基づく方法が、相互作用モデルまたは行列が学習されると正確な予測結果を提供し、それゆえ初期サンプル採取物の材料を消費することなく、最終生成物に関連するヒントを与えることを発見した。

【0086】

予測はコンピュータで実施できるため、予測する混合物の数が多く、初期サンプル採取物１０で利用可能なサンプルの数が多く、微生物（サンプルおよび混合物）の複合群集をプロファイリングする特徴の数が多いにもかかわらず、予測混合プロファイルを迅速に得ることができる。

【0087】

本発明の第２の目的は、標的混合結果生成物を表す標的混合プロファイルが与えられた初期サンプル採取物１０からサンプルの標的セットが決定される逆の操作に関する。標的混合結果生成物は、例えば、疾患または感染症に関して治癒特性を有する微生物の所望の複合群集を表すことができる。

【0088】

逆の操作には、
初期サンプル採取物から複合微生物群集サンプルの候補セットを順次選択することと、
連続的に選択された各候補セットについて、上記の予測方法を使用して、選択された候補セットのサンプルの混合から生じる混合プロファイルを予測することと、
予測混合プロファイルを標的混合プロファイルと比較し、１つの候補セットを標的セットとして選択することと、
が含まれる。

【0089】

予測操作と逆操作の両方が、混合結果生成物を実際に生成するために使用できる。

【0090】

予測操作に関して、予測混合プロファイルは、選択基準、例えば目的の分類群が十分に存在することと比較される。その後、比較の結果に応じて、選択されたサンプルが取得され、実際に混合されて混合結果生成物が得られる。このように、予測混合プロファイルは、混合結果生成物を得るために、初期サンプル採取物からサンプルの実際の採取と混合を制御するために使用することができる。

【0091】

選択基準は、混合結果生成物に対する所望の特性の関数として設定することができる。

【0092】

相互作用モデルに基づく予測や行列に基づく予測を含む、このような手法を図２に示し、以下でさらに詳しく説明する。

【0093】

逆操作に関しては、例えば所望の硬化特性を有する混合結果生成物に対応する標的混合プロファイルが与えられた逆操作を使用して、初期サンプル採取物に属するサンプルの標的セットが選択される。次に、標的セットのサンプルが選択され、所望の混合結果生成物が得られるように実際に混合される。このように、逆予測法によって決定されたサンプルの標的セットは、標的混合プロファイルの混合結果生成物の機能を得るために、初期サンプル採取物からサンプルの実際の採取および混合を制御するために使用することができる。

【0094】

標的混合プロファイルを使用したこのような逆方向の手法の実施形態を、図３を参照して以下に説明する。

【0095】

「混合」とは、微生物の新たな複合群集または新たな微生物叢組成をもたらすサンプルの実際の混合を意味する。その結果は、上述のように投与または移植に使用することができるため、混合結果生成物とも呼ばれる。混合結果生成物は、例えば、ＦＭＴ接種用培地として使用することができる。

【0096】

「プロファイル」とは、微生物複合群集の組成または微生物叢組成の記述（サンプルまたは混合物である）を意味する。例えば、プロファイルは、複合群集または微生物叢組成におけるプロファイリング特徴の相対存在量を規定する。「相対的」とは、存在量の合計が１に等しいことを意味する。相対存在量は、微生物の複合群集におけるプロファイリング特徴の質量（または重量）または体積割合で表すことができる。

【0097】

関係する用途に応じて（例えば、治療分野では対象とする疾患に応じて、バイオレメディエーション分野では除去する汚染物質に応じて）、プロファイリング特徴はタイプが異なる場合がある。通常は、分類群、遺伝子、抗生物質耐性遺伝子、機能、代謝産物形質、代謝産物およびタンパク質産生を含むグループから選択される。プロファイルは、例えば分類群と抗生物質耐性遺伝子など、異なるタイプのプロファイリング特徴を混合することができる。特定の実施形態においては、微生物の複合群集をプロファイリングするために分類群のみを考慮する。

【0098】

機能はタンパク質またはタンパク質ファミリーの既知の作用を記述する（系統学的に定義されたもの、例えばＫＥＧＧＫＯやＮＣＢＩＣＯＧｓ、酵素番号（ＥｎｚｙｍｅＣｏｍｍｉｓｓｉｏｎＮｕｍｂｅｒ）のデータベース）、あるいは代謝のコンテキストを定義することができる（例えば反応レベルのＢｉＧＧモデルのデータベースや代謝パスウェイレベルのＫＥＧＧパスウェイ）、例えば糖質活性酵素のカタログであるＣａＺｙデータベースのように専門化されたデータベースもある。これらの機能カテゴリー（またはその組み合わせ）は、行列モデルの特徴として使用できる。

【0099】

ＫＥＧＧは「京都遺伝子ゲノム百科事典（ＫｙｏｔｏＥｎｃｙｃｌｏｐｅｄｉａｏｆＧｅｎｅｓａｎｄＧｅｎｏｍｅｓ）」、ＫＯは「ＫＥＧＧオーソロジー（Ｏｒｔｈｏｌｏｇｙ）」、ＮＣＢＩは「国立バイオテクノロジー情報センター（ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎ）」、ＣＯＧは「オーソロガスグループのクラスター（ＣｌｕｓｔｅｒｏｆＯｒｔｈｏｌｏｇｏｕｓＧｒｏｕｐｓ）」、ＢｉＧＧは「生化学遺伝学・ゲノム学（ＢｉｏｃｈｅｍｉｃａｌＧｅｎｅｔｉｃａｎｄＧｅｎｏｍｉｃ）」の略である。

【0100】

複合群集プロファイルを得るために、１６ＳｒＲＮＡ遺伝子アンプリコン（即ち、メタゲノム）シーケンス、ＮＧＳショットガンシーケンス、１６ＳｒＲＮＡ遺伝子以外のアンプリコンシーケンス、ＮＧＳアンプリコンベースの標的シーケンス、１８Ｓ／ＩＴＳ遺伝子シーケンス、メタゲノム配列決定、ファイロチップベースのプロファイリング、ポリメラーゼ連鎖反応（ＰＣＲ）による同定、質量分析（例えばＬＣ／ＭＳタイプやＧＣ／ＭＳタイプ）、近赤外（ＮＩＲ）分光法、核磁気共鳴（ＮＭＲ）分光法のような様々なプロファイリング技術が知られている。

【0101】

図１に示すように、プロファイラ（または、シーケンサ）１２は、好ましくは、実際のサンプル１００ａ～１００ｇのプロファイル、例えば１６Ｓシーケンスを提供するために使用される。このようにして得られた対応する個々のプロファイルは、１１０ａ～１１０ｇと称され、初期のプロファイルコレクションまたはバンク１１を形成する。もちろん、１６ＳｒＲＮＡシーケンシングは必須ではなく、プロファイル１１０を提供するために、上記で定義したように、他の方法を単独または組み合わせて使用することができる。

【0102】

個々のプロファイルは、使用されるシーケンシング技術が何であれ、同じフォーマットで変換され、行列またはベクトルａ_ｘとしてコンピュータのメモリ（図示せず）に格納される。個々のプロファイル「ｘ」の係数ａ_ｘ（ｊ）は、検討されたサンプル中のプロファイリング特徴「ｊ」の相対存在量を示す。

【0103】

上述のように、いくつかの個別プロファイル１１０ｚは、例えば、理論上のサンプルにおけるプロファイリング特徴「ｊ」の相対存在量を表す係数ａ_ｘ（ｉ）を定義することによって、オペレータによって人為的に構築されてもよい。

【0104】

従って、初期プロファイルコレクション１１が、天然サンプル１００ｄ～１００ｇに対応する個別プロファイル１１０ｄ～１１０ｇのみを含んでもよいし、処理済みサンプル１００ａ～１００ｃに対応する個別プロファイル１１０ａ～１１０ｃのみを含んでもよいし、仮想サンプル１００ｙ～１００ｚに対応する仮想プロファイル１１０ｙ～１１０ｚのみを含んでもよいし、それらの任意の組合せを含んでもよい。

【0105】

以降、扱われる他のプロファイル（例えば、いわゆる中間プロファイルや混合プロファイル）は、同じプロファイル形式、例えば、同じプロファイリング特徴「ｊ」を同じ順番で並べたベクトルに従う。

【0106】

好ましくは、細菌の存在量プロファイルが得られ、これはプロファイルが細菌に関するプロファイリング特徴の相対存在量を規定することを意味する。より一般的には、微生物の複合生物群のプロファイルは、複合生物群に存在する１つまたは複数の微生物（細菌、古細菌、ウイルス、ファージ、原虫および真菌）に関して、好ましくは細菌および／または古細菌に関して、プロファイリング特徴を規定することができる。もちろん、同じプロファイル内のプロファイリングの特徴は、先に列挙したように、異なる微生物に関するものであってもよい。

【0107】

好ましくは、属ベースの細菌存在量プロファイルが得られ、これは、プロファイリング特徴が、微生物の複合生物群における属レベルの細菌の相対存在量を記述することを意味する。より一般的には、微生物の複合生物群のプロファイルは、菌株、種、属、科および目から１つまたは複数の分類学的レベル、好ましくは属、科および目から１つまたは複数の分類学的レベルで考慮される微生物の相対存在量を規定するプロファイリング特徴を定義することができる。

【0108】

予測操作および逆操作は、モジュール１４の制御下でプール予測モジュール１３によって実施される。モジュール１４は、「テストおよび決定モジュール」または「決定モジュール」と呼ばれ、混合プロファイルの予測、および／または標的混合プロファイルが与えられたサンプルセットの決定、および／または少なくとも１つの混合結果生成物の生成を目的として、プラットフォーム１を駆動する。

【0109】

モジュール１３および１４は、オペレータがプラットフォーム１と対話できるように、入出力インターフェース（キーボード、マウス、スクリーンなど）を有するコンピュータによって実装されることが好ましい。

【0110】

図に示すように、プール予測器１３は行列ベースであり、混合されたサンプルの初期プロファイルから結果混合プロファイルを予測するための２つのステップを含む。

【0111】

行列Ａは、採取物１０で利用可能な全てのサンプルの個々のプロファイルを規定する。それは、プロファイラまたはシーケンサ１２によって、あるいは少なくともプロファイラから得られた個々のプロファイルによって形成される。さらに、任意の仮想個別プロファイルも行列に追加される。

【0112】

好ましくは、

【数1】

である。
ここで、ｊ＝１，・・・，ｍであり、ｍは考慮されるプロファイリング特徴の数であり、ｎは初期プロファイルコレクション１１内の個々のプロファイル１１０の数であり、したがって初期サンプル採取物１０内のサンプル１００（仮想のものを含む）の数である。

【0113】

正方行列Ｗは、微生物間の相互作用をモデル化した上記で規定した相互作用行列である。モデル化行列Ｗの説明（学習方法も含む）を以下に詳細に示す。相互作用行列は、後者が一緒に混合されたときのサンプルの様々なプロファイリング特徴の間の非線形相互作用を表現することを目的としている。

【0114】

予測操作は、行列Ａを用いて、選択されたサンプルの少なくとも１つの混合物について、行列Ｉによって形成される中間混合プロファイルを予測し、行列に基づく第１のステップを含み、Ｉ＝Ｐ＊Ａであり、Ｐは、採取物１０から選択されたサンプルの少なくとも１つの混合物を表す行列である。

【0115】

行列Ｐは、初期サンプル採取物のサンプルの質量比または体積比で、各混合を規定することができる。

【0116】

例えば、

【数2】

である。
ここで｛ｐ_ｘ（ｊ）｝_ｊは混合「ｘ」を規定し、ｐ_ｘ（ｋ）はサンプルｋ（ｋは１から採取物１０／１１におけるサンプルの数Ｎｓａｍｐまで）の割合である。比率の合計は１に等しい。

【数3】

サンプルｒが混合ｘに使用されていない場合、ｐ_ｘ（ｒ）＝０となる。

【0117】

行列ベースの手法は、有利なことに、様々な数の混合物を一緒に予測することを可能にし、Ｐの各行は、予測する混合物を規定し（したがって、上記の例では、「ｔ」個の混合物が規定されている）、その数「ｔ」は、１つの予測から他の予測に変化することができる。

【0118】

決定モジュール１４のリスト１４０において予め規定することができる。新しいテスト手順を開始すると、モジュール１４はリスト１４０を読み出し、リストの１つ、または、いくつか、または、全ての混合物の規定を使用して、上記で規定された行列Ｐを形成する。もちろん、変形例として、または組み合わせて、オペレータは、モジュール１４に接続された画面上で、採取物１０からサンプル１００を選択し、それらの相対比率を指定することにより、少なくとも１つの新しい混合物をその場で定義することができる。したがって、混合物｛ｐ_ｘ（ｋ）｝_ｋをその場で作成することができる。

【0119】

予測演算Ｉ＝Ｐ＊Ａは、例えばコンピュータに実装されている。

【0120】

行列

【数4】

は、テストされた混合物Ｐの線形予測または「中間」混合プロファイルを規定して得られる。

【0121】

これらの混合プロファイルは、実際に混合が行われたときの微生物間の相互作用を考慮していないため、「ナイーブ」な予測である。

【0122】

そのため、本発明によれば、予測操作は、相互作用モデル、特に相互作用行列Ｗを用いて、中間混合プロファイル、即ち行列Ｉを、行列

【数5】

で表される予測混合プロファイルに修正する第２のステップを含み、Ｒ＝Ｉ＊Ｗ，ｊ＝１，…，ｍである。

【0123】

こうして、予測混合プロファイルは、採取物１０の材料を消費することなく、様々な数の混合物について迅速に得ることができる。

【0124】

相対存在量ｒ_ｘ（ｊ）は負ではなく、全組成を共に形成することが期待される（即ち、所与の混合物「ｘ」に対してそれらの合計は１に等しい）。しかしながら、これは行列積ではそうでない場合がある。したがって、本発明の実施形態は、生物学的制約を満たすために、結果行列ＲをＲ’に後処理することを含む。

【0125】

例えば、Ｒのそれぞれの負の値はクリップされ、つまり負の存在量は０に設定される。その後、相対存在量ｒ_ｘ（ｊ）は正規化され、つまり（例えば、線形補間を用いて）ｒ´_ｘ（ｊ）に調整され、それらの合計が１に等しくなる。

【数6】

最終的な混合結果行列は次のようになる。

【数7】

ここで、｛ｒ´_ｘ（ｊ）｝_ｊは、テスト済み混合物ｘ（｛ｐ_ｘ（ｋ）｝_ｋによって規定される）の予測混合プロファイルを表すベクトルである。任意選択的に、正規化する前に、一緒に混合された初期サンプルに存在しない（即ち、一緒に混合された全てのサンプルｘについてａ_ｘ（ｊ）がゼロである）プロファイリング特徴の非ゼロ相対存在量（Ｒの非ゼロ値）をゼロに設定する。

【0126】

本方法の効率性は、混合サンプルの微生物間の実際の正と負の相互作用を行列、いわゆる相互作用行列Ｗにモデル化することに基づく。そして、行列に基づく２段階のプロセスにより、実際の混合プロファイルを効率的に予測することができる。

【0127】

相互作用行列Ｗは、与えられたｍ個のプロファイリング特徴セットに対して学習される。プロファイリング特徴がプロファイル内で並び替えられた場合、相互作用行列Ｗの係数もそれに応じて並び替えられる。

【0128】

例えば、新たな特徴が発見されたり、ある特徴があまり意味を持たなくなったために削除されたり、および／または、ある特徴がより正確となるように、より多くの特徴に分割されたりするため、ｍ個のプロファイリング特徴も時間とともに進化する可能性がある。プロファイリング特徴の進化は、新しいプロファイリングデータを提供するプロファイリング／シーケンス方法およびプロファイラ／シーケンサ１２の強化、ならびにアルゴリズムと特徴の参照データベースを結合するバイオインフォマティクス手法の改善によっても生じる可能性がある。

【0129】

例えば、標的にする疾患や治療法の違いによって、プロファイリング特徴の異なるセットを考慮することもできる。

【0130】

プロファイリング特徴そのものだけでなく、セット内の特徴の数も進化したり変化したりする可能性がある。

【0131】

したがって、プロファイリング特徴の新しいセットが考慮されるたびに、相互作用行列Ｗは、初期プロファイルコレクション１１を記述する行列Ａと同様に、新たに計算することができる。計算された相互作用行列Ｗは、対応するプロファイリング特徴のセットが新たに使用される場合に再利用できるように、プール予測器１３のメモリに格納することができる。

【0132】

相互作用行列は、好ましくは機械学習を用いて取得される。機械学習は、一組の訓練データを用いて行われる。訓練データは、サンプルｋの複数の混合物｛ｐ_ｒｅｆ（ｋ）｝から得られる基準となる混合生成物「ｒｅｆ」から構築される。

【0133】

サンプルの実際の基準混合物は、１０分から３時間、好ましくは、３０分から１．５時間の間に均質化される。均質化は、０℃から１０℃、好ましくは、２℃から６℃、より好ましくは、約４℃の温度で行われる。

【0134】

その後、混合物は、数時間、少なくとも混合から１６時間以内、好ましくは、２４時間以内は安定であると考えられる。

【0135】

つまり、この相互作用行列は、４℃で安定化された混合物について、微生物間に生じるはずの相互作用を表している。

【0136】

他の混合条件を表す他の相互作用行列を作成してもよい。

【0137】

サンプルｘの個々のプロファイル｛ａ_ｘ（ｊ）｝_ｊ（ｊ＝１，…，ｍ）は既知であるか、またはサンプルｘをプロファイリングするシーケンサから得られる。したがって、基準となる線形予測混合プロファイル｛ｉ_ｒｅｆ（ｊ）｝_ｊも、上記の線形式Ｉ＝Ｐ＊Ａを使用することにより分かる。

【0138】

基準となる混合生成物「ｒｅｆ」の混合プロファイルは、基準となる真の混合プロファイル｛ｒ_ｔｒｕｅ（ｊ）｝_ｊと称され、基準となる混合生成物「ｒｅｆ」をプロファイリングするシーケンサから既知であるか、または取得される。

【0139】

基準となる予測混合プロファイル｛ｒ_ｐｒｅｄ（ｊ）｝_ｊは、基準となる線形予測混合プロファイル｛ｉ_ｒｅｆ（ｊ）｝_ｊと（学習中の）正方相互作用行列Ｗとの間の行列積に対応し、単一の基準となる混合生成物「ｒｅｆ」について、Ｒ_ｐｒｅｄＩ_ｒｅｆ＊Ｗ、または、｛ｒ_ｐｒｅｄ（ｊ）｝_ｊ＝｛ｉ_ｒｅｆ（ｊ）｝_ｊ＊Ｗである。

【0140】

機械学習は、基準となる混合プロファイルの予測誤差を最小化しようとするものである。換言すれば、基準となる真の混合プロファイル

【数8】

と、対応する基準となる線形予測混合プロファイル

【数9】

との間の差に基づく式を最小化しようとするものである。「ｐｒｅｄ－ｉ」および「ｔｒｕｅ－ｉ」は、それぞれ同じ基準となる混合生成物「ｉ」に対応する予測基準となる混合プロファイルおよび真の基準となる混合プロファイルを指す。「Ｎ」は，考慮する基準となる混合生成物の数を表す。

【0141】

機械学習の訓練データはＩ_ｒｅｆおよびＲ_ｔｒｕｅである。

【0142】

いくつかの実施形態では、最小化する式は、残差ベクトルである
｛ｒ_{ｔｒｕｅ－ｉ}（ｊ）｝_ｊ－｛ｒ_{ｐｒｅｄ－ｉ}（ｋ）｝_ｋ＝｛ｒ_{ｔｒｕｅ－ｉ}（ｊ）｝_ｊ－｛ｉ_ｒｅｆ（ｋ）｝_ｋ＊Ｗ、
または、残差行列Ｒ_ｔｒｕｅ－Ｒ_ｐｒｅｄ＝Ｒ_ｔｒｕｅ－Ｉ_ｒｅｆ＊Ｗである。

【0143】

どのノルムを使ってもよく、Ｌ１、Ｌ２、Ｌｐなどである。好ましくは、差の２乗和（ＳＳＤ）またはそれに派生する平均２乗誤差（ＭＳＥ）を使用することができる。また最小カイ２乗法も使用できる。

【0144】

機械学習は、次に示す凸最適化問題を解決しようとする。

【数10】

ここで、

【数11】

は、ＭＳＥであり、ＮはＲ_ｔｒｕｅとＲ_ｐｒｅｄで考慮される混合生成物の数である。

【0145】

オーバーフィットＷを回避する実施形態において、式は、正則化項、好ましくはリッジ（Ｌ２）ベースの正則化項を上記の差に追加する。変形として、ラッソ（Ｌ１）ベースの正則化項を使用することもできる。リッジ手法は、有利なことに、Ｗにおいてより多くの非ゼロ係数を持つことに役立ち、それゆえプロファイリング特徴間の相互作用をより正確にモデル化する。

【0146】

したがって、機械学習は以下の凸最適化問題を解決しようとする。

【数12】

ここで、

【数13】

は正則化項（好ましくはリッジ）、ＩＤは単位行列、λは正則化重み付けのハイパーパラメータである。

【0147】

さらに、Ｒ_ｐｒｅｄが負の相対存在量を持たず、各基準となる予測混合プロファイルの相対存在量の合計が１になるように、機械学習中に制約を設定することができる。換言すれば、Ｉ_ｒｅｆ＊Ｗの負の相対存在量をクリップし、各基準となる予測混合プロファイル、即ちＩ_ｒｅｆ＊Ｗの各行の相対存在量の合計を１に正規化することに対応する修正行列Ｒ’_ｐｒｅｄを使用することが好ましい。修正されたＩ_ｒｅｆ＊Ｗは、

【数14】

と表記される。したがって、実施形態において、機械学習は、以下の凸最適化問題を解決しようとする。

【数15】

【0148】

訓練データのセット（仮にＮ個の基準混合結果とする）は、２つのサブセットに分割され、１つはハイパーパラメータλの最適化のため、もう１つはＷの最適化のためである。

【0149】

λを最適化する様々な方法が知られており、特に、情報量基準最小化法（例えば、赤池情報量基準最小化やベイズ情報量基準最小化）や、交差検証残差最小化法などがあり、これらは訓練データの最初のサブセットを使用する。この最適化では、ＷはデフォルトでＩＤとは異なる値に設定されてもよい。

【0150】

例えば、λを１０^－５と１０^３の間で変化させた上式のＭＳＥを、訓練データセットとテストデータセット（ハイパーパラメータλの最適化のためにサブセットを分割）について計算する。結果のＭＳＥは図１ａのようになる。

【0151】

図示のように、λが小さいとき、訓練データセットのＭＳＥは０に近いが、テストデータセットのＭＳＥは非常に高い。この状況では、モデルはオーバーフィットしている。

【0152】

一方、λが高い場合、モデルはアンダーフィットとなる。

【0153】

したがってλは、テストデータセットのＭＳＥを最小化するように選ぶことができる。

【0154】

一旦λが既知になると、訓練データの２番目のサブセットは、交差検証された残差を最小化することによってＷを学習するために使用され、ｋフォールド手順が実行される。

【0155】

訓練データのサブセット（即ち、｛ｒ_{ｔｒｕｅ－ｉ}（ｊ）｝_ｊと｛ｉ_{ｒｅｆ－ｉ}（ｊ）｝_ｊ）はｋ個のサブセットに分割され、好ましくは、ｋは、３から２０の整数、好ましくは、４から１０の整数から選択され、より好ましくは、５に等しい。

【0156】

ｋ個のサブセットのそれぞれは、テストサブセットを規定するためにラウンドロビン方式（循環順序）で連続的に選択され、残りのｋ－１個のサブセットは訓練サブセットを規定する。

【0157】

ｋ回のラウンドごとに、訓練サブセットを使用してモデルを訓練する。即ち、Ｗを求めるために、

【数16】

を解く。有利なことに、１回のパスでＷを学習するように、訓練サブセットの全ての線形予測混合プロファイルが単一の行列Ｉ_ｒｅｆ（および、Ｒ_ｔｒｕｅの真の混合プロファイル）に供給される。

【0158】

学習された相互作用行列Ｗは、次にテストサブセットでチェックされ、テストサブセットは、行列ベースのモデルＲ_ｔｒｕｅ＝Ｉ_ｒｅｆ＊Ｗに適用される。任意のノルム、例えば、ＭＳＥ

【数17】

に基づくスコアが得られる。

【0159】

この操作をｋ個のテストサブセットごとに繰り返すと、ｋ個のスコアが得られる。

【0160】

そして、最良のスコア（即ち、最も低いスコア）に対応する学習された相互作用行列Ｗを選択して、プール予測器１３を構成することができる。

【0161】

もちろん、学習された相互作用行列Ｗが得られれば、機械学習の他の方法論を用いることもできる。

【0162】

いくつかの実施形態において、サンプル１００（即ち、行列Ａを形成するために使用される）のプロファイリング特徴は、最終混合結果（即ち、行列Ｒを形成するために使用される）のプロファイリング特徴と同じである。上述したように、それらは（以下の実験１および２のように）分類群、遺伝子、抗生物質耐性遺伝子、機能、および代謝産物形質、ならびに代謝産物およびタンパク質産生であってもよい。

【0163】

他の実施形態において、サンプル１００（即ち、行列Ａを形成するために使用される）のプロファイリング特徴は、最終混合結果（即ち、行列Ｒを形成するために使用される）のプロファイリング特徴とは（部分的または全体的に）異なる。上記のプロファイリング特徴（分類群、遺伝子、機能など）のいずれを用いてもよい。

【0164】

一例として、ＮＧＳショットガンシーケンスなどのプロファイリング技術が使用される場合、１６Ｓシーケンスと比較して、サンプル１００あたり、より多くのプロファイリング特徴が得られる。したがって、サンプル１００は、ＮＧＳショットガンシーケンスを使用してプロファイリングすることができ（したがって、行列Ａは、ＮＧＳショットガンプロファイリング特徴で形成される）、一方、最終的な混合結果は、例えば、１６Ｓシーケンスを使用して得られたプロファイリング特徴の数を減らして保持することができる（したがって、行列Ｒは、１６Ｓプロファイリング特徴で形成される）。その場合、行列ＩはＮＧＳ－ショットガンプロファイリング特徴で形成され、相互作用行列Ｗは正方行列ではなく、依然として微生物間の相互作用をモデル化するが、この例ではＮＧＳ－ショットガンプロファイリング特徴と１６Ｓプロファイリング特徴との間の関係としてモデル化される。

【0165】

多数のＮＧＳショットガンプロファイリング特徴を削減しようとする具体的な実施態様において、主成分分析（ＰＣＡ）が実行され、この多数の特徴がｋ個の主成分（ｋ個のＰＣ）に投影される。一実施形態において、ＰＣＡは、サンプルをプロファイリングする特徴、即ち行列Ａを構築する際に実行される。他の実施形態において、行列Ｉは、多数のプロファイリング特徴を用いて生成され、ＰＣＡは行列Ｉに対して実行される。

【0166】

上述したように、プール予測器１３は、混合

【数18】

が入力として与えられると、最終的な混合結果行列

【数19】

を出力する。

【0167】

混合結果行列Ｒ’、即ち、テストおよび決定モジュール１４によって得られた予測混合プロファイル｛ｒ´_ｘ（ｊ）｝_ｊは、次に、混合結果生成物１９を実際に生成するプロセスを制御するために使用することができる。例えば、信号Ｓ１および任意選択でＳ２を通じて、混合結果生成物を得るための初期サンプル採取物１０からのサンプルの実際の取り出しおよび混合を制御するために使用することができる。

【0168】

Ｒ’における予測混合プロファイルの１つが、混合結果生成物１９の生成をトリガーするために、決定モジュール１４によって選択されてもよい。

【0169】

予測混合プロファイルの１つを選択するために、１つまたは複数の選択基準を使用することができる。

【0170】

選択基準は、メモリ内のファイル１４１に保存することができる。基準は、オペレータによってシステム（リスト１４１）に入力され、例えば硬化性または処理特性を有する混合結果生成物の要件を反映することができる。

【0171】

基準はプロファイルのプロファイリング特徴に関連する。したがって、これは標的混合プロファイルと同義であり、プロファイルの特徴に関する制約は、実施形態に応じて多かれ少なかれ緩められる。

【0172】

基準には、多様性基準、例えば細菌の多様性基準を含めることができる。

【0173】

「多様性」または「細菌の多様性」とは、微生物の複合群集（混合物またはサンプル）の多様性または変動性を意味し、例えば属、種、遺伝子、機能または代謝物のレベルで測定される。多様性は、豊富度（観察された種数、属数、遺伝子数）、シャノン指数、シンプソン指数、逆シンプソン指数など、複合群集を記述するためのアルファ多様性パラメータや、ブレイ・カーティス（Ｂｒａｙ－Ｃｕｒｔｉｓ）指数、ユニフラック（ＵｎｉＦｒａｃ）指数、ジャカード（Ｊａｃｃａｒｄ）指数など、複合群集を比較するためのベータ多様性パラメータで表すことができる。

【0174】

したがって、多様性基準は、最小数のプロファイリング特徴（例えば細菌属）または、１つまたは複数の事前定義されたプロファイリング特徴の存在（即ち、対応する相対存在量がゼロでないこと）の観点からの要件を表すことができる。プロファイリング特徴の最小数は、ｍ個のプロファイリング特徴全てに関して考慮してもよいし、ｍ個のプロファイリング特徴の予め規定されたサブリストに関して考慮してもよい。これにより、所望の混合結果生成物１９のための特定の特徴に焦点を当てて選択プロセスを行うことができる。

【0175】

Ｒ’の予測混合プロファイルは、例えば、最小数のプロファイリング特徴の存在を満たすものが選択される。

【0176】

多様性基準は、１つまたは複数の特定のプロファイリング特徴の最小相対存在量または最大相対存在量を表す場合がある。例えば、所定の細菌属は、他の細菌（他のプロファイリング特徴で特定される）と比較して、少なくとも５％以内の割合（質量）で混合結果生成物中に存在することが望まれる場合がある。多様性基準はまた、１つまたは複数の特定のプロファイリング特徴の相対存在量が属するべき範囲を規定してもよい。もちろん、様々な多様性基準を混在させることもでき、１つのプロファイリング特徴の最小相対存在量または最大相対存在量と、別の特徴の範囲、および／または第３の特徴の最大相対存在量、などである。

【0177】

同様に、少なくとも２つのプロファイリング特徴間の相対比（場合によっては、最小比および／または最大比）を多様性基準として使用することもできる。

【0178】

例えば、特定のプロファイリング特徴の相対存在量の最小値または最大値を満たすＲ’の予測混合プロファイルを選択することができる。

【0179】

多様性基準は、プロファイリング特徴の多様性の増加を表す場合もある。

【0180】

多様性基準は、特定の標的混合プロファイルへの近さまたは類似性を規定してもよい。例えば、標的混合プロファイルは、標的混合プロファイルに正確に一致する混合結果生成物が望まれる場合に規定されてもよい。通常、標的混合プロファイルは、プロファイル間で評価される距離（測定値）に対応する最大値とともに提供される。両プロファイル間の距離（測定値が与えられる）が最大値以下である場合、混合プロファイルは標的混合プロファイルに近いと言われる。測定値は、ノルム、Ｌ１、Ｌ２、…、Ｌｐ、ＳＳＤ、ＭＳＥ、ベータダイバーシティインデックス、またはプロファイリング特徴間の他の既知の距離測定値（例えば、ブレイ・カーティス距離、ジャカード距離、ユニフラック距離または類似性測定値）である。

【0181】

例えば、標的混合プロファイルとの距離が最小となるＲ’の予測混合プロファイルが選択される。

【0182】

上記に規定された基準の全てまたは一部を組み合わせることができる。

【0183】

予測混合プロファイルの１つ（即ち、より一般的には標的混合プロファイル）を選択するために使用される１つまたは複数の選択基準は、決定モジュール１４によって取得され、Ｒ’に適用される。

【0184】

Ｒ’内の予測混合プロファイルは、順番に連続して検討することができる。

【0185】

選択基準または基準を満たす最初の予測混合プロファイルは、混合結果生成物１９の生成のために選択されてもよい。

【0186】

変形においては、Ｒ’の全ての予測混合プロファイルは、選択基準または基準に関して評価され、最良のスコア（例えば、いくつかの基準を満たし、かつ／またはいくつかの基準に最も近い）を有するものが選択される。

【0187】

より一般的には、例えば、治癒特性を有する標的混合物に対応する選択基準／標的混合物プロファイルが規定される逆予測が考慮されてもよい。ファイル１４０は、テストされるサンプルの候補セットを規定することができ、そこから標的混合プロファイルを考慮した「最良の」セットが検索される。このプロセスは、「最良」のものを見つけるために、ファイル１４０を通じて、異種の候補セットの第１のグループ（即ち、どのサンプルが一緒に混合され、それぞれどのような割合で混合されるかという点で異種の混合を有する）を最初にテストすることができ、次いで、「最良」のセットの近傍の候補セットの別のグループ（例えば、「最良」のセット内のサンプルの割合ｐ_ｘ（ｋ）を変更し、および／または、セットへの／セットからのサンプルの１つもしくは最大２つのみを追加もしくは削除する）をテストすることができることを意味する反復的なものであってもよい。もちろん、標的混合プロファイルを考慮した「最良」結果のサンプルセットを漸進的に改良するために、１回または複数回の追加反復が考慮されてもよい。

【0188】

各反復において、例えば、標的混合プロファイルに対する最小距離（ブレイ・カーティス距離、ジャカード距離、ユニフラック距離など）を有するＲ’の予測混合プロファイルが、「最良」のものとして選択され得る。変形例として、複数の（例えば行列ベースの）予測を行い、得られた複数の（例えば様々な行列Ｒ’）予測混合プロファイルから「最良」の候補セットを選択することもできる。こうして、予測混合プロファイルと標的混合プロファイルとの比較が行われ、１つの候補セットが「最良」、即ち標的セットとして選択される。

【0189】

予測混合プロファイルが選択され、初期の採取物からサンプルの対応する標的セットがわかると、混合結果生成物１９を生成するプロセスが開始される。

【0190】

決定モジュール１４は、まず、選択された予測混合プロファイルに対応する混合組成｛ｐ_ｘ（ｋ）｝_ｋを取得する、即ち、初期採取物１０中のサンプルの標的セットの各サンプルｋに対する割合ｐ_ｘ（ｋ）を取得する。そして、Ｓ１を使用して、セレクタおよびミキサ１５に、これらの割合｛ｐ_ｘ（ｋ）｝_ｋで信号を送る。変形例において、信号Ｓ１は、オペレータへの表示であってもよく、例えば、割合｛ｐ_ｘ（ｋ）｝_ｋは、オペレータがサンプルの実際の取り出しおよび混合を手動で実行するために、オペレータにスクリーン上に表示される。

【0191】

セレクタおよびミキサ１５は、サンプル採取物１０に機械的にアクセスでき（例えば、制御された多関節アームを介して）、サンプルの混合を行うバイオリアクタを含む機械とすることができる。

【0192】

信号Ｓ１に応答して、セレクタおよびミキサ１５は、バンク１０から非ゼロの割合ｐ_ｘ（ｋ）を有するサンプルをピックし、即ち、取得し、または、取り出し、対応する割合ｐ_ｘ（ｋ）が与えられた各サンプルの量、および混合結果生成物１９を標的とする総量または質量を取出す。取り出された全てのサンプルの量は、バイオリアクに注がれ、そこで実際に混合される。

【0193】

好ましくは、１０分から３時間、好ましくは、３０分から１．５時間の間に均質化される。均質化は、０℃から１０℃、好ましくは、２℃から８℃、より好ましくは、約４℃の温度で行われる。混合結果生成物は、その後数時間、少なくとも混合から１６時間以内、好ましくは、２４時間以内は安定であると考えられる。

【0194】

得られた混合結果生成物１９の真の混合プロファイル１９１｛ｒ_ｔｒｕｅ（ｊ）｝_ｊは、プロファイラ／シーケンサ１２を用いて取得することができる。これは、選択された予測混合プロファイル１９２｛ｒ’_ｘ（ｊ）｝_ｊとわずかに異なる可能性があるため、Ｗを改善するための更なる訓練データとして（対応する中間混合プロファイル｛ｉ_ｘ（ｊ）｝_ｊと共に）使用することができる。上述したような新たなラウンドは、訓練データのこの唯一の新たな項目（または、いくつかの項目が得られた場合）で実施することができ、λは変更せずに維持し、Ｗをその現在の値に初期設定することができる。このようにプラットフォーム１を使用しながらＷを繰り返し学習することで、有利なことにＷが改善され、より優れた将来の混合プロファイル予測が可能となる。

【0195】

上述したように、いくつかのサンプル１００ｙ～１００ｚは、仮想であってもよい。そのような仮想サンプルが決定モジュール１４によって選択された場合（即ち、選択された予測混合プロファイルにおける、その対応する相対存在量ｐ_ｘ（ｋ）がゼロでない場合）、その仮想的な規定（即ち、対応する個々のプロファイル）から上記サンプルを実際に生成する必要性がある。

【0196】

決定モジュール１４が、細菌コンソーシアムに対応する仮想サンプル１００ｙ～１００ｚについて、そのようなゼロでない相対存在量を検出すると、Ｓ２を使用して、サンプルジェネレータ１６に、上記人工サンプルを生成する必要性を通知する。Ｓ２は、当該サンプルを特定し、必要な材料の量（即ち、対応する割合ｐ_ｘ（ｋ）に、混合結果生成物１９の標的総量または質量を乗じた量）を示すことができる。

【0197】

サンプルジェネレータ１６は、単離された菌株１６０のバンクに（例えば、制御された多関節アームを介して）機械的にアクセスでき、個々の菌株の混合という観点から、サンプルの組成を規定するファイル１６１にアクセスする記憶装置を有する機械とすることができる。サンプルジェネレータ１６は、菌株の混合を行うバイオリアクタも含む。

【0198】

信号Ｓ２に応答して、サンプルジェネレータ１６は、菌株の観点から人工サンプル（細菌コンソーシアム）の定義を取得し、必要とされる各菌株の適切な量を、信号で示された必要量が与えられた菌株バンク１６から採取する。採取された必要な全菌株の量は、バイオリアクタに注入され、例えば４℃で３０分間、実際に混合される。

【0199】

実施形態において、サンプルジェネレータ１６は、バンク１０および／または外部サンプルのバンク９９にアクセスすることができる。決定モジュール１４が、操作されたまたは処理された複合群集（即ち、サンプルを含む混合物）に対応する仮想サンプルについてゼロでない相対存在量を検出すると、Ｓ２を使用して、サンプルジェネレータ１６に、上記操作されたまたは処理されたサンプルを生成する必要性を通知する。Ｓ２は、バンク１０内の各菌株および／または各サンプル、および／または混合物に関係する各外部サンプルを同定し、必要な材料の量（即ち、対応する割合ｐ_ｘ（ｋ）に、混合物結果生成物１９の標的総量または質量を乗じた量）を示すことができる。

【0200】

信号Ｓ２に応答して、サンプルジェネレータ１６は、材料を取得または採取し、バイオリアクタに注ぎ、そこで実際に混合する。

【0201】

混合が完了し、安定化すると、サンプルは生成されたことになるので、初期サンプル採取物またはバンク１０に保管され、セレクタおよびミキサ１５が実際に混合結果生成物１９を生成することができる

【0202】

信号Ｓ１とＳ２は、セレクタおよびミキサ１５、ならびに、サンプルジェネレータ１６を駆動するための制御信号として上述したが、これらの一方または両方は、オペレータが実際に手動で混合を実行するためにオペレータに表示される単なる信号であってもよい。

【0203】

図２は、混合プロファイルの予測を含む、そのような混合結果生成物１９を生成する一般的なステップを、フローチャートを用いて示している。これらのステップはプラットフォーム１によって実行される。

【0204】

ステップ２００において、テストおよび決定モジュール１４は、初期サンプル採取物１１において利用可能なものからサンプルのセットを選択する。このステップは、単に、リスト１４０から１つの混合規定｛ｐ_ｘ（ｋ）｝_ｋを提供または選択することからなる場合がある。

【0205】

混合物「ｘ」の定義は、予測のためにプール予測器１３に提供される。

【0206】

「ｘ」は、リスト１４０における混合規定が１からＮ_ｍｉｘまでのインデックスを持つとき、初期値として１に設定される。

【0207】

ステップ２０５において、プール予測器１３は、まず、中間混合プロファイルを得るために混合プロファイルの線形予測を実行し、｛ｉ_ｘ（ｊ）｝_ｊ＝｛ｐ_ｘ（ｋ）｝_ｋ＊Ａである。これは行列積である。

【0208】

ステップ２１０において、プール予測器１３は、次に、相互作用行列Ｗを用いて中間混合プロファイルの修正を実行し、｛ｒ_ｘ（ｊ）｝_ｊ＝｛ｉ_ｘ（ｊ）｝_ｊ＊Ｗである。これは行列積である。

【0209】

混合「ｘ」の予測混合プロファイル２１５、｛ｒ’_ｘ（ｊ）｝_ｊを得るために、必要に応じて｛ｒ_ｘ（ｊ）｝_ｊのクリッピングと正規化も実行される。

【0210】

ステップ２２０において、｛ｒ’_ｘ（ｊ）｝_ｊが選択基準に基づく条件を満たすか否かがチェックされる。この条件は、満たすべき単一の選択基準によって規定されてもよいし、複数の選択基準によって規定されてもよい。この条件は、所望の治癒特性または治療特性を有する微生物の複合群集または微生物組成物を規定する基準を反映することができる。

【0211】

｛ｒ’_ｘ（ｊ）｝_ｊが条件を満たさない場合、ステップ２００にループバックする前に、ステップ２２５（混合インデックスをインクリメントする）を通して別の混合が検討される。もちろん、全ての混合物がまだ考慮されていない場合（テスト２２１）、条件を満たす混合物がないままプロセスは終了する。この場合、オペレータに警告メッセージが発せられてもよい。

【0212】

｛ｒ’_ｘ（ｊ）｝_ｊが条件を満たす場合、それが選択され、処理はステップ２３０に進む。

【0213】

ステップ２３０において、対応する混合規定｛ｐ_{ｓｅｌｅｃｔ}（ｋ）｝_ｋが、決定モジュール１４によってリスト１４０から検索され、セレクタおよびミキサ１５に送られるか、またはオペレータに表示される（信号Ｓ１）。

【0214】

任意選択的に、仮想サンプル「ｋ」が対応する非ゼロの割合ｐ_{ｓｅｌｅｃｔ}（ｋ）を有する場合、決定モジュール１４は、信号Ｓ２の送信を通して、サンプルジェネレータ１６による実際の生成をトリガーするか、またはオペレータに情報を表示する。

【0215】

ステップ２３５において、対応する非ゼロのｐ_{ｓｅｌｅｃｔ}（ｋ）を有するサンプルが、セレクタおよびミキサ１５によってバンク１０から取り出され、バイオリアクタ内で混合される。

【0216】

その結果、所望の混合結果生成物１９が得られる。

【0217】

上記の予測操作のおかげで、材料（サンプル）を消費することなく、混合結果生成物の正確なプロファイルを迅速に取得（少なくとも推定）することができる。

【0218】

しかしながら、サンプルは時間の経過とともに（実際にいくつかの生成物を生成するため、または時間の経過とともに劣化するため）消滅する可能性がある一方、新たなサンプルは新たなドナーから採取される可能性がある。このことから、標的混合結果生成物を生成するために混合規定が決定された後、採取物１０は経時的に進化する（したがって、Ａは進化する）可能性があることがわかる。本発明の実施により、プール予測器１３は進化した採取物で新たに構成され（Ａは再定義され、Ｗは学習される）、進化した採取物に対応する別の混合物定義も（本発明の予測を使用して）決定され、同様の混合結果生成物を生成することができる。

【0219】

上記のステップ２００～２３５のシーケンスにより、条件を満たすリスト１４０における最初の混合物が選択される。

【0220】

変形例において、「最良」の混合、即ちサンプルのセットを見つけるために、ステップ２２０において条件をチェックする前に、リスト１４０において定義された全ての混合物について、予測混合プロファイルがプール予測器１３によって推定され得る。

【0221】

この手法は、図３に示されているように、標的混合プロファイルから混合規定｛ｐ_ｘ（ｋ）｝_ｋ（即ち、採取物１０のサンプルのセット）を見つけようとするものである。このような標的混合規定（即ち、サンプルの標的セット）の決定は、今説明したように、生産工程で行われることがある。実際、テストおよび決定モジュール１４によって、標的混合プロファイルの標的混合規定｛ｐ_ｘ（ｋ）｝_ｋが得られたら、それを使用して、上述したように、混合結果生成物１９を実際に生成するプロセスを制御することができ、決定モジュール１４は、信号Ｓ１、および任意選択で信号Ｓ２を、生産プロセスにおける制御モジュール１５および１６に送信するか、または実施すべき操作をオペレータに通知することができる。

【0222】

図３は、フローチャートを用いて、標的混合プロファイルが与えられた場合に、そのような混合結果生成物１９を生成する一般的なステップを示している。これらのステップはプラットフォーム１によって実行される。

【0223】

ステップ３００において、所望の混合結果生成物に対応する標的混合プロファイル｛ｒ’_ｘ（ｊ）｝_ｊがファイル１４１に設定される。

【0224】

標的混合プロファイルは、プロファイリング特徴について明確に規定された値を持つプロファイルであってもよいが、例えば、１つまたは複数のプロファイリング特徴の最小相対存在量、１つまたは複数のプロファイリング特徴の最大相対存在量、１つまたは複数のプロファイリング特徴の相対存在量の範囲、プロファイルまたはプロファイリング特徴の予め規定されたサブセットにおける非ゼロ相対存在量の最小数、相対存在量がゼロでない、予め規定されたプロファイリング特徴、２つ以上のプロファイリング特徴の相対存在量間の規定された比率などのような、より緩やかな値を定義するプロファイルであってもよい。

【0225】

標的混合プロファイルは、テストおよび決定モジュール１４が、｛ｒ´（ｊ）｝_ｊ（モデルの出力）としてこの標的混合プロファイルをプール予測器１３に供給することができるように、ファイル１４１において規定することができる。

【0226】

ステップ３０５において、採取物１０からサンプルの候補セットのグループが得られる。これらは予め規定されていてもよい。

【0227】

それぞれの混合比率ｐ_ｘ（ｋ）をランダムに選択するのと同様に、採取物からサンプルのランダムな選択を実行することができる。

【0228】

混合するサンプルの数は、許容される数の範囲内で選択することができ、例えば、２個から１０００個のサンプル、好ましくは、３個から１００個のサンプルである。実際には、３個から１０個が容易に扱うことができる。もちろん、本発明によるコンピュータ実装方法によって、より多くのサンプルを混合した場合の予測を低コストで実行することが可能になる。

【0229】

混合比率は、予め規定された比率のグループから選択することができる（比率の合計が１００％でなければならないため、混合されたサンプルの数が与えられる）。

【0230】

候補セットの初期グループは、ランダムに形成されてもよく、通常、非常に分散したサンプルセットとなる。候補セットの他のグループは、１つまたは複数の既知のセット（例えば、図３のプロセスの以前の反復で「最良」セットとして決定されたセット）が与えられて形成される場合がある。候補セットの他のグループは、例えば、異なる混合比率ｐ_ｘ（ｋ）のみによって、および／または限定された数の異なるサンプル（例えば、１つまたは２つの異なるサンプルのみ）によって、既知のセットまたはセットから異なる他の候補セットを含むことができる。

【0231】

候補セットは、テストおよび決定モジュール１４がプール予測器１３にこれらの候補混合物（｛ｐ_ｘ（ｋ）｝_ｋのリスト）を供給できるように、ファイル１４０において規定される。

【0232】

次に、候補セット／混合物について１つまたは複数の混合プロファイル｛ｒ_ｘ（ｊ）｝_ｊを予測するために、上述のステップ２０５、２１０、２１５が実行される。行列ベースの手法により、複数の候補セット（おそらく、全て）の混合プロファイルを同時に予測することができ、ここでＰは、リスト１４０からの複数または全ての｛ｐ_ｘ（ｋ）｝_ｋを含む。

【0233】

ステップ３１０は、全ての候補セット／混合物が処理されたか否かをチェックする（テスト２１６）。否定された場合、ステップ２２５を通じて次の混合規定が検討される。

【0234】

次に、ステップ３１５において、予測混合プロファイルは、１つの候補セットを標的セットとして選択する観点から、標的混合プロファイル（選択基準）と比較される。

【0235】

例えば、距離、例えばブレイ・カーティス距離、ジャカード距離、ユニフラック距離、またはそれらの組み合わせが、各予測混合プロファイルについて（したがって各候補セットについて）計算される。

【0236】

ステップ３２０は、考慮された距離において、標的混合プロファイルに最も近い予測混合プロファイルまたは複数のプロファイルを決定する。好ましくは、最も近いものが決定される。

【0237】

最も近い予測混合プロファイルが標的混合プロファイルに十分に近いことを保証するために、距離のマージンが適用されてもよい。この場合、最も近い予測混合プロファイルはマージンを満たさなければならず、これは計算された距離がこのマージンより小さくなければならないことを意味する。予測混合プロファイルがテストを満足しない場合、プロセスは終了し、オペレータに警告メッセージが発せられてもよい。

【0238】

そうでなければ、上述のステップ２３０に移行する際に、標的セット／混合組成物「選択」に対応する予測混合プロファイル｛ｒ’_{ｓｅｌｅｃｔ}（ｊ）｝_ｊ３２５が決定されている。

【0239】

いくつかの実施形態（図示せず）において、この標的セット／混合組成は、上記で説明したように、別の（さらに多くの）ラウンドのプロセスを実行し、ステップ２３０において使用される標的セット／混合組成を改良するために、新たな候補セットのグループを規定するために使用することができる。

【0240】

ステップ２３０において、混合規定「選択」は、セレクタおよびミキサ１５またはオペレータに送られる（信号Ｓ１）。

【0241】

任意選択的に、仮想サンプル「ｋ」が対応する非ゼロの割合ｐ_{ｓｅｌｅｃｔ}（ｋ）を有する場合、決定モジュール１４は、信号Ｓ２の送信を通して、サンプルジェネレータ１６に信号を送るか、またはオペレータに通知することによって、その実際の生産をトリガーする。

【0242】

ステップ２３５において、対応するｐ_{ｓｅｌｅｃｔ}（ｋ）がゼロでないサンプルが、例えばセレクタおよびミキサ１５によってバンク１０から取り出され、あるいは選び出され、バイオリアクタ内で混合される。

【0243】

その結果、所望の混合結果生成物１９が得られる。

【0244】

糞便微生物叢移植（ＦＭＴ）製品、より一般的にはマイクロバイオーム生態系療法製品は、複数のサンプルから構築することができる。本発明が定義する混合方法により、最終的なＦＭＴ製品の多様性を、モノサンプル法と比較して効率的に、さらに材料を無駄にすることなく改善することができる。

【0245】

図１を参照して上述したプラットフォーム１は、中央コンピュータの制御下にあるいくつかのモジュールを含む。例えば、プール予測器１３、ならびに、テストおよび決定モジュール１４は中央コンピュータに実装され、シーケンサ１２、セレクタおよびミキサ１５、サンプルジェネレータ１６、バンク１０は中央コンピュータに接続された別個のマシンである。

【0246】

上記の説明では、主に、行列ベースの予測モデル、特に、正方相互作用行列を使用している。後者に代わるものとして、バックプロパゲーションによって訓練または学習される、パラメータ化された微分可能な非線形モジュールの多層からなるニューラルネットワークなどの深層学習モデルがある。

【0247】

図４は、生産プラットフォーム１を管理するコンピュータ装置４００を概略的に示している。コンピュータ装置４００は、例えば、プール予測器１３、ならびに、テストおよび決定モジュール１４を実装することができ、適合されたシグナリング（Ｓ１およびＳ２）を介して、シーケンサ１２、セレクタおよびミキサ１５、ならびに、サンプルジェネレータ１６を制御することができる。

【0248】

コンピュータ装置４００は、本発明の少なくとも一実施形態を実施するように構成されている。コンピュータ装置４００は、好ましくは、マイクロコンピュータ、ワークステーション、または軽量の携帯機器などの装置とすることができる。コンピュータ装置４００は、通信バス４０１を備えており、この通信バス４０１には、好ましくは、
－ＣＰＵと表記されるマイクロプロセッサなどの中央処理装置４０２と、
－本発明を実施するためのコンピュータプログラムを記憶するためのＲＯＭと表記される読み出し専用メモリ４０３と、
－本発明の実施形態による方法の実行可能コード、および本発明の実施形態による方法を実施するために必要な変数およびパラメータを記録するように適合されたレジスタを記憶するための、ＲＡＭと表記されるランダムアクセスメモリ４０４と、
－ユーザーまたはオペレータ装置と、および／またはプラットフォーム１の他の装置、例えばシーケンサ１２、セレクタおよびミキサ１５、サンプルジェネレータ１６と通信するために、ネットワーク４９９に接続された通信インターフェース４０５と、
－ハードディスクまたはフラッシュメモリのようなデータ記憶手段４０６であって、本発明の１つまたは複数の実施形態による方法を実施するためのコンピュータプログラム、ならびに特に個々のサンプルプロファイル（即ち、コレクション１１）、リスト１４０および１４１を含む本発明の実施形態に必要なデータを記憶するためのデータ記憶手段４０６と、
が接続されている。

【0249】

任意選択的に、コンピュータ装置４００は、例えば、キーボード４０８または任意の他のポインティング手段（例えば、リスト１４０、１４１ならびにコレクション１１および仮想サンプル１１０ｙ～ｚを定義する）によってプラットフォームを構成するため、および／または予測プロセスの結果または逆操作の結果を表示するため、例えば、標的混合規定｛ｐ_{ｓｅｌｅｃｔ}（ｊ）｝_ｊを表示するため、オペレータとのグラフィカルインターフェースとして機能するスクリーン４０７を含むこともできる。

【0250】

コンピュータ装置４００は、本発明であるシーケンサ１２に無用な様々な周辺機器に任意に接続することができ、それぞれ入出力カード（図示せず）に接続される。

【0251】

好ましくは、通信バスは、コンピュータ装置４００に含まれる、またはコンピュータ装置４００に接続される様々な要素間の通信および相互操作を提供する。バスの表現は限定的なものではなく、特に中央処理装置は、コンピュータ装置４００の任意の要素に直接またはコンピュータ装置４００の別の要素によって命令を伝達するように動作可能である。

【0252】

実行可能コードは、任意選択的に、読み取り専用メモリ４０３、ハードディスク４０６、または取り外し可能なデジタル媒体（図示せず）のいずれかに格納することができる。任意選択的な変形例によれば、プログラムの実行可能コードは、実行される前にハードディスク４０６などのコンピュータ装置４００の記憶手段の１つに記憶されるように、インターフェース４０５を介して通信ネットワーク４９９によって受信することができる。

【0253】

中央処理ユニット４０２は、好ましくは、本発明によるプログラムまたは複数のプログラムの命令またはソフトウェアコードの部分の実行を制御および指示するように適合され、これらの命令は、上述の記憶手段の１つに記憶される。電源投入時、不揮発性メモリ、例えばハードディスク４０６または読み出し専用メモリ４０３に格納されているプログラムまたは複数のプログラムは、ランダムアクセスメモリ４０４に転送され、このランダムアクセスメモリ４０４には、プログラムまたは複数のプログラムの実行可能コードと、本発明を実施するために必要な変数およびパラメータを格納するためのレジスタとが含まれる。

【0254】

実験結果
実験の範囲
実験の目的は、提案された機械学習手順を含む相互作用行列Ｗの効率性を調査することであり、微生物叢サンプルの混合プロファイルを予測し（実験１）、標的混合プロファイルが与えられた混合組成を決定する（実験２）ことである。

【0255】

実験１－プロトコル
初期サンプル採取物１０について検討した。１６Ｓベースの微生物群集分類プロファイリングを用いて、各微生物群集サンプルのシーケンスを行い、対応する初期プロファイルコレクション１１を得た。その結果、１３１の分類群（属レベル）がプロファイリング特徴として評価された。

【0256】

次に、サンプルの混合が行われた。各混合生成物は、３から６個のサンプルをそれぞれの比率で組み合わせたものである。混合は４℃で行い、混合後３０分から１時間３０分の間に均質化した。混合生成物は、安定した状態（即ち、均質化後数時間、混合から１６時間以内）の期間で、同じ１６Ｓベースの微生物群集分類プロファイリングを用いてシーケンスされた。

【0257】

ｋ＝５でｋフォールド交差検証法を採用し、プール予測器１３を構成した。即ち、λおよび相互作用行列Ｗを学習した。ｋフォールド法は、どの観測も同じ評価期間において、訓練データとしてもテストセットとしても使用されないことを保証した。

【0258】

材料および方法の章で説明したモデル化手法は、３つの異なる分類学的ランク（種、属、科、目）でテストされ、適用された。しかしながら、種レベルのデータセットは非常に密度が低いため、テスト手順から除外した。属レベルから開始すると、分類表は分析を可能にするのに十分豊富であったため、より精度の低いレベル（科、目）は属の表から推論され、必要な場合にのみ可視化の目的で使用されたが、モデル化手順ではそのまま使用されなかった。その主な理由は、学習で使用した分類群レベルから、より高い精度のレベルの構成を推測することは不可能であり、属の情報を持つことが、我々のアプリケーションの観点から重要であるためである。

【0259】

天然サンプルのみ（図５）、発酵サンプルのみ（図６）について別々に、また両方を合わせた（図７）モデルをトレーニングした。ＭＳＥは、データに適用した際のモデル化の質を定量化するために使用した。ＭＳＥは、機械学習モデルと線形モデル（ナイーブ予測を提供するもの）の間で系統的に比較された。

【0260】

実験１－結果
図５ａは、天然の糞便微生物叢サンプルのみを含む初期サンプル採取物１０に対応する初期プロファイルコレクション１１を示す。２７個の微生物叢サンプルが検討された。それらの個々のプロファイルが図示されている。

【0261】

図５ｂは、図５ａの２７個の微生物サンプルの中から、３から６個の微生物サンプルを混合した２４個の混合生成物の混合プロファイルを、それぞれの比率または割合で示したものである。混合規定｛ｐ_ｘ（ｋ）｝_ｋが保存されている。

【0262】

図５ｃは、左側に、混合規定｛ｐ_ｘ（ｋ）｝_ｋおよび個別のサンプルプロファイル｛ａ_ｘ（ｊ）｝_ｊが与えられた混合プロファイルの線形予測から生じる誤差を示す。線形予測は、唯一のステップ２０５に対応し、Ｉ＝Ａ＊Ｐである。

【0263】

図には、右側に、本発明による予測（ステップ２０５および２１０）から生じる誤差、即ち相互作用行列Ｗを含む誤差も示されている。Ｗは、図５ａおよび図５ｂのサンプルおよび混合プロファイル（天然サンプル）のみを用いて、ｋフォールド交差検証法を用いて機械学習された。

【0264】

本発明のモデルに基づく方法は、天然データセットに対して線形法よりも優れた性能をもたらす。

【0265】

図６ａは、発酵糞便微生物叢サンプルのみを含む初期サンプル採取物１０に対応する初期プロファイルコレクション１１を示す。３６個の微生物叢サンプルが検討された。それらの個々のプロファイルが図示されている。

【0266】

図６ｂは、図６ａの３６個の微生物サンプルの中から、３から６個の微生物サンプルを混合した４８個の混合生成物の混合プロファイルを、それぞれの比率または割合で示したものである。混合規定｛ｐ_ｘ（ｋ）｝_ｋが保存されている。

【0267】

図６ｃは、左側に、混合規定｛ｐ_ｘ（ｋ）｝_ｋおよび個別のサンプルプロファイル｛ａ_ｘ（ｊ）｝_ｊが与えられた混合プロファイルの線形予測から生じる誤差を示す。線形予測は、唯一のステップ２０５に対応し、Ｉ＝Ａ＊Ｐである。

【0268】

図には、右側に、本発明による予測（ステップ２０５および２１０）から生じる誤差、即ち相互作用行列Ｗを含む誤差も示されている。Ｗは、図６ａおよび６ｂ（発酵サンプル）のサンプルおよび混合プロファイルのみを用いて、ｋフォールド交差検証法により機械学習された。

【0269】

本発明のモデルベースの方法は、発酵データセットの線形方法よりも格段に優れたパフォーマンスをもたらす（ＭＳＥの中央値はＭＬモデルの予測値の方が５倍低い）。

【0270】

図７ａおよび７ｂについては、図５ａ、５ｂ、６ａおよび６ｂ（即ち、天然および発酵サンプル）のサンプルおよび混合プロファイルの両方を訓練データとして用いて、相互作用行列Ｗを機械学習した。ここでもｋフォールド交差検証法を用いた。

【0271】

図７ａは、図５ａ、５ｂのデータセット（即ち、天然サンプルおよびその混合物）が、このように構成されたプール予測器１３に適用された場合の結果を示す。

【0272】

図の左側は、混合規定｛ｐ_ｘ（ｋ）｝_ｋと個別のサンプルプロファイル｛ａ_ｘ（ｊ）｝_ｊが与えられた場合に、混合プロファイルの線形予測から生じる誤差を示している。

【0273】

右側は、本発明による予測（ステップ２０５および２１０）から生じる誤差、即ち、学習が行われた相互作用行列Ｗを含む誤差を示している。

【0274】

単一データセットモデルと同様に、結合データセットモデルを天然データセットに適用すると、推定値がわずかに改善される。

【0275】

図７ｂは、図６ａ、６ｂのデータセット（即ち、発酵槽サンプルとその混合物）が、このように構成されたプール予測器１３に適用された場合の結果を示す。

【0276】

図の左側は、混合規定｛ｐ_ｘ（ｋ）｝_ｋおよび個別のサンプルプロファイル｛ａ_ｘ（ｊ）｝_ｊを与えて混合プロファイルを線形予測した結果の誤差を示している。

【0277】

右側は、本発明による予測（ステップ２０５および２１０）から生じる誤差、即ち、学習が行われた相互作用行列Ｗを含む誤差を示す。

【0278】

単一データセットモデルと同様、発酵データセットに適用した場合、結合データセットモデルは推定を大幅に改善した（ＭＳＥの中央値はＭＬモデルの予測値の４倍低い）。

【0279】

実験１－考察および結論
全てのケースにおいて、モデルベースの予測はナイーブ（線形）手法の推定を改善した。これは特に発酵データセットにおいて重要であり、特にいくつかの分類グループではナイーブ法がうまく機能しない。モデルベースの修正法はより効率的であったが、これはおそらく改善の余地があったからであろう。モデルを訓練するためにより多くのデータを追加すれば、全体的なパフォーマンスとロバスト性が向上すると考えられる。本発明の一部でもある学習方法は、このようなモデルの改良を可能にする。

【0280】

実験２－プロトコル
この実験では、天然サンプルと発酵サンプルを用いて学習した相互作用行列Ｗ（即ち、図７ａおよび７ｂのＷ）を使用する。

【0281】

この実験では、サンプルの別のコレクションが検討された。これは２３個のサンプルで構成されている。プロファイリング特徴として１３１分類群（属レベル）が考慮された１６Ｓベースの微生物群集分類プロファイリングを用いて、２３個の微生物群集サンプルのそれぞれについて同じシーケンシングを行い、対応するプロファイルのコレクションを得た。図８はプロファイルのコレクション（クラスレベル）を示している。

【0282】

プール予測器１３を使用して、異なる入力微生物サンプル（２３個のうち２個から４個のサンプルを混合）を用いて、異なる混合条件で１６０個の混合物を生成した。予測は４ラウンド（ｅｘｐ＿１からｅｘｐ＿４）行われ、その中で８つの異なるサンプルセット（ｃｈｕｎｋ＿１からｃｈｕｎｋ＿８）が５つの異なる比率セット（Ｍｉｘ１からＭｉｘ５）で検討された。

【0283】

生成された各予測混合プロファイルは、トリプレット（ｉ，ｊ，ｋ）（ｉ＝１，…，４（ｅｘｐ）、ｊ＝１，…，８（ｃｈｕｎｋ）、ｋ＝１，…，５（Ｍｉｘ））によって特定され、対応する名称「ｅｘｐ＿ｉ－ｃｈｕｎｋ＿ｊ－Ｍｉｘｋ」を有する。

【0284】

比率（％）の異なるセットは、以下のように（混合物のサンプル数に応じて）予め規定されていた。

【表1】

【表2】

【表3】

【0285】

サンプルの異なる候補セットは以下のように規定された。

【表4】

【0286】

本実験では、混合物「ｅｘｐ＿１－ｃｈｕｎｋ＿７－Ｍｉｘ５」、即ちサンプル－８を３３％、サンプル－１３を３３％、サンプル－１５を３４％混合した混合物を標的混合物とみなした。その予測混合プロファイルを標的混合プロファイルとして使用した。

【0287】

全ての提案された混合物「ｅｘｐ＿ｉ－ｃｈｕｎｋ＿ｊ－Ｍｉｘｋ」と標的混合物「ｅｘｐ＿１－ｃｈｕｎｋ＿７－Ｍｉｘ５」との間の類似性を、属レベルでブレイ・カーティス指数を用いて評価した（図９）。

【0288】

ブレイ・カーティス指数は、混合物の少なくとも２個のサンプルが同じドナーに由来する場合、強制的に０にされる。これは、同じサンプルを有する混合物の同定を避けるためである。

【0289】

混合物「ｅｘｐ＿１－ｃｈｕｎｋ＿７－Ｍｉｘ５」と、両方の測定基準で最も類似した混合物を実際に混合し、得られた生成物を、門と科レベルでの組成を比較するために、同じシーケンス技術を用いてシーケンスを行った。

【0290】

実験２－結果
以下の表５は、予測混合プロファイルから計算された、ブレイ・カーティス類似度（属の存在量に基づく）の最も高い１５個を示す。ブレイ・カーティス類似度は、１－ブレイ・カーティス非類似度に等しい。

【表5】

【0291】

図９ａは、ｅｘｐ＿１－ｃｈｕｎｋ＿７－Ｍｉｘ５と、最も近い混合物であるｅｘｐ＿４－ｃｈｕｎｋ＿４－Ｍｉｘ４（サンプル－１の２０％、サンプル－１０の３０％、サンプル－１４の２０％、サンプル－１９の３０％）を含むサンプルの真のプロファイルと、それらの真の混合プロファイルを、門レベルで示している。

【0292】

図９ｂは、同じ比較を科のレベルで示したものである。

【0293】

初期のサンプルはｅｘｐ＿１－ｃｈｕｎｋ＿７－Ｍｉｘ５とｅｘｐ＿４－ｃｈｕｎｋ＿４－Ｍｉｘ４で非常に異なるプロファイルを有するが、最終生成物は門レベルでも科レベルでも非常に類似した混合プロファイルを有する。

【0294】

表６および図１０は、ｅｘｐ＿１－ｃｈｕｎｋ＿７－Ｍｉｘ５と、最も近い混合物であるｅｘｐ＿４－ｃｈｕｎｋ＿４－Ｍｉｘ４との比較のブレイ・カーティス類似度（属レベルで）の結果と、それらの真の混合プロファイルを示している。

【表6】

【0295】

２つの混合物の初期サンプルは非常に異なるプロファイルを有するが、ブレイ・カーティス距離指標によれば、最終生成物は属レベルで非常に類似した混合プロファイルを有する。表６および図１０は、実際の混合物とその予測との間の類似度のギャップを示している。しかしながら、これは実際の混合物間の類似度に実質的な影響を与えるものではなく、その類似度は許容可能なレベルに留まっている。

【0296】

実験２－考察および結論
実験２は、予測ツールを反復的に使用することで、標的サンプルに非常に近い混合物（属レベルでのブレイ・カーティス類似度が０．８６以上）を予測し、試験管内実験段階に対応するサンプルと混合比率を選択できることを示している。

【0297】

また、予測レシピに従って生成された２つの混合物は、実際には非常に近いものであることも示している（属レベルでのブレイ・カーティス類似度は、０．７５以上）。これは、予測ツールの性能と、実際に使用する場合の適用性を示している。

【0298】

実験３－プロトコル
この実験では、ＮＧＳショットガンシーケンスを用いてサンプル１００のプロファイリングを行った。ドナーまたは個々の発酵槽からの７６個のプールと６９個のサンプルについてメタゲノムシーケンスデータが得られた。

【0299】

ＮＧＳショットガンプロファイリング特徴の数が多いため（１６Ｓシーケンスと比較して、特に属レベルではなく種レベルで見た場合、あるいは特定の機能で見た場合）、各サンプルプロファイルの次元をｋ個のＰＣに削減するためにＰＣＡが使用された。

【0300】

図１１は、天然サンプル（天然、接種材料、混合物）、発酵サンプル（発酵、接種材料、混合物）のＮＧＳショットガンシーケンスから得られた属相対存在量に基づくＰＣＡを示している。発酵サンプルは、天然サンプルと同様にクラスター化する傾向がある。

【0301】

このＰＣＡベースの方法は図１２にまとめられており、（実験１および２のように）「分類群×分類群」の相互作用行列Ｗを学習する代わりに、実験３では「上位ｋ個の主成分×分類群」の相互作用行列Ｗを学習していることがわかる。

【0302】

この相互作用行列Ｗを学習する方法論は、実験１および２の１６Ｓ解析と同じである。

【0303】

実験３－結果

【表7】

【0304】

相互作用行列ＷはＭＳＥを用いて学習された。また、予測混合結果（Ｗを使用）と真の混合結果との比較は、ＭＳＥまたはブレイ・カーティス距離に基づいて行われた。

【0305】

両モデリング手法（ＰＣＡあり／なし）は、属レベルおよび種レベルでの分類学的プロファイル予測（ＭＳＥまたはＢＣ測定基準による）を改善する。本発明による修正（行列Ｗに基づく）は、発酵サンプルからの混合物の予測において、天然サンプルと比較してより大きな影響を与える。

【0306】

ＰＣＡを用いたプロファイリング特徴の削減は、発酵サンプルからの予測精度を著しく向上させるが、天然サンプルからの予測についてはわずかに向上させるようである。

【0307】

以上、本発明を特定の実施形態を参照して説明したが、本発明は特定の実施形態に限定されるものではなく、本発明の範囲内にある変更は当業者には明らかであろう。

【0308】

上述の例示的な実施形態を参照すれば、多くのさらなる修正および変形が当業者に示唆されるであろうが、これらの実施形態は例示としてのみ与えられており、本発明の範囲を限定することを意図しておらず、その範囲は添付の特許請求の範囲によってのみ決定される。特に、異なる実施形態からの異なる特徴は、適切な場合、入れ替えることができる。

【0309】

特許請求の範囲において、「ｃｏｍｐｒｉｓｉｎｇ」という語は他の要素やステップを排除するものではなく、「ａ」または「ａｎ」という不定冠詞は複数を排除するものではない。異なる特徴が相互に異なる従属請求項に記載されているという単なる事実は、これらの特徴の組み合わせが有利に使用できないことを示すものではない。

【図1】