IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 南京大学の特許一覧 ▶ 南京大学宜興環保研究院の特許一覧

特許7710648機械学習に基づくマイクロハビタット同定方法
<>
  • 特許-機械学習に基づくマイクロハビタット同定方法 図1
  • 特許-機械学習に基づくマイクロハビタット同定方法 図2
  • 特許-機械学習に基づくマイクロハビタット同定方法 図3
  • 特許-機械学習に基づくマイクロハビタット同定方法 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2025-07-11
(45)【発行日】2025-07-22
(54)【発明の名称】機械学習に基づくマイクロハビタット同定方法
(51)【国際特許分類】
   G06N 20/00 20190101AFI20250714BHJP
   G16B 40/00 20190101ALI20250714BHJP
【FI】
G06N20/00
G16B40/00
【請求項の数】 6
(21)【出願番号】P 2025011038
(22)【出願日】2025-01-27
【審査請求日】2025-01-27
(31)【優先権主張番号】202411506823.1
(32)【優先日】2024-10-28
(33)【優先権主張国・地域又は機関】CN
【早期審査対象出願】
(73)【特許権者】
【識別番号】510115007
【氏名又は名称】南京大学
【氏名又は名称原語表記】NANJING UNIVERSITY
【住所又は居所原語表記】22 Hankou Road,Nanjing,jiangsu 210093 China
(73)【特許権者】
【識別番号】525033471
【氏名又は名称】南京大学宜興環保研究院
(74)【代理人】
【識別番号】100216471
【弁理士】
【氏名又は名称】瀬戸 麻希
(72)【発明者】
【氏名】王瑾豊
(72)【発明者】
【氏名】張書博
(72)【発明者】
【氏名】弓賽
(72)【発明者】
【氏名】許柯
(72)【発明者】
【氏名】任洪強
【審査官】北川 純次
(56)【参考文献】
【文献】特開2015-228817(JP,A)
【文献】特表2024-516025(JP,A)
【文献】特開2024-010374(JP,A)
【文献】特開2022-079646(JP,A)
【文献】特開2022-046265(JP,A)
【文献】米国特許出願公開第2003/0023416(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00 - 99/00
G16B 40/00
C12M 1/00
C12N 1/00
C12Q 1/00
(57)【特許請求の範囲】
【請求項1】
マイクロハビタットを同定する方法であって、以下のことを含み、
微生物群集評価モデルを訓練するための訓練サンプルセットを構築し、ここで、前記訓練
サンプルセットは、汚水処理プラントの複数の微生物群集のそれぞれのマイクロハビタッ
ト特徴の値と前記複数の微生物群集のそれぞれの相互関係評価指標を含み、前記相互関係
評価指標は、前記微生物群集中の微生物間の相互関係を評価するために使用され、前記マ
イクロハビタット特徴は、温度、pH、全窒素、アンモニア態窒素、全リン、全有機炭素
、溶存酸素、汚泥年齢および水理学的滞留時間を含み、
前記訓練サンプルセット中の各微生物群集のマイクロハビタット特徴の値を入力値とし、
前記各微生物群集の相互関係評価指標を出力値とし、機械学習アルゴリズムを用いて微生
物群集評価モデルを訓練し、前記微生物群集評価モデルは勾配ブースト回帰木GBRTで
あり、
前記微生物群集の目標マイクロハビタット特徴を決定し、前記目標マイクロハビタット特
徴の前記微生物群集の相互関係評価指標に対する影響度は、前記微生物群集の他のマイク
ロハビタット特徴の前記微生物群集の相互関係評価指標に対する影響度よりも高く、
前記微生物群集評価モデルに基づいて、前記目標マイクロハビタット特徴に対する個別の
条件付き期待ICEアルゴリズムを実行し、前記微生物群集の相互関係評価指標の値を最
大にするときに対応する目標マイクロハビタット特徴の値を決定する、
ことを特徴とする機械学習に基づくマイクロハビタットを同定する方法。
【請求項2】
前記微生物群集評価モデルに基づいて、前記目標マイクロハビタット特徴に対する個別の
条件付き期待ICEアルゴリズムを実行し、前記微生物群集の相互関係評価指標の値を最
大にするときに対応する目標マイクロハビタット特徴の値を決定することは、
ステップ1、前記微生物群集の目標マイクロハビタット特徴の値の分布状況に基づいて、
目標マイクロハビタット特徴の複数の値を生成するステップと、
ステップ2、前記目標マイクロハビタット特徴の複数の値をそれぞれ前記微生物群集評価
モデルに入力し、複数の評価指標を得、前記目標マイクロハビタット特徴のICEグラフ
を生成し、前記ICEグラフはマイクロハビタット特徴の値と微生物群集の相互関係評価
指標間の関係を記述するために使用されるステップと、
ステップ3、ステップ1とステップ2を繰り返して実行し、前記目標マイクロハビタット
特徴の複数のICEグラフを得、前記複数のICEグラフの平均値を算出し、平均ICE
グラフを得、前記平均ICEグラフにおいて、前記微生物群集の相互関係評価指標を最大
にするときに対応する目標マイクロハビタット特徴の値を決定するステップと、
を含むことを特徴とする請求項1に記載の方法。
【請求項3】
前記相互関係は正の相関関係と負の相関関係を含む、ことを特徴とする請求項1または2
に記載の方法。
【請求項4】
前記訓練サンプルセット中の各微生物群集の相互関係評価指標の算出過程は以下を含み、
前記各微生物群集について、前記各微生物群集の群集情報を取得し、前記群集情報は前記
各微生物群集に含まれる種類および前記種類の存在量を含み、
前記各微生物群集に含まれる種類および前記種類の存在量に基づいて、Spiec-Ea
siを用いて前記各微生物群集の相互作用ネットワークを構築し、前記相互作用ネットワ
ークは、微生物群集中の微生物間の相互関係を反映し、前記相互作用ネットワーク中の正
の相関エッジの数とエッジの総数の比を前記各微生物群集の相互関係評価指標とするため
に使用される、ことを特徴とする請求項3に記載の方法。
【請求項5】
前記の前記微生物群集の目標マイクロハビタット特徴を決定することは、以下を含み、
前記微生物群集の各マイクロハビタット特徴について、前記マイクロハビタット特徴の重
要性指標を決定し、前記微生物群集の複数のマイクロハビタット特徴の重要性指標を得、
前記重要性指標は第1微生物群集評価モデルの性能指標と第2微生物群集評価モデルの性
能指標の差の絶対値であり、ここで、前記第1微生物群集評価モデルは、前記微生物群集
のすべてのマイクロハビタット特徴に基づいて訓練されて得るものであり、前記第2微生
物群集評価モデルは、前記マイクロハビタット特徴を除去した後のマイクロハビタット特
徴に基づいて訓練されて得るものであり、前記第1微生物群集評価モデルと前記第2微生
物群集評価モデルの性能指標は、真の値と予測値の二乗平均平方根誤差RMSE、または
、真の値と予測値の平均絶対誤差MAEであり、
前記複数のマイクロハビタット特徴の重要性指標中の値の大きい最初のn個の重要性指標
に対応するマイクロハビタット特徴を前記目標マイクロハビタット特徴とし、ここで、n
は1以上であり、nはNよりも小さい整数であり、Nは前記微生物群集のマイクロハビタ
ット特徴の総数である、ことを特徴とする請求項1に記載の方法。
【請求項6】
前記の前記各微生物群集の群集情報を取得することは以下を含み、
前記各微生物群集の配列データと16S rRNAデータベースを比較し、前記微生物群
集に含まれる微生物の種類を決定し、前記種類の存在量を算出し、前記種類の存在量は前
記種類の出現回数をすべての種類の出現回数で除した値であり、前記微生物群集の配列デ
ータは16S rRNAアンプリコンシーケンスを用いて前記各微生物群集の塩基配列を
決定することにより得られた配列データである、ことを特徴とする請求項4に記載の方法
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、生物情報学および生物技術の分野に属し、特に機械学習に基づくマイクロハビ
タット同定方法に関する。
【背景技術】
【0002】
微生物群集は、様々な微生物から構成される複雑な生態系であり、物質循環やエネルギー
の流れなどのプロセスにおいて重要な役割を果たし、持続可能な農業、生態系の修復、人
間の健康などの分野において重要な役割を果たしている。マイクロハビタットとは、微生
物が生息する特定の環境を指し、マイクロハビタットに影響を与える要因には、物理的、
化学的、生物学的、プロセスパラメーターが含まれる。これらの要因は、微生物群集の多
様性や群集構造に影響を与えるだけでなく、微生物群集の生態学的機能や適応能力をも決
定する。したがって、微生物群集に適したマイクロハビタット条件を作り出すことは、微
生物群集を安定させ、あるいは調整するために重要である。
微生物群集のマイクロハビタットを同定するプロセスはマイクロハビタット同定と呼ばれ
、通常、統計的相関分析を用いてマイクロハビタットと微生物群集の関係を定量化し、こ
れに基づいてマイクロハビタットを同定し、例えば、統計的相関分析は主成分分析(PC
A)、冗長性分析(RDA)、正準相関分析(CCA)、非計量的多次元尺度構成分析(
NMDS)および相関分析などがある。しかし、これらの統計的相関分析の手法には、マ
イクロハビタットと微生物群集の相関関係を明らかにすることができるだけで、両者の複
雑な関係を明らかにすることができない、また、実際には微生物群集とマイクロハビタッ
トの間には複雑な非線形関係が存在するにもかかわらず、線形関係を分析しているという
欠点がある。
このような現状から、微生物群集とマイクロハビタットの複雑な非線形関係を分析し、微
生物群集に最適なマイクロハビタットを同定する手法が不足している。
【発明の概要】
【0003】
本発明は、機械学習に基づくマイクロハビタット同定方法を提供し、機械学習により微生
物群集とマイクロハビタット間の複雑な非線形関係を捕捉し、これに基づいて微生物群集
の相互関係評価指標を最適化するマイクロハビタット特徴の値を分析して同定し、マイク
ロハビタットの同定精度を向上させることができる。
上記目的を達成するために、本発明は以下の技術的解決策を採用し:
第1態様において、本発明は機械学習に基づくマイクロハビタット同定方法を提供し、微
生物群集評価モデルを訓練するための訓練サンプルセットを構築し、ここで、上記訓練サ
ンプルセットは、汚水処理プラントの複数の微生物群集のそれぞれのマイクロハビタット
特徴の値と上記複数の微生物群集のそれぞれの相互関係評価指標を含み、上記相互関係評
価指標は、上記微生物群集中の微生物間の相互関係を指示するために使用され、上記マイ
クロハビタット特徴は、温度、pH、全窒素、アンモニア態窒素、全リン、全有機炭素、
溶存酸素、汚泥年齢および水理学的滞留時間を含み、上記訓練サンプルセット中の各微生
物群集のマイクロハビタット特徴の値を入力値とし、上記各微生物群集の相互関係評価指
標を出力値とし、機械学習アルゴリズムを用いて微生物群集評価モデルを訓練し、上記微
生物群集評価モデルは勾配ブースト回帰木GBRTであり、さらに、微生物群集の目標マ
イクロハビタット特徴を決定し、上記目標マイクロハビタット特徴の上記微生物群集の相
互関係評価指標に対する影響度は、上記微生物群集の他のマイクロハビタット特徴の上記
微生物群集の相互関係評価指標に対する影響度よりも高く、微生物群集評価モデルに基づ
いて、上記目標マイクロハビタット特徴に対する個人の条件付き期待ICEアルゴリズム
を実行し、上記微生物群集の相互関係評価指標の値を最大にするときに対応する目標マイ
クロハビタット特徴の値を決定する。
可能な実施態様では、上記微生物群集評価モデルに基づいて、上記目標マイクロハビタッ
ト特徴に対する個人の条件付き期待ICEアルゴリズムを実行し、上記微生物群集の相互
関係評価指標の値を最大にするときに対応する目標マイクロハビタット特徴の値を決定す
ることは、以下のステップを含み、
ステップ1、上記微生物群集の目標マイクロハビタット特徴の値の分布状況に基づいて、
目標マイクロハビタット特徴の複数の値を生成し、
ステップ2、上記目標マイクロハビタット特徴の複数の値をそれぞれ上記微生物群集評価
モデルに入力し、複数の評価指標を得、上記目標マイクロハビタット特徴のICEグラフ
を生成し、上記ICEグラフはマイクロハビタット特徴の値と微生物群集の相互関係評価
指標間の関係を記述するために使用され、
ステップ3、ステップ1とステップ2を繰り返して実行し、上記目標マイクロハビタット
特徴の複数のICEグラフを得、上記複数のICEグラフの平均値を算出し、平均ICE
グラフを得、上記平均ICEグラフにおいて、上記微生物群集の相互関係評価指標を最大
にするときに対応する目標マイクロハビタット特徴の値を決定する。
可能な実施態様では、上記の相互関係は正の相関関係と負の相関関係を含む。
可能な実施態様では、上記訓練サンプルセット中の各微生物群集の相互関係評価指標の算
出過程は以下を含み、上記各微生物群集について、上記各微生物群集の群集情報を取得し
、上記群集情報は上記各微生物群集に含まれる種類および上記種類の存在量を含み、上記
各微生物群集に含まれる種類および上記種類の存在量に基づいて、Spiec-Easi
を用いて上記各微生物群集の相互作用ネットワークを構築し、上記相互作用ネットワーク
は、微生物群集中の微生物間の相互関係を反映し、上記相互作用ネットワーク中の正の相
関エッジの数とエッジの総数の比を上記各微生物群集の相互関係評価指標とするために使
用される。
可能な実施態様では、上記微生物群集の目標マイクロハビタット特徴を決定することは、
以下を含み、微生物群集の各マイクロハビタット特徴について、上記マイクロハビタット
特徴の重要性指標を決定し、上記微生物群集の複数のマイクロハビタット特徴の重要性指
標を得、上記重要性指標は第1微生物群集評価モデルの性能指標と第2微生物群集評価モ
デルの性能指標の差の絶対値であり、ここで、上記第1微生物群集評価モデルは、上記微
生物群集のすべてのマイクロハビタット特徴に基づいて訓練されて得るものであり、上記
第2微生物群集評価モデルは、上記マイクロハビタット特徴を除去した後のマイクロハビ
タット特徴に基づいて訓練されて得るものであり、上記第1微生物群集評価モデルと上記
第2微生物群集評価モデルの性能指標は、真の値と予測値の二乗平均平方根誤差RMSE
、または、真の値と予測値の平均絶対誤差MAEであり、上記複数のマイクロハビタット
特徴の重要性指標中の値の大きい最初のn個の重要性指標に対応するマイクロハビタット
特徴を上記目標マイクロハビタット特徴とし、ここで、nは1以上であり、nはNよりも
小さい整数であり、Nは上記微生物群集のマイクロハビタット特徴の総数である。
可能な実施態様では、上記各微生物群集の群集情報を取得することは以下を含み、各微生
物群集の配列データと16S rRNAデータベースを比較し、上記微生物群集に含まれ
る微生物の種類を決定し、上記種類の存在量を算出し、上記種類の存在量は上記種類の出
現回数をすべての種類の出現回数で除した値であり、上記微生物群集の配列データは16
S rRNAアンプリコンシーケンスを用いて上記各微生物群集の塩基配列を決定するこ
とにより得ら得れた配列データである。
本発明によって提供される機械学習に基づくマイクロハビタット同定方法は、微生物群集
評価モデルにより微生物群集のマイクロハビタット特徴と微生物群集の機能特性(相互関
係評価指標は微生物群集の機能特性を支持する)間の複雑な非線形関係を表現し、さらに
微生物群集評価モデルとICEアルゴリズムに基づいて微生物群集の機能性を良好にする
マイクロハビタット特徴の値(すなわち最良マイクロハビタット)を決定する。従来のマ
イクロハビタット同定方法と比較すると、本発明の実施例によって提供される解決策は、
マイクロハビタットと微生物群集の関係を明確し、マイクロハビタットの同定精度を向上
させることができる。
【図面の簡単な説明】
【0004】
図1】本発明の実施例によって提供される機械学習に基づくマイクロハビタット同定方法の概略図の1である。
図2】本発明の実施例によって提供される機械学習に基づくマイクロハビタット同定方法の概略図の2である。
図3】本発明の実施例によって提供される微生物群集のマイクロハビタット特徴の重要性指標の概略図である。
図4】本発明の実施例によって提供される微生物群集の目標マイクロハビタット特徴のICEグラフの概略図である。
【発明を実施するための形態】
【0005】
まず、本発明の実施例に関わるいくつかの技術的用語を解説して説明する。
1、マイクロハビタット
微生物群集中の微生物が生息する特定の環境を指し、異なる条件のマイクロハビタットは
微生物群集に対して異なる影響を与える。
2、マイクロハビタット特徴(またはマイクロハビタット情報とも呼ばれる)
マイクロハビタットに影響を与えるいくつかの要因を指し、マイクロハビタットに影響を
与える要因は、異なる特性によって分類することができ、物理的要因、化学的要因、生物
学的要因およびプロセスパラメータに分けることができる。例示的に、物理的要因は温度
(T)、湿度などを含み、化学的要因はpH値などを含み、生物学的要因は栄養物質の濃
度、例えば全窒素(略称:TN、単位:mg/L)、全リン(TP、mg/L)、全有機
炭素(TOC、mg/L)などを含み、プロセスパラメータは溶存酸素(DO、mg/L
)、汚泥年齢(SRT、h)および水理学的滞留時間(HRT、h)などを含む。
3、マイクロハビタット同定
本発明の実施例では、マイクロハビタット同定は具体的に、微生物群集のある性能を予設
条件(例えばある性能が最適)に達したときの各マイクロハビタット特徴の値または値範
囲を決定し、すなわち微生物群集の最適マイクロハビタットを決定することを指す。
例えば、ある汚染物を分解するための分解群集について、マイクロハビタット同定とは、
該汚染物の分解に重要な影響を与えるマイクロハビタット特徴の最適値範囲を決定するこ
とを指す。
背景技術に存在する問題を解決するために、本発明の実施例は機械学習に基づくマイクロ
ハビタット同定方法を提供し、機械学習方法を用いて微生物群集とマイクロハビタット間
の複雑な非線形関係を捕捉し、両者間の関係に基づいて微生物群集の評価指標を最適する
マイクロハビタット特徴の値を分析して同定し、マイクロハビタットの同定精度を向上さ
せることができる。
以下、添付図面を参照しながら本発明の実施例によって提供される技術的解決策を詳細に
説明する。
本発明の実施例によって提供される機械学習に基づくマイクロハビタット同定方法の主旨
は以下の通りであり:訓練サンプルセットに基づいて微生物群集評価モデルを訓練して得
、微生物群集評価モデルに基づいて微生物群集に重要な影響を与える目標マイクロハビタ
ット特徴の値を同定し、該目標マイクロハビタット特徴の値は微生物群集の評価指標?を
最適にすることができる。
本発明の実施例によって提供される方法は、処理機能を有する電子機器によって実行され
、例えば電子機器はコンピュータ、サーバなどであってもよい。図1に示すように、本発
明の実施例によって提供される機械学習に基づくマイクロハビタット同定方法は以下のス
テップを含み:
S100、微生物群集評価モデルを訓練するための訓練サンプルセットを構築する。
微生物群集評価モデルは、微生物群集のマイクロハビタット特徴と微生物群集の評価指標
間の関係を示す機械学習モデルである。
選択可能に、本発明の実施例では、微生物群集評価モデルは勾配ブースト回帰木(Gra
dient boosting regression tree、GBRT)であり、G
BRTは複数の決定木モデルを連続的に構築し、損失関数を徐々に最適化し、モデル全体
の予測精度を向上させることができる。
ここで、評価指標は、微生物群集のある特性を評価するために使用され、異なる評価指標
は異なる特性(例えば相互関係、多様性、差異など)を評価することができる。
本発明の実施例では、微生物群集の評価指標は、微生物群集中の微生物間の相互関係を評
価するための指標(例えばネットワークトポロジー係数または他の指標)であってもよく
、以下の実施例では微生物群集の相互関係評価指標と称する。
なお、実際ニーズに応じて、微生物群集の評価指標も多様であり、選択可能に、微生物群
集の評価指標は、微生物群集の種類多様性を評価するための指標(例えばα多様性)、ま
たは異なる微生物群集間の差異を評価するための指標(例えばβ多様性)などであっても
よいことを理解されたい。
なお、本発明の実施例では主に微生物群集の相互関係評価指標を例にして機械学習に基づ
くマイクロハビタット同定方法を説明し、該相互関係評価指標は微生物群集の相互作用ネ
ットワークに基づいて得られ、具体的に、以下の実施例では詳細に説明する。
上記実施例の説明によれば、微生物群集の相互関係評価指標は、微生物群集中の微生物間
の相互関係を指示するために使用され、微生物間の相互関係は正の相関関係と負の相関関
係を含む。
例えば、種類の存在量を例にすると、微生物Aと微生物Bの関係が正相関関係である場合
、微生物Aの存在量が大きいと、微生物Bの存在量も大きく、微生物Aと微生物Bの関係
が負相関関係である場合、微生物Aの存在量が大きいと、微生物Bの存在量が小さい。
本発明の実施例では、上記の訓練サンプルセットは汚水処理プラントから入手し、汚水処
理プラントから複数の微生物群集(例えば、合計1068個の水サンプルまたは汚泥サン
プル)を採取し、例えば、水サンプルおよび汚泥サンプルは全国の177個の汚水処理プ
ラントの各生化学槽から採取され、生化学槽は嫌気性槽、無酸素槽および好気性槽を含む

汚水処理プラントの微生物群集に影響を与えるマイクロハビタット特徴は、上記実施例で
挙げられた物理、化学、生物などの要因およびプロセス操作パラメータを含み、具体的に
、マイクロハビタット特徴は温度(略称:T、単位:℃)、pH、全窒素(TN、mg/
L)、アンモニア態窒素(NH +、mg/L)、全リン(TP、mg/L)、全有機炭
素(TOC、mg/L)、溶存酸素(DO、mg/L)、汚泥年齢(SRT、h)および
水理学的滞留時間(HRT、h)を含む。
上記微生物群集評価モデルを訓練するための訓練サンプルセットは、汚水処理プラントの
複数の微生物群集のそれぞれのマイクロハビタット特徴の値と複数の微生物群集のそれぞ
れの相互関係評価指標を含み、したがって、訓練サンプルセットの構築は以下を含み、微
生物群集のマイクロハビタット特徴の値および微生物群集の相互関係評価指標を取得する

一実施態様では、各マイクロハビタット特徴において、プロセスパラメータは汚水プラン
トのプロセスパラメータを参照してもよく、他のマイクロハビタット特徴の値は水と廃水
監視分析方法によって分析して得られてもよい。
一実施態様では、微生物群集の相互関係評価指標の算出過程はS101~S102を含む

S101、汚水処理プラントの複数の微生物群集中の各微生物群集について、各微生物群
集の群集情報を取得し、該群集情報は各微生物群集に含まれる種類および種類の存在量を
含み、ある種類の微生物の存在量は微生物群集中の該微生物の豊富程度を指示するために
使用される。
本発明の実施例では、各微生物群集の群集情報を取得する方法は以下を含み、16S r
RNAアンプリコンシーケンスを用いて各微生物群集の塩基配列を決定し、得られた各微
生物群集の配列データと16S rRNAデータベースを比較し、微生物群集に含まれる
微生物の種類を決定し、種類の存在量を算出し、該種類の存在量は該種類の出現回数をす
べての種類の出現回数で除した値である。
例えば、汚泥サンプルの16S rRNAアンプリコンシーケンスを行い、汚泥サンプル
中の細菌(すなわち微生物)の16S rRNAV3-V4領域をポリメラーゼ連鎖反応
(PCR)増幅し、汚泥サンプル中の細菌のV3-V4領域にあるDNA配列を取得し、
細菌16S rRNAのV3-V4領域は16S rRNA遺伝子中の2つの高度な可変
領域であり、さらにハイスループットシーケンス技術(例えばIllumina MiS
eqプラットフォーム)を用いて増幅されたDNA配列を二分割して配列決定し、汚泥サ
ンプル中の細菌の配列データを得る。
16S rRNAアンプリコンシーケンスに使用される16S rRNAプライマーは3
41Fと806Rを含む。
341F:CCTAYGGGRBGCASCAG、SEQ ID NO:1に示される。
806R:GGACTACNNGGGTATCTAAT、SEQ ID NO:2に示され
る。
さらに、各微生物群集の配列データと16S rRNAデータベースを比較する過程は以
下を含み、汚泥サンプル中の細菌の配列データをクラスタリング、類似の配列を分類単位
(OTU)としてグループ化し、次に配列データと既知の16S rRNAデータベース
を比較し、各OTUの分類情報を決定し、サンプル中の細菌の種類組成を把握することが
できる。
上記汚泥サンプル中の細菌の種類を決定した後、各菌の出現回数およびすべての細菌の出
現回数を統計し、ある種類について、該種類の出現回数とすべての種類の出現回数の比を
算出し、該種類の存在量を取得する。このようにして、微生物群集の群集情報を得る。
S102、各微生物群集に含まれる種類および種類の存在量に基づいて、Spiec-E
asiを用いて各微生物群集の相互作用ネットワークを構築し、相互作用ネットワーク中
の正の相関エッジの数とエッジの総数の比を各微生物群集の相互関係評価指標として使用
する。
相互作用ネットワークは微生物群集中の微生物間の相互関係を反映するために使用される

本発明の実施例では、上記S101により微生物群集に含まれる種類および種類の存在量
を取得した後、文献調査や統計分析などにより、微生物群集(該微生物群集はある処理タ
スク、例えば分解タスクを実現するために使用される)中の機能種類、構造種類および共
代謝種類を決定することができる。
ここで、機能種類は微生物群集において特定の重要な機能を果たす種類であり、例えば、
ある汚染物を分解することができる微生物は機能種類であり、機能種類の有無、および存
在量は生態系の機能に直接影響する。構造種類は微生物群集の組成構造を構築および安定
性を維持する役割を果たす微生物であり、例えば、微生物群集の基礎代謝を担う微生物は
構造種類である。共代謝種類は微生物群集において共代謝により目標汚染物を分解する種
類である。
例えば、微生物群集は、スルファメトキサゾール(SMX)の汚染物を分解する分解群集
である。SMXを分解できる微生物群集(SMX分解群集と略称)にはSMXを分解でき
る機能種類、基礎代謝を担う構造種類および共代謝によりSMXを分解する種類が含まれ
る。
一実施態様では、微生物群集中の機能種類、構造種類、共代謝種類および各種類の存在量
に基づいて、Spiec-Easi(Sparse InversE Covarianc
e estimation for Ecological Association an
d Statistical Inference、生態学的関連付けと統計的推測のため
のスパースInversE共分散推定)を用いて微生物群集の相互作用ネットワーク(微
生物生態ネットワークとも呼ばれる)を構築し、相互作用ネットワークに基づいて微生物
群集の相互関係評価指標を算出する。Spiec-Easiは、16S rRNAアンプ
リコンシーケンスデータセットから微生物生態ネットワークを推定するツールであり、S
piec-Easiを用いて相互作用ネットワークを構築するより多くの詳細は先行技術
を参照すればよく、ここでは詳細が省略される。
なお、上記相互作用ネットワークは複数のノードを含み、各ノードは一種類に対応し、ノ
ードとノード間にの連結線はエッジと呼ばれ、エッジは2つの種類間の相互関係(正の相
関関係と負の相関関係を含む)を指示し、このようにして、相互作用ネットワークのエッ
ジは正の相関エッジと負の相関エッジを含む。ノードとノード間に連結線がないと、2つ
の種類間に相互関係がないことを示す。
相互作用ネットワーク中の正の相関エッジの数およびエッジの総数を統計し、微生物群集
の相互関係評価指標を算出し、該評価指標の値が大きいほど、微生物群集中の微生物間の
正相関関係が多くなり、該微生物群集の安定性および機能性がより高い。
S200、訓練サンプルセット中の各微生物群集のマイクロハビタット特徴の値を入力値
とし、各微生物群集の相互関係評価指標を出力値とし、機械学習アルゴリズムを用いて微
生物群集評価モデルを訓練する。
本発明の実施例では、微生物群集のマイクロハビタット特徴の値を微生物群集評価モデル
に入力し、該モデルは微生物群の相互関係評価指標の予測値を出力し、該評価指標の予測
値および訓練サンプルセット中の該微生物群集の相互関係評価指標(すなわち評価指標の
真の値)に基づいて損失関数の値(すなわちモデル損失)を算出し、モデルの誤差が条件
を満たし、または予設の訓練回数に達するまで、モデル損失に基づいてGBRTのハイパ
ーパラメータを最適化し、収束した微生物群集評価モデルを得る。
一実施態様では、ベイズ最適化によりGBRTのハイパーパラメータを最適化し、収束し
たモデルを得る。ベイズ最適化は、効率的なグローバル最適化方法であり、ベイズ最適化
によりモデルパラメータを最適化する過程については先行技術の関連記載を参照すればよ
い。
選択可能に、上記微生物群集評価モデルの訓練が完了した後、いくつかの評価指標を用い
て該モデルの性能を評価し、モデルの性能が良いかを検証することができる。以下の任意
性能指標は微生物群集評価モデルの性能を評価し、例えば、真の値と予測値のR、真の
値と予測値の平均絶対誤差(Mean Absolute Error、MAE)または、
真の値と予測値の二乗平均平方根誤差(Root Mean Square Error、
RMSE)を使用する。R、MAEおよびRMSEの詳細な説明は先行技術の資料を参
照すればよく、本発明の実施例では詳細に説明されない。
例示的に、図3の(a)、(b)および(c)において、右列の図はそれぞれ嫌気性槽、
無酸素槽および好気性槽、訓練した微生物群集評価モデルの性能指標(R、MAEおよ
びRMSE)を示す。図3の(a)を例にすると、嫌気性槽からの微生物群集について、
右列の図では、青い直線は訓練された微生物群集評価モデルについて、該モデルに基づく
予測値と真の値間の関係を示し、黒い直線は理想状態下の予測値と真の値間の関係(予測
値が真の値と等しい)を示す。
S300、微生物群集(すなわち汚水処理プラントの微生物群集)の目標マイクロハビタ
ット特徴を決定し、目標マイクロハビタット特徴の該微生物群集の相互関係評価指標に対
する影響度は、該微生物群集の他のマイクロハビタット特徴対該微生物群集の相互関係評
価指標に対する影響度よりも高い。
上記実施例のマイクロハビタット特徴の説明に基づいて、微生物群集のマイクロハビタッ
ト特徴が様々であり、ここで、一部のマイクロハビタット特徴は微生物群集の全体性能に
重要な影響を与える。
選択可能に、図1および図2に示すように、S301~S302により汚水処理プラント
の微生物群集の目標マイクロハビタット特徴を決定する。
S301、微生物群集の各マイクロハビタット特徴について、該マイクロハビタット特徴
の重要性指標を決定し、該微生物群集の複数のマイクロハビタット特徴の重要性指標を得
る。
各マイクロハビタット特徴の重要性指標は、各マイクロハビタット特徴の微生物群集の相
互関係評価指標に対する影響度、すなわち該マイクロハビタット特徴の微生物群集に対す
る相対重要性を指示するために使用される。
マイクロハビタット特徴の重要性指標は第1微生物群集評価モデルの性能指標と第2微生
物群集評価モデルの性能指標の差の絶対値であり、ここで、第1微生物群集評価モデルは
微生物群集のすべてのマイクロハビタット特徴訓練されて得るものであり、第2微生物群
集評価モデルは該マイクロハビタット特徴を除去した後のマイクロハビタット特徴訓練さ
れて得るものである。
具体的に、訓練サンプルセット中の複数の微生物群集について、微生物群集のすべてのマ
イクロハビタット特徴を含む訓練サンプルセットに基づいて第1微生物群集評価モデルを
訓練し、上記S200で得られたモデルのように、各微生物群集の複数のマイクロハビタ
ット特徴から該マイクロハビタット特徴を除去し、該マイクロハビタット特徴を除去した
後の訓練サンプルセットに基づいて微生物群集評価モデル(すなわち第2微生物群集評価
モデル)を訓練し、第1微生物群集評価モデルの性能指標と第2微生物群集評価モデルの
性能指標の差の絶対値を決定し、該絶対値は、2つのモデル間の性能差異を決定するため
に使用され、両者間の性能差異が大きいほど(すなわち該絶対値が大きいほど)、該マイ
クロハビタット特徴がより重要である。
例示的に、上記来嫌気性槽、無酸素槽および好気性槽からの1068個の微生物群集のサ
ンプルを例にして、温度(T)、pH、全窒素(TN)、アンモニア態窒素(NH +
、全リン(TP)、全有機炭素(TOC)、溶存酸素(DO)、汚泥年齢(SRT)およ
び水理学的滞留時間(HRT)のマイクロハビタット特徴について、それぞれマイクロハ
ビタット特徴の重要性指標(相対重要性とも呼ばれる)を決定する。
図3を参照すると、図3の(a)、(b)および(c)において、左列の図はそれぞれ嫌
気性槽、無酸素槽および好気性槽の各マイクロハビタット特徴の相対重要性を示す。図3
の(a)を例にすると、嫌気性槽からの微生物群集について、左列の図から分かるように
、全リンは最も重要なマイクロハビタット特徴である。
もちろん、マイクロハビタット特徴の重要性指標は他の方法で定義または算出されてもよ
く、例えば特徴重要性の置換より重要性指標を算出してもよく、具体的に実際のニーズに
応じて選択すればよく、本発明の実施例では特に限定されない。
S302、微生物群集の複数のマイクロハビタット特徴の重要性指標中の値の大きい最初
のn個の重要性指標に対応するマイクロハビタット特徴を、該微生物群集の目標マイクロ
ハビタット特徴として使用し、ここで、nは1以上であり、はNよりも小さい整数であり
、Nは微生物群集のマイクロハビタット特徴の総数である。
本発明の実施例では、マイクロハビタット特徴の重要性指標は、マイクロハビタット特徴
の微生物群集に対する相対重要性を指示し、重要性指標の値が大きいほど、該マイクロハ
ビタット特徴の微生物群集の相互関係評価指標に対する影響度が高くなる。S302によ
り各マイクロハビタット特徴の重要性指標を得た後、マイクロハビタット特徴の重要性指
標をソートし(例えば大きい方から小さい方へ)、値の大きい最初のn個の重要性指標に
対応するマイクロハビタット特徴を目標マイクロハビタット特徴として選択する。
例示的に、nの値は5であってもよく、図3の(c)を参照すると、好気性槽の場合、5
つの目標マイクロハビタット特徴は全リン(TP)、温度(T)、溶存酸素(DO)、全
窒素(TN)、pHである。もちろん、nの値は他の値であってもよく、本発明の実施例
では特に限定されない。
S400、微生物群集評価モデルに基づいて、目標マイクロハビタット特徴に対する個人
の条件付き期待ICEアルゴリズムを実行し、微生物群集の相互関係評価指標の値を最大
にするときに対応する目標マイクロハビタット特徴の値を決定する。
なお、微生物群集のマイクロハビタットを同定することは、微生物群集の相互関係評価指
標の値を最大にするときに対応する目標マイクロハビタット特徴の値を決定することを指
し、このとき、該目標マイクロハビタット特徴の値は該微生物群集の最適マイクロハビタ
ット特徴の値であることを理解されたい。
本発明の実施例では、目標マイクロハビタット特徴に対する個人の条件付き期待(Ind
ividual Conditional Expectation、ICE)アルゴリズ
ムとは、目標マイクロハビタット特徴の値を変更する場合、微生物群集評価モデルに対応
する出力に従って目標マイクロハビタット特徴と微生物群集の相互関係評価指標間の関係
を求め、そして、両者間の関係に基づいて相互関係評価指標の値を最大にするときに対応
する目標マイクロハビタット特徴の値または値範囲を決定し、ここで、両者間関係は、目
標マイクロハビタット特徴と微生物群集の相互関係評価指標の関係グラフ(ICEグラフ
と略称)によって記述される。
選択可能に、上記S400の具体的な実現過程は以下を含み、
ステップ1、微生物群集の目標マイクロハビタット特徴の値の分布状況に基づいて、目標
マイクロハビタット特徴の複数の値を生成する。
まず、汚水処理プラントの微生物群集について、データ統計と分析を通じて、微生物群集
の生データの分布状況(すなわちデータ分配特徴)を決定し、すなわち異なる範囲におけ
る各目標マイクロハビタット特徴の値の分布状況を決定する。
次に、各目標マイクロハビタット特徴の値の分布状況を把握した後、異なる値範囲におけ
る目標マイクロハビタット特徴の値のデータ分布割合に応じて、目標マイクロハビタット
特徴の複数の値をランダムに生成する。
ステップ2、目標マイクロハビタット特徴の複数の値をそれぞれ微生物群集評価モデルに
入力し、複数の評価指標を得、目標マイクロハビタット特徴のICEグラフを生成する。
ステップ1に基づいて、ランダムに生成された目標マイクロハビタット特徴の複数の値を
微生物群集評価モデルに順次入力し、モデルから出力された評価指標に従って目標マイク
ロハビタット特徴の値と微生物群集の相互関係評価指標間の関係を反映するICEグラフ
を描画する。
ステップ3、ステップ1とステップ2を繰り返して実行し、目標マイクロハビタット特徴
の複数のICEグラフを得、複数のICEグラフの平均値を算出し、平均ICEグラフを
得、平均ICEグラフから、微生物群集の相互関係評価指標を最大にするときに対応する
目標マイクロハビタット特徴の値を決定する。
各目標マイクロハビタット特徴について、上記ステップ1~ステップ3を実行し、各目標
マイクロハビタット特徴の値を同定することができる。例示的に、図4を参照すると、あ
る図を例にすると、図中の各線はステップ2中の1つのICEグラフに対応し、図4中の
青い線は平均ICEグラフである。さらに、該平均ICEグラフに基づいて、微生物群集
の相互関係評価指標の値を最大にするときに対応する目標マイクロハビタット特徴の値を
決定し、該目標マイクロハビタット特徴の値は目標マイクロハビタット特徴の最適値であ
る。
図4はそれぞれ異なる生化学槽の異なる目標マイクロハビタット特徴のICEグラフを示
し、ここで、図4の左列はそれぞれ嫌気性槽の5つの目標マイクロハビタット特徴(例え
ば溶存酸素、pH、温度、全窒素、全リン)のICEグラフを示し、図4の中間列はそれ
ぞれ無酸素槽の5つの目標マイクロハビタット特徴のICEグラフを示し、図4の中間列
はそれぞれ好気性槽の5つの目標マイクロハビタット特徴のICEグラフである。
例示的に、目標マイクロハビタット特徴がDO、T、pHである場合を例にすると、表1
は異なる生化学槽の3つの目標マイクロハビタット特徴およびその最適値範囲を示す。
表1:目標マイクロハビタット特徴の最適値範囲表
【0006】
【0007】
さらに、試験から分かるように、全リン(TP)と微生物群集の相互関係評価指標は全体
として負の関係(全リンが高いほど、評価指標が低くなる)であり、全窒素(TN)と微
生物群集の相互関係評価指標は正の関係(全窒素が高いほど、評価指標が高くなる)であ
る。
さらに、マイクロハビタット特徴の最適値範囲(すなわち相互関係評価指標を最大値にす
るときのマイクロハビタット特徴の値範囲)の微生物群集の種類、およびマイクロハビタ
ット特徴の最悪値範囲(相互関係評価指標を最小値にするときのマイクロハビタット特徴
の値範囲)の微生物群集の種類を決定し、2つの範囲下の差異微生物を決定することが可
能である。さらに、異なる生化学槽の目標マイクロハビタット特徴の最適値範囲と最差値
範囲を比較すると、機能種類の存在量の上方調整は下方調整よりもはるかに高いので、機
械学習に基づくマイクロハビタット同定方法によって得られた目標マイクロハビタット特
徴の最適値範囲は、微生物群集の安定性および機能性を効果的に促進することができる。
要約すると、本発明の実施例によって提供される機械学習に基づくマイクロハビタット同
定方法は、機械学習方法に基づ生き、微生物群集評価モデルにより微生物群集のマイクロ
ハビタット特徴と微生物群集の機能特性(相互関係評価指標は微生物群集の機能特性を指
示する)間の複雑な非線形関係を表現し、さらに微生物群集評価モデルおよびICEアル
ゴリズムに基づいて微生物群集の機能性を良好にするマイクロハビタット特徴の値(すな
わち最適マイクロハビタット)を決定する。既存のマイクロハビタット同定方法と比較す
ると、本発明の実施例によって提供される解決策は、マイクロハビタットと微生物群集の
関係を明らかにし、マイクロハビタットの同定精度を向上させることができる。
【0008】
<ST26SequenceListing dtdVersion="V1_3" fileName="機械学習に基づくマイクロハビタ
ット同定方法.xml" softwareName="WIPO Sequence" softwareVersion="2.3.0" productio
nDate="2025-01-20">
<ApplicationIdentification>
<IPOfficeCode>JP</IPOfficeCode>
<ApplicationNumberText/>
<FilingDate/>
</ApplicationIdentification>
<ApplicantFileReference>12100000466007458M</ApplicantFileReference>
<EarliestPriorityApplicationIdentification>
<IPOfficeCode>CN</IPOfficeCode>
<ApplicationNumberText> CN202411506823.1</ApplicationNumberText>
<FilingDate>2024-12-10</FilingDate>
</EarliestPriorityApplicationIdentification>
<ApplicantName languageCode="ja">南京大学</ApplicantName>
<ApplicantNameLatin>Nanjing University</ApplicantNameLatin>
<InventionTitle languageCode="ja">機械学習に基づくマイクロハビタット同定方法</In
ventionTitle>
<SequenceTotalQuantity>2</SequenceTotalQuantity>
<SequenceData sequenceIDNumber="1">
<INSDSeq>
<INSDSeq_length>17</INSDSeq_length>
<INSDSeq_moltype>RNA</INSDSeq_moltype>
<INSDSeq_division>PAT</INSDSeq_division>
<INSDSeq_feature-table>
<INSDFeature>
<INSDFeature_key>source</INSDFeature_key>
<INSDFeature_location>1..17</INSDFeature_location>
<INSDFeature_quals>
<INSDQualifier>
<INSDQualifier_name>mol_type</INSDQualifier_name>
<INSDQualifier_value>other RNA</INSDQualifier_value>
</INSDQualifier>
<INSDQualifier id="q2">
<INSDQualifier_name>organism</INSDQualifier_name>
<INSDQualifier_value>synthetic construct</INSDQualifier_value>
</INSDQualifier>
</INSDFeature_quals>
</INSDFeature>
</INSDSeq_feature-table>
<INSDSeq_sequence>cctaygggrbgcascag</INSDSeq_sequence>
</INSDSeq>
</SequenceData>
<SequenceData sequenceIDNumber="2">
<INSDSeq>
<INSDSeq_length>20</INSDSeq_length>
<INSDSeq_moltype>RNA</INSDSeq_moltype>
<INSDSeq_division>PAT</INSDSeq_division>
<INSDSeq_feature-table>
<INSDFeature>
<INSDFeature_key>source</INSDFeature_key>
<INSDFeature_location>1..20</INSDFeature_location>
<INSDFeature_quals>
<INSDQualifier>
<INSDQualifier_name>mol_type</INSDQualifier_name>
<INSDQualifier_value>other RNA</INSDQualifier_value>
</INSDQualifier>
<INSDQualifier id="q4">
<INSDQualifier_name>organism</INSDQualifier_name>
<INSDQualifier_value>synthetic construct</INSDQualifier_value>
</INSDQualifier>
</INSDFeature_quals>
</INSDFeature>
</INSDSeq_feature-table>
<INSDSeq_sequence>ggactacnngggtatctaat</INSDSeq_sequence>
</INSDSeq>
</SequenceData>
</ST26SequenceListing>
【0009】
【要約】      (修正有)
【課題】マイクロハビタット特徴と微生物群集間の複雑な非線形関係を分析し、微生物群集の相互関係評価指標を最大にするときのマイクロハビタット特徴の値を特定し、マイクロハビタットの同定精度を向上させる機械学習モデルに基づくマイクロハビタット同定方法を提供する。
【解決手段】方法は、微生物群集評価モデルを訓練するための訓練サンプルセットを構築し、訓練サンプルセット中の各微生物群集のマイクロハビタット特徴の値を入力値とし、各微生物群集の相互関係評価指標を出力値とし、機械学習アルゴリズムを用いて微生物群集評価モデルを訓練し、次に微生物群集の目標マイクロハビタット特徴を決定し、微生物群集評価モデルに基づいて、目標マイクロハビタット特徴に対する個人の条件付き期待アルゴリズムを実行し、微生物群集の目標マイクロハビタット特徴の値を決定する。
【選択図】図1
図1
図2
図3
図4
【配列表】
0007710648000001.xml