まず、本発明の実施例に関わるいくつかの技術的用語を解説して説明する。
1、マイクロハビタット
微生物群集中の微生物が生息する特定の環境を指し、異なる条件のマイクロハビタットは
微生物群集に対して異なる影響を与える。
2、マイクロハビタット特徴(またはマイクロハビタット情報とも呼ばれる)
マイクロハビタットに影響を与えるいくつかの要因を指し、マイクロハビタットに影響を
与える要因は、異なる特性によって分類することができ、物理的要因、化学的要因、生物
学的要因およびプロセスパラメータに分けることができる。例示的に、物理的要因は温度
(T)、湿度などを含み、化学的要因はpH値などを含み、生物学的要因は栄養物質の濃
度、例えば全窒素(略称:TN、単位:mg/L)、全リン(TP、mg/L)、全有機
炭素(TOC、mg/L)などを含み、プロセスパラメータは溶存酸素(DO、mg/L
)、汚泥年齢(SRT、h)および水理学的滞留時間(HRT、h)などを含む。
3、マイクロハビタット同定
本発明の実施例では、マイクロハビタット同定は具体的に、微生物群集のある性能を予設
条件(例えばある性能が最適)に達したときの各マイクロハビタット特徴の値または値範
囲を決定し、すなわち微生物群集の最適マイクロハビタットを決定することを指す。
例えば、ある汚染物を分解するための分解群集について、マイクロハビタット同定とは、
該汚染物の分解に重要な影響を与えるマイクロハビタット特徴の最適値範囲を決定するこ
とを指す。
背景技術に存在する問題を解決するために、本発明の実施例は機械学習に基づくマイクロ
ハビタット同定方法を提供し、機械学習方法を用いて微生物群集とマイクロハビタット間
の複雑な非線形関係を捕捉し、両者間の関係に基づいて微生物群集の評価指標を最適する
マイクロハビタット特徴の値を分析して同定し、マイクロハビタットの同定精度を向上さ
せることができる。
以下、添付図面を参照しながら本発明の実施例によって提供される技術的解決策を詳細に
説明する。
本発明の実施例によって提供される機械学習に基づくマイクロハビタット同定方法の主旨
は以下の通りであり:訓練サンプルセットに基づいて微生物群集評価モデルを訓練して得
、微生物群集評価モデルに基づいて微生物群集に重要な影響を与える目標マイクロハビタ
ット特徴の値を同定し、該目標マイクロハビタット特徴の値は微生物群集の評価指標?を
最適にすることができる。
本発明の実施例によって提供される方法は、処理機能を有する電子機器によって実行され
、例えば電子機器はコンピュータ、サーバなどであってもよい。
図1に示すように、本発
明の実施例によって提供される機械学習に基づくマイクロハビタット同定方法は以下のス
テップを含み:
S100、微生物群集評価モデルを訓練するための訓練サンプルセットを構築する。
微生物群集評価モデルは、微生物群集のマイクロハビタット特徴と微生物群集の評価指標
間の関係を示す機械学習モデルである。
選択可能に、本発明の実施例では、微生物群集評価モデルは勾配ブースト回帰木(Gra
dient boosting regression tree、GBRT)であり、G
BRTは複数の決定木モデルを連続的に構築し、損失関数を徐々に最適化し、モデル全体
の予測精度を向上させることができる。
ここで、評価指標は、微生物群集のある特性を評価するために使用され、異なる評価指標
は異なる特性(例えば相互関係、多様性、差異など)を評価することができる。
本発明の実施例では、微生物群集の評価指標は、微生物群集中の微生物間の相互関係を評
価するための指標(例えばネットワークトポロジー係数または他の指標)であってもよく
、以下の実施例では微生物群集の相互関係評価指標と称する。
なお、実際ニーズに応じて、微生物群集の評価指標も多様であり、選択可能に、微生物群
集の評価指標は、微生物群集の種類多様性を評価するための指標(例えばα多様性)、ま
たは異なる微生物群集間の差異を評価するための指標(例えばβ多様性)などであっても
よいことを理解されたい。
なお、本発明の実施例では主に微生物群集の相互関係評価指標を例にして機械学習に基づ
くマイクロハビタット同定方法を説明し、該相互関係評価指標は微生物群集の相互作用ネ
ットワークに基づいて得られ、具体的に、以下の実施例では詳細に説明する。
上記実施例の説明によれば、微生物群集の相互関係評価指標は、微生物群集中の微生物間
の相互関係を指示するために使用され、微生物間の相互関係は正の相関関係と負の相関関
係を含む。
例えば、種類の存在量を例にすると、微生物Aと微生物Bの関係が正相関関係である場合
、微生物Aの存在量が大きいと、微生物Bの存在量も大きく、微生物Aと微生物Bの関係
が負相関関係である場合、微生物Aの存在量が大きいと、微生物Bの存在量が小さい。
本発明の実施例では、上記の訓練サンプルセットは汚水処理プラントから入手し、汚水処
理プラントから複数の微生物群集(例えば、合計1068個の水サンプルまたは汚泥サン
プル)を採取し、例えば、水サンプルおよび汚泥サンプルは全国の177個の汚水処理プ
ラントの各生化学槽から採取され、生化学槽は嫌気性槽、無酸素槽および好気性槽を含む
。
汚水処理プラントの微生物群集に影響を与えるマイクロハビタット特徴は、上記実施例で
挙げられた物理、化学、生物などの要因およびプロセス操作パラメータを含み、具体的に
、マイクロハビタット特徴は温度(略称:T、単位:℃)、pH、全窒素(TN、mg/
L)、アンモニア態窒素(NH
4
+、mg/L)、全リン(TP、mg/L)、全有機炭
素(TOC、mg/L)、溶存酸素(DO、mg/L)、汚泥年齢(SRT、h)および
水理学的滞留時間(HRT、h)を含む。
上記微生物群集評価モデルを訓練するための訓練サンプルセットは、汚水処理プラントの
複数の微生物群集のそれぞれのマイクロハビタット特徴の値と複数の微生物群集のそれぞ
れの相互関係評価指標を含み、したがって、訓練サンプルセットの構築は以下を含み、微
生物群集のマイクロハビタット特徴の値および微生物群集の相互関係評価指標を取得する
。
一実施態様では、各マイクロハビタット特徴において、プロセスパラメータは汚水プラン
トのプロセスパラメータを参照してもよく、他のマイクロハビタット特徴の値は水と廃水
監視分析方法によって分析して得られてもよい。
一実施態様では、微生物群集の相互関係評価指標の算出過程はS101~S102を含む
。
S101、汚水処理プラントの複数の微生物群集中の各微生物群集について、各微生物群
集の群集情報を取得し、該群集情報は各微生物群集に含まれる種類および種類の存在量を
含み、ある種類の微生物の存在量は微生物群集中の該微生物の豊富程度を指示するために
使用される。
本発明の実施例では、各微生物群集の群集情報を取得する方法は以下を含み、16S r
RNAアンプリコンシーケンスを用いて各微生物群集の塩基配列を決定し、得られた各微
生物群集の配列データと16S rRNAデータベースを比較し、微生物群集に含まれる
微生物の種類を決定し、種類の存在量を算出し、該種類の存在量は該種類の出現回数をす
べての種類の出現回数で除した値である。
例えば、汚泥サンプルの16S rRNAアンプリコンシーケンスを行い、汚泥サンプル
中の細菌(すなわち微生物)の16S rRNAV3-V4領域をポリメラーゼ連鎖反応
(PCR)増幅し、汚泥サンプル中の細菌のV3-V4領域にあるDNA配列を取得し、
細菌16S rRNAのV3-V4領域は16S rRNA遺伝子中の2つの高度な可変
領域であり、さらにハイスループットシーケンス技術(例えばIllumina MiS
eqプラットフォーム)を用いて増幅されたDNA配列を二分割して配列決定し、汚泥サ
ンプル中の細菌の配列データを得る。
16S rRNAアンプリコンシーケンスに使用される16S rRNAプライマーは3
41Fと806Rを含む。
341F:CCTAYGGGRBGCASCAG、SEQ ID NO:1に示される。
806R:GGACTACNNGGGTATCTAAT、SEQ ID NO:2に示され
る。
さらに、各微生物群集の配列データと16S rRNAデータベースを比較する過程は以
下を含み、汚泥サンプル中の細菌の配列データをクラスタリング、類似の配列を分類単位
(OTU)としてグループ化し、次に配列データと既知の16S rRNAデータベース
を比較し、各OTUの分類情報を決定し、サンプル中の細菌の種類組成を把握することが
できる。
上記汚泥サンプル中の細菌の種類を決定した後、各菌の出現回数およびすべての細菌の出
現回数を統計し、ある種類について、該種類の出現回数とすべての種類の出現回数の比を
算出し、該種類の存在量を取得する。このようにして、微生物群集の群集情報を得る。
S102、各微生物群集に含まれる種類および種類の存在量に基づいて、Spiec-E
asiを用いて各微生物群集の相互作用ネットワークを構築し、相互作用ネットワーク中
の正の相関エッジの数とエッジの総数の比を各微生物群集の相互関係評価指標として使用
する。
相互作用ネットワークは微生物群集中の微生物間の相互関係を反映するために使用される
。
本発明の実施例では、上記S101により微生物群集に含まれる種類および種類の存在量
を取得した後、文献調査や統計分析などにより、微生物群集(該微生物群集はある処理タ
スク、例えば分解タスクを実現するために使用される)中の機能種類、構造種類および共
代謝種類を決定することができる。
ここで、機能種類は微生物群集において特定の重要な機能を果たす種類であり、例えば、
ある汚染物を分解することができる微生物は機能種類であり、機能種類の有無、および存
在量は生態系の機能に直接影響する。構造種類は微生物群集の組成構造を構築および安定
性を維持する役割を果たす微生物であり、例えば、微生物群集の基礎代謝を担う微生物は
構造種類である。共代謝種類は微生物群集において共代謝により目標汚染物を分解する種
類である。
例えば、微生物群集は、スルファメトキサゾール(SMX)の汚染物を分解する分解群集
である。SMXを分解できる微生物群集(SMX分解群集と略称)にはSMXを分解でき
る機能種類、基礎代謝を担う構造種類および共代謝によりSMXを分解する種類が含まれ
る。
一実施態様では、微生物群集中の機能種類、構造種類、共代謝種類および各種類の存在量
に基づいて、Spiec-Easi(Sparse InversE Covarianc
e estimation for Ecological Association an
d Statistical Inference、生態学的関連付けと統計的推測のため
のスパースInversE共分散推定)を用いて微生物群集の相互作用ネットワーク(微
生物生態ネットワークとも呼ばれる)を構築し、相互作用ネットワークに基づいて微生物
群集の相互関係評価指標を算出する。Spiec-Easiは、16S rRNAアンプ
リコンシーケンスデータセットから微生物生態ネットワークを推定するツールであり、S
piec-Easiを用いて相互作用ネットワークを構築するより多くの詳細は先行技術
を参照すればよく、ここでは詳細が省略される。
なお、上記相互作用ネットワークは複数のノードを含み、各ノードは一種類に対応し、ノ
ードとノード間にの連結線はエッジと呼ばれ、エッジは2つの種類間の相互関係(正の相
関関係と負の相関関係を含む)を指示し、このようにして、相互作用ネットワークのエッ
ジは正の相関エッジと負の相関エッジを含む。ノードとノード間に連結線がないと、2つ
の種類間に相互関係がないことを示す。
相互作用ネットワーク中の正の相関エッジの数およびエッジの総数を統計し、微生物群集
の相互関係評価指標を算出し、該評価指標の値が大きいほど、微生物群集中の微生物間の
正相関関係が多くなり、該微生物群集の安定性および機能性がより高い。
S200、訓練サンプルセット中の各微生物群集のマイクロハビタット特徴の値を入力値
とし、各微生物群集の相互関係評価指標を出力値とし、機械学習アルゴリズムを用いて微
生物群集評価モデルを訓練する。
本発明の実施例では、微生物群集のマイクロハビタット特徴の値を微生物群集評価モデル
に入力し、該モデルは微生物群の相互関係評価指標の予測値を出力し、該評価指標の予測
値および訓練サンプルセット中の該微生物群集の相互関係評価指標(すなわち評価指標の
真の値)に基づいて損失関数の値(すなわちモデル損失)を算出し、モデルの誤差が条件
を満たし、または予設の訓練回数に達するまで、モデル損失に基づいてGBRTのハイパ
ーパラメータを最適化し、収束した微生物群集評価モデルを得る。
一実施態様では、ベイズ最適化によりGBRTのハイパーパラメータを最適化し、収束し
たモデルを得る。ベイズ最適化は、効率的なグローバル最適化方法であり、ベイズ最適化
によりモデルパラメータを最適化する過程については先行技術の関連記載を参照すればよ
い。
選択可能に、上記微生物群集評価モデルの訓練が完了した後、いくつかの評価指標を用い
て該モデルの性能を評価し、モデルの性能が良いかを検証することができる。以下の任意
性能指標は微生物群集評価モデルの性能を評価し、例えば、真の値と予測値のR
2、真の
値と予測値の平均絶対誤差(Mean Absolute Error、MAE)または、
真の値と予測値の二乗平均平方根誤差(Root Mean Square Error、
RMSE)を使用する。R
2、MAEおよびRMSEの詳細な説明は先行技術の資料を参
照すればよく、本発明の実施例では詳細に説明されない。
例示的に、
図3の(a)、(b)および(c)において、右列の図はそれぞれ嫌気性槽、
無酸素槽および好気性槽、訓練した微生物群集評価モデルの性能指標(R
2、MAEおよ
びRMSE)を示す。
図3の(a)を例にすると、嫌気性槽からの微生物群集について、
右列の図では、青い直線は訓練された微生物群集評価モデルについて、該モデルに基づく
予測値と真の値間の関係を示し、黒い直線は理想状態下の予測値と真の値間の関係(予測
値が真の値と等しい)を示す。
S300、微生物群集(すなわち汚水処理プラントの微生物群集)の目標マイクロハビタ
ット特徴を決定し、目標マイクロハビタット特徴の該微生物群集の相互関係評価指標に対
する影響度は、該微生物群集の他のマイクロハビタット特徴対該微生物群集の相互関係評
価指標に対する影響度よりも高い。
上記実施例のマイクロハビタット特徴の説明に基づいて、微生物群集のマイクロハビタッ
ト特徴が様々であり、ここで、一部のマイクロハビタット特徴は微生物群集の全体性能に
重要な影響を与える。
選択可能に、
図1および
図2に示すように、S301~S302により汚水処理プラント
の微生物群集の目標マイクロハビタット特徴を決定する。
S301、微生物群集の各マイクロハビタット特徴について、該マイクロハビタット特徴
の重要性指標を決定し、該微生物群集の複数のマイクロハビタット特徴の重要性指標を得
る。
各マイクロハビタット特徴の重要性指標は、各マイクロハビタット特徴の微生物群集の相
互関係評価指標に対する影響度、すなわち該マイクロハビタット特徴の微生物群集に対す
る相対重要性を指示するために使用される。
マイクロハビタット特徴の重要性指標は第1微生物群集評価モデルの性能指標と第2微生
物群集評価モデルの性能指標の差の絶対値であり、ここで、第1微生物群集評価モデルは
微生物群集のすべてのマイクロハビタット特徴訓練されて得るものであり、第2微生物群
集評価モデルは該マイクロハビタット特徴を除去した後のマイクロハビタット特徴訓練さ
れて得るものである。
具体的に、訓練サンプルセット中の複数の微生物群集について、微生物群集のすべてのマ
イクロハビタット特徴を含む訓練サンプルセットに基づいて第1微生物群集評価モデルを
訓練し、上記S200で得られたモデルのように、各微生物群集の複数のマイクロハビタ
ット特徴から該マイクロハビタット特徴を除去し、該マイクロハビタット特徴を除去した
後の訓練サンプルセットに基づいて微生物群集評価モデル(すなわち第2微生物群集評価
モデル)を訓練し、第1微生物群集評価モデルの性能指標と第2微生物群集評価モデルの
性能指標の差の絶対値を決定し、該絶対値は、2つのモデル間の性能差異を決定するため
に使用され、両者間の性能差異が大きいほど(すなわち該絶対値が大きいほど)、該マイ
クロハビタット特徴がより重要である。
例示的に、上記来嫌気性槽、無酸素槽および好気性槽からの1068個の微生物群集のサ
ンプルを例にして、温度(T)、pH、全窒素(TN)、アンモニア態窒素(NH
4
+)
、全リン(TP)、全有機炭素(TOC)、溶存酸素(DO)、汚泥年齢(SRT)およ
び水理学的滞留時間(HRT)のマイクロハビタット特徴について、それぞれマイクロハ
ビタット特徴の重要性指標(相対重要性とも呼ばれる)を決定する。
図3を参照すると、
図3の(a)、(b)および(c)において、左列の図はそれぞれ嫌
気性槽、無酸素槽および好気性槽の各マイクロハビタット特徴の相対重要性を示す。
図3
の(a)を例にすると、嫌気性槽からの微生物群集について、左列の図から分かるように
、全リンは最も重要なマイクロハビタット特徴である。
もちろん、マイクロハビタット特徴の重要性指標は他の方法で定義または算出されてもよ
く、例えば特徴重要性の置換より重要性指標を算出してもよく、具体的に実際のニーズに
応じて選択すればよく、本発明の実施例では特に限定されない。
S302、微生物群集の複数のマイクロハビタット特徴の重要性指標中の値の大きい最初
のn個の重要性指標に対応するマイクロハビタット特徴を、該微生物群集の目標マイクロ
ハビタット特徴として使用し、ここで、nは1以上であり、はNよりも小さい整数であり
、Nは微生物群集のマイクロハビタット特徴の総数である。
本発明の実施例では、マイクロハビタット特徴の重要性指標は、マイクロハビタット特徴
の微生物群集に対する相対重要性を指示し、重要性指標の値が大きいほど、該マイクロハ
ビタット特徴の微生物群集の相互関係評価指標に対する影響度が高くなる。S302によ
り各マイクロハビタット特徴の重要性指標を得た後、マイクロハビタット特徴の重要性指
標をソートし(例えば大きい方から小さい方へ)、値の大きい最初のn個の重要性指標に
対応するマイクロハビタット特徴を目標マイクロハビタット特徴として選択する。
例示的に、nの値は5であってもよく、
図3の(c)を参照すると、好気性槽の場合、5
つの目標マイクロハビタット特徴は全リン(TP)、温度(T)、溶存酸素(DO)、全
窒素(TN)、pHである。もちろん、nの値は他の値であってもよく、本発明の実施例
では特に限定されない。
S400、微生物群集評価モデルに基づいて、目標マイクロハビタット特徴に対する個人
の条件付き期待ICEアルゴリズムを実行し、微生物群集の相互関係評価指標の値を最大
にするときに対応する目標マイクロハビタット特徴の値を決定する。
なお、微生物群集のマイクロハビタットを同定することは、微生物群集の相互関係評価指
標の値を最大にするときに対応する目標マイクロハビタット特徴の値を決定することを指
し、このとき、該目標マイクロハビタット特徴の値は該微生物群集の最適マイクロハビタ
ット特徴の値であることを理解されたい。
本発明の実施例では、目標マイクロハビタット特徴に対する個人の条件付き期待(Ind
ividual Conditional Expectation、ICE)アルゴリズ
ムとは、目標マイクロハビタット特徴の値を変更する場合、微生物群集評価モデルに対応
する出力に従って目標マイクロハビタット特徴と微生物群集の相互関係評価指標間の関係
を求め、そして、両者間の関係に基づいて相互関係評価指標の値を最大にするときに対応
する目標マイクロハビタット特徴の値または値範囲を決定し、ここで、両者間関係は、目
標マイクロハビタット特徴と微生物群集の相互関係評価指標の関係グラフ(ICEグラフ
と略称)によって記述される。
選択可能に、上記S400の具体的な実現過程は以下を含み、
ステップ1、微生物群集の目標マイクロハビタット特徴の値の分布状況に基づいて、目標
マイクロハビタット特徴の複数の値を生成する。
まず、汚水処理プラントの微生物群集について、データ統計と分析を通じて、微生物群集
の生データの分布状況(すなわちデータ分配特徴)を決定し、すなわち異なる範囲におけ
る各目標マイクロハビタット特徴の値の分布状況を決定する。
次に、各目標マイクロハビタット特徴の値の分布状況を把握した後、異なる値範囲におけ
る目標マイクロハビタット特徴の値のデータ分布割合に応じて、目標マイクロハビタット
特徴の複数の値をランダムに生成する。
ステップ2、目標マイクロハビタット特徴の複数の値をそれぞれ微生物群集評価モデルに
入力し、複数の評価指標を得、目標マイクロハビタット特徴のICEグラフを生成する。
ステップ1に基づいて、ランダムに生成された目標マイクロハビタット特徴の複数の値を
微生物群集評価モデルに順次入力し、モデルから出力された評価指標に従って目標マイク
ロハビタット特徴の値と微生物群集の相互関係評価指標間の関係を反映するICEグラフ
を描画する。
ステップ3、ステップ1とステップ2を繰り返して実行し、目標マイクロハビタット特徴
の複数のICEグラフを得、複数のICEグラフの平均値を算出し、平均ICEグラフを
得、平均ICEグラフから、微生物群集の相互関係評価指標を最大にするときに対応する
目標マイクロハビタット特徴の値を決定する。
各目標マイクロハビタット特徴について、上記ステップ1~ステップ3を実行し、各目標
マイクロハビタット特徴の値を同定することができる。例示的に、
図4を参照すると、あ
る図を例にすると、図中の各線はステップ2中の1つのICEグラフに対応し、
図4中の
青い線は平均ICEグラフである。さらに、該平均ICEグラフに基づいて、微生物群集
の相互関係評価指標の値を最大にするときに対応する目標マイクロハビタット特徴の値を
決定し、該目標マイクロハビタット特徴の値は目標マイクロハビタット特徴の最適値であ
る。
図4はそれぞれ異なる生化学槽の異なる目標マイクロハビタット特徴のICEグラフを示
し、ここで、
図4の左列はそれぞれ嫌気性槽の5つの目標マイクロハビタット特徴(例え
ば溶存酸素、pH、温度、全窒素、全リン)のICEグラフを示し、
図4の中間列はそれ
ぞれ無酸素槽の5つの目標マイクロハビタット特徴のICEグラフを示し、
図4の中間列
はそれぞれ好気性槽の5つの目標マイクロハビタット特徴のICEグラフである。
例示的に、目標マイクロハビタット特徴がDO、T、pHである場合を例にすると、表1
は異なる生化学槽の3つの目標マイクロハビタット特徴およびその最適値範囲を示す。
表1:目標マイクロハビタット特徴の最適値範囲表