IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本製粉株式会社の特許一覧 ▶ 独立行政法人医薬基盤研究所の特許一覧

<>
  • 特開-リグナン産生能の推定方法 図1
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024053409
(43)【公開日】2024-04-15
(54)【発明の名称】リグナン産生能の推定方法
(51)【国際特許分類】
   C12Q 1/689 20180101AFI20240408BHJP
   C12Q 1/686 20180101ALI20240408BHJP
   C12Q 1/6874 20180101ALI20240408BHJP
【FI】
C12Q1/689 Z ZNA
C12Q1/686 Z
C12Q1/6874 Z
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2022159672
(22)【出願日】2022-10-03
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.TRITON
(71)【出願人】
【識別番号】000231637
【氏名又は名称】株式会社ニップン
(71)【出願人】
【識別番号】505314022
【氏名又は名称】国立研究開発法人医薬基盤・健康・栄養研究所
(74)【代理人】
【識別番号】100100480
【弁理士】
【氏名又は名称】藤田 隆
(74)【代理人】
【識別番号】100135839
【弁理士】
【氏名又は名称】大南 匡史
(74)【代理人】
【識別番号】100201455
【弁理士】
【氏名又は名称】横尾 宏治
(72)【発明者】
【氏名】澤根 健人
(72)【発明者】
【氏名】大越 幸太
(72)【発明者】
【氏名】國澤 純
(72)【発明者】
【氏名】細見 晃司
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA01
4B063QA18
4B063QQ03
4B063QQ06
4B063QQ42
4B063QR08
4B063QR55
4B063QR62
4B063QS10
4B063QS25
4B063QS34
4B063QX02
(57)【要約】
【課題】本発明は、従来に比べて簡便且つ非侵襲的に推定対象者の哺乳類リグナン産生能を推定可能なリグナン産生能の推定方法を提供する。
【解決手段】推定対象者から採取された糞便試料に含まれるRuminococcaceae.UCG.002属、Lachnospiraceae.UCG.008属、及びRuminococcus.torques.group属からなる群より選択される2以上の細菌の存在比率に基づき、推定対象者の哺乳類リグナン産生能を推定する推定工程を含む方法とする。
【選択図】図1
【特許請求の範囲】
【請求項1】
推定対象者から採取された糞便試料に含まれるRuminococcaceae.UCG.002属、Lachnospiraceae.UCG.008属、及びRuminococcus.torques.group属からなる群より選択される2以上の細菌の存在比率に基づき、前記推定対象者の哺乳類リグナン産生能を推定する推定工程を含む、リグナン産生能の推定方法。
【請求項2】
過去の被験者における前記存在比率を含む腸内細菌叢データと、前記過去の被験者における植物リグナンを摂取したときのエンテロラクトンの産生能の有無に関するデータを含む分類データとのデータセットを、教師データとして機械学習し、判別モデルを作成する機械学習工程をさらに含み、
前記推定工程では、前記判別モデルを用いて、前記推定対象者の前記エンテロラクトンの産生能の有無を推定する、請求項1に記載のリグナン産生能の推定方法。
【請求項3】
前記機械学習工程では、線形回帰モデル、ロジスティック回帰、ラッソ回帰、ランダムフォレスト、ニューラルネットワーク、及びサポートベクターマシンからなる群より選択される少なくとも一つのアルゴリズムで機械学習する、請求項2に記載のリグナン産生能の推定方法。
【請求項4】
前記機械学習工程では、ランダムフォレストで機械学習する、請求項3に記載のリグナン産生能の推定方法。
【請求項5】
前記推定工程では、前記2以上の細菌の存在比率の合計値を用いて、エンテロラクトンの産生能の有無を推定する、請求項1に記載のリグナン産生能の推定方法。
【請求項6】
前記2以上の細菌の存在比率は、16S rRNA領域を対象にして前記糞便試料を解析して得られた全リードデータの中から無作為に10000リードを抽出し、抽出した10000リード当たりのそれぞれの細菌のリード数である、請求項1~5のいずれか1項に記載のリグナン産生能の推定方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、推定対象者の哺乳類リグナン産生能を推定する推定方法に関する。
【背景技術】
【0002】
植物リグナンは、摂取後、腸内でDDSI(didemethyl-secoisolariciresinol)、エンテロジオール(enterodiol、以下、EDともいう)、エンテロラクトン(enterolactone、以下、ELともいう)の順に代謝されることが知られている。
なお、植物リグナンは、セサミン(sesamin)、ヒドロキシマタイレシノール(hydroxymatairesinol)、マタイレシノール(matairesinol)、セコイソラリシレシノール(secoisolariciresinol、以下、SECOともいう)、シリンガレシノール(syringaresinol)、アークチゲニン(arctigenin)、ラリシレシノール(lariciresinol)、ピノレシノール(pinoresinol)等、及びこれらの配糖体の総称である。
【0003】
これら代謝物のうち、エンテロジオールとエンテロラクトンは、哺乳類リグナンと呼ばれており、特にエンテロラクトンは、体内でエストロゲン受容体へ結合することで女性ホルモン様作用を発揮し、女性ホルモンの増減に起因する各種症状(更年期症状、月経前症候群など)の緩和などに有効である可能性が示唆されている。
このことから、植物リグナンの健康機能性を享受する上で、植物リグナンを摂取したときに、植物リグナンからエンテロラクトンへ代謝できることが非常に重要である。
【0004】
植物リグナンからエンテロラクトンへの代謝は、腸管管腔内の腸内細菌によって進むことが知られている。
腸内細菌叢は、これを構成する細菌の種類や構成比が個人によって大きく異なることから、腸内細菌叢の違いに伴ってエンテロラクトンへの代謝能が一人一人異なる可能性が示唆されている。
これまでの研究により、Eggerthella lenta、Blautia producta、Gordonibacter pamelaeae、Lactonifactor longoviformis等の腸内細菌が、植物リグナンのエンテロラクトンへの代謝に関与していることが明らかにされている(非特許文献1)。
なお、本発明に関連する公報として、例えば、特許文献1がある。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特表2020-526541号公報
【非特許文献】
【0006】
【非特許文献1】Bess EN et al., "Genetic basis for the cooperative bioactivation of plant lignans by Eggerthella lenta and other human gut bacteria", Nature Microbiology, 5, 56-66 (2020)
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、上記の細菌を腸内で保有していることが、直接その人のエンテロラクトンへの代謝能を決定するという報告はされておらず、代謝能と腸内細菌叢の関係については、未だ不明な点が多い。
そのため,従来から、特定の被験者が植物リグナンをエンテロラクトンに代謝できるか否かを調べるには、当該特定の個人から血液検体あるいは尿検体を回収し、検体に含まれるエンテロラクトンを機器分析にて検出することによって行われている。
しかしながら、臨床試験の設計・運営、検体採取、精密機器を使用した分析など多くの作業が必要となり、前記特定の個人、調査担当者ともに負担が大きい。従って、より簡便に植物リグナンのエンテロラクトン産生能を推定できる方法が求められていた。
【0008】
そこで、本発明は、従来に比べて簡便且つ非侵襲的に推定対象者の哺乳類リグナン産生能を推定可能なリグナン産生能の推定方法を提供することを目的とする。
【課題を解決するための手段】
【0009】
上記した課題を解決するために、本発明者が機械学習を用いて腸内細菌叢とエンテロラクトン産生能の関係について分析したところ、糞便試料に含まれる細菌の存在比率がエンテロラクトン産生能に密接に関連することを発見した。
そこで、本発明者がこの発見を元に鋭意検討したところ、特定の細菌の存在比率が支配的にエンテロラクトン産生能に大きく影響を与えることを見出し、本発明に至った。
【0010】
本発明の一つの様相は、推定対象者から採取された糞便試料に含まれるRuminococcaceae.UCG.002属、Lachnospiraceae.UCG.008属、及びRuminococcus.torques.group属からなる群より選択される2以上の細菌の存在比率に基づき、前記推定対象者の哺乳類リグナン産生能を推定する推定工程を含む、リグナン産生能の推定方法である。
【0011】
ここでいう「推定対象者」とは、本発明の推定方法による推定対象であり、推定方法を使用して哺乳類リグナン産生能が推定される被験者をいう。
【0012】
本様相によれば、推定対象者は、糞便試料を調べるだけで、哺乳類リグナンを摂取した場合の哺乳類リグナン産生能を推定できるので、従来に比べて簡便且つ非侵襲的に推定対象者の哺乳類リグナン産生能を推定可能である。
【0013】
好ましい様相は、過去の被験者における前記存在比率を含む腸内細菌叢データと、前記過去の被験者における植物リグナンを摂取したときのエンテロラクトンの産生能の有無に関するデータを含む分類データとのデータセットを、教師データとして機械学習し、判別モデルを作成する機械学習工程をさらに含み、前記推定工程では、前記判別モデルを用いて、前記推定対象者の前記エンテロラクトンの産生能の有無を推定する。
【0014】
ここでいう「過去の被験者」とは、過去に医療機関や研究所等で腸内細菌叢データやエンテロラクトンの産生能の有無の測定・判断がなされた被験者である。
【0015】
本様相によれば、推定対象者は、過去の被験者のデータセットから得られた判別モデルを用いて推定対象者のエンテロラクトンの産生能の有無を推定するので、より正確にエンテロラクトンの産生能の有無を推定できる。
【0016】
より好ましい様相は、前記機械学習工程では、線形回帰モデル、ロジスティック回帰、ラッソ回帰、ランダムフォレスト、ニューラルネットワーク、及びサポートベクターマシンからなる群より選択される少なくとも一つのアルゴリズムで機械学習する。
【0017】
本様相によれば、分類評価が可能な教師あり学習が可能であり、エンテロラクトンの産生能の有無を判別しやすい。
【0018】
さらに好ましい様相は、前記機械学習工程では、ランダムフォレストで機械学習する。
【0019】
本様相によれば、データにノイズが多くても精度良く学習でき、データ数が多くてもより高速な学習と識別が可能である。
【0020】
好ましい様相は、前記推定工程では、前記2以上の細菌の存在比率の合計値を用いて、エンテロラクトンの産生能の有無を推定する。
【0021】
本様相によれば、Ruminococcaceae.UCG.002属、Lachnospiraceae.UCG.008属、及びRuminococcus.torques.group属のうち少なくとも2種の細菌の存在比率の合計値が算出できれば、エンテロラクトンの産生能の有無を判別できるので、エンテロラクトンの産生能の有無を容易に判別できる。
【0022】
好ましい様相は、前記2以上の細菌の存在比率は、16S rRNA領域を対象にして前記糞便試料を解析して得られた全リードデータの中から無作為に10000リードを抽出し、抽出した10000リード当たりに占めるそれぞれの細菌のリード数の比率である。
【0023】
本様相によれば、推定対象者の糞便試料ごとに総リード数が異なっていても、推定対象者間で腸内細菌叢の組成を横並びで評価することができる。
【発明の効果】
【0024】
本発明によれば、従来に比べて簡便且つ非侵襲的に推定対象者の哺乳類リグナン産生能を推定可能である。
【図面の簡単な説明】
【0025】
図1】本発明の実施例1の第1判別モデルにおいて各細菌を重要度が高い順に並べたグラフである。
【発明を実施するための形態】
【0026】
以下、本発明の実施形態について詳細に説明する。
【0027】
本発明の第1実施形態の推定方法は、推定対象者の糞便試料から哺乳類リグナン産生能を推定するものであり、主に、前処理工程と、機械学習工程と、推定工程によって構成されている。
【0028】
(前処理工程)
前処理工程は、機械学習工程で使用するデータを作成する工程であり、試料採取工程と、腸内細菌叢データ作成工程と、第1分類データ作成工程と、第1データセット作成工程を含んでいる。
【0029】
具体的には、前処理工程は、まず100名以上の被験者を、腸内細菌により哺乳類リグナンを生成する植物リグナンを所定量、所定期間摂取した被験者で構成される各被験者から糞便試料と血液試料を採取する(試料採取工程)。
なお、植物リグナン及び哺乳類リグナンの詳細については、後述する。
【0030】
採取した糞便試料からDNA抽出を行い、抽出したDNAから16S rRNA遺伝子に基づいたマイクロバイオーム解析を行い、腸内細菌叢における各細菌の存在比率を算出し、各細菌の存在比率を含む腸内細菌叢データを作成する(腸内細菌叢データ作成工程)。
【0031】
このとき、細菌の存在比率は、16S rRNA遺伝子の解析から得られた全リードデータから無作為に10000リードをピックアップし、その10000リード内における各種細菌のリード数を算出して10000リード当たりの存在比率を示す数値データに変換することが好ましい。
また、腸内細菌叢データは、少なくとも腸内細菌叢における少なくともRuminococcaceae.UCG.002属、Lachnospiraceae.UCG.008属、及びRuminococcus.torques.group属の存在比率を含んでいる。
【0032】
また、採取した血液試料から、血清を採取し、LC-MSMS分析により、エンテロラクトン(以下、単にELともいう)又はエンテロラクトングルクロン酸抱合体(以下、単にELGluともいう)が含まれるかどうかによってエンテロラクトンの産生能(以下、EL産生能ともいう)を分類し、EL産生能の有無に関するデータを含む分類データを作成した(第1分類データ作成工程)。
ここで、EL産生能の有無は、血液試料中にEL及び/又はELGluを検出した被験者を「EL産生能あり」と分類し、血液試料中にEL及びELGluのいずれも検出しなかった被験者を「EL産生能なし」と分類した。
【0033】
そして、腸内細菌叢データ作成工程で作成された腸内細菌叢データと、第1分類データ作成工程で作成された分類データを紐付けしてデータセットにして、データセットA1を作成した(第1データセット作成工程)。
【0034】
(機械学習工程)
機械学習工程は、前処理工程で作成されたデータセットA1を用いて機械学習し、学習モデルを生成する工程であり、第1データセット分割工程と、第1判別モデル作成工程と、第1検証工程と、重要度選別工程と、第2分類データ作成工程と、第2データセット作成工程と、第2判別モデル作成工程と、第2検証工程を含んでいる。
【0035】
具体的には、機械学習工程は、まず、データセットA1について、所定の割合で学習用データセットT1-1と、検証用データセットT1-2に分割した(第1データセット分割工程)。
【0036】
このときの学習用データセットT1-1と検証用データセットT1-2の比率は、特に限定されるものではないが、学習用データセットT1-1の比率は、検証用データセットT1-2の比率よりも大きいことが好ましい。
【0037】
続いて、学習用データセットT1-1から、機械学習アルゴリズムに則して教師あり学習を行い、第1判別モデルL1を作成する(第1判別モデル作成工程)。
すなわち、第1判別モデル作成工程では、糞便試料から検出される腸内細菌叢の全細菌の属レベルでの存在比率を含む腸内細菌叢データを説明変数とし、EL産生能の有無に関するデータを含む分類データを目的変数として機械学習を行い、第1判別モデルL1を構築する。
【0038】
ここで、「教師あり学習」とは、教師データ、すなわち、ある入力(説明変数)と結果(目的変数)のデータセットにある特徴を学習し、入力から結果を推定するモデル(誤差モデル)、すなわち、入力と結果の関係性を帰納的に獲得するものである。
本実施形態の第1判別モデル作成工程では、入力部と、出力部を有した学習器を使用し、教師データをもとに学習器に機械学習させることによって、入力部に入力された説明変数(腸内細菌叢データ)から出力部から出力される目的変数(分類データ)を算出する学習モデルたる第1判別モデルL1を構築する。
第1判別モデル作成工程で使用される機械学習アルゴリズムとしては、分類評価可能な教師あり学習のアルゴリズムであれば、特に限定されるものではない。
第1判別モデル作成工程で使用される機械学習アルゴリズムとしては、例えば、線形回帰モデル(Linear model)、ロジスティック回帰、ラッソ回帰(Lasso)、ランダムフォレスト(RandomForest)、ニューラルネットワーク(Neural net)、線形カーネルのサポートベクターマシン(SVM (linear))からなる群より選択される少なくとも一つのアルゴリズムが使用でき、その中でも、ランダムフォレストが好ましい。
機械学習アルゴリズムとしてランダムフォレストを使用することで、データにノイズが多くても精度良く学習でき、データ数が多くてもより高速な学習と識別が可能である。
本実施形態の機械学習アルゴリズムは、アンサンブル学習のバギングを基にして多数の決定木モデルを用いて分類を行うランダムフォレストを使用しており、複数の決定木モデルに当てはめ、各決定木モデルの結果に対して多数決で判断を下すものである。
【0039】
第1判別モデル作成工程において、第1判別モデルL1のROCカーブ(Receiver Operating Characteristic curve)のAUC(Area Under the Curve)が0.7以上となると、第1判別モデルL1に対して検証用データセットT1-2を用い、検証用データセットT1-2の各被験者の腸内細菌叢データを入力してEL産生能の有無を算出し、第1判別モデルL1の適合性を検証する(第1検証工程)。
第1検証工程にて、EL産生能の予測結果と実測結果をもとに算出された正解率(Accuracy)及びkappa係数がそれぞれ所定の基準以上の場合には、重要度選別工程に移行し、正解率(Accuracy)又はkappa係数が所定の基準未満の場合には、第1判別モデル作成工程に戻って再度第1判別モデルL1を作成する。
【0040】
このときの正解率の基準は、70%以上の値であることが好ましい。
このときのkappa係数の基準は、0.4以上の値であることが好ましい。
【0041】
続いて、第1判別モデルL1における各細菌の重要度によって並び替えを行い、所定のスコア以上の細菌を選別する(重要度選別工程)。
【0042】
このときの所定のスコアは、50以上の値であることが好ましい。
例えば、図1の場合では、Ruminococcaceae.UCG.002属、Lachnospiraceae.UCG.008属、及びRuminococcus.torques.group属のスコアがこの順に50以上となって上位を占めているため、Ruminococcaceae.UCG.002属、Lachnospiraceae.UCG.008属、及びRuminococcus.torques.group属が選別される。
【0043】
続いて、腸内細菌叢データの中から重要度選別工程で選別された細菌、すなわち、Ruminococcaceae.UCG.002属、Lachnospiraceae.UCG.008属、及びRuminococcus.torques.group属の存在比率を抽出し、残りの細菌の存在比率を含まない特定細菌叢データを作成し、当該特定細菌叢データと分類データのデータセットA2を作成する(第2分類データ作成工程)。
【0044】
そして、データセットA2を学習用データセットT2-1と検証用データセットT2-2に分割した(第2データセット作成工程)。
【0045】
このときの学習用データセットT2-1と検証用データセットT2-2の比率は、特に限定されるものではないが、学習用データセットT2-1の比率は、検証用データセットT2-2の比率よりも大きいことが好ましい。
【0046】
続いて、学習用データセットT2-1を用いて機械学習アルゴリズムに則して教師あり学習を行い、第2判別モデルL2を作成する(第2判別モデル作成工程)。
【0047】
すなわち、第2判別モデル作成工程は、学習用データセットT2-1のRuminococcaceae.UCG.002属、Lachnospiraceae.UCG.008属、及びRuminococcus.torques.group属の存在比率を含む特定細菌叢データを説明変数とし、分類データを目的変数として機械学習を行い、学習モデルたる第2判別モデルL2を構築する。
【0048】
特定細菌叢データは、Ruminococcaceae.UCG.002属、Lachnospiraceae.UCG.008属、及びRuminococcus.torques.group属のみの存在比率を含み、他の細菌の存在比率を含まないデータである。
第2判別モデル作成工程で使用される機械学習アルゴリズムとしては、分類評価可能な教師あり学習アルゴリズムであれば、特に限定されるものではない。例えば、線形回帰モデル(Linear model)、ロジスティック回帰、ラッソ回帰(Lasso)、ランダムフォレスト(RandomForest)、ニューラルネットワーク(Neural net)、線形カーネルのサポートベクターマシン(SVM (linear))からなる群より選択される少なくとも一つのアルゴリズムが使用でき、その中でもランダムフォレストが好ましい。
本実施形態の機械学習アルゴリズムは、アンサンブル学習のバギングを基にして多数の決定木モデルを用いて分類を行うランダムフォレストを使用しており、複数の決定木モデルに当てはめ、各決定木モデルの結果に対して多数決で判断を下すものである。
【0049】
第2判別モデル作成工程において第2判別モデルL2のROCカーブのAUCが0.7以上となると、第2判別モデルL2に対して検証用データセットT2-2の特定細菌叢データを入力してEL産生能の有無を算出し、第2判別モデルL2の適合性を検証する(第2検証工程)。
第2検証工程にて、EL産生能の予測結果と実測結果をもとに算出された正解率(Accuracy)及びkappa係数がそれぞれ所定の基準以上の場合には、機械学習工程を終了して推定工程に移行し、正解率(Accuracy)及びkappa係数が所定の基準未満の場合には、第2判別モデル作成工程に戻って再度第2判別モデルL2を作成する。
【0050】
このときの正解率の基準は、70%以上の値であることが好ましい。
このときのkappa係数の基準は、0.4以上の値であることが好ましい。
【0051】
(推定工程)
推定工程は、機械学習工程で作成した第2判別モデルL2を用いて、未知の推定対象者の糞便試料から検出される特定細菌叢データからEL産生能の有無を判別する。
すなわち、推定対象者から採取した糞便試料からDNA抽出を行い、抽出したDNAから16S rRNA遺伝子に基づいたマイクロバイオーム解析を行って、腸内細菌叢におけるRuminococcaceae.UCG.002属、Lachnospiraceae.UCG.008属、及びRuminococcus.torques.group属の存在比率を算出して特定細菌叢データを作成し、第2判別モデルL2に入力してEL産生能の有無を判別する。
【0052】
最後に、植物リグナンと哺乳類リグナンについて説明する。
【0053】
植物リグナンは、フェニルアラニンを出発物質とし、モノマー単位の前駆体(例えば、桂皮酸、コーヒー酸、フェルラ酸、クマル酸、及び没食子酸)がカップリングすることによって形成されるものである。
具体的には、植物リグナンは、モノリグノールである置換ケイ皮アルコールの二量化反応(置換ケイ皮アルコール側鎖のβ位同士の酸化的縮合)によって生成する2,3-ジベンジルブタン骨格を有するポリフェノール性物質の一群である。
植物リグナンは、植物の様々な部位(根、葉、茎、種、果実)に局在している。
植物リグナンは、種子や果実等において、多くの場合植物を構成する繊維成分と結合したグリコシド接合体として存在している。
植物リグナンとして、セサミン(sesamin)、ヒドロキシマタイレシノール(hydroxymatairesinol)、マタイレシノール(matairesinol)、セコイソラリシレシノール(secoisolariciresinol、以下、SECOともいう)、シリンガレシノール(syringaresinol)、アークチゲニン(arctigenin)、ラリシレシノール(lariciresinol)、ピノレシノール(pinoresinol)等、及びそれらの配糖体が知られている。
例えば、セコイソラリシレシノールでは、セコイソラリシレシノールジグルコシド(secoisolariciresinol diglucoside、以下、SDGともいう)及びセコイソラリシレシノールモノグルコシド(secoisolariciresinol monoglucoside、以下、SMGともいう)がある。
これらは、アマ、ゴマ、カボチャ、ヒマワリ、ラッカセイ、ダイズ等の種子;小麦、ライ麦、大麦、オーツ麦等の穀物;ブラックベリー、クランベリー、イチゴ等の果実;ブロッコリー等の緑黄色野菜など様々な作物に含まれている。
亜麻科植物アマ(学名:Linum usitatissimum)の種子であるアマニには、SDGが豊富に含まれており、マタイレシノール、ピノレシノール、イソラリシレシノール及びこれらの配糖体等が少量含まれている。
ゴマ科植物ゴマ(学名: Sesamum indicum)には、セサミン、ピノレシノール、マタイレシノール及びこれらの配糖体が含まれている。
本実施形態の植物リグナンは、特に限定されるものではなく、上記したような公知の植物リグナンであればよい。
植物リグナンの定義には、上記した化合物の任意の幾何異性体又は立体異性体又は異性体の任意の混合物(例えば、ラセミ体)を含み、上記した化合物の塩、付加物及び複合体も含む。
【0054】
哺乳類リグナンは、植物リグナンから腸内細菌により代謝産生され、エストロゲン様作用を有する代謝産物である。
すなわち、植物リグナンは、それ自体がエストロゲン様作用の役割を果たすものではないが、腸内細菌の代謝によりセコイソラリシレシノール(SECO)及びDDSI等の中間代謝物を経てエンテロジオール(ED)ないしはエンテロラクトン(EL)に変換され、エストロゲン様作用を発揮するようになる。
哺乳類リグナンは、特に制限されるものではなく、植物リグナン起源であってエストロゲン様作用を有する代謝産物であればよく、好ましくはエンテロラクトン又はそれらの抱合体である。
哺乳類リグナン抱合体を形成する水溶性物質としては、グルクロン酸、硫酸、グルタチオン及びアミノ酸から選ばれる1種以上が挙げられる。アミノ酸としては、生体内に存在するアミノ酸、例えば必須アミノ酸が挙げられる。
哺乳類リグナンは、経口投与などによって直接摂取する以外にも、セサミン、ヒドロキシマタイレシノール、マタイレシノール、セコイソラリシレシノール(SECO)、セコイソラリシレシノールジグルコシド(SDG)、シリンガレシノール、アークチゲニン、ラリシレシノール、ピノレシノール等の植物リグナンを含有する食品等を経口摂取することで、腸内細菌による代謝を介して体内の哺乳類リグナン量を増加させることができる。
哺乳類リグナンの定義には、上記した化合物の任意の幾何異性体又は立体異性体又は異性体の任意の混合物(例えばラセミ体)を含み、上記した化合物の塩、付加物及び複合体も含む。
【0055】
第1実施形態の推定方法によれば、推定対象者は、糞便試料を調べるだけで、哺乳類リグナンを摂取した場合の哺乳類リグナン産生能を推定できるので、従来に比べて簡便且つ非侵襲的に推定対象者の哺乳類リグナン産生能を推定可能である。
【0056】
第1実施形態の推定方法によれば、推定対象者は、過去の被験者のデータセットから得られた学習モデルである第2判別モデルL2を用いてエンテロラクトンの産生能の有無を推定するので、より正確にエンテロラクトンの産生能の有無を推定できる。
【0057】
第1実施形態の推定方法によれば、細菌の存在比率を、16S rRNA領域を対象にして糞便試料を解析して得られた全リードデータの中から無作為に10000リードを抽出し、抽出した10000リード当たりのそれぞれの細菌のリード数で算出するため、推定対象者の糞便試料ごとに総リード数が異なっていても、推定対象者間で腸内細菌叢の組成を横並びで評価することができる。
【0058】
上記した実施形態では、第2判別モデルL2を用いて推定対象者の糞便試料の特定細菌叢データからEL産生能の有無を判別したが、本発明はこれに限定されるものではなく、第2判別モデルL2を用いずに推定対象者のEL産生能の有無を判別してもよい。
以下、本発明の第2実施形態の推定方法として詳細に説明する。
【0059】
第2実施形態の推定方法は、推定対象者の糞便試料からRuminococcaceae.UCG.002属、Lachnospiraceae.UCG.008属、及びRuminococcus.torques.group属のうち少なくとも2種の細菌の存在比率を算出し、各存在比率の合計値を基準値と比較する。そして、基準値以上の場合にはEL産生能ありとし、基準値未満の場合にはEL産生能なしとして判別する。
【0060】
このときの基準値は、2種類の場合において、0.02超過であることが好ましく、0.05以上であることがより好ましい。
また基準値は、2種類の場合において、0.50未満であることが好ましく、0.20以下であることがより好ましい。
このときの基準値は、3種類の場合において、0.1超過であることが好ましく、0.2以上であることがより好ましく、0.7以上であることがさらに好ましい。
また基準値は、3種類の場合において、2未満であることが好ましく、1.5以下であることがより好ましく、1.0以下でさらにあることがより好ましい。
【0061】
第2実施形態の推定方法によれば、Ruminococcaceae.UCG.002属、Lachnospiraceae.UCG.008属、及びRuminococcus.torques.group属のうち少なくとも2種の細菌の存在比率が算出できれば、EL産生能の有無を判別できるので、EL産生能の有無を容易に判別できる。
【0062】
上記した第1実施形態では、第1判別モデルL1の適合性を確認するために第1検証工程を行い、第2判別モデルL2の適合性を確認するために第2検証工程を行ったが、本発明はこれに限定されるものではない。第1検証工程及び/又は第2検証工程を省略してもよい。
【0063】
上記した第1実施形態では、第1判別モデル作成工程と第2判別モデル作成工程において、ともに機械学習アルゴリズムとしてランダムフォレストに固定していたが、本発明はこれに限定されるものではない。
第1検証工程及び第2検証工程にて最も適合性が高い機械学習アルゴリズムによって作成された学習モデルを判別モデルL1,L2としてもよい。
例えば、第1判別モデルL1は、検証用データセットT1-2を用いたエンテロラクトンの産生能の有無に関する予測値の実測値に対する正解率(Accuracy)が最も大きい学習モデルを使用してもよい。
すなわち、上記した第1実施形態では、第1判別モデルL1の機械学習アルゴリズムとしてランダムフォレストを使用しているが、他の機械学習アルゴリズムの方が、ランダムフォレストよりも正解率が高い場合には、第1判別モデルL1として他の機械学習アルゴリズムを用いた学習モデルを使用してもよい。
同様に、第2判別モデルL2は、検証用データセットT2-2を用いたエンテロラクトンの産生能の有無に関する予測値の実測値に対する正解率(Accuracy)が最も大きいモデルを使用してもよい。
すなわち、上記した第1実施形態では、第2判別モデルL2の機械学習アルゴリズムとしてランダムフォレストを使用しているが、他の機械学習アルゴリズムの方が、ランダムフォレストよりも正解率が高い場合には、第2判別モデルL2として他の機械学習アルゴリズムを用いた学習モデルを使用してもよい。
【0064】
上記した第1実施形態では、第1判別モデル作成工程において第1判別モデルL1のROCカーブのAUCが0.7以上となると、第1検証工程に移行していたが、本発明はこれに限定されるものではなく、第1判別モデル作成工程から第1検証工程への移行する基準は特に限定されない。十分な精度があることが確認できれば、AUCが0.7以下でも第1判別モデル作成工程から第1検証工程に移行してもよい。
同様に、第2判別モデル作成工程において第2判別モデルL2のROCカーブのAUCが0.7以上となると、第2検証工程に移行していたが、本発明はこれに限定されるものではなく、第2判別モデル作成工程から第2検証工程への移行する基準は特に限定されない。十分な精度があることが確認できれば、AUCが0.7以下でも第1判別モデル作成工程から第2検証工程に移行してもよい。
【0065】
上記した第2実施形態では、Ruminococcaceae.UCG.002属、Lachnospiraceae.UCG.008属、及びRuminococcus.torques.group属のうち少なくとも2種の細菌の存在比率の合計値を基準値と比較したが、本発明はこれに限定されるものではない。細菌の存在比率の乗算値を基準値と比較してもよい。
【0066】
本開示は、推定対象者から採取された糞便試料に含まれるRuminococcaceae.UCG.002属、Lachnospiraceae.UCG.008属、及びRuminococcus.torques.group属からなる群より選択される2以上の細菌の存在比率に基づき、前記推定対象者の哺乳類リグナン産生能を推定するための情報を取得する方法、並びに、当該情報を提供する方法を包含する。
【0067】
上記した実施形態は、本発明の技術的範囲に含まれる限り、各実施形態間で各構成要素を自由に置換や付加できる。
【実施例0068】
以下、本発明を実施例により具体的に説明するが、本発明はこれらの実施例により限定されるものではない。
【0069】
(実施例1)
実施例1の推定方法は、第1実施形態と同様、主に前処理工程と学習モデル生成工程と推定工程で構成されている。
【0070】
(前処理工程)
<データ処理と統計解析>
データの処理と統計解析は、特に記載がない限り、統計解析ソフトであるRを使用した。解析に使用したパッケージは、すべてCRAN(https://cran.r-project.org/)に公開されているものを使用した。
【0071】
<被験者及び試料採取>
実施例1では、ゴマなどから植物リグナンを摂取する食習慣があり、EL産生能を有する人が存在することが報告されていることから、日本人を被験者とした。
具体的には、日本人の被験者233名を対象とし、147名の第1集団Aと、86名の第2集団Bとに分割した。
第1集団Aの被験者へは、事前にローストアマニ粉末5g入りスティックを15本配布し、採便・採血予定日の直近2週間に定期的に摂取するよう依頼した。ローストアマニ粉末は、亜麻種子を焙煎処理した後粉砕することで得た。
第2集団Bの被験者へは、ローストアマニの摂取を推奨しなかった。
【0072】
各被験者から、エンテロラクトン分析に使用する血液試料と、腸内細菌叢解析に使用する糞便試料を採取した。
採取した血液試料について、3000xg、4℃で10分間遠心分離して血清を採取し、使用まで-80℃で保管した。
採取した糞便試料について、株式会社テクノスルガ製の細菌分離用糞便採取キットを使用して回収した。
具体的には、採取した糞便試料を3mLのグアニジンチオシアン酸塩溶液を含む15mLのバイアルに入れ、よく混合し、DNA抽出まで4℃で保存した。
被験者の中から、採血未実施もしくは量が不十分、採便量が不十分であった11名を除外し、第1集団Aからは136名分、第2集団Bからは86名分の血液試料と糞便試料を解析対象とした。
【0073】
<血中エンテロラクトンの測定と個人のEL産生能の定義>
(1)血中エンテロラクトン分析用の血清前処理
血清50μlに対して2%ギ酸入りメタノールを50μl添加し、1分間ボルテックスした。
10000xg、4℃で10分間遠心し、上清を抽出液として回収した。
抽出液はGLクロマトディスク 13N 0.2μm(ジーエルサイエンス株式会社製)を使用してフィルターろ過し、通過した液を哺乳類リグナン分析用サンプルとし、LC-MSMSにより分析した。
腸管管腔内で腸内細菌の代謝を受けて産生されたエンテロラクトンは、腸管から吸収される際に主にグルクロン酸による抱合を受け、血中ではほとんどがグルクロン酸抱合体として存在している。
そのため、血液中のエンテロラクトンを測定する場合、血液サンプルに脱抱合酵素を添加する前処理を行って遊離したアグリコンを測定する方法と、ELグルクロン酸抱合体(ELGlu)を脱抱合することなく測定する手法がある。
実施例1は、血液サンプルに含まれるELGluを脱抱合することなく測定した。
【0074】
(2)LC-MSMS分析用標準品
エンテロラクトンの標準品は、Cayman Chemical社製のものを使用した。
ELGluは、出発原料としてエンテロラクトンを用い、先行文献(Shoji et al., Food Chem 2014, Asai et al., Life Sci 200)の手法を一部改変して調製した。
すなわち、抱合体調製反応液(10mg/mLのマウス肝臓ホモジェネート液、0.02%のTriton X-100、1.25mMのuridine diphosphate glucuronic acid、10mMのD-saccharic acid 1,4-lactone、10mMのMgCl2、1mMのdithiothreitol、0.15MのTris?HCl)にエンテロラクトンが最終濃度100μMとなるように添加し、37℃で1時間インキュベートした。
インキュベート後、等量のメタノールを添加して反応を停止した。2倍量のクロロホルムを入れて混合・遠心分離を行い、上層を回収して濃縮・乾固した。
乾固物を水に再溶解させたのち、HPLCを使用してELGluに相当する画分を分取した。
分取物を濃縮乾固し、適切な溶媒に溶解し、以降の分析に使用した。
分取HPLCの条件は、以下(a)~(f)のとおりである。
(a)装置:Chromaster(株式会社日立ハイテク製)
(b)カラム:Intertsil ODS-3、6μm、4.6×150mm(ジーエルサイエンス株式会社製)
(c)カラムオーブン:40℃・UV検出条件:280nm
(d)移動相:A:水/アセトニトリル/酢酸(95:5:0.1)、B:アセトニトリル
(e)流速:1.5ml/min
(f)表1のグラジエントプログラム
【0075】
【表1】
【0076】
(3)ELGlu及びELのLC-MSMS分析
血中のELGlu及びELの分析は、前記前処理した血清試料を用い、液体クロマトグラフィー(Waters社製)とタンデム質量分析計(Orbitrap Elite、Thermofisher Scientific社製)を接続した装置で実施した。
被験者の血中にELGlu及びELが含まれるか否かは、標準品のリテンションタイムとMSMSフラグメントの一致をもって判断した。
【0077】
液体クロマトグラフィー条件は、以下(a)~(f)の通りである。
(a)カラム:1.7mm、10×150mmのACQUITY UPLC BEH C18 column
(b)カラムオーブン:40℃
(c)サンプル注入量:5μl
(d)移動相:A:0.1%酢酸水、B:アセトニトリル
(e)流速:0.1ml/min
(f)表2のグラジエントプログラム
【0078】
【表2】
【0079】
質量分析計の条件は、以下(a)~(c)の通りである。
(a)イオンソースモード:ネガティブイオンモード
(b)分析モード:multiple reaction monitoring (MRM)モード
(c)各化合物の検出条件(MRMペア、溶出時間[分]):EL(297/253、18.7)、ELGlu(473/297、14.1)
【0080】
EL産生能の有無の判断は、血液試料中にEL及び/又はELGluを検出した被験者を「EL産生能あり」とし、血液試料中にEL及びELGluのいずれも検出しなかった被験者を「EL産生能なし」とした。
第1集団Aは、136名中、EL産生能ありの人数が79名となり、EL産生能なしの人数が57名となった。
第2集団Bは、86名中、EL産生能ありの人数が31名となり、EL産生能なしの人数が55名となった。
【0081】
<DNA抽出と16S rRNA遺伝子に基づいたマイクロバイオーム解析>
(1)糞便試料からのDNA抽出とシーケンスデータの取得
前記保存した糞便試料を0.1mmのガラスビーズを用いたビーズビート法に供して機械的に破砕し、DNA自動分離装置(Gene Prep Star PI-80X、倉敷紡績株式会社製)を用いてDNAを抽出し、抽出したDNAを細菌の16S rRNA遺伝子のV3-V4領域を標的としてPCRで増幅させた。プライマーは、以下を使用した。
【0082】
5-TCGTCGGCAGCGTCAGATGTGTATAAGCGACAGCCTACGGGNGGCWGCAG-3(配列番号1)
5-GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGGACTACHVGGGTATCTAATCC-3(配列番号2)
【0083】
その後、増幅させた配列についてIllumina社製のMiSeqシーケンサーを用いてシーケンス解析を行い、被験者サンプルごとにリードデータを取得した。
【0084】
(2)バイオインフォマティクス及び統計解析
シーケンス解析によって得られたシーケンスデータ(FASTQファイル)を使用し、Qiimeパイプラインを用いて腸内細菌叢解析を行った。
統計解析ソフトPythonのAnaconda packageを使用してシークエンスデータのFASTAQファイルをQiimeへ代入し、得られた配列を用いて97%の類似性でクラスタリングを行い、OTU(operational taxonomic unit)を作成し、得られたOTUはSILVAデータベースを用いて系統分類した。
ここで、この時点で取得したリードデータは、サンプルごとに総リード数が異なるため、被験者間で腸内細菌叢の組成を横並びで評価するのは難しい。
そこで、実施例1では、16S rRNAの解析から得られたリードデータを基に腸内細菌叢組成を解析する場合、被験者の全リードデータからランダムに10000リードをピックアップし、その10000リード内における各種細菌のリード数を算出して10000リード当たりの存在比率を示す数値データに変換し、この存在比率を示すデータを解析に使用する。
すなわち、各被験者のリードデータそれぞれについて、ランダムにピックアップした10000リードにおける各種細菌のリード数をもとに、各種細菌の存在比率を求めた。
その後、caret R packageのnearZeroVar機能を用いて、分散がゼロに近い変数と変数間で高い相関を持つ項目を除去した(cutoff [r] > 0.9)。
これらの処理により得られたデータから、個々の細菌の属レベルでの存在比率を示すデータを抽出し、被験者ごとに細菌の属レベルでの個々の存在比率で構成される被験者集団全体の腸内細菌叢データを得た。
【0085】
(3)解析用データセットの作成
上記により得られたデータを基に、EL産生能の有無に関する分類データと、腸内細菌叢データを被験者ごとに紐づけて被験者集団全体のデータセットを作成した。
次に、この全体のデータセットを、第1集団Aの136名のデータセット(以下、データセットA1ともいう)と、第2集団Bの86名のデータセット(以下、データセットB1とする)に分割した。
データセットA1は、機械学習を通した判別モデルの作成や重要度の高い説明変数の算出に使用するデータとした。
データセットB1は、データセットA1を使用して作成した判別モデルの外挿性を確認するためのデータとした。
【0086】
(機械学習工程)
<第1判別モデルL1の作成>
データセットA1(136名分)について、caret R packageのcreateDataPartitionを使用し、学習用データセットT1-1として80%(110名)、検証用データセットT1-2として20%(26名)に分けた。
この際、各データセットT1-1,T1-2の間でEL産生能を有する被験者(目的変数)の分布が同じ程度になっていることを確認した。
【0087】
次に、トレーニング用のデータセットT1-1を使用して、caret R packageのtrain機能を用いたランダムフォレスト解析を行い、説明変数(腸内細菌叢データ)から目的変数(EL産生者)を判別する学習モデルの作成を行った。
決定木の数、チューニング範囲、クロスバリデーション回数などの各種パラメーターを調整して演算を繰り返し、作成した学習モデルの中で最も精度が高いと考えられる学習モデルを第1判別モデルL1とした。
得られた第1判別モデルL1の学習結果の混同行列を表3に示す。
【0088】
【表3】
【0089】
第1判別モデルL1の学習結果は、ROCカーブ(Receiver Operatorating Characteristic curve)のAUC(Area Under Curve)が0.713となり、正解率(Accuracy)が0.743となった。
ここで、正解率(Accuracy)は、全予測正答率を表し、以下の数式(1)により算出される。
【0090】
【数1】
【0091】
なお、TPは、実際の代謝能がEL産生能ありで、予測代謝能がEL産生能ありの場合(真陽性)を表す。
FPは、実際の代謝能がEL産生能なしで、予測代謝能がEL産生能ありの場合(偽陽性)を表す。
TNは、実際の代謝能がEL産生能なしで、予測代謝能がEL産生能なしの場合(真陰性)を表す。
FNは、実際の代謝能がEL産生能ありで、予測代謝能がEL産生能なしの場合(偽陰性)を表す。
【0092】
すなわち、正解率(Accuracy)は、EL産生能なしと予測され、実際にEL産生能なしの真陰性の場合(26.8%)、及びEL産生能ありと予測され、実際にEL産生能ありの真陽性(47.5%)を合算した値に等しい。
【0093】
次に、第1判別モデルL1の精度を示すROCカーブのAUCが一般的な目安とされる0.7以上となり、精度が一定以上となったので、caret R packageのpredict機能を使用して検証用データセットT1-2の説明変数を第1判別モデルL1に代入してランダムフォレスト解析を行い、第1判別モデルL1の精度と信頼度を評価した。
得られた第1判別モデルL1の評価結果の混同行列を表4に示す。
【0094】
【表4】
【0095】
第1判別モデルL1の評価結果は、ROCカーブのAUCが0.785、正解率(Accuracy)が0.808となり、kappa係数が0.591となった。
すなわち、第1判別モデルL1の評価結果は、その精度を示すAUCと正解率(Accuracy)が0.75以上の高い値を取り、その信頼度を示すkappa係数が0.55以上の高い値(一般的な信頼度の目安は0.4以上)となった。
この結果から、第1判別モデルL1は、精度及び信頼度が高く、EL産生能の有無を判定するモデルとして有用であると考えられる。
【0096】
次に、第1判別モデルL1における重要度の高い説明変数(腸内細菌)を確認した。
具体的には、第1判別モデルL1に対して、説明変数の重要度を算出させるcaret R packageのVarImp機能を適用させ、「重要度」の高い細菌上位20種を算出した。算出結果を図1に示す。
図1に示されるように、各細菌の中でも、特に上位3種(Ruminococcaceae.UCG.002属、Lachnospiraceae.UCG.008属、及びRuminococcus.torques.group属)の重要度が突出して高いことが分かった。
このことから、第1判別モデルL1において重要度が高い3菌種の存在比率データのみを使用することで、EL産生能を判別できる可能性が示唆された。
使用する細菌種の数を少なくすることで判別結果の出力に要する時間が短縮され、腸内細菌叢データすべてを使用した時と比較し、より簡便かつ素早く判別できるようになることが期待される。
【0097】
<第2判別モデルL2の作成>
第1判別モデルL1において重要度の高い3種(Ruminococcaceae.UCG.002属、Lachnospiraceae.UCG.008属、及びRuminococcus.torques.group属)の存在比率データとEL産生能の有無に関する分類データを使用し、第2判別モデルL2を作成した。
具体的には、データセットA1から、第1判別モデルL1を用いて同定された重要度の高い3種(Ruminococcaceae.UCG.002属、Lachnospiraceae.UCG.008属、及びRuminococcus.torques.group属)の存在比率データと、EL産生能の有無に関する分類データを抽出した。
これにより、各被験者の腸内細菌3種の存在比率のみの存在比率データと分類データとのデータセットA2を得た。
このデータセットA2を、データセットA1と同じ方法で学習用データセットT2-1(110名)、検証用データセットT2-2(26名)に振り分けた。
この際、各データセットT2-1,T2-2の間でEL産生能を有する被験者(目的変数)の分布が同じ程度になっていることを確認した。
【0098】
次に、学習用データセットT2-1を使用して、caret R packageのtrain機能を用いたランダムフォレスト解析を行い、説明変数(腸内細菌叢データ)から目的変数(EL産生能の有無)を判別する学習モデルを作成した。その結果、学習モデルの中で最も精度が高いと考えられる学習モデルを第2判別モデルL2とした。
得られた第2判別モデルL2の学習結果の混同行列を表5に示す。
【0099】
【表5】
【0100】
第2判別モデルL2の学習結果は、ROCカーブのAUCが0.779、正解率(Accuracy)が0.801となった。
【0101】
次に、第2判別モデルL2の精度を示すROCカーブのAUCが0.7以上となり、精度が一定以上となったので、caret R packageのpredict機能を使用して検証用データセットT2-2の説明変数を第2判別モデルL2に代入してランダムフォレスト解析を行い、第2判別モデルL2の精度と信頼度を評価した。
得られた第2判別モデルL2の評価結果の混同行列を表6に示す。
【0102】
【表6】
【0103】
第2判別モデルL2の評価結果は、ROCカーブのAUCが0.830、正解率(Accuracy)が0.845、kappa係数が0.677となった。
すなわち、第2判別モデルL2の評価結果は、その精度を示すAUCと正解率(Accuracy)が0.8以上の高い値を取り、その信頼度を示すkappa係数が0.65以上の高い値となった。
この結果から、第2判別モデルL2は、精度及び信頼度が高く、EL産生能の有無を判定するモデルとして有用であると考えられる。
【0104】
(推定工程)
外挿性を確認するデータセットとして、データセットB1から、第1判別モデルL1を用いて同定された重要度の高い3種(Ruminococcaceae.UCG.002属、Lachnospiraceae.UCG.008属、及びRuminococcus.torques.group属)の存在比率データと、EL産生能を示すデータを抽出し、各被験者のEL産生能と腸内細菌3種の存在比率とを紐づけたデータセットB2を得た。
【0105】
続いて、caret R packageのpredict機能を使用して、データセットB2の説明変数を第2判別モデルL2に代入してランダムフォレスト解析を行い、判別精度と信頼度を評価した。
得られた第2判別モデルL2の判別結果の混同行列を表7に示す。
【0106】
【表7】
【0107】
第2判別モデルL2の判別結果は、ROCカーブのAUCが0.709、正解率(Accuracy)が0.7093となり、kappa係数が0.40となった。
この結果から、被験者(推定対象者)のRuminococcaceae.UCG.002属、Lachnospiraceae.UCG.008属、及びRuminococcus.torques.group属の3種の腸内細菌データを使うことで、被験者(推定対象者)のEL産生能の有無を精度良く判別できるとわかった。
【0108】
(実施例2)
データセットB1から、実施例1の第1判別モデルL1で同定された重要度の高い3種のうち、Ruminococcaceae.UCG.002属及びLachnospiraceae.UCG.008属の存在比率データと、EL産生能の有無に関する分類データを抽出した。
これにより、各被験者のEL産生能(目的変数)と腸内細菌2種の存在比率(説明変数)のデータセットB3を得た。
【0109】
続いて、データセットB3に含まれる2種の存在比率の数値を被験者ごとに合計し、この合計値に対して任意に設定した一定の基準値以上の場合に、その被験者をEL産生能ありと判別する方法で被験者(推定対象者)のEL産生能の有無を判定した。
表8に、設定した基準値と正答率と評価の結果を示す。
なお、正答率は、((実際にEL産生能ありの被験者数)/(EL産生能ありと予想された被験者数)×100)によって算出した。
また、評価は、正答率が70%以上のものをAとし、正答率が60%以上70%未満のものをBとし、正答率が60%未満のものをCとした。
【0110】
【表8】
【0111】
基準値が0.02超過0.50未満の範囲で正答率が70%以上となってA評価となり、基準値が0以上0.02以下の範囲及び0.50以上1未満の範囲で正答率が60%以上となってB評価となった。
このことから、基準値を0以上1未満の範囲とすることで十分な正答率が得られ、基準値を0.02超過0.50未満の範囲とすることで、実施例1の第1判別モデルL1で同定した腸内細菌3種(Ruminococcaceae.UCG.002属、Lachnospiraceae.UCG.008属、及びRuminococcus.torques.group属)のうち少なくとも2種のみの存在比率のデータであっても、第2判別モデルL2による3種の判定と同程度の精度で判別でき、良好な精度となることがわかった。
【0112】
(実施例3)
データセットB1から、実施例1の第1判別モデルL1で同定された重要度の高い3種である、Ruminococcaceae.UCG.002属、Lachnospiraceae.UCG.008属、及びRuminococcus.torques.group属の存在比率データと、EL産生能の有無に関する分類データを抽出した。
これにより、各被験者のEL産生能(目的変数)と腸内細菌3種の存在比率(説明変数)のデータセットB4を得た。
【0113】
続いて、データセットB4に含まれる3種の存在比率の数値を被験者ごとに合計し、この合計値に対して任意に設定した一定の基準値以上の場合に、その被験者をEL産生能ありと判別する方法で被験者(推定対象者)のEL産生能の有無を判定した。
表9に、設定した基準値と正答率と評価の結果を示す。
【0114】
【表9】
【0115】
基準値が0.1超過2未満の範囲で正答率が60%以上となり、B評価となった。
このことから、基準値を0.1超過以上2未満の範囲とすることで十分な正答率が得られ、実施例1の第1判別モデルL1で同定した腸内細菌3種(Ruminococcaceae.UCG.002属、Lachnospiraceae.UCG.008属、及びRuminococcus.torques.group属)の存在比率のデータがあれば、十分な精度の予測が可能となることがわかった。
【0116】
以上のことから、腸内細菌3種(Ruminococcaceae.UCG.002属、Lachnospiraceae.UCG.008属、及びRuminococcus.torques.group属)について、少なくとも2種の存在比率データの組み合わせにより、被験者(推定対象者)のEL産生能の有無を十分な精度で推定できることがわかった。
また、腸内細菌3種(Ruminococcaceae.UCG.002属、Lachnospiraceae.UCG.008属、及びRuminococcus.torques.group属)の存在比率のうち、2種の存在比率のデータを使用することで、3種の存在比率のデータを使用する場合に比べてより良好な精度で推定できることがわかった。
【符号の説明】
【0117】
A 第1集団
A1,A2 データセット
B 第2集団
B1~B4 データセット
L1 第1判別モデル
L2 第2判別モデル
図1
【配列表】
2024053409000001.xml