【文献】
横山 茂樹,誰でも分かる医療データマイニング,日本,ゼネラルヘルスケア株式会社(SPP出版) 竹澤 慎,2014年 2月14日,第1版,pp.176-185,ISBN 978-4-9907308-0-2
【文献】
足立 浩平,多変量解析実例ハンドブック,日本,株式会社朝倉書店 朝倉 邦造,2002年 6月25日,第1版,pp.287-293,348-368,ISBN 4-254-12147-4
(58)【調査した分野】(Int.Cl.,DB名)
前記所定の健康状態データと統計的に有意な関係のある菌群データを抽出できない場合、前記細菌叢解析及び/又は前記DNAフィンガープリント法へフィードバック処理を行う請求項2に記載のコンピュータによる菌群抽出方法。
前記フィードバック処理は、前記細菌叢解析に対しては他の細菌叢解析を読み込み、前記DNAフィンガープリント法に対しては、他のDNAフィンガープリント法の適用、又は、OTU範囲設定を変更する請求項3に記載のコンピュータによる菌群抽出方法。
【発明を実施するための形態】
【0019】
図面を参照しながら本発明の実施の形態を説明する。なお、各図において共通する部分には同一の符号を付し、重複した説明は省略する。
【0020】
(腸内細菌叢DB作成システム)
図1は、本発明の実施形態に係る腸内細菌叢DB作成システムの全体概略図である。腸内細菌叢DB作成システム10は、複数の被験者が提出する採便キット、並びに、健康状態(疾病又は未病)に関するアンケートから腸内細菌叢データベース(DB)を作成する。ここで、被験者は健康体と疾病者の両方が含まれており、被験者IDを有する約3,000人である。
【0021】
腸内細菌叢DB作成システム10は、被験者の採便キットから腸内細菌叢に関するDNA溶液を抽出する腸内細菌DNA抽出装置100と、DNA(デオキシリボ核酸)溶液から腸内細菌叢に関するデータを解析する腸内細菌叢解析装置200と、腸内細菌叢に関するデータ、及び、採便キットを提出した同じ被験者IDの健康状態に関するアンケートから、被験者の疾病情報と統計的に有意な関係のある菌群を抽出する菌群抽出装置300と、抽出した菌群に関する情報(疾病と関連性のある菌群)を格納する腸内細菌叢DB500を備える。
【0022】
また、被験者ID毎の健康状態に関するアンケートはアンケートDB400に格納されている。被験者からのアンケート情報には、被験者の属性情報(年齢、性別など)、食生活等の生活習慣と身体情報から得られる健康状態データ(血液検査の結果、疾病など)が含まれている。
【0023】
菌群抽出装置300は、解析された腸内細菌叢から菌群データを作成し菌群データ間を比較する菌群作成部310と、比較された菌群データ、及び、アンケートに記載されている被験者の健康状態データを用いて統計解析する統計解析部320と、所定の疾病データと統計的に有意な関係のある菌群データを抽出する菌群抽出部330を備える。菌群抽出装置300はハードウェアでの実装に限られず、プログラム等のソフトウェアとしてコンピュータに実装されていてもよく、その実装形態は限定されない。例えば、パーソナルコンピュータ等のクライアント端末と有線又は無線の通信回線(インターネット回線など)に接続された専用サーバにインストールされて実装されていてもよいし、いわゆるクラウドサービスを利用して実装されていてもよい。
【0024】
図2は、本実施形態に係る腸内細菌叢DB作成方法の全体フローチャートである。腸内細菌DNA抽出装置100は、採便キットに保存された大便保存液からDNA溶液を抽出する(S100)。腸内細菌叢解析装置200は、DNA溶液から塩基配列群を解析する(S110)。塩基配列群は、被験者の大便から検出された全ての塩基配列に相当し、3,000人の被験者で1人当たり1万の塩基配列が検出されたとすると、大便由来の細菌の3,000万塩基配列のパラメータになる。
【0025】
菌群抽出装置300の菌群作成部310は、後述する細菌叢またはOTU群を作成する(S120)。本実施形態では、細菌叢及びOTU群を菌群という。
【0026】
菌群作成部310はDNAフィンガープリント法を適用する場合、T−RFLP解析を用いる。T−RFLP(Terminal − Restriction Fragment Length Polymorphism)では、DNA断片長による細菌の分類を行い、分類毎に集計してOTUを作成することができる。OTUは操作的分類単位(Operational Taxonomic Unit)といい、「AluI_1.0_3」などの分類の条件に沿った名前が菌の判別パターンとして付けられる。このような名前によって、制限酵素「Alu I」を使用し、足切り「1.0(%)」のOTUのうち、DNA断片長が3番目であると識別することが可能になる。
【0027】
また、OTUは、分類の条件によって系統分類学的な既知菌、未知菌を含む。OTUに含まれる既知菌の種類とその相対量は、DNAフィンガープリント法に対応する塩基配列の細菌叢と比較することで算出できる。なお、「Alu I(又はAlu−I)」は制限酵素の一例である。この制限酵素によってDNAを操作的に切断し、最終的にはOTUに分類することが可能になる。
【0028】
菌群抽出装置300の統計解析部320は、菌群、及び、アンケートに記載されている被験者の健康状態を用いて統計解析する(S130)。統計解析では、菌群と健康状態との関係性を探索するモデルを使用する。例えば、ロジスティック回帰分析、共分散構造解析を用いる。
【0029】
被験者の健康状態は、被験者ID毎に、未病または疾病が記録されている。疾病としては、例えば、「アトピー」、「喘息」、「心臓病」、「大腸がん」、「胃腸病」、「肝臓病」、「腎臓病」、「糖尿病」、「高血圧」、「脂質異常」、「低体重(BMI)」、「肥満(BMI)」、「骨病」、「関節痛」、「うつ」などが挙げられる。これらの疾病は、被験者の自己申告による疾病でもよいし、医師の診断による疾病であってもよい。
【0030】
菌群抽出装置300の菌群抽出部330は、複数の被験者の疾病情報と統計的な有意な関係のある菌群を抽出する(S140)。そして、抽出された菌群は、腸内細菌叢DB500に菌群に関する情報として格納される(S150)。この菌群に関する情報が、複数の被験者から得られる疾病と関連性のある特定の特徴を持つ菌群であり、例えば、アトピーと関連性のある菌群、それらの菌群の構成、及び、構成する菌を示す塩基配列などが挙げられる。
【0031】
図3は、本実施形態に係るDNA抽出方法のフローチャートである。腸内細菌DNA抽出装置100が、被験者の大便検体に含まれる腸内細菌DNAを抽出する処理の流れを説明する。この抽出処理は一般的な方法であり、本実施形態がこの処理に限定されるものではない。
【0032】
抽出業者は約3,000人の被験者に採便キットを渡し、被験者は各自の大便をトイレで排泄し、それを採便キットで大便検体を採取する。採便キットは、既存の製品を用いればよい。また、被験者は、健康状態に関するアンケートを記入し、アンケート回収業者に提出する。アンケート回収業者はアンケート結果をアンケートDB400に格納する。
【0033】
抽出業者は、採便キットで採取された大便保存液を被験者から受け取る(S200)。抽出業者は、腸内細菌DNA抽出装置100に大便保存液を入力すると、腸内細菌DNA抽出装置100はまず、大便試料に含まれる細菌に対して溶菌処理を行う(S210)。溶菌処理とは、溶菌酵素処理や、物理的な破砕処理等によって細菌(細胞)を破砕する処理である。
【0034】
溶菌処理された試料は、フェノール・クロロホルム法により、細胞内外に含まれるタンパク質が除去される(S220)。
【0035】
酵素処理とエタノール沈殿法を用いて、試料に含まれるDNA以外の物質を除去し、DNAを精製する(S230)。そして、大便由来DNA溶液を保存する(S240)。
【0036】
図4及び
図5は、本実施形態に係る塩基配列群解析方法のフローチャートである。DNA溶液を受け取った解析業者は、腸内細菌叢解析装置200にDNA溶液を入力し、大便由来の塩基配列群を解析する。なお、抽出業者と解析業者を分けて説明したが、同一の事業者が抽出作業と解析作業を行ってもよい。
【0037】
DNAの塩基配列を解読する作業は単にDNAシークエンスとも呼ばれる。DNAシークエンスは大きく分けて2つの工程からなる。第1の工程は実験での手作業であり、ウェット作業と呼ばれる。第2の工程はPC(パーソナルコンピュータ)での作業であり、ドライ作業と呼ばれる。このDNAシークエンスは一般的な方法であり、本実施形態がこの処理に限定されるものではない。
【0038】
まず
図4を用いて、第1の工程(ウエット作業)を説明する。解析業者はDNA溶液をサンプル(鋳型)として、オーバーハング配列の付いたプライマーを用いた第1のPCR増幅を行う。PCRとは、ポリメラーゼ連鎖反応(Polymerage Chain Reaction)をいう。DNAをPCR増幅した後に、第1のPCR産物を精製する(S300)。アガロースゲル電気泳動を用いて、第1のPCR産物のDNAの長さ(バンド)を確認する(S310)。
【0039】
解析業者は第1のPCR産物に対して、インデックス配列の付いたプライマーを用いた第2のPCR増幅を行う(S320)。全自動電気泳動システムを用いて、第2のPCR産物のDNAの長さ(バンド)を確認する(S330)。
【0040】
解析業者は第2のPCR産物の濃度調整を行い、DNAの二重らせん構造を一本鎖に変性させる(S340)。そして、一本鎖をライブラリとして次世代シーケンサ(Next Generation Sequencer;NGS)にアプライし、DNAシークエンスを行う(S350)。
【0041】
次に
図5を用いて、第2の工程(ドライ作業)を説明する。S350のシークエンス解析から得られたペアリードの塩基配列を1つにつなげる(S400)。ペアリードとは、1つの長い配列から領域の異なる短い2つの配列が検出されることをいう。なお、S400のペアリードの解析は本実施形態に必須の処理ではなく、省略してもよい。
【0042】
塩基配列のうち、解読の精度が悪い配列を取り除く。取り除く際に、S350のシークエンス解析のクオリティ情報が低いものを取り除くため、クオリティ・フィルタリングと呼ばれる(S410)。
【0043】
DNAを増幅するために用いたプライマー配列を除去する(S420)。さらに、キメラ配列も除去する(S430)。キメラ配列は、元々のDNA溶液には含まれていないと推定される配列である。
【0044】
このようにして1検体当たり約1万の塩基配列を解読する作業を、約3,000人の被験者に行い、合計3,000万ほどの塩基配列を大便由来の細菌の塩基配列群として抽出する(S440)。
図6は、その塩基配列の一例を示す。
【0045】
図7は、本実施形態に係る菌群作成、統計解析及び菌群抽出に関する一連の処理のフローチャートである。これは、
図2の菌群作成処理(S120)、統計解析処理(S130)、及び、菌群抽出処理(S140)を詳細に説明した図である。ここで、菌群とは、細菌叢とOTU群を包括する概念である。細菌叢とは、それぞれの菌名毎の相対量で表すことができる。ここで菌名がつくことは、公知のデータベースに菌の配列が登録されている菌(既知菌)であり、公知のデータベースに登録されていない菌は未知菌(Unclassified)としてまとめる。また、OTU群とは、あるDNAフィンガープリント法の条件で作成されたOTUの集団を示す。
【0046】
この図の入力データは、
図5のS440で抽出した被験者人数分の大便由来の細菌の塩基配列群である。本実施形態では、入力データの母集団は全被験者(約3,000人)の集団である。なお、菌群抽出解析の目的によっては、被験者のアンケート情報を用いて、母集団を性別や年齢で制限してもよい。
【0047】
本実施形態では、細菌叢解析について説明してから、DNAフィンガープリント法について説明するが、これらの手法を用いる順番に特に決まりは無い。
【0048】
S500では、被験者全員分の塩基配列群に対して、系統分類学的な細菌叢解析を行う。ここでは、コンピュータを用い、塩基配列に対応する菌属名をつける。被験者全員分の塩基配列群に適用する細菌叢解析パイプラインでは、菌の判別にRDP(Ribosomal Database Project) Classifierを、参照データベースにRDPデータベースを用いる。
【0049】
S510では、細菌叢の作成を行う。具体的には、細菌叢解析を適用し、被験者毎に菌名がついた細菌叢(菌名毎の相対量、例えば、Bifidobacterium 10.0%)を作成する。すなわち、菌属ごとに集計し、各菌属の割合(%)を出す。
図8が被験者ID毎(一例としてID=001〜010のみ値を記載)についての細菌叢(菌属)%の表である。
【0050】
S520では、被験者全員分の塩基配列群に対して、DNAフィンガープリント法による解析を行い、塩基配列に対応するOTU名をつける。ここでは、DNAフィンガープリント法の初期設定の読み込みを行う。または、後述するフィードバック設定の読み込みを行っても良い。
【0051】
DNAフィンガープリントを適用する手法(OTU化手法ともいう)には、末端標識制限酵素断片多型解析(T−RFLP)解析(制限酵素によるDNAの断片化[整数])を用い、制限酵素はAlu I、Msp Iを用いる。
【0052】
(初期設定)
OTU範囲設定手法(初期設定)については、
図9〜
図12を用いて説明する。まず、母集団(被験者全員)のDNA断片長(整数)の相対量のヒストグラムを作成する。
図9は、被験者ID及びDNA断片長の一例を示す表である。同図(a)が被験者ID毎(一例としてID=001〜010のみ値を記載)についてのDNA断片長(1bp単位)の表である。
【0053】
次に、ある検体の菌群に含まれるOTUの相対量(占有率)での足切り(0.5%、1.0%)を設定する。
図9では、0%(足切り無し)、0.5%、1.0%で実施した。同図(b)は占有率での足切り値毎のDNA断片長の頻度を、同図(c)は足切り値毎のDNA断片長の頻度の1回差分値を、同図(d)は足切り値毎のDNA断片長の頻度の2回差分値の表である。
【0054】
さらに、
図9(b)のDNA断片長の頻度のヒストグラム(DNA断片長を短い順に並べた頻度分布)に対し、ピーク解析を実施する。ここでは、2回差分値で、+(プラス)→−(マイナス)→0(ゼロ)となる値をピークとして検出する。
【0055】
最後に、ピーク毎にOTU化を行う。
図10は足切り値0.0%(足切り無し)の場合のOTU群を、
図11は足切り値0.5%の場合のOTU群を、
図12は足切り値1.0%の場合のOTU群を示す。このようにして被験者毎のOTU群を作成する(S530)。ここで、OTU群は、DNAフィンガープリント法による菌の分類単位であり、OTUごとに集計したものである。
【0056】
被験者毎にOTU名での菌群(相対量で示す、例えばOTU_123 30%)が作成される。本実施形態では、T−RFLP解析手法を適用しており、制限酵素ごとにOTU菌群が作成される。さらに足切り条件の数だけ菌群が作成される。後述する疾病毎の実施例においては、制限酵素2つ(Alu I、Msp I)、足切り条件2つ(0.5%、1.0%)で合計4つの菌群が作成される。
【0057】
DNAフィンガープリント法としては、T−RFLPと同じくDNA断片長を指標とする制限酵素断片多型解析(RFLP)法や塩基配列中のGC含量を指標とした勾配ゲル電気泳動(Gradient Gel Electrophoresis、GGE)法などを用いてもよい。それぞれの手法ごとに、目的に応じたOTU範囲設定を設定する必要がある。
【0058】
OTU範囲設定によって、OTUの解像度が変更される。例として、ある検体の菌群に含まれるOTUの相対量(占有率)を足切りすることによってヒストグラム上のピーク検出が変わり、OTU範囲設定が変わる、つまり解像度が変わる。
【0059】
占有率での足切り基準を設定する場合は、基本的に足切り基準を高く設定したほうが、解像度が低くなり、逆に足切り基準を低く設定すると解像度は高くなる。しかし解像度は、指標であるDNA断片長が整数で示されているので、整数の単位以上に高くはできない。足切り基準は、占有率のほか、母集団内でそのOTUを持つ被験者の数の相対量(保有率)でも設定可能である。
【0060】
S540では、塩基配列、細菌叢(菌属)、及びOTUを並べた対応表を作成し、配列で対応させた細菌叢とOTU群を比較する。
図13では、それぞれの塩基配列に対応する菌群として、細菌叢解析では菌属名を、DNAフィンガープリント法として、制限酵素Alu I(切断部位は、塩基配列中のAGとCTの間、
図13の太字で示す「AG/CT」を参照)で足切り条件2つ(0.5%、1.0%)のOTU名を並列して示している。細菌叢(菌属)とOTUの対応関係から、それぞれ菌属毎、OTU毎に集計することで、細菌叢とOTU群の比較を行うことができる。
【0061】
図13の太字で示す「AG/CT」が、制限酵素Alu Iによる切断部位を示している。配列名「seq 2」は細菌叢解析では「Unclassified(未知菌)」すなわち菌属名を特定できなかった。しかし、DNAフィンガープリント法も適用することによって、OTU名をつけることが可能になる。配列名「seq 2」について、足切り基準が0.5%ではOTU名「AluI_0.5_3」を、足切り基準が1.0%ではOTU名「AluI_1.0_4」をつけることが可能になる。
【0062】
例えば、後述する疾病毎の実施例において、制限酵素2つ(Alu I、Msp I)、足切り条件2つ(0.5%、1.0%)で合計4つの菌群が作成され、それぞれのOTU群と細菌叢の比較結果は、
図14のように示される。
図14によれば、DNAフィンガープリント法(T−RFLP適用;制限酵素Alu I)、足切り基準0.5%の場合、例えば、OTU群「AluI_0.5_1」は、菌属名「Dorea」が40%含まれ、菌属名「Unclasified(特定できず)」が30%含まれていると、解釈できる。
【0063】
S550では、アンケートDB400から菌群抽出装置300の統計解析部320へ被験者人数分(約3,000人)のアンケート情報を入力する。アンケート情報は疾病の情報を含んでいる。また、特定の疾病に関係するアンケート情報だけを入力してもよい。後述する腎臓病の実施例では約200人のアンケート情報を、高血圧の実施例では約500人のアンケート情報を用いている。
【0064】
疾病には、心臓病、肝臓病、胃の疾病、腸の疾病、大腸がん、大腸ポリープ、がん(大腸がん以外のがん)、1型糖尿病、2型糖尿病、脂質異常症(高コレステロール、高中性脂肪など)、肥満、痩せ、骨や関節の疾病(骨粗しょう症など)、腰痛、関節痛、喘息、アレルギー性鼻炎(花粉症、ハウスダストなど)、食物、薬物、金属アレルギー、アトピー性皮膚炎、自己免疫疾患、免疫異常(関節リウマチ、膠原病など)、うつ病、うつ病以外のストレス系の疾病(パニック障害など)、眼の疾病、口腔内の疾病、耳の疾病(メニエール病、中耳炎、難聴など)、風邪、けがなどを含めてもよい。
【0065】
統計解析部320は、比較された細菌叢及びOTU群それぞれに対して、アンケート情報を用いて統計解析を行う(S560とS570)。具体的には、アンケート情報の項目(例えば、ある疾病に罹患しているか、していないかの自己申告)を統計解析の目的変数に、細菌叢またはOTU群をそれぞれ別の統計解析の説明変数に設定し、統計解析を行う。
【0066】
本実施形態では、統計解析の手法としてロジスティック回帰分析を行う。なお、統計解析手法としては、分散分析、クラスター解析、判別分析、主成分分析、因子分析、相関分析、多次元尺度構成法、対応分析、冗長分析、非負値行列因子分解、重回帰分析、パス解析、決定木分析、共分散構造分析、機械学習などを用いてもよい。
【0067】
細菌叢及びOTU群それぞれに対する統計解析(S560とS570)の結果は、説明変数として用いた菌属名とOTUの対応表(その一例が
図13に相当)を参照し、菌属名のみで得られた解析結果(
図14の菌群作成パイプラインが「細菌叢解析」の場合のみ)とOTUを追加した場合(
図14全体)に得られる結果の比較を行う(S580)。
【0068】
(フィードバック設定)
図15は、本実施形態に係る菌群抽出のフィードバックに関する一連の処理のフローチャートである。
図7で説明した初期設定の読み込みを行う代わりに、フィードバック設定の読み込みを行う。このため、
図7と同じ符号については、既に説明しているため、重複した記載を省略する。
【0069】
S581では、
図7のS580で説明した統計解析結果の比較によって、しきい値以上で疾病と関係のある菌群を抽出できたかを判定する。具体的には、統計解析の説明変数として細菌叢を用いた場合と、説明変数としてOTU群を用いた場合において、それぞれ設定した基準以上で目的変数であるアンケート情報と関係のある説明変数を抽出する。細菌叢の場合は菌属名を、OTU群の場合はOTU名を抽出する。本実施形態では、統計解析としてロジスティック回帰分析を行い、設定した基準は、偏回帰係数のp値が0.05以下、オッズ比が2.00以上である。
【0070】
統計手法やデータの母集団によって基準を設定してよい。本実施形態では、目的変数に対して正の影響を与える説明変数を抽出することを目的とし、ロジスティック回帰分析での結果のオッズ比を2.00以上とした。
【0071】
逆に、目的変数に対して負の影響を与える説明変数を抽出するのであれば、1以下のオッズ比(0.50等)を設定する。本実施形態でのフィードバックは、一つの制限酵素での解像度を一方向(高血圧、Alu Iのみで足切り条件を低くする)だが、フィードバックを繰り返しても基準を満たすOTUが見つからない場合等を考慮して、別のT−RFLP解析手法内で制限酵素の選択、もしくは別のDNAフィンガープリント法の適用をフィードバック設定に含めることが可能である。
【0072】
S581の判定ステップで設定した基準に満たない場合(S581のNo)は、S520のDNAフィンガープリント法の読み込みにおいて、DNAフィンガープリント法又はOTU範囲設定に対しフィードバック処理を行う(S590)。フィードバック処理は、DNAフィンガープリント法に行う場合、制限酵素を変える等の他のDNAフィンガープリント法を適用し、又は、OTU範囲設定に対して行う場合、OTU化の解像度を変更する。S520で作成した菌群が複数ある場合は、統計解析結果が基準に近い菌群の解像度をフィードバックする。解像度は、占有率での足切り基準を変更することで実施する。
【0073】
フィードバック処理について説明する。占有率での足切り0.5%の場合の菌群と1.0%の場合の菌群において、どちらの菌群を用いた場合の統計解析の結果がより基準に近いかを判断し、基準に近い方向へフィードバックをかける。例えば、1.0%よりも0.5%の方が基準に近い場合は、足切り基準を0.5%より小さくしてOTU範囲設定を実施した後にOTU化、そして再度統計解析を実施する。フィードバックをかける単位は、それぞれの手法によって設定するが、本実施形態では、0.5%刻みで設定した。つまり、 1.0%よりも0.5%の方が基準に近い場合は、足切り0.0%(足切り無し)で菌群を作成する。
【0074】
しきい値(設定した基準)以上で疾病と関係のある菌群(例えば、OTU)が抽出されたら(S581のYes)、菌群抽出処理は終了する。なお、
図15に記載していないが、S581のNoの場合、S500で本実施例とは異なる他の細菌叢解析法を用いてフィードバック処理を行い、S510以降の同様の処理フローを行っても良い。
【0075】
(実施形態;疾病「腎臓病」と関係のある菌群を抽出)
実施形態として、疾病「腎臓病」と関係のある菌群を抽出する場合を説明する。
【0076】
目的変数は、腎臓病に罹患しているか、していないかの2値データで、説明変数は1つもしくは複数の菌群に設定する。ロジスティック回帰分析では、説明変数毎に偏回帰係数、標準誤差、z値、p値、オッズ比、オッズ比95%信頼区間下限、オッズ比95%信頼区間上限が算出される。
【0077】
図16は、本実施形態に係る菌群抽出の統計的有意性を説明するための図(腎臓病の場合)である。細菌叢を説明変数とした場合のオッズ比の最大値は、2.06(
図16の網掛け数字を参照、以下同様)であった。一方で初期設定のDNAフィンガープリント法では、制限酵素Alu Iを適用した際の占有率の足切り基準0.5%、1.0%のOTU群を説明変数とした場合のオッズ比は、共に1.35、制限酵素Msp Iを適用した際の占有率の足切り基準0.5%、1.0%のOTU群を説明変数とした場合のオッズ比は共に2.13であった。細菌叢のBifidobacteriumとOTU群の「MspI_0.5_1」と「MspI_1.0_1」で基準をクリアしたので、フィードバックを行わずに
図15の処理フローを終了した。
【0078】
図16によれば、説明変数「MspI_0.5_1」と「MspI_1.0_1」は目的変数「腎臓病」と正の影響があることが統計的に有意であると示される。従って、疾病「腎臓病」と関係があると推定される菌群として「MspI_0.5_1」と「MspI_1.0_1」を統計的に抽出することができた。
【0079】
「腎臓病」を目的変数とした場合、説明変数「MspI_0.5_1」と「MspI_1.0_1」は、細菌叢の「Bifidobacterium」を説明変数とした場合のオッズ比よりも、高いオッズ比が算出された。OTUと細菌叢の対応を示した
図14を参照すると、説明変数「MspI_0.5_1」と「MspI_1.0_1」には、主にBifidobacteriumとMegamonasが含まれている。このことは、Bifidobacteriumのみよりも、BifidobacteriumとMegamonasを組み合わせた菌群の方がより「腎臓病」との関連性が高い可能性を示している。
【0080】
(実施形態;疾病「高血圧」と関係のある菌群を抽出)
実施形態として、疾病「高血圧」と関係のある菌群を抽出する場合を説明する。
【0081】
目的変数は、高血圧に罹患しているか、していないかの2値データで、説明変数は1つもしくは複数の菌群に設定する。ロジスティック回帰分析では、説明変数ごとに偏回帰係数、標準誤差、z値、p値、オッズ比、オッズ比95%信頼区間下限、オッズ比95%信頼区間上限が算出される。
【0082】
図17は、本実施形態に係る菌群抽出の統計的有意性を説明するための図(高血圧の場合)である。細菌叢を説明変数とした場合のオッズ比の最大値は、1.08(
図17の網掛け数字を参照、以下同様)であった。一方で初期設定のDNAフィンガープリント法では、制限酵素Alu Iを適用した際の占有率の足切り基準0.5%、1.0%のOTU群を説明変数とした場合のオッズ比はそれぞれ1.96と1.92、制限酵素Msp Iを適用した際の占有率の足切り基準0.5%、1.0%のOTU群を説明変数とした場合のオッズ比はそれぞれ1.27と1.28であった。細菌叢とDNAフィンガープリント法で設定した基準を満たさなかったので、フィードバックを実施した。
【0083】
フィードバックは、DNAフィンガープリントでの2つの方法のうち、オッズ比の最大値は、制限酵素Alu Iを適用した場合の方が制限酵素Msp Iを適用した場合より高かったので、制限酵素Alu Iのパイプラインで実施した。DNAフィンガープリントの制限酵素Alu I適用の場合は、足切り基準で占有率0.5%の場合のオッズ比が、1.0%より設定した基準より高かったので、足切り基準を低くするフィードバック(0.0%で足切りを実施して再度統計解析)を実施した。足切り基準0.0%では、説明変数「AluI_0.0_4」を用いた際のオッズ比が2.05となり基準をクリアしたので、
図15の処理フローを終了した。
【0084】
図17によれば、説明変数「AluI_0.0_4」は目的変数「高血圧」と正の影響があることが統計的に有意であると示される。従って、疾病「高血圧」と関係があると推定される菌群として「AluI_0.0_4」を統計的に抽出することができた。
【0085】
「高血圧」を目的変数とした場合、説明変数「AluI_0.0_4」を用いた場合のオッズ比は、菌属を説明変数とした場合や同じ制限酵素を用いたOTUである「AluI_0.5_4」よりも、高かった。細菌叢とOTUの対応を示した
図14と
図18を参照すると、説明変数「AluI_0.0_4」と「AluI_0.5_4」には、主にDoreaとUnclassified(未知菌)が含まれている。さらに、より高いオッズ比を示した「AluI_0.0_4」は、「AluI_0.5_4」よりも、OTU内に含まれるUnclassifiedの割合が高い。このことは、未知の菌群であるUnclassifiedが「高血圧」との関連性を高めている可能性を示している。
【0086】
(効果)
本実施形態によれば、疾病(例えば、腎臓病、高血圧)等の健康状態と関係があると推定される菌群を特異的に抽出することが可能である。また、コストが高く解析時間が長くなりすぎるために繰り返し実験を行うことはできずに、従来は知られていなかった未知菌による直接的な健康状態への影響(Unclassifiedを多く含むOTUと疾病との関係性)や、間接的な健康状態への影響(既知菌とUnclassifiedの組み合わせを含むOTUと疾病との関係性)を推定することが可能になる。
【0087】
このため、健康状態(疾病又は未病)と関係のある菌群について腸内細菌叢DBを充実することが可能になる。そして、腸内細菌叢を用いた疾病評価指標を算出する技術を改善することができる。また、評価希望者(ユーザ)に提供される疾病評価レポートに、従来見つからなかった「腸内細菌叢と疾病との関連性」を記載することが可能になる。
【0088】
(変形例)
腸内細菌叢とその宿主であるヒトの健康状態との関係性を充分に調査するために、本実施形態は系統分類学的な分類手法と並行して、多様なDNAフィンガープリント法を同時に実施するものである。DNAフィンガープリント法は、一つの方法のみであれば短時間、低コストで実施可能である。しかしながら、多様な方法を同時に実施するには時間とコストがかかる方法である。
【0089】
ところで、系統分類学的な細菌叢解析と同時にDNAフィンガープリント法を実施する場合には、細菌叢解析のデータを用いることによって、DNAフィンガープリント法で得られる菌の判別パターンを実験での手作業で作成することも可能である。
【0090】
すなわち、
図2で説明した腸内細菌叢DB作成方法のうち、菌群作成ステップ(S120)では、作業者が実験での手作業で被験者から得られる塩基配列群にDNAフィンガープリント法を適用してもよい。また、
図7の場合、DNAフィンガープリント法解析ステップ(S520)は実験での手作業で行い、OTU群の作成ステップ(S530)はコンピュータ処理によりOTUごとに集計してもよい。
【0091】
以上、本発明の実施例(変形例を含む)について説明してきたが、これらのうち、2つ以上の実施例を組み合わせて実施しても構わない。あるいは、これらのうち、1つの実施例を部分的に実施しても構わない。さらには、これらのうち、2つ以上の実施例を部分的に組み合わせて実施しても構わない。例えば、本実施形態では、統計解析の目的変数に対して正の影響を与える説明変数を抽出し、疾病と関係のある菌群を抽出した。しかしながら、統計解析の目的変数に対して負の影響を与える説明変数を抽出し、疾病を改善する可能性のある菌群を抽出してもよい。
【0092】
また、本発明は、上記発明の実施例の説明に何ら限定されるものではない。特許請求の範囲の記載を逸脱せず、当業者が容易に想到できる範囲で種々の変形態様もこの発明に含まれる。例えば、疾病だけでなく、食生活などの他の健康状態と関係のある菌群を抽出してもよい。
【解決手段】 複数の被験者の大便由来塩基配列群データに細菌叢解析及びDNAフィンガープリント法を適用し、複数の菌群データを作成し、健康状態と関係のある菌群を抽出する方法であって、前記菌群データ間の比較をし、前記被験者の健康状態データと、前記比較された菌群データを統計解析し、所定の健康状態データと統計的に有意な関係のある菌群データを抽出するコンピュータによる菌群抽出方法。