(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-04-27
(45)【発行日】2023-05-10
(54)【発明の名称】疾病評価指標算出システム、方法、及び、プログラム
(51)【国際特許分類】
G16H 50/30 20180101AFI20230428BHJP
【FI】
G16H50/30
(21)【出願番号】P 2022087445
(22)【出願日】2022-05-30
【審査請求日】2022-06-17
【早期審査対象出願】
(73)【特許権者】
【識別番号】519427321
【氏名又は名称】シンバイオシス・ソリューションズ株式会社
(73)【特許権者】
【識別番号】518301936
【氏名又は名称】一般社団法人日本農業フロンティア開発機構
(74)【代理人】
【識別番号】100200229
【氏名又は名称】矢作 徹夫
(72)【発明者】
【氏名】増山 博昭
(72)【発明者】
【氏名】蓮子 和巳
(72)【発明者】
【氏名】徳野 秀尚
(72)【発明者】
【氏名】春日 純平
(72)【発明者】
【氏名】糸賀 達也
【審査官】梅岡 信幸
(56)【参考文献】
【文献】特開2020-030662(JP,A)
【文献】特開2012-165716(JP,A)
【文献】中国特許出願公開第114283890(CN,A)
【文献】米国特許出願公開第2019/0259501(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G16H 10/00-80/00
(57)【特許請求の範囲】
【請求項1】
ユーザが調べて欲しいと望む1又は複数の疾病を入力する入力部と、
複数の被験者の便を解析した結果である腸内細菌叢に関するデータを格納する第1のデータベースと、前記被験者への前記疾病に関するアンケート結果データを格納する第2のデータベースと、所定の抽出条件を用いて、健康な人の第1の腸内細菌叢データ、及び、前記疾病に罹患している人の第2の腸内細菌叢データを抽出する抽出部と、
前記第1の腸内細菌叢データ及び前記第2の腸内細菌叢データ、並びに、前記アンケート結果データを入力し、前記第1の腸内細菌叢データと前記第2の腸内細菌叢データとの違いを示す1又は複数の菌に関する第1の観測変数、前記疾病の罹患状況を表す第2の観測変数、前記第1の観測変数及び前記第2の観測変数と関係する1又は複数の潜在変数、並びに、前記1又は複数の潜在変数から前記第1及び前記第2の観測変数間のパラメータ、及び/又は、前記複数の潜在変数間のパラメータで構成される連関モデルを作成する第1の作成部と、
前記第1の観測変数を説明変数とし、前記潜在変数の得点を目的変数とする得点推定モデルを作成する第2の作成部と、
前記ユーザの腸内細菌叢データを前記得点推定モデルの前記説明変数に入力し、前記潜在変数の得点を推定する推定部と、
前記1又は複数の潜在変数から前記第2の観測変数へのパラメータ、及び/又は、前記複数の潜在変数間のパラメータと、前記推定された得点を用いて、前記ユーザの前記疾病に対するリスクを算出する算出部と、
を備える疾病評価指標算出システム。
【請求項2】
前記1又は複数の潜在変数から前記第2の観測変数へのパラメータは、前記1又は複数の潜在変数から前記第2の観測変数へのパス係数である請求項1に記載の疾病評価指標算出システム。
【請求項3】
前記第1の観測変数は、前記第1の腸内細菌叢データと前記第2の腸内細菌叢データとの間で存在量に有意差のあった
菌である請求項1に記載の疾病評価指標算出システム。
【請求項4】
前記第2の観測変数が2値のカテゴリカル変数の場合、前記算出部はロジスティック回帰モデルを用いる請求項1に記載の疾病評価指標算出システム。
【請求項5】
前記疾病に罹患している人は、現在罹患している人及び/又は過去に罹患していた人を含む請求項1に記載の疾病評価指標算出システム。
【請求項6】
前記第1の作成部は、効果量を指標として、前記1又は複数の菌を選抜する選抜部をさらに備える請求項1に記載の疾病評価指標算出システム。
【請求項7】
前記第2の作成部は、前記連関モデルから、前記潜在変数から前記第1の観測変数への影響を示す測定方程式モデルを抽出し、
前記測定方程式モデルの各パラメータの値と同じ値を前記得点推定モデルの各パラメータの値に設定する請求項1に記載の疾病評価指標算出システム。
【請求項8】
前記第2の作成部は、前記第1の腸内細菌叢データ及び前記第2の腸内細菌叢データを用いて、前記得点推定モデルの各パラメータの値を学習する学習部をさらに備える請求項7に記載の疾病評価指標算出システム。
【請求項9】
前記疾病が複数の場合、
前記第1の作成部は、前記疾病毎に前記連関モデルを複数作成し、
前記第2の作成部は、前記疾病毎に前記得点推定モデルを複数作成し、
前記算出部は、前記疾病毎の前記リスク、又は、前記複数の疾病に対する前記リスクを算出する請求項1に記載の疾病評価指標算出システム。
【請求項10】
前記疾病が複数の場合、前記疾病に関する第2の観測変数は複数になり、
前記第1の作成部は、前記複数の第2の観測変数に関する他の潜在変数を前記連関モデルに加え、
前記算出部は、前記推定された得点から前記他の潜在変数の得点を推定し、前記他の潜在変数から前記第2の観測変数への前記パラメータと、前記他の潜在変数の得点を用いて、前記ユーザの前記複数の疾病に対するリスクを算出する請求項1に記載の疾病評価指標算出システム。
【請求項11】
コンピュータが、
ユーザが調べて欲しいと望む1又は複数の疾病の入力を受け付け、
複数の被験者の便を解析した結果である腸内細菌叢に関するデータを格納する第1のデータベースと、前記被験者への前記疾病に関するアンケート結果データを格納する第2のデータベースと、所定の抽出条件を用いて、健康な人の第1の腸内細菌叢データ、及び、前記疾病に罹患している人の第2の腸内細菌叢データを抽出し、
前記第1の腸内細菌叢データ及び前記第2の腸内細菌叢データ、並びに、前記アンケート結果データを入力し、前記第1の腸内細菌叢データと前記第2の腸内細菌叢データとの違いを示す1又は複数の菌に関する第1の観測変数、前記疾病の罹患状況を表す第2の観測変数、前記第1の観測変数及び前記第2の観測変数と関係する1又は複数の潜在変数、並びに、前記1又は複数の潜在変数から前記第1及び前記第2の観測変数間のパラメータ、及び/又は、前記複数の潜在変数間のパラメータで構成される連関モデルを作成し、
前記第1の観測変数を説明変数とし、前記潜在変数の得点を目的変数とする得点推定モデルを作成し、
前記ユーザの腸内細菌叢データを前記得点推定モデルの前記説明変数に入力し、前記潜在変数の得点を推定し、
前記1又は複数の潜在変数から前記第2の観測変数へのパラメータ、及び/又は、前記複数の潜在変数間のパラメータと、前記推定された得点を用いて、前記ユーザの前記疾病に対するリスクを算出するコンピュータによる疾病評価指標算出方法。
【請求項12】
ユーザが調べて欲しいと望む1又は複数の疾病の入力を受け付ける入力ステップと、
複数の被験者の便を解析した結果である腸内細菌叢に関するデータを格納する第1のデータベースと、前記被験者への前記疾病に関するアンケート結果データを格納する第2のデータベースと、所定の抽出条件を用いて、健康な人の第1の腸内細菌叢データ、及び、前記疾病に罹患している人の第2の腸内細菌叢データを抽出する抽出ステップと、
前記第1の腸内細菌叢データ及び前記第2の腸内細菌叢データ、並びに、前記アンケート結果データを入力し、前記第1の腸内細菌叢データと前記第2の腸内細菌叢データとの違いを示す1又は複数の菌に関する第1の観測変数、前記疾病の罹患状況を表す第2の観測変数、前記第1の観測変数及び前記第2の観測変数と関係する1又は複数の潜在変数、並びに、前記1又は複数の潜在変数から前記第1及び前記第2の観測変数間のパラメータ、及び/又は、前記複数の潜在変数間のパラメータで構成される連関モデルを作成する第1の作成ステップと、
前記第1の観測変数を説明変数とし、前記潜在変数の得点を目的変数とする得点推定モデルを作成する第2の作成ステップと、
前記ユーザの腸内細菌叢データを前記得点推定モデルの前記説明変数に入力し、前記潜在変数の得点を推定する推定ステップと、
前記1又は複数の潜在変数から前記第2の観測変数へのパラメータ、及び/又は、前記複数の潜在変数間のパラメータと、前記推定された得点を用いて、前記ユーザの前記疾病に対するリスクを算出する算出ステップと、
をコンピュータに実行させる疾病評価指標算出プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、腸内細菌叢を用いた疾病評価指標を算出する技術に関し、特に、採便を提出した被験者に対し、特定の疾病に対するリスクを示す評価レポートを提供する技術に関する。
【背景技術】
【0002】
生物(人など)の腸内細菌叢を用いた疾病評価指標を算出する技術が開発されている。特許文献1は、採便を提出、かつ、疾病罹患状況などの詳細なアンケートに手間をかけて回答した被験者に対し、特定の疾病に対するリスクを示す評価レポートを提供する技術を開示している。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、疾病評価指標を算出する前に、疾病リスク係数表を用意する必要がある。疾病リスク係数表とは、所定の属性の時に、所定の腸内細菌叢と所定の疾病・健康状態とのパスに関するものである。
【0005】
本発明は、このような課題に着目して鋭意研究され完成されたものであり、その目的は、ユーザが詳細な疾病罹患状況を回答しなくても、ユーザの腸内細菌叢データを用いて疾病評価指標を算出する技術を提供することにある。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本発明は、ユーザが調べて欲しいと望む1又は複数の疾病を入力する入力部と、複数の被験者の便を解析した結果である腸内細菌叢に関するデータを格納する第1のデータベースと、前記被験者へのアンケート結果を格納する第2のデータベースを用いて、健康な人の第1の腸内細菌叢データ、及び、前記疾病に罹患している人の第2の腸内細菌叢データを抽出する抽出部と、前記第1の腸内細菌叢データと前記第2の腸内細菌叢データとの違いを示す1又は複数の菌に関する第1の観測変数、前記疾病に関する第2の観測変数、及び、前記第1の観測変数と関係する1又は複数の潜在変数で構成される連関モデルを作成する第1の作成部と、前記1又は複数の菌を説明変数とし、前記潜在変数の得点を目的変数とする得点推定モデルを作成する第2の作成部と、前記ユーザの腸内細菌叢データを前記得点推定モデルに入力し、前記潜在変数の得点を推定する推定部と、前記連関モデル内の、前記潜在変数から前記第2の観測変数へのパス係数と、前記推定された得点を用いて、前記ユーザの前記疾病に対するリスクを算出する算出部と、を備える疾病評価指標算出システムである。
【0007】
他の本発明は、ユーザが調べて欲しいと望む1又は複数の疾病の入力を受け付け、複数の被験者の便を解析した結果である腸内細菌叢に関するデータを格納する第1のデータベースと、前記被験者へのアンケート結果を格納する第2のデータベースを用いて、健康な人の第1の腸内細菌叢データ、及び、前記疾病に罹患している人の第2の腸内細菌叢データを抽出し、前記第1の腸内細菌叢データと前記第2の腸内細菌叢データとの違いを示す1又は複数の菌に関する第1の観測変数、前記疾病に関する第2の観測変数、及び、前記第1の観測変数と関係する1又は複数の潜在変数で構成される連関モデルを作成し、前記1又は複数の菌を説明変数とし、前記潜在変数の得点を目的変数とする得点推定モデルを作成し、前記ユーザの腸内細菌叢データを前記得点推定モデルに入力し、前記潜在変数の得点を推定し、前記連関モデル内の、前記潜在変数から前記第2の観測変数へのパス係数と、前記推定された得点を用いて、前記ユーザの前記疾病に対するリスクを算出するコンピュータによる疾病評価指標算出方法である。
【0008】
他の本発明は、ユーザが調べて欲しいと望む1又は複数の疾病の入力を受け付ける入力ステップと、複数の被験者の便を解析した結果である腸内細菌叢に関するデータを格納する第1のデータベースと、前記被験者へのアンケート結果を格納する第2のデータベースを用いて、健康な人の第1の腸内細菌叢データ、及び、前記疾病に罹患している人の第2の腸内細菌叢データを抽出する抽出ステップと、前記第1の腸内細菌叢データと前記第2の腸内細菌叢データとの違いを示す1又は複数の菌に関する第1の観測変数、前記疾病に関する第2の観測変数、及び、前記第1の観測変数と関係する1又は複数の潜在変数で構成される連関モデルを作成する第1の作成ステップと、前記1又は複数の菌を説明変数とし、前記潜在変数の得点を目的変数とする得点推定モデルを作成する第2の作成ステップと、前記ユーザの腸内細菌叢データを前記得点推定モデルに入力し、前記潜在変数の得点を推定する推定ステップと、前記連関モデル内の、前記潜在変数から前記第2の観測変数へのパス係数と、前記推定された得点を用いて、前記ユーザの前記疾病に対するリスクを算出する算出ステップと、をコンピュータに実行させる疾病評価指標算出プログラムである。
【発明の効果】
【0009】
本発明によれば、ユーザが詳細な疾病罹患状況を回答しなくても、ユーザの腸内細菌叢データを用いて疾病評価指標を算出する技術を提供することができる。
【図面の簡単な説明】
【0010】
【
図1】本発明の実施形態に係る疾病評価指標算出システムの全体概略図である。
【
図2】本実施形態に係る疾病評価指標算出処理のフローチャートである。
【
図3】本実施形態に係る対照群の条件を示す表である。
【
図4】本実施形態に係るアトピーのみ罹患群の条件を示す表である。
【
図5】本実施形態に係るアトピーおよび他疾病罹患群の条件を示す表である。
【
図6】本実施形態に係る他疾病罹患群の条件を示す表である。
【
図7】本実施形態に係る菌変数の選抜を説明するための図である。
【
図8】本実施形態に係る選抜の候補となる菌属数の変遷を説明するための図である。
【
図9】本実施形態に係る連関モデルのパラメータを推定した結果を示す図である。
【
図10】本実施形態に係るアトピーのリスク値に対するROC分析の結果を示す図である。
【
図11】変形例2に係る複数の連関モデルの概要を示す図である。
【
図12】変形例3に係る連関モデルの概要を示す図である。
【発明を実施するための形態】
【0011】
図面を参照しながら本発明の実施の形態を説明する。なお、各図において共通する部分には同一の符号を付し、重複した説明は省略する。
【0012】
(疾病評価指標算出システム)
図1は、本発明の実施形態に係る疾病評価指標算出システムの全体概略図である。疾病評価指標算出システムは、多数の被験者が提出する採便キットから腸内細菌叢データベース(DB)を作成するフェーズ、1又は複数の疾病(特定の疾病)に関するモデルを作成するフェーズ、及び、特定の疾病に対するリスクの評価指標を算出するフェーズを備える。
【0013】
(腸内細菌叢DB作成フェーズ)
腸内細菌叢DB作成フェーズでは、一万人以上という多数の被験者が各自の大便をトイレで排泄し、それを採便キットで採取する。次に、採便キットを受け取った抽出業者は、採便キットを腸内細菌DNA抽出装置100に入力し、腸内細菌叢に関するDNA溶液が出力される。
【0014】
DNA溶液を受け取った解析業者は、DNA溶液を腸内細菌叢解析装置200に入力し、腸内細菌叢を解析する。解析業者は解析結果データを腸内細菌叢DB300に格納する。ここでの解析はまず、各被験者の腸内細菌叢にユニークなASV(Amplicon Sequence Variants)配列を作成する。次に、公開されている外部のDNA配列データベース(例えばSILVA rRNAデータベース)を用いて、各被験者の腸内細菌叢データに菌属名を付与する。
【0015】
腸内細菌叢DB300は各被験者のID(識別番号)情報とその被験者の腸内細菌叢データとを関係付けている。なお、抽出業者と解析業者を分けて説明したが、同一の事業者が抽出作業と解析作業を行ってもよい。
【0016】
次に、採便キットを提出した多数の被験者は、ID情報を用いてアンケートを記入し、アンケート回収業者に提出する。アンケート回収業者はアンケート結果をアンケートDB400に格納する。
【0017】
アンケート調査では、被験者の属性(性別及び年齢)、ボディマス指数(BMI)、排便頻度、生活習慣(飲酒、喫煙、運動の頻度)、疾病罹患状況、睡眠の状況、うつ病自己評価尺度(CES-D)、ピロリ菌治療の有無、入院または手術の経験、及び処方薬または市販薬の服用状況を含む詳細な情報を調査する。また、女性の被験者に限り、月経の状況、妊娠中又は授乳中であるかを調査する。疾病罹患状況は、15区分(アトピー性皮膚炎(atopic dermatitis)、骨関節疾患(bone and/or joint disease)、気管支ぜんそく(bronchial asthma)、糖尿病(diabetes)、脂質異常症(dyslipidemia)、胃腸疾患(gastro intestinal disease)、心臓病(heart disease)、高血圧症(hypertension)、腎臓病(kidney disease)、肝臓病(liver disease)、腰痛・関節痛(lower back and/or joint pain)、及び、その他疾病(and the others)の疾病について、その病名と、現在治療中であるかどうかを調査する。すなわち、疾病に罹患している人は、現在罹患している人及び/又は過去に罹患していた人を含む。処方薬及び市販薬の服用は、16区分(胃・十二指腸潰瘍・逆流性食道炎、高血圧治療薬、高脂血症治療薬、糖尿病治療薬、睡眠薬、鎮痛剤・解熱剤、アレルギー治療薬、狭心症治療薬、下剤・便秘の薬、骨粗鬆症治療薬、リウマチ治療薬、副腎皮質ステロイド、抗生剤、かぜ薬、抗血栓薬、及びその他)の薬について、採便時に服用中であるかを調査する。
【0018】
(モデル作成フェーズ)
モデル作成フェーズではまず、モデル作成業者は、評価したい疾病を選定する。連関モデル作成装置500は、選定された疾病の入力を受け付ける入力部と、疾病に関係する被験者のID情報をアンケートDB400から男女の属性毎に抽出し、該当するID情報の腸内細菌叢データも腸内細菌叢DB300から抽出する抽出部と、後述する作成方法によって連関モデルを作成する作成部を備える。モデル作成装置500は、作成した連関モデルを連関モデルDB600に格納する。
【0019】
次に、モデル作成業者は連関モデルDB600から連関モデルを抽出し、後述する作成方法によって得点推定モデルを作成する。作成した得点推定モデルは得点推定モデルDB800に格納される。
【0020】
(疾病評価指標算出フェーズ)
疾病評価指標算出フェーズでは、評価業者は、採便キットで採取した大便を提出し、かつ、特定の疾病に対するリスクの評価を希望する者(以下、ユーザという)に対し、腸内細菌叢DB作成フェーズで説明した採便キットの提出を依頼する。ユーザの採便キットは、前述した多数の被験者の採便キットと同様、腸内細菌DNA抽出装置100及び腸内細菌叢解析装置200で処理される。ユーザの腸内細菌叢データは腸内細菌叢DB300に格納される。さらに、ユーザが評価を希望する疾病(特定の疾病)、及び、ユーザのID情報(ユーザの性別など属性を含む)を疾病評価指標算出装置900に入力する。
【0021】
疾病評価指標算出装置900は、入力情報を受付ける入力部と、入力情報に関係する情報を抽出する抽出部と、評価指標を算出する算出部と、評価レポートを出力する出力部を備える。入力部は特定の疾病及びユーザのID情報の入力を受け付ける。抽出部は外部の腸内細菌叢DB300からユーザのID情報に関係する情報(ユーザの性別、及び、腸内細菌叢データ)を抽出し、得点推定モデルDB800から特定の疾病に関する得点推定モデルを抽出する。そして、疾病評価指標算出装置900は、ユーザの腸内細菌叢データを、特定の疾病に関する得点推定モデルに入力し、特定の疾病に対するリスクの評価指標を算出する。算出された評価指標に基づく、評価レポートが出力される。なお、各フェーズを行う業者を分けて説明したが、同一の事業者が全てのフェーズを行ってもよい。
【0022】
(疾病評価指標算出処理のフローチャート)
図2は、本実施形態に係る疾病評価指標算出処理のフローチャートである。この処理は2つの処理群に分かれる。疾病毎に得点推定モデルを予め作成する第1の処理群(S100からS120)と、ユーザが評価を希望する疾病に対するリスクの評価指標を算出する第2の処理群(S200からS240)に分かれる。
【0023】
第1の処理群は、複数の被験者の腸内細菌叢データを疾病毎に抽出するステップ(S100)と、疾病毎に連関モデルを作成するステップ(S110)と、疾病毎に得点推定モデルを作成するステップ(S120)を備える。第2の処理群は、ユーザが評価を希望する疾病を入力するステップ(S200)と、ユーザの腸内細菌叢データを抽出するステップ(S210)と、特定の疾病に関する得点推定モデルにユーザの腸内細菌叢データを入力し、潜在変数の得点を推定するステップ(S220)と、ユーザの特定の疾病に対するリスクの評価指標を算出するステップ(S230)を備える。
【0024】
(S100の説明)
本実施形態では疾病の例として「アトピー性皮膚炎」を用いる。以下では単に「アトピー」と称する。S100は、腸内細菌叢DB300から、健康な人の群及びアトピーに罹患している人の群の腸内細菌叢データを抽出する。
図3から
図6は各群を抽出する条件を示す。これらの条件には女性のみに適用される条件も含まれている。
【0025】
図3は、本実施形態に係る対照群の条件を示す表である。対照群(Normal Control、以下NCと略す)は、健康な人の群であり、
図3に挙げている条件を全て満たす人々のグループである。
図4は、本実施形態に係るアトピーのみ罹患群の条件を示す表である。アトピーのみ罹患群(Atopic dermatitis Single、以下ASと略す)は、
図4に挙げている条件を全て満たす人の群である。
図5は、本実施形態に係るアトピーおよび他疾病罹患群の条件を示す表である。アトピーおよび他疾病罹患群(Atopic dermatitis Multi、以下AMと略す)は、
図5に挙げている条件を全て満たす人の群である。
図6は、本実施形態に係る他疾病罹患群の条件を示す表である。他疾病罹患群(Other Disease、以下ODと略す)は、
図6に挙げている条件を全て満たす人の群である。本実施形態では、各群をさらに男女別に分ける。以下では、女性の群を用いた場合について説明する。
【0026】
(S110の説明)
S110は、アトピーに関する連関モデルを作成するステップである。本実施形態では、女性の群を用いるため、女性のアトピーに関する連関モデルを作成することになる。まずS100で抽出した腸内細菌叢データに対し、有心対数比変換(Centerd Log-Ratio transformation、CLR変換)を行い、腸内細菌叢データの各菌属のカウント値をCLR値に変換する。この変換処理を行うことによって、統計処理がしやすくなる。
【0027】
次に本実施形態では、菌変数を選抜するステップ(S115)を行う。S115は、対照群(NC)とアトピーのみ罹患群(AS)の腸内細菌叢の違いを表す菌属を探索するために行う。本実施形態ではNCとASの間の効果量を指標として菌属を選抜する。効果量の計算は500回行い、効果量の絶対値の降順で並べた時に、全ての試行で上位20位以内になる菌属を選抜するように効果量の計算パラメータを設定する。
【0028】
菌変数の選抜対象となる群をNCとASの2つの群に設定した理由は3つある。1つ目の理由は、アトピー性皮膚炎罹患群の中に、アトピー性皮膚炎以外の疾病にも罹患している被験者がいると、その疾病の影響を受けている菌属も選抜され、モデル作成の精度に影響する可能性があるため、AMではなくASに設定する。2つ目の理由は、対照群の条件を、単にアトピー性皮膚炎に罹患していないこととすると、その他の疾病の影響を受けている菌属も選抜され、健康な状態の腸内細菌叢とアトピー性皮膚炎罹患状態の腸内細菌叢の差異を特徴的に表現する菌属が選抜されない可能性があるため、NCは健康な人の群に設定する。3つ目の理由は、薬の使用が腸内細菌叢に影響を与える可能性があり、何らかの薬を使用している被験者においては、アトピー性皮膚炎に罹患していることで特徴的に表れる腸内細菌叢の状態が攪乱されている可能性があるため、ODは用いないことにする。
【0029】
図7は、本実施形態に係る菌変数の選抜を説明するための図である。効果量の値は、500回の計算結果の平均値である。ASについては正の効果量が高い菌属を5つ選抜し、NCについては負の効果量が高い菌属を4つ選抜する。このように正の効果量を有する菌属は、腸内細菌叢が健康な状態からアトピー性皮膚炎罹患状態に遷移しやすく、一方、負の効果量を有する菌属は、遷移しにくい。
【0030】
図8は、本実施形態に係る選抜の候補となる菌属数の変遷を説明するための図である。横軸は効果量計算の実行回数を表す。縦軸は効果量の絶対値の降順で並べたときに横軸の実行回数まで上位20位以内に入り続ける菌属の数を表す。
【0031】
S110の処理に戻り、S115で選抜した菌属を用いて連関モデルを作成するステップを説明する。本実施形態では、NCとASのCLR変換された腸内細菌叢データとアトピーの罹患状況データを用いて、連関モデルを作成する。
【0032】
図9は、本実施形態に係る連関モデルのパラメータを推定した結果を示す図である。ここでは連関モデルの1つとして、構造方程式モデル(SEM;Structural Equation Model)を用いる。構造方程式モデルは観測変数と潜在変数との関係、及び、潜在変数同士の関係を表す。このため、連関モデルは、特定の疾病と一定以上の相関が認められる観測変数と、観測変数と関係する潜在変数によって構築される統計解析モデルである。
【0033】
連関モデル1は実線で囲んだ領域である。長方形は観測変数を表し、“e”は観測変数の残差分散を表し、楕円は潜在変数を表し、潜在変数から観測変数又は他の潜在変数への矢印の数値は、連関モデルの標準化パラメータを表す。例えば、観測変数Atopyは疾病Atopyに関する観測変数であり、アトピー罹患状況を表す2値のカテゴリカル変数として定義する。アトピーに罹患している場合は“1”であり、罹患していない場合は“0”である。
【0034】
連関モデルを作成する際に、アトピー罹患状況変数を説明する潜在変数(Latent Variable)が2つあると仮定した。すなわち、潜在変数Lv1はアトピーに対して正の影響を及ぼし、潜在変数Lv2は負の影響を及ぼす。
【0035】
まず、
図7に表示されている全ての菌属は潜在変数Lv1またはLv2の観測変数として割り当てる。これが初期の連関モデルである。この初期の連関モデルから始め、モデルの修正を行う。モデルの修正においては、構造方程式モデリングの過程で算出される各分散共分散行列に負値成分が出現しなくなるまで観測変数の削除を行う。
【0036】
その後、各パラメータのp値(有意確率)が0.05未満になるように観測変数の削除を行い、構築されたモデルの中からGFI(Goodness of Fit Index)とAGFI(Adjusted GFI)の値が1に近く、RMSEA(Root Mean Square Error of Approximation)の値が0に近い、かつ、潜在変数から疾病罹患状況変数へのパス係数の絶対値が最大となるものを最終的な連関モデルとして採用する。モデル修正の結果、
図7に表示されている菌属のうち、Erysipelatoclostridium、Oscillibacter、Ruminococcaceae UCG-005が観測変数から除外された。
【0037】
作成した連関モデルにNCとASの合併集団のデータ(すなわち、腸内細菌叢データとアトピーの罹患状況データ)を与え、連関モデルにおける各パラメータの計算を行う。これにより、健常者とアトピー罹患者に着目した場合、観測変数として設定された菌属が、仮定された潜在変数(Lv1、Lv2)を介して、どのようにアトピー罹患状況を表す変数を説明するのかを調べる。
【0038】
アトピーに対して正の影響を及ぼすと仮定した潜在変数Lv1からアトピー罹患状況変数への標準化パス係数が0.32(p<0.01)であり、アトピーに対して負の影響を及ぼすと仮定した潜在変数Lv2からアトピー罹患状況変数への標準化パス係数は、-0.41(p<0.01)である。潜在変数Lv1からLv1の各観測変数への標準化因子負荷量は、Alistipesが0.54、Butyricimonasが0.53、Coprobacterが0.44である。また、潜在変数Lv2からLv2の各観測変数への標準化因子負荷量は、Fusicatenibacterが0.58、Agathobacterが0.42、Streptococcusが0.20である。潜在変数から各観測変数への標準化因子負荷量はすべてp<0.05で有意である。なお、潜在変数間の矢印の数値0.07はLv1とLv2の相関の大きさを表す。
【0039】
アトピー罹患状況変数の残差分散は0.75であり、この連関モデルでは、仮定した2つの潜在変数(Lv1、Lv2)がアトピー罹患状況変数の分散の約25%を説明する結果となった。
【0040】
図9の連関モデル1を作成する際に、菌変数の選抜(S115)の対象となる群をNCとASの2つの群に設定した。作成した連関モデルにおける潜在変数得点の比較を他の群との間で行う。
【0041】
図9の連関モデル1の各パラメータから、各被験者の潜在変数得点を計算し、群間を比較する。Lv1の得点は、NCとODの間で有意差は認められず(p=0.27)、ASはNCに対して有意に高い結果となった(p<0.01)。AMの得点は、NCに比べて高い傾向であったが、有意差は認められなかった(p=0.12)。Lv2の得点は、NCとODの間で有意差は認められず(p=0.55)、ASとAMは共にNCに対して有意に低い結果となった(p<0.01)。
【0042】
本実施形態では、S115は連関モデルの観測変数の選び方の一例であり、効果量を指標として菌変数を選抜した。S115は必須の構成ではない。
【0043】
連関モデルの観測変数の選び方には様々な方法がある。例えば、対照群と疾病罹患群の間で、何かしらの統計学的検定(Wilcoxon順位和検定など)を行い、2群間で存在量に有意差のあった菌を、連関モデルの観測変数として利用してもよい。または、対象としている疾病のバイオマーカーとなる可能性が既に報告されている菌を、連関モデルの観測変数として利用してもよい。
【0044】
(S120の説明)
S120は、疾病罹患状況が未知である場合に、潜在変数の得点を推定するモデルを作成するステップである。連関モデルを作成する際には、NCとASの合併集団のデータ(すなわち、腸内細菌叢データとアトピーの罹患状況データ)を用いる。しかしながら、ユーザは特定の疾病に対するリスクの評価を希望する者であり、疾病罹患状況が未知である。そこで、特定の疾病の罹患状況が未知である場合に潜在変数の得点を推定するモデルが必要である。
【0045】
女性のユーザのアトピー罹患状況が未知である場合に、Lv1及びLv2の得点を推定するために、連関モデル1から測定方程式モデルの部分(
図9の点線)を抽出し得点推定モデル2を作成する。このため、測定方程式モデルの各パラメータの値と同じ値を得点推定モデル2の各パラメータの値に設定している。ここで、測定方程式モデルは潜在変数から菌属の観測変数への影響を示すモデルである。
【0046】
本実施形態では、得点推定モデル2からユーザのLv1及びLv2の得点を推定する。推定した潜在変数得点は、推定した潜在変数得点の群間比較における有意差の傾向は、連関モデル1と同様である。以下では、潜在変数Lv1、Lv2の推定値をLv1est、Lv2estでそれぞれ表す。
【0047】
(S200の説明)
S200は、ユーザが評価を希望する疾病を入力するステップである。本実施形態では、アトピーに関する得点推定モデルを性別に分けて作成している。このため、ユーザは性別も入力する。ユーザは女性である。
【0048】
(S210の説明)
S210は、ユーザの腸内細菌叢データを抽出するステップである。ユーザは採便キットを提出し、ユーザの腸内細菌叢データは腸内細菌叢DB300に格納される。S210は、ユーザのID情報を用いて腸内細菌叢DB300からユーザの腸内細菌叢データを抽出する。
【0049】
(S220の説明)
S220は、アトピーに関する得点推定モデル2を用いて潜在変数の得点を推定するステップである。具体的には、ユーザの腸内細菌叢データを、アトピーに関する得点推定モデル2の観測変数に入力し、アトピーに関する得点推定モデル2の潜在変数のユーザの得点を推定する。
【0050】
(S230の説明)
S230は、アトピーに対するリスクの評価指標を算出するステップである。具体的には、
図9の潜在変数Lv1、Lv2から観測変数Atopyへのパス係数と、潜在変数Lv1、Lv2の推定値(Lv1est、Lv2est)を用いて、ユーザのアトピーに対するリスクを算出する。
図9の一点鎖線は、リスク算出モデル3に関する部分を表す。
【0051】
(リスクの算定例)
図10は、本実施形態に係るアトピーのリスク値に対するROC分析の結果を示す図である。本実施形態に係るリスクの算定、及び、算定したリスクの精度について説明する。
【0052】
女性の被験者群についてNC、OD、AS、AMの合併集団を80%の学習用集団と20%の検証用集団に層化ランダム分割する。学習用集団の潜在変数得点(Lv1またはLv2)とアトピー罹患状況の情報を用いて連関モデルを学習し、潜在変数得点からアトピー罹患確率を推定するアトピー罹患確率推定モデルを構築する。構築したアトピー罹患確率推定モデルに検証用集団の潜在変数得点推定値(Lv1estまたはLv2est)をあてはめ、アトピー罹患確率推定モデルの精度をROC(Receiver Operating Characteristic)分析により調べる。アトピー罹患確率はアトピーに罹患するリスクであり、ROC分析の結果は疾病評価指標として用いることができる。
【0053】
アトピー罹患確率推定モデルの構築手法には、潜在変数Lv1及び/又はLv2を説明変数に、ユーザのアトピー罹患状況を表す2値のカテゴリカル変数を目的関数にするロジスティック回帰モデルを用いる。このロジスティック回帰モデルは
図9のリスク算出モデル3に相当する。
【0054】
図10は、このロジスティック回帰モデルに対するROC曲線を表す。縦軸は“Sensitivity(感度)”を表す。実際に罹患している人を罹患していると判断する確率が高くなると、縦軸の値が1に近くなる。横軸は“1-Spefificity(特異度)”を表す。アトピーに罹患していない人を罹患していないと判断する確率が高くなると、特異度の値が1に近くなる。横軸は1から特異度を引いているため、横軸の値が0に近くなると、アトピーに罹患していない人を罹患していないと判断する確率が高くなる。破線はLv1のみを説明変数とするモデルの結果を表し、太い実線はLv2のみを説明変数とするモデルの結果を表す。点線はLv1及びLv2を説明変数とするモデルの結果を表す。AUCはArea Under the Curveの値を表し、95% CIはAUCの95%信頼区間を表す。
【0055】
図10では、対角線(細い実線)が確率0.5を表し、Lv2のみを用いたモデル(太い実線)の場合、太い実線と細い実線で囲む面積が他のモデルに比べて広く、リスク推定方法の精度が高いと視覚的に(又は直感的に)判断できる。また、AUCはリスク推定方法の指標であり、AUCの値が1に近いと良いリスク推定方法であると客観的に判断できる。Lv2のみを用いたモデルのAUCが最も高い値0.66を示す。本実施形態は、血液検査など直接的なリスク推定方法を除けば、間接的なリスク推定方法として精度が高いと判断できる。
【0056】
(効果)
本実施形態によれば、多数被験者の腸内細菌叢データ及び疾病罹患状況データを用いて疾病毎の連関モデル(
図9の連関モデル1)を作成し、連関モデルの測定方程式部分から得点推定モデル(
図9の得点推定モデル2)を予め作成する。特定の疾病に対するリスクの評価を希望するユーザに対して、特定の疾病に関する得点推定モデル、及び、ユーザの腸内細菌叢データを用いて、潜在変数の得点を推定する。さらに、推定した潜在変数の得点をリスク算出モデル(
図9のリスク算出モデル3)に入力すると、ユーザの特定の疾病に対するリスクを算出することができる。
【0057】
そして、ユーザは採便きっとで大便を採取、提出すれば、疾病罹患状況などの詳細なアンケートに回答せずに、ユーザ自身が特定の疾病に罹患するリスクことについて評価レポートを手軽に受け取ることができる。また、評価レポートを提供する事業者はプレバイオティクスの設計、検討、及び提案をユーザに対し行うことができる。
【0058】
(変形例1;得点推定モデルの各パラメータの値を学習する場合)
上述した実施形態では、連関モデルから、潜在変数から菌属の観測変数への影響を示す測定方程式モデルを抽出し、測定方程式モデルの各パラメータの値と同じ値を得点推定モデルの各パラメータの値に設定している。すなわち、学習しておらず、測定方程式モデルの各パラメータの値を得点推定モデルの各パラメータの値にそのまま用いている。これに対し、変形例1では、NC及びASの腸内細菌叢データを用いて、得点推定モデルの各パラメータの値を学習する。
【0059】
学習は以下の6つのステップによって行われる。(1)女性の被験者群についてNCとASの合併集団を80%の学習用集団と20%の検証用集団に層化ランダム分割する。(2)学習用集団に属する各被験者に対して、連関モデルの潜在変数(Lv1及びLv2)の得点を計算する。(3)学習用集団について、計算された潜在変数の得点、選抜された菌属の細菌叢データ、及び、アトピー罹患状況データを集計し、その集計データを均衡化する。(4)均衡化した学習用集団のデータにおける潜在変数(Lv1及びLv2)を目的変数に、菌属の細菌叢データを説明変数にする線形重回帰モデルを作成する。(5)線形重回帰モデルを用いて検証用集団の潜在変数(Lv1及びLv2)の得点を推定する。(6)連関モデルの各パラメータから計算される検証用集団の潜在変数(Lv1及びLv2)の得点と、推定した潜在変数(Lv1及びLv2)の得点を比較する。
【0060】
(変形例2;疾病毎に連関モデルを作成する場合)
図11は、変形例2に係る複数の連関モデルの概要を示す図である。この図では2つ連関モデルを用い、図面の都合上、矢印の数値などは省略している。
【0061】
上述した実施形態では、ユーザが特定の疾病に対するリスクの評価を希望する場合について説明した。しかし、ユーザは複数の疾病に対するリスクの評価を希望する場合がある。例えば、疾病aがアトピーであり、疾病bがぜんそくの場合である。このような場合、疾病毎に連関モデル(1a、1b)を作成し、疾病毎に得点推定モデル(2a、2b)を作成し、リスク算出モデル(3a、3b)も作成する。このようにすれば、本実施形態の疾病評価指標算出システムは、疾病毎のリスク、又は、複数の疾病に対するリスクを算出することができる。
【0062】
複数の疾病に対するリスクは例えば、各疾病のリスクの値のうち、最大値を最もリスクが高いと評価レポートに記載してもよい。また、各疾病の罹患状況を表すカテゴリカル変数は2値とし、2群分類をしたが、これに限られず、3群以上の分類にしてもよい。例えば、ユーザがアトピーとぜんそくに対するリスクの評価を希望する場合、連関モデル(a、b)の各疾病罹患状況変数を合成し、アトピー及びぜんそくに罹患していない場合を「0」に、アトピーのみに罹患している場合を「1」に、ぜんそくのみに罹患している場合を「2」に、アトピー及びぜんそくに罹患している場合を「3」に他群分類してもよい。
【0063】
(変形例3;疾病に関する潜在変数を用いる場合)
図12は、変形例3に係る連関モデルの概要を示す図である。この図では複数の疾病罹患状況変数を観測変数とする潜在変数を連関モデルに用い、図面の都合上、矢印の数値などは省略している。
【0064】
ここでは、アトピーとぜんそくはアレルギーに関する疾病であり、心臓病と高血圧症は循環器系に関する疾病であると分類する。そして、疾病(アトピー及びぜんそく)に関する潜在変数は、アレルギーに関するLvとし、疾病(心臓病及び高血圧症)に関する潜在変数は、循環器系に関するLvとする。
【0065】
図12の連関モデル1’は、
図9の連関モデル1に新たにアレルギーに関するLv及び循環器系に関するLvを加えたモデルである。
図12の連関モデル1’を構築すれば、
図9で説明したのと同じ方法によって、得点推定モデル2’を作成し、リスク算出モデル3’も作成できる。
【0066】
ユーザがアトピー、ぜんそく、心臓病、及び、高血圧症の1つ又は複数に対するリスクの評価を希望する場合、ユーザの腸内細菌叢データを得点推定モデル2’に入力し、菌属に関する潜在変数(Lv1’及びLv2’)の得点を推定する。次に、リスク算出モデル3’の疾病に関する潜在変数(アレルギーに関するLv及び循環器系に関するLv)の得点を推定する。最後に、アレルギーに関するLvから観測変数(アトピー及びぜんそく)へのパス係数、並びに、循環器系に関するLvから観測変数(心臓病及び高血圧症)へのパス係数と、推定されたアレルギーに関するLv及び循環器系に関するLvの得点を用いて、ユーザが評価を希望する疾病に対するリスクを算出することができる。
【0067】
以上、本発明の実施例(変形例を含む)について説明してきたが、これらのうち、2つ以上の実施例を組み合わせて実施しても構わない。あるいは、これらのうち、1つの実施例を部分的に実施しても構わない。さらには、これらのうち、2つ以上の実施例を部分的に組み合わせて実施しても構わない。
【0068】
また、本発明は、上記発明の実施例の説明に何ら限定されるものではない。特許請求の範囲の記載を逸脱せず、当業者が容易に想到できる範囲で種々の変形態様もこの発明に含まれる。
【0069】
例えば、潜在変数は2つと仮定したが、1つでも良いし、3つ以上であってもよい。また、本実施形態では、疾病に関係する被験者のID情報をアンケートDB400から男女の属性毎に抽出し、連関モデルを作成したが、疾病の種類によっては男女の属性毎に抽出しなくてもよい。
【符号の説明】
【0070】
100 腸内細菌DNA抽出装置
200 腸内細菌叢解析装置
300 腸内細菌叢DB
400 アンケートDB
500 連関モデル作成装置
600 連関モデルDB
700 得点推定モデル作成装置
800 得点推定モデルDB
900 疾病評価指標算出装置
【要約】
【課題】 ユーザが詳細な疾病罹患状況を回答しなくても、ユーザの腸内細菌叢データを用いて疾病評価指標を算出する。
【解決手段】 ユーザが調べて欲しいと望む疾病を入力し;複数の被験者の腸内細菌叢と、被験者へのアンケート結果を用いて、健康な人の第1の腸内細菌叢、及び、疾病に罹患している人の第2の腸内細菌叢を抽出し;第1の腸内細菌叢と第2の腸内細菌叢との違いを示す菌に関する第1の観測変数、疾病に関する第2の観測変数、及び、第1の観測変数と関係する潜在変数で構成される連関モデルを作成し;前記菌を説明変数とし、潜在変数の得点を目的変数とする得点推定モデルを作成し;ユーザの腸内細菌叢データを得点推定モデルに入力し、潜在変数の得点を推定し;連関モデル内の、潜在変数から第2の観測変数へのパス係数と、推定された得点を用いて、ユーザの疾病に対するリスクを算出する。
【選択図】
図1