特許6876300 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＮＴＴドコモの特許一覧 ▶ 国立大学法人東北大学の特許一覧

特許6876300予測装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6876300

(24)【登録日】2021年4月28日

(45)【発行日】2021年5月26日

(54)【発明の名称】予測装置

(51)【国際特許分類】

G01N 33/50 20060101AFI20210517BHJP

C12Q 1/04 20060101ALI20210517BHJP

【ＦＩ】

G01N33/50 G

G01N33/50 J

C12Q1/04

【請求項の数】4

【全頁数】12

(21)【出願番号】特願2017-167634(P2017-167634)

(22)【出願日】2017年8月31日

(65)【公開番号】特開2019-45264(P2019-45264A)

(43)【公開日】2019年3月22日

【審査請求日】2020年2月5日

(73)【特許権者】

【識別番号】392026693

【氏名又は名称】株式会社ＮＴＴドコモ

(73)【特許権者】

【識別番号】504157024

【氏名又は名称】国立大学法人東北大学

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100124844

【弁理士】

【氏名又は名称】石原隆治

(72)【発明者】

【氏名】越智大介

(72)【発明者】

【氏名】山内隆史

(72)【発明者】

【氏名】恒元淑希

(72)【発明者】

【氏名】檜山聡

(72)【発明者】

【氏名】長崎正朗

(72)【発明者】

【氏名】菅原準一

(72)【発明者】

【氏名】田邉修

(72)【発明者】

【氏名】山下理宇

【審査官】三好貴大

(56)【参考文献】

【文献】国際公開第２０１７／１４１１６９（ＷＯ，Ａ１）

【文献】北折珠央ほか，歯周病原因菌Porphyromonas gingivalisの早産への関与，日本周産期・新生児医学会雑誌，２００９年１２月２０日，Vol.45 No.4，1029-1031

【文献】和泉雄一ほか，VII 歯周病と早期低体重児出産との関連，歯周病と生活習慣病の関係，財団法人８０２０推進財団，２００５年３月３１日，82-94

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０１Ｎ３３／４８−３３／９８

ＪＳＴＰｌｕｓ／ＪＭＥＤＰｌｕｓ／ＪＳＴ７５８０（ＪＤｒｅａｍＩＩＩ）

(57)【特許請求の範囲】

【請求項1】

正期産群の妊婦と早産群の妊婦との口腔内の細菌叢に関する細菌叢データを取得するデータ取得機能と、
前記細菌叢データに基づき早産予測モデルを生成する早産予測モデル生成機能と、
前記早産予測モデルに基づき、前記取得した細菌叢データから予測対象の妊婦の早産発症予測を実行する早産予測機能と、
前記早産発症予測の結果を通知する結果通知機能と、
を有し、
前記データ取得機能は、前記予測対象の妊婦の妊娠前後の何れかの時期から出産前後の何れかの時期までのデータ取得期間において、前記細菌叢データを複数の時点にて取得し、
前記早産予測機能は、前記複数の時点において取得された前記細菌叢データに基づき前記早産発症予測を実行する予測装置。

【請求項2】

前記早産予測モデル生成機能は、前記複数の時点で取得された細菌叢データの各細菌種を独立した変数として設定し、早産群と正期産群とをよく分ける上位の所定数の変数を抽出し、
前記早産予測モデル生成機能は、forward stepwise selection方式に従って、前記抽出した変数から前記早産予測モデルを生成する、請求項１記載の予測装置。

【請求項3】

前記早産予測モデルは、Porphyromonas gingivalis, Treponema denticola, Tabberella forsythensisや、Bergeyella, Kingella denitrificans, Scardovia wiggsiae, Streptococus mutans, Selenomonas, Capnocytophaga, Treponema vincentiiの１つ以上を抽出するよう生成される、請求項１又は２記載の予測装置。

【請求項4】

前記早産予測モデル生成機能は、早産発症有無予測モデル及び早産リスクモデルを生成し、
前記早産予測機能は、前記生成された早産発症有無予測モデル及び早産リスクモデルにそれぞれ基づき、早産発症有無予測及び早産リスク算出を実行する、請求項１乃至３何れか一項記載の予測装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、一般に医療診断技術に関し、より詳細には、非侵襲的に早産の発症予測又は異常検出を行うために情報を収集し早産発症予測を行う予測装置及び方法に関する。

【背景技術】

【0002】

妊娠関連疾患として、早産は、原因不明が約3分の1を占める周産期医療上の代表的な疾患であり、複雑な相互作用により発症する多因子疾患である。妊婦の歯周炎と早産・低体重児出産との関連が報告されているが、その詳細なメカニズムは不明な点が多い。

【0003】

非特許文献１によると、妊婦124名に対し、妊娠期間中あるいは産後3日以内にClinical attachment level (CAL)、Probing depth (PD)を測定し、PLBW(Preterm Low Birth Weight)だったケース群とそうでないコントロール群で評価したところ、ケース群（31名）のCAL平均値がコントロール群よりも有意に大きかった。また、CALが3mm以上の歯が60%以上を占めた妊婦においては、PLBW発症危険率が全体で5.9倍、初産で6.7倍だった。

【0004】

また、非特許文献２によると、切迫早産から早産となった18名とそうでない正期産40名の第2トライメスターの歯垢細菌叢を比較したところ、歯周病関連細菌の一つであるTannerella forsythenesisの割合が有意に高かった。このTannerella forsythenesisは、歯周病に関連のある細菌と言われる３つのred complexのうちの一つである。

【先行技術文献】

【非特許文献】

【0005】

【非特許文献1】Offenbacher S, et al, Periodontal Infection as a Possible Risk Factor for Preterm Low Birth Weight, J Peridontol, 67, 1103-1113, 1996

【非特許文献2】Hasegawa K, et al, Associations between systemic status, oeruidibtak statysm seryn cytokine levels and delivery outcomes in pregnant women with a diagnosis of threatened premature labor (TPL), J Peridontol, 74, 1764-1770, 2003

【発明の概要】

【発明が解決しようとする課題】

【0006】

Offenbacherらの報告を発端として、世界各地で同様に歯周病と早産・低体重との関連が報告されているが、これらの関係は人種差があり、日本人の妊婦を対象にした研究が少ない。長谷川らの報告によると、時系列で1点のみの測定であるため、経時的な変化による早産への影響が不明である。また、単に関連性のみを報告しているが、それが早産の予測にどれだけ役立つのかの評価がない。

【0007】

上述した問題点を鑑み、本発明の課題は、口腔内細菌叢から早産発症予測を実現するための予測装置及び方法を提供することである。

【課題を解決するための手段】

【0008】

上記課題を解決するため、本発明の一態様は、正期産群の妊婦と早産群の妊婦との口腔内の細菌叢に関する細菌叢データを取得するデータ取得機能と、前記細菌叢データに基づき早産予測モデルを生成する早産予測モデル生成機能と、前記早産予測モデルに基づき、前記取得した細菌叢データから予測対象の妊婦の早産発症予測を実行する早産予測機能と、前記早産発症予測の結果を通知する結果通知機能と、を有し、前記データ取得機能は、前記予測対象の妊婦の妊娠前後の何れかの時期から出産前後の何れかの時期までのデータ取得期間において、前記細菌叢データを複数の時点にて取得し、前記早産予測機能は、前記複数の時点において取得された前記細菌叢データに基づき前記早産発症予測を実行する予測装置に関する。

【発明の効果】

【0009】

本発明によると、口腔内細菌叢から早産発症予測を実現するための予測装置及び方法を提供することができる。

【図面の簡単な説明】

【0010】

【図1】図１は、本発明の一実施例による予測システムの構成を示す概略図である。

【図2】図２は、本発明の一実施例による予測装置の機能構成を示すブロック図である。

【図3】図３は、本発明の一実施例による予測処理を示すフローチャートである。

【図4】図４は、本発明の一実施例による特徴量抽出・モデル作成処理を示すフローチャートである。

【図5】図５は、本発明の他の実施例による特徴量抽出・モデル作成処理を示すフローチャートである。

【図6】図６は、本発明の他の実施例による特徴量抽出・モデル作成処理を示すフローチャートである。

【発明を実施するための形態】

【0011】

以下、図面に基づいて本発明の実施の形態を説明する。

【0012】

後述される実施例では、早産発症予測のための予測装置が開示される。後述される実施例によると、複数の妊娠フェーズにおいて採取された妊婦の口腔内の細菌叢に関する細菌叢データを取得すると、予測装置は、早産発症と相関を有する細菌種を抽出し、抽出した細菌種を用いて生成した早産予測モデルに基づき、取得した細菌叢データから妊婦の早産発症予測を実行する。これにより、人種間の差があると共に、経時的に変化すると考えられている細菌叢データからの早産予測に対して、特定の人種に適した早産予測モデルが生成可能になる。

【0013】

まず、図１を参照して、本発明の一実施例による予測システムを説明する。図１は、本発明の一実施例による予測システムの構成を示す概略図である。

【0014】

図１に示されるように、予測システム１０は、細菌叢計測装置５０及び予測装置１００を有する。

【0015】

細菌叢計測装置５０は、採取された歯垢検体から口腔内の細菌叢を測定し、生成された細菌叢データを予測装置１００に提供する。具体的には、検査技師が妊婦の歯垢検体を採取し、細菌叢計測装置５０を用いて採取した歯垢検体に存在する細菌種を示す細菌叢データを取得し、取得した細菌叢データを予測装置１００に提供する。

【0016】

人間の口腔内に存在する細菌種として、例えば、Porphyromonas gingivalis, Treponema denticola, Tabberella forsythensis, Bergeyella, Kingella denitrificans, Scardovia wiggsiae, Streptococus mutans, Selenomonas, Capnocytophaga, Treponema vincentiiなどを含む約200種類以上の細菌種が知られており、特にPorphyromonas gingivalis, Treponema denticola, Tabberella forsythensisは、歯周病に関わるred complexとして分類され、妊娠関連疾患との相関が指摘されている。細菌叢計測装置５０は、口腔内の細菌種を計測するのに用いられる何れか既知のものであってもよい。

【0017】

予測装置１００は、提供された細菌叢データから早産発症を予測する。具体的には、予測装置１００は、以下で詳細に説明されるように、早産群の細菌叢データ及び非早産群又は正期産群の細菌叢データを含む既知のデータから早産予測モデルを作成し、作成した早産予測モデルに予測対象となる妊婦の細菌叢データを入力することによって、当該妊婦の早産の発症の有無を予測する。なお、本発明による早産発症予測は、早産の発症の有無に限定されず、後述されるように、出産日の予測、早産リスクの算出などを含むものであってもよい。

【0018】

ここで、予測装置１００は、典型的には、コンピュータ、サーバ、スマートフォン、タブレットなどの通信機能を備えた情報処理装置により実現されてもよい。例えば、情報処理装置に搭載されたプロセッサが、メモリ装置に格納されたデータやプログラムを処理及び実行することによって、後述される各種機能及び処理を実行する。しかしながら、予測装置１００は、何れか特定のハードウェア構成に限定されるものでなく、適切なハードウェア構成により実現されてもよい。

【0019】

次に、図２を参照して、本発明の一実施例による予測装置を説明する。図２は、本発明の一実施例による予測装置の機能構成を示すブロック図である。

【0020】

図２に示されるように、予測装置１００は、データ取得機能１１０、データ保存機能１２０、早産予測モデル生成機能１３０、早産予測機能１４０及び結果通知機能１５０を有する。

【0021】

データ取得機能１１０は、細菌叢計測装置５０から細菌叢データを取得する。具体的には、データ取得機能１１０は、妊婦の妊娠前後の何れかの時期から出産前後の何れかの時期までのデータ取得期間において、妊婦に関する細菌叢データを複数の時点にて取得する。例えば、データ取得機能１１０は、細菌叢計測装置５０から、異なる妊娠フェーズ（例えば、１２〜２３週と２４〜３４週）に採取された妊婦の口腔内の細菌叢データを取得してもよい。

【0022】

データ保存機能１２０は、取得した妊婦の口腔内の細菌叢データを保存する。具体的には、データ保存機能１２０は、取得した細菌叢データを各妊娠フェーズで採取された細菌種（例えば、２００菌種など）のそれぞれを独立した変数として保存する。例えば、２つの妊娠フェーズでそれぞれ２００菌種の細菌種が採取された場合、経時的な複数時点の歯垢細菌組成の変化を加味したモデルを作成できるように、４００個（２００菌種×２妊娠フェーズ）の変数が設定されてもよい。

【0023】

早産予測モデル生成機能１３０は、取得された妊婦の口腔内の細菌叢データに基づき、早産の発症の有無を予測する早産予測モデルを生成する。具体的には、早産予測モデル生成機能１３０は、正期産により出産した妊婦（正期産群）と早産により出産した妊婦（早産群）とを含む複数の妊婦から取得した口腔内の細菌叢データに基づき、早産発症予測モデルを生成及び更新してもよい。例えば、以下で詳細に説明されるように、早産予測モデル生成機能１３０は、取得した細菌叢データから早産群と正期産群とをよく分ける細菌種を特定し、変数を削減するため、二群をよく分ける細菌種として１０〜２０個の細菌種×妊娠フェーズを抽出してもよい。早産群と正期産群とをよく分ける細菌種として、red complexとして分類されるPorphyromonas gingivalis, Treponema denticola, Tabberella forsythensisや、Bergeyella, Kingella denitrificans, Scardovia wiggsiae, Streptococus mutans, Selenomonas, Capnocytophaga, Treponema vincentiiなどが抽出されてもよい。

【0024】

続いて、早産予測モデル生成機能１３０は、抽出された細菌種を特徴量として用いて早産予測モデルを作成する。具体的な予測モデルの作成手法として、例えば、早産予測モデル生成機能１３０は、Linear SVMを用いて、特徴量として用いられる細菌種をforward stepwise selectionによって選択してもよい。例えば、最初に２０個の特徴量（妊娠フェーズごとの細菌種）について、早産予測モデル生成機能１３０は、１つの特徴量だけを用いて早産予測モデルM(1)〜M(20)を作成し、最も性能の良いM(A)（特徴量Aを使用）を特定する。次に、早産予測モデル生成機能１３０は、当該特徴量を除いた残りの１９個の特徴量から１つの特徴量を選択してAと併せた２変数の予測モデルM(A,1)〜M(A,19)を作成し、M(A)を含めて最適なモデルを選択する。早産予測モデル生成機能１３０は、上述した一連の処理を再帰的に実行し、最終的に予測モデルM(A,B,C,...)を特定する。

【0025】

なお、上述した実施例では、早産の発症有無を示す早産発症予測モデルについて説明したが、本発明による早産予測モデルは、これに限定されず、出産日を予測する出産日予測及び早産発症リスクモデル又は発症確率を予測する早産発症リスクモデルであってもよい。

【0026】

早産予測機能１４０は、早産予測モデルに基づき、取得した妊婦の細菌叢データから当該妊婦の早産発症予測を実行する。具体的には、早産予測機能１４０は、複数の時点において取得した妊婦の細菌叢データを早産予測モデルに投入し、複数の時点において取得した細菌叢データに基づく早産予測モデルの出力結果に基づき当該妊婦の早産有無予測、出産日予測又は早産発症リスク算出を実行してもよい。すなわち、早産予測機能１４０は、当該妊婦に早産の可能性があるか予測するか（早産発症有無予測）、当該妊婦の出産日を予測するか（出産日予測）、あるいは、当該妊婦の早産発症リスクを算出してもよい（早産発症リスク算出）。

【0027】

結果通知機能１５０は、早産予測機能１４０によって実行された早産予測の結果を妊婦、医療関係者などに通知する。

【0028】

次に、図３〜６を参照して、本発明の一実施例による予測処理を説明する。当該予測処理は、上述した予測装置１００によって実行される。図３は、本発明の一実施例による予測処理を示すフローチャートである。

【0029】

図３に示されるように、ステップＳ１００において、予測装置１００は、細菌叢計測装置５０から細菌叢データを取得し、取得した細菌叢データを保存する。具体的には、細菌叢計測装置５０は、妊婦から採取された歯垢検体を計測し、当該歯垢検体に含まれる細菌種量を示す細菌叢データを予測装置１００に提供する。予測装置１００は、細菌叢計測装置５０から取得した細菌叢データを妊婦毎に保存する。本実施例によると、細菌叢データは、例えば、妊娠フェーズ毎など、妊娠前後の何れかの時期から出産前後の何れかの時期までのデータ取得期間において各妊婦に対して複数回採取される。

【0030】

ステップｓ１０１において、予測装置１００は、取得した細菌叢データに対して異常値を検出及び除去し、欠測値を補完する。例えば、基準値から閾値範囲外の細菌種量が測定された場合、予測装置１００は、当該測定値を実際の値ではなく計測エラーとみなして、当該測定値を除去すると共に、他の細菌種量の値が類似する別の歯垢検体の当該測定値にランダムなノイズを加えて流用するか、他の細菌種量の値が類似する別の歯垢検体を複数抽出してそれらの当該測定値の分布からその分布に従うように１つの推定値を算出するなど何れかの方法により当該測定値を補完してもよい。例えば、検体Sの細菌種spA-2が閾値範囲外または欠測値である場合、まず検体S以外の検体群においてspA-2の細菌種量の分散Vを計算する。つぎに、細菌種群B_ALL={spA-1, spB-1,…, spA-2, spB-2}からspA-2を抜いた細菌種群B_SUBの各細菌種量が検体Sと近い検体を1検体抽出し、そのspA-2の細菌種量に正規分布N(0,V)に従うランダムな１点を足し合わせた値を検体SのspA-2の推定量とする方法がある。このとき、検体Sと近い検体の抽出には、各細菌種量を各細菌種量の標準偏差で割って標準化した値を用いてユーグリッド距離を計算しても良いし、MSE（平均平方誤差）又はR²（決定係数）などを用いても良い。また別の補完方法として、細菌種群B_SUBの各細菌種量が検体Sと近い検体を例えば10検体だけ抽出し、その平均値E2および分散V2を求め、正規分布N(E2,V2)に従うランダムな１点を検体SのspA-2の推定量とする方法がある。また、分布は必ずしも正規分布とせず、任意の分布で推定してもよい。

【0031】

ステップｓ１０２において、予測装置１００は、既に出産して出産状況が確定している妊婦のデータを用いて、早産群と正期産群とをよく分ける変数を特徴量として抽出する。これには、ステューデントのt検定、ウェルチのt検定、多変量ロジスティック回帰、カイ二乗検定などを用いて変数を限定する方法、Lasso回帰、Ridge回帰、Elastic Netなどにより有用な変数を限定する方法、主成分分析の寄与率などから変数を限定する方法などがあるが、それらに限定されるものでない。

【0032】

ステップｓ１０３、ｓ１０５及びｓ１０７において、予測装置１００は、抽出した特徴量を用いて早産予測モデルを生成する。具体的には、予測装置１００は、ステップｓ１０３において、早産になるかどうかを予測する分類モデルとして早産発症予測モデルを生成する。また、予測装置１００は、ステップｓ１０５において、各妊婦の出産日を予測する回帰モデルとして出産日予測モデルを生成する。また、予測装置１００は、ｓ１０７において、早産発症のリスクを算出する早産発症リスク算出モデルを生成する。回帰モデルには、線形回帰モデル、ロジスティック回帰モデル、SVMによる回帰モデル、多層ニューラルネットワークによる回帰モデルなどがあるが、それらに限定されるものでない。また、分類モデルにおいても、線形分類、ロジスティック回帰、ベイジアンネットワーク、SVM、k近傍法、ランダムフォレスト、多層ニューラルネットワークによる分類モデルなどがあるが、それらに限定されるものでない。早産発症リスク算出モデルについては、オッズ比、寄与危険度、相対危険度などがあるが、それらに限定されるものでない。また、ステップｓ１０３、ｓ１０５、ｓ１０７は、ｓ１０２と切り離さずに一体で処理されてもよい。

【0033】

ステップｓ１０４、ｓ１０６及びｓ１０８において、予測装置１００は、生成された早産発症予測モデル、出産日予測モデル及び早産発症リスク算出モデルに予測対象の妊婦の細菌叢データをそれぞれ投入し、早産予測を実行する。具体的には、予測装置１００は、ステップｓ１０４において、早産発症予測モデルを利用して予測対象の妊婦の細菌叢データから将来の早産発症の有無を予測する。また、予測装置１００は、ステップｓ１０６において、出産日予測モデルを利用して予測対象の妊婦の細菌叢データから出産日を予測する。また、予測装置１００は、ステップｓ１０８において、早産発症リスク算出モデルを利用して予測対象の妊婦の細菌叢データから早産発症リスクを算出する。なお、早産有無予測は、最終的な早産発症有無の予測、この先n1週間（n1は任意の数値）で早産を発症しない予測、この先n2週間（n2は任意の数値）で早産を発症する予測、などを含むが、それらに限定されるものでない。

【0034】

ステップｓ１０９において、予測装置１００は、早産発症予測結果、出産日予測結果及び／又は早産発症リスク計算結果を妊婦又は医療機関に通知し、当該予測処理を終了する。

【0035】

図４は、本発明の一実施例による特徴量抽出・モデル作成処理を示すフローチャートである。当該特徴量抽出・モデル作成処理は、上述された図３のステップｓ１０２，ｓ１０３において実行可能であり、後述されるステップｓ１０２−１〜５がステップｓ１０２の特徴量の抽出処理に対応し、ステップｓ１０３−１〜３がステップｓ１０３の早産発症有無予測モデルの生成処理に対応する。当該特徴量抽出・モデル作成処理では、早産予測モデル生成機能１３０は、取得したデータを早産群と正期産群とに分け、各変数のうち二群をよく分ける（すなわち、区別する、判別する、分離するなど）変数、例えば、二群をよく分ける上位の所定数の変数を特徴量として抽出し、抽出された特徴量を用いて早産予測モデルを作成し、最も性能の良い特徴量による早産予測モデルを特定する。次に、早産予測モデル生成機能１３０は、当該特徴量を除いた残りの特徴量と特定された特徴量とを併せた２変数の予測モデルを作成し、これらのモデルを含めて最適なモデルを選択する。早産予測モデル生成機能１３０は、上述した一連の処理を再帰的に実行し、最終的に早産予測モデルを特定する。なお、上記は早産発症有無予測モデルに利用する特徴量の抽出方法や早産発症有無予測モデルの選定方法の一例であって、早産発症有無予測モデルはこれに制限されない。例えば、多層ニューラルネットワークまたはLasso回帰などによって特徴量を抽出し、早産発症有無予測モデルを生成する方法もある。

【0036】

図４に示されるように、ステップｓ１０２−１において、予測装置１００は、取得した細菌叢データを加工する。具体的には、予測装置１００は、例えば、細菌種の計測量を相対量に標準化してもよいし、また、相対量が少ない細菌種を削除してもよい。

【0037】

ステップｓ１０２−２において、予測装置１００は、モデル生成のために、既に出産済みの妊婦の細菌叢データを抽出する。

【0038】

ステップｓ１０２−３において、予測装置１００は、妊娠フェーズ毎に採取された歯垢検体の細菌叢データについて、各妊娠フェーズにおいて採取された各細菌種のそれぞれを独立した変数として保存する。例えば、２つの妊娠フェーズでそれぞれ２００菌種の細菌種が採取された場合、４００個（２００菌種×２妊娠フェーズ）の変数が設定される。例えば、４００個のデータは、当該妊婦のＩＤ（userid）と関連付けて、"spA-1, spB-1, ...,spA-2, spB-2, ..."の変数列により表されてもよい。

【0039】

ステップＳ１０２−４において、予測装置１００は、早産群と正期産群とに細菌叢データを分け、検定にてp値がa未満（例えば、a=0.01）となる二群間をよく分ける細菌種を抽出する。

【0040】

ステップＳ１０２−５において、予測装置１００は、抽出した細菌種をp値の昇順にソートし、これらを特徴量とする。

【0041】

ステップＳ１０３−１において、予測装置１００は、細菌叢データを早産群D1と正期産群D2とに分け、それぞれの比率e（例えば、e=0.9）で早産群D1を学習用データD1a及び評価用データD1bに分け、正期産群D2を学習用データD2a及び評価用データD2bに分ける。

【0042】

ステップＳ１０３−２において、予測装置１００は、予測性能を向上させるため、学習用データD1a, D2aにおいてD1aをオーバーサンプリングしてもよく、及び／又はD2aをアンダーサンプリングしてもよい。

【0043】

ステップＳ１０３−３において、予測装置１００は、学習用データD1a, D2aを用いてforward stepwise selectionによって特徴量を選択し、早産予測モデルMを作成する。例えば、最初に２０個の特徴量（妊娠フェーズごとの細菌種）について、予測装置１００は、１つの特徴量だけを用いて早産予測モデルM(1)〜M(20)を作成する。そして、予測装置１００は、評価データ用D1b, D2bを用いて、最も性能の良いM(A)（特徴量Aを使用）を特定する。性能スコアとして、例えば、AUC(Area under the curve)又はf-scoreが利用されてもよい。次に、予測装置１００は、学習用データD1a, D2aを用いて、当該特徴量を除いた残りの１９個の特徴量から１つの特徴量を選択してAと併せた２変数の早産予測モデルM(A,1)〜M(A,19)を作成し、評価用データD1b, D2bを用いて、M(A)を含めて最適なモデルを選択する。予測装置１００は、上述した一連の処理を再帰的に実行し、最終的に早産予測モデルM(A,B,C,...)を特定する。

【0044】

なお、早産予測モデルMは、SVM、線形ロジスティック回帰、ニューラルネットワーク、ランダムフォレストなどに基づき生成されてもよい。また、性能スコアは、AUC又はf-scoreに限定されず、sensitivityとspecificityとの調和平均などが用いられてもよい。また、最適な特徴量を選択する方法としてはforward step selectionに限定されず、backward stepwise selection又はbidirectional stepwise selectionが利用されてもよい。また、全細菌種を利用し、PCAやMDS、NMDSなどで次元削減した後、PC1, PC2, ..., PCNのN個の特徴量に対してforward/backward/bidirectional stepwise selectionを適用してもよい。

【0045】

図５は、本発明の他の実施例による特徴量抽出・モデル作成処理を示すフローチャートである。当該特徴量抽出・モデル作成処理は、上述された図３のステップｓ１０２，ｓ１０５において実行可能であり、後述されるステップｓ１０２−１〜５がステップｓ１０２の特徴量の抽出処理に対応し、ステップｓ１０５−１〜３がステップｓ１０５の出産日予測モデルの生成処理に対応する。なお、ステップＳ１０２−１〜５は図４のステップＳ１０２−１〜５と同じであるため、その説明は省く。

【0046】

ステップＳ１０５−１において、予測装置１００は、細菌叢データを早産群D1と正期産群D2とに分け、それぞれの比率e（例えば、e=0.9）で早産群D1を学習用データD1a及び評価用データD1bに分け、正期産群D2を学習用データD2a及び評価用データD2bに分ける。

【0047】

ステップＳ１０５−２において、予測装置１００は、予測性能を向上させるため、学習用データD1a, D2aにおいてD1aをオーバーサンプリングしてもよく、及び／又はD2aをアンダーサンプリングしてもよい。

【0048】

ステップＳ１０５−３において、予測装置１００は、学習用データD1a, D2aを用いてforward stepwise selectionによって特徴量を選択し、出産日予測モデルMを作成する。例えば、最初に２０個の特徴量（妊娠フェーズごとの細菌種）について、予測装置１００は、１つの特徴量だけを用いて出産日予測モデルM(1)〜M(20)を作成する。そして、予測装置１００は、評価データ用D1b, D2bを用いて、最も性能の良いM(A)（特徴量Aを使用）を特定する。性能スコアとして、例えば、MSE（平均平方誤差）又はR²（決定係数）が利用されてもよい。次に、予測装置１００は、学習用データD1a, D2aを用いて、当該特徴量を除いた残りの１９個の特徴量から１つの特徴量を選択してAと併せた２変数の出産日予測モデルM(A,1)〜M(A,19)を作成し、評価用データD1b, D2bを用いて、M(A)を含めて最適なモデルを選択する。予測装置１００は、上述した一連の処理を再帰的に実行し、最終的に出産日予測モデルM(A,B,C,...)を特定する。

【0049】

なお、出産日予測モデルMは、SVM、線形ロジスティック回帰、ニューラルネットワークなどに基づき生成されてもよい。また、性能スコアは、MSE（平均平方誤差）又はR²（決定係数）に限定されなくてもよい。また、最適な特徴量を選択する方法としてはforward step selectionに限定されず、backward stepwise selection又はbidirectional stepwise selectionが利用されてもよい。また、全細菌種を利用し、PCAやMDS、NMDSなどで次元削減した後、PC1, PC2, ..., PCNのN個の特徴量に対してforward/backward/bidirectional stepwise selectionを適用してもよい。

【0050】

図６は、本発明の他の実施例による特徴量抽出・モデル作成処理を示すフローチャートである。当該特徴量抽出・モデル作成処理は、上述された図３のステップｓ１０２，ｓ１０７において実行可能であり、後述されるステップｓ１０２−１〜５がステップｓ１０２の特徴量の抽出処理に対応し、ステップｓ１０７−１〜２がステップｓ１０７の早産リスクモデルの生成処理に対応する。なお、ステップＳ１０２−１〜５は図４のステップＳ１０２−１〜５と同じであるため、その説明は省く。

【0051】

ステップＳ１０７−１において、予測装置１００は、細菌種（spA-1, spB-1, ..., spA-2, spB-2, ...）毎に量の閾値範囲S_spA-1=[A_spA-1, B_spa-1]を設定し、早産に対するリスク比(RR_spA-1)を計算する。ここで、リスク比はRR=a(c+d)/c(a+b)であり、aは早産群であって（細菌種の量が）閾値範囲内である歯垢検体数であり、bは正期産群であって閾値範囲内である歯垢検体数であり、cは早産群であって閾値範囲外である歯垢検体数であり、dは正期産群であって閾値範囲外である歯垢検体数である。

【0052】

ステップＳ１０７−２において、予測装置１００は、予測対象の妊婦の細菌種の量を（x_spA-1, x_spB-1,...）とした場合、
RR=Π_spRR_sp^f(x_sp⁾
f(x_sp) = 1 if x_sp is in S_sp
f(x_sp) = -1 if x_sp is not in S_sp
によって、早産リスク予測モデルを生成してもよい。

【0053】

上記の一例を実施した結果では、早産群と正期産群をよく分ける細菌種として、Porphyromonas gingivalis, Treponema denticola, Tabberella forsythensisや、Bergeyella, Kingella denitrificans, Scardovia wiggsiae, Streptococus mutans, Selenomonas, Capnocytophaga, Treponema vincentiiなどが抽出され、これらを特徴量として用いた早産発症有無予測モデルの性能は、感度0.714、特異度0.751となった。

【0054】

以上、本発明の実施例について詳述したが、本発明は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

【符号の説明】

【0055】

１０予測システム
５０細菌叢計測装置
１００予測装置
１１０データ取得機能
１２０データ保存機能
１３０早産予測モデル生成機能
１４０早産予測機能
１５０結果通知機能

【図1】