【文献】
北折珠央ほか,歯周病原因菌Porphyromonas gingivalisの早産への関与,日本周産期・新生児医学会雑誌,2009年12月20日,Vol.45 No.4,1029-1031
【文献】
和泉雄一ほか,VII 歯周病と早期低体重児出産との関連,歯周病と生活習慣病の関係,財団法人8020推進財団,2005年 3月31日,82-94
(58)【調査した分野】(Int.Cl.,DB名)
前記早産予測モデル生成機能は、前記複数の時点で取得された細菌叢データの各細菌種を独立した変数として設定し、早産群と正期産群とをよく分ける上位の所定数の変数を抽出し、
前記早産予測モデル生成機能は、forward stepwise selection方式に従って、前記抽出した変数から前記早産予測モデルを生成する、請求項1記載の予測装置。
【発明を実施するための形態】
【0011】
以下、図面に基づいて本発明の実施の形態を説明する。
【0012】
後述される実施例では、早産発症予測のための予測装置が開示される。後述される実施例によると、複数の妊娠フェーズにおいて採取された妊婦の口腔内の細菌叢に関する細菌叢データを取得すると、予測装置は、早産発症と相関を有する細菌種を抽出し、抽出した細菌種を用いて生成した早産予測モデルに基づき、取得した細菌叢データから妊婦の早産発症予測を実行する。これにより、人種間の差があると共に、経時的に変化すると考えられている細菌叢データからの早産予測に対して、特定の人種に適した早産予測モデルが生成可能になる。
【0013】
まず、
図1を参照して、本発明の一実施例による予測システムを説明する。
図1は、本発明の一実施例による予測システムの構成を示す概略図である。
【0014】
図1に示されるように、予測システム10は、細菌叢計測装置50及び予測装置100を有する。
【0015】
細菌叢計測装置50は、採取された歯垢検体から口腔内の細菌叢を測定し、生成された細菌叢データを予測装置100に提供する。具体的には、検査技師が妊婦の歯垢検体を採取し、細菌叢計測装置50を用いて採取した歯垢検体に存在する細菌種を示す細菌叢データを取得し、取得した細菌叢データを予測装置100に提供する。
【0016】
人間の口腔内に存在する細菌種として、例えば、Porphyromonas gingivalis, Treponema denticola, Tabberella forsythensis, Bergeyella, Kingella denitrificans, Scardovia wiggsiae, Streptococus mutans, Selenomonas, Capnocytophaga, Treponema vincentiiなどを含む約200種類以上の細菌種が知られており、特にPorphyromonas gingivalis, Treponema denticola, Tabberella forsythensisは、歯周病に関わるred complexとして分類され、妊娠関連疾患との相関が指摘されている。細菌叢計測装置50は、口腔内の細菌種を計測するのに用いられる何れか既知のものであってもよい。
【0017】
予測装置100は、提供された細菌叢データから早産発症を予測する。具体的には、予測装置100は、以下で詳細に説明されるように、早産群の細菌叢データ及び非早産群又は正期産群の細菌叢データを含む既知のデータから早産予測モデルを作成し、作成した早産予測モデルに予測対象となる妊婦の細菌叢データを入力することによって、当該妊婦の早産の発症の有無を予測する。なお、本発明による早産発症予測は、早産の発症の有無に限定されず、後述されるように、出産日の予測、早産リスクの算出などを含むものであってもよい。
【0018】
ここで、予測装置100は、典型的には、コンピュータ、サーバ、スマートフォン、タブレットなどの通信機能を備えた情報処理装置により実現されてもよい。例えば、情報処理装置に搭載されたプロセッサが、メモリ装置に格納されたデータやプログラムを処理及び実行することによって、後述される各種機能及び処理を実行する。しかしながら、予測装置100は、何れか特定のハードウェア構成に限定されるものでなく、適切なハードウェア構成により実現されてもよい。
【0019】
次に、
図2を参照して、本発明の一実施例による予測装置を説明する。
図2は、本発明の一実施例による予測装置の機能構成を示すブロック図である。
【0020】
図2に示されるように、予測装置100は、データ取得機能110、データ保存機能120、早産予測モデル生成機能130、早産予測機能140及び結果通知機能150を有する。
【0021】
データ取得機能110は、細菌叢計測装置50から細菌叢データを取得する。具体的には、データ取得機能110は、妊婦の妊娠前後の何れかの時期から出産前後の何れかの時期までのデータ取得期間において、妊婦に関する細菌叢データを複数の時点にて取得する。例えば、データ取得機能110は、細菌叢計測装置50から、異なる妊娠フェーズ(例えば、12〜23週と24〜34週)に採取された妊婦の口腔内の細菌叢データを取得してもよい。
【0022】
データ保存機能120は、取得した妊婦の口腔内の細菌叢データを保存する。具体的には、データ保存機能120は、取得した細菌叢データを各妊娠フェーズで採取された細菌種(例えば、200菌種など)のそれぞれを独立した変数として保存する。例えば、2つの妊娠フェーズでそれぞれ200菌種の細菌種が採取された場合、経時的な複数時点の歯垢細菌組成の変化を加味したモデルを作成できるように、400個(200菌種×2妊娠フェーズ)の変数が設定されてもよい。
【0023】
早産予測モデル生成機能130は、取得された妊婦の口腔内の細菌叢データに基づき、早産の発症の有無を予測する早産予測モデルを生成する。具体的には、早産予測モデル生成機能130は、正期産により出産した妊婦(正期産群)と早産により出産した妊婦(早産群)とを含む複数の妊婦から取得した口腔内の細菌叢データに基づき、早産発症予測モデルを生成及び更新してもよい。例えば、以下で詳細に説明されるように、早産予測モデル生成機能130は、取得した細菌叢データから早産群と正期産群とをよく分ける細菌種を特定し、変数を削減するため、二群をよく分ける細菌種として10〜20個の細菌種×妊娠フェーズを抽出してもよい。早産群と正期産群とをよく分ける細菌種として、red complexとして分類されるPorphyromonas gingivalis, Treponema denticola, Tabberella forsythensisや、Bergeyella, Kingella denitrificans, Scardovia wiggsiae, Streptococus mutans, Selenomonas, Capnocytophaga, Treponema vincentiiなどが抽出されてもよい。
【0024】
続いて、早産予測モデル生成機能130は、抽出された細菌種を特徴量として用いて早産予測モデルを作成する。具体的な予測モデルの作成手法として、例えば、早産予測モデル生成機能130は、Linear SVMを用いて、特徴量として用いられる細菌種をforward stepwise selectionによって選択してもよい。例えば、最初に20個の特徴量(妊娠フェーズごとの細菌種)について、早産予測モデル生成機能130は、1つの特徴量だけを用いて早産予測モデルM(1)〜M(20)を作成し、最も性能の良いM(A)(特徴量Aを使用)を特定する。次に、早産予測モデル生成機能130は、当該特徴量を除いた残りの19個の特徴量から1つの特徴量を選択してAと併せた2変数の予測モデルM(A,1)〜M(A,19)を作成し、M(A)を含めて最適なモデルを選択する。早産予測モデル生成機能130は、上述した一連の処理を再帰的に実行し、最終的に予測モデルM(A,B,C,...)を特定する。
【0025】
なお、上述した実施例では、早産の発症有無を示す早産発症予測モデルについて説明したが、本発明による早産予測モデルは、これに限定されず、出産日を予測する出産日予測及び早産発症リスクモデル又は発症確率を予測する早産発症リスクモデルであってもよい。
【0026】
早産予測機能140は、早産予測モデルに基づき、取得した妊婦の細菌叢データから当該妊婦の早産発症予測を実行する。具体的には、早産予測機能140は、複数の時点において取得した妊婦の細菌叢データを早産予測モデルに投入し、複数の時点において取得した細菌叢データに基づく早産予測モデルの出力結果に基づき当該妊婦の早産有無予測、出産日予測又は早産発症リスク算出を実行してもよい。すなわち、早産予測機能140は、当該妊婦に早産の可能性があるか予測するか(早産発症有無予測)、当該妊婦の出産日を予測するか(出産日予測)、あるいは、当該妊婦の早産発症リスクを算出してもよい(早産発症リスク算出)。
【0027】
結果通知機能150は、早産予測機能140によって実行された早産予測の結果を妊婦、医療関係者などに通知する。
【0028】
次に、
図3〜6を参照して、本発明の一実施例による予測処理を説明する。当該予測処理は、上述した予測装置100によって実行される。
図3は、本発明の一実施例による予測処理を示すフローチャートである。
【0029】
図3に示されるように、ステップS100において、予測装置100は、細菌叢計測装置50から細菌叢データを取得し、取得した細菌叢データを保存する。具体的には、細菌叢計測装置50は、妊婦から採取された歯垢検体を計測し、当該歯垢検体に含まれる細菌種量を示す細菌叢データを予測装置100に提供する。予測装置100は、細菌叢計測装置50から取得した細菌叢データを妊婦毎に保存する。本実施例によると、細菌叢データは、例えば、妊娠フェーズ毎など、妊娠前後の何れかの時期から出産前後の何れかの時期までのデータ取得期間において各妊婦に対して複数回採取される。
【0030】
ステップs101において、予測装置100は、取得した細菌叢データに対して異常値を検出及び除去し、欠測値を補完する。例えば、基準値から閾値範囲外の細菌種量が測定された場合、予測装置100は、当該測定値を実際の値ではなく計測エラーとみなして、当該測定値を除去すると共に、他の細菌種量の値が類似する別の歯垢検体の当該測定値にランダムなノイズを加えて流用するか、他の細菌種量の値が類似する別の歯垢検体を複数抽出してそれらの当該測定値の分布からその分布に従うように1つの推定値を算出するなど何れかの方法により当該測定値を補完してもよい。例えば、検体Sの細菌種spA-2が閾値範囲外または欠測値である場合、まず検体S以外の検体群においてspA-2の細菌種量の分散Vを計算する。つぎに、細菌種群B
ALL={spA-1, spB-1,…, spA-2, spB-2}からspA-2を抜いた細菌種群B
SUBの各細菌種量が検体Sと近い検体を1検体抽出し、そのspA-2の細菌種量に正規分布N(0,V)に従うランダムな1点を足し合わせた値を検体SのspA-2の推定量とする方法がある。このとき、検体Sと近い検体の抽出には、各細菌種量を各細菌種量の標準偏差で割って標準化した値を用いてユーグリッド距離を計算しても良いし、MSE(平均平方誤差)又はR
2(決定係数)などを用いても良い。また別の補完方法として、細菌種群B
SUBの各細菌種量が検体Sと近い検体を例えば10検体だけ抽出し、その平均値E2および分散V2を求め、正規分布N(E2,V2)に従うランダムな1点を検体SのspA-2の推定量とする方法がある。また、分布は必ずしも正規分布とせず、任意の分布で推定してもよい。
【0031】
ステップs102において、予測装置100は、既に出産して出産状況が確定している妊婦のデータを用いて、早産群と正期産群とをよく分ける変数を特徴量として抽出する。これには、ステューデントのt検定、ウェルチのt検定、多変量ロジスティック回帰、カイ二乗検定などを用いて変数を限定する方法、Lasso回帰、Ridge回帰、Elastic Netなどにより有用な変数を限定する方法、主成分分析の寄与率などから変数を限定する方法などがあるが、それらに限定されるものでない。
【0032】
ステップs103、s105及びs107において、予測装置100は、抽出した特徴量を用いて早産予測モデルを生成する。具体的には、予測装置100は、ステップs103において、早産になるかどうかを予測する分類モデルとして早産発症予測モデルを生成する。また、予測装置100は、ステップs105において、各妊婦の出産日を予測する回帰モデルとして出産日予測モデルを生成する。また、予測装置100は、s107において、早産発症のリスクを算出する早産発症リスク算出モデルを生成する。回帰モデルには、線形回帰モデル、ロジスティック回帰モデル、SVMによる回帰モデル、多層ニューラルネットワークによる回帰モデルなどがあるが、それらに限定されるものでない。また、分類モデルにおいても、線形分類、ロジスティック回帰、ベイジアンネットワーク、SVM、k近傍法、ランダムフォレスト、多層ニューラルネットワークによる分類モデルなどがあるが、それらに限定されるものでない。早産発症リスク算出モデルについては、オッズ比、寄与危険度、相対危険度などがあるが、それらに限定されるものでない。また、ステップs103、s105、s107は、s102と切り離さずに一体で処理されてもよい。
【0033】
ステップs104、s106及びs108において、予測装置100は、生成された早産発症予測モデル、出産日予測モデル及び早産発症リスク算出モデルに予測対象の妊婦の細菌叢データをそれぞれ投入し、早産予測を実行する。具体的には、予測装置100は、ステップs104において、早産発症予測モデルを利用して予測対象の妊婦の細菌叢データから将来の早産発症の有無を予測する。また、予測装置100は、ステップs106において、出産日予測モデルを利用して予測対象の妊婦の細菌叢データから出産日を予測する。また、予測装置100は、ステップs108において、早産発症リスク算出モデルを利用して予測対象の妊婦の細菌叢データから早産発症リスクを算出する。なお、早産有無予測は、最終的な早産発症有無の予測、この先n1週間(n1は任意の数値)で早産を発症しない予測、この先n2週間(n2は任意の数値)で早産を発症する予測、などを含むが、それらに限定されるものでない。
【0034】
ステップs109において、予測装置100は、早産発症予測結果、出産日予測結果及び/又は早産発症リスク計算結果を妊婦又は医療機関に通知し、当該予測処理を終了する。
【0035】
図4は、本発明の一実施例による特徴量抽出・モデル作成処理を示すフローチャートである。当該特徴量抽出・モデル作成処理は、上述された
図3のステップs102,s103において実行可能であり、後述されるステップs102−1〜5がステップs102の特徴量の抽出処理に対応し、ステップs103−1〜3がステップs103の早産発症有無予測モデルの生成処理に対応する。当該特徴量抽出・モデル作成処理では、早産予測モデル生成機能130は、取得したデータを早産群と正期産群とに分け、各変数のうち二群をよく分ける(すなわち、区別する、判別する、分離するなど)変数、例えば、二群をよく分ける上位の所定数の変数を特徴量として抽出し、抽出された特徴量を用いて早産予測モデルを作成し、最も性能の良い特徴量による早産予測モデルを特定する。次に、早産予測モデル生成機能130は、当該特徴量を除いた残りの特徴量と特定された特徴量とを併せた2変数の予測モデルを作成し、これらのモデルを含めて最適なモデルを選択する。早産予測モデル生成機能130は、上述した一連の処理を再帰的に実行し、最終的に早産予測モデルを特定する。なお、上記は早産発症有無予測モデルに利用する特徴量の抽出方法や早産発症有無予測モデルの選定方法の一例であって、早産発症有無予測モデルはこれに制限されない。例えば、多層ニューラルネットワークまたはLasso回帰などによって特徴量を抽出し、早産発症有無予測モデルを生成する方法もある。
【0036】
図4に示されるように、ステップs102−1において、予測装置100は、取得した細菌叢データを加工する。具体的には、予測装置100は、例えば、細菌種の計測量を相対量に標準化してもよいし、また、相対量が少ない細菌種を削除してもよい。
【0037】
ステップs102−2において、予測装置100は、モデル生成のために、既に出産済みの妊婦の細菌叢データを抽出する。
【0038】
ステップs102−3において、予測装置100は、妊娠フェーズ毎に採取された歯垢検体の細菌叢データについて、各妊娠フェーズにおいて採取された各細菌種のそれぞれを独立した変数として保存する。例えば、2つの妊娠フェーズでそれぞれ200菌種の細菌種が採取された場合、400個(200菌種×2妊娠フェーズ)の変数が設定される。例えば、400個のデータは、当該妊婦のID(userid)と関連付けて、"spA-1, spB-1, ...,spA-2, spB-2, ..."の変数列により表されてもよい。
【0039】
ステップS102−4において、予測装置100は、早産群と正期産群とに細菌叢データを分け、検定にてp値がa未満(例えば、a=0.01)となる二群間をよく分ける細菌種を抽出する。
【0040】
ステップS102−5において、予測装置100は、抽出した細菌種をp値の昇順にソートし、これらを特徴量とする。
【0041】
ステップS103−1において、予測装置100は、細菌叢データを早産群D1と正期産群D2とに分け、それぞれの比率e(例えば、e=0.9)で早産群D1を学習用データD1a及び評価用データD1bに分け、正期産群D2を学習用データD2a及び評価用データD2bに分ける。
【0042】
ステップS103−2において、予測装置100は、予測性能を向上させるため、学習用データD1a, D2aにおいてD1aをオーバーサンプリングしてもよく、及び/又はD2aをアンダーサンプリングしてもよい。
【0043】
ステップS103−3において、予測装置100は、学習用データD1a, D2aを用いてforward stepwise selectionによって特徴量を選択し、早産予測モデルMを作成する。例えば、最初に20個の特徴量(妊娠フェーズごとの細菌種)について、予測装置100は、1つの特徴量だけを用いて早産予測モデルM(1)〜M(20)を作成する。そして、予測装置100は、評価データ用D1b, D2bを用いて、最も性能の良いM(A)(特徴量Aを使用)を特定する。性能スコアとして、例えば、AUC(Area under the curve)又はf-scoreが利用されてもよい。次に、予測装置100は、学習用データD1a, D2aを用いて、当該特徴量を除いた残りの19個の特徴量から1つの特徴量を選択してAと併せた2変数の早産予測モデルM(A,1)〜M(A,19)を作成し、評価用データD1b, D2bを用いて、M(A)を含めて最適なモデルを選択する。予測装置100は、上述した一連の処理を再帰的に実行し、最終的に早産予測モデルM(A,B,C,...)を特定する。
【0044】
なお、早産予測モデルMは、SVM、線形ロジスティック回帰、ニューラルネットワーク、ランダムフォレストなどに基づき生成されてもよい。また、性能スコアは、AUC又はf-scoreに限定されず、sensitivityとspecificityとの調和平均などが用いられてもよい。また、最適な特徴量を選択する方法としてはforward step selectionに限定されず、backward stepwise selection又はbidirectional stepwise selectionが利用されてもよい。また、全細菌種を利用し、PCAやMDS、NMDSなどで次元削減した後、PC1, PC2, ..., PCNのN個の特徴量に対してforward/backward/bidirectional stepwise selectionを適用してもよい。
【0045】
図5は、本発明の他の実施例による特徴量抽出・モデル作成処理を示すフローチャートである。当該特徴量抽出・モデル作成処理は、上述された
図3のステップs102,s105において実行可能であり、後述されるステップs102−1〜5がステップs102の特徴量の抽出処理に対応し、ステップs105−1〜3がステップs105の出産日予測モデルの生成処理に対応する。なお、ステップS102−1〜5は
図4のステップS102−1〜5と同じであるため、その説明は省く。
【0046】
ステップS105−1において、予測装置100は、細菌叢データを早産群D1と正期産群D2とに分け、それぞれの比率e(例えば、e=0.9)で早産群D1を学習用データD1a及び評価用データD1bに分け、正期産群D2を学習用データD2a及び評価用データD2bに分ける。
【0047】
ステップS105−2において、予測装置100は、予測性能を向上させるため、学習用データD1a, D2aにおいてD1aをオーバーサンプリングしてもよく、及び/又はD2aをアンダーサンプリングしてもよい。
【0048】
ステップS105−3において、予測装置100は、学習用データD1a, D2aを用いてforward stepwise selectionによって特徴量を選択し、出産日予測モデルMを作成する。例えば、最初に20個の特徴量(妊娠フェーズごとの細菌種)について、予測装置100は、1つの特徴量だけを用いて出産日予測モデルM(1)〜M(20)を作成する。そして、予測装置100は、評価データ用D1b, D2bを用いて、最も性能の良いM(A)(特徴量Aを使用)を特定する。性能スコアとして、例えば、MSE(平均平方誤差)又はR
2(決定係数)が利用されてもよい。次に、予測装置100は、学習用データD1a, D2aを用いて、当該特徴量を除いた残りの19個の特徴量から1つの特徴量を選択してAと併せた2変数の出産日予測モデルM(A,1)〜M(A,19)を作成し、評価用データD1b, D2bを用いて、M(A)を含めて最適なモデルを選択する。予測装置100は、上述した一連の処理を再帰的に実行し、最終的に出産日予測モデルM(A,B,C,...)を特定する。
【0049】
なお、出産日予測モデルMは、SVM、線形ロジスティック回帰、ニューラルネットワークなどに基づき生成されてもよい。また、性能スコアは、MSE(平均平方誤差)又はR
2(決定係数)に限定されなくてもよい。また、最適な特徴量を選択する方法としてはforward step selectionに限定されず、backward stepwise selection又はbidirectional stepwise selectionが利用されてもよい。また、全細菌種を利用し、PCAやMDS、NMDSなどで次元削減した後、PC1, PC2, ..., PCNのN個の特徴量に対してforward/backward/bidirectional stepwise selectionを適用してもよい。
【0050】
図6は、本発明の他の実施例による特徴量抽出・モデル作成処理を示すフローチャートである。当該特徴量抽出・モデル作成処理は、上述された
図3のステップs102,s107において実行可能であり、後述されるステップs102−1〜5がステップs102の特徴量の抽出処理に対応し、ステップs107−1〜2がステップs107の早産リスクモデルの生成処理に対応する。なお、ステップS102−1〜5は
図4のステップS102−1〜5と同じであるため、その説明は省く。
【0051】
ステップS107−1において、予測装置100は、細菌種(spA-1, spB-1, ..., spA-2, spB-2, ...)毎に量の閾値範囲S
spA-1=[A
spA-1, B
spa-1]を設定し、早産に対するリスク比(RR
spA-1)を計算する。ここで、リスク比はRR=a(c+d)/c(a+b)であり、aは早産群であって(細菌種の量が)閾値範囲内である歯垢検体数であり、bは正期産群であって閾値範囲内である歯垢検体数であり、cは早産群であって閾値範囲外である歯垢検体数であり、dは正期産群であって閾値範囲外である歯垢検体数である。
【0052】
ステップS107−2において、予測装置100は、予測対象の妊婦の細菌種の量を(x
spA-1, x
spB-1,...)とした場合、
RR=Π
spRR
spf(xsp)
f(x
sp) = 1 if x
sp is in S
sp
f(x
sp) = -1 if x
sp is not in S
sp
によって、早産リスク予測モデルを生成してもよい。
【0053】
上記の一例を実施した結果では、早産群と正期産群をよく分ける細菌種として、Porphyromonas gingivalis, Treponema denticola, Tabberella forsythensisや、Bergeyella, Kingella denitrificans, Scardovia wiggsiae, Streptococus mutans, Selenomonas, Capnocytophaga, Treponema vincentiiなどが抽出され、これらを特徴量として用いた早産発症有無予測モデルの性能は、感度0.714、特異度0.751となった。
【0054】
以上、本発明の実施例について詳述したが、本発明は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。