【文献】
山本 威久 ほか,川崎病の冠動脈病変のリスク因子:平均共分散構造分析による検討,日本小児感染症学会 総会・学術集会 プログラム・抄録集,H-1-12,日本,日本小児感染症学会,2016年11月19日,P237
【文献】
Haolin Wang et al.,Mining incomplete clinical data for the early assessment of Kawasaki disease based on feature clustering and convolutional neural networks,Artificial Intelligence In Medecine,2020年05月03日,105,P1-7
(58)【調査した分野】(Int.Cl.,DB名)
前記抗炎症療法が、アセチルサリチル酸および/またはその塩の投与、IVIG投与、静注用メチルプレドニゾロンパルス投与、プレドニゾロン投与、インフリキシマブ投与、ウリナスタチン投与、シクロスポリンA投与、並びに血漿交換からなる群より選ばれた1種以上の治療方法である、請求項1又は請求項2に記載された予測方法。
前記サンプルスコアについて前記患者での予測値が所定のカットオフ値以上である場合に、前記患者で前記合併症の発生に至る予測結果を出力する処理を実行するように前記情報処理装置を機能させる、請求項1から請求項3までのいずれか一項に記載された予測方法。
【発明を実施するための形態】
【0026】
[KDでのCAL発生リスク予測用の学習済みモデル生成方法]
本願発明者は、本発明を完成させるまでの過程で、次のように考えた。従来、KD急性期患者がCAL発生に至るリスクを、
図31における一次治療S30前に判断する(S24)時点で高精度に予測するのは難しかった。その原因は、患者ごとにCAL発生と関連性がある未知の因子が隠れているため、つまり、患者ごとに異なる体質(遺伝的素因や環境要因)が潜在しているためと考えた。この考えに基づき、本願発明者は、共分散構造分析に着目した。従来、共分散構造分析は、社会学、心理学、又はマーケティング等の分野で、幾つかの未知の因子が含まれる複雑な問題を分析するのに活用されていた(例えば特許文献1参照)が、本願発明者が知り得る限り、臨床医学分野で潜在変数と体質との因果関係を説明するために活用した前例は皆無であった。小児の臨床医学では、複数の臨床的指標の間に複雑な関連性が存在すると考えられる場合がある。このため、例えば、小児科医が日常診療の現場で取得可能な、KD急性期患者の検査値などの臨床情報に基づいて、共分散構造分析により、一次治療S30後のCAL発生を一次治療S30前に予測するという複雑な問題を解明できる可能性があると考えた。
【0027】
そこで、当初、本願発明者は、過去にKD急性期医療S20を行ってCAL発生の有無を評価した被験者らについて、KD急性期医療S20を行った当時に得られた臨床情報を用いて、共分散構造分析を行った。共分散構造分析には、CAL発生に対して因果関係を有するであろう変数(臨床データ)を臨床情報から任意に抽出して、この因果関係を検証可能という利点がある。しかし、共分散構造分析により作成した統計モデルには、新規KD患者の臨床データをこの統計モデルに適用して新規KD患者がCAL発生に至るか否かの予測値を算出することが、できないという欠点があった。ここで、本願発明者が試験的に、既にCAL発生の有無を評価された被験者らの臨床情報と、この臨床情報を用いて共分散構造分析により算出したサンプルスコア(sample score:以下「SS」ともいう)の計算値とを、学習用データとして人工ニューラルネットワーク(artificial neural network:以下「ANN」ともいう)に機械学習させた。つまり、本願発明者は、共分散構造分析とANN解析とを組み合わせて試行した。その結果、生成された学習済みモデルにより、意外にも、CAL発生との間で高い相関関係を有するSSの予測値を得ることができた。このため、本願発明者は、患者ごとでの合併症の発生リスクをなるべく高精度に予測可能な予測方法と、この予測を行うための学習済みモデル及びその生成方法とを提供可能なことを見出し、本発明を創作するに至った。以下、図面を用いて本発明の実施形態を説明する。
【0028】
図1に示す、本発明の一実施形態に係る学習済みモデル生成方法S1aは、被験者らの臨床情報取得ステップS2aと、学習前の正規化ステップS3aと、共分散構造分析ステップS4aと、学習ステップS6aと、選別ステップS7aとを含む。
【0029】
被験者らの臨床情報取得ステップS2aでは、学習用データを作成するために、例えば
図31に示すKD急性期医療S20で既に少なくとも一次治療S30を受けた後にCAL発生の有無を判定された被験者らについて、この被験者らに含まれる各々の被験者の臨床情報と、各々の被験者でのCAL発生の有無に関する判定結果と、を取得する。一次治療S30は、first lineともいわれる。
図1に示すステップS2aで取得する臨床情報や判定結果は、以下に説明するように医師(医師から指示を受けた者を含む。以下同じ。)が各々の被験者について診断や治療を行った結果、既に生成された情報である。この情報が生成されるまでの過程で医師が行った診断や治療の工程は、本発明やステップS2aに含まれない。
【0030】
ANNの機械学習に適したデータを選定する観点から、生成方法S1aにおける各々の被験者は、定型例KDか又は不全型KD(KD類例)と医師に診断された患者でも良く、好ましくは定型例KDと医師に診断された患者である。なお、非特許文献7に記載されたKD診断基準では、以下に説明するKDの6種の主要症状のうち、5種以上の症状を呈する受診者は定型例KDと診断され、4種の症状を呈する受診者は定型例KD又は不全型KDと診断される。3種の症状を呈する受診者は、他の疾患が否定され「症候または所見」からKDが最も考えられる場合、不全型KDと診断される。KDの6種の主要症状は、(1)発熱、(2)両側眼球結膜の充血、(3)口唇または口腔所見:口唇の紅潮、いちご舌、又は口腔咽頭粘膜のびまん性発赤、(4)発疹(BCG接種痕の発赤を含む)、(5)四肢末端の変化:急性期での手足の硬性浮腫または掌蹠もしくは指趾先端の紅斑、並びに(6)急性期での非化膿性頸部リンパ節腫脹である。ここでの「症候または所見」は、例えば、病初期のトランスアミナーゼ値の上昇、乳児の尿中白血球数増加、脳性ナトリウム利尿ホルモン(以下「BNP」ともいう)またはNT−proBNPの上昇、心臓超音波検査での僧帽弁閉鎖不全または心膜液貯留、胆嚢腫大、および、低アルブミン血症又は低ナトリウム血症、からなる群より選ばれた1種以上の症候または所見である。
【0031】
被験者らの人数は、学習用データを充実させて予測精度を高める観点から、例えば30名以上、好ましくは50名以上、更に好ましくは100名以上であり、100名を超えて人数が多いほど更により好ましい。同様の観点から、被験者らには、二次治療や三次治療を受けてCAL発生に至らなかったIVIG不応例の被験者や、二次治療や三次治療を受けたがCAL発生に至ったIVIG不応例の被験者のみならず、主にIVIG療法による一次治療で解熱してCAL発生に至らなかったIVIG反応例の被験者も、それぞれなるべく多くの人数を含めるのが好ましい。
【0032】
生成方法S1aでの各々の被験者の臨床情報は、CAL発生との間に直接的または間接的な因果関係を有しやすい臨床データである観点から、性別、KD急性期であり且つ抗炎症療法を受けていない時点(以下「一次治療前時点」ともいう)での月齢、一次治療前時点での冠動脈径、一次治療前時点での全身性血管炎マーカー検査値、一次治療前時点での高サイトカイン血症マーカー検査値、一次治療前時点でのIVIG不応予測スコアの得点、一次治療前時点の後に抗炎症療法を受けた回数、及びこれらのいずれかを間接的に示すデータからなる群より選ばれた3種以上の被験者臨床データ、例えば4種以上でも良く、好ましくは5種以上、更に好ましくは6種以上の被験者臨床データを含む。ここでの「間接的に示すデータ」とは、当業者であれば目的のデータを概ね推定可能なデータ、又は、何らかの変換を行えば目的のデータを概算可能なデータである。例えば、各々の被験者の年齢(例えば1.5歳)は、数値を12倍する変換を行えば月齢(例えば18ヵ月齢)を概算可能なため、月齢を間接的に示すデータに該当する。このように、目的のデータと相関するデータは、目的のデータを間接的に示すデータの一種といえる。
【0033】
上記した一次治療前時点は、予測精度を高める観点から、例えば、KDを発症した日(KD発症日)を0日目としてKD発症日から実質的に7日以内であり、且つ、一次治療を受けていない時点である。本明細書で「実質的に」とは、例外が存在しても、内容や本質において本発明の目的や作用効果の妨げにならない程度に過ぎなければ許容されることを意味する。例えば、小児がKD発症から数日後に保護者に連れられて初回受診した場合、保護者が症状の発症日を覚えていなければ、医師は正確なKD発症日を特定できないが、この様な場合でも例えば小児の症候または所見から「おそらくKD発症から7日以内であろう」と医師が判断可能な時点は「KD発症から実質的に7日以内」に該当する。初回受診時にKDの主要症状が十分に現れておらずKDと診断されなかったが、数日後の再受診時にKDと診断された場合、KD以外の疾患が否定されれば、KD発症日は初回受診の原因となった症状の発症日である。
【0034】
被験者臨床データの一例として挙げた性別は、例えば出生時の身体的構造または性染色体などから判断可能な、生物学的な性別を示すデータである。例えば、各々の被験者での血中性ホルモン濃度の検査値は、当業者であればこの検査値に基づき各々の被験者の性別を概ね推定可能であるため、性別を間接的に示すデータに該当する。
【0035】
被験者臨床データの一例として挙げた冠動脈径は、例えば、径拡大が疑われる複数箇所で冠動脈直径(冠動脈内径)を測定して得られた平均値、中央値、最大値、又はこれらのいずれかを間接的に示すデータでも良いが、予測精度を高める観点から、冠動脈の直径を測定して得られた最大値が好ましい。冠動脈径を間接的に示すデータとして例えば、冠動脈半径の測定値が挙げられる。なお、従来、小児科の日常診療の現場で担当医(小児科医)は、KDと診断する際、断層心エコー法で検査機器のズーム機能を活用して冠動脈径を実測してきた。冠動脈径のデータは、現場の担当医にとって簡便な観点では断層心エコー法による実測値であるのが好ましく、または、更に正確に測定可能な観点では、心臓カテーテル検査による冠動脈造影、造影CT検査、もしくはMRIを用いた検査での測定値であるのも好ましい。
【0036】
CAL発生しやすい部位である観点から、径を測定する冠動脈の部位は、左冠動脈主幹部(left main coronary trunk artery:以下「LMT」という)、左冠動脈前下行枝(left anterior descending coronary artery:以下「LAD」という)近位部、左冠動脈回旋枝、及び右冠動脈(right coronary artery:以下「RCA」という)近位部、からなる群より選ばれた1種以上の部位であるのが好ましい。冠動脈径のデータは、後の予測精度を高める観点では、ここで挙げた冠動脈の部位の全てのうち又は1種以上の部位のうちでの最大値のデータであるのが好ましい。あるいは、冠動脈の部位別にCAL発生の危険性を予測可能にする観点では、各々の被験者について、ここで挙げた部位ごとの冠動脈径の最大値のデータを取得しても良い。
【0037】
冠動脈径の計測値データを、例えば次の数式1により、仮説母集団での冠動脈径の平均値(研究論文に記載された日本の小児における冠動脈径の推定平均値)が0となり、仮説母集団での冠動脈径の標準偏差(SD)が1.0となるように、Zスコアに変換しても良い。冠動脈の部位別に冠動脈径の計測値データを取得した場合、部位別にZスコアに変換しても良い。
【0039】
小児は、齢を重ねて体格成長し、身長と体重とから算出される体表面積を増すほど、健常時の冠動脈径も増す。このため、例えば、1歳児と5歳児とで同じ冠動脈径が計測されても、1歳児でCAL発生ありと判定され、5歳児でCAL発生なしと判定される場合があり得る。齢や体表面積が各々異なる被験者らについて、体格成長に伴って冠動脈径が拡大する要素を考慮して修正されたZスコアを取得可能な観点から、冠動脈径の計測値を、次の数式2に示すLMS法でZスコアに変換するのが好ましい。LMS法は、体表面積ごとの冠動脈径の計測値の分布をひとつひとつ正規分布化させて、歪度(λ,L)、中央値(M)、及び変動係数(S)(SD/M)により分布を変化させる統計学的手法である。
【0041】
標本数と研究手法の観点から従来、小児科の日常臨床の現場で高い信用度で汎用されている観点から、Z score project(例えば非特許文献8)又はその2nd stageの研究成果として作成された冠動脈内径の標準曲線を考慮したLMS法の計算式に基づき、各々の被験者での冠動脈径をZスコアに変換するのが更に好ましい。本願出願当時では例えばインターネットで、小児冠動脈内径Z Score計算アプリを利用可能なウェブサイト(https://kwsd.info/)、または、Coronary Z Score Calculatorをダウンロード可能なウェブサイト(例えばhttp://raise.umin.jp/zsp2/data/zsp_calculator_version4_full.xlsx若しくはhttp://raise.umin.jp/zsp2/data/zsp_calculator_version4_light.xlsx)にアクセスし、各々の被験者の性別、身長、体重、及び冠動脈の各部の計測値のデータを入力すれば、冠動脈の各部それぞれのZスコアを算出可能である。同様の観点から、本願の出願後にCoronary Z Score Calculatorのversion5以降が公開されるか、又はZ score project 2nd stageを発展させた研究成果として作成された冠動脈径の計算式が公開される等した場合、日本川崎病学会で推奨などされている最新の計算方法により、各々の被験者の冠動脈径をZスコアに変換するのが好ましい。
【0042】
被験者臨床データの一例として挙げた全身性血管炎マーカー検査値は、全身性の血管炎やこれに伴う組織(例えば血管内皮)破壊の指標となる検査値である。全身性血管炎マーカーとして例えば、赤血球沈降速度、血清補体価、または、血中もしくは血清中の、ペントラキシンスーパーファミリー濃度、免疫複合体濃度、プロカルシトニン濃度、フィブリン分解産物濃度、及びこれらのいずれかに代用可能なマーカー検査値が挙げられる。ペントラキシンスーパーファミリーとして例えば、ペントラキシン−3、アミロイドP、又はC反応性蛋白(C-reactive protein:以下「CRP」ともいう)等が挙げられる。小児科臨床の現場で簡便に広く活用されてきた検査値であり臨床応用しやすい観点から、全身性血管炎マーカー検査値は、血球沈降速度か又は血液中もしくは血清中のCRP濃度であるのが好ましく、血清中CRP濃度であるのが更に好ましい。
【0043】
被験者臨床データの一例として挙げた高サイトカイン血症マーカー検査値は、いわゆるサイトカインストーム、又はサイトカイン放出症候群の指標となる検査値である。高サイトカイン血症マーカー検査値として例えば、血中または血清中における、TNF−α、インターフェロン、IL−1β、MCP−1、又はIL−6などの抗炎症性サイトカインの濃度の検査値が挙げられる。予測精度を高める観点から、高サイトカイン血症マーカー検査値としては、血中もしくは血清中のIL−6濃度、または、尿中β2マイクログロブリン濃度が好ましい。高サイトカイン血症マーカー検査値は、従来から一般病院(入院治療可能な二次医療機関)の小児科臨床の現場において一般検査で簡便に広く活用されているから、検査費用が安価で済み、また、患者がKDと診断され入院してから一次治療を受けるまでの例えば3日以内でも一般病院で検査結果を得やすいため、臨床応用しやすい観点から、尿中におけるβ2マイクログロブリンのクレアチニンに対する濃度比(以下「尿中β2MG/Cr」ともいう)であるのが更に好ましい。
【0044】
被験者臨床データの一例として挙げたIVIG不応予測スコアの得点として、例えば、岩佐スコアまたは原田スコア等のIVIG不応例を予測するためのリスクスコアにより算出された得点のデータが挙げられる(非特許文献2参照)。IVIG不応予測スコアの得点は、従来の小児科の日常診療の現場で活用されている観点から、小林スコア(非特許文献1及び3と次の表1)、江上スコア(非特許文献1及び4と次の表2)、又は佐野スコア(非特許文献1及び5と次の表3)により算出される得点のデータであるのが好ましく、更に好ましくは佐野スコアにより算出される得点のデータである。IVIG不応予測スコアの得点を間接的に示すデータとして、この得点に基づいてIVIG不応に該当するリスクが高リスクか否かの判定結果が挙げられる。例えば、一次治療前時点で佐野スコアの得点が2点以上である被験者は、一次治療後にIVIG不応に該当するリスクが高い(高リスク)と判定され、または、2点未満である被験者は一次治療後にIVIG不応に該当するリスクが低い(低リスク)と判定される。次の表1から表3に関して「病日」は、KDを発症した日(KD発症日)を0日目として、このKD発症日から何日目であるか示す単位である。「感度」は、検査で検出したい疾患を有するもののうち、検査で正しく陽性と判定されたものが占める割合である。「特異度」は、検査で検出したい疾患を有さないもののうち、検査で正しく陰性と判定されたものが占める割合である。
【0048】
本明細書での抗炎症療法は、疾患の医療に関するガイドライン(例えば非特許文献1)又は研究論文(いわゆるエビデンス)で抗炎症効果が報告された治療方法である。被験者臨床データの一例として挙げた、一次治療前時点の後に抗炎症療法を受けた回数は、患者が一次治療からCAL発生の有無を判定した時点までの間に抗炎症療法を受けた回数のデータである。抗炎症療法を受けた回数を間接的に示すデータとして、例えば、抗炎症療法の実施の有無のデータが挙げられる。抗炎症療法として、例えば
図31で例示されているように、アセチルサリチル酸(ASA)及び/又はその塩の投与、IVIG投与、IVMP投与、プレドニゾロン(prednisolone:以下「PSL」ともいう)投与、インフリキシマブ(Infliximab:以下「IFX」ともいう)投与、ウリナスタチン(ulinastatin:以下「UTI」ともいう)投与、シクロスポリンA(Cyclosporine A:以下「CsA」ともいう)投与、及び血漿交換からなる群より選ばれた1種以上の治療方法が挙げられる(非特許文献1参照)。ASAは、アスピリン(登録商標)ともいわれる。ASAの塩は、薬理学的に許容可能な塩であれば良く、好ましくはナトリウム塩またはカリウム塩である。IVIG不応と予測される患者で一次治療後にCAL発生に至るか否かを予測可能にする観点から、ここでの抗炎症療法は、IVMP投与、CsA投与、及び血漿交換からなる群より選ばれた1種以上の治療方法であるのが更に好ましく、この1種以上の治療法とIVIG投与および/又はASA投与との併用であるのも更に好ましい。
【0049】
ASA及び/又はその塩の投与、IVIG投与、IVMP投与、IFX投与、UTI投与、及びCsA投与の各々では、通常、実施時に被験者は薬物を血管内投与されるため、抗炎症療法を受けた回数を数えやすい。血漿交換では、通常、実施時に被験者は所定量の血液製剤を血管内投与されるため、抗炎症療法を受けた回数を数えやすい。一方、例えばPSLのように患者に抗炎症薬を経口投与する抗炎症療法では、患者に抗炎症薬が一定期間にわたり経口投与される場合に患者が抗炎症療法を1回受けたものとして数え、その後、一旦、投薬が中断されてから、抗炎症療法が再開されて改めて抗炎症薬が一定期間にわたり経口投与される場合に患者が2回目の抗炎症療法を受けたものとして数える。また、KD急性期医療で担当医がいずれの抗炎症療法を選択するかに応じてCAL発生リスクがどのように変化するか検証可能にする観点では、各々の被験者が複数種類の抗炎症療法を受けた場合、抗炎症療法を受けた回数のデータでは、被験者が受けた抗炎症療法の種類ごとに複数項目を設けても良い。例えば、ある被験者について、IVIG投与を受けた回数が1回、ASA投与を受けた回数が1回、IVMP投与を受けた回数が2回などという様に被験者臨床データを取得しても良い。
【0050】
各々の被験者の臨床情報には、「性別、一次治療前時点での月齢、一次治療前時点での冠動脈径、一次治療前時点での全身性血管炎マーカー検査値、一次治療前時点での高サイトカイン血症マーカー検査値、IVIG不応予測スコアの得点、一次治療前時点の後に抗炎症療法を受けた回数、及びこれらを間接的に示すデータからなる群より選ばれた3種以上の被験者臨床データ」の他にも、KD急性期に各々の被験者から取得可能な臨床データであり、且つ、KD急性期におけるCAL発生との間で直接的または間接的な因果関係を有する臨床データであれば、予測精度の向上に貢献し得るため、臨床情報に含める形で取得しても良い。この様な臨床データとして、例えば、一次治療前時点での心不全マーカー検査値、又はこの検査値を間接的に示すデータ等が挙げられる。心不全マーカー検査値として例えば、心臓性トロポニン、心房性ナトリウム利尿ぺプチド(ANP)、N末端(NT)−proANP、proANP、BNP、proBNP、NT−proBNP、トロポニン、及び血中尿素窒素(BUN)からなる群より選ばれた1種以上のバイオマーカーの検査値が挙げられる。本明細書で既に述べた全身性血管炎マーカー(例えばCRP)や高サイトカイン血症マーカーは、心不全マーカーに含まれない。ここで挙げた心不全マーカーは、従来、小児科臨床の現場で馴染みのない特殊検査の検査値であり、一般病院(二次医療機関)では外注を要して費用が高額となり、また、被験者がKDと診断され入院してから一次治療を受けるまで例えば3日以内では外注先から検査結果を得るのが間に合わない場合が多いため、生成方法S1aの臨床応用を容易にする観点では、各々の被験者の臨床情報に心不全マーカー検査値またはこれを間接的に示すデータを含まないのが好ましい。
【0051】
CAL発生の有無に関する判定結果は、各々の被験者で一次治療後の所定期間内(例えば一次治療後かつKD発症から90日以内)に、CALが形成されているか否かを医師が検査し判定した結果のデータである。CAL発生に至る症例ではKD発症から30日以内にCALが形成される場合が多い観点から、ここでの「一次治療後の所定期間内」は、一次治療後かつKD発症から30日以内であるのが好ましい。判定結果は、前述した「一次治療前時点での冠動脈径」と対応する部位での判定結果であるのが好ましい。例えば、各々の被験者で、一次治療前時点で複数箇所の冠動脈で径を測定して最大値のデータを1つのみ取得した場合、CAL発生の有無の判定結果でも同様に幾つかの部位のうちで径の最大値を1つのみ取得して判定された結果であるのが良い。あるいは、各々の被験者で、一次治療前時点で冠動脈の部位別に径の最大値を取得した場合、CAL発生の有無の判定結果でも同様に幾つかの部位別に径の最大値を取得して判定された結果であるのが良い。
【0052】
CAL発生の有無に関する判定結果は、例えば各々の被験者の体表面積が同程度であれば、判定時に冠動脈直径の最大値が所定の閾値(例えば2mm)以上である場合にCAL陽性(CAL発生あり)と判定し、または、最大値が所定の閾値未満である場合にCAL陰性(CAL発生なし)と判定したデータでも良い。体格成長に伴い冠動脈径が拡大する要素を考慮してCAL発生の有無を判定する観点から、判定結果は、前述したLMS法またはZ score project等の研究成果である計算式に基づいて、各々の被験者での判定時の冠動脈径をZスコアに変換し、Zスコアの値が所定値以上である場合にCAL陽性と判定され、又は所定値未満である場合にCAL陰性と判定された結果であるのが好ましい。冠動脈瘤(CAA)に至らないCALでも発生リスクを予測する観点では、例えば、Zスコアが1.5SD以上である場合にCAL陽性と判定されても良いし、米国と同様Zスコアが2.0SD以上である場合にCAL陽性と判定されるも好ましい。予測精度を更に高める観点では、好ましくはZスコアが2.5SD以上である場合に、更に好ましくはZスコアが3.0SD以上である場合に、それぞれCAL陽性と判定されるのが望ましい。CAA発生リスクを予測する場合、判定基準は5.0SD以上が好ましい。CAAのうち巨大瘤の発生リスクを予測する場合、判定基準は10.0SD以上が好ましい。
【0053】
学習前の正規化ステップS3aでは、後で共分散構造分析や機械学習を効率良く行うために、先のステップS2aで得た臨床情報に含まれる3種以上の被験者臨床データと、CAL発生の有無に関する判定結果とを、それぞれ情報処理装置で演算しやすいように正規化する。正規化とは、データを一定の規則に基づいて利用しやすいように変形する処理である。正規化後データは、正規化前データを概ね再現可能であるため、正規化前データを間接的に示すデータに該当する。例えば、性別などの数値でないデータは、例えば男性を1に変換し、女性を0に変換する等して正規化するのが好ましい。例えば、月齢などの数値データは、次の数式3により0以上1.0以下の範囲内に含まれるように正規化するのが好ましい。
【0055】
後に機械学習を行う際、入力変数に0又は1.0の近似値が含まれていなければ演算しやすい観点から、各々の被験者の臨床情報に含まれる3種以上の被験者臨床データを、0.10以上0.90以下の範囲内に含まれるように正規化するのが更に好ましい。例えば性別のように数値でないデータは、男性を0.90に変換し、女性を0.10に変換する等して正規化すれば良い。同様の観点から、臨床情報に含まれる例えば月齢などの数値データは、次の数式4により0.10以上0.90以下の範囲内に含まれるように正規化するのが更に好ましい。
【0057】
各々の被験者でのCAL発生の有無に関する判定結果は、後の共分散構造分析ステップでは用いられるが、更にその後の機械学習では特に用いられない。このため、この判定結果は例えば、CAL陽性とCAL陰性とのいずれか一方を0に変換するように正規化し、残る他方を1.0に変換するように正規化するのが好ましい。各々の被験者で冠動脈の部位別にCAL発生の有無の判定結果を取得した場合、部位別にCAL陽性か又はCAL陰性かに応じて、部位別に0又は1.0に正規化するのが好ましい。
【0058】
各々の被験者の臨床情報に含まれる3種以上の被験者臨床データと、各々の被験者でのCAL発生の有無の判定結果とについて、先のステップS2aでいきなり正規化後データを取得可能な場合には、学習前の正規化ステップS3aを省略可能である。例えば、先のステップS2aで取得した時点で、CAL発生の有無に関する判定結果のデータが既に0又は1.0であった場合、このデータを更に正規化することを特に要しない。
【0059】
共分散構造分析は、複数の変数(複数種のデータ)間の関係を検討可能な統計分析手法の一つである。共分散構造分析ステップS4aでは、各々の被験者についてCAL発生との間で高い相関関係を有するSS計算値を算出するために、情報処理装置を用いて共分散構造分析を行う。このためには、各々の被験者について4種以上の観測変数を設ける。観測変数とは、実際に観測(計測)されたデータ又はその正規化後データである。ここで4種以上の観測変数の内訳は、各々の被験者の臨床情報に含まれる3種以上の被験者臨床データと、各々の被験者での「CAL発生の有無に関する判定結果」との組み合わせである。共分散構造分析で各々の観測変数として用いるデータは、数値データであれば良く、必ずしも0以上1.0以下の範囲内にある数値データでなくても良い。また、共分散構造分析を行うために、各々の被験者での「CAL発生の有無に関する判定結果」に係る観測変数に対して、直接的な因果関係を有すると仮定される潜在変数を設ける。潜在変数とは、実際には観測されていない仮説的なデータである。4種以上の観測変数と、潜在変数と、を設けた上で、情報処理装置に共分散構造分析を行うよう演算処理を実行させ、「CAL発生の有無に関する判定結果」に係る観測変数に対して、直接的な統計学的に有意な因果関係が認められた潜在変数について、因子得点のデータを算出させる。ここでの有意とは、例えばp<0.05、好ましくはp<0.001である。ここで算出された因子得点の数値データそのものか、又はこの数値データそのものを再現可能な範囲内で正規化させたデータを、各々の被験者でのCAL発生リスクに関するSS計算値とする。
【0060】
共分散構造分析に用いる情報処理装置は、共分散構造分析の演算処理が可能であれば特に限定されない。例えば、市販のパーソナルコンピュータで、AMOS(Analysis of Moment Structure)、SAS(Statistical Analysis System)、LISREL(Linear Structure Relations)、又はEQS(Structural Equation Modeling Software)等の統計解析用ソフトウェアを用いて共分散構造分析を行うことができる。後の予測精度を高める観点では、共分散構造分析ステップS4aで、平均共分散構造分析を行うのが好ましい。平均共分散構造分析は、ある変数の平均値と他の変数の平均値との差である切片を変数間の関係に導入して、推定すべきパス係数や分散にこの切片を含める共分散構造分析である。また、パスモデルを用いて直感的に統計解析を行うことが可能な観点では、構造方程式モデリング(Structural Equation Modeling:以下「SEM」ともいう)により共分散構造分析を行うのが好ましく、SEMにより平均共分散構造分析を行うのが更に好ましい。例えばAMOSを用いれば、SEMにより平均共分散構造分析を行うことができる。
【0061】
SEMのパスモデルとして例えば、
図2に例示するように複数の観測変数に対して1つの潜在変数が直接的な因果関係を有する探索的因子分析モデルか、
図3に例示するように各々の観測変数に対して2つ以上の潜在変数が直接的な因果関係を有し且つ潜在変数間に相関関係を有する確認的因子分析モデルか、
図4に例示するように探索的因子分析モデルを複数含んで成る二次因子モデルか、又はこれらのモデルで少なくとも一部の観測変数間に有意と認められる因果関係が規定されるように変形させたモデル等が挙げられる。パスモデルにおいて、単方向矢印は因果関係を表し、矢印の元にある変数が、矢印の先にある変数に対して影響を及ぼすことを仮定する。
図2から
図4では省略しているが、パスモデルにおける単方向矢印にはいずれもパス係数が与えられており、潜在変数から各々の観測変数へ単方向矢印に与えられるパス係数はいずれも意味のあるもの(統計学的に有意なもの)と仮定する。つまり、パスモデルにおいて、潜在変数から各々の観測変数に対する因果関係は、いずれも有意なものである。また、パスモデルにおいて双方向矢印は相関関係を表す。
図2から
図4では省略しているが、パスモデルにおける双方向矢印にはいずれも相関係数が与えられており、各相関関係の大小を判別可能になっている。識別問題(パスモデルにより定まる観測変数と潜在変数との関係を規定する関係式が数学的な解を有するか否かの問題)を解きやすい観点から、パスモデルは、
図2に示す探索的因子分析モデルか、又はこのモデルで一部の観測変数間に因果関係の存在が仮定されるように変形させたモデルであるのが好ましい。
【0062】
図1に示す共分散構造分析ステップS4aで、共分散構造分析の計算結果の妥当性や、パスモデルがデータに適合しているかを評価するには、例えば、カイ二乗(以下「χ
2」という。)統計量、残差平方平均平方根(Root Mean square Residual:以下「RMR」という。)、適合度指標(Goodness of Fit Index:以下「GFI」という。)、修正適合度指標(Adjusted Goodness of Fit Index:AGFI)、赤池情報量基準(Akaike's Information Criterion:以下「AIC」という。)、又はRoot Mean Square Error of Approximation(以下「RMSEA」という。)等の指標を用いれば良い。一般的には例えば、χ
2統計量から「パスモデルがデータに適合している」との仮説が棄却されず、GFI値やAGFI値が所定の閾値(例えば0.9)以上であり、又はRMSEA値が所定の閾値(例えば0.080)未満である等の条件を数多く満たすほど、共分散構造分析の計算結果やパスモデルについて信頼性が高い。パスモデルに含まれるパス係数の信頼性を評価するには、例えばt検定、又はワルド検定などを行えば良い。例えばAMOSを用いてSEMにより共分散構造分析を行う場合、ここで例示した指標や方法により、共分散構造分析の計算結果やパスモデルについて信頼性を検討可能である。
【0063】
共分散構造分析ステップS4aでは、作成したパスモデルでのRMSEA値が、例えば0.080未満である場合に、好ましくは0.050未満である場合に、信頼できる統計モデルとして共分散構造分析に用いるのが良い。RMSEA値が0.080以上になった場合、そのままではパスモデルを信頼できないため、RMSEA値が0.080未満になるように、例えば観測変数として用いる3種以上の被験者臨床データの組み合わせを再考してパスモデルを修正するのが良い。同様の観点から、RMSEA値が0.080以上になった場合の3種以上の被験者臨床データの組み合わせは、後の機械学習で3種以上の入力変数の組み合わせとして用いないのが好ましい。例えば、本願発明者が試行したところ、各々の被験者について、一次治療前時点での総ビルビリン量と、一次治療前時点での白血球数と、一次治療後でのKD再燃の有無とについては、観測変数として用いてSEMで平均共分散構造分析を行っても潜在変数との間で有意な因果関係が認められなかったため、データを観測変数として用いないのが好ましく、後の機械学習でも入力変数として用いないのが好ましい。ステップS2a、S3a、及びS4
aの組み合わせは、機械学習用データを生成するステップS5aとして機能し得る。
【0064】
学習ステップS6aでは、各々の被験者の臨床情報に含まれる3種以上の被験者臨床データを入力変数(独立変数)とし、各々の被験者について先の共分散構造分析ステップS4aで得られたSS計算値を出力変数(従属変数)として、入力変数と出力変数の関係をANNに機械学習させる。ANNは、ヒト脳での神経学的処理を模した計算技術に基づく情報処理システムであり、入力変数と出力変数が存在するシステムのモデル化に用いられている。学習ステップS6aで活用可能なANNとして、例えばパーセプトロンが層状につなぎ合わされた多層パーセプトロンが挙げられる。多層パーセプトロンとして
図5に例示するように、入力層2と、一層の中間層5と、出力層8とを有する三層型ANN1が挙げられる。これらの層(2、5、8)各々に人工ニューロン(artificial neuron:以下「AN」という)が幾つか設けられている。ANはノードともいわれる。入力層2に設けられた各々のAN(3aから3d)は、ネットワーク4を介して中間層5に設けられた各々のAN(6aから6c)に接続されている。中間層5に設けられた各々のAN(6aから6c)は、ネットワーク7を介して、出力層8に設けられたAN9に接続されている。
【0065】
ANN1に機械学習させる際、例えば入力層2に設けられた各々のAN(3aから3d)に、入力変数として用いるいずれか1種の被験者臨床データを入力する。また、例えば出力層8に設けられたAN9に、出力変数として用いるSS計算値を入力する。その上で情報処理装置に演算させると、入力層2に設けられた各々のAN(3aから3d)に入力された入力変数が、中間層5へ向けて出力される。各々のネットワーク(4、7)は、重み付け値W
ijを有する。中間層5に設けられたAN(6aから6c)と出力層8に設けられたAN9では、次の数式5で例示するように、前層からの入力値S
iと重み付け値W
ijの積和計算と、シグモイド関数を用いた変数変換がされ、出力層8で計算式が出力される。次いで、この計算式により算出される数値と、正解(事前に出力層8に入力された出力変数)との間の誤差が計算され、この誤差がゼロになるように、しきい値h
iと重みW
ijが修正される。機械学習させたANNでは、入力変数(独立変数)と出力変数(従属変数)との間に存在する関係が見出されている。このため、学習ステップS6aでは、学習済みモデルを生成させることができる。
【0066】
【数5】
P
i ANが発火する確率
W
ij 前層のANと次層のAN間の重み付け値(シナプス結合計数)
S
i 前層のANからの入力値
h
i しきい値
T シグモイド関数の傾き
【0067】
図5に例示するANN1に限らず、
図1に示す学習ステップS6aでは例えば、入力層と、一層以上の中間層と、出力層とを有するANNに機械学習させれば良い。機械学習させるANNとして、入力層と中間層の二層から成る単純パーセプトロンのみを採用するのは、予測精度の大幅な悪化を招くため避けるべきである。過学習を避ける観点から、ANNにおける中間層の数は、四層以下または三層以下でも良く、好ましくは二層以下である。本発明の目的に反しない限り、入力層、一層以上の中間層、及び出力層を有する階層型ANNを2つ以上組み合わせた状態で機械学習させても良い。ANNで用いられる動作関数は、例えば動径基底関数またはヘビ関数でも良いが、信頼性が高い観点から、前述した数式
5のようなシグモイド関数が好ましい。機械学習の方法は例えば、共役勾配降下法、準ニュートン法、又はレーベンバーグ・マーカート法などでも良いが、初学者でも市販の統計解析用ソフトウェアを用いて実施しやすい観点では、正則化させて行ったり又は誤差逆伝搬法を行ったりするのが好ましく、加えて学習時間を短縮させる観点から誤差伝搬法と補修学習法を併用するのが更に好ましい。学習用データに隠れた法則性を抽出しやすい観点では、誤差伝搬法と成長抑制学習法を併用するのが更に好ましい。
【0068】
後に予測精度を向上させる観点では、機械学習で入力変数として、各々の被験者の臨床情報に含まれる例えば4種以上の被験者臨床データを、好ましくは5種以上の被験者臨床データを、更に好ましくは6種以上の被験者臨床データを用いるのが更に好ましい。学習効率の悪化を避ける観点では入力変数として用いる被験者臨床データは、例えば20種以下、好ましくは15種以下、更に好ましくは10種以下である。予測精度が更に高い学習済みモデルを得るためには、入力変数と出力変数とを入力してから誤差修正までの演算処理を情報処理装置に繰り返し(例えば50回以上)実行させ、見出された入力変数と出力変数との関係が各々異なっている、複数の学習済みモデルを生成させるのが好ましい。
【0069】
選別ステップS7aは、先の学習ステップS
6aで複数の学習済みモデルを生成させた場合に、予測精度を更に高めるために、学習済みモデルごとに予測精度の高さを検証して、比較的に予測精度が高い学習済みモデルを選定する。例えば、市販の統計解析ソフトウェアを用いて、学習済みモデルごとに単純交差検証法またはK分割交差検証法(例えば五分割交差検証法)を行い、学習済みモデルごとに決定係数R
2を算出して、最もR
2値が大きい1つの学習済みモデルを選定するのが好ましい。選別ステップS7aでのR
2値は、入力変数が出力変数をどの程度に説明可能か表す指標であり、0に近い値ほど説明できず、1.0に近い値ほど説明できることを意味する。構造が単純で出力誤差が小さい学習済みモデルを選出する観点から、学習済みモデルごとに、AICや、シュワルツのベイジアン情報量基準(Schwartz's Bayesian information criterion:以下「BIC」という)を検証し、AIC値またはBIC値で比較的に高値を示した学習済みモデルを選出の候補から外すのが好ましい。市販の統計ソフトウェアを用いればAICやBICを検証可能である。AIC値とBIC値が低値な学習済みモデルほど、予測精度が高くて統計モデルとして好ましい。先の学習ステップS6aで1つの学習済みモデルのみを生成させた場合や、後の予測精度がある程度に高ければ充分な場合は、選別ステップS7aを省略しても良い。
【0070】
以上に説明した生成方法S1aによれば、3種以上の被験者臨床データの例として挙げた性別、月齢、冠動脈径、全身性血管炎マーカー検査値、高サイトカイン血症マーカー検査値、及びIVIG不応予測スコアの得点はいずれも、KD急性期医療の担当医(例えば病院勤務の小児科医)が一次治療前時点で問診または検査などにより入手可能な情報である。冠動脈径は、例えば担当医がKDと診断する際、従来から小児科の日常診療の現場に広く普及している断層心エコー等の検査方法や検査機器を用いて、入手可能な情報である(非特許文献1と非特許文献2参照)。各々の被験者は、既に一次治療を受けてCAL発生の有無を判定された者であるため、一次治療前時点の後に受けた抗炎症療法の回数や、CAL発生の有無の判定結果も、KD急性期医療の担当医が病院の小児科で入手可能な情報である。各々の被験者でのCAL発生リスクに関するSS計算値は、3種以上の被験者臨床データと、CAL発生の有無の判定結果とから、共分散構造分析により算出可能である。このため、生成方法S1aによれば、従来の小児科の日常診療の現場で馴染みのある検査値などの情報を用いて、学習済みモデルを生成可能である。この学習済みモデルを以下に説明するように活用すれば、予測対象者であるKD急性期患者でCAL発生に至るか否かを、一次治療前時点でなるべく高精度に予測可能となる。
【0071】
[KDでのCAL発生リスク予測方法]
図6に示す本発明の一実施形態に係る予測方法S10aは、学習済みモデルを有する情報処理装置を用いて、KD急性期患者でのCAL発生リスクを予測するための予測方法である。予測方法S10aは、被験者らの臨床情報取得ステップS2aと、学習前の正規化ステップS3aと、共分散構造分析ステップS4aと、学習ステップS6aと、選別ステップS7aと、患者の臨床情報取得ステップS12aと、予測前の正規化ステップS13aと、予測ステップS14aとを含み得る。ステップS2aからS7aは、前述した生成方法S1aと同様に行えば良い。
【0072】
患者の臨床情報取得ステップS12aでは、例えば一次治療後にCAL発生に至るか否かを予測したいKD急性期患者について、一次治療前時点で入手可能な患者の臨床情報を入手する。ここで入手する患者の臨床情報は、性別、一次治療前時点での月齢、一次治療前時点での冠動脈径、一次治療前時点での全身性血管炎マーカー検査値、一次治療前時点での高サイトカイン血症マーカー検査値、一次治療前時点でのIVIG不応予測スコアの得点、一次治療前時点の後(一次治療以降)での抗炎症療法の実施予定回数、及びこれらのいずれかを間接的に示すデータからなる群より選ばれた3種以上の患者臨床データである。予測精度を高める観点から、ここで例示した患者の臨床情報のうち、例えば4種以上、好ましくは5種以上、更に好ましくは6種以上の患者臨床データを取得するのが望ましい。この臨床情報が生成されるまでの過程で医師が行った診断の工程は、本発明やステップS12aに含まれない。
【0073】
予測精度を高める観点から、患者の臨床情報取得ステップS12aで入手する3種以上の患者臨床データは、先のステップS2aで取得した各々の被験者の3種以上の被験者臨床
データと比べて、概ね同種のデータであるのが好ましい。患者臨床データの一例である「抗炎症療法の実施予定回数」は、被験者臨床データの一例である「抗炎症療法を実施した回数」と概ね同種のデータといえる。一般的にKD急性期医療の担当医は、患者についてKDと診断してから一次治療に至るまでに、少なくとも2回は診断する。例えば、一次治療前の最終診断よりも前の診断で医師が既に作成した治療計画、処方計画、又はその案に基づいて、ステップS12aでは抗炎症療法の実施予定回数の患者臨床データを取得すれば良い。医師が治療計画、処方計画、又はその案を作成した工程は、本発明やステップS12aに含まれない。また、KD急性期医療に関するいわゆるエビデンスで、KD急性期患者の一次治療前時点での検査値などに基づいて抗炎症療法について特定の回数を実施することが推奨されている場合、その推奨されている基準に従って医師の判断を介さず自動的に「抗炎症療法の実施予定回数」が定まるように設定しても良い。その他、患者の臨床情報取得ステップS12aは、先のステップS2aについて既に説明したことと同様である。ただし、先のステップS2aとは異なり、患者の臨床情報取得ステップS12aでは、患者でのCAL発生の有無の判定結果を取得することを要しない。
【0074】
予測前の正規化ステップS13aでは、効率良く予測するために、先の患者の臨床情報取得ステップS12aで得た3種以上の患者臨床データを、情報処理装置で演算しやすいように正規化する。同じ理由で、先の学習前の正規化ステップS3aで3種以上の被験者臨床データを正規化したのと概ね同様にして、予測前の正規化ステップS13aでは3種以上の
患者臨床データを正規化するのが好ましい。なお、先の学習前の正規化ステップS3aとは異なり、予測前の正規化ステップS13aでは、患者でのCAL発生の有無についての判定結果の正規化を特に要しない。先の患者の臨床情報取得ステップS12aでいきなり正規化された3種以上の患者臨床データを取得できた場合、予測前の正規化ステップS13aを省略可能である。
【0075】
予測ステップS14aでは、学習済みモデルを有する情報処理装置に、KD急性期患者の臨床情報に含まれる3種以上の患者臨床データを入力して、CAL発生リスクに関するSSについてKD急性期患者での予測値を出力する処理を実行させる。例えば、学習済みモデルの入力層に設けられたANごとに1種の患者臨床データ又はその正規化データ(入力変数)を入力し、学習済みモデルを有する情報処理装置に演算を実行させ、出力層に設けられたANにおいて、KD急性期患者でのCAL発生リスクに関するSS予測値(出力変数)を出力させる。
【0076】
予測ステップS14aで出力されるKD急性期患者でのSS予測値は、この患者が一次治療後にCAL発生に至るか否かを予測する指標となる数値データである。SS予測値が所定のカットオフ値以上である場合には予測結果としてCAL陽性(一次治療後にCAL発生に至る)であり、または、所定のカットオフ値未満である場合には予測結果としてCAL陰性(一次治療後にCAL発生に至らない)である。ただし、このカットオフ値の所定値は、各々の被験者でのCAL発生の有無の判定結果を定めた際の基準値に応じて変動する。例えば、各々の被験者で少なくとも一次治療を受けた後での冠動脈径について、Zスコアの値が3.0SD以上である場合にCAL陽性と判定したのか、2.5SD以上である場合にCAL陽性と判定したのか、それとも、2.0SD以上である場合にCAL陽性と判定したのか、という基準値に応じてカットオフ値の所定値は変動する。基準値が高ければカットオフ値の所定値も高くなる。このため、さらに、予測ステップS14aでは、KD急性期患者でのSS予測値が所定のカットオフ値以上である場合に、この患者でCAL発生に至ることを示す予測結果を出力する処理を実行するように、学習済みモデルを有する情報処理装置を機能させるのが好ましい。このように機能させた場合、例えば予測方法S10aの実施者が統計処理に慣れていなくても、高精度の予測結果を容易に入手可能となり得る。
【0077】
以上に説明した予測方法S10aによれば、各々の被験者の臨床情報に含まれる3種以上の被験者臨床データと、共分散構造分析ステップS4aで出力された各々の被験者でのSS計算値と、を用いた機械学習で生成された学習済みモデルを用いることにより、予測対象者であるKD急性期患者について、一次治療後にCAL発生に至るか否かの指標値となるSS予測値を、一次治療前時点で高精度に得ることが可能となる。このため、例えばKD急性期医療の担当医がCAL発生を抑える治療方針を早期決定する診断をしやすいように、支援可能である。つまり、予測方法S10aは、例えば、KD急性期医療の担当医にとって、初期の治療方針を決定する診断をする際の判断材料となる情報の一つとして、予測結果(SS予測値)という情報を、一次治療前時点で入手するのに適した方法ともいえる。担当医は、KD急性期患者が一次治療後にCAL発生に至る旨の予測結果を一次治療前に得られた場合には、既に作成した治療計画、処方計画、又はこれら計画の案の変更を検討すること、つまり、一次治療で実施する予定であった抗炎症療法の種類や実施予定回数の変更を検討することが可能となる。変更後の計画またはその案に基づいて、変更された「抗炎症療法を受ける予定回数」の患者臨床データを取得して、改めて予測方法S10aを実施することも可能である。一次治療後にCAL陰性との予測結果が得られるまで、計画またはその案を変更しては改めて予測方法S10aを実施することも可能である。
【0078】
簡便に実施可能にする観点では、予測方法S10aでのステップS2aからS7aに代えて、
図7に示すように、あらかじめ生成された学習済みモデルを準備するステップS1bを含む予測方法S10bであるのが好ましい。
【0079】
[KDでのCAL発生リスク予測用の学習済みモデル]
本発明の一実施形態に係る学習済みモデルは、KD患者でCAL発生に至るか否かを予測するための学習済みモデルである。既に説明したように、この学習済みモデルは、既にKD急性期医療における少なくとも一次治療を受けた後にCAL発生の有無を判定された被験者らについて、各々の被験者の臨床情報が
図5に示すANN1の入力層2に入力され、出力層8がCAL発生リスクに関するSSについて各々の被験者での計算値を出力するように、前述した数式
5で示した重み付け値W
ijが機械学習されたものである。また、この学習済みモデルは、入力層にKD急性期患者の臨床情報が入力される場合には、入力されるKD急性期患者の臨床情報に対して重み付け値W
ijに基づく演算を行い、出力層からKD急性期患者でのSS予測値を出力するように、情報処理装置を機能させるためのものである。
【0080】
図7の予測方法S10bを実施するユーザ(例えば、KD急性期医療の担当医、又はこの担当医を補助する医療従事者など)は、
図8に例示するように、上記した学習済みモデル67を有する情報処理装置60を使用しても良い。情報処理装置60は、種々の情報処理や、情報の送受信が可能な情報処理装置であり、例えばパーソナルコンピュータ、又はサーバコンピュータ等である。情報処理装置60は、例えば、制御部61と、表示部62と、入力部63と、記憶部65とを備える。
【0081】
制御部61は、記憶部65に記憶されたプログラム66を読み出して実行することにより、情報処理装置60に係る種々の演算処理、制御処理などを行うプロセッサであり、例えば、一又は複数のCPU(Central Processing Unit)等を有する。記憶部65は、各種データを記憶するメモリである。メモリには、RAM(Random Access Memory)と不揮発性メモリとが含まれる。RAMは、制御部61が演算処理を実行するために必要なデータを一時的に記憶する。不揮発性メモリは、例えばハードディスクドライブを含み、制御部61が処理を実行するためのプログラム66と学習済みモデル67とを記憶保持する。不揮発性メモリは、学習済みモデル67の生成時に学習用データとして用いられた、被験者らの臨床情報データベース68を、更に記憶保持しても良い。表示部62は、例えば液晶ディスプレイ又は有機ELディスプレイ等の表示装置であり、制御部61から与えられた画像を表示する。入力部63は、例えばキーボード又はタッチパネル等の入力インターフェイスであり、ユーザからの操作入力を受け付ける。制御部61は、ユーザにより入力部63を介して情報処理装置60にKD急性期患者の臨床情報が入力された場合に、入力された臨床情報を学習済みモデル67に適用して、CAL発生の有無に関するSSについてKD急性期患者での予測値を出力する処理を実行する処理部として機能する。出力されたSS予測値は、そのまま数値データとして表示部62に表示されても良い。ユーザに分かりやすい観点から、出力されたSS予測値の数値データが所定のカットオフ値以上である場合にKD急性期患者で一次治療後にCAL発生に至ることを示す予測結果が表示部62に表示され、または、所定のカットオフ値未満である場合にCAL発生に至らないことを示す予測結果が表示されるように、情報処理装置60が機能するのが好ましい。
【0082】
情報処理装置60は、通信部64を備えるのが好ましい。通信部64は、通信に関する処理を行うための処理回路等を含み、少なくとも一つのユーザ端末71との間で例えばインターネット又は病院内イントラネット等の通信ネットワーク70を介して情報の送受信を行う。通信部64は、この送受信のためのアンテナを含んでも良い。ユーザ端末71は、例えば、小児科医が所持しているスマートフォン、又は病院の診察室に設けられたパーソナルコンピュータ等である。ユーザがKD急性期患者の臨床情報をユーザ端末71に入力した場合に、入力された臨床情報がユーザ端末71から送信されて通信ネットワーク70と通信部64とを介して情報処理装置60で受信され、制御部61は受信した臨床情報を学習済みモデル67に適用してCAL発生の有無に関するSSについてKD急性期患者での予測値を出力する処理を実行し、出力されたSS予測値は通信部64から送信され通信ネットワーク70を介してユーザ端末71で受信され、ユーザ端末71のディスプレイにSS予測値に基づくCAL発生リスクの予測結果が表示されるのが好ましい。
【0083】
[IgAVでPN又はPNで蛋白尿を伴う症例発生予測用の学習済みモデル生成方法]
以下に
図1を用いて、本発明の他の実施形態に係る学習済みモデルの生成方法S1eを説明するにあたり、前述した生成方法S1aとの共通事項について適宜説明を省略し、生成方法S1aと異なる事項を主に説明する。生成方法S1eは、IgA血管炎(IgAV)患者での紫斑病性腎炎(PN)発生リスクを予測するためか又はPNで蛋白尿を伴う症例発生リスクを予測するための学習済みモデルを生成させるにあたり、被験者らの臨床情報取得ステップS2eと、学習前の正規化ステップS3eと、共分散構造分析ステップS4eと、学習ステップS6eと、選別ステップS7eとを含み得る。
【0084】
被験者らの臨床情報取得ステップS2eでは、学習用データを作成するために、既にIgAV発症から30日以上経過してPN又はPNで蛋白尿を伴う症例発生の有無を判定された被験者らについて、各々の被験者の臨床情報と、各々の被験者でのPN又はPNで蛋白尿を伴う症例発生の有無に関する判定結果とを取得する。この臨床情報と判定結果とが生成されるまでの過程で医師が行った診断や治療の工程は、本発明やステップS2eに含まれない。なお、慢性腎炎の一種であるIgA腎症ではIgAを含む免疫複合体が主に腎臓に沈着するのに対して、IgAV合併症である紫斑病性腎炎(PN)ではIgAを含む免疫複合体が腎臓を含めて全身組織に沈着し得るという違いがある。
【0085】
PNの様々な症例について発生リスクを予測可能にする観点から、生成方法S1eの被験者らには、それぞれIgAV発症後にPNによる重症化の程度が異なる被験者を数多く含むほど好ましい。一般的にPNでは血尿を伴い、尿蛋白量が多いほど重症化しやすい。尿蛋白量0.5g/1.73m
2/day未満か、又は、早朝尿の蛋白/クレアチニン(Cr)比が0.5未満である場合、PNで軽度蛋白尿を伴う症例と診断される。尿蛋白量0.5g/1.73m
2/day以上1.0g/1.73m
2/day未満か、又は、早朝尿の蛋白/Cr比が0.5以上1.0以下である場合、PNで中等度蛋白尿を伴う症例と診断される。尿蛋白量1.0g/1.73m
2/day以上か、又は、早朝尿の蛋白/Cr比が1.0よりも大きい場合、PNで高度蛋白尿を伴う症例と診断される(非特許文献9参照)。特に、PNで尿蛋白量3.0g/1.73m
2/day以上の症例は、ネフローゼ症候群を呈しやすく重症化しやすい。生成方法S1eの被験者らには、PN陰性の被験者、PN陽性で尿蛋白量に異常ない被験者、PN陽性で軽度蛋白尿を伴う被験者、PN陽性で中等度蛋白尿を伴う被験者、PN陽性で高度蛋白尿を伴う被験者、PN陽性で尿蛋白量2.0g/1.73m
2/day以上の被験者、及びPN陽性で尿蛋白量3.0g/1.73m
2/day以上の被験者の各々を、なるべく多い人数で含むのが好ましい。被験者らの好ましい人数は、前述した生成方法S1aと同様である。
【0086】
生成方法S1eでの各々の被験者の臨床情報は、PN発生か又はPNで蛋白尿を伴う症例発生との間に因果関係を有しやすい臨床データである観点から、性別、IgAV急性期であり且つ抗炎症療法を受けていない時点(以下「初回治療前時点」ともいう)での月齢、初回治療前時点での全身性血管炎マーカー検査値、初回治療前時点での腹痛の有無、初回治療前時点での即時型アレルギー疾患の有無、初回治療前時点での血中IgA検査値、初回治療前時点での血中IgE検査値、初回治療前時点の後に抗炎症療法を受けた回数、及びこれらのいずれかを間接的に示すデータからなる群より選ばれた4種以上の被験者臨床データである。性別、月齢、及び間接的に示すデータについては、前述したステップS1aと同様である。
【0087】
生成方法S1eでの全身性血管炎マーカー検査値については、生成方法S1aでの説明と概ね同様であるが、PN発生か又はPNで蛋白尿を伴う症例発生との間で因果関係を持ちやすい臨床データである観点と、小児科臨床の現場で簡便に広く活用されてきた検査値であり臨床応用しやすい観点とから、フィブリン分解産物であるDダイマー(以下「FDP・Dダイマー」ともいう)濃度の検査値が好ましい。一般的に血中FDP・Dダイマー濃度は、血栓症の判定に用いられている。初回治療前時点での腹痛の有無と、初回治療前時点での即時型アレルギー疾患の有無とは、それぞれ例えば、既に医師が各々の被験者についてIgAVと診断した際の病状の所見に基づいて、取得可能な情報である。なお、IgAV急性期に、50%の症例で急性腹痛を伴うといわれている。即時型アレルギー疾患として例えば、アナフィラキシーショック、アレルギー性鼻炎、結膜炎、気管支喘息、蕁麻疹、又はアトピー性皮膚炎などの疾患が挙げられる。血中IgA検査値と血中IgE検査値とは、それぞれ血中または血清中の濃度データである。各々の被験者が初回治療前時点の後に受けた抗炎症療法として、例えば、PSL投与、IVMP投与、シクロホスファミド投与、アザチオプリン投与、ミコフェノール酸モフェチル投与、CsA投与、及び血漿交換からなる群より選ばれた1種以上の抗炎症療法が挙げられる(非特許文献9参照)。
【0088】
PN又はPNで蛋白尿を伴う症例発生の有無に関する判定結果は、各々の被験者で初回治療後の所定期間内(例えば、初回治療後かつIgAV発症から30日以上90日以内)に、PN発生またはPNで蛋白尿を伴う症例発生に至ったか否かを医師が既に判定した結果に関するデータである。通常、この所定期間内に血尿を伴った場合、PN発生と判定される。PNで蛋白尿を伴う症例発生に関する判定結果は、重症化しやすいPN症例の発生リスクを予測可能とすることでIgAV急性期医療の担当医が重症化を避けるための治療方針を早期決定する診断をしやすいように支援する観点から、例えば、PNで中等度以上の蛋白尿を伴う症例発生に至ったか否かの判定結果でも良く、好ましくはPNで高度蛋白尿を伴う症例発生に至ったか否かの判定結果であり、更に好ましくはPNで尿蛋白量2.0g/1.73m
2/day以上の症例発生に至ったか否かの判定結果であり、更により好ましくはPNで尿蛋白量3.0g/1.73m
2/day以上の症例発生に至ったか否かの判定結果であるのが望ましい。その他、被験者らの臨床情報取得ステップS2eの詳細は、冠動脈径に関する事項を除いて、既に説明したステップS2aと同様である。
【0089】
学習前の正規化ステップS3eでは、各々の被験者の臨床情報に含まれる4種以上の被験者臨床データと、PN発生またはPNで蛋白尿を伴う症例発生の有無に関する判定結果とを、情報処理装置で演算しやすいように正規化する。判定結果を正規化する際、例えば、「PN発生あり(PN陽性)」と「PN発生なし(PN陰性)」とのいずれか一方を0に変換し、残る他方を1.0に変換するように正規化しても良い。前述したように重症化しやすいPN症例の発生リスクを予測可能とする観点では、判定結果を正規化する際、例えば「PNで中等度以上の蛋白尿を伴う症例陽性」と「PNで中等度以上の蛋白尿を伴う症例陰性」とで、好ましくは「PNで高度蛋白尿を伴う症例陽性」と「PNで高度蛋白尿を伴う症例陰性」とで、更に好ましくは「PNで尿蛋白量2.0g/1.73m
2/day以上の症例陽性」と「PNで尿蛋白量2.0g/1.73m
2/day以上の症例陰性」とで、更により好ましくは「PNで尿蛋白量3.0g/1.73m
2/day以上の症例陽性」と「PNで尿蛋白量3.0g/1.73m
2/day以上の症例陰性」とで、いずれか一方を0に変換して残る他方を1.0に変換するのが望ましい。その他、学習前の正規化ステップS3eの詳細は、既に説明したステップS3aと同様である。
【0090】
共分散構造分析ステップS4eでは、各々の被験者についてPN発生またはPNで蛋白尿を伴う症例発生との間で高い相関関係を有するSS計算値を算出するために、各々の被験者について、5種以上の観測変数と、潜在変数とを設ける。ここで5種以上の観測変数の内訳は、各々の被験者について、4種以上の被験者臨床データと、PN発生またはPNで蛋白尿を伴う症例発生の有無に関する判定結果と、である。また、「PN発生またはPNで蛋白尿を伴う症例発生の有無に関する判定結果」に係る観測変数に対して、直接的な因果関係を有すると仮定する1つ以上の潜在変数を設ける。その上で、情報処理装置に共分散構造分析を行うように演算処理を実行させ、「PN発生の有無に関する判定結果」か又は「PNで蛋白尿を伴う症例発生の有無に関する判定結果」に対して直接的な有意な因果関係が認められた潜在変数について、因子得点のデータを算出させる。この因子得点の数値データそのものか、又はこの数値データそのものを再現可能な範囲内で正規化させたデータを、各々の被験者でのPN発生リスクに関するSS計算値とする。
【0091】
共分散構造分析ステップS4eで用いる5種以上の観測変数について、好ましい事項は先の学習前の正規化ステップS3eと同様である。2つ以上の潜在変数を設けて共分散構造分析を行う場合、PNの重症化の程度を段階別に予測可能にする観点から、PN陽性か陰性かの判定結果、PNで蛋白尿を伴う症例陽性か陰性かの判定結果、PNで中等度以上の蛋白尿を伴う症例陽性か陰性かの判定結果、PNで高度蛋白尿を伴う症例陽性か陰性かの判定結果、PNで尿蛋白量2.0g/1.73m
2/day以上の症例陽性か陰性かの判定結果、および、PNで尿蛋白量3.0g/1.73m
2/day以上の症例陽性か陰性かの判定結果、からなる群より選ばれた2種以上の判定結果をそれぞれ潜在変数として用いるのが好ましく、この場合に潜在変数として用いる判定結果の種類を多くするほど、観測変数の種類を6種以上から多く設けて共分散構造分析を行うのが好ましい。その他、共分散構造分析ステップS4eの詳細は、既に説明したステップS4aと同様である。ステップS2e、S3e、及びS4eの組み合わせは、機械学習用データを生成するステップS5eとして機能し得る。
【0092】
学習ステップS6eでは、各々の被験者の臨床情報に含まれる4種以上の被験者臨床データを入力変数としてANNの入力層に入力し、各々の被験者について先の共分散構造分析ステップS4eで得られたSS計算値を出力変数として出力層から出力するように、入力変数と出力変数との関係をANNに機械学習させて、学習済みモデルを生成する。その他、学習ステップS6eの詳細は、既に説明したステップS6aと同様である。複数の学習済みモデルを生成させた場合、予測精度を更に高める観点から、学習済みモデルごとに予測精度の高さを検証して、比較的に予測精度が高い学習済みモデルを選定する選別ステップS7eを行うのが良い。その他、選別ステップS7eの詳細は、既に説明したステップS7aと同様である。
【0093】
以上に説明した生成方法S1eによれば、4種以上の被験者臨床データの例として挙げた性別、月齢、全身性血管炎マーカー検査値、腹痛の有無、即時型アレルギー疾患の有無、血中IgA検査値、及び血中IgE検査値はいずれも、IgAV急性期医療の担当医(例えば病院勤務の小児科医)が初回治療前時点で問診または検査などにより入手可能な情報である。各々の被験者は、既に初回治療を受けてPN又はPNで蛋白尿を伴う症例発生の有無を判定された者であるため、初回治療前時点の後に受けた抗炎症療法の回数や、PN又はPNで蛋白尿を伴う症例発生の有無に関する判定結果も、IgAV急性期医療の担当医が病院の小児科で入手可能な情報である。各々の被験者でのPN又はPNで蛋白尿を伴う症例発生リスクに関するSS計算値は、4種以上の被験者臨床データと、PN又はPNのうち蛋白尿を伴う症例発生の有無の判定結果とから、共分散構造分析により算出可能である。このため、生成方法S1eによれば、従来の小児科の日常診療の現場で馴染みのある検査値などの情報を用いて、学習済みモデルを生成可能である。この学習済みモデルを以下に説明するように活用すれば、予測対象者であるIgAV急性期患者でPN又はPNで蛋白尿を伴う症例発生に至るか否かを、初回治療前時点でなるべく高精度に予測可能となる。
【0094】
[IgAVでPN又はPNで蛋白尿を伴う症例発生リスク予測方法]
図6に示す本発明の他の実施形態に係る予測方法S10eは、学習済みモデルを有する情報処理装置を用いて、IgAV急性期患者でのPN発生リスクか又はPNで蛋白尿を伴う症例発生リスクを予測するための予測方法である。予測方法S10eは、被験者らの臨床情報取得ステップS2eと、学習前の正規化ステップS3eと、共分散構造分析ステップS4eと、学習ステップS6eと、選別ステップS7eと、患者の臨床情報取得ステップS12eと、予測前の正規化ステップS13eと、予測ステップS14eとを含み得る。ステップS2eからS7eは、前述した生成方法S1eと同様に行えば良い。
【0095】
患者の臨床情報取得ステップS12eでは、例えば初回治療後の所定期間内にPN発生か又はPNで蛋白尿を伴う症例発生に至るか否かを予測したいIgAV急性期患者について、初回治療前時点で入手可能な患者の臨床情報を取得する。ここで取得する患者の臨床情報は、性別、初回治療前時点での月齢、初回治療前時点での全身性血管炎マーカー検査値、初回治療前時点での腹痛の有無、
初回治療前時点での血中IgA検査値、
初回治療前時点での血中IgE検査値、初回治療前時点での即時型アレルギー疾患の有無、初回治療前時点の後(初回治療以降)での抗炎症療法の実施予定回数、及びこれらのいずれかを間接的に示すデータからなる群より選ばれた4種以上の患者臨床データである。この臨床情報が生成されるまでの過程で医師が行った診断の工程は、本発明やステップS12eに含まれない。
【0096】
予測精度を高める観点から、患者の臨床情報取得ステップS12eで取得する4種以上の患者臨床
データは、先のステップS2aで取得した4種以上の被験者臨床データと比べて、概ね同種のデータであるのが好ましい。「抗炎症療法の実施予定回数」については、初回治療前の診断で医師が既に作成した治療計画、処方計画、又はその案に基づいてデータ取得すれば良い。IgAV急性期医療に関するいわゆるエビデンスで、IgAV急性期患者の初回治療前時点での検査値などに基づいて抗炎症療法について特定の回数を実施することが推奨されている場合、その推奨されている基準に従って医師の判断を介さず自動的に「抗炎症療法の実施予定回数」が定まるように設定しても良い。その他、患者の臨床情報取得ステップS12eは、ステップS12aや先のステップS2eについて既に説明したことと同様である。ただし、先のステップS2eとは異なり、患者の臨床情報取得ステップS12eでは、患者でのPN発生またはPNで蛋白尿を伴う症例発生の有無に関する判定結果を取得することを要しない。
【0097】
予測前の正規化ステップS13eでは、効率良く予測するために、先の患者の臨床情報取得ステップS12eで得た4種以上の患者臨床データを、情報処理装置で演算しやすいように正規化する。その他、予測前の正規化ステップS13eは、ステップS13aについて既に説明したことと同様である。
【0098】
予測ステップS14eでは、学習済みモデルを有する情報処理装置に、IgAV急性期患者の臨床情報に含まれる4種以上の患者臨床データを入力して、PN発生リスクか又はPNで蛋白尿を伴う症例発生リスクに関するSSについてIgAV急性期患者での予測値を出力する処理を実行させる。例えば、学習済みモデルの入力層に設けられたANごとに1種の患者臨床データ又はその正規化データ(入力変数)を入力し、学習済みモデルを有する情報処理装置に演算を実行させ、出力層に設けられたANにおいて、IgAV急性期患者でのPN発生リスクか又はPNで蛋白尿を伴う症例発生リスクに関するSS予測値(出力変数)を出力させる。
【0099】
重症化しやすいPN症例の発生リスクを予測可能とすることによりIgAV急性期医療の担当医が重症化を避けるための治療方針を早期決定する診断をしやすいように支援する観点から、PNで蛋白尿を伴う症例発生リスクに関するSS予測値は、例えば、PNで中等度以上の蛋白尿を伴う症例発生リスクに関するものでも良く、好ましくはPNで高度蛋白尿を伴う症例発生リスクに関するものであり、更に好ましくはPNで尿蛋白量2.0g/1.73m
2/day以上の症例発生のリスクに関するものであり、更により好ましくはPNで尿蛋白量3.0g/1.73m
2/day以上の症例発生リスクに関するものであるのが望ましい。SS予測値がここで挙げたいずれのリスクに関するかに応じて、IgAV急性期患者が陽性(発生に至る)か陰性(発生に至らない)かの判別基準であるカットオフ値の所定値が異なる。このため、さらに、予測ステップS14eでは、IgAV急性期患者でのSS予測値が所定のカットオフ値以上である場合に、この患者で予測したいPN症例の発生に至ることを示す予測結果を出力する処理を実行するように、学習済みモデルを有する情報処理装置を機能させるのが好ましい。その他、予測ステップS14eは、ステップS14aについて既に説明したことと同様である。
【0100】
以上に説明した予測方法S10eによれば、各々の被験者の臨床情報に含まれる4種以上の被験者臨床データと、共分散構造分析ステップS4eで出力された各々の被験者でのSS計算値と、を用いた機械学習で生成された学習済みモデルを用いることにより、予測対象者であるIgAV急性期患者について、初回治療後にPN発生に至るか否かの指標値となるSS予測値を、初回治療前時点で高精度に得ることが可能となる。このため、例えばIgAV急性期医療の担当医がPN発生か又はPNで蛋白尿を伴う症例発生を抑える治療方針を早期決定する診断をしやすいように、支援可能である。簡便に実施可能にする観点では、予測方法S10eでのステップS2eからS7eに代えて、
図7に示すように、あらかじめ生成された学習済みモデルを準備するステップS1fを含む予測方法S10
fであるのが好ましい。
【0101】
[IgAVでPN発生又はPNで蛋白尿を伴う症例発生リスク予測用学習済みモデル]
本発明の他の実施形態に係る学習済みモデルは、IgAV患者でのPN発生リスクか又はPNで蛋白尿を伴う症例発生リスクを予測するための学習済みモデルである。この学習済みモデルは、既にIgAV急性期医療における初回治療後の所定期間内にPN発生か又はPNで蛋白尿を伴う症例発生の有無を判定された被験者らについて、各々の被験者の臨床情報が図
5に示すANN1の入力層2に入力され、出力層8がPN発生リスクに関するSSについて各々の被験者での計算値を出力するように、前述した数式
5で示した重み付け値W
ijが機械学習されたものである。この学習済みモデルは、入力層にIgAV急性期患者の臨床情報が入力される場合には、入力されるIgAV急性期患者の臨床情報に対して重み付け値W
ijに基づく演算を行い、出力層からIgAV急性期患者でのSS予測値を出力するように、情報処理装置を機能させるためのものである。例えば
図6に示す予測方法S10e又は
図7に示す予測方法S10fを実施する者は、この学習済みモデルを有する情報処理装置を使用することとなる。この情報処理装置は、
図8を用いて既に説明した情報処理装置60と同様に構成しても良い。
【0102】
本発明は、その趣旨を逸脱しない範囲で当業者の知識に基づいて種々なる改良、修正、又は変形を加えた態様でも実施できる。また、同一の作用または効果が生じる範囲内で、いずれかの発明特定事項を他の技術に置換した形態で実施しても良い。
【実施例】
【0103】
以下に本発明の実施例などを説明するが、本発明は以下の実施例に限定されない。
【0104】
[KDでのCAL発生予測:第1期研究および第2期研究]
本願発明者は、箕面市立病院でオプトアウトを用いて、後ろ向き研究を行うこととした。後ろ向き研究は、疾病の要因と発症との関連を調べる研究手法の一種である。研究開始時点から過去にふり返って、CAL発生に至った被験者らと、CAL発生に至らなかった被験者らとについて、臨床データを比較し、CAL発生に至った要因を検証することとした。箕面市立病院の倫理審査委員会は、この研究を承認し、インフォームドコンセントの必要性を断念することも承認した。全ての方法は、ヘルシンキ宣言と関連性がある指針に従って実施した。
【0105】
図9に示すように、第1期研究では2002年3月から2005年の間と2008年7月から2012年4月の間に、第2期研究では2014年7月から2018年12月の間に、箕面市立病院でKDと臨床的に診断され入院した375名の小児らについて、被験者として適しているか検討した。KD診断基準で6項目の主要症状のうち3項目以下を満たした患者29名と、三次医療機関に転院した患者16名と、アナフィラキシーや薬剤性過敏症症候群などの深刻な合併症を伴った患者16名とを、除外した。残る314名の小児ら(少年185名と少女129名)を被験者らとした。この被験者らを、一次治療を受けた時期別に分けて、第1期研究の被験者ら106名と、第2期研究の被験者ら208名とに分類した。また、総合研究として、第1期研究と第2期研究との被験者を合わせて、314名を後述する第3期研究での被験者らとした。
【0106】
前述の表3に示した佐野スコアに従い、3項目のうち2項目以上を満たす被験者らを、IVIG不応高リスクに分類した。残りの被験者らは、佐野スコアに従ってIVIG不応低リスクに分類した。
図9に示すように、第1期研究では2002年3月から2005年の間、高リスクの被験者ら13名にはIVIG療法(体重1kgあたり2g/日のIVIG投与および中等量ASA投与)と1回のIVMP(30mg/kg)投与との併用療法を行い、低リスクの被験者ら34名にはIVIG療法のみを行っていた。一方、第1期研究で2008年7月から2012年4月の間、高リスクの被験者ら17名にはIVIG療法と2回のIVMP投与との併用療法を行い、低リスクの被験者ら42名にはIVIG療法と1回のIVMP投与の併用療法を行っていた。第2期研究では、高リスクの被験者ら20名にIVIG療法と2回のIVMP投与との併用療法を行ったのに対して、一次治療前時点で血清中CRP濃度が7mg/dL以上であった被験者ら113名にはIVIG療法と1回のIVMP投与との併用療法を行い、低リスクで一次治療前時点での血清中CRP濃度が7mg/dL未満であった被験者ら75名にはIVIG療法のみを行っていた。
【0107】
被験者らにKD急性期医療を行っていた当時、各々の被験者について冠動脈の拡張を評価するために、一次治療前時点と、一次治療直後と、退院時(一次治療後かつKD発症から30日以内)との3つの時点で、断層心エコー測定により、左冠動脈主幹部(LMT)の直径と、左前下行枝(LAD)近位部の直径と、右冠動脈(RCA)近位部の直径とを測定していた。各々の被験者の冠動脈直径を、前述したCoronary Z Score Calculatorにデータ入力し、LMS法により算出されたZスコアに変換した。LMT、LAD、又はRCAでZスコア最大値が3.0SD以上である場合に、CAL発生と定義した。また、上記した3つの時点で臨床試験を行い、箕面市立病院で行われている標準的な方法で血清成分を測定していた。尿中β2MG/Crは、富士フイルム和光純薬株式会社製のラテックス免疫測定キットを用いて測定していた。
【0108】
以下、統計分析において、p<0.05である場合に統計的に有意と認め、0.05<p<0.10である場合に傾向があると認めるものとする。以下、スチューデントt検定、又はχ
2検定を行った際は、JMPバージョン8.0ソフトウェア(SAS社製)を用いた。以下、線形混合モデルにより解析を行う際は、SPSSバージョン23.0(IBM−SPSS社製)を用いた。また、第1期研究と第2期研究との被験者らのプロフィールを、次の表4に示す。第1期研究の被験者らでは、一次治療前時点の尿中β2MG/Cr対数値(Log尿中β2MG/Cr)と、一次治療前時点のIVIG不応予測スコア(佐野スコア)得点とが、高値であった。第2期研究の被験者らでは、一次治療前時点の月齢と、一次治療前時点の冠動脈直径最大値とが、高値であった。
【0109】
【表4】
【0110】
第1期研究では、数名の医師により冠動脈径を測定していたため、測定値の変動があり、性別など幾つか臨床上のデータ欠損があった。このため、第1期研究では線形混合モデルを用いて解析した。一方、第2期研究では、一名の医師が冠動脈径のデータをほとんど欠失させず冠動脈直径を測定していたため、スチューデントt検定とχ
2検定とを行った。統計的有意性の観点とCALに共通する特徴の傾向の観点とにより、第1期研究と第2期研究とからCAL発生に至った危険因子を特定する変数を選定することとした。なお、予備的に、ロジスチック回帰分析により、好中球数、血中ナトリウム濃度、アルブミン等の検査値データが役立つ可能性を調査したが、CAL発生の予測に顕著な効果を見出せなかった。ヘマトクリット値については、PubMed Central(登録商標)で検索したが、CAL発生の予測因子としての有用性を見出せなかった。
【0111】
線形混合モデルを用いた解析の結果、第1期研究で、CAL発生と関係がある変数はなかった。しかし、線形混合モデルで、Log尿中β2MG/Crの平均値はCAL発生と統計的に有意な正の関連性を示し(p=0.034)、血清中CRP濃度の偏差値もCAL発生と統計的に有意な正の関連性を示した(p=0.002)。さらに、アスパラギン酸アミノトランスフェラーゼ(AST)濃度の平均値もCAL発生と統計的に有意な正の関連性を示した(p=0.064)。第2期研究で、一次治療前時点でのLog尿中β2MG/C
rの最大値がCAL発生と統計的に有意な正の関連性を示し(p=0.0175)、CAL発生と顕著に関係ある疾患の再燃はCAL発生と統計的に有意な正の関連性を示し(p=0.0175)、一次治療前時点での血清中CRP濃度の最大値もCAL発生と統計的に有意な正の関連性を示した(p=0.0855)。第1期研究と第2期研究とで共通する特徴に基づき、CAL発生と関係ある危険因子の候補として、一次治療前時点での尿中β2MG/Crの最大値と、一次治療前時点での血中CRP濃度とが選定された。多変量ロジスチック回帰分析において、それぞれ、尿中β2MG/Crの最大値はCAL発生と統計的に有意な正の関連性を示す因子であり(p=0.063)、一次治療前時点での冠動脈直径の最大値はCAL発生と統計的に著しく有意な正の関連性を示す因子であること(p<0.0001)が示唆された。
【0112】
SEMによる平均共分散構造分析を行うために、AMOS23.0(IBM−SPSS社製)を用いてパスモデルを作成した。作成の際、各々の被験者の臨床的背景として、性別と、一次治療前時点での月齢とを選んだ。KDと関係ある因子として、一次治療前時点でのIVIG不応予測スコア(佐野スコア)の得点に基づくIVIG不応高リスク該当の有無と、一次治療でIVMP投与を受けた回数とを選んだ。説明因子として、一次治療前時点でのLog尿中β2MG/Crの最大値と、一次治療前時点での血清中CRP濃度とを選んだ。ここで選んだ6種の被験者臨床データと、各々の被験者で一次治療直後または退院時(一次治療後かつKD発症から30日以内)に冠動脈径を測定してZスコアの値が3.0SD以上である場合にCAL発生に至ったとの基準で判定した結果とを、それぞれ観測変数としてパスモデルを作成し、平均共分散構造分析を行い、潜在変数の因子得点に関するデータであるSS計算値を算出させた。
【0113】
スチューデントt検定を用いて、CAL発生の有無に関する判定結果と、SS計算値との間で、統計的有意性を分析した。
図10に示す第1期研究のパスモデルでは、0.3を上回る相関係数とp<0.002という有意なp値とを示した複数の変数について、これらの変数間に複数のパスを選定した。
図11に示す第2期研究のパスモデルでは、0.3を上回る相関係数とp<0.0001という有意なp値とに基づいて、潜在変数とCAL発生判定結果との間の標準化されたパスで最大の係数値を示した複数のパスを選定した。
【0114】
以下、本願発明者が行った後ろ向き研究での平均共分散構造分析では、RMSEA値が0.080未満、且つ、パスモデルの適合に関するR
2値が0.95を上回る場合に、統計学的有意性があり信頼できる統計モデルとして扱うこととした。また、RMSEA値が0.050未満で、AIC値が70未満で、CFI(comparative fit index)値が0.95よりも大きく、及びパスモデルの適合に関するR
2値が1.000である場合に、更に統計的有意性があり信頼できる統計モデルと判断した。
図10に示す第1期研究のパスモデルと、
図11に示す第2期研究のパスモデルとで、次の値に基づき優れた適合(統計的有意性)が示された。RMSEA値は、第1期研究と第2期研究とで各々p<0.0001であった。AICは、第1期研究で65、第2期研究で61であった。CFIは、第1期研究と第2期研究とで各々1.000であった。7種の観測変数と1つの潜在変数とを用いたパスモデルの適合に関するR
2値は、第1期研究と第2期研究とで各々1.000であった。標準化直接効果として、潜在変数と「CAL発生の有無に関する判定結果」に係る観測変数との標準化パス係数は、第1期研究で0.80(p<0.001)、第2期研究で0.76(p<0.001)であった。これらの結果から、
図10に示す第1期研究のパスモデルで設けた潜在変数と、
図11に示す第2期研究のパスモデルで設けた潜在変数との各々で、「CAL発生の有無に関する判定結果」に係る観測変数に対して直接的な有意な因果関係が認められた。
【0115】
図13に示すように、第1期研究で、冠動脈径のZスコアが3.0SD以上であるためCAL発生ありと判定された被験者らのSS計算値は、このZスコアが3.0SD未満であるためCAL発生なしと判定された被験者らのSS計算値と比べて、著しく高値であった(p<0.0001)。第2期研究でも、
図14に示すように、Zスコアが3.0SD以上でCAL発生ありと判定された被験者らのSS計算値は、Zスコアが3.0SD未満でCAL発生なしと判定された被験者らのSS計算値と比べて、著しく高値であった(p<0.0001)。このため、SS計算値の値から、CAL発生の有無に関する判定結果を推測可能であることが示唆された。SS計算値の値に基づいて、CAL陽性か又はCAL陰性かを判別するカットオフ値を決定するために、受信者動作特性(以下「ROC」という)解析を行った。ROC解析では、各々の被験者のSS計算値を用いて「(潜在変数の感度)+(潜在変数の特異度)−1」を計算して被験者らでの最大値が算出された場合に、その最大値の元になった被験者のSS計算値が、被験者らのSS計算値のカットオフ値となる。カットオフ値は、第1期研究(
図13)で2.0、第2期研究(
図14)で2.1であった。第1期研究と第2期研究とでカットオフ値が異なるため、臨床応用を図るにあたり、パスモデルについて、有意なp値を得ることよりも、0.30以上の相関係数を得ること方が重要と考えられる。
【0116】
[第3期研究(実施例1−1)]
SS計算値にCAL発生か否かを正確に判別可能な潜在的価値があるか検証するため、第3期研究では、第1期研究と第2期研究との全データを一体化させ、平均共分散構造分析によりCAL発生リスクの予測可能性を改めて検討した。
図12に示す第3期研究のパスモデルでは、p<0.0001との有意なp値と、0.33以上の相関係数とを基準に用いた。このパスモデルで、RMSEA値は0.032、AIC値は65、CFI値は0.98、7種の観測変数と1つの潜在変数とを用いたパスモデル適合に関するR
2値は1.000であった。標準化直接効果として潜在変数と「CAL発生の有無に関する判定結果」に係る観測変数との標準化パス係数は1.47(p<0.001)であり、標準化総合効果として標準化パス係数が0.741(p<0.001)であった。これらの結果から、第3期研究のパスモデルで設けた潜在変数で、「CAL発生の有無に関する判定結果」に係る観測変数に対して直接的な有意な因果関係が認められた。第3期研究では、
図15に示すように、SS計算値を用いたCAL発生の判別に優れており(p<0.0001)、ROC解析によるSS計算値のカットオフ値は2.0であった。
【0117】
また、
図12に示す第3期研究のパスモデルで、「CAL発生の有無に関する判定結果」として冠動脈径のZスコアが2.5SD以上か否かでCAL陽性かCAL陰性かを判別するように変更して、平均共分散構造分析を行ってSS計算値を算出した。その結果、
図16に示すように、Zスコアが2.5SD以上でCAL発生ありと判定された被験者らのSS計算値は、Zスコアが2.5SD未満でCAL発生なしと判定された被験者らのSS計算値と比べて、著しく高値であり(p<0.0001)、ROC解析によるSS計算値のカットオフ値は1.3であった。同様に、
図12に示すパスモデルで、「CAL発生の有無に関する判定結果」としてZスコアが2.0SD以上か否かでCAL陽性かCAL陰性かを判別するように変更し、平均共分散構造分析でSS計算値を算出した。その結果、
図17に示すように、Zスコアが2.0SD以上でCAL発生ありと判定された被験者らのSS計算値は、Zスコアが2.0SD未満でCAL発生なしと判定された被験者らのSS計算値と比べて、著しく高値であり(p<0.0001)、ROC解析によるSS計算値のカットオフ値は0.38であった。このように、CAL発生の定義を3.0SD以上(
図15)から2.5SD以上(
図16)又は2.0SD以上(
図17)へ減少させるほど、SS計算値の値も減少したため、CAL発生の有無の判別に関してSS計算値の潜在能力も幾らかは減少したと考えられる。なお、潜在因子(潜在変数)が一次治療前時点での冠動脈直径最大値と関係するか否かを説明するため、入院時(一次治療前時点)での冠動脈直径最大値を含む別のSEM解析を試行したが、潜在変数と入院時での冠動脈直径最大値との直接的な関係は認められなかった(標準化パス係数0.095、p=0.25)。
【0118】
ANN解析では、
図12に示す第3期研究のパスモデルで平均共分散構造分析に用いた7種の観測変数のうちから、「CAL発生の有無に関する判定結果」を除いて、残る6種の観測変数を
図18に示すように6種の入力変数として選定した。また、一次治療前時点での冠動脈径の最大値も、1種の入力変数として選定した。この冠動脈径の最大値は、前述したCoronary Z Score Calculatorにデータ入力してLMS法によりZスコアに変換し、入力変数とした。残る6種の観測変数の各々は、前述した数式4で正規化させて6種の入力変数とした。出力変数は、Zスコアが3.0
SD以上である場合にCAL発生と定義した場合に、SEMによる平均共分散構造分析で算出されたSS計算値とした。中間層に4つのANを有する三層型ANNにおいて、入力層に7種の入力変数を入力し、出力層で出力変数(SS計算値)を出力するように機械学習させて、統計学的モデル(学習済みモデル)を生成させた。この機械学習を繰り返して複数の学習済みモデルを生成させる際、0.01、0.02、及び0.04のオーバーフィットペナルティにより、中間層で2つから4つのノードが選定された。複数の学習済みモデルで、0.81以上のR
2値(r=0.9)と、五分割交差検証法のR
2値0.64(r=0.8)とが測定された。選定した最良の統計モデルを、実施例1−1に係る学習済みモデルとした。この学習済みモデルにおいて、
図18に示す媒介変数(中間変数)H1で規定された数式6を、次に例示する。
【0119】
【数6】
【0120】
実施例1−1に係る学習済みモデルで、オーバーフィットペナルティは0.02、五分割交差検証法によるR
2値は0.64であった。この学習済みモデルの入力層に、機械学習の際に用いた入力変数を入力し、第3期研究の各々の被験者について「CAL発生リスクに関するSS予測値」を出力させた。
図19に示すように、平均共分散構造分析で算出されたSS計算値と、このSS計算値を含む学習用データで機械学習して生成された学習済みモデルから出力されたSS予測値とで、関連性の強さとしてR
2=0.89という高値が示された。このSS予測値により各々の被験者でCAL発生の有無を判別したところ、次の表5に示すように、C統計量(c index)0.860、感度72.7%(8/11)、及び特異度99.1%(232/234)であった。なお、一部の被験者らでは、例えば尿中β2MG/Crの臨床データが欠けていた。また、学習済みモデルは、予測に用いる複数の入力変数が一部でも欠けている被験者(例えば尿中β2MG/Crの臨床データが欠けている被験者)についてSS計算値を出力できない。このため、次の表5に示す感度と特異度との数値は、予測に用いた6種の臨床データに欠損がない被験者らに関しての結果である。
【0121】
【表5】
【0122】
第3期研究(実施例1−1)の結果から、本願発明者は、CAL発生リスクを高精度に判別可能なSS計算値の重要性と、CAL発生リスクを高精度に予測可能な学習済みモデルの有用性とを見出した。実施例1−1の学習済みモデルを用いた予測精度は、従来のIVIG不応予測スコア(前述した表1から表3)よりも優れていると考えられる。ただし、
図19で外れ値が幾らかあったため、改良の余地はある。もし将来的に、更に予測に適した観測変数や入力変数を発見できれば、更に感度を高めるように改良可能と考えられる。本願発明者が生成した学習済みモデルを活用するCAL発生リスク予測方法は、例えば、
図31に示すKD急性期医療S20で、一次治療前時点での判断(S24)の際、一次治療後の判断(S36)の際、及び二次治療後の判断(S45)の際、通例であるIVIG療法(S31、S41、S51)よりも抗炎症効果に優れる他の抗炎症療法(S32からS35、S42からS44、S52からS56)を行う治療方針を早期決定する診断に貢献可能と期待される。
【0123】
実施例1−1に係る学習済みモデルを臨床応用可能か検討するために、新たなデータセットで検証した。新たなデータセットには、箕面市立病院で2019年から2020年の期間内に一次治療を受けた38名のKD急性期患者の臨床データを含めた。ただ、この38名には、CAL発生に至った患者が含まれていなかった。このため、新たなデータセットには、CAL発生に至ったが除外基準に該当して除外され解析されず三次医療機関に転院したKD急性期患者2名を含めた。そのうち一名のKD急性期患者(少年)は、箕面市立病院でIVIG療法と2回のIVMP投与とで治療を受けたが、一次治療後に発熱が続いた。本願発明者はその患者(少年)を三次医療機関に転院させ、その患者は三次医療機関で血漿交換療法を受けた。残る一名のKD急性期患者(少女)は、箕面市立病院でIVIG療法とIVMP投与との併用療法を受けたが、一次治療後にもKDの主要症状が5つ持続したため、本発明者はその患者(少女)を三次医療機関に転院させ、その患者は三次医療機関でCsA経口投与と更なるIVIG療法とを受けた。実施例1−1に係る学習済みモデルに40名分の新たなデータセットを入力し、出力されたSS予測値によりCAL発生に至ったか否か判別したところ、感度50%(1/2)、及び特異度100%(38/38)であった。この調査結果は、新たなデータセットに含まれるKD急性期患者が40名という少人数であることを考慮すると、表5で前述した結果と矛盾していない。
【0124】
[比較例1−1]
従来、疾病の要因と発症との関連を調べる研究では、多変量ロジスチック回帰分析が試行されており、この解析で潜在変数を設けることはできなかった。このことを考慮し、
図12に示す第3期研究のパスモデルと比べて、
図20に示すように潜在変数を除いた比較例1−1に係るパスモデルを作成した。このパスモデルにより平均共分散構造分析を試行したが、前述の表5に示したように全く適合していない悪い統計モデルであったため、CAL発生リスクを予測できる見込みが全くなかった。
【0125】
[比較例1−2]
比較例1−2では、従来どおり多変量ロジスチック回帰分析でCAL発生リスクを予測しようとした。このためには、第3期研究の被験者らの臨床情報から、性別、一次治療前時点での月齢、一次治療前時点での血清中CRP濃度、一次治療前時点でのLog尿中β2MG/Cr、一次治療前時点での佐野スコアによるIVIG不応高リスク該当の有無、一次治療前時点での冠動脈直径最大値、及び一次治療でIVMP投与を受けた回数という7種の被験者臨床データをそれぞれ独立変数として抽出し、並びにCAL発生の有無に関する判定結果を目的変数として抽出して、多変量ロジスチック回帰分析を試行した。しかし、前述の表5に示したように、R
2=0.0615という低値で、C統計量は0.80未満であったため、従来どおりCAL発生リスクの予測精度が低かった。
【0126】
[実施例1−2から実施例1−6]
前述した実施例1−1では、平均共分散構造分析で「CAL発生の有無に関する判定結果」以外に6種の被験者臨床データを観測変数とした。実施例1−2から1−6では、この6種の観測変数のうち1種を削減してもCAL発生リスクを予測可能か否か、検証した。その結果、次の表6に示すように、ある程度に高精度で予測可能なことが示唆された。
【0127】
【表6】
【0128】
[実施例1−7から実施例1−15]
実施例1−1での「CAL発生の有無に関する判定結果」を除く6種の観測変数のうち2種又は3種を削減した場合に、平均共分散構造分析で統計モデルが適合するか検証した。その結果、次の表7と表8とに示すように、ある程度は適合したため、更に機械学習と組み合わせることにより、CAL発生リスクをある程度に精度良く予測可能と考えられる。
【0129】
【表7】
【0130】
【表8】
【0131】
表8に示す実施例1−13について検証したところ、標準化直接効果として潜在変数と「CAL発生の有無に関する判定結果」に係る観測変数との標準化パス係数は1.413(p<0.001)であり、標準化総合効果として標準化パス係数が0.768(p<0.001)であった。つまり、観測変数として用いる被験者臨床データの種類を、実施例1−1の6種から実施例1−13の3種に減らしても、潜在変数で「CAL発生の有無に関する判定結果」に係る観測変数に対して直接的な有意な因果関係が認められた。このため、表6から表8で挙げた他の実施例についても、標準化パス係数を検討すれば同様に、潜在変数で「CAL発生の有無に関する判定結果」に係る観測変数に対して直接的な有意な因果関係が認められるであろうと考えられる。一方、データは示さないが、6種の観測変数のうち4種以上を削減した場合、平均共分散構造分析で収束しなかった。このため、CAL発生リスク予測には、3種以上の臨床データを要すると考えられる。
【0132】
[IgAVにおいてPNで高度蛋白尿を伴う症例発生予測:実施例2−1]
本願発明者は、IgAV急性期患者においてPNで高度蛋白尿を伴う症例発生リスクも高精度に予測可能か検証するために、前述した第3期研究と同様にして後ろ向き研究を行った。被験者らは、1995年5月から2015年10月の間に箕面市立病院で受診し、IgAVと診断され入院治療を受けた93名の小児ら(男性:女性=43:50)であった。この小児らは、入院時(初回治療前時点)に6.2±2.2歳(平均値±SD)、入院時での即時型アレルギー疾患既往有25%、及び入院時での腹痛有60%であった。また、初回治療でPSL投与有30%、つまり、初回治療で一定期間にわたりPSL経口投与を受けた場合に1回と数えて、PSL投与を受けた回数0回が70%で、回数1回が30%であった。初回治療後かつIgAV発症から30日経過頃に診断したところ、PN発症26名(28%)であった。この26名の被験者らで尿化学検査を行い、尿蛋白/Cr比が1.0以上である場合に、PNで高度蛋白尿を伴う症例発生と判定したところ、この症例発生ありと判定されたもの10名(93名の小児らのうち11%)であった。
【0133】
単変量解析により、入院時(初回治療前時点)での末梢血液、血液生化学、及びFDP・Dダイマー値と、PNで高度蛋白尿を伴う症例で有意差(p<0.05)を示した項目と、既報での報告とから、
図21に示すパスモデルを作成した際、各々の観測変数として、性別と、初回治療前時点での月齢と、初回治療前時点での血中FDP・Dダイマー濃度と、初回治療前時点での即時型アレルギー疾患の有無と、初回治療前時点での腹痛の有無と、初回治療でのPSL投与の有無と、初回治療後でのPNで高度蛋白尿を伴う症例発生の有無に関する判定結果と、を選定した。このパスモデルを用いてSEMによる平均共分散構造分析を行い、潜在変数の因子得点であるSS計算値を算出させた。なお、一部の被験者らでは、判定結果を除く6種の観測変数のうち一部の臨床データ(例えば血中FDP・Dダイマー濃度)が欠けていた。
【0134】
図21に示すパスモデルの信頼性を検討したところ、AIC値が67、CFI値が0.986、潜在変数のC統計量が0.958、RMSEA値が0.052、7種の観測変数と1つの潜在変数とを用いたパスモデル適合に関するR
2値が1.000であったため、信頼できる統計モデルであることが示唆された。標準化直接効果として潜在変数と「PNで高度蛋白尿を伴う症例発生の有無に関する判定結果」に係る観測変数との標準化パス係数は1.37(p<0.001)であり、標準化総合効果として標準化パス係数が0.583(p<0.001)であった。これらの結果から、パスモデルで設けた潜在変数で「PNで高度蛋白尿を伴う症例発生の有無に関する判定結果」に係る観測変数に対して直接的な有意な因果関係が認められた。平均共分散構造分析で直接的な因果関係が認められた潜在変数に係る因子得点であるSS計算値は、
図22に示すように、PNで高度蛋白尿を伴う症例発生の判別に優れており(p<0.0001)、ROC解析によるSS計算値のカットオフ値は1.36であった。
【0135】
「PNで高度蛋白尿を伴う症例発生の有無に関する判定結果」を除く6種の観測変数を、
図23に示すように6種の入力変数とし、SS計算値を出力変数として、JMPバージョン8.0を用いて三層型ANNに機械学習させて、実施例2−1に係る学習済みモデルを生成させた。この学習済みモデルの入力層に、機械学習で用いた6種の入力変数を入力し、各々の被験者について「PNで高度蛋白尿を伴う症例発生リスクに関するSS予測値」を出力させた。
図24に示すように、平均共分散構造分析で算出されたSS計算値と、このSS計算値を含む学習用データで機械学習して生成された学習済みモデルから出力されたSS予測値とで、関連性の強さとしてR
2=0.92という高値が示された。交差検証法R
2値は0.47であった。このSS予測値により、各々の被験者でのPNで高度蛋白尿を伴う症例発生の有無を判別したところ、次の表9に示すように、C統計量0.90、感度87.5%(7/8)、及び特異度98%(49/50)であった。
【0136】
【表9】
【0137】
上記した検証の後、本願発明者は、2019年前後に箕面市立病院でIgAVと診断され入院治療を受けた7名の小児らについて、臨床データを実施例2−1に係る学習済みモデルに入力し、SS予測値を出力させた。出力されたSS予測値により、小児ら7名でのPNで高度蛋白尿を伴う症例発生リスクを予測させたところ、C統計量1.00、感度100%(1/1)、特異度80%(4/5)、C統計量1.00であった。症例数が少なく予備的な研究結果であるが、実施例2−1に係る学習済みモデルは、IgAV急性期患者でのPNで高度蛋白尿を伴う症例発生予測に使用可能であることが示唆された。この学習済みモデルは、IgAV急性期患者の初診時に、その30日ほど後の近い将来に高度蛋白尿をきたし腎機能低下に至るリスク評価の予測診断に活用できるものと期待される。
【0138】
[比較例2−1]
図21に示す実施例2−1に係るパスモデルと比べて、
図25に示すように潜在変数を除いた比較例2−1に係るパスモデルを作成した。このパスモデルにより平均共分散構造分析を試行したが、表9で前述したように適合していない悪い統計モデルであったため、PNで高度蛋白尿を伴う症例発生リスクを予測できる見込みが全くなかった。
【0139】
[比較例
2−2]
比較例
2−2では、従来どおり多変量ロジスチック回帰分析により、PNで高度蛋白尿を伴う症例発生リスクを予測しようとした。このためには、93名の被験者らの臨床情報から、性別、初回治療前時点での月齢、初回治療前時点での血中FDP・Dダイマー濃度、初回治療前時点での即時型アレルギー疾患の有無、初回治療前時点での腹痛の有無、及び治療でのPSL投与の有無という6種の被験者臨床データをそれぞれ独立変数として抽出し、並びに「治療後でのPNで高度蛋白尿を伴う症例発生の有無に関する判定結果」を目的変数として抽出して、多変量ロジスチック回帰分析を試行した。しかし、表9で前述したように、R
2=0.492という低値であったため、PNで高度蛋白尿を伴う症例発生リスクの予測精度が低かった。
【0140】
[実施例2−2から実施例
2−5、及び参考例2−6]
実施例2−1での「PNで高度蛋白尿を伴う症例発生の有無に関する判定結果」を除く6種の観測変数のうち1種または2種を削減した場合に、平均共分散構造分析で統計モデルが適合するか検証した。その結果、次の表10に示すように、ある程度は適合したため、更に機械学習と組み合わせることにより、PNで高度蛋白尿を伴う症例発生リスクを、ある程度に精度良く予測可能と考えられる。
【0141】
【表10】
【0142】
表10に示す実施例2−4について検証したところ、標準化直接効果として潜在変数と「PNで高度蛋白尿を伴う症例発生の有無に関する判定結果」に係る観測変数との標準化パス係数は1.099(p<0.001)であり、標準化総合効果として標準化パス係数が0.671(p<0.001)であった。同様に実施例2−5で検証すると、標準化直接効果として潜在変数と「PNで高度蛋白尿を伴う症例発生の有無に関する判定結果」に係る観測変数との標準化パス係数は1.352(p<0.001)であり、標準化総合効果として標準化パス係数が0.700(p<0.001)であった。つまり、観測変数として用いる被験者臨床データの種類を、実施例2−1の6種から実施例2−4や2−5の4種に減らしても、潜在変数で「PNで高度蛋白尿を伴う症例発生の有無に関する判定結果」に係る観測変数に対して直接的な有意な因果関係が認められた。このため、表10で挙げた他の実施例についても、標準化パス係数を検討すれば同様に、潜在変数で「CAL発生の有無に関する判定結果」に係る観測変数に対して直接的な有意な因果関係が認められるであろうと考えられる。一方、データは示さないが、6種の観測変数のうち3種以上を削減した場合、平均共分散構造分析で収束しなかった。このため、CAL発生リスク予測には、4種以上の臨床データを要すると考えられる。
【0143】
[IgAVでのPN発生予測:実施例3−1]
本願発明者は、IgAV急性期患者でPN発生リスクも高精度に予測可能か検証するために、前述した実施例2−1と同じ被験者らの臨床情報から一部別の臨床データを抽出し、同様に後ろ向き研究を行った。
図26に示すパスモデルを作成した際、各々の観測変数として、性別と、初回治療前時点での月齢と、初回治療前時点での血中IgA濃度と、初回治療前時点での血中IgE濃度と、初回治療でのPSL投与の有無と、初回治療後でのPN発生の有無に関する判定結果と、を選定した。このパスモデルを用いてSEMによる平均共分散構造分析を行い、潜在変数の因子得点であるSS計算値を算出させた。なお、PN発生の有無は、市販の尿蛋白試験紙を尿に浸して+(タンパク質濃度約30mg/dL以上)呈色が3日以上継続した場合、または、市販の尿潜血試験紙を尿に浸して+(ヘモグロビン濃度約0.06mg/dL以上もしくは赤血球濃度約20個/μL以上)呈色か++(ヘモグロビン濃度約0.15mg/dL以上もしくは赤血球濃度約50個/μL以上)呈色かが2日以上継続した場合、または、市販の尿潜血試験紙を尿に浸して+++(ヘモグロビン濃度約0.75mg/dL以上もしくは赤血球濃度約250個/μL以上)呈色が2日以上継続した場合に、PN発生ありと判定した。また、多くの被験者らで、判定結果を除く5種の観測変数のうち、血中IgA濃度および/または血中IgE濃度の臨床データが欠けていた。判定結果を除く5種の観測変数について、臨床データに欠けのない被験者らは32名であった。
【0144】
図26に示すパスモデルの信頼性を検討したところ、CFI値が0.979、潜在変数のC統計量が0.808、RMSEA値が0.039、6種の観測変数と1つの潜在変数とを用いたパスモデル適合に関するR
2値が1.000であったため、信頼できる統計モデルであることが示唆された。標準化直接効果として潜在変数と「PN発生の有無に関する判定結果」に係る観測変数との標準化パス係数は2.97(p<0.001)であり、標準化総合効果として標準化パス係数が0.426(p<0.001)であった。これらの結果から、パスモデルで設けた潜在変数で「PN発生の有無に関する判定結果」に係る観測変数に対して直接的な有意な因果関係が認められた。平均共分散構造分析で直接的な因果関係が認められたSS計算値は、
図27に示すように、PN発生の判別に優れており(p<0.0001)、ROC解析によるSS計算値のカットオフ値は−0.26であった。
【0145】
「PN発生の有無に関する判定結果」を除く5種の観測変数を、
図28に示すように5種の入力変数とし、SS計算値を出力変数として、JMPバージョン8.0を用いて三層型ANNに機械学習させて、実施例3−1に係る学習済みモデルを生成させた。この学習済みモデルの入力層に、機械学習で用いた5種の入力変数を入力し、各々の被験者について「PN発生リスクに関するSS予測値」を出力させた。
図29に示すように、平均共分散構造分析で算出されたSS計算値と、このSS計算値を含む学習用データで機械学習して生成された学習済みモデルから出力されたSS予測値とで、関連性の強さとしてR
2=0.99という高値が示された。交差検証法R
2値は0.92であった。このSS予測値により、各々の被験者でPN発生の有無を判別したところ、次の表11に示すように、C統計量0.725、感度66.7%(6/9)、及び特異度78.3%(18/23)であった。C統計量は0.80未満であるが0.70よりは大きいため、許容範囲内にあると考えられる。
【0146】
【表11】
【0147】
上記した検証の後、被験者らとは別のIgAV患者ら28名について、患者臨床データを実施例3−1に係る学習済みモデルに入力し、SS予測値を出力させたところ、感度75%(3/4)、特異度50%(12/24)であった。症例数が少なく予備的な研究結果であるが、実施例3−1に係る学習済みモデルは、IgAV急性期患者でのPN発生予測に使用可能であることが示唆された。この学習済みモデルは、IgAV急性期患者の初診時に、その30日ほど後の近い将来にPN発生に至るリスク評価の予測診断に活用できるものと期待される。
【0148】
[比較例3−1]
図26に示す実施例3−1に係るパスモデルと比べて、
図30に示すように潜在変数を除いた比較例3−1に係るパスモデルを作成した。このパスモデルにより平均共分散構造分析を試行したが、表11に示すように全く適合していない悪い統計モデルであったため、P
N発生リスクを予測できる見込みが全くなかった。
【0149】
[比較例3−2]
比較例3−2では、従来どおり多変量ロジスチック回帰分析でPN発生リスクを予測しようとした。このためには、93名の被験者らの臨床情報から、性別、初回治療前時点での月齢、初回治療前時点での血中IgA濃度、初回治療前時点での血中IgE濃度、及び治療でのPSL投与の有無という5種の被験者臨床データをそれぞれ独立変数として抽出し、並びに「治療後でのPN発生の有無に関する判定結果」を目的変数として抽出して、多変量ロジスチック回帰分析を試行した。しかし、表11に示すようにR
2=0.122という低値で、特異度が4.3%と低すぎるため、PN発生リスクの予測精度が低かった。
【解決手段】学習済みモデルに臨床情報を入力してサンプルスコアの予測値を出力させるステップを含み、学習済みモデルは冠動脈拡大病変(CAL)の有無を判定された被験者の臨床情報とサンプルスコアの計算値との関係を機械学習しており、臨床情報は、性別、月齢、冠動脈径、血管炎マーカー、高サイトカイン血症マーカー、及び静注用免疫グロブリン不応予測スコアの得点等の3種以上の臨床データを含み、サンプルスコアの計算値は、3種以上の臨床データとCAL発生の判定結果とを含む4種以上の観測変数で共分散構造分析を行い、判定結果に直接的に有意な因果関係を持つ潜在変数の因子得点である、川崎病でのCAL発生リスク予測方法である。IgA血管炎で腎炎か又は腎炎で高度蛋白尿を伴う症例かの発生リスク予測方法である。