IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 國立成功大學医学院附設医院の特許一覧 ▶ 國立成功大學の特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023115899
(43)【公開日】2023-08-21
(54)【発明の名称】癌の予後予測方法とモデル
(51)【国際特許分類】
   G16H 50/20 20180101AFI20230814BHJP
   C12Q 1/68 20180101ALI20230814BHJP
   G06T 7/00 20170101ALI20230814BHJP
【FI】
G16H50/20
C12Q1/68
G06T7/00 300F
【審査請求】有
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023000249
(22)【出願日】2023-01-04
(31)【優先権主張番号】111104581
(32)【優先日】2022-02-08
(33)【優先権主張国・地域又は機関】TW
(71)【出願人】
【識別番号】523004280
【氏名又は名称】國立成功大學医学院附設医院
【氏名又は名称原語表記】National Cheng Kung University Hospital
【住所又は居所原語表記】No. 138, Shengli Rd., North Dist., Tainan City 704, Taiwan
(71)【出願人】
【識別番号】502250743
【氏名又は名称】國立成功大學
【氏名又は名称原語表記】NATIONAL CHENG KUNG UNIVERSITY
(74)【代理人】
【識別番号】100146374
【弁理士】
【氏名又は名称】有馬 百子
(72)【発明者】
【氏名】沈 孟儒
(72)【発明者】
【氏名】蔡 依珊
(72)【発明者】
【氏名】李 俊毅
(72)【発明者】
【氏名】林 鵬展
(72)【発明者】
【氏名】蘇 佩芳
(72)【発明者】
【氏名】廖 毅桓
(72)【発明者】
【氏名】頼 兪▲旋▼
【テーマコード(参考)】
4B063
5L096
5L099
【Fターム(参考)】
4B063QA01
4B063QA19
4B063QQ02
4B063QQ08
4B063QQ42
4B063QQ52
4B063QR32
4B063QR35
4B063QR72
4B063QR77
4B063QX01
5L096AA06
5L096BA06
5L096BA13
5L096CA18
5L096DA02
5L096JA11
5L099AA04
(57)【要約】
【課題】癌の予後予測方法とモデルを提供する。
【解決手段】参照ラジオミクスをキャプチャすると共に参照病理固有値を取得し、前記参照病理固有値は参照患者の病理の特徴に基づいて取得し、前記病理の特徴はゲノムの特徴、遺伝子発現量、検査値、またはそれらの2つ以上の組み合わせを含む高テオと、検査ラジオミクスをキャプチャすると共に検査病理固有値を取得し、前記検査病理固有値は被検査患者の病理の特徴に基づいて取得し、前記病理の特徴はゲノムの特徴、遺伝子発現量、検査値、またはそれらの2つ以上の組み合わせを含むステップと、上述の参照ラジオミクス、参照病理固有値、検査ラジオミクス及び検査病理固有値を数式により予後インデックスを計算し、前記予後インデックスに基づいて前記被検査患者の予後の変化のリスクレベルを判断するステップと、を含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
参照患者の病変医療画像である参照画像に基づいて取得する、参照ラジオミクスをキャプチャするステップと、
前記参照患者のゲノムの特徴、遺伝子発現量、検査値、またはそれらの2つ以上の組み合わせからなる病理の特徴に基づいて取得する、参照病理固有値を取得するステップと、
被検査患者の病変医療画像である検査画像に基づいて取得する、検査ラジオミクスをキャプチャするステップと、
前記被検査患者のゲノムの特徴、遺伝子発現量、検査値、またはそれらの2つ以上の組み合わせからなる病理の特徴に基づいて取得する、検査病理固有値を取得するステップと、
下記数式により予後インデックスを計算するステップであって、前記予後インデックスにより前記被検査患者の予後の変化のリスクレベルを判断する下記数式により予後インデックスを計算するステップと、を含むことを特徴とする癌の予後予測方法。
(数式)
(U1は前記参照病理固有値であり、X1は前記参照ラジオミクスであり、U2は前記検査病理固有値であり、X2は前記検査ラジオミクスであり、前記予後インデックスが1以上である場合、前記被検査患者の予後の変化リスクが前記参照患者以上であると判断し、前記予後インデックスが1未満である場合、前記被検査患者の予後変化リスクが前記参照患者より低いと判断する。)
【請求項2】
参照ラジオミクスをキャプチャする前記ステップは、参照病変画像をキャプチャし、且つ前記参照病変画像から複数の画像特徴変数値をキャプチャすると共に参照画像形式デ-タを出力し、次元削減マトリクスにより前記参照画像形式デ-タを正規化して参照ラジオミクスを取得し、前記参照病変画像は前記参照患者の病変画像であるステップを含み、また、検査ラジオミクスをキャプチャする前記ステップは、検査病変画像をキャプチャし、且つ前記検査病変画像から複数の画像特徴変数値をキャプチャすると共に検査画像形式デ-タを出力し、次元削減マトリクスにより前記検査画像形式デ-タを正規化して検査ラジオミクスを取得し、前記検査病変画像は前記被検査患者の病変画像であるステップを含むことを特徴とする請求項1に記載の癌の予後予測方法。
【請求項3】
前記遺伝子発現量はRNAシ-ケンス表現量またはタンパク質表現量を含むことを特徴とする請求項1に記載の癌の予後予測方法。
【請求項4】
前記ゲノムの特徴は遺伝子コピ-数と、遺伝子突然変異点と、一塩基多型(single nucleotide polymorphisms, SNPs)と、を含むことを特徴とする請求項1に記載の癌の予後予測方法。
【請求項5】
前記遺伝子発現量がRNAシ-ケンス量である場合、前記方法は遺伝子読み取り数に対し下記数式により正規化を行って前記RNAシ-ケンス表現量を取得するステップを更に含み、
前記遺伝子読み取り数は参照遺伝子または検査遺伝子のRNAシ-ケンス読み取り数であり、前記全ゲノム読み取り数は参照患者または被検査患者の全ゲノムRNAシ-ケンス読み取り数であり、前記遺伝子の塩基長は参照遺伝子または検査遺伝子の塩基長であることを特徴とする請求項3に記載の癌の予後予測方法。
【請求項6】
前記参照画像はCT画像、fMRI画像、X線画像、超音波、または病理切片撮影のうちの1種類であり、前記検査画像はCT画像、fMRI画像、X線画像、超音波、または病理切片撮影のうちの一種であることを特徴とする請求項1乃至5の何れか1項に記載の癌の予後予測方法。
【請求項7】
前記癌は固形癌であることを特徴とする請求項1乃至5の何れか1項に記載の癌の予後予測方法。
【請求項8】
第一演算層と、第二演算層と、第三演算層と、を含むバックボ-ンであって、前記第一演算層は癌マ-カ-を有しているラジオミクスを識別するために用いられ、前記第二演算層は前記癌マ-カ-を有している病理固有値を識別するために用いられ、前記第三演算層は前記第一演算層及び前記第二演算層を統合して識別モデルを構築し、前記ラジオミクスは前記参照ラジオミクスまたは前記検査ラジオミクスであり、前記病理固有値は前記参照病理固有値または前記検査病理固有値であるバックボ-ンと、
前記識別モデルに基づいて癌の予後変化を有しているラジオミクスを識別するように前記バックボ-ンをトレ-ニングするための第四演算層と、
前記識別モデルに基づいて癌の予後変化を有している病理固有値を識別するように前記バックボ-ンをトレ-ニングするための第五演算層と、
予後インデックスモデルを有し、前記バックボ-ン、前記第四演算層及び前記第五演算層が出力するデ-タを統合すると共に予後インデックスを計算するための全接続演算層であって、前記病理の特徴はゲノムの特徴、遺伝子発現量、検査値、またはそれらの2つ以上の組み合わせを含み、前記予後インデックスモデルは下記数式を有する全接続演算層と、を含むことを特徴とすることを特徴とする癌の予後予測システム。
(数式)
(U1は前記参照病理固有値であり、X1は前記参照ラジオミクスであり、U2は前記検査病理固有値であり、X2は前記検査ラジオミクスであり、前記予後インデックスが1以上である場合、前記被検査患者の予後変化リスクが前記参照患者以上であると判断し、前記予後インデックスが1未満である場合、前記被検査患者の予後変化リスクが前記参照患者より低いと判断する。)
【請求項9】
第六演算層と、前記ラジオミクスをキャプチャするための第六演算層を更に含み、ラジオミクスをキャプチャする前記ステップは、病変画像をキャプチャし、且つ前記病変画像から複数の画像特徴変数値をキャプチャすると共に画像形式デ-タを出力し、次元削減マトリクスにより前記画像形式デ-タを正規化して前記ラジオミクスを取得し、前記病変画像は参照患者の病変画像または被検査患者の病変画像であり、前記ラジオミクスは参照ラジオミクスまたは検査ラジオミクスであり、前記第一演算層が前記参照ラジオミクスを識別するか、前記第四演算層が前記検査ラジオミクスを識別するステップを含むことを特徴とする請求項8に記載の癌の予後予測システム。
【請求項10】
前記癌は固形癌であることを特徴とする請求項8または9に記載の癌の予後予測システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、癌患者の予後の変化を予測する方法に関し、より詳しくは、予後の癌の再発を予測する方法に関する。
【背景技術】
【0002】
結腸直腸癌は世界的に最も多い悪性腫瘍の1つであり、その死亡率はアメリカでは10大癌のうちの第3位となっている。飲食が日々欧米化するに連れて、台湾でも結腸直腸癌を罹患する人口が増加を続け、台湾男性及び女性の癌の死亡率の1位と2位を占めるまでになっている。多くの研究からは、結腸直腸癌は治療後の2年以内の再発率が40%にも達し、治療後の5年以内の再発率も5%に達することが示されている。近年、臨床的特徴または血清マ-カ-により結腸直腸癌の術後の早期再発を評価するようになっている。炎症及び血管新生のメカニズムが結腸直腸癌再発の原因となり、循環腫瘍細胞(Circulating tumor cell、CTC)の分子マ-カ-が結腸直腸癌再発リスクの予後因子となっている。人糞中の遺伝子は結腸直腸癌と関連があり、部分的な遺伝子には癌生物学または分子医学において分子的な意義がある。研究からは、結腸直腸癌が再発した患者の糞便中には成長停止特異的遺伝子-2(growth arrest specific 2、GAS2)が大量に発現していることが示され、且つ化学療法のタ-ゲット遺伝子とすることができる可能性がある。また、胎盤特異的遺伝子8(Placenta Specific 8、PLAC8)が結腸直腸癌中の上皮間葉転換(Epithelial-mesenchymal transition、EMT)に関与していると報道されている。
【発明の概要】
【発明が解決しようとする課題】
【0003】
しかしながら、現在、医学界では、結腸直腸癌の再発の分子的メカニズムの部分的な理解が進んでいるが、結腸直腸癌の再発を効果的且つ精確に予測する方法はなかった。
【0004】
乳がんは女性で最も診断が多い悪性疾患であり、世界では女性の癌死亡率の1位となっており、且つ45%の患者が治療後に再発している。乳がんの診断後の1~2年の間に13%が再発し、その後に徐々に低下し、約50%の再発例は術後5年以内に発生している。術後5~8年の平均では毎年4.7%の再発率があり、術後8~12年でも3.4%の再発率がある。また、乳がんの転移で最も多い部位は肺、肝臓、及び骨であり、骨への転移は通常激しい痛みを伴い、骨質が流失し、骨折リスクが上昇する。なお、閉経も女性の骨粗鬆症を引き起こす最重要な原因の1つとなっている。乳がん患者はその治療によって閉経が早まる可能性があり、骨質の流失速度が一般的な自然に閉経した女性よりも速くなり、骨粗鬆症を罹患するリスクが上昇する。さらに、乳がんの治療に使用する多くの抗エストロゲン療法も骨質の流失を加速させ、乳がん患者が骨質の粗鬆を伴う要因となっている。
【0005】
前述の内容から分かるように、癌の予後の状態の追跡及び予測は現在医学界で非常に重要になっている。治療後に従来の病理の特徴及び臨床デ-タにより予測し、患者の癌再発等の予後リスクが理解できれば、患者の予後のケアも予期して先手で準備を整えることができ、患者の予後の健康を保障できる。そこで、本発明者は上記の欠点が改善可能と考え、鋭意検討を重ねた結果、合理的設計で上記の課題を効果的に改善する本発明の提案に至った。
【0006】
本発明は上述の事情に鑑みてなされたものであり、上述のような問題点を解決することを課題の一例とする。すなわち、本発明は、癌の予後予測方法(Method for predicting cancer prognosis)を提供することを一目的とし、同時に高次元テンソルデ-タ及び共変量を運用して判別分析を行う。また、異なるタイプにおいて共変量を更に挿入して共分散行列を相異する状況とし、テンソル及び共変量の間の直線関係を同時に補正することで構築したCATCH/CATCH+モデルに基づいてタイプ判別を行い、CATCH+モデルは2タイプ以上の分類の判別に応用可能である。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明のある態様の癌の予後予測方法は、参照患者の病変医療画像である参照画像に基づいて取得する、参照ラジオミクスをキャプチャするステップと、前記参照患者のゲノムの特徴、遺伝子発現量、検査値、またはそれらの2つ以上の組み合わせからなる病理の特徴に基づいて取得する、参照病理固有値を取得するステップと、被検査患者の病変医療画像である検査画像に基づいて取得する、検査ラジオミクスをキャプチャするステップと、前記被検査患者のゲノムの特徴、遺伝子発現量、検査値、またはそれらの2つ以上の組み合わせからなる病理の特徴に基づいて取得する、検査病理固有値を取得するステップと、下記数式により予後インデックスを計算するステップであって、前記予後インデックスにより前記被検査患者の予後の変化のリスクレベルを判断する下記数式により予後インデックスを計算するステップと、を含む。
【0008】
(数式)
(U1は前記参照病理固有値であり、X1は前記参照ラジオミクスであり、U2は前記検査病理固有値であり、X2は前記検査ラジオミクスであり、前記予後インデックスが1以上である場合、前記被検査患者の予後の変化リスクが前記参照患者以上であると判断し、前記予後インデックスが1未満である場合、前記被検査患者の予後変化リスクが前記参照患者より低いと判断する。)
【0009】
本発明に係る癌の予後予測方法において、参照ラジオミクスをキャプチャする前記ステップは、参照病変画像をキャプチャし、且つ前記参照病変画像から複数の画像特徴変数値をキャプチャすると共に参照画像形式デ-タを出力し、次元削減マトリクスにより前記参照画像形式デ-タを正規化して参照ラジオミクスを取得し、前記参照病変画像は前記参照患者の病変画像であるステップを含む。検査ラジオミクスをキャプチャする前記ステップは、検査病変画像をキャプチャし、且つ前記検査病変画像から複数の画像特徴変数値をキャプチャすると共に検査画像形式デ-タを出力し、次元削減マトリクスにより前記検査画像形式デ-タを正規化して検査ラジオミクスを取得し、前記検査病変画像は前記被検査患者の病変画像であるステップを含む。
【0010】
本発明に係る癌の予後予測方法において、前記遺伝子発現量はRNAシ-ケンス量またはタンパク質発現量を含む。
【0011】
本発明に係る癌の予後予測方法において、前記ゲノムの特徴は遺伝子コピ-数と、遺伝子突然変異点と、一塩基多型(single nucleotide polymorphisms, SNPs)と、を含む。
【0012】
本発明に係る癌の予後予測方法において、前記遺伝子発現量がRNAシ-ケンス量である場合、前記方法は遺伝子読み取り数に対し下記数式により正規化を行って前記RNAシ-ケンス表現量を取得するステップを更に含み、
【0013】
前記遺伝子読み取り数は参照遺伝子または検査遺伝子のRNAシ-ケンス読み取り数であり、前記全ゲノム読み取り数は参照患者または被検査患者の全ゲノムRNAシ-ケンス読み取り数であり、前記遺伝子の塩基長は参照遺伝子または検査遺伝子の塩基長である。
【0014】
本発明に係る癌の予後予測方法において、前記参照画像はCT画像、fMRI画像、X線画像、超音波、または病理切片撮影のうちの一種であり、前記検査画像はCT画像、fMRI画像、X線画像、超音波、または病理切片撮影のうちの一種である。
【0015】
本発明に係る癌の予後予測方法において、前記癌は固形癌である。
【0016】
また、本発明の他の目的は、癌の予後予測システムを提供することである。前記癌の予後予測システムは、第一演算層と、第二演算層と、第三演算層と、を含むバックボ-ンであって、前記第一演算層は癌マ-カ-を有しているラジオミクスを識別するために用いられ、前記第二演算層は前記癌マ-カ-を有している病理固有値を識別するために用いられ、前記第三演算層は前記第一演算層及び前記第二演算層を統合して識別モデルを構築し、前記ラジオミクスは前記参照ラジオミクスまたは前記検査ラジオミクスであり、前記病理固有値は前記参照病理固有値または前記検査病理固有値であるバックボ-ンと、前記識別モデルに基づいて癌の予後変化を有しているラジオミクスを識別するように前記バックボ-ンをトレ-ニングするための第四演算層と、前記識別モデルに基づいて癌の予後変化を有している病理固有値を識別するように前記バックボ-ンをトレ-ニングするための第五演算層と、予後インデックスモデルを有し、前記バックボ-ン、前記第四演算層及び前記第五演算層が出力するデ-タを統合すると共に予後インデックスを計算するための全接続演算層であって、前記病理の特徴はゲノムの特徴、遺伝子発現量、検査値、またはそれらの2つ以上の組み合わせを含み、前記予後インデックスモデルは下記数式を有する全接続演算層と、を含む。
【0017】
(数式)
(U1は前記参照病理固有値であり、X1は前記参照ラジオミクスであり、U2は前記検査病理固有値であり、X2は前記検査ラジオミクスであり、前記予後インデックスが1以上である場合、前記被検査患者の予後の変化リスクが前記参照患者以上であると判断し、前記予後インデックスが1未満である場合、前記被検査患者の予後変化リスクが前記参照患者より低いと判断する。)
【0018】
本発明に係る癌の予後予測システムにおいて、前記システムは、前記ラジオミクスをキャプチャするための第六演算層を更に含み、ラジオミクスをキャプチャする前記ステップは、病変画像をキャプチャし、且つ前記病変画像から複数の画像特徴変数値をキャプチャすると共に画像形式デ-タを出力し、次元削減マトリクスにより前記画像形式デ-タを正規化して前記ラジオミクスを取得し、前記病変画像は参照患者の病変画像または被検査患者の病変画像であり、前記ラジオミクスは参照ラジオミクスまたは検査ラジオミクスであり、前記第一演算層が前記参照ラジオミクスを識別するか、前記第四演算層が前記検査ラジオミクスを識別するステップを含む。
【0019】
本発明に係る癌の予後予測システムにおいて、前記癌は固形癌である。
【発明の効果】
【0020】
本発明は、以上説明したように構成されているので、以下に記載されるような効果を奏する。
【0021】
1.本発明は少ないサンプル数の範囲内で、高精度、高感度、高特異性の癌の予後予測を達成する。将来的な応用において、大規模な癌の予後予測に適用できるのみならず、部分的な臨床デ-タの規模が少ない疾患にも適用でき、本発明が提供する方法により予後予測や後ろ向き研究(retrospective research)を行うことができる。
【0022】
2.結腸直腸癌再発デ-タの分析において、CATCH+モデルにより更に高い感度を得て、再発リスクが高い患者を更に精確に判別し、F1-Scoreによる測定でも、CATCH+モデルの精度が高い。然しながら、再スケ-リング(rescaling)または標準化(Standardized)変換後、CATCHモデルは特異性の発現が共にCATCH+モデルよりも優れている。
【0023】
3.乳がん患者の骨粗鬆症デ-タの分析において、2タイプの分類問題について、CATCH+のモデルの精確性が共にCATCHモデルよりも高く、3タイプの分類問題について、CATCH+モデルが良好な判別能力を有し、且つ少数のタイプに属する骨粗鬆症患者をより多く判別できる。
【0024】
本発明の他の目的、構成及び効果については、以下の発明の実施の形態の項から明らかになるであろう。
【図面の簡単な説明】
【0025】
図1】本発明の好ましい実施例に係る癌の予後予測方法を説明するフロ-チャ-トである。
図2A】参照ラジオミクスをキャプチャするフロ-チャ-トである。
図2B】検査ラジオミクスをキャプチャするフロ-チャ-トである。
図3A】本発明の一実施例に係る癌の予後予測システムを示したブロック図である。
図3B】本発明の他の実施例に係る癌の予後予測システムを示したブロック図である。
図4】RNA-Seqデ-タセットと画像デ-タの交差によって形成されたベン図である。
図5A】RNA-seqの生の読み取り数(raw read counts)を示すヒ-トマップである。
図5B】RNA-seqのRPKMを示すヒ-トマップである。
図6A】遺伝子NM-000442の生の読み取り数を示すヒストグラムである。
図6B】遺伝子NM-000442のRPKMを示すヒ-トマップである。
図6C】遺伝子NM-000442のRPKMの自然対数のヒストグラムである。
図7A】結腸直腸癌患者の断面の原画像である。
図7B】結腸直腸癌患者の画像特徴変数デ-タが縮尺変換後による画像フォ-マットデ-タである。
図8】乳がん患者の画像特徴変数デ-タが縮尺変換後による画像フォ-マットデ-タである。
【発明を実施するための形態】
【0026】
上記目的を達成するために、本発明の一実施例は癌の予後予測方法を提供することである。図1は本発明の好ましい実施例に係る癌の予後予測方法を説明するフロ-チャ-トである。
【0027】
前記方法は、
参照患者の病変医療画像である参照画像に基づいて取得する、参照ラジオミクスをキャプチャするステップ101と、
前記参照患者のゲノムの特徴、遺伝子発現量、検査値、またはそれらの2つ以上の組み合わせからなる病理の特徴に基づいて取得する、参照病理固有値を取得するステップ102と、
被検査患者の病変医療画像である検査画像に基づいて取得する、検査ラジオミクスをキャプチャするステップ103と、
前記被検査患者のゲノムの特徴、遺伝子発現量、検査値、またはそれらの2つ以上の組み合わせからなる病理の特徴に基づいて取得する、検査病理固有値を取得するステップ104と、
下記数式により予後インデックスを計算するステップであって、前記予後インデックスにより前記被検査患者の予後の変化のリスクレベルを判断する下記数式により予後インデックスを計算するステップ105と、を含む。
【0028】
(数式)
【0029】
(U1は前記参照病理固有値であり、X1は前記参照ラジオミクスであり、U2は前記検査病理固有値であり、X2は前記検査ラジオミクスであり、前記予後インデックスが1以上である場合、前記被検査患者の予後の変化リスクが前記参照患者以上であると判断し、前記予後インデックスが1未満である場合、前記被検査患者の予後変化リスクが前記参照患者より低いと判断する。)
【0030】
ここでさらに説明すべき点は、前記数式はパン氏等(2019)が開発したCATCH(Covariate-Adjusted Tensor Classification in High Dimensions)モデルに基づいて構築しており、詳しくはJournal of the American statistical association 114, 527 (2019), 1305-1319を参照する。パン氏等が構築したCATCHモデルとの相違点について、本発明では主にテンソル(tensor)モデルを使用し、且つ高次元テンソルデ-タ及び共変量により異なるタイプの応答変数を判別している。本発明において、前記タイプは少なくとも2つ以上あり、2種類以上の異なる変数を同時に処理して計算及び分類可能である。
【0031】
以下、前記数式の導出及び構築を行って構築した判別式を用いて予後変化リスクの高さを判断する。
【0032】
【0033】
【0034】
E~TN(0,Σ1,...,Σ)は式(3)から分かるように、テンソルXと共変量Uとの間に直線関係が存在し、両者の間の影響力の係数はαとする。テンソルXと共変量Uとの間の相関を無視すると分類ミスが発生する確率が高まるため、Xに対する共変量Uの影響を消除する必要があり、影響を消除した後の補正されたテンソルXは下記分配に基づいている。
【0035】
【0036】
2.前述の1.の仮定に基づいて、異なるタイプにおける共変量Uが異なる共分散行列を有することを考慮し、テンソルXも同様に共変数マトリクス構造を有する状況では、U及びXにより応答変数Yのタイプを判別することを目標とし、ベイズ分類ル-ルにより最高の分類効果を達成する。Hardle氏及びHlavka氏(2015)が導入したベイズ判別ル-ルに基づいて下記判別式を構築する。
【0037】
【0038】
前述のベイズ判別ル-ルに関しては、詳しくはHardle氏及びHlavka氏(2015)を参照する。fk(x, u)はタイプkにおけるテンソルX及び共変量Uの同時確率密度関数を示し、式(1)及び式(4)の仮定の下、(U, X)の同時確率密度関数は以下となる。
【0039】
【0040】
式(5)及び式(6)により判別式を構築し、以下は導出過程であり、Yがタイプ2に属する場合、下記数式を満たす。
【0041】
【0042】
式(7)の左側及び右側に対し自然対数を同時に取り、右側は本来1であり、自然対数を取った後に0となる。次いで、左側から自然対数を取った後、式(6)を挿入し、続いて左側に対する導出過程は下記の通りとなる。
【0043】
【0044】
【0045】
【0046】
A及びBを数式に戻して下記数式を取得する。
【0047】
【0048】
上記数式を取得した後、結果を式(7)の左側に戻し、右側は0とし、最終的に式(5)及び式(6)により、上述の導出を経た後に下記判別式を取得する。
【0049】
【0050】
上述の判別式(8)は2タイプの共変量において共分散行列が同じである場合、即ち、Φ1=Φ2=Φである場合、上述の判別式(8)を下記式(9)のように簡略化する。
【0051】
【0052】
ベイズ分類ル-ルに基づいて定義した判別条件は上記式(8)のようになり、2タイプの共変量において共分散行列が同じである場合、本発明において定義する判別条件は上記式(9)のようになり、CATCHモデルに基づいて構築した判別モデルである。判別式(8)はCATCHモデルに基づいて拡張変化させたものであり、この判別モデルはCATCH+モデルと呼び、デ-タYが判別式の条件を満たす場合、これが属するグル-プとして分類され、0より大きい場合は第二タイプと判断され、0未満である場合は第一タイプを判断される。一例を挙げると、本実施例では、第一タイプは予後変化リスクが低いグル-プに属し、第二タイプは予後変化リスクが高いグル-プに属する。具体的には、予後変化は再発、死亡、後遺症、或いは他の合併症の発症を含む。
【0053】
上述のモデルから分かるように、テンソルX及び共変量Uが分類されることで効果が発生する。Uの分類効果について、2つの部分で構成され、
【0054】
【0055】
分類に対する共変量Uの直接的な効果は上述の2つの部分から構成され、所謂直接的な効果の意義は、既知のデ-タの観測値を線形または非線形結合することによりYの分類を定義することであり、上述のものと結合することで共変量Uの直接的な効果とHardle氏及びHlavka氏(2015)の二次判別分析(quadratic discriminant analysis)とが同じであることを見い出し、詳しくはMultivariate statistics: exercises and solutions. Springer,2015を参照する。
【0056】
係数αはテンソルXに対する共変量Uの影響効果を示し、同時に応答変数Yの分類にも間接的に影響し、これは分類に対する共変量Uの間接的効果である。パン氏等(2019)の研究結果から分かるように、テンソルXに対する共変量Uの影響を無視すると、分類ミスが起こる確率が上昇するため、モデルにXとUとの間の関係を考慮した係数を挿入することは重要である。係数はテンソルXが共変量Uの効果を消除した後、応答変数Yに対する分類効果を示す。
【0057】
上述の導出により前記数式を取得し、前記数式により予後インデックスを計算し、前記被検査患者の予後変化のリスクレベルを判断するために用い、前記数式は下記の通りである。
【0058】
【0059】
(U1は前記参照病理固有値であり、X1は前記参照ラジオミクスであり、U2は前記検査病理固有値であり、X2は前記検査ラジオミクスである。前記予後インデックスが1以上である場合、前記被検査患者の予後の変化リスクが前記参照患者以上であると判断する。前記予後インデックスが1未満である場合、前記被検査患者の予後変化リスクが前記参照患者より低いと判断する。)
【0060】
一例を挙げると、前記参照ラジオミクス及び前記テストラジオミクスは医療画像デ-タをPythonソフトウェアのPyradiomicsスイ-トを使用して画像の特徴をキャプチャし、前記参照患者または前記被検査患者が提供する病変医療画像に対し画像の特徴変数を抽出する。部分的な画像特徴変数値が欠失を避けることが難しいため、後続の分析においてはこの部分の画像特徴変数値を無視する。
【0061】
いくつかの実施形態では、図2Aは参照画像の特徴値を抽出するフロ-チャ-トである。前記ステップ101は、
参照病変画像をキャプチャするステップ201と、
前記参照病変画像から複数の画像特徴変数値をキャプチャすると共に参照画像形式デ-タを出力するステップ202と
次元削減マトリクスにより前記参照画像形式デ-タを正規化して参照ラジオミクスを取得し、前記参照病変画像は前記参照患者の病変画像であるステップ203と、を含む。
【0062】
いくつかの実施形態では、図2Bはテストする画像の特徴量を抽出するフロ-チャ-トである。前記ステップ103は、
検査病変画像をキャプチャするステップ204と、
前記検査病変画像から複数の画像特徴変数値をキャプチャすると共に検査画像形式デ-タを出力するステップ205と、
次元削減マトリクスにより前記検査画像形式デ-タを正規化して検査ラジオミクスを取得し、前記検査病変画像は前記被検査患者の病変画像であるステップ206と、を含む。
【0063】
ここで説明すべき点は、前記次元削減マトリクスはLASSO penaltyにより変数選択法に基づいて、大量のパラメ-タ-値を次元削減する。具体的には、前記複数の画像特徴変数値を変換すると共に前記画像形式デ-タを出力し、前記変換はカリファ氏等(2020)の方法に基づいて前述の取得した参照画像特徴変数値及び検査画像特徴変数値を画像形式デ-タに変換し、詳しくはIEEE Access 8 (2020), 22874-22883を参照する。一例を挙げると、参照画像特徴変数値の生の読み取り数デ-タは615個あり、前述の生の読み取り数デ-タを25の25乗のマトリクスに変換配列し、欠失値には0を補償する。いくつかの好ましい実施形態では、前記参照ラジオミクス及び前記検査ラジオミクスに対し更に正規化(normalization)を行い、前記正規化にはチャテジ-氏等(2019)が導入したよくある2種類の方法を採用する。1つは標準化(standardization)であり、2つ目は再スケ-リング(rescaling)であり、詳しくはIEEE Transactions on Radiation and Plasma Medical Sciences 3, 2 (2019), 210-215を参照する。各ラジオミクスを標準化(standardization)した後、その分配は平均数が0に、標準偏差が1に変換され、再スケ-リング(rescaling)により各画像特徴変数の値の範囲を0から1の間に変換する。
【0064】
いくつかの実施形態では、前記遺伝子発現量はRNAシ-ケンス量またはタンパク質発現量を含む。一例を挙げると、RNAシ-ケンス量は、ポリメラ-ゼ連鎖反応(PCR)、qPCR、qRT-PCR、RNA-seq、マイクロアレイ解析、SAGE、MassARRAY技術、次世代シ-ケンスまたはFISHにより測定する。タンパク質発現量はウエスタン・ブロッティング(Western blot)、免疫組織染色法(immunohistochemistry, IHC)または免疫沈降法(immunoprecipitation, IP)等の方法により、特定のタンパク質に対し定量分析を行う。
【0065】
いくつかの好ましい実施形態では、前記ゲノムの特徴は遺伝子コピ-数と、遺伝子突然変異点と、一塩基多型(single nucleotide polymorphisms, SNPs)と、を含む。
【0066】
いくつかの実施形態では、前記遺伝子発現量がRNAシ-ケンス量である場合、前記方法は遺伝子読み取り数に対し下記数式により正規化を行って前記RNAシ-ケンス表現量を取得するステップを更に含み、
【0067】
【0068】
前記遺伝子読み取り数は参照遺伝子または検査遺伝子のRNAシ-ケンス読み取り数であり、前記全ゲノム読み取り数は参照患者または被検査患者の全ゲノムRNAシ-ケンス読み取り数であり、前記遺伝子の塩基長は参照遺伝子または検査遺伝子の塩基長である。
【0069】
ここで説明すべき点は、RNAシ-ケンス結果において、多くの遺伝子が低い発現量に属することが見い出された。遺伝子発現量を測定する際に、遺伝子シ-ケンス量は遺伝子の長さ及びシ-ケンスの深さの影響を受け、これはシ-ケンス過程がランダムサンプリング過程であるため、シ-ケンスが長い遺伝子が抽出される確率がシ-ケンスが短い遺伝子よりも高く、仮に遺伝子シ-ケンスの長さ及びシ-ケンスの深さを無視すると、遺伝子の実際の発現量を誤って評価し、判別結果の精度が低下することになる。そこで、本実施方式では、遺伝子シ-ケンスの数量を正規化することで、RPKM(Reads Per Kilobase Million)に変換する。
【0070】
いくつかの実施形態では、前記検査値は生化学的数値または理学検査数値である。具体的には、生化学的数値は血液、尿、糞便等の一般的な生化学的検査から得られ、例えば、赤血球、白血球、血小板、ヘモグロビン、血球容積、白血球の分類、尿pH、比重、糖尿、尿蛋白、白血球及び尿潜血、及び糞便の潜血や寄生虫検査等である。
【0071】
他のいくつかの実施形態では、肝臓、腎臓、心血管等の特定の器官に対する生化学的検査も本実施方式における生化学的数値の具体的なデ-タソ-スとし、例えば、肝機能や腎機能、新陳代謝である。一例を挙げると、肝機能の検査は、例えば、B型肝炎ウイルス表面抗原及び抗体、C型肝炎ウイルス表面抗体アルブミン、総タンパク、総ビリルビン、アルカリフォスファタ-ゼ、グルタミン酸オキサロ酢酸トランスアミナ-ゼ(AST/GOT)、アラニンアミノ基転移酵素(ALT/GPT)、γ-グルタミルトランスフェラ-ゼ(γ-GT)、直接ビリルビン等である。腎機能検査は、例えば、血清尿素窒素、クレアチニン、総コレステロ-ル、トリグリセリド、高/低比重リポタンパク質、心臓病の危険因子、甲状腺刺激ホルモン、尿酸、食事前の血糖値、糖化ヘモグロビン、遊離サイロキシン等である。心臓血管の検査は、例えば、高感度C反応性タンパク質、ホモシステイン、A型リポタンパク測定等である。
【0072】
いくつかの好ましい実施形態では、前記検査値は理学検査の数値である。前記理学検査は医療者が自身の器官、検査器具、または実験室の装置を使用して直接的または間接的に患者の身体の状態を理解する方法により、患者の当時の客観的な病理デ-タを収集する。これはバイタルサイン、意識状態、頭頸部、眼と耳鼻咽喉、胸部、腹部、泌尿器、生殖、骨格筋、末梢血管、神経学等の検査を含む。一例を挙げると、眼と耳鼻咽喉の検査は、例えば、視力、色識別、聴力等である。胸部検査は、例えば、乳房、肺、心血管検査等である。腹部検査は、例えば、肝臓、脾臓、腎臓、胃腸検査等である。骨格筋検査は、例えば、筋骨格の外観、骨密度測定、筋力のような筋骨格の機能、関節の機能等である。神経学検査は、例えば、認知機能、意識状態、脳神経、脊髄神経、及び反射の検査等である。
【0073】
いくつかの実施形態では、前記参照画像はCT画像、fMRI画像、X線画像、超音波、または病理切片撮影のうちの一種であり、前記検査画像はCT画像、fMRI画像、X線画像、超音波、または病理切片撮影のうちの一種である。
【0074】
いくつかの実施形態では、前記癌は、例えば、結腸直腸癌、肝癌、乳がん、胃がん、食道がん、口腔がん、或いは脳腫瘍のような固形癌である。
【0075】
本発明の別の実施形態は、癌の予後予測システムである。図3Aは本発明の一実施例に係る癌の予後予測システムを示したブロック図である。前記予測システムは、第一演算層と、第二演算層と、第三演算層と、を含むバックボ-ンであって、前記第一演算層は癌マ-カ-を有しているラジオミクスを識別するために用いられ、前記第二演算層は前記癌マ-カ-を有している病理固有値を識別するために用いられ、前記第三演算層は前記第一演算層及び前記第二演算層を統合して識別モデルを構築し、前記ラジオミクスは前記参照ラジオミクスまたは前記検査ラジオミクスであり、前記病理固有値は前記参照病理固有値または前記検査病理固有値であるバックボ-ンと、前記識別モデルに基づいて癌の予後変化を有しているラジオミクスを識別するように前記バックボ-ンをトレ-ニングするための第四演算層と、前記識別モデルに基づいて癌の予後変化を有している病理固有値を識別するように前記バックボ-ンをトレ-ニングするための第五演算層と、予後インデックスモデルを有し、前記バックボ-ン、前記第四演算層及び前記第五演算層が出力するデ-タを統合すると共に予後インデックスを計算するための全接続演算層であって、前記病理の特徴はゲノムの特徴、遺伝子発現量、検査値、またはそれらの2つ以上の組み合わせを含み、前記予後インデックスモデルは下記数式を有する全接続演算層と、を含む。
【0076】
【0077】
(U1は前記参照病理固有値であり、X1は前記参照ラジオミクスであり、U2は前記検査病理固有値であり、X2は前記検査ラジオミクスであり、前記予後インデックスが1以上である場合、前記被検査患者の予後の変化リスクが前記参照患者以上であると判断し、前記予後インデックスが1未満である場合、前記被検査患者の予後変化リスクが前記参照患者より低いと判断する。)
【0078】
いくつかの実施形態では、図3Bに示す如く、前記予測システムは、前記ラジオミクスをキャプチャするための第六演算層を更に含み、ラジオミクスをキャプチャする前記ステップは、病変画像をキャプチャし、且つ前記病変画像から複数の画像特徴変数値をキャプチャすると共に画像形式デ-タを出力し、次元削減マトリクスにより前記画像形式デ-タを正規化して前記ラジオミクスを取得し、前記病変画像は参照患者の病変画像または被検査患者の病変画像であり、前記ラジオミクスは参照ラジオミクスまたは検査ラジオミクスであり、前記第一演算層が前記参照ラジオミクスを識別するか、前記第四演算層が前記検査ラジオミクスを識別するステップを含む。
【0079】
本発明に係る予測システムにおいて、前記癌は、例えば、結腸直腸癌、肝癌、乳がん、胃がん、食道がん、口腔がん、或いは脳腫瘍のような固形癌である。
【0080】
<実施例1>
本実施例では、計3つの異なるデ-タセットがあり、1つ目は77名の患者の個人情報を記録した臨床デ-タである。2つ目は77名の患者の各遺伝子シ-ケンス量(read count)を記録したRNAシ-ケンスデ-タ(RNA Sequencing)であり、臨床デ-タ及びRNAデ-タに記録した77名の患者は同じである。3つ目は92名の患者がCTスキャンを受けた後に記録した画像デ-タである。図4はRNA-Seqデ-タセットと画像デ-タの交差によって形成されたベン図である。上述のベン図に示す如く、同時にRNAデ-タ及び画像デ-タを有している患者の数は計71名であり、本実施例の後続の分析においては、この71名を主とする。
【0081】
<表1>
【0082】
臨床デ-タにはRNA-Seqデ-タを有している71名の患者の個人情報を記録し、変数の説明は表1を参照し、各変数の形態、解釈及び説明、並びにコ-ドをそれぞれ列挙する。
【0083】
<表2>
【0084】
表2には各変数の基本的な記述統計量を列挙する。変数がタイプ変数である場合、各水準におけるその変数のサンプル数及びパ-センテ-ジを列挙し、変数が連続変数である場合、前記変数の平均数及び標準偏差を列挙する。表2から分かるように、71名の患者のうち21名が結腸直腸癌を再発し、疾病の再発率は約29.57%であった。
【0085】
RNA-Seqデ-タはまず77名の患者の計398個の遺伝子の遺伝子シ-ケンス量(read counts)をを記録することで前記遺伝子の発現量を示し、これは生の読み取り数(raw read counts)とも呼び、71名の画像デ-タも同時に有する。図5AはRNA-seqの生の読み取り数(raw read counts)を示すヒ-トマップである。横軸は患者を示し、縦軸は遺伝子変数を示す。横軸の部分は結腸直腸癌が再発したグル-プを示す緑色と、結腸直腸癌が再発していないグル-プを示すオレンジ色に分かれている。図5Aから分かるように、多くの遺伝子が低い発現量に属するため、遺伝子シ-ケンス量が遺伝子の長さ及びシ-ケンスの深さの影響を受けないようにするため、遺伝子シ-ケンス量を下記数式によりRPKM(Reads Per Kilobase Million)に変換する。
【0086】
【0087】
図5BはRNA-seqのRPKMを示すヒ-トマップである。多くの遺伝子の読み取り数及び発現量が極めて希少であることが分かり、結腸直腸癌の再発とは無関係な過剰な遺伝子変数がモデルに進入して後続の分析に影響が出ないようにするため、遺伝子の発現差異解析を行って、差異が最も顕著に発現している10個の遺伝子を選択する。まず、全ての患者の読み取り数の総和が1000未満の遺伝子を削除した後、RソフトウェアのDESeq2スイ-トにより発現差異解析を実行し、各遺伝子に対し下記仮定により検定する。
H0: There is no differential expression across the two sample groups. (LFC = 0)
H1: There is differential expression across the two sample groups. (LFC = 0)
【0088】
上述の検定において、2つのグル-プは結腸直腸癌が再発したグル-プ及び結腸直腸癌が再発していないグル-プを指し、Log2 fold changes(LFC)は再発した患者と再発していない患者とを比較して、その対応する遺伝子発現量がいくら変化したかを示し、0に等しい場合は前記遺伝子が2つのグル-プの間で発現量に差異がないことを示す。最終的に、B-H法により補正した後のp-value値を大きい順にソ-トした後、代表的な10個の遺伝子を選出し、後続の分析に用いる。本実施例において、遺伝子はCCR5、IFI35、CXCR4、TLR7、PECAM1、PRDM1等の結腸直腸癌に関連する遺伝子を含む。
【0089】
図6A乃至図6Cは遺伝子発現量の分配を説明するヒストグラムである。遺伝子発現量の分配をより明確にするため、本実施例では、遺伝子発現量の差異の分析において、補正後のp-valueが最小の遺伝子を観察対象とする。図6Aは遺伝子NM-000442の生の読み取り数を示すヒストグラムである。遺伝子NM-000442は人間の血小板/内皮細胞接着分子1(platelet and endothelial cell adhesion molecule 1, PECAM1)であり、今回のRAN-seqの結果において、生の読み取り数が唯一左に極度に偏ったヒストグラムを示した。図6Bは遺伝子NM-000442のRPKMを示すヒ-トマップである。NM-000442は正規化後のRPKMが極度に右に偏ったデ-タを形成していることが分かる。よって、前述の遺伝子NM-000442のRPKMに対し自然対数を取ることで、対称的な分配を形成させる(図6C参照)。
【0090】
画像デ-タはまずCTスキャン(CT scan)を経た後の92名の画像結像デ-タを記録し、そのうちの71名は同時にRNA-seqデ-タも有している。図7Aは結腸直腸癌患者の断面の原画像である。pythonソフトウェアのpyradiomicsにより前記原画像に対し特徴を抽出し、1037個の特徴変数を獲得し、且つ前述の特徴変数を33の32乗のマトリクスに配列し、マトリクス中で欠乏している変数値の空白には0を補償する。次いで、特徴変数に対し正規化(normalization)及び再スケ-リング(rescaling)を行う。図7Bは前述の患者の画像特徴変数デ-タを画像形式デ-タに変換した後、再スケ-リングにより変換した後の結果を示し、各特徴変数の値の範囲が0から1の間に変換されている。
【0091】
前述のラジオミクス処理方式と同様に、本実施例では他の71名の患者のCTスキャン画像に対し特徴変数値を抽出する。
【0092】
前述の71名の患者のCTスキャン画像から取得した画像特徴変数を画像形式デ-タに変換し、この画像形式デ-タをテンソルデ-タXとし、スクリ-ニングした後の10個の遺伝子変数をRPKMまたはlog(RPKM)にそれぞれ変換して共変量デ-タUとし、患者の予後変化を判別するために用いる。本実施例では、予後変化は結腸直腸癌が再発したかどうかを判別する。
【0093】
前述の画像形式デ-タを7割のトレ-ニングセット及び3割のテストセットに分割し、且つトレ-ニングセットは本来の0.29の疾病再発率を維持し、100回重複し、整理した平均測定インデックスは「感度」、「特異性」、「精度」及び「再現率」を含み、判別結果は表5を参照する。
【0094】
ここで説明すべき点は、「感度」とは実際に陽性であった全ての個体において、陽性と正確に判断された比率を指す。「特異性」とは実際に陰性であった全ての個体において、陰性と正確に判断された比率を指す。よって、高感度且つ高い特異性の検査とは、前記検査が検査対象とする目標を正確に判断し、且つ他のタイプを検査対象の目標と誤判断しないことを示している。通常、不均衡デ-タの分類モデルとする場合、モデルは個体を陽性または陰性と判断し易い傾向があり、あらゆるテストにおいて、感度と特異性との間で取捨選択しなければならない。この際、モデルの効果をより精確に測定するため、通常は「精度」及び「再現率」という他のセットのインデックスを考慮する。「精度」は陽性と正確に判断された全ての個体において、確実に陽性であった比率を指す。「再現率」とは、感度と同義語であり、通常はモデルの精度及び再現率が低すぎない方が良いため、F1-Scoreインデックスを不均衡分類問題の測定インデックスとして使用し、F1-Scoreインデックスは精度と再現率を同時に重視し、このモデルの精度を均衡をとって反映する。
【0095】
並列比較について、本実施例では線形判別モデル(Linear discriminant analysis, LDA)を同期で採用し、テンソルまたは遺伝子デ-タにより結腸直腸癌の再発を判別し、本発明に係る予測モデルと比較するために用いている。表3はテンソルデ-タに基づいて判別し、即ち、画像形式デ-タにより判別している。表4は遺伝子変数RPKMに基づいて判別し、即ち、スクリ-ニング後の10個の遺伝子変数に基づいて判別している。
【0096】
表5を参照すると、CATCH+モデルの精度がCATCHモデルの精度に接近し、但し、テンソルデ-タに対し標準化(Standardized)を使用して変換し、且つRPKM形式で遺伝子変数を使用し、CATCH+モデルが0.5778の感度を得ている。即ち、再発した比率を精確に判断しており、これはCATCHモデルの0.3963よりも高い。CATCHモデルは特異性の発現がCATCH+モデルよりも優れている。
【0097】
<表3>
【0098】
<表4>
【0099】
表3乃至表5によると、テンソルに共変量のCATCH及びCATCH+モデルを組み合わせて使用して結腸直腸癌の再発を判別した結果において、感度以外、精度、特異性またはF1-score等も発現がLDAモデルよりも優れている。再スケ-リング(rescaling)処理を経たテンソルを例にすると、その精度はそれぞれCATCH(0.6559、0.6381)、CATCH+(0.6726、0.6727)であるが、LDAモデルは0.567に過ぎず、特異性はそれぞれCATCH(0.7767、0.7543)、CATCH+(0.7788、0.8802)であるが、LDAモデルでは0.696に過ぎず、F1-scoreはLDAモデルの0.293と比べて大幅に向上し、それぞれCATCH(0.7602、0.7412)、CATCH+(0.7698、0.7915)である。遺伝子変数はRPKMを例にすると、その精度はそれぞれCATCH(0.6559、0.6633)、CATCH+(0.6726、0.6746)であり、LDAモデルでは0.6238であり、F1-scoreはそれぞれCATCH(0.7602、0.7634)、CATCH+(0.7698、0.7706)であり、LDAモデルでは0.3659に過ぎない。上述の分析結果から分かるように、本発明に係る予測モデルは結腸直腸癌の再発の判別結果において、画像形式デ-タ及び遺伝子変数を結合して全体的に共変量分析を行うことで、更に好適な判別結果が得られる。
【0100】
<表5>
【0101】
<実施例2>
本実施例では、乳がん患者が骨粗鬆症を罹患しているか検査し、骨粗鬆症の症状があるかどうか判別することを目的としている。主に2つのデ-タセットがあり、1つは臨床デ-タであり、患者の個人の基本デ-タ及び患者の骨質の判定結果が記録されている。2つ目はCTスキャンを受けた後に特徴を抽出したRadiomicsデ-タであり、即ち、画像特徴変数デ-タである。デ-タはトレ-ニングデ-タセット及びテストデ-タセットに分けられ、それぞれ313名及び99名分有している。表6は臨床デ-タ及び画像特徴変数デ-タを説明し、各変数の形態、解釈、説明、及びコ-ド方式をそれぞれ列挙している。
【0102】
臨床デ-タのトレ-ニングデ-タセットにおいて、313名の乳がん患者の個人情報及び骨密度検査デ-タが記録され、変数は表6に示す。表7は各変数の基本的な記述統計量を列挙し、下述の原理に基づいて列挙している。タイプ変数に属する場合、各水準下におけるその変数のサンプル数及びパ-センテ-ジを列挙し、変数が連続変数に属する場合、前記変数の平均数及び標準偏差を列挙している。
【0103】
<表6>
【0104】
骨粗鬆症の判定は、主に検査した骨密度を同性の若年者と比較して算出したT-score値に基づいている。T-score値が-1.0以上である場合、正常な骨量(normal)と判断する。T-score値が-1.0乃至-2.5の間の範囲である場合、骨質が欠乏している(osteopenia)と判断する。T-score値が-2.5以下である場合、骨粗鬆症(osteoporosis)であると判断する。表7を参照すると、トレ-ニングデ-タセットの313名の乳がん患者において、約42.49%の人が骨質が欠乏しており、11.18%の人が骨粗鬆症である。
【0105】
<表7>
【0106】
画像特徴変数デ-タには、CTスキャン(CT scan)を受けた後、pythonソフトウェアのpyradiomicsにより特徴変数を抽出した後の313名のデ-タが記録され、その画像特徴変数は計479個ある。そのうちの2つの特徴変数の値は全て0であり、よって、この2つの変数を無視した後には計477個の特徴変数がある。上述の477個の特徴変数に対し、22の22乗のマトリクスに配列し、マトリクスのうちの変数値が欠乏している空白を0で補償する。図8はそのうちの1名の乳がん患者の画像特徴変数デ-タを画像形式デ-タに変換した後、再スケ-リングにより変換した後の結果である。
【0107】
臨床デ-タについて、年齢及び体重を共変量デ-タUとして選択する。本実施例では、計2種類の分類方式があり、1つは骨質の欠乏及び骨粗鬆症の患者を1つのタイプと見なし、正常な骨密度の患者と比較して判別する。2つ目は、画像形式デ-タ及び臨床デ-タにより正常な骨量、骨質の欠乏、及び骨粗鬆症という3つのタイプを判別する。
【0108】
<表8>
【0109】
313名のデ-タをトレ-ニングデ-タセットとして利用してモデルを構築し、モデルの判別効果を評価するために99名のテストデ-タセットをモデルに入力する。表8から分かるように、再スケ-リング(rescaling)または標準化(standardized)を含む何れかの変換方式は、CATCH+モデルが示す精度が共にCATCHモデルよりも高く、画像特徴変数を正規化した後に最高の精度(0.737)を獲得する。画像特徴変数が未変換でも、最高の感度(0.862)が得られ、骨質が欠乏している或いは骨粗鬆症の患者がCATCH+モデルの予測において精確に判断される比率が最高であることを示す。同様に、画像特徴変数が未変換であっても、最高のF1-Score値が得られる。CATCH+モデルにより乳がん患者の骨質が欠乏している或いは骨質が粗鬆であると判別された場合、精度、感度、特異性及びF1-Score等のインデックスが全てCATCHモデルよりも優れている。また、特徴変数が未変換である前提において、CATCH+モデルにより判別を行うことで最高の精度、感度及びF1-Scoreを獲得できる。
【0110】
次いで、本実施例は3種類の判別結果について、表10乃至12は画像特徴変数に対し異なる正規化変換を行った後に得られ、CATCH及びCATCH+モデルを適用して得られた混同行列の結果である。混同行列(Confusion Matrix)は、各デ-タをモデルによりタイプを判別した後、その分類結果を表9に示す四種の状態のうちの一種に分類し、モデルの判断結果が真であり、且つ実際の状況も真である場合、真陽性と定義する。他の状態の定義も同様に推定する。
【0111】
<表9>
【0112】
表10は画像特徴変数が未変換(Original)の乳がんと骨粗鬆症の3タイプの判別結果である。表10において、CATCH+モデルにより実際に骨質が正常であると判断され、且つモデルの判別結果も骨質が正常である患者は25名おり、この全体の99名の中で25名が占める割合は25.25%であり、主な対角線のパ-センテ-ジを合計すると精度になる。画像特徴変数が未変換である前提において、CATCHモデルの判断精度は0.6061であり、CATCH+モデルの判断精度は0.6263である。
【0113】
<表10>
【0114】
表11は画像特徴変数が標準化(standardization)を経た乳がんと骨粗鬆症の3タイプの判別結果である。画像特徴変数が標準化された前提において、CATCHモデルの判断精度は0.6162であり、CATCH+モデルの判断精度は0.6465である。
【0115】
表12は画像特徴変数が再スケ-リング(Rescaling)を経た乳がんと骨粗鬆症の3タイプの判別結果である。画像特徴変数が再スケ-リングを経た前提において、CATCHモデルの判断精度は0.6263であり、CATCH+モデルの判断精度は0.6263である。
【0116】
前述の結果から分かるように、CATCH+モデルは画像特徴変数が再スケ-リング(rescaling)変換後に、CATCHモデルと同じ精度を獲得するほか、未変換(original)または標準化(standardization)変換でも高い精度が得られる、少数のタイプの骨粗鬆症については、CATCH+モデルに正規化変換を適用することで3名を判別可能であり、3タイプの分類問題では、CATCH+モデルがCATCHモデルよりも優れていることを証明している。
【0117】
<表11>
【0118】
本発明に係る癌の予後予測方法は、高次元テンソルデ-タ及び共変量を同時に適用して判別分析を行い、異なるタイプにおいて共変量を挿入して共分散行列を相異する状況とし、テンソルと共変量との間の直線関係を同時に補正した後、CATCH+モデルを構築してタイプの判別を行い、これは3タイプ以上の分類の判別に応用可能である。
【0119】
本発明に係る癌の予後予測方法は、結腸直腸癌の再発デ-タの分析において、CATCH+モデルにより更に高い感度を獲得し、疾病再発リスクが高い患者を更に精確に判別可能になり、F1-Scoreの測定により、CATCH+の精度も高くなる。然しながら、再スケ-リング(rescaling)または標準化(Standardized)変換のどちらを経た後にも、CATCHモデルは特異性の発現がCATCH+モデルよりも優れている。
【0120】
<表12>
【0121】
本発明に係る癌の予後予測方法は、乳がん患者の骨粗鬆症のデ-タの分析において、2タイプの分類問題について、CATCH+モデルの精度が全てCATCHモデルよりも高く、3タイプの分類問題について、CATCH+モデルは良好な判別能力を有し、且つ少数のタイプに属する骨粗鬆症患者をより多く判別可能である。
【0122】
本発明に係る癌の予後予測方法は、少ないサンプル数の範囲内で高精度、高感度、高特異性の癌の予後予測を達成している。将来的な応用において、大規模な癌の予後予測に適合するのみならず、部分的な臨床デ-タの規模が小さい疾患にも適用可能であり、本発明が提供する方法を利用して予後予測または後ろ向き研究(retrospective research)を行うことができる。
【0123】
本発明は、その精神又は主要な特徴から逸脱することなく、他のいろいろな形態で実施することができる。そのため、上述の実施形態はあらゆる点で単なる例示に過ぎず、限定的に解釈してはならない。本発明の範囲は特許請求の範囲によって示すものであって、明細書本文には何ら拘束されない。更に、特許請求の範囲の均等範囲に属する変形や変更は、すべて本発明の範囲内のものである。
【符号の説明】
【0124】
101乃至105 ステップ
201乃至203 ステップ
204乃至206 ステップ
図1
図2A
図2B
図3A
図3B
図4
図5A
図5B
図6A
図6B
図6C
図7A
図7B
図8