IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 学校法人東海大学の特許一覧 ▶ 株式会社LSIメディエンスの特許一覧

特許7589948罹患判定支援装置、罹患判定支援方法、及び罹患判定支援プログラム
<>
  • 特許-罹患判定支援装置、罹患判定支援方法、及び罹患判定支援プログラム 図1
  • 特許-罹患判定支援装置、罹患判定支援方法、及び罹患判定支援プログラム 図2
  • 特許-罹患判定支援装置、罹患判定支援方法、及び罹患判定支援プログラム 図3
  • 特許-罹患判定支援装置、罹患判定支援方法、及び罹患判定支援プログラム 図4
  • 特許-罹患判定支援装置、罹患判定支援方法、及び罹患判定支援プログラム 図5
  • 特許-罹患判定支援装置、罹患判定支援方法、及び罹患判定支援プログラム 図6
  • 特許-罹患判定支援装置、罹患判定支援方法、及び罹患判定支援プログラム 図7
  • 特許-罹患判定支援装置、罹患判定支援方法、及び罹患判定支援プログラム 図8
  • 特許-罹患判定支援装置、罹患判定支援方法、及び罹患判定支援プログラム 図9
  • 特許-罹患判定支援装置、罹患判定支援方法、及び罹患判定支援プログラム 図10
  • 特許-罹患判定支援装置、罹患判定支援方法、及び罹患判定支援プログラム 図11
  • 特許-罹患判定支援装置、罹患判定支援方法、及び罹患判定支援プログラム 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-18
(45)【発行日】2024-11-26
(54)【発明の名称】罹患判定支援装置、罹患判定支援方法、及び罹患判定支援プログラム
(51)【国際特許分類】
   G16H 50/20 20180101AFI20241119BHJP
   G01N 33/48 20060101ALI20241119BHJP
   G01N 33/50 20060101ALI20241119BHJP
   G01N 33/68 20060101ALI20241119BHJP
   G01N 33/92 20060101ALI20241119BHJP
   G16B 40/20 20190101ALI20241119BHJP
【FI】
G16H50/20
G01N33/48 Z
G01N33/50 P
G01N33/68
G01N33/92
G16B40/20
【請求項の数】 10
(21)【出願番号】P 2021526141
(86)(22)【出願日】2020-06-11
(86)【国際出願番号】 JP2020023108
(87)【国際公開番号】W WO2020250995
(87)【国際公開日】2020-12-17
【審査請求日】2023-04-17
(31)【優先権主張番号】P 2019108992
(32)【優先日】2019-06-11
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000125369
【氏名又は名称】学校法人東海大学
(73)【特許権者】
【識別番号】591122956
【氏名又は名称】株式会社LSIメディエンス
(74)【代理人】
【識別番号】110002860
【氏名又は名称】弁理士法人秀和特許事務所
(72)【発明者】
【氏名】三上 幹男
(72)【発明者】
【氏名】田辺 和弘
【審査官】鹿谷 真紀
(56)【参考文献】
【文献】特開2018-092515(JP,A)
【文献】米国特許出願公開第2017/0147777(US,A1)
【文献】特開2007-052774(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G16H 10/00-80/00
G01N 33/48
G01N 33/50
G01N 33/68
G01N 33/92
G16B 40/20
(57)【特許請求の範囲】
【請求項1】
対象者に由来する生体試料中の所定の種類のバイオマーカーを分析して得られた分析結果を所定の順序に並べ替え、並べ替え後の分析結果を画像に変換する前処理部と、
前記画像、及び特定の疾患をもつ被験者および前記疾患をもたない被験者に由来する生体試料中の前記所定の種類のバイオマーカーの前記分析結果を前記所定の順序に並べ替えた後に画像に変換した情報と疾患への罹患状態との関係を深層学習により学習した学習済みモデルを用いて、対象者が前記疾患に罹患している可能性を表す情報を出力する判定支援部と
を備え
前記疾患は癌であり、
前記所定の種類のバイオマーカーが、糖タンパク質をプロテアーゼで断片化して生成される複数の糖ペプチドを含み、
前記分析結果は、前記複数の糖ペプチドを質量分析装置で複数回分析し、所定の基準以上の再現性を有する糖ペプチドを選択し、選択された前記糖ペプチドのピーク強度を用いて表される
罹患判定支援装置。
【請求項2】
前記バイオマーカーの種類は、タンパク質、核酸、ペプチド、糖鎖、もしくは脂質のいずれか、またはこれらを2以上組み合わせたものである、
請求項1に記載の罹患判定支援装置。
【請求項3】
前記被験者は、癌患者と非癌患者とを含み、
前記所定の順序は、所定のコントロール検体から得られた糖ペプチドに対する前記癌患者の血液から得られた糖ペプチドの相対的な存在量の特徴に基づいて決定される
請求項1又は2に記載の罹患判定支援装置。
【請求項4】
前記所定の順序は、複数の糖ペプチドについて、主成分分析、クラスター解析、又は因子分析により前記相対的な存在量の類似度を求め、当該類似度に基づいて決定される
請求項に記載の罹患判定支援装置。
【請求項5】
前記前処理部は、前記類似度が高い糖ペプチドのピーク強度同士が近傍に配置されるように、前記ピーク強度の大きさを表す情報を二次元上に表す前記画像を作成する
請求項に記載の罹患判定支援装置。
【請求項6】
前記画像は、分析結果の数値に応じて前記複数の糖ペプチドの各々に対応する領域の色を決定して生成されるものである、
請求項1からのいずれか一項に記載の罹患判定支援装置。
【請求項7】
前記前処理部は、前記所定の種類のバイオマーカーとは異なる腫瘍マーカーの分析結果に基づく値を、
三原色のうち前記所定の種類のバイオマーカーに割り当てられた色とは異なる色に変換して前記画像に追加し、又は
前記所定の種類のバイオマーカーとは異なる領域の色に変換して前記画像に追加し、
前記判定支援部は、前記所定の種類のバイオマーカー及び前記腫瘍マーカーの分析結果に基づいて作成された画像と前記疾患への罹患状態との関係を深層学習により学習した学習済みモデルを用いて、前記対象者が前記疾患に罹患している可能性を表す情報を出力する
請求項に記載の罹患判定支援装置。
【請求項8】
前記深層学習は、畳み込みニューラルネットワークを用いて行われる
請求項1からのいずれか一項に記載の罹患判定支援装置。
【請求項9】
コンピュータが、
対象者に由来する生体試料中の所定の種類のバイオマーカーを分析して得られた分析結果を所定の順序に並べ替え、並べ替え後の分析結果を画像に変換し、
前記画像、及び特定の疾患をもつ被験者および前記疾患をもたない被験者に由来する生体試料中の前記所定の種類のバイオマーカーの分析結果を前記所定の順序に並べ替えた後に画像に変換した情報と疾患への罹患状態との関係を深層学習により学習した学習済みモデルを用いて、対象者が前記疾患に罹患している可能性を表す情報を出力し、
前記疾患は癌であり、
前記所定の種類のバイオマーカーが、糖タンパク質をプロテアーゼで断片化して生成される複数の糖ペプチドを含み、
前記分析結果は、前記複数の糖ペプチドを質量分析装置で複数回分析し、所定の基準以上の再現性を有する前記糖ペプチドを選択し、選択された前記糖ペプチドのピーク強度を用いて表される
罹患判定支援方法。
【請求項10】
対象者に由来する生体試料中の所定の種類のバイオマーカーを分析して得られた分析結果を所定の順序に並べ替え、並べ替え後の分析結果を画像に変換し、
前記画像、及び特定の疾患をもつ被験者および前記疾患をもたない被験者に由来する生体試料中の前記所定の種類のバイオマーカーの分析結果を前記所定の順序に並べ替えた後に画像に変換した情報と疾患への罹患状態との関係を深層学習により学習した学習済みモデルを用いて、対象者が前記疾患に罹患している可能性を表す情報を出力する
処理をコンピュータに実行させ
前記疾患は癌であり、
前記所定の種類のバイオマーカーが、糖タンパク質をプロテアーゼで断片化して生成される複数の糖ペプチドを含み、
前記分析結果は、前記複数の糖ペプチドを質量分析装置で複数回分析し、所定の基準以
上の再現性を有する前記糖ペプチドを選択し、選択された前記糖ペプチドのピーク強度を用いて表される
罹患判定支援プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本技術は、生体試料等の特徴に基づいて疾患の罹患状態の有無の判定を支援するための、判定支援装置、判定支援方法、及び判定支援プログラムに関する。
【背景技術】
【0002】
健康でありたいという思いは、国や文化を問わず、世界共通の願いである。しかし、日々技術的進化を遂げ質が向上した検査や治療を含めた医療サービスによっても十分な対応ができているとは言い難い。例えば、癌などの疾患の場合には、腫瘍が発生しても自覚症状に乏しいためにその発見が遅れたり、転移のある進行症例として発見されることが多い。そのため、患者本人や周囲の負担が大きくなったり、社会的な損失も極めて大きくなること等から、早期発見を可能とする技術開発が望まれている。また、近年増加し続けている社会保障費を抑制するという観点からも、生活習慣病の予防や疾患の罹患状態を正確に把握できることの重要性が高まっている。
【0003】
疾患罹患状態について調べるためには、画像診断よりも簡便でかつ費用の少ない血液検査等の生体試料を分析する検体検査が望ましく、特に自覚症状のない疾患初期状態の検出には尚の事、肉体的、および費用的負担の少ない方法が望まれる。しかし、疾患の罹患状態の判定に使用できるバイオマーカーは種類が少なく、その精度も十分とはいえないものが多い。従来より知られているバイオマーカーを使用した検体検査だけでは、初期の疾患を検出し判定することは非常に困難なことが多かった。
【0004】
癌を例にすると、癌患者の血清に含まれる糖タンパク質は、癌化に伴い糖鎖構造が変化することが知られており、既存の卵巣癌マーカーであるCA125においても卵巣癌に伴う血液中の糖タンパク質糖鎖の構造変化が検出されることが報告されている。特許文献1には、特定位置のアスパラギン残基に糖鎖が付加された糖タンパク質又は糖鎖を有するその断片を上皮性卵巣癌鑑別マーカーとして使用しうることが記載されている。
【0005】
また、卵巣癌の診断に使われるマーカーであるCA125は子宮内膜症でも高値を示す。特許文献2においては、子宮内膜症との識別が容易な卵巣癌マーカー糖タンパク質、およびそれを用いた卵巣癌の検出方法が提案されている。
【0006】
また、特許文献3においては、バイオマーカーの濃度を前処理した値を訓練済みのCNN入力し、疾病の有無または重篤度に相当する出力値を生成する方法が提案されている。
【先行技術文献】
【特許文献】
【0007】
【文献】特開2012-145500号公報
【文献】特開2015-125093号公報
【文献】特開2007-52774号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
従来、疾患の罹患状態を判定する方法として様々な手法が提案されているものの、十分な精度を有し、実際に臨床の現場において実用に耐えうるものは少ない。そこで、本発明は、疾患の罹患状態の判定精度を向上し得る判定支援装置、方法、プログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明に係る罹患判定支援装置は、判定される対象者(以下、単に「対象者」という)に由来する生体試料中の所定の種類のバイオマーカーを複数分析してえられた分析結果を所定の順序に並べ替え、並び替えた後の分析結果を画像に変換する前処理部と、上記画像、及び特定の疾患をもつ被験者および前記疾患をもたない被験者に由来する生体試料中の複数のバイオマーカーの分析結果を並べ替えた後に画像に変換した情報と当該被験者の疾患の罹患状態との関係を深層学習により学習した学習済みモデルを用いて、対象者が前記疾患に罹患している可能性を表す情報を出力する判定支援部とを備える。
【0010】
前記バイオマーカーの種類は、タンパク質、核酸、ペプチド、糖鎖、もしくは脂質のいずれか、またはこれらを2以上組み合わせたものであってもよい。
【0011】
また、所定の種類のバイオマーカーは、糖タンパク質をプロテアーゼで断片化して生成される複数の糖ペプチドを含むものであってもよい。また、分析結果は、前記複数の糖ペプチドを質量分析装置で複数回分析し、所定の基準以上の再現性を有する前記糖ペプチドを選択し、選択された前記糖ペプチドのピークを用いて表されるものであってもよい。これら糖ペプチドはイムノアッセイ、液体クロマトグラフィー(LC)、質量分析法(MS)、レクチンアレイ、電気泳動など、いずれの方法で検出してもよいが、特に液体クロマトグラフィー・質量分析装置(LC-MS)が望ましい。質量分析装置を使う場合は、あらかじめ同サンプルを複数回繰り返し測定し、得られたピークの情報が高い再現性に基づく糖ペプチドを選択することで、特徴を適切に学習し、また癌の判定の精度を向上させることができるようになる。
【0012】
対象とする疾患としては、特に限定しないが、早期発見により治癒率が飛躍的に向上する癌を対象にすることができる。深層学習法にて癌、および非癌を学習する工程では、被験者は、癌患者と非癌患者とを含み、当該分析結果を所定の順序に並べ替える工程は、所定のコントロール検体から得られた糖ペプチドに対する癌患者の血液から得られた糖ペプチドの相対的な存在量の特徴に基づいて決定されるようにしてもよい。このようにして順序を決定すれば、癌患者と非癌患者とで存在量が特に異なる糖ペプチドを強調することができ、癌患者と非癌患者の特徴の差異を効率よく学習し、また判定支援することができる。
【0013】
当該分析結果を所定の順序に並べ替える工程は、複数の糖ペプチドについて、主成分分析、クラスター解析、又は因子分析により相対的な存在量の類似度を求め、当該類似度に基づいて決定されるようにしてもよい。具体的には、このように決定される順序に並べ替えたデータを用いることで、癌患者と非癌患者の特徴の差異を効率よく学習し、また判定支援することができる。
【0014】
並び替えた数値データを視覚化する工程は、数値データをある基準に基づき画像に変換してよい。具体的には数値の大きさに応じて色の濃さを変えたり、色の種類を変えたりする方法であってよい。使用する数値データが複数ある場合は、数値データの種類ごとに例えば光の三原色のいずれかを対応させ、複数の色を組み合わせて使用することで判定の精度を高めることができるため、好ましい。深層学習への入力データを画像データにすることで、画像の分類器として実装された既存の様々な深層学習を容易に利用することができるようになる。
【0015】
また、前処理部は、所定の種類のバイオマーカーとは異なる腫瘍マーカーの分析結果に基づく値を、三原色のうち所定の種類のバイオマーカーに割り当てられた色とは異なる色に変換して画像に追加し、又は、所定の種類のバイオマーカーとは異なる領域の色に変換して画像に追加し、判定支援部は、所定の種類のバイオマーカー及び腫瘍マーカーの分析結果に基づいて作成された画像と疾患への罹患状態との関係を深層学習により学習した学習済みモデルを用いて、対象者が疾患に罹患している可能性を表す情報を出力するようにしてもよい。一般的な腫瘍マーカーの分析結果を用いることで判定の精度を向上させ得る。
【0016】
深層学習は、ニューラルネットワーク、または畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を用いて行われるものであってもよい。畳み込みニューラルネットワークは、例えば画像等の学習処理に好適に用いることができる。特に事前学習ありのモデルを使用した転移学習が好ましい。
【0017】
なお、課題を解決するための手段に記載の内容は、本発明の課題や技術的思想を逸脱しない範囲で可能な限り組み合わせることができる。また、課題を解決するための手段の内容は、コンピュータ等の装置若しくは複数の装置を含むシステム、コンピュータが実行する方法、又はコンピュータに実行させるプログラムとして提供することができる。該プログラムはネットワーク上で実行されるようにすることも可能である。なお、当該プログラムを保持する記録媒体を提供するようにしてもよい。
【発明の効果】
【0018】
本発明によれば、疾患の罹患状態の判定精度を向上し得る判定支援装置、方法、プログラムを提供することができる。
【図面の簡単な説明】
【0019】
図1図1は、本実施形態に係る、血液中に表れる癌の特徴の機械学習、及び機械学習によって得られた判定支援モデルによる癌の有無の判定支援の一例を模式的に示す図である。
図2図2は、学習装置の一例を示す機能ブロック図である。
図3図3は、本実施形態に係る処理の一例を示す処理フロー図である。
図4図4は、本実施形態に係るモデル作成処理の一例を示す処理フロー図である。
図5図5は、判定支援装置の一例を示す機能ブロック図である。
図6図6は、判定支援処理の一例を示す処理フロー図である。
図7図7は、血清サンプルの内訳と用途を示す図である。
図8図8は、測定された糖ペプチド断片のピークの一例を示す図である。
図9図9は、主成分分析の結果を示す図である。
図10図10は、作成された画像の一例を示す図である。
図11図11は、ROC解析の結果を示す図である。
図12図12は、実施例1-4の評価を説明するための図である。
【発明を実施するための形態】
【0020】
以下、図面を参照しつつ本発明に係る実施形態の一例を説明する。特に、糖ペプチドを使用した卵巣癌の判定支援を中心に説明をするが、本発明はこれに限定されるものではない。
【0021】
本発明において、疾患とは、身体の正常な状態がそこなわれ,生命維持機能が阻害あるいは変化している状態をさし、身体的・精神的・社会的に完全に良好な状態が崩れている状態のものをいう。これらは、国際疾病分類(International Classification of Diesease、以下ICDと称する)等によって分類された同義の疾患名であってもよい。また、検体検査における異常や明らかな症状が無い場合であっても、初期段階の疾患状態である可能性があることから、それらを対象としてもよい。
【0022】
検体検査に使用する生体試料とは、生体に由来する成分を含む試料をいい、例えば、全血、血漿、血清、血球、尿、便、唾液、喀痰、精液、涙、鼻汁、膣、鼻、直腸、咽頭、せき髄液、および尿道のスワブ、排出物、および分泌物、ならびにバイオプシー組織試料などを使用することができ、これらの組み合わせであってもよい。これら生体試料の種類は、検体採取や前処理等の取扱いのしやすさ等を考慮して、適宜選択して使用することができる。前処理法は、当業者であれば、生体試料の種類、対象とするバイオマーカーの種類に応じて適宜条件を設定して実施することができる。
【0023】
バイオマーカーとは、身体の状態を客観的に評価するための指標をさし、本発明においては特に疾患の診断の用途として用いられるものを使用してよい。使用するバイオマーカーの種類は、単独で使用するか組み合わせて使用するかは問わない。例えば、本発明を、SCC、CEA、SLX、CYFRA、NSE、ProGRP、AFP、PIVKA-II、CA19-9、PSA、CA15-3、NCC-ST-439、STN、ElastaseI、βHCG、CA125、HE4、SLXのようなバイオマーカーを単独、あるいは組み合わせて使用してもよい。卵巣癌の判定において使用する場合、卵巣癌の診断用途として一般的に認知されているCA125やHE4などと組み合わせた使用が考えられる。また、生化学検査、血液検査、腫瘍マーカーといった検体検査によって得られた分析結果に加えて、CT(Computed Tomography)やMRI(Magnetic Resonance Imaging)、PET(Positron Emission Tomography)などの画像診断データのほか、体温や脈拍など日常の診察に使われるバイタルサインなども含まれる。分析対象としては、生体試料中に含まれる物質であれば何を対象にしてもよく、好ましくは、タンパク質、核酸(DNA(Deoxyribonucleic acid)、RNA(Ribonucleic acid))、ペプチド、糖鎖、脂質等を使用することができる。また、これらの物質は複数の種類の物質を組み合わせて使用してもよい。
【0024】
これらバイオマーカーを測定・分析する手段は問わない。分析対象となるバイオマーカーの種類や濃度など分析目的に応じて、当業者であれば適宜分析方法を選択し、その条件を設定することができる。例えば、質量分析計やクロマトグラフ、のような機器分析、ELISA法、ラテックス凝集法、免疫比濁法、フローサイトメーターによる方法のような免疫反応を利用した分析方法、酵素法、紫外部吸光光度分析法、酵素免疫測定法、発光量測定の場合は化学発光免疫測定法、電気化学発光免疫測定法などのような吸光度を測定する検査法、TaqMan(登録商標) PCR、インベーダー(登録商標)法、スナイパー法、SNPIT法、Pyrominisequencing法、DHPLC法、NanoChip法、LAMP法、ハイブリダイゼーションアッセイ、シークエンス法のような遺伝子解析手法が挙げられるが、これに限定されない。また、バイタルサインのような指標を用いる場合には、脈拍、体温、血圧、心電図、脳波、超音波検査、呼吸機能検査のような生理機能検査を使用することも可能である。更に、X線を使ったレントゲン検査,CTなどの検査やMRI検査,核医学検査(放射線同位元素(アイソトープ)を用いたRI検査)などのような放射線関連検査、内視鏡検査などを使用してもよい。本発明における、糖ペプチドを使用した卵巣癌の判定支援においては、質量分析計による分析が好ましく用いることができるが、適宜選択して使用してよい。質量分析計による分析結果を使用する場合には、液体クロマトグラフ(LC)装置と質量分析計(MS)を利用して実施することができる。液体クロマトグラフ装置と質量分析計とは直列に接続されていてもよいし、それぞれ独立した装置であってもよい。例えば、液体クロマトグラフ装置と質量分析計を直列につないで構成された、LC-MSシステムを用いることができる。LC-MSシステムを用いることにより、液体クロマトグラフィーにより分離された成分を、続けて質量分析することができる。
【0025】
本実施形態の一例として記載する癌の判定支援においては、血液中の特に糖タンパク質、又はその分解物である糖ペプチド(総称して「糖タンパク質類」とも呼ぶ)を用いて、癌の有無との関係を機械学習し、作成した分類器を用いて所定の検体から癌の可能性の程度を示す、罹患の判定を支援するための情報を出力する。
【0026】
また、本実施形態において、癌とは、任意の悪性新生物をいうものとする。例えば脳腫瘍、神経膠腫(グリオーマ)など脳・神経・眼の癌、舌癌、上咽頭癌、中咽頭癌、下咽頭癌、喉頭癌、甲状腺癌など口・のどの癌、肺癌、胸腺腫、胸腺癌、中皮腫、乳癌など胸部の癌、食道癌、胃癌、大腸癌(結腸癌・直腸癌)、消化管間質腫瘍(GIST)など消化管の癌、肝細胞癌、胆管癌、胆のう癌、膵臓癌など肝臓・胆のう・膵臓の癌、腎細胞癌、腎盂・尿管癌、膀胱癌、など泌尿器の癌、その他、前立腺癌、精巣(睾丸)腫瘍、乳癌、子宮頸癌、子宮体癌(子宮内膜癌)、卵巣癌、腟癌、外陰癌、基底細胞癌、有棘細胞癌、悪性黒色腫(皮膚)、皮膚のリンパ腫など皮膚の癌、軟部肉腫など骨・筋肉の癌、急性骨髄性白血病、急性リンパ性白血病/リンパ芽球性リンパ腫、慢性骨髄性白血病、慢性リンパ性白血病/小リンパ球性リンパ腫、骨髄異形成症候群、成人T細胞白血病/リンパ腫などの白血病、ホジキンリンパ腫、非ホジキンリンパ腫、濾胞性リンパ腫、MALTリンパ腫、リンパ形質細胞性リンパ腫、マントル細胞リンパ腫、びまん性大細胞型B細胞リンパ腫、末梢性T細胞リンパ腫、バーキットリンパ腫、節外性NK/T細胞リンパ腫、鼻型などの皮膚のリンパ腫、急性リンパ性白血病/リンパ芽球性リンパ腫、慢性リンパ性白血病/小リンパ球性リンパ腫、成人T細胞白血病/リンパ腫、などの悪性リンパ腫、多発性骨髄腫、原発不明癌、遺伝性腫瘍・家族性腫瘍等が含まれるが、これに限定されない。また、特定の種類の癌を単独で判定支援するのではなく、複数の癌を対象として、実施することもできる。
【0027】
また、糖タンパク質とは、少なくともN結合型又はO結合型糖鎖を有する糖タンパク質をいうものとする。また、糖ペプチドとは、天然の状態で、分子量が10,000以下のペプチドにN結合型又は/およびO結合型糖鎖を有するもの、または糖タンパク質をトリプシン、リシルエンドペプチダーゼなどのプロテアーゼで分解した断片物のうち、少なくともN結合型又はO結合型糖鎖を有するペプチドをいうものとする。
【0028】
図1は、本実施形態に係る、血液中に表れる癌の特徴の機械学習、及び機械学習によって得られた判定モデルによる癌の有無の判定の一例を模式的に示す図である。本実施形態に係る機械学習では、まず、癌患者及び非癌患者(「健常者」とも呼ぶ)の血液1に含まれるタンパク質(例えば糖タンパク質)11を還元して断片化し、ペプチド(例えば糖ペプチド)12を得る。そして、血液1に含まれるペプチド12を、質量分析装置2を用いて分析する。質量分析装置2は、例えば液体クロマトグラフィー質量分析(LC-MS)や液体クロマトグラフィー・タンデム質量分析(LC-MS/MS)を行い、マススペクトル21を出力する。質量分析におけるイオン化法や個々の測定条件は、当業者であれば、測定しようとする試料の種類、対象とするバイオマーカーの種類に応じて適宜条件を設定して実施することができる。
【0029】
また、マススペクトル21から所定の規則(「ピーク高さ」、「ピーク面積」などの情報に基づくものを含む)に基づいてピークを選択し、並べ替えてもよい。図1の例では、健常者に対する癌患者のピークについて、強度と再現性の情報を使用し、それらのデータを所定の規則に基づいて二次元上に配列し、ピーク強度に応じて1ピクセル又は所定の領域に、所定の濃度の色を割り当てた二次元コードである画像22を作成している。使用するピークの情報としては、ピーク強度を単独で使用してもよいし、他の情報、例えば、再現性の情報と組み合わせて使用してもよい。再現性の情報を使用した場合には、再現性の高いペプチドを対象とすることで、より精度の高いモデルを作成をすることができ好ましい。また、画像22を入力として、CNN(畳み込みニューラルネットワーク)を用いた深層学習(「ディープラーニング」とも呼ぶ)を行い、画像22から癌である可能性を出力するための学習済みモデル23を作成する。以上のように、ペプチドの発現パターン、ひいては血液中のタンパク質の発現パターンの特徴と、癌への罹患の有無との関係を機械学習する。
【0030】
また、判定支援処理においては、罹患の有無が未知の対象者について、機械学習同様に血液1からペプチド12のマススペクトル21を得る。また、機械学習において選択されたペプチド12のピークを用いて、画像22を作成する。そして、画像22を入力として、学習済みモデル23を用いて癌の可能性の程度を示す情報を出力する。医師等のユーザは、出力された情報を参照し、対象者の診断に役立てることができる。
【0031】
図1の例では、1つの学習・判定支援装置3を示しているが、機械学習と癌の判定支援とを異なる装置が行うようにしてもよい。また、例えば画像22を用いた機械学習や罹患の可能性の出力等、一部の行程を異なる装置が行うようにしてもよい。異なる装置は、ネットワークを介して接続され、いわゆるクラウドサービスを提供するものであってもよい。以下、学習装置と判定支援装置に分けて説明する。
【0032】
<学習装置>
図2は、学習装置の一例を示す機能ブロック図である。学習装置3はコンピュータであり、通信I/F31と、記憶装置32と、入出力装置33と、プロセッサ34とを備え、これらの構成要素がバス35を介して接続されている。
【0033】
通信I/F31は、例えば有線接続のネットワークカード又は無線接続の通信モジュールであり、所定のプロトコルに基づき、他のコンピュータと通信を行う。例えば、インターネットやLAN(Local Area Network)等の通信網を介して、他のコンピュータとの間でデータを送受信する。
【0034】
記憶装置32は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)等の主記憶装置、又はHDD(Hard-disk Drive)、SSD(Solid State Drive)、eMMC(embedded Multi-Media Card)、フラッシュメモリ等の補助記憶装置である。また、主記憶装置は、後述する処理において中間的に生成されるデータを一時的に保持したり、プロセッサ14の作業領域を確保したりする。また、補助記憶装置は、本実施形態に係るプログラム、その他のデータを記憶する。
【0035】
入出力装置33は、例えばキーボード、マウス等の入力装置や、モニタ等の出力装置、タッチパネル等の入出力装置のようなユーザインターフェースである。学習装置3は、入出力装置33を介してユーザの操作を受け付け、本実施形態に係る処理を実行する。
【0036】
プロセッサ34は、CPU(Central Processing Unit)等の演算処理装置であり、本実施形態に係るプログラムを実行することにより後述する処理を行う。図2の例では、プロセッサ34の中に機能ブロックを記載している。すなわち、プロセッサ34は、本実施形態に係るプログラムを実行することにより、ピーク選択部341、前処理部342、深層学習部343、モデル検証部344として機能する。
【0037】
ピーク選択部341は、癌患者の血液を分析装置2で分析し、出力されたマススペクトル21から機械学習処理に用いるペプチドのピークを複数選択する。前処理部342は、例えば主成分分析(PCA:Principal Component Analysis)や、クラスター分析等により複数のペプチドについて、例えば強度や再現性等の情報をもとにカテゴライズし、その結果に基づいて変動の類似度によって並べ替える。例えば、癌化に伴い量が変動するペプチド或いは変動しないペプチドについて、変動の度合が類似している順に並べ替えてもよい。本実施形態では、コントロール検体(健常者および癌患者の血液を混合したもので、検査のたびに同時に分析するもの)の血液から得られたピーク強度に対する癌患者のピーク強度を使用して並べ替え、ピーク強度比を割り当てた矩形の領域を二次元上に再配列した画像データを作成する。深層学習部343は、画像データの各領域を入力とし、癌の有無を教師値として深層学習を行い、画像データに基づいて対象者の癌の有無を分類する分類器(「学習済みモデル」とも呼ぶ)を作成する。モデル検証部344は、作成された学習済みモデルと、学習済みモデルの作成に用いた血液(「学習用検体」とも呼ぶ)とは異なる癌患者の血液(「テスト用検体」とも呼ぶ)とを用いて癌の有無を判定し、その精度を検証する。
【0038】
バイオマーカーを分析する手段として質量分析計を使用した分析の場合にはマススペクトルを使用するが、他の分析法によって得られた結果も同様にして利用することができる。その場合に、使用するデータの選択、数値化が必要な場合にはその手順、データの並び替え、画像データの作成も同様の手順に沿って実施することができる。以上のように、学習装置3は、特定の疾患について罹患の可能性を表す情報を出力するためのモデルを作成する。
【0039】
<処理>
図3は、本実施形態に係る処理の一例を示す処理フロー図である。本実施形態では、学習装置が実行するモデル作成処理(図3:S1)と、判定支援装置が実行する判定支援処理(図3:S2)とに分別できる。なお、モデル作成処理と判定支援処理とは続けて実行する必要はなく、例えば判定支援処理を実行する装置、方法、又はプログラムのみを提供するようにしてもよい。
【0040】
<モデル作成処理>
図4は、本実施形態に係るモデル作成処理の一例を示す処理フロー図である。本実施形態では、癌患者及び健常者(総称して「被験者」とも呼ぶ)それぞれの血液1を検体とするが、特に血清、血漿を分離して検体とすることが好ましい。そして、検体からタンパク質を抽出し、還元してペプチドに断片化する(図4:S11)。検体からタンパク質を抽出する処理は、例えば検体に対し2~10倍の溶媒を加える。溶媒は、タンパク質を沈殿させるものであればよい。例えば、溶媒は、アセトン、メタノール、エタノール、トリクロロ酢酸、塩酸水溶液などが好ましく、アセトンおよびトリクロロ酢酸の混合液が特に好ましい。沈殿したタンパク質は変性後、還元アルキル化し、プロテアーゼを用いてペプチド断片化する。プロテアーゼはタンパク質をペプチド断片に分解するものであればよい。例えば、プロテアーゼは、トリプシン若しくはリシルエンドペプチターゼ、又はこれらの両者が好ましい。
【0041】
そして、分解後のペプチドを質量分析装置2で分析し、マススペクトル21を得る(図4:S12)。分析対象のペプチドは、レクチンカラムや限外ろ過フィルターを用いて糖ペプチドを濃縮することが好ましいが、糖鎖を有しないペプチドを含んでいてもよい。質量分析装置2は、ペプチドを一斉に分析できるものであればよい。例えば、LC-MSが好ましく、四重極型、TOF形、トリプルQ型、オービトラップ型等が特に好ましい。
【0042】
また、図2の学習装置3のピーク選択部341は、図1のマススペクトル21に含まれる複数のペプチドのピークから、学習対象とする所定の基準として上記のピークを選択する(図4:S13)。本ステップでは、まず、質量分析装置2から取得したピーク強度の値を所定の方法で正規化する。正規化の方法は、糖タンパク類の発現量を表すことができる方法であればよく、例えば所定の内部標準のピーク強度に対する比を用いる内部標準法や、例えば複数の癌患者又は健常者の血清を混合して得られたコントロール検体に含まれる糖ペプチドピーク強度に対する比を用いる方法が好ましい。
【0043】
また、図3のS1においてモデルを作成する際、計算に使用するペプチドは、あらかじめ同一の検体を図1の質量分析装置2で複数回分析し、分析結果の再現性が高いもの(例えば変動係数がある一定以下のもの)のペプチドのピーク強度を選択することができる。再現性の高いペプチドを対象とすることで、より精度の高いモデルを作成をすることができ好ましい。例えば、複数回測定されたペプチドのピーク強度の変動係数(CV:Coefficient of Variation)の値が所定の閾値以下のものを選択することができ、選択したピークは、その強度の値を使用して選択することもできる。
【0044】
なお、ピーク選択部341は、選択されたペプチドのリストを、判定支援処理において選択すべきペプチドのリストとして、記憶装置32に記憶させる。
【0045】
また、学習装置3の前処理部342は、ペプチドのピークに対して所定の手法でカテゴライズし、変動パターンが類似するものが近傍に配置されるような順に並べ替える(図4:S14)。本ステップでは、コントロール検体の対応するペプチドのピーク強度に対する癌患者のペプチドのピーク強度の比で表される各ペプチドの相対存在量を用いてカテゴライズする。例えば、主成分分析を行い、第1主成分(PC1)及び第2主成分(PC2)の値に基づいて並べ替えるようにしてもよいし、k-means、ユークリッド距離、マハラノビス距離等によるクラスター解析や、因子分析等のような分類法によりカテゴライズし、類似度に基づいて並べ替えるようにしてもよい。すなわち、変動パターンが類似するとは、コントロール検体と患者の検体とで存在量の変化(ピークの増減の程度)の特徴が類似することを意味する。
【0046】
なお、主成分分析とは、相関がある多数の変数の中から、相関が少なく全体のばらつきが大きくなる合成変数(主成分)を用いてデータの次元を削減する手法である。第1主成分はデータの分散を最大化するように設定し、以下の第2主成分、第3主成分はそれまでに決定した主成分と直交するという拘束条件の下で分散を最大化するように選択される。
【0047】
また、前処理部342は、並べ替えたペプチドのデータを所定の画像データに変換する。変換方法は特に指定されるものではないが、例えばピーク強度の最大値を黒、ピーク強度の最小値を白とし、その中間値をその強度比に応じて段階的に濃度の異なる灰色に変換する方法が考えられる。そして、ピーク強度に応じた色で塗られた矩形の領域が縦横に配置された画像が生成される。上述の通り、各領域の色は、例えばピーク強度が属する値の範囲に基づいて、種類や濃度を決定することができる。画像を生成することで、例えば画像の特徴を学習済みの既存の機械学習システムを利用することができるようになる。また、使用する分析結果の情報量に応じて複数の色とその濃淡を使い分けて画像化することもできる。
【0048】
ペプチドデータ以外のバイオマーカーを組み合わせて使用してもよい。例えば、卵巣癌の判定に本発明を使用する際に、卵巣癌の判定補助用バイオマーカーとして一般的に知られているCA125やHE4を組み合わせて使用してよい。その場合、上記に加えて、バイオマーカーごとに三原色のいずれかを選択し、バイオマーカーの濃度範囲に応じて色の濃淡に変換して用いることができる。例えば、イムノアッセイにより得られたCA125の濃度範囲を量子化し、赤色の256階調に、濃度の大きさに応じた濃淡の色を割り当てることにより変換する。そして、例えばペプチドデータから作成する画像全体に変換後の赤色を追加する。また、HE4を組み合わせる場合には、HE4の濃度範囲と更に別の色として緑色の256階調に変換して用いることができる。そして、例えばペプチドデータから作成する画像全体に変換後の緑色を追加する。なお、ペプチドデータを並べ替えて作成した画像データは、例えば青色で作成され、赤、緑、青(RGB)の三色を混合して1つの画像が作成される。
【0049】
なお、CA125やHE4のような腫瘍マーカー等、ペプチドデータ以外の種類のバイオマーカーについても、ペプチドデータと色を分けずに1つの矩形の領域として画像に埋め込むようにしてもよい。他の種類のバイオマーカーを埋め込む位置は、所定の位置が定められていてもよく、ペプチドデータと同様に所定の規則に基づいて並べ替えを行うようにしてもよい。また、他の種類のバイオマーカーについても、例えば、所定の種類のバイオマーカーが質量分析計を使用した分析によって得られた場合には、質量分析によって検出可能な糖ペプチドであればよく、特定の物質に限定されず当業者であれば適宜選択して使用することができる。その種類によっては何らかの方法で断片化し、主成分分析を行い、主成分分析の結果に基づいて矩形の領域を並べ替えた画像を作成するようにしてもよい。この場合は、バイオマーカーの種類ごとに三原色の異なる色を割り当てて画像を作成する。
【0050】
なお、前処理部342は、後述する判定支援処理において使用するために、ペプチドの順序を示す情報を記憶装置32に記憶させる。
【0051】
そして、学習装置3の深層学習部343は、所定のCNNを用いた深層学習により、並べ替えられた複数のペプチドのピーク強度と所定の癌の有無との関係を機械学習し、分類器を作成する(図4:S15)。深層学習とは、一種の機械学習手法であり、多層のCNNを利用する。CNNは、画像認識に好適に利用することができる。なお、機械学習を行うプログラムは、MATLAB(登録商標)やPython等、既存のプログラミング言語を利用して作成することができる。また、AlexNetやVGG16のような既存のCNNを利用してもよく、既存の任意の分類器に基づいて転移学習を行うことにより、癌の判定支援に対してパラメータを最適化してもよい。
【0052】
また、学習装置3のモデル検証部344は、作成された学習済みモデルを用いてテスト用検体について癌の有無を判定し、その精度を検証する(図4:S16)。本ステップでは、例えばROC(Receiver Operating Characteristic)解析を行い、所定の基準を満たす場合に、作成された学習済みモデルの判定精度が十分であると判断する。以上のような学習処理により、血液に含まれる糖タンパク質類等の特徴から癌への罹患の有無の判定を支援するためのモデルを生成することができる。
【0053】
<判定支援装置>
図5は、判定支援装置の一例を示す機能ブロック図である。判定支援装置3もコンピュータであり、通信I/F31と、記憶装置32と、入出力装置33と、プロセッサ34とを備え、これらの構成要素がバス35を介して接続されている。各構成要素については、図2に示した学習装置3と対応するものには同一の符号を付し、説明を省略する。
【0054】
図5の例でも、プロセッサ34の中に機能ブロックを記載している。すなわち、プロセッサ34は、本実施形態に係るプログラムを実行することにより、ピーク選択部345、前処理部346、判定支援部347として機能する。なお、判定支援処理においては、例えば癌への罹患の有無が未知である対象者の血液について、タンパク質を断片化すると共に質量分析を行い、得られたマススペクトル21が判定支援装置3に入力される。
【0055】
ピーク選択部345は、マススペクトル21に含まれる複数のペプチドのピークから、学習処理のS13において選択されたものと同じペプチドのピークを抽出し、その強度を計測する。また、モデルを作成する際に、ペプチドの所定の基準以上のピーク強度に加えて、例えば変動係数が所定の閾値以下である、再現性の高いペプチドを対象として抽出してよい。なお、選択すべきペプチドのリストが、予め記憶装置32に記憶されているものとする。また、前処理部346は、学習処理のS14において並べ替えた順序と同様に変動の類似度に応じてペプチドのピークを並べ替える。なお、ペプチドの順序を示す情報が、予め記憶装置32に記憶されているものとする。また、判定支援部347は、並べ替えられたペプチドのピークを表す情報を、学習処理のS15において作成された学習済み深層学習モデルへ入力し、癌に罹患している可能性の程度を示す情報を出力する。
【0056】
図6は、判定支援処理の一例を示す処理フロー図である。判定支援処理においては、例えば癌への罹患の有無が未知である対象者の血液を検体とするが、学習処理と同様に、血清、血漿を分離して検体とすることが好ましい。また、学習処理と同様に、検体からタンパク質を抽出し、還元アルキル化してペプチドに断片化する(図6:S21)。本ステップは、図4のS11と同様である。また、分解後のペプチドを質量分析装置2で分析し、マススペクトル21を得る(図6:S22)。本ステップは、図4のS12と同様である。
【0057】
そして、判定支援装置3のピーク選択部345は、学習処理のS13において選択されたものと同じペプチドのピークを抽出する(図6:S23)。なお、選択すべきペプチドのリストが、予め記憶装置32に記憶されているものとする。リストは、液体クロマトグラフィーの保持時間(リテンションタイム)および質量分析装置から得られるイオン質量電荷数比(m/z)によって表すことができる。
【0058】
また、判定支援装置3の前処理部346は、学習処理のS14において並べ替えた順序と同様にペプチドのピークを並べ替えて画像化する(図6:S24)。なお、ペプチドの順序を示す情報も、予め記憶装置32に記憶されているものとする。例えば、ペプチドの順序を示す情報は、上述のリストに含まれる各ペプチドに対し、例えば2次元のコード上の座標を対応付けることによって表すことができる。また、本ステップにおいては、学習処理のS14と同様に、並べ替えたペプチドのピークを所定の画像データに変換する。画像の作成方法については、図4のS14と同様である。
【0059】
そして、判定支援装置3の判定支援部347は、学習処理のS15において作成されたモデルに、S24において並べ替えられたペプチドのピークの情報を入力し、癌に罹患している可能性の程度を示す情報を出力する(図6:S25)。本ステップでは、学習処理のS15においてニューロン間の重みづけ等のパラメータを調整したニューラルネットワークの学習済みモデルに、例えばS24で作成した画像データが入力される。また、癌に罹患している可能性の程度を示す情報が、例えば、罹患の可能性が高ければ1に近い数値が、可能性が低ければ0に近い数値が、入出力装置33を介してユーザに出力される。
【0060】
<効果>
上述した学習装置及び判定支援装置によれば、血液に含まれるタンパク質の特徴に基づいて、癌への罹患の有無の判定を支援するための情報を出力することができる。血清に含まれる糖タンパク質は癌化に伴い糖鎖構造が変化することが知られており、上述した学習装置及び判定支援装置は、例えば卵巣癌の判定支援に好適に利用することができる。今回示した実施態様の一つとして、一般的に腫瘍マーカーとして使用されていない物質、また、腫瘍マーカーとなり得る旨の報告がされていない物質を使用して卵巣癌の判定が行えたことは、意外な効果であった。また、他の種類のバイオマーカーの分析結果に応じた情報を画像にさらに含ませるようにしてもよい。例えば一般的な腫瘍マーカーの分析結果を用いることで判定の精度を向上させ得る。
【0061】
また、特定の癌マーカーを利用するのではなく、ペプチドのピークを表す情報を所定の基準で選択し、並べ替えた上で機械学習させることにより、癌の特徴を精度よく学習及び判定できるようになる。特に、複数の健常人の血清を混合したコントロール検体から得られたピークに対する癌患者の検体から得られたピーク強度の比で表される相対存在量に基づいて、学習及び判定支援に用いるペプチドを選択することで、癌の特徴を精度よく学習及び判定支援できるようになる。また、例えば主成分分析等により類似するペプチドに分類し、分類結果に基づいて並べ替えることにより、癌の特徴を効率よく学習及び判定支援できるようになる。
【0062】
本発明の別の実施態様としては、複数のバイオマーカーを組み合わせて使用する他、分析結果によらない医療情報を使用してもよい。例えば、医療情報は、年齢、閉経の有無、生活習慣、問診結果、医師の所見、治療の経過や結果、看護記録、処方箋、通院履歴などのカルテ情報、レセプト情報、健診情報等を適宜選択して使用することができる。
【0063】
これらの情報を使用する場合、数値化する必要があるが、その手段は、目的とする判定支援等に応じて分類基準および数値化基準の手法を適宜構築し、分析結果と合わせて使用することができる。例えば、年齢はそのまま使用してもよいし、所定の基準に従って数値化し直して使用することができる。レセプト情報、検診情報を使用する場合には薬剤の有無を指標として、また、閉経の有無、喫煙の有無のような生活習慣についての場合には0または1で数値化することができる。また、問診結果、医師の所見は疾患の進行度に応じて数値化を設定することができる。治療の経過や結果は、固形がんの治療効果判定のための新ガイドラインであるRECISTガイドライン(Response Evaluation Criteria in Solid Tumors)に沿って数値化してもよい。カルテ情報から他の検査項目を引用して使用する場合にも、同様の方法で数値化することができる。
【実施例
【0064】
<測定条件>
液体クロマトグラフ(Agilent HP1200、Agilent technologies社製)および質量分析装置(Q-TOF 6520、Agilent technologies社製)を用いて、次の条件で血清サンプルから得られた糖ペプチドを測定した。液体クロマトグラフのカラムは、イナートシルODS4(内径1.5mm,長さ100mm,粒径2μm)を用いた。溶離液には、A液:0.1%ギ酸水溶液、B液:0.1%ギ酸、90%アセトニトリル水溶液を使用した。溶離液は、40分間かけてB液比率を10%から56%まで直線的に変化させた後、さらに10分間B液比率を56%に維持した。カラムオーブン温度は40℃、流速は0.1ml/分とした。質量分析はネガティブモードとし、キャピラリーボルテージ:4000V、ネブライザーガス量:45psi、ドライガス10L/分(350℃)にて測定した。ペプチド同定を目的とした前記質量分析装置を用いたMSMS測定のコリジョンエネルギーは各ペプチドに応じて20eV~70eV間で最適化した。
【0065】
<ROC解析>
AUC(Area Under the Curve)値は次のように算出した。比較対象のサンプルを例えば2群(グループA(健常者群、本実施例においては非癌患者)と、グループB(患者群、本実施例においては卵巣癌患者群))に分け、AUC値算出の対象とするマーカーのカットオフ(閾値)を0から∞に変化させたときの感度(卵巣癌患者の陽性率)、及び1-特異度(非癌患者群の陰性率)をプロットし、ROCカーブを作成した。ROCカーブは、縦1×横1の正方形の中に描かれ、感度=1、特異度=1の場合(すなわち卵巣癌患者群を完全に非癌患者と識別できる場合)は左上の頂点を通る線となる。AUC(Area Under Curve)値とは、ROCカーブにより区切られた正方形の右下部分の面積のことである(感度=1、特異度=1のときにAUCは1となる)。
【0066】
<実施例1>
図7は、血清サンプルの内訳と用途を示す図である。患者の同意を得た上で入手した血清サンプルを以下のグループに分類した。
グループ1:健常者グループ(Non-EOC) 254名
グループ2:ステージ1卵巣癌グループ(EOC Stage I) 97名
グループ1のうち、152名分を学習処理に使用し(Non-EOC Training)、102名分を検証に使用した(Non-EOC Test)。また、グループ2のうち、58名分を学習処理に使用し(EOC Training)、39名分を検証に使用した(EOC Test)。
【0067】
次に各患者の血清20μLに対しトリクロロ酢酸10%を含むアセトン80μLを加えた後、12,000rpm、20分間、4℃で遠心分離機(ハイマックCT1、日立工機製)にて遠心分離し、タンパク質を沈殿させた。上清を除去後、沈殿物に尿素を含む変性剤(尿素0.4g、1Mトリス塩酸バッファー(pH8.5)500μL、0.1M EDTA水溶液50μL、1M TCEP水溶液20μL、水190μL)200μLを加え、タンパク質を変性後、ヨードアセトアミド45mgにより還元アルキル化を行った。変性剤、還元剤を除去後、トリプシンを添加してタンパク質をペプチド断片化し、そのペプチド断片を、上述の条件で、液体クロマトグラフィー(Agilent HP1200、Agilent technologies社製)・質量分析装置(Q-TOF 6520、Agilent technologies社製)(「LC-MS」とも呼ぶ)を用いて分析し、各血清に含まれる糖ペプチド断片の構造を解析した。図8は、測定された糖ペプチド断片のピーク強度の一例を示す図である。図8に示す表は、糖ペプチドの識別情報とピーク強度とを含む。そして、1712個の糖ペプチドピークを計算し、コントロール検体(卵巣癌患者10人の混合血清)のピークを1000として標準化を行った。
【0068】
次に、質量分析にて検出された糖ペプチドのピークを画像化した。まず、同じ検体を繰り返し測定し、そのCV値が30%以下であり、ピーク強度が1000以上のものを抽出した。また、癌患者の血清に含まれる1712個の糖ペプチドのピーク強度と、複数の健常人の血清を混合したコントロール検体のピーク強度とのピーク強度比を求め、各患者の各糖ペプチドの相対存在量を求めた。次に、1712個の糖ペプチドの相対存在量について主成分分析を実施し、主成分1と主成分2のローディング値を得た。図9は、主成分分析の結果を示す図である。
【0069】
1712個の糖ペプチドを、主成分1が大きい順にソートし、1グループを42個として42のグループに分類した。また、個々のグループの糖ペプチドのピーク強度を主成分2が大きい順にソートした。そして、表計算ソフトの1列目から42列目に主成分1に応じて分類された42のグループを割り当て、表計算ソフトの1行目から42行目に主成分2でソートされた糖ペプチドのピーク強度を割り当て、表計算ソフトの各セルをピーク強度に応じて着色した。具体的には、標準化されたピーク強度の範囲を14の区間に区切り、各区間に14階調の濃度のグレースケールの色を割り当てて着色した。図10は、作成された画像の一例を示す図である。
【0070】
<実施例2>
実施例1により作成した画像を「事前学習なしCNN(Alexnet)」を使い、学習させた。「事前学習なしCNN(Alexnet)」の構成はAlexnetのフレームワークのみ使用し、一切の事前学習(すなわちパラメータの最適化)を行っていないものである。学習用のサンプル(EOC58名分、及びNon-EOC152名分)を用いて深層学習を行った。また、作成されたモデルを用いて、検証用サンプル(EOC39名分、Non-EOC102名分)を判定させた。その結果、AUC0.853と、本発明の有用性が証明された。
【0071】
<判定支援システムの改良>
本発明の判定精度を更に向上させるべく、深層学習に使用する学習モデルを、事前学習ありのモデルに変更して実施して改良を試みた。
【0072】
<実施例3>
実施例1により作成した画像を、その後、事前学習済み畳み込みニューラルネットワークを使用して学習させたモデルによって、卵巣癌の判定を試みた。事前学習は、ImageNet LSVRC-2010コンテストにおける120万の高解像度画像を1000の異なるクラスに分類するものであり、画像には動物、花、食べ物などが含まれる。これらを学習した25層のAlexnetのうち23層はそのまま使用し、残り3層を初期化した。そして、実施例1により作成した画像を用いた学習(パラメータの最適化)は残り3層のみ行った。学習用のサンプル(EOC58名分、及びNon-EOC152名分)を用いて深層学習し、作成したモデルを用いて、検証用サンプル(EOC39名分、Non-EOC102名分)を判定させた。その結果、AUC値0.881を得た。
【0073】
<実施例4>
質量分析により検出された糖ペプチドの情報に加えて、卵巣癌マーカーとして知られているCA125及びHE4を組み合わせて、判定支援に使用した。使用した検体、対象となる患者グループ及び質量分析による測定、主成分分析、深層学習の方法及び判定までの手順について実施例1と同様にして行った。深層学習に使用する事前学習モデルは、実施例3で使用したものと同じものを使用した。
【0074】
卵巣癌マーカーであるCA125およびHE4は、CLIA法(LSIメディエンス社の血清検査)を用いてその濃度を測定した。CA125の濃度範囲を赤色256段階の各色調に対応させ、測定値を色に変換した。また、HE4の濃度範囲を同様に緑色256段階の各色調に対応させて、測定値を色に変換した。作成された画像データはCNNにて深層学習を行った。深層学習の方法と判定までの手順は実施例3と同様にして行われた。その結果、ROCは0.954を示し、CA125, HE4の情報を含まない実施例3に対し、有意に診断性能が向上した(図12,p<10-7)。なお、図12に示す棒グラフは、左から順に、実施例1-4の評価を表す。
【0075】
すなわち、本発明では、高精度で癌の有無の判定を実現できた。卵巣癌は、III期近くまでは何ら特有の症状はないことや、卵巣を超えて広がってはじめて種々の症状を呈することから、検出の難しい癌であるとされている。上記の本実施例において判定対象とされた対象者はいずれもI期の卵巣癌の患者であった。上述したように、卵巣癌は検出が難しい癌であるとされており、特に、集団検診において無症状の婦人から発見される頻度は1万人に1人(0.01%)とされているが、本発明においてI期の癌患者を高い精度で判定することが可能であったことから、臨床の現場において十分な判定精度を実現できたといえる。
【0076】
以上より、本発明を使用して、臨床の現場において十分な判定精度を有する判定支援システムであることが示された。
【0077】
<その他>
上述の実施形態および変形例は例示であり、本発明は上述した構成には限定されない。また、実施形態および変形例に記載した内容は、本発明の課題や技術的思想を逸脱しない範囲で可能な限り組み合わせることができる。
【0078】
また、本発明は、上述した処理を実行する方法やコンピュータプログラム、当該プログラムを記録した、コンピュータ読み取り可能な記録媒体を含む。当該プログラムが記録された記録媒体は、プログラムをコンピュータに実行させることにより、上述の処理が可能となる。
【0079】
ここで、コンピュータ読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータから読み取ることができる記録媒体をいう。このような記録媒体のうちコンピュータから取り外し可能なものとしては、フレキシブルディスク、光磁気ディスク、光ディスク、磁気テープ、メモリカード等がある。また、コンピュータに固定された記録媒体としては、HDDやSSD(Solid State Drive)、ROM等がある。
【符号の説明】
【0080】
1 血液(血清)
11 タンパク質(糖タンパク質)
12 ペプチド(糖ペプチド)
2 質量分析装置
21 マススペクトル
22 画像(並べ替え後のペプチド発現パターン)
23 学習済みモデル(分類器)
3 学習・判定支援装置
341、345 ピーク選択部
342、346 前処理部
343 深層学習部
344 モデル検証部
345 判定支援部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12