(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024108992
(43)【公開日】2024-08-13
(54)【発明の名称】推定装置及び学習装置
(51)【国際特許分類】
G16H 50/20 20180101AFI20240805BHJP
【FI】
G16H50/20
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2023048361
(22)【出願日】2023-03-24
(31)【優先権主張番号】63/442,115
(32)【優先日】2023-01-31
(33)【優先権主張国・地域又は機関】US
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.PYTHON
(71)【出願人】
【識別番号】504180239
【氏名又は名称】国立大学法人信州大学
(74)【代理人】
【識別番号】100165179
【弁理士】
【氏名又は名称】田▲崎▼ 聡
(74)【代理人】
【識別番号】100188558
【弁理士】
【氏名又は名称】飯田 雅人
(74)【代理人】
【識別番号】100175824
【弁理士】
【氏名又は名称】小林 淳一
(74)【代理人】
【識別番号】100152272
【弁理士】
【氏名又は名称】川越 雄一郎
(74)【代理人】
【識別番号】100181722
【弁理士】
【氏名又は名称】春田 洋孝
(72)【発明者】
【氏名】遠藤 守信
(72)【発明者】
【氏名】モレロス ゴメス アーロン
(72)【発明者】
【氏名】徳竹 康二郎
(72)【発明者】
【氏名】星 研一
【テーマコード(参考)】
5L099
【Fターム(参考)】
5L099AA04
5L099AA21
(57)【要約】
【課題】低コストで大腸ポリープの非侵襲的なスクリーニングを行う。
【解決手段】推定装置は、複数の人物に関する、アルブミンに関する情報及び肥満に関連する情報と、大腸ポリープの発生に関する情報と、を含む情報に基づいて予め得られた、大腸ポリープの発生に関する情報を推定するための推定モデルを記憶する記憶部と、対象者のアルブミンに関する情報及び肥満に関連する情報と、前記推定モデルと、に基づいて前記対象者の大腸ポリープの発生に関する情報を推定する推定部と、を備える。
【選択図】
図8
【特許請求の範囲】
【請求項1】
複数の人物に関する、アルブミンに関する情報及び肥満に関連する情報と、大腸ポリープの発生に関する情報と、を含む情報に基づいて予め得られた、大腸ポリープの発生に関する情報を推定するための推定モデルを記憶する記憶部と、
対象者のアルブミンに関する情報及び肥満に関連する情報と、前記推定モデルと、に基づいて前記対象者の大腸ポリープの発生に関する情報を推定する推定部と、
を備える推定装置。
【請求項2】
前記記憶部は、前記人物の年齢、性別及び体格を示す情報のうち少なくとも一つを含む属性情報に応じて、複数の推定モデルを記憶し、
前記推定部は、前記対象者の属性情報に応じた推定モデルに基づいて前記対象者の大腸ポリープの発生に関する情報を推定する、
請求項1に記載の推定装置。
【請求項3】
前記推定モデルのうち前記対象者の属性が女性である推定モデルは、クレアチニンに関する情報をさらに含む、
請求項2に記載の推定装置。
【請求項4】
前記推定モデルのうち前記対象者の属性が男性である推定モデルにおいて、前記肥満に関連する情報はウエストの長さに関する情報を含む、
請求項2に記載の推定装置。
【請求項5】
前記推定モデルは、アルブミンに関する情報及び肥満に関連する情報をそれぞれ2値化した値に基づいて得られる、
請求項1又は2に記載の推定装置。
【請求項6】
前記2値化した値は、各情報について定められた閾値に基づいて得られる、
請求項5に記載の推定装置。
【請求項7】
前記推定部は、アルブミンに関する情報及び肥満に関連する情報をそれぞれ2値化し、得られた値の合計と所定の閾値とに基づいて前記対象者の大腸ポリープの発生に関する情報を推定する、
請求項6に記載の推定装置。
【請求項8】
少なくとも血液から得られる情報を含む複数の情報と、大腸ポリープの発生に関する情報とが対応付けられた情報を教師データとして学習された推定モデルであって、大腸ポリープの発生に関する情報を推定するための推定モデルを記憶する記憶部と、
対象者の血液から得られる情報と、学習済みの前記推定モデルと、に基づいて前記対象者の大腸ポリープの発生に関する情報を推定する推定部と、
を備え、
前記推定モデルは、教師データに含まれる複数の情報の組み合わせごとに、感度及び特異度の差の絶対値を算出し、
前記推定部は、前記推定モデルにより算出された絶対値に応じて選択された情報に基づき、前記対象者の大腸ポリープの発生に関する情報を推定する
推定装置。
【請求項9】
前記推定モデルは、教師データに含まれる複数の情報の組み合わせごとに、更に、感度と、特異度と、マシュー相関係数とを算出し、
前記推定部は、更に、前記推定モデルにより算出された感度と、特異度と、マシュー相関係数とに基づき選択された情報に基づき、前記対象者の大腸ポリープの発生に関する情報を推定する
請求項8に記載の推定装置。
【請求項10】
前記推定モデルは、粒子群最適化(Particle Swarm Optimization:PSO)を行うことにより学習される
請求項9に記載の推定装置。
【請求項11】
少なくとも血液から得られる情報をパラメータとして含む複数のパラメータと、大腸ポリープの発生に関する情報とが対応付けられた情報を教師データとして、大腸ポリープの発生に関する情報を推定するための推定モデルを学習させるための学習装置であって、
教師データに含まれる複数のパラメータの組み合わせごとに、感度及び特異度の差の絶対値を算出し、
算出された絶対値に基づき、対象者の大腸ポリープの発生に関する情報の推定についての寄与率が高いパラメータを特定する
学習装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、推定装置及び学習装置に関する。
【背景技術】
【0002】
従来、大腸がんや大腸ポリープについての検査を行うため、大腸内視鏡検査が行われていた。大腸内視鏡検査では、患者の肛門から内視鏡が挿入され、大腸内部が観察される。検査中、ポリープ等の異常が見つかった場合は、組織検査や切除が行われる。そのため、大腸内視鏡検査には時間を要していた。更に、検査のため患者は検査前日から食事が制限される等、患者の負担も大きかった。また、患者は、肛門から内視鏡が挿入されるという検査の方法から、精神的な負担も大きかった。また、大腸内視鏡検査は、熟練の医師が特殊な医療機器を用いて行うものであり、検査自体もさほど容易でなかった。
【0003】
大腸内視鏡検査は患者及び医師の負担が大きいことから、現状、特段の自覚症状がない患者に対して大腸内視鏡検査が行われることは少ない。したがって、大腸ポリープの早期発見、処置や大腸がんの早期発見が難しいといった問題があった。一方、大腸がんによる死亡率は高く、大腸がんの早期発見が望まれている。そこで、大腸内視鏡検査が必要かどうかを判断するため、非侵襲的なスクリーニング方法が推奨されている。非侵襲的なスクリーニング方法の一例として、遺伝子解析を行うことによる方法が提案されている(例えば、特許文献1を参照)。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上述したような遺伝子解析を行うにはコストを要するといった課題があった。
【0006】
このような事情に鑑み、本発明は、低コストで大腸ポリープの非侵襲的なスクリーニングを行うことが可能な推定装置及び学習装置の提供を目的とする。
【課題を解決するための手段】
【0007】
[1]本発明の一態様は、複数の人物に関する、アルブミンに関する情報及び肥満に関連する情報と、大腸ポリープの発生に関する情報と、を含む情報に基づいて予め得られた、大腸ポリープの発生に関する情報を推定するための推定モデルを記憶する記憶部と、対象者のアルブミンに関する情報及び肥満に関連する情報と、前記推定モデルと、に基づいて前記対象者の大腸ポリープの発生に関する情報を推定する推定部と、を備える推定装置である。
【0008】
[2]また、本発明の一態様は、上記[1]に記載の推定装置において、前記記憶部は、前記人物の年齢、性別及び体格を示す情報のうち少なくとも一つを含む属性情報に応じて、複数の推定モデルを記憶し、前記推定部は、前記対象者の属性情報に応じた推定モデルに基づいて前記対象者の大腸ポリープの発生に関する情報を推定するものである。
【0009】
[3]また、本発明の一態様は、上記[2]に記載の推定装置において、前記推定モデルのうち前記対象者の属性が女性である推定モデルは、クレアチニンに関する情報をさらに含むものである。
【0010】
[4]また、本発明の一態様は、上記[2]に記載の推定装置において、前記推定モデルのうち前記対象者の属性が男性である推定モデルにおいて、前記肥満に関連する情報はウエストの長さに関する情報を含むものである。
【0011】
[5]また、本発明の一態様は、上記[2]から[4]のいずれかに記載の推定装置において、前記推定モデルは、アルブミンに関する情報及び肥満に関連する情報をそれぞれ2値化した値に基づいて得られるものである。
【0012】
[6]また、本発明の一態様は、上記[5]に記載の推定装置において、前記2値化した値は、各情報について定められた閾値に基づいて得られるものである。
【0013】
[7]また、本発明の一態様は、上記[6]に記載の推定装置において、前記推定部は、アルブミンに関する情報及び肥満に関連する情報をそれぞれ2値化し、得られた値の合計と所定の閾値とに基づいて前記対象者の大腸ポリープの発生に関する情報を推定するものである。
【0014】
[8]また、本発明の一態様は、少なくとも血液から得られる情報を含む複数の情報と、大腸ポリープの発生に関する情報とが対応付けられた情報を教師データとして学習された推定モデルであって、大腸ポリープの発生に関する情報を推定するための推定モデルを記憶する記憶部と、対象者の血液から得られる情報と、学習済みの前記推定モデルと、に基づいて前記対象者の大腸ポリープの発生に関する情報を推定する推定部と、を備え、前記推定モデルは、教師データに含まれる複数の情報の組み合わせごとに、感度及び特異度の差の絶対値を算出し、前記推定部は、前記推定モデルにより算出された絶対値に応じて選択された情報に基づき、前記対象者の大腸ポリープの発生に関する情報を推定する推定装置である。
【0015】
[9]また、本発明の一態様は、上記[8]に記載の推定装置において、前記推定モデルは、教師データに含まれる複数の情報の組み合わせごとに、更に、感度と、特異度と、マシュー相関係数とを算出し、前記推定部は、更に、前記推定モデルにより算出された感度と、特異度と、マシュー相関係数とに基づき選択された情報に基づき、前記対象者の大腸ポリープの発生に関する情報を推定するものである。
【0016】
[10]また、本発明の一態様は、上記[9]に記載の推定装置において、前記推定モデルは、粒子群最適化(Particle Swarm Optimization:PSO)を行うことにより学習されるものである。
【0017】
[11]また、本発明の一態様は、少なくとも血液から得られる情報をパラメータとして含む複数のパラメータと、大腸ポリープの発生に関する情報とが対応付けられた情報を教師データとして、大腸ポリープの発生に関する情報を推定するための推定モデルを学習させるための学習装置であって、教師データに含まれる複数のパラメータの組み合わせごとに、感度及び特異度の差の絶対値を算出し、算出された絶対値に基づき、対象者の大腸ポリープの発生に関する情報の推定についての寄与率が高いパラメータを特定する学習装置である。
【発明の効果】
【0018】
本発明によれば、低コストで大腸ポリープの非侵襲的なスクリーニングを行うことが可能な推定装置及び学習装置を提供することができる。
【図面の簡単な説明】
【0019】
【
図1】本実施形態に係る推定方法の一例を示すフローチャートである。
【
図2】本実施形態に係る推定方法のうち、AUC、MCC、及び最小SSの3つの異なる指標を用いて最適化された推定モデルの一例について示す図である。
【
図3】本実施形態に係る推定方法を用いて推定される確率分布について、性別ごとの差異を説明するための図である。
【
図4】本実施形態に係る推定モデルの最適化後、選択された女性の特徴としきい値について示す図である。
【
図5】本実施形態に係る推定モデルの最適化後、選択された男性の特徴としきい値について示す図である。
【
図6】本実施形態に係る推定モデルが用いる特徴について、性別ごとの要因の重要性を示す図である。
【
図7】本実施形態に係る推定モデルについて性別ごとの予測性能について比較するための図である。
【
図8】本実施形態に係る推定装置の機能構成の一例について示す図である。
【
図9】本実施形態に係る推定装置により用いられる特徴について示す図である。
【
図10】本実施形態に係る複数の推定モデルについて示す図である。
【
図11】本実施形態に係る学習装置の機能構成の一例について示す図である。
【
図12】本実施形態に係る推定装置及び学習装置の内部構成の一例を示すブロック図である。
【発明を実施するための形態】
【0020】
以下、本発明の態様に係る推定装置及び学習装置について、好適な実施の形態を掲げ、添付の図面を参照しながら詳細に説明する。なお、本発明の態様は、これらの実施の形態に限定されるものではなく、多様な変更または改良を加えたものも含まれる。つまり、以下に記載した構成要素には、当業者が容易に想定できるもの、実質的に同一のものが含まれ、以下に記載した構成要素は適宜組み合わせることが可能である。また、本発明の要旨を逸脱しない範囲で構成要素の種々の省略、置換または変更を行うことができる。また、以下の図面においては、各構成をわかりやすくするために、各構造における縮尺および数等を、実際の構造における縮尺および数等と異ならせる場合がある。
【0021】
[従来技術の問題点]
まず、従来技術の問題点について説明する。大腸がん(CRC;ColoRectal Cancer)は、現代のがん関連死における主要な原因の1つとなっている。以下の説明において、大腸がんと記載する場合は、結腸がん及び直腸がんを含む。大腸がんを早期発見するため、定期的なスクリーニング検査が推奨されている。大腸がんをスクリーニングするための検査として、便を視覚的に検査する方法が知られている。便を視覚的に検査する方法の一例としては、免疫便潜血検査(FIT;fecal immunochemi-cal testing)が知られている。免疫便潜血検査においては、便中のヒトヘモグロビンの存在に基づいた判定が行われる。一方、免疫便潜血検査における感度と特異度には、かなりのばらつきが存在することが知られている。
【0022】
また、免疫便潜血検査において陽性と判定される状態、すなわち便中に血液が混ざっている状態では、既に大腸がんが進行している可能性がある。したがって、免疫便潜血検査において陽性と判定される前における、より早期の状態(すなわち、大腸ポリープが癌化する前における状態)において、大腸ポリープの発生を早期発見することが求められている。
【0023】
一方、大腸内視鏡検査を行うことにより、大腸内に存在するポリープを発見することが可能である。しかしながら、大腸内視鏡検査を行う場合、患者は検査前日から食事が制限される等の事前準備が必要となる。患者の事前準備が十分でないと、医師が大腸内を正確に観察することができず、大腸がんや大腸ポリープを見逃してしまう可能性がある。実際、大腸内視鏡検査では最大26%見逃されてしまっているという報告もあるのが現状である。また、患者は、肛門から内視鏡が挿入されるという検査の方法から、精神的な負担も大きい。精神的な負担が大きいため、未だ大腸がんが存在するか否か分からない状態で大腸内視鏡検査を行うことについての心理的ハードルが高く、臨床現場での早期発見が妨げられていた。
【0024】
更に、大腸内視鏡検査は、熟練の医師が特殊な医療機器を用いて行うものである。大腸内視鏡検査に用いられる医療機器は高価であり、現場への導入が必ずしも容易でない。特に、発展途上国等では、大腸内視鏡検査に用いられる医療機器の導入が難しく、医師の熟練度などもあって発展途上国において大腸内視鏡検査を行うことは容易でなかった。
【0025】
大腸がんの有無を精度よく判定するための手法の一例として、近年、人工知能(AI)による様々な検査方法が考案されている。人工知能によるスクリーニング検査では、熟練の医師及び大腸ポリープの存在を判断するための特殊な医療機器の導入にかかる費用を抑止することができる。また、人工知能は画像分類に優れているため、高精度で大腸ポリープの存在を検出することができる。しかしながら、大腸内の画像を取得するためには、依然として従来の大腸内視鏡検査を行う必要がある。したがって、そもそも大腸内の画像を取得不可能な医療現場において、大腸がんのスクリーニング検査は容易でなく、大腸内視鏡検査を用いることのないスクリーニング検査が望まれている。
【0026】
そこで、本実施形態においては、大腸内視鏡検査を行うことなく、すなわち非侵襲的な医療データを使用して、大腸がんの前癌病変ともなる大腸ポリープのスクリーニング検査を行う。
【0027】
[実施形態]
本実施形態がスクリー二ングに用いる非侵襲的な医療データの一例としては、CRC組織、尿、血液、及び患者の属性等を例示することができる。患者の属性としては、患者の年齢、性別、ウエスト、BMI値及び飲酒頻度等を例示することができる。なお、本実施形態はこの一例に限定されず、大腸内視鏡検査による検査画像以外の非侵襲的な医療データを広く用いることが可能である。
【0028】
図1は、本実施形態に係る推定方法の一例を示すフローチャートである。同図を参照しながら、本実施形態に係る推定方法の一例について説明する。本実施形態においては、複数の特徴を用いた判定が行われる。
【0029】
まず、判定対象となる複数の特徴が取得される。判定対象となる複数の特徴とは、例えば、対象者の年齢、性別、体格を示す情報(例えば、BMI等)、肥満に関連する情報、アルブミンに関する情報、飲酒頻度に関する情報、及び喫煙の有無に関する情報等であってもよい。本実施形態によれば、これら複数の特徴のうちいずれかを選択し、選択された特徴について判定を行っていく。そして、判定対象となる複数の特徴のうち、残りの特徴が3以上であるか否かが判定される(ステップS110)。残りの特徴が3以上である場合(すなわち、ステップS110;YES)、処理がステップS120に進められる。換言すれば、残りの特徴が3以下となるまで、ステップS120乃至ステップS15の処理が繰り返される。残りの特徴が3以上でない場合(すなわち、ステップS110;NO)、処理がステップS160に進められる。
【0030】
次に、選択された特徴について、教師データから外れ値を除去する処理が行われる(ステップS120)。外れ値を除去する処理には、例えばデータの分散に基づき、スミルノフ・グラブス検定や、四分位範囲(IQR)等の既知の方法が用いられてもよい。次に、外れ値が除去された教師データに基づき、推定モデルの学習が行われる。当該学習は、粒子群最適化法(PSO:Particle Swarm Optimization)により行われてもよい。また、粒子群最適化法により、外れ値が除去された後の各特長について、閾値の最適化が行われる。
【0031】
次に、最適化された閾値が取得される。更に、取得された閾値と、検証用のデータが用いられ、評価が行われる(ステップS140)。その後、最適な特徴が選択され、追加される(ステップS150)。追加された最適な特徴は、次の反復のために(すなわち、ステップS110においてNOとなるまで)保持される。
【0032】
ステップS120乃至ステップS15の処理が繰り返された結果、残りの特徴が3以上でなくなった場合(すなわち、ステップS110;NO)、最適な指標を有する推定モデルが選択され、テストデータを用いた評価が行われる(ステップS160)。また、目標指数に応じて、最適なモデルが選択される(ステップS170)。
【0033】
図2は、本実施形態に係る推定方法のうち、AUC、MCC、及び最小SSの3つの異なる指標を用いて最適化された推定モデルの一例について示す図である。
図2(A)乃至
図2(D)は、女性についてのデータを示し、
図2(E)乃至
図2(H)は、男性についてのデータを示す。本実施形態に係る推定モデルは、AUC(Area Under the Curve)、MCC(マシューズ相関係数)、及び感度と特異度の間の最小値(Min SS)の3つの異なる指標を用いて最適化される。
図2(A)乃至
図2(H)の横軸は、34個の特徴を示している。また、
図2(A)及び
図2(E)の縦軸は感度を示している。また、
図2(B)及び
図2(F)の縦軸は特異度を示している。また、
図2(C)及び
図2(G)の縦軸はMCCを示している。また、
図2(D)及び
図2(H)の縦軸は感度及び特異度の差の絶対値を示している。
【0034】
図示するように、AUCの最大値とMCCの最大値が観察されたとき、感度と特異度の差は大きいことが分かる。また、Min SSを最適化ターゲットとして選択することにより、AUCやMCCを最適化ターゲットとして使用するよりも、高い予測性能と、感度と特異度とのバランスを達成することができる。したがって、Min SSを最適化ターゲットとすることが好適である。以下の説明においては、Min SSを最適化ターゲットとして取得した推定モデルについて説明する。
【0035】
図3は、本実施形態に係る推定方法を用いて推定される確率分布について、性別ごとの差異を説明するための図である。
図3(A)乃至
図C(D)は、女性についてのデータを示し、
図3(D)乃至
図3(F)は、男性についてのデータを示す。
図3(A)及び
図3(D)は、横軸が特異度であり、縦軸が感度である。すなわち、
図3(A)及び
図3(D)は、特異度と感度の対応関係を示すものであり、動作特性曲線ということもできる。
図3(B)及び
図3(E)は、大腸ポリープを有する患者と有しない患者についての確率分布を示す。
図3(B)及び
図3(E)の横軸は確率であり、縦軸はカウント数である。
図3(C)及び
図3(F)は、本実施形態に係る推定モデルの性能を可視化するための混同行列である。
【0036】
図4は、本実施形態に係る推定モデルの最適化後、選択された女性の特徴としきい値について示す図である。同図には、女性について推定モデルの最適化後に選択された特徴と、当該特徴に対応する閾値と、当該特徴に割り当てられたバイナリ値とを示す。0は、ポリープ発生の確率が低いことを示し、1は、ポリープ発生の確率が高いことを示す。図示するように、女性については、BMI[kg/m^2]、Albumin/globulin Ratio(アルブミン/グロブリン比)及びクレアチニン(Creatinine)[mg/dL]の3個の特徴が選択された。
【0037】
BMIについての閾値は、24.77[kg/m^2]であり、閾値より低い場合は0であり、閾値より高い場合は1である。Albumin/globulin Ratioの閾値は、1.40であり、閾値より低い場合は1であり、閾値より高い場合は0である。クレアチニンの閾値は、0.50[mg/dL]であり、閾値より低い場合は0であり、閾値より高い場合は1である。
【0038】
図5は、本実施形態に係る推定モデルの最適化後、選択された男性の特徴としきい値について示す図である。男性について推定モデルの最適化後に選択された特徴と、当該特徴に対応する閾値と、当該特徴に割り当てられたバイナリ値とを示す。0は、ポリープ発生の確率が低いことを示し、1は、ポリープ発生の確率が高いことを示す。図示するように、男性については、Waist(ウエスト)[cm]、Age(年齢)[years]、Albumin(アルブミン)[g/dL]、Uric acid(尿酸)[mg/dL]、Blood urea nitrogen(血中尿素窒素)[mg/dL]、Systolic blood pressure(収縮期血圧)[mm Hg]、Lactate dehydrogenase(乳酸脱水素酵素)[U/L]、MCV(平均赤血球容積)[fl]、BMI[kg/m^2]、Gamma-glutamyl transpeptidase(γ-グルタミルトランスフェラーゼ)[U/L]の10個の特徴が選択された。
【0039】
Waistについての閾値は、81.93[cm]であり、閾値より低い場合は0であり、閾値より高い場合は1である。Ageについての閾値は、51.82[years]であり、閾値より低い場合は0であり、閾値より高い場合は1である。Albuminについての閾値は、3.89[g/dL]であり、閾値より低い場合は1であり、閾値より高い場合は0である。Uric acidについての閾値は、8.55[mg/dL]であり、閾値より低い場合は0であり、閾値より高い場合は1である。Blood urea nitrogenについての閾値は、7.90[mg/dL]であり、閾値より低い場合は0であり、閾値より高い場合は1である。Systolic blood pressureについての閾値は、184.8[mm Hgであり]、閾値より低い場合は0であり、閾値より高い場合は1である。Lactate dehydrogenaseについての閾値は、294.8[U/L]であり、閾値より低い場合は1であり、閾値より高い場合は0である。MCVについての閾値は、84[fl]であり、閾値より低い場合は1であり、閾値より高い場合は0である。BMIについての閾値は、16.5[kg/m^2]であり、閾値より低い場合は0であり、閾値より高い場合は1である。Gamma-glutamyl transpeptidaseについての閾値は、10[U/L]であり、閾値より低い場合は0であり、閾値より高い場合は1である。
【0040】
ここで、男性について推定モデルの最適化後に選択された特徴は、肥満、年齢、赤血球、肝臓と腎臓の機能に関連していることが分かる。また、ウエストとBMIという相関する特徴についても選択されていることが分かる。これは、肥満が男性の高リスク因子であることを示唆している。
【0041】
図6は、本実施形態に係る推定モデルが用いる特徴について、性別ごとの重要性を示す図である。同図の縦軸には各特長を、横軸には重要度を示す。重要度は、SHapley Additive expPlanations(SHAP)値の平均として推定されたものである。
図6(A)は、女性についてのデータを示し、
図6(B)は、男性についてのデータを示す。
【0042】
同図から、女性及び男性の両方において、アルブミンおよび肥満関連の特徴が重要であることが分かる。ここで、アルブミン及びアルブミン/グロブリン比は、腫瘍の成長によって誘発される可能性のある炎症に関連していることが知られている。さらに、肥満は、脂肪量がアディポネクチンに反比例することが報告されているため、ポリープ発生のリスクの高い指標であることが分かる。アディポネクチンは、ポリープの成長に影響を与える可能性のある炎症と、インスリン抵抗性の増加とを調節するのに役立つ可能性がある。女性において選択されたもう1つの機能はクレアチニンであり、飲酒や喫煙の多い女性や、年配の女性は、クレアチニンが上昇する可能性があることがわかっている。また、年齢は男性で2番目に重要な特徴である。これらの要因は、大腸ポリープの発生に関連している。
【0043】
図7は、本実施形態に係る推定モデルについて性別ごとの予測性能について比較するための図である。同図には、免疫便潜血検査(FIT;Fecal Immunochemical Testing)と、本実施形態に係る推定装置及び学習装置を用いた推定結果(This work)との予測性能の差を示す。予測性能を比較するための指標として、感度(Sensitivity)、特異度(Specificity)、およびマシュー相関係数(Mathew)を用いる。
図7(A)は、女性についてのデータを示し、
図7(B)は、男性についてのデータを示す。
【0044】
ここで、FITは、患者が大腸内視鏡検査を受ける必要があるかどうかを判断するための非侵襲的スクリーニングツールとして現状広く使用されている。図示するように、男女ともに、本実施形態に係る推定装置及び学習装置を用いた推定結果が、FITによる推定結果を上回っていることは明らかである。特に、感度と特異度のバランスにおいて、本実施形態に係る推定装置及び学習装置を用いた推定結果が優れているということができる。また、大腸内視鏡検査では、5[mm]以下の小さなポリープが見逃されてしまう可能性がある。一方、図示する比較結果においては、任意のサイズのポリープを持つ患者が含まれていることを考慮すると、本実施形態に係る推定装置及び学習装置を用いた推定結果は、5[mm]程度の小さなポリープを持つ患者、又は更に小さいポリープを持つ患者を予測できる可能性がある。
【0045】
[機能構成]
次に、
図8から
図12を参照しながら、本実施形態に係る推定装置及び学習装置の機能構成の一例について説明する。
【0046】
図8は、本実施形態に係る推定装置の機能構成の一例について示す図である。同図を参照しながら、推定装置10の機能構成の一例について説明する。同図を参照しながら行う説明は、本実施形態に係る推定方法についての、推論段階における説明ということもできる。推定装置10は、記憶部11と、対象者情報取得部12と、推定部13と、出力部14とを備える。これらの各機能部は、例えば、電子回路を用いて実現される。また、各機能部は、必要に応じて、半導体メモリや磁気ハードディスク装置などといった記憶手段を内部に備えてよい。また、各機能を、コンピュータおよびソフトウェアによって実現するようにしてもよい。
【0047】
記憶部11は、大腸ポリープの発生に関する情報を推定するための推定モデル111を記憶する。推定モデル111は、“教師有り学習”により予め学習された学習済みモデルである。推定モデル111は、複数の人物に関する特徴と、当該人物における大腸ポリープの発生に関する情報とに基づいて予め学習される。複数の人物に関する特徴の具体例としては、アルブミンに関する情報、及び肥満に関連する情報等を例示することができる。複数の人物に関する特徴の具体例として、より具体的には、大腸内視鏡検査を行うことなく得られる情報であって、大腸ポリープの発生の予測のために用いられる情報、少なくとも血液から得られる情報が含まれていることが好適である。換言すれば、推定モデル111は、少なくとも血液から得られる情報を含む複数の情報と、大腸ポリープの発生に関する情報とが対応付けられた情報を教師データとして学習されるということもできる。
【0048】
対象者情報取得部12は、大腸ポリープの発生に関する情報の推定対象となる対象者についての情報である対象者情報を取得する。対象者情報は、推定モデル111の学習に用いられた特徴であることが好適である。対象者情報の一例としては、アルブミンに関する情報、及び肥満に関連する情報等を例示することができる。対象者情報の一例として、より具体的には、大腸内視鏡検査を行うことなく得られる情報であって、大腸ポリープの発生の予測のために用いられる情報、少なくとも血液から得られる情報が含まれていることが好適である。
【0049】
推定部13は、記憶部11から推定モデル111を取得し、対象者情報取得部12から対象者情報を取得する。推定部13は、取得した対象者情報と、学習済みの推定モデル111とに基づいて、対象者の大腸ポリープの発生に関する情報を推定する。対象者情報には、対象者の血液から得られる情報が少なくとも含まれている。すなわち推定部13は、対象者の血液から得られる情報と、学習済みの推定モデル111とに基づいて、対象者の大腸ポリープの発生に関する情報を推定するということができる。より具体的には、推定部13は、取得した情報、すなわち対象者のアルブミンに関する情報及び肥満に関連する情報と、推定モデル111と基づいて、対象者の大腸ポリープの発生に関する情報を推定することが好適である。
【0050】
出力部14は、推定部13により推定された対象者の大腸ポリープの発生に関する情報を、所定の方法により出力する。出力部14は、パーソナルコンピューターやタブレット端末等の情報機器等に、推定部13により推定された対象者の大腸ポリープの発生に関する情報を出力してもよい。
【0051】
ここで、上述した説明において、アルブミン及び肥満関連の特徴が重要であることについて説明した。本実施形態においては、これらの特徴の組み合わせごとに感度及び特異度の差の絶対値を算出することにより、推論を行ってもよい。すなわち、推定モデル111は、教師データに含まれる複数の情報の組み合わせごとに、感度及び特異度の差の絶対値を算出することが好適である。この場合、推定部13は、推定モデル111により算出された絶対値に応じて選択された情報に基づき、対象者の大腸ポリープの発生に関する情報を推定する。
【0052】
また、上述した説明において、感度と、特異度と、マシュー相関係数とを用いた推論について説明した。推定モデル111は、教師データに含まれる複数の情報の組み合わせごとに、更に、感度と、特異度と、マシュー相関係数とを算出し、推定部13は、更に、推定モデル111により算出された感度と、特異度と、マシュー相関係数とに基づき選択された情報に基づき、対象者の大腸ポリープの発生に関する情報を推定してもよい。
【0053】
図9は、本実施形態に係る推定装置により用いられる特徴について示す図である。同図には、本実施形態において用いられる特徴が示されている。具体的には、Age(年齢)、Alanine aminotransferase(アラニンアミノ基転移酵素)、Albumin(アルブミン)、Albumin/globulin Ratio(アルブミン/グロブリン比)、Alcohol drinking frequency(飲酒頻度)、Alcohol drinking mass(飲酒量)、Alkaline phosphatase level(アルカリホスファターゼレベル)、Amylase(アミラーゼ)、Aspartate aminotransferase(アスパラギン酸アミノトランスフェラーゼ)、Blood urea nitrogen(血中尿素窒素)、BMI、Creatinine(クレアチニン)、C-reactive Protein(C反応性蛋白質)、Diastolic blood pressure(拡張期血圧)、Gamma―glutamyl transpeptidase(γ-グルタミルトランスペプチダーゼ)、Height(身長)、Hematocrit(ヘマトクリット)、Hemoglobin(ヘモグロビン)、Hemoglobin A1c(ヘモグロビンA1c)、High density lipoprotein(高密度リポタンパク質)、Lactate dehydrogenase(乳酸脱水素酵素)、Low-density lipoprotein(低密度リポタンパク質)、Mean corpuscular hemoglobin(平均赤血球ヘモグロビン)、Mean corpuscular hemoglobin concentration(平均赤血球ヘモグロビン濃度)、Mean corpuscular volume(平均赤血球容積)、Platelet count(血小板数)、Red blood cell count(赤血球数)、Smoking(喫煙)、Systolic blood pressure(収縮期血圧)、Total bilirubin(総ビリルビン)、Total cholesterol(総コレステロール)、Total protein(総タンパク質)、Triglyceride(中性脂肪)、Uric acid(尿酸)、Waist(ウエスト)、Weight(体重)、White blood cell count(白血球数)が示されている。
【0054】
本実施形態に係る推定モデル111は、同図に示したような各特徴を2値化することにより構築される。各特徴について、所定の閾値が適用され、データが閾値よりも低いか高いかに基づき、それぞれ0または1に二値化される。二値化される情報には、少なくとも、アルブミンに関する情報及び肥満に関連する情報が含まれる。すなわち、推定モデル111は、アルブミンに関する情報及び肥満に関連する情報をそれぞれ2値化した値に基づいて得られるということもできる。2値化した値は、各情報について定められた閾値に基づいて得られる。また、推定部13は、アルブミンに関する情報及び肥満に関連する情報をそれぞれ2値化し、得られた値の合計と所定の閾値とに基づいて、対象者の大腸ポリープの発生に関する情報を推定するということもできる。推定部13は、二値化された全ての特徴の合計を演算し、合計の平均値を、二値化の閾値とは異なる閾値と比較することにより、対象者の大腸ポリープ発生率が陽性か陰性かを予測する。
【0055】
図10は、本実施形態に係る複数の推定モデルについて示す図である。同図を参照しながら、上述した推定モデル111の具体例について説明する。推定モデル111には、複数の推定モデルが含まれる。図示する一例においては、推定モデル111には、第1推定モデル111-1と、第2推定モデル111-2と、…と、第n推定モデル111-n撮が含まれる(nは1以上の自然数)。これら複数の推定モデルは、性別等に代表される対象者の属性に応じて用意される。本実施形態においては、性別等に代表される対象者の属性に応じて、複数の推定モデルのうち、好適な推定モデルが選択されることが好適である。なお、推定モデル111に、性別のみに応じた推定モデルが含まれる場合、推定モデル111は、男性用の第1推定モデル111-1と、女性用の第2推定モデル111-2とを含んでいてもよい。推定モデル111は、性別の他、人物の年齢や、体格を示す情報等に応じた複数の推定モデルを含んでいることが好適である。
【0056】
より具体的には、記憶部11は、人物の年齢、性別及び体格を示す情報のうち少なくとも一つを含む属性情報に応じて、複数の推定モデルを記憶していることが好適である。この場合、推定部13は、対象者の属性情報に応じた推定モデルに基づいて、対象者の大腸ポリープの発生に関する情報を推定する。推定モデル111は、性別ごとに異なる情報が含まれていてもよい。推定モデル111に含まれる複数の推定モデルのうち、対象者の属性が女性である推定モデルは、クレアチニンに関する情報をさらに含んでいることが好適である。また、推定モデル111に含まれる複数の推定モデルのうち、対象者の属性が男性である推定モデルは、肥満に関連する情報はウエストの長さに関する情報を含んでいることが好適である。
【0057】
図11は、本実施形態に係る学習装置の機能構成の一例について示す図である。同図を参照しながら、学習装置20の機能構成の一例について説明する。同図を参照しながら行う説明は、本実施形態に係る推定方法についての、学習段階における説明ということもできる。学習装置20は、少なくとも血液から得られる情報をパラメータとして含む複数のパラメータと、大腸ポリープの発生に関する情報とが対応付けられた情報を教師データとして、大腸ポリープの発生に関する情報を推定するための推定モデルを学習させるための学習装置である。学習装置20は、教師データ記憶部21と、推定モデル22とを備える。これらの各機能部は、例えば、電子回路を用いて実現される。また、各機能部は、必要に応じて、半導体メモリや磁気ハードディスク装置などといった記憶手段を内部に備えてよい。また、各機能を、コンピュータおよびソフトウェアによって実現するようにしてもよい。
【0058】
教師データ記憶部21は、学習に用いられる教師データを記憶する。本実施形態において、具体的には、長野赤十字病院に通院した1003人の患者についてのデータを正式な許可を得て用いた。年齢は24歳から90歳であり、平均年齢は60.4歳であった。そのうち男性が60.9%であり、女性が39.1%であった。健康診断と大腸内視鏡検査の間の平均時間は74日であり、平均離脱時間は555秒であった。観察されたポリープの最大直径が記録され、研究には悪性ポリープと良性ポリープの両方が含まれていた。ポリープのうち、1.3%が浸潤癌であり、大きさについて、10mm以上が8%、8mm以上が11.3%、6mm以上が20.9%、1mm以上が54.5%であった。
【0059】
学習装置20は、教師データ記憶部21に記憶された教師データを、推定モデル22に入力することにより、推定モデル22を学習させる。具体的には、推定モデル22は、粒子群最適化(Particle Swarm Optimization:PSO)を行うことにより学習される。推定モデル22とは、すなわち推論段階における推定モデル111である。ここで学習装置20は、教師データに含まれる複数のパラメータの組み合わせごとに、感度及び特異度の差の絶対値を算出し、算出された絶対値に基づき、対象者の大腸ポリープの発生に関する情報の推定についての寄与率が高いパラメータを特定する。このように、寄与率が高いパラメータを特定することにより、推論段階において、少ないパラメータを用いて精度の良い測定を行うことが可能となる。
【0060】
なお、本実施形態に係る学習装置の学習段階において用いられたデータは、病院において収集された。CRCの22症例(14の浸潤癌と8の粘膜癌)が特定されたため、浸潤癌の感度を正確に推定することは困難であった。糖尿病、結腸直腸腺腫、以前の大腸内視鏡検査のデータなどの病歴だけでなく、初めて大腸内視鏡検査を受けた患者のより大きなデータセットを使用することで、本実施形態に係る推定装置及び学習装置が用いる推定モデルをより強化できる可能性がある。
【0061】
より詳細には、この研究では、2015年から2022年の間に長野赤十字病院で最後に健康診断を受けてから、1年以内に健康診断と大腸内視鏡検査を受けた1003人の患者のデータが正式の許可を得て用いられた。FIT検査で陽性の結果が得られた場合でも、患者は大腸内視鏡検査を受けるように勧められたケースもある。ただし、FITが陰性の場合、患者は大腸内視鏡検査を受けることを選択した。他の患者は、腹部症状などのさまざまな理由で、健康診断の数か月後に大腸内視鏡検査を受けたケースも存している。
【0062】
なお、研究に参加した患者は全員20歳以上であった。ただし、家族性腺腫性ポリポーシス、結腸直腸手術またはCRCの既往歴、リンチ症候群、または結腸内視鏡検査の禁忌を有する患者は除外された。
【0063】
大腸内視鏡検査は、長野赤十字病院消化器内科の熟練した消化器内科医によって行われた。すべての患者は、大腸内視鏡検査を受けた日と同じ日に、大腸内視鏡検査の準備が行われた。各大腸内視鏡検査医は、スコープを引き出すのに6分以上を費やした。大腸内視鏡検査医は、腫瘍性および非腫瘍性病変を含む詳細な所見を標準的な症例報告書に報告した。すべての大腸内視鏡検査医は、検査の範囲を詳述し、ボストン腸準備スケールで準備の質を評価し、病変のサイズと位置を記録しました。ポリープのサイズは、最大の観察結果として記録され、最小値は1[mm]であった。
【0064】
本研究は、長野赤十字病院の治験審査委員会によって正式に承認された(承認番号:2018―155)。大腸内視鏡検査の前に、すべての被験者は、データを匿名で公開することに同意する書面によるインフォームドコンセントフォームに署名し、研究をオプトアウトするオプションが与えられた。
【0065】
患者のプライバシーを保護するために、すべてのデータは匿名で扱われた。総コレステロール値と身長値が欠落している患者のデータは破棄された。
図9に示した合計37の特徴が使用された。アルコール消費量と頻度、および喫煙に関する特徴は、0から1の間の値にエンコードされた。初期データは性別で分割された。
【0066】
分析では、総データの20%が検証に使用され、残りがモデルの最適化に使用された。本実施形態において、最初にランダムな特徴が選択され、次に、外れ値データが破棄された。その後、推定モデルにより、PSO法を使用してデータを2値化するための閾値が最適化された。データセットは、合成マイノリティオーバーサンプリング手法が使用され、各PSOイテレーション全体のポリープ発生率に基づいて、バランスを取った。
【0067】
図12は、本実施形態に係る推定装置10及び学習装置20の内部構成の一例を示すブロック図である。推定装置10及び学習装置20それぞれの少なくとも一部の機能は、コンピュータを用いて実現され得る。図示するように、そのコンピュータは、中央処理装置901と、RAM902と、入出力ポート903と、入出力デバイス904や905等と、バス906と、を含んで構成される。コンピュータ自体は、既存技術を用いて実現可能である。中央処理装置901は、RAM902等から読み込んだプログラムに含まれる命令を実行する。中央処理装置901は、各命令にしたがって、RAM902にデータを書き込んだり、RAM902からデータを読み出したり、算術演算や論理演算を行ったりする。RAM902は、データやプログラムを記憶する。RAM902に含まれる各要素は、アドレスを持ち、アドレスを用いてアクセスされ得るものである。なお、RAMは、「ランダムアクセスメモリー」の略である。入出力ポート903は、中央処理装置901が外部の入出力デバイス等とデータのやり取りを行うためのポートである。入出力デバイス904や905は、入出力デバイスである。入出力デバイス904や905は、入出力ポート903を介して中央処理装置901との間でデータをやりとりする。バス906は、コンピュータ内部で使用される共通の通信路である。例えば、中央処理装置901は、バス906を介してRAM902のデータを読んだり書いたりする。また、例えば、中央処理装置901は、バス906を介して入出力ポートにアクセスする。
【0068】
[実施形態のまとめ]
以上説明した実施形態によれば、推定装置10は、記憶部11を備えることにより、複数の人物に関する、アルブミンに関する情報及び肥満に関連する情報と、大腸ポリープの発生に関する情報と、を含む情報に基づいて予め得られた、大腸ポリープの発生に関する情報を推定するための推定モデル111を記憶し、推定部13を備えることにより、対象者のアルブミンに関する情報及び肥満に関連する情報と、推定モデル111と、に基づいて対象者の大腸ポリープの発生に関する情報を推定する。したがって、本実施形態によれば、大腸内視鏡検査を行うことを要せず、大腸ポリープの発生に関する情報(例えば、大腸ポリープの有無)を推定することができる。また、本実施形態によれば、遺伝子解析を行うことを要せず、大腸ポリープの発生に関する情報を推定することができる。よって、本実施形態によれば、低コストで大腸ポリープの非侵襲的なスクリーニングを行うことができる。
【0069】
なお、本実施形態に係る推定装置及び学習装置では、性別ごとに異なる2つの推定モデルを用いた。当該推定モデルは、PSOにより最適化された閾値に基づいて、特徴を2値化する。さらに、当該特徴は、前方選択法を使用して選択さる。PSOにより適切に選択された特徴は、最終的な推定モデルのパフォーマンスに大きな影響を与えることとなった。最適化された推定モデルでは、MCC又はAUCを使用した場合よりも、最小SSを最適化ターゲットとして使用した場合に、感度と特異度のバランスが高くなった。
【0070】
男女それぞれについて最適化された推定モデルには、アルブミンと肥満に関連する特徴が存在することが分かった。さらに、女性と男性にとって最も重要な3つの特徴のうち、それぞれクレアチニンと年齢も影響していることが分かった。
図7を参照しながら説明したように、取得した指標のパフォーマンス特性はFITよりも優れており、本実施形態に係る推定モデルの特異度は、FITによる結果よりも約1.4倍高かった。したがって、本実施形態に係る推定装置及び学習装置を用いることにより、大腸腫瘍のリスクが高い患者に対して、大腸内視鏡検査を提案することができる。さらに、取得された特徴と閾値は、患者の生活の質を改善し、ポリープの更なる成長を防ぐのに役立つ。この調査結果は、提案されたモデルが、CRC予防のための大腸内視鏡検査を提案するスクリーニング方法として、病院や診療所で使用するための理想的な候補であることを意味する。
【0071】
なお、
図1を参照しながら説明した推定方法は、具体的にはPSOを用いて実装された、より具体的には、当該PSOは、選択された最適化ターゲット(AUC、MCC、又は最小SS)を持つPython用のscikit-optパッケージを使用して実装された。取得したしきい値と選択した機能を検証テストデータで評価し、結果を記録した。その後、別のランダムな特徴が選択され、閾値はPSOを使用して最適化され、検証データで評価された。このプロセスは、すべての特徴について調査され、最適化ターゲットを持つ特徴が選択され、リストに保存されるまで繰り返された。その後、次の残りの機能が選択され、しきい値はPSOメソッドを使用して最適化され、残りのすべての特徴を反復するまで検証データで評価された。次に、32個の特徴が選択されるまで、最良の特徴が選択され、次の反復のためにリストに追加された。
【0072】
なお、上述した実施形態における各装置が備える各部の機能の全体あるいはその機能の一部は、これらの機能を実現するためのプログラムをコンピュータにより読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
【0073】
また、「コンピュータにより読み取り可能な記録媒体」とは、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶部のことをいう。さらに、「コンピュータにより読み取り可能な記録媒体」とは、インターネット等のネットワークを介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
【0074】
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何ら限定されるものではなく、本発明の趣旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
【符号の説明】
【0075】
10…推定装置、11…記憶部、12…対象者情報取得部、13…推定部、14…出力部、111…推定モデル、20…学習装置、21…教師データ記憶部、22…推定モデル