(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-02
(45)【発行日】2024-02-13
(54)【発明の名称】特徴マップを出力するための機械学習モデルを作成する方法
(51)【国際特許分類】
G06V 10/764 20220101AFI20240205BHJP
G06V 20/69 20220101ALI20240205BHJP
G06T 7/00 20170101ALI20240205BHJP
A61B 6/00 20240101ALI20240205BHJP
A61B 6/03 20060101ALI20240205BHJP
【FI】
G06V10/764
G06V20/69
G06T7/00 350B
G06T7/00 630
A61B6/00 350D
A61B6/03 360J
(21)【出願番号】P 2022579061
(86)(22)【出願日】2022-07-19
(86)【国際出願番号】 JP2022028099
(87)【国際公開番号】W WO2023002995
(87)【国際公開日】2023-01-26
【審査請求日】2022-12-21
(31)【優先権主張番号】P 2021119842
(32)【優先日】2021-07-20
(33)【優先権主張国・地域又は機関】JP
【国等の委託研究の成果に係る記載事項】(出願人による申告)2020年度国立研究開発法人新エネルギー・産業技術総合開発機構「人と共に進化する次世代人工知能に関する技術開発事業」委託研究、産業技術力強化法第17条の適用を受ける特許出願
【早期審査対象出願】
(73)【特許権者】
【識別番号】521321561
【氏名又は名称】福岡 順也
(73)【特許権者】
【識別番号】521321572
【氏名又は名称】上紙 航
(73)【特許権者】
【識別番号】301021533
【氏名又は名称】国立研究開発法人産業技術総合研究所
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(72)【発明者】
【氏名】福岡 順也
(72)【発明者】
【氏名】上紙 航
【審査官】笠田 和宏
(56)【参考文献】
【文献】特開2020-126598(JP,A)
【文献】特開2003-044397(JP,A)
【文献】Wataru Uegami,外8名,MIXTURE of human expertise and deep learning--developing an explainable model for predicting pathological diagnosis and survival in patients with interstitial lung disease,Modern Pathology,(2022) 35,2022年02月23日,pp. 1083-1091
(58)【調査した分野】(Int.Cl.,DB名)
G06V 10/764
G06V 20/69
G06T 7/00
A61B 6/00
A61B 6/03
(57)【特許請求の範囲】
【請求項1】
機械学習モデルを作成する方法であって、
複数の学習用画像を受信することと、
初期機械学習モデルからの出力を用いて、前記複数の学習用画像の各々を複数の初期クラスタのうちのそれぞれの初期クラスタに分類することであって、前記初期機械学習モデルは、少なくとも、入力された1つの画像から前記画像の特徴量を出力するように学習させられている、ことと、
前記複数の初期クラスタの各々に分類された前記複数の学習用画像に基づいて、前記複数の初期クラスタを複数の二次クラスタに再分類することと、
前記複数の初期クラスタと前記複数の二次クラスタとの関係を前記初期機械学習モデルに転移学習させることにより、機械学習モデルを作成することであって、前記機械学習モデルは、1つの画像を入力されると、前記入力された1つの画像が前記複数の二次クラスタのうちのどの二次クラスタに分類されるかを出力する、ことと
を含む方法。
【請求項2】
前記再分類することは、
前記複数の初期クラスタの各々に分類された前記複数の学習用画像をユーザに提示することと、
前記複数の初期クラスタの各々を前記複数の二次クラスタのうちのいずれかに対応付けるユーザ入力を受信することと、
前記ユーザ入力に基づいて、前記複数の初期クラスタを複数の二次クラスタに再分類することと
を含む、請求項1に記載の方法。
【請求項3】
前記複数の二次クラスタは、前記ユーザによって規定される、請求項2に記載の方法。
【請求項4】
前記複数の二次クラスタは、前記複数の学習用画像の解像度に応じて決定される、請求項1に記載の方法。
【請求項5】
前記複数の学習用画像は、1つの画像を所定の解像度で細分した複数の部分画像を含む、請求項1に記載の方法。
【請求項6】
前記複数の学習用画像は、病理診断用画像を含む、請求項1に記載の方法。
【請求項7】
前記複数の学習用画像は、間質性肺炎を有する被験者の組織画像と、間質性肺炎を有しない被験者の組織画像とを含む、請求項1に記載の方法。
【請求項8】
前記複数の二次クラスタのうちの少なくとも1つの二次クラスタ内の画像を、前記複数の学習用画像として、前記受信することと、前記分類することと、前記再分類することとを繰り返すことをさらに含む、請求項1に記載の方法。
【請求項9】
前記作成された機械学習モデルは、特徴マップを出力するために用いられる、請求項1に記載の方法。
【請求項10】
特徴マップを作成する方法であって、
対象画像を受信することと、
前記対象画像を複数の領域画像に細分することと、
前記複数の領域画像を請求項9に記載の方法によって作成された機械学習モデルに入力することにより、前記複数の領域画像の各々を前記複数の二次クラスタのうちのそれぞれの二次クラスタに分類することと、
前記対象画像において、前記複数の領域画像の各々をそれぞれの分類に従って区分することにより、特徴マップを作成することと
を含む、方法。
【請求項11】
前記区分することは、前記複数の領域画像のうち、同一の分類に属する領域画像を同一の色で着色することを含む、請求項
10に記載の方法。
【請求項12】
被験者の疾患に関する状態を推定するための方法であって、
請求項
10~
11のいずれか一項に記載の方法に従って作成された特徴マップを取得することであって、前記対象画像は、前記被験者の組織画像である、ことと、
前記特徴マップに基づいて、前記被験者の疾患に関する状態を推定することと
を含む方法。
【請求項13】
前記状態を推定することは、被験者の間質性肺炎がいずれの間質性肺炎のタイプであるかを推定することを含む、請求項
12に記載の方法。
【請求項14】
前記状態を推定することは、被験者が通常型間質性肺炎であるか否かを推定することを含む、請求項
12に記載の方法。
【請求項15】
前記作成された特徴マップに基づいて、前記被験者の疾患に関する状態を推定することは、
前記特徴マップから、前記複数の二次クラスタの各々の頻度を算出することと、
前記頻度に基づいて、前記疾患に関する状態を推定することと
を含む、請求項
12に記載の方法。
【請求項16】
前記特徴マップを作成することは、複数の特徴マップを作成することを含み、前記複数の特徴マップは、解像度が相互に異なっている、請求項
12に記載の方法
【請求項17】
前記作成された特徴マップに基づいて、疾患に関する状態を推定することは、前記複数の特徴マップのそれぞれから、前記複数の二次クラスタの各々の頻度を算出することと、
前記頻度に基づいて、前記疾患に関する状態を推定することと
を含む、請求項
16に記載の方法。
【請求項18】
前記作成された特徴マップに基づいて、疾患に関する状態を推定することは、
前記複数の特徴マップを用いて、前記複数の特徴マップのうちの少なくとも1つの特徴マップ中のエラーを特定することと、
前記エラーが特定された少なくとも1つの特徴マップを除く少なくとも1つの特徴マップに基づいて、前記疾患に関する状態を推定することと
を含む、請求項
16に記載の方法。
【請求項19】
前記作成された特徴マップに基づいて、前記疾患に関する状態を推定された前記被験者の生存時間分析を行うことと、
前記特徴マップ中の複数の二次クラスタのうち、前記推定された状態に寄与する少なくとも1つの二次クラスタを特定することと
をさらに含む、請求項
12に記載の方法。
【請求項20】
機械学習モデルを作成するためのシステムであって、
複数の学習用画像を受信する受信手段と、
初期機械学習モデルからの出力を用いて、前記複数の学習用画像の各々を複数の初期クラスタのうちのそれぞれの初期クラスタに分類する分類手段であって、前記初期機械学習モデルは、少なくとも、入力された1つの画像から前記画像の特徴量を出力するように学習させられている、分類手段と、
前記複数の初期クラスタの各々に分類された前記複数の学習用画像に基づいて、前記複数の初期クラスタを複数の二次クラスタに再分類する再分類手段と、
前記複数の初期クラスタと前記複数の二次クラスタとの関係を前記初期機械学習モデルに転移学習させることにより、機械学習モデルを作成する作成手段であって、前記機械学習モデルは、1つの画像を入力されると、前記入力された1つの画像が前記複数の二次クラスタのうちのどの二次クラスタに分類されるかを出力する、作成手段と
を備えるシステム。
【請求項21】
機械学習モデルを作成するためのプログラムであって、前記プログラムは、プロセッサ部を備えるコンピュータシステムにおいて実行され、前記プログラムは、
複数の学習用画像を受信することと、
初期機械学習モデルからの出力を用いて、前記複数の学習用画像の各々を複数の初期クラスタのうちのそれぞれの初期クラスタに分類することであって、前記初期機械学習モデルは、少なくとも、入力された1つの画像から前記画像の特徴量を出力するように学習させられている、ことと、
前記複数の初期クラスタの各々に分類された前記複数の学習用画像に基づいて、前記複数の初期クラスタを複数の二次クラスタに再分類することと、
前記複数の初期クラスタと前記複数の二次クラスタとの関係を前記初期機械学習モデルに転移学習させることにより、機械学習モデルを作成することであって、前記機械学習モデルは、1つの画像を入力されると、前記入力された1つの画像が前記複数の二次クラスタのうちのどの二次クラスタに分類されるかを出力する、ことと
を含む処理を前記プロセッサ部に行わせる、プログラム。
【請求項22】
分類用機械学習モデルを作成する方法であって、
複数の学習用データを受信することと、
初期機械学習モデルからの出力を用いて、前記複数の学習用データの各々を複数の初期クラスタのうちのそれぞれの初期クラスタに分類することであって、前記初期機械学習モデルは、少なくとも、入力された1つのデータから前記データの特徴量を出力するように学習させられている、ことと、
前記複数の初期クラスタの各々に分類された前記複数の学習用データに基づいて、前記複数の初期クラスタを複数の二次クラスタに再分類することと、
前記複数の初期クラスタと前記複数の二次クラスタとの関係を前記初期機械学習モデルに転移学習させることにより、機械学習モデルを作成することであって、前記機械学習モデルは、1つの画像を入力されると、前記入力された1つの画像が前記複数の二次クラスタのうちのどの二次クラスタに分類されるかを出力する、ことと
を含む方法。
【請求項23】
分類用機械学習モデルを作成するためのシステムであって、
複数の学習用データを受信する受信手段と、
初期機械学習モデルからの出力を用いて、前記複数の学習用データの各々を複数の初期クラスタのうちのそれぞれの初期クラスタに分類する分類手段であって、前記初期機械学習モデルは、少なくとも、入力された1つのデータから前記データの特徴量を出力するように学習させられている、分類手段と、
前記複数の初期クラスタの各々に分類された前記複数の学習用データに基づいて、前記複数の初期クラスタを複数の二次クラスタに再分類する再分類手段と、
前記複数の初期クラスタと前記複数の二次クラスタとの関係を前記初期機械学習モデルに転移学習させることにより、機械学習モデルを作成する作成手段であって、前記機械学習モデルは、1つの画像を入力されると、前記入力された1つの画像が前記複数の二次クラスタのうちのどの二次クラスタに分類されるかを出力する、作成手段と
を備えるシステム。
【請求項24】
分類用機械学習モデルを作成するためのプログラムであって、前記プログラムは、プロセッサ部を備えるコンピュータシステムにおいて実行され、前記プログラムは、
複数の学習用データを受信することと、
初期機械学習モデルからの出力を用いて、前記複数の学習用データの各々を複数の初期クラスタのうちのそれぞれの初期クラスタに分類することであって、前記初期機械学習モデルは、少なくとも、入力された1つのデータから前記データの特徴量を出力するように学習させられている、ことと、
前記複数の初期クラスタの各々に分類された前記複数の学習用データに基づいて、前記複数の初期クラスタを複数の二次クラスタに再分類することと、
前記複数の初期クラスタと前記複数の二次クラスタとの関係を前記初期機械学習モデルに転移学習させることにより、機械学習モデルを作成することであって、前記機械学習モデルは、1つの画像を入力されると、前記入力された1つの画像が前記複数の二次クラスタのうちのどの二次クラスタに分類されるかを出力する、ことと
を含む処理を前記プロセッサ部に行わせる、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特徴マップを出力するための機械学習モデルを作成する方法等に関する。本発明は、作成された機械学習モデルを用いて特徴マップを作成する方法、作成された特徴マップを用いて被験者の疾患に関する状態を推定する方法、分類用機械学習モデルを作成する方法等にも関する。
【背景技術】
【0002】
被験者の疾患を機械学習モデルを用いて予測する取り組みがなされている(例えば、特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
発明者らは、機械学習モデルと、人間の知識とを融合することで、意味のある出力を提供することが可能な機械学習モデルを提供することができると考えた。
【0005】
本発明は、人間の知識を組み込むことが可能な機械学習モデルを提供することを目的の1つとする。
【課題を解決するための手段】
【0006】
本発明は、一実施形態において、例えば、以下の項目を提供する。
(項目1)
機械学習モデルを作成する方法であって、
複数の学習用画像を受信することと、
初期機械学習モデルを用いて、前記複数の学習用画像の各々を複数の初期クラスタのうちのそれぞれの初期クラスタに分類することであって、前記初期機械学習モデルは、少なくとも、入力された1つの画像から前記画像の特徴量を出力するように学習させられている、ことと、
前記複数の初期クラスタの各々に分類された前記複数の学習用画像に基づいて、前記複数の初期クラスタを複数の二次クラスタに再分類することと、
前記複数の初期クラスタと前記複数の二次クラスタとの関係を前記初期機械学習モデルに学習させることにより、機械学習モデルを作成することであって、前記機械学習モデルは、入力された1つの画像を前記複数の二次クラスタのうちの1つの二次クラスタに分類する、ことと
を含む方法。
(項目2)
前記再分類することは、
前記複数の初期クラスタの各々に分類された前記複数の学習用画像をユーザに提示することと、
前記複数の初期クラスタの各々を前記複数の二次クラスタのうちのいずれかに対応付けるユーザ入力を受信することと、
前記ユーザ入力に基づいて、前記複数の初期クラスタを複数の二次クラスタに再分類することと
を含む、項目1に記載の方法。
(項目3)
前記複数の二次クラスタは、前記ユーザによって規定される、項目2に記載の方法。
(項目4)
前記複数の二次クラスタは、前記複数の学習用画像の解像度に応じて決定される、項目1~3のいずれか一項に記載の方法。
(項目5)
前記複数の学習用画像は、1つの画像を所定の解像度で細分した複数の部分画像を含む、項目1~4のいずれか一項に記載の方法。
(項目6)
前記複数の学習用画像は、病理診断用画像を含む、項目1~5のいずれか一項に記載の方法。
(項目7)
前記複数の学習用画像は、間質性肺炎を有する被験者の組織画像と、間質性肺炎を有しない被験者の組織画像とを含む、項目1~6のいずれか一項に記載の方法。
(項目8)
前記複数の二次クラスタのうちの少なくとも1つの二次クラスタ内の画像を、前記複数の学習用画像として、前記受信することと、前記分類することと、前記再分類することとを繰り返すことをさらに含む、項目1~7のいずれか一項に記載の方法。
(項目9)
前記作成された機械学習モデルは、特徴マップを出力するために用いられる、項目1~8のいずれか一項に記載の方法。
(項目10)
前記複数の学習用画像は、複数の異なる疾患の被験者の画像を含む、項目1~8のいずれか一項に記載の方法。
(項目11)
機械学習モデルを作成する方法であって、
項目1~10のいずれか一項に記載の方法に従って作成された機械学習モデルによって少なくとも1つの二次クラスタに分類された複数の画像を受信することと、
初期機械学習モデルを用いて、前記受信された複数の画像の各々を複数の初期クラスタのうちのそれぞれの初期クラスタに分類することであって、前記初期機械学習モデルは、少なくとも、入力された1つの画像から前記画像の特徴量を出力するように学習させられている、ことと、
前記複数の初期クラスタの各々に分類された前記受信された複数の画像に基づいて、前記複数の初期クラスタを複数の二次クラスタに再分類することと、
前記複数の初期クラスタと前記複数の二次クラスタとの関係を前記初期機械学習モデルに学習させることにより、機械学習モデルを作成することであって、前記機械学習モデルは、入力された1つの画像を前記複数の二次クラスタのうちの1つの二次クラスタに分類する、ことと
を含む方法。
(項目12)
特徴マップを作成する方法であって、
対象画像を受信することと、
前記対象画像を複数の領域画像に細分することと、
前記複数の領域画像を項目9に記載の方法によって作成された機械学習モデルに入力することにより、前記複数の領域画像の各々を前記複数の二次クラスタのうちのそれぞれの二次クラスタに分類することと、
前記対象画像において、前記複数の領域画像の各々をそれぞれの分類に従って区分することにより、特徴マップを作成することと
を含む、方法。
(項目13)
前記区分することは、前記複数の領域画像のうち、同一の分類に属する領域画像を同一の色で着色することを含む、項目12に記載の方法。
(項目14)
被験者の疾患に関する状態を推定するための方法であって、
項目12~13のいずれか一項に記載の方法に従って作成された特徴マップを取得することであって、前記対象画像は、前記被験者の組織画像である、ことと、
前記特徴マップに基づいて、前記被験者の疾患に関する状態を推定することと
を含む方法。
(項目15)
前記状態を推定することは、被験者の間質性肺炎がいずれの間質性肺炎のタイプであるかを推定することを含む、項目14に記載の方法。
(項目16)
前記状態を推定することは、被験者が通常型間質性肺炎であるか否かを推定することを含む、項目14に記載の方法。
(項目17)
前記作成された特徴マップに基づいて、前記被験者の疾患に関する状態を推定することは、
前記特徴マップから、前記複数の二次クラスタの各々の頻度を算出することと、
前記頻度に基づいて、前記疾患に関する状態を推定することと
を含む、項目14~16のいずれか一項に記載の方法。
(項目18)
前記特徴マップを作成することは、複数の特徴マップを作成することを含み、前記複数の特徴マップは、解像度が相互に異なっている、項目14~17のいずれか一項に記載の方法
(項目19)
前記作成された特徴マップに基づいて、疾患に関する状態を推定することは、前記複数の特徴マップのそれぞれから、前記複数の二次クラスタの各々の頻度を算出することと、
前記頻度に基づいて、前記疾患に関する状態を推定することと
を含む、項目18に記載の方法。
(項目20)
前記作成された特徴マップに基づいて、疾患に関する状態を推定することは、
前記複数の特徴マップを用いて、前記複数の特徴マップのうちの少なくとも1つの特徴マップ中のエラーを特定することと、
前記エラーが特定された少なくとも1つの特徴マップを除く少なくとも1つの特徴マップに基づいて、前記疾患に関する状態を推定することと
を含む、項目18または項目19に記載の方法。
(項目21)
前記作成された特徴マップに基づいて、前記疾患に関する状態を推定された前記被験者の生存時間分析を行うことと、
前記特徴マップ中の複数の二次クラスタのうち、前記推定された状態に寄与する少なくとも1つの二次クラスタを特定することと
をさらに含む、項目14~20のいずれか一項に記載の方法。
(項目22)
機械学習モデルを作成するためのシステムであって、
複数の学習用画像を受信する受信手段と、
初期機械学習モデルを用いて、前記複数の学習用画像の各々を複数の初期クラスタのうちのそれぞれのクラスタに分類する分類手段であって、前記初期機械学習モデルは、少なくとも、入力された1つの画像から前記画像の特徴量を出力するように学習させられている、分類手段と、
前記複数の初期クラスタの各々に分類された前記複数の学習用画像に基づいて、前記複数の初期クラスタを複数の二次クラスタに再分類する再分類手段と、
前記複数の初期クラスタと前記複数の二次クラスタとの関係を前記初期機械学習モデルに学習させることにより、機械学習モデルを作成する作成手段であって、前記機械学習モデルは、入力された1つの画像を前記複数の二次クラスタのうちの1つの二次クラスタに分類する、作成手段と
を備えるシステム。
(項目22A)
上記項目の1つまたは複数に記載の特徴を含む、項目22に記載のシステム。
(項目23)
機械学習モデルを作成するためのプログラムであって、前記プログラムは、プロセッサ部を備えるコンピュータシステムにおいて実行され、前記プログラムは、
複数の学習用画像を受信することと、
初期機械学習モデルを用いて、前記複数の学習用画像の各々を複数の初期クラスタのうちのそれぞれのクラスタに分類することであって、前記初期機械学習モデルは、少なくとも、入力された1つの画像から前記画像の特徴量を出力するように学習させられている、ことと、
前記複数の初期クラスタの各々に分類された前記複数の学習用画像に基づいて、前記複数の初期クラスタを複数の二次クラスタに再分類することと、
前記複数の初期クラスタと前記複数の二次クラスタとの関係を前記初期機械学習モデルに学習させることにより、機械学習モデルを作成することであって、前記機械学習モデルは、入力された1つの画像を前記複数の二次クラスタのうちの1つの二次クラスタに分類する、ことと
を含む処理を前記プロセッサ部に行わせる、プログラム。
(項目23A)
上記項目の1つまたは複数に記載の特徴を含む、項目23に記載のプログラム。
(項目23B)
項目23または項目23Aに記載のプログラムを記憶するコンピュータ読み取り可能な記憶媒体。
(項目24)
分類用機械学習モデルを作成する方法であって、
複数の学習用データを受信することと、
初期機械学習モデルを用いて、前記複数の学習用データの各々を複数の初期クラスタのうちのそれぞれのクラスタに分類することであって、前記初期機械学習モデルは、少なくとも、入力された1つのデータから前記データの特徴量を出力するように学習させられている、ことと、
前記複数の初期クラスタの各々に分類された前記複数の学習用データに基づいて、前記複数の初期クラスタを複数の二次クラスタに再分類することと、
前記複数の初期クラスタと前記複数の二次クラスタとの関係を前記初期機械学習モデルに学習させることにより、機械学習モデルを作成することであって、前記機械学習モデルは、入力された1つのデータを前記複数の二次クラスタのうちの1つの二次クラスタに分類する、ことと
を含む方法。
(項目24A)
上記項目の1つまたは複数に記載の特徴を含む、項目24に記載の方法。
(項目25)
分類用機械学習モデルを作成するためのシステムであって、
複数の学習用データを受信する受信手段と、
初期機械学習モデルを用いて、前記複数の学習用データの各々を複数の初期クラスタのうちのそれぞれのクラスタに分類する分類手段であって、前記初期機械学習モデルは、少なくとも、入力された1つのデータから前記データの特徴量を出力するように学習させられている、分類手段と、
前記複数の初期クラスタの各々に分類された前記複数の学習用データに基づいて、前記複数の初期クラスタを複数の二次クラスタに再分類する再分類手段と、
前記複数の初期クラスタと前記複数の二次クラスタとの関係を前記初期機械学習モデルに学習させることにより、機械学習モデルを作成する作成手段であって、前記機械学習モデルは、入力された1つのデータを前記複数の二次クラスタのうちの1つの二次クラスタに分類する、作成手段と
を備えるシステム。
(項目25A)
上記項目の1つまたは複数に記載の特徴を含む、項目25に記載のシステム。
(項目26)
分類用機械学習モデルを作成するためのプログラムであって、前記プログラムは、プロセッサ部を備えるコンピュータシステムにおいて実行され、前記プログラムは、
複数の学習用データを受信することと、
初期機械学習モデルを用いて、前記複数の学習用データの各々を複数の初期クラスタのうちのそれぞれのクラスタに分類することであって、前記初期機械学習モデルは、少なくとも、入力された1つのデータから前記データの特徴量を出力するように学習させられている、ことと、
前記複数の初期クラスタの各々に分類された前記複数の学習用データに基づいて、前記複数の初期クラスタを複数の二次クラスタに再分類することと、
前記複数の初期クラスタと前記複数の二次クラスタとの関係を前記初期機械学習モデルに学習させることにより、機械学習モデルを作成することであって、前記機械学習モデルは、入力された1つのデータを前記複数の二次クラスタのうちの1つの二次クラスタに分類する、ことと
を含む処理を前記プロセッサ部に行わせる、プログラム。
(項目26A)
上記項目の1つまたは複数に記載の特徴を含む、項目26に記載のプログラム。
(項目26B)
項目26または項目26Aに記載のプログラムを記憶するコンピュータ読み取り可能な記憶媒体。
【発明の効果】
【0007】
本発明によれば、人間の知識を組み込むことが可能な機械学習モデルを提供することができる。この機械学習モデルを用いて作成された特徴マップは、人間の知識を反映したものであり得、この特徴マップを用いることにより、被験者の疾患に関する状態の推定を精度よく行うことができるようになる。
【図面の簡単な説明】
【0008】
【
図1A】人間の知識を組み込むことが可能な機械学習モデルを作成するフローの一例を示す図
【
図1B】複数の初期クラスタのそれぞれに分類された複数の学習用画像の例を示す図
【
図1C】機械学習モデル10に入力される組織画像の一例および機械学習モデル10から出力される分類に従って作成された特徴マップの一例を示す図
【
図2】特徴マップを出力するための機械学習モデルを作成するためのシステム100の構成の一例を示す図
【
図3A】一実施形態におけるプロセッサ部120の構成の一例を示す図
【
図3B】別の実施形態におけるプロセッサ部130の構成の一例を示す図
【
図3C】さらに別の実施形態におけるプロセッサ部140の構成の一例を示す図
【
図5】システム100における処理の一例を示すフローチャート
【
図6】システム100における処理の別の一例を示すフローチャート
【
図7】システム100における処理の別の一例を示すフローチャート
【
図13】細胞にインクで目印をつけた画像(a)と、その画像から作成された特徴マップを示す図
【
図14】機械学習モデルに肺のCT画像を入力したときの例
【発明を実施するための形態】
【0009】
以下、本開示を説明する。本明細書の全体にわたり、単数形の表現は、特に言及しない限り、その複数形の概念をも含むことが理解されるべきである。従って、単数形の冠詞(例えば、英語の場合は「a」、「an」、「the」など)は、特に言及しない限り、その複数形の概念をも含むことが理解されるべきである。また、本明細書において使用される用語は、特に言及しない限り、当該分野で通常用いられる意味で用いられることが理解されるべきである。したがって、他に定義されない限り、本明細書中で使用されるすべての専門用語および科学技術用語は、本発明の属する分野の当業者によって一般的に理解されるのと同じ意味を有する。矛盾する場合、本明細書(定義を含めて)が優先する。
【0010】
(定義)
本明細書において、「被験者」(subject)とは、本発明の技術が対象とする任意の人物または動物をいう。
【0011】
本明細書において、「疾患」とは、被験者の状態に不調または不都合が生じている状態をいう。「疾患」は、「障害」(正常な機能を妨げている状態)、「症状」(対象の異常な状態)、「症候群」(いくつかの症状が発生している状態)等の用語と同義的に用いられることがある。
【0012】
本明細書において、「被験者」の「状態」とは、被験者の身体または精神の様子のことをいう。
【0013】
本明細書において、「状態を推定する」とは、現在の状態を推定することに加えて、未来の状態を推定することも含む概念であり得る。「被験者の疾患に関する状態を推定する」ことは、例えば、被験者が特定の何らかの疾患を有していることを推定すること、被験者が特定の何ら疾患を有していないことを推定すること、被験者が特定の少なくとも1つの疾患を有していることを推定すること、被験者が特定の少なくとも1つの疾患を有していないことを推定すること、被験者が有している少なくとも1つの疾患のタイプを推定すること、被験者が有している少なくとも1つの疾患のタイプが特定のタイプであることを推定すること、被験者が有している少なくとも1つの疾患のタイプが特定のタイプではないことを推定すること、被験者が有している少なくとも1つの疾患の重篤度を推定すること、被験者が有している少なくとも1つの疾患の特定のタイプの重篤度を推定すること等を含む。
【0014】
本明細書において、「特徴マップ」とは、画像が複数の領域に細分されて、複数の領域のうち同一の特徴を有する領域が同一の態様で表された画像のことをいう。例えば、一例において、特徴マップは、複数の領域のうち同一の特徴を有する領域が同一の色で着色された画像であり得る。
【0015】
本明細書において、「組織画像」とは、被験者の身体から取得された組織から得られた画像のことをいう。一例において、「組織画像」は、WSI(whole slide image)であり得る。一例において、「組織画像」は、組織染色によって取得された画像、および/または、免疫組織学的染色によって取得された画像であり得る。一例において、レントゲン装置を用いて取得された放射線画像であり得る。一例において、「組織画像」は、顕微鏡を用いて取得された顕微鏡画像であり得る。このように、「組織画像」を取得する手段は問わない。
【0016】
本明細書中において「約」とは、後に続く数値の±10%を意味する。
【0017】
以下、図面を参照しながら、本発明の実施の形態を説明する。
【0018】
1.人間の知識を組み込むことが可能な機械学習モデルを作成するフロー
本発明の発明者は、人間の知識を組み込むことが可能な機械学習モデルを開発した。この機械学習モデルは、その作成段階において、初期機械学習モデルからの出力が洗練されて、初期機械学習モデルの学習に用いられているため、初期機械学習モデルよりも高精度な出力を提供することができる。特に、初期機械学習モデル(いわゆる、分類器)から出力された分類を人間、より好ましくは、専門家またはエキスパートによって再分類することによって洗練することで、機械学習モデルから出力された分類には、人間の知識、より好ましくは、専門家またはエキスパートの知識が組み込まれたものとなる。例えば、初期学習モデルから出力された分類を病理医が再分類することにより、機械学習モデルから出力される分類が、病理組織学的な意味が付加された分類となり得る。
【0019】
図1Aは、人間の知識を組み込むことが可能な機械学習モデルを作成するフローの一例を示す。
【0020】
ステップS1では、機械学習モデルを作成するためのシステム100に複数の学習用画像が入力される。本例では、病理組織学的に意味のある分類を出力可能な機械学習モデルを作成するために、複数の学習用画像として、病理診断に用いられる組織染色のWSI(whole slide image)を所定の解像度で複数の領域に細分した複数の部分画像が用いられている。
【0021】
複数の学習用画像は、作成される機械学習モデルの用途に応じて、任意の画像が利用されることができる。例えば、放射線診断に意味のある分類を出力可能な機械学習モデルを作成するために、複数の学習用画像として、放射線画像を所定の解像度で複数の領域に細分した複数の部分画像が用いられることができる。例えば、間質性肺炎の病理学的分類に意味のある分類を出力可能な機械学習モデルを作成するために、複数の学習用画像として、高解像度断層撮影画像、胸部単純X線撮影画像が用いられることができる。例えば、種々の疾患の分類を出力可能な機械学習モデルを作成するために、複数の学習用画像として、種々の疾患を有する複数の被験者の画像が用いられることができる。具体的には、種々の癌の分類を出力可能な機械学習モデルを作成するために、複数の学習用画像として、種々の癌細胞の画像が用いられることができる。
【0022】
複数の学習用画像は、後述するように、システム100によって作成された機械学習モデルから出力された分類に従ってまとめられた複数の画像であってもよい。例えば、複数の学習用画像は、機械学習モデルによって「その他」のクラスタに分類された画像であってもよい。複数の学習用画像は、後述するように、ユーザUによる再分類に従ってまとめられた複数の画像であってもよい。例えば、複数の学習用画像は、ユーザUによって「その他」のクラスタに再分類された画像であってもよい。
【0023】
複数の学習用画像がシステム100に入力される態様は問わない。複数の学習用画像は、任意の態様でシステム100に入力されることができる。例えば、複数の学習用画像は、ネットワーク(例えば、インターネット、LAN等)を通じてシステム100に入力されるようにしてもよいし、例えば、システム100に接続され得る記憶媒体を通じてシステム100に入力されるようにしてもよいし、システム100が備え得る画像取得装置を通じてシステム100に入力されるようにしてもよい。
【0024】
入力された複数の学習用画像は、システム100において、初期機械学習モデルに入力される。初期機械学習モデルは、少なくとも、入力された1つの画像からその画像の特徴量を出力するように学習させられている。出力される特徴量をクラスタリングすることにより、その画像は、複数の初期クラスタのうちの1つのクラスタに分類されることができる。
【0025】
複数の学習用画像が初期機械学習モデルに入力されると、複数の学習用画像の各々の特徴量が出力され、それらの特徴量の各々をクラスタリングすることにより、複数の学習用画像の各々が、複数の初期クラスタのうちのそれぞれの初期クラスタに分類される。このようにして分類される初期クラスタは、画像の特徴量に基づいて分類されるものであり、意味のある分類ではない場合がある。そのような初期クラスタを洗練するために、初期機械学習モデルからの出力は、再分類される必要がある。
【0026】
ステップS2では、それぞれの初期クラスタに分類された複数の学習用画像がユーザUに提示される。ユーザUは、例えば、病理医等の専門家またはエキスパートであることが好ましい。ユーザUには、例えば、
図1Bに示されるように、複数の初期クラスタのそれぞれに分類された複数の学習用画像が提示される。
【0027】
図1Bでは、6つの初期クラスタ(a)~(f)が示されているが、初期クラスタの数はこれに限定されない。初期クラスタは、任意の数のクラスタを含み得る。
図1Bに示されるように、初期機械学習モデルによって特徴量が類似すると判定された学習用画像が同一のクラスタに分類されているが、例えば、病理組織学的には、これらのクラスタのうちのいくつかは、別のクラスタに分類されるべきではないかもしれない。
【0028】
ユーザUは、自己の知識に基づいて、提示された複数の学習用画像を再分類することができる。ユーザUは、複数の初期クラスタの各々を複数の二次クラスタのいずれかに再分類することができる。ここで、複数の二次クラスタは、例えば、ユーザUによって規定されるものであってもよいし、システム100によって設定されるものであってもよい。好ましくは、ユーザUが、自己の知識に基づいて、複数の二次クラスタを規定することができる。さらに、複数の二次クラスタは、複数の学習用画像の解像度に応じて決定されることが好ましい。例えば、より低い解像度の複数の学習用画像のための複数の二次クラスタは、より高い解像度の複数の学習用画像のための複数の二次クラスタとは異なり得る。例えば、ユーザUは、自己の知識に基づいて、複数の学習用画像の解像度に応じて、複数の二次クラスタを決定することができる。複数の二次クラスタは、目的とする分類のいずれにも属しない「その他」のクラスタを含んでもよい。
【0029】
ユーザUは、例えば、端末装置の表示部に表示された、複数の初期クラスタの各々に分類された複数の学習用画像のそれぞれが、複数の二次クラスタのうちのどの二次クラスタに分類され得るかの入力を端末装置に提供することができる。
【0030】
ステップS3では、ユーザUによる入力が、システム100に提供される。ユーザUによる入力がシステム100に提供される態様は問わない。ユーザUによる入力は、任意の態様でシステム100に入力されることができる。例えば、端末装置から、ネットワーク(例えば、インターネット、LAN等)を通じてシステム100に入力されるようにしてもよいし、例えば、端末装置で記憶媒体に記憶されて、記憶媒体がシステム100に接続されることにより、システム100に入力されるようにしてもよい。システム100は、入力を受信すると、ユーザUによる再分類の情報を初期機械学習モデルに学習させる。すなわち、システム100は、複数の初期クラスタと複数の二次クラスタとの関係を学習することになる。これは、例えば、初期機械学習モデルを転移学習することによって達成され得る。
【0031】
ステップS4では、このようにして構築された機械学習モデル10がシステム100から提供される。機械学習モデル10は、入力された1つの画像を複数の二次クラスタのうちの1つの二次クラスタに分類することができる。すなわち、ユーザUの知識に基づいて行われ得る二次クラスタへの分類を、機械学習モデル10が行うことができるのである。機械学習モデル10は、初期機械学習モデルに比べて、より意味のある分類を出力することができる。本例では、機械学習モデル10は、病理組織学的により意味のある分類を出力することが可能である。
【0032】
図1Cは、機械学習モデル10に入力される組織画像の一例および機械学習モデル10から出力される分類に従って作成された特徴マップの一例を示す。
【0033】
図1C(a)は、機械学習モデル10に入力される組織画像の一例を示している。組織画像は、被験者の肺組織のWSIである。
【0034】
図1C(b)~(d)は、被験者の肺組織のWSIを機械学習モデル10に入力したときに出力される分類に従って作成された特徴マップの一例を示している。
図1C(b)は、2倍の解像度の学習用画像を用いて作成した機械学習モデル10からの出力に従って作成された特徴マップであり、
図1C(c)は、5倍の解像度の学習用画像を用いて作成した機械学習モデル10からの出力に従って作成された特徴マップであり、
図1C(d)は、20倍の解像度の学習用画像を用いて作成した機械学習モデル10からの出力に従って作成された特徴マップである。
【0035】
図1C(b)の特徴マップでは、病理組織学的に意味のある4つの分類に区分されており、
図1C(c)の特徴マップでは、病理組織学的に意味のある8つの分類に区分されており、
図1C(d)の特徴マップでは、病理組織学的に意味のある8つの分類に区分されている。このように、解像度に応じて、分類が異なっており、それぞれの特徴マップが表す情報が異なっている。
【0036】
例えば、医師は、これらの特徴マップを確認し、被験者の疾患に関する状態を診断することができる。特に、これらの特徴マップには、専門家またはエキスパートの知識を反映することができるため、経験の浅い医師でも、専門家またはエキスパートが反映された特徴マップを確認することにより、的確な診断を行うことができるようになる。
【0037】
例えば、機械学習モデル10によって、或る二次クラスタに分類された画像は、複数の学習用画像として、ステップS1~ステップS4を繰り返されてもよい。これにより、その二次クラスタに分類された画像を細分類することができ、その二次クラスタについてのより詳細な診断につなげることができる。これを繰り返すことで、画像はさらに細分類されることができる。
【0038】
例えば、機械学習モデル10によって、「その他」の二次クラスタであると分類された画像は、複数の学習用画像として、ステップS1~ステップS4を繰り返されてもよい。これにより、「その他」と分類された画像を細分類することができ、「その他」と一括りにされて無用と思われていた画像からも有用な情報を取得することができることがある。例えば、アーチファクトに相当するとして「その他」の二次クラスタに分類された画像が、本当に「アーチファクト」であるかどうかを判断することを可能にする。
【0039】
【0040】
複数の学習用画像は、例えば、病理診断に用いられる組織染色のWSIを所定の解像度で複数の領域に細分した複数の部分画像であり、部分画像の1つをtileと称している。ここでは、1,000,000を超えるtileが準備されている。ステップS1では、これらのtileのすべてがシステム100に入力される。
【0041】
システム100では、これらのtileのうち、ランダムに選択された一部のtile(ここでは、50,000個のtile)が抽出され、それらのtile(small set)を用いて、機械学習モデルが作成される。
【0042】
例えば、自己教師あり学習(Self-Supervised Learning)によって初期機械学習モデル(Initial Model)が作成される。作成された初期機械学習モデルに、small setを入力すると、特徴量が抽出される。それらの特徴量に基づいて、初期クラスタが作成される(Clustering)。
【0043】
ユーザ(専門家またはエキスパート)は、自己の知識に基づいて、初期クラスタを二次クラスタに再分類する(Integration)。例えば、所見A(Finding A)、所見B(Finding B)、その他(Other)等に再分類することができる。このようにして作成された二次クラスタを転移学習(Transfer Learning)することで、機械学習モデル(Model)が作成される。
【0044】
作成された機械学習モデル(Model)にすべてのtileが入力されると、これらのtileが分類される(Classification)。例えば、所見A(Finding A)、所見B(Finding B)、その他(Other)等に分類される。機械学習モデル(Model)は、専門家またはエキスパートの知識を反映しているため、出力は、意味のある分類となり得る。
【0045】
「その他」に分類されたtileは、戻され、上記のフローに再度付されることができる。これにより、「その他」に分類されたtileを細分類することが可能な機械学習モデルを作成することができる。あるいは、「その他」に分類されたtileは、戻され、機械学習モデル(Model)に再度入力されることができる。これにより、「その他」に分類されたtileを細分類することができる。
【0046】
上述したフローは、後述するシステム100を利用して実現され得る。
【0047】
2.特徴マップを出力するための機械学習モデルを作成するためのシステムの構成
図2は、特徴マップを出力するための機械学習モデルを作成するためのシステム100の構成の一例を示す。
【0048】
システム100は、データベース部200に接続されている。また、システム100は、少なくとも1つの端末装置300にネットワーク400を介して接続されている。
【0049】
なお、
図2では、3つの端末装置300が示されているが、端末装置300の数はこれに限定されない。任意の数の端末装置300が、ネットワーク400を介してシステム100に接続され得る。
【0050】
ネットワーク400は、任意の種類のネットワークであり得る。ネットワーク400は、例えば、インターネットであってもよいし、LANであってもよい。ネットワーク400は、有線ネットワークであってもよいし、無線ネットワークであってもよい。
【0051】
システム100は、例えば、特徴マップを出力するための機械学習モデル、または、特徴マップを提供するサービスプロバイダに設置されているコンピュータ(例えば、サーバ装置)であり得る。端末装置300は、例えば、専門家またはエキスパート等のユーザUが利用するコンピュータ(例えば、端末装置)であってもよいし、端末装置300は、他の医師が利用するコンピュータ(例えば、端末装置)であってもよい。ここで、コンピュータ(サーバ装置または端末装置)は、任意のタイプのコンピュータであり得る。例えば、端末装置は、スマートフォン、タブレット、パーソナルコンピュータ、スマートグラス、スマートウォッチ等の任意のタイプの端末装置であり得る。
【0052】
システム100は、インターフェース部110と、プロセッサ部120と、メモリ130部とを備える。システム100は、データベース部200に接続されている。
【0053】
インターフェース部110は、システム100の外部と情報のやり取りを行う。システム100のプロセッサ部120は、インターフェース部110を介して、システム100の外部から情報を受信することが可能であり、システム100の外部に情報を送信することが可能である。インターフェース部110は、任意の形式で情報のやり取りを行うことができる。第1の人物が使用する情報端末および第2の人物が使用する情報端末は、インターフェース部110を介して、システム100と通信することができる。
【0054】
インターフェース部110は、例えば、システム100に情報を入力することを可能にする入力部を備える。入力部が、どのような態様でシステム100に情報を入力することを可能にするかは問わない。例えば、入力部が受信器である場合、受信器がネットワークを介してシステム100の外部から情報を受信することにより入力してもよい。この場合、ネットワークの種類は問わない。例えば、受信器は、インターネットを介して情報を受信してもよいし、LANを介して情報を受信してもよい。
【0055】
インターフェース部110は、例えば、システム100から情報を出力することを可能にする出力部を備える。出力部が、どのような態様でシステム100から情報を出力することを可能にするかは問わない。例えば、出力部が送信器である場合、送信器がネットワークを介してシステム100の外部に情報を送信することにより出力してもよい。この場合、ネットワークの種類は問わない。例えば、送信器は、インターネットを介して情報を送信してもよいし、LANを介して情報を送信してもよい。
【0056】
プロセッサ部120は、システム100の処理を実行し、かつ、システム100全体の動作を制御する。プロセッサ部120は、メモリ部150に格納されているプログラムを読み出し、そのプログラムを実行する。これにより、システム100を所望のステップを実行するシステムとして機能させることが可能である。プロセッサ部120は、単一のプロセッサによって実装されてもよいし、複数のプロセッサによって実装されてもよい。
【0057】
メモリ部150は、システム100の処理を実行するために必要とされるプログラムやそのプログラムの実行に必要とされるデータ等を格納する。メモリ部150は、特徴マップを出力するための機械学習モデルを作成するための処理をプロセッサ部120に行わせるためのプログラム(例えば、後述する
図5に示される処理を実現するプログラム)を格納してもよい。メモリ部150は、特徴マップを作成する処理をプロセッサ部120に行わせるためのプログラム(例えば、後述する
図6に示される処理を実現するプログラム)を格納してもよい。メモリ部150は、被験者の疾患に関する状態を推定する処理をプロセッサ部120に行わせるためのプログラム(例えば、後述する
図7に示される処理を実現するプログラム)を格納してもよい。ここで、プログラムをどのようにしてメモリ部150に格納するかは問わない。例えば、プログラムは、メモリ部150にプリインストールされていてもよい。あるいは、プログラムは、ネットワークを経由してダウンロードされることによってメモリ部150にインストールされるようにしてもよい。この場合、ネットワークの種類は問わない。メモリ部150は、任意の記憶手段によって実装され得る。あるいは、プログラムは、機械読取可能な記憶媒体に記憶され、その記憶媒体からメモリ部150にインストールされるようにしてもよい。
【0058】
例えば、データベース部200には、複数の学習用画像が格納され得る。複数の学習用画像は、例えば、複数の被験者から得られたデータであり得る。例えば、データベース部200には、複数の初期クラスタと複数の二次クラスタとの関係が格納され得る。例えば、データベース部200には、作成された機械学習モデルが格納され得る。例えば、データベース部200には、作成された特徴マップが格納され得る。
【0059】
図2に示される例では、データベース部200は、システム100の外部に設けられているが、本発明はこれに限定されない。データベース部200の少なくとも一部をシステム100の内部に設けることも可能である。このとき、データベース部200の少なくとも一部は、メモリ部150を実装する記憶手段と同一の記憶手段によって実装されてもよいし、メモリ部150を実装する記憶手段とは別の記憶手段によって実装されてもよい。いずれにせよ、データベース部200の少なくとも一部は、システム100のための格納部として構成される。データベース部200の構成は、特定のハードウェア構成に限定されない。例えば、データベース部200は、単一のハードウェア部品で構成されてもよいし、複数のハードウェア部品で構成されてもよい。例えば、データベース部200は、システム100の外付けハードディスク装置として構成されてもよいし、ネットワーク400を介して接続されるクラウド上のストレージとして構成されてもよい。
【0060】
図3Aは、一実施形態におけるプロセッサ部120の構成の一例を示す。プロセッサ部120は、特徴マップを出力するための機械学習モデルを作成する処理のための構成を有し得る。
【0061】
プロセッサ部120は、受信手段121と、分類手段122と、再分類手段123と、作成手段124とを備える。
【0062】
受信手段121は、複数の学習用画像を受信するように構成されている。受信手段121は、例えば、インターフェース部110を介してシステム100の外部から受信された複数の学習用画像を受信することができる。受信手段121は、例えば、複数の学習用画像を端末装置300からインターフェース部110を介して受信するようにしてもよいし、複数の学習用画像をデータベース部200からインターフェース部110を介して受信するようにしてもよいし、複数の学習用画像を他のソースからインターフェース部110を介して受信するようにしてもよい。受信手段121は、例えば、プロセッサ部120によって作成された機械学習モデルからの出力に従って分類された画像の少なくとも一部を複数の学習用画像として受信することができる。
【0063】
複数の学習用画像は、作成される機械学習モデルの用途に応じた任意の画像であり得る。例えば、病理組織学的に有用な特徴マップを作成するための機械学習モデルを作成するために、複数の学習用画像は、病理診断用画像であり得る。より具体的には、複数の学習用画像は、組織染色によるWSIを所定の解像度で複数の領域に細分した複数の部分画像であり得る。例えば、放射線診断に有用な特徴マップを作成するための機械学習モデルを作成するために、複数の学習用画像は、放射線画像を所定の解像度で複数の領域に細分した複数の部分画像であり得る。所定の解像度は、任意の解像度であり得、例えば、約2倍の解像度、約5倍の解像度、約10倍の解像度、約15倍の解像度、約20倍の解像度等であり得る。例えば、種々の疾患の分類を出力可能な機械学習モデルを作成するために、複数の学習用画像として、種々の疾患を有する複数の被験者の画像が用いられることができる。具体的には、種々の癌の分類を出力可能な機械学習モデルを作成するために、複数の学習用画像として、種々の癌細胞の画像が用いられることができる。
本発明において学習に用いられるデータは、必ずしも画像データである必要はない。学習用画像の代わりに画像データ以外のデータを用いて本発明の学習に用い、機械学習モデルを作成することも可能である。
【0064】
一例において、間質性肺炎の有無を推定可能な特徴マップを作成するための機械学習モデルを作成するために、複数の学習用画像は、間質性肺炎を有する被験者の組織画像と、間質性肺炎を有しない被験者の組織画像を含み得る。このとき、組織画像は、所定の解像度で複数の領域に細分されて複数の部分画像にされ得る。
【0065】
複数の学習用画像は、分類手段122に渡される。
【0066】
分類手段122は、複数の学習用画像の各々を複数の初期クラスタのうちのそれぞれの初期クラスタに分類するように構成されている。分類手段122は、初期機械学習モデルを用いて、複数の学習用画像の各々を複数の初期クラスタのうちのそれぞれの初期クラスタに分類することができる。
【0067】
初期機械学習モデルは、少なくとも、入力された1つの画像からその画像の特徴量を出力するように学習させられた任意の機械学習モデルである。初期機械学習モデルは、例えば、畳み込みニューラルネットワーク(CNN)をベースとする機械学習モデルであり得る。より具体的には、CNNは、例えば、ResNet18であり得る。
【0068】
初期機械学習モデルを構築する手法は問わない。初期機械学習モデルは、例えば、教師あり学習によって構築されてもよいし、教師なし学習によって構築されてもよい。好ましくは、初期機械学習モデルは、自己教師あり学習(Self-Supervised Learning)によって構築され得る。一例において、CNNをベースとする機械学習モデルに、自己教師あり学習によって、複数の初期学習用画像を学習させる。複数の初期学習用画像は、複数の学習用画像と同じ画像であってもよいし、類似する画像であってもよい。自己教師あり学習を用いることで、複数の学習用画像の各々にラベルを付す必要がない。このように学習させられた初期機械学習モデルは、入力された1つの画像からその画像の特徴量を出力するようになる。
【0069】
分類手段122は、例えば、クラスタリングモデルを使用して、初期機械学習モデルから出力された特徴量を複数の初期クラスタのうちの1つの初期クラスタに分類することができる。クラスタリングモデルは、任意のクラスタリング手法で、入力された特徴量をクラスタリングするように学習させられている。クラスタリングモデルは、例えば、k-means法によって、入力された特徴量をクラスタリングすることができる。
【0070】
複数の初期クラスタは、任意の数の初期クラスタを含み得る。例えば、複数の初期クラスタは、5個、8個、10個、30個、50個、80個、100個、120個等の初期クラスタを含み得る。初期クラスタの数が少なすぎると、同一の初期クラスタ内に異なる意義を有する学習用画像が分類される可能性が高くなり、初期クラスタの数が多すぎると、異なる初期クラスタ内に同一の意義を有する学習用画像が分類される可能性が高くなる。学習用画像の内容に応じて、初期クラスタの適切な数を設定することが好ましい。
【0071】
このように、初期機械学習モデルとクラスタリングモデルとを結合することで、初期機械学習モデルに1つの画像を入力すると、その画像が複数の初期クラスタのうちの1つの初期クラスタに分類されるようになる。
【0072】
上述した例では、初期機械学習モデルとクラスタリングモデルとが別個のモデルであることを説明したが、本発明はこれに限定されない。例えば、初期機械学習モデルは、入力された画像を複数の初期クラスタのうちの1つの初期クラスタに直接分類するものとして構築されるようにしてもよい、すなわち、クラスタリングモデルが初期機械学習モデルに組み込まれるように構築されるようにしてもよい。
【0073】
再分類手段123は、複数の初期クラスタの各々に分類された複数の学習用画像に基づいて、複数の初期クラスタを複数の二次クラスタに再分類するように構成されている。再分類手段123は、例えば、複数の初期クラスタの各々に分類された複数の学習用画像に基づいて、自動的に再分類を行うようにしてもよいし、外部からの入力に応じて再分類を行うようにしてもよい。ここで、複数の二次クラスタは、例えば、ユーザによって規定されるものであってもよいし、予め設定されるものであってもよいし、動的に変動するものであってもよい。好ましくは、ユーザが、自己の知識に基づいて、複数の二次クラスタを規定することができる。さらに、複数の二次クラスタは、複数の学習用画像の解像度に応じて決定されることが好ましい。例えば、より低い解像度の複数の学習用画像のための複数の二次クラスタは、より高い解像度の複数の学習用画像のための複数の二次クラスタとは異なり得る。例えば、ユーザは、自己の知識に基づいて、複数の学習用画像の解像度に応じて、複数の二次クラスタを決定することができる。
【0074】
外部からの入力に応じて再分類を行う場合、再分類手段123は、例えば、ユーザからの入力に応じて再分類を行うことができる。ユーザは、例えば、専門家またはエキスパートであることが好ましい。これにより、専門家またはエキスパートの知識を分類に組み込むことができるようになるからである。例えば、病理学的診断の場合、ユーザが自己の知識に基づいて、病理学的に意味付けされた二次クラスタを規定し、初期クラスタの各々(初期クラスタの全部または一部)を二次クラスタに分類してもよい。
【0075】
再分類手段123は、例えば、分類手段122によって複数の初期クラスタの各々に分類された複数の学習用画像をユーザに提示することができる。例えば、インターフェース部110を介してシステム100の外部に出力することで、複数の学習用画像をユーザに提示することができる。複数の学習用画像は、例えば、
図1Bに示されるような態様で、端末装置300の表示部に表示され得る。ユーザは、これを見て、複数の初期クラスタの各々を複数の二次クラスタのうちのいずれかに対応付けることができる。ユーザがその対応付けのユーザ入力を端末装置300に入力すると、再分類手段123は、インターフェース部110を介してその対応付けのユーザ入力を受信することができる。そして、再分類手段123は、その対応付けのユーザ入力に基づいて、複数の初期クラスタを複数の二次クラスタに再分類することができる。
【0076】
自動的に再分類を行う場合、再分類手段123は、例えば、ルールベースで、複数の初期クラスタを複数の二次クラスタに再分類するようにしてもよいし、別の機械学習モデルを利用して複数の初期クラスタを複数の二次クラスタに再分類するようにしてもよい。
【0077】
作成手段124は、複数の初期クラスタと複数の二次クラスタとの関係を初期機械学習モデルに学習させることにより、機械学習モデルを作成するように構成されている。複数の初期クラスタと複数の二次クラスタとの関係を初期機械学習モデルに学習させることは、当該技術分野において公知または将来公知になる手法を用いて行うことができる。作成手段124は、例えば、複数の初期クラスタと複数の二次クラスタとの関係を用いて、初期機械学習モデルを転移学習させることによって、機械学習モデルを作成することができる。
【0078】
一例において、作成手段124は、CNNベースの初期機械学習モデルに全結合(FC)層を付加し、FC層の重みを最適化することで、複数の初期クラスタと複数の二次クラスタとの関係を初期機械学習モデルに学習させることができる。このとき、FC層の重みのみならず、CNNの少なくとも1つの層のパラメータも調節するようにしてもよい。
【0079】
このようにして作成された機械学習モデルは、画像が入力されると、その画像を複数の二次クラスタのうちの1つの二次クラスタに分類することができる。初期クラスタでは意味のある分類ではなかったとしても、二次クラスタに分類することで、意味のある分類を出力することができるようになる。
【0080】
例えば、1つの画像を複数の領域画像に細分し、複数の領域画像をこの機械学習モデルに入力すると、複数の領域画像の各々が、複数の二次クラスタのいずれかに分類されることになる。1つの画像において、複数の領域画像の各々をそれぞれの分類に従って区分することによって、特徴マップが作成され得る。
【0081】
例えば、複数の学習用画像として、種々の疾患を有する複数の被験者の画像を用いて、複数の二次クラスタがそれぞれの疾患を表すようにすると、作成される機械学習モデルは、入力された画像が示す疾患が、どの疾患のクラスタに分類されるかを出力することになる。
【0082】
例えば、未知の疾患を有する被験者から取得された画像をこの機械学習モデルに入力すると、その画像が、複数の疾患を表す複数の二次クラスタのうちのいずれかに分類されることになる。すなわち、どの二次クラスタに分類されたかを見ることでその被験者が有する疾患が何であるかを知ることができるようになる。より具体的な例として、何らかの癌を有する被験者から取得された画像をこの機械学習モデルに入力すると、その画像が、種々の癌を表す複数の二次クラスタのうちのいずれかに分類されることになる。この分類より、医師は、その被験者が有する癌が、肺癌なのか、胃癌なのか、肝臓癌なのか等の診断を行うことができる。
【0083】
プロセッサ部120によって作成された機械学習モデルは、例えば、インターフェース部110を介してシステム100の外部に出力される。機械学習モデルは、例えば、インターフェース部110を介してデータベース部200に送信され、データベース部200に格納されてもよい。あるいは、特徴マップ作成のために、後述するプロセッサ部130に送信されてもよい。後述するように、プロセッサ部130は、プロセッサ部120と同じシステム100の構成要素であってもよいし、別のシステムの構成要素であってもよい。
【0084】
図3Bは、別の実施形態におけるプロセッサ部130の構成の一例を示す。プロセッサ部130は、特徴マップを作成する処理のための構成を有し得る。プロセッサ部130は、上述したプロセッサ部120の代替としてシステム100が備えるプロセッサ部であってもよいし、プロセッサ部120に加えてシステム100が備えるプロセッサ部であってもよい。プロセッサ部130がプロセッサ部120に加えてシステム100が備えるプロセッサ部である場合には、プロセッサ部120およびプロセッサ部130は、同一のプロセッサによって実装されてもよいし、異なるプロセッサによって実装されてもよい。
【0085】
プロセッサ部130は、受信手段131と、細分手段132と、分類手段133と、作成手段134とを備える。
【0086】
受信手段131は、対象画像を受信するように構成されている。対象画像は、特徴マップを作成する対象の画像である。対象画像は、例えば、被験者の身体から取得された任意の画像(例えば、組織染色のWSI、放射線画像(例えば、CT等の断層撮影画像)等)であり得る。受信手段131は、例えば、インターフェース部110を介してシステム100の外部から受信された対象画像を受信することができる。受信手段131は、例えば、対象画像を端末装置300からインターフェース部110を介して受信するようにしてもよいし、対象画像をデータベース部200からインターフェース部110を介して受信するようにしてもよいし、対象画像を他のソースからインターフェース部110を介して受信するようにしてもよい。
【0087】
細分手段132は、対象画像を複数の領域画像に細分するように構成されている。細分手段132は、所定の解像度で、対象画像を複数の領域画像に細分することができる。所定の解像度は、例えば、約2倍の解像度、約5倍の解像度、約10倍の解像度、約15倍の解像度、約20倍の解像度等であり得る。特徴マップの目的に応じて、適切な解像度が選択され得る。細分手段132は、画像処理の分野で公知または将来公知の手法を用いて、対象画像を複数の領域画像に細分することができる。
【0088】
分類手段133は、複数の領域画像の各々を複数の二次クラスタのうちのそれぞれの二次クラスタに分類するように構成されている。分類手段133は、複数の領域画像を機械学習モデルに入力することによって、複数の領域画像の各々をそれぞれの二次クラスタに分類することができる。ここで、機械学習モデルは、入力された画像を複数の二次クラスタのうちの1つの二次クラスタに分類することができる限り、上述したプロセッサ部120によって作成された機械学習モデルであってもよいし、別様に作成された機械学習モデルであってもよい。
【0089】
例えば、複数の領域画像のうちの第1の領域画像を機械学習モデルに入力すると、第1の領域画像は、対応する二次クラスタに分類され、複数の領域画像のうちの第2の領域画像を機械学習モデルに入力すると、第2の領域画像は、対応する二次クラスタに分類され、・・・複数の領域画像のうちの第nの領域画像を機械学習モデルに入力すると、第nの領域画像は、対応する二次クラスタに分類されることになる。
【0090】
作成手段134は、対象画像において、複数の領域画像の各々をそれぞれの分類に従って区分することにより、特徴マップを作成するように構成されている。作成手段134は、例えば、複数の領域画像のうち、同一の分類に属する領域画像を同一の色で着色することによって、特徴マップを作成することができる。作成手段134によって、例えば、
図1C(b)~(d)に示されるような特徴マップが作成され得る。
【0091】
このような特徴マップにより、対象画像内の複数の領域のそれぞれがどのような領域であるかを視覚的に把握することができる。対象画像からでは視覚的に分からない情報でさえも、特徴マップによって視覚的に把握することができるようになる。これは、例えば、病理診断等において特に有用である。
【0092】
プロセッサ部130によって作成された特徴マップは、例えば、インターフェース部110を介してシステム100の外部に出力される。特徴マップは、例えば、インターフェース部110を介してデータベース部200に送信され、データベース部200に格納されてもよい。あるいは、被験者の疾患に関する状態を推定する処理のために、後述するプロセッサ部140に送信されてもよい。後述するように、プロセッサ部140は、プロセッサ部130と同じシステム100の構成要素であってもよいし、別のシステムの構成要素であってもよい。
【0093】
図3Cは、さらに別の実施形態におけるプロセッサ部140の構成の一例を示す。プロセッサ部140は、被験者の疾患に関する状態を推定する処理のための構成を有し得る。プロセッサ部140は、上述したプロセッサ部120およびプロセッサ部130の代替としてシステム100が備えるプロセッサ部であってもよいし、上述したプロセッサ部120および/またはプロセッサ部130に加えてシステム100が備えるプロセッサ部であってもよい。プロセッサ部140がプロセッサ部120および/またはプロセッサ部130に加えてシステム100が備えるプロセッサ部である場合には、プロセッサ部120、プロセッサ部130、およびプロセッサ部140は、すべてが同一のプロセッサによって実装されてもよいし、すべてが異なるプロセッサによって実装されてもよいし、プロセッサ部120、プロセッサ部130、およびプロセッサ部140のうちの2つが同一のプロセッサによって実装されてもよい。
【0094】
プロセッサ部140は、取得手段141と、推定手段142とを備える。
【0095】
取得手段141は、特徴マップを取得するように構成されている。ここで、取得される特徴マップは、被験者の組織画像から作成された特徴マップである限り、上述したプロセッサ部130によって作成された特徴マップであってもよいし、別様に作成された特徴マップであってもよい。例えば、特徴マップを作成する際に用いられる機械学習モデルは、入力された画像を複数の二次クラスタのうちの1つの二次クラスタに分類することができる限り、上述したプロセッサ部120によって作成された機械学習モデルであってもよいし、別様に作成された機械学習モデルであってもよい。
【0096】
取得手段141は、例えば、複数の特徴マップを取得するようにしてもよい。例えば、複数の特徴マップは、異なる組織から取得された複数の組織画像から作成された複数の特徴マップであり得る。例えば、複数の特徴マップは、異なる種類の複数の組織画像から作成された複数の特徴マップであり得る。例えば、複数の特徴マップは、同一の組織画像から異なる解像度で作成された複数の特徴マップであり得る。複数の特徴マップを利用することにより、後続の推定手段143による推定の精度を高めることができる。
【0097】
推定手段142は、特徴マップに基づいて、被験者の疾患に関する状態を推定するように構成されている。推定手段142は、例えば、特徴マップに基づいて、被験者が何らかの疾患を有しているか否か、あるいは、被験者が特定の疾患(例えば、間質性肺炎(IP)、通常型間質性肺炎(UIP))を有しているか否か、あるいは、被験者が有する特定の疾患がどのタイプの疾患であるか(例えば、いずれの間質性肺炎のタイプであるか)を推定することができる。被験者が間質性肺炎(IP)であるか否か、通常型間質性肺炎(UIP)であるか否か、あるいは、被験者の間質性肺炎がいずれの間質性肺炎のタイプであるかは、例えば、被験者の肺から取得された組織画像から作成された特徴マップに基づいて推定され得る。
【0098】
推定手段142は、例えば、特徴マップから抽出される情報に基づいて、被験者の疾患に関する状態を推定することができる。推定手段142は、例えば、特徴マップから、複数の二次クラスタの各々の頻度を算出し、算出された頻度に基づいて、疾患に関する状態を推定することができる。複数の二次クラスタの各々の頻度は、複数の二次クラスタのそれぞれの二次クラスタについて、その二次クラスタに属する画像領域の数を数え、画像領域の全体数で正規化することによって算出され得る。推定手段142は、例えば、頻度の多い二次クラスタから、被験者の疾患に関する状態を推定することができる。推定手段142は、上述した頻度のみならず、特徴マップから抽出される他の任意の情報を利用することができる。推定手段142は、例えば、特徴マップ中の各二次クラスタの位置情報も利用することができる。推定手段142は、当該技術分野において公知または将来公知の任意の手法を用いて、被験者の疾患に関する状態を推定することができる。推定手段142は、例えば、ランダムフォレスト、サポートベクターマシン等の分類器を用いて、被験者の疾患に関する状態を分類して、推定することができる。
【0099】
推定手段142は、例えば、特徴マップと被験者の疾患に関する状態との関係を学習させられた推定用機械学習モデルを利用して、被験者の疾患に関する状態を推定することができる。推定用機械学習モデルは、画像に基づく推定を可能なニューラルネットワーク(例えば、CNN)をベースとする機械学習モデルであり得る。推定用機械学習モデルは、例えば、或る被験者の特徴マップを入力用教師データとし、その被験者の疾患に関する状態を出力用教師データとして学習させることによって構築され得る。このようにして構築された推定用機械学習モデルに、新たな被験者の特徴マップを入力すると、その被験者の疾患に関する状態が出力される。
【0100】
取得手段141が複数の特徴マップを取得した場合、推定手段142は、複数の特徴マップに基づいて、被験者の疾患に関する状態を推定することができる。
【0101】
推定手段142は、例えば、複数の特徴マップから抽出される情報に基づいて、被験者の疾患に関する状態を推定することができる。推定手段142は、例えば、複数の特徴マップのそれぞれから、複数の二次クラスタの各々の頻度を算出し、算出された頻度に基づいて、疾患に関する状態を推定することができる。複数の二次クラスタの各々の頻度は、複数の二次クラスタのそれぞれの二次クラスタについて、複数の特徴マップにわたってその二次クラスタに属する画像領域の数を数え、画像領域の全体数で正規化することによって算出され得る。推定手段142は、例えば、頻度の多い二次クラスタから、被験者の疾患に関する状態を推定することができる。推定手段142は、上述した頻度のみならず、複数の特徴マップから抽出される他の任意の情報を利用することができる。
【0102】
推定手段142は、例えば、特徴マップと被験者の疾患に関する状態との関係を学習させられた推定用機械学習モデルを利用して、被験者の疾患に関する状態を推定することができる。推定用機械学習モデルは、画像に基づく推定を行うことが可能なニューラルネットワーク(例えば、CNN)をベースとする機械学習モデルであり得る。推定用機械学習モデルは、例えば、或る被験者の特徴マップを入力用教師データとし、その被験者の疾患に関する状態を出力用教師データとして学習させることによって構築され得る。このようにして構築された推定用機械学習モデルに、新たな被験者の複数の特徴マップを入力すると、それぞれの特徴マップについて、その被験者の疾患に関する状態が出力される。それらの複数の出力に基づいて、その被験者の疾患に関する状態を推定することができる。
【0103】
推定手段142は、例えば、複数の特徴マップを用いて、複数の特徴マップのうちの少なくとも1つの特徴マップ中のエラーを特定し、エラーが特定された少なくとも1つの特徴マップを除く少なくとも1つの特徴マップに基づいて、被験者の疾患に関する状態を推定することができる。例えば、複数の特徴マップのうちの第1の特徴マップにおいて、或る領域が分類された二次クラスタが、他の特徴マップの対応する領域が分類された二次クラスタと明らかに矛盾する場合、第1の特徴マップにはエラーがある可能性が高いとみなすことができる。この場合、推定手段142は、第1のマップを用いることなく、被験者の疾患に関する状態を推定することができる。エラーを含む可能性が高い特徴マップを除外して推定を行うため、推定の精度を高めることができる。
【0104】
一例において、推定手段142は、間質性肺炎を有する被験者の肺の組織画像から作成された特徴マップに基づいて、間質性肺炎のタイプの推定、例えば、間質性肺炎が通常型間質性肺炎であるか否かを推定することができる。本例において、推定手段142は、或る被験者の肺の組織画像から作成された特徴マップに含まれる複数の二次クラスタの各々について頻度を算出し、算出された頻度に対してランダムフォレストを行うことで、その被験者の間質性肺炎のタイプの推定、例えば、間質性肺炎が通常型間質性肺炎であるか否かを分類することができる。
【0105】
プロセッサ部140はさらに、推定手段142によって推定された状態に、複数の二次クラスタのうちの分類が寄与したかを分析することができる。このために、プロセッサ部140は、生存時間分析手段143と、特定手段144とをさらに備え得る。
【0106】
生存時間分析手段143は、特徴マップに基づいて、被験者の生存時間分析を行うように構成されている。生存時間分析手段143は、当該技術分野において公知または将来公知の任意の手法を用いて、生存時間分析を行うことができる。生存時間分析手段143は、例えば、カプランマイヤー法、ログ・ランク検定、コックス比例ハザードモデル等を用いて、被験者の生存時間分析を行うことができる。
【0107】
特定手段144は、生存時間分析手段143による生存時間分析の結果から、特徴マップ中の複数の二次クラスタのうち、被験者の推定された状態に寄与する少なくとも1つの二次クラスタを特定するように構成されている。特定手段144は、例えば、生存時間分析で得られたハザード比が高い二次クラスタを、推定された状態に寄与する二次クラスタとして特定することができる。ハザード比が高い二次クラスタは、例えば、最高のハザード比を有する二次クラスタ、所定の閾値以上のハザード比を有する二次クラスタ等であり得る。
【0108】
このように、推定された状態に寄与する因子が何であるかを分析することで、通常型間質性肺炎等の予後が悪い疾患の被験者に特有の因子を特定することができ、このような因子は、診断の際の指標として利用することができる。これは、正確かつ容易な診断につながり得る。
【0109】
プロセッサ部140によって推定された被験者の疾患に関する状態は、例えば、インターフェース部110を介してシステム100の外部に出力される。出力は、例えば、インターフェース部110を介して端末装置300に送信され得る。これにより、端末装置300を利用する医師は、出力を診断のための指標として利用することができる。
【0110】
上述した例では、プロセッサ部140によって被験者の疾患に関する状態を推定することを説明したが、プロセッサ部140が推定する対象はこれに限定されない。特徴マップが表す特徴に応じて、任意の事象を推定することができる。
【0111】
なお、上述したシステム100の各構成要素は、単一のハードウェア部品で構成されていてもよいし、複数のハードウェア部品で構成されていてもよい。複数のハードウェア部品で構成される場合は、各ハードウェア部品が接続される態様は問わない。各ハードウェア部品は、無線で接続されてもよいし、有線で接続されてもよい。本発明のシステム100は、特定のハードウェア構成には限定されない。プロセッサ部120、130、140をデジタル回路ではなくアナログ回路によって構成することも本発明の範囲内である。本発明のシステム100の構成は、その機能を実現できる限りにおいて上述したものに限定されない。
【0112】
【0113】
端末装置300は、インターフェース部310と、入力部320と、表示部330と、メモリ部340と、プロセッサ部350とを備える。
【0114】
インターフェース部310は、ネットワーク400を介した通信を制御する。端末装置300のプロセッサ部350は、インターフェース部310を介して、端末装置300の外部から情報を受信することが可能であり、端末装置300の外部に情報を送信することが可能である。インターフェース部310は、任意の方法で通信を制御し得る。
【0115】
入力部320は、ユーザが情報を端末装置300に入力することを可能にする。入力部320が、どのような態様で、ユーザが情報を端末装置300に入力することを可能にするかは問わない。例えば、入力部320がタッチパネルである場合には、ユーザがタッチパネルにタッチすることによって情報を入力するようにしてもよい。あるいは、入力部320がマウスである場合には、ユーザがマウスを操作することによって情報を入力するようにしてもよい。あるいは、入力部320がキーボードである場合には、ユーザがキーボードのキーを押下することによって情報を入力するようにしてもよい。あるいは、入力部がマイクである場合には、ユーザがマイクに音声を入力することによって情報を入力するようにしてもよい。あるいは、入力部がデータ読み取り装置である場合には、コンピュータシステム100に接続された記憶媒体から情報を読み取ることによって情報を入力するようにしてもよい。
【0116】
表示部330は、情報を表示するための任意のディスプレイであり得る。例えば、表示部330には、
図1Bに示されるような初期クラスタの画像が表示され得る。
【0117】
メモリ部340には、端末装置300における処理を実行するためのプログラムやそのプログラムの実行に必要とされるデータ等が格納されている。メモリ部340には、任意の機能を実装するアプリケーションが格納されていてもよい。ここで、プログラムをどのようにしてメモリ部340に格納するかは問わない。例えば、プログラムは、メモリ部340にプリインストールされていてもよい。あるいは、プログラムは、ネットワーク400を経由してダウンロードされることによってメモリ部340にインストールされるようにしてもよい。メモリ部340は、任意の記憶手段によって実装され得る。
【0118】
プロセッサ部350は、端末装置300全体の動作を制御する。プロセッサ部350は、メモリ部340に格納されているプログラムを読み出し、そのプログラムを実行する。これにより、端末装置300を所望のステップを実行する装置として機能させることが可能である。プロセッサ部350は、単一のプロセッサによって実装されてもよいし、複数のプロセッサによって実装されてもよい。
【0119】
図4に示される例では、端末装置300の各構成要素が端末装置300内に設けられているが、本発明はこれに限定されない。端末装置300の各構成要素のいずれかが端末装置300の外部に設けられることも可能である。例えば、入力部320、表示部330、メモリ部340、プロセッサ部350のそれぞれが別々のハードウェア部品で構成されている場合には、各ハードウェア部品が任意のネットワークを介して接続されてもよい。このとき、ネットワークの種類は問わない。各ハードウェア部品は、例えば、LANを介して接続されてもよいし、無線接続されてもよいし、有線接続されてもよい。端末装置300は、特定のハードウェア構成には限定されない。例えば、プロセッサ部350をデジタル回路ではなくアナログ回路によって構成することも本発明の範囲内である。端末装置300の構成は、その機能を実現できる限りにおいて上述したものに限定されない。
【0120】
3.特徴マップを出力するための機械学習モデルを作成するためのシステムにおける処理
図5は、システム100における処理の一例を示す。処理500は、特徴マップを出力するための機械学習モデルを作成するための処理である。処理500は、システム100のプロセッサ部120において実行される。
【0121】
ステップS501では、プロセッサ部120の受信手段121が、複数の学習用画像を受信する。受信手段121は、例えば、インターフェース部110を介してシステム100の外部から受信された複数の学習用画像を受信することができる。受信手段121は、例えば、複数の学習用画像を端末装置300からインターフェース部110を介して受信するようにしてもよいし、複数の学習用画像をデータベース部200からインターフェース部110を介して受信するようにしてもよいし、複数の学習用画像を他のソースからインターフェース部110を介して受信するようにしてもよい。例えば、受信手段121は、後述するステップS503で複数の二次クラスタのうちの少なくとも1つの二次クラスタに再分類された複数の学習用画像の一部(例えば、「その他」の二次クラスタに再分類された学習用画像)を受信することができる。例えば、受信手段121は、後述するステップS504で作成された機械学習モデルによって複数の二次クラスタのうちの少なくとも1つの二次クラスタに分類された複数の画像(例えば、「その他」の二次クラスタに分類された画像)を受信することができる。
【0122】
複数の学習用画像は、作成される機械学習モデルの用途に応じた任意の画像であり得る。例えば、病理組織学的に有用な特徴マップを作成するための機械学習モデルを作成するために、複数の学習用画像は、組織染色によるWSIを所定の解像度で複数の領域に細分した複数の部分画像であり得る。例えば、放射線診断に有用な特徴マップを作成するための機械学習モデルを作成するために、複数の学習用画像は、放射線画像を所定の解像度で複数の領域に細分した複数の部分画像であり得る。所定の解像度は、任意の解像度であり得、例えば、約2倍の解像度、約5倍の解像度、約10倍の解像度、約15倍の解像度、約20倍の解像度等であり得る。
【0123】
ステップS502では、プロセッサ部120の分類手段122が、ステップS502で受信された複数の学習用画像の各々を複数の初期クラスタのうちのそれぞれの初期クラスタに分類する。分類手段122は、初期機械学習モデルを用いて、複数の学習用画像の各々を複数の初期クラスタのうちのそれぞれの初期クラスタに分類することができる。初期機械学習モデルは、少なくとも、入力された1つの画像からその画像の特徴量を出力するように学習させられた任意の機械学習モデルであり得る。分類手段122は、例えば、初期機械学習モデルと、初期機械学習モデルの出力を初期クラスタにクラスタリングするクラスタリングモデルとを組み合わせて、分類を行うようにしてもよいし、入力された画像を複数の初期クラスタのうちの1つの初期クラスタに直接分類するものとして構築された初期機械学習モデルを用いて、分類を行うようにしてもよい。
【0124】
ステップS503では、プロセッサ部120の再分類手段123が、ステップS502で分類された複数の学習用画像に基づいて、複数の初期クラスタを複数の二次クラスタに再分類する。再分類手段123は、例えば、複数の初期クラスタの各々に分類された複数の学習用画像に基づいて、自動的に再分類を行うようにしてもよいし、外部からの入力に応じて再分類を行うようにしてもよい。
【0125】
外部からの入力に応じて再分類を行う場合、ステップS503では、再分類手段123が、ステップS502で分類された複数の学習用画像をユーザ(例えば、専門家またはエキスパート)に提示するステップと、複数の初期クラスタの各々を複数の二次クラスタのうちのいずれかに対応付けるユーザ入力を受信するステップと、ユーザ入力に基づいて、複数の初期クラスタを複数の二次クラスタに再分類するステップとを含むことができる。例えば、提示するステップでは、再分類手段123は、インターフェース部110を介してシステム100の外部に複数の学習用画像を出力することで、複数の学習用画像をユーザに提示することができる。複数の学習用画像は、例えば、
図1Bに示されるような態様で、端末装置300の表示部に表示され得る。ユーザは、これを見て、複数の初期クラスタの各々を複数の二次クラスタのうちのいずれかに対応付けるユーザ入力を端末装置300に入力することができる。ユーザ入力を受信するステップでは、再分類手段123は、インターフェース部110を介してユーザ入力を受信することができる。
【0126】
自動的に再分類を行う場合、再分類手段123は、例えば、ルールベースで、複数の初期クラスタを複数の二次クラスタに再分類するようにしてもよいし、別の機械学習モデルを利用して複数の初期クラスタを複数の二次クラスタに再分類するようにしてもよい。
【0127】
ステップS504では、プロセッサ部120の作成手段124が、複数の初期クラスタと複数の二次クラスタとの関係を初期機械学習モデルに学習させることにより、機械学習モデルを作成する。作成手段124は、例えば、複数の初期クラスタと複数の二次クラスタとの関係を用いて、初期機械学習モデルを転移学習させることによって、機械学習モデルを作成することができる。
【0128】
上述した処理500によって、特徴マップを出力するための機械学習モデルが作成される。このようにして作成された機械学習モデルは、画像が入力されると、その画像を複数の二次クラスタのうちの1つの二次クラスタに分類することができる。初期クラスタでは意味のある分類ではなかったとしても、二次クラスタに分類することで、意味のある分類を出力することができるようになる。これにより、意味のある分類でもって特徴モデルを作成し、出力することができるようになる。作成された機械学習モデルは、後述する処理600、処理700において利用され得る。
【0129】
例えば、ステップS504の前に、ステップS503で複数の二次クラスタのうちの少なくとも1つの二次クラスタに再分類された複数の学習用画像の一部(例えば、「その他」の二次クラスタに再分類された学習用画像)を用いて、ステップS501~ステップS503を繰り返すようにしてもよい。これにより、ステップS504で、その二次クラスタに分類された画像を細分類することが可能な機械学習モデルを作成することができるようになる。例えば、「その他」の二次クラスタに分類された画像は、有用ではないとみなされ得るか、あるいは、「アーチファクト」または「ノイズ」としてみなされる。しかしながら、「その他」の二次クラスタに分類された画像を用いて、ステップS501~ステップS503を繰り返すことによって、真に有用ではない画像と、それ以外の画像とを分類することが可能な機械学習モデルを作成することができる。例えば、画像中に目印のために用いられたインクを表すものとして二次クラスタに分類された画像に対して、ステップS501~ステップS503を繰り返すことにより、インクを表す画像と、インクではない画像とをより正確に分類することができる。
【0130】
これにより、「その他」の二次クラスタとして埋もれていた画像から、有用な情報を取得することができることがある。あるいは、「アーチファクト」または「ノイズ」としてみなされていた画像から、「アーチファクト」または「ノイズ」ではないものを抽出することができることがある。
【0131】
これは、例えば、処理500によって作成された機械学習モデルによって複数の二次クラスタのうちの少なくとも1つの二次クラスタに分類された画像(例えば、「その他」の二次クラスタに分類された画像)を用いて、処理500を繰り返すことによっても達成することができる。この場合、機械学習モデルによる出力にはノイズが含まれ得ることに留意すべきである。
【0132】
例えば、処理500によって作成された機械学習モデルによって複数の二次クラスタのうちの少なくとも1つの二次クラスタに分類された画像(例えば、「その他」の二次クラスタに分類された画像)を、再度機械学習モデルに入力することにより、その二次クラスタに分類された画像を細分類することもできる。
【0133】
図13は、細胞にインクで目印をつけた画像(a)と、その画像から作成された特徴マップを示す。
【0134】
本例では、機械学習モデルによって「アーチファクト」に分類された部分画像を再度機械学習モデルに入力し、その出力で「アーチファクト」に分類された部分画像を再度機械学習モデルに入力するという処理を繰り返した。
【0135】
図13から、アーチファクトの部分が明確に分離されていることがわかる。このようにしてアーチファクトの部分を明確に分離することができると、アーチファクト以外の部分、すなわち、着目部分の分類精度も高まり得る。
【0136】
なお、上述した例では、特徴マップを出力するための機械学習モデルが作成されることを説明したが、作成された機械学習モデルの用途は、特徴マップを出力することに限定されない。例えば、被験者の疾患の種類を判定するために用いられることができる。例えば、医師は、機械学習モデルからの出力を指標として、被験者の疾患を診断することができる。
【0137】
被験者の疾患の種類を判定するための機械学習モデルを作成する場合、ステップS501では、プロセッサ部120の受信手段121が、複数の学習用画像として、種々の疾患を有する複数の被験者の画像を受信する。例えば、複数の学習用画像は、肺癌を有する被験者から取得された画像、胃癌を有する被験者から取得された画像、肝臓癌を有する被験者から取得された画像、・・・を含み得る。画像は、例えば、組織染色のWSIであってもよいし、高解像度断層撮影画像または胸部単純X線撮影画像であってもよい。
【0138】
ステップS502では、プロセッサ部120の分類手段122が、ステップS502で受信された複数の学習用画像の各々を複数の初期クラスタのうちのそれぞれの初期クラスタに分類する。
【0139】
ステップS503では、プロセッサ部120の再分類手段123が、ステップS502で分類された複数の学習用画像に基づいて、複数の初期クラスタを複数の二次クラスタに再分類する。再分類手段123は、例えば、複数の初期クラスタの各々に分類された複数の学習用画像に基づいて、自動的に再分類を行うようにしてもよいし、外部からの入力に応じて再分類を行うようにしてもよい。再分類手段123は、各々が1つの疾患に対応する複数の二次クラスタに再分類することができる。例えば、第1の二次クラスタは、肺癌に対応し、第2の二次クラスタは、胃癌に対応し、第3の二次クラスタは、肝臓癌に対応し、・・・等、各二次クラスタがそれぞれの癌に対応することになる。これは、例えば、ユーザ(例えば、専門家またはエキスパート)が、それぞれの画像を見て、複数の初期クラスタの各々を複数の二次クラスタのうちのいずれかに対応付けるユーザ入力を端末装置300に入力することによって行われ得る。
【0140】
ステップS504では、プロセッサ部120の作成手段124が、複数の初期クラスタと複数の二次クラスタとの関係を初期機械学習モデルに学習させることにより、機械学習モデルを作成する。
【0141】
このようにして作成された機械学習モデルに、疾患が未知である被験者から取得された画像を入力すると、その画像が、どの二次クラスタに分類されるかが出力されることになり、これにより、医師は、その二次クラスタが対応する疾患が、その被験者が有する疾患であると判断することができる。
【0142】
図6は、システム100における処理の別の一例を示す。処理600は、特徴マップを作成する処理である。処理600は、システム100のプロセッサ部130において実行される。
【0143】
ステップS601では、プロセッサ部130の受信手段131が、対象画像を受信する。受信手段131は、例えば、インターフェース部110を介してシステム100の外部から受信された対象画像を受信することができる。受信手段131は、例えば、対象画像を端末装置300からインターフェース部110を介して受信するようにしてもよいし、対象画像をデータベース部200からインターフェース部110を介して受信するようにしてもよいし、対象画像を他のソースからインターフェース部110を介して受信するようにしてもよい。
【0144】
対象画像は、特徴マップを作成する対象の画像である。対象画像は、例えば、被験者の身体から取得された任意の画像(例えば、組織の組織染色WSI、放射線画像等)であり得る。
【0145】
ステップS602では、プロセッサ部130の細分手段132が、ステップS601で受信された対象画像を複数の領域画像に細分する。細分手段132は、所定の解像度で、対象画像を複数の領域画像に細分することができる。所定の解像度は、例えば、約2倍の解像度、約5倍の解像度、約10倍の解像度、約15倍の解像度、約20倍の解像度等であり得る。対象画像は、作成される特徴マップの目的に応じて、適切な解像度で細分され得る。
【0146】
ステップS603では、プロセッサ部130の分類手段133が、ステップS602で細分された複数の領域画像の各々を複数の二次クラスタのうちのそれぞれの二次クラスタに分類する。分類手段133は、複数の領域画像を機械学習モデルに入力することによって、複数の領域画像の各々をそれぞれの二次クラスタに分類することができる。機械学習モデルは、処理500によって作成された機械学習モデルであってもよいし、別様に作成された機械学習モデルであってもよい。二次クラスタは、専門家またはエキスパートの知識を反映した分類であり得るため、分類手段133による分類は、専門家またはエキスパートの知識が組み込まれたものとなり得る。
【0147】
ステップS604では、プロセッサ部130の作成手段134が、対象画像において、複数の領域画像の各々をそれぞれの分類に従って区分することにより、特徴マップを作成する。ステップS604では、作成手段134は、例えば、複数の領域画像のうち、同一の分類に属する領域画像を同一の色で着色することによって、特徴マップを作成することができる。
【0148】
このような特徴マップにより、対象画像内の複数の領域のそれぞれがどのような領域であるかを視覚的に把握することができる。対象画像からでは視覚的に分からない情報でさえも、特徴マップによって視覚的に把握することができるようになる。また、特徴マップ中の区分は、専門家またはエキスパートの知識を反映した分類に従い得るため、特徴マップは、専門家またはエキスパートの知識が組み込まれたものとなり得る。
【0149】
上述した処理600によって、特徴マップが作成される。このようにして作成された特徴マップは、後述する処理700において利用され得る。
【0150】
図7は、システム100における処理の別の一例を示す。処理700は、被験者の疾患に関する状態を推定する処理である。処理700は、システム100のプロセッサ部140において実行される。
【0151】
ステップ701では、プロセッサ部140の取得手段141が、特徴マップを取得する。特徴マップは、被験者の組織画像から作成された特徴マップである。特徴マップは、処理600によって作成された特徴マップであってもよいし、別様に作成された特徴マップであってもよい。
【0152】
取得手段141は、例えば、複数の特徴マップを取得するようにしてもよい。
【0153】
ステップS702では、プロセッサ部140の推定手段142が、特徴マップに基づいて、被験者の疾患に関する状態を推定する。ステップS702では、例えば、推定手段142は、被験者が何らかの疾患を有しているか否か、あるいは、被験者が特定の疾患(例えば、間質性肺炎(IP)、通常型間質性肺炎(UIP))を有しているか否か、あるいは、被験者が有する特定の疾患がどのタイプの疾患であるか(例えば、いずれの間質性肺炎のタイプであるか)、あるいは、被験者が有する特定の疾患の重篤度(例えば、いずれかの間質性肺炎の重篤度)を推定することができる。被験者が間質性肺炎(IP)であるか否か、通常型間質性肺炎(UIP)であるか否か、あるいは、被験者の間質性肺炎がいずれの間質性肺炎のタイプであるか、あるいは、被験者の間質性肺炎の重篤度は、例えば、被験者の肺から取得された組織画像から作成された特徴マップに基づいて推定され得る。
【0154】
推定手段142は、特徴マップから抽出される情報に基づいて、被験者の疾患に関する状態を推定することができる。特徴マップから抽出される情報は、例えば、複数の二次クラスタの各々の頻度であってもよいし、特徴マップ中の各二次クラスタの位置情報であってもよいし、特徴マップの画像自体であってもよい。
【0155】
ステップS701で複数の特徴マップが取得された場合、ステップS702では、推定手段142は、複数の特徴マップに基づいて、被験者の疾患に関する状態を推定することができる。
【0156】
推定手段142は、例えば、複数の特徴マップから抽出される情報に基づいて、被験者の疾患に関する状態を推定するようにしてもよいし、複数の特徴マップを用いて、複数の特徴マップのうちの少なくとも1つの特徴マップ中のエラーを特定し、エラーが特定された少なくとも1つの特徴マップを除く少なくとも1つの特徴マップに基づいて、被験者の疾患に関する状態を推定するようにしてもよい。複数の特徴マップを利用することにより、推定に用いる情報が増え、かつ/または、エラーの少ない情報を用いることができるため、推定の精度を高めることができる。
【0157】
処理700によって推定された被験者の状態は、例えば、医師に提供され、医師は、これを診断のための指標として利用することができる。処理700によって推定された被験者の状態は、専門家またはエキスパートの知識が組み込まれたものであり得る特徴マップに従って推定されたものであるため、精度および信頼性が高いものとなり得る。
【0158】
処理700は、さらに、ステップS702で推定された状態に、複数の二次クラスタのうちのどの分類が寄与したかを分析するために、ステップS703、ステップS704を含むことができる。
【0159】
ステップS703では、プロセッサ部140の生存時間分析手段143が、特徴マップに基づいて、被験者の生存時間分析を行う。生存時間分析手段143は、例えば、カプランマイヤー法、ログ・ランク検定、コックス比例ハザードモデル等を用いて、被験者の生存時間分析を行うことができる。
【0160】
ステップS704では、プロセッサ部140特定手段144が、ステップS703での生存時間分析の結果から、特徴マップ中の複数の二次クラスタのうち、被験者の推定された状態に寄与する少なくとも1つの二次クラスタを特定する。特定手段144は、例えば、ステップS703での生存時間分析で得られたハザード比が高い二次クラスタ(例えば、最高のハザード比を有する二次クラスタ、所定の閾値以上のハザード比を有する二次クラスタ等)を、推定された状態に寄与する二次クラスタとして特定することができる。
【0161】
このように、推定された状態に寄与する因子が何であるかを分析することで、通常型間質性肺炎等の予後が悪い疾患の被験者に特有の因子を特定することができ、このような因子は、診断の際の指標として利用することができる。これは、正確かつ容易な診断につながり得る。
【0162】
図5、
図6、
図7を参照して上述した例では、特定の順序で処理が行われることを説明したが、各処理の順序は説明されたものに限定されず、論理的に可能な任意の順序で行われ得る。
【0163】
図5、
図6、
図7を参照して上述した例では、
図5、
図6、
図7に示される各ステップの処理は、プロセッサ部120、プロセッサ部130、またはプロセッサ部140とメモリ部150に格納されたプログラムとによって実現することが説明されたが、本発明はこれに限定されない。
図5、
図6、
図7に示される各ステップの処理のうちの少なくとも1つは、制御回路などのハードウェア構成によって実現されてもよい。あるいは、
図5、
図6、
図7に示される各ステップのうちの少なくとも1つは、人がコンピュータシステムまたは計測機器を用いて行うようにしてもよい。
【0164】
上述した例では、システム100がサーバ装置として実装されることを例に説明してきたが、本発明は、これに限定されない。システム100は、任意の情報端末装置(例えば、端末装置300)によって実装されることもできる。
【0165】
上述した例では、機械学習モデルを用いて特徴マップを出力することを説明したが、本発明のシステム100によって出力される機械学習モデルは、特徴マップ専用の機械学習モデルに限定されない。システム100は、分類用の機械学習モデルを作成するために利用されることができる。システム100は、画像以外の任意の学習用データを初期機械学習モデルに学習させることにより、画像以外のデータであっても、意味のある分類を出力することが可能な機械学習モデルを作成することができる。これは、複数の学習用画像が複数の学習用データとなることを除いて、上述した処理500と同様の処理によって達成されることができる。
【0166】
例えば、学習用データとして、遺伝子配列データを利用することができる。この場合、再分類手段123は、遺伝学の専門家またはエキスパートによるユーザ入力を受信して、これに従って再分類することが好ましい。このようにして作成された機械学習モデルは、遺伝学的に意味のある分類で、入力された遺伝子配列データを分類することができるようになる。
【0167】
例えば、学習用データとして、病理レポートデータを利用することができる。この場合、再分類手段123は、病理学の専門家またはエキスパートによるユーザ入力を受信して、これに従って再分類することが好ましい。これによって作成された機械学習モデルは、病理レポートとして意味のある分類で、入力された病理レポートデータを分類することができるようになる。
【0168】
上述した例では、特徴マップを用いて被験者の疾患に関する状態を推定することを説明したが、本発明のシステム100は、他の任意の状態を推定することもできる。例えば、医療処置(例えば、手術、薬剤投与等)による治療効果の判定、医療処置(例えば、手術、薬剤投与等)による生命予後予測を行うこともできる。
【0169】
本発明は、上述した実施形態に限定されるものではない。本発明は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。当業者は、本発明の具体的な好ましい実施形態の記載から、本発明の記載および技術常識に基づいて等価な範囲を実施することができることが理解される。
【実施例】
【0170】
(初期機械学習モデルの作成)
ライカバイオシステムズ製Aperio CS2スキャナを用いて、組織染色のWSIを20倍の倍率でスキャンした。WSIには、間質性肺炎ファミリに属する疾患(IPF/UIP、関節リウマチ、全身性硬化症、びまん性肺胞障害、胸膜肺実質線維弾性症、器質性肺炎、サルコイドーシスの症状)を有する被験者53名(男性31名、女性22名、平均年齢59.57歳(標準偏差11.91))からの画像が含まれていた。WSIを、2.5倍の解像度、5倍の解像度、20倍の解像度で、280×280ピクセルの画像に細分した。
【0171】
151枚のWSIを用いて、2.5倍の解像度、5倍の解像度、20倍の解像度のそれぞれの細分された画像による自己教師あり学習によって初期機械学習モデルを作成した。初期機械学習モデルのベースとして、128次元のベクトルからなる特徴量を出力するCNN(ResNet18)を利用した。
【0172】
このとき、各画像を、ランダムにひっくり返し、または、0°~20°の間で回転させることにより、学習用データを拡張した。さらに、ResNet18の元の次元に合うように、244×244のサイズにランダムに切り取った。
【0173】
(クラスタリング)
初期機械学習モデルに、151枚のWSIを用いて、2.5倍の解像度、5倍の解像度、20倍の解像度のそれぞれの細分された画像を入力し、それぞれを128次元のベクトルに量子化した。それぞれの128次元のベクトルについて、k-means法により、クラスタリングすることにより、複数の初期クラスタのそれぞれの初期クラスタに分類した。
【0174】
(再分類)
初期クラスタに分類された画像を2名の病理医に提示し、病理医に、病理学的に意味のある二次クラスタに再分類させた。
【0175】
(機械学習モデルの作成)
再分類の結果を用いて、初期機械学習モデルのCNNをファインチューニングすることによって転移学習した。このとき、全結合層の重みのみならず、前層のパラメータも最適化した。
【0176】
(機械学習モデルの使用)
182の肺生検例からのWSIを上記の機械学習モデルに入力し、得られた分類に基づいて、特徴マップを作成した。
【0177】
【0178】
図8では、入力されたWSI、2.5倍の解像度で作成された機械学習モデルからの出力に従って作成した特徴マップ、5倍の解像度で作成された機械学習モデルからの出力に従って作成した特徴マップ、20倍の解像度で作成された機械学習モデルからの出力に従って作成した特徴マップが示されている。医師に、これらの特徴マップから被験者の疾患を診断させた。
【0179】
Case1では、被験者は、その特徴マップから、Definite UIP、および、UIP/IPFであると診断された。
Case2では、被験者は、その特徴マップから、Probable UIP、および、SSc-IPであると診断された。
Case3では、被験者は、その特徴マップから、Definite NSIPであると診断された。
Case4では、被験者は、その特徴マップから、Cellular and fibrotic NSIPであると診断された。
【0180】
(UIP診断1)
上記の機械学習モデルの出力を利用して、5倍の解像度で作成した特徴マップに含まれる複数の所見(二次クラスタ)に基づいて、UIPであるか否かを推定した。また、比較例として、初期機械学習モデルからの出力をクラスタリングした結果に基づいて、UIPであるか否かを推定した。クラスタリングにおけるクラスタの数を、4、8、10、20、30、50、80と変動させて、それぞれの場合でUIPであるか否かを推定した。推定は、ランダムフォレストを用いて行った。
【0181】
図9Aは、上記の機械学習モデルの出力に基づいた推定の結果を示し、
図9Bは、初期機械学習モデルの出力に基づいた推定の結果を示す。
【0182】
図9A(a)は、ランダムフォレストにおける各特徴量の重要度を算出した結果を示す表であり、ここでは、UIP予測に対する各所見(二次クラスタ)の重要度を示している。本例では、「CellularIP/NSIP」および「Acellular fibrosis」という所見(二次クラスタ)が、UIPであるか否かの推定に重要であったことを示した。
【0183】
図9A(b)は、ROC曲線(Receiver Operating Characteristic curve、受信者動作特性曲線)を示している。AUC(Area Under the Curve、曲線下面積)は、推定の精度を表し、0.90と高い値であった。
【0184】
図9Bでは、初期機械学習モデルによる出力からの推定では、AUCがせいぜい0.65(クラスタ数8の場合)であった。上記の機械学習モデルの出力に基づいた推定の精度が、初期機械学習モデルの出力に基づいた推定の精度よりも有意に高かったことが分かる。
【0185】
(UIP診断2)
2.5倍の解像度で作成した特徴マップ、5倍の解像度で作成した特徴マップ、20倍の解像度で作成した特徴マップのそれぞれおよびそれらの組み合わせを用いて、それぞれの特徴マップに含まれる複数の所見(二次クラスタ)に基づいて、UIPであるか否かを推定した。ランダムフォレストを用いて推定を行った。
【0186】
図10は、その結果を示す。2.5倍の解像度で作成した特徴マップを用いてUIP推定を行った場合、AUCは、0.68であった。5倍の解像度で作成した特徴マップを用いてUIP推定を行った場合、AUCは、0.90であった。20倍の解像度で作成した特徴マップを用いてUIP推定を行った場合、AUCは、0.90であった。2.5倍の解像度で作成した特徴マップと5倍の解像度で作成した特徴マップとを用いてUIP推定を行った場合、AUCは、0.88であった。5の解像度で作成した特徴マップと20倍の解像度で作成した特徴マップとを用いてUIP推定を行った場合、AUCは、0.92であった。2.5倍の解像度で作成した特徴マップと20倍の解像度で作成した特徴マップとを用いてUIP推定を行った場合、AUCは、0.89であった。2.5倍の解像度で作成した特徴マップと5倍の解像度で作成した特徴マップと20倍の解像度で作成した特徴マップとを用いてUIP推定を行った場合、AUCは、0.92であった。このように、2.5倍の解像度で作成した特徴マップを単独で用いた場合を除いて、それぞれの場合で高い精度であったことが分かる。また、
図9Bに示される初期機械学習モデルの出力に基づいた推定の精度よりも高い精度であったことが分かる。
【0187】
図11は、2.5倍の解像度で作成した特徴マップと5倍の解像度で作成した特徴マップと20倍の解像度で作成した特徴マップとの組み合わせを用いて、UIP推定を行った結果を示す。
【0188】
図11(a)は、ランダムフォレストにおける各特徴量の重要度を算出した結果を示す表であり、ここでは、UIP予測に対する各所見(二次クラスタ)の重要度を示している。本例では、「CellularIP/NSIP」および「Fat」という所見(二次クラスタ)が、UIPであるか否かの推定に重要であったことを示した。
【0189】
図11(b)は、ROC曲線(Receiver Operating Characteristic curve、受信者動作特性曲線)を示している。AUC(Area Under the Curve、曲線下面積)は、
図10に示されたとおり、0.92と高い値であった。
【0190】
(生命予後分析)
2.5倍の解像度で作成した特徴マップ、5倍の解像度で作成した特徴マップ、20倍の解像度で作成した特徴マップのすべてを用いて、生命予後(Overall survival)に対する各所見(二次クラスタ)のハザード比(Hazard ratio:HR)を算出した。コックス比例ハザードモデルを用いて算出を行った。
【0191】
図12Aは、病理医によってUIPとして診断された症例について、コックス比例ハザードモデルを用いて算出を行った結果を示す。本例では、「Fibroblastic focus」という所見(二次クラスタ)が予後不良因子であることを示した。すなわち、UIPとして診断される被験者では、「Fibroblastic focus」という所見があると、予後が悪い可能性が高いことが示された。
【0192】
図12Bは、病理医によってUIPとして診断されなかった症例について、コックス比例ハザードモデルを用いて算出を行った結果を示す。本例では、「Lymphocytes」という所見(二次クラスタ)が予後不良因子であることを示した。すなわち、UIPとして診断されなかった被験者では、「Lymphocytes」という所見があると、予後が悪い可能性が高いことが示された。
【0193】
このように、本発明の機械学習モデルによって作成される特徴マップを用いると、種々の解析を行うことができ、これを診断に用いることにより、診断の精度を向上させることができる。
【0194】
(CT画像への適用)
肺のCT画像を用いて、初期機械学習モデルの作成、クラスタリング、および再分類によって機械学習モデルを作成した。
【0195】
60例の間質性肺炎患者から得られた高解像度CT画像において、肺野領域を抽出し、この中32ピクセル×32ピクセルのパッチを得た。こうして得られたパッチに対し、自己教師あり学習を行うことで、間質性肺炎のCT画像に最適化された特徴抽出器が得られた。
【0196】
得られた特徴抽出器を用いて、同一の60症例のパッチを特徴量に変換し、クラスタリングを行うことで、複数の初期クラスタを得た。間質性肺炎の専門家がこれらの初期クラスタを統合し、医学的に有意な所見に再編することにより、効率的にタイルに対するラベリングを行うことができた。このラベリングをもとに、パッチを、複数の二次クラスタに対応する所見に分類する機械学習モデルを構築した。
【0197】
図14は、このようにして構築された機械学習モデルに高解像度CT画像の肺野領域を入力したときの例を示す。
【0198】
図14から分かるように、本発明の機械学習モデルを高解像度CT画像の肺野領域に適用することで、CTの局所的な所見を、医学的に意味のある所見に分類することができた。
【産業上の利用可能性】
【0199】
本発明は、人間の知識を組み込むことが可能な機械学習モデルを提供するものとして有用である。
【符号の説明】
【0200】
100 システム
110 インターフェース部
120、130、140 プロセッサ部
150 メモリ部
200 データベース部
300 端末装置
400 ネットワーク