(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-15
(45)【発行日】2024-10-23
(54)【発明の名称】機械学習ガイド付き撮影システム
(51)【国際特許分類】
A61B 3/10 20060101AFI20241016BHJP
【FI】
A61B3/10 100
(21)【出願番号】P 2021107210
(22)【出願日】2021-06-29
(62)【分割の表示】P 2018241158の分割
【原出願日】2018-12-25
【審査請求日】2021-06-30
【審判番号】
【審判請求日】2023-06-08
(32)【優先日】2017-12-28
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2018-12-06
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】000220343
【氏名又は名称】株式会社トプコン
(74)【代理人】
【識別番号】100124626
【氏名又は名称】榎並 智和
(72)【発明者】
【氏名】マオ・ツァイシン
(72)【発明者】
【氏名】ワング・ゼングォ
(72)【発明者】
【氏名】チャン・キンプイ
(72)【発明者】
【氏名】リュー・ジョナサン
(72)【発明者】
【氏名】キム・ヨンシク
【合議体】
【審判長】三崎 仁
【審判官】伊藤 幸仙
【審判官】▲高▼見 重雄
(56)【参考文献】
【文献】特開2014-42649(JP,A)
【文献】特開2014-108351(JP,A)
【文献】米国特許第11132797(US,B2)
【文献】欧州特許出願公開第3510917(EP,A1)
【文献】GONDAL M. Waleed et al.,”WEAKLY-SUPERVISED LOCALIZATION OF DIABETIC RETINOPATHY LESIONS IN RETINAL FUNDUS IMAGES”,2017 IEEE International Conference on Image Processing (ICIP),2017年09月20日,pp.2069-2073
(58)【調査した分野】(Int.Cl.,DB名)
A61B 3/00 - 3/18
(57)【特許請求の範囲】
【請求項1】
網膜の第1の3次元OCTボリュームを取得し、前記第1の3次元OCTボリュームから水平画像を取得する水平画像取得部と、
畳み込みニューラルネットワークを含み、前記水平画像に基づいて特定の網膜症の有無を特定する半教師あり機械学習システムと、
前記半教師あり機械学習システムに
よって学習済みフィルタ中の情報をクラス活性化マップで取得し、前記クラス活性化マップの画素値を所定の閾値と比較することにより、前記特定の網膜症の有無の特定に寄与した前記水平画像の領域を前記水平画像における関心領域として特定する関心領域特定部と、
特定された前記関心領域の位置に基づき前記第1の3次元OCTボリュームよりも狭い領域に限定された前記網膜のスキャン対象エリアに前記第1の3次元OCTボリュームよりも高解像度の第2の3次元OCTボリュームを取得するための3次元OCTスキャンを適用することによって、前記関心領域の前記位置に対応する前記網膜の部分の画像を生成する画像生成部と
を含む、眼科撮影システム。
【請求項2】
前記画像生成部は、前記関心領域特定部による前記関心領域の特定に対応して自動制御されることによって前記3次元OCTスキャンを行う、
請求項
1の眼科撮影システム。
【請求項3】
前記画像生成部は、前記関心領域の前記位置に対応する前記第1の3次元OCTボリュームの関連ボリュームを求める、
請求項1
又は2の眼科撮影システム。
【請求項4】
前記画像生成部により生成された前記画像は、今後の解析又は検討のために保存される、
請求項1~
3のいずれかの眼科撮影システム。
【請求項5】
保存された前記画像は、解析又は報告される、
請求項
4の眼科撮影システム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本願は、2017年12月28日に出願された“MACHINE LEARNING GUIDED IMAGING SYSTEM(機械学習ガイド付き撮影システム)”と題する米国仮特許出願第62/611,352に基づく優先権を主張し、その全体が参照により本明細書に援用される。
【背景技術】
【0002】
眼の内部を撮影するための様々なモダリティが存在する。これらのモダリティから得た情報は、眼の健康状態を診断するために用いることが可能である。これらのモダリティを組み合わせると、疾患の診断及び予後に関する重要な手がかりを得ることができる。例えば、眼底撮影は、一回の測定で広い視野をカバーする技術であるが、眼の外面を画像化することしかできない。眼底撮影には深度情報が欠けているため、眼の内部の異常に関する更なる評価を眼底撮影だけで行うことはできない。一方、例えば、光コヒーレンストモグラフィ(OCT)は深度情報を提供することが可能である。しかしながら、OCTの視野には制限があることがあり、そのため、特定のスキャン領域を特定する必要がある場合がある。より大量のデータを得るために3D-OCTが存在するが、視覚スクリーニングを目的とする解析や管理を行うにはデータサイズが大きすぎることが度々ある。
【0003】
また、OCTシステムを動作させるためには、多くの場合、高いコストや技術的な知識が必要とされる。そのため、通常、システムを購入することができ、且つ、OCT撮影を実行するための関心領域(ROI)の特定や手動選択ができるように訓練された眼科医のみがOCTシステムを用いている。これらのROIは、(例えば、眼底撮影で得られた)正面眼底検査画像(en-face ophthalmoscopy image)に基づいて、眼科医などの知識豊富な専門家によって事前に特定可能である。例えば、眼底撮影は、眼の外面上に見られる網膜病変(又はその他の異常)を特定するために最初に用いられてもよい。これらの病変を含む領域は、その後、専門家によってROIとして特定され、更に、OCTによって撮影される。
【0004】
OCTシステムは、コスト面において以前より導入しやすくなり、既存の眼底カメラと一緒に使用することが可能になってきているが、双方の撮影モダリティの機能を十分に活用できるほど熟練されているユーザは依然として多くない。特に、正面眼底画像に基づいて、OCT撮影のために適切なROIを見つけ出すことは困難である。スクリーニング目的での撮影では、時間に制限があり、また、もし疾患があるとしてもそのタイプが知らされていないため、ROIを見つける困難性は増加する。このため、適切なROIを選択することは、人的ミスの影響を受けやすく、また、ユーザの知識の制約を受ける。ROIの選択がいくらか自動化されたとしても、自動化は依然として、手動で定義された規則の集合(例えば、色、向き、領域サイズ)に基づくものであり、これら規則は、特定の既知の疾患に基づくものに過ぎないか、又は、特定の既知の疾患を特定するのに有用であるに過ぎない。これら手動で定義された規則は、それぞれのアルゴリズム及びそれぞれの疾患に向けたものであるため、それらの適用性には制限があり、疾患が未知である場合には、多くの異なる解析を実施しなければならない。
【発明の概要】
【発明が解決しようとする課題】
【0005】
したがって、これまでに提案されている眼底撮影/OCT撮影の複合システムには、上記の欠点が依然として存在する。
【課題を解決するための手段】
【0006】
上記に鑑み、本開示は、眼底画像を取得可能であり、その眼底画像から眼の関心領域(ROI)を自動で特定可能であり、特定されたROIの撮影を実行可能なマルチモーダル撮影システム及び方法に関する。得られた画像は、スクリーニングのために臨床的に関連性のある情報を提供できる。ROIを自動的に特定することによって、専門的な撮影を実行するための専門家の介入は必ずしも必要とされなくなる。したがって、そのような撮影や解析をより安価に且つより多くの施設及び対象(被検者)に提供できるようになる。
【0007】
第1の例によれば、撮影方法は、物体の水平画像を生成し、半教師あり機械学習システムを用いて、前記水平画像に基づいて前記物体の関心領域(ROI)を自動的に特定し、特定された前記ROIにおける前記物体の第2画像を生成し、前記第2画像は前記物体の深度情報を含む。上記の例の様々な実施形態において、以下のいずれか1以上を採用できる:前記水平画像は、カラー眼底画像、赤外眼底画像、走査型レーザ検眼鏡(SLO)画像、又は、3次元光コヒーレンストモグラフィ(OCT)スキャンデータに由来する画像である;前記第2画像はOCT画像である;前記水平画像は、3次元光コヒーレンストモグラフィ(OCT)スキャンデータに由来し、前記第2画像は、前記特定されたROIに対応する前記3次元OCTスキャンデータの部分を抽出して生成されたOCT画像である;更に、前記特定されたROIに対応しない前記3次元OCTスキャンデータの部分を廃棄する;更に、前記第2画像を表示する;更に、特定された関心領域の確率を決定し、前記確率は、前記半教師あり機械学習システムにより決定された前記物体の異常を前記関心領域が表す確率を示す;更に、前記水平画像にオーバーレイされた前記確率のヒートマップを表示する;前記第2画像は、前記関心領域の複数のBスキャンから生成される;前記水平画像は、3次元サーベイ画像に由来し、前記第2画像は、前記水平画像よりも高い密度を有する;前記水平画像は、3次元サーベイ画像であり、前記第2画像は、前記特定されたROIが撮影された3次元光コヒーレンストモグラフィ(OCT)画像である;更に、前記第2画像に対応するデータのみを格納し、又は、前記特定されたROIに関連しない前記水平画像に対応するデータを破棄する;前記物体は眼である;前記半教師あり機械学習システムは、畳み込みニューラルネットワークを含む;前記ROIは、前記半教師あり機械学習システムのクラス活性化マップを取得することによって特定される。
【0008】
他の例によれば、画像解析方法は、訓練された半教師あり機械学習システムを用いるものであり、物体の水平画像を対象から受信し、受信された前記水平画像に基づいて、訓練された半教師あり機械学習システムの出力として前記物体の異常を特定し、異常を特定するために使用される訓練された半教師あり機械学習の情報を抽出し、前記水平画像における関心領域を、前記異常の特定に寄与した水平画像の領域として特定し、前記半教師あり機械学習システムは、異なる複数の対象からの前記物体の複数の水平画像を用いて前記物体の異常を特定するように訓練される。
【0009】
この第2の例の様々な実施形態において、以下のいずれか1以上を採用できる:前記訓練された半教師あり機械学習システムは、畳み込みニューラルネットワークである;前記異常は網膜症障害である;前記訓練された半教師あり機械学習システムの前記情報は、クラス活性化マップを決定することによって抽出される;前記関心領域は、前記決定されたクラス活性化マップの画素値を所定の閾値と比較することによって特定される。
【図面の簡単な説明】
【0010】
【
図1】本明細書に記載のシステム及び方法の動作例を表す。
【0011】
【
図2】畳み込みニューラルネットワークのフレームワークの一例を表す。
【0012】
【
図3】畳み込みニューラルネットワークの畳み込み層の一例を表す。
【0013】
【
図4】複数の畳み込み層と付属のグローバル活性化プーリング層(global activation pooling layer)とを有する畳み込みニューラルネットワークの一例を表す。
【0014】
【
図5】検出された異常領域及び異常の確率を示すヒートマップの一例を表す。
【0015】
【
図6】高血圧性及び動脈硬化性網膜症を有する眼の画像のヒートマップの一例を表す。
【0016】
【
図7】微小動脈瘤を有する眼の画像のヒートマップの一例を表す。
【0017】
【
図8】背景糖尿病性網膜症を有する眼の画像のヒートマップの一例を表す。
【0018】
【
図9】クラス活性化マップ(class activation map)の適用の一例を示すフローチャートである。
【0019】
【
図10】クラス活性化マップの適用の他の一例を示すフローチャートである。
【0020】
【
図11】クラス活性化マップの適用の更に他の一例を示すフローチャートである。
【0021】
【
図12】本明細書に記載のシステムの一例を表す概略図である。
【発明を実施するための形態】
【0022】
上記に鑑み、本明細書は、一般に、眼底画像を撮影可能であり、その眼底画像から眼の関心領域(ROI)を自動的に特定可能であり、特定されたROIのOCT撮影を実行可能であって、スクリーニングのために臨床的に関連性のある情報を提供することが可能なマルチモーダル撮影システム及び方法に関する。これにより、本明細書に記載のシステム及び方法は、専門家の介入を必要としない自動化されたカラー眼底撮影及びOCT撮影を提供することができる。したがって、そのような撮影及び解析を、より多くの施設においてより多くの被検者に提供することができる。なお、本説明は、眼底撮影及びOCT撮影に限定されるものではなく、眼科撮影に限定されるものですらない。本明細書に記載の特徴は、任意の補足的な撮影モダリティ、又はMRI、CT、超音波などの一般的なモダリティを用いる方法に適用することができ、更に、任意の生理学的な構造又は他の物体に適用することができる。
【0023】
ROIの自動特定は、眼底画像内における網膜の異常の自動検出を含む。検出可能な異常の範囲は、結果として得られる撮影システムの使用性に影響を及ぼす。例えば、一種類又は少数の種類の病変しかシステムが検出できない場合においては、被検者の網膜症が、偶然、当該システムにより検出可能な一種類又は少数の種類の病変のうちの1つでない限り、被検者の未知の網膜症(又は他の疾患)の同定にはほとんど役に立たないであろう。一方、多くの種類の病変を特定することができるシステムであっても、解析に長い時間がかかる場合(例えば、多数の特定の病変検出プロセスを単純に組み合わせた場合)においては、スピード、費用、及び使いやすさが望まれる場面でほとんど役に立たないであろう。つまり、本明細書に記載の網膜異常の自動検出及び関心領域の自動特定は、システムの汎用性と効率性の両方を考慮したものである。
【0024】
本開示の実施形態によれば、網膜異常の自動検出及びROIの自動特定は、機械学習システムを用いて行われる。それと共に、(例えば、眼底撮影などによって)被検者の眼が撮影され、それにより得られた画像が機械学習システムに入力される。機械学習システムからの出力は、更なる解析又は撮影に有用なデータを提供する。
【0025】
ディープラーニングのような幾つかの機械学習技術は、被検者の眼が健康ではないことを特定することができるが、眼やその画像における特定の網膜症や特定のROIを同定することはできない。この制限は、教師あり機械学習において、入力(本例では、被検者の眼底画像)に基づいてターゲット(本例では、被検者が健康であるか否か)を正しく予測するように機械が訓練される、という事実に起因する。機械に病変の位置を予測させるためには、まず、画素レベルでラベル付けされた画像によって機械を訓練する必要がある。言い換えると、画像の各画素に対し、撮影された病変の一部であるかどうかを示すためのラベル付けが行われる。このアプローチは多大な労働力を要し、アノテーター(annotator)の知識への感受性が高いため、ミスにより病変が見逃されやすく、システムの感度を著しく低下させる可能性がある。
【0026】
対照的に、以下に開示されるような弱教師あり(又は、半教師あり)機械学習は、この問題の克服に貢献することができる。弱教師あり学習を用いると、ターゲットに関する予測(被検者が健康であるか否か)を出力する代わりに、予測がどのように行われたかに関する情報が学習されたシステムから抽出される。例えば、抽出される情報は、システムが認識し、被検者が不健康であると特定するために用いた病変又は異常の位置であってよい。したがって、このような半教師あり機械学習技術は、例えば、入力された眼底画像内の関心領域を自動的に特定し、その関心領域内に第2モダリティ(例えば、OCT)での撮影をガイドすることができる。言い換えると、このような弱教師あり機械学習システムは、例えば、複数の種類の網膜症を検出できるなど、汎用的な網膜異常検出を提供することができる。その結果、疾患の種類にかかわらず、すべての被検者に本明細書に記載のシステム及び方法を適用することが可能である。これは、スクリーニングを目的とする場合に特に有効と言える。
【0027】
手短に言えば、
図1に示すように、説明されるシステム及び方法は以下のように動作する。まず、眼底などの画像が取り込まれる(100)。次に、取り込まれた眼底画像がニューラルネットワーク又は他の機械学習システムに入力される(102)。ニューラルネットワーク又は他の機械学習システムはその眼底画像を解析し、例えば、特定の網膜症の有無を判断する。機械学習システムから抽出された情報(例えば、入力に基づいて機械がどのように特定の出力を求めたかに関する情報)を用いて、1つ以上の関心領域が特定される(104)。換言すると、本開示は、機械学習システムが、入力画像(例えば、眼の眼底画像)に基づき生成した出力(例えば、網膜症)がどのように生成されたか認識するものであり、この入力画像は異常を有する画像(及びそれに相当する眼)の領域の特定に使用可能であり、この異常は機械学習システムにこの異常に関連する特定の網膜症を出力させた可能性があるものである。特定されたそれらの領域は、例えば、追加撮影によってより詳細に解析することができる(106)。
【0028】
上述のように、機械学習システムはニューラルネットワークを含んでもよい。ニューラルネットワークは任意のタイプであってよく、例えば、畳み込みニューラルネットワーク(CNN)であってよい。本明細書には、一例として畳み込みニューラルネットワーク(CNN)が記載されているが、これに限定されるものではない。CNN(又は他のニューラルネットワーク)は、(例えば、共にカラー眼底画像である)健常眼の入力画像と病眼の入力画像とを判別するように訓練される。言い換えれば、「その内部において(under the hood)」CNNは健常眼の眼底画像と病眼の眼底画像とがどのように見えるかに関するモデルを構築する。このフレームワークは、
図2のフローチャートに示されている。
図2から分かるように、深層畳み込みニューラルネットワーク200は、健常眼の既知の画像202と病眼の既知の画像204とを入力することによって訓練される。これらの既知の画像202及び204に基づいて、ニューラルネットワーク200は健常眼の画像がどのように見えるか示すモデル206と、病眼の画像がどのように見えるか示すモデル208とを構築することができる。高いレベルでは、病眼モデル208は、既知の病眼画像に照応する(一致する、合致する、マッチする)眼の画像の部分を認識することができる(210)。訓練されたニューラルネットワーク200は、入力された画像のいずれかが健常眼モデル206又は病眼モデル208に照応するか否かの判断結果を出力することができ、更に、その画像のどの部分が病眼モデル208に照応しているかの判断結果を出力することができる(212)。これにより、網膜症に関連づけられた異常のある領域を特定することができる。例えば、入力された眼底画像が病眼モデル208に照応する領域として、これを特定することができる。
【0029】
CNNは、ヒトの生理学的視覚系を模した一種の機械学習モデルである。
図3に示すように、CNNのコアには、フィルタと活性化マップとを含む畳み込み層が含まれる。
図3に示されているように、(カーネルとしても知られている)フィルタは、入力画像(6×6画素を有する)の一つの小さなパッチをまとめて考察し、活性化マップ中の対応画素の活性化値を計算する。(3×3画素を有する)パッチのサイズは、フィルタのそれと等しい。入力画像全体にフィルタを適用することで、活性化マップの各画素の活性化値が生成される。活性化値は、フィルタ及び入力画像のパッチの画素値に対して畳み込み演算を実行することによって求められる。したがって、入力画像の小さなパッチのパターンとフィルタのパターンとの一致度が高いほど、活性化値は高くなる。逆に、一致度が低いほど、活性化値は低くなる。もちろん、結果として得られる値の意味が理解される限りにおいて、演算に基づきこの関係を逆転することができる。このように、フィルタは、入力画像をその内容に基づいて活性化マップに効果的にフィルタリングする。フィルタと畳み込み層の特定の組み合わせは、特定の機械学習モデルの構成要素となる。
【0030】
図3の例によれば、畳み込み演算は、各フィルタの画素値の積とそれに対応する入力画像の画素値とを加算し、この加算値(和)をフィルタの中央画素に対応する活性化マップの画素の活性化値として割り当てる。言い換えれば、この演算は、パッチとフィルタとの間における画素単位の乗算に対応する。したがって、
図3の例において、(太線で特定される入力画像の最初の3行及び3列を含むパッチに対して演算が実行された場合、)活性化マップの2行目且つ2列目の画素の活性化値は、0×4 + 0×0 + 0×0 + 0×0 + 1×0 + 1×0 + 0×0 + 1×0 + 2×(-4)= -8である。
【0031】
フィルタの形状はそのサイズによって制限及び制約されているように見えるかもしれないが、CNNは、複数の畳み込み層を連続的に積み重ね、それぞれ異なる目的や機能を有する複数のフィルタを入力画像に効果的に適用してもよい。このように、複雑な物体を特定できるようにCNNの複数のフィルタを設計することができる。
【0032】
上述のように、CNNは、複数の画像(例えば、眼底画像)と、各画像に関連付けられた既知の網膜症(例えば、特定の疾患の同定を含み、健常眼であるか病眼であるか)を入力することによって訓練させることができる。訓練中に、CNNは1組のフィルタを学習する。1組のフィルタは、健康な被検者の画像と病気の被検者の画像とを最もよく区別し、その被検者が病気である確率や特定の網膜症を有する確率を推定する。結果として、特定の網膜症について訓練されたCNNの学習済みフィルタ内において網膜異常の情報を発見することができる。言い換えれば、学習済みフィルタは、(例えば、眼底画像において病変が現れる場所を特定することにより)潜在的な関心領域の特定に使用できる情報を含む。この情報が学習済みフィルタから抽出されたら、それを入力画像に適用することで、入力画像のどの部分が病眼モデルに照応するか特定することによりそれら関心領域を特定することができる。
【0033】
そのために、クラス活性化マップ(CAM)又は同様の方法を用いて、CNNの学習済みフィルタ中の情報を取得することができる。CAMに関する本明細書における説明は例示的なものに過ぎず、本開示はCAMに限定されるものではない。むしろ、学習済みニューラルネットワーク又は他の機械学習アルゴリズムの情報を抽出するための任意の方法が使用されてもよい。この例では、CNNの最後の畳み込み層にグローバル活性化プーリング(GAP)層を取り付けることによって、CAMが得られる。GAPは、多数の画素を有する複数の最後の活性化マップを単一の(又は、少なくとも、より少ない個数の)代表値に変換する。例えば、最後の畳み込み層がk個のフィルタを有し、且つ、k番目のフィルタの活性化マップがA
kであると仮定すると、数式1が表すように、GAPは、k番目のフィルタの活性化マップA
kにおいて、全画素の平均値として求められる。ここで、i及びjはi番目且つj番目の画素を示す。
【数1】
【0034】
図4は、複数の畳み込み層と付属のGAP層とを有するCNNの一例を示す。
図4に見られるように、眼底画像がCNNに入力され、CNNは、第1畳み込み層において複数のフィルタを適用して、対応する複数の活性化マップ(図示されているのは3つ)を生成する。その後、これら活性化マップのそれぞれは、更なる畳み込み層への入力として適用される。最後の畳み込み層では、複数のフィルタが再び適用されて、対応する複数の活性化マップ(A
1~A
4及びA
kとして特定されている5つが図示されている)が生成される。複数の活性化マップは、対応する複数のGAPを求めるために使用される(例えば、数式1参照)。これら複数のGAPは、入力画像が健常眼の画像か病眼の画像かの確率を計算するために使用される。
【0035】
一例によれば、入力画像が病気の被検者のものである確率は、次の数式にしたがって計算される。
【数2】
【数3】
【数4】
ここで、w
healthy
k及びw
sick
kは、分類と異なるGAP G
kとをつなぐ重みである。例えば、G
kがドルーゼンの存在を示す場合、w
healthy
kは負であってよく、w
sick
kは正であってよい。健康なトレーニング画像についてはz
healthyが高くなり、且つ、病気のトレーニング画像についてはz
sickが高くなるように、機械学習システムのトレーニングにおいて、重みがランダムに初期化及び調整される。
【0036】
最後に、CAMは次の数式にしたがって計算できる。
【数5】
ここで、C
ijは、画素(i,j)が病変の一部である可能性(確率)を示す。いくつかの実施形態において、C
ijが区間[0,1]に属するように更に再スケーリングを行うことができる。画素が病変を含む可能性の程度に対応する閾値を設定することによって、個々のROIを特定することができる。言い換えれば、入力画像の特定の画素についてのC
ijが閾値よりも大きい場合に、その画素に対応する眼のROIを特定するようにしてもよい。
【0037】
例えば、
図5は、検出された異常領域とCAMの異常の確率とを、入力された眼底画像へのスーパーインポーズとして表現したヒートマップである。ここでいうヒートマップは、眼の画像(例えば、水平画像、表面画像、又は正面画像)であって、その領域が異常を含む確率に対応付けられた色、濃淡、色相などを有する。これにより、結果として得られる眼の画像が生成され、この眼の画像により、眼の任意の特定の部分における異常の確率が、色、濃淡、色相などとして表現される。領域500のそれぞれは、検出された異常領域を表し、(より濃く表現されている)領域510は、領域500が表すよりも異常の確率が高いことを表す。もちろん、ヒートマップは、カラーマップであってよく、例えば、色付きの輪郭が、検出された異常領域を強調し且つ確率を示してよい。ここで、青から赤への色の変化が異常確率の増加を示してよい。
図5の例では、領域500を特定するために閾値0.4(ここで、C
ij>0.4)が使用された。
【0038】
図6~
図8は、様々な網膜症に関するCAMヒートマップの例を更に示す。特に、
図6は、高血圧性及び動脈硬化性網膜症を有する眼の画像についてのヒートマップである。その中で、CAMのオーバーレイは、領域600及び604を異常がある可能性のある領域として示しており、その中の領域602及び606を異常の確率が最も高い領域として示している。これら高確率領域602及び606内の画像の一部が拡大されており、構造上の異常を視覚的に確認することができる。同様に、
図7は、微小動脈瘤を有する眼の画像のヒートマップである。そのCAMマップは、領域700を異常のある領域と示しており、その中の領域702を異常箇所である確率が高い領域として示している。高確率領域702の一部が拡大され(704)、網膜症を視覚的に確認できるように表している。
図8は、背景糖尿病性網膜症を有する眼の画像のヒートマップである。ここでも同様に、CAMマップは、領域800を異常を含む可能性のある領域として示しており、その中の領域802を異常を有する確率が最も高い領域として示している。高確率領域802の一部が拡大され(804)、異常が存在することを視覚的に表している。
【0039】
これらCAM及び対応して特定された複数のROIを用いて、特定されたこれらROIの内部及び/又はその周辺についての第2の画像を生成することができる。第2の画像は、より詳細な撮影、解析、及び網膜症に関する情報を提供する第2モダリティを用いたスキャン(例えば、OCTスキャン)によって生成することができる。例えば、当初の正面画像が構造の表面のみを画像化するものであるのに対して、OCTスキャンは、網膜組織の内部構造を解析できるように、高い解像度で3D画像化ボリュームを提供することができる。更に他の例において、第2の画像は、OCT血管造影(OCTA)画像、視野検査結果、蛍光血管造影、又は蛍光血管造影眼底画像であってもよい。
図9から
図11は、本開示によるCAMの適用の例を示す。
【0040】
図9の応用例によれば、画像を撮影するために使用される撮影モダリティの位置設定及び網膜へのフォーカシングが自動で行われた(900)後に、網膜の水平画像が取得される(902)。本明細書において、「水平」画像は、撮影された物体(例えば、網膜)の表面画像又は正面画像(en-face image)を意味する。そのような画像は、例えば、(カラー又は赤外)眼底カメラ、走査型レーザ検眼鏡(SLO)を用いて撮影されてよく、又は、3D-OCTスキャンから構築される表面画像であってもよい。もちろん、他のモダリティ及び他の技術が水平/表面画像の取得に使用されてもよく、上記の例は限定的なものではない。次に、上述の半教師あり機械学習及びCAMを用いて、水平画像からROIが特定される(904)。これらROIの特定に基づいて、水平画像の特定されたROI位置に対応する網膜の部分に対してOCT撮影及び計測が行われる(906)。ROIのこの第2の撮影は自動的に行われてよく(例えば、OCT撮影はROIの決定に対応して自動制御されてもよい)、又は、ROIのこの第2の撮影はユーザによって手動で開始されてもよい。第2の画像(OCT撮影)及び測定から得られたデータ、及び/又は水平撮影から得られたデータは、今後の解析又は検討のために、最終的にユーザに報告され、保存される(908)。この方法に基づいて得られたこのデータ及び他のデータを、データベースなどの一部として(例えば、今後の解析又はノーマティブ比較(normative comparisons)のために)、例えば、任意の形式のメモリに格納し、解析し、及び/又は報告することもできる。報告は、画像、ヒートマップ/CAM、可能性のある疾患/網膜症の特定、及びこれらに類するもののうちのいずれかを含んでいてよい。
【0041】
図10の適用方法は、
図9のそれと類似しているが、眼の3D-OCTボリュームが最初に取得され、ROIを特定するための水平画像を得るために用いられる。この例によれば、関連するデータの全てが最初の3D-OCTボリューム内に取り込まれているので、第2の撮影スキャンを実行する必要はない。より具体的には、OCT撮影モダリティの位置設定及びフォーカシングが最初に行われ(1000)、それから、3D-OCTボリュームが取得される(1002)。取得された3D-OCTボリュームから水平画像が得られる(1004)。水平画像は、任意の技術で取得されてよく、例えば、ボリュームの特定のXY位置において、関連する深度(Z)に渡って画素値を平均することによって、深度次元に沿ってボリュームを平坦化してよい。ここでも、機械学習及びCAMを用いてROIが特定される(1004)。次に、ROIの位置が元の3D-OCTボリュームに変換され(1006)、これにより、ROIに対応する関連ボリュームデータが抽出でき及び/又は強調表示できる(1008)。3D-OCT画像データ全体を含む全ての情報を格納し、解析し、及び/又は報告することができる。或いは、ROIに関連付けられていない残りの3D画像データを破棄することができる。
【0042】
特定されたROIは、ROIの特定に続いて実行される3D-OCTスキャンにも有用である。これは、3D-OCTボリュームの水平解像度がスキャン面積に反比例するためである。したがって、ROIは、最も適切な領域にスキャン対象エリアを限定することによって、最も適切な領域に対してより高い解像度で以後のOCTスキャンを行うようにガイドすることができる。言い換えれば、広い領域をカバーする最初のサーベイOCTスキャンから導かれたROI、又は別の撮影モダリティで得られた広い領域のスキャンに基づいた同様の水平画像から導かれたROIは、スキャン領域を制限することによって、特定されたROIの内部及びその周辺においてより高い解像度のスキャンを実行するために使用可能である。更に、大きな3Dボリュームデータでユーザを困惑させる代わりに、その中で異常を強調するROIからBスキャンを選択することができる。
【0043】
図11は、上記事項にしたがった第3の適用を示している。
図11の適用は
図8の適用と同様であるが、(位置設定及びフォーカシング(1000)の後に)眼の広い領域をカバーする3D-OCTサーベイ画像が取得され(1102)、網膜の水平画像の取得に用いられる(1104)。ROIを特定した後(1106)、第2の画像を形成するために、ROIに対応する位置において網膜のより高密度の(又は、より高解像度の)3D-OCT画像が取得される(1108)。このような高密度の画像は、組織に関するより細かい詳細を提供することができるので、特定の診断、又は疾患の特定への支援、及び疾患の進行の解析において、高密度でない画像よりも役に立つことができる。上記のように、高密度の3D-OCT画像及び/又はサーベイ画像は、格納され、解析され、及び/又は報告される(1110)。
【0044】
上記を考慮して、本明細書の開示に対応する例示的なシステムは、
図12に概略的に示されている。例示的なシステムは、水平画像を生成可能な第1撮影モダリティ1200と、その水平画像において特定された関心領域の画像を生成可能な第2撮影モダリティ1202と、上記の方法にしたがって水平画像における関心領域を自動で特定するように構成されたプロセッサ1206を有するコンピュータ1204(又はそれに類するもの)とを備える。これに鑑み、コンピュータは、例えば、機械学習システム1212を形成する上述のCNNを用いて機械学習を行うことが可能な少なくとも1つのプロセッサ(例えば、中央処理装置(CPU)、グラフィックスプロセッシングユニット(GPU)など)を更に含む。機械学習システム1212のプロセッサは、コンピュータ1204のプロセッサ1206とは別に設けられてもよいし、それと一体化されていてもよい。コンピュータは、入力インタフェース1210と出力インタフェース1210とともに構成されてもよい。入力インタフェース1210は、ユーザからの入力画像を受信し、又は第1撮影モダリティ又は第2撮影モダリティからの入力画像を直接に受信する。出力インタフェース1210は、例えばディスプレイであって、撮影された画像や収集されたデータをユーザに出力し、又は、ROI情報を第2撮影モダリティに直接に送信する。例えば、これら出力は、CAMの生データ又はCNNの生データ、ヒートマップ、及びそれに類似するものであってよい。システムは、例えば、画像及び関連データを格納するためのメモリ1208を含んでよい。メモリ1208は、例えば、RAM、ROM、フラッシュメモリ、ハードディスク、及びそれに類するものである。例えば、(
図10の実施形態のように)水平画像データとROI画像データの双方がともに単一のスキャンから収集された(又はそれから得られた)3D-OCTボリュームデータセットである場合、第1モダリティと第2モダリティとが同じであってよい(更には、共通のハードウェア機能を有するものであってよい)。同様に、実施形態に応じて、プロセッサ1206、メモリ1208、コンピュータ1204、及び/又はそれに類するものは、撮影モダリティ1200、1202(又は、一つの撮影モダリティ)と一体であってよく、又は、完全に分離され且つ解析対象の撮影データを単に供給されるものであってもよい。例えば、機械学習システム1212が別個のコンピュータデバイスにて具体化されている場合、コンピュータ1204の複数の要素が単一のデバイスに完全に統合されていてもよいし、又は、複数のデバイスとして分離されていてもよい。
テストと結果
【0045】
上記のシステム及び方法は、異なるタイプの機械学習モデル及び構成の性能を特徴付けるために(例えば、トレーニング可能な層の個数及びROIの抽出方法)、公開データセット(例えば、Structured Analysis of the Retina(STARE)プロジェクトからの、一般に入手可能な網膜画像セット)を用いて試験されたものである。テストは、Core i7 CPU及びTitan Xp GPUを搭載したコンピュータで実行されたものである。
【0046】
下記の表1は、様々なモデルの構成及び訓練可能な畳み込み層についての特異度及び感度を示す。ここでは、可能性のある網膜症症状39個とともに、訓練のための500×500の解像度を有する約400枚の眼底画像が用いられた。表中のConv(X)は、X個のフィルタを有する畳み込み層を指す。
【表1】
【0047】
表から分かるように、訓練モデルは良好な感度及び特異度を達成している。したがって、従来の機械学習研究が1つのタイプの疾患に対する1つのモデルを訓練し利用しているのに対し、本明細書に開示されているシステム及び方法は、39の異なる網膜症症状を特定するためのそれぞれ個別のモデルを利用しながら高い感度及び高い特異度を達成することが可能である。この成功は、様々な異なるモデルで達成できる。ここでは39種の網膜症症状がテストされたが、より複雑なデータセット(網膜症症状の個数がより多いもの)を使用することで、より多くの網膜症に対して高い感度及び特異度を提供することができる。したがって、本開示を適用可能な網膜症の数に制限はない。もちろん、本開示の態様は、本開示とともに使用するために特別に設計されたものを含む、他のモデル、機械学習アルゴリズム、及び、それらのモデルから情報を抽出する方法とともに使用することができる。
【0048】
なお、
図4~8に示す例示的な画像は、4つの訓練可能な畳み込み層を有し、且つ最後の畳み込み層がConv(512)に置き換えられたVGG19モデルで形成されたものである。この構成は上記の表においてアスタリスク(*)で示されている。