特許7572316 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社トプコンの特許一覧

特許7572316機械学習ガイド付き撮影システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-10-15

(45)【発行日】2024-10-23

(54)【発明の名称】機械学習ガイド付き撮影システム

(51)【国際特許分類】

A61B 3/10 20060101AFI20241016BHJP

【ＦＩ】

A61B3/10 100

【請求項の数】 5

(21)【出願番号】P 2021107210

(22)【出願日】2021-06-29

(62)【分割の表示】P 2018241158の分割

【原出願日】2018-12-25

(65)【公開番号】P2021154159

(43)【公開日】2021-10-07

【審査請求日】2021-06-30

【審判番号】

【審判請求日】2023-06-08

(31)【優先権主張番号】62/611,352

(32)【優先日】2017-12-28

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】16/212,027

(32)【優先日】2018-12-06

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】000220343

【氏名又は名称】株式会社トプコン

(74)【代理人】

【識別番号】100124626

【弁理士】

【氏名又は名称】榎並智和

(72)【発明者】

【氏名】マオ・ツァイシン

(72)【発明者】

【氏名】ワング・ゼングォ

(72)【発明者】

【氏名】チャン・キンプイ

(72)【発明者】

【氏名】リュー・ジョナサン

(72)【発明者】

【氏名】キム・ヨンシク

【合議体】

【審判長】三崎仁

【審判官】伊藤幸仙

【審判官】▲高▼見重雄

(56)【参考文献】

【文献】特開２０１４－４２６４９（ＪＰ，Ａ）

【文献】特開２０１４－１０８３５１（ＪＰ，Ａ）

【文献】米国特許第１１１３２７９７（ＵＳ，Ｂ２）

【文献】欧州特許出願公開第３５１０９１７（ＥＰ，Ａ１）

【文献】ＧＯＮＤＡＬＭ．Ｗａｌｅｅｄｅｔａｌ．，”ＷＥＡＫＬＹ－ＳＵＰＥＲＶＩＳＥＤＬＯＣＡＬＩＺＡＴＩＯＮＯＦＤＩＡＢＥＴＩＣＲＥＴＩＮＯＰＡＴＨＹＬＥＳＩＯＮＳＩＮＲＥＴＩＮＡＬＦＵＮＤＵＳＩＭＡＧＥＳ”，２０１７ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ（ＩＣＩＰ），２０１７年０９月２０日，ｐｐ．２０６９－２０７３

(58)【調査した分野】(Int.Cl.，ＤＢ名)

A61B 3/00 - 3/18

(57)【特許請求の範囲】

【請求項1】

網膜の第１の３次元ＯＣＴボリュームを取得し、前記第１の３次元ＯＣＴボリュームから水平画像を取得する水平画像取得部と、
畳み込みニューラルネットワークを含み、前記水平画像に基づいて特定の網膜症の有無を特定する半教師あり機械学習システムと、
前記半教師あり機械学習システムによって学習済みフィルタ中の情報をクラス活性化マップで取得し、前記クラス活性化マップの画素値を所定の閾値と比較することにより、前記特定の網膜症の有無の特定に寄与した前記水平画像の領域を前記水平画像における関心領域として特定する関心領域特定部と、
特定された前記関心領域の位置に基づき前記第１の３次元ＯＣＴボリュームよりも狭い領域に限定された前記網膜のスキャン対象エリアに前記第１の３次元ＯＣＴボリュームよりも高解像度の第２の３次元ＯＣＴボリュームを取得するための３次元ＯＣＴスキャンを適用することによって、前記関心領域の前記位置に対応する前記網膜の部分の画像を生成する画像生成部と
を含む、眼科撮影システム。

【請求項2】

前記画像生成部は、前記関心領域特定部による前記関心領域の特定に対応して自動制御されることによって前記３次元ＯＣＴスキャンを行う、
請求項１の眼科撮影システム。

【請求項3】

前記画像生成部は、前記関心領域の前記位置に対応する前記第１の３次元ＯＣＴボリュームの関連ボリュームを求める、
請求項１又は２の眼科撮影システム。

【請求項4】

前記画像生成部により生成された前記画像は、今後の解析又は検討のために保存される、
請求項１～３のいずれかの眼科撮影システム。

【請求項5】

保存された前記画像は、解析又は報告される、
請求項４の眼科撮影システム。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本願は、2017年12月28日に出願された“MACHINE LEARNING GUIDED IMAGING SYSTEM（機械学習ガイド付き撮影システム）”と題する米国仮特許出願第62/611,352に基づく優先権を主張し、その全体が参照により本明細書に援用される。

【背景技術】

【0002】

眼の内部を撮影するための様々なモダリティが存在する。これらのモダリティから得た情報は、眼の健康状態を診断するために用いることが可能である。これらのモダリティを組み合わせると、疾患の診断及び予後に関する重要な手がかりを得ることができる。例えば、眼底撮影は、一回の測定で広い視野をカバーする技術であるが、眼の外面を画像化することしかできない。眼底撮影には深度情報が欠けているため、眼の内部の異常に関する更なる評価を眼底撮影だけで行うことはできない。一方、例えば、光コヒーレンストモグラフィ（ＯＣＴ）は深度情報を提供することが可能である。しかしながら、ＯＣＴの視野には制限があることがあり、そのため、特定のスキャン領域を特定する必要がある場合がある。より大量のデータを得るために３Ｄ－ＯＣＴが存在するが、視覚スクリーニングを目的とする解析や管理を行うにはデータサイズが大きすぎることが度々ある。

【0003】

また、ＯＣＴシステムを動作させるためには、多くの場合、高いコストや技術的な知識が必要とされる。そのため、通常、システムを購入することができ、且つ、ＯＣＴ撮影を実行するための関心領域（ＲＯＩ）の特定や手動選択ができるように訓練された眼科医のみがＯＣＴシステムを用いている。これらのＲＯＩは、（例えば、眼底撮影で得られた）正面眼底検査画像（en-face ophthalmoscopy image）に基づいて、眼科医などの知識豊富な専門家によって事前に特定可能である。例えば、眼底撮影は、眼の外面上に見られる網膜病変（又はその他の異常）を特定するために最初に用いられてもよい。これらの病変を含む領域は、その後、専門家によってＲＯＩとして特定され、更に、ＯＣＴによって撮影される。

【0004】

ＯＣＴシステムは、コスト面において以前より導入しやすくなり、既存の眼底カメラと一緒に使用することが可能になってきているが、双方の撮影モダリティの機能を十分に活用できるほど熟練されているユーザは依然として多くない。特に、正面眼底画像に基づいて、ＯＣＴ撮影のために適切なＲＯＩを見つけ出すことは困難である。スクリーニング目的での撮影では、時間に制限があり、また、もし疾患があるとしてもそのタイプが知らされていないため、ＲＯＩを見つける困難性は増加する。このため、適切なＲＯＩを選択することは、人的ミスの影響を受けやすく、また、ユーザの知識の制約を受ける。ＲＯＩの選択がいくらか自動化されたとしても、自動化は依然として、手動で定義された規則の集合（例えば、色、向き、領域サイズ）に基づくものであり、これら規則は、特定の既知の疾患に基づくものに過ぎないか、又は、特定の既知の疾患を特定するのに有用であるに過ぎない。これら手動で定義された規則は、それぞれのアルゴリズム及びそれぞれの疾患に向けたものであるため、それらの適用性には制限があり、疾患が未知である場合には、多くの異なる解析を実施しなければならない。

【発明の概要】

【発明が解決しようとする課題】

【0005】

したがって、これまでに提案されている眼底撮影／ＯＣＴ撮影の複合システムには、上記の欠点が依然として存在する。

【課題を解決するための手段】

【0006】

上記に鑑み、本開示は、眼底画像を取得可能であり、その眼底画像から眼の関心領域（ＲＯＩ）を自動で特定可能であり、特定されたＲＯＩの撮影を実行可能なマルチモーダル撮影システム及び方法に関する。得られた画像は、スクリーニングのために臨床的に関連性のある情報を提供できる。ＲＯＩを自動的に特定することによって、専門的な撮影を実行するための専門家の介入は必ずしも必要とされなくなる。したがって、そのような撮影や解析をより安価に且つより多くの施設及び対象（被検者）に提供できるようになる。

【0007】

第１の例によれば、撮影方法は、物体の水平画像を生成し、半教師あり機械学習システムを用いて、前記水平画像に基づいて前記物体の関心領域（ＲＯＩ）を自動的に特定し、特定された前記ＲＯＩにおける前記物体の第２画像を生成し、前記第２画像は前記物体の深度情報を含む。上記の例の様々な実施形態において、以下のいずれか１以上を採用できる：前記水平画像は、カラー眼底画像、赤外眼底画像、走査型レーザ検眼鏡（ＳＬＯ）画像、又は、３次元光コヒーレンストモグラフィ（ＯＣＴ）スキャンデータに由来する画像である；前記第２画像はＯＣＴ画像である；前記水平画像は、３次元光コヒーレンストモグラフィ（ＯＣＴ）スキャンデータに由来し、前記第２画像は、前記特定されたＲＯＩに対応する前記３次元ＯＣＴスキャンデータの部分を抽出して生成されたＯＣＴ画像である；更に、前記特定されたＲＯＩに対応しない前記３次元ＯＣＴスキャンデータの部分を廃棄する；更に、前記第２画像を表示する；更に、特定された関心領域の確率を決定し、前記確率は、前記半教師あり機械学習システムにより決定された前記物体の異常を前記関心領域が表す確率を示す；更に、前記水平画像にオーバーレイされた前記確率のヒートマップを表示する；前記第２画像は、前記関心領域の複数のＢスキャンから生成される；前記水平画像は、３次元サーベイ画像に由来し、前記第２画像は、前記水平画像よりも高い密度を有する；前記水平画像は、３次元サーベイ画像であり、前記第２画像は、前記特定されたＲＯＩが撮影された３次元光コヒーレンストモグラフィ（ＯＣＴ）画像である；更に、前記第２画像に対応するデータのみを格納し、又は、前記特定されたＲＯＩに関連しない前記水平画像に対応するデータを破棄する；前記物体は眼である；前記半教師あり機械学習システムは、畳み込みニューラルネットワークを含む；前記ＲＯＩは、前記半教師あり機械学習システムのクラス活性化マップを取得することによって特定される。

【0008】

他の例によれば、画像解析方法は、訓練された半教師あり機械学習システムを用いるものであり、物体の水平画像を対象から受信し、受信された前記水平画像に基づいて、訓練された半教師あり機械学習システムの出力として前記物体の異常を特定し、異常を特定するために使用される訓練された半教師あり機械学習の情報を抽出し、前記水平画像における関心領域を、前記異常の特定に寄与した水平画像の領域として特定し、前記半教師あり機械学習システムは、異なる複数の対象からの前記物体の複数の水平画像を用いて前記物体の異常を特定するように訓練される。

【0009】

この第２の例の様々な実施形態において、以下のいずれか１以上を採用できる：前記訓練された半教師あり機械学習システムは、畳み込みニューラルネットワークである；前記異常は網膜症障害である；前記訓練された半教師あり機械学習システムの前記情報は、クラス活性化マップを決定することによって抽出される；前記関心領域は、前記決定されたクラス活性化マップの画素値を所定の閾値と比較することによって特定される。

【図面の簡単な説明】

【0010】

【図1】本明細書に記載のシステム及び方法の動作例を表す。

【0011】

【図2】畳み込みニューラルネットワークのフレームワークの一例を表す。

【0012】

【図3】畳み込みニューラルネットワークの畳み込み層の一例を表す。

【0013】

【図4】複数の畳み込み層と付属のグローバル活性化プーリング層（global activation pooling layer）とを有する畳み込みニューラルネットワークの一例を表す。

【0014】

【図5】検出された異常領域及び異常の確率を示すヒートマップの一例を表す。

【0015】

【図6】高血圧性及び動脈硬化性網膜症を有する眼の画像のヒートマップの一例を表す。

【0016】

【図7】微小動脈瘤を有する眼の画像のヒートマップの一例を表す。

【0017】

【図8】背景糖尿病性網膜症を有する眼の画像のヒートマップの一例を表す。

【0018】

【図9】クラス活性化マップ（class activation map）の適用の一例を示すフローチャートである。

【0019】

【図10】クラス活性化マップの適用の他の一例を示すフローチャートである。

【0020】

【図11】クラス活性化マップの適用の更に他の一例を示すフローチャートである。

【0021】

【図12】本明細書に記載のシステムの一例を表す概略図である。

【発明を実施するための形態】

【0022】

上記に鑑み、本明細書は、一般に、眼底画像を撮影可能であり、その眼底画像から眼の関心領域（ＲＯＩ）を自動的に特定可能であり、特定されたＲＯＩのＯＣＴ撮影を実行可能であって、スクリーニングのために臨床的に関連性のある情報を提供することが可能なマルチモーダル撮影システム及び方法に関する。これにより、本明細書に記載のシステム及び方法は、専門家の介入を必要としない自動化されたカラー眼底撮影及びＯＣＴ撮影を提供することができる。したがって、そのような撮影及び解析を、より多くの施設においてより多くの被検者に提供することができる。なお、本説明は、眼底撮影及びＯＣＴ撮影に限定されるものではなく、眼科撮影に限定されるものですらない。本明細書に記載の特徴は、任意の補足的な撮影モダリティ、又はＭＲＩ、ＣＴ、超音波などの一般的なモダリティを用いる方法に適用することができ、更に、任意の生理学的な構造又は他の物体に適用することができる。

【0023】

ＲＯＩの自動特定は、眼底画像内における網膜の異常の自動検出を含む。検出可能な異常の範囲は、結果として得られる撮影システムの使用性に影響を及ぼす。例えば、一種類又は少数の種類の病変しかシステムが検出できない場合においては、被検者の網膜症が、偶然、当該システムにより検出可能な一種類又は少数の種類の病変のうちの１つでない限り、被検者の未知の網膜症（又は他の疾患）の同定にはほとんど役に立たないであろう。一方、多くの種類の病変を特定することができるシステムであっても、解析に長い時間がかかる場合（例えば、多数の特定の病変検出プロセスを単純に組み合わせた場合）においては、スピード、費用、及び使いやすさが望まれる場面でほとんど役に立たないであろう。つまり、本明細書に記載の網膜異常の自動検出及び関心領域の自動特定は、システムの汎用性と効率性の両方を考慮したものである。

【0024】

本開示の実施形態によれば、網膜異常の自動検出及びＲＯＩの自動特定は、機械学習システムを用いて行われる。それと共に、（例えば、眼底撮影などによって）被検者の眼が撮影され、それにより得られた画像が機械学習システムに入力される。機械学習システムからの出力は、更なる解析又は撮影に有用なデータを提供する。

【0025】

ディープラーニングのような幾つかの機械学習技術は、被検者の眼が健康ではないことを特定することができるが、眼やその画像における特定の網膜症や特定のＲＯＩを同定することはできない。この制限は、教師あり機械学習において、入力（本例では、被検者の眼底画像）に基づいてターゲット（本例では、被検者が健康であるか否か）を正しく予測するように機械が訓練される、という事実に起因する。機械に病変の位置を予測させるためには、まず、画素レベルでラベル付けされた画像によって機械を訓練する必要がある。言い換えると、画像の各画素に対し、撮影された病変の一部であるかどうかを示すためのラベル付けが行われる。このアプローチは多大な労働力を要し、アノテーター（annotator）の知識への感受性が高いため、ミスにより病変が見逃されやすく、システムの感度を著しく低下させる可能性がある。

【0026】

対照的に、以下に開示されるような弱教師あり（又は、半教師あり）機械学習は、この問題の克服に貢献することができる。弱教師あり学習を用いると、ターゲットに関する予測（被検者が健康であるか否か）を出力する代わりに、予測がどのように行われたかに関する情報が学習されたシステムから抽出される。例えば、抽出される情報は、システムが認識し、被検者が不健康であると特定するために用いた病変又は異常の位置であってよい。したがって、このような半教師あり機械学習技術は、例えば、入力された眼底画像内の関心領域を自動的に特定し、その関心領域内に第２モダリティ（例えば、ＯＣＴ）での撮影をガイドすることができる。言い換えると、このような弱教師あり機械学習システムは、例えば、複数の種類の網膜症を検出できるなど、汎用的な網膜異常検出を提供することができる。その結果、疾患の種類にかかわらず、すべての被検者に本明細書に記載のシステム及び方法を適用することが可能である。これは、スクリーニングを目的とする場合に特に有効と言える。

【0027】

手短に言えば、図１に示すように、説明されるシステム及び方法は以下のように動作する。まず、眼底などの画像が取り込まれる（１００）。次に、取り込まれた眼底画像がニューラルネットワーク又は他の機械学習システムに入力される（１０２）。ニューラルネットワーク又は他の機械学習システムはその眼底画像を解析し、例えば、特定の網膜症の有無を判断する。機械学習システムから抽出された情報（例えば、入力に基づいて機械がどのように特定の出力を求めたかに関する情報）を用いて、１つ以上の関心領域が特定される（１０４）。換言すると、本開示は、機械学習システムが、入力画像（例えば、眼の眼底画像）に基づき生成した出力（例えば、網膜症）がどのように生成されたか認識するものであり、この入力画像は異常を有する画像（及びそれに相当する眼）の領域の特定に使用可能であり、この異常は機械学習システムにこの異常に関連する特定の網膜症を出力させた可能性があるものである。特定されたそれらの領域は、例えば、追加撮影によってより詳細に解析することができる（１０６）。

【0028】

上述のように、機械学習システムはニューラルネットワークを含んでもよい。ニューラルネットワークは任意のタイプであってよく、例えば、畳み込みニューラルネットワーク（ＣＮＮ）であってよい。本明細書には、一例として畳み込みニューラルネットワーク（ＣＮＮ）が記載されているが、これに限定されるものではない。ＣＮＮ（又は他のニューラルネットワーク）は、（例えば、共にカラー眼底画像である）健常眼の入力画像と病眼の入力画像とを判別するように訓練される。言い換えれば、「その内部において(under the hood)」ＣＮＮは健常眼の眼底画像と病眼の眼底画像とがどのように見えるかに関するモデルを構築する。このフレームワークは、図２のフローチャートに示されている。図２から分かるように、深層畳み込みニューラルネットワーク２００は、健常眼の既知の画像２０２と病眼の既知の画像２０４とを入力することによって訓練される。これらの既知の画像２０２及び２０４に基づいて、ニューラルネットワーク２００は健常眼の画像がどのように見えるか示すモデル２０６と、病眼の画像がどのように見えるか示すモデル２０８とを構築することができる。高いレベルでは、病眼モデル２０８は、既知の病眼画像に照応する（一致する、合致する、マッチする）眼の画像の部分を認識することができる（２１０）。訓練されたニューラルネットワーク２００は、入力された画像のいずれかが健常眼モデル２０６又は病眼モデル２０８に照応するか否かの判断結果を出力することができ、更に、その画像のどの部分が病眼モデル２０８に照応しているかの判断結果を出力することができる（２１２）。これにより、網膜症に関連づけられた異常のある領域を特定することができる。例えば、入力された眼底画像が病眼モデル２０８に照応する領域として、これを特定することができる。

【0029】

ＣＮＮは、ヒトの生理学的視覚系を模した一種の機械学習モデルである。図３に示すように、ＣＮＮのコアには、フィルタと活性化マップとを含む畳み込み層が含まれる。図３に示されているように、（カーネルとしても知られている）フィルタは、入力画像（６×６画素を有する）の一つの小さなパッチをまとめて考察し、活性化マップ中の対応画素の活性化値を計算する。（３×３画素を有する）パッチのサイズは、フィルタのそれと等しい。入力画像全体にフィルタを適用することで、活性化マップの各画素の活性化値が生成される。活性化値は、フィルタ及び入力画像のパッチの画素値に対して畳み込み演算を実行することによって求められる。したがって、入力画像の小さなパッチのパターンとフィルタのパターンとの一致度が高いほど、活性化値は高くなる。逆に、一致度が低いほど、活性化値は低くなる。もちろん、結果として得られる値の意味が理解される限りにおいて、演算に基づきこの関係を逆転することができる。このように、フィルタは、入力画像をその内容に基づいて活性化マップに効果的にフィルタリングする。フィルタと畳み込み層の特定の組み合わせは、特定の機械学習モデルの構成要素となる。

【0030】

図３の例によれば、畳み込み演算は、各フィルタの画素値の積とそれに対応する入力画像の画素値とを加算し、この加算値（和）をフィルタの中央画素に対応する活性化マップの画素の活性化値として割り当てる。言い換えれば、この演算は、パッチとフィルタとの間における画素単位の乗算に対応する。したがって、図３の例において、（太線で特定される入力画像の最初の３行及び３列を含むパッチに対して演算が実行された場合、）活性化マップの２行目且つ２列目の画素の活性化値は、０×４＋０×０＋０×０＋０×０＋１×０＋１×０＋０×０＋１×０＋２×（－４）＝－８である。

【0031】

フィルタの形状はそのサイズによって制限及び制約されているように見えるかもしれないが、ＣＮＮは、複数の畳み込み層を連続的に積み重ね、それぞれ異なる目的や機能を有する複数のフィルタを入力画像に効果的に適用してもよい。このように、複雑な物体を特定できるようにＣＮＮの複数のフィルタを設計することができる。

【0032】

上述のように、ＣＮＮは、複数の画像（例えば、眼底画像）と、各画像に関連付けられた既知の網膜症（例えば、特定の疾患の同定を含み、健常眼であるか病眼であるか）を入力することによって訓練させることができる。訓練中に、ＣＮＮは１組のフィルタを学習する。１組のフィルタは、健康な被検者の画像と病気の被検者の画像とを最もよく区別し、その被検者が病気である確率や特定の網膜症を有する確率を推定する。結果として、特定の網膜症について訓練されたＣＮＮの学習済みフィルタ内において網膜異常の情報を発見することができる。言い換えれば、学習済みフィルタは、（例えば、眼底画像において病変が現れる場所を特定することにより）潜在的な関心領域の特定に使用できる情報を含む。この情報が学習済みフィルタから抽出されたら、それを入力画像に適用することで、入力画像のどの部分が病眼モデルに照応するか特定することによりそれら関心領域を特定することができる。

【0033】

そのために、クラス活性化マップ（ＣＡＭ）又は同様の方法を用いて、ＣＮＮの学習済みフィルタ中の情報を取得することができる。ＣＡＭに関する本明細書における説明は例示的なものに過ぎず、本開示はＣＡＭに限定されるものではない。むしろ、学習済みニューラルネットワーク又は他の機械学習アルゴリズムの情報を抽出するための任意の方法が使用されてもよい。この例では、ＣＮＮの最後の畳み込み層にグローバル活性化プーリング（ＧＡＰ）層を取り付けることによって、ＣＡＭが得られる。ＧＡＰは、多数の画素を有する複数の最後の活性化マップを単一の（又は、少なくとも、より少ない個数の）代表値に変換する。例えば、最後の畳み込み層がｋ個のフィルタを有し、且つ、ｋ番目のフィルタの活性化マップがＡ_ｋであると仮定すると、数式１が表すように、ＧＡＰは、ｋ番目のフィルタの活性化マップＡ_ｋにおいて、全画素の平均値として求められる。ここで、ｉ及びｊはｉ番目且つｊ番目の画素を示す。

【数1】

【0034】

図４は、複数の畳み込み層と付属のＧＡＰ層とを有するＣＮＮの一例を示す。図４に見られるように、眼底画像がＣＮＮに入力され、ＣＮＮは、第１畳み込み層において複数のフィルタを適用して、対応する複数の活性化マップ（図示されているのは３つ）を生成する。その後、これら活性化マップのそれぞれは、更なる畳み込み層への入力として適用される。最後の畳み込み層では、複数のフィルタが再び適用されて、対応する複数の活性化マップ（Ａ_１～Ａ_４及びＡ_ｋとして特定されている５つが図示されている）が生成される。複数の活性化マップは、対応する複数のＧＡＰを求めるために使用される（例えば、数式１参照）。これら複数のＧＡＰは、入力画像が健常眼の画像か病眼の画像かの確率を計算するために使用される。

【0035】

一例によれば、入力画像が病気の被検者のものである確率は、次の数式にしたがって計算される。

【数2】

【数3】

【数4】

ここで、ｗ_{ｈｅａｌｔｈｙ} ^ｋ及びｗ_ｓｉｃｋ ^ｋは、分類と異なるＧＡＰＧ^ｋとをつなぐ重みである。例えば、Ｇ^ｋがドルーゼンの存在を示す場合、ｗ_{ｈｅａｌｔｈｙ} ^ｋは負であってよく、ｗ_ｓｉｃｋ ^ｋは正であってよい。健康なトレーニング画像についてはｚ_{ｈｅａｌｔｈｙ}が高くなり、且つ、病気のトレーニング画像についてはｚ_ｓｉｃｋが高くなるように、機械学習システムのトレーニングにおいて、重みがランダムに初期化及び調整される。

【0036】

最後に、ＣＡＭは次の数式にしたがって計算できる。

【数5】

ここで、Ｃ_ｉｊは、画素（ｉ，ｊ）が病変の一部である可能性（確率）を示す。いくつかの実施形態において、Ｃ_ｉｊが区間［０，１］に属するように更に再スケーリングを行うことができる。画素が病変を含む可能性の程度に対応する閾値を設定することによって、個々のＲＯＩを特定することができる。言い換えれば、入力画像の特定の画素についてのＣ_ｉｊが閾値よりも大きい場合に、その画素に対応する眼のＲＯＩを特定するようにしてもよい。

【0037】

例えば、図５は、検出された異常領域とＣＡＭの異常の確率とを、入力された眼底画像へのスーパーインポーズとして表現したヒートマップである。ここでいうヒートマップは、眼の画像（例えば、水平画像、表面画像、又は正面画像）であって、その領域が異常を含む確率に対応付けられた色、濃淡、色相などを有する。これにより、結果として得られる眼の画像が生成され、この眼の画像により、眼の任意の特定の部分における異常の確率が、色、濃淡、色相などとして表現される。領域５００のそれぞれは、検出された異常領域を表し、（より濃く表現されている）領域５１０は、領域５００が表すよりも異常の確率が高いことを表す。もちろん、ヒートマップは、カラーマップであってよく、例えば、色付きの輪郭が、検出された異常領域を強調し且つ確率を示してよい。ここで、青から赤への色の変化が異常確率の増加を示してよい。図５の例では、領域５００を特定するために閾値０．４（ここで、Ｃ_ｉｊ＞０．４）が使用された。

【0038】

図６～図８は、様々な網膜症に関するＣＡＭヒートマップの例を更に示す。特に、図６は、高血圧性及び動脈硬化性網膜症を有する眼の画像についてのヒートマップである。その中で、ＣＡＭのオーバーレイは、領域６００及び６０４を異常がある可能性のある領域として示しており、その中の領域６０２及び６０６を異常の確率が最も高い領域として示している。これら高確率領域６０２及び６０６内の画像の一部が拡大されており、構造上の異常を視覚的に確認することができる。同様に、図７は、微小動脈瘤を有する眼の画像のヒートマップである。そのＣＡＭマップは、領域７００を異常のある領域と示しており、その中の領域７０２を異常箇所である確率が高い領域として示している。高確率領域７０２の一部が拡大され（７０４）、網膜症を視覚的に確認できるように表している。図８は、背景糖尿病性網膜症を有する眼の画像のヒートマップである。ここでも同様に、ＣＡＭマップは、領域８００を異常を含む可能性のある領域として示しており、その中の領域８０２を異常を有する確率が最も高い領域として示している。高確率領域８０２の一部が拡大され（８０４）、異常が存在することを視覚的に表している。

【0039】

これらＣＡＭ及び対応して特定された複数のＲＯＩを用いて、特定されたこれらＲＯＩの内部及び／又はその周辺についての第２の画像を生成することができる。第２の画像は、より詳細な撮影、解析、及び網膜症に関する情報を提供する第２モダリティを用いたスキャン（例えば、ＯＣＴスキャン）によって生成することができる。例えば、当初の正面画像が構造の表面のみを画像化するものであるのに対して、ＯＣＴスキャンは、網膜組織の内部構造を解析できるように、高い解像度で３Ｄ画像化ボリュームを提供することができる。更に他の例において、第２の画像は、ＯＣＴ血管造影（ＯＣＴＡ）画像、視野検査結果、蛍光血管造影、又は蛍光血管造影眼底画像であってもよい。図９から図１１は、本開示によるＣＡＭの適用の例を示す。

【0040】

図９の応用例によれば、画像を撮影するために使用される撮影モダリティの位置設定及び網膜へのフォーカシングが自動で行われた（９００）後に、網膜の水平画像が取得される（９０２）。本明細書において、「水平」画像は、撮影された物体（例えば、網膜）の表面画像又は正面画像（en-face image）を意味する。そのような画像は、例えば、（カラー又は赤外）眼底カメラ、走査型レーザ検眼鏡（ＳＬＯ）を用いて撮影されてよく、又は、３Ｄ－ＯＣＴスキャンから構築される表面画像であってもよい。もちろん、他のモダリティ及び他の技術が水平／表面画像の取得に使用されてもよく、上記の例は限定的なものではない。次に、上述の半教師あり機械学習及びＣＡＭを用いて、水平画像からＲＯＩが特定される（９０４）。これらＲＯＩの特定に基づいて、水平画像の特定されたＲＯＩ位置に対応する網膜の部分に対してＯＣＴ撮影及び計測が行われる（９０６）。ＲＯＩのこの第２の撮影は自動的に行われてよく（例えば、ＯＣＴ撮影はＲＯＩの決定に対応して自動制御されてもよい）、又は、ＲＯＩのこの第２の撮影はユーザによって手動で開始されてもよい。第２の画像（ＯＣＴ撮影）及び測定から得られたデータ、及び／又は水平撮影から得られたデータは、今後の解析又は検討のために、最終的にユーザに報告され、保存される（９０８）。この方法に基づいて得られたこのデータ及び他のデータを、データベースなどの一部として（例えば、今後の解析又はノーマティブ比較（normative comparisons）のために）、例えば、任意の形式のメモリに格納し、解析し、及び／又は報告することもできる。報告は、画像、ヒートマップ／ＣＡＭ、可能性のある疾患／網膜症の特定、及びこれらに類するもののうちのいずれかを含んでいてよい。

【0041】

図１０の適用方法は、図９のそれと類似しているが、眼の３Ｄ－ＯＣＴボリュームが最初に取得され、ＲＯＩを特定するための水平画像を得るために用いられる。この例によれば、関連するデータの全てが最初の３Ｄ－ＯＣＴボリューム内に取り込まれているので、第２の撮影スキャンを実行する必要はない。より具体的には、ＯＣＴ撮影モダリティの位置設定及びフォーカシングが最初に行われ（１０００）、それから、３Ｄ－ＯＣＴボリュームが取得される（１００２）。取得された３Ｄ－ＯＣＴボリュームから水平画像が得られる（１００４）。水平画像は、任意の技術で取得されてよく、例えば、ボリュームの特定のＸＹ位置において、関連する深度（Ｚ）に渡って画素値を平均することによって、深度次元に沿ってボリュームを平坦化してよい。ここでも、機械学習及びＣＡＭを用いてＲＯＩが特定される（１００４）。次に、ＲＯＩの位置が元の３Ｄ－ＯＣＴボリュームに変換され（１００６）、これにより、ＲＯＩに対応する関連ボリュームデータが抽出でき及び／又は強調表示できる（１００８）。３Ｄ－ＯＣＴ画像データ全体を含む全ての情報を格納し、解析し、及び/又は報告することができる。或いは、ＲＯＩに関連付けられていない残りの３Ｄ画像データを破棄することができる。

【0042】

特定されたＲＯＩは、ＲＯＩの特定に続いて実行される３Ｄ－ＯＣＴスキャンにも有用である。これは、３Ｄ－ＯＣＴボリュームの水平解像度がスキャン面積に反比例するためである。したがって、ＲＯＩは、最も適切な領域にスキャン対象エリアを限定することによって、最も適切な領域に対してより高い解像度で以後のＯＣＴスキャンを行うようにガイドすることができる。言い換えれば、広い領域をカバーする最初のサーベイＯＣＴスキャンから導かれたＲＯＩ、又は別の撮影モダリティで得られた広い領域のスキャンに基づいた同様の水平画像から導かれたＲＯＩは、スキャン領域を制限することによって、特定されたＲＯＩの内部及びその周辺においてより高い解像度のスキャンを実行するために使用可能である。更に、大きな３Ｄボリュームデータでユーザを困惑させる代わりに、その中で異常を強調するＲＯＩからＢスキャンを選択することができる。

【0043】

図１１は、上記事項にしたがった第３の適用を示している。図１１の適用は図８の適用と同様であるが、（位置設定及びフォーカシング（１０００）の後に）眼の広い領域をカバーする３Ｄ－ＯＣＴサーベイ画像が取得され（１１０２）、網膜の水平画像の取得に用いられる（１１０４）。ＲＯＩを特定した後（１１０６）、第２の画像を形成するために、ＲＯＩに対応する位置において網膜のより高密度の（又は、より高解像度の）３Ｄ－ＯＣＴ画像が取得される（１１０８）。このような高密度の画像は、組織に関するより細かい詳細を提供することができるので、特定の診断、又は疾患の特定への支援、及び疾患の進行の解析において、高密度でない画像よりも役に立つことができる。上記のように、高密度の３Ｄ－ＯＣＴ画像及び／又はサーベイ画像は、格納され、解析され、及び／又は報告される（１１１０）。

【0044】

上記を考慮して、本明細書の開示に対応する例示的なシステムは、図１２に概略的に示されている。例示的なシステムは、水平画像を生成可能な第１撮影モダリティ１２００と、その水平画像において特定された関心領域の画像を生成可能な第２撮影モダリティ１２０２と、上記の方法にしたがって水平画像における関心領域を自動で特定するように構成されたプロセッサ１２０６を有するコンピュータ１２０４（又はそれに類するもの）とを備える。これに鑑み、コンピュータは、例えば、機械学習システム１２１２を形成する上述のＣＮＮを用いて機械学習を行うことが可能な少なくとも１つのプロセッサ（例えば、中央処理装置（ＣＰＵ）、グラフィックスプロセッシングユニット（ＧＰＵ）など）を更に含む。機械学習システム１２１２のプロセッサは、コンピュータ１２０４のプロセッサ１２０６とは別に設けられてもよいし、それと一体化されていてもよい。コンピュータは、入力インタフェース１２１０と出力インタフェース１２１０とともに構成されてもよい。入力インタフェース１２１０は、ユーザからの入力画像を受信し、又は第１撮影モダリティ又は第２撮影モダリティからの入力画像を直接に受信する。出力インタフェース１２１０は、例えばディスプレイであって、撮影された画像や収集されたデータをユーザに出力し、又は、ＲＯＩ情報を第２撮影モダリティに直接に送信する。例えば、これら出力は、ＣＡＭの生データ又はＣＮＮの生データ、ヒートマップ、及びそれに類似するものであってよい。システムは、例えば、画像及び関連データを格納するためのメモリ１２０８を含んでよい。メモリ１２０８は、例えば、ＲＡＭ、ＲＯＭ、フラッシュメモリ、ハードディスク、及びそれに類するものである。例えば、（図１０の実施形態のように）水平画像データとＲＯＩ画像データの双方がともに単一のスキャンから収集された（又はそれから得られた）３Ｄ－ＯＣＴボリュームデータセットである場合、第１モダリティと第２モダリティとが同じであってよい（更には、共通のハードウェア機能を有するものであってよい）。同様に、実施形態に応じて、プロセッサ１２０６、メモリ１２０８、コンピュータ１２０４、及び／又はそれに類するものは、撮影モダリティ１２００、１２０２（又は、一つの撮影モダリティ）と一体であってよく、又は、完全に分離され且つ解析対象の撮影データを単に供給されるものであってもよい。例えば、機械学習システム１２１２が別個のコンピュータデバイスにて具体化されている場合、コンピュータ１２０４の複数の要素が単一のデバイスに完全に統合されていてもよいし、又は、複数のデバイスとして分離されていてもよい。
テストと結果

【0045】

上記のシステム及び方法は、異なるタイプの機械学習モデル及び構成の性能を特徴付けるために（例えば、トレーニング可能な層の個数及びＲＯＩの抽出方法）、公開データセット（例えば、ＳｔｒｕｃｔｕｒｅｄＡｎａｌｙｓｉｓｏｆｔｈｅＲｅｔｉｎａ（ＳＴＡＲＥ）プロジェクトからの、一般に入手可能な網膜画像セット）を用いて試験されたものである。テストは、Ｃｏｒｅｉ７ＣＰＵ及びＴｉｔａｎＸｐＧＰＵを搭載したコンピュータで実行されたものである。

【0046】

下記の表１は、様々なモデルの構成及び訓練可能な畳み込み層についての特異度及び感度を示す。ここでは、可能性のある網膜症症状３９個とともに、訓練のための５００×５００の解像度を有する約４００枚の眼底画像が用いられた。表中のＣｏｎｖ（Ｘ）は、Ｘ個のフィルタを有する畳み込み層を指す。

【表1】

【0047】

表から分かるように、訓練モデルは良好な感度及び特異度を達成している。したがって、従来の機械学習研究が１つのタイプの疾患に対する１つのモデルを訓練し利用しているのに対し、本明細書に開示されているシステム及び方法は、３９の異なる網膜症症状を特定するためのそれぞれ個別のモデルを利用しながら高い感度及び高い特異度を達成することが可能である。この成功は、様々な異なるモデルで達成できる。ここでは３９種の網膜症症状がテストされたが、より複雑なデータセット（網膜症症状の個数がより多いもの）を使用することで、より多くの網膜症に対して高い感度及び特異度を提供することができる。したがって、本開示を適用可能な網膜症の数に制限はない。もちろん、本開示の態様は、本開示とともに使用するために特別に設計されたものを含む、他のモデル、機械学習アルゴリズム、及び、それらのモデルから情報を抽出する方法とともに使用することができる。

【0048】

なお、図４～８に示す例示的な画像は、４つの訓練可能な畳み込み層を有し、且つ最後の畳み込み層がＣｏｎｖ（５１２）に置き換えられたＶＧＧ１９モデルで形成されたものである。この構成は上記の表においてアスタリスク（＊）で示されている。

【図1】