IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ オハイオ ステート イノベーション ファウンデーションの特許一覧

特表2024-509717耳の病状を診断するための自動耳鏡検査画像分析に左右の鼓膜耳鏡検査画像を使用するシステム及び方法
<>
  • 特表-耳の病状を診断するための自動耳鏡検査画像分析に左右の鼓膜耳鏡検査画像を使用するシステム及び方法 図1
  • 特表-耳の病状を診断するための自動耳鏡検査画像分析に左右の鼓膜耳鏡検査画像を使用するシステム及び方法 図2A
  • 特表-耳の病状を診断するための自動耳鏡検査画像分析に左右の鼓膜耳鏡検査画像を使用するシステム及び方法 図2B
  • 特表-耳の病状を診断するための自動耳鏡検査画像分析に左右の鼓膜耳鏡検査画像を使用するシステム及び方法 図3
  • 特表-耳の病状を診断するための自動耳鏡検査画像分析に左右の鼓膜耳鏡検査画像を使用するシステム及び方法 図4
  • 特表-耳の病状を診断するための自動耳鏡検査画像分析に左右の鼓膜耳鏡検査画像を使用するシステム及び方法 図5
  • 特表-耳の病状を診断するための自動耳鏡検査画像分析に左右の鼓膜耳鏡検査画像を使用するシステム及び方法 図6
  • 特表-耳の病状を診断するための自動耳鏡検査画像分析に左右の鼓膜耳鏡検査画像を使用するシステム及び方法 図7
  • 特表-耳の病状を診断するための自動耳鏡検査画像分析に左右の鼓膜耳鏡検査画像を使用するシステム及び方法 図8
  • 特表-耳の病状を診断するための自動耳鏡検査画像分析に左右の鼓膜耳鏡検査画像を使用するシステム及び方法 図9A
  • 特表-耳の病状を診断するための自動耳鏡検査画像分析に左右の鼓膜耳鏡検査画像を使用するシステム及び方法 図9B
  • 特表-耳の病状を診断するための自動耳鏡検査画像分析に左右の鼓膜耳鏡検査画像を使用するシステム及び方法 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-05
(54)【発明の名称】耳の病状を診断するための自動耳鏡検査画像分析に左右の鼓膜耳鏡検査画像を使用するシステム及び方法
(51)【国際特許分類】
   G06V 10/82 20220101AFI20240227BHJP
   G06T 7/00 20170101ALI20240227BHJP
   A61B 5/00 20060101ALI20240227BHJP
   A61F 11/00 20220101ALN20240227BHJP
【FI】
G06V10/82
G06T7/00 612
G06T7/00 350C
A61B5/00 G
A61B5/00 101A
A61F11/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023547758
(86)(22)【出願日】2021-12-08
(85)【翻訳文提出日】2023-09-15
(86)【国際出願番号】 US2021062401
(87)【国際公開番号】W WO2022169503
(87)【国際公開日】2022-08-11
(31)【優先権主張番号】63/146,903
(32)【優先日】2021-02-08
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.MATLAB
(71)【出願人】
【識別番号】516046846
【氏名又は名称】オハイオ ステート イノベーション ファウンデーション
(74)【代理人】
【識別番号】100104411
【弁理士】
【氏名又は名称】矢口 太郎
(72)【発明者】
【氏名】グルカン、メティン
(72)【発明者】
【氏名】モバリー、アーロン
【テーマコード(参考)】
4C117
5L096
【Fターム(参考)】
4C117XB01
4C117XB09
4C117XD09
4C117XE43
4C117XG39
4C117XJ01
4C117XJ34
4C117XK05
4C117XK07
4C117XK08
4C117XK13
5L096BA06
5L096CA04
5L096EA12
5L096EA35
5L096GA41
5L096HA11
5L096JA11
5L096JA22
5L096KA04
(57)【要約】
本明細書では、一組の画像(右耳と左耳の両方からの画像)を比較する自動耳鏡検査画像分析システム及び方法を開示及び説明する。開示されたシステム及び方法は、深層学習及び色ベースの特徴を使用して、TM画像のペアを分類する。画像の分類には、例えば、「正常-正常」、「正常-異常」、「異常-正常」、または「異常-異常」が含まれ得る。深層学習ベースの特徴を抽出するには、ルックアップテーブルを作成して使用することができる。画像の前処理ステップは、ルックアップテーブルの作成に使用される。ペアになった画像のルックアップテーブル値がラベルに従って分析され、右耳の値と左耳の値の間の関連性が判断される。
【選択図】 図6
【特許請求の範囲】
【請求項1】
患者の左右両方の鼓膜の画像から鼓膜の病状を分類する方法であって、
画像キャプチャデバイスを使用して患者の左鼓膜のそれぞれの1つまたは複数の画像と右鼓膜の1つまたは複数の画像をキャプチャすることと、
前記患者の前記左鼓膜及び前記右鼓膜の前記キャプチャされた1つまたは複数の画像に対して前処理及びデータ拡張を実行して、前記患者の前記右鼓膜の合成画像及び前記対応する左鼓膜の合成画像を作成して、前記患者に対して鼓膜画像のペアを形成することと、
前記鼓膜画像のペアから特徴を抽出することと、
前記抽出された特徴を使用して、前記鼓膜画像のペアの特徴ベクトルを形成することと、
前記鼓膜画像のペアの病状を分類することと、
を含む、前記方法。
【請求項2】
前記特徴ベクトルが2つの部分を有し、第1の部分は深層学習技術を使用して作成されたルックアップテーブルベースの値で構成され、第2の部分はペアの鼓膜間のレジストレーション誤差を記録することによって作成された手作りの特徴、L*a*b*色空間のa*及びb*成分のヒストグラムなどの色ベースの特徴、ならびにこれらのカラーチャネルの統計的測定値で構成される、請求項1に記載の方法。
【請求項3】
前記深層学習技術が転移ベースの学習を含む、請求項2に記載の方法。
【請求項4】
前記転移ベースの学習が、Inception V3またはResNetを含む深層学習ネットワークを再トレーニングすることを含む、請求項3に記載の方法。
【請求項5】
前記抽出された特徴が連結されて単一の特徴ベクトルを形成する、請求項1~4のいずれか一項に記載の方法。
【請求項6】
前記鼓膜画像のペアの病状を分類することが、ツリーバガー分類器によって前記単一の特徴ベクトルを分類することを含む、請求項5に記載の方法。
【請求項7】
前処理が、センサベースの問題を軽減すること、前記1つまたは複数の画像内の関心領域を選択すること、グレア効果(光の反射)、耳垢、毛髪、暗い縁、及びテキストを検出すること、前記患者の前記右鼓膜の前記合成画像及び前記対応する左鼓膜の前記合成画像から、前記グレア効果、耳垢、毛髪、暗い縁及びテキストが低減または除去された前記1つまたは複数の画像のコピーを作成すること、のうちの1つまたは複数を含む、請求項1~6のいずれか一項に記載の方法。
【請求項8】
データ拡張が、前記1つまたは複数の画像のそれぞれを水平方向と垂直方向の両方に反射させることと、前記1つまたは複数の画像のそれぞれを0.7~2の範囲でスケーリングすることと、前記1つまたは複数の画像のそれぞれをランダムに回転することと、前記1つまたは複数の画像のそれぞれを水平方向と垂直方向の両方に0~45度の範囲で剪断することと、それらの画像を水平方向と垂直方向の両方に-30~30ピクセルの範囲で平行移動することと、を含む、請求項1~7のいずれか一項に記載の方法。
【請求項9】
前記鼓膜画像のペアの病状を分類することが、各鼓膜を正常または異常として分類することを含む、請求項1~8のいずれか一項に記載の方法。
【請求項10】
前記異常が、急性中耳炎(AOM)、中耳滲出液(非感染体液)、真珠腫(耳の一般的な破壊性皮膚嚢胞)、鼓膜穿孔、及び正常と比較した鼓膜陥凹のうちの1つまたは複数を含む、請求項9に記載の方法。
【請求項11】
前記画像キャプチャデバイスが、前記鼓膜のそれぞれの1つまたは複数の静止画像をキャプチャするか、または前記鼓膜のそれぞれのビデオをキャプチャする、請求項1~10のいずれか一項に記載の方法。
【請求項12】
前記画像キャプチャデバイスが高解像度耳鏡またはデジタルビデオ耳鏡を含む、請求項10に記載の方法。
【請求項13】
患者の左右両方の鼓膜の画像から鼓膜の病状を分類するシステムであって、
画像キャプチャデバイスであって、患者の左鼓膜のそれぞれの1つまたは複数の画像と右鼓膜の1つまたは複数の画像をキャプチャする前記画像キャプチャデバイスと、
メモリであって、患者の前記左鼓膜のそれぞれのキャプチャされた1つまたは複数の画像及び右鼓膜の1つまたは複数の画像が記憶される、前記メモリと、
前記メモリと通信するプロセッサであって、前記プロセッサは、前記メモリに格納されているコンピュータ可読命令であって、前記プロセッサに、
前記患者の前記左鼓膜及び前記右鼓膜の前記キャプチャされた1つまたは複数の画像に対して前処理及びデータ拡張を実行して、前記患者の前記右鼓膜の合成画像及び前記対応する左鼓膜の合成画像を作成して、前記患者に対して鼓膜画像のペアを形成させ、
前記鼓膜画像のペアから特徴を抽出させ、
前記抽出された特徴を使用して、前記鼓膜画像のペアの特徴ベクトルを形成させ、
前記鼓膜画像のペアの病状を分類させる、
前記コンピュータ可読命令を実行する、前記プロセッサと、
を含む、前記システム。
【請求項14】
前記特徴ベクトルが2つの部分を有し、第1の部分は深層学習技術を使用して作成されたルックアップテーブルベースの値で構成され、第2の部分はペアの鼓膜間のレジストレーション誤差を記録することによって作成された手作りの特徴、L*a*b*色空間のa*及びb*成分のヒストグラムなどの色ベースの特徴、ならびにこれらのカラーチャネルの統計的測定値で構成される、請求項13に記載のシステム。
【請求項15】
前記深層学習技術が転移ベースの学習を含む、請求項14に記載のシステム。
【請求項16】
前記転移ベースの学習が、Inception V3またはResNetを含む深層学習ネットワークを再トレーニングすることを含む、請求項15に記載のシステム。
【請求項17】
前記抽出された特徴が連結されて単一の特徴ベクトルを形成する、請求項13~16のいずれか一項に記載のシステム。
【請求項18】
前記鼓膜画像のペアの病状を分類することが、ツリーバガー分類器によって前記単一の特徴ベクトルを分類することを含む、請求項17に記載のシステム。
【請求項19】
前処理が、センサベースの問題を軽減すること、前記1つまたは複数の画像内の関心領域を選択すること、グレア効果(光の反射)、耳垢、毛髪、暗い縁、及びテキストを検出すること、前記患者の前記右鼓膜の前記合成画像及び前記対応する左鼓膜の前記合成画像から、前記グレア効果、耳垢、毛髪、暗い縁及びテキストが低減または除去された前記1つまたは複数の画像のコピーを作成すること、のうちの1つまたは複数を含む、請求項13~18のいずれか一項に記載のシステム。
【請求項20】
データ拡張が、前記1つまたは複数の画像のそれぞれを水平方向と垂直方向の両方に反射させることと、前記1つまたは複数の画像のそれぞれを0.7~2の範囲でスケーリングすることと、前記1つまたは複数の画像のそれぞれをランダムに回転することと、前記1つまたは複数の画像のそれぞれを水平方向と垂直方向の両方に0~45度の範囲で剪断することと、それらの画像を水平方向と垂直方向の両方に-30~30ピクセルの範囲で平行移動することと、を含む、請求項13~19のいずれか一項に記載のシステム。
【請求項21】
前記鼓膜画像のペアの病状を分類することが、各鼓膜を正常または異常として分類することを含む、請求項13~20のいずれか一項に記載のシステム。
【請求項22】
前記異常が、急性中耳炎(AOM)、中耳滲出液(非感染体液)、真珠腫(耳の一般的な破壊性皮膚嚢胞)、鼓膜穿孔、及び正常と比較した鼓膜陥凹のうちの1つまたは複数を含む、請求項21に記載のシステム。
【請求項23】
前記画像キャプチャデバイスが、前記鼓膜のそれぞれの1つまたは複数の静止画像をキャプチャするか、または前記鼓膜のそれぞれのビデオをキャプチャする、請求項13~22のいずれか一項に記載のシステム。
【請求項24】
前記画像キャプチャデバイスが高解像度耳鏡またはデジタルビデオ耳鏡を含む、請求項23に記載のシステム。
【請求項25】
コンピュータ可読媒体に格納されたコンピュータ実行可能コードセクションを含む非一時的コンピュータプログラム製品であって、画像から鼓膜の病状を分類する方法を実行するための前記コンピュータ実行可能コードセクションは、
前記患者の前記左鼓膜及び前記右鼓膜の前記キャプチャされた1つまたは複数の画像に対して前処理及びデータ拡張を実行して、前記患者の前記右鼓膜の合成画像及び前記対応する左鼓膜の合成画像を作成して、前記患者に対して鼓膜画像のペアを形成することと、
前記鼓膜画像のペアから特徴を抽出することと、
前記抽出された特徴を使用して、前記鼓膜画像のペアの特徴ベクトルを形成することと、
前記鼓膜画像のペアの病状を分類することと、
を含む、前記非一時的コンピュータプログラム製品。
【請求項26】
前記特徴ベクトルが2つの部分を有し、第1の部分は深層学習技術を使用して作成されたルックアップテーブルベースの値で構成され、第2の部分はペアの鼓膜間のレジストレーション誤差を記録することによって作成された手作りの特徴、L*a*b*色空間のa*及びb*成分のヒストグラムなどの色ベースの特徴、ならびにこれらのカラーチャネルの統計的測定値で構成される、請求項25に記載のコンピュータプログラム製品。
【請求項27】
前記深層学習技術が転移ベースの学習を含む、請求項26に記載のコンピュータプログラム製品。
【請求項28】
前記転移ベースの学習が、Inception V3またはResNetを含む深層学習ネットワークを再トレーニングすることを含む、請求項27に記載のコンピュータプログラム製品。
【請求項29】
前記抽出された特徴が連結されて単一の特徴ベクトルを形成する、請求項25~28のいずれか一項に記載のコンピュータプログラム製品。
【請求項30】
前記鼓膜画像のペアの病状を分類することが、ツリーバガー分類器によって前記単一の特徴ベクトルを分類することを含む、請求項29に記載のコンピュータプログラム製品。
【請求項31】
前処理が、センサベースの問題を軽減すること、前記1つまたは複数の画像内の関心領域を選択すること、グレア効果(光の反射)、耳垢、毛髪、暗い縁、及びテキストを検出すること、前記患者の前記右鼓膜の前記合成画像及び前記対応する左鼓膜の前記合成画像から、前記グレア効果、耳垢、毛髪、暗い縁及びテキストが低減または除去された前記1つまたは複数の画像のコピーを作成すること、のうちの1つまたは複数を含む、請求項25~30のいずれか一項に記載のコンピュータプログラム製品。
【請求項32】
データ拡張が、前記1つまたは複数の画像のそれぞれを水平方向と垂直方向の両方に反射させることと、前記1つまたは複数の画像のそれぞれを0.7~2の範囲でスケーリングすることと、前記1つまたは複数の画像のそれぞれをランダムに回転することと、前記1つまたは複数の画像のそれぞれを水平方向と垂直方向の両方に0~45度の範囲で剪断することと、それらの画像を水平方向と垂直方向の両方に-30~30ピクセルの範囲で平行移動することと、を含む、請求項25~31のいずれか一項に記載のコンピュータプログラム製品。
【請求項33】
前記鼓膜画像のペアの病状を分類することが、各鼓膜を正常または異常として分類することを含む、請求項25~32のいずれか一項に記載のコンピュータプログラム製品。
【請求項34】
前記異常が、急性中耳炎(AOM)、中耳滲出液(非感染体液)、真珠腫(耳の一般的な破壊性皮膚嚢胞)、鼓膜穿孔、及び正常と比較した鼓膜陥凹のうちの1つまたは複数を含む、請求項33に記載のコンピュータプログラム製品。
【請求項35】
画像キャプチャデバイスが、前記鼓膜のそれぞれの1つまたは複数の静止画像をキャプチャするか、または前記鼓膜のそれぞれのビデオをキャプチャする、請求項25~34のいずれか一項に記載のコンピュータプログラム製品。
【請求項36】
前記画像キャプチャデバイスが高解像度耳鏡またはデジタルビデオ耳鏡を含む、請求項35に記載のコンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
政府支援条項
本発明は、合衆国国立衛生研究所により付与された助成金番号R21 DC016972の下、政府の支援を受けて行われた。米国政府は、本発明における一定の権利を有する。
【0002】
関連出願の相互参照
本出願は、2021年2月8日に出願された米国仮特許出願第63/146,903号の優先権及び利益を主張し、この仮特許出願は参照により完全に組み込まれ、本明細書の一部となる。
【背景技術】
【0003】
耳の感染症、特に中耳の急性感染症(急性中耳炎)は、最も一般的に治療されている小児疾患であり、米国だけで年間約2,000万件の医師の診察が行われている。
【0004】
耳の疾患は、適切な時期に診断され、適切な治療法が適用されれば、簡単に治療できる疾患の一つである。そうしないと、耳の疾患により難聴やその他の合併症が発生する可能性がある。耳鏡検査は、外耳道と鼓膜(tympanic membrane、TM)を検査するために使用される最も基本的かつ一般的なツールの1つである[1,2]。耳鼻咽喉科医や小児科医は、耳鏡検査と臨床的特徴を利用して、TMの穿孔、真珠腫、急性中耳炎(AOM)、及び慢性中耳炎(COM)を診断できる。しかしながら、経験豊富で熟練した医師による検査が常に可能であるとは限らない。同じ耳鏡検査の経験のない医師を支援するには、コンピュータ支援診断(CAD)システムが役立つ可能性がある[3]。
【0005】
中耳炎(OM)は5歳未満の子供にとって最も一般的な疾患の1つであるため[9,10]、ほとんどのCADシステムは、中耳に感染症があるかどうかを判断する分類方法を使用している[4-8]。陥没、穿孔、鼓膜硬化症などの他の耳疾患は、自動CADシステムによって正常な鼓膜画像に対して異常な鼓膜画像として分類される[11-13]。分類方法に加えて、耳鏡画像上のTMをセグメント化して分類するアプローチもある[14-16]。最近では、特定の耳鏡検査ビデオフレームを選択し、それらをつなぎ合わせることで作成される合成画像も、耳の病状を検出する確率を高めるために使用されている[17,18]。2019年7月18日に公開された米国PG特許公開 第2019/0216308A1号(参照により完全に組み込まれる)は、コンテンツベースの画像検索(CBIR)システムの一例であり、医師を支援するために設計されたCADシステムの好例である[19]。
【0006】
一般に、鼓膜の分類やセグメント化に使用されるTM解析用のCADアプローチは、手作りの特徴ベースと深層学習ベースの2つのカテゴリに分類できる。手作りの特徴ベースのアプローチの場合、最も一般的に使用される特徴は、従来のテクスチャアプローチに加えて色ベースの情報である[12,15,20-23]。鼓膜の正常な場合と異常な場合には大きな違いがあるため、色ベースの情報が一般的である。深層学習ベースのアプローチは、一般に精度が高いため、テクスチャベースのアプローチよりもよく使用される[4,24]。ある研究では、耳鏡検査画像を分類するために手作りのアプローチと深層学習ベースのアプローチの両方を使用した[7]。
【0007】
しかしながら、OM異常に対するCADにおけるこれまでの作業は、片耳(すなわち、右または左のいずれか)のTM画像にのみ適用されてきた。例えば、リーらは、耳の側を検出する畳み込みニューラルネットワーク(CNN)ベースのアプローチを提案したが、この情報はペアになった画像(右耳と左耳)を一緒に分類するためには使用されなかった[25]。しかしながら、医師は通常、診断を下す前に身体検査で両耳を検査する。
【0008】
したがって、その一部を上で説明した、当技術分野における課題を克服するシステム及び方法が望まれている。特に、多数の耳の病状のいずれも適切に特定し、分類するために、耳鏡検査画像を分析するためのタイムリーで正確な方法及びシステムが必要とされている。
【発明の概要】
【0009】
本明細書では、一組の画像(右耳と左耳の両方からの画像)を比較する自動耳鏡検査画像分析システム及び方法を開示及び説明する。開示されたシステム及び方法は、深層学習及び色ベースの特徴を使用して、TM画像のペアを分類する。画像分類には、例えば、「正常-正常」、「正常-異常」、「異常-正常」、「異常-異常」が含まれ得る。深層学習ベースの特徴を抽出するには、ルックアップテーブルを作成して使用することができる。画像の前処理ステップは、ルックアップテーブルの作成に使用される。ペアになった画像のルックアップテーブル値がラベルに従って分析され、右耳の値と左耳の値の間の関連性が判断された。加えて、色ベースの特徴の寄与を使用して、分類精度を向上させることもできる。
【0010】
本明細書では、患者の左右両方の鼓膜の画像から鼓膜の病状を分類するための方法、システム、及びコンピュータプログラム製品を開示及び説明する。画像キャプチャデバイスを使用して患者の左鼓膜のそれぞれの1つまたは複数の画像及び右鼓膜の1つまたは複数の画像をキャプチャすることと、患者の左鼓膜及び右鼓膜のキャプチャされた1つまたは複数の画像に対して前処理及びデータ拡張を実行して、患者の右鼓膜の合成画像及び対応する左鼓膜の合成画像を作成して、患者の鼓膜画像のペアを形成することと、鼓膜画像のペアから特徴を抽出することと、抽出された特徴を使用して、鼓膜画像のペアの特徴ベクトルを形成することと、鼓膜画像のペアの病状を分類することと、のための方法、システム、及びコンピュータプログラム製品が説明及び開示される。
【0011】
追加の利点は、以下の説明で部分的に述べられ、または実践によって学ぶことができる。この有利な点は、添付の特許請求の範囲に特に指摘された要素及び組み合わせによって実現され達成されることになる。上記の一般的な説明と以下の詳細な説明との両方は、例示的及び説明的なものに過ぎず、特許請求されているように限定的ではないことを理解されたい。
【図面の簡単な説明】
【0012】
添付の図面は、本明細書に組み込まれ、本明細書の一部を構成するものであり、実施形態を示しており、本明細書の説明と併せて、本方法及び本システムの原理を明らかにする目的を果たす。
図1】単一患者の右鼓膜と左鼓膜の両方からの画像から鼓膜の病状を分類するための例示的な概観システムを示す。
図2A】自動耳鏡検査画像分析のための左右の鼓膜耳鏡検査画像の使用に基づいて耳の病状を分類するアプローチの一実施形態を含むモジュールを示す。
図2B】例示的な合成画像生成方法のフロー図を示し、ケース1は、新しいフレームが、以前は別の重要なフレームによってカバーされていなかった新しい関心領域を含む場合に発生し、ケース2は、領域が以前の重要なフレームによってすでにカバーされている領域がこの新しいフレームではより良い品質を有する場合に発生する。
図3図3A~3Fは、正常、滲出液を伴う異常、及び鼓膜切開チューブを伴う異常のカテゴリからのペアになった例を示し、異なるカテゴリの画像間の変動性を示している。
図4】鼓膜切開チューブ診断による左右の鼓膜画像を示す。
図5】鼓膜画像のペアに対する特徴ベクトル構造の作成を示す。
図6】患者の左右の鼓膜耳鏡検査画像を使用して鼓膜の病状を分類する例示的な方法を示すフローチャートである。
図7】患者の左右の鼓膜耳鏡検査画像を使用して鼓膜の病状を分類するために使用できる例示的なコンピュータを示す。
図8】異なる特徴ベクトルについて、正常-正常及び異常-異常のペアのみ、及び異常-正常/正常-異常のペアを追加した後の3分割の分類精度の結果を示す。
図9A】正常-正常、異常-異常、正常-異常、及び異常-正常のペアの鼓膜の右側及び左側のルックアップ値分布を示す図である。
図9B】正常-正常、異常-異常、正常-異常、及び異常-正常のペアの鼓膜の右側及び左側のルックアップ値分布を示す図である。
図10】耳鼻咽喉科専門医によって「微妙」とラベル付けされ、転移学習によって誤分類されたペア画像に関する4つの例を示している。
【発明を実施するための形態】
【0013】
本方法及びシステムが開示され記載される前に、方法及びシステムは、特定の合成方法、特定の構成要素に、または特定の組成に限定されないことが理解されるべきである。本明細書で使用される用語は、特定の実施形態のみを説明する目的のためであり、限定することを意図するものではないことも理解すべきである。
【0014】
明細書及び添付の特許請求の範囲で使用される場合、単数形「a」、「an」、及び「the」は、文脈に別途明示のない限り、複数の指示対象を含む。範囲は、「約」ある特定の値から、及び/または「約」別の特定の値までとして本明細書では表現される場合がある。そのような範囲が表現される場合、別の実施形態は、ある特定の値から、及び/または他の特定の値までを含む。同様に、値が近似値として表される場合、先行詞「約」を使用することにより、特定値が別の実施形態を形成することが理解されるであろう。さらに、各範囲の終点は、他の終点との関係でも、他の終点とは無関係でも、有意であることが理解されるであろう。
【0015】
「任意」または「任意に」は、その後に記載される事象または状況が生じても生じなくてもよいこと、及び、記載が該事象または状況が生じる場合及び生じない場合を含むことを意味する。
【0016】
この明細書の記載及び特許請求の範囲全体にわたって、文言「含む(comprise)」及びその文言の変形、例えば「含んでいる(comprising)」及び「含む(comprises)」は、「限定されるものではないが、~を含んでいる」を意味しており、例えば、他の付加物、構成要素、要素またはステップを除外することを意図していない。「例示的な」は、「~の例」を意味しており、好適なまたは理想的な実施形態の指示を伝えることを意図していない。「~など(such as)」は、限定的な意味ではなく、説明のために使用される。
【0017】
開示された方法及びシステムを実行するために使用され得る構成要素が、開示される。これら及び他の構成要素が本明細書に開示されており、これらの構成要素の組み合わせ、サブセット、相互作用、グループなどが開示されている場合、これらの各様々な個別の及び集合的な組み合わせ及び順列の特定指示が明示的に開示されていないことがあるが、それぞれが、すべての方法及びシステムについて、本明細書に具体的に企図され記載されていることが理解される。このことは、限定されるものではないが、開示された方法のステップを含んでいる、本出願のすべての態様に適用される。したがって、実行可能な様々な追加ステップがある場合、これらの追加ステップのそれぞれは、開示された方法の任意の特定の実施形態または実施形態の組み合わせで実行可能であることが理解される。
【0018】
当業者によって理解されるように、本方法及び本システムは、完全にハードウェアの実施形態、完全にソフトウェアの実施形態、またはソフトウェア及びハードウェアの態様を組み合わせた実施形態の形態を取り得る。さらに、本方法及び本システムは、記憶媒体に具現化されたコンピュータ可読プログラム命令(例えば、コンピュータソフトウェア)を有するコンピュータ可読記憶媒体上のコンピュータプログラム製品の形態を取り得る。より具体的には、本方法及び本システムは、ウェブ実装コンピュータソフトウェアの形態を取り得る。ハードディスク、CD-ROM、光学ストレージデバイス、または磁気ストレージデバイスを含む、適切な任意のコンピュータ可読記憶媒体を利用することができる。
【0019】
以下、本方法及び本システムの実施形態について、方法、システム、装置及びコンピュータプログラム製品のブロック図及びフローチャート図を参照しながら説明する。ブロック図及びフローチャート図の各ブロック、ならびにブロック図及びフローチャート図のブロックの組み合わせは、それぞれコンピュータプログラム命令によって実施できることが理解されよう。これらのコンピュータプログラム命令は、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置にロードされて機械を生成することができ、コンピュータまたは他のプログラム可能なデータ処理装置で実行される命令が、1つまたは複数のフローチャートブロックに指定された機能を実装するための手段を作成する。
【0020】
これらのコンピュータプログラム命令はまた、コンピュータまたは他のプログラム可能なデータ処理装置に特定の方法で機能するように指示することができるコンピュータ可読メモリに格納されてもよく、コンピュータ可読メモリに格納された命令が、1つまたは複数のフローチャートブロックに指定された機能を実装するためのコンピュータ可読命令を含む製品を生成する。コンピュータプログラム命令はまた、コンピュータまたは他のプログラム可能なデータ処理装置にロードされて、コンピュータまたは他のプログラム可能な装置上で実行されることになる一連の動作ステップに、コンピュータまたは他のプログラム可能な装置上で実行される命令が、1つまたは複数のフローチャートブロックに指定された機能を実装するためのステップを提供するように、コンピュータ実装プロセスを生成させることができる。
【0021】
したがって、ブロック図及びフローチャート図のブロックは、指定された機能を実行するための手段の組み合わせ、指定された機能を実行するためのステップの組み合わせ、及び指定された機能を実行するためのプログラム命令手段をサポートする。また、ブロック図及びフローチャート図の各ブロック、ならびにブロック図及びフローチャート図のブロックの組み合わせは、指定された機能またはステップを実行する専用ハードウェアベースコンピュータシステム、または専用ハードウェアとコンピュータ命令との組み合わせによって実装できることも理解されよう。
【0022】
本発明の方法及びシステムは、好ましい実施形態の以下の詳細な説明及びそこに含まれる実施例、ならびに図及びそれらの前後の説明を参照することによって、より容易に理解することができる。
【0023】
図1は、人の左耳と右耳の両方の画像のセットから耳の病状を分類するための例示的な概観システムを示す。図1に示されるように、システム100の一実施形態は、画像キャプチャ機構102を備える。一態様では、画像キャプチャ機構102はカメラであり得る。より具体的には、画像キャプチャ機構102はデジタル耳鏡であってもよい。画像キャプチャ機構102は、各耳の静止画像及び/またはビデオ画像を撮影することができる。一般に、画像キャプチャ機構102はデジタルカメラであるが、適切なアナログ/デジタル変換器を備えた、または適切なアナログ/デジタル変換器と通信するアナログデバイスであってもよい。画像キャプチャ機構102はまた、ウェブカメラ、スキャナ、レコーダ、または静止画像またはビデオをキャプチャすることができる他の任意のデバイスであってもよい。場合によっては、システムは、各耳の画像を同時にまたは順番にキャプチャするための2つの画像キャプチャ機構102を備えることができる。
【0024】
図1に示すように、画像キャプチャ機構102は、例えば、ネットワーク(有線(光ファイバを含む)、無線、または有線と無線の組み合わせ)または直接接続ケーブル(例えば、ユニバーサルシリアルバス(USB)接続、IEEE1394「Firewire」接続などを使用する)を介して、コンピューティングデバイス110と直接通信する。他の態様では、画像キャプチャ機構102は、コンピューティングデバイス110から遠隔に配置することができるが、画像をキャプチャし、それらをメモリデバイスに記憶することができ、例えば、ポータブルメモリデバイスなどを使用して画像をコンピューティングデバイス110にダウンロードまたは転送できるようにすることができる。一態様では、コンピューティングデバイス110及び画像キャプチャ機構102は、スマートデバイス、スマートフォン、タブレット、ラップトップコンピュータ、または任意の他の固定またはモバイルコンピューティングデバイスなどのデバイスを備えることができるか、またはその一部であり得る。
【0025】
基本的な構成では、コンピューティングデバイス110は、プロセッサ104及びメモリ108から構成され得る。プロセッサ104は、メモリ108に記憶されたコンピュータ可読命令を実行し得る。さらに、画像キャプチャデバイス102によってキャプチャされた画像は、静止画像であろうとビデオであろうと、メモリ108に記憶され、メモリ108に記憶されたコンピュータ可読命令を使用してプロセッサ104によって処理され得る。
【0026】
プロセッサ104は、画像キャプチャデバイス102及びメモリ108と通信する。プロセッサ104は、メモリ108に格納されたコンピュータ可読命令を実行して、画像キャプチャデバイス102を使用して、患者の左耳と右耳の両方の画像のセットをキャプチャすることができる。一態様では、キャプチャされた画像は、患者の左鼓膜及び右鼓膜の一連の画像を含むことができる。
【0027】
プロセッサ104はさらに、メモリ108に格納されたコンピュータ可読命令を実行して、画像キャプチャデバイス102を使用して、1つまたは複数のセットのデジタル画像をキャプチャし、1つまたは複数のセットから耳の病状を分類することができる。
【0028】
図2Aは、自動耳鏡検査画像分析のための左右の鼓膜耳鏡検査画像の使用に基づいて耳の病状を分類するアプローチの一実施形態を含むモジュールを示す。これらのモジュールは、プロセッサ104によって実行できるソフトウェアを含んでもよい。これらのモジュールは、画像セットのキャプチャ202、前処理及びデータ拡張204、ルックアップテーブルを生成するための特徴抽出206、鼓膜画像のペアに対する特徴ベクトルの形成208及びペアの分類210を含む。これらの各モジュールについては、本明細書でさらに詳しく説明する。画像取得処理については、図1を参照して上記で説明した。
【0029】
HDビデオ耳鏡(例えば、ミズーリ州セントルイスのJEDMED Horus+HD Video Otoscope)などの耳鏡を使用して、鼓膜のペア(同じ患者の左耳と右耳)の1つまたは複数の画像セットまたはビデオをキャプチャすることができる。収集されたHD画像の解像度が高いため、一部の異常を特定できるが、この製品の設計上の問題の一部により、自律的な認識が困難になる可能性がある。前処理モジュール202では、これらの課題が軽減され、画像はその特徴を計算するために準備される。
【0030】
適切な画像を取得することは、視覚的な障害物(耳垢、毛髪など)、不十分な照明、狭い視野、画像の周囲の黒い縁、画像上の時間/テキストスタンプなどのために困難なタスクであり得る。患者が子供の場合、患者が協力的でない間は良好な静止画像をキャプチャすることができないという問題も生じる可能性がある。これらの課題を解決するために、患者の各外耳道の短いビデオ(約3~5秒)がキャプチャされる。次に、図2Bに示すアルゴリズムを実行するソフトウェアが実行され、鼓膜のビデオフレームを分析し、新しいモザイク画像を作成する。
【0031】
ビデオシーケンス内の新しいフレームごとに、図2Bで説明したモザイク画像作成アルゴリズムが、障害物(例えば、耳垢、毛髪、暗い縁、テキストなど)のない関心領域を決定する。これらの各領域はサブセクションに分割され、各セクションの画質は、焦点が合っているか、適切なコントラストと照明があるかどうかという点で評価される。フレームに、前のフレームには含まれていない鼓膜の部分が含まれている場合、またはすでに含まれている鼓膜の部分が含まれているが、(焦点、コントラスト、照明の点で)品質が高い場合、このフレームは「重要なフレーム」としてラベル付けされるか、またはその他の方法で特定される。最後に、新しい方法では、ビデオシーケンス内のすべての「重要なフレーム」の関心領域を考慮してモザイク画像を構築する。
【0032】
フレームには、異なる量の視覚障害物(例えば、耳垢、毛髪、グレア、文字、暗い縁など)及び/または照明の質が含まれる場合がある。本明細書で説明するように、この方法は、優れた照明を備えた障害物のない複合画像を構築することを含む。したがって、アルゴリズムは、合成画像の生成中に障害物(耳垢、グレア、毛髪、文字、暗い縁-下記を参照)及び焦点の合っていない領域を検出する。これを行うために、アルゴリズムは新しい各フレームを以前のフレームと比較し、より焦点が合っていて明るい領域を使用して新しい画像を更新する。焦点と照明の品質を決定するために、画像のエントロピーが計算され、最も高いエントロピーを持つフレームが選択される。
【0033】
耳垢の検出に関しては、耳垢の典型的な特徴の1つはその黄色である。したがって、黄色の領域は、CMYK色空間の閾値処理を使用して特定される。これらの潜在的な耳垢領域が、CMYK空間内で最も高い「Y」値を持つ領域として検出された後、これらの耳垢領域の強度の勾配の大きさ(つまり、「Y」値)の平均及び標準変動が計算される。これらの特徴は、耳垢領域を検出するためにFSG分類器に入力される。
【0034】
グレアは、鼓膜の表面における耳鏡からの光の反射によって引き起こされる。グレアは、いくつかの特徴(例えば、鼓膜の平均色値)の計算において問題となる可能性がある。一方、重要な臨床診断の手がかりである光錐は、グレア検出アルゴリズムによって誤ってグレアと見なされ、除去される可能性がある。特徴を正確に抽出するために、開示された方法は、強度値のヒストグラムを計算することを含み、ヒストグラム内の最高の強度値に対応するピークを見つける。そのピークは、グレアと光錐に対応する。グレアと光錐を区別するために、面積閾値処理が適用される(グレア(複数可)が光錐(複数可)よりも大きい場合)。
【0035】
毛髪の検出には、R.G.von Gioi、J.Jakubowicz、J.-M.Morel, and G.Randall,"LSD: A fast line segment detector with a false detection control," IEEE transactions on pattern analysis and machine intelligence,vol.32,pp.722-732,2010に記載されており、参照により組み込まれているような、ラインセグメント検出器を用いることによって、薄い線形構造を検出することが含まれる。各髪束は、互いにほぼ平行な2本の線(髪の両端)で表され、これらの線は互いに接近している。したがって、距離が短いほぼ平行な各線のペアが毛髪の候補とみなされる。画像のテクスチャはこれらの平行線の間で計算され、テクスチャの変化が小さいものは毛髪としてマークされる。
【0036】
いくつかの場合では、関心領域が抽出された後、これらの領域は64×64ピクセルのブロックに分割される。各ブロックについて、標準偏差、グレーレベル共起行列、コントラスト、及び平均強度値が計算される。これらの値は、タイルの品質を計算するために重み付けされる。重みは手動または自動で決定できる。
【0037】
2つのフレームを登録するために、関心点が自動的に抽出され、それらの点の特徴ベクトルが照合される。関心点を抽出するために、3つの最先端のアプローチのパフォーマンスが比較される(H.Bay, T.Tuytelaars, and L.Van Gool, "Surf: Speeded up robust features," Computer vision-ECCV 2006,pp.404-417,2006;D.G.Lowe, "Distinctive image features from scale-invariant keypoints," International journal of computer vision, vol.60,pp.91-110,2004;and E.Rublee, V.Rabaud, K.Konolige, and G.Bradski, "ORB: An efficient alternative to SIFT or SURF," in Computer Vision(ICCV),2011 IEEE International Conference on,2011,pp.2564-2571を参照。各内容は参照により完全に組み込まれる)。一致した点を特定するために、このアプローチでは2つのフレーム内で検出された特徴のすべての可能なペア間の距離を計算する。このアプローチでは、ランダムサンプルコンセンサス(RANSAC)を使用して初期ホモグラフ行列を推定する(これも参照により組み込まれる、M.A.Fischler and R.C.Bolles, "Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography,"Communications of the ACM,vol.24,pp.381-395,1981を参照)。
【0038】
各フレームは、(1)新しいフレームに、以前は別の重要なフレームによってカバーされていなかった新しい関心領域が含まれているか、または、(2)以前の重要なフレームによってすでにカバーされている領域が、この新しいフレームにおいてより高い品質を有しているか、という2つの基準に従って、「重要なフレーム」であるかどうか特定される。その後、スティッチングによって合成画像を作成できる。開示された方法は、合成画像の構築中に「重要なフレーム」を使用する。このアルゴリズムは、鼓膜のサブパーツに最適な「重要なフレーム」を選択し、マルチバンドブレンディング(ピラミッドブレンディング)手法を使用する。これにより、高周波の詳細を維持しながら、照明の違いにもかかわらず画像間のスムーズな遷移が保証される。
【0039】
本明細書で述べるように、前処理には埋め込まれたテキストの除去も含まれる場合がある。多くの場合、耳鏡でキャプチャされた画像には、臨床目的で日時情報が埋め込まれている。前処理では、この埋め込まれた日付と時刻の情報を削除することが望ましい場合がある。埋め込まれたテキストを検出するには、様々なバンドの強度比と勾配情報が併用される。テキストの可能な位置と色の範囲に関する事前情報により、このソリューションでは高い再現率でテキスト文字を検出できる。検出されたテキストピクセルはガイダンスフィールドの作成に使用され、これらのピクセルの勾配の大きさは0に設定される。最終的に、オーバーレイされたテキストはシームレスに隠される。
【0040】
前処理モジュール202は、関心領域(ROI)検出をさらに含み得る。鼓膜を含むROIは、使用される画像キャプチャデバイス(耳鏡など)の先端の物理的特性により、画像全体の任意の場所に存在する可能性がある。また、先端の特性により、画像内の先端の境界でいくつかの反射の問題が発生する場合がある。この問題を解決するために、アルゴリズムは強度値に従ってすべてのピクセルをクラスタリングし、画像境界上のピクセルの大部分を考慮して背景領域を選択する。背景ピクセルが検出された後、ブックスタイン制約を伴う線形最小二乗法を使用して、可能性のある前景ピクセルが楕円に適合される。最後に、モルフォロジー収縮演算を適用して、先端の周囲に発生する可能性のあるグレアアーティファクトを除去する。
【0041】
前処理モジュール202は、グレアの検出及び除去を含んでいてもよい。画像における最も重大なアーチファクトの1つは、鼓膜の表面上の画像キャプチャデバイス(例えば、高解像度デジタル耳鏡を含む耳鏡)からの光の反射によって引き起こされるグレアである。グレアは、いくつかの特徴(例えば、鼓膜の平均色値)の計算において課題となる可能性がある。一方、重要な臨床診断の手がかりである光錐は、グレア検出アルゴリズムによって誤ってグレアと見なされ、除去される可能性がある。特徴を正確に抽出するために、強度値のヒストグラムが計算され、グレアに対応するヒストグラム内の関連ピークが見つかる。グレアの検出後、アルゴリズムは、検出されたグレア領域が画像の残りの部分にシームレスにブレンドされる画像の修正コピーを作成する。
【0042】
1つのステップは、正常な耳の画像と異常な耳の画像を認識するように人工知能(AI)ネットワークをトレーニングするためのデータセットを取得することである。それらの様々なデータセットはトレーニング目的で使用される場合があり、この非限定的な例では、使用されたすべての画像は、IRB(倫理審査委員会)の承認(研究番号:2016H0011)を得て、オハイオ州立大学(OSU)のprimary care clinics and Ear, Nose, and Throat (ENT)施設ならびに米国オハイオ州コロンバスのNationwide Children's Hospital (NCH)の成人及び小児患者からキャプチャされたものである。さらに、オハイオ州立大学倫理審査委員会が定めたルールに従って、実験データセットの作成中にすべてのサンプルが完全に匿名化された。
【0043】
合計150ペア(つまり、300個の個別)の鼓膜画像を使用して、システムのトレーニングとテストが行われた。各ペアは、同じ診察時にキャプチャされた同じ人の右耳画像と左耳画像を含む。各カテゴリ(正常-異常)の画像数を表1に示す。この例では、十分な画像数がなかったため、中耳の異常滲出液(体液)と鼓膜切開チューブの2つの異常カテゴリのみが含まれており、これは、他のカテゴリでは、分類器を適切にトレーニング及びテストするのに十分な数の画像がなかったからである。しかしながら、システムは、視覚情報から判断できる耳の異常の任意の時点の画像を使用してトレーニングすることができる。ここでも、この非限定的な例では、データセット内にキャプチャされる異常の数が限られているため、異常の種類に応じてペアを個別に分類するのではなく、正常-異常のペアの分類が問題となる。ペア画像の数に加えて、ルックアップテーブルの特徴を抽出しながら、開発したシステムの深層学習部分を検証するために137個の単一画像(83個の異常、54個の正常)が使用された。
【表1】
【0044】
図3A~3Fは、正常、滲出液を伴う異常、及び鼓膜切開チューブを伴う異常のカテゴリからのペアになった例を示し、異なるカテゴリの画像間の変動性を示している。一部のカテゴリの画像は、訓練されていない人にとっては他のカテゴリと区別するのが困難である。多くの場合、右耳と左耳の類似点は明らかではない。図3e及び3fからわかるように、鼓膜切開チューブの異常は、同じ患者でも異なって現れる。
【0045】
トレーニングと検証にはペア画像の数を増やす必要があったため、すべてのペア画像データセットが使用された。データベースにはJPEG形式でキャプチャされた画像が含まれていたが、他の画像形式を使用することもできる。加えて、個々の画像は耳鏡検査ビデオクリップのフレームから選択された。単一画像とビデオフレームは両方とも同じサイズ(1440×1080ピクセル)と解像度であったが、他のサイズと解像度が使用されてもよい。ビデオフレーム内の一部の画像は焦点が合っていないか、大量の耳垢が含まれているか、適切な照明がなかった。したがって、最適な単一画像とフレームを手動で選択して、適切な画像のペアを形成した。
【0046】
画像のデータセットを使用してシステムが訓練され検証されると、システムは、上記で図1に関して説明したように、患者の耳をキャプチャした画像を受信して分析できることが理解されるべきである。
【0047】
図2Aに戻って参照すると、第2のモジュールはデータ拡張及び前処理204である。データ拡張アプローチを使用して、転移学習用の画像の数と多様性を増やした。拡張アプローチには、水平方向と垂直方向の両方で画像を反射させること、0.7~2の範囲で画像をスケーリングすること、画像をランダムに回転させること、0~45度の範囲内で水平方向と垂直方向に画像を剪断すること、-30度のピクセル範囲内で水平方向と垂直方向の両方で最大30ピクセルまで画像を平行移動することが含まれる。データ拡張は、分析のためにキャプチャされた画像だけでなく、トレーニングや検証に使用される画像にも適用できる。
【0048】
これらの画像から特徴を抽出するために、前述した前処理ステップで関心領域(RoI)が抽出された。
【0049】
特徴ベクトルの形成
鼓膜ペアを正常または異常として分類するために、特徴抽出及びルックアップテーブルモジュール206は、転移学習ベース のルックアップテーブル特徴抽出及び手作りの特徴抽出の2つのステップで完了された。転移学習ベースのルックアップテーブルの特徴は、鼓膜画像検索システムについて、S.Camalan et al., "OtoMatch: Content-based eardrum image retrieval using deep learning," Plos one,vol.15,no.5,p.e0232776,2020におけるものと同じであり、これは参照により組み込まれる。本明細書では、以下に説明するように、ルックアップテーブル特徴抽出と手作りの特徴抽出がペアでの分類システムに統合されている。手作りの特徴には、レジストレーション誤差、ヒストグラム、及び、L*a*b*色空間のa*成分とb*成分の統計的測定値が含まれた。
【0050】
転移学習ベースの特徴抽出
深層学習を使用して鼓膜の異常を分類できる。この方法には、次のネットワークの少なくとも1つが含まれる場合がある:(1)既存のネットワークモデル、つまり、別のデータセット(imagenetなど)に既にトレーニングされているResNet-50[8]、Inception v3 [9]、またはInception-Resnet [10]が転移学習に使用される(K.He, X.Zhang, S.Ren, and J.Sun, "Deep residual learning for image recognition," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016,pp.770-778;C.Szegedy, V.Vanhoucke, S. Ioffe, J.Shlens, and Z. Wojna, "Rethinking the inception architecture for computer vision," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016,pp.2818-2826;and C. Szegedy, S. Ioffe, V. Vanhoucke, and A. Alemi, "Inception-v4, inception-resnet and the impact of residual connections on learning," arXiv preprint arXiv:1602.07261,2016を参照されたく、そのそれぞれは参照により完全に組み込まれる)。
【0051】
一例では、Inception-ResNet-v2畳み込みニューラルネットワーク(CNN)が、データセットからの耳鏡画像を使用してトレーニングされる。ネットワークをトレーニングした後、結果として得られた特徴は、各画像を1,536個の特徴のベクトルにマッピングするプーリングの対象になった。接続された層の出力に依存して、トレーニング画像とテスト画像ごとに1×3ベクトルが生成された。ここで3は、データベース内の画像カテゴリの数(正常、滲出液、鼓膜切開チューブ)を表す。特徴は、平均プーリング層の出力で1536×1ベクトルを形成した。したがって、重みは完全結合層の1536×3行列であった。特徴ベクトルの転置行列に重みベクトルを乗算すると、画像のトレーニングセットごとに確立された1×3ベクトルが生成される。これらのベクトルを行列の行(トレーニング画像の数×3のサイズ)に変換すると、これがルックアップテーブルを構成する。
【0052】
この手順は、正常/異常の特徴を抽出するために鼓膜画像のペアに適用された。カテゴリの数は2(つまり、正常、異常)であり、重みは完全結合層の1536×2の行列を構成する。生成されたルックアップテーブルは、長さN×2のベクトルであり、ここで、Nはトレーニング画像の数である。また、テスト画像には重みを乗算した後の1×2ベクトルが含まれる。鼓膜画像のペアごとに、これらのルックアップ値が計算され、これらの値を使用して新しい特徴ベクトルが形成される。
【0053】
転移学習からルックアップテーブルを作成する手順は、次のように一般化できる:
各画像iの平均プーリング層出力として特徴ベクトルfを形成する。そのサイズは(F×1) (この場合F=1536)である。
サイズ(F×C)のwを完全結合層の重みとし、ここでCはトレーニングクラスの数である(この場合、「正常」と「異常」の2つのカテゴリのためC=2)。
1つの画像iのルックアップテーブル値lは、l=l=f ×wとして計算でき、そのサイズは (1×C)である。
Nがデータセット内の画像の数(トレーニングとテストの両方)である場合、ルックアップテーブルLは、各画像iのルックアップテーブル値lの連結として計算され、サイズN×C(この場合は300×2)の行列になる。
【0054】
右鼓膜画像のルックアップテーブル値はR1及びR2であり、左鼓膜画像のルックアップテーブル値はL及びLである。それらの比(R/L、R/L)、合計(R+L、R+L)、及び差(R-L、R-L)も連結されて特徴ベクトルを形成する。この新しいベクトルには、両方の鼓膜ペアの特徴が含まれており、鼓膜画像ペアのルックアップテーブル値の導関数を組み合わせることにより、ペアをまとめて分類できる。
【0055】
手作りの特徴抽出
ルックアップテーブルベースの特徴に加えて、ペアの鼓膜画像間のレジストレーション誤差をキャプチャした手作りの特徴も使用された。レジストレーションは、異なるセンサまたは異なる視点から異なる時間に取得された2つ以上の画像を照合及び比較し、それらの間で適切な空間的対応を表す最適な変換を見つけるために使用される[26,27]。画像レジストレーションは、診断、治療モニタリング、手術シミュレーション、放射線治療、支援/誘導手術、造影画像の画像減算などの目的で、様々な医療モダリティからの画像を位置合わせするために医学で頻繁に使用されている[28-31]。本明細書で説明するように、画像レジストレーションは、鼓膜画像のペア間の誤差を計算するために使用され、ペアを一緒に分類するための特徴として使用される。
【0056】
同じ人物の左右の鼓膜画像ではツチ骨の位置が異なるため、正常な場合でも鼓膜画像のレジストレーションは困難である。さらに、ペアの画像が対称であることはほとんどなく、耳鏡でキャプチャされたときに同じ視点から得られることもない。疾患のある鼓膜の場合、一部の疾患(滲出液など)は鼓膜の形状の変化を引き起こし、2D画像では簡単に検出できないため、レジストレーションは正常な場合よりも困難である。
【0057】
本明細書では、剛体レジストレーションと非剛体レジストレーションの両方が使用される。どちらのタイプのレジストレーションでも、移動画像とターゲット画像が必要であり、移動(ソース)画像は空間的に変換され、ターゲット(固定、感知)画像と位置合わせされる。剛体レジストレーション[32]には、動画のターゲット画像への変換、スケーリング、回転が含まれ、非剛体マッチングはデーモン法[33]を使用して行われ、これは、マクスウェルのデーモンに応じて点を変換し、画像の変形部分と一致させる。デーモンレジストレーション力の基本は、オプティカルフロー方程式を計算することにより、時間的な画像シーケンスの小さな変形を見つけることである。したがって、変位は、対応する一致点に対してThirion法[33]によって推定される。デーモン方程式は各反復における局所的な変位を近似するため、正則化のための変位にはガウス平滑化が使用される。
【0058】
レジストレーションの前に、各画像はカラー(RGB)からグレースケール画像に変換され、グレースケール画像にレジストレーションが適用される。剛体レジストレーションの場合、相互情報量が類似性メトリックとして使用される。最適化には、パラメータのセットを反復して可能な限り最良のレジストレーションを生成する1プラス1進化的最適化アルゴリズム[34,35]が使用され、初期半径のパラメータは0.009、イプシロンは1.5×10-4、成長係数は1.01、最大反復回数は300である。剛体レジストレーションの後、単一モダリティパラメータによる非剛体デーモンアルゴリズム画像レジストレーション[36]が剛体レジストレーション画像に適用される。
【0059】
固定画像とレジストレーション画像の間の平均二乗誤差は、対応するピクセルの差として計算され、それらの平均二乗を取り、固定画像と動画の間の類似性メトリックとして使用される。平均二乗誤差の1つは剛体レジストレーションの後に計算され、もう1つは非剛体レジストレーションの後に計算される。特徴ベクトルに連結されたこれら2つの平均二乗誤差は、ルックアップテーブルベースの値で始まる。
【0060】
図4は、鼓膜切開チューブ診断による左右の鼓膜画像を示す。右側の画像は固定されているとみなされ、左側の画像は2つの画像に一致するように移動しているとみなされる。一番右の画像は、剛体デーモンと非剛体デーモンのアルゴリズムのレジストレーション後を示している。
【0061】
鼓膜画像の各ペアのL*a*b*色空間のa*成分とb*成分を使用して色ベースの特徴を抽出し、ペアを正確に分類する。L*a*b*色空間は、等しい知覚色差に対応する、x、y色度図上で等しい距離を持つ均一色空間である。この色空間では、L*は明度を示し、a*とb*は色度座標であり、+a*は赤色方向、-a*は緑色方向、+b*は黄色方向、-b*は青色方向である。RGBカラー画像はL*a*b*色空間に変換され、a*バンドとb*バンドのヒストグラムと統計的測定値が計算される。カラーバンドのヒストグラムは10個のビンに分割され、各ビンの番号が画像の各ペアの特徴ベクトルに連結される。ヒストグラム値は40個あり、これらは各耳ペアの2つの画像(右と左の画像)と2つのバンド(a*及びb*バンド)から取得される。ヒストグラム値に加えて、ペアの各バンドの平均、標準偏差、歪度、尖度の統計的測定値がある。これら4つの統計的測定値から合計16の特徴が得られる。新しい特徴ベクトル形成の図式的な概要を図5に示す。
【0062】
図5は、鼓膜画像のペアに対する特徴ベクトル構造の作成を示す。剛体及び非剛体のレジストレーション誤差は、鼓膜のペアについて計算された。RGBペアの画像はL*a*b*色空間に変換され、a*成分とb*成分は色ヒストグラムの作成と統計的測定値の計算に使用される。すべての特徴が連結されて手作りの特徴ベクトルを形成し、ここで、RRE:剛体レジストレーション誤差、NRRE:非剛体レジストレーション誤差、HR a*:右a*のヒストグラム、HR b*:右b*のヒストグラム、HL a*:左a*のヒストグラム、HL b*:左b*のヒストグラム、SMR a*:右a*の統計的測定値、SMR b*:右b*の統計的測定値、SML a*:左a*の統計的測定値、及びSML b*:左b*の統計的測定値、である)。
【0063】
分類
ルックアップテーブル値と手作りの特徴を連結することによってペア(右と左)の鼓膜画像の特徴ベクトルが形成された後、これらは分類される。画像のペアを一緒に分類するには、すべての特徴がペアごとに1つのベクトルに収集される。したがって、単一画像を分類する場合と、ペアを「正常-正常」(N-N)、「異常-異常」(A-A)、「正常-異常」(N-A)、「異常-正常」(A-N)に分類する場合の違いが分析され得る。単一画像の分類結果は、鼓膜画像の「正常/異常」クラスに従って最後の3つの層を変更することによって、Inception-ResNet-v2事前トレーニング済みネットワークをトレーニングした後に得られた。ペア画像の分類では、新しく作成された特徴ベクトルがTree Baggerアルゴリズムで使用される。
【0064】
Tree Baggerアルゴリズムは、ブートストラップ集約デシジョンツリーのアンサンブルモデルである。複数のデシジョンツリーは、トレーニングデータを何度も置換してリサンプリングし、多数決予測のためにツリーに投票することで構成される[37]。これらのデシジョンツリーは、リーフがクラスラベルを表す分類ツリーであり、ブランチは、これらのクラスラベルに伝達する特徴の結合を表す。開示されたものでは、リーフは「正常」及び「異常」のクラスラベルであり、ブランチは特徴ベクトルの結合である。アウトオブバッグ(OOB)誤差法[38]を利用して、ブーストされたデシジョンツリーモデルの予測誤差を測定し、データをサブサンプリングして方法をトレーニングした。OOB誤差は、トレーニングデータからサブサンプルを除外し、ブートストラップサンプルの平均予測誤差を計算することによって測定される[39]。サブサンプリングは、ツリーの構築に使用されない(アウトオブバッグで定義された)観測値の予測を評価することにより、予測パフォーマンスを向上させる。
【0065】
この研究では、Matlab2019BソフトウェアのTreeBagger教師あり機械学習機能を使用してデシジョンツリーをモデル化した。観測値がアウトオブバッグである選択されたツリーは、クラス事後確率の加重平均を構成する。したがって、予測されたクラスは、対応するクラスの最大の加重平均になる。これは、バイアスを上げずに分散を減らすことでモデルの安定性と精度を向上させるように設計されている。アウトオブバッグ誤差に応じて決定される最適なツリー数は、ツリーの累積に応じて変化する。私たちの研究では、クラスの数(正常及び異常)と観察の数(150ペアの鼓膜画像)によってデシジョンツリーの数が制限され、経験的に5つが選択される。
【0066】
図6は、患者の左右両方の鼓膜の画像から耳の病状を分類する例示的な方法を示すフローチャートである。一実施形態では、方法は、画像キャプチャデバイスを使用して患者の左鼓膜の1つまたは複数の画像のそれぞれと右鼓膜の1つまたは複数の画像をキャプチャすること602を含む。様々な例において、画像キャプチャデバイスは、鼓膜のそれぞれの1つまたは複数の静止画像をキャプチャするか、または鼓膜のそれぞれのビデオをキャプチャする。例えば、画像キャプチャデバイスは、高解像度耳鏡またはデジタルビデオ耳鏡を備え得る。604において、患者の左鼓膜及び右鼓膜のキャプチャされた1つまたは複数の画像に対して前処理及びデータ拡張が実行され、患者の右鼓膜の合成画像及び対応する左鼓膜の合成画像を作成して、患者に対して鼓膜画像のペアを形成する。前処理は、センサベースの問題を軽減すること、1つまたは複数の画像内の関心領域を選択すること、グレア効果(光の反射)、耳垢、毛髪、暗い縁、及びテキストを検出すること、患者の右鼓膜の合成画像及び対応する左鼓膜の合成画像から、グレア効果、耳垢、毛髪、暗い縁及びテキストが低減または除去された1つまたは複数の画像のコピーを作成すること、のうちの1つまたは複数を含むことができる。データ拡張には、1つまたは複数の画像のそれぞれを水平方向と垂直方向の両方に反射させること、1つまたは複数の画像のそれぞれを0.7~2の範囲でスケーリングすること、1つまたは複数の画像のそれぞれをランダムに回転すること、1つまたは複数の画像のそれぞれを水平方向と垂直方向の両方に0~45度の範囲で剪断すること、及びそれらの画像を水平方向と垂直方向の両方に-30~30ピクセルの範囲で平行移動することが含まれてもよい。
【0067】
606において、鼓膜画像のペアから特徴が抽出される。608において、抽出された特徴を使用して、鼓膜画像のペアに対して特徴ベクトルが形成される。抽出された特徴が連結されて、単一の特徴ベクトルが形成される。特徴ベクトルは2つの部分を有し、第1の部分は深層学習技術を使用して作成されたルックアップテーブルベースの値で構成され、第2の部分はペアの鼓膜間のレジストレーション誤差を記録することによって作成された手作りの特徴、L*a*b*色空間のa*及びb*成分のヒストグラムなどの色ベースの特徴、ならびにこれらのカラーチャネルの統計的測定値で構成される。深層学習技術には転移ベースの学習が含まれる場合がある。転移ベースの学習には、Inception V3またはResNetなどの深層学習ネットワークの再トレーニングが含まれてもよい。610において、鼓膜画像のペアの病状が分類される。いくつかの場合では、鼓膜画像のペアの病状を分類することは、ツリーバガー分類器によって単一の特徴ベクトルを分類することを含む。一般に、鼓膜画像のペアの病状を分類することは、各鼓膜を正常または異常として分類することを含む。異常には、急性中耳炎(AOM)、中耳滲出液(非感染体液)、真珠腫(耳の一般的な破壊性皮膚嚢胞)、鼓膜穿孔、及び正常と比較した鼓膜陥凹のうち1つまたは複数が含まれ得る。
【0068】
システムは複数のユニットから構成されるものとして上で説明されている。当業者であれば、これが機能の説明であり、それぞれの機能がソフトウェア、ハードウェア、またはソフトウェアとハードウェアの組み合わせによって実行できることを理解するであろう。ユニットは、ソフトウェア、ハードウェア、またはソフトウェアとハードウェアの組み合わせにすることができる。ユニットは、標本の組織を識別するためのソフトウェアを備えることができる。例示的な一態様では、ユニットは、図7に示され以下で説明するようなプロセッサ721を備える、コンピューティングデバイスを備えることができる。
【0069】
図7は、画像から鼓膜の病状を分類するために使用できる例示的なコンピュータを示す。本書で使用するとき、「コンピュータ」は、複数のコンピュータを含む場合がある。本コンピュータは、例えば、プロセッサ721、ランダムアクセスメモリ(RAM)モジュール722、リードオンリーメモリ(ROM)モジュール723、ストレージ724、データベース725、1つまたは複数の入力/出力(I/O)デバイス726、及びインタフェース727などの1つまたは複数のハードウェア構成要素を含むことができる。代替として、及び/または追加として、本コンピュータは、例示的な実施形態に関連する方法を実行するためのコンピュータ実行可能命令を含むコンピュータ可読媒体などの1つまたは複数のソフトウェア構成要素を含んでもよい。上記に掲載されたハードウェア構成要素の1つまたは複数が、ソフトウェアを使用して実装され得ることが企図される。例えば、ストレージ824は、1つまたは複数の他のハードウェア構成要素に関連付けられたソフトウェアパーティションを含んでもよい。上記に掲載された構成要素は、例示的なものに過ぎず、限定することを意図するものではないことが理解される。
【0070】
プロセッサ721は、鼓膜の1つまたは複数の画像に基づいて鼓膜の病状を分類するためのコンピュータに関連付けられた1つまたは複数の機能を実行するために、それぞれが命令を実行しデータを処理するように構成された1つまたは複数のプロセッサを含むことができる。プロセッサ721は、RAM722、ROM723、ストレージ724、データベース725、I/Oデバイス726、及びインタフェース727と通信可能に結合され得る。プロセッサ721は、様々な処理を実行するために、コンピュータプログラム命令のシーケンスを実行するように構成され得る。コンピュータプログラム命令は、プロセッサ721による実行のためにRAM722にロードされ得る。
【0071】
RAM722及びROM723は、それぞれ、プロセッサ721の動作に関連付けられた情報を記憶するための1つまたは複数のデバイスを含み得る。例えば、ROM723は、1つまたは複数の構成要素及びサブシステムの動作の特定、初期化、及び監視を行うための情報を含む、コンピュータに関連する情報にアクセスしてそれを記憶するように構成されたメモリデバイスを含み得る。RAM722は、プロセッサ721の1つまたは複数の動作に関連付けられたデータを記憶するためのメモリデバイスを含み得る。例えば、ROM723は、プロセッサ721による実行のために命令をRAM722にロードすることができる。
【0072】
ストレージ724は、プロセッサ721が開示された実施形態と一致するプロセスを実行するために必要となり得る情報を記憶するように構成された任意のタイプの大容量ストレージデバイスを含み得る。例えば、ストレージ724は、ハードドライブ、CD-ROM、DVD-ROM、または他の任意のタイプの大容量メディアデバイスなど、1つまたは複数の磁気及び/または光ディスクデバイスを含んでもよい。
【0073】
データベース725は、コンピュータ及び/またはプロセッサ721によって使用されるデータの記憶、整理、ソート、フィルタリング、及び/または配列で協働する1つまたは複数のソフトウェア及び/またはハードウェア構成要素を含むことができる。例えば、データベース725は、患者の左右両方の鼓膜のデジタル画像を、患者の左鼓膜及び右鼓膜のキャプチャされた1つまたは複数の画像に対して前処理及びデータ拡張を実行して、患者の右鼓膜の合成画像及び対応する左鼓膜の合成画像を作成して、患者の鼓膜画像のペアを形成し、鼓膜画像のペアから特徴を抽出し、抽出された特徴を使用して、鼓膜画像のペアの特徴ベクトルを形成し、鼓膜画像のペアの病状を分類する、ためのコンピュータ実行可能命令とともに格納することができる。データベース725は、上記に掲載された情報とは違った追加の情報及び/または異なる情報を格納し得ることが企図される。
【0074】
I/Oデバイス726は、コンピュータに関連付けられたユーザと情報を交換するように構成された1つまたは複数の構成要素を含み得る。例えば、I/Oデバイスは、デジタル画像、デジタル画像の解析結果、メトリクスなどのデータベースをユーザが維持するのを可能にするために、キーボード及びマウスが統合されたコンソールを含むことができる。I/Oデバイス726は、モニタに情報を出力するためのグラフィカルユーザインタフェース(GUI)を含むディスプレイを含むこともできる。I/Oデバイス726は、例えば、コンピュータに関連付けられた情報を印刷するためのプリンタ、ユーザが携帯型メディアデバイスに格納されたデータを入力できるようにするためのユーザアクセス可能なディスクドライブ(例えば、USBポート、フロッピー、CD-ROM、またはDVD-ROMドライブなど)、マイク、スピーカシステム、または他の適切な任意のタイプのインタフェースデバイスなどの周辺デバイスを含むこともできる。
【0075】
インタフェース727は、インターネット、ローカルエリアネットワーク、ワークステーションピアツーピアネットワーク、ダイレクトリンクネットワーク、無線ネットワーク、または他の適切な任意の通信プラットフォームなどの通信ネットワークを介してデータの送信及び受信を行うように構成された1つまたは複数の構成要素を含み得る。例えば、インタフェース727は、1つまたは複数の変調器、復調器、マルチプレクサ、デマルチプレクサ、ネットワーク通信デバイス、無線デバイス、アンテナ、モデム、及び通信ネットワークを介してデータ通信を可能にするように構成された他の任意のタイプのデバイスを含むことができる。
【実施例
【0076】
以下の実施例を、開示する主題による方法及び結果を説明するために以下に記載する。これらの実施例は、本明細書に開示する主題のすべての態様を含むことを意図するものではなく、むしろ代表的な方法及び結果を説明することを意図している。これらの実施例は、当業者に明らかである本発明の同等物及び変形を除外することを意図するものではない。
【0077】
数字(例えば、量、温度等)については、精度を確保するように努めているが、ある程度の誤差及び偏差は考慮されたい。別段に示されていない限り、部は、重量部であり、温度は、℃または周囲温度であり、圧力は、大気圧または大気圧近傍である。反応条件、例えば、記載されたプロセスから得られる生成物の純度及び収率を最適化するために使用できる成分濃度、温度、圧力及び他の反応範囲及び条件には多数の変形及び組み合わせが存在する。
【0078】
実験設定
150ペアの画像(表1を参照)は、上記のデータセット内でペア画像の数が最も多い正常及び異常(滲出液及び鼓膜切開チューブ)カテゴリから選択された。データセットがビデオの選択されたビデオフレームで強化された後でも、データセットにはモデルをトレーニングするための150個のペアの鼓膜画像が含まれていた。カテゴリごとにバランスの取れたデータ量を設定すると、多数派のクラスへの偏りが回避され、全体的な誤差率が最小限に抑えられることがわかっているが、ケース数が限られているため、より多くの正常と異常のペアの画像をデータセットに追加することはできない。
【0079】
限られた数のペア画像が、データグループのトレーニングとテストの両方に使用された。システムには2つのトレーニングステップがあった。1つは転移学習トレーニング用、もう1つはランダムフォレスト分類器トレーニング用である。ルックアップテーブル生成の特徴抽出フェーズの再トレーニング中に、単一の83個の「正常」鼓膜画像と54個の「異常」鼓膜画像(ペアではない)を含む別の検証データセットが転移学習トレーニングに使用された。検証に別のデータセットが使用されたため、それ以上のケースをトレーニングに割り当てることができなかった。
【0080】
結果の一般化可能性をテストするために、k分割(k=3)交差検証が使用された。「正常-異常」及び「異常-正常」のペア画像の数が少ないため、分割数(k)も低く抑えられた。ペアの画像は、カテゴリごとに3つのランダムグループに分割された。1つのグループはテストに使用され、他の2つのグループはトレーニングに使用された。トレーニンググループは、転移学習でネットワークパラメーターを学習し、ツリーバガー分類器部分のモデルを適合させるために使用された。システムを実行する前にデータがグループに分割されていたため、トレーニングでもテストでも同じペアが同じグループに入れられた。そのため、各患者の鼓膜画像ペアはトレーニングまたはテストのいずれかに使用されたが、両方には使用されなかった。
【0081】
ツリーバガーアルゴリズムも3分割交差検証法で評価された。システムを適切にモデル化するには、データセットのサイズとカテゴリの数がツリーバガー分類器で重要な役割を果たす。トレーニングには100ペア、テストには50ペアが使用され、カテゴリの数は4(N-N、N-A、A-A、A-N)であったため、分類器のモデル化には5つのツリーを使用することが経験的に決定された。
【0082】
結果と考察
単一の鼓膜画像を使用して、各トレーニング分割の尺度として分類精度を使用してトレーニングの転移学習部分のシステムをトレーニング及びテストした。ルックアップテーブル値を抽出するために転移学習を2回(正常画像ペアと異常画像ペアを追加する前と後に)再トレーニングした。「正常-異常」のペア画像の数が限られていたため、「正常-正常」及び「異常-異常」のペア画像と、正常または異常の分類カテゴリから開始した。次に実験は、「正常-異常」鼓膜ペア画像を追加して行われ、それらを比較した。表2は、これらの場合の2つの実験結果を示している。
【表2】
【0083】
表2に示すように、正常と異常のペアの鼓膜画像を追加する前、トレーニング、検証、及びテストの精度はそれぞれ88.8%±3.3%、86.7%±6.7%、83.3%±3.3%であった。しかしながら、正常-異常のケースを追加すると、精度は83.6%±6.3%、78.4%±6.8%、及び78.7±0.1%に減少した。このトレーニングステップは、ルックアップテーブルの作成とルックアップテーブルの特徴の抽出のみに使用された。
【0084】
転移学習を使用してルックアップテーブルを作成した後、ルックアップテーブルベースの特徴抽出と手作りの特徴抽出を実験的にテストした。ルックアップテーブルベースの特徴抽出は、特徴抽出フェーズの最初のステップであった。手作りの特徴は、レジストレーション誤差、L*a*b*のヒストグラムのビン内のカウント数、平均、及びその他の統計的測定値(標準偏差、歪度、尖度)であり、これらは各ステップで連結され、システムは各連結後にテストされた。
【0085】
図8は、正常-正常(N-N)、異常-異常(A-A)、及びすべてのペア(N-N、A-A、N-A、及びA-N)のシステム精度を示している。N-A、A-Nペア画像を追加すると、精度が低下した。N-Aペアがデータセットに追加される前、ルックアップテーブルベースの特徴抽出精度の結果は、85.1%の最高精度と7.6%の低い標準偏差であった。A-Nペアを追加した後、L*a*b*特徴をルックアップテーブルベースの特徴に連結したレジストレーション誤差とヒストグラムの最高精度結果は85.8%±6.4%であった。
【0086】
ペア画像の分類精度を単一画像の分類精度と比較すると、83.3%(SD±3.3%)から85.1%(SD±7.6%)(N-N及びA-Aペア)、及び78.8%(SD±0.1%)から85.8(SD±6.4%)(N-N、A-A、N-A、及びA-Nペア)のいくらかの改善が見られた。残念ながら、転移学習の分類結果とテストされた各ペアの特徴の間のt検定によると、ほとんどの改善は統計的に有意ではない。同じカテゴリペア(つまり、N-NとA-A)の画像では、平均p値は0.80であるが、すべてのカテゴリペア(N-N、A-A、N-A、及びA-N)の画像の平均p値は0.16である。p値は減少したが、統計的に有意ではなかった(<0.05)。しかしながら、転移学習の分類結果とすべての特徴(L*a*b*色空間の平均値を除く)の間のt検定のp値は0.0004であり、統計的に有意である。その理由は、3分割相互検証の両方の結果の標準偏差が0.1%と0.2%であるのに対し、それらの精度値はそれぞれ78.7%と83.3%であるためである。したがって、わずかな違いがあるだけで、3分割の結果はすべて一致した。
【0087】
図9A及び9Bは、正常-正常、異常-異常、正常-異常、及び異常-正常のペアの鼓膜の右側及び左側のルックアップ値分布を示す図である。正常-正常ペアの第1のルックアップテーブル値は図9Aの左下隅に位置し、異常-異常ペアの第1のルックアップテーブル値は図9Aの右上隅に位置しており、図9Bではその逆である。左右の正常なペア(N-N)の第1の値はゼロ未満であり、異常なペア(A-A)の場合、同じ値は-0.5より大きかった(図9A)。第2のルックアップテーブル値については、N-N及びA-Aペアのコーナーが切り替わった(図9B)。予想は、正常-異常のペアが図9Aの左上に記載され、異常-正常のペアが図9Aの右下隅に記載され、図9Bではその逆ということであった。しかしながら、正常-異常、異常-正常のペアは他のペアに混在して記載された。正常-異常及び異常-正常のペアの数は非常に限られており、そのほとんどは微妙である。
【0088】
図9Aと9Bでは、N-NとA-Aのペアの分布が特徴空間の別々の象限にうまく分離されていたため、正常と異常のペアの値が他の象限に分布すると予想された。例えば、図9Aでは、左右両方の値が0未満のN-Nペア、-0.5より大きいA-Aペア、及びA-N(耳ペア右側異常及び左側正常)ペア(黒丸で表す)は、図の右下象限に分布すると想定される。同様に、N-A(耳のペアの右側が正常であり、左側が異常である)のペア(青い円で表される)は、図9Aの左上象限に分布すると想定される。しかしながら、図9A及び9Bでは、N-N及びA-Aペアの値に黒丸と青丸が混在している。これにより、正常と異常のペア画像を追加した後の転移学習テスト結果とルックアップテーブルベースの特徴抽出システムの結果の精度が低下した。
【0089】
これらの青丸(N-A)と黒丸(A-N)の予想外の分布が観察された後、耳鼻咽喉科の専門家が、成人患者と小児患者の両方の耳鏡ビデオクリップのビデオフレームから選択された正常と異常のペア画像を検査した。専門家は、正常と異常のペア画像を「微妙」または「微妙ではない」とラベル付けし、ペア画像の63.3%(19/30)が「微妙」とラベル付けされた。図10は、耳鼻咽喉科専門医によって「微妙」とラベル付けされ、転移学習によって誤分類されたペア画像に関する4つの例を示している。
【0090】
画像化の問題が誤分類の原因である可能性がある。3組のペアには照明の問題があり、画像上で黄色または白色の光点として現れ、カメラが鼓膜領域に焦点を合わせることが困難であった。もう1つの共通の問題は、耳垢や毛髪が鼓膜よりも耳鏡に近く、光を反射するためであった。さらに、画像の鼓膜領域はそのカテゴリを分類するには十分ではなかった。これらの画像のもう1つの問題は、画像のぼやけた部分である。図10の2列目は、焦点が合っていない問題のある画像を示している。図10c-通常は焦点の合った画像であるが、図10c-滲出液は光の反射により2つの領域間でぼやけている。対照的に、図10d-滲出液と図10d-通常には、光の反射量に関係なく、ぼやけた領域が含まれる。
【0091】
正常-異常ペア画像の問題(光、耳垢、毛髪、ぼやけ)によっては精度が低下する。しかしながら、限られた量のデータで正常-異常のケースを実験的にテストして調査したいと考えた。精度の向上は統計的に有意ではないが(おそらくデータが限られているため)、私たちのアプローチを使用しても精度の向上が観察されており、この向上はおそらく、ペアの画像から抽出され一緒に使用される追加の特徴によるものである可能性がある。私たちのペア画像分類アプローチは、ペアの鼓膜画像を一緒に分類するための初めてのアプローチであり、結果は有望である。
【0092】
結論
本研究では、ペアの鼓膜画像を「正常-正常」、「異常-異常」、「正常-異常」、「異常-正常」に分類するシステムを提案する。私たちの知る限り、これは同じ患者の鼓膜画像のペアを一緒に分類した最初の研究である。画像のペアを分類するために、深層学習ベースと手作りの2つの特徴抽出方法を使用し、鼓膜画像の両側から得られた特徴を組み合わせて、画像のペアを一緒に分類した。次に、片側の鼓膜画像の結果を分析し、「正常-異常」及び「異常-正常」のケースがある場合とない場合のペアの鼓膜画像を分析した。
【0093】
また、ペア画像の各グループの特徴を抽出した後の結果も比較した。実験結果によると、すべてのタイプのペア画像分類の最高精度は85.8%(±6.4%)であった。連結されたレジストレーション誤差の特徴とL*a*b*特徴のヒストグラム。しかし、片面鼓膜画像分類と転移学習との間の差異の唯一の統計的に有意な結果は、抽出され連結されたすべての特徴(L*a*b*色空間の平均の特徴を除く)によるもので、83.5%(±0.2%)精度であった。他の実験では統計的に有意な差は生じなかった。それでも、L*a*b*色空間特徴の平均を除くすべての連結特徴について、少なくとも1つの統計的に有意な結果が期待できる。
【0094】
この研究の限界の1つは、A-N(異常-正常)ペア画像の数が少ないことであり、異常クラスは滲出性中耳炎と鼓膜切開チューブのカテゴリのみで構成される。これに加えて、専門家による評価では、既存のA-Nペア画像の63.3%(19/30)が微妙であった。将来の研究では、鼓膜ペアの各カテゴリについて、より多くのペア画像が含まれることになる。また、同じカテゴリペアの転移学習ベースのルックアップテーブル値が、異なるラベルが付けられたペア画像に従って簡単に分類できることも観察した。したがって、ルックアップテーブルの値を使用して微妙な画像を選択し、将来の研究のためにトレーニングデータセットからそれらを自動的に削除できる。
【0095】
参考文献
以下の各参考文献は個別に参照により組み込まれ、本明細書の一部となる。
[1]L.K.Cole,"Otoscopic evaluation of the ear canal," The Veterinary clinics of North America.Small animal practice, vol. 34, no. 2, pp. 397-410, 2004.
[2]M.E.Pichichero and M.D.Poole, "Comparison of performance by otolaryngologists, pediatricians, and general practicioners on an otoendoscopic diagnostic video examination," International journal of pediatric otorhinolaryngology,vol.69,no.3,pp.361-366,2005.
[3]L.S.Goggin, R.H.Eikelboom, and M.D.Atlas, "Clinical decision support systems and computer-aided diagnosis in otology," Otolaryngology--Head and Neck Surgery, vol. 136, no. 4_suppl,pp.s21-s26,2007.
[4]M.A.Khan et al., "Automatic detection of tympanic membrane and middle ear infection from oto-endoscopic images via convolutional neural networks," Neural Networks,2020.
[5]A.Kuruvilla, N.Shaikh, A.Hoberman, and J.Kovacevic, "Automated diagnosis of otitis media: vocabulary and grammar," International Journal of Biomedical Imaging,vol.2013,2013.
[6]E.Basaran, Z.Comert, and Y.Celik, "Convolutional neural network approach for automatic tympanic membrane detection and classification," Biomedical Signal Processing and Control,vol.56,p.101734,2020.
[7]M.S.Kasher, "Otitis Media Analysis-An Automated Feature Extraction and Image Classification System," 2018.
[8]E.Basaran, Z.Comert, A.Sengur, U.Budak, Y.Celik, and M.Togacar, "Chronic Tympanic Membrane Diagnosis based on Deep Convolutional Neural Network," in 2019 4th International Conference on Computer Science and Engineering (UBMK),2019:IEEE,pp.1-4.
[9]H.C.Myburgh, S.Jose, D.W.Swanepoel, and C.Laurent, "Towards low cost automated smartphone-and cloud-based otitis media diagnosis," Biomedical Signal Processing and Control,vol.39,pp.34-52,2018.
[10]L.Monasta et al., "Burden of disease caused by otitis media: systematic review and global estimates," PloS one,vol.7,no.4,p.e36226,2012.
[11]D.Cha, C.Pae, S.-B.Seong, J.Y.Choi, and H.-J.Park, "Automated diagnosis of ear disease using ensemble deep learning with a big otoendoscopy image database," EBioMedicine,vol.45,pp.606-614,2019.
[12]C.Senaras et al., "Autoscope: automated otoscopy image analysis to diagnose ear pathology and use of clinically motivated eardrum features," in Medical Imaging 2017:Computer-Aided Diagnosis,2017,vol.10134: International Society for Optics and Photonics,p.101341X.
[13]H.Binol et al., "Decision fusion on image analysis and tympanometry to detect eardrum abnormalities," in Medical Imaging 2020: Computer-Aided Diagnosis,2020,vol.11314: International Society for Optics and Photonics,p.113141M.
[14]C.-K.Shie,H.-T.Chang,F.-C.Fan,C.-J.Chen,T.-Y.Fang, and P.-C.Wang, "A hybrid feature-based segmentation and classification system for the computer aided self-diagnosis of otitis media," in 2014 36th Annual International Conference of the IEEE Engineering in Medicine and Biology Society,2014:IEEE,pp.4655-4658.
[15]M.Viscaino, J.C.Maass, P.H.Delano, M.Torrente, C.Stott, and F.Auat Cheein, "Computer-aided diagnosis of external and middle ear conditions: A machine learning approach," Plos one,vol.15,no.3,p.e0229226,2020.
[16]J.Seok, J.-J.Song, J.-W.Koo, H.C. Kim, and B.Y.Choi, "The semantic segmentation approach for normal and pathologic tympanic membrane using deep learning," BioRxiv,p.515007,2019.
[17]H.Binol et al., "Digital otoscopy videos versus composite images: A reader study to compare the accuracy of ENT physicians," The Laryngoscope,2020.
[18]H.Binol et al., "SelectStitch: automated frame segmentation and stitching to create composite images from Otoscope video clips," Applied Sciences,vol.10,no.17,p.5894,2020.
[19]S.Camalan et al., "OtoMatch: Content-based eardrum image retrieval using deep learning," Plos one, vol.15,no.5,p.e0232776,2020.
[20]C.-K.Shie,H.-T.Chang,F.-C.Fan,C.-J.Chen,T.-Y.Fang, and P.-C.Wang, "A hybrid feature-based segmentation and classification system for the computer aided self-diagnosis of otitis media," in Engineering in Medicine and Biology Society (EMBC), 36th Annual International Conference of the IEEE, 2014 2014,pp.4655-4658.
[21]I.Mironica, C.Vertan, and D.C.Gheorghe, "Automatic pediatric otitis detection by classification of global image features," in 2011 E-Health and Bioengineering Conference (EHB),2011:IEEE,pp.1-4.
[22]E.Basaran, A.Sengur, Z.Comert, U.Budak, Y.Cel1k, and S.Velappan, "Normal and Acute Tympanic Membrane Diagnosis based on Gray Level Co-Occurrence Matrix and Artificial Neural Networks," in 2019 International Artificial Intelligence and Data Processing Symposium (IDAP),2019:IEEE,pp.1-6.
[23]A.Kuruvilla, N.Shaikh, A.Hoberman, and J.Kovacevic, "Automated Diagnosis of Otitis Media:Vocabulary and Grammar," (in en), International Journal of Biomedical Imaging,pp.1-15,2013 2013,doi:10.1155/2013/327515.
[24]C.Senaras et al., "Detection of eardrum abnormalities using ensemble deep learning approaches," in Medical Imaging 2018: Computer-Aided Diagnosis, 2018,vol.10575: International Society for Optics and Photonics,p.105751A.
[25]J.Y.Lee, S.-H.Choi, and J.W. J.A.S.Chung, "Automated Classification of the Tympanic Membrane Using a Convolutional Neural Network,"vol.9,no.9,p.1827,2019.
[26]L.G.Brown, "A survey of image registration techniques," ACM computing surveys (CSUR),vol.24,no.4,pp.325-376,1992.
[27]S.Mambo, Y.Hamam, B.van Wyk, K.Djouani, and P.Siarry, "A review on medical image registration techniques," World Academy of Science, Engineering and Technology International Journal of Computer and Information Engineering,vol.12,no.1,2018.
[28]X.Huang, J.Ren, G.Guiraudon, D.Boughner, and T.M.Peters, "Rapid dynamic image registration of the beating heart for diagnosis and surgical navigation," IEEE transactions on medical imaging,vol.28,no.11,pp.1802-1814,2009.
[29]K.Miller et al., "Modelling brain deformations for computer‐integrated neurosurgery," International Journal for Numerical Methods in Biomedical Engineering,vol.26,no.1,pp.117-138,2010.
[30]N.Strehl, S.Tomei, J.Rosenman, and S.Joshi, "Large deformation 3D image registration in image-guided radiation therapy."
[31]D.Maksimov et al., "Graph-matching based CTA," IEEE transactions on medical imaging,vol.28,no.12,pp.1940-1954,2009.
[32]A.Roche, X.Pennec, G.Malandain, and N.J.I.t.o.m.i.Ayache, "Rigid registration of 3-D ultrasound with MR images: a new approach combining intensity and gradient information,"vol.20,no.10,pp.1038-1049,2001.
[33]J.-P.Thirion, "Non-rigid matching using demons," in Proceedings CVPR IEEE Computer Society Conference on Computer Vision and Pattern Recognition,1996:IEEE,pp.245-251.
[34]A.Keikhosravi, B.Li, Y.Liu, and K.W.Eliceiri, "Intensity-based registration of bright-field and second-harmonic generation images of histopathology tissue sections," Biomedical Optics Express,vol.11,no.1,pp.160-173,2020.
[35]M.Styner, C.Brechbuhler, G.Szckely, and G.Gerig, "Parametric estimate of intensity inhomogeneities applied to MRI,"IEEE transactions on medical imaging,vol.19,no.3,pp.153-165,2000.
[36]D.-J.Kroon, "Multimodality non-rigid demon algorithm image registration, "MatlabCentral, www. mathworks.com/matlabcentral/fileexchange/21451-multimodality-non-rigid-demon-algorithm-imageregistration,2008.
[37]L.Breiman, "Bagging predictors,"Machine learning,vol.24,no.2,pp.123-140,1996.
[38]W.Matthew, "Bias of the Random Forest out-of-bag (OOB) error for certain input parameters," Open Journal of Statistics,vol.2011,2011.
[39]G.James, D.Witten, T.Hastie, and R.Tibshirani, An introduction to statistical learning.Springer,2013.
【0096】
方法及びシステムを、好ましい実施形態及び特定の実施例に関連して説明してきたが、本明細書の実施形態は、あらゆる点で制限的ではなく、例示的であることが意図されているため、記載した特定の実施形態に範囲を限定することは意図されていない。
【0097】
別段に明示的な定めのない限り、本明細書に示されているいずれの方法も、そのステップを特定の順序で行う必要があるものとして解釈するようには全く意図されていない。したがって、方法の請求項がそのステップが従うべき順序を実際に記載していない場合、またはそのステップが特定の順序に限定されるべきであることが請求項もしくは説明において別段に具体的に述べられていない場合、いかなる点でも順序が推測されることは決して意図されていない。これは、解釈のためのあらゆる可能性のある不明確な基準(ステップまたは動作フローのアレンジに関する論理の問題、文法構成または句読点に由来する平明な意味、明細書中に記載される実施形態の数または型が挙げられる)についても当てはまる。
【0098】
本出願全体を通して、様々な刊行物が参照され得る。これらの刊行物の開示は、その全体が、本方法及び本システムが属する技術の状態をより完全に説明するために、本明細書により、本出願に参照によりすべて組み込まれる。
【0099】
範囲または趣旨から逸脱することなく、様々な修正及び変形を行い得ることは、当業者にとって明らかであろう。他の実施形態は、本明細書の考察及び本明細書に開示された実践から、当業者には明らかであろう。本明細書及び実施例は、例示的なものとしてのみ考慮されることが意図されており、真の範囲及び趣旨は、次の特許請求の範囲によって示される。
図1
図2A
図2B
図3
図4
図5
図6
図7
図8
図9A
図9B
図10
【国際調査報告】