(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-05
(45)【発行日】2024-08-14
(54)【発明の名称】セマンティックセグメンテーションに基づく画像識別方法
(51)【国際特許分類】
A61B 1/045 20060101AFI20240806BHJP
【FI】
A61B1/045 614
A61B1/045 618
(21)【出願番号】P 2023014984
(22)【出願日】2023-02-03
【審査請求日】2023-02-03
(32)【優先日】2022-03-04
(33)【優先権主張国・地域又は機関】TW
(73)【特許権者】
【識別番号】521369655
【氏名又は名称】ナショナル チュン チェン ユニバーシティ
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】シャン-チェン ワン
(72)【発明者】
【氏名】クアン-リン チェン
(72)【発明者】
【氏名】ユ-ミン ツァオ
(72)【発明者】
【氏名】ジェン-フェン シュ
【審査官】▲高▼木 尚哉
(56)【参考文献】
【文献】国際公開第2020/252330(WO,A1)
【文献】国際公開第2021/155230(WO,A1)
【文献】特表2021-513167(JP,A)
【文献】米国特許出願公開第2021/0397812(US,A1)
【文献】国際公開第2020/026349(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
A61B 1/00-1/32
G02B 23/24-23/26
(57)【特許請求の範囲】
【請求項1】
セマンティックセグメンテーションに基づく画像識別方法において、以下のステップを含む:
ホストの画像キャプチャユニットは1つの第1の画像をキャプチャし、
前記ホストはデータエンハンスメント関数を使用して前記第1の画像から第2の画像を生成し、当該第2の画像は、前記第1の画像にデータオーグメンテイションを行うために用いられ、
前記ホストは、ニューラルネットワークの残差学習モデルおよび符号化復号化方式を使用して前記第2の画像から、少なくとも1つのセマンティックセグメンテーションブロックを取得し、
前記符号化復号化方式は以下のステップを含む:
前記第2の画像は第1の収縮経路の最大プーリングを使用して複数の第1のプーリング画像を生成して、前記第1の収縮経路の最大プーリングは前記第2の画像に対して次元を下げて複数の特徴値を抽出して、プーリング後に当該ホストによって第2の画像の解像度を半分に下げ、
前記第1のプーリング画像は第2の収縮経路の最大プーリングを使用して複数の第2のプーリング画像を生成して、前記第2の収縮経路の最大プーリングは前記第1のプーリング画像に対して次元を下げて前記特徴値を抽出することに用いて、プーリング後に当該ホストにより前記第1のプーリング画像の前記解像度を半分に下げ、
前記第2のプーリング画像は第3の収縮経路の最大プーリングを使用して複数の第3のプーリング画像を生成して、前記第3の収縮経路の最大プーリングは前記第2のプーリング画像に対して次元を下げて前記特徴値を抽出することに用いて、プーリング後に当該ホストにより前記第2のプーリング画像の前記解像度を半分に下げ、
前記第3のプーリング画像は第4の収縮経路の最大プーリングを使用して複数の第4のプーリング画像を生成して、前記第4の収縮経路の最大プーリングは前記第3のプーリング画像に対して次元を下げて前記特徴値を抽出することに用いて、プーリング後に当該ホストにより前記第3のプーリング画像の前記解像度を半分に下げ、
これらの第4のプーリング画像は第1拡張経路のアップサンプリングを使用して、且つこれらの第3のプーリング画像を連結した後に複数の畳み込み核で少なくとも2層の畳み込み演算を行って、複数の第1の出力画像になり、前記第1拡張経路のアップサンプリングはこれらの特徴値を定位することに用いられ、これによってこれらの第4のプーリング画像の前記解像度を倍増させ、前記少なくとも2層の畳み込み演算は、連結によって増加した一つのチャンネル数を減少させることに用いられ、
これらの前記第1の出力画像は第2の拡張経路のアップサンプリングを使用して、且つこれらの前記第2のプーリング画像を連結した後、前記畳み込み核で少なくとも2層の畳み込み演算を行って、複数の第2の出力画像になり、前記第2の拡張経路のアップサンプリングはこれらの前記特徴値を定位することに用いられ、前記第1の出力画像の前記解像度を2倍にし、
これらの前記第2の出力画像は第3の拡張経路のアップサンプリングを使用して、且つこれらの前記第1のプーリング画像を連結した後、前記畳み込み核で少なくとも2層の畳み込み演算を行って、複数の第3の出力画像になり、前記第3の拡張経路のアップサンプリングはこれらの前記特徴値を定位することに用いられ、前記第2の出力画像の前記解像度を
2倍にし、
これらの前記第3の出力画像は第4の拡張経路の前記アップサンプリングを使用して、且つ前記第2の画像を連結した後、これらの畳み込み核で少なくとも2層の畳み込み演算を行って、第4の出力画像になり、前記第4の出力画像は前記少なくとも一つのセマンティックセグメンテーションブロックを含み、前記第4の拡張経路のアップサンプリングはこれらの特徴値を定位することに用いられ、これによってこれらの第3の出力画像の前記解像度を2倍にして、前記第4の出力画像の前記解像度は前記第2の画像の前記解像度と等しく、
前記ホストは前記少なくとも一つのセマンティックセグメンテーションブロックに基づいてサンプル画像と比較
し、該サンプル画像が前記少なくとも一つのセマンティックセグメンテーションブロックに一致
した場合に比較結果
を生成
し、
前記ホストは前記比較結果によって前記少なくとも1つのセマンティックセグメンテーションブロックを目標物体画像に分類する、方法。
【請求項2】
前記最大プーリングはカーネルサイズ2×2の複数の畳み込みカーネルを含む、請求項1に記載のセマンティックセグメンテーションに基づく画像識別方法。
【請求項3】
前記アップサンプリングはカーネルサイズ2×2の複数のデコンボリューションカーネルを含む、請求項1に記載のセマンティックセグメンテーションに基づく画像識別方法。
【請求項4】
前記データエンハンスメント関数はKeras関数ライブラリのImageDataGenerator関数である、請求項1に記載のセマンティックセグメンテーションに基づく画像識別方法。
【請求項5】
前記ImageDataGenerator関数は、ランダム回転範囲が60、カット角度が0.5、パディングモードがnearestで、保持画像スケールが0.1に設定されている、請求項4に記載のセマンティックセグメンテーションに基づく画像識別方法。
【請求項6】
前記ニューラルネットワークはU-NETである、請求項1に記載のセマンティックセグメンテーションに基づく画像識別方法。
【請求項7】
ホストの画像キャプチャユニットが第1の画像をキャプチャするステップにおいて、前記画像キャプチャユニットが1つの予め設定されたサイズの前記第1の画像をキャプチャして調整する、請求項1に記載のセマンティックセグメンテーションに基づく画像識別方法。
【請求項8】
ホストの画像キャプチャユニットが第1の画像をキャプチャするステップにおいて、前記画像キャプチャユニットが前記第1の画像をキャプチャし、前記第1の画像は例えば白色光画像または狭帯域画像である、請求項1に記載のセマンティックセグメンテーションに基づく画像識別方法。
【請求項9】
前記ホストは前記少なくとも1つのセマンティックセグメンテーションブロックに基づいてサンプル画像と比較し、一致によって比較結果が生成するステップにおいて、前記ホストはそれぞれの前記少なくとも1つのセマンティックセグメンテーションブロックに対応する複数の特徴値と、前記サンプル画像の特徴値とを比較し、一致すれば比較結果を生成する、請求項1に記載のセマンティックセグメンテーションに基づく画像識別方法。
【請求項10】
前記ホストは前記比較結果に基づいて、前記少なくとも1つのセマンティックセグメンテーションブロックを目標物体画像に分類するステップにおいて、前記ホストは前記少なくとも1つのセマンティックセグメンテーションブロックに対応する前記複数の特徴値を識別し、前記サンプル画像の前記複数の特徴値とマッチングした場合、前記ホストは前記少なくとも1つのセマンティックセグメンテーションブロックを前記目標物体画像に分類し
、前記少なくとも1つのセマンティックセグメンテーションブロックに対応する前記複数の特徴値と前記サンプル画像の前記複数の特徴値とがマッチングしなかった場合、前記ホストは前記少なくとも1つのセマンティックセグメンテーションブロックを非目標物体画像と分類する、請求項1に記載のセマンティックセグメンテーションに基づく画像識別方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像識別方法に関し、特に、セマンティックセグメンテーションに基づく画像識別方法に関する。
【背景技術】
【0002】
現在、内視鏡画像による消化器官の疾病、特に食道癌を診断することがよく行われている。早期の食道癌はほとんど症状がないため、多くの患者は飲み込み問題が発生してから発覚する。臨床上では食道内視鏡により食道癌を診断する。
【0003】
食道は咽頭と胃を接続する管状器官であり、主に口から飲み込んだ食物を胃に送るための器官である。正常な食道粘膜は、多層の扁平上皮細胞を有し、厚さは約200~500μmであり、表面から下へは、粘膜上皮層(EP)、粘膜固有層(LPM)、粘膜筋板層(MM)、粘膜下層(SM)および固有筋層(MP)に分けることができる。上皮組織に発生する悪性腫瘍はがんと呼ばれ、世界では食道がんは8番目に多いがんである。また、通常、悪性腫瘍(CancerまたはMalignant tumorと呼ばれる)は、生理機能に影響を及ぼし、肉腫(Sarcoma)、リンパ腫(lymphoma)、白血病(leukemia)、メラノーマ(melanoma)、癌肉腫(carcinosarcoma)、悪性神経膠腫(Malignant glioma)などを含む。
【0004】
結合組織に発生する悪性腫瘍は肉腫と呼ばれる。いわゆる結合組織は、繊維組織、脂肪組織、筋肉、血管、骨および軟骨を含む。また、リンパ腫や白血病は造血組織に発生する。メラノーマは皮膚細胞に発生する。上皮組織および結合組織に同時に発生する悪性腫瘍は癌肉腫と呼ばれる。また、悪性グリオーマは神経組織に発生する悪性腫瘍である。食道がんの悪性腫瘍は食道の上皮組織に浸潤するだけでなく、後期には結合組織にも浸潤する。
【0005】
現在の疾病診断技術は、通常、体温、血圧、身体スキャン画像などの単一のマクロ資料と情報に依存している。例えば、がんのような重大な疾患を検出するために、現在一般的に使用されている機器のほとんどは、X線、CTスキャン、核磁気共鳴画像法(MRI:Magnetic Resonance Imaging、MRI)技術を含む画像技術に基づいた装置である。これらの診断装置を組み合わせて使用すると、程度の差があるが、疾患の診断に有用である。しかし、これらの装置を単独で使用する場合、重大な疾病が発病した早期段階では、正確的で、高精度で、効率的で、経済的な検出ができない。さらに、X線、CTスキャン、核磁気共鳴(NMR)画像化などの上記従来の装置の多くは、大型であり侵襲性がある。そこで、消化器官の病巣を観察するために、内視鏡検査が開発され、消化器官に病巣が存在するかどうかを検査する。
【0006】
また、早期の食道がんは診断が容易ではないが、早期にはほとんど症状がなかったたけでなく、食道内視鏡検査を受けても一部の早期食道がんは発見されにくい。これらの病巣の変化は非常に細かく、わずかな色の変化しかない場合が多いため、従来の内視鏡検査では多くの早期食道がん病変が見落とされ、治療が手遅れになる。そのため、発見されにくい病巣に対して、ヨウ素染色体内視鏡(Lugol chromoendoscopy)、狭帯域画像技術(Narrow Band Image、NBI)、拡大内視鏡(Magnifying Endoscopy)が開発された。
【0007】
白色光内視鏡画像(WLI:White Light Image):これは伝統的な内視鏡技術であり、白色光を食道粘膜に照射し、反射によって食道の画像を得るが、早期病巣を極め出す能力が低く、末期食道癌のような明らかな病巣のみを発見できる。
【0008】
狭帯域内視鏡画像(NBI:Narrow band Image):NBIはIPCL血管の変化を明らかにすることができ、選択した415nm、540nmの光線を利用し、血管、細胞内の組織に対して散乱・吸収を行い、血管内のヘモグロブリンが青色光および緑色光を吸収したため、浅層の毛細血管は茶色を表わすことができる。他の太い血管は青色を呈し、伝統的な白色光より優れる。
【0009】
色素内視鏡(Chromoendoscopy): 光源の交換に加えて、がんによる細胞への変化を利用して染色により病巣の位置を判断するが、誤吸入のリスクがあるため食道染色には特に注意が必要である。ヨウ素染色内視鏡(Lugol chromoendoscopy)が良く用いられ、ヨウ素液で肝糖を茶色に染色するが、癌細胞はグルコーゲンをエネルギーに変化させるため、染色することができないことを利用して病巣の可能性が大きい位置を発見し、この部分をスライスして癌になったか否かを確認するが、ヨウ素染色により胸部に不快感をもたらし、患者がアレルギー反応をする可能性もある。
【0010】
拡大内視鏡(ME:Magnifying endoscopy):他の内視鏡技術とは異なり、MEはズーム技術を利用して画像の品質を保ちながら画像を拡大する。これにより病巣の些細な変化を観察する。NBIのような他の画像増強技術と組み合わせると、IPCLの形状に対してステージ分けを行い、癌の浸潤度合いを判断できる。
【0011】
しかし、内視鏡の操作は非常に複雑で、資格のある医療スタッフのみが内視鏡検査を行うことができる。さらに医療スタッフは内視鏡を操作しながら、病巣を識別しなければならない。内視鏡検査の方法は様々な改良が行われてきたが、人為的な操作ミスや内視鏡画像の識別が困難などの課題は依然存在する。
【0012】
また、新型の内視鏡、例えばカプセル内視鏡について、身体へのアクセスの利便性のために、患者の不快感を軽減するため、狭帯域画像の機能を犠牲にして、白色光画像の機能のみを備えているため、医師の画像判読の困難性を高めている。
【0013】
このため、食道癌診断過程を改善した方法が必要になる。コンピュータ支援診断技術(CAD:Computer Aided Diagnosis)が生物医学研究の重点になり、コンピュータ支援診断医学画像を用いて医師の疾病の類型および病巣の区域への正確な判断を補助でき、画像確認効率も向上する。畳み込みニューラルネットワークをコンピュータビジョン(CV:Computer Vision)分野に用いることは現在の技術的なトレンドであり、いくつかの応用方式がある。
【0014】
1、画像分類(Image Classification)、画像に対して類別のスクリーニングを行い、深層学習の方法によって画像がどの分類類別に属するかを識別し、その重点は、当該画像の内容に複数の目標があっても、1枚の画像が1種類の分類類別を含むことにある。よって、単純な画像分類の応用が普及されていない。しかし、ディープラーニング演算法にとって単一目標識別は正確率が最も高いため、実務上での応用において物体検知方法によって当該目標を探し出し、取込画像範囲を縮小して画像分類を行う。このため、物体検出の応用可能範囲であれば、通常は画像分類手法を用いる。
【0015】
2、物体検出(Object Detection)、1枚の画像には1または複数の目標物体があってもよい。目標物体が異なる類別に属してもよい。そのアルゴリズムは下記の2つの目標を達成できる:目標座標を見つけることと目標の類別を識別すること。顔認識関連技術の結合応用、あるいは製造業における瑕疵検査、ひいては病院でX線、超音波で特定の身体部位の病気状況の検査にも応用可能である。物体検出の基礎は、画像分類上に位置を標識する機能を増加したと想像できるため、画像分類の基礎とも離れない。物体検出における標識される座標は通常矩形または四方形であり、目標の位置をわかっただけでは目標の周縁に対して描画できないため、通常に応用では「目標の位置をわかればよい」を目標とする。
【0016】
3、セマンティックセグメンテーション(Semantic Segmentation)、そのアルゴリズムは1枚の画像の各画素を識別し、すなわち物体検出と異なり、セマンティックセグメンテーションは各目標の境界画素を正確に区別できる。簡単に言うと、セマンティックセグメンテーションは画素レベルの画像分類であり、画素ごとに分類する。もちろん、当該応用に用いるモード強力なGPUが必要になり、沢山の時間をかけて訓練する必要がある。通常の応用は物体検出に類似するが、画像識別に対し高い精細度を有し、例えば目標の境界を描画する応用を用いる。セマンティックセグメンテーションを用いて識別する際、通常は1枚の画像を入力し、出力も同サイズの1枚の画像であるが、画像において異なる色調で異なる類別の画素を描画する。
【0017】
口腔癌病巣の検査では通常、どこかに当該病巣があるか否か、および当該病巣の範囲を判断すればよいが、セマンティックセグメンテーションの画像により病巣の位置および病巣の範囲を判断するのは非常に適応しており、特にセマンティックセグメンテーションでは病巣の区域を描画できる点で、優れた物体検出は病巣のブロックを枠で選択する表現方式であるため、畳み込みニューラルネットワークを画像識別方法に応用することを開発することが望まれている。
【0018】
上記の課題に基づき、本発明はセマンティックセグメンテーションに基づく画像識別方法を提供する。この方法では、ニューラルネットワークの残差学習モデルにより入力された画像に対し符号化・復号してセマンティックセグメンテーションブロックを取得し、入力画像を分割して目標物体画像または非目標物体画像に分類し、画像の人工的識別の困難を回避でき、画像上で病巣区域を速やかに標識でき、医師の画像の識別を補助できる。
【発明の概要】
【0019】
本発明の主な目的は、本発明はセマンティックセグメンテーションに基づく画像識別方法を提供する。この方法では、入力画像に対し畳み込みニューラルネットワークの演算によって、複数回の次元削減を行って特徴を抽出した後に複数回の次元増加を行って幾つかのセマンティックセグメンテーションブロックを生成し、測定対象物画像を推定し、さらに測定対象物画像とサンプル画像とを比較することにより、測定対象物画像を目標物体画像または非目標物体画像に分類する、ハイパースペクトル画像による物体検出方法を提供する。
【0020】
上記目的を達成するために、本発明はセマンティックセグメンテーションに基づく画像識別方法を提供する。前記方法において、以下のステップを含む:ホストの画像キャプチャユニットは1つの第1の画像を提供し、データエンハンスメント関数を用いたデータオーグメンテイション(資料増強:Data augmentation)を使用して第1の画像から第2の画像を生成し、ホストはニューラルネットワークの残差学習モデルおよび符号化復号化方式を使用して第2の画像から少なくとも1つのセマンティックセグメンテーションブロックを生成し、符号化復号化(Encoder-Decoder)方式は以下のステップを含む:第2の画像は第1の収縮経路(contracting path)の最大プーリング(max pooling)を使用して複数の第1のプーリング画像を生成して、前記第1のプーリング画像は第2の収縮経路の前記最大プーリングを使用して複数の第2のプーリング画像を生成し、前記第2のプーリング画像は第3の収縮経路の前記最大プーリングを使用して複数の第3のプーリング画像を生成し、前記第3のプーリング画像は第4の収縮経路の前記最大プーリングを使用して複数の第4のプーリング画像を生成して、これらの第4のプーリング画像は第1拡張経路(expansive path)を使用してアップサンプリング(Upsampling)して、且つこれらの第3のプーリング画像を連結(concat)した後に複数の畳み込み核で少なくとも2層の畳み込み演算を行って、複数の第1の出力画像になり、これらの前記第1の出力画像は第2の拡張経路の前記アップサンプリングを使用して、且つこれらの前記第2のプーリング画像を連結した後、前記畳み込み核で少なくとも2層の畳み込み演算を行って、複数の第2の出力画像になり、これらの前記第2の出力画像は第3の拡張経路の前記アップサンプリングを使用して、且つこれらの前記第1のプーリング画像を連結した後、前記畳み込み核で少なくとも2層の畳み込み演算を行って、複数の第3の出力画像になり、これらの前記第3の出力画像は第4の拡張経路の前記アップサンプリングを使用して、且つ前記第2の画像を連結した後、これらの畳み込み核で少なくとも2層の畳み込み演算を行って、第4の出力画像になり、前記第4の出力画像は前記少なくとも一つのセマンティックセグメンテーションブロックを含み、前記ホストは前記少なくとも一つのセマンティックセグメンテーションブロックに基づいてサンプル画像と比較して比較結果を生成し、前記ホストは前記比較結果によって前記少なくとも1つのセマンティックセグメンテーションブロックを目標物体画像に分類する。これにより、自動的に識別できるとともに識別しにくいという課題を回避することもできる。
【0021】
本発明の一実施例では、前記最大プーリンブ(max pooling)はカーネルサイズ(kernel size)2×2の複数の畳み込みカーネルを含む。
【0022】
本発明の一実施例では、前記アップサンプリング(Upsampling)はカーネルサイズ(kernel size)2×2の複数のデコンボリューションカーネルを含む。
【0023】
本発明の一実施例では、前記データエンハンスメント関数はKeras関数ライブラリのImageDataGenerator関数である。
【0024】
本発明の一実施例では、前記ImageDataGenerator関数は、ランダム回転範囲(rotation range)が60、カット角度(shear range)が0.5、パディングモード(fill mode)がnearestで、保持画像スケール(validation split)が0.1に設定されている。
【0025】
本発明の一実施例では、前記ニューラルネットワークはU-NETである。
【0026】
本発明の一実施例では、ホストの画像キャプチャユニットが第1の画像をキャプチャするステップにおいて、前記画像キャプチャユニットが1つの予め設定されたサイズの前記第1の画像をキャプチャして調整する。
【0027】
本発明の一実施例では、ホストの画像キャプチャユニットが第1の画像をキャプチャするステップにおいて、前記画像キャプチャユニットが前記第1画像をキャプチャし、前記第1画像は例えば白色光画像または狭帯域画像である。
【0028】
本発明の一実施例では、前記ホストは前記少なくとも1つのセマンティックセグメンテーションブロックに基づいてサンプル画像と比較し、一致すれば比較結果を生成するステップにおいて、前記ホストはそれぞれの前記少なくとも1つのセマンティックセグメンテーションブロックに対応する前記複数の特徴値と、前記サンプル画像の前記複数の特徴値とを比較し、一致すれば比較結果を生成する。
【0029】
本発明の一実施例では、前記ホストは前記比較結果に基づいて、前記少なくとも1つのセマンティックセグメンテーションブロックを目標物体画像に分類するステップにおいて、前記ホストは前記少なくとも1つのセマンティックセグメンテーションブロックに対応する前記複数の特徴値を識別し、前記サンプル画像の前記複数の特徴値とマッチングした場合、前記ホストは前記少なくとも1つのセマンティックセグメンテーションブロックを前記目標物体画像に分類し、逆に、前記ホストは前記少なくとも1つのセマンティックセグメンテーションブロックを非目標物体画像と分類する、請求項1に記載のセマンティックセグメンテーションに基づく画像識別方法。
【図面の簡単な説明】
【0030】
【
図1】本発明の一実施例の畳み込み検出画像の流れを示す図である。
【
図2A】本発明の一実施例の一部のステップを示す図である。
【
図2B】本発明の一実施例の一部のステップを示す図である。
【
図2C】本発明の一実施例の一部のステップを示す図である。
【
図2D】本発明の一実施例の一部のステップを示す図である。
【
図3A】本発明の一実施例の白色光画像がセマンティックセグメンテーションを利用する具体的な図である。
【
図3B】本発明の一実施例の白色光画像がセマンティックセグメンテーションを利用する具体的な図である。
【
図4A】本発明の一実施例の狭帯域画像がセマンティックセグメンテーションを利用する具体的な図である。
【
図4B】本発明の一実施例の狭帯域画像がセマンティックセグメンテーションを利用する具体的な図である。
【発明を実施するための形態】
【0031】
貴審査委員に本発明の特徴および達成できる効果について更なる理解と認識をしていただくため、下記のように実施例を参照しながら説明する。
【0032】
内視鏡の操作が複雑であるため人為的な操作ミスまたは画像の認識が困難になることが知られている。本発明は、内視鏡技術に起因する人為的な操作ミスまたは画像の認識の困難さという周知の課題を解決するために、セマンティックセグメンテーションに基づく画像識別方法を提案する。
【0033】
以下では、セマンティックセグメンテーションに基づく画像識別方法の特性、および対応するシステムをさらに説明する。
【0034】
まず、本発明の方法の流れを示す図である。図示のように、本発明のセマンティックセグメンテーションに基づく画像識別方法は次のステップを含む。
【0035】
ホストの画像キャプチャユニットが第1の画像をキャプチャするステップS00。
【0036】
第1の画像に対しデータエンハンスメント関数を使用して第2の画像とするステップS10。
【0037】
ニューラルネットワークの残差学習モデルおよび符号化・復号方法により第2の画像からセマンティックセグメンテーションブロックを取得するステップS20。
【0038】
第2の画像は第1の収縮経路(contracting path)の最大プーリング(max pooling)を使用して第1のプーリング画像を生成するステップS22。
【0039】
第1のプーリング画像は第2の収縮経路の最大プーリングを使用して第2のプーリング画像を生成するステップS24。
【0040】
第2のプーリング画像は第3の収縮経路の最大プーリングを使用して第3のプーリング画像を生成するステップS26。
【0041】
第3のプーリング画像は第4の収縮経路の最大プーリングを使用して第4のプーリング画像を生成するステップS28。
【0042】
第4のプーリング画像は第1の拡張経路(expansive path)のアップサンプリング(Upsampling)を使用して第3のプーリング画像と連結し、その後に畳み込みカーネルにて畳み込み演算を行い、第1の出力画像とするステップS30。
【0043】
第1の出力画像は第2の拡張経路のアップサンプリングを使用して第2のプーリング画像と連結し、その後に畳み込みカーネルにて畳み込み演算を行い、第2の出力画像とするステップS32。
【0044】
第2の出力画像は第3の拡張経路のアップサンプリングを使用して第2の画像と連結し、その後に畳み込みカーネルにて畳み込み演算を行い、第3の出力画像とするステップS34。
【0045】
第3の出力画像は第4の拡張経路のアップサンプリングを使用して第2の画像と連結し、その後に畳み込みカーネルにて畳み込み演算を行い、第4の出力画像とし、第4の出力画像にはセマンティックセグメンテーションブロックをふくむステップS36。
【0046】
ホストはセマンティックセグメンテーションブロックに基づいてサンプル画像と比較し、合致すれば比較結果を生成するステップS40。
【0047】
ホストは比較結果に基づいて、セマンティックセグメンテーションブロックを目標物体画像と分類するステップS50。
【0048】
図2A~
図2Dを合わせて参照する。本発明のセマンティックセグメンテーションに基づく画像識別方法に関連する検出システム1は、ホスト10と画像キャプチャユニット20とを含み、本実施例は、ホスト10として、処理ユニット12、メモリ14および格納ユニット16を有するホストが挙げられるが、これに限定されない。サーバ、ノートパソコン、タブレットまたは基礎的な演算能力を有する電子装置は何れも本発明のホスト10である。リポジトリ30は、格納ユニット16に設けられるが、これに限定されず、ホスト10の外部接続格納ユニットであってもよい。ホスト10は、処理ユニット12により畳み込みプログラム120を実行し、対応するニューラルネットワーク124を形成する。さらに、本実施例では、画像キャプチャユニット20は、例えば、膀胱鏡、胃鏡、大腸鏡、気管支鏡、腹腔鏡など、体内の器官組織を検査するための内視鏡である。
【0049】
ステップS00では、
図2Aに示すように、当該ホスト10は、画像キャプチャユニット20がキャプチャした第1の画像22を読み取り、当該第1の画像22は、少なくとも1つの物体画像222および背景画像224を含み、当該第1の画像22はリポジトリ30に格納されている白色光画像(WLIと略称:White light image)または狭帯域画像(NBIと略称:Narrow band image)であってもよい。本実施例の画像キャプチャユニット20は、白色光内視鏡OLYMPUS EVIS LUCERA CV-260 SLにより、対応する当該白色光画像を取得し、狭帯域内視鏡OLYMPUS EVIS LUCERA CLV-260により、対応する当該狭帯域画像を取得する。つまり、当該少なくとも1つの物体画像222および背景画像224が当該第1の画像22の白色光画像または狭帯域画像に存在する。
【0050】
ステップS10では、
図2Aに示すように、当該ホスト10の当該処理ユニット12が第1の画像22に対しデータエンハンスメント関数122にて第2の画像を生成する。本実施例では、当該データエンハンスメント関数122はPython環境下の高層ニューラルネットワークAPI:Keras関数ライブラリのImageDataGenerator関数であり、この関数は、入力された当該第1の画像22が資料として不足している場合、CNNの識別率を向上させるためデータオーグメンテイション(Data augmentation)を行うためのものである。この関数は、整数を入力して入力された当該第2の画像をある角度でランダム回転してデータ量を増加させるランダム回転範囲(rotation range)と、浮点数を入力して入力された当該第2の画像を反時計方向にカット変換角度を発生させてデータ量を増加させるカット角度(shear range)と、「constant」、「nearest」、「reflec」、「wrap」の何れのモードを入力して入力された当該第2の画像を変換させる際に境界を超えた場合に選択方法により処置するパディングモード(fill mode)と、浮点数を入力して検証集(Validation Dataset)が提供されていない場合に一定比率の入力された当該第2の画像を保留して検証集とする保持画像スケール(validation split)とを含む。
【0051】
続いて、ステップS20では、当該ホストは、ニューラルネットワーク124を使用して残差(Residual)学習モード126および符号化・復号(Encoder Decoder)方法128により当該第2の画像24から少なくとも1つのセマンティックセグメンテーションブロック130を取得する。本実施例では、当該ニューラルネットワークは畳み込みニューラルネットワーク(CNN:Convolutional Neural Networks)であり、当該残差学習モデル126はResNet152v2であり、これは畳み込みニューラルネットワークの骨格構造である。当該符号化・復号方法128はステップS22~ステップS26に示すように、
図2Bおよび
図2Cを合わせて参照する。
【0052】
ステップS22では、
図2Bおよび
図2Cに示すように、第1の収縮経路(contracting path)1282において当該第2の画像24を最大プーリング(max pooling)1246により複数の第1のプーリング画像242に畳み込まれる。式(1)のように、当該最大プーリング1246にはプーリング層のカーネルサイズ(kernel size)が2×2の複数の畳み込みカーネル132を有するように設定され、当該第2の画像24をカーネルサイズが2×2のこれらの畳み込みカーネル132にてプーリングしてこれらの第1のプーリング画像242を生成する。当該第2の画像24の解像度は608×608で、これらの第1のプーリング画像242の解像度は304×304で、当該第2の画像24に対し解像度が半減している。
【0053】
【0054】
ステップS24では、第2の収縮経路1284の当該最大プーリング1262においてこれらの第1のプーリング画像242を、プーリング層のカーネルサイズ(kernel size)が2×2のこれらの畳み込みカーネル132により、プーリングして複数の第2のプーリング画像244を生成する。式(1)のように、これらの第2のプーリング画像244の解像度は152×152で、これらの第1のプーリング画像242に対し解像度が半減している。
【0055】
ステップS26では、第3の収縮経路1286の当該最大プーリング1262においてこれらの第2のプーリング画像244を、プーリング層のカーネルサイズ(kernel size)が2×2のこれらの畳み込みカーネル132により、プーリングして複数の第3のプーリング画像246を生成する。式(1)のように、これらの第3のプーリング画像246の解像度は76×76で、これらの第2のプーリング画像244に対し解像度が半減している。
【0056】
ステップS28では、第4の収縮経路1288の当該最大プーリング1262においてこれらの第3のプーリング画像246を、プーリング層のカーネルサイズ(kernel size)が2×2のこれらの畳み込みカーネル132により、プーリングして複数の第4のプーリング画像248を生成する。式(1)のように、これらの第4のプーリング画像248の解像度は38×38で、これらの第3のプーリング画像246に対し解像度が半減している。
【0057】
ステップS30では、これらの第4のプーリング画像248は第1の拡張経路1290(expansive path)を使用し、カーネルサイズ(kernel size)が2×2のこれらのデコンボリューションカーネル134により、アップサンプリング1266(Upsampling)を行う。式(2)のように、当該アップサンプリング1266の後これらの第4のプーリング画像248の解像度が倍増し、これらの第3のプーリング画像246と連結(concat)して第1の連結画像250となる。連結(concat)は、通路数の合併により特徴融合を行う方法であり、式(3)のように、連結後に画像チャンネル数(channel)が増加することにより特徴値136の数が増加するが全てのこれらの特徴値136に変化がなく、解像度も変化しない。続いてこれらの第1の連結画像250はカーネルサイズ(kernel size)が1×1のこれらの畳み込みカーネル132により、複数の第1の出力画像258を生成する。これらの第1の出力画像258の解像度は76×76で、これらの第4のプーリング画像248に対し解像度が倍増している。
【0058】
【0059】
【0060】
ステップS32では、これらの第1の出力画像258は第2の拡張経路1292を使用し、カーネルサイズ(kernel size)が2×2のこれらのデコンボリューションカーネル134により、当該アップサンプリング1266を行う。式(2)のように、当該アップサンプリング1266の後これらの第1の出力画像258の解像度が倍増し、これらの第2のプーリング画像244と連結(concat)して第2の連結画像252となる。式(3)のように、続いてこれらの第2の連結画像252はカーネルサイズ(kernel size)が1×1のこれらの畳み込みカーネル132により、複数の第2の出力画像260を生成する。これらの第2の出力画像260の解像度は152×152で、これらの第1の出力画像258に対し解像度が倍増している。
【0061】
ステップS34では、これらの第2の出力画像260は第3の拡張経路1294を使用し、カーネルサイズ(kernel size)が2×2のこれらのデコンボリューションカーネル134により、当該アップサンプリング1266を行う。式(2)のように、当該アップサンプリング1266の後これらの第2の出力画像260の解像度が倍増し、これらの第1のプーリング画像242と連結(concat)して第3の連結画像254となる。続いてこれらの第3の連結画像254はカーネルサイズ(kernel size)が1×1のこれらの畳み込みカーネル132により、複数の第3の出力画像262を生成する。これらの第3の出力画像262の解像度は304×304で、これらの第2の出力画像260に対し解像度が倍増している。
【0062】
ステップS36では、これらの第3の出力画像262は第4の拡張経路1296を使用し、カーネルサイズ(kernel size)が2×2のこれらのデコンボリューションカーネル134により、当該アップサンプリング1266を行う。式(2)のように、当該アップサンプリング1266の後これらの第3の出力画像262の解像度が倍増し、当該第2の画像24と連結(concat)して第4の連結画像256となる。続いてこれらの第4の連結画像256はカーネルサイズ(kernel size)が1×1のこれらの畳み込みカーネル132により、第4の出力画像264を生成する。当該第4の出力画像264は当該少なくとも1つのセマンティックセグメンテーションブロック130をふくみ、全てのセマンティックセグメンテーションブロック130は対応するこれらの特徴値136を有し、これらの第4の出力画像264の解像度は608×608で、これらの第3の出力画像262に対し解像度が倍増している。
【0063】
ステップS40では、
図2Dに示すように、当該画像キャプチャユニット12が当該少なくとも1つのセマンティックセグメンテーションブロック130を取得した後当該ホスト10は、セマンティックセグメンテーションブロック130毎が対応するこれらの特徴値136と、サンプル画像270が対応するこれらの特徴値136とを比較して比較結果138を得る。当該サンプル画像270がリポジトリ30に格納されている。続いてステップS50では、当該ホスト10は、当該画像キャプチャユニット12が実行した畳み込みプログラム120により、当該比較結果128に基づきすべてのセマンティックセグメンテーションブロック130を少なくとも目標物体画像266または非目標物体画像268に分類する。例えば、悪性腫瘍の場合、当該ホスト10の当該画像キャプチャユニット12が実行した当該畳み込みプログラム120が、当該少なくとも1つのセマンティックセグメンテーションブロック130が対応するこれらの特徴値136を識別でき、サンプル画像270が対応するこれらの特徴値136とマッチングした場合、当該ホスト10が当該少なくとも1つのセマンティックセグメンテーションブロック130を当該目標物体画像266に分類する。一方、当該ホスト10の当該画像キャプチャユニット12が実行した当該畳み込みプログラム120が、当該少なくとも1つのセマンティックセグメンテーションブロック130を当該非目標物体画像268に分類する。
【0064】
本実施例では、目標物体画像266は食道癌(SCC)画像272または形成異常(Dysplasia)画像274であってもよい。
【0065】
本発明はセマンティックセグメンテーションに基づく画像識別方法では、その機能は、入力画像に対してデータオーグメンテイションを行い、そして畳み込みニューラルネットワークによって当該入力画像に対して符号化・復号してそのセマンティックセグメンテーションブロックを取得してから、当該セマンティックセグメンテーションブロックを目標物体画像または非目標物体画像に分類して入力画像の識別を完成する。165回の食道内視鏡画像の判断結果では、本発明の入力画像IMGが白色光画像(WLI)または狭帯域画像(NBI)であるかにより病巣の有無および病巣の位置決めの正確度は、セマンティックセグメンテーションの白色光画像(WLI)を利用した正常(Normal)区域判断の正確度は86%で、形成異常(Dysplasia)区域判断の正確度は89%で、食道癌(SCC)区域判断の正確度は60%で、全体正確率は79%である。セマンティックセグメンテーションの狭帯域画像(NBI)を利用した正常(Normal)区域判断の正確度は84%で、形成異常(Dysplasia)区域判断の正確度は80%で、食道癌(SCC)区域判断の正確度は78%で、全体正確率は82%である。医療関係者が本発明を利用して症状の判断に補助証拠にすることが可能である。
【0066】
ここでは本発明の具体的な実施例を提供する。
図3A、
図3B、
図4Aおよび
図4Bに示すように、これらは本発明の具体的な実施例の画像を示す図である。例えば食道内視鏡の白色光画像(WLI画像)または狭帯域画像(NBI画像)に対し食道癌の有無を識別する場合、当該ホスト10は、当該第1の画像22をキャプチャし、当該第1の画像22に対し当該データエンハンスメント関数122を使用してデータオーグメンテイションを行って当該第2の画像24とし、かつ当該ニューラルネットワーク124の当該残差学習モデル126および当該符号化・復号方法128により当該第2の画像24から当該これらの特徴値136を含む当該少なくとも1つのセマンティックセグメンテーションブロック130を取得する。全てのセマンティックセグメンテーションブロック130のこれらの特徴値136とサンプル画像270のこれらの特徴値136とを比較して当該比較結果138を得る。すべてのセマンティックセグメンテーションブロックを当該目標物体画像266または当該非目標物体画像268に分類する。
図9Aの当該第1の画像22は白色光画像であり、
図10Aの当該第1の画像22は狭帯域画像である。
図9Bおよび
図10Bは前記画像を本発明の方法を用いた後に出力した当該少なくとも1つのセマンティックセグメンテーションブロック130であり、これから明らかにわかるように、当該第1の画像22の病巣場所(目標物体画像266)、
図10Bひいては形成異常画像272と病変が激しい食道癌画像274とを区分でき当該第1の画像22の識別度および非目標物体画像268との対比度を向上させ、医療関係者が病巣を便利に観察することができる。
【0067】
以上をまとめると、本発明のバンドを用いたハイパースペクトルによる物体画像の検出方法は、ホストはハイパースペクトル画像情報を取得し、ハイパースペクトル画像情報に基づいて入力画像をハイパースペクトル画像に変換、続いてハイパースペクトル画像をバンド選択に基づいて、引き続き畳み込みプログラムを実行し、ホストに畳み込みニューラルネットワークを構築させ、画像キャプチャユニットの入力画像を畳み込み、検出したい選出領域を選出し、入力画像上に予測ボックスを形成し、回帰演算を行い、境界ボックスにより測定対象物画像の位置合わせをし、最後にサンプル画像との比較を行い、比較結果を用いて目標物体画像と非目標物体画像に分類し、ハイパースペクトル技術にて物体画像の識別を補助する目的を達成できる。
【0068】
したがって、本発明は実際に新規性、進歩性及び産業上の利用可能性を有するため、台湾特許法の特許出願要件に合致すべきであることは間違いなく、法により発明特許を出願し、貴庁が早期に特許を賜ることを祈念し、切に希望する。
【0069】
ただし、上記のものは、本発明の優れた実施例にすぎず、本発明の実施範囲を限定するためのものではなく、本発明の特許出願の範囲に記載された形状、構造、特徴及び精神に基づいた均等な変化及び修飾は、すべて本発明の特許出願の範囲内に含まれる。
【符号の説明】
【0070】
1 検出システム
10 ホスト
12 処理ユニット
120 畳み込みプログラム
122 データエンハンスメント関数
124 ニューラルネットワーク
126 残差学習モデル
1262 最大プーリング
1264 アップサンプリング
128 符号化・復号方法
1282 第1の収縮経路
1284 第2の収縮経路
1286 第3の収縮経路
1288 第4の収縮経路
1290 第1の拡張経路
1292 第2の拡張経路
1294 第3の拡張経路
1296 第4の拡張経路
130 セマンティックセグメンテーションブロック
132 畳み込みカーネル
134 デコンボリューションカーネル
136 特徴値
138 比較結果
14 メモリ
16 格納ユニット
20 画像キャプチャユニット
22 第1の画像
222 物体画像
224 背景画像
24 第2の画像
242 第1のプーリング画像
244 第2のプーリング画像
246 第3のプーリング画像
248 第4のプーリング画像
250 第1の連結画像
252 第2の連結画像
254 第3の連結画像
256 第4の連結画像
258 第1の出力画像
260 第2の出力画像
262 第3の出力画像
264 第4の出力画像
266 目標物体画像
268 非目標物体画像
270 サンプル画像
272 食道癌画像
274 形成異常画像
30 リポジトリ
S00~50 ステップ