(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-30
(54)【発明の名称】内視鏡の画像識別方法、電子デバイスおよび記憶媒体
(51)【国際特許分類】
G06N 3/08 20230101AFI20240723BHJP
A61B 1/045 20060101ALI20240723BHJP
A61B 1/00 20060101ALI20240723BHJP
G06T 7/00 20170101ALI20240723BHJP
G06V 10/764 20220101ALI20240723BHJP
G06V 10/82 20220101ALI20240723BHJP
G06N 3/045 20230101ALI20240723BHJP
G06N 3/0464 20230101ALI20240723BHJP
G06N 3/044 20230101ALI20240723BHJP
G06N 3/0442 20230101ALI20240723BHJP
【FI】
G06N3/08
A61B1/045 618
A61B1/045 614
A61B1/00 C
G06T7/00 350C
G06T7/00 614
G06V10/764
G06V10/82
G06N3/045
G06N3/0464
G06N3/044
G06N3/0442
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023579477
(86)(22)【出願日】2022-06-17
(85)【翻訳文提出日】2023-12-22
(86)【国際出願番号】 CN2022099318
(87)【国際公開番号】W WO2022267981
(87)【国際公開日】2022-12-29
(31)【優先権主張番号】202110695472.3
(32)【優先日】2021-06-23
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】515266278
【氏名又は名称】安翰科技(武漢)股▲ふん▼有限公司
(74)【代理人】
【識別番号】110001896
【氏名又は名称】弁理士法人朝日奈特許事務所
(72)【発明者】
【氏名】▲張▼ 行
(72)【発明者】
【氏名】▲コン▼ ▲強▼
(72)【発明者】
【氏名】袁 文金
(72)【発明者】
【氏名】▲張▼ 皓
【テーマコード(参考)】
4C161
5L096
【Fターム(参考)】
4C161AA01
4C161AA04
4C161CC04
4C161CC06
4C161CC07
4C161DD07
4C161FF15
4C161SS21
4C161TT15
4C161WW02
5L096BA06
5L096BA13
5L096CA17
5L096DA02
5L096HA11
5L096JA22
5L096KA04
(57)【要約】
本発明は、内視鏡の画像識別方法、電子デバイスおよび記憶媒体を提供する。前記内視鏡の画像識別方法は、第1ニューラルネットワークモデルを使用して、複数の原画像に対して、それぞれ複数の病種カテゴリの病種予測を実行するステップと、前記複数の原画像の病種予測結果に基づいて、前記複数の病種カテゴリのテストサンプルセットを構築するステップと、第2ニューラルネットワークモデルを使用して、前記複数の病種カテゴリのテストサンプルセットについて、それぞれ病種識別を実行するステップと、前記複数の病種の識別結果を重ね合わせて症例診断結果を取得するステップとを含み、前記第2ニューラルネットワークモデルが、前記テストサンプルセットにおける複数の画像特徴を重み付けて組み合わせ、前記病種識別結果を取得する。当該内視鏡の画像識別方法は、病種識別の精度を向上させるために、テストサンプルセットの複数の画像特徴を重み付けて組み合わせる。
【特許請求の範囲】
【請求項1】
第1ニューラルネットワークモデルを使用して、複数の原画像に対して、それぞれ複数の病種カテゴリの病種予測を実行するステップと、
前記複数の原画像の病種予測結果に基づいて、それぞれ所定の数の原画像の画像特徴を含む、前記複数の病種カテゴリのテストサンプルセットを構築するステップと、
第2ニューラルネットワークモデルを使用して、前記複数の病種カテゴリのテストサンプルセットについて、それぞれ病種識別を実行するステップと、
前記複数の病種の識別結果を重ね合わせて症例診断結果を取得するステップとを含み、
前記第2ニューラルネットワークモデルが、前記テストサンプルセットにおける複数の画像特徴を重み付けて組み合わせ、前記病種識別結果を取得するステップとを含む、内視鏡の画像識別方法。
【請求項2】
前記第1ニューラルネットワークモデルは、畳み込みニューラルネットワークモデルであり、前記畳み込みニューラルネットワークモデルが前記複数の原画像の単一画像を入力し、前記複数の病種カテゴリの画像特徴および分類確率を出力する、請求項1に記載の内視鏡の画像識別方法。
【請求項3】
前記第2ニューラルネットワークモデルは、リカレントニューラルネットワークモデルであり、前記リカレントニューラルネットワークモデルが前記テストサンプルセットにおける複数の画像特徴を入力し、前記テストサンプルセットに対応する病種識別結果を出力する、請求項2に記載の内視鏡の画像識別方法。
【請求項4】
前記第2ニューラルネットワークモデルは、
前記テストサンプルセットにおける複数の画像特徴に対して、それぞれ次元削減処理を実行する第1全結合層と、
次元削減処理が行われた複数の画像特徴について、順方向および逆方向の方向に従って隠れ状態を予測する双方向長短期記憶層と、
前記複数の画像特徴の隠れ状態を重み付けて組み合わせ、最終的な特徴を形成する注意力メカニズムとを含み、
前記第2ニューラルネットワークモデルが、前記最終的な特徴に基づいて病種識別結果を取得する、請求項1に記載の内視鏡の画像識別方法。
【請求項5】
前記第1全結合層は、それぞれ対応する画像特徴について、次元削減処理を実行する複数の全結合ユニットを含む、請求項4に記載の内視鏡の画像識別方法。
【請求項6】
前記双方向長短期記憶層は、複数の順方向長短期記憶ユニットおよび複数の逆方向長短期記憶ユニットを含み、前記複数の順方向長短期記憶ユニットがそれぞれ、対応する画像特徴について、順方向予測を実行し、前記複数の逆方向長短期記憶ユニットがそれぞれ、対応する画像特徴について、逆方向予測を実行する、請求項4に記載の内視鏡の画像識別方法。
【請求項7】
前記重み付けて組み合わせるステップは、前記複数の画像特徴の隠れ状態について重み付けて合計するステップを含み、前記複数の画像特徴の重み係数が、対応する病種カテゴリの病種識別への影響を示す、請求項4に記載の内視鏡の画像識別方法。
【請求項8】
【請求項9】
前記複数の病種カテゴリのテストサンプルセットを構築するステップは、前記複数の病種カテゴリのうちの異なる病種カテゴリについて、それぞれ前記複数の原画像から、前記分類確率が最も高い所定の数の原画像の画像特徴を選択して、テストサンプルセットを形成するステップを含む、請求項2に記載の内視鏡の画像識別方法。
【請求項10】
前記所定の数は、2~128の範囲内の任意の整数である、請求項9に記載の内視鏡の画像識別方法。
【請求項11】
前記複数の原画像は、光ファイバー内視鏡、自走式カプセル内視鏡、および受動式カプセル内視鏡のうちのいずれか一種によって収集して得られる、請求項1に記載の内視鏡の画像識別方法。
【請求項12】
メモリおよびプロセッサを含み、前記メモリには、前記プロセッサで実行可能なコンピュータプログラムが記憶される電子デバイスであって、
前記プロセッサが前記プログラムを実行すると、深層学習に基づく内視鏡の画像識別方法のステップを実現し、前記方法は、
第1ニューラルネットワークモデルを使用して、複数の原画像に対して、それぞれ複数の病種カテゴリの病種予測を実行するステップと、
前記複数の原画像の病種予測結果に基づいて、それぞれ所定の数の原画像の画像特徴を含む、前記複数の病種カテゴリのテストサンプルセットを構築するステップと、
第2ニューラルネットワークモデルを使用して、前記複数の病種カテゴリのテストサンプルセットについて、それぞれ病種識別を実行するステップと、
前記複数の病種の病種識別結果を重ね合わせて症例診断結果を取得するステップとを含み、
前記第2ニューラルネットワークモデルが、前記テストサンプルセットにおける複数の画像特徴を重み付けて組み合わせ、前記病種識別結果を取得する、ことを特徴とする電子デバイス。
【請求項13】
コンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、深層学習に基づく内視鏡の画像識別方法のステップを実現し、前記方法は、
第1ニューラルネットワークモデルを使用して、複数の原画像に対して、それぞれ複数の病種カテゴリの病種予測を実行するステップと、
前記複数の原画像の病種予測結果に基づいて、それぞれ所定の数の原画像の画像特徴を含む、前記複数の病種カテゴリのテストサンプルセットを構築するステップと、
第2ニューラルネットワークモデルを使用して、前記複数の病種カテゴリのテストサンプルセットについて、それぞれ病種識別を実行するステップと、
前記複数の病種の識別結果を重ね合わせて症例診断結果を取得するステップとを含み、
前記第2ニューラルネットワークモデルが、前記テストサンプルセットにおける複数の画像特徴を重み付けて組み合わせ、前記病種識別結果を取得する、ことを特徴とするコンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、出願日が2021年06月23日であり、出願番号が202110695472.3であり、名称が「内視鏡の画像識別方法、電子デバイスおよび記憶媒体」の中国特許出願の優先権を主張し、上記中国特許出願の明細書、特許請求の範囲、添付の図面および要約の内容の全てを参照によって本願の一部として援用する。
【0002】
[技術分野]
本発明は、医療機器イメージングの分野に関し、より具体的には、深層学習に基づく内視鏡の画像識別方法、電子デバイスおよび記憶媒体に関する。
【背景技術】
【0003】
カプセル内視鏡は、カメラ、LEDライト、無線通信モジュールなどのデバイスを統合した、患者の消化管病種を検査するための効果的な診断および治療ツールである。検査中に、患者がカプセル内視鏡を飲み込み、カプセル内視鏡は、消化管を移動しながら画像を取得し、画像を患者の体外に送信する。カプセル内視鏡によって取得された画像を解析し、消化管の病変を特定する。カプセル内視鏡は、従来の内視鏡に比べて患者への痛みが少なく、消化管全体を検査できるという利点があり、革新的な技術として広く普及している。
【0004】
カプセル内視鏡は、検査中に大量の画像(例えば、数万枚)を収集するため、画像の読み取り作業に手間と時間がかかる。技術の発展に伴い、画像処理とコンピュータビジョン技術を使用した病変の識別が広く注目されている。しかし、従来の内視鏡の画像識別方法において、カプセル内視鏡で収集された各画像に対して畳み込みニューラルネットワークを介して病変識別を行い、診断結果を得る。たとえ内視鏡の画像識別方法の正解率が90%と高くても、患者の消化管から収集された大量の画像に対して、どの画像でも誤った病変識別結果があれば、間違った症例診断結果につながる。
【0005】
そのため、内視鏡の画像識別方法をさらに改良して、大量の画像に基づく症例診断の精度を向上させることが依然として期待されている。
【発明の概要】
【0006】
上記の技術的課題を解決するために、本発明の目的は、内視鏡の画像識別方法、電子デバイスおよび記憶媒体を提供することであり、複数の原画像に対して、単一画像に従って病種予測を実行した後、病種予測結果に基づいて、テストサンプルセットの複数の画像特徴に対して、病種識別を実行する、識別の精度を向上。
【0007】
本発明の第1態様によれば、内視鏡の画像識別方法が提供され、この方法は、第1ニューラルネットワークモデルを使用して、複数の原画像に対して、それぞれ複数の病種カテゴリの病種予測を実行するステップと、前記複数の原画像の病種予測結果に基づいて、それぞれ所定の数の原画像の画像特徴を含む、前記複数の病種カテゴリのテストサンプルセットを構築するステップと、第2ニューラルネットワークモデルを使用して、前記複数の病種カテゴリのテストサンプルセットについて、それぞれ病種識別を実行するステップと、前記複数の病種の識別結果を重ね合わせて症例診断結果を取得するステップとを含み、前記第2ニューラルネットワークモデルが、前記テストサンプルセットにおける複数の画像特徴を重み付けて組み合わせ、前記病種識別結果を取得するステップとを含む。
【0008】
好ましくは、前記第1ニューラルネットワークモデルは、畳み込みニューラルネットワークモデルであり、前記畳み込みニューラルネットワークモデルが前記複数の原画像の単一画像を入力し、前記複数の病種カテゴリの画像特徴および分類確率を出力する。
【0009】
好ましくは、前記第2ニューラルネットワークモデルは、リカレントニューラルネットワークモデルであり、前記リカレントニューラルネットワークモデルが前記テストサンプルセットにおける複数の画像特徴を入力し、前記テストサンプルセットに対応する病種識別結果を出力する。
【0010】
好ましくは、前記第2ニューラルネットワークモデルは、前記テストサンプルセットにおける複数の画像特徴に対して、それぞれ次元削減処理を実行する第1全結合層と、次元削減処理が行われた複数の画像特徴について、順方向および逆方向の方向に従って隠れ状態を予測する双方向長短期記憶層と、前記複数の画像特徴の隠れ状態を重み付けて組み合わせ、最終的な特徴を形成する注意力メカニズムとを含み、前記第2ニューラルネットワークモデルが、前記最終的な特徴に基づいて病種識別結果を取得する。
【0011】
好ましくは、前記第1全結合層は、それぞれ対応する画像特徴について、次元削減処理を実行する複数の全結合ユニットを含む。
【0012】
好ましくは、前記双方向長短期記憶層は、複数の順方向長短期記憶ユニットおよび複数の逆方向長短期記憶ユニットを含み、前記複数の順方向長短期記憶ユニットがそれぞれ対応する画像特徴について、順方向予測を実行し、前記複数の逆方向長短期記憶ユニットがそれぞれ対応する画像特徴について、逆方向予測を実行する。
【0013】
好ましくは、前記重み付けて組み合わせるステップは、前記複数の画像特徴の隠れ状態を重み付けて合計するステップを含み、前記複数の画像特徴の重み係数が、対応する病種カテゴリの病種識別への影響を示す。
【0014】
【0015】
好ましくは、前記複数の病種カテゴリのテストサンプルセットを構築するステップは、前記複数の病種カテゴリのうちの異なる病種カテゴリについて、それぞれ前記複数の原画像から、前記分類確率が最も高い所定の数の原画像の画像特徴を選択して、テストサンプルセットを形成するステップを含む。
【0016】
好ましくは、前記所定の数は、2~128の範囲内の任意の整数である。
【0017】
好ましくは、前記複数の画像は、光ファイバー内視鏡、自走式カプセル内視鏡、および受動式カプセル内視鏡のうちのいずれか一種によって収集して得られる。
【0018】
本発明の第2態様によれば、メモリおよびプロセッサを含む電子デバイスが提供され、前記メモリには、前記プロセッサで実行可能なコンピュータプログラムが記憶されており、前記プロセッサが前記プログラムを実行すると、上記の深層学習に基づく内視鏡の画像識別方法のステップを実現する。
【0019】
本発明の第3態様によれば、コンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体が提供され、前記コンピュータプログラムがプロセッサによって実行されると、上記の深層学習に基づく内視鏡の画像識別方法のステップを実現する。
【0020】
本発明の実施例による内視鏡の画像識別方法、電子デバイスおよび記憶媒体によれば、第1ニューラルネットワークモデルを使用して病種予測を実行し、第2ニューラルネットワークモデルを使用して病種識別を実行し、第2ニューラルネットワークにおいて、テストサンプルセットにおける複数の画像特徴を重み付けて組み合わせ、病種識別結果を取得し、これにより、病種識別の精度を向上させることができる。さらに、複数の病種カテゴリに対応する複数のテストサンプルセットに基づいて、複数の病種識別結果を取得し、複数の病種カテゴリの識別結果を重ね合わせて症例診断結果を取得する。
【0021】
好ましい実施例において、第2ニューラルネットワークモデルは、順方向および逆方向の方向に従って複数の画像特徴の隠れ状態を予測し、前後時刻の画像特徴を組み合わせて、病種識別を実行するための双方向長短期記憶層を含み、これにより、病種識別の精度をさらに向上させることができる。
【0022】
好ましい実施例において、各テストサンプルセットは、病種識別の精度と病種カテゴリの計算時間の両方を考慮することができるように、所定数、例えば、2~128個の原画像の画像特徴を含む。
【図面の簡単な説明】
【0023】
【
図1】
図1はカプセル内視鏡システムの概略構造図を示す。
【
図2】
図2はカプセル内視鏡の一例の概略断面図を示す。
【
図3】
図3は本発明の実施例による内視鏡の画像識別方法のフローチャートを示す。
【
図4】
図4は本発明の実施例による内視鏡の画像識別方法の概略ブロック図を示す。
【
図5】
図5は本発明の実施例による内視鏡の画像識別方法における第1ニューラルネットワークモデルの概略ブロック図を示す。
【
図6】
図6は本発明の実施例による内視鏡の画像識別方法における第2ニューラルネットワークモデルの概略ブロック図を示す。
【発明を実施するための形態】
【0024】
以下、添付の図面に示される具体的な実施形態を参照しながら、本発明を詳細に説明する。しかしながら、これらの実施形態は、本発明を限定するものではなく、これらの実施形態に従って当業者によってなされた構造、方法、または機能の変更は、すべて本発明の保護範囲に含まれる。
【0025】
図1は、カプセル内視鏡システムの概略構造図を示す。カプセル内視鏡システムは、例えば、ホストコンピュータ104、磁気ボール105、3軸変位ベース106、磁気ボールホルダー107、無線受信装置108を含む。
【0026】
磁気ボールホルダー107は、3軸変位ベース106と接続される第1端および磁気ボール105と接続される第2端を含む。3軸変位ベース106は、例えば、互いに垂直な3つの座標軸に沿って平行移動することができる。磁気ボールホルダー107は、3軸変位ベース106と共に平行移動し、磁気ボール105が水平面および垂直面内で磁気ボールホルダー107に対して回転できるようにする。例えば、モータとリードスクリューを使用して3軸変位ベース106の平行移動を駆動し、モータとベルトを使用して、磁気ボール105を回転駆動させる。これにより、磁気ボール105の姿勢を5自由度で変化させることができる。磁気ボール105は、例えば永久磁石で構成され、互いに対向するN極とS極とを有する。磁気ボール105の姿勢が変化すると、それに応じて位置と向きが変化する外部磁場が発生する。
【0027】
検査中に、患者101は、カプセル内視鏡10を飲み込み、例えばベッド102に横になる。カプセル内視鏡10は、消化管に沿って移動する。後述するように、カプセル内視鏡10の内部には、永久磁石が含まれる。ホストコンピュータ104は、3軸変位ベース106と磁気ボールホルダー107に動作指令を送り、磁気ボール105の姿勢変化を制御する。磁気ボール105が発生する外部磁場が永久磁石に作用することにより、患者の消化管内におけるカプセル内視鏡10の位置および向きを制御することができる。カプセル内視鏡10は、消化管内を移動しながら画像を撮影し、患者の体外にある無線受信装置108に画像を送信する。ホストコンピュータ104は、無線受信装置108と接続され、カプセル内視鏡10によって収集された画像を取得し、画像を分析して消化管の病変を識別するために使用される。
【0028】
図2は、カプセル内視鏡の一例の概略断面図を示す。カプセル内視鏡10は、ハウジング11と、ハウジング11内に配置された回路アセンブリとを含む。
【0029】
ハウジング11は、例えばプラスチックなどの高分子材料で形成され、照明光路および撮影光路を提供するための透明な端部を含む。回路アセンブリは、ハウジング11の主軸に沿って順に配列された、イメージセンサ12、第1回路基板21、永久磁石15、電池16、第2回路基板22、および無線送信機17を含む。イメージセンサ12は、ハウジング11の透明な端部と反対側にあり、例えば、第1回路基板21の中央位置に取り付けられる。第1回路基板21には、イメージセンサ12を取り囲む複数のLED13も取り付けられている。第2回路基板22には、無線送信機17が取り付けられる。第1回路基板21と第2回路基板22とは、フレキシブル回路基板23を介して接続され、その両方の間に永久磁石15と電池16が挟まれている。フレキシブル回路基板23または追加の回路基板によって、電池の正極と負極が接触される。
【0030】
さらに、回路アセンブリは、フレキシブル回路基板23またはハウジング11を係合するために、第2回路基板22に固定的に接続された制限ブロック18も含むことができる。
【0031】
カプセル内視鏡10の撮影状態では、複数のLED13を点灯させてハウジングの端部から照射光を照射し、イメージセンサ12は、ハウジングの端部から患者の消化管の画像を取得する。当該画像データは、フレキシブル基板23を介して無線送信機17に送信され、患者の体外の無線受信機108に伝送され、これにより、ホストコンピュータ104が病変解析用の画像を取得することができる。
【0032】
図3および
図4は、それぞれ本発明の実施例による内視鏡の画像識別方法のフローチャートおよび概略ブロック図を示す。
【0033】
図1に示されるカプセル内視鏡システムにおいて、磁気ボールを使用してカプセル内視鏡の位置と向きを制御し、カプセル内視鏡は、患者の消化管の異なる位置と向きの大量の原画像を収集し、ホストコンピュータはさらに、
図3に示される内視鏡の画像識別方法を実行して、症例診断結果を取得する。上記のカプセル内視鏡システムは、消化管の画像を収集するための自走式カプセル内視鏡を含み、これは原画像を取得する方法の1つにすぎず、他の実施例において、原画像が、光ファイバー内視鏡を介して取得された消化管の画像であってもよく、受動式カプセル内視鏡によって収集された消化管の画像などであってもよい。
【0034】
ステップS01において、第1ニューラルネットワークモデルを使用して、原画像の単一画像について病種予測を実行して、原画像の病種カテゴリの画像特徴および分類確率を取得し、当該分類確率が、当該単一画像が異なる病種に識別される確率を指す。当該実施例において、第1ニューラルネットワークモデルは、例えば、畳み込みニューラルネットワーク(CNNと略す)モデルである。
【0035】
図5を参照すると、第1ニューラルネットワークモデルは、例えば、複数の畳み込み層、少なくとも1つのプーリング層、少なくとも1つの全結合層、および少なくとも1つの正規化されたインデックス層(例えば、softmax層)を含む。畳み込みニューラルネットワークモデルにおいて、畳み込み演算によって画像の異なる特徴を抽出できる。複数の畳み込み層は、低レベルの画像特徴と高レベルの画像特徴を順次抽出できる。プーリング層は、画像特徴(つまり、低レベルの画像特徴と高レベルの画像特徴)をダウンサンプリングし、画像特徴の不変性を維持しながら、画像特徴のデータとパラメーターを圧縮する。全結合層の各ノードは、前の層のすべてのノードと接続され、前の層で抽出された最終的な特徴(即ち、ダウンサンプリングされた画像特徴)を統合して分類する。正規化されたインデックス層は、前の層(例えば、全結合層)の出力を区間(0,1)の確率値にマッピングして、対応する病種の分類確率を取得する。第1ニューラルネットワークモデルは、ラベル付けされたトレーニングサンプルセットによるトレーニングを通じて取得できることが理解できる。検査中に収集された原画像の単一画像を第1ニューラルネットワークモデルの入力として使用し、画像特徴をプーリング層から抽出して、分類確率を正規化されたインデックス層から算出する。
【0036】
本発明の内視鏡の画像識別方法は、特定の畳み込みニューラルネットワーク(CNN)モデルに限定されず、Resnet、Densenet、MobileNetなどの一般的なネットワークモデルを使用することができる。例えば、出願人は、中国特許出願202110010379.4で、当該ステップに適用できる畳み込みニューラルネットワークモデルを開示した。前述のように、カプセル内視鏡は、患者の検査中に何万枚もの原画像を収集できる。第1ニューラルネットワークモデルの入力は、原画像の少なくとも一部の単一画像であり、単一画像を処理して対応する病種カテゴリおよび分類確率を得ることができる。病種カテゴリには、びらん、出血、潰瘍、ポリープ、隆起、毛細血管拡張症、血管奇形、憩室、および寄生虫のうちの少なくとも1つが含まれる。当該実施例において、全部で9つの病種カテゴリがリストされているが、第1ニューラルネットワークモデルによって識別できる病種カテゴリの数は、トレーニングサンプルセットに関連していることを理解することができ、本発明は、特定の数の病種カテゴリに限定されない。
【0037】
ステップS02において、異なる病種カテゴリについて、病種の分類確率が最も高い複数の画像の画像特徴を原画像から選択して、テストサンプルセットを形成する。
【0038】
複数の病種カテゴリについて、病種予測が行われた複数の原画像に分類確率に従って順序付け、対応する病種カテゴリの分類確率が最も高い原画像の画像特徴を選択して、それぞれのテストサンプルセットを形成する。テストサンプルセット内の画像特徴は、プーリング層によって出力された画像特徴であることが好ましい。各病種カテゴリのテストサンプルセット内の画像の数Sは、病種識別の精度と計算時間の両方を考慮して、所定の数、例えば、2~128の範囲内の任意の整数であってもよい。当該実施例において、病種カテゴリの数N=9であり、各病種のテストサンプルセット内の画像の数S=10である。他の実施形例において、病種カテゴリの数および各病種カテゴリのテストサンプルセットは、実際の必要に従って調整することができる。
【0039】
例えば、
図4を参照すると、収集された画像を第1ニューラルネットワークモデル(即ち畳み込みニューラルネットワークモデル)に入力して病種予測を実行する。第1ニューラルネットワークモデルは、収集された各画像を処理し、収集された各画像の画像特徴に基づいて、当該収集された画像が異なる病種カテゴリに判断される確率を取得する。これにより、カテゴリ1に分類された、収集された画像、画像1、画像2、画像3......画像Mを取得し、分類確率の高い順に画像サンプルを選択し、画像3、画像M、画像2......画像Sを取得することができる。他のカテゴリの処理は、カテゴリ1と同様であり、ここでは繰り返されない。選択された画像サンプルに基づいて、第1ニューラルネットワークモデルは、画像サンプルに対応する画像特徴を出力し、テストサンプルセットを形成する。
【0040】
ステップS03において、第2ニューラルネットワークモデルを使用して、複数の病種のテストサンプルセットに対して病種識別を実行する。第2ニューラルネットワークモデルは、例えば、リカレントニューラルネットワーク(RNNと略す)モデルである。
【0041】
複数の病種カテゴリの各テストサンプルセットについて、第2ニューラルネットワークモデルは、複数の原画像から抽出された画像特徴のテストサンプルセットに基づいて、病種識別を実行し、即ち、第1ニューラルネットワークモデルから出力されたテストサンプルセットに基づき、病種識別の精度を向上させた。
図4を参照すると、例えば、第1ニューラルネットワークモデルは、びらん画像と疑われる可能性の最も高いS枚の画像を選択し、当該S枚の画像のそれぞれから抽出された疑わしいカテゴリ1(例えば、びらん)の画像特徴をテストサンプルセットとして使用し、テストサンプルセットを第2ニューラルネットワークモデルに入力し、第2ニューラルネットワークモデルは、本当にカテゴリ1の病種(例えば、びらん性病種)にかかるか否かを確認でき、他のカテゴリの病種についても同様である。
【0042】
ステップS04において、複数の病種の識別結果を重ね合わせて症例診断結果を得る。
【0043】
上記の病種予測と病種識別のステップの後、患者を検査している中に収集された大量の原画像を処理して、複数の病種の識別結果を得ることができ、それらを重ね合わせて症例診断結果を取得する。具体的な一実施例において、当該症例診断結果は、患者の病変が9つの病種カテゴリのうちの1つまたは複数を含むというものである。例えば、上記の9つの病種カテゴリについて、出血とポリープの2つの病種カテゴリの識別結果は病変があると示し、他の病種カテゴリの識別結果は病変がないと示す場合、その症例診断結果は、重ね合わせたすべての病種カテゴリであり、つまり、患者には出血とポリープの2つの病種カテゴリの病変がある。
【0044】
以下、
図6を参照して、本発明の実施例による内視鏡の画像識別方法における第2ニューラルネットワークモデルを詳細に説明する。
【0045】
第2ニューラルネットワークモデルは、リカレントニューラルネットワークモデル(RNN)である。リカレントニューラルネットワークモデルは、シーケンスデータを入力とする再帰型ニューラルネットワークである。図に示すように、第2ニューラルネットワークモデルは、例えば、少なくとも1つの第1全結合層、少なくとも1つの双方向長短期記憶(LSTMと略す)層、注意力メカニズム、少なくとも1つの第2全結合層、および少なくとも1つの正規化されたインデックス層(例えば、softmax層)を含む。
【0046】
第1ニューラルネットワークモデルの病種予測から得られた単一の病種カテゴリのテストサンプルセットは、第2ニューラルネットワークモデルの入力として使用される。テストサンプルセットには、複数の原画像から取得された複数の画像特徴が含まれる。
【0047】
第1全結合層は、複数の全結合ユニットを含み、複数の全結合ユニットがそれぞれ、対応する画像特徴に対して次元削減処理を実行し、即ち、複数の全結合ユニットが、複数の高次元画像特徴に対して次元削減処理をそれぞれ実行して、複数の低次元画像特徴を取得する。
【0048】
双方向長短期記憶層は、複数の画像特徴について、順方向および逆方向の方向に従ってそれぞれ隠れ状態を予測するための、複数の順方向長短期記憶ユニットと複数の逆方向長短期記憶ユニットを含む。ここで、複数の順方向長短期記憶ユニットはそれぞれ、対応する画像特徴に対して順方向予測を実行し、複数の逆方向長短期記憶ユニットはそれぞれ、対応する画像特徴に対して逆方向予測を実行する。
【0049】
本発明者らは、医師が消化管の画像(特に連続的に撮影した消化管の画像)に基づいて診断を行う際に、前の時刻で撮影した画像だけでなく、後の時刻で撮影した画像も参照し、前後時刻の画像を組み合わせて診断を行うことに着目した。従来のカプセル内視鏡の画像処理方法において、リカレントニューラルネットワークモデルは、一方向長短期記憶層を利用しているため、前の時刻の入力から次の時刻の出力を予測することしかできず、収集された画像に基づいて正確な病種の識別結果を得ることができない。従来のリカレントニューラルネットワークモデルとは異なり、本発明のリカレントニューラルネットワークモデルは、双方向長短期記憶層を採用し、前後時刻の画像特徴を組み合わせて病種を識別する。
【0050】
【0051】
【0052】
したがって、双方向長短期記憶層は、複数の画像特徴に対応する複数の隠れ状態を取得することができる。
【0053】
第2ニューラルネットワークモデルの注意力メカニズムは、複数の画像特徴の隠れ状態を最終的な特徴に重み付けるために使用される。
【0054】
【0055】
次の式に示すように、複数の画像特徴の隠れ状態を重み付けて組み合わせ、最終的な特徴Tを取得する。
【0056】
さらに、第2全結合層は、前の層で抽出された最終的な特徴Tを統合して分類する。正規化されたインデックス層は、前の層(即ち、第2全結合層)の出力を区間(0,1)の確率値にマッピングするために使用され、各最終的な特徴Tが異なる病種カテゴリに分類される確率、即ち病種カテゴリと疑われる確率を取得し、そして病種カテゴリと疑われる確率に基づいて症例診断結果を取得して出力する。
【0057】
第2ニューラルネットワークモデルは、複数の原画像の画像特徴のテストサンプルセットに基づいて病種を識別し、その病種カテゴリと疑われる確率が最も高い複数の原画像に、本当に病変が含まれているか否かを確認する。
【0058】
さらに、本発明の一実施形態は、メモリおよびプロセッサを含む電子デバイスを提供し、前記メモリには、前記プロセッサ上で実行可能なコンピュータプログラムが記憶され、前記プロセッサが前記プログラムを実行すると、上記の深層学習に基づく内視鏡の画像識別方法のステップを実現する。
【0059】
さらに、本発明の一実施形態は、コンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータプログラムがプロセッサによって実行されると、上述の深層学習に基づく内視鏡の画像識別方法のステップを実現する。
【0060】
上述したように、本発明の深層学習に基づく内視鏡の画像識別方法、電子デバイスおよび記憶媒体は、原画像の単一画像について病種を予測した後、病種予測結果に基づいて複数の画像を選択し、重み付けて組み合わせて病種識別の精度を向上させ、複数の病種カテゴリの識別結果を重ね合わせて症例診断結果を取得する。
【0061】
説明の便宜上、上記の装置を説明する際、機能で様々なモジュールに分けて個別に説明する。当然ながら、本発明を実施する際、各モジュールの機能を、同じまたは複数のソフトウェアおよび/またはハードウェアで実現することができる。
【0062】
上で説明した装置の実施形態は単なる例示であり、別個のコンポーネントとして説明されたモジュールは、物理的に分離されていてもいなくてもよく、モジュールとして示されているコンポーネントは、物理モジュールである場合もあればそうでない場合もあり、即ち、1つの場所に配置されてもよく、複数のネットワークモジュールに分散することができる。本実施形態の解決手段の目的を達成するために、実際のニーズに応じてモジュールの一部またはすべてを選択することができる。当業者であれば、創造的な努力をすることなく理解および実施することができる。
【0063】
この明細書は、実施形態に従って説明されているが、各実施形態が独立した技術的解決手段のみを含むわけではなく、明細書におけるこの説明は、明確にするためだけのものであり、当業者が明細書を全体として理解すべきであり、各実施形態における技術的解決手段を適切に組み合わせて、当業者が理解できる他の実施形態を形成することもできることを理解されたい。
【0064】
上に列挙した一連の詳細な説明は、本発明の実現可能な実施形態のための具体的な説明にすぎず、本発明の保護範囲を限定することを意図するものではなく、本発明の技術的思想から逸脱しないあらゆる同等の実施形態または変更も、本発明の保護範囲内に含まれるべきである。
【国際調査報告】