(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-17
(54)【発明の名称】深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体
(51)【国際特許分類】
G06V 10/82 20220101AFI20240110BHJP
G06T 7/00 20170101ALI20240110BHJP
A61B 1/00 20060101ALI20240110BHJP
A61B 1/045 20060101ALI20240110BHJP
【FI】
G06V10/82
G06T7/00 350C
G06T7/00 612
A61B1/00 C
A61B1/045 614
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023540947
(86)(22)【出願日】2021-12-14
(85)【翻訳文提出日】2023-08-21
(86)【国際出願番号】 CN2021137938
(87)【国際公開番号】W WO2022148216
(87)【国際公開日】2022-07-14
(31)【優先権主張番号】202110010379.4
(32)【優先日】2021-01-06
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】523162753
【氏名又は名称】アンコン テクノロジーズ カンパニー リミテッド
【氏名又は名称原語表記】ANKON TECHNOLOGIES CO., LTD
【住所又は居所原語表記】No.666, GaoXin Avenue, East Lake Hi-Tech Development Zone Wuhan, Hubei 430000 China
(74)【代理人】
【識別番号】110001841
【氏名又は名称】弁理士法人ATEN
(72)【発明者】
【氏名】ジャン ハン
(72)【発明者】
【氏名】ジャン ハオ
(72)【発明者】
【氏名】ユェン ウェンジン
(72)【発明者】
【氏名】ジャン チュウカン
(72)【発明者】
【氏名】リウ ホイ
(72)【発明者】
【氏名】ホァン ジーウェン
【テーマコード(参考)】
4C161
5L096
【Fターム(参考)】
4C161DD07
4C161TT15
4C161WW14
4C161WW19
5L096AA02
5L096BA06
5L096BA13
5L096CA04
5L096DA02
5L096GA30
5L096HA04
5L096HA11
5L096KA04
(57)【要約】
本発明は、深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体を提供し、連続して撮影されたマルチフレーム画像を特定形式の画像シーケンスに形成した後、3D畳み込みニューラルネットワークモデルによってマルチフレーム画像をマルチチャネル認識し、さらに、各チャネルの認識確率を組み合わせて認識結果を出力し、画像認識精度を向上させる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
カプセル内視鏡によってN枚の原画像を時間生成順に収集するステップと、
スライディングウィンドウ分割法を使用して、前記N枚の原画像を同じ大きさのM組の原画像シーケンスに分割するステップと、
前記N枚の原画像を解析し、又はM組のRGB画像シーケンスを解析してM組のオプティカルフロー画像シーケンスを形成するステップであって、各前記RGB画像シーケンスは、RGB形式の画像データで構成され、各前記オプティカルフロー画像シーケンスは、隣接するRGB画像のオプティカルフローフィールドを計算して形成された画像データで構成されるステップと、
前記RGB画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ3D畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップであって、前記認識結果は、所定パラメータの発生確率値であり、前記3D畳み込みニューラルネットワークモデルは、RGB分岐及びオプティカルフロー分岐を含むステップと、を含み、
前記RGB画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ3D畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップは、
前記RGB画像シーケンスを前記RGB分岐に入力して計算し、第1分類確率を出力するステップと、
前記オプティカルフロー画像シーケンスを前記オプティカルフロー分岐に入力して計算し、第2分類確率を出力するステップと、
下記式に示すように、前記第1分類確率と前記第2分類確率を融合し、前記認識結果を形成するステップと、を含み、
p=w
1*p1+w
2*p2、
式中、pは前記認識結果、p1は前記第1分類確率、p2は前記第2分類確率、w
1=T1/(T1+T2)、w
2=T2/(T1+T2)であり、
また、T1,T2は、それぞれ、前記3D畳み込みニューラルネットワークモデルを構築する過程での、前記RGB分岐と前記オプティカルフロー分岐のそれぞれにおける検証セットの認識精度を表すことを特徴とする、深層学習に基づくカプセル内視鏡画像認識方法。
【請求項2】
前記スライディングウィンドウ分割法を使用して、前記N枚の原画像を同じ大きさのM組の原画像シーケンスに分割するステップは、
時間生成順にN枚の原画像に、順に1、2、……Nと番号を付けるステップと、
N枚の画像を、所定のウィンドウサイズK、所定のスライディングステップSを用いてM組の原画像シーケンスに順に分割し、
【数1】
であるステップと、を含むことを特徴とする、請求項1に記載の深層学習に基づくカプセル内視鏡画像認識方法。
【請求項3】
前記所定のウィンドウサイズKの値範囲は、2≦K≦1000であり、前記所定のスライディングステップSの値範囲は、1≦S<Kであることを特徴とする、請求項2に記載の深層学習に基づくカプセル内視鏡画像認識方法。
【請求項4】
前記3D畳み込みニューラルネットワークモデルのトレーニング方式は、
事前にトレーニングされた2D認識モデルにおけるサイズN*Nの2D畳み込みカーネルパラメータをN回コピーするステップであって、前記2D認識モデルは、病巣ラベル付きの画像によってトレーニングされて得られ、その入力は単一フレーム画像であり、且つ単一フレーム画像のみを認識できるステップと、
コピーされた各カーネルパラメータをそれぞれNで割って、各位置のカーネルパラメータを元の1/3にするステップと、
新しいカーネルパラメータを再組み合わせしてサイズN*N*Nの畳み込みカーネルパラメータを形成し、前記3D畳み込みニューラルネットワークモデル内の3D畳み込みカーネルの初期化パラメータを構成するステップと、
パラメータ初期化後の前記3D畳み込みニューラルネットワークモデルを、確率的勾配降下法によってトレーニングし、反復停止条件が満たされるまでモデルのパラメータを反復更新し、前記認識結果を出力するための前記3D畳み込みニューラルネットワークモデルを形成するステップと、を含むことを特徴とする、請求項1に記載の深層学習に基づくカプセル内視鏡画像認識方法。
【請求項5】
前記3D畳み込みニューラルネットワークモデルは、処理フローのシーケンスの配列において、
7*7*7の3D畳み込み層、3*3*3の3Dプーリング層、少なくとも1つの協調時空間特徴構造、3Dプーリング層、完全接続層を含むことを特徴とする、請求項1に記載の深層学習に基づくカプセル内視鏡画像認識方法。
【請求項6】
前記協調時空間特徴構造の数がP個で、P∈(4,16)であり、
前記協調時空間特徴構造は、入力から出力までの処理フローのシーケンスの配列において、第1協調時空間畳み込み層、第1正規化層、活性化層、並びに第1協調時空間畳み込み層、第1正規化層、及び活性化層と並行して実行される、前記協調時空間特徴構造の入力から出力への高速接続を含むことを特徴とする、請求項5に記載の深層学習に基づくカプセル内視鏡画像認識方法。
【請求項7】
前記協調時空間特徴構造は、入力から出力までの処理フローのシーケンスの配列において、活性化層の後にある第2協調時空間畳み込み層、第2正規化層をさらに含むことを特徴とする、請求項6に記載の深層学習に基づくカプセル内視鏡画像認識方法。
【請求項8】
前記第1協調時空間畳み込み層によるデータ処理のフローは、
その入口入力特徴図を、それぞれH-W、T-H、T-Wで表される3つのビューに分解し、
3つのビューの出力特徴を、それぞれx
hw、x
tw、x
thで表し、よって、
【数2】
で、
【数3】
で、
【数4】
であり、
式中、xが(t×h×w)×c
1の入力データであり、t×h×wが入力特徴図のサイズであり、c
1が入力特徴図のチャネル数であり、
【数5】
が3次元畳み込みを表し、wが畳み込みフィルターカーネルを表すステップと、
3組の入力データを加重合計して第1協調時空間畳み込み層の出力yを得て、
【数6】
であり、
式中、[a
hw,a
tw,a
th]がサイズc
2×3の係数であり、且つ[a
hw,a
tw,a
th]がsoftmaxを使用して正規化され、c
2が出力のチャネル数であり、数字3が3つのビューを表すステップと、を含むことを特徴とする、請求項6に記載の深層学習に基づくカプセル内視鏡画像認識方法。
【請求項9】
メモリ及びプロセッサを備え、前記メモリには前記プロセッサによって実行可能なコンピュータプログラムが記憶されている電子機器であって、前記プロセッサが前記プログラムを実行すると、深層学習に基づくカプセル内視鏡画像認識方法のステップが実現され、前記方法は、
カプセル内視鏡によってN枚の原画像を時間生成順に収集するステップと、
スライディングウィンドウ分割法を使用して、前記N枚の原画像を同じ大きさのM組の原画像シーケンスに分割するステップと、
前記N枚の原画像を解析し、又はM組のRGB画像シーケンスを解析してM組のオプティカルフロー画像シーケンスを形成するステップであって、各前記RGB画像シーケンスは、RGB形式の画像データで構成され、各前記オプティカルフロー画像シーケンスは、隣接するRGB画像のオプティカルフローフィールドを計算して形成された画像データで構成されるステップと、
前記RGB画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ3D畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップであって、前記認識結果は、所定パラメータの発生確率値であり、前記3D畳み込みニューラルネットワークモデルは、RGB分岐及びオプティカルフロー分岐を含むステップと、を含み、
前記RGB画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ3D畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップは、
前記RGB画像シーケンスを前記RGB分岐に入力して計算し、第1分類確率を出力するステップと、
前記オプティカルフロー画像シーケンスを前記オプティカルフロー分岐に入力して計算し、第2分類確率を出力するステップと、
下記式に示すように、前記第1分類確率と前記第2分類確率を融合し、前記認識結果pを形成するステップと、を含み、
p=w
1*p1+w
2*p2、
式中、pは前記認識結果、p1は前記第1分類確率、p2は前記第2分類確率、w
1=T1/(T1+T2)、w
2=T2/(T1+T2)であり、
また、T1,T2は、それぞれ、前記3D畳み込みニューラルネットワークモデルを構築する過程での、前記RGB分岐と前記オプティカルフロー分岐のそれぞれにおける検証セットの認識精度を表すことを特徴とする、電子機器。
【請求項10】
コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行されると、深層学習に基づくカプセル内視鏡画像認識方法のステップが実現され、前記方法は、
カプセル内視鏡によってN枚の原画像を時間生成順に収集するステップと、
スライディングウィンドウ分割法を使用して、前記N枚の原画像を同じ大きさのM組の原画像シーケンスに分割するステップと、
前記N枚の原画像を解析し、又はM組のRGB画像シーケンスを解析してM組のオプティカルフロー画像シーケンスを形成するステップであって、各前記RGB画像シーケンスは、RGB形式の画像データで構成され、各前記オプティカルフロー画像シーケンスは、隣接するRGB画像のオプティカルフローフィールドを計算して形成された画像データで構成されるステップと、
前記RGB画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ3D畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップであって、前記認識結果は、所定パラメータの発生確率値であり、前記3D畳み込みニューラルネットワークモデルは、RGB分岐及びオプティカルフロー分岐を含むステップと、を含み、
前記RGB画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ3D畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップは、
RGB画像シーケンスをRGB分岐に入力して計算し、第1分類確率を出力するステップと、
オプティカルフロー画像シーケンスをオプティカルフロー分岐に入力して計算し、第2分類確率を出力するステップと、
下記式に示すように、前記第1分類確率と前記第2分類確率を融合し、前記認識結果を形成するステップと、を含み、
p=w
1*p1+w
2*p2、
式中、pは前記認識結果、p1は前記第1分類確率、p2は前記第2分類確率、w
1=T1/(T1+T2)、w
2=T2/(T1+T2)であり、
また、T1,T2は、それぞれ、前記3D畳み込みニューラルネットワークモデルを構築する過程での、前記RGB分岐と前記オプティカルフロー分岐のそれぞれにおける検証セットの認識精度を表すことを特徴とする、コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本出願は、出願日2021年1月6日、出願番号202110010379.4、発明の名称「深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体」の中国特許出願の優先権を主張し、その全ては引用によって本出願に組み込まれる。
【0002】
本発明は、医療機器イメージングの分野に関し、特に、深層学習に基づくカプセル内視鏡画像認識方法、電子機器及び可読記憶媒体に関する。
【背景技術】
【0003】
カプセル内視鏡は、カメラや無線伝送アンテナ等のコアデバイスを統合し、体内の消化管内で画像を収集して体外に同期して伝送することで、得られた画像データに基づいて医療検査を行う医療機器である。カプセル内視鏡は検出過程で数万枚の画像が収集され、画像データの量が多いため、フィルムの読み取り作業が困難で時間がかかる。技術の発展に伴い、画像処理及びコンピュータビジョン技術を活用した病巣認識が広く注目されるようになった。
【0004】
従来技術において、公開番号CN103984957Aの中国特許出願には、カプセル内視鏡画像の疑わしい病変領域の自動早期警告システムが開示されており、該システムは、画像強調モジュールを用いて画像を適応的に強調させてから、テクスチャ特徴抽出モジュールによって平坦病変のテクスチャ特徴を検出し、最後に分類早期警告モジュールを用いて分類し、小腸の平坦病変に対する検出及び早期警告機能を実現した。
【0005】
公開番号CN111462082Aの中国特許出願には、トレーニングされた2Dターゲット深層学習モデルを用いて単一画像に対して病巣認識を行う病巣画像認識装置、方法、機器及び可読記憶媒体が開示されている。
【0006】
従来技術に記載された解決手段は、いずれも単一画像を認識するものであり、認識過程では、単一画像に撮影された情報のみが利用可能であり、前後に撮影された画像情報を総合的に利用することができない。このように、単一の角度から撮影された画像は、病巣の全体的な状況を直観的に反映することができず、特に、特定の角度から撮影された消化管のひだ、胃壁等の画像は、ポリープや隆起等の病変と混同されやすい。また、従来技術では、撮影内容の空間情報と時間情報を同時に取得することができず、病巣認識の正確率が低い。
【発明の概要】
【0007】
上記技術的課題を解決するために、本発明の目的は、深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体を提供することである。
【0008】
上記の発明の目的の1つを実現するために、本発明の一実施形態は、
カプセル内視鏡によってN枚の原画像を時間生成順に収集するステップと、
スライディングウィンドウ分割法を使用して、前記N枚の原画像を同じ大きさのM組の原画像シーケンスに分割するステップと、
前記N枚の原画像を解析し、又はM組のRGB画像シーケンスを解析してM組のオプティカルフロー画像シーケンスを形成するステップであって、各前記RGB画像シーケンスは、RGB形式の画像データで構成され、各前記オプティカルフロー画像シーケンスは、隣接するRGB画像のオプティカルフローフィールドを計算して形成された画像データで構成されるステップと、
前記RGB画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ3D畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップであって、前記認識結果は、所定パラメータの発生確率値であり、前記3D畳み込みニューラルネットワークモデルは、RGB分岐及びオプティカルフロー分岐を含むステップと、を含み、
前記RGB画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ3D畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップは、
前記RGB画像シーケンスを前記RGB分岐に入力して計算し、第1分類確率を出力するステップと、
前記オプティカルフロー画像シーケンスを前記オプティカルフロー分岐に入力して計算し、第2分類確率を出力するステップと、
下記式に示すように、前記第1分類確率と前記第2分類確率を融合し、前記認識結果を形成するステップと、を含み、
p=w1*p1+w2*p2、
式中、pは前記認識結果、p1は前記第1分類確率、p2は前記第2分類確率、w1=T1/(T1+T2)、w2=T2/(T1+T2)であり、
また、T1,T2はそれぞれ、前記3D畳み込みニューラルネットワークモデルを構築する過程での、前記RGB分岐と前記オプティカルフロー分岐のそれぞれにおける検証セットの認識精度を表す、深層学習に基づくカプセル内視鏡画像認識方法を提供する。
【0009】
本発明の一実施形態のさらなる改善として、
前記スライディングウィンドウ分割法を使用して、前記N枚の原画像を同じ大きさのM組の原画像シーケンスに分割するステップは、
時間生成順にN枚の原画像に、順に1、2、……Nと番号を付けるステップと、
N枚の画像を、所定のウィンドウサイズK、所定のスライディングステップSを用いてM組の原画像シーケンスに順に分割し、
【数1】
であるステップとを含んでもよい。
【0010】
本発明の一実施形態のさらなる改善として、
前記所定のウィンドウサイズKの値範囲は、2≦K≦1000であり、前記所定のスライディングステップSの値範囲は、1≦S<Kであってもよい。
【0011】
本発明の一実施形態のさらなる改善として、
前記3D畳み込みニューラルネットワークモデルのトレーニング方式は、
事前にトレーニングされた2D認識モデルにおけるサイズN*Nの2D畳み込みカーネルパラメータをN回コピーするステップであって、前記2D認識モデルは病巣ラベル付きの画像によってトレーニングされて得られ、その入力は単一フレーム画像であり、且つ単一フレーム画像のみを認識できるステップと、
コピーされた各カーネルパラメータをそれぞれNで割って、各位置のカーネルパラメータを元の1/3にするステップと、
新しいカーネルパラメータを再組み合わせしてサイズN*N*Nの畳み込みカーネルパラメータを形成し、前記3D畳み込みニューラルネットワークモデル内の3D畳み込みカーネルの初期化パラメータを構成するステップと、
パラメータ初期化後の前記3D畳み込みニューラルネットワークモデルを、確率的勾配降下法によってトレーニングし、反復停止条件が満たされるまでモデルのパラメータを反復更新し、前記認識結果を出力するための前記3D畳み込みニューラルネットワークモデルを形成するステップと、を含んでもよい。
【0012】
本発明の一実施形態のさらなる改善として、
前記3D畳み込みニューラルネットワークモデルは、処理フローのシーケンスの配列において、
7*7*7の3D畳み込み層、3*3*3の3Dプーリング層、少なくとも1つの協調時空間特徴構造、3Dプーリング層、完全接続層を含んでもよい。
【0013】
本発明の一実施形態のさらなる改善として、
前記協調時空間特徴構造の数がP個で、P∈(4,16)であり、
前記協調時空間特徴構造は、入力から出力までの処理フローのシーケンスの配列において、第1協調時空間畳み込み層、第1正規化層、活性化層、並びに第1協調時空間畳み込み層、第1正規化層、及び活性化層と並行して実行される、前記協調時空間特徴構造の入力から出力への高速接続を含んでもよい。
【0014】
本発明の一実施形態のさらなる改善として、
前記協調時空間特徴構造は、入力から出力までの処理フローのシーケンスの配列において、活性化層の後にある第2協調時空間畳み込み層、第2正規化層をさらに含んでもよい。
【0015】
本発明の一実施形態のさらなる改善として、
前記第1協調時空間畳み込み層によるデータ処理のフローは、
その入口入力特徴図を、それぞれH-W、T-H、T-Wで表される3つのビューに分解し、
3つのビューの出力特徴を、それぞれx
hw、x
tw、x
thで表し、よって、
【数2】
で、
【数3】
で、
【数4】
であり、
式中、xが(t×h×w)×c
1の入力データであり、t×h×wが入力特徴図のサイズであり、c
1が入力特徴図のチャネル数であり、
【数5】
が3次元畳み込みを表し、wが畳み込みフィルターカーネルを表すステップと、
3組の入力データを加重合計して第1協調時空間畳み込み層の出力yを得て、
【数6】
であり、
式中、[a
hw,a
tw,a
th]がサイズc
2×3の係数であり、且つ[a
hw,a
tw,a
th]がsoftmaxを使用して正規化され、c
2が出力のチャネル数であり、数字3が3つのビューを表すステップと、を含んでもよい。
【0016】
上記の発明の目的の1つを解決するために、本発明の一実施形態は、メモリ及びプロセッサを備え、前記メモリには前記プロセッサによって実行可能なコンピュータプログラムが記憶されている電子機器であって、前記プロセッサが前記プログラムを実行すると、上述の深層学習に基づくカプセル内視鏡画像認識方法のステップが実現される、電子機器を提供する。
【0017】
上記の発明の目的の1つを解決するために、本発明の一実施形態は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行されると、上述の深層学習に基づくカプセル内視鏡画像認識方法のステップが実現される、コンピュータ可読記憶媒体を提供する。
【0018】
従来技術と比較して、本発明の有益な効果は次の通りである。本発明の深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体は、連続して撮影されたマルチフレーム画像を特定形式の画像シーケンスに形成した後、3D畳み込みニューラルネットワークモデルによってマルチフレーム画像をマルチチャネル認識し、さらに、各チャネルの認識確率を組み合わせて認識結果を出力し、画像認識精度を向上させる。
【図面の簡単な説明】
【0019】
【
図1】本発明の第1実施形態による深層学習に基づくカプセル内視鏡画像認識方法の手順模式図である。
【
図2】本発明の具体的な一例で提供されるスライディングウィンドウ分割の模式図である。
【
図3】本発明の具体的な一例で提供される、トレーニングされた2D認識モデルの畳み込みカーネルパラメータを使用して3D畳み込みニューラルネットワークモデルの畳み込みカーネル初期化パラメータを生成する模式図である。
【
図4】本発明で提供される3D畳み込みニューラルネットワークモデルの構造模式図である。
【
図5】本発明で提供される協調時空間特徴構造の構造模式図である。
【
図6】本発明の具体例における協調時空間畳み込み層によるデータ処理の手順模式図である。
【発明を実施するための形態】
【0020】
以下において、図面に示される具体的な実施形態を参照しながら本発明を詳細に説明するが、これらの実施形態は本発明を限定するものではなく、当業者がこれらの実施形態に基づいて行う構造的、方法的、又は機能的な変換も全て本発明の保護範囲内に含まれる。
【0021】
図1に示すように、本発明の第1実施形態は、深層学習に基づくカプセル内視鏡画像認識方法を提供し、この方法は、下記のステップS1~S3を含む。
【0022】
ステップS1で、カプセル内視鏡によってN枚の原画像を時間生成順に収集する。
【0023】
ステップS2で、スライディングウィンドウ分割法を使用して、N枚の原画像を同じ大きさのM組の原画像シーケンスに分割し、
N枚の原画像を解析し、又はM組の原画像シーケンスを解析してM組のRGB画像シーケンスを形成し、及びN枚の原画像を解析し、又はM組のRGB画像シーケンスを解析してM組のオプティカルフロー画像シーケンスを形成する。
各RGB画像シーケンスは、RGB形式の画像データで構成され、各オプティカルフロー画像シーケンスは、隣接するRGB画像のオプティカルフローフィールドを計算して形成された画像データで構成される。
【0024】
ステップS3で、RGB画像シーケンスとオプティカルフロー画像シーケンスをそれぞれ3D畳み込みニューラルネットワークモデルに入力して認識結果を出力する。この認識結果は、所定パラメータの発生確率値である。
【0025】
ステップS1について、カプセル内視鏡の動作中に、カプセル内視鏡に配置されたカメラによって画像が連続して撮影され、同期的又は非同期的に収集・記憶されて原画像が形成される。
【0026】
ステップS2について、スライディングウィンドウ分割法を使用して、N枚の原画像を同じ大きさのM組の原画像シーケンスに分割するステップは、時間生成順にN枚の原画像に順に1、2、……Nと番号を付けるステップと、下記の式に示すように、N枚の画像を、所定のウィンドウサイズK、所定のスライディングステップSを用いて、M組の原画像シーケンスに順に分割するステップと、を含む。
【数1】
【0027】
具体的には、分割された第1組の原画像シーケンスは、番号1、2、...、Kの原画像からなり、第2組の原画像シーケンスは、番号S+1、S+2、...、S+Kの原画像からなり、順番に分割された後、最後の1組の原画像シーケンスは、番号N-K、N-K+1、...、Nの原画像からなり、合計
【数7】
で表される組の原画像シーケンスに分割される。
式中の記号
【数8】
は、切り上げを表す。
好ましくは、Kの値範囲は、2≦K≦1000であり、Sの値範囲は、1≦S<Kである。
【0028】
説明すべきことは、NがKで割り切れない場合、数がKでない原画像シーケンスが1組存在し、好ましくは、数がKでない原画像シーケンスを第1組又は最後の組と設定する点である。一般に、計算の便宜上、計算のために選択される原画像の数Nは、Kで割り切れるものであり、ここではさらなる説明を省略する。
【0029】
図2に示すように、本発明の具体的な一例において、原画像の総数をN=10000枚、スライディングウィンドウの大きさをK=10、スライディングステップをS=5と設定すると、分割された第1組の原画像シーケンスは原画像1、2、...、10からなり、第2組の原画像シーケンスは原画像6、7、...、15からなり、このように、最後の1組の原画像シーケンスは、原画像9991、9992、...、10000からなり、合計1999個の原画像シーケンスに分割される。
【0030】
これに応じて、N枚の原画像を解析し、又はM組の原画像シーケンスを解析してM組のRGB画像シーケンスを形成し、各RGB画像シーケンスはRGB形式の画像データで構成される。具体的には、原画像シーケンス内の各原画像をそれぞれRGB形式の画像に変換することで、各原画像シーケンスはそれぞれ、対応するRGB画像シーケンスを形成する。ここで説明すべきことは、まずN枚の原画像をRGB形式変換してから、原画像シーケンスの形成と同じスライディングウィンドウ分割法を用いてM組のRGB画像シーケンスを形成することもでき、上記2つの方法で形成されたRGB画像シーケンスは同じである点である。
【0031】
また、原画像がRGB形式の画像であると、変換する必要はなく、原画像シーケンスは、RGB画像シーケンスであるが、ここではさらなる説明を省略する。
【0032】
これに応じて、N枚の原画像を解析し、又はM組のRGB画像シーケンスを解析してM組のオプティカルフロー画像を形成することは、RGB画像シーケンス形成の過程と類似し、原画像を直接解析してオプティカルフロー画像を得てから、オプティカルフロー画像を、原画像シーケンスの形成と同じスライディングウィンドウ分割法でM組のオプティカルフロー画像シーケンスに形成してもよいし、又は原画像シーケンスを解析してオプティカルフロー画像シーケンスを直接形成してもよい。具体的には、原画像シーケンスを例とすると、まず原画像シーケンスをRGB画像シーケンスに変換し、その後、隣接するRGB画像のオプティカルフローフィールドを算出することでオプティカルフローフィールド画像データを得る。原画像が既知の場合に原画像に対応するRGB画像、オプティカルフロー画像を得ることはいずれも従来技術であるため、本明細書ではこれ以上説明しない。
【0033】
ステップS3について、3D畳み込みニューラルネットワークモデルは、RGB分岐及びオプティカルフロー分岐を含む。
RGB画像シーケンスをRGB分岐に入力して計算し、第1分類確率p1を出力し、
オプティカルフロー画像シーケンスをオプティカルフロー分岐に入力して計算し、第2分類確率p2を出力し、
下記式に示すように、第1分類確率p1と第2分類確率p2を融合し、認識結果pを形成する。
p=w1×p1+w2×p2。
式中、w1=T1/(T1+T2)で、w2=T2/(T1+T2)である。
また、T1,T2は、それぞれ、3D畳み込みニューラルネットワークモデルを構築する過程での、RGB分岐とオプティカルフロー分岐のそれぞれにおける検証セットの認識精度を表す。
【0034】
具体的には、認識精度は、認識に成功する確率である。
【0035】
本発明の具体的な一例において、T1=0.9で、T1=0.8であると、w1=0.9/(0.9+0.8)=0.53であり、w2=0.8/(0.9+0.8)=0.47である。
【0036】
具体的な応用では、示される認識結果は、現在の画像シーケンスに病巣が含まれる確率であり、病巣は、例えば、出血、潰瘍、ポリープ、糜爛等であり、認識結果pの値が高いほど、病巣が発生する確率が高いことを示す。
【0037】
これに応じて、RGB分岐は、局所的な時空間情報をモデル化し、撮影内容の外形輪郭をよく表現することができる。オプティカルフロー分岐は、隣接するフレーム画像の変化をモデル化し、カプセル内視鏡の動きによる撮影内容の動的変化過程をよく捉えることができ、グローバルな空間情報の復元に有利である。したがって、同一の画像シーケンスを変換して2種類のデータを形成し、構築された2つの分岐のそれぞれによって認識して出力し、さらに2つの分岐の結果を融合することで、認識効果を高めることができる。
【0038】
本発明の具体的な実施形態において、RGB分岐とオプティカルフロー分岐の構築方式は同じであり、本発明の以下の説明では、2種類の分岐を3D畳み込みニューラルネットワークモデルで総括して説明する。3D畳み込みニューラルネットワークモデルは、畳み込みカーネルを2次元から3次元に拡張することで、空間情報と時間情報を同時に符号化することができ、これにより、マルチフレーム画像に対して病巣認識を行い、連続して撮影された隣接する画像から得られた異なる角度の撮影情報を総合的に利用する。2D畳み込みニューラルネットワークモデルによる単一フレーム画像認識に対して、より多くの情報を利用することができるため、認識精度が高まる。
【0039】
具体的には、3D畳み込みニューラルネットワークモデルのトレーニング方式は、次のステップM1~M3を含む。
【0040】
ステップM1で、事前にトレーニングされた2D認識モデルにおけるサイズN×Nの2D畳み込みカーネルパラメータをN回コピーする。2D認識モデルは、病巣ラベル付きの画像によってトレーニングされて得られ、その入力は単一フレーム画像であり、且つ単一フレーム画像のみを認識できる。2D認識モデルの構築及び応用は、いずれも従来技術であり、例えば、背景技術CN111462082Aの中国特許出願に開示されているようなものがあり、ここでは詳細な説明を省略する。
【0041】
ステップM2で、コピーされた各カーネルパラメータをそれぞれNで割って、各位置のカーネルパラメータを元の1/3にする。
【0042】
ステップM3で、新しいカーネルパラメータを再組み合わせしてサイズN*N*Nの畳み込みカーネルパラメータを形成し、3D畳み込みニューラルネットワークモデル内の3D畳み込みカーネルの初期化パラメータを構成する。
【0043】
具体的には、
図3に示すように、2D認識モデルの3*3の畳み込みカーネルを3回コピーして、次元拡張を行い、さらに、各次元のデータを個別に3で割って、3*3*3の3D畳み込みカーネルの初期化パラメータを形成する。
【0044】
さらに、3D畳み込みニューラルネットワークモデルのトレーニング方式は、ステップM4をさらに含む。ステップM4で、パラメータ初期化後の3D畳み込みニューラルネットワークモデルを確率的勾配降下法によってトレーニングし、反復停止条件が満たされるまでモデルのパラメータを反復更新し、認識結果を出力するための3D畳み込みニューラルネットワークモデルを形成する。
【0045】
好ましくは、
図4に示すように、3D畳み込みニューラルネットワークモデルは、処理フローのシーケンスの配列において、7*7*7の3D畳み込み層、3*3*3の3Dプーリング層、少なくとも1つの協調時空間特徴構造、3Dプーリング層、完全接続層を含む。
【0046】
協調時空間特徴構造の数がP個で、P∈(4,16)であり、本発明の具体的な実施形態において、P=8と設定する。
【0047】
好ましくは、
図5に示すように、協調時空間特徴構造は、入力から出力までの処理フローのシーケンスの配列において、第1協調時空間畳み込み層、第1正規化層、活性化層、並びに第1協調時空間畳み込み層、第1正規化層、及び活性化層と並行して実行される、協調時空間特徴構造の入力から出力への高速接続を含む。
【0048】
さらに、協調時空間特徴構造は、入力から出力までの処理フローのシーケンスの配列において、活性化層の後にある第2協調時空間畳み込み層、第2正規化層をさらに含む。
【0049】
好ましくは、
図6に示すように、第1協調時空間畳み込み層と第2協調時空間畳み込み層は、処理フローが同じであり、ここでは、これらを協調時空間畳み込み層として説明する。具体的には、協調時空間畳み込み層によるデータ処理のフローは以下を含む。
その入口入力特徴図を、それぞれH-W、T-H、T-Wで表される3つのビューに分解し、
3つのビューの出力特徴を、それぞれx
hw、x
tw、x
thで表し、よって、
【数2】
で、
【数3】
で、
【数4】
であり、
式中、xが(t×h×w)×c
1の入力データであり、t×h×wが入力特徴図のサイズであり、c
1が入力特徴図のチャネル数であり、
【数5】
が3次元畳み込みを表し、wが畳み込みフィルターカーネルを表す。
そして、3組の入力データを加重合計して協調時空間畳み込み層の出力yを得て、
【数6】
であり、
式中、[a
hw,a
tw,a
th]がサイズc
2×3の係数であり、且つ[a
hw,a
tw,a
th]がsoftmaxを使用して正規化され、c
2が出力のチャネル数であり、数字3が3つのビューを表す。
【0050】
協調時空間畳み込み層は、入力データの3つの直交するビューを畳み込み、空間的外観と時間的動き情報をそれぞれ学習し、異なるビューの畳み込みカーネルを共有することで、空間的及び時間的特徴を協調的に学習する。
【0051】
[ahw,atw,ath]をsoftmaxで正規化することによって、応答の桁違いの爆発を防ぐことができる。
【0052】
さらに、本発明の一実施形態は、メモリ及びプロセッサを備え、前記メモリには前記プロセッサによって実行可能なコンピュータプログラムが記憶されている電子機器であって、前記プロセッサが前記プログラムを実行すると、上述の深層学習に基づくカプセル内視鏡画像認識方法のステップが実現される、電子機器を提供する。
【0053】
さらに、本発明の一実施形態は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行されると、上述の深層学習に基づくカプセル内視鏡画像認識方法のステップが実現される、コンピュータ可読記憶媒体を提供する。
【0054】
要約すると、本発明の深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体は、連続して撮影されたマルチフレーム画像を特定形式の画像シーケンスに形成した後、3D畳み込みニューラルネットワークモデルによってマルチフレーム画像をマルチチャネル認識し、さらに、各チャネルの認識確率を組み合わせて認識結果を出力し、画像認識精度を向上させる。
【0055】
説明の便宜上、上記装置は、機能ごとに様々なモジュールに分割されて説明されているが、当然ながら、本発明を実施する際に、各モジュールの機能は同一又は複数のソフトウェア及び/又はハードウェアで実現されてもよい。
【0056】
上述した装置の実施形態は例示的なものに過ぎず、ここで分離部材として説明した前記モジュールは物理的に分離されたものであってもなくてもよく、モジュールとして示した部材は物理モジュールであってもなくてもよく、即ち一箇所に位置してもよく、又は複数のネットワークモジュールに分布してもよい。実際の必要に応じてその一部又は全てのモジュールを選択して本実施形態の解決手段の目的を実現することができる。当業者であれば、創造的な労力を要することなく理解及び実施することができる。
【0057】
理解すべきものとして、本明細書では実施形態ごとに説明しているが、各実施形態は1つの独立した技術的解決手段のみを含むわけではなく、明細書のこのような説明方式は、明確にするためのものに過ぎず、当業者は明細書を1つの全体とすべきであり、各実施形態における技術的解決手段は、適宜組み合わせられて、当業者に理解できる他の実施形態を形成することができる。
【0058】
上記の一連の詳細な説明は、本発明の可能な実施形態に対する具体的な説明に過ぎず、本発明の保護範囲を限定するためのものではなく、本発明の技術的精神から逸脱しない同等の実施形態又は変更は全て本発明の保護範囲に含まれるものとする。
【国際調査報告】