IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 之江実験室の特許一覧

特許7459357画像認識方法、装置、デバイスおよび記憶媒体
<>
  • 特許-画像認識方法、装置、デバイスおよび記憶媒体 図1
  • 特許-画像認識方法、装置、デバイスおよび記憶媒体 図2
  • 特許-画像認識方法、装置、デバイスおよび記憶媒体 図3
  • 特許-画像認識方法、装置、デバイスおよび記憶媒体 図4
  • 特許-画像認識方法、装置、デバイスおよび記憶媒体 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-03-22
(45)【発行日】2024-04-01
(54)【発明の名称】画像認識方法、装置、デバイスおよび記憶媒体
(51)【国際特許分類】
   G06V 10/80 20220101AFI20240325BHJP
   G06T 7/00 20170101ALI20240325BHJP
   G06V 10/82 20220101ALI20240325BHJP
   A61B 6/03 20060101ALI20240325BHJP
【FI】
G06V10/80
G06T7/00 612
G06V10/82
A61B6/03
【請求項の数】 9
(21)【出願番号】P 2023119935
(22)【出願日】2023-07-24
【審査請求日】2023-07-24
(31)【優先権主張番号】202310422220.2
(32)【優先日】2023-04-19
(33)【優先権主張国・地域又は機関】CN
【早期審査対象出願】
(73)【特許権者】
【識別番号】521162399
【氏名又は名称】之江実験室
(74)【代理人】
【識別番号】110000729
【氏名又は名称】弁理士法人ユニアス国際特許事務所
(72)【発明者】
【氏名】朱 聞▲タオ▼
(72)【発明者】
【氏名】李 少杰
(72)【発明者】
【氏名】黄 海亮
(72)【発明者】
【氏名】楊 徳富
(72)【発明者】
【氏名】顔 成鋼
【審査官】千葉 久博
(56)【参考文献】
【文献】中国特許出願公開第113988162(CN,A)
【文献】中国特許出願公開第113516210(CN,A)
【文献】中国特許出願公開第112861831(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 10/80
G06T 7/00
G06V 10/82
A61B 6/03
(57)【特許請求の範囲】
【請求項1】
ユーザの認識すべきコンピュータ断層撮影(CT)画像を取得するステップと、
前記認識すべきCT画像に含まれる各ボクセルに対応するCT値に基づいて、前記認識すべきCT画像に対応する画像ヒストグラムを決定するステップであって、前記画像ヒストグラムは前記認識すべきCT画像に関わる各CT値に対応するボクセルの数を表すために用いられるステップと、
前記画像ヒストグラムに基づいて、前記認識すべきCT画像の少なくとも1つの統計データを決定するステップであって、前記統計データは、前記認識すべきCT画像に含まれる指定のボクセルに対応するCT値と、CT値が指定範囲内にあるボクセルの数がすべてのボクセルの総数に占める割合とを含むステップと、
前記統計データを予め訓練された認識モデルの第1の特徴抽出層に入力して第1の特徴表現を得、前記認識すべきCT画像を前記認識モデルの第2の特徴抽出層に入力して第2の特徴表現を得るステップと、
前記第1の特徴表現と前記第2の特徴表現とに基づいて、前記認識すべきCT画像の認識結果を得るステップと、を含
ここで、前記認識モデルを訓練するためのサンプルとして、サンプルユーザの認識すべきCT画像を採用し、前記認識モデルによって得られた当該認識すべきCT画像の認識結果と、当該認識すべきCT画像の実際の認識結果との差を最小化することを最適化の目標として、前記認識モデルを訓練し、前記サンプルユーザは、身体の特定部位の少なくとも一部に病変を有する患者と、身体の特定部位の少なくとも一部に病変を有しない非患者とを含む、
ことを特徴とする画像認識方法。
【請求項2】
ユーザの認識すべきCT画像を取得するステップは、
ユーザのオリジナルコンピュータ断層撮影(CT)画像を取得するステップと、
前記オリジナルCT画像を分割して、前記ユーザの身体の特定部位に対応するCT画像を得るステップと、
前記ユーザの身体の特定部位に対応するCT画像をリサンプリングして、認識すべきCT画像を得るステップと、を含む、
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記統計データを予め訓練された認識モデルの第1の特徴抽出層に入力して第1の特徴表現を得るステップは、
前記統計データの少なくとも一部を正規化して、処理後の統計データを得るステップと、
前記処理後の統計データを前記予め訓練された認識モデルの第1の特徴抽出層に入力して前記第1の特徴表現を得るステップと、を含む、
ことを特徴とする請求項1に記載の方法。
【請求項4】
前記認識すべきCT画像を前記認識モデルの第2の特徴抽出層に入力して第2の特徴表現を得るステップは、
前記認識すべきCT画像に含まれる各ボクセルに対応するCT値を正規化して、処理後の認識すべきCT画像を得るステップと、
前記処理後の認識すべきCT画像を前記予め訓練された認識モデルの第2の特徴抽出層に入力して前記第2の特徴表現を得るステップと、を含む、
ことを特徴とする請求項1に記載の方法。
【請求項5】
前記第1の特徴表現と前記第2の特徴表現とに基づいて、前記認識すべきCT画像の認識結果を得るステップは、
前記第1の特徴表現と前記第2の特徴表現とを融合して融合特徴表現を得るステップと、
前記融合特徴表現に基づいて、前記認識すべきCT画像の認識結果を得るステップと、を含む、
ことを特徴とする請求項1に記載の方法。
【請求項6】
前記認識モデル訓練は、
少なくとも一部のサンプルユーザの認識すべきCT画像を訓練セットとし、他のサンプルユーザの認識すべきCT画像をテストセットとするステップと、
前記訓練セット内の認識すべきCT画像によって前記認識モデルを初期訓練し、初期訓練された認識モデルを得るステップと、
前記テストセット内の各認識すべきCT画像について、当該認識すべきCT画像を前記初期訓練された認識モデルに入力して、前記初期訓練された認識モデルによって当該認識すべきCT画像の認識結果を得るステップと、
前記初期訓練された認識モデルによって得られた当該認識すべきCT画像の認識結果と、当該認識すべきCT画像の実際の認識結果との差を最小化することを最適化の目標として、前記認識モデルを訓練するステップと、を含む、
ことを特徴とする請求項1に記載の方法。
【請求項7】
ユーザの認識すべきコンピュータ断層撮影(CT)画像を取得するための取得モジュールと、
前記認識すべきCT画像に含まれる各ボクセルに対応するCT値に基づいて、前記認識すべきCT画像に対応する画像ヒストグラムを決定するための決定モジュールであって、前記画像ヒストグラムは前記認識すべきCT画像に関わる各CT値に対応するボクセルの数を表すために用いられる、決定モジュールと、
前記画像ヒストグラムに基づいて、前記認識すべきCT画像の少なくとも1つの統計データを決定するための統計モジュールであって、前記統計データは、前記認識すべきCT画像に含まれる指定のボクセルに対応するCT値と、CT値が指定範囲内にあるボクセルの数がすべてのボクセルの総数に占める割合とを含む、統計モジュールと、
前記統計データを予め訓練された認識モデルの第1の特徴抽出層に入力して第1の特徴表現を得、前記認識すべきCT画像を前記認識モデルの第2の特徴抽出層に入力して第2の特徴表現を得るための特徴抽出モジュールと、
前記第1の特徴表現と前記第2の特徴表現とに基づいて、前記認識すべきCT画像の認識結果を得るための認識モジュールと、を含
ここで、前記認識モデルを訓練するためのサンプルとして、サンプルユーザの認識すべきCT画像を採用し、前記認識モデルによって得られた当該認識すべきCT画像の認識結果と、当該認識すべきCT画像の実際の認識結果との差を最小化することを最適化の目標として、前記認識モデルを訓練し、前記サンプルユーザは、身体の特定部位の少なくとも一部に病変を有する患者と、身体の特定部位の少なくとも一部に病変を有しない非患者とを含む、
ことを特徴とする画像認識装置。
【請求項8】
コンピュータプログラムを記憶しているコンピュータ可読記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行されると、請求項1~6のいずれか1項に記載の方法が実施される、
ことを特徴とするコンピュータ可読記憶媒体。
【請求項9】
メモリと、プロセッサと、前記メモリに記憶され、前記プロセッサ上で実行可能なコンピュータプログラムとを含む電子デバイスであって、前記プロセッサが前記コンピュータプログラムを実行すると、請求項1~6のいずれか1項に記載の方法を実施する、
ことを特徴とする電子デバイス。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ処理の技術分野に関し、特に、画像認識方法、装置、デバイスおよび記憶媒体に関する。
【背景技術】
【0002】
現在、コンピュータ断層撮影(Computed Tomography、CT)画像は、例えば、患者の肺のCT画像に基づく慢性閉塞性肺疾患(COPD)などの疾患の診断などの画像診断に広く使用されている。
【0003】
先行技術では、深層学習モデルによってCT画像から特徴を抽出し、CT画像に含まれる患者の身体の特定部位の画像に基づいて、患者の身体の特定部位の病変の有無を認識することができるが、この認識方法の精度は低い。
【0004】
従って、CT画像の認識精度をいかに向上させるかが喫緊の課題となっている。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は先行技術の上記問題点を解決するための画像認識方法、装置、デバイスおよび記憶媒体を提供する。
【課題を解決するための手段】
【0006】
本発明に用いられる技術的解決手段は、以下のとおりである。
【0007】
本発明は画像認識方法を提供し、前記方法は、
ユーザの認識すべきコンピュータ断層撮影(CT)画像を取得するステップと、
前記認識すべきCT画像に含まれる各ボクセルに対応するCT値に基づいて、前記認識すべきCT画像に対応する画像ヒストグラムを決定するステップであって、前記画像ヒストグラムは前記認識すべきCT画像に関わる各CT値に対応するボクセルの数を表すために用いられるステップと、
前記画像ヒストグラムに基づいて、前記認識すべきCT画像の少なくとも1つの統計データを決定するステップであって、前記統計データは、前記認識すべきCT画像に含まれる指定のボクセルに対応するCT値と、CT値が指定範囲内にあるボクセルの数がすべてのボクセルの総数に占める割合とを含むステップと、
前記統計データを予め訓練された認識モデルの第1の特徴抽出層に入力して第1の特徴表現を得、前記認識すべきCT画像を前記認識モデルの第2の特徴抽出層に入力して第2の特徴表現を得るステップと、
前記第1の特徴表現と前記第2の特徴表現とに基づいて、前記認識すべきCT画像の認識結果を得るステップと、を含む。
【0008】
オプションで、ユーザの認識すべきCT画像を取得するステップは、具体的に、
ユーザのオリジナルコンピュータ断層撮影(CT)画像を取得するステップと、
前記オリジナルCT画像を分割して、前記ユーザの身体の特定部位に対応するCT画像を得るステップと、
前記ユーザの身体の特定部位に対応するCT画像をリサンプリングして、認識すべきCT画像を得るステップと、を含む。
【0009】
オプションで、前記統計データを予め訓練された認識モデルの第1の特徴抽出層に入力して第1の特徴表現を得るステップは、具体的に、
前記統計データの少なくとも一部を正規化して、処理後の統計データを得るステップと、
前記処理後の統計データを前記予め訓練された認識モデルの第1の特徴抽出層に入力して前記第1の特徴表現を得るステップと、を含む。
【0010】
オプションで、前記認識すべきCT画像を前記認識モデルの第2の特徴抽出層に入力して第2の特徴表現を得るステップは、具体的に、
前記認識すべきCT画像に含まれる各ボクセルに対応するCT値を正規化して、処理後の認識すべきCT画像を得るステップと、
前記処理後の認識すべきCT画像を前記予め訓練された認識モデルの第2の特徴抽出層に入力して前記第2の特徴表現を得るステップと、を含む。
【0011】
オプションで、前記第1の特徴表現と前記第2の特徴表現とに基づいて、前記認識すべきCT画像の認識結果を得るステップは、具体的に、
前記第1の特徴表現と前記第2の特徴表現とを融合して融合特徴表現を得るステップと、
前記融合特徴表現に基づいて、前記認識すべきCT画像の認識結果を得るステップと、を含む。
【0012】
オプションで、前記方法は、前記認識モデルを訓練するステップをさらに含み、具体的に、
各サンプルユーザの認識すべきCT画像を取得するステップであって、前記サンプルユーザは、身体の特定部位の少なくとも一部に病変を有する患者と、身体の特定部位の少なくとも一部に病変を有しない非患者とを含むステップと、
少なくとも一部のサンプルユーザの認識すべきCT画像を訓練セットとし、他のサンプルユーザの認識すべきCT画像をテストセットとするステップと、
前記訓練セット内の認識すべきCT画像によって前記認識モデルを初期訓練し、初期訓練された認識モデルを得るステップと、
前記テストセット内の各認識すべきCT画像について、当該認識すべきCT画像を前記初期訓練された認識モデルに入力して、前記初期訓練された認識モデルによって当該認識すべきCT画像の認識結果を得るステップと、
前記初期訓練された認識モデルによって得られた当該認識すべきCT画像の認識結果と、当該認識すべきCT画像の実際の認識結果との差を最小化することを最適化の目標として、前記認識モデルを訓練するステップと、を含む。
【0013】
本発明は画像認識装置を提供し、前記装置は、
ユーザの認識すべきコンピュータ断層撮影(CT)画像を取得するための取得モジュールと、
前記認識すべきCT画像に含まれる各ボクセルに対応するCT値に基づいて、前記認識すべきCT画像に対応する画像ヒストグラムを決定するための決定モジュールであって、前記画像ヒストグラムは前記認識すべきCT画像に関わる各CT値に対応するボクセルの数を表すために用いられる、決定モジュールと、
前記画像ヒストグラムに基づいて、前記認識すべきCT画像の少なくとも1つの統計データを決定するための統計モジュールであって、前記統計データは、前記認識すべきCT画像に含まれる指定のボクセルに対応するCT値と、CT値が指定範囲内にあるボクセルの数がすべてのボクセルの総数に占める割合とを含む、統計モジュールと、
前記統計データを予め訓練された認識モデルの第1の特徴抽出層に入力して第1の特徴表現を得、前記認識すべきCT画像を前記認識モデルの第2の特徴抽出層に入力して第2の特徴表現を得るための特徴抽出モジュールと、
前記第1の特徴表現と前記第2の特徴表現とに基づいて、前記認識すべきCT画像の認識結果を得るための認識モジュールと、を含む。
【0014】
オプションで、前記取得モジュールは、具体的に、
ユーザのオリジナルコンピュータ断層撮影(CT)画像を取得し、
前記オリジナルCT画像を分割して、前記ユーザの身体の特定部位に対応するCT画像を得、
前記ユーザの身体の特定部位に対応するCT画像をリサンプリングして、認識すべきCT画像を得るために用いられる。
【0015】
オプションで、前記特徴抽出モジュールは、具体的に、
前記統計データの少なくとも一部を正規化して、処理後の統計データを得、
前記処理後の統計データを前記予め訓練された認識モデルの第1の特徴抽出層に入力して前記第1の特徴表現を得るために用いられる。
【0016】
オプションで、前記特徴抽出モジュールは、具体的に、
前記認識すべきCT画像に含まれる各ボクセルに対応するCT値を正規化して、処理後の認識すべきCT画像を得、
前記処理後の認識すべきCT画像を前記予め訓練された認識モデルの第2の特徴抽出層に入力して前記第2の特徴表現を得るために用いられる。
【0017】
オプションで、前記認識モジュールは、具体的に、
前記第1の特徴表現と前記第2の特徴表現とを融合して融合特徴表現を得、
前記融合特徴表現に基づいて、前記認識すべきCT画像の認識結果を得るために用いられる。
【0018】
オプションで、前記装置は、訓練モジュールをさらに含み、
前記訓練モジュールは、具体的に、
各サンプルユーザの認識すべきCT画像を取得し、前記サンプルユーザは、身体の特定部位の少なくとも一部に病変を有する患者と、身体の特定部位の少なくとも一部に病変を有しない非患者とを含み、
少なくとも一部のサンプルユーザの認識すべきCT画像を訓練セットとし、他のサンプルユーザの認識すべきCT画像をテストセットとし、
前記訓練セット内の認識すべきCT画像によって前記認識モデルを初期訓練し、初期訓練された認識モデルを得、
前記テストセット内の各認識すべきCT画像について、当該認識すべきCT画像を前記初期訓練された認識モデルに入力して、前記初期訓練された認識モデルによって当該認識すべきCT画像の認識結果を得、
前記初期訓練された認識モデルによって得られた当該認識すべきCT画像の認識結果と、当該認識すべきCT画像の実際の認識結果との差を最小化することを最適化の目標として、前記認識モデルを訓練するために用いられる。
【0019】
本発明はコンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体はコンピュータプログラムを記憶しており、前記コンピュータプログラムがプロセッサによって実行されると、上記画像認識方法が実施される。
【0020】
本発明は電子デバイスを提供し、前記電子デバイスは、メモリと、プロセッサと、前記メモリに記憶され、前記プロセッサ上で実行可能なコンピュータプログラムとを含み、前記プロセッサが前記コンピュータプログラムを実行すると、上記画像認識方法を実施する。
【発明の効果】
【0021】
本発明で用いられる上記技術的解決手段の少なくとも1つは、以下の有益な効果を達成することができる。
【0022】
本発明にて提供される画像認識方法は、まずユーザの認識すべきコンピュータ断層撮影(CT)画像を取得し、認識すべきCT画像に含まれる各ボクセルに対応するCT値に基づいて、認識すべきCT画像に対応する画像ヒストグラムを決定し、画像ヒストグラムは認識すべきCT画像に関わる各CT値に対応するボクセルの数を表すために用いられ、画像ヒストグラムに基づいて、認識すべきCT画像の少なくとも1つの統計データを決定し、統計データは、認識すべきCT画像に含まれる指定のボクセルに対応するCT値と、CT値が指定範囲内にあるボクセルの数がすべてのボクセルの総数に占める割合とを含み、統計データを予め訓練された認識モデルの第1の特徴抽出層に入力して第1の特徴表現を得、認識すべきCT画像を認識モデルの第2の特徴抽出層に入力して第2の特徴表現を得、第1の特徴表現と第2の特徴表現とに基づいて、認識すべきCT画像の認識結果を得る。
【0023】
上記方法から分かるように、認識すべきCT画像に含まれる各ボクセルに対応するCT値に基づいて、認識すべきCT画像の統計データを抽出でき、認識モデルによって、認識すべきCT画像の統計データに基づいて認識すべきCT画像の第1の特徴表現を決定し、認識すべきCT画像に基づいて認識すべきCT画像の第2の特徴表現を決定することができるため、認識すべきCT画像の統計データと、認識すべきCT画像の画像情報とに基づいて認識すべきCT画像を認識することができ、認識の精度を向上させることができる。
【図面の簡単な説明】
【0024】
ここで説明される添付図面は、本発明の理解を深めるために用いられ、本発明の一部を構成し、本発明の例示的な実施形態およびその説明は、本発明を説明するために用いられ、本発明の不当な限定を構成するものではない。
図1】本発明にて提供される画像認識方法のフローを示す概略図である。
図2】本発明にて提供される認識すべきCT画像に対応する画像ヒストグラムである。
図3】本発明にて提供される認識すべきCT画像の認識プロセスを示す概略図である。
図4】本発明にて提供される画像認識装置を示す概略図である。
図5】本発明にて提供される電子デバイスを示す概略図である。
【発明を実施するための形態】
【0025】
本発明の目的、技術的解決手段および利点をより明確にするために、以下、本発明の特定の実施形態および対応する添付図面と併せて、本発明の技術的解決手段を明確かつ完全に説明する。明らかに、説明された実施形態は、本発明の実施形態の一部に過ぎず、そのすべてではない。本発明の実施形態に基づいて、当業者が創作的な労力を要することなく得られる他のすべての実施形態は、いずれも本発明の保護範囲に属する。
【0026】
以下、添付図面と併せて、本発明の各実施形態にて提供される技術的解決手段を詳細に説明する。
【0027】
図1は、本発明にて提供される画像認識方法のフローを示す概略図であり、以下のステップを含む。
【0028】
S101において、ユーザの認識すべきコンピュータ断層撮影(CT)画像を取得する。
【0029】
本発明において、業務プラットフォームは、ユーザのオリジナルコンピュータ断層撮影(CT)画像を取得し、取得したユーザのオリジナルCT画像を分割して、ユーザのオリジナルCT画像からユーザの身体の特定部位に対応するCT画像を得てもよい。
【0030】
上記において、業務プラットフォームが、取得したユーザのオリジナルCT画像を分割することは、所定の分割モデルにユーザのオリジナルCT画像を入力して、所定の分割モデルにより、ユーザの身体の特定部位に対応するCT画像を得ることであってもよい。ここでの分割モデルは、UNet、UNet++などのニューラルネットワークモデルであってもよい。
【0031】
さらに、ユーザの身体の特定部位に対応するCT画像をリサンプリングして、認識すべきCT画像を得てもよい。ここで、リサンプリングにより、認識すべきCT画像におけるボクセルのサイズを正規化することができる。
【0032】
なお、リサンプリングにより得られた認識すべきCT画像のサイズは、オリジナル画像のサイズと異なる場合があるため、リサンプリングにより得られた認識すべきCT画像のサイズが、分割前のユーザのオリジナルCT画像のサイズと同じになるように、リサンプリングにより得られた認識すべき画像に対してトリミングなどの操作を行ってもよい。
【0033】
上記におけるユーザの身体の特定部位は、例えば、肺、肝臓などの部位であってもよい。上記におけるボクセルは、ボリュームピクセル(Volume Pixel)であり、3次元空間での最小単位である。2次元空間におけるピクセルと類似し、3次元空間における3次元画像は、ボクセルと呼ばれる複数の小さな立方体から構成され得ると理解してもよい。
【0034】
なお、異なるユーザの身体の特定部位に対応するCT画像のサイズが異なる場合があり(各ユーザの特定部位の体積が異なり、身体に占める割合も異なるため、分割されたユーザの身体の特定部位に対応するCT画像のサイズが異なる場合がある)、異なるユーザの身体の特定部位に対応するCT画像に含まれるボクセルのサイズも異なる場合がある。例えば、あるユーザの身体の特定部位に対応するCT画像に含まれるボクセルのサイズは(0.878906,0.878906,0.625)であり得るが、他のユーザの身体の特定部位に対応するCT画像に含まれるボクセルのサイズは(1,1,1)であり得る。従って、異なる認識すべきCT画像に含まれるボクセルの大きさが異なることによる、認識モデルが出力する認識結果への影響を回避するため、リサンプリングにより、認識すべきCT画像におけるボクセルのサイズを正規化する必要があり、また、分割されたユーザの身体の特定部位に対応するCT画像を、分割前のユーザのオリジナルCT画像と同じサイズにする必要がある。
【0035】
本発明において、画像認識方法を実行するための実行主体は、サーバなどの、業務プラットフォーム上に設置された指定のデバイスであってもよいし、ノートパソコン、デスクトップパソコンなどのデバイスであってもよい。説明の便宜上、以下、実行主体としてサーバのみを例に、本発明にて提供される画像認識方法について説明する。
【0036】
S102において、前記認識すべきCT画像に含まれる各ボクセルに対応するCT値に基づいて、前記認識すべきCT画像に対応する画像ヒストグラムを決定し、前記画像ヒストグラムは前記認識すべきCT画像に関わる各CT値に対応するボクセルの数を表すために用いられる。
【0037】
さらに、サーバが、認識すべきCT画像を取得した後、認識すべきCT画像に含まれる各ボクセルに対応するCT値を決定し、認識すべきCT画像に含まれる各ボクセルに対応するCT値に基づいて、図2に示すような、認識すべきCT画像に対応する画像ヒストグラムを決定してもよい。
【0038】
図2は、本発明にて提供される認識すべきCT画像に対応する画像ヒストグラムである。
【0039】
図2から分かるように、認識すべきCT画像に対応する画像ヒストグラムは、各CT値に対応するボクセルの数を表すために用いられる。例えば、図2における、CT値が-950HUのボクセルの数は5100である。なお、ここでの5100は、CT値-950HUに対応する周波数値、即ち認識すべきCT画像における、CT値が-950HUのボクセルの数である。
【0040】
上記のCT値は、ハンスフィールドユニット(Hounsfield Unit、HU)値とも呼ばれ、X線が異なる組織を通過する際の減衰係数に対応する値を指す。
【0041】
実際の応用シナリオでは、認識すべきCT画像には、CT値が-1024HUより小さいボクセルと、CT値が190HUより大きいボクセルも含まれることがあり、サーバはこれらのボクセルに対して閾値処理を行ってもよい。
【0042】
具体的に、サーバは、CT値が-1024HUより小さいボクセルに対応するCT値を-1024HUに設定し、CT値が190HUより大きいボクセルに対応するCT値を190HUに設定してもよい。
【0043】
S103において、前記画像ヒストグラムに基づいて、前記認識すべきCT画像の少なくとも1つの統計データを決定し、前記統計データは、前記認識すべきCT画像に含まれる指定のボクセルに対応するCT値と、CT値が指定範囲内にあるボクセルの数がすべてのボクセルの総数に占める割合とを含む。
【0044】
さらに、サーバは、画像ヒストグラムに基づいて、認識すべきCT画像の少なくとも1つの統計データを決定してもよく、ここでの統計データは、認識すべきCT画像に含まれる指定のボクセルに対応するCT値と、CT値が指定範囲内にあるボクセルの数がすべてのボクセルの総数に占める割合とを含む。ここでのすべてのボクセルは、認識すべきCT画像に含まれるユーザの身体の特定部位に対応するすべてのボクセルを指す。
【0045】
ここで、認識すべきCT画像に含まれる指定のボクセルは、画像ヒストグラムの指定のパーセンタイルにあるボクセルであってもよく、例えば、画像ヒストグラムの15パーセンタイルにあるボクセルを指定のボクセルとして使用してもよい。言い換えれば、ここでの15パーセンタイルにあるボクセルは、すべてのボクセルを、対応するCT値の大きさに従って、小さい順にソートした後、すべてのボクセルの15%に位置するボクセルである。
【0046】
また、認識すべきCT画像に含まれる指定のボクセルは、各CT値のうち、最も周波数値の高いCT値に対応するボクセルを指してもよい。
【0047】
また、上記における指定範囲は、所定の第1の指定範囲および第2の指定範囲を指してもよい。CT値が第1の指定範囲内にあることは、CT値が-950HU以下であってもよい。CT値が第2の指定範囲内にあることは、CT値が[-1024,-920]にあること、CT値が(-920,-720)にあること、CT値が[-720,190]にあることのうちの少なくとも1つであってもよい。
【0048】
なお、CT値が上記の第1の指定範囲内にあるボクセルの数がすべてのボクセルの総数に占める割合は、全体的に、ユーザの身体の特定部位の病変状況を反映することができ、上記の各第2の指定範囲は、ユーザの身体の特定部位の異なる領域の病変状況を反映することができる。
【0049】
S104において、前記統計データを予め訓練された認識モデルの第1の特徴抽出層に入力して第1の特徴表現を得、前記認識すべきCT画像を前記認識モデルの第2の特徴抽出層に入力して第2の特徴表現を得る。
【0050】
なお、上記第1の特徴抽出層および上記第2の特徴抽出層は、実際のニーズに応じて選択してもよく、例えば、上記第1の特徴抽出層は線形層であってもよく、上記第2の特徴抽出層はResNet18ネットワーク層であってもよい。
【0051】
さらに、サーバが統計データを決定した後、決定された統計データの少なくとも一部を正規化して、処理後の統計データを得、処理後の統計データを予め訓練された認識モデルの第1の特徴抽出層に入力して第1の特徴表現を得てもよい。
【0052】
例示的に、統計データは、画像ヒストグラムの15パーセンタイルにあるボクセルに対応するCT値、最も周波数値の高いCT値、CT値が-950HU以下のボクセルの数がすべてのボクセルの総数に占める割合、CT値が[-1024,-920]にあるボクセルの数がすべてのボクセルの総数に占める割合、CT値が(-920,-720)にあるボクセルの数がすべてのボクセルの総数に占める割合、CT値が[-720,190]にあるボクセルの数がすべてのボクセルの総数に占める割合の6つの統計データを含む。この場合、サーバは、上記の6つの統計データを決定した後、画像ヒストグラムの15パーセンタイルにあるボクセルに対応するCT値と、最も周波数値の高いCT値とを正規化し、正規化された2つの統計データを、残りの4つの統計データとともに予め訓練された認識モデルの第1の特徴抽出層に入力し、第1の特徴抽出層を介して、正規化された2つの統計データと残りの4つの統計データとを結合して、線形変換を行うことにより、第1の特徴表現を得る。第1の特徴表現は、サイズが1×256の特徴ベクトルであってもよい。
【0053】
また、サーバは、認識すべきCT画像に含まれる各ボクセルに対応するCT値を正規化して、処理後の認識すべきCT画像を得、処理後の認識すべきCT画像を予め訓練された認識モデルの第2の特徴抽出層に入力して第2の特徴表現を得てもよい。
【0054】
例示的に、第2の特徴表現は、サイズが1×512の特徴ベクトルであってもよい。
【0055】
S105において、前記第1の特徴表現と前記第2の特徴表現とに基づいて、前記認識すべきCT画像の認識結果を得る。
【0056】
さらに、サーバは、第1の特徴表現と第2の特徴表現とに基づいて、認識すべきCT画像の認識結果を得てもよい。
【0057】
具体的に、サーバは、認識モデルの全結合層を介して、認識すべきCT画像の第1の特徴表現と第2の特徴表現とを融合して融合特徴表現を得、得られた融合特徴表現を認識モデルの意思決定層に入力して、認識すべきCT画像の認識結果を得てもよい。
【0058】
また、実際の適用では、認識モデルをサーバにデプロイして認識すべきCT画像を認識する前に、認識モデルを予め訓練する必要がある。
【0059】
ここで、認識モデルを訓練する方法は、各サンプルユーザの認識すべきCT画像を取得するステップであって、サンプルユーザは、身体の特定部位の少なくとも一部に病変を有する患者と、身体の特定部位の少なくとも一部に病変を有しない非患者とを含むステップと、少なくとも一部のサンプルユーザの認識すべきCT画像を訓練セットとし、他のサンプルユーザの認識すべきCT画像をテストセットとするステップと、訓練セット内の認識すべきCT画像によって認識モデルを初期訓練し、初期訓練された認識モデルを得るステップと、テストセット内の各認識すべきCT画像について、当該認識すべきCT画像を初期訓練された認識モデルに入力して、初期訓練された認識モデルによって当該認識すべきCT画像の認識結果を得るステップと、初期訓練された認識モデルによって得られた当該認識すべきCT画像の認識結果と、当該認識すべきCT画像の実際の認識結果との差を最小化することを最適化の目標として、認識モデルを訓練するステップと、を含み得る。
【0060】
上記をさらに詳しく説明するために、本発明は、図3に示すような、前記認識モデルによる画像認識のプロセスを示す概略図をさらに提供する。
【0061】
図3は、本発明にて提供される認識すべきCT画像の認識プロセスを示す概略図である。
【0062】
図3から分かるように、サーバは、認識すべきCT画像および認識すべきCT画像に含まれる少なくとも1つの統計データを予め訓練された認識モデルに入力して、認識モデルの第1の特徴抽出層により認識すべきCT画像の第1の特徴表現を得、認識モデルの第2の特徴抽出層により認識すべきCT画像の第2の特徴表現を得てもよい。
【0063】
さらに、認識モデルは全結合層を介して、認識すべきCT画像の第1の特徴表現と第2の特徴表現とを融合して融合特徴表現を得、意思決定層により、融合特徴表現に基づいて、認識すべきCT画像を認識し、認識すべきCT画像の認識結果を得てもよい。
【0064】
上記から分かるように、サーバは、認識すべきCT画像に含まれる各ボクセルに対応するCT値に基づいて、認識すべきCT画像の統計データを抽出でき、認識モデルによって、認識すべきCT画像の統計データに基づいて認識すべきCT画像の第1の特徴表現を決定し、認識すべきCT画像に基づいて認識すべきCT画像の第2の特徴表現を決定することができるため、認識すべきCT画像の統計データと、認識すべきCT画像の画像情報とに基づいて認識すべきCT画像を認識することができ、認識の精度を向上させることができる。
【0065】
以上が、本発明の1つまたは複数の実施形態にて提供される画像認識方法であり、同じ考えに基づいて、本発明は図4に示すような、対応する画像認識装置をさらに提供する。
【0066】
図4は、本発明にて提供される画像認識装置を示す概略図であり、前記装置は、
ユーザの認識すべきコンピュータ断層撮影(CT)画像を取得するための取得モジュール401と、
前記認識すべきCT画像に含まれる各ボクセルに対応するCT値に基づいて、前記認識すべきCT画像に対応する画像ヒストグラムを決定するための決定モジュール402であって、前記画像ヒストグラムは前記認識すべきCT画像に関わる各CT値に対応するボクセルの数を表すために用いられる、決定モジュール402と、
前記画像ヒストグラムに基づいて、前記認識すべきCT画像の少なくとも1つの統計データを決定するための統計モジュール403であって、前記統計データは、前記認識すべきCT画像に含まれる指定のボクセルに対応するCT値と、CT値が指定範囲内にあるボクセルの数がすべてのボクセルの総数に占める割合とを含む、統計モジュール403と、
前記統計データを予め訓練された認識モデルの第1の特徴抽出層に入力して第1の特徴表現を得、前記認識すべきCT画像を前記認識モデルの第2の特徴抽出層に入力して第2の特徴表現を得るための特徴抽出モジュール404と、
前記第1の特徴表現と前記第2の特徴表現とに基づいて、前記認識すべきCT画像の認識結果を得るための認識モジュール405と、を含む。
【0067】
オプションで、前記取得モジュール401は、具体的に、
ユーザのオリジナルコンピュータ断層撮影(CT)画像を取得し、
前記オリジナルCT画像を分割して、前記ユーザの身体の特定部位に対応するCT画像を得、
前記ユーザの身体の特定部位に対応するCT画像をリサンプリングして、認識すべきCT画像を得るために用いられる。
【0068】
オプションで、前記特徴抽出モジュール404は、具体的に、
前記統計データの少なくとも一部を正規化して、処理後の統計データを得、
前記処理後の統計データを前記予め訓練された認識モデルの第1の特徴抽出層に入力して前記第1の特徴表現を得るために用いられる。
【0069】
オプションで、前記特徴抽出モジュール404は、具体的に、
前記認識すべきCT画像に含まれる各ボクセルに対応するCT値を正規化して、処理後の認識すべきCT画像を得、
前記処理後の認識すべきCT画像を前記予め訓練された認識モデルの第2の特徴抽出層に入力して前記第2の特徴表現を得るために用いられる。
【0070】
オプションで、前記認識モジュール405は、具体的に、
前記第1の特徴表現と前記第2の特徴表現とを融合して融合特徴表現を得、
前記融合特徴表現に基づいて、前記認識すべきCT画像の認識結果を得るために用いられる。
【0071】
オプションで、前記装置は、訓練モジュール406をさらに含み、
前記訓練モジュール406は、具体的に、
各サンプルユーザの認識すべきCT画像を取得し、前記サンプルユーザは、身体の特定部位の少なくとも一部に病変を有する患者と、身体の特定部位の少なくとも一部に病変を有しない非患者とを含み、
少なくとも一部のサンプルユーザの認識すべきCT画像を訓練セットとし、他のサンプルユーザの認識すべきCT画像をテストセットとし、
前記訓練セット内の認識すべきCT画像によって前記認識モデルを初期訓練し、初期訓練された認識モデルを得、
前記テストセット内の各認識すべきCT画像について、当該認識すべきCT画像を前記初期訓練された認識モデルに入力して、前記初期訓練された認識モデルによって当該認識すべきCT画像の認識結果を得、
前記初期訓練された認識モデルによって得られた当該認識すべきCT画像の認識結果と、当該認識すべきCT画像の実際の認識結果との差を最小化することを最適化の目標として、前記認識モデルを訓練するために用いられる。
【0072】
本発明はコンピュータ可読記憶媒体をさらに提供し、当該コンピュータ可読記憶媒体はコンピュータプログラムを記憶しており、コンピュータプログラムは上記図1の方法を実行するために用いられる。
【0073】
本発明は図5に示す電子デバイスをさらに提供する。図5に示すように、ハードウェアレベルでは、当該電子デバイスは、プロセッサ、内部バス、ネットワークインタフェース、内部メモリ、および不揮発性メモリを含み、もちろん、他の動作に必要なハードウェアも含み得る。プロセッサは、不揮発性メモリから対応するコンピュータプログラムを内部メモリに読み込んで実行し、上記図1で説明した方法を実施する。
【0074】
もちろん、ソフトウェアによる実現の他に、本発明は、論理デバイスやハードウェアとソフトウェアの組み合わせなど、他の実現方式を排除するものではなく、つまり、以下の処理プロセスの実行主体は、各の論理ユニットに限定されず、ハードウェアや論理デバイスであってもよい。
【0075】
1990年代には、ある技術の改良は、ハードウェアの改良(ダイオード、トランジスタ、スイッチなどの回路構造の改良など)とソフトウェアの改良(方法フローの改良)に明確に区別することができる。しかし、技術の発展に伴い、現在の方法フローの改良の多くは、ハードウェア回路構造に対する直接的な改良と見なすことができるようになった。設計者は、改良された方法フローをハードウェア回路にプログラミングすることで、対応するハードウェア回路構造を得ることがほとんどである。従って、方法フローの改良がハードウェア物理モジュールにより実現できないとは言い切れない。例えば、プログラマブルロジックデバイス(Programmable Logic Device、PLD)(例えばフィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGA))はこのような集積回路であり、その論理機能がデバイスのユーザによるプログラミングによって決定される。チップメーカーが専用の集積回路チップを設計・製造する代わりに、設計者がプログラミングしてデジタルシステムを1枚のPLD上に「集積」する。そして、現在では、集積回路チップを手作りする代わりに、このプログラミングは「論理コンパイラ(logic compiler)」というソフトウェアを使って実現されることがほとんどであり、これは、プログラムを書くときに使うソフトウェアコンパイラと類似し、前のオリジナルコードをコンパイルするためには、特定のプログラミング言語で書く必要があり、これはハードウェア記述言語(Hardware Description Language、HDL)と呼ばれ、HDLは1種類だけではなく、ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)など、多くの種類があり、現在最もよく使われているのはVHDL(Very-High-Speed Integrated Circuit Hardware Description Language)とVerilogである。方法フローを、上記のハードウェア記述言語のいくつかでちょっと論理的にプログラミングして集積回路にプログラミングするだけで、論理的な方法フローを実現するハードウェア回路は簡単に得られることは、当業者には明らかであろう。
【0076】
コントローラは、任意の適切な方法で実現されてもよく、例えば、コントローラはマイクロプロセッサまたはプロセッサと、当該(マイクロ)プロセッサによって実行可能なコンピュータ可読プログラムコード(例えば、ソフトウェアまたはファームウェア)を記憶するコンピュータ可読記憶媒体と、論理ゲート、スイッチ、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、プログラマブルロジックコントローラおよび埋め込みマイクロコントローラの形態を採用してもよく、コントローラの例として、ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20、Silicone Labs C8051F320などのマイクロコントローラを含むが、これらに限定されず、メモリコントローラはさらに、メモリの制御ロジックの一部として実現されることも可能である。また、純粋なコンピュータ可読プログラムコードでコントローラを実現することに加えて、方法ステップを論理的にプログラミングすることで、コントローラに、論理ゲート、スイッチ、特定用途向け集積回路、プログラマブルロジックコントローラおよび埋め込みマイクロコントローラなどの形態で同じ機能を実行させることも完全に可能であることは、当業者には明らかであろう。従って、このようなコントローラを、ハードウェアコンポーネントとみなしてもよく、様々な機能を実現するためのその中に含まれる装置も、ハードウェアコンポーネント内の構造とみなしてもよい。または、さらに、様々な機能を実現するための装置を、方法を実現するソフトウェアモジュールであってもよいし、ハードウェアコンポーネント内の構造であってもよいと、みなしてもよい。
【0077】
上記実施形態で説明したシステム、装置、モジュールまたはユニットは、具体的には、コンピュータチップ、エンティティ、または何らかの機能を有する製品によって実現されてもよい。典型的な実現デバイスはコンピュータである。具体的に、コンピュータは例えば、パーソナルコンピュータ、ラップトップコンピュータ、携帯電話、カメラ付き電話、スマートフォン、パーソナルデジタルアシスタント、メディアプレーヤ、ナビゲーションデバイス、電子メールデバイス、ゲーム機、タブレット、ウェアラブルデバイス、またはこれらのデバイスの任意のいくつかの組み合わせであってもよい。
【0078】
なお、説明の便宜上、上記の装置を説明するときに機能によって様々なユニットに分けてそれぞれ説明する。もちろん、本発明を実施する際に、各ユニットの機能を同一または複数のソフトウェアおよび/またはハードウェアで実現することも可能である。
【0079】
当業者であれば分かるように、本発明の実施形態が、方法、システム、またはコンピュータプログラム製品として提供されてもよい。従って、本発明は、ハードウェアだけからなる実施形態、ソフトウェアだけからなる実施形態、またはソフトウェアとハードウェアを組み合わせた実施形態なる形態を用いてもよい。さらに、本発明は、コンピュータで使用可能なプログラムコードを含む1つまたは複数のコンピュータで使用可能な記憶媒体(磁気ディスクメモリ、CD-ROM、光学メモリなどを含むが、これらに限定されない)において実施されるコンピュータプログラム製品の形態であってもよい。
【0080】
本発明は、本発明の実施形態による方法、デバイス(システム)、およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照して説明される。フローチャートおよび/またはブロック図における各フローおよび/またはブロック、並びにフローチャートおよび/またはブロック図におけるフローおよび/またはブロックの組み合わせは、コンピュータプログラム命令によって実現されてもよいことが理解すべきである。これらのコンピュータプログラム命令は、マシンを生成するために、汎用コンピュータ、専用コンピュータ、埋め込みプロセッサ、または他のプログラム可能なデータ処理デバイスのプロセッサに提供されてもよく、それにより、コンピュータまたは他のプログラム可能なデータ処理デバイスのプロセッサによって実行される命令により、フローチャートの1つまたは複数のフロー、および/またはブロック図の1つまたは複数のブロックにおいて指定される機能を実現するための装置が生成される。
【0081】
これらのコンピュータプログラム命令は、コンピュータまたは他のプログラム可能なデータ処理デバイスに特定の方法で作業するように指示することができるコンピュータ可読メモリに記憶されてもよく、その結果、当該コンピュータ可読メモリに記憶されている命令により、フローチャートの1つまたは複数のフローおよび/またはブロック図の1つまたは複数のブロックにおいて指定される機能を実現する命令装置を含む製品が生成される。
【0082】
これらのコンピュータプログラム命令は、コンピュータまたは他のプログラム可能なデータ処理デバイスにロードしてもよく、それにより、一連の動作ステップがコンピュータまたは他のプログラム可能なデバイス上で実行されることで、コンピュータにより実施される処理が生成され、それにより、コンピュータまたは他のプログラム可能なデバイス上で実行される命令により、フローチャートの1つまたは複数のフロー、および/またはブロック図の1つまたは複数のブロック内で指定される機能を実現するためのステップが提供される。
【0083】
典型的な構成では、コンピューティングデバイスは、1つ以上のプロセッサ(CPU)、入力/出力インタフェース、ネットワークインタフェース、およびメモリを含む。
【0084】
メモリは、コンピュータ可読記憶媒体のうちの揮発性メモリ、ランダムアクセスメモリ(RAM)および/または不揮発性メモリなどの形態を含み得、例えば、読み出し専用メモリ(ROM)またはフラッシュメモリ(flash RAM)である。メモリは、コンピュータ可読記憶媒体の一例である。
【0085】
コンピュータ可読記憶媒体は不揮発性および揮発性媒体、移動可能および非移動可能な媒体を含み、任意の方法または技術により情報記憶を実現し得る。情報はコンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータであってもよい。コンピュータの記憶媒体は、相変化メモリ(Phase Change RAM、PRAM)、スタティックランダムアクセスメモリ(Static Random-Access Memory、SRAM)、ダイナミックランダムアクセスメモリ(Dynamic Random Access Memory、DRAM)、他のタイプのランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、電気的消去可能プログラマブル読み出し専用メモリ(Electrically Erasable Programmable Read Only Memory、EEPROM)、フラッシュメモリ(flash Memory)または他のメモリ技術、コンパクトディスク読み出し専用メモリ(Compact Disc Read Only Memory、CD-ROM)、デジタル多用途ディスク(Digital Versatile Disc、DVD)または他の光学記憶、磁気カセットテープ、磁気テープ磁気ディスク記憶または他の磁気記憶デバイス、またはコンピューティングデバイスからアクセス可能な情報を記憶するために使用され得る任意の他の非伝送媒体を含むがそれらに限定されない。本明細書の定義によれば、コンピュータ可読記憶媒体は一時記憶コンピュータ可読記憶媒体(transitory Media)、例えば変調されたデータ信号およびキャリアを含まない。
【0086】
また、用語「含む」、「含有」またはそのいずれかの他の変形は、非排他的な含有を含むことを意図し、それにより一連の要素を含むプロセス、方法、物品またはデバイスはそれらの要素を含むだけでなく、また明確に列挙されていない他の要素も含み、またはこのようなプロセス、方法、物品またはデバイスの固有の要素も含む。より多くの制限がない場合、文「1つの…を含む」により限定された要素は、前記要素を含むプロセス、方法、物品またはデバイスにさらに他の同じ要素が存在することを排除するものではない。
【0087】
本発明は、プログラムモジュールのようなコンピュータによって実行されるコンピュータ実行可能命令の一般的な文脈で記述され得る。一般的に、プログラムモジュールは、特定のタスクを実行する、または特定の抽象データ型を実現するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。本発明は、通信ネットワークを介して接続されたリモート処理デバイスによってタスクが実行される分散コンピューティング環境においても実施され得る。分散コンピューティング環境において、プログラムモジュールは、記憶デバイスを含むローカルおよびリモートコンピュータ記憶媒体に配置され得る。
【0088】
本発明における各実施形態はいずれも漸進の方式で説明され、各実施形態の間の同じまたは類似する部分は互いに参照すればよく、各実施形態の重点的に説明されたのは他の実施形態との相違点である。特に、システムの実施形態に対して、それは基本的に方法の実施形態と類似するため、簡単に説明し、関連する部分は方法の実施形態の一部の説明を参照すればよい。
【0089】
上記は、本発明の実施形態にすぎず、本発明を限定するために使用されるものではない。当業者にとって、本発明は、様々な変更および変化があり得る。本発明の趣旨と原理から逸脱せず行った任意の修正、同等な置換、改善など、いずれも本発明の特許請求の範囲に含まれるものとするべきである。
【要約】      (修正有)
【課題】コンピュータ断層撮影(CT)画像の認識精度を向上させた画像認識方法、装置、デバイスおよび記憶媒体を提供する。
【解決手段】方法は、認識すべきCT画像に含まれる各ボクセルに対応するCT値に基づいて、認識すべきCT画像の統計データを抽出し、認識モデルによって、認識すべきCT画像の統計データに基づいて認識すべきCT画像の第1の特徴表現を決定し、認識すべきCT画像に基づいて認識すべきCT画像の第2の特徴表現を決定し、認識すべきCT画像の統計データと、認識すべきCT画像の画像情報とに基づいて認識すべきCT画像を認識する。
【選択図】図1
図1
図2
図3
図4
図5