(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-08
(54)【発明の名称】3次元医用画像の認識方法、装置、機器及びコンピュータプログラム
(51)【国際特許分類】
G06V 10/82 20220101AFI20241031BHJP
G06T 7/00 20170101ALI20241031BHJP
【FI】
G06V10/82
G06T7/00 612
G06T7/00 350C
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024531536
(86)(22)【出願日】2022-12-16
(85)【翻訳文提出日】2024-05-27
(86)【国際出願番号】 CN2022139576
(87)【国際公開番号】W WO2023160157
(87)【国際公開日】2023-08-31
(31)【優先権主張番号】202210191770.3
(32)【優先日】2022-02-28
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
【氏名又は名称原語表記】TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED
【住所又は居所原語表記】35/F,Tencent Building,Kejizhongyi Road,Midwest District of Hi-tech Park,Nanshan District, Shenzhen,Guangdong 518057,CHINA
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】江 ▲チェン▼
(72)【発明者】
【氏名】▲パン▼ 建▲業▼
(72)【発明者】
【氏名】姚 建▲華▼
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA09
5L096BA06
5L096BA13
5L096GA17
5L096HA11
5L096JA11
5L096KA04
5L096KA15
(57)【要約】
3D医用画像の認識方法、装置、機器及びコンピュータプログラムであって、人工知能分野に関する。前記方法は、i回目の特徴抽出プロセスにおいて、i-1回目の3D医用画像特徴に対してビュー再配置処理を行い、2D画像特徴を得るステップであって、i-1回目の3D医用画像特徴は、3D医用画像に対してi-1回目の特徴抽出を行って得られる特徴であり、異なる2D画像特徴は、i-1回目の3D医用画像特徴の異なるビューにおける特徴である、ステップと、各2D画像特徴に対してセマンティック特徴抽出処理を行い、異なるビューにおける画像セマンティック特徴を得るステップと、異なるビューにおける画像セマンティック特徴に対して特徴融合処理を行い、i回目の3D医用画像特徴を得るステップと、I回目の特徴抽出により得られたI回目の3D医用画像特徴に基づいて画像認識処理を行い、3D医用画像の画像認識結果を得るステップであって、iは、順次増加する正の整数であり、1<i≦Iであり、Iは正の整数である、ステップと、を含む。
【特許請求の範囲】
【請求項1】
コンピュータ機器が実行する3次元(3D)医用画像の認識方法であって、
i回目の特徴抽出プロセスにおいて、i-1回目の3D医用画像特徴に対してビュー再配置処理を行い、2次元(2D)画像特徴を得るステップであって、前記i-1回目の3D医用画像特徴は、3D医用画像に対してi-1回目の特徴抽出を行って得られる特徴であり、異なる2D画像特徴は、前記i-1回目の3D医用画像特徴の異なるビューにおける特徴である、ステップと、
各前記2D画像特徴に対してセマンティック特徴抽出処理を行い、異なるビューにおける画像セマンティック特徴を得るステップと、
異なるビューにおける前記画像セマンティック特徴に対して特徴融合処理を行い、i回目の3D医用画像特徴を得るステップと、
I回目の特徴抽出により得られたI回目の3D医用画像特徴に基づいて画像認識処理を行い、前記3D医用画像の画像認識結果を得るステップであって、iは、順次増加する正の整数であり、1<i≦Iであり、Iは正の整数である、ステップと、を含む、3D医用画像の認識方法。
【請求項2】
前記各前記2D画像特徴に対してセマンティック特徴抽出を行い、異なるビューにおける画像セマンティック特徴を得るステップは、
前記2D画像特徴に対して空間特徴抽出処理を行い、2D画像空間特徴を得るステップと、
メインビュー及び補助ビューに基づいて、前記2D画像空間特徴に対してセマンティック特徴抽出処理を行い、前記画像セマンティック特徴を得るステップであって、前記メインビューは、前記2D画像特徴に対応するビューであり、前記補助ビューは、3Dビューのうち前記メインビューとは異なるビューである、ステップと、を含む、
請求項1に記載の3D医用画像の認識方法。
【請求項3】
前記2D画像特徴に対して空間特徴抽出処理を行い、2D画像空間特徴を得るステップは、
前記2D画像特徴に対してウィンドウ分割処理を行い、N個のウィンドウのそれぞれに対応する局所2D画像特徴を得るステップであって、前記N個のウィンドウは互いに重ならず、Nは1より大きい正の整数である、ステップと、
N個の前記局所2D画像特徴に対して特徴抽出処理を行い、2D画像ウィンドウ特徴を得るステップと、
前記N個のウィンドウに対してウィンドウ再配置処理を行い、ウィンドウ再配置後のN個のウィンドウのそれぞれに対応する前記2D画像ウィンドウ特徴に対して特徴抽出処理を行い、2D画像空間特徴を得るステップであって、前記ウィンドウ再配置は、N個のウィンドウの空間位置を変更するために使用される、ステップと、を含む、
請求項2に記載の3D医用画像の認識方法。
【請求項4】
前記ウィンドウ再配置後のN個のウィンドウのそれぞれに対応する前記2D画像ウィンドウ特徴に対して特徴抽出処理を行い、2D画像空間特徴を得るステップは、
ウィンドウ再配置後のN個のウィンドウのそれぞれに対応する前記2D画像ウィンドウ特徴に対してセルフアテンション処理を行い、N個のウィンドウのそれぞれに対応するセルフアテンション特徴を得るステップと、
N個の前記セルフアテンション特徴に対して特徴融合処理を行い、第2画像ウィンドウ内部特徴を得るステップと、
前記第2画像ウィンドウ内部特徴に対して位置反転処理を行い、位置反転後の前記第2画像ウィンドウ内部特徴に対して畳み込み処理を行い、第2画像ウィンドウ相互作用特徴を得るステップと、
多層パーセプトロン(MLP)によって、前記第2画像ウィンドウ相互作用特徴に対して特徴抽出処理を行い、前記2D画像空間特徴を得るステップと、を含む、
請求項3に記載の3D医用画像の認識方法。
【請求項5】
前記N個の前記局所2D画像特徴に対して特徴抽出処理を行い、2D画像ウィンドウ特徴を得るステップは、
N個の前記局所2D画像特徴に対してセルフアテンション処理を行い、N個の前記局所2D画像特徴のそれぞれに対応するセルフアテンション特徴を得るステップと、
N個の前記セルフアテンション特徴に対して特徴融合処理を行い、第1画像ウィンドウ内部特徴を得るステップと、
前記第1画像ウィンドウ内部特徴に対して畳み込み処理を行い、第1画像ウィンドウ相互作用特徴を得るステップと、
多層パーセプトロン(MLP)によって、前記第1画像ウィンドウ相互作用特徴に対して特徴抽出処理を行い、前記2D画像ウィンドウ特徴を得るステップと、を含む、
請求項3に記載の3D医用画像の認識方法。
【請求項6】
前記N個の前記局所2D画像特徴に対してセルフアテンション処理を行い、N個の前記局所2D画像特徴のそれぞれに対応するセルフアテンション特徴を得るステップは、
前記局所2D画像特徴に対応するクエリ項目Q、キー項目K、及び値項目Vに基づいてセルフアテンション処理を行い、N個の前記局所2D画像特徴のセルフアテンション特徴を得るステップを含む、
請求項5に記載の3D医用画像の認識方法。
【請求項7】
前記特徴抽出プロセスは、特徴符号化プロセス又は特徴復号化プロセスを含み、t回目の特徴復号化プロセスにおける前記K値は、t-1回目の特徴復号化におけるK値と、対応する特徴符号化プロセスにおけるK値とに基づいて、融合によって得られ、t回目の特徴復号化プロセスにおける前記V値は、t-1回目の特徴復号化におけるV値と、対応する特徴符号化プロセスにおけるV値とに基づいて、融合によって得られ、前記t回目の復号化プロセスにおける前記Q値は、前記t-1回目の特徴復号化における前記Q値である、
請求項6に記載の3D医用画像の認識方法。
【請求項8】
前記メインビュー及び補助ビューに基づいて、前記2D画像空間特徴に対してセマンティック特徴抽出処理を行い、前記画像セマンティック特徴を得るステップは、
前記2D画像空間特徴と位置符号化特徴に対して特徴融合処理を行い、第1画像セマンティック特徴を得るステップであって、前記位置符号化特徴は、前記2D画像特徴に対応する位置情報を指示するために使用される、ステップと、
前記メインビューにおいて、MLPによって前記第1画像セマンティック特徴に対してセマンティック特徴抽出処理を行い、メイン画像セマンティック特徴を得るステップと、
前記補助ビューにおいて、前記MLPによって前記第1画像セマンティック特徴に対してセマンティック特徴抽出処理を行い、補助画像セマンティック特徴を得るステップと、
前記メイン画像セマンティック特徴と前記補助画像セマンティック特徴に対して特徴融合処理を行い、前記画像セマンティック特徴を得るステップと、を含む、
請求項2に記載の3D医用画像の認識方法。
【請求項9】
前記異なるビューにおける前記画像セマンティック特徴に対して特徴融合処理を行い、i回目の3D医用画像特徴を得るステップは、
前記画像セマンティック特徴とビュー特徴に対して融合処理を行い、ビュー画像セマンティック特徴を得るステップと、
各前記ビュー画像セマンティック特徴に対して特徴融合処理を行い、前記i回目の3D医用画像特徴を得るステップと、を含む、
請求項1~8のいずれか一項に記載の3D医用画像の認識方法。
【請求項10】
前記各前記2D画像特徴に対してセマンティック特徴抽出処理を行い、異なるビューにおける画像セマンティック特徴を得るステップは、
同じネットワークパラメータに対応する特徴抽出ネットワークをそれぞれ利用して、各ビューにおける前記2D画像特徴に対してセマンティック特徴抽出処理を行い、異なるビューにおける前記画像セマンティック特徴を得るステップを含む、
請求項1~8のいずれか一項に記載の3D医用画像の認識方法。
【請求項11】
前記特徴抽出プロセスは、特徴符号化プロセス又は特徴復号化プロセスを含み、前記特徴符号化プロセスは、3D医用画像特徴に対するダウンサンプリングプロセスを含み、前記特徴復号化プロセスは、3D医用画像特徴に対するアップサンプリングプロセスを含み、
前記I回目の特徴抽出により得られたI回目の3D医用画像特徴に基づいて画像認識処理を行い、前記3D医用画像の画像認識結果を得る前に、前記3D医用画像の認識方法は、
アップサンプリング結果がオリジナルサイズに達した場合、抽出により得られる前記3D医用画像特徴を、前記I回目の特徴抽出により得られるI回目の3D医用画像特徴として決定するステップをさらに含む、
請求項1~8のいずれか一項に記載の3D医用画像の認識方法。
【請求項12】
前記3D医用画像は、コンピュータ断層撮影(CT)画像、磁気共鳴映像(MRI)又は陽電子放射断層撮影(PET)画像である、
請求項1~8のいずれか一項に記載の3D医用画像の認識方法。
【請求項13】
3次元(3D)医用画像の認識装置であって、
i回目の特徴抽出プロセスにおいて、i-1回目の3D医用画像特徴に対してビュー再配置処理を行い、2D画像特徴を得るように構成され、前記i-1回目の3D医用画像特徴は、3D医用画像に対してi-1回目の特徴抽出を行って得られる特徴であり、異なる2D画像特徴は、前記i-1回目の3D医用画像特徴の異なるビューにおける特徴である、ビュー再配置モジュールと、
各前記2D画像特徴に対してセマンティック特徴抽出処理を行い、異なるビューにおける画像セマンティック特徴を得るように構成される特徴抽出モジュールと、
異なるビューにおける前記画像セマンティック特徴に対して特徴融合処理を行い、i回目の3D医用画像特徴を得るように構成される特徴融合モジュールと、
I回目の特徴抽出により得られたI回目の3D医用画像特徴に基づいて画像認識処理を行い、前記3D医用画像の画像認識結果を得るように構成され、iは、順次増加する正の整数であり、1<i≦Iであり、Iは正の整数である、画像認識モジュールと、を備える、3D医用画像の認識装置。
【請求項14】
コンピュータ機器であって、
プロセッサとメモリとを備え、前記メモリには、少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットが記憶され、前記少なくとも1つの命令、前記少なくとも1つのプログラム、前記コードセット又は命令セットは、前記プロセッサによってロード及び実行されて、請求項1~12のいずれか一項に記載の3D医用画像の認識方法を実現する、コンピュータ機器。
【請求項15】
コンピュータ可読記憶媒体であって、
少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットが記憶され、前記少なくとも1つの命令、前記少なくとも1つのプログラム、前記コードセット又は命令セットは、前記プロセッサによってロード及び実行されて、請求項1~12のいずれか一項に記載の3D医用画像の認識方法を実現する、コンピュータ可読記憶媒体。
【請求項16】
コンピュータプログラム製品であって、
コンピュータ命令を含み、前記コンピュータ命令は、コンピュータ可読記憶媒体に記憶され、コンピュータ機器のプロセッサは、前記コンピュータ可読記憶媒体から前記コンピュータ命令を読み取り、前記プロセッサは、前記コンピュータ命令を実行することにより、請求項1~12のいずれか一項に記載の3D医用画像の認識方法を実現する、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願への相互参照)
本願は、2022年02月28日に中国特許局に提出された、出願番号が.202210191770.3である中国特許出願の優先権を主張し、その内容の全てが引用により本願に組み込まれる。
【0002】
本願は、人工知能分野に関し、特に、3次元(3D)医用画像の認識方法、装置、機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品に関する。
【背景技術】
【0003】
医療分野では、コンピュータビジョン技術を利用した3D医用画像の認識が病状予測に役立っている。
【0004】
現在、3D医用画像の認識プロセスでは、画像密集予測方法を利用して、3D医用画像に対して画像分析を行うことができ、ここで、密集予測方法とは、画像内の各画素を予測する方法である。関連技術では、3D医用画像に対して密集予測を行う場合、3D医用画像全体に基づいて画像認識を行い、画像認識結果を得る。
【0005】
しかしながら、3D医用画像に基づいて直接画像認識を行う方法は、計算量が多く、認識効率が低く、また、事前訓練に大量のデータが必要となり、複雑である。
【発明の概要】
【0006】
本願の実施例は、3D医用画像の認識効率を向上させ、計算複雑度を低減することができる3D医用画像の認識方法、装置、機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品を提供する。前記技術的解決策は下記の通りである。
【0007】
本願の実施例は、コンピュータ機器が実行する3D医用画像の認識方法を提供し、前記方法は、
i回目の特徴抽出プロセスにおいて、i-1回目の3D医用画像特徴に対してビュー再配置処理を行い、2D画像特徴を得るステップであって、前記i-1回目の3D医用画像特徴は、3D医用画像に対してi-1回目の特徴抽出を行って得られる特徴であり、異なる2D画像特徴は、前記i-1回目の3D医用画像特徴の異なるビューにおける特徴である、ステップと、
各前記2D画像特徴に対してセマンティック特徴抽出処理を行い、異なるビューにおける画像セマンティック特徴を得るステップと、
異なるビューにおける前記画像セマンティック特徴に対して特徴融合処理を行い、i回目の3D医用画像特徴を得るステップと、
I回目の特徴抽出により得られたI回目の3D医用画像特徴に基づいて画像認識処理を行い、前記3D医用画像の画像認識結果を得るステップであって、iは、順次増加する正の整数であり、1<i≦Iであり、Iは正の整数である、ステップと、を含む。
【0008】
本願の実施例は、3D医用画像の認識装置を提供し、前記装置は、
i回目の特徴抽出プロセスにおいて、i-1回目の3D医用画像特徴に対してビュー再配置処理を行い、2D画像特徴を得るように構成され、前記i-1回目の3D医用画像特徴は、3D医用画像に対してi-1回目の特徴抽出を行って得られる特徴であり、異なる2D画像特徴は、前記i-1回目の3D医用画像特徴の異なるビューにおける特徴である、ビュー再配置モジュールと、
各前記2D画像特徴に対してセマンティック特徴抽出処理を行い、異なるビューにおける画像セマンティック特徴を得るように構成される特徴抽出モジュールと、
異なるビューにおける前記画像セマンティック特徴に対して特徴融合処理を行い、i回目の3D医用画像特徴を得るように構成される特徴融合モジュールと、
I回目の特徴抽出により得られたI回目の3D医用画像特徴に基づいて画像認識処理を行い、前記3D医用画像の画像認識結果を得るように構成され、iは、順次増加する正の整数であり、1<i≦Iであり、Iは正の整数である、画像認識モジュールと、を備える。
【0009】
本願の実施例は、コンピュータ機器を提供し、前記コンピュータ機器は、プロセッサとメモリとを備え、前記メモリには、少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットが記憶され、前記少なくとも1つの命令、前記少なくとも1つのプログラム、前記コードセット又は命令セットは、前記プロセッサによってロード及び実行されて、上記の態様に記載の3D医用画像の認識方法を実現する。
【0010】
本願の実施例は、コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体には、少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットが記憶され、前記少なくとも1つの命令、前記少なくとも1つのプログラム、前記コードセット又は命令セットは、前記プロセッサによってロード及び実行されて、上記の態様に記載の3D医用画像の認識方法を実現する。
【0011】
本願の実施例は、コンピュータプログラム製品又はコンピュータプログラムを提供し、前記コンピュータプログラム製品又はコンピュータプログラムは、コンピュータ命令を含み、前記コンピュータ命令は、コンピュータ可読記憶媒体に記憶される。コンピュータ機器のプロセッサは、コンピュータ可読記憶媒体から前記コンピュータ命令を読み取り、プロセッサは、前記コンピュータ命令を実行することにより、上記の態様に記載の3D医用画像の認識方法を実現する。
【0012】
本願の実施例によって提供される技術的解決策は、少なくとも以下の有益な効果を有する。
【0013】
本願の実施例では、各特徴抽出段階において、まず、3D医用画像特徴に対してビュー再配置を行うことにより、異なるビューにおける2D画像特徴に分割し、2D画像特徴に対してそれぞれ特徴抽出を行い、異なるビューにおける画像セマンティック特徴を得、それにより、異なるビューにおける画像セマンティック特徴を融合して、特徴抽出後の3D医用画像特徴を得る。このプロセスでは、異なるビューにおける2D画像特徴に対して特徴抽出を行うため、関連技術における画像認識のために3D画像特徴を直接抽出する方法と比較して、本願の実施例は、簡素化された局所計算ユニットによって、異なるビューにおける特徴抽出を行うことにより、計算複雑度を低減し、3D医用画像の認識效率を向上させることができる。
【図面の簡単な説明】
【0014】
【
図1】本願の実施例による3D医用画像の認識方法の原理を示す模式図である。
【
図2】本願の実施例による実施環境の模式図である。
【
図3】本願の実施例による3D医用画像の認識方法のフローチャートである。
【
図4】本願の実施例による3D医用画像の認識方法のフローチャートである。
【
図5】本願の実施例による画像認識構造全体の構造を示す模式図である。
【
図6】本願の実施例による空間特徴抽出プロセスの構造を示す模式図である。
【
図7】本願の実施例によるセマンティック特徴抽出プロセスの構造を示す模式図である。
【
図8】本願の実施例による特徴融合プロセスの構造を示す模式図である。
【
図9】本願の実施例によるTR-MLPネットワークの構造を示す模式図である。
【
図10】本願の実施例によるスキップ接続融合ネットワークの構造を示す模式図である。
【
図11】本願の実施例による3D医用画像の認識装置の構造を示すブロック図である。
【
図12】本願の実施例によるコンピュータ機器の構造を示す模式図である。
【発明を実施するための形態】
【0015】
本願の実施例の技術的解決策をより明確に説明するために、上記で、実施例の説明で使用される図面について簡単に紹介している。明らかに、上記の図面は、本願のいくつかの実施例に過ぎず、当業者にとっては、創造的な労力を払わなくても、これらの図面に基づいて他の関連図面を得ることもできる。
【0016】
本願の目的、技術方案及び利点をより明確に説明するために、以下では、図面を参照して本願の実施形態についてさらに詳細に説明する。
【0017】
人工知能(AI:Artificial Intelligence)は、デジタルコンピュータ又はデジタルコンピュータによって制御される機械を使用して、人間の知性をシミュレート、拡張及び拡大し、環境を知覚し、知識を取得し、知識を使用して最良の結果を得る理論、方法、技術、及びアプリケーションシステムである。言い換えれば、人工知能は、知能の本質を理解しようとし、人間の知能と類似した反応ができる新しい知能機械を生産しようとする、コンピュータ科学の包括的な技術である。人工知能は、機械に知覚、推論、意思決定の機能を有させるように、様々な知能機械の設計原理及び実現方法を研究することである。
【0018】
人工知能技術は、ハードウェア技術とソフトウェア技術の両方を含む幅広い分野を含む総合的な分野である。人工知能の基本技術に、一般的に、センサ、専用の人工知能チップ、クラウドコンピューティング、分散ストレージ、医用画像処理技術、操作/相互作用システム、メカトロニクスなどの技術が含まれる。人工知能ソフトウェア技術に、主に、コンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習/深層学習などが含まれる。
【0019】
コンピュータビジョン技術(CV:Computer Vision)は、機械が「見る」方法を研究する科学であり、さらに、人間の目の代わりにカメラ及びコンピュータを使用して、目標に対して識別、測定などを実行する機械ビジョンであり、さらに、グラフィックス処理を実行して、コンピュータ処理を、人間の目で観察すること又は検出のための画像を器械に伝送することにより適したものにすることである。科学分野として、コンピュータビジョンは、関連する理論と技術を研究し、画像又は多次元データから情報を取得できる人工知能システムの構築を試みる。コンピュータビジョン技術に、通常、画像処理、画像認識、画像分割、画像セマンティック理解、画像検索、ビデオ処理、ビデオセマンティック理解、ビデオコンテンツ/動作認識、三次元(3D:3 Dimension)オブジェクト再構築、3D技術、仮想現実、拡張現実、位置推定と地図生成の同時実行(SLAM)が含まれ、顔認識や指紋認識などの一般的な生物学的特徴認識技術も含まれる。
【0020】
本願の実施例に係る3D医用画像の認識方法、即ち、画像認識分野におけるコンピュータビジョン技術の応用では、異なるビューにおける3D医用画像特徴に対応する2D画像特徴に対してそれぞれ特徴抽出を行い、計算複雑度を低減し、3D医用画像の認識效率を向上させることができる。
【0021】
例示的に、
図1に示すように、i回目の特徴抽出プロセスにおいて、まず、i-1回目の特徴抽出により得られるi-1回目の3D医用画像特徴101に対してビュー再配置を行い、第1ビューにおける第1の2D画像特徴102、第2ビューにおける第2の2D画像特徴103、及び第3ビューにおける第3の2D画像特徴104をそれぞれ得、異なるビューにおける第1の2D画像特徴102、第2の2D画像特徴103、及び第3の2D画像特徴104に対してそれぞれセマンティック特徴抽出を行い、第1画像セマンティック特徴105、第2画像セマンティック特徴106、及び第3画像セマンティック特徴107を得、これにより、これら3つを融合して、i回目の3D画像セマンティック特徴108を得る。
【0022】
3D医用画像特徴を異なるビューにおける2D画像特徴に分解するため、2D画像特徴に対して特徴抽出を行う。したがって、計算量を削減し、3D医用画像の認識効率を向上させるのに有利である。
【0023】
本願の実施例による方法は、任意の3D医用画像の画像認識プロセスに適用することができる。例示的に、3D医用画像の各部位が属するカテゴリを認識し、病変や臓器の分析を支援することができる。
【0024】
本願の実施例による3D医用画像認識のためのコンピュータ機器は、様々なタイプの端末機器又はサーバであり得、ここで、サーバは、独立した物理サーバであってもよいし、複数の物理サーバで構成されたサーバクラスタ又は分散システムであってもよいし、クラウドコンピューティングサービスを提供するクラウドサーバであってもよいし、端末は、スマートフォン、タブレットコンピュータ、ノートブックコンピュータ、デスクトップコンピュータ、スマートスピーカ、スマートウォッチなどであり得るが、これらに限定されない。
【0025】
サーバを例にとると、例えば、クラウドに配置されたサーバクラスタであり得、人工知能クラウドサーバ(AiaaS:AI as a Service)をユーザに開放することができ、AIaaSプラットフォームは、いくつかの一般的なAIサービスを分割し、それらを独立したサービス又はパッケージサービスとしてクラウド上で提供し、このサービスモデルは、AIテーマモールに似ており、すべてのユーザは、AIaaSプラットフォームを使用して提供される1つ又は複数の人工知能サービスに、アプリケーションプログラミングインターフェースを介してアクセスすることができる。
【0026】
例えば、人工知能クラウドサービスの1つは、3D医用画像認識サービス、即ち、クラウド内のサーバが、本願の実施例によって提供される3D医用画像認識ためのプログラムをカプセル化するものであってもよい。ユーザは、端末(病変分析クライアントなどのクライアントが実行される)を介してクラウドサービス内の3D医用画像認識サービスを呼び出すことにより、クラウド上に配置されたサーバがカプセル化された3D医用画像認識プログラムを呼び出し、3D医用画像特徴を異なるビューにおける2D画像特徴に分解し、2D画像特徴に対して特徴抽出を行うことで、3D医用画像の認識を行い、画像認識結果を得る。その後、画像認識結果に基づいて、医師や研究者が病気の診断、再診及び治療方法の研究を行うように支援する。例えば、画像認識結果に含まれる浮腫指数に基づいて補助診断を行い、目標オブジェクトに炎症や外傷、アレルギーがあるか、水を飲み過ぎていないかなどを判断する。
【0027】
なお、本願の実施例による3D医用画像の認識方法は、病気診断結果や健康状態を得ることを直接的な目的とするものではなく、画像認識結果に基づいて病気診断結果や健康状態を直接的に得ることはできない。即ち、画像認識結果は、直接的に疾病診断に利用されるものではなく、患者の病気を予測し、医師や研究者が病気の診断、再診及び治療方法の研究を行うように支援するための中間データとしてのみ利用されるものである。
【0028】
図2は、本願の実施例による実施環境の模式図である。前記実施環境は、端末210及びサーバ220を含む。ここで、端末210とサーバ220との間のデータ通信は、通信ネットワークを介して行われ、いくつかの実施例では、通信ネットワークは、有線ネットワークであっても無線ネットワークであってもよいし、また、ローカルエリアネットワーク(LAN)、メトロポリタンエリアネットワーク(MAN)、及びワイドエリアネットワーク(WAN)のうちの少なくとも1つであってもよい。
【0029】
端末210は、3D医用画像認識プログラムを実行する電子機器であり、前記電子機器は、スマートフォン、タブレットコンピュータ、パーソナルコンピュータなどであってもよいし、本願の実施例はこれに限定されるものではない。3D医用画像を認識する必要がある場合、3D医用画像を端末210のプログラムに入力することができ、端末210は、3D医用画像をサーバ220にアップロードし、サーバ220は、本願の実施例による3D医用画像の認識方法を実行して画像認識を行い、画像認識結果を端末210にフィードバックする。
【0030】
サーバ220は、独立した物理サーバであってもよいし、複数の物理サーバで構成されたサーバクラスタ又は分散システムでもあってもよいし、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメインネームサービス、セキュリティサービス、コンテンツ配信ネットワーク(CDN:Content Delivery Network)、ビッグデータ及び人工知能プラットフォームなどの基本的なクラウドコンピューティングサービスを提供するクラウドサーバであってもよい。
【0031】
いくつかの実施例では、サーバ220は、端末210にインストールされたアプリケーションに画像認識サービスを提供するように構成される。いくつかの実施例では、サーバ220には、端末210によって送信される3D医用画像を分類するための画像認識ネットワークが設けられている。
【0032】
もちろん、いくつかの実施例では、画像認識ネットワークは、端末210側に配置されてもよいし、端末210は、サーバ220を介さずに、本願の実施例による3D医用画像認識方法(即ち、画像認識ネットワーク)をローカルに実装する。これに対応して、画像認識ネットワークは、端末210側で訓練を完了することができ、本願の実施例はこれを限定しない。説明の便宜上、下記の各実施例は、3D医用画像の認識方法がコンピュータ機器によって実行される場合を例として説明する。
【0033】
図3を参照すると、
図3は、本願の実施例による3D医用画像の認識方法のフローチャートであり、前記方法は、以下のステップを含む。
【0034】
ステップ301において、i回目の特徴抽出プロセスにおいて、i-1回目の3D医用画像特徴に対してビュー再配置処理を行い、2D画像特徴を得、i-1回目の3D医用画像特徴は、3D医用画像に対してi-1回目の特徴抽出を行って得られる特徴であり、異なる2D画像特徴は、i-1回目の3D医用画像特徴の異なるビューにおける特徴である。
【0035】
ここで、3D医用画像特徴は、認識すべき3D医用画像に対する抽出により得られる特徴である。認識すべき3D医用画像は、コンピュータ断層撮影(CT:Computed Tomography)画像、磁気共鳴映像(MRI:Magnetic Resonance Imaging)又は陽電子放射断層撮影(PET:Positron Emission Computed Tomography)画像などの3D医用画像であり得る。
【0036】
ここで、1回目の3D医用画像特徴は、初期3D医用画像特徴に対して特徴抽出を行って得られる特徴であり、初期3D医用画像特徴は、3D医用画像に対して初期埋め込み処理を行って得られる特徴である。ここで、初期埋め込み処理は、3D医用画像という高次元データを低次元空間にマッピングすることにより、低次元の初期3D医用画像特徴を得るためのものである。
【0037】
本願の実施例では、複数回の特徴抽出プロセスによって、3D医用画像の認識を行う。ここで、毎回の特徴抽出プロセスは、同じ特徴抽出ネットワークを採用して特徴抽出を行い、毎回の特徴抽出プロセスにおいて、特徴抽出ネットワークの入力は、前回の特徴抽出ネットワークの出力結果に基づいて決定され、即ち、i回目の特徴抽出プロセスにおいて、i-1回目の3D医用画像特徴に基づいて特徴抽出が行われるものである。
【0038】
3D医用画像特徴は3Dデータであるため、3D医用画像特徴全体に対して直接特徴抽出を行うと、計算量が多くなり、プロセスも複雑になる。したがって、本願の実施例では、毎回の特徴抽出プロセスにおいて、まず、3D医用画像特徴を分割する。即ち、i回目の特徴抽出プロセスにおいて、i-1回目の特徴抽出により得られる特徴に対してビュー再配置を行う。ここで、ビュー再配置は、3D医用画像特徴を異なるビューにおける2D画像特徴に分割することにより、異なるビューにおける2D画像特徴に基づいて特徴抽出を行い、計算複雑度を低減する。
【0039】
いくつかの実施例では、ビュー再配置の処理過程は、i-1回目の3D医用画像特徴の複数の次元に対してビュー再配置処理を行い、複数のビューにおける2D画像特徴を得る方法、即ち、i-1回目の3D医用画像特徴の複数の次元に対して配列・組み合わせ処理を行い、複数のビューを得、各ビューにおける2D画像特徴をそれぞれ抽出する方法によって実現される。
【0040】
一実施形態では、i-1回目の3D医用画像特徴の(H,W,D)次元に対してビュー再配置を行い、(H,W)、(H,D)、及び(W,D)の3つのビューにおける2D画像特徴を得、各ビューは、3D医用画像特徴における1つの2D方向に対応する。異なる2D画像特徴は、即ち、異なる2D画像スライスに対応する画像特徴であり、ここで、2D画像スライスは、3D医用画像に対してビュー再配置を行った後、2D空間上の2D画像である。
【0041】
なお、i回目の特徴抽出プロセスにおいて、i-1回目の3D医用画像特徴に基づいて特徴抽出を行う際に、i-1回目の3D医用画像特徴に対してアップサンプリング又はダウンサンプリングが行われる場合があり、このとき、アップサンプリング又はダウンサンプリング後のi-1回目の3D医用画像特徴に対してビュー再配置を行い、2D画像特徴を得る。
【0042】
ステップ302において、各2D画像特徴に対してセマンティック特徴抽出処理を行い、異なるビューにおける画像セマンティック特徴を得る。
【0043】
例えば、各2D画像特徴を得た後、2D画像特徴に対してセマンティック特徴抽出を行うことにより、対応する2D画像スライス内の画像情報を学習する。ここで、2D画像特徴に対してセマンティック特徴抽出を行うプロセスは、2D画像スライス空間情報の学習と、対応するビューに基づく画像セマンティック学習とを含む。
【0044】
各2D画像特徴に対してセマンティック特徴抽出を行った後、異なるビューにそれぞれ対応する画像セマンティック特徴を得ることができる。即ち、(H,W)、(H,D)、及び(W,D)の3つのビューにそれぞれ対応する画像セマンティック特徴を得る。
【0045】
ステップ303において、異なるビューにおける画像セマンティック特徴に対して特徴融合処理を行い、i回目の3D医用画像特徴を得る。
【0046】
一実施形態では、異なるビューにおける画像セマンティック特徴を得た後、異なるビューにおける画像セマンティック特徴を融合することにより、今回の特徴抽出プロセスを完了して、i回目の3D医用画像特徴を得、次に、i回目の3D医用画像特徴に基づいて、i+1回目の3D医用画像特徴の特徴抽出プロセスを行うことができる。
【0047】
本願の実施例では、異なるビューにおける画像セマンティック特徴に対して特徴融合を行うことにより、フルビュー学習の豊富なセマンティックの集約を実現し、3D医用画像特徴の特徴学習プロセスを完了する。
【0048】
ステップ304において、I回目の特徴抽出により得られたI回目の3D医用画像特徴に基づいて画像認識処理を行い、3D医用画像の画像認識結果を得、iは、順次増加する正の整数であり、1<i≦Iであり、Iは正の整数である。
【0049】
複数回の特徴抽出プロセスを経過して、特徴抽出プロセスが終了され、i回目の特徴抽出プロセスが終了された後、i回目の3D医用画像特徴に基づいて画像認識を行う。
【0050】
上記に記載されたように、本願の実施例では、各特徴抽出段階において、まず、3D医用画像特徴に対してビュー再配置を行うことにより、異なるビューにおける2D画像特徴に分割し、2D画像特徴に対してそれぞれ特徴抽出を行い、異なるビューにおける画像セマンティック特徴を得、それにより、異なるビューにおける画像セマンティック特徴を融合して、特徴抽出後の3D画像セマンティック特徴を得る。このプロセスでは、異なるビューにおける2D画像特徴に対して特徴抽出を行うため、関連技術における3D画像特徴を直接抽出する方法と比較して、本願の実施例は、簡素化された局所計算ユニットによって、異なるビューにおける特徴抽出を行うことにより、計算複雑度を低減し、3D医用画像の認識效率を向上させることができる。
【0051】
いくつかの実施例では、異なるビューにおける2D画像特徴に対して特徴抽出を行うプロセスにおいて、各2D画像特徴を分割して、局所ウィンドウに対応する特徴を学習し、各2D画像特徴に対応するスライスのコンテキスト特徴を学習することにより、異なるビューにおける画像セマンティック特徴を得る。以下では、例示的な実施例について説明する。
【0052】
図4を参照すると、
図4は、本願の実施例による3D医用画像の認識方法のフローチャートであり、前記方法は、以下のステップを含む。
【0053】
ステップ401において、i回目の特徴抽出プロセスにおいて、i-1回目の3D医用画像特徴に対してビュー再配置処理を行い、2D画像特徴を得る。
【0054】
3D医用画像を取得した後、まず、3D医用画像に対して初期埋め込み処理(Patch Embedding)を行い、例えば、畳み込みステム(Convolutional Stem)構造を利用して、初歩的な埋め込み処理を行い、初期3D医用画像特徴を得、その後、初期3D医用画像特徴を起点として、複数回の特徴抽出プロセスを行うことができる。ここで、Convolutional Stemは、畳み込みニューラルネットワークの初期畳み込み層である。ここで、初期埋め込み処理は、3D医用画像という高次元データを低次元空間にマッピングすることにより、低次元の初期3D医用画像特徴を得るためのものである。
【0055】
本願の実施例では、特徴抽出プロセスは、特徴符号化プロセス及び特徴復号化プロセスを含む。ここで、特徴符号化プロセスは、3D医用画像特徴に対するダウンサンプリングプロセス、即ち、3D医用画像特徴の次元を減少させるプロセスを含み、特徴復号化プロセスは、3D医用画像特徴に対するアップサンプリングプロセス、即ち、3D医用画像特徴の次元を増加するプロセスを含む。ここで、ダウンサンプリングプロセスは、カーネルサイズ(Kernel Size)が3で、ストライド(Stride)が2である3D畳み込みを使用して、毎回2倍ダウンサンプリングする。アップサンプリングプロセスは、Kernel Sizeが2で、Strideが2である3D転置畳み込みを使用して、毎回2倍アップサンプリングする。複数回の特徴符号化及び特徴復号化を行った後、得られた3D医用画像特徴を利用して医学画像の認識を行う。ここで、毎回の特徴抽出プロセスは、同じ変圧多層パーセプトロン(TR-MLP:Transformer-Multilayer Perceptron)構造を採用して実現する。
【0056】
例示的に、
図5に示すように、サイズがC
i×H×W×Dの3D医用画像が入力され、まず、初期埋め込み処理(Patch Embedding)501を行い、ここで、画像ブロック(Patch)のサイズは2×2であり、C×H/4×W/4×D/4の3D医用画像特徴を得る。C×H/4×W/4×D/4の3D医用画像特徴を第1のTR-MLPブロック(Block)に入力して、1回目の特徴抽出を行い、1回目の特徴抽出終了後、得られた1回目の3D医用画像特徴をダウンサンプリングして、2C×H/8×W/8×D/8の3D医用画像特徴を得、2C×H/8×W/8×D/8の3D医用画像特徴を第2のTR-MLP Blockに入力して2回目の特徴抽出を行い、2回目の3D医用画像特徴を得る。その後、2回目の3D医用画像特徴を第3のTR-MLP Blockに入力して3回目の特徴抽出を行い、3回目が終了した後、3回目で得られた3D医用画像特徴を8C×H/32×W/32×D/32になるまでダウンサンプリングし、次にアップサンプリングプロセスを行う。ここで、TR-MLP Block 502で行われる特徴抽出プロセス、及び直前のTR-MLP Blockにおける特徴抽出プロセスは、特徴符号化プロセスであり、その後は特徴復号化プロセスが行われる。
【0057】
なお、毎回の特徴符号化プロセス又は特徴復号化プロセスは、ビュー再配置処理、セマンティック特徴処理、特徴融合処理によって実現される。
【0058】
なお、
図3におけるステップ302は、
図4におけるステップ402~ステップ403によって実現され得る。
【0059】
ステップ402において、2D画像特徴に対して空間特徴抽出処理を行い、2D画像空間特徴を得る。
【0060】
各ビューに対応する2D画像特徴を得た後、まず、2D画像特徴に対して空間特徴抽出を行う。ここで、空間特徴抽出プロセスは、各対応する2D画像スライスの特徴を学習するプロセスである。ここで、3つのビューに基づいて空間特徴抽出を行うプロセスにおいて、ネットワークパラメータが共有され、即ち、ネットワークパラメータが同じである。このプロセスは、ステップ402a~ステップ402c(図示せず)を含み得る。
【0061】
ステップ402aにおいて、2D画像特徴に対してウィンドウ分割処理を行い、N個のウィンドウのそれぞれに対応する局所2D画像特徴を得、N個のウィンドウは互いに重ならず、Nは1より大きい正の整数である。
【0062】
このプロセスでは、主に、ウィンドウベースのマルチヘッドセルフアテンション(W-MSA:Window-Multi-head Self-Attention)ネットワーク構造を利用して、2D画像スライスにおける遠距離及び局所空間セマンティック情報をモデリングする。ここで、W-MSAネットワーク構造を利用して2D画像特徴を処理する際に、まず、2D画像特徴Zに対してウィンドウ分割処理を行い、N個の互いに重ならないウィンドウに対応する局所2D画像特徴Ziに分割する。分割プロセスは式1に示す通りである。
【0063】
【0064】
ここで、Mは、W-MSAで設定されたウィンドウサイズであり、HWとは、2D画像特徴のサイズ、即ち、(H,W)ビューで切り分けて得られる2D画像サイズである。
【0065】
次に、ウィンドウに基づいてアテンション計算を行い、出力結果、即ち、局所2D画像空間特徴を得る。
【0066】
なお、アテンション処理はアテンションメカニズムによって実現される。認知科学では、アテンションメカニズム(Attention Mechanism)は、すべての情報のうちのいくつかに選択的に注意を向け、他の情報を無視するために使用される。アテンションメカニズムは、ニューラルネットワークがいくつかの入力に注意を払うこと、即ち、特定の入力を選択することを可能にする。計算能力が限られている場合、アテンションメカニズムは、情報過多問題を解決する主な手段として使用されるリソース割り当て方案であり、計算リソースをより重要なタスクに割り当てる。ここで、本願の実施例は、アテンションメカニズムの形態に限定されない。例えば、アテンションメカニズムは、マルチヘッドアテンション、キー値ペア(key-value pair)アテンション、構造化アテンションなどであり得る。
【0067】
ステップ402bにおいて、N個の局所2D画像特徴に対して特徴抽出処理を行い、2D画像ウィンドウ特徴を得る。
【0068】
N個の互いに重ならないウィンドウにそれぞれ対応する局所2D画像特徴Ziを得た後、各局所2D画像特徴に対して特徴抽出を行い、N個の2D画像ウィンドウ特徴を得る。ここで、前記特徴抽出処理の方式は、以下のステップを含む。
【0069】
ステップ1:N個の局所2D画像特徴に対してセルフアテンション処理を行い、N個の局所2D画像特徴のセルフアテンション特徴を得る。
【0070】
なお、まず、各局所2D画像特徴に対してセルフアテンション処理を行う。ここで、セルフアテンション処理プロセスは、マルチヘッドセルフアテンション処理である。各局所2D画像特徴は、複数のセルフアテンションヘッドに対応する。
【0071】
例えば、局所2D画像特徴に対応するクエリ項目Q、キー項目K、及び値項目Vに基づいてセルフアテンション処理を行い、N個の前記局所2D画像特徴のセルフアテンション特徴を得る。
【0072】
ここで、k番目のセルフアテンションヘッドに対応するクエリ項目(Q,Query)、キー項目(K,Key)、及び値項目(V,Value)がそれぞれ、
【数2】
であり、kが1より大きい正の整数である場合、i番目のウィンドウに対応する局所2D画像特徴Z
iのk番目のセルフアテンション特徴の計算方法は、式2に示す通りである。
【0073】
【0074】
ここで、RPEは、相対位置符号化情報、即ち、ウィンドウ位置符号化であり、ウィンドウ感知可能な空間位置情報を表す。
【0075】
この場合、式3に示すように、k番目のセルフアテンションヘッドに対応するセルフアテンション特徴は、N個のウィンドウに対応する特徴を含む。
【0076】
【0077】
ステップ2:N個の局所2D画像特徴的セルフアテンション特徴に対して特徴融合処理を行い、第1画像ウィンドウ内部特徴を得る。
【0078】
各ウィンドウに対応する各セルフアテンションヘッドに対応するセルフアテンション特徴を得た後、すべてのセルフアテンションヘッドに対応するセルフアテンション特徴をマージし、パラメータ行列によって線形マッピングを行うことで、特徴融合処理を実現し、対応する第1画像ウィンドウ内部特徴を得る。この処理は式4に示す通りである。
【0079】
【0080】
ここで、WHは、パラメータ行列であり、Concatは、マージ動作を表す。
【0081】
いくつかの実施例では、W-MSA構造に基づいてセルフアテンション処理を行う前に、まず、ビューvからのl番目の局所2D画像特徴
【数6】
に対して正規化処理を行う必要がある。例えば、正規化処理は、バッチ正規化(BN:Batch Normalization)を採用して行うことができる。ここで、ビューvは、ビュー(H,W),(H,D)、及び(W,D)のうちのいずれかである。正規化処理後、正規化された局所2D画像特徴
【数7】
をW-MSA構造に入力してセルフアテンション処理を行う。
【0082】
例示的に、
図6に示すように、まず、
【数8】
に対してBN処理を行い、次に、W-MSAに入力してセルフアテンション処理を行い、且つW-MSAは残差構造を含む。即ち、W-MSA出力結果とオリジナル入力特徴
【数9】
とを融合して、特徴融合処理を実現して、第1画像ウィンドウ内部特徴を得る
【数10】
(即ち、畳み込み処理後の特徴)を得る。この処理は式5に示す通りである。
【0083】
【0084】
ステップ3:第1画像ウィンドウ内部特徴に対して畳み込み処理を行い、第1画像ウィンドウ相互作用特徴を得る。
【0085】
ここで、W-MSA構造の利用は、分割された各局所2D画像特徴の特徴学習であり、2D画像特徴の学習をさらに強化するために、Kernel Sizeが5の深度分離可能な畳み込みブロック(DWConv2D)の構造を利用して畳み込み処理を行うことにより、空間的に隣接するウィンドウ間の局所的な学習を増加する。例えば、第1画像ウィンドウ内部特徴をDWConv2Dネットワークに入力して畳み込み処理を行い、第1画像ウィンドウ相互作用特徴を得る。
【0086】
いくつかの実施例では、DWConv2Dも同様に残差構造を含み得る。即ち、式6に示すように、畳み込み処理後の第1画像ウィンドウ内部特徴と、第1画像ウィンドウ内部特徴とを融合して、第1画像ウィンドウ相互作用特徴
【数12】
を得る。
【0087】
【0088】
例示的に、
図6に示すように、第1画像ウィンドウ内部特徴
【数14】
をDWConv2Dに入力して畳み込み処理を行い、畳み込み処理後の特徴と
【数15】
とを融合して、第1画像ウィンドウ相互作用特徴
【数16】
を得る。
【0089】
ステップ4:多層パーセプトロン(MLP)によって、第1画像ウィンドウ相互作用特徴に対して特徴抽出処理を行い、2D画像ウィンドウ特徴を得る。
【0090】
対応するビューにおける2D画像スライスの学習をさらに強化するために、畳み込み処理後の第1画像ウィンドウ相互作用特徴に対してBNを利用して正規化処理を行い、多層パーセプトロン(MLP:Multilayer Perceptron)を使用してチャネル特徴、即ち、対応するビューにおける2D画像スライスの特徴を学習して、2D画像ウィンドウ特徴
【数17】
を得る。この処理は式7に示す通りである。
【0091】
【0092】
ここで、MLPは、多層パーセプトロン構造を表す。
【0093】
ステップ402cにおいて、N個のウィンドウに対してウィンドウ再配置処理を行い、ウィンドウ再配置後のN個のウィンドウのそれぞれに対応する2D画像ウィンドウ特徴特徴抽出処理を行い、2D画像空間特徴を得、ウィンドウ再配置は、N個のウィンドウの空間位置を変更するために使用される。
【0094】
W-MSA構造を利用してウィンドウセルフアテンション学習を行った後、さらに、クロスウィンドウ間の画像特徴情報を学習する必要がある。したがって、一可能な実施形態では、N個のウィンドウに対してウィンドウ再配置を行うことにより、ウィンドウ再配置後の2D画像ウィンドウ特徴を再び学習する。
【0095】
例えば、シャッフル動作(Shuffle)を利用してウィンドウ再配置を行うことにより、空間情報を混乱させ、クロスウィンドウ情報間の相互作用を強化することができる。ウィンドウ再配置後、N個のウィンドウに対応する2D画像ウィンドウ特徴を学習して、最終的な2D画像空間特徴を得る。ここで、この方法は、以下のステップを含み得る。
【0096】
ステップ一:ウィンドウ再配置後のN個のウィンドウのそれぞれに対応する2D画像ウィンドウ特徴に対してセルフアテンション処理を行い、N個のウィンドウのそれぞれに対応するセルフアテンション特徴を得る。
【0097】
まず、ウィンドウ再配置後のN個のウィンドウ各自に対応する2D画像ウィンドウ特徴に対してセルフアテンション処理を行い、セルフアテンション特徴を得る。ここで、方法は上記のステップを参照することができ、ここでは繰り返して説明しない。
【0098】
ステップ二:N個のセルフアテンション特徴に対して特徴融合処理を行い、第2画像ウィンドウ内部特徴を得る。
【0099】
ここで、特徴融合によって第2画像ウィンドウ内部特徴を得るプロセスは、融合によって第1画像ウィンドウ内部特徴を得るプロセスを参照することができ、ここでは繰り返して説明しない。
【0100】
ステップ三:第2画像ウィンドウ内部特徴に対して位置反転処理を行い、位置反転後の第2画像ウィンドウ内部特徴に対して畳み込み処理を行い、第2画像ウィンドウ相互作用特徴を得る。
【0101】
例えば、ウィンドウの位置を再び混乱させることにより、W-MSA構造を利用してウィンドウセルフアテンション学習をもう一回行って、クロスウィンドウ間の情報学習を強化し、その後、第2画像ウィンドウ内部特徴に対して位置反転を行る。即ち、各ウィンドウに対応する位置情報をオリジナル位置に復元して、第2画像ウィンドウ相互作用特徴を得る。
【0102】
例示的に、
図6に示すように、まず、2D画像ウィンドウ特徴に対してBN正規化処理を行った後、ウィンドウ再配置動作(Transpose)を行い、W-MSA構造に基づいてウィンドウ再配置後のN個のウィンドウのそれぞれに対応する2D画像ウィンドウ特徴に対して特徴学習(セルフアテンション処理、特徴融合処理を含む)を行い、第2画像ウィンドウ相互作用特徴を得、再びN個のウィンドウを位置反転し、各ウィンドウに対応する位置情報を復元する。この処理は式8に示す通りである。
【0103】
【0104】
ここで、
【数20】
は、第2画像ウィンドウ相互作用特徴の位置反転後の特徴、即ち、位置反転後の第2画像ウィンドウ内部特徴を表し、Tは、ウィンドウ再配置動作を表し、Rは、位置反転操作を表し、
【数21】
は、2D画像ウィンドウ特徴を表す。
【0105】
そして、位置反転が行われた後、再びDWConv2Dを利用して畳み込み処理を行い、第2画像ウィンドウ相互作用特徴を得る。このプロセスは、上記のステップで畳み込み処理によって第1画像ウィンドウ相互作用特徴を得るプロセスを参照することができ、ここでは繰り返して説明しない。
【0106】
例示的に、
図6に示すように、
【数22】
をDWConv2D構造に入力して畳み込み処理を行い、第2画像ウィンドウ相互作用特徴
【数23】
を得る。この処理は式9に示す通りである。
【0107】
【0108】
ステップ四:MLPによって第2画像ウィンドウ相互作用特徴に対して特徴抽出処理を行い、2D画像空間特徴を得る。
【0109】
例えば、畳み込み処理後、再びMLPを利用してチャネル学習を行い、最終的な2D画像空間特徴を得る。
【0110】
例示的に、
図6に示すように、まず、第2画像ウィンドウ相互作用特徴
【数25】
に対して正規化処理を行い、正規化された
【数26】
をMLPに入力して特徴抽出を行い、最終的な2D画像空間特徴
【数27】
を得る。この処理は式10に示す通りである。
【0111】
【0112】
2D画像特徴に対して空間特徴抽出を行い、2D画像空間特徴を得ることは、フルビュースライス空間シャッフルブロック(FVSSSB:Full-View Slice Spatial Shuffle Block)プロセスであり、そのプロセス全体は
図6に示すようになる。それにより、2D画像特徴を十分に学習して、正確な2D画像空間特徴を抽出し、後続の正確な画像認識を容易にする。
【0113】
ステップ403において、メインビュー及び補助ビューに基づいて、2D画像空間特徴に対してセマンティック特徴抽出処理を行い、画像セマンティック特徴を得、メインビューは、2D画像特徴に対応するビューであり、補助ビューは、3Dビューのうちメインビューとは異なるビューである。
【0114】
2D画像空間特徴は、2Dビュー(即ち、メインビュー)に対応する特徴のみを表すため、各2D画像特徴に対して空間特徴抽出を行い、2D画像空間特徴を得た後、残りの第3ビュー(即ち、補助ビュー)の残りのセマンティック情報をキャプチャして、情報の補足学習を行う。ここで、2D画像空間特徴に対してセマンティック特徴抽出を行い、画像セマンティック特徴を得るプロセスは、スライス感知可能なコンテキスト混合(SAVCM:Slice-Aware Volume Context Mixing)プロセスであり、ここで、各ビューにおいて、SAVCMネットワークのネットワークパラメータは共有され、即ち、ネットワークパラメータは同じである。このプロセスは、以下のステップを含み得る。
【0115】
ステップ403aにおいて、2D画像空間特徴と位置符号化特徴に対して特徴融合処理を行い、第1画像セマンティック特徴を得、位置符号化特徴は、2D画像特徴に対応する位置情報を指示するために使用される。
【0116】
一可能な実施形態では、まず、各2D画像空間特徴
【数29】
に絶対位置符号化(APE:Absolute Position Encoding)特徴(即ち、位置符号化特徴)を追加する。この絶対位置符号化特徴は、2D画像特徴に対応する空間位置情報、即ち、2D画像スライスに対応する空間位置情報を表し、つまり、2D画像特徴に対応する位置情報を指示するために使用され、位置符号化特徴は、自動学習できるパラメータである。それにより、2D画像スライスの位置情報を2D画像空間特徴
【数30】
内に注入して、スライス位置感知学習を実現する。
【0117】
例示的に、
図7に示すように、2D画像空間特徴と位置符号化特徴とを特徴融合して、第1画像セマンティック特徴
【数31】
を得る。この処理は式11に示す通りである。
【0118】
【0119】
ここで、APE
sは、
【数33】
に対応する空間位置符号化を表す。
【0120】
ステップ403bにおいて、メインビューにおいて、MLPによって第1画像セマンティック特徴に対してセマンティック特徴抽出を行い、メイン画像セマンティック特徴を得る。
【0121】
一可能な実施形態では、メインビューと補助ビューでそれぞれセマンティック特徴抽出を行う。ここで、メインビューとは、2D画像特徴に対応するビューを指し、補助ビューは、3Dビューのうちメインビューとは異なるビューである。例えば、
【数34】
を(H,W)ビューにおける2D画像特徴抽出により得られた2D画像空間特徴とすると、メインビューは(H,W)であり、補助ビューは残りのDビューである。
【0122】
例えば、残差軸多層パーセプトロン(axial-MLP)を利用して、メインビューで第1画像セマンティック特徴に対してセマンティック特徴抽出を行い、メイン画像セマンティック特徴
【数35】
を得る。
図7に示すように、まず、第1画像セマンティック特徴
【数36】
に対して位置再配置を行い、(B,SP,TH,C)を得、その後、MLPを利用してチャネルC方向に沿って抽出を行う。ここで、まず、次元を4Cにアップし、抽出後に再びオリジナルチャネル数Cに復元し、次に、抽出により得られるメイン画像セマンティック特徴に対して位置復元を行い、(B,SP,C,TH)に復元し、ここで、SPは、メインビューにおける空間次元を表す。
【0123】
ステップ403cにおいて、補助ビューにおいて、MLPによって第1画像セマンティック特徴に対してセマンティック特徴抽出を行い、補助画像セマンティック特徴を得る。
【0124】
メインビューに基づいてセマンティック特徴抽出を行うと同時に、補助ビューに基づいて、MLPを利用して第1画像セマンティック特徴に対してセマンティック特徴抽出を行い、補助画像セマンティック特徴
【数37】
を得る。
図7に示すように、第1画像セマンティック特徴に対して補助ビューに沿ってセマンティック特徴抽出を行い、即ち、まず、次元を4THにアップして、第1画像セマンティック特徴を抽出した後、次に、オリジナル次元THに復元し、ここで、THは、補助ビューにおける空間次元を表す。
【0125】
ステップ403dにおいて、メイン画像セマンティック特徴と補助画像セマンティック特徴に対して特徴融合処理を行い、画像セマンティック特徴を得る。
【0126】
例えば、メイン画像セマンティック特徴と補助画像セマンティック特徴を得た後、両者に対して特徴融合を行うことにより、画像セマンティック特徴を得る。一可能な実施形態では、
図7に示すように、
【数38】
をチャネル上でマージして、マージ後にマージ特徴を得、次に、MLPを利用してマージ特徴をマッピングして、オリジナルチャネル数に復元して、画像セマンティック特徴
【数39】
を得る。このプロセスは、第3ビューにおける画像特徴情報を融合することにより、2D画像スライスのコンテキスト情報を感知し、特徴学習精度を向上させることができる。この処理は式12に示す通りである。
【0127】
【0128】
ここで、Axial-MLPは、軸方向多層パーセプトロン操作を表し、Concatは、マージ動作を表し、MLPcpは、特徴融合動作を表す。
【0129】
なお、
図3におけるステップ303は、
図4におけるステップ404~ステップ405によって実現され得る。
【0130】
ステップ404において、画像セマンティック特徴とビュー特徴に対して融合処理を行い、ビュー画像セマンティック特徴を得る。
【0131】
特徴融合プロセスでは、まず、各ビューの画像セマンティック特徴
【数41】
にAPEを追加して、画像セマンティック特徴とビュー特徴に対して融合処理を行い、ビュー画像セマンティック特徴
【数42】
を得る。フルビュー学習における豊富なセマンティックに対する集約処理は、チャネル上で処理されるため、APEをフルビュー特徴のチャネルに追加することで、集約時のビュー感知可能を実現する。この処理は式13に示す通りである。ここで、APEは、チャネルに対応する符号化であり、対応するビュー、即ち、(H,W)ビューなどのビュー特徴を指示するために使用される。
【0132】
【0133】
ステップ405において、各ビュー画像セマンティック特徴に対して特徴融合処理を行い、i回目の3D医用画像特徴を得る。
【0134】
次に、3つのチャネルのフルビュー特徴
【数44】
(即ち、ビュー画像セマンティック特徴)をマージして、チャネル数×3のマージ特徴を得、次に、マージ特徴に対して自然対数(LN)を使用して正規化し、最後に、MLPビューアグリゲータMLPvaを使用して、正規化された特徴をオリジナルチャネル数にマピングして、MLP-Transformerの現在のブロックの医療体特徴出力
【数45】
、即ち、i回目の3D医用画像特徴を得る。即ち、
【数46】
【0135】
ここで、Concatは、マージ動作を表し、LNは、正規化動作を表し、MLPvaは、マッピング動作を表す。
【0136】
図8に示すように、まず、各画像セマンティック特徴とAPE符号化とを融合し、次に、3つのビューを繋ぎ合わせて、最終的な3D医用画像特徴を得る。
【0137】
なお、
図3におけるステップ304は、
図4におけるステップ406~ステップ407によって実現され得る。ここで、特徴抽出プロセスは、特徴符号化プロセス又は特徴復号化プロセスを含み、ここで、特徴符号化プロセスは、3D医用画像特徴に対するダウンサンプリングプロセス、即ち、3D医用画像特徴の次元を減少させるプロセスを含み、特徴復号化プロセスは、3D医用画像特徴に対するアップサンプリングプロセス、即ち、3D医用画像特徴の次元を増加するプロセスを含む。
【0138】
ステップ406において、アップサンプリング結果がオリジナルサイズに達した場合、抽出により得られる3D医用画像特徴を、I回目の特徴抽出により得られるI回目の3D医用画像特徴として決定する。
【0139】
一可能な実施形態では、アップサンプリング結果が3D医用画像のオリジナルサイズに達した場合、I回目の特徴抽出プロセスであると決定する。例示的に、
図5に示すように、
【数47】
に達した場合、対応する結果をI回目の3D医用画像特徴として決定し、I回目の3D医用画像特徴を利用して目標予測503(即ち、画像認識)を行い、画像認識結果を得る。そして、画像認識精度をさらに高めるために、目標予測結果と初期入力された3D医用画像に対応する特徴とを融合することにより、融合された特徴に基づいて画像認識を行う。
図5に示すように、まず、入力された3D医用画像C
i×H×W×Dに対して畳み込みを行い、初期画像の初期3D医用画像特徴
【数48】
を得、
【数49】
とを融合して畳み込みを行い、最後の出力結果を得る。
【0140】
ステップ407において、I回目の3D医用画像特徴に基づいて画像認識処理を行い、画像認識結果を得る。
【0141】
最後に、I回目の3D医用画像特徴に基づいて画像認識を行うことにより、その後、3D医用画像に対して画像登録、分類などを行うことができる。
【0142】
一可能な実施形態では、TR-MLPネットワーク構造は、
図9に示すように、まず、現在のブロックに入力された3D医用画像特徴Z
iの(H,W,D)次元に対して、ビュー再配置を行い、(H,W),(H,D),(W,D)の3つのビューの2D画像スライスに再配置し、各ビューに対応する3Dのうちの1つの2Dスライス方向に対応する。再配置後のフルビュー2D画像スライスに対してFVSSBを使用して2Dスライス情報を十分に学習して、2D画像特徴を得る。次に、スライス感知可能なコンテキスト混合(SAVCM)を使用して、第3ビューに沿った残りの画像セマンティック情報をキャプチャし、最後に、ビュー感知可能なアグリゲータを使用して、フルビュー学習の豊富なセマンティックを集約して、最終的に、Transformer-MLPブロックの3D医用画像特徴
【数50】
出力を得、次のTransformer-MLPブロックの入力特徴とする。ここで、3つのビューを並列に計算し、フルビュースライス空間シャッフルブロックネットワークと、スライス感知可能なコンテキスト混合ブロックネットワークのパラメータは各ビューで共有される。即ち、同じネットワークパラメータに対応する特徴抽出ネットワークをそれぞれ利用して、各ビューにおける2D画像特徴に対してセマンティック特徴抽出処理を行い、異なるビューにおける画像セマンティック特徴を得る。
【0143】
本願の実施例では、まず、フルビュー2D空間情報を学習し、次に第3ビュー上の残りの画像セマンティックを学習し、その後、フルビューセマンティックを融合して、3D医用画像特徴のコンテキスト感知可能能力を実現し、帰納的バイアス能力を大幅に強化し、それにより、3D医用画像認識の精度を向上させ、計算量が大きい3畳み込みニューラルネットワーク(3D CNN)及び純粋視覚変換(Transformer)を、簡素化された局所視覚Transformer-MLP計算ユニットに置き換えることにより、計算複雑度を低減し、認識效率を向上させる。
【0144】
ここで、特徴抽出プロセスは、特徴符号化プロセス又は特徴復号化プロセスを含み、抽出プロセスは、セルフアテンション処理プロセスを含み、ここで、セルフアテンション処理プロセスは、Q、K、Vに基づいてセルフアテンションの計算を行う。一可能な実施形態では、マルチスケールの視覚的特徴を融合するために、特徴符号化プロセス(符号化装置によって実現される)の特徴と、特徴復号化プロセス(復号化装置によって実現される)の特徴とを融合して、特徴復号化プロセスにおけるQ、K、V値を得る。
【0145】
いくつかの実施例では、t回目の特徴復号化プロセスにおけるK値は、t-1回目の特徴復号化におけるK値と、対応する特徴符号化プロセスにおけるK値とに基づいて、融合によって得られ、t回目の特徴復号化プロセスにおけるV値は、t-1回目の特徴復号化におけるV値と、対応する特徴符号化プロセスにおけるV値とに基づいて、融合によって得られ、t回目の復号化プロセスにおけるQ値は、t-1回目の特徴復号化におけるQ値である。
【0146】
一可能な実施形態では、t回目の特徴復号化の入力特徴と、対応する符号化処理の出力特徴との解像度は同じである。即ち、解像度が同じ画像特徴に対してスキップ接続融合を行う。例示的に、
図5に示すように、2回目の特徴復号化プロセスに対応する解像度は4C×H/16×W/16×D/16であり、スキップ接続融合に対応する特徴符号化プロセスは、解像度が同じく4C×H/16×W/16×D/16である最終回の符号化プロセスである。スキップ接続融合を行う際に、2回目の特徴復号化で入力された特徴(即ち、1回目の特徴復号化出力特徴をアップサンプリングした後の特徴)と、最終回の特徴符号化プロセスの出力特徴とに対してスキップ接続融合を行う。
【0147】
t回目の特徴復号化に対応する特徴符号化プロセスの出力特徴をE
vとし、t回目の特徴復号化プロセスの入力特徴をD
vとする場合を例として説明する。ここで、vは、あるビューを指す。即ち、異なるビューにおいてそれぞれスキップ接続融合が行われる。まず、E
v、D
vに対してKernel Sizeが1の標準的な畳み込み(PWConv2D)を用いて畳み込みを行う。ここで、特徴復号化プロセスでは、Q値は、前回の特徴復号化プロセスからのみ得られ、符号化装置と復号化装置のスキップ接続融合では、K値、V値に対してのみ融合が行われる。したがって、
図10に示すように、PWConv2Dを利用して、符号化装置特徴E
vのオリジナルチャネル数を2分割して、
【数51】
を得る。この処理は式14に示す通りである。
【0148】
【0149】
図10に示すように、PWConv2Dを利用して、復号化装置特徴D
vのオリジナルチャネル数を3分割して、
【数53】
を得る。この処理は式15に示す通りである。
【0150】
【0151】
その後、
【数55】
とを融合する。この処理は式16に示す通りである。
【0152】
【0153】
ここで、
【数57】
ここで、この3つの値は、t回目の特徴復号化プロセスにおけるW-MSAの学習に使用される。この処理は式17に示す通りである。
【0154】
【0155】
ここで、CrossMergeは、スキップ接続融合動作を表す。
【0156】
本願の実施例では、スキップ接続融合ネットワークを導入して、符号化装置と復号化装置に対応する特徴に対してスキップ接続融合を行うことで、マルチスケール情報を融合して、画像特徴のセマンティック学習を豊かにする。
【0157】
図11は、本願の実施例による3D医用画像の認識装置の構造を示すブロック図であり、
図11に示すように、前記装置は、ビュー再配置モジュール1101と、特徴抽出モジュール1102と、特徴融合モジュール1103と、画像認識モジュール1104と、を備え、
ビュー再配置モジュール1101は、i回目の特徴抽出プロセスにおいて、i-1回目の3D医用画像特徴に対してビュー再配置処理を行い、2D画像特徴を得るように構成され、前記i-1回目の3D医用画像特徴は、3D医用画像に対してi-1回目の特徴抽出を行って得られる特徴であり、異なる2D画像特徴は、前記i-1回目の3D医用画像特徴の異なるビューにおける特徴であり、特徴抽出モジュール1102は、各前記2D画像特徴に対してセマンティック特徴抽出処理を行い、異なるビューにおける画像セマンティック特徴を得るように構成され、特徴融合モジュール1103は、異なるビューにおける前記画像セマンティック特徴に対して特徴融合処理を行い、i回目の3D医用画像特徴を得るように構成され、画像認識モジュール1104は、I回目の特徴抽出により得られたI回目の3D医用画像特徴に基づいて画像認識処理を行い、前記3D医用画像の画像認識結果を得るように構成され、iは、順次増加する正の整数であり、1<i≦Iであり、Iは正の整数である。
【0158】
いくつかの実施例では、前記特徴抽出モジュール1102は、
前記2D画像特徴に対して空間特徴抽出処理を行い、2D画像空間特徴を得るように構成される第1抽出ユニットと、
メインビュー及び補助ビューに基づいて、前記2D画像空間特徴に対してセマンティック特徴抽出処理を行い、前記画像セマンティック特徴を得る第2抽出ユニットであって、前記メインビューは、前記2D画像特徴に対応するビューであり、前記補助ビューは、3Dビューのうち前記メインビューとは異なるビューである、第2抽出ユニットと、を備える。
【0159】
いくつかの実施例では、前記第1抽出ユニットはさらに、前記2D画像特徴に対してウィンドウ分割処理を行い、N個のウィンドウのそれぞれに対応する局所2D画像特徴を得るステップであって、前記N個のウィンドウは互いに重ならず、Nは1より大きい正の整数である、ステップと、N個の前記局所2D画像特徴に対して特徴抽出処理を行い、2D画像ウィンドウ特徴を得るステップと、前記N個のウィンドウに対してウィンドウ再配置処理を行い、ウィンドウ再配置後のN個のウィンドウのそれぞれに対応する前記2D画像ウィンドウ特徴に対して特徴抽出処理を行い、2D画像空間特徴を得るステップであって、前記ウィンドウ再配置は、N個のウィンドウの空間位置を変更するために使用される、ステップと、を実行するように構成される。
【0160】
いくつかの実施例では、前記第1抽出ユニットはさらに、
N個の前記局所2D画像特徴に対してセルフアテンション処理を行い、N個の前記局所2D画像特徴のそれぞれに対応するセルフアテンション特徴を得るステップと、N個の前記セルフアテンション特徴に対して特徴融合処理を行い、第1画像ウィンドウ内部特徴を得るステップと、前記第1画像ウィンドウ内部特徴に対して畳み込み処理を行い、第1画像ウィンドウ相互作用特徴を得るステップと、多層パーセプトロン(MLP)によって、前記第1画像ウィンドウ相互作用特徴に対して特徴抽出処理を行い、前記2D画像ウィンドウ特徴を得るステップと、を実行するように構成される。
【0161】
いくつかの実施例では、前記第1抽出ユニットはさらに、
ウィンドウ再配置後のN個のウィンドウのそれぞれに対応する前記2D画像ウィンドウ特徴に対してセルフアテンション処理を行い、N個のウィンドウのそれぞれに対応するセルフアテンション特徴を得るステップと、N個の前記セルフアテンション特徴に対して特徴融合処理を行い、第2画像ウィンドウ内部特徴を得るステップと、前記第2画像ウィンドウ内部特徴に対して位置反転処理を行い、位置反転後の前記第2画像ウィンドウ内部特徴に対して畳み込み処理を行い、第2画像ウィンドウ相互作用特徴を得るステップと、多層パーセプトロン(MLP)によって、前記第2画像ウィンドウ相互作用特徴に対して特徴抽出処理を行い、前記2D画像空間特徴を得るステップと、を実行するように構成される。
【0162】
いくつかの実施例では、前記第1抽出ユニットはさらに、
前記局所2D画像特徴に対応するクエリ項目Q、キー項目K、及び値項目Vに基づいてセルフアテンション処理を行い、N個の前記局所2D画像特徴のセルフアテンション特徴を得るように構成される。
【0163】
いくつかの実施例では、前記特徴抽出プロセスは、特徴符号化プロセス又は特徴復号化プロセスを含み、t回目の特徴復号化プロセスにおける前記K値は、t-1回目の特徴復号化におけるK値と、対応する特徴符号化プロセスにおけるK値とに基づいて、融合によって得られ、t回目の特徴復号化プロセスにおける前記V値は、t-1回目の特徴復号化におけるV値と、対応する特徴符号化プロセスにおけるV値とに基づいて、融合によって得られ、前記t回目の復号化プロセスにおける前記Q値は、前記t-1回目の特徴復号化における前記Q値である。
【0164】
いくつかの実施例では、前記第2抽出ユニットはさらに、
前記2D画像空間特徴と位置符号化特徴に対して特徴融合処理を行い、第1画像セマンティック特徴を得るステップであって、前記位置符号化特徴は、前記2D画像特徴に対応する位置情報を指示するために使用される、ステップと、前記メインビューにおいて、MLPによって前記第1画像セマンティック特徴に対してセマンティック特徴抽出処理を行い、メイン画像セマンティック特徴を得るステップと、前記補助ビューにおいて、前記MLPによって前記第1画像セマンティック特徴に対してセマンティック特徴抽出処理を行い、補助画像セマンティック特徴を得るステップと、前記メイン画像セマンティック特徴と前記補助画像セマンティック特徴に対して特徴融合処理を行い、前記画像セマンティック特徴を得るステップと、を実行するように構成される。
【0165】
いくつかの実施例では、前記特徴融合モジュール1103は、
前記画像セマンティック特徴とビュー特徴に対して融合処理を行い、ビュー画像セマンティック特徴を得るように構成される第1融合ユニットと、
各前記ビュー画像セマンティック特徴に対して特徴融合処理を行い、前記i回目の3D医用画像特徴を得るように構成される第2融合ユニットと、をさらに備える。
【0166】
いくつかの実施例では、前記特徴抽出モジュール1102はさらに、
同じネットワークパラメータに対応する特徴抽出ネットワークをそれぞれ利用して、各ビューにおける前記2D画像特徴に対してセマンティック特徴抽出処理を行い、異なるビューにおける前記画像セマンティック特徴を得るように構成される。
【0167】
いくつかの実施例では、前記特徴抽出プロセスは、特徴符号化プロセス又は特徴復号化プロセスを含み、前記特徴符号化プロセスは、3D医用画像特徴に対するダウンサンプリングプロセスを含み、前記特徴復号化プロセスは、3D医用画像特徴に対するアップサンプリングプロセスを含む。
【0168】
前記画像認識モジュール1104は、
アップサンプリング結果がオリジナルサイズに達した場合、抽出により得られる前記3D医用画像特徴を、前記I回目の特徴抽出により得られるI回目の3D医用画像特徴として決定するように構成される決定ユニットと、
前記I回目の3D医用画像特徴に基づいて画像認識処理を行い、前記画像認識結果を得るように構成される認識ユニットと、をさらに備える。
【0169】
いくつかの実施例では、3D医用画像是CT画像、MRI画像又はPET画像である。
【0170】
上記に記載されたように、本願の実施例では、各特徴抽出段階において、まず、3D医用画像特徴に対してビュー再配置を行うことにより、異なるビューにおける2D画像特徴に分割し、2D画像特徴に対してそれぞれ特徴抽出を行い、異なるビューにおける画像セマンティック特徴を得、それにより、異なるビューにおける画像セマンティック特徴を融合して、特徴抽出後の3D医用画像特徴を得る。このプロセスでは、異なるビューにおける2D画像特徴に対して特徴抽出を行うため、関連技術における3D画像特徴を直接抽出する方法と比較して、本願の実施例は、簡素化された局所計算ユニットによって、異なるビューにおける特徴抽出を行うことにより、計算複雑度を低減し、3D医用画像の認識效率を向上させることができる。
【0171】
なお、上記の実施例で提供される装置は、上記の各機能モジュールの分割のみを例として説明しており、実際の応用では、必要に応じて、上記の機能を異なる機能モジュールに割り当てて完了させることができ、つまり、コンピュータ機器の内部構造を異なる機能モジュールに分割することにより、以上で説明された機能の全部又は一部を完了することができる。また、上記の実施例によって提供される装置は、端末機器の方法の実施例と同じ構想に属し、その実現プロセスについては方法の実施例を参照することができ、ここでは繰り返して説明しない。
【0172】
図12を参照すると、
図12は、本願の実施例によるコンピュータ機器の構造を示す模式図である。具体的に、前記コンピュータ機器1200は、中央処理装置(CPU:Central Processing Unit)1201と、ランダムアクセスメモリ1202及び読み取り専用メモリ1203を含むシステムメモリ1204と、システムメモリ1204と中央処理装置1201とを接続するシステムバス1205と、を含む。前記コンピュータ機器1200は、コンピュータ機器内の各デバイス間の情報伝送を支援する基本入力/出力システム(I/Oシステム:Input/Output)1206と、オペレーティングシステム1213、アプリケーション1214、及びその他のプログラムモジュール1215を記憶する大容量記憶装置1207と、をさらに含む。
【0173】
前記基本入力/出力システム1206は、情報を表示するディスプレイ1208と、ユーザが情報を入力するためのマウス、キーボードなどの入力機器1209とを含む。ここで、前記ディスプレイ1208及び入力機器1209は、いずれもシステムバス1205に接続された入出力コントローラ1210を介して中央処理装置1201に接続される。前記基本入力/出力システム1206は、キーボード、マウス、又は電子スタイラスなどの複数の他のデバイスからの入力を受信して処理するための入出力コントローラ1210をさらに含み得る。同様に、入出力コントローラ1210は、ディスプレイ、プリンタ、又は他のタイプの出力デバイスに出力を提供する。
【0174】
前記大容量記憶装置1207は、システムバス1205に接続された大容量記憶コントローラ(図示せず)を介して中央処理装置1201に接続される。前記大容量記憶装置1207及びそれに関連するコンピュータ機器可読媒体は、コンピュータ機器1200に不揮発性記憶を提供する。つまり、前記大容量記憶装置1207は、ハードディスク又は読み取り専用コンパクトディスクドライブなどのコンピュータ可読媒体(図示せず)を含み得る。
【0175】
汎用性を失うことなく、前記コンピュータ機器可読媒体は、コンピュータ機器記憶媒体及び通信媒体を含み得る。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、又は他のデータなどの情報を記憶するための任意の方法又は技術的実装の揮発性及び不揮発性、リムーバブル及び非リムーバブル媒体を含む。コンピュータ記憶媒体は、ランダムアクセスメモリ(RAM:Random Access Memory)、読み取り専用メモリ(ROM:Read Only Memory)、フラッシュメモリ又は他のソリッドステート記憶デバイス技術、コンパクトディスク読み取り専用メモリ(CD-ROM:Compact Disc Read-Only Memory)、デジタルバーサタイルディスク(DVD:Digital Versatile Disc)、又はその他の光ストレージ、テープカートリッジ、テープ、ディスクストレージ、又はその他の磁気ストレージデバイスを含む。もちろん、当業者であれば、前記コンピュータ機器は、上記したものに限定されるものではないことが分かる。上記のシステムメモリ1204及び大容量記憶装置1207を総称してメモリと呼ぶことができる。
【0176】
メモリには、1つ又は複数のプログラムが記憶され、1つ又は複数のプログラムは、1つ又は複数の中央処理装置1201によって実行されるように構成され、1つ又は複数のプログラムは、上記の方法を実現するための命令を含み、中央処理装置1201は、前記1つ又は複数のプログラムを実行することにより、上記の各方法の実施例で提供される方法を実現する。
【0177】
本願の様々な実施例によれば、前記コンピュータ機器1200は、インターネットなどのネットワークを介して、ネットワークに接続されたリモートコンピュータ機器に接続して実行されることもできる。即ち、コンピュータ機器1200は、前記システムバス1205に接続されたネットワークインターフェースユニット1211を介して、ネットワーク1212に接続されてもよいし、又は、ネットワークインターフェースユニット1211を使用して他のタイプのネットワーク又はリモートコンピュータシステム(図示せず)に接続されてもよい。
【0178】
前記メモリはさらに、1つ又は複数のプログラムを含み、前記1つ又は複数のプログラムはメモリに記憶され、前記1つ又は複数のプログラムは、本願の実施例で提供される方法において、コンピュータ機器によって実行されるステップを含む。
【0179】
本願の実施例は、コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体には、少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットが記憶され、前記少なくとも1つの命令、前記少なくとも1つのプログラム、前記コードセット又は命令セットは、前記プロセッサによってロード及び実行されて、上記の態様に記載の3D医用画像の認識方法を実現する。
【0180】
本願の実施例は、コンピュータプログラム製品又はコンピュータプログラムを提供し、前記コンピュータプログラム製品又はコンピュータプログラムは、コンピュータ命令を含み、前記コンピュータ命令は、コンピュータ可読記憶媒体に記憶される。コンピュータ機器のプロセッサは、コンピュータ可読記憶媒体から前記コンピュータ命令を読み取り、プロセッサは、前記コンピュータ命令を実行することにより、上記の態様に記載の3D医用画像の認識方法を実現する。
【0181】
当業者であれば、上記の実施例の全て又は一部のステップは、プログラムを介して関連するハードウェアを命令することによって完了でき、前記プログラムは、コンピュータ可読記憶媒体に記憶され得、前記コンピュータ可読記憶媒体は、上記の実施例におけるメモリに含まれるコンピュータ可読記憶媒体であってもよいし、端末に組み込まれていない、個別で存在するコンピュータ可読記憶媒体であり得ることを理解することができる。本願の実施例は、コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体には、少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットが記憶され、前記少なくとも1つの命令、前記少なくとも1つのプログラム、前記コードセット又は命令セットは、前記プロセッサによってロード及び実行されて、上記の態様に記載の3D医用画像の認識方法を実現する。
【0182】
いくつかの実施例では、前記コンピュータ可読記憶媒体は、ROM、RAM、ソリッドステートハードディスク(SSD:Solid State Drives)又は光ディスクなどを含み得る。ここで、RAMは、抵抗式ランダムアクセスメモリ(ReRAM:Resistance Random Access Memory)、及びダイナミックランダムアクセスメモリ(DRAM:Dynamic Random Access Memory)を含み得る。上記の本願の実施例の番号は、説明のためのものに過ぎず、実施例の優劣を表すものではない。
【0183】
当業者であれば、上記の実施例の全て又は一部のステップはハードウェアにより実行されてもよいし、プログラムを介して関連するハードウェアを命令することによって完了してもよいし、前記プログラムは、コンピュータ可読記憶媒体に記憶されてもよいし、前述の記憶媒体は、読み取り専用メモリ、磁気ディスク又は光ディスクなどであってもよいことを理解することができる。
【0184】
上記は、本願のいくつかの実施例に過ぎず、本願を限定することを意図するものではなく、本願の精神及び原則内で行われるあらゆる修正、同等の置換、改善などは、本願の保護範囲に含まれるべきである。
【手続補正書】
【提出日】2024-05-27
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0002
【補正方法】変更
【補正の内容】
【0002】
本願は、人工知能分野に関し、特に、3次元(3D)医用画像の認識方法、装置、機器及びコンピュータプログラムに関する。
【手続補正3】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピュータ機器が実行する3次元(3D)医用画像の認識方法であって、
i回目の特徴抽出プロセスにおいて、i-1回目の3D医用画像特徴に対してビュー再配置処理を行い、2次元(2D)画像特徴を得るステップであって、前記i-1回目の3D医用画像特徴は、3D医用画像に対してi-1回目の特徴抽出を行って得られる特徴であり、異なる2D画像特徴は、前記i-1回目の3D医用画像特徴の異なるビューにおける特徴である、ステップと、
各前記2D画像特徴に対してセマンティック特徴抽出処理を行い、異なるビューにおける画像セマンティック特徴を得るステップと、
異なるビューにおける前記画像セマンティック特徴に対して特徴融合処理を行い、i回目の3D医用画像特徴を得るステップと、
I回目の特徴抽出により得られたI回目の3D医用画像特徴に基づいて画像認識処理を行い、前記3D医用画像の画像認識結果を得るステップであって、iは、順次増加する正の整数であり、1<i≦Iであり、Iは正の整数である、ステップと、を含む、3D医用画像の認識方法。
【請求項2】
前記各前記2D画像特徴に対してセマンティック特徴抽出を行い、異なるビューにおける画像セマンティック特徴を得るステップは、
前記2D画像特徴に対して空間特徴抽出処理を行い、2D画像空間特徴を得るステップと、
メインビュー及び補助ビューに基づいて、前記2D画像空間特徴に対してセマンティック特徴抽出処理を行い、前記画像セマンティック特徴を得るステップであって、前記メインビューは、前記2D画像特徴に対応するビューであり、前記補助ビューは、3Dビューのうち前記メインビューとは異なるビューである、ステップと、を含む、
請求項1に記載の3D医用画像の認識方法。
【請求項3】
前記2D画像特徴に対して空間特徴抽出処理を行い、2D画像空間特徴を得るステップは、
前記2D画像特徴に対してウィンドウ分割処理を行い、N個のウィンドウのそれぞれに対応する局所2D画像特徴を得るステップであって、前記N個のウィンドウは互いに重ならず、Nは1より大きい正の整数である、ステップと、
N個の前記局所2D画像特徴に対して特徴抽出処理を行い、2D画像ウィンドウ特徴を得るステップと、
前記N個のウィンドウに対してウィンドウ再配置処理を行い、ウィンドウ再配置後のN個のウィンドウのそれぞれに対応する前記2D画像ウィンドウ特徴に対して特徴抽出処理を行い、2D画像空間特徴を得るステップであって、前記ウィンドウ再配置は、N個のウィンドウの空間位置を変更するために使用される、ステップと、を含む、
請求項2に記載の3D医用画像の認識方法。
【請求項4】
前記ウィンドウ再配置後のN個のウィンドウのそれぞれに対応する前記2D画像ウィンドウ特徴に対して特徴抽出処理を行い、2D画像空間特徴を得るステップは、
ウィンドウ再配置後のN個のウィンドウのそれぞれに対応する前記2D画像ウィンドウ特徴に対してセルフアテンション処理を行い、N個のウィンドウのそれぞれに対応するセルフアテンション特徴を得るステップと、
N個の前記セルフアテンション特徴に対して特徴融合処理を行い、第2画像ウィンドウ内部特徴を得るステップと、
前記第2画像ウィンドウ内部特徴に対して位置反転処理を行い、位置反転後の前記第2画像ウィンドウ内部特徴に対して畳み込み処理を行い、第2画像ウィンドウ相互作用特徴を得るステップと、
多層パーセプトロン(MLP)によって、前記第2画像ウィンドウ相互作用特徴に対して特徴抽出処理を行い、前記2D画像空間特徴を得るステップと、を含む、
請求項3に記載の3D医用画像の認識方法。
【請求項5】
前記N個の前記局所2D画像特徴に対して特徴抽出処理を行い、2D画像ウィンドウ特徴を得るステップは、
N個の前記局所2D画像特徴に対してセルフアテンション処理を行い、N個の前記局所2D画像特徴のそれぞれに対応するセルフアテンション特徴を得るステップと、
N個の前記セルフアテンション特徴に対して特徴融合処理を行い、第1画像ウィンドウ内部特徴を得るステップと、
前記第1画像ウィンドウ内部特徴に対して畳み込み処理を行い、第1画像ウィンドウ相互作用特徴を得るステップと、
多層パーセプトロン(MLP)によって、前記第1画像ウィンドウ相互作用特徴に対して特徴抽出処理を行い、前記2D画像ウィンドウ特徴を得るステップと、を含む、
請求項3に記載の3D医用画像の認識方法。
【請求項6】
前記N個の前記局所2D画像特徴に対してセルフアテンション処理を行い、N個の前記局所2D画像特徴のそれぞれに対応するセルフアテンション特徴を得るステップは、
前記局所2D画像特徴に対応するクエリ項目Q、キー項目K、及び値項目Vに基づいてセルフアテンション処理を行い、N個の前記局所2D画像特徴のセルフアテンション特徴を得るステップを含む、
請求項5に記載の3D医用画像の認識方法。
【請求項7】
前記特徴抽出プロセスは、特徴符号化プロセス又は特徴復号化プロセスを含み、t回目の特徴復号化プロセスにおける前記K値は、t-1回目の特徴復号化におけるK値と、対応する特徴符号化プロセスにおけるK値とに基づいて、融合によって得られ、t回目の特徴復号化プロセスにおける前記V値は、t-1回目の特徴復号化におけるV値と、対応する特徴符号化プロセスにおけるV値とに基づいて、融合によって得られ、前記t回目の復号化プロセスにおける前記Q値は、前記t-1回目の特徴復号化における前記Q値である、
請求項6に記載の3D医用画像の認識方法。
【請求項8】
前記メインビュー及び補助ビューに基づいて、前記2D画像空間特徴に対してセマンティック特徴抽出処理を行い、前記画像セマンティック特徴を得るステップは、
前記2D画像空間特徴と位置符号化特徴に対して特徴融合処理を行い、第1画像セマンティック特徴を得るステップであって、前記位置符号化特徴は、前記2D画像特徴に対応する位置情報を指示するために使用される、ステップと、
前記メインビューにおいて、MLPによって前記第1画像セマンティック特徴に対してセマンティック特徴抽出処理を行い、メイン画像セマンティック特徴を得るステップと、
前記補助ビューにおいて、前記MLPによって前記第1画像セマンティック特徴に対してセマンティック特徴抽出処理を行い、補助画像セマンティック特徴を得るステップと、
前記メイン画像セマンティック特徴と前記補助画像セマンティック特徴に対して特徴融合処理を行い、前記画像セマンティック特徴を得るステップと、を含む、
請求項2に記載の3D医用画像の認識方法。
【請求項9】
前記異なるビューにおける前記画像セマンティック特徴に対して特徴融合処理を行い、i回目の3D医用画像特徴を得るステップは、
前記画像セマンティック特徴とビュー特徴に対して融合処理を行い、ビュー画像セマンティック特徴を得るステップと、
各前記ビュー画像セマンティック特徴に対して特徴融合処理を行い、前記i回目の3D医用画像特徴を得るステップと、を含む、
請求項1~8のいずれか一項に記載の3D医用画像の認識方法。
【請求項10】
前記各前記2D画像特徴に対してセマンティック特徴抽出処理を行い、異なるビューにおける画像セマンティック特徴を得るステップは、
同じネットワークパラメータに対応する特徴抽出ネットワークをそれぞれ利用して、各ビューにおける前記2D画像特徴に対してセマンティック特徴抽出処理を行い、異なるビューにおける前記画像セマンティック特徴を得るステップを含む、
請求項1~8のいずれか一項に記載の3D医用画像の認識方法。
【請求項11】
前記特徴抽出プロセスは、特徴符号化プロセス又は特徴復号化プロセスを含み、前記特徴符号化プロセスは、3D医用画像特徴に対するダウンサンプリングプロセスを含み、前記特徴復号化プロセスは、3D医用画像特徴に対するアップサンプリングプロセスを含み、
前記I回目の特徴抽出により得られたI回目の3D医用画像特徴に基づいて画像認識処理を行い、前記3D医用画像の画像認識結果を得る前に、前記3D医用画像の認識方法は、
アップサンプリング結果がオリジナルサイズに達した場合、抽出により得られる前記3D医用画像特徴を、前記I回目の特徴抽出により得られるI回目の3D医用画像特徴として決定するステップをさらに含む、
請求項1~8のいずれか一項に記載の3D医用画像の認識方法。
【請求項12】
前記3D医用画像は、コンピュータ断層撮影(CT)画像、磁気共鳴映像(MRI)又は陽電子放射断層撮影(PET)画像である、
請求項1~8のいずれか一項に記載の3D医用画像の認識方法。
【請求項13】
3次元(3D)医用画像の認識装置であって、
i回目の特徴抽出プロセスにおいて、i-1回目の3D医用画像特徴に対してビュー再配置処理を行い、2D画像特徴を得るように構成され、前記i-1回目の3D医用画像特徴は、3D医用画像に対してi-1回目の特徴抽出を行って得られる特徴であり、異なる2D画像特徴は、前記i-1回目の3D医用画像特徴の異なるビューにおける特徴である、ビュー再配置モジュールと、
各前記2D画像特徴に対してセマンティック特徴抽出処理を行い、異なるビューにおける画像セマンティック特徴を得るように構成される特徴抽出モジュールと、
異なるビューにおける前記画像セマンティック特徴に対して特徴融合処理を行い、i回目の3D医用画像特徴を得るように構成される特徴融合モジュールと、
I回目の特徴抽出により得られたI回目の3D医用画像特徴に基づいて画像認識処理を行い、前記3D医用画像の画像認識結果を得るように構成され、iは、順次増加する正の整数であり、1<i≦Iであり、Iは正の整数である、画像認識モジュールと、を備える、3D医用画像の認識装置。
【請求項14】
コンピュータ機器であって、
プロセッサとメモリとを備え、前記メモリには、少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットが記憶され、前記少なくとも1つの命令、前記少なくとも1つのプログラム、前記コードセット又は命令セットは、前記プロセッサによってロード及び実行されて、請求項1~12のいずれか一項に記載の3D医用画像の認識方法を実現する、コンピュータ機器。
【請求項15】
コンピュータプログラ
ムであって、
コンピュータ命令を含み、前記コンピュータ命令は、コンピュータ可読記憶媒体に記憶され、コンピュータ機器のプロセッサは、前記コンピュータ可読記憶媒体から前記コンピュータ命令を読み取り、前記プロセッサは、前記コンピュータ命令を実行することにより、請求項1~12のいずれか一項に記載の3D医用画像の認識方法を実現する、コンピュータプログラ
ム。
【国際調査報告】