IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッドの特許一覧

特許7540127人工知能に基づく画像処理方法、画像処理装置、コンピュータプログラム及びコンピュータ機器
<>
  • 特許-人工知能に基づく画像処理方法、画像処理装置、コンピュータプログラム及びコンピュータ機器 図1
  • 特許-人工知能に基づく画像処理方法、画像処理装置、コンピュータプログラム及びコンピュータ機器 図2
  • 特許-人工知能に基づく画像処理方法、画像処理装置、コンピュータプログラム及びコンピュータ機器 図3
  • 特許-人工知能に基づく画像処理方法、画像処理装置、コンピュータプログラム及びコンピュータ機器 図4
  • 特許-人工知能に基づく画像処理方法、画像処理装置、コンピュータプログラム及びコンピュータ機器 図5
  • 特許-人工知能に基づく画像処理方法、画像処理装置、コンピュータプログラム及びコンピュータ機器 図6
  • 特許-人工知能に基づく画像処理方法、画像処理装置、コンピュータプログラム及びコンピュータ機器 図7
  • 特許-人工知能に基づく画像処理方法、画像処理装置、コンピュータプログラム及びコンピュータ機器 図8
  • 特許-人工知能に基づく画像処理方法、画像処理装置、コンピュータプログラム及びコンピュータ機器 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-19
(45)【発行日】2024-08-27
(54)【発明の名称】人工知能に基づく画像処理方法、画像処理装置、コンピュータプログラム及びコンピュータ機器
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240820BHJP
   G06V 10/774 20220101ALI20240820BHJP
【FI】
G06T7/00 614
G06T7/00 350B
G06V10/774
【請求項の数】 13
(21)【出願番号】P 2022555626
(86)(22)【出願日】2021-06-11
(65)【公表番号】
(43)【公表日】2023-05-22
(86)【国際出願番号】 CN2021099559
(87)【国際公開番号】W WO2022001623
(87)【国際公開日】2022-01-06
【審査請求日】2022-10-13
(31)【優先権主張番号】202010614446.9
(32)【優先日】2020-06-30
(33)【優先権主張国・地域又は機関】CN
【前置審査】
(73)【特許権者】
【識別番号】514187420
【氏名又は名称】テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ファン,ユチ
(72)【発明者】
【氏名】ジョウ,ニユン
(72)【発明者】
【氏名】ヤオ,ジアンホア
【審査官】鈴木 圭一郎
(56)【参考文献】
【文献】米国特許出願公開第2019/0050981(US,A1)
【文献】米国特許出願公開第2019/0294970(US,A1)
【文献】中国特許出願公開第111161270(CN,A)
【文献】中国特許出願公開第110874170(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06V 10/774
(57)【特許請求の範囲】
【請求項1】
コンピュータ機器が実行する、人工知能に基づく画像処理方法であって
スライス画像を取得するステップと、
前記スライス画像を裁断して、サイズが同じである複数の画像ブロックを取得するステップと、
前記複数の画像ブロックをマーキングモデルに入力し、前記マーキングモデルで前記複数の画像ブロックから前記スライス画像の画素特徴を抽出し、前記画素特徴に応じて、前記スライス画像におけるポリゴン領域の複数の頂点位置を決定して、前記複数の頂点位置を連結し、前記スライス画像のマーキング情報を出力するステップであって、前記ポリゴン領域は目標人体組織が所在する領域であるステップと、を含み、
前記マーキングモデルの訓練プロセスは、
目標マーキング情報付きの複数のサンプルスライス画像を取得するステップと、
前記複数のサンプルスライス画像を初期マーキングモデルに入力し、前記初期マーキングモデルで前記複数のサンプルスライス画像のマーキング情報を予測して、予測マーキング情報を取得するステップと、
前記予測マーキング情報及び前記目標マーキング情報に応じて、前記初期マーキングモデルのモデルパラメータを、目標条件に合致するまで調整し、前記マーキングモデルを取得するステップと、を含み、
前記予測マーキング情報及び前記目標マーキング情報に応じて、前記初期マーキングモデルのモデルパラメータを調整することは、
予測画素特徴と予測マーキング情報との間の制約損失値を取得するステップと、
取得した前記制約損失値に応じて、前記初期マーキングモデルのモデルパラメータを調整するステップと、を含む、
画像処理方法
【請求項2】
前記画素特徴は、分割マスクであり、
前記複数の画像ブロックから前記スライス画像の画素特徴を抽出するステップは、
前記複数の画像ブロックの画素値に応じて、前記複数の画像ブロックを符号化して、前記複数の画像ブロックの特徴を取得するステップと、
符号化で取得した特徴を復号して、前記スライス画像の分割マスクを取得するステップと、を含む、
請求項1に記載の画像処理方法。
【請求項3】
前記スライス画像の画素特徴を抽出するステップは、複数の畳み込み層に基づいて実現され、
前記複数の画像ブロックの画素値に応じて、前記複数の画像ブロックを符号化して、前記複数の画像ブロックの特徴を取得するステップは、
複数の第1畳み込み層に基づいて、前記複数の画像ブロックのうち隣接する画像ブロックに対して畳み込み演算を行うステップと、
演算後の第1特徴に対してバッチ正規化処理を行うステップと、
モデルパラメータにおける選択パラメータに応じて、前記選択パラメータに対応する畳み込みカーネルで、前記バッチ正規化処理後の第2特徴に対してダウンサンプリング処理を行って、前記複数の画像ブロックの特徴を取得するステップと、を含む、
請求項2に記載の画像処理方法。
【請求項4】
符号化で取得した特徴を復号して、前記スライス画像の分割マスクを取得するステップは、
複数の第2畳み込み層に基づいて、前記複数の画像ブロックのうち隣接する画像ブロックの特徴に対して畳み込み演算を行うステップと、
演算後の第3特徴に対してバッチ正規化処理を行うステップと、
モデルパラメータにおける選択パラメータに応じて、前記選択パラメータに対応する畳み込みカーネルで、前記バッチ正規化処理後の第4特徴に対して逆畳み込み演算を行って、前記スライス画像の分割マスクを取得するステップと、を含む、
請求項3に記載の画像処理方法。
【請求項5】
符号化で取得した特徴を復号して、前記スライス画像の分割マスクを取得するステップは、
各第2畳み込み層について、前記第2畳み込み層に対応する第1畳み込み層によって出力される特徴に応じて、前記第2畳み込み層の直前の第2畳み込み層によって出力される特徴を復号して、前記第2畳み込み層の出力を取得するステップであって、複数の第2畳み込み層は2つずつ隣接する、ステップと、
前記複数の第2畳み込み層によって出力される特徴を連結して、前記スライス画像の分割マスクを取得するステップと、を含む、
請求項3に記載の画像処理方法。
【請求項6】
前記画素特徴に応じて、前記スライス画像におけるポリゴン領域の複数の頂点位置を決定して、前記複数の頂点位置を連結し、前記スライス画像のマーキング情報を出力するステップは、
2層畳み込み長短期記憶ConvLSTMモデルを基に、前記画素特徴に対して畳み込み演算を行って、前記スライス画像におけるポリゴン領域の複数の頂点位置を取得するステップを含む、
請求項1~5のいずれか1項に記載の画像処理方法。
【請求項7】
2層畳み込み長短期記憶ConvLSTMモデルを基に、前記画素特徴に対して畳み込み演算を行って、前記スライス画像におけるポリゴン領域の複数の頂点位置を取得するステップは、
前記画素特徴を前記2層畳み込み長短期記憶ConvLSTMモデルに入力し、前記2層畳み込み長短期記憶ConvLSTMモデルで複数の目標グリッドの周辺グリッドの画素特徴に対して畳み込み演算を行い、畳み込み演算結果を符号化して、前記目標グリッドの画素特徴を取得し、前記複数の目標グリッドの画素特徴を前記スライス画像におけるポリゴン領域の複数の頂点位置とするステップを含む、
請求項6に記載の画像処理方法。
【請求項8】
前記画素特徴を前記2層畳み込み長短期記憶ConvLSTMモデルに入力し、前記2層畳み込み長短期記憶ConvLSTMモデルで複数の目標グリッドの周辺グリッドの画素特徴に対して畳み込み演算を行い、畳み込み演算結果を符号化して、前記目標グリッドの画素特徴を取得し、前記複数の目標グリッドの画素特徴を前記スライス画像におけるポリゴン領域の複数の頂点位置とするステップは、
前記画素特徴を前記2層畳み込み長短期記憶ConvLSTMモデルに入力し、前記2層畳み込み長短期記憶ConvLSTMモデルで第1目標グリッドの周辺グリッドの画素特徴に対して畳み込み演算を行い、畳み込み演算結果を符号化して、前記第1目標グリッドの画素特徴を取得し、前記第1目標グリッドの画素特徴を第1頂点位置とするステップと、
前記2層畳み込み長短期記憶ConvLSTMモデルを基に、前記画素特徴及び前記第1頂点位置に基づいて、第2目標グリッドの周辺グリッドの画素特徴に対して畳み込み演算を行い、畳み込み演算結果を符号化して、前記第2目標グリッドの画素特徴を取得し、前記第2目標グリッドの画素特徴を第2頂点位置とするステップと、
前記画素特徴、前記第1頂点位置及び前記第2頂点位置に基づいて、前記ポリゴン領域の複数の頂点位置を取得するまで、畳み込み演算及び符号化を行うステップと、を含む、
請求項7に記載の画像処理方法。
【請求項9】
前記初期マーキングモデルで前記複数のサンプルスライス画像のマーキング情報を予測して、予測マーキング情報を取得するステップは、
前記初期マーキングモデルで前記目標マーキング情報における前の2つの頂点位置を前記サンプルスライス画像の前の2つの頂点位置として決定するステップと、
前記前の2つの頂点位置及び前記サンプルスライス画像に基づいて、次の頂点位置を予測して、前記予測マーキング情報を取得するステップと、を含む、
請求項に記載の画像処理方法。
【請求項10】
前記スライス画像のマーキング情報に対する補正操作に応答し、前記補正操作にしたがって、前記スライス画像のマーキング情報を補正するステップと、
補正後の前記マーキング情報を前記マーキングモデルに入力し、前記マーキングモデルで補正後の前記マーキング情報に基づいて、前記スライス画像におけるポリゴン領域の複数の頂点位置を再マーキングして、マーキング情報を取得するステップと、をさらに含む、
請求項1~のいずれか1項に記載の画像処理方法。
【請求項11】
人工知能に基づく画像処理装置であって、
請求項1~1のいずれか1項に記載画像処理方法を実行するように構成されたプロセッサを含む、
画像処理装置
【請求項12】
コンピュータ機器であって
プロセッサ、及び前記プロセッサに接続されるメモリを含み、
前記メモリには、コンピュータプログラムが記憶されており、
前記プロセッサは、前記コンピュータプログラムを実行して、請求項1~請求項10のいずれか1項に記載の画像処理方法を実現するように構成される、
コンピュータ機器。
【請求項13】
コンピュータに、請求項1~1のいずれか1項に記載画像処理方法を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照]
本願は、2020年6月30日に中国国家知識産権局に提出された、出願番号が202010614446.9で、出願名称が「人工知能に基づく画像処理方法、装置、機器及び記憶媒体」である中国特許出願の優先権を主張し、当該出願の全ての内容は援用することにより本願に組み込まれる。
【0002】
[技術分野]
本願は、コンピュータ技術の分野に関し、特に、人工知能に基づく画像処理方法、装置、機器及び記憶媒体に関する。
【背景技術】
【0003】
リンパ節転移は、例えば乳がん、大腸がん、膵臓がんなどの多くのがんで多発する。通常、リンパ節に転移したがん細胞が多いほど、患者の予後が悪くなる。そのため、スライス画像の処理によりリンパ節転移部位の位置を決定し、続いて診断して、治療計画を立てる必要がある。
【0004】
現在、人工知能に基づく画像処理方法は、通常、完全な病理画像に手動でマーキングし、目標人体組織が所在する領域がマーキングされると、病理画像のマーキング情報が取得され、その後、マーキング情報付きの病理画像を使用してモデルを訓練する。例えば、バウンディングボックスに手動でマーキングするか、又は、極端点のポイントマーキング又は落書きマーキングを手動で行う必要があり、これらは、いずれも手動マーキング情報を事前情報として、対応するセマンティック分割マスクを生成する必要がある。
【0005】
深層学習アルゴリズムの訓練は、手動でマーキングされた大量のデータに依存し、完全な病理画像のサイズは、数万画素であるのが一般的であるため、マーキングプロセスが非常に煩雑で、時間を要し、人件費が非常に高く、一部のマーキング方法において、マーキングされた目標人体組織が所在する領域は、交差しない領域であり、目標人体組織が所在する領域は連続的で穴のないという特性に一致しないため、画像処理は、効率が非常に低く、精度が高くない。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本願の実施例は、画像処理方法の正確性及び効率を高めることができる人工知能に基づく画像処理方法、装置、機器及び記憶媒体を提供する。前記技術案は、以下のとおりである。
【課題を解決するための手段】
【0007】
本願の一態様によれば、人工知能に基づく画像処理方法を提供し、前記方法は、
スライス画像を取得するステップと、
前記スライス画像を裁断して、画像ブロックを複数取得するステップと、
前記複数の画像ブロックをマーキングモデルに入力し、前記マーキングモデルで前記複数の画像ブロックから前記スライス画像の画素特徴を抽出し、前記画素特徴に応じて、前記スライス画像におけるポリゴン領域の複数の頂点位置を決定して、前記複数の頂点位置を連結し、前記スライス画像のマーキング情報を出力するステップであって、前記ポリゴン領域は目標人体組織が所在する領域である、ステップと、を含む。
【0008】
本願の一態様によれば、人工知能に基づく画像処理装置を提供し、前記装置は、
スライス画像を取得するための取得モジュールと、
前記スライス画像を裁断して、画像ブロックを複数取得するための裁断モジュールと、
前記複数の画像ブロックをマーキングモデルに入力し、前記マーキングモデルで前記複数の画像ブロックから前記スライス画像の画素特徴を抽出し、前記画素特徴に応じて、前記スライス画像におけるポリゴン領域の複数の頂点位置を決定して、前記複数の頂点位置を連結し、前記スライス画像のマーキング情報を出力するために用いられ、前記ポリゴン領域は目標人体組織が所在する領域である処理モジュールと、を含む。
【0009】
本願の一態様によれば、コンピュータ機器を提供し、前記コンピュータ機器は、プロセッサ及びメモリを含み、前記メモリには、少なくとも1つのプログラムコードが記憶され、前記プログラムコードが前記プロセッサによってロードされて実行されると、前記人工知能に基づく画像処理方法を実行する操作が実施される。
【0010】
本願の一態様によれば、少なくとも1つのプログラムコードが記憶されているコンピュータ可読記憶媒体を提供し、前記プログラムコードがプロセッサによってロードされて実行されると、前記人工知能に基づく画像処理方法を実行する操作が実施される。
【図面の簡単な説明】
【0011】
本願の実施例における技術案をより明確に説明するために、以下では、実施例の説明に必要な図面を簡単に紹介するが、明らかに、以下の説明における図面は、本願の一部の実施例にすぎず、当業者であれば、創造的な働きなしに、これらの図面から他の図面を取得することもできる。
図1】本願の実施例にて提供される人工知能に基づく画像処理方法の実施環境の模式図である。
図2】本願の実施例にて提供されるマーキングモデル訓練方法のフローチャートである。
図3】本願の実施例にて提供される人工知能に基づく画像処理方法のフローチャートである。
図4】本願の実施例にて提供されるマーキングモデルの構造模式図である。
図5】本願の実施例にて提供される画像マーキング比較結果の模式図である。
図6】本願の実施例にて提供される別の画像マーキング比較結果の模式図である。
図7】本願の実施例にて提供される人工知能に基づく画像処理装置の構造模式図である。
図8】本願の実施例にて提供される端末の構造模式図である。
図9】本願の実施例にて提供されるサーバの構造模式図である。
【発明を実施するための形態】
【0012】
本願の目的、技術案及び利点を明確にするために、図面を参照しながら本願の実施形態をより詳細に説明する。
【0013】
以下、本願に言及された名詞について紹介する。
【0014】
人工知能(Artificial Intelligence,AI)は、デジタルコンピュータ又はデジタルコンピュータによって制御される機械を利用して、ヒトの知能をシミュレート、延伸及び拡張し、環境を感知し、知識を取得し、知識を使用して最適な結果を取得する理論、方法、技術及び応用システムである。言い換えれば、人工知能は、コンピュータ科学の統合技術であり、知能の実質を把握して、人間の知能に類似する方法で反応できる知能機械を生産することを図る。人工知能は、様々な知能機械の設計原理及び実現方法を研究し、機械に感知、推論及び意思決定の機能を持たせる。
【0015】
人工知能技術は、統合学科であり、関する分野が幅広く、ハードウェアレベルの技術とソフトウェアレベルの技術の両方がある。人工知能の基礎技術は、一般的に、センサ、専用人工知能チップ、クラウドコンピューティング、分散型記憶、ビッグデータ処理技術、オペレーティング/インタラクションシステム、メカトロニクスなどの技術を含む。人工知能ソフトウェア技術には、主に、コンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習/深層学習などのいくつかの大きい方向性がある。
【0016】
ここで、コンピュータビジョン(Computer Vision、CV)技術は、機械が「見る」ようにするためにどうすればいいかということを研究する科学である。より一層言えば、コンピュータビジョンとは、人間の目の代わりにカメラやコンピュータを用いて、目標に対して認識、追跡及び測定などを行う機械ビジョンを指し、さらに、認識、追跡及び測定の結果に対してグラフィック処理を行い、コンピュータ処理結果が、人の目で観察するのにより適するか又は機器に伝送して検出するのにより適する画像になるように、コンピュータに処理させる。1つの科学学科として、コンピュータビジョンは関連の理論及び技術を研究して、画像又は多次元データから情報を取得できる人工知能システムを確立しようとする。コンピュータビジョン技術は、一般的に、画像処理、画像認識、画像意味理解、画像検索、OCR、ビデオ処理、ビデオ意味理解、ビデオコンテンツ/挙動認識、3次元物体再構成、3D技術、仮想現実、拡張現実、同期位置特定及び地図構築などの技術を含み、一般的な顔認識、指紋認識などのバイオ特徴認識技術も含む。例えば、医療用画像を分割する技術であり、又例えば、医療用画像における病巣部位を位置特定する技術である。
【0017】
機械学習(Machine Learning、ML)は、複数の分野の複合学問であり、確率論、統計学、近似論、凸解析、アルゴリズム複雑度理論などの複数の学問分野に関する。機械学習は、新たな知識又はスキルを取得し、従来の知識構造を改めて組織して、自体の性能を改善し続けるように、コンピュータがどのように人間の学習挙動をシミュレート又は実現するかを専門に研究する。機械学習は、人工知能のコアであり、コンピュータに知能を持たせる基本的な方法であり、人工知能の各分野に適用されている。機械学習及び深層学習は、一般に、人工ニューラルネットワーク、信頼度ネットワーク、拡張的学習、遷移学習、帰納学習、及び教示学習などの技術を含む。例えば、機械学習の方法で訓練して、画像処理モデルを取得し、画像処理モデルで医療画像を処理する。具体的な適用シーンにおいて、当該画像処理モデルは、マーキングモデルであってもよいし、医療画像における目標人体組織領域(例えば病巣部位)をマーキングする。
【0018】
人工知能技術の研究及び進歩に伴い、人工知能技術は、通常のスマートホーム、スマートウェアラブルデバイス、仮想アシスタント、スマートスピーカー、スマートマーケティング、無人運転、自動運転、ドローン、ロボット、スマート医療、スマートカスタマーサービスなど、複数の分野において研究及び応用が展開されており、人工知能技術は、より多くの分野に適用され、ますます重要な価値を発揮するだろう。
【0019】
本願の実施例にて提供される手段は、人工知能のコンピュータビジョン技術、機械学習などの技術に関し、具体的には、スマート医療分野に関し、以下の実施例により、方法の実施環境及び具体的な実施形態について説明する。
【0020】
図1は、本願の実施例にて提供される人工知能に基づく画像処理方法の実施環境である。図1を参照すると、当該実施環境は、コンピュータ機器101及びデータベース102を含み得る。ここで、コンピュータ機器101は、有線接続方式によりデータベース102とのデータのインタラクションを実施してもよく、無線ネットワーク接続方式によりデータベース102とのデータのインタラクションを実施してもよく、本願の実施例は、これに対して限定しない。
【0021】
本願の実施例では、コンピュータ機器101は、スライス画像を処理してもよい。実施形態では、当該スライス画像は、医療画像、つまり人体組織画像であってもよく、本願の実施例にて提供される人工知能に基づく画像処理方法は、目標人体組織の位置特定、例えば乳がん、大腸がん、膵臓がんなどのがん細胞がリンパ節に転移した転移領域の位置特定に適用でき、もちろん、他の目標人体組織の位置特定にも適用でき、本願の実施例は、これに対して限定しない。当該人工知能に基づく画像処理方法は、他の画像における目標の位置特定シーン、例えば、風景画像における目標の位置特定シーンにも適用できる。
【0022】
データベース102に、スライス画像を記憶することができ、コンピュータ機器101は、データベース102からスライス画像を抽出して、当該スライス画像を処理することができる。もちろん、コンピュータ機器101は、スライス画像を処理した後、処理後のマーキング情報付きのスライス画像を、データベース102に送信して記憶することができる。
【0023】
具体的には、コンピュータ機器101は、端末であっても、サーバであってもよいし、本願の実施例は、これに対して限定しない。
【0024】
図2は、本願の実施例にて提供される人工知能に基づく画像処理方法のフローチャートである。実施例では、当該人工知能に基づく画像処理方法は、コンピュータ機器に適用されてもよく、当該コンピュータ機器は、上記の実施環境におけるコンピュータ機器101であってもよいし、他のコンピュータ機器であってもよい。つまり、上記のコンピュータ機器101上で訓練してマーキングモデルを取得してもよいし、他のコンピュータ機器上で訓練してマーキングモデルを取得した後、当該マーキングモデルをプロファイルに処理して、当該プロファイルをコンピュータ機器101に送信してもよく、コンピュータ機器101にマーキングモデルが格納されている。もちろん、マーキングする必要がある場合、コンピュータ機器101が他のコンピュータ機器上で訓練して取得したマーキングモデルを呼び出してもよく、本願の実施例は、これに対して限定しない。図2を参照すると、当該方法は、ステップ201~203を含み得る。
【0025】
ステップ201、コンピュータ機器がスライス画像を取得する。
【0026】
実施例では、当該スライス画像は、病理スライスの画像であってもよい。当該スライス画像は、全自動顕微鏡又は光学拡大システムで従来のガラス病理スライスをスキャンして取得したデジタル画像であり、当該デジタル画像は、大サイズ、高解像度の画像であってもよい。当該スライス画像における人体組織は、肝臓部、脳部、肺部などの部位であってもよいし、もちろん、他の人体組織であってもよく、本明細書には、例示的な説明を提供しただけで、当該スライス画像の具体的な種類を限定するものではない。
【0027】
本願の実施例では、コンピュータ機器は、マーキングモデルでスライス画像を処理して、スライス画像における目標人体組織領域の位置をマーキングしてもよく、実施形態では、当該目標人体組織領域は病巣部位と呼ばれてもよく、生命体に病変が発生した部分が所在する領域であり、つまり、病原微生物を有する病変組織が所在する限られた領域である。例えば、乳がん細胞が所在する領域である。
【0028】
ステップ202、コンピュータ機器が当該スライス画像を裁断して、画像ブロックを複数取得する。
【0029】
コンピュータ機器は、スライス画像を裁断することができ、裁断済みの画像ブロックをマーキングモデルの入力とし、当該裁断済みの画像ブロックは、手動でマーキングすることを必要とせず、マーキングモデルに直接入力されてマーキングすることができる。
【0030】
完全なスライス画像は、一般に、数万画素を含み、スライス画像全体に手動でマーキングする場合、作業量が非常に大きく、煩雑である。本願の実施例では、それを裁断後にマーキングモデルに入力することにより、画像ブロックに応じて予測することができ、画素単位で予測する必要がなく、予測の複雑度を大幅に下げ、処理効率を高める。
【0031】
ステップ203、コンピュータ機器が、当該複数の画像ブロックをマーキングモデルに入力し、当該マーキングモデルで当該複数の画像ブロックから当該スライス画像の画素特徴を抽出し、当該画素特徴に応じて、当該スライス画像におけるポリゴン領域の複数の頂点位置を決定して、当該複数の頂点位置を連結し、当該スライス画像のマーキング情報を出力し、当該ポリゴン領域は目標人体組織が所在する領域である。
【0032】
コンピュータ機器が、当該複数の画像ブロックをマーキングモデルに入力し、当該マーキングモデルは、複数の画像ブロックに応じて目標人体組織が所在する領域の頂点位置を予測でき、ここで、当該目標人体組織が所在する領域は、ポリゴン領域である。スライス画像にポリゴンでマーキングすることにより、マーキングされた領域が連続的で穴のないものであるように保証することができ、画素単位で予測する方法と比べて、正確性がより高い。
【0033】
当該マーキングモデルは、訓練済みのモデルであってもよく、当該マーキングモデルは、目標マーキング情報付きのサンプルスライス画像に基づいて訓練して取得できる。
【0034】
本願の実施例は、スライス画像を裁断し、裁断で取得した複数の画像ブロックをマーキングモデルに直接入力し、マーキングモデルでスライス画像におけるポリゴン領域の頂点位置を自動的にマーキングして、頂点位置を連結し、マーキング情報を出力する。ポリゴン領域の頂点位置をマーキングすることによってポリゴン領域を決定し、決定されたポリゴン領域は、連続的で穴のないという目標人体組織領域の特性に合致するため、画像処理の正確性がより高い。そして、画素単位でスライス画像を予測する必要がないので、画像処理過程の複雑度を大幅に下げることができる。さらに、マーキングプロセスは、データの手動マーキングに依存せず、マーキングモデルで自動的にマーキングするため、人件費を大幅に下げ、マーキングする速度を効果的に速めることができ、さらに、画像処理効率を高める。
【0035】
図3は、本願の実施例にて提供される人工知能に基づく画像処理方法のフローチャートである。図3を参照すると、当該方法は、ステップ301~306を含む。
【0036】
ステップ301、コンピュータ機器がスライス画像を取得する。
【0037】
実施形態では、当該スライス画像は、画像データベースに記憶されてもよく、コンピュータ機器は、画像データベースからスライス画像を抽出してもよい。別の実施形態では、当該スライス画像は、当該コンピュータ機器又は他のコンピュータ機器によって収集されてもよく、当該コンピュータ機器が当該スライス画像を処理する。当該スライス画像の数は1つであってもよいし、複数であってもよく、本願の実施例は、これに対して限定しない。
【0038】
ステップ302、コンピュータ機器が当該スライス画像を裁断して、画像ブロックを複数取得する。
【0039】
コンピュータ機器がスライス画像をより小さいサイズの複数の画像ブロックに裁断することにより、スライス画像全体に対して画素単位で予測する必要がなく、予測の複雑度を下げることができる。
【0040】
実施形態では、コンピュータ機器は、スライス画像を同じサイズの複数の画像ブロックに裁断してもよい。具体的には、コンピュータ機器は、目標サイズにしたがって、当該スライス画像を裁断して、複数の当該目標サイズの画像ブロックを取得することができる。こうすると、画像ブロックのサイズが同じで、画像ブロックの処理時の処理方式が同じであってもよく、それにより、コンピュータ機器の計算の難易度を下げ、処理効率を高める。
【0041】
ここで、当該目標サイズを画像処理の需要に合わせて設定してもよく、本願の実施例は、これに対して限定しない。
【0042】
ステップ303、コンピュータ機器が当該複数の画像ブロックをマーキングモデルに入力する。
【0043】
当該マーキングモデルは、訓練済みのモデルであってもよく、その訓練プロセスは、下記のステップ(1)~ステップ(3)により実現されてもよく、当該訓練過程は、当該コンピュータ機器上で行われてもよいし、他のコンピュータ機器上で行われてもよく、本願の実施例は、これに対して限定しない。
【0044】
ステップ(1)、目標マーキング情報付きのサンプルスライス画像を複数取得する。
【0045】
当該複数のサンプルスライス画像は、画像データベースに記憶されてもよく、コンピュータ機器は、画像データベースからサンプルスライス画像を抽出して、モデル訓練を行ってもよい。
【0046】
ここで、当該目標マーキング情報は、当該サンプルスライス画像の実際のマーキング状況を指示するために用いられる。当該目標マーキング情報に応じて、モデルで予測したマーキング情報の正確性を決定し、さらに、モデルパラメータを調整する必要があるか否かを決定することができ、モデルの予測正確性を向上させる。
【0047】
ステップ(2)、当該複数のサンプルスライス画像を初期マーキングモデルに入力し、当該初期マーキングモデルで当該複数のサンプルスライス画像のマーキング情報を予測して、予測マーキング情報を取得する。
【0048】
当該初期マーキングモデルのモデルパラメータが初期値であり、コンピュータ機器は、当該複数のサンプルスライス画像を訓練サンプル及び検証サンプルとして、初期マーキングモデルを訓練することができ、つまり、サンプルスライス画像で初期マーキングモデルのモデルパラメータを調整することにより、数回調整後のモデルパラメータでスライス画像を正確に予測することができ、正確性がより高いマーキング情報を出力する。
【0049】
具体的には、コンピュータ機器が当該複数のサンプルスライス画像を初期マーキングモデルに入力し、初期マーキングモデルで各サンプルスライス画像を予測してもよく、予測結果及び目標マーキング情報に基づいて、初期マーキングモデルの予測能力を決定し、それにより、当該初期マーキングモデルのモデルパラメータを調整することにより、初期マーキングモデルの予測能力が高まっていて、それにより、後で訓練により得られたマーキングモデルで正確にマーキングすることができる。
【0050】
ステップ(3)、当該予測マーキング情報及び目標マーキング情報に応じて、当該初期マーキングモデルのモデルパラメータを、目標条件に合致するまで調整し、当該マーキングモデルを取得する。
【0051】
当該予測マーキング情報及び目標マーキング情報に応じて、当該予測マーキング情報の精度を取得でき、当該精度に応じてモデルパラメータを調整する。ここで、当該目標条件は、当該精度が収束すること、又は反復回数が目標回数に達することなどであってもよく、本願の実施例は、これに対して限定しない。
【0052】
実施形態では、当該初期マーキングモデルがサンプルスライス画像を処理するプロセスは、次のとおりであってもよい。初期マーキングモデルが、当該複数の画像ブロックから当該サンプルスライス画像の画素特徴を抽出し、当該画素特徴に応じて、当該サンプルスライス画像におけるポリゴン領域の複数の頂点位置を決定して、当該複数の頂点位置を連結し、当該サンプルスライス画像の予測マーキング情報を出力する。当該ポリゴン領域は目標人体組織が所在する領域である。
【0053】
実施形態では、当該初期マーキングモデル及びマーキングモデルの構造は、特徴抽出モジュール及び予測モジュールを含んでもよい。ここで、当該特徴抽出モジュールは、特徴抽出ステップを実行するために用いられ、当該予測モジュールは、予測ステップを実行するために用いられる。例えば、当該初期マーキングモデル及びマーキングモデルの構造は、図4に示すとおりであってもよく、特徴抽出モジュールは、Pi-Netモジュールと呼ばれてもよく、予測モジュールはPo-Netモジュールと呼ばれてもよい。
【0054】
実施形態では、当該画素特徴は、分割マスクであってもよく、当該Pi-Netモジュールは、入力画像のための画素レベルの分割マスクを生成し得る。当該Pi-Netモジュールは、分割マスクを生成するために、符号化プロセス及び復号プロセスを実行してもよい。上記の画素特徴の取得プロセスは、次のとおりであってもよい。コンピュータ機器が当該複数の画像ブロックの画素値に応じて、当該複数の画像ブロックを符号化して、当該複数の画像ブロックの特徴を取得し、符号化された特徴を復号して、当該サンプルスライス画像の分割マスク(つまり、サンプルスライス画像の画素特徴)を取得する。
【0055】
具体的な一実施例では、当該Pi-Netモジュールは、エンコーダ及びデコーダから構成され得る。エンコーダは、上記の符号化プロセスを実行するために用いられ、デコーダは、上記の復号プロセスを実行するために用いられる。
【0056】
実施形態では、上記の符号化及び復号のプロセスは、両方とも複数の畳み込み層に基づいて実現でき、エンコーダの複数の畳み込み層は第1畳み込み層と呼ばれてもよく、デコーダの複数の畳み込み層は第2畳み込み層と呼ばれてもよい。
【0057】
対応して、上記の符号化プロセスは、次のとおりであってもよい。コンピュータ機器が、複数の第1畳み込み層に基づいて、当該複数の画像ブロックのうち隣接する画像ブロックに対して畳み込み演算を行い、演算後の第1特徴に対してバッチ正規化(Batch Normalization)処理を行い、モデルパラメータのうちの選択パラメータに応じて、当該選択パラメータに対応する畳み込みカーネルで、当該バッチ正規化処理後の第2特徴に対してダウンサンプリング処理を行って、当該複数の画像ブロックの特徴を取得する。ここで、バッチ正規化は、深層ニューラルネットワークの訓練に用いられる技術であり、具体的には、バッチデータを正規化し、例えば、ニューラルネットワークに入力されるバッチデータ又はニューラルネットワークの中間部のある1つの層によって出力されるバッチデータを正規化する。バッチ正規化は、モデルの収束速度を速めるだけでなく、深層ネットワークにおける「勾配拡散」の問題をある程度緩和することができ、それにより、深層ネットワークモデルの訓練がより容易で安定になる。
【0058】
復号プロセスは次のとおりであってもよい。コンピュータ機器は、複数の第2畳み込み層に基づいて、当該複数の画像ブロックのうち隣接する画像ブロックの特徴に対して畳み込み演算を行い、演算後の第3特徴に対してバッチ正規化処理を行い、モデルパラメータのうちの選択パラメータに応じて、当該選択パラメータに対応する畳み込みカーネルで、当該バッチ正規化処理後の第4特徴に対して逆畳み込み演算を行って、当該サンプルスライス画像の分割マスクを取得する。
【0059】
なお、上記のエンコーダの下位層は、サンプルスライス画像の低レベルの特徴(例えばテクスチャ、エッジなど)を抽出することができ、エンコーダの上位層は、サンプルスライス画像の高レベルの特徴(例えば形状など)を抽出することができる。デコーダは、抽出された特徴に逆畳み込み操作を行って、元の入力サイズと同じサイズの分割マスク(つまり画素特徴)に復元するために用いられる。
【0060】
上記の符号化プロセスについて、隣接するブロックの間に「畳み込み->バッチ正規化->カーネル選択モジュール->ダウンサンプリング」の操作を導入し、特徴マップのサイズを半分にして、特徴チャネルの数を2倍にする。復号プロセスについて、隣接するブロックの間に「畳み込み->バッチ正規化->カーネル選択モジュール->逆畳み込み」の演算を導入し、特徴マップのサイズを2倍にして、特徴チャネルの数を半分にし、つまり、元の入力サイズと同じサイズの分割マスクに復元するプロセスが実現された。
【0061】
ここで、カーネル選択モジュールのパラメータが当該選択パラメータであり、当該選択パラメータは、異なる畳み込みカーネルを選択するために用いられる。当該選択パラメータをモデルの訓練中に学習で取得することができ、つまり、上記のステップ(3)において、モデルパラメータを調整する際に、当該選択パラメータを調整してもよく、それにより、モデルの訓練中に、適切な畳み込みカーネルを選択して予測することを動的に学習し、モデルの特徴抽出能力を高め、さらにマーキング能力を高める。当該学習プロセスで、異なる畳み込みカーネル(例えば3×3、5×5、7×7)の特徴表現を動的に学習することができ、受容野(Receptive Field)が極めて豊富になり、モデルが特徴をよりよく抽出するのに有利である。ここで、受容野は、畳み込みニューラルネットワークの各層によって出力される特徴マップ(feature map)上の画素点が入力画像にマッピングされた領域のサイズであり、即ち、特徴マップ上の1つの点に対応する入力画像上の領域である。
【0062】
実施形態では、符号化プロセスと復号プロセスとの間にスキップ接続を確立することができ、つまり、第1畳み込み層と第2畳み込み層との間にスキップ接続を確立し、各第2畳み込み層が、直前の第2畳み込み層の出力を処理する際に、さらに、画像の詳細情報を符号化段階によりよく伝送するように保証するために、第1畳み込み層(符号化時に採用される畳み込み層)の出力結果と結合することができ、それにより、ポリゴン領域(興味ある領域とも呼ばれる)をより効果的に位置特定する。
【0063】
具体的には、当該復号プロセスにおいて、各第2畳み込み層について、コンピュータ機器は、当該第2畳み込み層に対応する第1畳み込み層によって出力される特徴に応じて、当該第2畳み込み層の直前の第2畳み込み層によって出力される特徴を復号して、当該第2畳み込み層の出力を取得し、当該複数の第2畳み込み層は、2つずつ隣接し、当該複数の第2畳み込み層によって出力される特徴を連結して、当該サンプルスライス画像の分割マスクを取得する。
【0064】
実施例では、当該Po-Netモジュールは、2層畳み込み長短期記憶(Convolutional Long Short-Term Memory、ConvLSTM)モデルであってもよい。具体的には、コンピュータ機器は、2層畳み込み長短期記憶ConvLSTMモデルに基づいて、当該画素特徴に対して畳み込み演算を行って、当該スライス画像におけるポリゴン領域の複数の頂点位置を取得してもよい。
【0065】
ここで、長短期記憶(LSTM、Long Short-Term Memory)モデルは、時系列データ処理の再帰型ニューラルネットワークであり、一般的なRNN(Recurrent Neural Network、再帰型ニューラルネットワーク)に存在する長期依存の問題を解決するのに適しており、画像シーケンスを効果的に処理できる。上記の複数の画像ブロックは、画像ブロックシーケンスであり、ループ予測により、頂点位置を1つずつ予測して、最終のマーキング情報を取得する。LSTMと比べて、ConvLSTMは、行列乗算の代わりに畳み込み演算を使用するため、訓練パラメータを著しく減少することができ、動作効率を高める。
【0066】
具体的には、目標グリッドに対応する頂点を使用してもよく、目標グリッドの画素特徴を頂点位置とする。上記の予測過程において、当該画素特徴を当該2層ConvLSTMモデルに入力し、当該2層ConvLSTMモデルが、複数の目標グリッドの周辺グリッドの画素特徴に対して畳み込み演算を行い、畳み込み演算結果を符号化して、当該目標グリッドの画素特徴を取得し、当該複数の目標グリッドの画素特徴を当該スライス画像におけるポリゴン領域の複数の頂点位置とする。
【0067】
当該目標グリッドを画像処理の需要に合わせて設定してもよく、本願の実施例は、これに対して限定しない。畳み込み演算結果を符号化するとき、いずれの符号化方式を採用してもよく、ここでは、one-hot(ワン・ホット)符号化を例として説明する。例えば、上記の各ConvLSTMステップの出力は、28×28サイズのグリッドであり、さらに、ワン・ホット符号化に、あるグリッドユニットをポリゴン領域の1つの頂点の空間位置(つまり頂点位置)に対応させる。ワン・ホット符号化は、1ビット有効符号化とも呼ばれ、主に、Nビット状態レジスタを採用してN個の状態を符号化し、各状態は、いずれもその独立レジスタビットを有し、任意の時刻で1ビットのみが有効である。
【0068】
具体的には、当該2層ConvLSTMモデルは、具体的には、下記のプロセスにより予測プロセスを実現し、複数回の予測により、各頂点位置を1つずつ予測することができる。コンピュータ機器は、当該画素特徴を当該2層ConvLSTMモデルに入力し、当該2層ConvLSTMモデルが第1目標グリッドの周辺グリッドの画素特徴に対して畳み込み演算を行い、その後、畳み込み演算結果を符号化して、当該第1目標グリッドの画素特徴を取得し、当該目標グリッドの画素特徴を第1頂点位置とする。コンピュータ機器は、当該ConvLSTMモデルを基に、当該画素特徴と当該第1頂点位置に基づいて、第2目標グリッドの周辺グリッドの画素特徴に対して畳み込み演算を行い、その後、畳み込み演算結果を符号化して、当該第2目標グリッドの画素特徴を取得し、当該第2目標グリッドの画素特徴を第2頂点位置とする。コンピュータ機器は、当該画素特徴、当該第1頂点位置及び当該第2頂点位置に基づいて、ポリゴン領域の全ての頂点位置を取得するまで、畳み込み演算及び符号化を行う。
【0069】
例えば、図4に示すように、Po-Netのステップtでの入力は、Pi-Netによって出力される連結特徴マップ(抽出された画素特徴)、予測頂点y(t-1)、y(t-2)及び初期頂点y0の3つの部分を含み得る。
【0070】
実施形態では、モデルを訓練する場合、前の2つの頂点位置に基づいて次の頂点位置を予測する際に、目標マーキング情報における前の2つの頂点位置を採用して、当該次の頂点位置を予測することができ、それにより実際のマーキング情報に応じて予測を指導し、予測モジュールのマーキング精度を向上させることができる。具体的には、当該初期モデルで当該目標マーキング情報における前の2つの頂点位置を当該サンプルスライス画像における前の2つの頂点位置として決定することができ、当該前の2つの頂点位置及び当該サンプルスライス画像に基づいて、次の頂点位置を予測して、当該予測マーキング情報を取得する。
【0071】
例えば、図4に示すように、ステップtに対する予測について、前の2つの頂点位置y(t-1)及びy(t-2))には、予測したマーキングではなく、実際のポリゴンマーキングを採用して、次の頂点位置y(t)を予測し、それによりConvLSTMのマーキング精度を向上させることができる。モデルの推理過程において、各ConvLSTMステップでポリゴンマーキングの1つの頂点が生成され、これらの頂点を順番に連結することにより、最終マーキング結果を取得できる。
【0072】
実施形態では、上記の訓練中に、1種以上の損失値で予測プロセスの精度を測ることができ、具体的には、当該損失値は予測損失値、分割損失値又は制約損失値のうちの少なくとも1つであってもよい。
【0073】
そのため、上記のステップ(3)において、コンピュータ機器は、当該予測マーキング情報及び目標マーキング情報に応じて予測損失値を取得すること、当該サンプルスライス画像の予測画素特徴及び目標画素特徴に応じて分割損失値を取得すること、又は、予測画素特徴と予測マーキング情報との間の制約損失値を取得することのうちの1つを実行でき、その後、取得した少なくとも1つの損失値に応じて、当該初期マーキングモデルのモデルパラメータを調整する。
【0074】
この3種類の損失値について、上記の予測損失値は
【数1】

であってもよく、分割損失値は
【数2】

であってもよく、制約損失関数はLConsであってもよい。この3種類の損失値の取得プロセスは、下記の式(1)~式(3)で実現できる。
【0075】
分割損失値
【数3】

は、予測したポリゴン領域(がん転移領域などの目標人体組織領域)の分割マスクと実際の画素レベルの分割マスクとの間の差異を測るために用いられる。
【数4】

ここで、piは、画素iがポリゴン領域に分類される確率を表し、qi∈{0、1}は、画素iの目標マーキング情報(実際の分割マスク)を表し、εは、数値の安定性を向上せるための非常に小さい整数である。Σは、積算関数又は加算関数である。
【0076】
式(1)において、
【数5】

は、2値の交差エントロピー損失関数とDice(サイコロ)損失関数とで構成されてもよい。こうすると、病巣部位の位置特定プロセスを頂点予測プロセスと考える場合、面積制約、即ち実際の分割マスクと予測したポリゴンとの間の共通部分と和集合の比(Intersection Over Union、IoU)を考慮できる。当該
【数6】

は、Dice損失関数を含み、
【数7】

の最適化は共通部分と和集合の比の改善に役立ち、それによりマーキングの質を向上させる。
【0077】
予測損失値
【数8】

は、予測したポリゴンと実際のポリゴンとの間の差異を測るために用いられる。各予測したポリゴンの頂点は、ConvLSTMステップごとにワン・ホット符号化され、当該頂点予測プロセスは、分類タスクとして見なされてもよく、画素が目標人体組織であるか否か、つまり、ポリゴン領域内の点であるか否かに応じて分類するために用いられる。以下、式(2)で、2値の交差エントロピー損失を採用して、
【数9】

を最適化する。
【0078】
【数10】

ここで、mtは、ポリゴンの頂点のステップtでの予測位置であり、ntは、当該頂点の実際の位置である。
【0079】
制約損失関数LConsは、Pi-Net及びPo-Netの出力結果を制約するために用いられ、下記の式(3)で算出できる。
【数11】

ここで、xcは、Pi-Netによって生成されたある画素点がポリゴン領域である確率を表し、yc=1は、画素点cが、Po-Netで生成されたポリゴンのマーキングフレームによって囲まれた領域の内部、即ち、ポリゴン領域内にあることを表す。式(3)において、L1損失を採用して2つのモジュールの出力を一致させることにより、両者は、互いに補い合って特徴を学習し、マーキングの正確性をさらに向上させた。
【0080】
ステップ304、コンピュータ機器が、マーキングモデルに基づいて、当該複数の画像ブロックから当該スライス画像の画素特徴を抽出する。
【0081】
ステップ304は、上記のステップ303に示す特徴抽出プロセスに類似し、当該マーキングモデルは、特徴抽出モジュール及び予測モジュールを含んでもよい。ここで、当該特徴抽出モジュールは、ステップ304を実行するために用いられ、当該予測モジュールは下記のステップ305を実行するために用いられ、2つのモジュールが実行するステップは、上記のモデル訓練プロセスにおける特徴抽出ステップに類似し、いずれも複数の画像ブロックを処理し、ここでは簡単に説明するだけで、詳細な説明を省略する。
【0082】
実施形態では、当該画素特徴は、分割マスクであってもよく、対応して、ステップ304は、次のとおりであってもよい。コンピュータ機器は、当該複数の画像ブロックの画素値に応じて、当該複数の画像ブロックを符号化して、当該複数の画像ブロックの特徴を取得し、符号化で取得した特徴を復号して、当該スライス画像の分割マスクを取得する。
【0083】
上記の符号化及び復号プロセスは、いずれも複数の畳み込み層に基づいて実現され得る。符号化プロセスは、次のとおりであり得る。コンピュータ機器が、複数の第1畳み込み層に基づいて、当該複数の画像ブロックのうち隣接する画像ブロックに対して畳み込み演算を行い、演算後の第1特徴に対してバッチ正規化処理を行い、モデルパラメータにおける選択パラメータに応じて、当該選択パラメータに対応する畳み込みカーネルで、当該バッチ正規化処理後の第2特徴に対してダウンサンプリング処理を行って、当該複数の画像ブロックの特徴を取得することができる。
【0084】
対応して、復号プロセスは、次のとおりであってもよい。コンピュータ機器は、複数の第2畳み込み層に基づいて、当該複数の画像ブロックのうち隣接する画像ブロックの特徴に対して畳み込み演算を行い、演算後の第3特徴に対してバッチ正規化処理を行い、モデルパラメータにおける選択パラメータに応じて、当該選択パラメータに対応する畳み込みカーネルで、当該バッチ正規化処理後の第4特徴に対して逆畳み込み演算を行って、当該スライス画像の分割マスクを取得することができる。
【0085】
実施形態では、符号化プロセスと復号プロセスとの間にスキップ接続を確立することができ、つまり、第1畳み込み層と第2畳み込み層との間にスキップ接続を確立し、各第2畳み込み層が、直前の第2畳み込み層の出力を処理する際に、さらに、画像の詳細情報を符号化段階によりよく伝送するように保証するために、第1畳み込み層(符号化時に採用される畳み込み層)の出力結果と結合することができ、それにより、ポリゴン領域(興味ある領域とも呼ばれる)をより効果的に位置特定する。
【0086】
具体的には、当該復号プロセスにおいて、各第2畳み込み層について、コンピュータ機器は、当該第2畳み込み層に対応する第1畳み込み層によって出力される特徴に応じて、当該第2畳み込み層の直前の第2畳み込み層によって出力される特徴を復号して、当該第2畳み込み層の出力を取得し、当該複数の第2畳み込み層は2つずつ隣接し、当該複数の第2畳み込み層によって出力される特徴を連結して、当該スライス画像の分割マスクを取得する。
【0087】
ステップ305、コンピュータ機器が、マーキングモデルに基づいて、当該画素特徴に応じて、当該スライス画像におけるポリゴン領域の複数の頂点位置を決定し、当該ポリゴン領域は目標人体組織が所在する領域である。
【0088】
コンピュータ機器は、画素特徴を抽出した後、頂点位置を予測してもよく、頂点位置を取得した後、頂点位置を連結すると、当該ポリゴン領域を決定できる。
【0089】
実施形態では、当該予測プロセスは、2層畳み込み長短期記憶(Convolutional Long Short-Term Memory、ConvLSTM)モデルによって実現できる。具体的には、コンピュータ機器は、2層畳み込み長短期記憶ConvLSTMモデルを基に、当該画素特徴に対して畳み込み演算を行って、当該スライス画像におけるポリゴン領域の複数の頂点位置を取得する。
【0090】
具体的には、目標グリッドに対応する頂点を使用してもよく、目標グリッドの画素特徴を頂点位置とする。上記の予測プロセスにおいて、当該画素特徴を当該2層ConvLSTMモデルに入力し、当該2層ConvLSTMモデルで複数の目標グリッドの周辺グリッドの画素特徴に対して畳み込み演算を行い、畳み込み演算結果を符号化して、当該目標グリッドの画素特徴を取得し、当該複数の目標グリッドの画素特徴を当該スライス画像におけるポリゴン領域の複数の頂点位置とする。
【0091】
具体的には、当該2層ConvLSTMモデルは、具体的には、下記のプロセスにより予測プロセスを実現する。コンピュータ機器は、当該画素特徴を当該2層ConvLSTMモデルに入力することができ、当該2層ConvLSTMモデルで第1目標グリッドの周辺グリッドの画素特徴に対して畳み込み演算を行い、その後、畳み込み演算結果を符号化して、当該第1目標グリッドの画素特徴を取得し、当該目標グリッドの画素特徴を第1頂点位置とする。コンピュータ機器は、当該ConvLSTMモデルを基に、当該画素特徴及び当該第1頂点位置に基づいて、第2目標グリッドの周辺グリッドの画素特徴に対して畳み込み演算を行い、その後、畳み込み演算結果を符号化して、当該第2目標グリッドの画素特徴を取得し、当該第2目標グリッドの画素特徴を第2頂点位置とすることができる。コンピュータ機器は、当該画素特徴、当該第1頂点位置及び当該第2頂点位置に基づいて、ポリゴン領域の全ての頂点位置を取得するまで、畳み込み演算及び符号化を行う。
【0092】
当該ステップ305は、上記のステップ303におけるモデル訓練プロセス中の予測ステップに類似し、ここでは詳細な説明を省略する。
【0093】
ステップ306、コンピュータ機器が、マーキングモデルに基づいて、当該複数の頂点位置を連結し、当該スライス画像のマーキング情報を出力する。
【0094】
当該ステップ306は、上記のステップ303に示すモデル訓練プロセス中の対応する連結して出力するステップに類似し、ここでは詳細な説明を省略する。
【0095】
実施形態では、当該コンピュータ機器は、さらに、当該スライス画像のマーキング情報を表示することもでき、ユーザが、マーキング情報が正確でないと思って、それを補正したい場合、当該マーキング情報に対して補正操作を行える。コンピュータ機器は、当該補正操作を検出した場合、当該スライス画像のマーキング情報に対する補正操作に応答し、当該補正操作にしたがって、当該スライス画像のマーキング情報を補正する。コンピュータ機器は、さらに、補正後のマーキング情報をマーキングモデルに再入力して、マーキングモデルで再マーキングし、精度がより高いマーキング情報を取得することもできる。具体的には、コンピュータ機器は、当該補正後のマーキング情報を当該マーキングモデルに入力し、当該マーキングモデルで、当該補正後のマーキング情報に基づいて、当該スライス画像におけるポリゴン領域の複数の頂点位置を再マーキングして、マーキング情報を取得する。
【0096】
コンピュータ機器は、マーキングプロセスをポリゴンの頂点予測タスクと見なす。ポリゴンは、通常、一連の順番に連結された頂点から構成され、その予測複雑度は、画素単位でマスクを予測する複雑度よりもかなり低い。したがって、ポリゴン領域(例えばがん転移領域)の境界の予測がより容易になり、ノイズが取り込まれるリスクも低下する。さらに、ポリゴンに基づく予測により、マンマシンインタラクションが可能になる。具体的に言えば、生成されたポリゴンが不正確であるか又はエッジが自己交差すると、手動でマーキングする者は、ポリゴンの頂点(即ち、予測が不正確である頂点を正確な位置にドラックする)を容易に調整でき、さらに、手動で校正した新しいポリゴンをアルゴリズムに入力して、最適マーキング結果を取得するまで、新たな反復を行う。
【0097】
以下、1つの具体的な例示により、本願の実施例にて提供されるマーキングモデルを既存のpolygon-RNN(ポリゴン-RNN)と比較し、具体的には次のとおりであってもよい。
【0098】
Camelyon16データセットを採用して、上記のマーキングモデル及びpolygon-RNNをテストし、Camelyon16は、データセットであり、当該データセットには、158枚の病理スライス(つまりスライス画像)が含まれ、ここで、訓練セット、検証セット及びテストセットは、それぞれ110、24、24枚である。全てのスライス(つまりスライス画像)を10倍倍率で、224×224(つまり目標サイズ)の小さな画像(つまり画像ブロック)に裁断して、モデルの入力として使用する。データの不均衡の問題を低減するために、病理スライスから1000枚の小さな画像をランダムに抽出し、裁断した小さな画像の数が1000枚よりも多い場合、1つの実例のみを含む小さな画像しか保留しない。
【0099】
当該例示において、2つのモデルの性能を評価する際に採用された評価指標は、感度(Sensitivity)、精度(Precision)、Dice値(Dice Score)及び共通部分と和集合の比値(IoU Score)である。全ての実験において、訓練モデルに採用されたロッドのサイズは8であり、Adam最適化装置を使用してモデル訓練を行い、初期学習率を1e-4に設定し、10個の訓練周期の後に10倍低下し、当該訓練プロセスには、20個の訓練周期が含まれ得る。上記の2種類のモデルは、いずれもPyTorchフレームワークによって実現でき、その配置環境として、24GBメモリのNVIDIA Tesla P40 GPUカードを採用できる。ここでは、1つの例示的な説明にすぎず、上記のモデル訓練及び配置状況を限定するものではない。2種類のモデルのアルゴリズム及び本願にて提供される複数の結合アルゴリズムの性能の比較結果は、表1に示すとおりである。
【表1】
【0100】
表1に示すように、第1行及び第2行におけるモデルは、
【数12】

を使用して訓練し、それらの区別点は、特徴抽出モジュールが異なることである。
【0101】
Polygon-RNN(第1行)は、特徴抽出装置としてVGG-16(Visual Geometry Group-16、ビジョン幾何学グループ-16)を採用した。SkmUNetは、カーネル選択モジュール(SKM)に埋め込まれたUNetを表す。UNetは、深層学習分割ネットワークである。skmは、パターン構造及び既存のマッチング知識に基づくパターンマッチングモデルであり、ここでは、カーネル選択モジュールと呼ぶ。本願の実施例にて提供されるDice値及びIoU値の著しい向上は、提供された特徴抽出モジュールで特徴を効果的に抽出きるため、モデル性能を向上させることを表す。
【数13】

の目的が予測したポリゴン頂点と実際の頂点との間の差異を測ることであるため、
【数14】

の最適化は、ポリゴンの輪郭/境界のみを考慮し、ポリゴン内部領域の情報を無視した。これに基づき、
【数15】

は、より多くの監督情報(モデル2と3を比較)を提供する目的で導入された。
【数16】

は、画素単位での分割タスクを実現し、
【数17】

はポリゴンに基づくマーキングタスクを実現する。両者は互いに協働し、連携して、最適化することにより、特徴抽出モジュールが、2つのタスクが共有する特徴を学習することができる。ネットワーク全体に
【数18】

のみを使用して訓練すると、過度なフィッティングになる可能性がある。
【0102】
理想的な状況では、Pi-Netの予測結果がPo-Netの予測結果と同じであるので、LConsの導入目的は、2つのタスクの出力を一致するように維持する(モデル3と4とを比較)ことである。LConsの最小化により、2つのタスクが互いに制約し、Pi-Netは、Po-Netの予測を補助することができ、それにより、マーキング結果の精度を向上させる。本願の実施例にて提供される方法を画素分割方法(即ちPi-Net)と比較すると、評価結果は、Dice値0.89、IoU値0.84である。画素単位での分割方法と比較すると、本願の実施例にて提供されるモデルは、Dice値及びIoU値が2.25%及び2.38%向上したため、質の高い初期マーキング結果が実現できる。
【0103】
図5に示すように、複数種類のアルゴリズムで画像を処理した後のマーキング情報の比較結果を提供した。図6に示すように、本願の実施例にて提供される方法を利用して生成したマーキング結果が、病理学者がマーキングしたものよりも正確である場合もある。そして、本願の実施例にて提供される方法は、マーキングコストを大幅に節約できる。
【0104】
本願の実施例は、スライス画像を裁断し、裁断で取得した複数の画像ブロックをマーキングモデルに直接入力し、マーキングモデルでスライス画像におけるポリゴン領域の頂点位置を自動的にマーキングして、頂点位置を連結し、マーキング情報を出力する。ポリゴン領域の頂点位置をマーキングすることによってポリゴン領域を決定し、決定されたポリゴン領域は、連続的で穴のないという目標人体組織領域の特性に合致するため、画像処理の正確性がより高い。そして、画素単位でスライス画像を予測する必要がないので、画像処理過程の複雑度を大幅に下げることができる。さらに、マーキングプロセスは、データの手動マーキングに依存せず、マーキングモデルで自動的にマーキングするため、人件費を大幅に下げ、マーキングする速度を効果的に速めることができ、さらに、画像処理効率を高める。
【0105】
上記の全ての技術案を任意に組み合わせて本願の実施例を形成することができ、ここでは詳細な説明を省略する。
【0106】
図7は、本願の実施例にて提供される人工知能に基づく画像処理装置の構造模式図である。図7を参照すると、当該装置は、
スライス画像を取得するための取得モジュール701と、
当該スライス画像を裁断して、画像ブロックを複数取得するための裁断モジュール702と、
当該複数の画像ブロックをマーキングモデルに入力し、当該マーキングモデルで当該複数の画像ブロックから当該スライス画像の画素特徴を抽出し、当該画素特徴に応じて、当該スライス画像におけるポリゴン領域の複数の頂点位置を決定して、当該複数の頂点位置を連結し、当該スライス画像のマーキング情報を出力するため用いられ、当該ポリゴン領域は目標人体組織が所在する領域である処理モジュール703と、を含む。
【0107】
実施形態では、当該画素特徴は、分割マスクであり、
処理モジュール703は、符号化ユニット及び復号ユニットを含み、
当該符号化ユニットは、当該複数の画像ブロックの画素値に応じて、当該複数の画像ブロックを符号化して、当該複数の画像ブロックの特徴を取得するために用いられ、
当該復号ユニットは、符号化で取得した特徴を復号して、当該スライス画像の分割マスクを取得するために用いられる。
【0108】
実施形態では、当該スライス画像の画素特徴を抽出する当該ステップは、複数の畳み込み層に基づいて実現され、
当該符号化ユニットは、複数の第1畳み込み層に基づいて、当該複数の画像ブロックのうち隣接する画像ブロックに対して畳み込み演算を行い、演算後の第1特徴に対してバッチ正規化処理を行い、モデルパラメータにおける選択パラメータに応じて、当該選択パラメータに対応する畳み込みカーネルで、当該バッチ正規化処理後の第2特徴に対してダウンサンプリング処理を行って、当該複数の画像ブロックの特徴を取得するために用いられる。
【0109】
実施形態では、当該復号ユニットは、複数の第2畳み込み層に基づいて、当該複数の画像ブロックのうち隣接する画像ブロックの特徴に対して畳み込み演算を行い、演算後の第3特徴に対してバッチ正規化処理を行い、モデルパラメータにおける選択パラメータに応じて、当該選択パラメータに対応する畳み込みカーネルで、当該バッチ正規化処理後の第4特徴に対して逆畳み込み演算を行って、当該スライス画像の分割マスクを取得するために用いられる。
【0110】
実施形態では、当該復号ユニットは、各第2畳み込み層について、当該第2畳み込み層に対応する第1畳み込み層によって出力される特徴に応じて、当該第2畳み込み層の直前の第2畳み込み層によって出力される特徴を復号して、当該第2畳み込み層の出力を取得し、当該複数の第2畳み込み層は2つずつ隣接し、当該複数の第2畳み込み層によって出力される特徴を連結して、当該スライス画像の分割マスクを取得するために用いられる。
【0111】
実施形態では、処理モジュール703は、頂点決定ユニットを含み、当該頂点決定ユニットは、2層畳み込み長短期記憶ConvLSTMモデルを基に、当該画素特徴に対して畳み込み演算を行って、当該スライス画像におけるポリゴン領域の複数の頂点位置を取得するために用いられる。
【0112】
実施形態では、当該頂点決定ユニットは、当該画素特徴を当該2層ConvLSTMモデルに入力し、当該2層ConvLSTMモデルで複数の目標グリッドの周辺グリッドの画素特徴に対して畳み込み演算を行い、畳み込み演算結果を符号化して、当該目標グリッドの画素特徴を取得し、当該複数の目標グリッドの画素特徴を当該スライス画像におけるポリゴン領域の複数の頂点位置とするために用いられる。
【0113】
実施形態では、当該頂点決定ユニットは、当該画素特徴を当該2層ConvLSTMモデルに入力し、当該2層ConvLSTMモデルで第1目標グリッドの周辺グリッドの画素特徴に対して畳み込み演算を行い、畳み込み演算結果を符号化して、当該第1目標グリッドの画素特徴を取得し、当該目標グリッドの画素特徴を第1頂点位置とし、当該ConvLSTMモデルを基に、当該画素特徴及び当該第1頂点位置に基づいて、第2目標グリッドの周辺グリッドの画素特徴に対して畳み込み演算を行い、畳み込み演算結果を符号化して、当該第2目標グリッドの画素特徴を取得し、当該第2目標グリッドの画素特徴を第2頂点位置とし、当該画素特徴、当該第1頂点位置及び当該第2頂点位置に基づいて、当該ポリゴン領域の複数の頂点位置を取得するまで、畳み込み演算及び符号化を行うために用いられる。
【0114】
実施形態では、当該マーキングモデルの訓練プロセスは、
目標マーキング情報付きのサンプルスライス画像を複数取得するステップと、
当該複数のサンプルスライス画像を初期マーキングモデルに入力し、当該初期マーキングモデルで当該複数のサンプルスライス画像のマーキング情報を予測して、予測マーキング情報を取得するステップと、
当該予測マーキング情報及び目標マーキング情報に応じて、当該初期マーキングモデルのモデルパラメータを、目標条件に合致するまで調整し、当該マーキングモデルを取得するステップと、を含む。
【0115】
実施形態では、当該初期マーキングモデルで当該複数のサンプルスライス画像のマーキング情報を予測し、予測マーキング情報を取得する当該ステップは、
当該初期モデルで当該目標マーキング情報における目標の前の2つの頂点位置を当該サンプルスライス画像における前の2つの頂点位置として決定するステップと、
当該前の2つの頂点位置及び当該サンプルスライス画像に基づいて、次の頂点位置を予測して、当該予測マーキング情報を取得するステップと、を含む。
【0116】
実施形態では、当該予測マーキング情報及び目標マーキング情報に応じて、当該初期マーキングモデルのモデルパラメータを調整する当該ステップは、
当該予測マーキング情報及び目標マーキング情報に応じて予測損失値を取得すること、当該サンプルスライス画像の予測画素特徴及び目標画素特徴に応じて分割損失値を取得すること、又は予測画素特徴と予測マーキング情報との間の制約損失値を取得することのうちの少なくとも1つを実行するステップと、
取得した少なくとも1つの損失値に応じて、当該初期マーキングモデルのモデルパラメータを調整するステップと、を含む。
【0117】
実施形態では、当該装置は、補正モジュールをさらに含み、当該補正モジュールは、当該スライス画像のマーキング情報に対する補正操作に応答し、当該補正操作にしたがって、当該スライス画像のマーキング情報を補正し、当該補正後のマーキング情報を当該マーキングモデルに入力し、当該マーキングモデルで当該補正後のマーキング情報に基づいて、当該スライス画像におけるポリゴン領域の複数の頂点位置を再マーキングして、マーキング情報を取得するために用いられる。
【0118】
実施形態では、裁断モジュール702は、目標サイズにしたがって、当該スライス画像を裁断して、複数の当該目標サイズの画像ブロックを取得するために用いられる。
【0119】
本願の実施例にて提供される装置は、スライス画像を裁断し、裁断で取得した複数の画像ブロックをマーキングモデルに直接入力し、マーキングモデルでスライス画像におけるポリゴン領域の頂点位置を自動的にマーキングして、頂点位置を連結し、マーキング情報を出力する。ポリゴン領域の頂点位置をマーキングすることによってポリゴン領域を決定し、決定されたポリゴン領域は、連続的で穴のないという目標人体組織領域の特性に合致するため、画像処理の正確性がより高い。そして、画素単位でスライス画像を予測する必要がないので、画像処理過程の複雑度を大幅に下げることができる。さらに、マーキングプロセスは、データの手動マーキングに依存せず、マーキングモデルで自動的にマーキングするため、人件費を大幅に下げ、マーキングする速度を効果的に速めることができ、さらに、画像処理効率を高める。
【0120】
なお、上記の実施例にて提供される人工知能に基づく画像処理装置は、画像を処理する際に、上記の各機能モジュールの分割を例に説明しただけで、実際の応用において、必要に応じて上記の機能を異なる機能モジュールに割り当てて達成してもよく、即ち上述の機能の全部又は一部を達成するために、コンピュータ機器の内部構造を異なる機能モジュールに分割する。又、上記の実施例にて提供される人工知能に基づく画像処理装置は、人工知能に基づく画像処理方法実施例と同じ構想に属し、その具体的な実現プロセスは、方法の実施例を参照でき、ここでは詳細な説明を省略する。
【0121】
上記のコンピュータ機器は、図8に示す端末であっても、図9に示すサーバであってもよく、本願の実施例は、これに対して限定しない。
【0122】
図8は、本願の実施例にて提供される端末の構造模式図である。端末800は、スマートフォン、タブレット、MP3(Moving Picture Experts Group Audio Layer III、ムービング・ピクチャー・エクスパーツ・グループオーディオ層3)プレーヤ、MP4(Moving Picture Experts Group Audio Layer IV、ムービング・ピクチャー・エクスパーツ・グループオーディオ層4)プレーヤ、ノート型コンピュータ又はデスクトップ型コンピュータであってもよい。端末800は、ユーザ機器、携帯型端末、ラップトップ型端末、デスクトップ型端末などの他の名称で呼ばれることもある。
【0123】
通常、端末800は、プロセッサ801及びメモリ802を含む。
【0124】
プロセッサ801は、例えば4コアプロセッサ、8コアプロセッサなどの1つ又は複数の処理コアを含んでもよい。プロセッサ801は、DSP(Digital Signal Processing、デジタル信号処理)、FPGA(Field-Programmable Gate Array、フィールドプログラマブルゲートアレイ(FPGA))、PLA(Programmable Logic Array、プログラマブルロジックアレイ)のうちの少なくとも1つのハードウェアの形で実装されてもよい。プロセッサ801は、メインプロセッサ及びコプロセッサを含んでもよく、メインプロセッサは、ウェイク状態でのデータを処理するためのプロセッサであり、CPU(Central Processing Unit、中央処理装置)とも呼ばれ、コプロセッサは、待機状態でのデータを処理するための低消費電力プロセッサである。一部の実施例では、プロセッサ801には、GPU(Graphics Processing Unit、グラフィックス処理ユニット)が組み込まれてもよく、GPUは、ディスプレイに表示しようとするコンテンツのレンダリング及び描画を担当するために用いられる。一部の実施例では、プロセッサ801は、さらに、機械学習に関する演算操作を処理するためのAI(Artificial Intelligence、人工知能)プロセッサを含んでもよい。
【0125】
メモリ802は、1つ又は複数のコンピュータ可読記憶媒体をふくんでもよく、当該コンピュータ可読記憶媒体は、非一時的なものであってもよい。メモリ802は、さらに、高速ランダムアクセスメモリと、例えば1つ又は複数のディスク記憶機器、フラッシュメモリ記憶機器などの不揮発性メモリと、を含んでもよい。一部の実施例では、メモリ802内の非一時的なコンピュータ可読記憶媒体は、少なくとも1つのプログラムコードを記憶するために用いられ、当該少なくとも1つのプログラムコードは、プロセッサ801によって実行されることで、本願の方法の実施例にて提供される人工知能に基づく画像処理方法を実現する。
【0126】
一部の実施例では、端末800は、任意選択で、周辺機器インターフェース803及び少なくとも1つの周辺機器をさらに含む。プロセッサ801、メモリ802及び周辺機器インターフェース803は、バス又は信号線を介して互いに接続されてもよい。各周辺機器は、バス、信号線又は回路基板を介して周辺機器インターフェース803に接続されてもよい。具体的には、周辺機器は、無線周波数回路804、タッチディスプレイ805、カメラ806、オーディオ回路807、測位コンポーネント808及び電源809のうちの少なくとも1つを含む。
【0127】
一部の実施例では、端末800は、1つ又は複数のセンサ810をさらに含む。当該1つ又は複数のセンサ810は、加速度センサ811、ジャイロセンサ812、圧力センサ813、指紋センサ814、光学センサ815及び近接センサ816を含むが、これらに限定されない。
【0128】
当業者であれば理解できるように、図8に示す構造は、端末800を限定するもではなき、端末800は、図示より多く又は少ないコンポーネントを含んでもよく、あるいはいくらかのコンポーネントを組み合わせたものであってもよく、あるいはコンポーネントの異なる配置を採用してもよい。
【0129】
図9は、本願の実施例にて提供されるサーバの構造模式図であり、当該サーバ900は、構成又は性能の違いにより比較的大きな差が発生することができ、1つ又は1つ以上のプロセッサ(Central Processing Units、CPU)901及び1つ又は1つ以上のメモリ902を含んでもよく、ここで、当該メモリ902には、少なくとも1つのプログラムコードが設けられ、当該少なくとも1つのプログラムコードは、上記の各方法の実施例にて提供される人工知能に基づく画像処理方法を実現するために、当該プロセッサ901によってロードされて実行される。無論、当該サーバは、入出力を行うために、有線又は無線ネットワークインターフェース、キーボード及び入力出力インターフェースなどの部材をさらに有してもよく、当該サーバは、他の機器機能を実装するための部材をさらに含んでもよく、ここでは詳細な説明を省略する。
【0130】
例示的な実施例では、プログラムコードを含むメモリなど、コンピュータ可読記憶媒体をさらに提供し、上記のプログラムコードがプロセッサによって実行されると、上記の実施例における人工知能に基づく画像処理方法が実施される。例えば、当該コンピュータ可読記憶媒体は、読み取り専用メモリ(Read-Only Memory、 ROM)、ランダムアクセスメモリ(Random Access Memory、RAM)、読み取り専用コンパクトディスク(Compact Disc Read-Only Memory、CD-ROM)、磁気テープ、フロッピーディスクや光データストレージデバイスなどであり得る。
【0131】
例示的な実施例では、コンピュータプログラム製品又はコンピュータプログラムをさらに提供し、当該コンピュータプログラム製品又はコンピュータプログラムは、コンピュータ可読記憶媒体に記憶されているコンピュータ命令を含む。コンピュータ機器のプロセッサは、コンピュータ可読記憶媒体から当該コンピュータ命令を読み取り、プロセッサが当該コンピュータ命令を実行すると、当該コンピュータ機器に、上記の様々な実施例における様々な選択可能な実施形態にて提供される人工知能に基づく画像処理方法を実行させる。
【0132】
当業者であれば、上記の実施例のステップの全部又は一部は、ハードウェアによって実現されてもよいし、プログラムが関連するハードウェアに完了するように命令することによって実現されてもよく、当該プログラムは、コンピュータ可読記憶媒体に記憶されてもよく、上記に言及された記憶媒体は、読み取り専用メモリ、磁気ディスク又はコンパクトディスクなどであり得ることは理解できる。
【0133】
上記は、本願の好適な実施例にすぎず、本願を制限するものではなく、本願の精神及び原則内で行われる任意の補正、等価置換均、改良などは、本願の保護範囲内に含まれるべきである。
図1
図2
図3
図4
図5
図6
図7
図8
図9