(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-03-03
(54)【発明の名称】画像処理方法及び装置、電子機器
(51)【国際特許分類】
G06T 7/70 20170101AFI20220224BHJP
G06T 7/00 20170101ALI20220224BHJP
A61B 6/03 20060101ALI20220224BHJP
【FI】
G06T7/70 Z
G06T7/00 612
G06T7/00 350C
A61B6/03 360T
A61B6/03 360J
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021539924
(86)(22)【出願日】2019-10-30
(85)【翻訳文提出日】2021-07-08
(86)【国際出願番号】 CN2019114498
(87)【国際公開番号】W WO2020238007
(87)【国際公開日】2020-12-03
(31)【優先権主張番号】201910473265.6
(32)【優先日】2019-05-31
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】520180323
【氏名又は名称】上▲海▼商▲湯▼智能科技有限公司
【氏名又は名称原語表記】SHANGHAI SENSETIME INTELLIGENT TECHNOLOGY CO., LTD.
【住所又は居所原語表記】Room 1605A, Building 3, 391 Guiping Road, Xuhui District, Shanghai 200233 China
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】▲陳▼奕志
(72)【発明者】
【氏名】▲劉▼▲暢▼
(72)【発明者】
【氏名】高云河
(72)【発明者】
【氏名】▲趙▼▲亮▼
【テーマコード(参考)】
4C093
5L096
【Fターム(参考)】
4C093AA22
4C093AA26
4C093CA29
4C093CA35
4C093DA10
4C093FD09
4C093FF13
4C093FF15
4C093FF18
4C093FF22
4C093FG04
4C093FH03
5L096BA06
5L096BA13
5L096DA02
5L096FA52
5L096FA62
5L096FA64
5L096FA66
5L096FA72
5L096GA30
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
本願の実施例は、画像処理方法及び装置、電子機器を開示する。前記方法は、ターゲットオブジェクトを含む画像データを取得することであって、前記ターゲットオブジェクトは、少なくとも1つのサブオブジェクトを含む、ことと、完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得することであって、前記ターゲット画像データは、少なくとも前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含む、ことと、を含む。
【特許請求の範囲】
【請求項1】
画像処理方法であって、
ターゲットオブジェクトを含む画像データを取得することであって、前記ターゲットオブジェクトは、少なくとも1つのサブオブジェクトを含む、ことと、
完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得することであって、前記ターゲット画像データは、少なくとも前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含む、ことと、を含む、前記方法。
【請求項2】
前記完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得することは、
第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得することであって、前記ターゲット画像データは、前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含む、ことを含むことを特徴とする
請求項1に記載の方法。
【請求項3】
前記完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得することは、
第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、第1画像データを取得することであって、前記第1画像データは、前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含む、ことと、
第2完全畳み込みニューラルネットワークに基づいて、前記画像データ及び前記第1画像データを処理し、第2画像データを取得することであって、前記第2画像データは、前記ターゲットオブジェクトにおける各サブオブジェクトのカテゴリを示すためのものである、ことと、を含むことを特徴とする
請求項1に記載の方法。
【請求項4】
前記第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理することは、
前記第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、前記画像データにおける画素に対応する第1変位データを取得することであって、前記第1変位データは、前記画素と前記画素に最も近いサブオブジェクトの中心の変位を表す、ことと、
前記第1変位データ及び前記画素自体の位置データに基づいて、前記画素に最も近い第1サブオブジェクトの中心点の初期位置を決定することであって、前記第1サブオブジェクトは、前記少なくとも1つのサブオブジェクトのうちのいずれか1つのサブオブジェクトである、ことと、
前記画像データにおける少なくとも一部の画素に対応する前記第1サブオブジェクトの中心点の初期位置を取得し、位置が同じである初期位置の数を決定し、数が最も多い初期位置に基づいて、前記第1サブオブジェクトの中心点を決定することと、を含むことを特徴とする
請求項2又は3に記載の方法。
【請求項5】
前記第1変位データ及び前記画素自体の位置データに基づいて、前記画素に最も近い第1サブオブジェクトの中心点の初期位置を決定する前に、前記方法は、
前記画像データにおける少なくとも1つの画素に対応する第1変位距離に基づいて、前記少なくとも1つの画素に対してスクリーニングを行い、前記少なくとも1つの画素に最も近い第1サブオブジェクトの中心との距離が特定の条件を満たす少なくとも1つの第1画素を得ることを更に含み、
前記第1変位データ及び前記画素自体の位置データに基づいて、前記画素に最も近い第1サブオブジェクトの中心点の初期位置を決定することは、
前記第1画素の第1変位データ及び前記第1画素自体の位置データに基づいて、前記第1サブオブジェクトの中心点の初期位置を決定することを含むことを特徴とする
請求項4に記載の方法。
【請求項6】
前記第2完全畳み込みニューラルネットワークに基づいて、前記画像データ及び前記第1画像データを処理し、第2画像データを取得することは、
前記画像データと前記第1画像データを合併し、ターゲット画像データを取得することと、
前記第2完全畳み込みニューラルネットワークに基づいて、前記ターゲット画像データを処理し、前記ターゲット画像データにおける画素が属するサブオブジェクトのカテゴリの確率値を取得し、最大確率値に対応するサブオブジェクトのカテゴリを前記画素が属するサブオブジェクトのカテゴリとして決定することと、
前記ターゲット画像データにおける画素が属するサブオブジェクトのカテゴリに基づいて、第2画像データを取得することと、を含むことを特徴とする
請求項3に記載の方法。
【請求項7】
前記ターゲット画像データにおける画素が属するサブオブジェクトのカテゴリの確率値を取得し、最大確率値に対応するサブオブジェクトのカテゴリを前記画素が属するサブオブジェクトのカテゴリとして決定することは、
前記ターゲット画像データにおける第2サブオブジェクトの中心点に対応する画素が属するサブオブジェクトのカテゴリの確率値を得ることであって、前記第2サブオブジェクトは、前記少なくとも1つのサブオブジェクトのうちのいずれか1つのサブオブジェクトである、ことと、
最大確率値に対応する第2サブオブジェクトのカテゴリを前記第2サブオブジェクトのカテゴリとして決定することと、を含むことを特徴とする
請求項6に記載の方法。
【請求項8】
前記第2完全畳み込みニューラルネットワークに基づいて、前記画像データ及び前記第1画像データを処理し、第2画像データを取得することは、
前記画像データに対してダウンサンプリング処理を行い、第3画像データを取得することと、
前記第2完全畳み込みニューラルネットワークに基づいて、前記第3画像データ及び前記第1画像データを処理し、第2画像データを取得することと、を含むことを特徴とする
請求項3に記載の方法。
【請求項9】
前記第1完全畳み込みニューラルネットワークの訓練過程は、
ターゲットオブジェクトを含む第1サンプル画像データ及び前記第1サンプル画像データに対応する第1注釈データを取得することであって、前記第1注釈データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトの中心点を示すためのものである、ことと、
前記第1サンプル画像データ及び対応する第1注釈データに基づいて、前記第1完全畳み込みニューラルネットワークを訓練することと、を含むことを特徴とする
請求項2から5のうちいずれか一項に記載の方法。
【請求項10】
前記第1サンプル画像データ及び対応する第1注釈データに基づいて、前記第1完全畳み込みニューラルネットワークを訓練することは、
前記第1完全畳み込みニューラルネットワークに基づいて、前記第1サンプル画像データを処理し、初期画像データを取得することであって、前記初期画像データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトの初期中心点を含む、ことと、
前記初期画像データ及び前記第1注釈データに基づいて、損失関数を決定し、前記損失関数に基づいて、前記第1完全畳み込みニューラルネットワークのパラメータを調整し、前記第1完全畳み込みニューラルネットワークを訓練することと、を含むことを特徴とする
請求項9に記載の方法。
【請求項11】
前記第2完全畳み込みニューラルネットワークの訓練過程は、
ターゲットオブジェクトを含む第1サンプル画像データ、前記第1サンプル画像データに関連する第2サンプル画像データ及び前記第1サンプル画像データに対応する第2注釈データを取得することであって、前記第2サンプル画像データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトの中心点を含み、前記第2注釈データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトのカテゴリを示すためのものである、ことと、
前記第1サンプル画像データ、前記第2サンプル画像データ及び前記第2注釈データに基づいて、前記第2完全畳み込みニューラルネットワークを訓練することと、を含むことを特徴とする
請求項3、6又は7に記載の方法。
【請求項12】
前記第1サンプル画像データ、前記第2サンプル画像データ及び前記第2注釈データに基づいて、前記第2完全畳み込みニューラルネットワークを訓練することは、
前記第1サンプル画像データに対してダウンサンプリング処理を行い、第3サンプル画像データを取得することと、
前記第3サンプル画像データ、前記第2サンプル画像データ及び前記第2注釈データに基づいて、前記第2完全畳み込みニューラルネットワークを訓練することと、を含むことを特徴とする
請求項11に記載の方法。
【請求項13】
前記ターゲットオブジェクトは、脊椎骨格を含み、前記脊椎骨格は、少なくとも1つの椎骨を含むことを特徴とする
請求項1から12のうちいずれか一項に記載の方法。
【請求項14】
画像処理装置であって、前記装置は、取得ユニットと、画像処理ユニットと、を備え、
前記取得ユニットは、ターゲットオブジェクトを含む画像データを取得するように構成され、前記ターゲットオブジェクトは、少なくとも1つのサブオブジェクトを含み、
前記画像処理ユニットは、完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得するように構成され、前記ターゲット画像データは、少なくとも前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含む、前記装置。
【請求項15】
前記画像処理ユニットは、第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得するように構成され、前記ターゲット画像データは、前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含むことを特徴とする
請求項14に記載の装置。
【請求項16】
前記画像処理ユニットは、第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、第1画像データを取得するように構成され、前記第1画像データは、前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含み、前記画像処理ユニットは、第2完全畳み込みニューラルネットワークに基づいて、前記画像データ及び前記第1画像データを処理し、第2画像データを取得するように構成され、前記第2画像データは、前記ターゲットオブジェクトにおける各サブオブジェクトのカテゴリを示すためのものであることを特徴とする
請求項14に記載の装置。
【請求項17】
前記画像処理ユニットは、第1処理モジュールを備え、前記第1処理モジュールは、前記第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、前記画像データにおける画素に対応する第1変位データを取得するように構成され、前記第1変位データは、前記画素と前記画素に最も近いサブオブジェクトの中心の変位を表し、前記第1処理モジュールは、前記第1変位データ及び前記画素自体の位置データに基づいて、前記画素に最も近い第1サブオブジェクトの中心点の初期位置を決定するように構成され、前記第1サブオブジェクトは、前記少なくとも1つのサブオブジェクトのうちのいずれか1つのサブオブジェクトであり、前記第1処理モジュールは、前記画像データにおける少なくとも一部の画素に対応する前記第1サブオブジェクトの中心点の初期位置を取得し、位置が同じである初期位置の数を決定し、数が最も多い初期位置に基づいて、前記第1サブオブジェクトの中心点を決定するように構成されることを特徴とする
請求項15又は16に記載の装置。
【請求項18】
前記第1処理モジュールは、前記画像データにおける少なくとも1つの画素に対応する第1変位距離に基づいて、前記少なくとも1つの画素に対してスクリーニングを行い、前記少なくとも1つの画素に最も近い第1サブオブジェクトの中心との距離が特定の条件を満たす少なくとも1つの第1画素を取得し、前記第1画素の第1変位データ及び前記第1画素自体の位置データに基づいて、前記第1サブオブジェクトの中心点の初期位置を決定するように構成されることを特徴とする
請求項17に記載の装置。
【請求項19】
前記画像処理ユニットは、第2処理モジュールを備え、前記第2処理モジュールは、前記画像データと前記第1画像データを合併し、ターゲット画像データを取得し、第2完全畳み込みニューラルネットワークに基づいて、前記ターゲット画像データを処理し、前記ターゲット画像データにおける画素が属するサブオブジェクトのカテゴリの確率値を取得し、最大確率値に対応するサブオブジェクトのカテゴリを前記画素が属するサブオブジェクトのカテゴリとして決定し、前記ターゲット画像データにおける画素が属するサブオブジェクトのカテゴリに基づいて、第2画像データを取得するように構成されることを特徴とする
請求項16に記載の装置。
【請求項20】
前記第2処理モジュールは、前記ターゲット画像データにおける第2サブオブジェクトの中心点に対応する画素が属するサブオブジェクトのカテゴリの確率値を得るように構成され、前記第2サブオブジェクトは、前記少なくとも1つのサブオブジェクトのうちのいずれか1つのサブオブジェクトであり、前記第2処理モジュールは、最大確率値に対応する第2サブオブジェクトのカテゴリを前記第2サブオブジェクトのカテゴリとして決定するように構成されることを特徴とする
請求項19に記載の装置。
【請求項21】
前記画像処理ユニットは、前記画像データに対してダウンサンプリング処理を行い、第3画像データを取得し、第2完全畳み込みニューラルネットワークに基づいて、前記第3画像データ及び前記第1画像データを処理し、第2画像データを取得するように構成されることを特徴とする
請求項16に記載の装置。
【請求項22】
前記装置は、第1訓練ユニットを更に備え、前記第1訓練ユニットは、ターゲットオブジェクトを含む第1サンプル画像データ及び前記第1サンプル画像データに対応する第1注釈データを取得するように構成され、前記第1注釈データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトの中心点を示すためのものであり、前記第1訓練ユニットは、前記第1サンプル画像データ及び対応する第1注釈データに基づいて、前記第1完全畳み込みニューラルネットワークを訓練するように構成されることを特徴とする
請求項15から18のうちいずれか一項に記載の装置。
【請求項23】
前記第1訓練ユニットは、第1完全畳み込みニューラルネットワークに基づいて、前記第1サンプル画像データを処理し、初期画像データを取得するように構成され、前記初期画像データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトの初期中心点を含み、前記第1訓練ユニットは、前記初期画像データ及び前記第1注釈データに基づいて、損失関数を決定し、前記損失関数に基づいて、前記第1完全畳み込みニューラルネットワークのパラメータを調整し、前記第1完全畳み込みニューラルネットワークを訓練するように構成されることを特徴とする
請求項22に記載の装置。
【請求項24】
前記装置は、第2訓練ユニットを更に備え、前記第2訓練ユニットは、ターゲットオブジェクトを含む第1サンプル画像データ、前記第1サンプル画像データに関連する第2サンプル画像データ及び前記第1サンプル画像データに対応する第2注釈データを取得するように構成され、前記第2サンプル画像データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトの中心点を含み、前記第2注釈データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトのカテゴリを示すためのものであり、前記第2訓練ユニットは、前記第1サンプル画像データ、前記第2サンプル画像データ及び前記第2注釈データに基づいて、前記第2完全畳み込みニューラルネットワークを訓練するように構成されることを特徴とする
請求項16、19又は20に記載の装置。
【請求項25】
前記第2訓練ユニットは、前記第1サンプル画像データに対してダウンサンプリング処理を行い、第3サンプル画像データを取得し、前記第3サンプル画像データ、前記第2サンプル画像データ及び前記第2注釈データに基づいて、前記第2完全畳み込みニューラルネットワークを訓練するように構成されることを特徴とする
請求項24に記載の装置。
【請求項26】
前記ターゲットオブジェクトは、脊椎骨格を含み、前記脊椎骨格は、少なくとも1つの椎骨を含むことを特徴とする
請求項14から25のうちいずれか一項に記載の装置。
【請求項27】
コンピュータプログラムを記憶するコンピュータ可読記憶媒体であって、前記コンピュータプログラムがプロセッサにより実行される時、請求項1から13のうちいずれか一項に記載の方法のステップを実施する、前記コンピュータ可読記憶媒体。
【請求項28】
電子機器であって、前記電子機器は、メモリと、プロセッサと、メモリに記憶されてプロセッサにより実行可能なコンピュータプログラムと、を備え、前記プロセッサが前記コンピュータプログラムを実行する時、請求項1から13のうちいずれか一項に記載の方法のステップを実施する、前記電子機器。
【請求項29】
コンピュータ可読コードを含むコンピュータプログラムであって、前記コンピュータ可読コードが電子機器で実行される場合、前記電子機器におけるプロセッサは、請求項1から13のうちいずれか一項に記載の画像処理方法を実行する、前記コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本願は、2019年05月31日に提出された出願番号201910473265.6の中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
【0002】
本願は、画像処理技術に関し、具体的には、画像処理方法及び装置、電子機器に関する。
【背景技術】
【0003】
一般的には、人間の脊椎に、26個の椎骨がある。これらは、上から下へ順次配列される。椎骨は、人体の位置を特定するための重要な参照物体である。26個の椎骨の中心の検出、位置決め、認識は、他の器官、組織の位置決めのために相対的位置情報を供給し、後続の手術計画、病理学的検出、術後宇効果の評価などの活動の進行に寄与する。一方で、椎骨中心の検出及び位置決めにより、脊椎に対して数学的モデリングを行い、椎骨形状の事前情報を提供することができ、脊椎における他の組織の分割に寄与する。従って、椎骨中心の位置決めは、重大な適用価値を持つ。
【0004】
現在、椎骨中心の位置決めは、主に下記方式を用いる。1つは、手動による位置決めである。しかしながら、三次元コンピュータ断層撮影(CT:Computed Tomography)画像において、椎骨種類の認識及び椎骨中心の位置決めは、時間と手間がかかり、人為的なケアレスミスが発生しやすい。複雑な画像において、手動による位置決めは、ある程度主観的であり、誤りを引き起こすことがある。もう1つは、自動診断システムを用いることである。しかしながら、現在の自動診断システムに用いられるアルゴリズムは、手動で選択されたものであり、汎化性能が低い。従って、システムの性能が低くなり、椎骨中心の位置決めの正確性が高くない。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本願の実施例は、画像処理方法及び装置、電子機器を提供する。
【課題を解決するための手段】
【0006】
本願の実施例の技術的解決手段は、以下のように実現する。
【0007】
本願の実施例は、画像処理方法を提供する。前記方法は、ターゲットオブジェクトを含む画像データを取得することであって、前記ターゲットオブジェクトは、少なくとも1つのサブオブジェクトを含む、ことと、完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得することであって、前記ターゲット画像データは、少なくとも前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含む、ことと、を含む。
【0008】
本願の幾つかの任意選択的な実施例において、前記完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得することは、第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得することであって、前記ターゲット画像データは、前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含む、ことを含む。
【0009】
本願の幾つかの任意選択的な実施例において、前記完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得することは、第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、第1画像データを取得することであって、前記第1画像データは、前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含む、ことと、第2完全畳み込みニューラルネットワークに基づいて、前記画像データ及び前記第1画像データを処理し、第2画像データを取得することであって、前記第2画像データは、前記ターゲットオブジェクトにおける各サブオブジェクトのカテゴリを示すためのものである、ことと、を含む。
【0010】
本願の幾つかの任意選択的な実施例において、前記第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理することは、前記第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、前記画像データにおける画素に対応する第1変位データを取得することであって、前記第1変位データは、前記画素と前記画素に最も近いサブオブジェクトの中心の変位を表す、ことと、前記第1変位データ及び前記画素自体の位置データに基づいて、前記画素に最も近い第1サブオブジェクトの中心点の初期位置を決定することであって、前記第1サブオブジェクトは、前記少なくとも1つのサブオブジェクトのうちのいずれか1つのサブオブジェクトである、ことと、前記画像データにおける少なくとも一部の画素に対応する前記第1サブオブジェクトの中心点の初期位置を取得し、位置が同じである初期位置の数を決定し、数が最も多い初期位置に基づいて、前記第1サブオブジェクトの中心点を決定することと、を含む。
【0011】
本願の幾つかの任意選択的な実施例において、前記第1変位データ及び前記画素自体の位置データに基づいて、前記画素に最も近い第1サブオブジェクトの中心点の初期位置を決定する前に、前記方法は、前記画像データにおける少なくとも1つの画素に対応する第1変位距離に基づいて、前記少なくとも1つの画素に対してスクリーニングを行い、前記少なくとも1つの画素に最も近い第1サブオブジェクトの中心との距離が特定の条件を満たす少なくとも1つの第1画素を得ることを更に含み、前記第1変位データ及び前記画素自体の位置データに基づいて、前記画素に最も近い第1サブオブジェクトの中心点の初期位置を決定することは、前記第1画素の第1変位データ及び前記第1画素自体の位置データに基づいて、前記第1サブオブジェクトの中心点の初期位置を決定することを含む。
【0012】
本願の幾つかの任意選択的な実施例において、前記第2完全畳み込みニューラルネットワークに基づいて、前記画像データ及び前記第1画像データを処理し、第2画像データを取得することは、前記画像データと前記第1画像データを合併し、ターゲット画像データを取得することと、第2完全畳み込みニューラルネットワークに基づいて、前記ターゲット画像データを処理し、前記ターゲット画像データにおける画素が属するサブオブジェクトのカテゴリの確率値を取得し、最大確率値に対応するサブオブジェクトのカテゴリを前記画素が属するサブオブジェクトのカテゴリとして決定することと、前記ターゲット画像データにおける画素が属するサブオブジェクトのカテゴリに基づいて、第2画像データを取得することと、を含む。
【0013】
本願の幾つかの任意選択的な実施例において、前記ターゲット画像データにおける画素が属するサブオブジェクトのカテゴリの確率値を取得し、最大確率値に対応するサブオブジェクトのカテゴリを前記画素が属するサブオブジェクトのカテゴリとして決定することは、前記ターゲット画像データにおける第2サブオブジェクトの中心点に対応する画素が属するサブオブジェクトのカテゴリの確率値を得ることであって、前記第2サブオブジェクトは、前記少なくとも1つのサブオブジェクトのうちのいずれか1つのサブオブジェクトである、ことと、最大確率値に対応する第2サブオブジェクトのカテゴリを前記第2サブオブジェクトのカテゴリとして決定することと、を含む。
【0014】
本願の幾つかの任意選択的な実施例において、前記第2完全畳み込みニューラルネットワークに基づいて、前記画像データ及び前記第1画像データを処理し、第2画像データを取得することは、前記画像データに対してダウンサンプリング処理を行い、第3画像データを取得することと、第2完全畳み込みニューラルネットワークに基づいて、前記第3画像データ及び前記第1画像データを処理し、第2画像データを取得することと、を含む。
【0015】
本願の幾つかの任意選択的な実施例において、前記第1完全畳み込みニューラルネットワークの訓練過程は、ターゲットオブジェクトを含む第1サンプル画像データ及び前記第1サンプル画像データに対応する第1注釈データを取得することであって、前記第1注釈データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトの中心点を示すためのものである、ことと、前記第1サンプル画像データ及び対応する第1注釈データに基づいて、前記第1完全畳み込みニューラルネットワークを訓練することと、を含む。
【0016】
本願の幾つかの任意選択的な実施例において、前記第1サンプル画像データ及び対応する第1注釈データに基づいて、前記第1完全畳み込みニューラルネットワークを訓練することは、第1完全畳み込みニューラルネットワークに基づいて、前記第1サンプル画像データを処理し、初期画像データを取得することであって、前記初期画像データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトの初期中心点を含む、ことと、前記初期画像データ及び前記第1注釈データに基づいて、損失関数を決定し、前記損失関数に基づいて、前記第1完全畳み込みニューラルネットワークのパラメータを調整し、前記第1完全畳み込みニューラルネットワークを訓練することと、を含む。
【0017】
本願の幾つかの任意選択的な実施例において、前記第2完全畳み込みニューラルネットワークの訓練過程は、ターゲットオブジェクトを含む第1サンプル画像データ、前記第1サンプル画像データに関連する第2サンプル画像データ及び前記第1サンプル画像データに対応する第2注釈データを取得することであって、前記第2サンプル画像データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトの中心点を含み、前記第2注釈データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトのカテゴリを示すためのものである、ことと、前記第1サンプル画像データ、前記第2サンプル画像データ及び前記第2注釈データに基づいて、前記第2完全畳み込みニューラルネットワークを訓練することと、を含む。
【0018】
本願の幾つかの任意選択的な実施例において、前記第1サンプル画像データ、前記第2サンプル画像データ及び前記第2注釈データに基づいて、前記第2完全畳み込みニューラルネットワークを訓練することは、前記第1サンプル画像データに対してダウンサンプリング処理を行い、第3サンプル画像データを取得することと、前記第3サンプル画像データ、前記第2サンプル画像データ及び前記第2注釈データに基づいて、前記第2完全畳み込みニューラルネットワークを訓練することと、を含む。
【0019】
本願の幾つかの任意選択的な実施例において、前記ターゲットオブジェクトは、脊椎骨格を含み、前記脊椎骨格は、少なくとも1つの椎骨を含む。
【0020】
本願の実施例は、画像処理装置を更に提供する。前記装置は、取得ユニットと、画像処理ユニットと、を備え、前記取得ユニットは、ターゲットオブジェクトを含む画像データを取得するように構成され、前記ターゲットオブジェクトは、少なくとも1つのサブオブジェクトを含み、前記画像処理ユニットは、完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得するように構成され、前記ターゲット画像データは、少なくとも前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含む。
【0021】
本願の幾つかの任意選択的な実施例において、前記画像処理ユニットは、第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得するように構成され、前記ターゲット画像データは、前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含む。
【0022】
本願の幾つかの任意選択的な実施例において、前記画像処理ユニットは、第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、第1画像データを取得するように構成され、前記第1画像データは、前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含み、前記画像処理ユニットは、第2完全畳み込みニューラルネットワークに基づいて、前記画像データ及び前記第1画像データを処理し、第2画像データを取得するように構成され、前記第2画像データは、前記ターゲットオブジェクトにおける各サブオブジェクトのカテゴリを示すためのものである。
【0023】
本願の幾つかの任意選択的な実施例において、前記画像処理ユニットは、第1処理モジュールを備え、前記第1処理モジュールは、前記第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、前記画像データにおける画素に対応する第1変位データを取得するように構成され、前記第1変位データは、前記画素と前記画素に最も近いサブオブジェクトの中心の変位を表し、前記第1処理モジュールは、前記第1変位データ及び前記画素自体の位置データに基づいて、前記画素に最も近い第1サブオブジェクトの中心点の初期位置を決定するように構成され、前記第1サブオブジェクトは、前記少なくとも1つのサブオブジェクトのうちのいずれか1つのサブオブジェクトであり、前記第1処理モジュールは、前記画像データにおける少なくとも一部の画素に対応する前記第1サブオブジェクトの中心点の初期位置を取得し、位置が同じである初期位置の数を決定し、数が最も多い初期位置に基づいて、前記第1サブオブジェクトの中心点を決定するように構成される。
【0024】
本願の幾つかの任意選択的な実施例において、前記第1処理モジュールは、前記画像データにおける少なくとも1つの画素に対応する第1変位距離に基づいて、前記少なくとも1つの画素に対してスクリーニングを行い、前記少なくとも1つの画素に最も近い第1サブオブジェクトの中心との距離が特定の条件を満たす少なくとも1つの第1画素を取得し、前記第1画素の第1変位データ及び前記第1画素自体の位置データに基づいて、前記第1サブオブジェクトの中心点の初期位置を決定するように構成される。
【0025】
本願の幾つかの任意選択的な実施例において、前記画像処理ユニットは、第2処理モジュールを備え、前記第2処理モジュールは、前記画像データと前記第1画像データを合併し、ターゲット画像データを取得し、第2完全畳み込みニューラルネットワークに基づいて、前記ターゲット画像データを処理し、前記ターゲット画像データにおける画素が属するサブオブジェクトのカテゴリの確率値を取得し、最大確率値に対応するサブオブジェクトのカテゴリを前記画素が属するサブオブジェクトのカテゴリとして決定し、前記ターゲット画像データにおける画素が属するサブオブジェクトのカテゴリに基づいて、第2画像データを取得するように構成される。
【0026】
本願の幾つかの任意選択的な実施例において、前記第2処理モジュールは、前記ターゲット画像データにおける第2サブオブジェクトの中心点に対応する画素が属するサブオブジェクトのカテゴリの確率値を得るように構成され、前記第2サブオブジェクトは、前記少なくとも1つのサブオブジェクトのうちのいずれか1つのサブオブジェクトであり、前記第2処理モジュールは、最大確率値に対応する第2サブオブジェクトのカテゴリを前記第2サブオブジェクトのカテゴリとして決定するように構成される。
【0027】
本願の幾つかの任意選択的な実施例において、前記画像処理ユニットは、前記画像データに対してダウンサンプリング処理を行い、第3画像データを取得し、第2完全畳み込みニューラルネットワークに基づいて、前記第3画像データ及び前記第1画像データを処理し、第2画像データを取得するように構成される。
【0028】
本願の幾つかの任意選択的な実施例において、前記装置は、第1訓練ユニットを更に備え、前記第1訓練ユニットは、ターゲットオブジェクトを含む第1サンプル画像データ及び前記第1サンプル画像データに対応する第1注釈データを取得するように構成され、前記第1注釈データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトの中心点を示すためのものであり、前記第1訓練ユニットは、前記第1サンプル画像データ及び対応する第1注釈データに基づいて、前記第1完全畳み込みニューラルネットワークを訓練するように構成される。
【0029】
本願の幾つかの任意選択的な実施例において、前記第1訓練ユニットは、第1完全畳み込みニューラルネットワークに基づいて、前記第1サンプル画像データを処理し、初期画像データを取得するように構成され、前記初期画像データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトの初期中心点を含み、前記第1訓練ユニットは、前記初期画像データ及び前記第1注釈データに基づいて、損失関数を決定し、前記損失関数に基づいて、前記第1完全畳み込みニューラルネットワークのパラメータを調整し、前記第1完全畳み込みニューラルネットワークを訓練するように構成される。
【0030】
本願の幾つかの任意選択的な実施例において、前記装置は、第2訓練ユニットを更に備え、前記第2訓練ユニットは、ターゲットオブジェクトを含む第1サンプル画像データ、前記第1サンプル画像データに関連する第2サンプル画像データ及び前記第1サンプル画像データに対応する第2注釈データを取得するように構成され、前記第2サンプル画像データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトの中心点を含み、前記第2注釈データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトのカテゴリを示すためのものであり、前記第2訓練ユニットは、前記第1サンプル画像データ、前記第2サンプル画像データ及び前記第2注釈データに基づいて、前記第2完全畳み込みニューラルネットワークを訓練するように構成される。
【0031】
本願の幾つかの任意選択的な実施例において、前記第2訓練ユニットは、前記第1サンプル画像データに対してダウンサンプリング処理を行い、第3サンプル画像データを取得し、前記第3サンプル画像データ、前記第2サンプル画像データ及び前記第2注釈データに基づいて、前記第2完全畳み込みニューラルネットワークを訓練するように構成される。
【0032】
本願の幾つかの任意選択的な実施例において、前記ターゲットオブジェクトは、脊椎骨格を含み、前記脊椎骨格は、少なくとも1つの椎骨を含む。
【0033】
本願の実施例は、コンピュータ可読記憶媒体を更に提供する。前記コンピュータ可読記憶媒体にコンピュータプログラムが記憶されており、該プログラムがプロセッサにより実行される時、本願の実施例に記載の方法のステップを実施する。
【0034】
本願の実施例は、電子機器を更に提供する。前記電子機器は、メモリと、プロセッサと、メモリに記憶されてプロセッサにより実行可能なコンピュータプログラムと、を備え、前記プロセッサが前記プログラムを実行する時、本願の実施例に記載の方法のステップを実施する。
【0035】
本願の実施例は、コンピュータプログラムを更に提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される場合、前記電子機器におけるプロセッサは、本願の実施例に記載の画像処理方法を実行する。
【発明の効果】
【0036】
本願の実施例は、画像処理方法及び装置、電子機器を提供する。前記方法は、ターゲットオブジェクトを含む画像データを取得することであって、前記ターゲットオブジェクトは、少なくとも1つのサブオブジェクトを含む、ことと、畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得することであって、前記ターゲット画像データは、少なくとも前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含む、ことと、を含む。本願の実施例の技術的解決手段によれば、完全畳み込みニューラルネットワークにより画像データを処理することで、ターゲットオブジェクトにおける少なくとも1つのサブオブジェクトの中心点を含むターゲット画像データを取得する。例えば、少なくとも脊椎骨格における各椎骨の中心点を含むターゲット画像データを取得する。完全畳み込みニューラルネットワークにより画像データの特徴認識、特徴選択及び特徴分類を自動的に行い、手動による特徴選択の方式に比べて、システムの性能を向上させ、椎骨中心の位置決めの正確性を向上させる。一方で、完全畳み込みニューラルネットワークは、各画素点を分類することができる。つまり、完全畳み込みニューラルネットワークによれば、椎体間の空間的関係をより良好に利用してネットワーク性能を向上させることができる。
【図面の簡単な説明】
【0037】
【
図1】本願の実施例による画像処理方法を示す第1フローチャートである。
【
図2】本願の実施例による画像処理方法を示す第2フローチャートである。
【
図3】本願の実施例による画像処理方法を示す第3フローチャートである。
【
図4】本願の実施例による画像処理方法の適用を示す概略図である。
【
図5】本願の実施例による画像処理方法におけるネットワーク訓練方法を示すフローチャートである。
【
図6】本願の実施例による画像処理方法におけるネットワーク訓練方法を示すもう1つのフローチャートである。
【
図7】本願の実施例による画像処理装置の構造を示す第1概略図である。
【
図8】本願の実施例による画像処理装置の構造を示す第2概略図である。
【
図9】本願の実施例による画像処理装置の構造を示す第3概略図である。
【
図10】本願の実施例による画像処理装置の構造を示す第4概略図である。
【
図11】本願の実施例による画像処理装置の構造を示す第5概略図である。
【
図12】本願の実施例による電子機器の構造を示す概略図である。
【発明を実施するための形態】
【0038】
以下、図面及び具体的な実施例を参照しながら、本願を更に詳しく説明する。
【0039】
本願の実施例は、画像処理方法を提供する。
図1は、本願の実施例による画像処理方法を示す第1フローチャートである。
図1に示すように、前記方法は、以下のステップを含む。
【0040】
ステップ101において、ターゲットオブジェクトを含む画像データを取得し、前記ターゲットオブジェクトは、少なくとも1つのサブオブジェクトを含む。
【0041】
ステップ102において、完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得し、前記ターゲット画像データは、少なくとも前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含む。
【0042】
本実施例のステップ101において、画像データは、ターゲットオブジェクトを含む画像データである。本実施例に記載の画像データは、ターゲットオブジェクトを含む三次元画像データである。本実施例において、前記ターゲットオブジェクトは、脊椎骨格を含み、前記脊椎骨格は、少なくとも1つの椎骨を含む。下記各実施例において、いずれも、ターゲットオブジェクトが脊椎骨格(従って、ターゲットオブジェクトは、少なくとも1つの椎骨を含む)であることを例として説明する。他の実施例において、ターゲットオブジェクトは、椎骨骨格に限定されず、本実施例は、これを限定するものではない。
【0043】
一例として、前記画像データは、イメージング技術により得られた、脊椎骨格を含む三次元画像データであってもよい。例えば、前記画像データは、脊椎骨格を含む電子コンピュータ断層撮影(CT:Computed Tomography)画像データ、核磁気共鳴イメージング(MRI:Nuclear Magnetic Resonance Imaging)画像データ等であってもよい。勿論、本実施例における画像データは、上記方式で得られた画像データに限定されず、イメージング技術により得られた他の如何なる脊椎骨格の三次元画像データは、いずれも本実施例における画像データである。
【0044】
ここで、本実施例における脊椎骨格は、人間の脊椎骨格を含むが、これに限定されず、脊椎を有する他の動物の脊椎骨格であってもよい。一般的には、人間を例として、脊椎骨格は、26個の脊椎骨を含み、ここで、24個の椎骨(頚椎7個、胸椎12個、腰椎5個)、仙骨1個及び尾骨1個を含む。本実施例における前記画像データは、26個の脊椎骨のうちの少なくとも一部の脊椎骨を含む。前記画像データに、全ての脊椎骨が含まれてもよく、一部のみの椎骨が含まれてもよいことは、理解されるべきである。画像データに一部のみの椎骨が含まれる場合、椎骨の分類は、より困難である。つまり、椎骨中心がどの椎骨に属するかを判定することは、より困難である。
【0045】
本実施例のステップ102において、完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得することは、前記画像データを入力データとして訓練された完全畳み込みニューラルネットワークに入力し、少なくとも前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含むターゲット画像データを取得することを含む。
【0046】
ターゲットオブジェクトが脊椎骨格であることを例として、本実施例は、完全畳み込みニューラルネットワークにより、前記画像データを処理し、少なくとも脊椎骨格における各椎骨の中心点を含むターゲット画像データを取得する。ここで、完全畳み込みニューラルネットワークにより画像データの特徴認識、特徴選択及び特徴分類を自動的に行い、手動による特徴選択の方式に比べて、システムの性能を向上させ、椎骨中心の位置決めの正確性を向上させる。一方で、完全畳み込みニューラルネットワークは、各画素点を分類することができる。つまり、完全畳み込みニューラルネットワークによれば、椎体間の空間的関係をより良好に利用してネットワーク性能を向上させることができる。
【0047】
前記実施例におけるステップ101からステップ102の記載によれば、本願の実施例は、画像処理方法を更に提供する。本実施例は、ステップ102を更に説明する。具体的には、ステップ102において、完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得することは、第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得することであって、前記ターゲット画像データは、前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含む、ことを含む。
【0048】
本実施例において、ターゲットオブジェクトが脊椎骨格であることを例として、第1完全畳み込みニューラルネットワークにより、椎骨骨格における各椎骨の中心点の位置決めを実現させる。第1完全畳み込みニューラルネットワークは、事前訓練されたものであり、画像データを第1完全畳み込みニューラルネットワークに入力することで、前記脊椎骨格における各椎骨の中心点を含むターゲット画像データを取得し、前記ターゲット画像データにより、各椎骨の中心点の位置を決定することが理解されるべきである。従って、ユーザ(例えば、専門医師)は、ターゲット画像データを得た後、経験に基づいて、各中心点の属するカテゴリを決定することができる。つまり、手動方式で中心点に対応する椎骨カテゴリを決定する。
【0049】
本願の任意選択的な実施例において、第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲットデータを取得することは、前記第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、前記画像データにおける画素に対応する第1変位データを取得することであって、前記第1変位データは、前記画素と前記画素に最も近いサブオブジェクトの中心の変位を表す、ことと、前記第1変位データ及び前記画素自体の位置データに基づいて、前記画素に最も近い第1サブオブジェクトの中心点の初期位置を決定することであって、前記第1サブオブジェクトは、前記少なくとも1つのサブオブジェクトのうちのいずれか1つのサブオブジェクトである、ことと、前記画像データにおける少なくとも一部の画素に対応する前記第1サブオブジェクトの中心点の初期位置を取得し、位置が同じである初期位置の数を決定し、数が最も多い初期位置に基づいて、前記第1サブオブジェクトの中心点を決定することと、決定された前記第1サブオブジェクトの中心点に基づいて、ターゲット画像データを取得することと、を含む。
【0050】
本実施例において、訓練された第1完全畳み込みニューラルネットワークにより、脊椎骨格を含む画像データを処理し、前記画像データにおける各画素と各画素に最も近い椎骨の中心の第一変位データを取得する。該第1変位データは、x軸方向、y軸方向及びz軸方向という3つの方向の変位データを含む。更に、画素自体の位置及び前記画素に対応する第1変位データに基づいて、前記画素に最も近い椎骨の中心点の初期位置を決定する。各画素について、該画素に最も近い椎骨の中心点の初期位置を決定することができ、同一の椎骨について、画像データにおける一部の画素に基づいて、該椎骨に対応する複数の初期位置を決定することもでき、決定された複数の初期位置は、一部が同じであり、一部が異なる可能性があることが理解されるべきである。これによれば、本実施例において、投票法を用いる。つまり、同じ初期位置の数を統計する。例えば、100個の初期位置がある。ここで、50個の初期位置はaであり、20個の初期位置はbであり、15個の初期位置は、cであり、10個の初期位置は、dであり、5個の初期位置はeである。従って、初期位置がaである初期位置を該椎骨の中心点の所在位置として決定する。
【0051】
一実施形態として、前記第1変位データ及び前記画素自体の位置データに基づいて、前記画素に最も近い第1サブオブジェクトの中心点の初期位置を決定する前に、前記方法は、前記画像データにおける少なくとも1つの画素に対応する第1変位距離に基づいて、前記少なくとも1つの画素に対してスクリーニングを行い、前記少なくとも1つの画素に最も近い第1サブオブジェクトの中心との距離が特定の条件を満たす少なくとも1つの第1画素を得ることを更に含み、前記第1変位データ及び前記画素自体の位置データに基づいて、前記画素に最も近い第1サブオブジェクトの中心点の初期位置を決定することは、前記第1画素の第1変位データ及び前記第1画素自体の位置データに基づいて、前記第1サブオブジェクトの中心点の初期位置を決定することを含む。
【0052】
本実施例において、椎骨の中心点の初期位置を決定する前に、まず、初期位置決定に関与する画素を一次スクリーニングすることができる。つまり、画像データにおける全ての画素をいずれも椎骨中心点の初期位置の決定に関与させる必要がない。具体的には、各画素に対応する第1変位距離は、前記画素と前記画素に最も近い椎骨の中心の変位を表すため、椎骨の中心点の初期位置を決定する過程において、椎骨の中心点との距離が所定の範囲内である画素のみを用いることができる。
【0053】
一実施形態として、前記少なくとも1つの画素に最も近い第1サブオブジェクトの中心との距離が特定の条件を満たす少なくとも1つの第1画素を得ることは、前記少なくとも1つの画素に最も近い第1サブオブジェクトの中心との距離が所定の閾値未満である少なくとも1つの第1画素を得ることを含む。実際の適用において、第1変位データは、x軸方向、y軸方向及びz軸方向という3つの方向の変位データを含むため、該第1変位データにおけるx軸方向、y軸方向及びz軸方向という3つの方向の変位データの数値がいずれも前記所定の閾値未満であるかどうかを判定することができる。第1変位データにおけるx軸方向、y軸方向及びz軸方向という3つの方向の変位データの数値がいずれも前記所定の閾値未満である場合、該画素が特定の条件を満たす第1画素であることを表す。スクリーニングされた少なくとも1つの第1画素の第1変位データ及び前記第1画素自体の位置データにより、前記第1サブオブジェクトの中心点の初期位置を決定する。このような方式は、データ処理量を大幅に減少させることができる。
【0054】
本実施例は、第1完全畳み込みニューラルネットワークにより、前記画像データを処理し、少なくともターゲットオブジェクトにおける少なくとも1つのサブオブジェクトの中心点を含むターゲット画像データを取得する。例えば、少なくとも脊椎骨格における各椎骨の中心点を含むターゲット画像データを取得する。ここで、第1完全畳み込みニューラルネットワークにより画像データの特徴認識、特徴選択及び特徴分類を自動的に行い、手動による特徴選択の方式に比べて、システムの性能を向上させ、椎骨中心の位置決めの正確性を向上させる。一方で、完全畳み込みニューラルネットワークは、各画素点を分類することができる。つまり、第1完全畳み込みニューラルネットワークによれば、椎体間の空間的関係をより良好に利用してネットワーク性能を向上させることができる。
【0055】
本願の実施例は、画像処理方法を更に提供する。
図2は、本願の実施例による画像処理方法を示す第2フローチャートである。
図2に示すように、前記方法は以下のステップを含む。
【0056】
ステップ201において、ターゲットオブジェクトを含む画像データを取得し、前記ターゲットオブジェクトは、少なくとも1つのサブオブジェクトを含む。
【0057】
ステップ202において、第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、第1画像データを取得し、前記第1画像データは、前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含む。
【0058】
ステップ203において、第2完全畳み込みニューラルネットワークに基づいて、前記画像データ及び前記第1画像データを処理し、第2画像データを取得し、前記第2画像データは、前記ターゲットオブジェクトにおける各サブオブジェクトのカテゴリを示すためのものである。
【0059】
本実施例のステップ201に関わる説明は、具体的には、前記実施例におけるステップ101に関する詳細な説明を参照することができ、文章の長さを省くために、ここで、詳細な説明を省略する。
【0060】
本実施例のステップ202において、第1完全畳み込みニューラルネットワークにより、椎骨骨格における各椎骨の中心点の位置決めを実現させる。第1完全畳み込みニューラルネットワークは、事前訓練されたものであり、画像データを第1完全畳み込みニューラルネットワークに入力することで、前記脊椎骨格における各椎骨の中心点を含む第1画像データを取得し、前記第1画像データにより、各椎骨の中心点の位置を決定することが理解されるべきである。
【0061】
本願の任意選択的な実施例において、第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、第1画像データを取得することは、前記第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、前記画像データにおける画素に対応する第1変位データを取得することであって、前記第1変位データは、前記画素と前記画素に最も近いサブオブジェクトの中心の変位を表す、ことと、前記第1変位データ及び前記画素自体の位置データに基づいて、前記画素に最も近い第1サブオブジェクトの中心点の初期位置を決定することであって、前記第1サブオブジェクトは、前記少なくとも1つのサブオブジェクトのうちのいずれか1つのサブオブジェクトである、ことと、前記画像データにおける少なくとも一部の画素に対応する前記第1サブオブジェクトの中心点の初期位置を取得し、位置が同じである初期位置の数を決定し、数が最も多い初期位置に基づいて、前記第1サブオブジェクトの中心点を決定することと、決定された第1サブオブジェクトの中心点に基づいて、第1画像データを取得することと、を含む。
【0062】
本実施例において、訓練された第1完全畳み込みニューラルネットワークにより、脊椎骨格を含む画像データを処理し、前記画像データにおける各画素と各画素に最も近い椎骨の中心の第一変位データを取得する。該第1変位データは、x軸方向、y軸方向及びz軸方向という3つの方向の変位データを含む。更に、画素自体の位置及び前記画素に対応する第1変位データに基づいて、前記画素に最も近い椎骨の中心点の初期位置を決定する。各画素について、該画素に最も近い椎骨の中心点の初期位置を決定することができ、同一の椎骨について、画像データにおける一部の画素に基づいて、該椎骨に対応する複数の初期位置を決定することもでき、決定された複数の初期位置は、一部が同じであり、一部が異なる可能性があることが理解されるべきである。これによれば、本実施例において、投票法を用いる。つまり、同じ初期位置の数を統計する。例えば、100個の初期位置がある。ここで、50個の初期位置はaであり、20個の初期位置はbであり、15個の初期位置は、cであり、10個の初期位置は、dであり、5個の初期位置はeである。従って、初期位置がaである初期位置を該椎骨の中心点の所在位置として決定する。
【0063】
一実施形態として、前記第1変位データ及び前記画素自体の位置データに基づいて、前記画素に最も近い第1サブオブジェクトの中心点の初期位置を決定する前に、前記方法は、前記画像データにおける少なくとも1つの画素に対応する第1変位距離に基づいて、前記少なくとも1つの画素に対してスクリーニングを行い、前記少なくとも1つの画素に最も近い第1サブオブジェクトの中心との距離が特定の条件を満たす少なくとも1つの第1画素を得ることを更に含み、前記第1変位データ及び前記画素自体の位置データに基づいて、前記画素に最も近い第1サブオブジェクトの中心点の初期位置を決定することは、前記第1画素の第1変位データ及び前記第1画素自体の位置データに基づいて、前記第1サブオブジェクトの中心点の初期位置を決定することを含む。
【0064】
本実施例において、椎骨の中心点の初期位置を決定する前に、まず、初期位置決定に関与する画素を一次スクリーニングすることができる。つまり、画像データにおける全ての画素をいずれも椎骨中心点の初期位置の決定に関与させる必要がない。具体的には、各画素に対応する第1変位距離は、前記画素と前記画素に最も近い椎骨の中心の変位を表すため、椎骨の中心点の初期位置を決定する過程において、椎骨の中心点との距離が所定の範囲内である画素のみを用いることができる。
【0065】
一実施形態として、前記少なくとも1つの画素に最も近い第1サブオブジェクトの中心との距離が特定の条件を満たす少なくとも1つの第1画素を得ることは、前記少なくとも1つの画素に最も近い第1サブオブジェクトの中心との距離が所定の閾値未満である少なくとも1つの第1画素を得ることを含む。実際の適用において、第1変位データは、x軸方向、y軸方向及びz軸方向という3つの方向の変位データを含むため、該第1変位データにおけるx軸方向、y軸方向及びz軸方向という3つの方向の変位データの数値がいずれも前記所定の閾値未満であるかどうかを判定することができる。第1変位データにおけるx軸方向、y軸方向及びz軸方向という3つの方向の変位データの数値がいずれも前記所定の閾値未満である場合、該画素が特定の条件を満たす第1画素であることを表す。スクリーニングされた少なくとも1つの第1画素の第1変位データ及び前記第1画素自体の位置データにより、前記第1サブオブジェクトの中心点の初期位置を決定する。このような方式は、データ処理量を大幅に減少させることができる。
【0066】
第1画像データにおける中心点がどの椎骨に属するかを更に判定するために、本実施例のステップ203において、第2完全畳み込みニューラルネットワークにより、椎骨骨格における各椎骨のカテゴリを分類し、画像データおける各椎骨のカテゴリを決定し、更に、第1画像データにおける中心点と対応付け、対応する中心点の属する椎骨カテゴリを決定する。第2完全畳み込みニューラルネットワークは、事前訓練されたものであり、前記画像データ及び前記第1画像データを第2完全畳み込みニューラルネットワークに入力することで、前記脊椎骨格における各椎骨のカテゴリを示すための第2画像データを取得することが理解されるべきである。
【0067】
本願の任意選択的な実施例において、第2完全畳み込みニューラルネットワークに基づいて、前記画像データ及び前記第1画像データを処理し、第2画像データを取得することは、前記画像データと前記第1画像データを合併し、ターゲット画像データを取得することと、第2完全畳み込みニューラルネットワークに基づいて、前記ターゲット画像データを処理し、前記ターゲット画像データにおける画素が属するサブオブジェクトのカテゴリの確率値を取得し、最大確率値に対応するサブオブジェクトのカテゴリを前記画素が属するサブオブジェクトのカテゴリとして決定することと、前記ターゲット画像データにおける画素が属するサブオブジェクトのカテゴリに基づいて、第2画像データを取得することと、を含む。
【0068】
本実施例において、訓練された第2完全畳み込みニューラルネットワークにより、脊椎骨格を含む画像データ及び脊椎骨格における各椎骨の中心点を含む第1画像データを処理する。まず、画像データと第1画像データを合併処理する。実際の適用において、画像データにおける各画素に対応するチャネルデータを合併し、ターゲット画像データを取得することができる。続いて、第2完全畳み込みニューラルネットワークにより前記ターゲット画像データを処理し、ターゲット画像データにおける各画素又は一部の画素の属する椎骨カテゴリの確率値を取得し、最大確率値に対応する椎骨カテゴリを前記画素の属する椎骨カテゴリとして決定する。例えば、1つの画素が1番目の椎骨に属する確率が0.01であり、2番目の椎骨に属する確率が0.02であり、3番目の椎骨に属する確率が0.2であり、4番目の椎骨に属する確率が0.72であり、5番目の椎骨に属する確率が0.15であり、6番目の椎骨に属する確率が0.03であり、確率最大値が0.72であるとして決定される。従って、該画素が4番目の椎骨に属すると判定できる。
【0069】
他の実施形態において、ターゲット画像データにおける各画素の属する椎骨カテゴリを決定し、更に各画素の属する椎骨カテゴリに基づいて、脊椎骨格に含まれる少なくとも1つの椎骨の分割を行うことで、前記ターゲット画像データに含まれる少なくとも1つの椎骨を決定する。
【0070】
一実施形態として、前記ターゲット画像データにおける画素が属するサブオブジェクトのカテゴリの確率値を取得し、最大確率値に対応するサブオブジェクトのカテゴリを前記画素が属するサブオブジェクトのカテゴリとして決定することは、前記ターゲット画像データにおける第2サブオブジェクトの中心点に対応する画素が属するサブオブジェクトのカテゴリの確率値を得ることであって、前記第2サブオブジェクトは、前記少なくとも1つのサブオブジェクトのうちのいずれか1つのサブオブジェクトである、ことと、最大確率値に対応する第2サブオブジェクトのカテゴリを前記第2サブオブジェクトのカテゴリとして決定することと、を含む。
【0071】
本実施例において、上記実施形態により、椎骨中心点の属する椎骨カテゴリを直接的に決定することができ、該椎骨中心点の所在する椎骨のカテゴリを決定することができる。
【0072】
もう1つの実施形態として、前記ターゲット画像データにおける画素が属するサブオブジェクトのカテゴリの確率値を取得し、最大確率値に対応するサブオブジェクトのカテゴリを前記画素が属するサブオブジェクトのカテゴリとして決定することは、前記ターゲット画像データにおける第2サブオブジェクトの中心点に対応する画素が属するサブオブジェクトのカテゴリの第1確率値を取得し、前記中心点との距離が特定の閾値範囲内である他の画素が属するサブオブジェクトのカテゴリの第2確率値を取得し、前記第1確率値及び前記第2確率値のうち、数値が同じである確率値の数を決定し、数が最も多い確率値に対応するサブオブジェクのカテゴリを前記第2サブオブジェクトのカテゴリとして決定することを含む。
【0073】
本実施例において、椎骨中心点及び椎骨中心点付近の他の画素により、前記椎骨のカテゴリを決定する。実際の適用において、各画素により、対応する椎骨カテゴリを決定することができる。椎骨中心点及び椎骨中心点付近の他の画素により決定された椎骨カテゴリが異なることがある。従って、本実施例は、投票法を用いて、椎骨中心点及び椎骨中心点付近の他の画素により決定された椎骨カテゴリにおける同一のカテゴリの数を統計する。例えば、4番目の椎骨の数が最も多いと、該椎骨のカテゴリが4番目の椎骨であると判定できる。
【0074】
本実施例における前記第1画像データ及び前記第2画像データは、前記実施例におけるターゲット画像データに対応する。つまり、ターゲット画像データは2つであり、椎骨中心点を決定するための第1画像データ及び椎骨カテゴリを示すための第2画像データを含む。
【0075】
本実施例は、第1完全畳み込みニューラルネットワークにより、前記画像データに含まれる脊椎骨格における各椎骨の中心点を位置決めし、第2完全畳み込みニューラルネットワークにより、画像データに含まれる脊椎骨格における各椎骨のカテゴリを分類する。第1完全畳み込みニューラルネットワークにより、画像データの局所的情報を処理し、各椎骨の中心点を決定し、第2完全畳み込みニューラルネットワークにより、画像データの全局的情報を処理し、各椎骨のカテゴリを決定することに相当する。完全畳み込みニューラルネットワーク(第1完全畳み込みニューラルネットワーク及び第2完全畳み込みニューラルネットワークを含む)により、画像データの特徴認識、特徴選択及び特徴分類を自動的に行い、手動による特徴選択の方式に比べて、システムの性能を向上させ、椎骨中心の位置決めの正確性を向上させる。一方で、完全畳み込みニューラルネットワークは、各画素点を分類することができる。つまり、完全畳み込みニューラルネットワークによれば、椎体間の空間的関係をより良好に利用して訓練効率を向上させることができる。具体的には、第2完全畳み込みニューラルネットワークにより、画像データの全局的情報を処理し、脊椎骨格における各椎骨間の空間的関係に基づいて、第2完全畳み込みニューラルネットワークを訓練し、ネットワーク性能を向上させる。
【0076】
前記実施例によれば、本願の実施例は、画像処理方法を更に提供する。
図3は、本願の実施例による画像処理方法を示す第3フローチャートである。
図3に示すように、前記方法は、以下のステップを含む。
【0077】
ステップ301において、ターゲットオブジェクトを含む画像データを取得し、前記ターゲットオブジェクトは、少なくとも1つのサブオブジェクトを含む。
【0078】
ステップ302において、第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、第1画像データを取得し、前記第1画像データは、前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含む。
【0079】
ステップ303において、前記画像データに対してダウンサンプリング処理を行い、第3画像データを取得する。
【0080】
ステップ304において、第2完全畳み込みニューラルネットワークに基づいて、前記第3画像データ及び前記第1画像データを処理し、第2画像データを取得し、前記第2画像データは、前記ターゲットオブジェクトにおける各サブオブジェクトのカテゴリを示すためのものである。
【0081】
本実施例のステップ301からステップ302に関わる説明は、具体的には、前記ステップ201からステップ202に関する詳細な説明を参照することができ、文章の長さを省くために、ここで、詳細な説明を省略する。
【0082】
本実施例は、第2完全畳み込みニューラルネットワークに基づいて第2画像データを取得する前に、前記画像データに対してダウンサンプリング処理を行い、つまり、前記画像データを縮小し、第3画像データを取得し、前記第3画像データ及び前記第1画像データを前記第2完全畳み込みニューラルネットワークに入力し、第2画像データを取得するという点で、前記実施例と相違する。画像データ縮小の役割は、データ量を減少させることである。これにより、ビデオメモリが限られたという問題を解決する。一方で、画像の全局的情報(椎骨の関連情報、即ち、即椎骨の「コンテキスト情報」)を整合することで、システム性能を大幅に向上させる。
【0083】
以下、具体的な適用シーンを参照しながら、本願の実施例の画像処理方法を説明する。
【0084】
図4は、本願の実施例による画像処理方法の適用を示す概略図である。
図4に示すように、脊椎損傷患者が病院で受診する場合、脊椎に関わるCT画像(前記CT画像は具体的には三次元画像である)を撮った。医師は、本願の実施例の画像処理方法により、CT画像における各脊椎の中心点を位置決めすることができる。
【0085】
具体的には、
図4に示すように、撮ったCT画像を元CT画像として記録する。第1完全畳み込みニューラルネットワークにより、元CT画像を処理し、第1画像データを取得する。前記第1画像データは、前記脊椎骨格における各椎骨の中心点を含む。ここで、各椎骨の中心点が独立して存在し、他の椎骨による影響を受けることがないため、1つの椎骨及びその周囲の画像を提供すれば、第1完全畳み込みニューラルネットワークにより該椎骨の中心点を決定することができる。しかしながら、椎骨中心点を決定するために、例えば、椎骨境界などの細部情報を必要とする。従って、本実施例において、前記第1完全畳み込みニューラルネットワークにより、元CT画像における各椎骨の中心点を位置決めし、また、より多くの細部情報が保留された元CT画像により、各椎骨の中心点を位置決めする。前記第1完全畳み込みニューラルネットワークは、局所的情報の処理に用いられることが理解されるべきである。
【0086】
なお、データ量を減少させ、ビデオメモリが限られたという問題を解決するために、本実施例は、元CT画像に対してダウンサンプリング処理を行い、縮小したCT画像を得る。第2完全畳み込みネットワークにより、縮小したCT画像及び前記第1画像データを処理し、第2画像データを取得する。前記第2画像データは、前記脊椎骨格における各椎骨のカテゴリを示すためのものである。
【0087】
一実施形態において、経験などの方式により、第1画像データにおける決定された中心点の属する椎骨カテゴリを決定することができる。元CT画像において、ある椎骨が欠失するか、又は、第1完全畳み込みニューラルネットワークにより得られた第1画像データによる椎骨の中心点の位置決め結果が好ましくなく、幾つかの椎骨の中心点が見逃した場合、椎骨中心点の属する椎骨カテゴリの有無を判定する必要がある。これによれば、本実施例において、第2完全畳み込みニューラルネットワークにより椎骨カテゴリを決定することを提出した。椎骨カテゴリを決定するために、椎骨と他の椎骨との相対的位置関係を総合的に考慮する必要がある。従って、前記第2完全畳み込みニューラルネットワークは、全局的情報の処理に用いられることが理解されるべきである。実際の適用において、完全畳み込みニューラルネットワークにおける畳み込みカーネルの受容野が限られており、入力された画像が大きすぎると、畳み込みカーネルは、画像の全容を感知できず、画像の全局的情報を整合することができない。一方で、椎骨を分類する場合、椎骨と他の椎骨との相対的位置関係を考慮する必要があり、椎骨周辺の具体的な細部情報が重要でないため、本実施例においてダウンサンプリングの方式により、元CT画像を縮小して、椎骨カテゴリ決定用入力データとする。
【0088】
前記第1完全畳み込みニューラルネットワークの訓練方法について、本願の実施例による画像処理方法におけるネットワーク訓練方法を示すフローチャートである
図5に示すように、前記方法は、以下のステップを含む。
【0089】
ステップ401において、ターゲットオブジェクトを含む第1サンプル画像データ及び前記第1サンプル画像データに対応する第1注釈データを取得し、前記第1注釈データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトの中心点を示すためのものである。
【0090】
ステップ402において、前記第1サンプル画像データ及び対応する第1注釈データに基づいて、前記第1完全畳み込みニューラルネットワークを訓練する。
【0091】
本実施例は、前記ターゲットオブジェクトは、脊椎骨格を含み、前記脊椎骨格は、少なくとも1つの椎骨を含む。
【0092】
本実施例のステップ401において、第1サンプル画像データ及び対応する第1注釈データは、第1完全畳み込みニューラルネットワークを訓練するためのデータである。ここで、前記第1サンプル画像データは、ターゲットオブジェクトを含み、前記ターゲットオブジェクトは、例えば、脊椎骨格である。実際の適用において、第1完全畳み込みニューラルネットワークを訓練するために、複数の第1サンプル画像データを予め取得することができる。複数の第1サンプル画像データに含まれる脊椎骨格は、同一のカテゴリに属する。前記カテゴリは、例えば、人間又は脊椎骨格を有する動物などであってもよい。得られた複数の第1サンプル画像データは、人間脊椎骨格を含むサンプル画像データであるか、又は、得られた複数の第1サンプル画像データは、あるイヌ類の脊椎骨格を含むサンプル画像データ等であることが理解されるべきである。
【0093】
ここで、前記第1注釈データは、第1サンプル画像データにおける脊椎骨格の各椎骨の中心点をタグ付けしたものである。一例として、前記第1注釈データは、各椎骨の中心点に対応する座標データであってもよい。もう1つの例として、前記注釈データは、前記第1サンプル画像データに対応して各椎骨の中心点を含む画像データであってもよい。
【0094】
本実施例のステップ402において、前記第1サンプル画像データ及び対応する第1注釈データに基づいて、前記第1完全畳み込みニューラルネットワークを訓練することは、第1完全畳み込みニューラルネットワークに基づいて、前記第1サンプル画像データを処理し、初期画像データを取得することであって、前記初期画像データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトの初期中心点を含む、ことと、前記初期画像データ及び前記第1注釈データに基づいて、損失関数を決定し、前記損失関数に基づいて、前記第1完全畳み込みニューラルネットワークのパラメータを調整し、前記第1完全畳み込みニューラルネットワークを訓練することと、を含む。
【0095】
本実施例は、第1完全畳み込みニューラルネットワークを訓練する過程において、前記第1サンプル画像データを第1完全畳み込みニューラルネットワークに入力し、前記第1完全畳み込みニューラルネットワークにより、初期パラメータに応じて、前記第1サンプル画像データを処理し、初期画像データを取得する。前記初期画像データは、第1サンプル画像データにおける脊椎骨格の各椎骨の初期中心点を含む。一般的には、得られた椎骨の初期中心点と第1注釈データにおける対応する椎骨の中心点とは、差異がある。本実施例は、このような差異に基づいて損失関数を決定し、決定された損失関数に基づいて、第1完全畳み込みニューラルネットワークのパラメータを調整する。これにより、前記第1完全畳み込みニューラルネットワークを訓練する。訓練された第1完全畳み込みニューラルネットワークにより決定された椎骨の中心点と第1注釈データにおける対応する椎骨の中心点との差異は、所定の条件を満たす。前記所定の条件は、所定の閾値であってもよい。例えば、訓練された第1完全畳み込みニューラルネットワークにより決定された椎骨の中心点と第1注釈データにおける対応する椎骨の中心点との変位は、前記閾値未満である。
【0096】
一実施形態として、前記初期画像データ及び前記第1注釈データに基づいて損失関数を決定することは、前記初期画像データにおける椎骨の初期中心点の第1位置情報及び前記第1注釈データにおける対応する椎骨の中心点の第2位置情報に基づいて、第1組の変位を決定することであって、前記第1組の変位は、3つの次元の変位を含む、ことと、前記第1組の変位に基づいて、前記椎骨の初期中心点が前記第1注釈データにおける対応する椎骨の中心点の所定の距離範囲内にあるかどうかを判定し、第1結果を得ることと、前記第1組の変位及び/又は前記第1結果に基づいて、損失関数を決定する。
【0097】
本実施例において、訓練が完了していない第1完全畳み込みニューラルネットワークのパラメータは、最適なものではない。従って、初期画像データにおける椎骨の初期中心点と正確な中心点とは、差異がある。本実施例における第1完全畳み込みニューラルネットワークは、三次元画像データを処理するため、得られた初期中心点の第1位置情報は、3つの次元のデータを含む。水平面でx軸及びy軸を確立し、水平面に垂直な方向でz軸を確立し、xyz三次元座標系を生成するとすれば、前記第1位置情報は、xyz三次元座標系における(x,y,z)三次元座標データであってもよい。なお、前記第1注釈データにおける対応する椎骨の中心点は、(x’,y’,z’)三次元座標データと表されてもよい。従って、前記第1組の変位は、((x’- x),( y’ -y),(z’- z))と表されてもよい。更に、前記第1組の変位により、前記初期中心点が第1注釈データにおける対応する椎骨の中心点の所定の距離範囲内にあるかどうかを判定することができる。本実施例で決定された損失関数は、前記第1組の変位及び/又は前記第1結果と関連付けられてもよい。損失関数が第1組の変位及び第1結果と関連付けられたとすれば、前記損失関数は、4つの相関パラメータ(x’- x)、( y’ -y)、(z’-z)及び前記椎骨の初期中心点が前記第1注釈データにおける対応する椎骨の中心点の所定の距離範囲内にあるかどうかを判定した第1結果を含む。本実施例において、前記損失関数(例えば前記損失関数における上記4つの相関パラメータ)に基づいて、前記第1完全畳み込みニューラルネットワークのパラメータを調整する。実際の適用において、複数回のパラメータ調整により前記第1完全畳み込みニューラルネットワークを訓練する必要がある。訓練により最終的に得られた第1完全畳み込みニューラルネットワークは、第1サンプル画像データを処理した後に得られた椎骨中心点と前記第1注釈データにおける対応する椎骨の中心点との差異が所定の閾値範囲内にあることを満たすことができる。
【0098】
本実施例において、前記第1完全畳み込みニューラルネットワークは、エンコーダ-デコーダ(Encoder-Decoder)アーキテクチャを有するV-Net完全畳み込みニューラルネットワークであってもよい。
【0099】
本実施例は、第1完全畳み込みニューラルネットワークにより、前記画像データに含まれる脊椎骨格における各椎骨の中心点を位置決めする。第1完全畳み込みニューラルネットワークにより画像データの特徴認識、特徴選択及び特徴分類を自動的に行い、手動による特徴選択の方式に比べて、システムの性能を向上させ、椎骨中心の位置決めの正確性を向上させる。一方で、本実施例は、エンドツーエンドの方式で第1完全畳み込みニューラルネットワークを訓練することで、各椎骨の中心点の位置を正確に得ることができる。
【0100】
前記第2完全畳み込みニューラルネットワークの訓練方法について、本願の実施例による画像処理方法におけるネットワーク訓練方法を示すもう1つのフローチャートである
図6に示すように、前記方法は、以下のステップを含む。
【0101】
ステップ501において、ターゲットオブジェクトを含む第1サンプル画像データ、前記第1サンプル画像データに関連する第2サンプル画像データ及び前記第1サンプル画像データに対応する第2注釈データを取得し、前記第2サンプル画像データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトの中心点を含み、前記第2注釈データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトのカテゴリを示すためのものである。
【0102】
ステップ502において、前記第1サンプル画像データ、前記第2サンプル画像データ及び前記第2注釈データに基づいて、前記第2完全畳み込みニューラルネットワークを訓練する。
【0103】
本実施例のステップ501において、第1サンプル画像データ及び対応する第1注釈データは、第1完全畳み込みニューラルネットワークを訓練するためのデータである。ここで、前記第1サンプル画像データは、ターゲットオブジェクトを含み、前記ターゲットオブジェクトは、例えば、脊椎骨格である。実際の適用において、第2完全畳み込みニューラルネットワークを訓練するために、複数の第1サンプル画像データを予め取得することができる。複数の第1サンプル画像データに含まれる脊椎骨格は、同一のカテゴリに属する。前記カテゴリは、例えば、人間又は脊椎骨格を有する動物などであってもよい。得られた複数の第1サンプル画像データは、人間脊椎骨格を含むサンプル画像データであるか、又は、得られた複数の第1サンプル画像データは、あるイヌ類の脊椎骨格を含むサンプル画像データ等であることが理解されるべきである。
【0104】
ここで、前記第2サンプル画像データは、第1サンプル画像データにおけるターゲットオブジェクト(例えば、脊椎骨格)に対応する各サブオブジェクト(例えば、椎骨)の中心点を含む。一実施形態として、前記第2サンプル画像データは、前記訓練で得られた第1完全畳み込みニューラルネットワークにより得られた、椎骨中心点を含む画像データであってもよい。
【0105】
ここで、前記第2注釈データは、第1サンプル画像データにおける各椎骨カテゴリに対応するデータである。一例として、前記第2注釈データは、
図4に示すような第2画像データであってもよく、つまり、手動によるタグ付けで標識された各カテゴリの椎骨の輪郭により生成された画像データであってもよい。
【0106】
本実施例のステップ502において、前記第1サンプル画像データ、前記第2サンプル画像データ及び前記第2注釈データに基づいて、前記第2完全畳み込みニューラルネットワークを訓練することは、前記第1サンプル画像データに対してダウンサンプリング処理を行い、第3サンプル画像データを取得することと、前記第3サンプル画像データ、前記第2サンプル画像データ及び前記第2注釈データに基づいて、前記第2完全畳み込みニューラルネットワークを訓練することと、を含む。
【0107】
本実施例において、ネットワーク訓練過程におけるデータを減少させ、ビデオメモリが限られたという問題を解決するために、第2完全畳み込みニューラルネットワークを訓練する前に、まず第1サンプル画像データに対してダウンサンプリング処理を行い、第3サンプル画像データを取得する。前記第3サンプル画像データ、前記第2サンプル画像データ及び前記第2注釈データに基づいて、前記第2完全畳み込みニューラルネットワークを訓練する。前記第1完全畳み込みニューラルネットワークの訓練方法と同様に、前記第2完全畳み込みニューラルネットワークにより、初期パラメータに応じて、前記第3サンプル画像データ及び前記第2サンプル画像データを処理し、各椎骨の初期カテゴリを含む初期画像データを取得する。前記初期画像データと前記第2注釈データとの差異に基づいて、損失関数を決定し、前記損失関数に基づいて、前記第2完全畳み込みニューラルネットワークのパラメータを調整する。これにより、前記第2完全畳み込みニューラルネットワークを訓練する。
【0108】
本実施例において、前記第2完全畳み込みニューラルネットワークは、V-Net完全畳み込みニューラルネットワークであってもよい。
【0109】
本実施例は、第1完全畳み込みニューラルネットワークにより、前記画像データに含まれる脊椎骨格における各椎骨の中心点を位置決めし、第2完全畳み込みニューラルネットワークにより、画像データに含まれる脊椎骨格における各椎骨のカテゴリを分類する。第1完全畳み込みニューラルネットワークにより、画像データの局所的情報を処理し、各椎骨の中心点を決定し、第2完全畳み込みニューラルネットワークにより、画像データの全局的情報を処理し、各椎骨のカテゴリを決定することに相当する。完全畳み込みニューラルネットワーク(第1完全畳み込みニューラルネットワーク及び第2完全畳み込みニューラルネットワークを含む)により、画像データの特徴認識、特徴選択及び特徴分類を自動的に行い、手動による特徴選択の方式に比べて、システムの性能を向上させ、椎骨中心の位置決めの正確性を向上させる。一方で、完全畳み込みニューラルネットワークは、各画素点を分類することができる。つまり、完全畳み込みニューラルネットワークによれば、椎体間の空間的関係をより良好に利用して訓練効率を向上させることができる。具体的には、第2完全畳み込みニューラルネットワークにより、画像データの全局的情報を処理し、脊椎骨格における各椎骨間の空間的関係に基づいて、第2完全畳み込みニューラルネットワークを訓練し、ネットワーク性能を向上させる。
【0110】
本願の実施例は、画像処理装置を更に提供する。
図7は、本願の実施例による画像処理装置の構造を示す概略図である。
図7に示すように前記装置は、取得ユニット61と、画像処理ユニット62と、を備え、
前記取得ユニット61は、ターゲットオブジェクトを含む画像データを取得するように構成され、前記ターゲットオブジェクトは、少なくとも1つのサブオブジェクトを含み、
前記画像処理ユニット62は、完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得するように構成され、前記ターゲット画像データは、少なくとも前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含む。
【0111】
一実施形態として、前記画像処理ユニット62は、第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得するように構成され、前記ターゲット画像データは、前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含む。
【0112】
もう1つの実施形態として、前記画像処理ユニット62は、第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、第1画像データを取得するように構成され、前記第1画像データは、前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含み、前記画像処理ユニット62は、第2完全畳み込みニューラルネットワークに基づいて、前記画像データ及び前記第1画像データを処理し、第2画像データを取得するように構成され、前記第2画像データは、前記ターゲットオブジェクトにおける各サブオブジェクトのカテゴリを示すためのものである。
【0113】
本願の任意選択的な実施例において、
図8に示すように、前記画像処理ユニット62は、第1処理モジュール621を備え、前記第1処理モジュール621は、前記第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、前記画像データにおける画素に対応する第1変位データを取得するように構成され、前記第1変位データは、前記画素と前記画素に最も近いサブオブジェクトの中心の変位を表し、前記第1処理モジュール621は、前記第1変位データ及び前記画素自体の位置データに基づいて、前記画素に最も近い第1サブオブジェクトの中心点の初期位置を決定するように構成され、前記第1サブオブジェクトは、前記少なくとも1つのサブオブジェクトのうちのいずれか1つのサブオブジェクトであり、前記第1処理モジュール621は、前記画像データにおける少なくとも一部の画素に対応する前記第1サブオブジェクトの中心点の初期位置を取得し、位置が同じである初期位置の数を決定し、数が最も多い初期位置に基づいて、前記第1サブオブジェクトの中心点を決定するように構成される。
【0114】
任意選択的な実施例において、前記第1処理モジュール621は、前記画像データにおける少なくとも1つの画素に対応する第1変位距離に基づいて、前記少なくとも1つの画素に対してスクリーニングを行い、前記少なくとも1つの画素に最も近い第1サブオブジェクトの中心との距離が特定の条件を満たす少なくとも1つの第1画素を取得し、前記第1画素の第1変位データ及び前記第1画素自体の位置データに基づいて、前記第1サブオブジェクトの中心点の初期位置を決定するように構成される。
【0115】
本願の任意選択的な実施例において、
図9に示すように、前記画像処理ユニット62は、第2処理モジュール622を備え、前記第2処理モジュール622は、前記画像データと前記第1画像データを合併し、ターゲット画像データを取得し、第2完全畳み込みニューラルネットワークに基づいて、前記ターゲット画像データを処理し、前記ターゲット画像データにおける画素が属するサブオブジェクトのカテゴリの確率値を取得し、最大確率値に対応するサブオブジェクトのカテゴリを前記画素が属するサブオブジェクトのカテゴリとして決定し、前記ターゲット画像データにおける画素が属するサブオブジェクトのカテゴリに基づいて、第2画像データを取得するように構成される。
【0116】
任意選択的な実施例において、前記第2処理モジュール622は、前記ターゲット画像データにおける第2サブオブジェクトの中心点に対応する画素が属するサブオブジェクトのカテゴリの確率値を得るように構成され、前記第2サブオブジェクトは、前記少なくとも1つのサブオブジェクトのうちのいずれか1つのサブオブジェクトであり、前記第2処理モジュール622は、最大確率値に対応する第2サブオブジェクトのカテゴリを前記第2サブオブジェクトのカテゴリとして決定するように構成される。
【0117】
本願の任意選択的な実施例において、前記画像処理ユニット62は、前記画像データに対してダウンサンプリング処理を行い、第3画像データを取得し、第2完全畳み込みニューラルネットワークに基づいて、前記第3画像データ及び前記第1画像データを処理し、第2画像データを取得するように構成される。
【0118】
本願の任意選択的な実施例において、
図10に示すように、前記装置は、第1訓練ユニット63を更に備え、前記第1訓練ユニット63は、ターゲットオブジェクトを含む第1サンプル画像データ及び前記第1サンプル画像データに対応する第1注釈データを取得するように構成され、前記第1注釈データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトの中心点を示すためのものであり、前記第1訓練ユニット63は、前記第1サンプル画像データ及び対応する第1注釈データに基づいて、前記第1完全畳み込みニューラルネットワークを訓練するように構成される。
【0119】
本実施例において、前記第1訓練ユニット63は、第1完全畳み込みニューラルネットワークに基づいて、前記第1サンプル画像データを処理し、初期画像データを取得するように構成され、前記初期画像データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトの初期中心点を含み、前記第1訓練ユニット63は、前記初期画像データ及び前記第1注釈データに基づいて、損失関数を決定し、前記損失関数に基づいて、前記第1完全畳み込みニューラルネットワークのパラメータを調整し、前記第1完全畳み込みニューラルネットワークを訓練するように構成される。
【0120】
本願の任意選択的な実施例において、
図11に示すように、前記装置は、第2訓練ユニット64を更に備え、前記第2訓練ユニット64は、ターゲットオブジェクトを含む第1サンプル画像データ、前記第1サンプル画像データに関連する第2サンプル画像データ及び前記第1サンプル画像データに対応する第2注釈データを取得するように構成され、前記第2サンプル画像データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトの中心点を含み、前記第2注釈データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトのカテゴリを示すためのものであり、前記第2訓練ユニット64は、前記第1サンプル画像データ、前記第2サンプル画像データ及び前記第2注釈データに基づいて、前記第2完全畳み込みニューラルネットワークを訓練するように構成される。
【0121】
任意選択的に、前記第2訓練ユニット64は、前記第1サンプル画像データに対してダウンサンプリング処理を行い、第3サンプル画像データを取得し、前記第3サンプル画像データ、前記第2サンプル画像データ及び前記第2注釈データに基づいて、前記第2完全畳み込みニューラルネットワークを訓練するように構成される。
【0122】
本実施例において、前記ターゲットオブジェクトは、脊椎骨格を含み、前記脊椎骨格は、少なくとも1つの椎骨を含む。
【0123】
本願の実施例において、前記装置における取得ユニット61、画像処理ユニット62(第2処理モジュール621及び第2処理モジュール622を含む)、第1訓練ユニット63及び第2訓練ユニット64は、実際の適用において、中央演算処理装置(CPU:Central Processing Unit)、デジタル信号プロセッサ(DSP:Digital Signal Processor)、マイクロ制御ユニット(MCU:Microcontroller Unit)又はフィールドプログラマブルゲートアレイ(FPGA:Field-Programmable Gate Array)により実現可能である。
【0124】
上記実施例で提供される画像処理装置が画像処理を行う場合、単に上述した各プログラムモジュールの区分を持って例を挙げて説明したが、実際の適用においては、必要に応じて上記処理を異なる機能モジュールで完成させ、即ち、設備の内部構造を様々なプログラムモジュールに区分することによって、上述した全部又は一部の処理を完成させることができることに留意されたい。なお、上記実施例で提供される画像処理装置は、画像処理方法と同一の構想に属し、その具体的な実現過程は、方法実施例を参照されたい。ここで詳細な説明を省略する。
【0125】
本願の実施例は、電子機器を更に提供する。
図12は、本願の実施例による電子機器の構造を示す概略図である。
図12に示すように、前記電子機器は、メモリ72と、プロセッサ71と、メモリ72に記憶されてプロセッサ71で実行される可能なコンピュータプログラムと、を備え、プロセッサ71が前記プログラムを実行する時、本願の実施例に記載の方法のステップを実施する。
【0126】
本実施例において、電子機器における各ユニットはバスシステム73によって合併されることが理解されるべきである。バスシステム73は、これらの部材間の接続及び通信を実現するためのものであることが理解されるべきである。バスシステム73はデータバスを含む以外、電源バス、制御バス及び状態信号バスを含む。しかしながら、明確に説明するために、
図12において、全てのバスをバスシステム73と表記する。
【0127】
理解すべき点として、メモリ72は、揮発性メモリ又は不揮発性メモリであってもよいし、揮発性メモリと不揮発性メモリの両方であってもよい。ここで、不揮発性メモリは、読み取り専用メモリ(ROM:Read Only Memory)、プログラマブル読み取り専用メモリ(PROM:Programmable Read-Only Memory)、消去可能なプログラマブル読み取り専用メモリ(EPROM:Erasable Programmable Read-Only Memory)、電気的消去可能なプログラマブル読み取り専用メモリ(EEPROM:Electrically Erasable Programmable Read-Only Memory)、磁気ランダムアクセスメモリ(FRAM(登録商標):ferromagnetic random access memory)、フラッシュメモリ(Flash Memory)、磁気面メモリ、光ディスク、又は読み出し専用型光ディスク(CD-ROM:Compact Disc Read-Only Memory)であってもよい。磁気面メモリは、磁気ディスクメモリ又は磁気テープメモリであってもよい。揮発性メモリは、外部キャッシュとして用いられるランダムアクセスメモリ(RAM:Random Access Memory)であってもよい。非限定的な例証として、RAMは、スタティックランダムアクセスメモリ(SRAM:Static Random Access Memory)、同期スタティックランダムアクセスメモリ(SSRAM:Synchronous Static Random Access Memory)、ダイナミックランダムアクセスメモリ(DRAM:Dynamic Random Access Memory)、同期ダイナミックランダムアクセスメモリ(SDRAM:Synchronous Dynamic Random Access Memory)、ダブルデータレート同期ダイナミックランダムアクセスメモリ(DDRSDRAM:Double Data Rate Synchronous Dynamic Random Access Memory)、エンハンスト同期ダイナミックランダムアクセスメモリ(ESDRAM:Enhanced Synchronous Dynamic Random Access Memory)、同期リンクダイナミックランダムアクセスメモリ(SLDRAM:Synchlink Dynamic Random Access Memory)及びダイレクトラムバスランダムアクセスメモリ(DRRAM:Direct Rambus Random Access Memory)などの多数の形態で使用可能である。本発明の実施例に記載されているメモリ72は、これら及び任意の他の適切な形態のメモリを含むが、これらに限定されないことに留意されたい。
【0128】
上記本発明の実施例に開示された方法はプロセッサ71に適用されるか、又はプロセッサ71により実現される。プロセッサ71は、信号を処理する能力を有する集積回路チップであり得る。上記方法の各ステップは、実現する過程において、プロセッサ71におけるハードウェアの集積論理回路又はソフトウェアの形の指令により完成することができる。上記プロセッサ71は、汎用プロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、又は他のプログラマブルロジックデバイス、ディスクリートゲート又はトランジスタロジックデバイス、ディスクリートハードウェアコンポーネント等であってもよい。プロセッサ71は、本発明の実施例に開示されている各方法、ステップ及び論理的ブロック図を実現又は実行することができる。汎用プロセッサはマイクロプロセッサであってもよいし、該プロセッサは如何なる従来のプロセッサ等であってもよい。本発明の実施例に開示されている方法のステップに合わせて、ハードウェア解読プロセッサによって実行し、又は解読プロセッサ内のハードウェアとソフトウェアモジュールとの組み合わせで実行して完成するように示す。ソフトウェアモジュールは、記憶媒体内に存在してもよい。該記憶媒体は、メモリ72内に位置し、プロセッサ71はメモリ72中の情報を読み取り、そのハードウェアと共に上記方法のステップを完了する。
【0129】
例示的な実施例において、電子機器は、1つ又は複数の特定用途向け集積回路(ASIC:Application Specific Intergrated Circuit)、DSP、プログラマブルロジックデバイス(PLD:Programmable Logic Device)、複合プログラマブルロジックデバイス(CPLD:Complex Programmable Logic Device)、フィールドプログラマブルゲートアレイ(FPGA:Field-Programmable Gate Array)、汎用プロセッサ、コントローラ、マイクロコントローラ(MCU:Micro Controller Unit)、マイクロプロセッサ(Microprocessor)、又は他の電子素子により実現され、前記方法を実行するために用いられる。
【0130】
本願の実施例は、コンピュータプログラムを更に提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、上記コンピュータ可読コードが電子機器で実行される場合、前記電子機器におけるプロセッサは、上記画像処理方法を実行する。
【0131】
本願の実施例は、コンピュータ可読記憶媒体を更に提供する。前記コンピュータ可読記憶媒体にコンピュータプログラムが記憶されており、該プログラムがプロセッサにより実行される時、本願の実施例に記載の方法のステップを実施する。
【0132】
本願で提供される幾つかの実施例において、開示される装置及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した装置の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインタフェース、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。
【0133】
分離部材として説明した該ユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。
【0134】
また、本願の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、2つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットはハードウェアとして実現してもよく、ハードウェアとソフトウェア機能ユニットとを組み合わせて実現してもよい。
【0135】
上記各方法に係る実施例の全部又は一部のステップはプログラム命令に係るハードウェアにより実現され、前記プログラムはコンピュータ読み取り可能な記憶媒体に記憶されてもよく、該プログラムが実行される時、上記方法の実施例におけるステップを実行し、前記記憶媒体は、携帯型記憶装置、ROM、RAM、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含むことは、当業者でれば、理解すべきである。
【0136】
又は、本願の上記集積したユニットがソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータにより読み取り可能な記憶媒体内に記憶されてもよい。このような理解のもと、本願の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、コンピュータ機器(パーソナルコンピュータ、サーバ又はネットワーク装置など)に、本願の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記の記憶媒体は、携帯型記憶装置、ROM、RAM、磁気ディスク、又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。
【0137】
以上は本願の実施形態に過ぎず、本願の保護の範囲はそれらに制限されるものではなく、当業者が本願に開示された技術範囲内で容易に想到しうる変更や置換はいずれも、本願の保護範囲内に含まれるべきである。従って、本願の保護範囲は特許請求の範囲の保護範囲を基準とするべきである。
【手続補正書】
【提出日】2021-07-08
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
画像処理方法であって、
ターゲットオブジェクトを含む画像データを取得することであって、前記ターゲットオブジェクトは、少なくとも1つのサブオブジェクトを含む、ことと、
完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得することであって、前記ターゲット画像データは、少なくとも前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含む、ことと、を含む、前記方法。
【請求項2】
前記完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得することは、
第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得することであって、前記ターゲット画像データは、前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含む、ことを含
み、
又は、
前記完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得することは、
第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、第1画像データを取得することであって、前記第1画像データは、前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含む、ことと、
第2完全畳み込みニューラルネットワークに基づいて、前記画像データ及び前記第1画像データを処理し、第2画像データを取得することであって、前記第2画像データは、前記ターゲットオブジェクトにおける各サブオブジェクトのカテゴリを示すためのものである、ことと、を含むことを特徴とする
請求項1に記載の方法。
【請求項3】
前記第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理することは、
前記第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、前記画像データにおける画素に対応する第1変位データを取得することであって、前記第1変位データは、前記画素と前記画素に最も近いサブオブジェクトの中心の変位を表す、ことと、
前記第1変位データ及び前記画素自体の位置データに基づいて、前記画素に最も近い第1サブオブジェクトの中心点の初期位置を決定することであって、前記第1サブオブジェクトは、前記少なくとも1つのサブオブジェクトのうちのいずれか1つのサブオブジェクトである、ことと、
前記画像データにおける少なくとも一部の画素に対応する前記第1サブオブジェクトの中心点の初期位置を取得し、位置が同じである初期位置の数を決定し、数が最も多い初期位置に基づいて、前記第1サブオブジェクトの中心点を決定することと、を含むことを特徴とする
請求項
2に記載の方法。
【請求項4】
前記第1変位データ及び前記画素自体の位置データに基づいて、前記画素に最も近い第1サブオブジェクトの中心点の初期位置を決定する前に、前記方法は、
前記画像データにおける少なくとも1つの画素に対応する第1変位距離に基づいて、前記少なくとも1つの画素に対してスクリーニングを行い、前記少なくとも1つの画素に最も近い第1サブオブジェクトの中心との距離が特定の条件を満たす少なくとも1つの第1画素を得ることを更に含み、
前記第1変位データ及び前記画素自体の位置データに基づいて、前記画素に最も近い第1サブオブジェクトの中心点の初期位置を決定することは、
前記第1画素の第1変位データ及び前記第1画素自体の位置データに基づいて、前記第1サブオブジェクトの中心点の初期位置を決定することを含むことを特徴とする
請求項
3に記載の方法。
【請求項5】
前記第2完全畳み込みニューラルネットワークに基づいて、前記画像データ及び前記第1画像データを処理し、第2画像データを取得することは、
前記画像データと前記第1画像データを合併し、ターゲット画像データを取得することと、
前記第2完全畳み込みニューラルネットワークに基づいて、前記ターゲット画像データを処理し、前記ターゲット画像データにおける画素が属するサブオブジェクトのカテゴリの確率値を取得し、最大確率値に対応するサブオブジェクトのカテゴリを前記画素が属するサブオブジェクトのカテゴリとして決定することと、
前記ターゲット画像データにおける画素が属するサブオブジェクトのカテゴリに基づいて、第2画像データを取得することと、を含
み、
又は、
前記第2完全畳み込みニューラルネットワークに基づいて、前記画像データ及び前記第1画像データを処理し、第2画像データを取得することは、
前記画像データに対してダウンサンプリング処理を行い、第3画像データを取得することと、
前記第2完全畳み込みニューラルネットワークに基づいて、前記第3画像データ及び前記第1画像データを処理し、第2画像データを取得することと、を含むことを特徴とする
請求項
2に記載の方法。
【請求項6】
前記ターゲット画像データにおける画素が属するサブオブジェクトのカテゴリの確率値を取得し、最大確率値に対応するサブオブジェクトのカテゴリを前記画素が属するサブオブジェクトのカテゴリとして決定することは、
前記ターゲット画像データにおける第2サブオブジェクトの中心点に対応する画素が属するサブオブジェクトのカテゴリの確率値を得ることであって、前記第2サブオブジェクトは、前記少なくとも1つのサブオブジェクトのうちのいずれか1つのサブオブジェクトである、ことと、
最大確率値に対応する第2サブオブジェクトのカテゴリを前記第2サブオブジェクトのカテゴリとして決定することと、を含むことを特徴とする
請求項
5に記載の方法。
【請求項7】
前記第1完全畳み込みニューラルネットワークの訓練過程は、
ターゲットオブジェクトを含む第1サンプル画像データ及び前記第1サンプル画像データに対応する第1注釈データを取得することであって、前記第1注釈データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトの中心点を示すためのものである、ことと、
前記第1サンプル画像データ及び対応する第1注釈データに基づいて、前記第1完全畳み込みニューラルネットワークを訓練することと、を含むことを特徴とする
請求項2から
4のうちいずれか一項に記載の方法。
【請求項8】
前記第1サンプル画像データ及び対応する第1注釈データに基づいて、前記第1完全畳み込みニューラルネットワークを訓練することは、
前記第1完全畳み込みニューラルネットワークに基づいて、前記第1サンプル画像データを処理し、初期画像データを取得することであって、前記初期画像データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトの初期中心点を含む、ことと、
前記初期画像データ及び前記第1注釈データに基づいて、損失関数を決定し、前記損失関数に基づいて、前記第1完全畳み込みニューラルネットワークのパラメータを調整し、前記第1完全畳み込みニューラルネットワークを訓練することと、を含むことを特徴とする
請求項
7に記載の方法。
【請求項9】
前記第2完全畳み込みニューラルネットワークの訓練過程は、
ターゲットオブジェクトを含む第1サンプル画像データ、前記第1サンプル画像データに関連する第2サンプル画像データ及び前記第1サンプル画像データに対応する第2注釈データを取得することであって、前記第2サンプル画像データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトの中心点を含み、前記第2注釈データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトのカテゴリを示すためのものである、ことと、
前記第1サンプル画像データ、前記第2サンプル画像データ及び前記第2注釈データに基づいて、前記第2完全畳み込みニューラルネットワークを訓練することと、を含むことを特徴とする
請求項
2、5、又は6に記載の方法。
【請求項10】
前記第1サンプル画像データ、前記第2サンプル画像データ及び前記第2注釈データに基づいて、前記第2完全畳み込みニューラルネットワークを訓練することは、
前記第1サンプル画像データに対してダウンサンプリング処理を行い、第3サンプル画像データを取得することと、
前記第3サンプル画像データ、前記第2サンプル画像データ及び前記第2注釈データに基づいて、前記第2完全畳み込みニューラルネットワークを訓練することと、を含むことを特徴とする
請求項
9に記載の方法。
【請求項11】
前記ターゲットオブジェクトは、脊椎骨格を含み、前記脊椎骨格は、少なくとも1つの椎骨を含むことを特徴とする
請求項1から
10のうちいずれか一項に記載の方法。
【請求項12】
画像処理装置であって、前記装置は、取得ユニットと、画像処理ユニットと、を備え、
前記取得ユニットは、ターゲットオブジェクトを含む画像データを取得するように構成され、前記ターゲットオブジェクトは、少なくとも1つのサブオブジェクトを含み、
前記画像処理ユニットは、完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得するように構成され、前記ターゲット画像データは、少なくとも前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含む、前記装置。
【請求項13】
コンピュータプログラムを記憶するコンピュータ可読記憶媒体であって、前記コンピュータプログラムがプロセッサにより実行される時、
前記プロセッサに請求項1から
11のうちいずれか一項に記載の
方法を実施させる、前記コンピュータ可読記憶媒体。
【請求項14】
電子機器であって、前記電子機器は、メモリと、プロセッサと、メモリに記憶されてプロセッサにより実行可能なコンピュータプログラムと、を備え、前記プロセッサが前記コンピュータプログラムを実行
して、請求項1から
11のうちいずれか一項に記載の
方法を実施する、前記電子機器。
【請求項15】
コンピュータ
に、請求項1から
11のうちいずれか一項に記載の画像処理方法を実行
させる、コンピュータプログラム。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0035
【補正方法】変更
【補正の内容】
【0035】
本願の実施例は、コンピュータプログラムを更に提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される場合、前記電子機器におけるプロセッサは、本願の実施例に記載の画像処理方法を実行する。
例えば、本願は以下の項目を提供する。
(項目1)
画像処理方法であって、
ターゲットオブジェクトを含む画像データを取得することであって、前記ターゲットオブジェクトは、少なくとも1つのサブオブジェクトを含む、ことと、
完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得することであって、前記ターゲット画像データは、少なくとも前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含む、ことと、を含む、前記方法。
(項目2)
前記完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得することは、
第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得することであって、前記ターゲット画像データは、前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含む、ことを含むことを特徴とする
項目1に記載の方法。
(項目3)
前記完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得することは、
第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、第1画像データを取得することであって、前記第1画像データは、前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含む、ことと、
第2完全畳み込みニューラルネットワークに基づいて、前記画像データ及び前記第1画像データを処理し、第2画像データを取得することであって、前記第2画像データは、前記ターゲットオブジェクトにおける各サブオブジェクトのカテゴリを示すためのものである、ことと、を含むことを特徴とする
項目1に記載の方法。
(項目4)
前記第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理することは、
前記第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、前記画像データにおける画素に対応する第1変位データを取得することであって、前記第1変位データは、前記画素と前記画素に最も近いサブオブジェクトの中心の変位を表す、ことと、
前記第1変位データ及び前記画素自体の位置データに基づいて、前記画素に最も近い第1サブオブジェクトの中心点の初期位置を決定することであって、前記第1サブオブジェクトは、前記少なくとも1つのサブオブジェクトのうちのいずれか1つのサブオブジェクトである、ことと、
前記画像データにおける少なくとも一部の画素に対応する前記第1サブオブジェクトの中心点の初期位置を取得し、位置が同じである初期位置の数を決定し、数が最も多い初期位置に基づいて、前記第1サブオブジェクトの中心点を決定することと、を含むことを特徴とする
項目2又は3に記載の方法。
(項目5)
前記第1変位データ及び前記画素自体の位置データに基づいて、前記画素に最も近い第1サブオブジェクトの中心点の初期位置を決定する前に、前記方法は、
前記画像データにおける少なくとも1つの画素に対応する第1変位距離に基づいて、前記少なくとも1つの画素に対してスクリーニングを行い、前記少なくとも1つの画素に最も近い第1サブオブジェクトの中心との距離が特定の条件を満たす少なくとも1つの第1画素を得ることを更に含み、
前記第1変位データ及び前記画素自体の位置データに基づいて、前記画素に最も近い第1サブオブジェクトの中心点の初期位置を決定することは、
前記第1画素の第1変位データ及び前記第1画素自体の位置データに基づいて、前記第1サブオブジェクトの中心点の初期位置を決定することを含むことを特徴とする
項目4に記載の方法。
(項目6)
前記第2完全畳み込みニューラルネットワークに基づいて、前記画像データ及び前記第1画像データを処理し、第2画像データを取得することは、
前記画像データと前記第1画像データを合併し、ターゲット画像データを取得することと、
前記第2完全畳み込みニューラルネットワークに基づいて、前記ターゲット画像データを処理し、前記ターゲット画像データにおける画素が属するサブオブジェクトのカテゴリの確率値を取得し、最大確率値に対応するサブオブジェクトのカテゴリを前記画素が属するサブオブジェクトのカテゴリとして決定することと、
前記ターゲット画像データにおける画素が属するサブオブジェクトのカテゴリに基づいて、第2画像データを取得することと、を含むことを特徴とする
項目3に記載の方法。
(項目7)
前記ターゲット画像データにおける画素が属するサブオブジェクトのカテゴリの確率値を取得し、最大確率値に対応するサブオブジェクトのカテゴリを前記画素が属するサブオブジェクトのカテゴリとして決定することは、
前記ターゲット画像データにおける第2サブオブジェクトの中心点に対応する画素が属するサブオブジェクトのカテゴリの確率値を得ることであって、前記第2サブオブジェクトは、前記少なくとも1つのサブオブジェクトのうちのいずれか1つのサブオブジェクトである、ことと、
最大確率値に対応する第2サブオブジェクトのカテゴリを前記第2サブオブジェクトのカテゴリとして決定することと、を含むことを特徴とする
項目6に記載の方法。
(項目8)
前記第2完全畳み込みニューラルネットワークに基づいて、前記画像データ及び前記第1画像データを処理し、第2画像データを取得することは、
前記画像データに対してダウンサンプリング処理を行い、第3画像データを取得することと、
前記第2完全畳み込みニューラルネットワークに基づいて、前記第3画像データ及び前記第1画像データを処理し、第2画像データを取得することと、を含むことを特徴とする
項目3に記載の方法。
(項目9)
前記第1完全畳み込みニューラルネットワークの訓練過程は、
ターゲットオブジェクトを含む第1サンプル画像データ及び前記第1サンプル画像データに対応する第1注釈データを取得することであって、前記第1注釈データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトの中心点を示すためのものである、ことと、
前記第1サンプル画像データ及び対応する第1注釈データに基づいて、前記第1完全畳み込みニューラルネットワークを訓練することと、を含むことを特徴とする
項目2から5のうちいずれか一項に記載の方法。
(項目10)
前記第1サンプル画像データ及び対応する第1注釈データに基づいて、前記第1完全畳み込みニューラルネットワークを訓練することは、
前記第1完全畳み込みニューラルネットワークに基づいて、前記第1サンプル画像データを処理し、初期画像データを取得することであって、前記初期画像データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトの初期中心点を含む、ことと、
前記初期画像データ及び前記第1注釈データに基づいて、損失関数を決定し、前記損失関数に基づいて、前記第1完全畳み込みニューラルネットワークのパラメータを調整し、前記第1完全畳み込みニューラルネットワークを訓練することと、を含むことを特徴とする
項目9に記載の方法。
(項目11)
前記第2完全畳み込みニューラルネットワークの訓練過程は、
ターゲットオブジェクトを含む第1サンプル画像データ、前記第1サンプル画像データに関連する第2サンプル画像データ及び前記第1サンプル画像データに対応する第2注釈データを取得することであって、前記第2サンプル画像データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトの中心点を含み、前記第2注釈データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトのカテゴリを示すためのものである、ことと、
前記第1サンプル画像データ、前記第2サンプル画像データ及び前記第2注釈データに基づいて、前記第2完全畳み込みニューラルネットワークを訓練することと、を含むことを特徴とする
項目3、6又は7に記載の方法。
(項目12)
前記第1サンプル画像データ、前記第2サンプル画像データ及び前記第2注釈データに基づいて、前記第2完全畳み込みニューラルネットワークを訓練することは、
前記第1サンプル画像データに対してダウンサンプリング処理を行い、第3サンプル画像データを取得することと、
前記第3サンプル画像データ、前記第2サンプル画像データ及び前記第2注釈データに基づいて、前記第2完全畳み込みニューラルネットワークを訓練することと、を含むことを特徴とする
項目11に記載の方法。
(項目13)
前記ターゲットオブジェクトは、脊椎骨格を含み、前記脊椎骨格は、少なくとも1つの椎骨を含むことを特徴とする
項目1から12のうちいずれか一項に記載の方法。
(項目14)
画像処理装置であって、前記装置は、取得ユニットと、画像処理ユニットと、を備え、
前記取得ユニットは、ターゲットオブジェクトを含む画像データを取得するように構成され、前記ターゲットオブジェクトは、少なくとも1つのサブオブジェクトを含み、
前記画像処理ユニットは、完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得するように構成され、前記ターゲット画像データは、少なくとも前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含む、前記装置。
(項目15)
前記画像処理ユニットは、第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、ターゲット画像データを取得するように構成され、前記ターゲット画像データは、前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含むことを特徴とする
項目14に記載の装置。
(項目16)
前記画像処理ユニットは、第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、第1画像データを取得するように構成され、前記第1画像データは、前記ターゲットオブジェクトにおける各サブオブジェクトの中心点を含み、前記画像処理ユニットは、第2完全畳み込みニューラルネットワークに基づいて、前記画像データ及び前記第1画像データを処理し、第2画像データを取得するように構成され、前記第2画像データは、前記ターゲットオブジェクトにおける各サブオブジェクトのカテゴリを示すためのものであることを特徴とする
項目14に記載の装置。
(項目17)
前記画像処理ユニットは、第1処理モジュールを備え、前記第1処理モジュールは、前記第1完全畳み込みニューラルネットワークに基づいて、前記画像データを処理し、前記画像データにおける画素に対応する第1変位データを取得するように構成され、前記第1変位データは、前記画素と前記画素に最も近いサブオブジェクトの中心の変位を表し、前記第1処理モジュールは、前記第1変位データ及び前記画素自体の位置データに基づいて、前記画素に最も近い第1サブオブジェクトの中心点の初期位置を決定するように構成され、前記第1サブオブジェクトは、前記少なくとも1つのサブオブジェクトのうちのいずれか1つのサブオブジェクトであり、前記第1処理モジュールは、前記画像データにおける少なくとも一部の画素に対応する前記第1サブオブジェクトの中心点の初期位置を取得し、位置が同じである初期位置の数を決定し、数が最も多い初期位置に基づいて、前記第1サブオブジェクトの中心点を決定するように構成されることを特徴とする
項目15又は16に記載の装置。
(項目18)
前記第1処理モジュールは、前記画像データにおける少なくとも1つの画素に対応する第1変位距離に基づいて、前記少なくとも1つの画素に対してスクリーニングを行い、前記少なくとも1つの画素に最も近い第1サブオブジェクトの中心との距離が特定の条件を満たす少なくとも1つの第1画素を取得し、前記第1画素の第1変位データ及び前記第1画素自体の位置データに基づいて、前記第1サブオブジェクトの中心点の初期位置を決定するように構成されることを特徴とする
項目17に記載の装置。
(項目19)
前記画像処理ユニットは、第2処理モジュールを備え、前記第2処理モジュールは、前記画像データと前記第1画像データを合併し、ターゲット画像データを取得し、第2完全畳み込みニューラルネットワークに基づいて、前記ターゲット画像データを処理し、前記ターゲット画像データにおける画素が属するサブオブジェクトのカテゴリの確率値を取得し、最大確率値に対応するサブオブジェクトのカテゴリを前記画素が属するサブオブジェクトのカテゴリとして決定し、前記ターゲット画像データにおける画素が属するサブオブジェクトのカテゴリに基づいて、第2画像データを取得するように構成されることを特徴とする
項目16に記載の装置。
(項目20)
前記第2処理モジュールは、前記ターゲット画像データにおける第2サブオブジェクトの中心点に対応する画素が属するサブオブジェクトのカテゴリの確率値を得るように構成され、前記第2サブオブジェクトは、前記少なくとも1つのサブオブジェクトのうちのいずれか1つのサブオブジェクトであり、前記第2処理モジュールは、最大確率値に対応する第2サブオブジェクトのカテゴリを前記第2サブオブジェクトのカテゴリとして決定するように構成されることを特徴とする
項目19に記載の装置。
(項目21)
前記画像処理ユニットは、前記画像データに対してダウンサンプリング処理を行い、第3画像データを取得し、第2完全畳み込みニューラルネットワークに基づいて、前記第3画像データ及び前記第1画像データを処理し、第2画像データを取得するように構成されることを特徴とする
項目16に記載の装置。
(項目22)
前記装置は、第1訓練ユニットを更に備え、前記第1訓練ユニットは、ターゲットオブジェクトを含む第1サンプル画像データ及び前記第1サンプル画像データに対応する第1注釈データを取得するように構成され、前記第1注釈データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトの中心点を示すためのものであり、前記第1訓練ユニットは、前記第1サンプル画像データ及び対応する第1注釈データに基づいて、前記第1完全畳み込みニューラルネットワークを訓練するように構成されることを特徴とする
項目15から18のうちいずれか一項に記載の装置。
(項目23)
前記第1訓練ユニットは、第1完全畳み込みニューラルネットワークに基づいて、前記第1サンプル画像データを処理し、初期画像データを取得するように構成され、前記初期画像データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトの初期中心点を含み、前記第1訓練ユニットは、前記初期画像データ及び前記第1注釈データに基づいて、損失関数を決定し、前記損失関数に基づいて、前記第1完全畳み込みニューラルネットワークのパラメータを調整し、前記第1完全畳み込みニューラルネットワークを訓練するように構成されることを特徴とする
項目22に記載の装置。
(項目24)
前記装置は、第2訓練ユニットを更に備え、前記第2訓練ユニットは、ターゲットオブジェクトを含む第1サンプル画像データ、前記第1サンプル画像データに関連する第2サンプル画像データ及び前記第1サンプル画像データに対応する第2注釈データを取得するように構成され、前記第2サンプル画像データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトの中心点を含み、前記第2注釈データは、前記第1サンプル画像データにおけるターゲットオブジェクトに含まれる各サブオブジェクトのカテゴリを示すためのものであり、前記第2訓練ユニットは、前記第1サンプル画像データ、前記第2サンプル画像データ及び前記第2注釈データに基づいて、前記第2完全畳み込みニューラルネットワークを訓練するように構成されることを特徴とする
項目16、19又は20に記載の装置。
(項目25)
前記第2訓練ユニットは、前記第1サンプル画像データに対してダウンサンプリング処理を行い、第3サンプル画像データを取得し、前記第3サンプル画像データ、前記第2サンプル画像データ及び前記第2注釈データに基づいて、前記第2完全畳み込みニューラルネットワークを訓練するように構成されることを特徴とする
項目24に記載の装置。
(項目26)
前記ターゲットオブジェクトは、脊椎骨格を含み、前記脊椎骨格は、少なくとも1つの椎骨を含むことを特徴とする
項目14から25のうちいずれか一項に記載の装置。
(項目27)
コンピュータプログラムを記憶するコンピュータ可読記憶媒体であって、前記コンピュータプログラムがプロセッサにより実行される時、項目1から13のうちいずれか一項に記載の方法のステップを実施する、前記コンピュータ可読記憶媒体。
(項目28)
電子機器であって、前記電子機器は、メモリと、プロセッサと、メモリに記憶されてプロセッサにより実行可能なコンピュータプログラムと、を備え、前記プロセッサが前記コンピュータプログラムを実行する時、項目1から13のうちいずれか一項に記載の方法のステップを実施する、前記電子機器。
(項目29)
コンピュータ可読コードを含むコンピュータプログラムであって、前記コンピュータ可読コードが電子機器で実行される場合、前記電子機器におけるプロセッサは、項目1から13のうちいずれか一項に記載の画像処理方法を実行する、前記コンピュータプログラム。
【国際調査報告】