IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 浙江工商大学の特許一覧

特開2024-21037ディープラーニングを用いた多源異種データ融合方法
<>
  • 特開-ディープラーニングを用いた多源異種データ融合方法 図1
  • 特開-ディープラーニングを用いた多源異種データ融合方法 図2
  • 特開-ディープラーニングを用いた多源異種データ融合方法 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024021037
(43)【公開日】2024-02-15
(54)【発明の名称】ディープラーニングを用いた多源異種データ融合方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240207BHJP
   G06V 10/82 20220101ALI20240207BHJP
   G06N 3/08 20230101ALI20240207BHJP
【FI】
G06T7/00 350C
G06V10/82
G06N3/08
【審査請求】有
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023051743
(22)【出願日】2023-03-28
(31)【優先権主張番号】202210920768.5
(32)【優先日】2022-08-02
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】522481248
【氏名又は名称】浙江工商大学
【氏名又は名称原語表記】ZHEJIANG GONGSHANG UNIVERSITY
【住所又は居所原語表記】No.18, Xuezheng Str. Xiasha University Town Hangzhou, Zhejiang 310018, China
(74)【代理人】
【識別番号】100088063
【弁理士】
【氏名又は名称】坪内 康治
(72)【発明者】
【氏名】劉東昇
(72)【発明者】
【氏名】劉彦▲に▼
(72)【発明者】
【氏名】王黎明
(72)【発明者】
【氏名】陳亜輝
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096GA51
5L096HA11
5L096KA04
5L096MA07
(57)【要約】      (修正有)
【課題】画像処理の分野に適用可能なディープラーニングに基づく多源異種データ融合方法を提供する。
【解決手段】方法は、1次オブジェクト情報及び2次オブジェクト情報を少なくとも含むテキストタイプのシーン情報及びピクチャタイプの画像を取得し、第1のオブジェクト情報からモデルクラスタを決定し、第2レベルオブジェクト情報に基づいて、モデルクラスタ内の各目標下位オブジェクトに対応する目標モデルを決定し、各ターゲットモデルに基づいて画像を粗分割し、各第1画像を得て、第1画像毎に、対応する対象下位オブジェクトに関連付けられた情報集積に基づく分割を行い、第1画像毎にそれぞれ対応する詳細な分割結果を得て、シーン情報と画像との融合結果を特徴付ける画像に対応する本体画像を、細分化結果に基づいてレンダリングする。
【選択図】図1
【特許請求の範囲】
【請求項1】
ディープラーニングに基づく多源異種データ融合方法であって、以下の手順を特徴とする。
シーンを特徴付ける第1のオブジェクト情報と、シーン内で関連付けられた目標下位オブジェクトを特徴付ける第2のオブジェクト情報とを少なくとも含むテキストタイプのシーン情報と、画像をシーン記述するためのピクチャタイプの画像とを取得する。
第1のオブジェクト情報に基づいて、第1のオブジェクト情報によって特徴付けられるシーン内の各下位オブジェクトにそれぞれ対応する分割用モデルを含むモデルクラスタが決定され、このモデルクラスタには、第1のオブジェクト情報によって特徴付けられるシーン内の各下位オブジェクトがそれぞれ対応する分割用モデルが含まれる。
2次オブジェクト情報に基づいて、モデルクラスタ内の各目標下位オブジェクトに対応する目標モデルが決定される。
各目標モデルに基づいて画像を粗分割し、各目標下位物体がそれぞれ対応する第1の画像を得る。
第1の画像のそれぞれについて、対応する注目下位オブジェクトが関連付けられた情報の集約に基づく分割を行い、第1の画像のそれぞれに対応する細かい分割結果を得る。
シーン情報と画像との融合結果を特徴付ける画像に対応する本体画像は、細分化結果に基づいてレンダリングされる。;
【請求項2】
前記細分割結果は、マスク行列を含み、前記第1の画像の各々に対して、対応する目標下位オブジェクトに関連付けられた情報集積に基づく分割を行い、前記第1の画像の各々に対応する細分割結果を得るステップは、前記第1の画像の各々に対応する細分割結果を得るステップと、前記第1の画像の各々に対応する細分割結果を得るステップと、を含むことを特徴とする請求項1に記載の方法:
最初の画像ごとに、第1の画像は、対応する集積化情報抽出器に入力される、集積化情報抽出器は、第1の画像に対応する対象下位物体に対応する検出器トレーニングに基づいて得られ、第1の画像に対応する融合特徴情報を得るために、第1の画像中の対象下位物体に対して集積化情報抽出を行う集積化情報抽出器である。
融合特徴情報は、第1の画像が対応する注目下位画像に対応する分割器に入力され、マスク行列が得られる。
【請求項3】
請求項2に記載の方法において、本体画像は、第1の画像のそれぞれに対応するマスク行列と画像とに基づいてレンダリングされることを特徴とする。
【請求項4】
ディープラーニングに基づく多源異種データ融合方法であって、以下の手順を特徴とする。
サンプル画像およびサンプル画像に対応する下位オブジェクトのタイプに対応する検出器が取得され、サンプル画像は、サンプル画像内の下位オブジェクトの位置情報を特徴付けるラベル付け情報を有し、サンプル画像は、単一タイプの下位オブジェクトのみを含む。
サンプル画像は抽出ネットワークに入力され、抽出ネットワークは、以下の動作を実行する:サンプル画像中の各画素領域について、ピクセル領域に対応するサンプルの第1の特徴を抽出する、各関連画素位置に対応する関連位置特徴を抽出し、関連位置特徴を融合して、画素領域に対応するサンプル第2特徴を得、関連画素位置は、画素領域が位置する近傍の画素領域に属さない他の画素位置である。
各画素領域に対応するサンプル第1特徴およびサンプル第2特徴がマスク生成ネットワークに入力され、サンプルターゲットマスクが得られる。
各ピクセル領域に対して、対応するサンプル第1の特徴を除いた他のサンプル第1の特徴は、検出器に入力される、画素領域に対応する第1の検出結果が得られ、対応するサンプル第2の特徴を除いた他のサンプル第2の特徴が検出器に入力され、画素領域に対応する第2の検出結果が得られる。
各第1の検出結果、各第2の検出結果、及びマーキング情報に基づいて、指示対象マスクを求める。
サンプルターゲットマスクと指示ターゲットマスクとの違いに応じて、トレーニングが完了するまで抽出ネットワークとマスク生成ネットワークのパラメータを調整する。
【請求項5】
請求項4に記載の方法において、各画素領域に対応する第1の検出結果及び第2の検出結果について、第1の検出結果とラベル付け情報との差異度が第1の閾値よりも大きく、かつ、第2の検出結果とラベル付け情報との差異度が第2の閾値よりも大きい場合、当該画素領域はコア画素領域に属すると判定される。
第1の検出結果とラベル付け情報との差異度が第1の閾値よりも大きく、かつ、第2の検出結果とラベル付け情報との差異度が第2の閾値以下である場合、画素領域は境界画素領域に属すると判定される。
コア画素領域と境界画素領域とに基づいて、指示対象マスクが生成される。
【請求項6】
ディープラーニングに基づく多源異種データ融合方法であって、以下の手順を特徴とする。
マルチソース異種データ取得モジュール、シーンを特徴付ける第1のオブジェクト情報と、シーン内で関連付けられた目標下位オブジェクトを特徴付ける第2のオブジェクト情報とを少なくとも含むテキストタイプのシーン情報と、画像をシーン記述するためのピクチャータイプの画像とを取得する。
クラスタ決定モジュールは、第1のオブジェクト情報に基づいて、第1のオブジェクト情報によって特徴付けられるシーン内の各下位オブジェクトにそれぞれ対応する分割用モデルを含むモデルクラスタを決定する。
モデル決定モジュールは、2次オブジェクト情報に基づいて、モデルクラスタ内の各目標下位オブジェクトに対応する目標モデルを決定する。
粗分割モジュールは、各ターゲットモデルに基づいて画像を粗分割し、各ターゲット下位オブジェクトがそれぞれ対応する第1画像を得る。
各第1画像に対して、対応する対象下位オブジェクトが関連付けられた情報の集約に基づく分割を行う細分割モジュールが、各第1画像にそれぞれ対応する細分割結果を得る。
シーン情報と画像の融合結果とを特徴付ける、細分化結果に基づいて画像に対応する本体画像をレンダリングする本体画像レンダリングモジュールが提供される。
【請求項7】
請求項6に記載の方法において、最初の画像ごとに、第1の画像は、対応する集積化情報抽出器に入力される、集積化情報抽出器は、第1の画像に対応する対象下位物体に対応する検出器トレーニングに基づいて得られ、第1の画像に対応する融合特徴情報を得るために、第1の画像中の対象下位物体に対して集積化情報抽出を行う集積化情報抽出器である。
融合特徴情報は、第1の画像が対応する注目下位画像に対応する分割器に入力され、マスク行列が得られる。
【請求項8】
請求項7に記載の方法において、本体画像は、第1の画像のそれぞれに対応するマスク行列と画像とに基づいてレンダリングされる。
【請求項9】
請求項1から5のいずれか1項に記載のディープラーニングベースのマルチソース異種データ融合方法を実施するために、プロセッサによってロードされ、実行される少なくとも1つの命令または少なくとも1つのプログラムが記憶されていることを特徴とするコンピュータ可読記憶媒体。
【請求項10】
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備えることを特徴とする電子装置。ここで、メモリは、少なくとも1つのプロセッサによって実行可能な命令を格納し、少なくとも1つのプロセッサは、メモリに格納された命令を実行することによって、請求項1~5のいずれかに記載のディープラーニングに基づく多ソース異種データ融合方法の1つを実現する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理技術の分野に係り、特にディープラーニングに基づく多源異種データ融合方法に関する。
【背景技術】
【0002】
複数ソースのデータには、同じオブジェクトへの情報が含まれている場合があります。ということは、同じオブジェクトのための情報は、異なるタイプのマルチソース・データに異なる形式キャリアで記録されてもよい。異なるデータは、同じ対象の異なる側面の情報を表しており、どのように多源データに対して情報融合を行い、それによって同一の対象を多次元立体表現するか、あるいは多源データセンターから十分に融合して同一の対象の情報を汲み取り、融合結果に基づいてその他の応用を行うことはずっと画像処理分野の研究に取り組む重要な課題である。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本発明は、先行技術に存在する技術的課題の少なくとも1つを解決することを目的とするものである。
【課題を解決するための手段】
【0004】
シーンを特徴付ける第1のオブジェクト情報と、シーン内で関連付けられた目標下位オブジェクトを特徴付ける第2のオブジェクト情報とを少なくとも含むテキストタイプのシーン情報と、画像をシーン記述するためのピクチャタイプの画像とを取得する。
第1のオブジェクト情報に基づいて、第1のオブジェクト情報によって特徴付けられるシーン内の各下位オブジェクトにそれぞれ対応する分割用モデルを含むモデルクラスタが決定され、このモデルクラスタには、第1のオブジェクト情報によって特徴付けられるシーン内の各下位オブジェクトがそれぞれ対応する分割用モデルが含まれる。
2次オブジェクト情報に基づいて、モデルクラスタ内の各目標下位オブジェクトに対応する目標モデルが決定される。
各目標モデルに基づいて画像を粗分割し、各目標下位物体がそれぞれ対応する第1の画像を得る。
第1の画像のそれぞれについて、対応する注目下位オブジェクトが関連付けられた情報の集約に基づく分割を行い、第1の画像のそれぞれに対応する細かい分割結果を得る。
シーン情報と画像との融合結果を特徴付ける画像に対応する本体画像は、細分化結果に基づいてレンダリングされる。
一実施形態では、前記細分割結果は、マスク行列を含み、前記第1の画像の各々は、対応する目標下位オブジェクトに関連付けられた情報の集積に基づいて分割され、前記第1の画像の各々に対応する細分割結果を得ることができ、前記第1の画像の各々は、前記第1の画像の各々に対応する細分割結果を得ることができる:
最初の画像ごとに。第1の画像は、対応する集積化情報抽出器に入力される、集積化情報抽出器は、第1の画像に対応する対象下位物体に対応する検出器トレーニングに基づいて得られ、第1の画像に対応する融合特徴情報を得るために、第1の画像中の対象下位物体に対して集積化情報抽出を行う集積化情報抽出器である。
融合特徴情報は、第1の画像が対応する注目下位画像に対応する分割器に入力され、マスク行列が得られる。
【0005】
本体画像は、第1の画像のそれぞれに対応するマスク行列と画像とに基づいてレンダリングされる。
【0006】
集積化情報抽出装置は、主に抽出ネットワークとマスク生成ネットワークとから構成される、マスク生成ネットワークは、集積化情報抽出器に入力された画像中の下位オブジェクトと非下位オブジェクトとを区別するためのターゲットマスクを生成するために使用され、抽出ネットワークとマスク生成ネットワークは、以下の方法により訓練される:
サンプル画像およびサンプル画像に対応する下位オブジェクトのタイプに対応する検出器が取得され、サンプル画像は、サンプル画像内の下位オブジェクトの位置情報を特徴付けるラベル付け情報を有し、サンプル画像は、単一タイプの下位オブジェクトのみを含む。
サンプル画像は抽出ネットワークに入力され、抽出ネットワークは、以下の動作を実行する:サンプル画像中の各画素領域について、ピクセル領域に対応するサンプルの第1の特徴を抽出する、各関連画素位置に対応する関連位置特徴を抽出し、関連位置特徴を融合して、画素領域に対応するサンプル第2特徴を得、関連画素位置は、画素領域が位置する近傍の画素領域に属さない他の画素位置である。
各画素領域に対応するサンプル第1特徴およびサンプル第2特徴がマスク生成ネットワークに入力され、サンプルターゲットマスクが得られる。
各ピクセル領域に対して、対応するサンプル第1の特徴を除いた他のサンプル第1の特徴は、検出器に入力される、画素領域に対応する第1の検出結果が得られ、対応するサンプル第2の特徴を除いた他のサンプル第2の特徴が検出器に入力され、画素領域に対応する第2の検出結果が得られる。
各第1の検出結果、各第2の検出結果、及びマーキング情報に基づいて、指示対象マスクを求める。
サンプルターゲットマスクと指示ターゲットマスクとの違いに応じて、トレーニングが完了するまで抽出ネットワークとマスク生成ネットワークのパラメータを調整する。
【0007】
各画素領域に対応する第1の検出結果及び第2の検出結果について、第1の検出結果とラベル付け情報との差異度が第1の閾値よりも大きく、かつ、第2の検出結果とラベル付け情報との差異度が第2の閾値よりも大きい場合、当該画素領域はコア画素領域に属すると判定される。
第1の検出結果とラベル付け情報との差異度が第1の閾値よりも大きく、かつ、第2の検出結果とラベル付け情報との差異度が第2の閾値以下である場合、画素領域は境界画素領域に属すると判定される。
コア画素領域と境界画素領域とに基づいて、指示対象マスクが生成される。
各画素領域について、それに対応するサンプル第1特徴とそれに対応するサンプル第2特徴との間の差異が計算され、差異度情報が得られる。
前記第1の検出結果と前記ラベル付け情報との差異度が第1の閾値よりも大きく、かつ、前記第2の検出結果と前記ラベル付け情報との差異度が第2の閾値以下である場合、前記画素領域は境界画素領域に属すると判定される:
第1の検出結果とラベリング情報との差異度が第1の閾値よりも大きく、第2の検出結果とラベリング情報との差異度が第2の閾値以下であり、差異度情報が第3の閾値よりも大きい場合、画素領域は境界画素領域に属すると判定される。
【0008】
第1の画像が抽出ネットワークに入力され、マスク生成ネットワークがトリガされて、第1の画像に対応するターゲットマスクが生成される。
第1の画像中のターゲットマスクで覆われた部分について、集積化ネットワークに基づいて深さ特徴抽出を行い、第1のターゲット特徴を得る。
第1の画像のうちターゲットマスクによってマスキングされていない部分について、集積化ネットワークに基づいてマルチスケール特徴抽出を行い、第2のターゲット特徴を得る。
第1のターゲット特徴と第2のターゲット特徴とを融合して融合特徴情報を得る。
一方、本発明の実施形態は、ディープラーニングに基づく多ソース異種データ融合装置を提供する:
マルチソース異種データ取得モジュール、シーンを特徴付ける第1のオブジェクト情報と、シーン内で関連付けられた目標下位オブジェクトを特徴付ける第2のオブジェクト情報とを少なくとも含むテキストタイプのシーン情報と、画像をシーン記述するためのピクチャタイプの画像とを取得する。
クラスタ決定モジュールは、第1のオブジェクト情報に基づいて、第1のオブジェクト情報によって特徴付けられるシーン内の各下位オブジェクトにそれぞれ対応する分割用モデルを含むモデルクラスタを決定する。
モデル決定モジュールは、2次オブジェクト情報に基づいて、モデルクラスタ内の各目標下位オブジェクトに対応する目標モデルを決定する。
粗分割モジュールは、各ターゲットモデルに基づいて画像を粗分割し、各ターゲット下位オブジェクトがそれぞれ対応する第1画像を得る。
各第1画像に対して、対応する対象下位オブジェクトが関連付けられた情報の集約に基づく分割を行う細分割モジュールが、各第1画像にそれぞれ対応する細分割結果を得る。
シーン情報と画像の融合結果とを特徴付ける、細分化結果に基づいて画像に対応する本体画像をレンダリングする本体画像レンダリングモジュールが提供される。
一方で、本発明の実施形態は、ディープラーニングに基づくマルチソース異種データ融合方法の1つを実現するために、プロセッサによってロードされ実行される少なくとも1つの命令または少なくとも1つのプログラムを格納したコンピュータ可読記憶媒体を提供する。
別の態様では、本発明の実施形態は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信可能に接続されたメモリとを含む電子装置を提供する。ここで、メモリは、少なくとも1つのプロセッサによって実行可能な命令を記憶しており、少なくとも1つのプロセッサは、メモリに記憶された命令を実行することによって、ディープラーニングに基づく上述したマルチソース異種データ融合方法の1つを実現する。
一方、本発明の実施形態は、プロセッサによって実行されると、ディープラーニングに基づく複数ソース異種データ融合方法の1つを実現するコンピュータプログラムまたは命令を含むコンピュータプログラム製品を提供する。
【発明の効果】
【0009】
本発明の実施形態は、ディープラーニングに基づく多源異種データ融合方法を提供する、この方式は、まず、粗分割によってシーン情報に基づく画像の粗分割を完了する。しかし、大まかな分割の精度には限界があり、シーンの情報と画像を融合しただけで、多様なデータをより深く融合するために、さらにシーン情報と合わせて、その中のターゲット下位オブジェクトに対応する集積化情報抽出器を選択することも可能である。この集積化情報抽出器により画像の情報集積が行われ、この情報集積の操作は、そのターゲット下位オブジェクトに関する事前知識のもとで行われていると考えられる。このように情報集積の過程では、そのシーン情報に関する事前知識と画像の情報融合が深いものとなり、この集積過程の結果に基づいて精緻な分割を行うことができる。これにより、正確な細分割結果が得られ、この細分割結果に基づいてレンダリングされた本体画像は、前記シーン情報と前記画像の融合結果を具現化し、更に関連する事前知識を用いて、一種の多源異種データの深い融合の具現化である。
【図面の簡単な説明】
【0010】
図1図1は、実施形態により提供されるディープラーニングに基づく多源異種データ融合方法の実行可能な実施フレームワークの概略図である。
図2図2は、本発明の実施形態に係る情報集積方法の流れを示す図である。
図3図3は、本発明の実施形態により提供されるディープラーニングに基づく多ソース異種データ融合装置のブロック図である
【発明を実施するための形態】
【0011】
実施形態のディープラーニングに基づく多源異種データ融合方法を説明し、図1に、本出願の実施形態が提供するディープラーニングに基づく多源異種データ融合方法の流れを示す。本出願の実施形態は、実施形態またはフローチャートで上述した方法の動作ステップを提供するが、従来のまたは進歩性のない労力に基づいて、より多くまたはより少ない動作ステップを含むことができる。実施形態に列挙されたステップ順序は、多数のステップ実行順序のうちの1つにすぎず、一意の実行順序を表すものではない。実際のシステム、端末装置、またはサーバ製品が実行される場合、実施形態または添付の図に示される方法(例えば、並列プロセッサまたはマルチスレッド処理環境)に従って、順次実行または並列実行することができ、上記方法は、以下のことを含むことができる。
【実施例0012】
ステップS101.シーンを特徴付ける第1のオブジェクト情報と、シーン内で関連付けられた注目下位オブジェクトを特徴付ける第2のオブジェクト情報とを少なくとも含むテキストタイプのシーン情報と、画像をシーン記述するためのピクチャタイプの画像とを取得する。
シーン情報は、第1のオブジェクト情報と第2のオブジェクト情報とを記述したテキスト情報であり、第1のオブジェクト情報は、例えばオフィスシーン、スポーツシーン、動物園シーンなどのシーンそのものである。第2レベルのオブジェクト情報は、シーン内にあり、画像内に具現化されているターゲット下位オブジェクトを特徴付ける。動物園のシーンを例にとると、ネコ科動物、鳥類、爬虫類、魚類の4種類の下位オブジェクトが存在することができるが、画像中にネコが2匹、イヌが1匹しか存在しない場合、対象となる下位オブジェクトが3匹、ネコが2匹、イヌが1匹存在する。シナリオ情報の構築方法は従来技術を用いることができ、本出願の発明の重点ではないので、ここでは言及しない。
【0013】
ステップS102.一次オブジェクト情報に基づいて、一次オブジェクト情報が特徴付けるシーン内の各下位オブジェクトにそれぞれ対応する分割用モデルを含むモデルクラスタを決定する。
本出願はまた、関連する様々なシナリオにおけるモデルクラスターを構築する必要がある、モデルクラスター中のモデルは先行技術から得られてもよく、関連する開発者が自ら訓練して得られてもよく、モデルクラスター中のモデルは下位対象に基づいた大まかな分割を行うのに用いられ、分割精度の要求は高くなく、モデルの取得難度と訓練難度も高くないため、本出願の発明の重点でもないので、ここでは言及しない。動物園シーンを例にとると、その動物園シーンに対応するモデルクラスタには、猫、犬、魚、鳥などの下位オブジェクトを分割するための分割モデルを含めることができる。
【0014】
ステップS103.二次オブジェクト情報に基づいて、モデルクラスタ内の各目標下位オブジェクトに対応する目標モデルを決定する。
【0015】
ステップS104.前記各ターゲットモデルに基づいて前記画像を粗分割し、前記各ターゲット下位オブジェクトにそれぞれ対応する第1画像を得る。
画像中に猫が2匹、犬が1匹存在する場合、猫を分割するターゲットモデル1と犬を分割するターゲットモデル2の2つのターゲットモデルを決定することができ、ターゲットモデル1に基づいて2つの第1の画像を分割することができ、ターゲットモデル2に基づいて1つの第1の画像を分割することができる。
【0016】
ステップS105.各第1画像に対して、それらに対応する目標下位オブジェクトが関連付けられた情報集積に基づく分割を行い、各第1画像にそれぞれ対応する詳細な分割結果を得る。
本発明の実施の形態では、各タイプの下位オブジェクトに対応して1つの集約化情報抽出部が設けられている、この集積化情報抽出器は、このタイプの下位オブジェクトに対応する検出器訓練に基づいて得られた、この検出器は、当該下位対象に対応する検出モデルや分割モデルから得られてもよいし、従来技術を用いて得られてもよいが、このようなタイプの下位対象を検出できればよく、検出器の取得方式は限定しない。この集約化情報抽出装置は、対応する第1の画像に対して集約化情報抽出を行い、対応する融合特徴情報を得ることができる。
【0017】
先述の例では、ターゲットモデル1は、その画像中に猫が存在することは間違いないが、具体的に猫の輪郭がどのようなものであるかが明確に特定できない猫を含む第1の画像を切り出すことができるが、この第1の画像を対応する集積化情報抽出器に入力することで、猫に関する特徴融合情報を得ることができる。この集積化情報抽出器は、ネコを検出できる検出器によって訓練されているため、ネコという対象の特徴を融合し、ネコに関する特徴融合情報を得るのに特に適している。
【0018】
具体的には、最初の画像ごとに、第1の画像は、対応する集積化情報抽出器に入力される、集積化情報抽出器は、第1の画像に対応する対象下位物体に対応する検出器トレーニングに基づいて得られ、第1の画像に対応する融合特徴情報を得るために、第1の画像中の対象下位物体に対して集積化情報抽出を行う集積化情報抽出器である。
次に、第1の画像に対応する目標下位画像に対応する分割器に融合特徴情報を入力してマスク行列を得ることができる。前の例を踏襲して。集積化された情報抽出によって、猫に関する融合特徴情報が非常に豊富に得られる、すなわち融合特徴情報自体の情報集積度と情報品質が非常に高く、この情報を猫のようなタイプの対象を分割できる分割器に入力することで、細かな分割結果を特徴付けるためのマスク行列を得ることができる。本出願は、この分割器の取得方法については限定しないが、従来技術における分割器を用いてもよいし、自ら訓練して得てもよい。なぜなら、精密分割の効果は主に融合特徴情報の品質に依存しており、分割器に対する要求は特に高くないからである。
【0019】
ステップS106.シーン情報と画像との融合結果を特徴付ける画像に対応する被写体画像を、前記細分割結果に基づいてレンダリングする。
細かい分割は、粗い分割に比べて、猫や犬といった具体的な対象の輪郭を非常に正確に分割することができる、したがって、細分割結果に基づいて、前記オブジェクトに対応する被写体画像をレンダリングすることができる、すなわち、前記画像のシーン情報に記録されている主要な被写体の輪郭および実体がレンダリングされて本体画像が得られ、本質的にはシーン情報に基づいて画像の詳細な輪郭分割が行われることで、前記シーン情報と前記画像との融合結果を特徴付ける本体画像が得られる。
【実施例0020】
ステップS201.サンプル画像中の下位オブジェクトの位置情報を特徴付けるラベル付け情報を担持するサンプル画像と、サンプル画像に対応する下位オブジェクトのタイプに対応する検出器とを取得し、サンプル画像は、単一タイプの下位オブジェクトのみを含む。
本発明の実施例は、猫という下位対象に対応する集積化情報抽出器における抽出ネットワークとマスク生成ネットワークの訓練を例に述べたが、サンプル画像には猫のみが含まれており、猫の位置情報が付加されており、検出器も猫という対象の検出に用いることができる検出器である。
【0021】
ステップS202.前記抽出ネットワークに前記サンプル画像を入力する、抽出ネットワークは、以下の動作を実行する:サンプル画像中の各画素領域について、ピクセル領域に対応するサンプルの第1の特徴を抽出する、各関連画素位置に対応する関連位置特徴を抽出し、関連位置特徴を融合して、画素領域に対応するサンプル第2特徴を得、関連画素位置は、画素領域が位置する近傍の画素領域に属さない他の画素位置である。
【0022】
なお、本実施形態では、画素領域の分割は限定されず、実際に応じて行から設定することができる。粗分割した結果が検出枠であり、検出枠内の画像を切り出して第1の画像を得ることができ、検出枠を分割して得ることに関する知識についても従来技術を参照することができるので、これについては割愛するので、第1の画像は矩形画像である。第1画像を9宮格または16宮格に分割することが可能であり、各格子ごとに1つの画素領域に対応しているが、当然ながら画素領域の分割は細ければ細かいほど分割効果が高い。
本発明の実施形態は、近傍領域の範囲および決定方法を限定するものではなく、例えば、画素領域を含み、かつ、画素領域の周辺の画素領域に属さない他の画素を含めるだけでよい。
本出願の実施形態におけるサンプルの第1の特徴は、画素領域のそれ自体の特徴を特徴付ける、一方、サンプルの第2の特徴は、実際には画素領域が位置するシーン特徴を特徴付けるものであり、これら2つの特徴の抽出方法については言及せず、畳み込み、多層畳み込み、自己注意に基づく畳み込み、マルチチャネル融合、プール化などの方法のうちの1つまたは複数の組み合わせによって実施することができるが、これについては本出願の実施形態では言及しない。
【0023】
ステップS203.各画素領域に対応するサンプル第1特徴及びサンプル第2特徴をマスク生成ネットワークに入力し、サンプルターゲットマスクを得る。
マスク生成ネットワークは、サンプル第1特徴及びサンプル第2特徴に基づいてサンプルターゲットマスクを予測し、サンプル画像のうち、このサンプルターゲットマスクで覆われた部分は、より重要な画素で形成された領域であると考えることができ、サンプル画像のうち、有効情報の含有量が最も高い領域をスクリーニングする。
【0024】
ステップS204.各画素領域について、対応するサンプル第1の特徴を除いた他のサンプル第1の特徴は、検出器に入力される、画素領域に対応する第1の検出結果が得られ、対応するサンプル第2の特徴を除いた他のサンプル第2の特徴が検出器に入力され、画素領域に対応する第2の検出結果が得られる。
各ピクセル領域に対して、対応するサンプル第1の特徴を除く他のサンプル第1の特徴は、画素領域内のサンプル第1の特徴を含まないサンプル第1の特徴情報のセットを形成する、サンプルの第1の特徴情報のセットを検出器に入力する、第1の検出結果が得られ、もしこの第1の検出結果がラベル付け情報と非常に一致していれば、この画素領域の有無の影響は大きくなく、この画素領域は必然的に重要ではない画素によって形成された領域であり、その中の有効情報の含有量は必然的に低く、この画素領域はサンプル画像中の下位オブジェクトとは無関係である可能性が高い。
【0025】
各ピクセル領域に対して、対応するサンプル第2の特徴を除いた他のサンプル第2の特徴は、画素領域内のサンプル第2の特徴を含まないサンプル第2の特徴情報のセットを形成する、サンプルの第2の特徴情報セットを検出器に入力する、2番目の検査結果が得られました。この2番目の検出結果がマークアップ情報と非常に一致していれば、つまり、その画素領域のシーン情報があるかどうかはあまり影響しない、したがって、画素領域の近傍における画素領域以外の他の位置は、重要でない画素が存在する位置であることになる、サンプル画像中の下位オブジェクトと無関係であるか、またはサンプル画像中の下位オブジェクトのエッジに位置する可能性が高い、画素領域の近傍における画素領域以外の他の位置の有効情報の含有量は、必然的に低い。
【0026】
ステップS205.前記第1の検出結果と、前記第2の検出結果と、前記マーキング情報とに基づいて、指示対象マスクを求める。
具体的には、各画素領域に対応する第1の検出結果および第2の検出結果について、第1の検出結果とラベル付け情報との差異度が第1の閾値より大きく、かつ、第2の検出結果とラベル付け情報との差異度が第2の閾値より大きい場合に、当該画素領域がコア画素領域に属すると判定する。本出願の実施例は差異度については限定せず、測定結果と表記情報との差異度を特徴付けるものであり、任意の計算方式であってもよいが、本出願の実施例は差異度計算方法を限定せず、ニューラルネットワークの分野では多くの差異度測定方法が使用されてもよく、2つの情報の差異を示すことができればよい。第1の検出結果であっても第2の検出結果であっても、タグ付けされた情報とは大きく異なりますが、画素領域が非常に重要であることを説明すると、それはおそらく、下位対象部分情報を有する領域を特徴付けるコア画素領域に属する可能性が高く、本明細書では第1の閾値および第2の閾値は限定されず、実際のニューラルネットワークのトレーニング中に設定することができ、第1の閾値は第2の閾値よりも大きくすることができる。
【0027】
第1の検出結果とラベル付け情報との差異度が第1の閾値よりも大きく、かつ、第2の検出結果とラベル付け情報との差異度が第2の閾値以下である場合、画素領域は境界画素領域に属すると判定される。
具体的には、第1の検出結果とマーキング情報との差が大きい場合は、画素領域が非常に重要であり、この領域がないといけないことを示しているが、第2の検出結果とマーキング情報との差が小さい場合は、その画素領域の周囲の領域がそれほど重要でなく、あってもなくてもよいことを示しているのであれば、その画素領域はサンプル画像中の下位オブジェクトの境界に位置している可能性が高い。
【実施例0028】
ステップS301.各画素領域について、対応するサンプル第1特徴と対応するサンプル第2特徴との差分を計算し、差分情報を得る。
この相違度情報は、サンプルの第1の特徴とサンプルの第2の特徴との間の特徴距離を計算することによって得ることができる、特徴距離は情報距離の一種である、情報距離の測定方法を使用して測定することができます、これに対して、本出願の実施例は限定しないが、この差分度情報は、画素領域とその周囲の隣接する領域との間の情報の距離を特徴付けるものであり、距離が近ければ画素が大きく跳ねないのであれば、画素領域はサンプル画像中の下位オブジェクトの内側、または外側に位置している可能性が高く、いずれにしても交差は生じない。逆に、このピクセル領域は、下位オブジェクトのエッジに位置する可能性が高くなります。
【0029】
前記第1の検出結果と前記ラベル付け情報との差異度が第1の閾値よりも大きく、かつ、前記第2の検出結果と前記ラベル付け情報との差異度が第2の閾値以下である場合、前記画素領域は境界画素領域に属すると判定される:
第1の検出結果とラベリング情報との差異度が第1の閾値よりも大きく、第2の検出結果とラベリング情報との差異度が第2の閾値以下であり、差異度情報が第3の閾値よりも大きい場合、画素領域は境界画素領域に属すると判定される。
【0030】
ステップS206.サンプル対象マスクと指示対象マスクとの差分に応じて、トレーニングが完了するまで、抽出ネットワークとマスク生成ネットワークのパラメータを調整する。
サンプルターゲットマスクと指示ターゲットマスクとの差異の表現方法、フィードバック調整パラメータの方法、およびトレーニング完了の条件は、ニューラルネットワーク分野の先行技術を参照することができ、ここでは言及しない。なお、抽出ネットワークやマスク生成ネットワークのネットワーク構成は、例えば、深さ畳み込みニューラルネットワークに基づいて設計してもよいが、これについては本出願の実施例に限定しない。
【0031】
訓練の後。本実施形態では、集約化情報抽出部に基づいて、第1の画像内の情報を抽出することができる、融合特徴情報を得るために、具体的には、集約化情報抽出器は、対応する集約化情報抽出器に第1の画像が入力された後、集約化情報抽出器は以下の動作を実行する集約化ネットワークをさらに含む:
第1の画像を抽出ネットワークに入力し、マスク生成ネットワークをトリガして第1の画像に対応するターゲットマスクを生成するプロセスは、前述を参照することができ、抽出ネットワークとマスク生成ネットワークとによって実行される。第1の画像中のターゲットマスクで覆われた部分について、集積化ネットワークに基づいて深さの特徴抽出を行い、第1のターゲット特徴を得る。本発明の実施形態において、ターゲットマスクで覆われていると考えられる部分は、重要で有効な情報が担持されている部分である、効果的な情報集積エリアです、この部分領域は、第1の画像中のターゲットの下位オブジェクトが位置する領域と非常に一致している、そこで、この部分領域に対して重要な第1目標特徴の抽出を行うが、第1目標特徴は、ピラミッドマルチスケール構造を備えた集積化ネットワークによって抽出することができ、階層的に豊かなマルチスケール情報を抽出することができ、このマルチスケール情報を融合処理することで、第1目標特徴を得ることができる。
図1
図2
図3