IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 浙江工商大学の特許一覧

特許7611535ディープラーニングを用いたマルチソース異種データ融合方法、装置、コンピュータ可読記憶媒体及び電子機器
<>
  • 特許-ディープラーニングを用いたマルチソース異種データ融合方法、装置、コンピュータ可読記憶媒体及び電子機器 図1
  • 特許-ディープラーニングを用いたマルチソース異種データ融合方法、装置、コンピュータ可読記憶媒体及び電子機器 図2
  • 特許-ディープラーニングを用いたマルチソース異種データ融合方法、装置、コンピュータ可読記憶媒体及び電子機器 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-26
(45)【発行日】2025-01-10
(54)【発明の名称】ディープラーニングを用いたマルチソース異種データ融合方法、装置、コンピュータ可読記憶媒体及び電子機器
(51)【国際特許分類】
   G06T 7/00 20170101AFI20241227BHJP
   G06V 10/82 20220101ALI20241227BHJP
   G06N 3/08 20230101ALI20241227BHJP
【FI】
G06T7/00 350C
G06V10/82
G06N3/08
【請求項の数】 10
(21)【出願番号】P 2023051743
(22)【出願日】2023-03-28
(65)【公開番号】P2024021037
(43)【公開日】2024-02-15
【審査請求日】2023-03-29
(31)【優先権主張番号】202210920768.5
(32)【優先日】2022-08-02
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】522481248
【氏名又は名称】浙江工商大学
【氏名又は名称原語表記】ZHEJIANG GONGSHANG UNIVERSITY
【住所又は居所原語表記】No.18, Xuezheng Str. Xiasha University Town Hangzhou, Zhejiang 310018, China
(74)【代理人】
【識別番号】100088063
【弁理士】
【氏名又は名称】坪内 康治
(72)【発明者】
【氏名】劉東昇
(72)【発明者】
【氏名】劉彦▲に▼
(72)【発明者】
【氏名】王黎明
(72)【発明者】
【氏名】陳亜輝
【審査官】村山 絢子
(56)【参考文献】
【文献】中国特許出願公開第113657400(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06V 10/82
G06N 3/08
(57)【特許請求の範囲】
【請求項1】
シーンを特徴付ける第1のオブジェクト情報と、前記シーン内で関連付けられたターゲット下位オブジェクトを特徴付ける第2のオブジェクト情報とを少なくとも含み画像をシーン記述するためのテキストタイプのシーン情報と、ピクチャタイプの画像とを取得するステップと、
前記第1のオブジェクト情報に基づいて、前記第1のオブジェクト情報によって特徴付けられるシーン内の各下位オブジェクトにそれぞれ対応する分割用モデルを含むモデルクラスタを決定するステップと、
前記第2のオブジェクト情報に基づいて、前記モデルクラスタ内の各ターゲット下位オブジェクトに対応するターゲットモデル決定するステップと、
前記ターゲットモデルに基づいて前記画像を粗分割し、各前記ターゲット下位オブジェクトにそれぞれ対応する第1の画像を得るステップと、
前記第1の画像のそれぞれについて、対応するターゲット下位オブジェクトが関連付けられた情報集約に基づく分割を行い、前記第1の画像のそれぞれに対応する細分割結果を得るステップと、
前記細分割結果に基づいて、前記シーン情報と前記画像との融合結果を特徴付ける、前記画像に対応する本体画像をレンダリングするステップと、
を含むことを特徴とするディープラーニングに基づくマルチソース異種データ融合方法。
【請求項2】
前記細分割結果は、マスク行列を含み、前記第1の画像の各々に対して、対応するターゲット下位オブジェクトに関連付けられた情報集約に基づく分割を行い、前記第1の画像のそれぞれに対応する細分割結果を得るステップは、
第1の画像ごとに、前記第1の画像、対応する集約化情報抽出器に入力し、前記集約化情報抽出器は、前記第1の画像対応するターゲット下位オブジェクトに対応する検出器に基づいて訓練により得られ、前記集約化情報抽出器は、前記第1の画像に対応する融合特徴情報を得るために、前記第1の画像中のターゲット下位オブジェクトに対して集約化情報抽出を行うステップと、
前記融合特徴情報前記第1の画像が対応するターゲット下位画像に対応する分割器に入力前記マスク行列を得るステップと、
を含むことを特徴とする請求項1に記載の方法。
【請求項3】
前記細分割結果に基づいて、前記シーン情報と前記画像との融合結果を特徴付ける、前記画像に対応する本体画像をレンダリングするステップは、
第1の画像のそれぞれに対応する前記マスク行列と前記画像とに基づいて前記本体画像をレンダリングするステップを含む
ことを特徴とする請求項2に記載の方法。
【請求項4】
前記集約化情報抽出は、主に抽出ネットワークとマスク生成ネットワークとから構成され前記、マスク生成ネットワークは、前記集約化情報抽出器に入力された画像中の下位オブジェクトと非下位オブジェクトとを区別するためのターゲットマスクを生成するために使用され、前記抽出ネットワークとマスク生成ネットワークは、以下の方法により訓練され、
サンプル画像および前記サンプル画像に対応する下位オブジェクトのタイプに対応する検出器を取得し、前記サンプル画像は、前記サンプル画像内の前記下位オブジェクトの位置情報を特徴付けるラベル付け情報を有し、前記サンプル画像は、単一タイプの下位オブジェクトのみを含み、
前記サンプル画像を前記抽出ネットワークに入力し、前記抽出ネットワークは、前記サンプル画像中の各画素領域について、前記画素領域に対応するサンプル第1特徴を抽出し、各関連画素位置に対応する関連位置特徴を抽出し、前記関連位置特徴を融合して、前記画素領域に対応するサンプル第2特徴を得て、前記関連画素位置は、前記画素領域が位置する近傍の前記画素領域に属さない他の画素位置であり、
各画素領域に対応するサンプル第1特徴およびサンプル第2特徴をマスク生成ネットワークに入力し、サンプルターゲットマスクを得て、
各画素領域に対して、対応する前記サンプル第1特徴を除いた他のサンプル第1特徴を前記検出器に入力し、前記画素領域に対応する第1の検出結果を得て、対応する前記サンプル第2特徴を除いた他のサンプル第2特徴を前記検出器に入力し、前記画素領域に対応する第2の検出結果を得て、
各前記第1の検出結果、各前記第2の検出結果、及び前記ラベル付け情報に基づいて、指示ターゲットマスクを求め、
前記サンプルターゲットマスクと前記指示ターゲットマスクとの違いに応じて、訓練が完了するまで前記抽出ネットワークと前記マスク生成ネットワークのパラメータを調整する
ことを特徴とする請求項3に記載の方法。
【請求項5】
各前記第1の検出結果、各前記第2の検出結果、及び前記ラベル付け情報に基づいて、指示ターゲットマスクを求めるステップは、
各画素領域に対応する第1の検出結果及び第2の検出結果について、前記第1の検出結果と前記ラベル付け情報との差異度が第1の閾値よりも大きく、かつ、前記第2の検出結果と前記ラベル付け情報との差異度が第2の閾値よりも大きい場合、前記画素領域コア画素領域に属すると判定するステップと、
前記第1の検出結果と前記ラベル付け情報との差異度が第1の閾値よりも大きく、かつ、前記第2の検出結果と前記ラベル付け情報との差異度が第2の閾値以下である場合、前記画素領域境界画素領域に属すると判定するステップと、
前記コア画素領域と前記境界画素領域とに基づいて、前記指示ターゲットマスクを生成するステップと、
を含むことを特徴とする請求項4に記載の方法。
【請求項6】
シーンを特徴付ける第1のオブジェクト情報と、前記シーン内で関連付けられたターゲット下位オブジェクトを特徴付ける第2のオブジェクト情報とを少なくとも含み画像をシーン記述するためのテキストタイプのシーン情報と、ピクチャタイプの画像とを取得するマルチソース異種データ取得モジュールと、
前記第1のオブジェクト情報に基づいて、前記第1のオブジェクト情報によって特徴付けられるシーン内の各下位オブジェクトにそれぞれ対応する分割用モデルを含むモデルクラスタを決定するクラスタ決定モジュールと、
前記第2のオブジェクト情報に基づいて、前記モデルクラスタ内の各ターゲット下位オブジェクトに対応するターゲットモデルを決定するモデル決定モジュールと、
前記ターゲットモデルに基づいて前記画像を粗分割し、各前記ターゲット下位オブジェクトそれぞれ対応する第1画像を得る粗分割モジュールと、
前記第1画像のそれぞれについて、対応するターゲット下位オブジェクトが関連付けられた情報集約に基づく分割を行前記第1画像それぞれ対応する細分割結果を得る細分割モジュールと、
前記細分割結果に基づいて、前記シーン情報と前記画像の融合結果を特徴付ける、前記画像に対応する本体画像をレンダリングする本体画像レンダリングモジュールと、
を備えることを特徴とするディープラーニングに基づくマルチソース異種データ融合装置。
【請求項7】
前記細分割結果は、マスク行列を含み、
前記細分割モジュールは、
第1の画像ごとに、前記第1の画像を、対応する集約化情報抽出器に入力し、前記集約化情報抽出器は、前記第1の画像が対応するターゲット下位オブジェクトに対応する検出器に基づいて訓練により得られ、前記集約化情報抽出器は、前記第1の画像に対応する融合特徴情報を得るために、前記第1の画像中のターゲット下位オブジェクトに対して集約化情報抽出を行い、
前記融合特徴情報を、前記第1の画像が対応するターゲット下位画像に対応する分割器に入力し、前記マスク行列を得る
ことを特徴とする請求項6に記載の装置。
【請求項8】
前記本体画像レンダリングモジュールは、
第1の画像のそれぞれに対応する前記マスク行列と前記画像とに基づいて前記本体画像をレンダリングする
ことを特徴とする請求項7に記載の装置。
【請求項9】
請求項1から5のいずれか1項に記載のディープラーニングに基づくマルチソース異種データ融合方法を実施するために、プロセッサによってロードされ、実行される少なくとも1つの命令または少なくとも1つのプログラムが記憶されている
ことを特徴とするコンピュータ可読記憶媒体。
【請求項10】
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備えた電子機器であって、
前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を格納し、前記少なくとも1つのプロセッサは、前記メモリに格納された命令を実行することによって、請求項1から5のいずれか1項に記載のディープラーニングに基づくマルチソース異種データ融合方法の1つを実現する
ことを特徴とする電子機器
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理技術の分野に係り、特にディープラーニングに基づくマルチソース異種データ融合方法に関する。
【背景技術】
【0002】
マルチソースのデータには、同じオブジェクトへの情報が含まれている場合があります。ということは、同じオブジェクトのための情報は、異なるタイプのマルチソースデータに異なる形式キャリアで記録されてもよい。異なるデータは、同じオブジェクトの異なる側面の情報を表しており、どのようにマルチソースデータに対して情報融合を行い、それによって同一のオブジェクトを多次元立体表現するか、あるいはマルチソースデータセンターから十分に融合して同一のオブジェクトの情報を汲み取り、融合結果に基づいてその他の応用を行うことはずっと画像処理分野の研究に取り組む重要な課題である。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本発明は、先行技術に存在する技術的課題の少なくとも1つを解決することを目的とするものである。
【課題を解決するための手段】
【0004】
シーンを特徴付ける第1のオブジェクト情報と、シーン内で関連付けられたターゲット下位オブジェクトを特徴付ける第2のオブジェクト情報とを少なくとも含み画像をシーン記述するためのテキストタイプのシーン情報と、ピクチャタイプの画像とを取得する。
第1のオブジェクト情報に基づいて、第1のオブジェクト情報によって特徴付けられるシーン内の各下位オブジェクトにそれぞれ対応する分割用モデルを含むモデルクラスタが決定され、このモデルクラスタには、第1のオブジェクト情報によって特徴付けられるシーン内の各下位オブジェクトがそれぞれ対応する分割用モデルが含まれる。
第2のオブジェクト情報に基づいて、モデルクラスタ内の各ターゲット下位オブジェクトに対応するターゲットモデルが決定される。
ターゲットモデルに基づいて画像を粗分割し、各ターゲット下位オブジェクトがそれぞれ対応する第1の画像を得る。
第1の画像のそれぞれについて、対応するターゲット下位オブジェクトが関連付けられた情報集約に基づく分割を行い、第1の画像のそれぞれに対応する細分割結果を得る。
シーン情報と画像との融合結果を特徴付ける画像に対応する本体画像は、細分割結果に基づいてレンダリングされる。
一実施形態では、前記細分割結果は、マスク行列を含み、前記第1の画像の各々は、対応するターゲット下位オブジェクトに関連付けられた情報集約に基づいて分割され、前記第1の画像のそれぞれに対応する細分割結果を得ることができ、前記第1の画像の各々は、前記第1の画像のそれぞれに対応する細分割結果を得ることができる:
第1の画像ごとに、第1の画像を、対応する集約化情報抽出器に入力し、集約化情報抽出器は、第1の画像対応するターゲット下位オブジェクトに対応する検出器に基づいて訓練により得られ、第1の画像に対応する融合特徴情報を得るために、第1の画像中のターゲット下位オブジェクトに対して集約化情報抽出を行う集約化情報抽出器である。
融合特徴情報は、第1の画像が対応するターゲット下位画像に対応する分割器に入力され、マスク行列が得られる。
【0005】
本体画像は、第1の画像のそれぞれに対応するマスク行列と画像とに基づいてレンダリングされる。
【0006】
集約化情報抽出は、主に抽出ネットワークとマスク生成ネットワークとから構成される、マスク生成ネットワークは、集約化情報抽出器に入力された画像中の下位オブジェクトと非下位オブジェクトとを区別するためのターゲットマスクを生成するために使用され、抽出ネットワークとマスク生成ネットワークは、以下の方法により訓練される:
サンプル画像およびサンプル画像に対応する下位オブジェクトのタイプに対応する検出器が取得され、サンプル画像は、サンプル画像内の下位オブジェクトの位置情報を特徴付けるラベル付け情報を有し、サンプル画像は、単一タイプの下位オブジェクトのみを含む。
サンプル画像は抽出ネットワークに入力され、抽出ネットワークは、以下の動作を実行する:サンプル画像中の各画素領域について、画素領域に対応するサンプル第1特徴を抽出する、各関連画素位置に対応する関連位置特徴を抽出し、関連位置特徴を融合して、画素領域に対応するサンプル第2特徴を得、関連画素位置は、画素領域が位置する近傍の画素領域に属さない他の画素位置である。
各画素領域に対応するサンプル第1特徴およびサンプル第2特徴がマスク生成ネットワークに入力され、サンプルターゲットマスクが得られる。
各画素領域に対して、対応するサンプル第1特徴を除いた他のサンプル第1特徴は、検出器に入力される、画素領域に対応する第1の検出結果が得られ、対応するサンプル第2特徴を除いた他のサンプル第2特徴が検出器に入力され、画素領域に対応する第2の検出結果が得られる。
各第1の検出結果、各第2の検出結果、及びラベル付け情報に基づいて、指示ターゲットマスクを求める。
サンプルターゲットマスクと指示ターゲットマスクとの違いに応じて、訓練が完了するまで抽出ネットワークとマスク生成ネットワークのパラメータを調整する。
【0007】
各画素領域に対応する第1の検出結果及び第2の検出結果について、第1の検出結果とラベル付け情報との差異度が第1の閾値よりも大きく、かつ、第2の検出結果とラベル付け情報との差異度が第2の閾値よりも大きい場合、当該画素領域はコア画素領域に属すると判定される。
第1の検出結果とラベル付け情報との差異度が第1の閾値よりも大きく、かつ、第2の検出結果とラベル付け情報との差異度が第2の閾値以下である場合、画素領域は境界画素領域に属すると判定される。
コア画素領域と境界画素領域とに基づいて、指示ターゲットマスクが生成される。
各画素領域について、それに対応するサンプル第1特徴とそれに対応するサンプル第2特徴との間の差異が計算され、差異度情報が得られる。
前記第1の検出結果と前記ラベル付け情報との差異度が第1の閾値よりも大きく、かつ、前記第2の検出結果と前記ラベル付け情報との差異度が第2の閾値以下である場合、前記画素領域は境界画素領域に属すると判定される:
第1の検出結果とラベリング情報との差異度が第1の閾値よりも大きく、第2の検出結果とラベリング情報との差異度が第2の閾値以下であり、差異度情報が第3の閾値よりも大きい場合、画素領域は境界画素領域に属すると判定される。
【0008】
第1の画像が抽出ネットワークに入力され、マスク生成ネットワークがトリガされて、第1の画像に対応するターゲットマスクが生成される。
第1の画像中のターゲットマスクで覆われた部分について、集約化ネットワークに基づいて深さ特徴抽出を行い、第1のターゲット特徴を得る。
第1の画像のうちターゲットマスクによってマスキングされていない部分について、集約化ネットワークに基づいてマルチスケール特徴抽出を行い、第2のターゲット特徴を得る。
第1のターゲット特徴と第2のターゲット特徴とを融合して融合特徴情報を得る。
一方、本発明の実施形態は、ディープラーニングに基づくマルチソース異種データ融合装置を提供する:
マルチソース異種データ取得モジュール、シーンを特徴付ける第1のオブジェクト情報と、シーン内で関連付けられたターゲット下位オブジェクトを特徴付ける第2のオブジェクト情報とを少なくとも含み画像をシーン記述するためのテキストタイプのシーン情報と、ピクチャタイプの画像とを取得する。
クラスタ決定モジュールは、第1のオブジェクト情報に基づいて、第1のオブジェクト情報によって特徴付けられるシーン内の各下位オブジェクトにそれぞれ対応する分割用モデルを含むモデルクラスタを決定する。
モデル決定モジュールは、第2のオブジェクト情報に基づいて、モデルクラスタ内の各ターゲット下位オブジェクトに対応するターゲットモデルを決定する。
粗分割モジュールは、各ターゲットモデルに基づいて画像を粗分割し、各ターゲット下位オブジェクトがそれぞれ対応する第1画像を得る。
各第1画像に対して、対応するターゲット下位オブジェクトが関連付けられた情報集約に基づく分割を行う細分割モジュールが、各第1画像にそれぞれ対応する細分割結果を得る。
シーン情報と画像の融合結果とを特徴付ける、細分割結果に基づいて画像に対応する本体画像をレンダリングする本体画像レンダリングモジュールが提供される。
一方で、本発明の実施形態は、ディープラーニングに基づくマルチソース異種データ融合方法の1つを実現するために、プロセッサによってロードされ実行される少なくとも1つの命令または少なくとも1つのプログラムを格納したコンピュータ可読記憶媒体を提供する。
別の態様では、本発明の実施形態は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信可能に接続されたメモリとを含む電子装置を提供する。ここで、メモリは、少なくとも1つのプロセッサによって実行可能な命令を記憶しており、少なくとも1つのプロセッサは、メモリに記憶された命令を実行することによって、ディープラーニングに基づく上述したマルチソース異種データ融合方法の1つを実現する。
一方、本発明の実施形態は、プロセッサによって実行されると、ディープラーニングに基づくマルチソース異種データ融合方法の1つを実現するコンピュータプログラムまたは命令を含むコンピュータプログラム製品を提供する。
【発明の効果】
【0009】
本発明の実施形態は、ディープラーニングに基づくマルチソース異種データ融合方法を提供する、この方式は、まず、粗分割によってシーン情報に基づく画像の粗分割を完了する。しかし、大まかな分割の精度には限界があり、シーンの情報と画像を融合しただけで、多様なデータをより深く融合するために、さらにシーン情報と合わせて、その中のターゲット下位オブジェクトに対応する集約化情報抽出器を選択することも可能である。この集約化情報抽出器により画像の情報集約が行われ、この情報集約の操作は、そのターゲット下位オブジェクトに関する事前知識のもとで行われていると考えられる。このように情報集約の過程では、そのシーン情報に関する事前知識と画像の情報融合が深いものとなり、この集約過程の結果に基づいて精緻な分割を行うことができる。これにより、正確な細分割結果が得られ、この細分割結果に基づいてレンダリングされた本体画像は、前記シーン情報と前記画像の融合結果を具現化し、更に関連する事前知識を用いて、一種のマルチソース異種データの深い融合の具現化である。
【図面の簡単な説明】
【0010】
図1図1は、実施形態により提供されるディープラーニングに基づくマルチソース異種データ融合方法の実行可能な実施フレームワークの概略図である。
図2図2は、本発明の実施形態に係る情報集約方法の流れを示す図である。
図3図3は、本発明の実施形態により提供されるディープラーニングに基づくマルチソース異種データ融合装置のブロック図である
【発明を実施するための形態】
【0011】
実施形態のディープラーニングに基づくマルチソース異種データ融合方法を説明し、図1に、本出願の実施形態が提供するディープラーニングに基づくマルチソース異種データ融合方法の流れを示す。本出願の実施形態は、実施形態またはフローチャートで上述した方法の動作ステップを提供するが、従来のまたは進歩性のない労力に基づいて、より多くまたはより少ない動作ステップを含むことができる。実施形態に列挙されたステップ順序は、多数のステップ実行順序のうちの1つにすぎず、一意の実行順序を表すものではない。実際のシステム、端末装置、またはサーバ製品が実行される場合、実施形態または添付の図に示される方法(例えば、並列プロセッサまたはマルチスレッド処理環境)に従って、順次実行または並列実行することができ、上記方法は、以下のことを含むことができる。
【実施例1】
【0012】
ステップS101.シーンを特徴付ける第1のオブジェクト情報と、シーン内で関連付けられたターゲット下位オブジェクトを特徴付ける第2のオブジェクト情報とを少なくとも含み画像をシーン記述するためのテキストタイプのシーン情報と、ピクチャタイプの画像とを取得する。
シーン情報は、第1のオブジェクト情報と第2のオブジェクト情報とを記述したテキスト情報であり、第1のオブジェクト情報は、例えばオフィスシーン、スポーツシーン、動物園シーンなどのシーンそのものである。第2のオブジェクト情報は、シーン内にあり、画像内に具現化されているターゲット下位オブジェクトを特徴付ける。動物園のシーンを例にとると、ネコ科動物、鳥類、爬虫類、魚類の4種類の下位オブジェクトが存在することができるが、画像中にネコが2匹、イヌが1匹しか存在しない場合、ターゲット下位オブジェクトが3匹、ネコが2匹、イヌが1匹存在する。シナリオ情報の構築方法は従来技術を用いることができ、本出願の発明の重点ではないので、ここでは言及しない。
【0013】
ステップS102.第1のオブジェクト情報に基づいて、第1のオブジェクト情報が特徴付けるシーン内の各下位オブジェクトにそれぞれ対応する分割用モデルを含むモデルクラスタを決定する。
本出願はまた、関連する様々なシナリオにおけるモデルクラスタを構築する必要がある、モデルクラスタ中のモデルは先行技術から得られてもよく、関連する開発者が自ら訓練して得られてもよく、モデルクラスタ中のモデルは下位オブジェクトに基づいた大まかな分割を行うのに用いられ、分割精度の要求は高くなく、モデルの取得難度と訓練難度も高くないため、本出願の発明の重点でもないので、ここでは言及しない。動物園シーンを例にとると、その動物園シーンに対応するモデルクラスタには、猫、犬、魚、鳥などの下位オブジェクトを分割するための分割モデルを含めることができる。
【0014】
ステップS103.第2のオブジェクト情報に基づいて、モデルクラスタ内の各ターゲット下位オブジェクトに対応するターゲットモデルを決定する。
【0015】
ステップS104.前記各ターゲットモデルに基づいて前記画像を粗分割し、前記各ターゲット下位オブジェクトにそれぞれ対応する第1画像を得る。
画像中に猫が2匹、犬が1匹存在する場合、猫を分割するターゲットモデル1と犬を分割するターゲットモデル2の2つのターゲットモデルを決定することができ、ターゲットモデル1に基づいて2つの第1の画像を分割することができ、ターゲットモデル2に基づいて1つの第1の画像を分割することができる。
【0016】
ステップS105.各第1の画像に対して、それらに対応するターゲット下位オブジェクトが関連付けられた情報集約に基づく分割を行い、各第1の画像にそれぞれ対応する詳細な分割結果を得る。
本発明の実施の形態では、各タイプの下位オブジェクトに対応して1つの集約化情報抽出部が設けられている、この集約化情報抽出器は、このタイプの下位オブジェクトに対応する検出器訓練に基づいて得られた、この検出器は、当該下位オブジェクトに対応する検出モデルや分割モデルから得られてもよいし、従来技術を用いて得られてもよいが、このようなタイプの下位オブジェクトを検出できればよく、検出器の取得方式は限定しない。この集約化情報抽出は、対応する第1の画像に対して集約化情報抽出を行い、対応する融合特徴情報を得ることができる。
【0017】
先述の例では、ターゲットモデル1は、その画像中に猫が存在することは間違いないが、具体的に猫の輪郭がどのようなものであるかが明確に特定できない猫を含む第1の画像を切り出すことができるが、この第1の画像を対応する集約化情報抽出器に入力することで、猫に関する特徴融合情報を得ることができる。この集約化情報抽出器は、ネコを検出できる検出器によって訓練されているため、ネコというオブジェクトの特徴を融合し、ネコに関する特徴融合情報を得るのに特に適している。
【0018】
具体的には、第1の画像ごとに、第1の画像、対応する集約化情報抽出器に入力集約化情報抽出器は、第1の画像対応するターゲット下位オブジェクトに対応する検出器に基づいて訓練により得られ、第1の画像に対応する融合特徴情報を得るために、第1の画像中のターゲット下位オブジェクトに対して集約化情報抽出を行う集約化情報抽出器である。
次に、第1の画像対応するターゲット下位画像に対応する分割器に融合特徴情報を入力してマスク行列を得ることができる。前の例を踏襲して。集約化された情報抽出によって、猫に関する融合特徴情報が非常に豊富に得られる、すなわち融合特徴情報自体の情報集約度と情報品質が非常に高く、この情報を猫のようなタイプのオブジェクトを分割できる分割器に入力することで、細かな分割結果を特徴付けるためのマスク行列を得ることができる。本出願は、この分割器の取得方法については限定しないが、従来技術における分割器を用いてもよいし、自ら訓練して得てもよい。なぜなら、精密分割の効果は主に融合特徴情報の品質に依存しており、分割器に対する要求は特に高くないからである。
【0019】
ステップS106.シーン情報と画像との融合結果を特徴付ける画像に対応する被写体画像を、前記細分割結果に基づいてレンダリングする。
細分割は、粗い分割に比べて、猫や犬といった具体的なオブジェクトの輪郭を非常に正確に分割することができる、したがって、細分割結果に基づいて、前記オブジェクトに対応する被写体画像をレンダリングすることができる、すなわち、前記画像のシーン情報に記録されている主要な被写体の輪郭および実体がレンダリングされて本体画像が得られ、本質的にはシーン情報に基づいて画像の詳細な輪郭分割が行われることで、前記シーン情報と前記画像との融合結果を特徴付ける本体画像が得られる。
【実施例2】
【0020】
ステップS201.サンプル画像中の下位オブジェクトの位置情報を特徴付けるラベル付け情報を担持するサンプル画像と、サンプル画像に対応する下位オブジェクトのタイプに対応する検出器とを取得し、サンプル画像は、単一タイプの下位オブジェクトのみを含む。
本発明の実施例は、猫という下位オブジェクトに対応する集約化情報抽出器における抽出ネットワークとマスク生成ネットワークの訓練を例に述べたが、サンプル画像には猫のみが含まれており、猫の位置情報が付加されており、検出器も猫というオブジェクトの検出に用いることができる検出器である。
【0021】
ステップS202.前記抽出ネットワークに前記サンプル画像を入力する、抽出ネットワークは、以下の動作を実行する:サンプル画像中の各画素領域について、画素領域に対応するサンプル第1特徴を抽出する、各関連画素位置に対応する関連位置特徴を抽出し、関連位置特徴を融合して、画素領域に対応するサンプル第2特徴を得、関連画素位置は、画素領域が位置する近傍の画素領域に属さない他の画素位置である。
【0022】
なお、本実施形態では、画素領域の分割は限定されず、実際に応じて行から設定することができる。粗分割した結果が検出枠であり、検出枠内の画像を切り出して第1の画像を得ることができ、検出枠を分割して得ることに関する知識についても従来技術を参照することができるので、これについては割愛するので、第1の画像は矩形画像である。第1画像を9宮格または16宮格に分割することが可能であり、各格子ごとに1つの画素領域に対応しているが、当然ながら画素領域の分割は細ければ細かいほど分割効果が高い。
本発明の実施形態は、近傍領域の範囲および決定方法を限定するものではなく、例えば、画素領域を含み、かつ、画素領域の周辺の画素領域に属さない他の画素を含めるだけでよい。
本出願の実施形態におけるサンプル第1特徴は、画素領域のそれ自体の特徴を特徴付ける、一方、サンプル第2特徴は、実際には画素領域が位置するシーン特徴を特徴付けるものであり、これら2つの特徴の抽出方法については言及せず、畳み込み、多層畳み込み、自己注意に基づく畳み込み、マルチチャネル融合、プール化などの方法のうちの1つまたは複数の組み合わせによって実施することができるが、これについては本出願の実施形態では言及しない。
【0023】
ステップS203.各画素領域に対応するサンプル第1特徴及びサンプル第2特徴をマスク生成ネットワークに入力し、サンプルターゲットマスクを得る。
マスク生成ネットワークは、サンプル第1特徴及びサンプル第2特徴に基づいてサンプルターゲットマスクを予測し、サンプル画像のうち、このサンプルターゲットマスクで覆われた部分は、より重要な画素で形成された領域であると考えることができ、サンプル画像のうち、有効情報の含有量が最も高い領域をスクリーニングする。
【0024】
ステップS204.各画素領域について、対応するサンプル第1特徴を除いた他のサンプル第1特徴は、検出器に入力される、画素領域に対応する第1の検出結果が得られ、対応するサンプル第2特徴を除いた他のサンプル第2特徴が検出器に入力され、画素領域に対応する第2の検出結果が得られる。
画素領域に対して、対応するサンプル第1特徴を除く他のサンプル第1特徴は、画素領域内のサンプル第1特徴を含まないサンプル第1特徴情報セットを形成する、サンプル第1特徴情報セットを検出器に入力する、第1の検出結果が得られ、もしこの第1の検出結果がラベル付け情報と非常に一致していれば、この画素領域の有無の影響は大きくなく、この画素領域は必然的に重要ではない画素によって形成された領域であり、その中の有効情報の含有量は必然的に低く、この画素領域はサンプル画像中の下位オブジェクトとは無関係である可能性が高い。
【0025】
画素領域に対して、対応するサンプル第2特徴を除いた他のサンプル第2特徴は、画素領域内のサンプル第2特徴を含まないサンプル第2特徴情報セットを形成する、サンプル第2特徴情報セットを検出器に入力する、2番目の検査結果が得られました。この2番目の検出結果がマークアップ情報と非常に一致していれば、つまり、その画素領域のシーン情報があるかどうかはあまり影響しない、したがって、画素領域の近傍における画素領域以外の他の位置は、重要でない画素が存在する位置であることになる、サンプル画像中の下位オブジェクトと無関係であるか、またはサンプル画像中の下位オブジェクトのエッジに位置する可能性が高い、画素領域の近傍における画素領域以外の他の位置の有効情報の含有量は、必然的に低い。
【0026】
ステップS205.前記第1の検出結果と、前記第2の検出結果と、前記ラベル付け情報とに基づいて、指示ターゲットマスクを求める。
具体的には、各画素領域に対応する第1の検出結果および第2の検出結果について、第1の検出結果とラベル付け情報との差異度が第1の閾値より大きく、かつ、第2の検出結果とラベル付け情報との差異度が第2の閾値より大きい場合に、当該画素領域がコア画素領域に属すると判定する。本出願の実施例は差異度については限定せず、測定結果と表記情報との差異度を特徴付けるものであり、任意の計算方式であってもよいが、本出願の実施例は差異度計算方法を限定せず、ニューラルネットワークの分野では多くの差異度測定方法が使用されてもよく、2つの情報の差異を示すことができればよい。第1の検出結果であっても第2の検出結果であっても、タグ付けされた情報とは大きく異なりますが、画素領域が非常に重要であることを説明すると、それはおそらく、下位オブジェクト部分情報を有する領域を特徴付けるコア画素領域に属する可能性が高く、本明細書では第1の閾値および第2の閾値は限定されず、実際のニューラルネットワークの訓練中に設定することができ、第1の閾値は第2の閾値よりも大きくすることができる。
【0027】
第1の検出結果とラベル付け情報との差異度が第1の閾値よりも大きく、かつ、第2の検出結果とラベル付け情報との差異度が第2の閾値以下である場合、画素領域は境界画素領域に属すると判定される。
具体的には、第1の検出結果とラベル付け情報との差が大きい場合は、画素領域が非常に重要であり、この領域がないといけないことを示しているが、第2の検出結果とラベル付け情報との差が小さい場合は、その画素領域の周囲の領域がそれほど重要でなく、あってもなくてもよいことを示しているのであれば、その画素領域はサンプル画像中の下位オブジェクトの境界に位置している可能性が高い。
【実施例3】
【0028】
ステップS301.各画素領域について、対応するサンプル第1特徴と対応するサンプル第2特徴との差分を計算し、差分情報を得る。
この相違度情報は、サンプル第1特徴とサンプル第2特徴との間の特徴距離を計算することによって得ることができる、特徴距離は情報距離の一種である、情報距離の測定方法を使用して測定することができます、これに対して、本出願の実施例は限定しないが、この差分度情報は、画素領域とその周囲の隣接する領域との間の情報の距離を特徴付けるものであり、距離が近ければ画素が大きく跳ねないのであれば、画素領域はサンプル画像中の下位オブジェクトの内側、または外側に位置している可能性が高く、いずれにしても交差は生じない。逆に、この画素領域は、下位オブジェクトのエッジに位置する可能性が高くなります。
【0029】
前記第1の検出結果と前記ラベル付け情報との差異度が第1の閾値よりも大きく、かつ、前記第2の検出結果と前記ラベル付け情報との差異度が第2の閾値以下である場合、前記画素領域は境界画素領域に属すると判定される:
第1の検出結果とラベリング情報との差異度が第1の閾値よりも大きく、第2の検出結果とラベリング情報との差異度が第2の閾値以下であり、差異度情報が第3の閾値よりも大きい場合、画素領域は境界画素領域に属すると判定される。
【0030】
ステップS206.サンプルターゲットマスクと指示ターゲットマスクとの差分に応じて、訓練が完了するまで、抽出ネットワークとマスク生成ネットワークのパラメータを調整する。
サンプルターゲットマスクと指示ターゲットマスクとの差異の表現方法、フィードバック調整パラメータの方法、および訓練完了の条件は、ニューラルネットワーク分野の先行技術を参照することができ、ここでは言及しない。なお、抽出ネットワークやマスク生成ネットワークのネットワーク構成は、例えば、深さ畳み込みニューラルネットワークに基づいて設計してもよいが、これについては本出願の実施例に限定しない。
【0031】
訓練の後。本実施形態では、集約化情報抽出部に基づいて、第1の画像内の情報を抽出することができる、融合特徴情報を得るために、具体的には、集約化情報抽出器は、対応する集約化情報抽出器に第1の画像が入力された後、集約化情報抽出器は以下の動作を実行する集約化ネットワークをさらに含む:
第1の画像を抽出ネットワークに入力し、マスク生成ネットワークをトリガして第1の画像に対応するターゲットマスクを生成するプロセスは、前述を参照することができ、抽出ネットワークとマスク生成ネットワークとによって実行される。第1の画像中のターゲットマスクで覆われた部分について、集約化ネットワークに基づいて深さの特徴抽出を行い、第1のターゲット特徴を得る。本発明の実施形態において、ターゲットマスクで覆われていると考えられる部分は、重要で有効な情報が担持されている部分である、効果的な情報集約エリアです、この部分領域は、第1の画像中のターゲットの下位オブジェクトが位置する領域と非常に一致している、そこで、この部分領域に対して重要な第1ターゲット特徴の抽出を行うが、第1ターゲット特徴は、ピラミッドマルチスケール構造を備えた集約化ネットワークによって抽出することができ、階層的に豊かなマルチスケール情報を抽出することができ、このマルチスケール情報を融合処理することで、第1ターゲット特徴を得ることができる。
図1
図2
図3