(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022192040
(43)【公開日】2022-12-28
(54)【発明の名称】トレーニング装置、トレーニング方法、デバイス、記憶媒体及び画像処理方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20221221BHJP
G06V 10/82 20220101ALI20221221BHJP
G06T 7/11 20170101ALI20221221BHJP
G06N 3/04 20060101ALI20221221BHJP
G06N 3/08 20060101ALI20221221BHJP
【FI】
G06T7/00 350C
G06V10/82
G06T7/11
G06N3/04
G06N3/08
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2022097293
(22)【出願日】2022-06-16
(31)【優先権主張番号】202110665076.6
(32)【優先日】2021-06-16
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】392026693
【氏名又は名称】株式会社NTTドコモ
(74)【代理人】
【識別番号】100121083
【弁理士】
【氏名又は名称】青木 宏義
(74)【代理人】
【識別番号】100138391
【弁理士】
【氏名又は名称】天田 昌行
(74)【代理人】
【識別番号】100158528
【弁理士】
【氏名又は名称】守屋 芳隆
(74)【代理人】
【識別番号】100137903
【弁理士】
【氏名又は名称】菅野 亨
(72)【発明者】
【氏名】ジャオ カイリ
(72)【発明者】
【氏名】チョン ミンフェィ
(72)【発明者】
【氏名】グオ シーホン
(72)【発明者】
【氏名】ユウ ウェン
(72)【発明者】
【氏名】リュウ ウェイ
(72)【発明者】
【氏名】リ アンシン
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA03
5L096BA06
5L096CA01
5L096DA01
5L096FA06
5L096FA19
5L096GA10
5L096HA11
5L096JA11
5L096KA04
(57)【要約】
【課題】特徴表現を詳細に細分化する。
【解決手段】複数のエンコーダ層と複数のデコーダ層とを含む第1モデルをトレーニングするためのトレーニング装置が、前記第1モデルによって出力される目標のグローバル情報特徴を取得するためのグローバル情報特徴取得モジュールと、前記グローバル情報特徴に基づいて、前記第1モデルの前記複数のデコーダ層のうちの少なくとも1層をトレーニングして、目標モデルを取得するためのトレーニングモジュールと、を含み、前記第1モデルは、前記複数のエンコーダ層と前記複数のデコーダ層とに基づいて、目標を生成する。
【選択図】
図8
【特許請求の範囲】
【請求項1】
複数のエンコーダ層と複数のデコーダ層とを含む第1モデルをトレーニングするためのトレーニング装置であって、
前記第1モデルによって出力される目標のグローバル情報特徴を取得するためのグローバル情報特徴取得モジュールと、
前記グローバル情報特徴に基づいて、前記第1モデルの前記複数のデコーダ層のうちの少なくとも1層をトレーニングして、目標モデルを取得するためのトレーニングモジュールと、を含み、
前記第1モデルは、前記複数のエンコーダ層と前記複数のデコーダ層とに基づいて、目標を生成する、ことを特徴とするトレーニング装置。
【請求項2】
前記トレーニング装置は、前記複数のエンコーダ層のうちの少なくとも1つのエンコーダ層と、前記複数のデコーダ層のうちの少なくとも1つのデコーダ層と、の両方にも対応する1つ又は複数の注意力モジュールをさらに含み、k番目の注意力モジュールは、第k層のエンコーダ層によって出力される特徴と、前記グローバル情報特徴と、に基づいて、k番目の注意力特徴を生成し、
第k層のデコーダ層は、前記k番目の注意力特徴に基づいて、第k-1層のデコーダ層によって出力される特徴を処理して、第k層のデコーダ層によって出力される特徴を生成し、kは1よりも大きい正の整数であり、
エンコーダ層に直接接続された第1デコーダ層について、前記第1デコーダ層に対応する第1注意力モジュールは、第1デコーダ層の前の1層のデコーダ層によって出力される特徴と、前記グローバル情報特徴と、に基づいて、1番目の注意力特徴を生成する、ことを特徴とする請求項1に記載のトレーニング装置。
【請求項3】
前記トレーニング装置は、前記複数のデコーダ層のうちの少なくとも1つのデコーダ層に対応する1つ又は複数の注意力モジュールをさらに含み、k番目の注意力モジュールが、第k-1層のデコーダ層によって出力される特徴と、前記グローバル情報特徴と、に基づいて、k番目の注意力特徴を生成し、
第k層のデコーダ層は、前記k番目の注意力特徴に基づいて、第k-1層のデコーダ層によって出力される特徴を処理して、第k層のデコーダ層によって出力される特徴を生成し、kは1よりも大きい正の整数であり、
エンコーダ層に直接接続された第1デコーダ層について、前記第1デコーダ層に対応する第1注意力モジュールは、第1デコーダ層の前の1層のデコーダ層によって出力される特徴と、前記グローバル情報特徴と、に基づいて、1番目の注意力特徴を生成する、ことを特徴とする請求項1に記載のトレーニング装置。
【請求項4】
前記k番目の注意力特徴は、前記グローバル情報特徴と前記第k層のエンコーダ層によって出力される特徴との重複特徴を含む増強特徴と、前記第k層のエンコーダ層によって出力される特徴と前記重複特徴との差異特徴を含む拡張特徴と、を含み、
1番目の注意力特徴は、前記グローバル情報特徴と前記第1デコーダ層の前の1層のエンコーダ層によって出力される特徴との第1重複特徴を含む第1増強特徴と、前記第1デコーダ層の前の1層のエンコーダ層によって出力される特徴と前記第1重複特徴との差異特徴を含む第1拡張特徴と、を含む、ことを特徴とする請求項2に記載のトレーニング装置。
【請求項5】
前記k番目の注意力特徴は、前記グローバル情報特徴と前記第k-1層のデコーダ層によって出力される特徴との重複特徴を含む増強特徴と、前記第k-1層のデコーダ層によって出力される特徴と前記重複特徴との差異特徴を含む拡張特徴と、を含み、
1番目の注意力特徴は、前記グローバル情報特徴と前記第1デコーダ層の前の1層のエンコーダ層によって出力される特徴との第2重複特徴を含む第2増強特徴と、前記第1デコーダ層の前の1層のエンコーダ層によって出力される特徴と前記第2重複特徴との差異特徴を含む第2拡張特徴と、を含む、ことを特徴とする請求項3に記載のトレーニング装置。
【請求項6】
前記第1モデルは、複数の特徴処理層をさらに含み、
前記第1モデルは、さらに、前記複数のエンコーダ層と前記複数の特徴処理層とに基づいて、目標を生成する、ことを特徴とする請求項2乃至5のいずれか一項に記載のトレーニング装置。
【請求項7】
前記トレーニング装置は、前記複数の注意力モジュールのうちの少なくとも1つの注意力モジュールと、前記複数の特徴処理層のうちの少なくとも1つの特徴処理層と、の両方にも対応する1つ又は複数の特徴反復モジュールをさらに含み、
k番目の特徴反復モジュールは、対応するk番目の注意力モジュールによって生成されるk番目の注意力特徴と、第k-1層のデコーダ層によって出力される特徴と、第k-1層の特徴処理層によって出力される特徴とをインタラクトして、第k層のデコーダ層によって出力される特徴と、第k層の特徴処理層によって出力される特徴とを生成し、
エンコーダ層に直接接続された第1特徴処理層について、前記第1特徴処理層に対応する第1特徴反復モジュールは、対応する第1注意力モジュールによって生成される1番目の注意力特徴と、前記第1特徴処理層に接続されるエンコーダ層によって出力される特徴とをインタラクトして、第1層のデコーダ層によって出力される特徴と、第1層の特徴処理層によって出力される特徴とを生成する、ことを特徴とする請求項6に記載のトレーニング装置。
【請求項8】
複数のエンコーダ層と複数のデコーダ層とを含む第1モデルをトレーニングするためのトレーニング方法であって、
前記第1モデルによって出力される目標のグローバル情報特徴を取得するステップと、
前記グローバル情報特徴に基づいて、前記第1モデルの前記複数のデコーダ層のうちの少なくとも1層をトレーニングして、目標モデルを取得するステップと、を含み、
前記第1モデルは、前記複数のエンコーダ層と前記複数のデコーダ層とに基づいて、目標を生成する、ことを特徴とするトレーニング方法。
【請求項9】
画像処理方法であって、
第1モデルを使用して、入力画像を処理して、目標画像の中間特徴を取得するステップであって、前記第1モデルは、複数のエンコーダ層と複数のデコーダ層とを含み、前記第1モデルは、前記複数のエンコーダ層と前記複数のデコーダ層とに基づいて、目標画像を生成するステップと、
前記複数のデコーダ層のうちの少なくとも1つのデコーダ層に対応する1つ又は複数の注意力モジュールを少なくとも使用して、前記中間特徴に基づいて、前記注意力モジュールによって出力される特徴を取得するステップと、
前記複数の注意力モジュールのうちの少なくとも1つの注意力モジュールと、複数の特徴処理層の少なくとも1つの特徴処理層と、の両方に対応する1つ又は複数の特徴反復モジュールを使用して、前記注意力モジュールによって出力される特徴と、少なくとも1つの注意力モジュールに対応する少なくとも1つのデコーダ層の前の1層のデコーダ層によって出力される特徴とに少なくとも基づいて、前記少なくとも1つのデコーダ層によって出力される特徴を取得するステップと、を含み、
前記第1モデルは、さらに、前記複数のエンコーダ層と前記複数の特徴処理層とを使用して目標を生成する、ことを特徴とする画像処理方法。
【請求項10】
トレーニングデバイスであって、
プロセッサと、
コンピュータ読み取り可能なプログラム命令が記憶されているストレージと、を含み、
前記コンピュータ読み取り可能なプログラム命令が前記プロセッサによって実行される場合、請求項8または9に記載の方法が実行される、ことを特徴とするトレーニングデバイス。
【請求項11】
コンピュータ読み取り可能な命令を記憶するためのコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ読み取り可能な命令がコンピュータによって実行される場合、コンピュータに請求項8または9に記載の方法を実行させる、ことを特徴とするコンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、画像処理の分野に関し、特に、トレーニング装置、トレーニング方法、デバイス、記憶媒体、及び画像処理方法に関する。
【背景技術】
【0002】
曲線構造セグメンテーション(Curvilinear Structure Segmentation、CSS)は、コンクリートの亀裂、空中ロードマップ、血管、ニューロンの境界などの曲線対象のバイナリマスクをセグメンテーションすることである。コンピュータービジョンの正確なCSSは、ドローンによってキャプチャされたコンクリートの亀裂を自動的に検出し、航空写真から道路網を抽出し、医師を助けて医用画像から病変を識別する。満足できる精度を達成するために、CSSとセマンティックセグメンテーションで大きな進歩が見られたが、トポロジー保存(topology preserving)と特徴細分化(feature refinement)という少なくとも2つの重要な問題がまだ残っている。人間のラベリングプロセスと同様に、トポロジー保存はグローバル/全体のジオメトリ構造を保存しようとし、特徴細分化は詳細をレンダリングすることを目的とする。
【0003】
通常、一般的なCSS方法は、トポロジー保存を強調する傾向がある。対照的に、一般的なセマンティックセグメンテーションの作業は、主に、追加の文脈情報又は空間情報を統合する特徴表現に焦点を当てている。文脈感知方法について、通常、拡張畳み込み又はピラミッド設計を使用して受容野(receptive fields)を変更し、非局所モジュールを使用して自己注意力を高める。空間感知方法について、通常、マルチスケール又はスキップ接続のアーキテクチャを導入して、様々な特徴空間を集約し、様々な表現を実現する。これらの方法では表現が比較的改善されているが、詳細について特徴を細分化することは、CSSにとって依然として問題である。
【発明の概要】
【0004】
上記の問題を考慮して、本開示は、トレーニング装置、トレーニング方法、デバイス、記憶媒体、及び画像処理方法を提供する。
【0005】
本開示の一態様によれば、複数のエンコーダ層と複数のデコーダ層とを含む第1モデルをトレーニングするためのトレーニング装置を提供し、当該トレーニング装置は、第1モデルによって出力される目標のグローバル情報特徴を取得するためのグローバル情報特徴取得モジュールと、グローバル情報特徴に基づいて、第1モデルの複数のデコーダ層のうちの少なくとも1層をトレーニングして、目標モデルを取得するためのトレーニングモジュールと、を含み、第1モデルは、複数のエンコーダ層と複数のデコーダ層とに基づいて、目標を生成する。
【0006】
本開示の一例によれば、トレーニング装置は、複数のエンコーダ層のうちの少なくとも1つのエンコーダ層と、複数のデコーダ層のうちの少なくとも1つのデコーダ層と、の両方にも対応する1つ又は複数の注意力モジュールをさらに含み、k番目の注意力モジュールは、第k層のエンコーダ層によって出力される特徴及びグローバル情報特徴に基づいて、k番目の注意力特徴を生成し、第k層のデコーダ層は、k番目の注意力特徴に基づいて、第k-1層のデコーダ層によって出力される特徴を処理して、第k層のデコーダ層によって出力される特徴を生成し、kは1よりも大きい正の整数であり、エンコーダ層に直接接続された第1デコーダ層について、第1デコーダ層に対応する第1注意力モジュールは、第1デコーダ層の前の1層のデコーダ層によって出力される特徴と、前記グローバル情報特徴と、に基づいて、第1注意力特徴を生成する。
【0007】
本開示の一例によれば、トレーニング装置は、複数のデコーダ層のうちの少なくとも1つのデコーダ層に対応する1つ又は複数の注意力モジュールをさらに含み、k番目の注意力モジュールが、第k-1層のデコーダ層によって出力される特徴及びグローバル情報特徴に基づいて、k番目の注意力特徴を生成し、第k層のデコーダ層は、k番目の注意力特徴に基づいて、第k-1層のデコーダ層によって出力される特徴を処理して、第k層のデコーダ層によって出力される特徴を生成し、kは1よりも大きい正の整数であり、エンコーダ層に直接接続された第1デコーダ層について、第1デコーダ層に対応する第1注意力モジュールは、第1デコーダ層の前の1層のデコーダ層によって出力される特徴と、前記グローバル情報特徴と、に基づいて、1番目の注意力特徴を生成する。
【0008】
本開示の一例によれば、k番目の注意力特徴は、グローバル情報特徴と第k層のエンコーダ層によって出力される特徴との重複特徴を含む増強特徴と、第k層のエンコーダ層によって出力される特徴と重複特徴との差異特徴を含む拡張特徴と、を含み、1番目の注意力特徴は、グローバル情報特徴と第1デコーダ層の前の1層のエンコーダ層によって出力される特徴との第1重複特徴を含む第1増強特徴と、第1デコーダ層の前の1層のエンコーダ層によって出力される特徴と第1重複特徴との差異特徴を含む第1拡張特徴と、を含む。
【0009】
本開示の一例によれば、k番目の注意力特徴は、グローバル情報特徴と第k-1層のデコーダ層によって出力される特徴との重複特徴を含む増強特徴と、第k-1層のデコーダ層によって出力される特徴と重複特徴との差異特徴を含む拡張特徴と、を含み、1番目の注意力特徴は、グローバル情報特徴と第1デコーダ層の前の1層のエンコーダ層によって出力される特徴との第2重複特徴を含む第2増強特徴と、第1デコーダ層の前の1層のエンコーダ層によって出力される特徴と第2重複特徴との差異特徴を含む第2拡張特徴と、を含む。
【0010】
本開示の一例によれば、第1モデルは、複数の特徴処理層をさらに含み、第1モデルは、複数のエンコーダ層及び複数の特徴処理層に基づいて、目標を生成する。
【0011】
本開示の一例によれば、トレーニング装置は、複数の注意力モジュールのうちの少なくとも1つの注意力モジュール及び複数の特徴処理層のうちの少なくとも1つの特徴処理層の両方にも対応する1つ又は複数の特徴反復モジュールをさらに含み、k番目の特徴反復モジュールは、対応するk番目の注意力モジュールによって生成されるk番目の注意力特徴と、第k-1層のデコーダ層によって出力される特徴と、第k-1層の特徴処理層によって出力される特徴とをインタラクトして、第k層のデコーダ層によって出力される特徴と、第k層の特徴処理層によって出力される特徴とを生成し、エンコーダ層に直接接続された第1特徴処理層について、第1特徴処理層に対応する第1特徴反復モジュールは、対応する第1注意力モジュールによって生成される1番目の注意力特徴を、第1特徴処理層に接続されるエンコーダ層によって出力される特徴とインタラクトして、第1層のデコーダ層によって出力される特徴と、第1層の特徴処理層によって出力される特徴とを生成する。
【0012】
本開示の一態様によれば、複数のエンコーダ層と複数のデコーダ層とを含む第1モデルをトレーニングするためのトレーニング方法を提供し、当該トレーニング方法は、第1モデルによって出力される目標のグローバル情報特徴を取得するステップと、グローバル情報特徴に基づいて、第1モデルの複数のデコーダ層のうちの少なくとも1層をトレーニングして、目標モデルを取得するステップと、を含み、第1モデルは、複数のエンコーダ層と複数のデコーダ層とに基づいて、目標を生成する。
【0013】
本開示の一態様によれば、第1モデルを使用して、入力画像を処理して、目標画像の中間特徴を取得するステップであって、第1モデルは、複数のエンコーダ層と複数のデコーダ層とを含み、第1モデルが複数のエンコーダ層と複数のデコーダ層とに基づいて、目標画像を生成するステップと、複数のデコーダ層のうちの少なくとも1つのデコーダ層に対応する1つ又は複数の注意力モジュールを少なくとも使用し、中間特徴に基づいて、注意力モジュールによって出力される特徴を取得するステップと、複数の注意力モジュールのうちの少なくとも1つ、及び複数の特徴処理層の少なくとも1つの特徴処理層の両方に対応する1つ又は複数の特徴反復モジュールを使用し、注意力モジュールによって出力される特徴と、少なくとも1つの注意力モジュールに対応する少なくとも1つのデコーダ層の前の1層のデコーダ層によって出力される特徴とに少なくとも基づいて、少なくとも1つのデコーダ層によって出力される特徴を取得するステップと、を含む画像処理方法を提供し、第1モデルは、さらに、複数のエンコーダ層及び複数の特徴処理層を使用して目標を生成する。
【0014】
本開示の一態様によれば、プロセッサと、コンピュータ読み取り可能なプログラム命令が記憶されているストレージと、を含むレーニングデバイスを提供し、コンピュータ読み取り可能なプログラム命令がプロセッサによって実行される場合、上記のトレーニング方法及び画像処理方法が実行される。
【0015】
本開示の一態様によれば、コンピュータ読み取り可能な命令を記憶するためのコンピュータ読み取り可能な記憶媒体を提供し、当該コンピュータ読み取り可能な命令がコンピュータによって実行される場合、コンピュータに上記のトレーニング方法及び画像処理方法を実行させる。
【0016】
本開示の実施例によるトレーニング装置、トレーニング方法、及び画像処理方法を通じて、特徴反復モジュールを注意力モジュールと組み合わせることにより、エッジ検出におけるノイズを低減するとともに、残りの注意力特徴を保持又は拡張し、既存の注意力特徴を増強することができる。
【0017】
本開示のトレーニング方法は、注意力モジュールを使用することによって、残りの注意力特徴を保持又は拡張し、既存の注意力特徴を増強するように、特徴をより良く細分化することができ、特徴反復モジュールを使用して、デコーダ層によって出力される特徴を特徴処理層によって出力される特徴と交換してモデリングし、第1モデルの処理効果を向上できるとともに、特徴反復モジュールと注意力モジュールとを組み合わせることにより、特徴処理層内のノイズを低減し、残りの注意力特徴をより良く保持又は拡張し、既存の注意力特徴を増強することができる。
【0018】
添付の図面を参照して本開示の実施例をより詳細に説明することにより、本開示の上記及び他の目的、特徴及び利点はより明らかになる。添付の図面は本開示の実施例に対するさらなる理解を提供するものであり、明細書の一部を構成し、本開示の実施例と共に本開示を説明するものであり、本開示を限定するものではない。図面において、同じ参照符号は一般的に同じ部品又はステップを表す。
【図面の簡単な説明】
【0019】
【
図1】
図1は、本開示の実施例によるトレーニング装置の概略図を示す。
【
図2】
図2は、本開示の第1実施例によるトレーニング装置が第1モデルをトレーニングする概略図を示す。
【
図3】
図3は、本開示の第1実施例による注意力モジュールのアーキテクチャの概略図を示す。
【
図4】
図4は、本開示の実施例による注意力モジュールの特徴学習の概略図を示す。
【
図5】
図5は、本開示の第2実施例によるトレーニング装置が第1モデルをトレーニングする概略図を示す。
【
図6】
図6は、本開示の実施例によるトレーニング装置の全体的なアーキテクチャの概略図を示す。
【
図7】
図7は、本開示の実施例による、特徴反復モジュールFIMのアーキテクチャの概略図を示す。
【
図8】
図8は、本開示の実施例によるトレーニング方法のフローチャートを示す。
【
図9】
図9は、本開示の実施例による画像処理方法のフローチャートを示す。
【
図10】
図10は、本開示の実施例によるトレーニングデバイスの概略図を示す。
【
図11】
図11は、本開示の実施例による、コンピュータ読み取り可能な記憶媒体の概略図を示す。
【
図12】
図12は、本開示の一実施形態による電子デバイスのハードウェア構成の例を示す図である。
【発明を実施するための形態】
【0020】
以下、本発明の実施例の図面を参照して、本発明の実施例の技術的解決手段について明確かつ完全に説明する。記載された実施例が本発明の一部の実施例であり、全ての実施例ではないことは、明らかである。本開示の実施例に基づいて、当業者が創造的な労働をせずに取得するその他の実施例は、いずれも本発明の保護範囲に属する。
【0021】
本出願では、フローチャートを使用して、本出願の実施例による方法のステップを説明する。前又は後のステップは、必ずしも順序に従って正確に行われないことが理解されるべきである。逆に、様々なステップは、順序を逆にするか、又は同時に処理することができる。また、他の動作をこれらのプロセスに追加したり、これらのプロセスからあるステップ又は複数のステップを削除したりすることもできる。
【0022】
本開示は、アーキテクチャがUNetに構築されているトレーニング装置を提供する。当該トレーニング装置は、反復(iteration)フィードバック学習戦略に基づいて、グローバルトポロジ情報と細分化された特徴を共同でモデリングすることを目的としている。具体的には、トレーニング装置は、予測されたマスクのグローバルなトポロジー正則化として対象構造を調査し、かつCSSとエッジ検出との間で特徴をインタラクトする特徴反復モジュール(FIM)を設計した。学習されたグローバル情報は、当然に、注意力の文脈的及び空間的に感知された特徴への注意を容易にする。特徴の細分化中にこの注意力特徴をフィードバックガイドとして利用するために、当該トレーニング装置は、注意力モジュール/ゲート付き注意力ユニット(Gated Attentive Unit、GAU)を提案して、特徴の顕著性を補完し増強する。また、当該トレーニング装置は、FIMとGAUを特徴学習から予測更新までのフィードバックループに組み込むため、特徴を細分化するだけでなく、それに応じて最終的な予測を修正することもできる。
【0023】
まず、本開示の実施例を実現するためのトレーニング装置1000について、
図1を参照して説明する。当該トレーニング装置1000は、複数のエンコーダ層と複数のデコーダ層とを含む第1モデルをトレーニングすることができる。
【0024】
図1に示すように、本開示の実施例によるトレーニング装置1000は、グローバル情報特徴取得モジュール1001、トレーニングモジュール1002、注意力モジュール1003及び特徴反復モジュール1004を含む。当業者は、これらのユニットモジュールが、ハードウェアのみ、ソフトウェアのみ、又はそれらの組み合わせによって様々な方法で実現されてもよく、かつ本開示はそれらのいずれかに限定されないことを理解されたい。例えば、中央処理ユニット(CPU)、画像処理装置(GPU)、テンソル処理装置(TPU)、フィールドプログラマブルゲートアレイ(FPGA)、又はデータ処理能力及び/又は命令実行能力を備えたその他の形式の処理ユニット及び対応するコンピュータ命令によって、これらのユニットを実現できる。
【0025】
例えば、グローバル情報特徴取得モジュール1001は、前記第1モデルによって出力される目標のグローバル情報特徴を取得することができる。当該第1モデルは、複数のエンコーダ層と複数のデコーダ層とに基づいて、目標を生成することができる。
【0026】
例えば、当該第1モデルは、ニューラルネットワークモデルであってもよい。例えば、当該ニューラルネットワークモデルは、UNetニューラルネットワーク、畳み込みニューラルネットワーク(CNN)(GoogLeNet、AlexNet、VGGネットワークなどを含む)、畳み込みニューラルネットワークを有する領域(R-CNN)、リージョンプロポーザルネットワーク(RPN)、回帰型ニューラルネットワーク(RNN)、スタックベースのディープニューラルネットワーク(S-DNN)、ディープビリーフネットワーク(DBN)、制限ボルツマンマシン(RBM)、完全畳み込みネットワーク、長短期記憶(LSTM)ネットワーク、分類ネットワークなどの様々なニューラルネットワークモデルを含むが、これらに限定されない。さらに、タスクを実行するニューラルネットワークモデルは、サブニューラルネットワークを含むことができ、当該サブニューラルネットワークが、異種ニューラルネットワークを含むことができ、異種ニューラルネットワークモデルで実現することができる。以下、第1モデルがUNetニューラルネットワークである例を説明する。UNetニューラルネットワークが単なる例であり、他の適切なニューラルネットワークも使用できるが、ここではこれに限定されないことを理解されたい。
【0027】
具体的には、一例として、当該第1モデルは、画像検出モデル、画像セグメンテーションモデルなどであってもよい。例えば、当該第1モデルは、ドローンによってキャプチャされた画像からコンクリートの亀裂を検出したり、航空写真から道路網を抽出したり、医師を助けて医用画像から病変を識別したりする。
【0028】
例えば、トレーニングモジュール1002は、グローバル情報特徴に基づいて、第1モデルの複数のデコーダ層のうちの少なくとも1層をトレーニングして、目標モデルを取得することができる。
【0029】
例えば、トレーニングモジュール1002は、グローバル情報特徴を第1モデルの複数のデコーダ層の少なくとも1層に直接追加してトレーニングして、目標モデルを取得することができる。代替策として、トレーニングモジュール1002は、さらに以下の本開示の第1実施例又は第2実施例を使用して、第1モデルをトレーニングすることができる。
【0030】
本開示の第1実施例によれば、当該トレーニング装置1000は、複数のエンコーダ層のうちの少なくとも1つのエンコーダ層と、複数のデコーダ層のうちの少なくとも1つのデコーダ層と、の両方にも対応する1つ又は複数の注意力モジュール1003(ゲート付き注意力ユニット、即ち、Gated Attentive Unit、GAUとも呼ばれる)をさらに含むことができる。例えば、k番目の注意力モジュールは、第k層のエンコーダ層によって出力される特徴と、前記グローバル情報特徴と、に基づいて、k番目の注意力特徴を生成することができ、かつ第k層のデコーダ層は、前記k番目の注意力特徴に基づいて、第k-1層のデコーダ層によって出力される特徴を処理して、第k層のデコーダ層によって出力される特徴を生成することができ、ここで、kは、1よりも大きい正の整数である。
【0031】
図2は、本開示の第1実施例によるトレーニング装置が第1モデルをトレーニングする概略図を示す。
【0032】
図2に示すように、第1モデルは、複数のエンコーダ層(
図2に示す5層のエンコーダ層:22、23、24、25、26)及び複数のデコーダ層(
図2に示す4層のデコーダ層:27、28、29、30)を含む。各入力画像21について、第1モデルは、複数のエンコーダ層と複数のデコーダ層とに基づいて、目標31を生成する。グローバル情報特徴取得モジュール1001は、取得された目標31に基づいて、グローバル情報特徴50を生成することができる。トレーニング装置1000は、エンコーダ層22とデコーダ層30との両方に対応する注意力モジュール32と、エンコーダ層24とデコーダ層28との両方に対応する注意力モジュール33とを含むことができる。
【0033】
一例として、エンコーダ層26に直接接続された第1デコーダ層27について、エンコーダ層26に対応する1番目の注意力モジュール34は、対応する第1デコーダ層27の前の1層のエンコーダ層26によって出力される特徴60と、グローバル情報特徴50とに基づいて、1番目の注意力特徴61を生成することができる。対応する第1デコーダ層27は、1番目の注意力モジュール34によって生成される1番目の注意力特徴61に基づいて、前の1層のエンコーダ層26によって出力される特徴60を処理して、対応する第1デコーダ層27によって出力される特徴62を生成することができる。
【0034】
別の例として、2番目の注意力モジュール33は、対応するエンコーダ層24によって出力される特徴63と、グローバル情報特徴50とに基づいて、2番目の注意力特徴64を生成し、対応するデコーダ層28は、2番目の注意力モジュール33によって生成される2番目の注意力特徴64に基づいて、前の1層のデコーダ層27によって出力される特徴62を処理して、対応するデコーダ層28によって出力される特徴65を生成する。
【0035】
さらに別の例として、3番目の注意力モジュール32は、対応するエンコーダ層22によって出力される特徴66と、グローバル情報特徴50とに基づいて、3番目の注意力特徴67を生成し、対応するデコーダ層30は、3番目の注意力モジュール32によって生成される3番目の注意力特徴67に基づいて、前の1層のデコーダ層29によって出力される特徴68を処理して、対応するデコーダ層30によって出力される特徴69を生成する。
【0036】
なお、上記のエンコーダ層と、デコーダ層と、注意力モジュールとの数は単なる例であり、本開示によって限定されない。
【0037】
さらに、本開示の第1実施例において、k番目の注意力特徴は、拡張特徴及び増強特徴を含むことができる。当該増強特徴は、グローバル情報特徴と第k層のエンコーダ層によって出力される特徴との重複特徴を含むことができる。当該拡張特徴は、第k層のエンコーダ層によって出力される特徴と重複特徴との差異特徴を含むことができる。
【0038】
図3は、本開示の第1実施例による注意力モジュールのアーキテクチャの概略図を示す。
【0039】
図3に示すように、例えば、3番目の注意力モジュール32(又は2番目の注意力モジュール33)について、以下の式(1)により、対応するエンコーダ層22によって出力される特徴66(e
l
t)及びグローバル情報特徴50(y
s
t-1)に基づいて、3番目の注意力特徴67(RF
l
t)(注意力特徴は、細分化された特徴とも呼ばれる)を生成することができる。
【0040】
【0041】
spl
tは拡張特徴を示し、eht
lは増強特徴を示し、Mは注意力残差マスクを示し、×は要素ごとの乗算を示し、lは対応する層数を示し、tは学習の反復回数を示す。
【0042】
具体的には、拡張特徴sp
l
tは、学習したy
s
t-1には存在するがe
l
tには存在しないか弱く存在する残りの注意力特徴を補うことを目的としている。拡張特徴sp
l
tは、次の式(2)で得られる。
【数2】
【0043】
具体的には、以下のステップによって拡張特徴spl
tを生成することができる。
(1)el
tとys
t-1とを乗算することによって、重複特徴ol
t、即ち、既存の注意力特徴を取得し、
(2)現在学習された特徴el
tと重複特徴ol
tとの間の差異特徴rl
t、即ち、残差注意力特徴を見つけ、
(3)残差注意力特徴rl
tに従って、空間マスクとチャネルマスクMを生成し、
(4)入力された特徴el
tをMでマスクして、拡張特徴spl
tを生成する。
【0044】
ここで、空間注意力SA及びチャネル注意力CAは、より良い特徴表現のために任意の適切な同じ構造を使用することができ、ここでは限定されない。
【0045】
対照的に、増強特徴eht
lは、ys
t-1と現在のel
tの両方に存在する既存の注意力特徴を増強することを目的としている。以下のように、増強特徴eht
lは得られる。
【0046】
【0047】
ここで、例えば、
【数4】
は、2つの畳み込みニューラルネットワークによって重複特徴o
l
tの後で取得されたものである。つまり、増強特徴は、既存の注意力特徴を増強した。
【0048】
同様に、1番目の注意力モジュール34は、第1拡張特徴及び第1増強特徴を含むこともできる。当該第1増強特徴は、対応するデコーダ層27の前の1層のエンコーダ層26によって出力される特徴60とグローバル情報特徴50との第1重複特徴を含むことができる。当該第1拡張特徴は、対応するデコーダ層27の前の1層のエンコーダ層26によって出力される特徴60と第1重複特徴との差異特徴を含むことができる。当該第1拡張特徴及び第1増強特徴の算出方法は、
図3を参照した上記の方法と同様であってもよく、ここでは限定されない。
【0049】
図4は、本開示の実施例による注意力モジュールの特徴学習の概略図を示す。
図4に示すように、式(1)~(3)に対応し、グローバル特徴y
s
t-1に基づいて、エンコーダ層によって出力される特徴e
l
tは、注意力特徴RF
l
tに細分化することができる。
【0050】
図3に示される乗算器、減算器、SA、CA、畳み込みなどは単なる例であり、拡張特徴及び増強特徴を算出する方法は、それに限定されず、残りの注意力特徴をより良く保持又は拡張し、既存の注意力特徴を増強できる限り、任意の既存の/将来の適切な方法を本開示に適用することができることを理解されたい。
【0051】
上記の注意力モジュールを通じて、残りの注意力特徴をより良く保持又は拡張し、既存の注意力特徴を増強するように、特徴をより細分化することができる。
【0052】
本開示の第2実施例によれば、当該トレーニング装置1000は、複数のデコーダ層のうちの少なくとも1つのデコーダ層に対応する1つ又は複数の注意力モジュール1003をさらに含むことができる。例えば、k番目の注意力モジュールは、第k-1層のデコーダ層によって出力される特徴と、前記グローバル情報特徴と、に基づいて、k番目の注意力特徴を生成することができる。また、第k層のデコーダ層は、前記k番目の注意力特徴に基づいて、第k-1層のデコーダ層によって出力される特徴を処理して、第k層のデコーダ層によって出力される特徴を生成することができ、kは1よりも大きい正の整数である。
【0053】
図5は、本開示の第2実施例によるトレーニング装置が第1モデルをトレーニングする概略図を示す。
【0054】
図5に示すように、第2モデルは、複数のエンコーダ層(
図5に示す5層のエンコーダ層:42、43、44、45、46)及び複数のデコーダ層(
図5に示す4層のデコーダ層:47、48、49、50)を含む。各入力画像41について、第1モデルは、複数のエンコーダ層と複数のデコーダ層とに基づいて、目標51を生成する。グローバル情報特徴取得モジュール1001は、取得された目標51に基づいて、グローバル情報特徴50を生成することができる。トレーニング装置1000は、デコーダ層50に対応する注意力モジュール52と、デコーダ層48に対応する注意力モジュール53と、デコーダ層47に対応する注意力モジュール54とを含むことができる。
【0055】
一例として、エンコーダ層46に直接接続された第1デコーダ層47について、第1デコーダ層47に対応する第1注意力モジュール54は、第1デコーダ層47の前の1層のエンコーダ層46によって出力される特徴80と、前記グローバル情報特徴50とに基づいて、1番目の注意力特徴81を生成することができる。対応する第1デコーダ層47は、1番目の注意力モジュール54によって生成される1番目の注意力特徴81に基づいて、前の1層のエンコーダ層46によって出力される特徴80を処理して、対応する第1デコーダ層47によって出力される特徴82を生成することができる。
【0056】
別の例として、2番目の注意力モジュール53は、前の1層のデコーダ層47によって出力される特徴82と、グローバル情報特徴50とに基づいて、2番目の注意力特徴84を生成することができる。対応するデコーダ層48は、2番目の注意力モジュール53によって生成される2番目の注意力特徴84に基づいて、前の1層のデコーダ層47によって出力される特徴82を処理して、対応するデコーダ層48によって出力される特徴85を生成する。
【0057】
さらに別の例として、3番目の注意力モジュール52は、前の1層のデコーダ層49によって出力される特徴88と、グローバル情報特徴50とに基づいて、3番目の注意力特徴87を生成することができる。対応するデコーダ層50は、3番目の注意力モジュール52によって生成される3番目の注意力特徴87に基づいて、前の1層のデコーダ層49によって出力される特徴88を処理して、対応するデコーダ層50によって出力される特徴89を生成する。
【0058】
上記のエンコーダ層と、デコーダ層と、注意力モジュールとの数は単なる例であり、本開示によって限定されないことを理解されたい。
【0059】
さらに、本開示の第2実施例において、k番目の注意力特徴は、拡張特徴及び増強特徴を含むことができる。当該増強特徴は、グローバル情報特徴と第k-1層のデコーダ層によって出力される特徴との重複特徴を含むことができる。当該拡張特徴は、前記第k-1層のデコーダ層によって出力される特徴と前記重複特徴との差異特徴を含むことができる。当該拡張特徴及び増強特徴の算出方法は、
図3を参照した上記の方法と同様であってもよく、ここでは限定されない。
【0060】
同様に、1番目の注意力モジュール34も、第2拡張特徴及び第2増強特徴を含むことができる。当該第2増強特徴は、前記グローバル情報特徴50と、前記第1デコーダ層47の前の1層のエンコーダ層46によって出力される特徴80と、の第2重複特徴を含むことができる。前記第2拡張特徴は、前記第1デコーダ層47の前の1層のエンコーダ層46によって出力される特徴80と、前記第2重複特徴と、の差異特徴を含むことができる。
【0061】
当該第1拡張特徴及び第1増強特徴の算出方法は、
図3を参照した上記の方法と同様であってもよく、ここで限定されない。
【0062】
本開示による注意力モジュールは、残りの注意力特徴をより良く保持又は拡張し、既存の注意力特徴を増強するように、特徴をより細分化することができる。
【0063】
図2~5を参照して本開示の実施例による注意力モジュールを説明した後、次に、本開示は、
図6~7を参照して本開示の実施例による特徴処理層を説明する。
【0064】
例えば、第1モデルは、複数の特徴処理層をさらに含むことができる。上記のように、第1モデルは、前記複数のエンコーダ層と前記複数のデコーダ層とに基づいて、目標を生成することができる。代替策として、第1モデルは、さらに、前記複数のエンコーダ層と前記複数の特徴処理層とに基づいて、目標を生成することができる。例えば、第1モデルが画像セグメンテーションに使用される場合、当該デコーダ層は、セマンティックセグメンテーションに対応し、当該特徴処理層は、エッジ検出に対応し、セマンティックセグメンテーションとエッジ検出のいずれかによって画像セグメンテーションの結果を取得できる。
【0065】
図6は、本開示の実施例によるトレーニング装置の全体的なアーキテクチャの概略図を示す。
【0066】
図6に示すように、入力画像について、第1モデルは、前記複数のエンコーダ層(
図6の左側に示すConv1_2、Conv2_2、Conv3_3、Conv4_3、Conv5_3)と、前記複数のデコーダ層(
図6の右側に示すS1、S2、S3、S4)とに基づいて、目標を生成することができる。代替策として、第1モデルは、さらに、前記複数のエンコーダ層(
図6の左側に示すConv1_2、Conv2_2、Conv3_3、Conv4_3、Conv5_3)と、前記複数の特徴処理層(
図6の右側に示すB1、B2、B3、B4)とに基づいて、目標を生成することができる。
図6に含まれる注意力モジュールGAUは、
図2に示される第1実施例を参照して、上記で説明された注意力モジュール/GAUであり、当然ながら、
図6に示されるトレーニング装置に、
図6に示される第2実施例を参照して説明される注意力モジュール/GAUを使用することができ、ここでは限定されない。
【0067】
例えば、トレーニング装置1000は、前記複数の注意力モジュール/GAUのうちの少なくとも1つの注意力モジュール/GAUと、前記複数の特徴処理層のうちの少なくとも1つの特徴処理層と、の両方に対応する1つ又は複数の特徴反復モジュール(Feature Interactive Module、FIM)をさらに含むことができる。例えば、
図6に示すように、S4及びB4の両方に対応するFIM、S3及びB3の両方に対応するFIMなどを含む。
図6に示されるFIMの数は単なる例であり、本開示は、デコーダ層の数及び特徴処理層の数よりも少ないFIMを含むことができることを理解されたい。
【0068】
当該FIMは、例えば、セマンティックセグメンテーション(S)からエッジ検出(B)に特徴を交換するために使用できる。
【0069】
例えば、k番目の特徴反復モジュールは、対応するk番目の注意力モジュールによって生成されるk番目の注意力特徴と、第k-1層のデコーダ層によって出力される特徴と、第k-1層の特徴処理層によって出力される特徴とをインタラクトして、第k層のデコーダ層によって出力される特徴と、第k層の特徴処理層によって出力される特徴とを生成することができる。特に、エンコーダ層に直接接続された第1特徴処理層について、前記第1特徴処理層に対応する第1特徴反復モジュールは、対応する第1注意力モジュールによって生成される1番目の注意力特徴と、前記第1特徴処理層に接続されるエンコーダ層によって出力される特徴とをインタラクトして、第1層のデコーダ層によって出力される特徴と、第1層の特徴処理層によって出力される特徴とを生成する。
【0070】
図7は、本開示の実施例による、特徴反復モジュールFIMのアーキテクチャの概略図を示す。
【0071】
図7に示すように、左側のグレースケール長方形部分は、デコーダ層のセマンティックセグメンテーション(S)の学習された特徴に対応し、右側のグレースケール長方形部分は、特徴処理層のエッジ検出(B)の学習された特徴に対応する。小文字のs
l
tとb
l
tをそれぞれSとBで学習された特徴として示し、lは層数を示し、tは学習の反復回数を示す。それについて、FIMの設計は次のようになる。
【0072】
【0073】
RF
l
tは、
図3を参照して上記で生成された注意力モジュール/GAUによって生成された注意力特徴であり、θ
Fは、FIMの学習パラメータに対応する。Sブランチは3つの部分でs
l
tを学習し、注意力特徴RF
l
tと前のSの特徴s
l-1
tとを連結(concatenating)し、2つの畳み込みによって特徴(
【数6】
で示す)を更新し、更新された特徴b
l
tを含む残差注意力付きの注意力特徴を学習する。補助ストリームとして、Bブランチは、更新された特徴
【数7】
を前の1つのBの特徴b
l-1
tと単純に連結する。ここで、
【数8】
は、
【数9】
の後に2回の畳み込みを行うことによって得られる。FIM設計を使用すると、特徴がセグメンテーションからエッジ検出に相互変換されるため、グローバルトポロジが保存された。
【0074】
本開示において、特徴反復モジュール(FIM)は、画像セグメンテーションとエッジ検出の間の特徴交換をモデリングすることにより、第1モデルの処理効果を向上させることができる。
【0075】
なお、エンコーダ層と比較して、デコーダ層はセマンティック特徴(例えば、トポロジー)に重点を置いているため、本開示ではデコーダ層でのみFIM及びエッジ検出を使用できる。
【0076】
次に、当該トレーニング装置は、以下の方法によりトレーニングすることができる。
【0077】
例えば、CSS画像i∈I∈RC×H×Wは、T回の反復で更新できる。具体的には、反復t∈Tについて、トレーニング装置は、まず、多層エンコーダ層を通過し、次にセマンティックセグメンテーション(S)とエッジ検出(B)のために2つのレシプロカルデコーダ(それぞれSデコーダとBデコーダとして示され、それぞれ多層デコーダ層を含む)をモデリングして、セマンティックセグメンテーション予測ys
t(グローバル情報特徴)とエッジ予測yb
tを生成する。
【0078】
【0079】
ここで、θは、トレーニング装置の全体的なパラメータであり、FJTFN()は、トレーニング装置によって生成されるys
t及びyb
tに対応する関数を示し、この関数は、本開示において限定されない。
【0080】
最後に、トレーニング装置は、特徴細分化のためのGAUのフィードバック入力としてセグメンテーション予測ys
t(グローバル情報特徴)を使用する。また、バイナリクロスエントロピー損失(BCE)(つまり、Lbce())を使用して、予測と実際のデータ(Gs、Gb)との違いを最小限に抑えることができる。
【0081】
【0082】
ここで、λbはバランス係数であり、1に設定できる。ys
i、tは、i番目の画像の第7回の反復によって出力されるセマンティックセグメンテーション予測を示す。yb
i、tは、i番目の画像の第7回の反復によって出力されるエッジ予測を示す。Gs
iは、i番目の画像の実際のセマンティックセグメンテーションデータを示す。Gb
iは、i番目の画像の真のエッジ検出データを示す。
【0083】
T回の反復後、得られた総損失は次のとおりである。
【0084】
【0085】
ここで、αtは、損失重みである。
【0086】
損失関数を算出する上記の式(6)及び(7)は単なる例であり、他の適切な損失関数を使用して、第1モデルをトレーニングすることもでき、ここでは限定されないことを理解されたい。
【0087】
本開示のトレーニング装置から分かるように、本開示で提案されるトレーニング装置は、注意力モジュールを使用して、残りの注意力特徴を保持又は拡張し、既存の注意力特徴を増強するように、特徴をより良く細分化することができ、特徴反復モジュールを使用して、デコーダ層によって出力される特徴と特徴処理層によって出力される特徴とを交換してモデリングし、第1モデルの処理効果を向上させ、同時に、特徴反復モジュールと注意力モジュールとを組み合わせて、特徴処理層内のノイズを低減させ、残りの注意力特徴をより良く保持又は拡張し、既存の注意力特徴を増強する。
【0088】
以上、
図1~7を参照して、本開示の実施例によるトレーニング装置を説明してきた。次に、
図8を参照して本開示の実施例によるトレーニング方法を説明する。
【0089】
図8は、本開示の実施例によるトレーニング方法100のフローチャートを示す。当該方法は、コンピュータなどによって自動的に行うことができる。例えば、当該方法は、画像をセグメント化するために使用される。例えば、当該方法は、ソフトウェア、ハードウェア、ファームウェア、又はそれらの任意の組み合わせで実現でき、例えば、携帯電話、タブレットコンピュータ、ノートブックコンピュータ、デスクトップコンピュータ、ネットワークサーバなどのデバイスのプロセッサによってロードして実行される。
【0090】
図8に示すように、当該トレーニング方法100は、以下のステップS101~S102を含み、当該トレーニング方法100は、複数のエンコーダ層と複数のデコーダ層とを含む第1モデルをトレーニングする。前記第1モデルは、前記複数のエンコーダ層と前記複数のデコーダ層とに基づいて、目標を生成する。
【0091】
ステップS101において、前記第1モデルによって出力される目標のグローバル情報特徴を取得する。
【0092】
ステップS102において、前記グローバル情報特徴に基づいて、前記第1モデルの前記複数のデコーダ層の少なくとも1層をトレーニングして、目標モデルを取得する。
【0093】
例えば、ステップS102において、グローバル情報特徴を第1モデルの複数のデコーダ層のうちの少なくとも1層に直接追加してトレーニングして、目標モデルを取得することができる。代替策として、ステップS102は、さらに、本開示の以下の実施例を使用して、第1モデルをトレーニングすることができる。
【0094】
例えば、当該トレーニング方法では、1つ又は複数の注意力モジュールを使用して注意力特徴を取得することができる。
【0095】
本開示の第3実施例において、当該1つ又は複数の注意力モジュールは、前記複数のエンコーダ層のうちの少なくとも1つのエンコーダ層と、前記複数のデコーダ層のうちの少なくとも1つのデコーダ層と、の両方にも対応することができる。例えば、当該トレーニング方法は、k番目の注意力モジュールを使用し、第k層のエンコーダ層によって出力される特徴と、前記グローバル情報特徴と、に基づいて、k番目の注意力特徴を生成することができ、また第k層のデコーダ層を使用して、前記k番目の注意力特徴に基づいて、第k-1層のデコーダ層によって出力される特徴を処理して、第k層のデコーダ層によって出力される特徴を生成することができ、kは1よりも大きい正の整数である。一例として、エンコーダ層に直接接続された第1デコーダ層について、当該トレーニング方法は、前記第1デコーダ層に対応する第1注意力モジュールを使用し、第1デコーダ層の前の1層のエンコーダ層によって出力される特徴と、前記グローバル情報特徴と、に基づいて、1番目の注意力特徴を生成する。例えば、k番目の注意力特徴は、拡張特徴及び増強特徴を含むことができる。前記増強特徴は、前記グローバル情報特徴と前記第k層のエンコーダ層によって出力される特徴との重複特徴を含むことができる。前記拡張特徴は、前記第k層のエンコーダ層によって出力される特徴と前記重複特徴との差異特徴を含むことができる。一例として、1番目の注意力特徴は、第1拡張特徴及び第1増強特徴を含むことができる。前記第1増強特徴は、前記グローバル情報特徴と前記第1デコーダ層の前の1層のエンコーダ層によって出力される特徴との第1重複特徴を含むことができる。前記第1拡張特徴は、前記第1デコーダ層の前の1層のエンコーダ層によって出力される特徴と前記第1重複特徴との差異特徴を含むことができる。
【0096】
代替策として、当該1つ又は複数の注意力モジュールは、前記複数のデコーダ層のうちの少なくとも1つのデコーダ層に対応することができる。例えば、当該トレーニング方法は、k番目の注意力モジュールを使用して、第k-1層のデコーダ層によって出力される特徴と、前記グローバル情報特徴と、に基づいて、k番目の注意力特徴を生成することができ、さらに第k層のデコーダ層を使用して、前記k番目の注意力特徴に基づいて、第k-1層のデコーダ層によって出力される特徴を処理して、第k層のデコーダ層によって出力される特徴を生成することができ、kは1よりも大きい正の整数である。一例として、エンコーダ層に直接接続された第1デコーダ層について、当該トレーニング方法は、前記第1デコーダ層に対応する第1注意力モジュールを使用して、第1デコーダ層の前の1層のエンコーダ層によって出力される特徴と、前記グローバル情報特徴と、に基づいて、1番目の注意力特徴を生成することができる。例えば、k番目の注意力特徴は、拡張特徴及び増強特徴を含むことができる。前記増強特徴は、前記グローバル情報特徴と前記第k-1層のデコーダ層によって出力される特徴との重複特徴を含むことができる。前記拡張特徴は、前記第k-1層のデコーダ層によって出力される特徴と前記重複特徴との差異特徴を含むことができる。一例として、1番目の注意力特徴は、第2拡張特徴及び第2増強特徴を含むことができる。前記第2増強特徴は、前記グローバル情報特徴と前記第1デコーダ層の前の1層のエンコーダ層によって出力される特徴との第2重複特徴を含むことができる。前記第2拡張特徴は、前記第1デコーダ層の前の1層のエンコーダ層によって出力される特徴と前記第2重複特徴との差異特徴を含むことができる。
【0097】
当該トレーニング方法は、上記注意力モジュールを使用することによって、残りの注意力特徴を保持又は拡張し、既存の注意力特徴を増強することができる。
【0098】
例えば、当該第1モデルは、複数の特徴処理層をさらに含むことができる。前記第1モデルは、さらに、前記複数のエンコーダ層と前記複数の特徴処理層とに基づいて、目標を生成する。
【0099】
例えば、当該トレーニング方法は、1つ又は複数の特徴反復モジュールを使用してトレーニングすることができる。当該1つ又は複数の特徴反復モジュールは、前記複数の注意力モジュールのうちの少なくとも1つと、前記複数の特徴処理層のうちの少なくとも1つの特徴処理層と、の両方にも対応することができる。
【0100】
例えば、当該トレーニング方法は、k番目の特徴反復モジュールを使用して、対応するk番目の注意力モジュールによって生成されたk番目の注意力特徴と、第k-1層のデコーダ層によって出力される特徴と、第k-1層の特徴処理層によって出力される特徴とをインタラクトして、第k層のデコーダ層によって出力される特徴と、第k層の特徴処理層によって出力される特徴とを生成し、kは1よりも大きい正の整数である。一例として、エンコーダ層に直接接続された第1特徴処理層について、当該トレーニング方法は、前記第1特徴処理層に対応する第1特徴反復モジュールを使用して、対応する第1注意力モジュールによって生成された1番目の注意力特徴と、前記第1特徴処理層に接続されるエンコーダ層によって出力される特徴とをインタラクトして、第1層のデコーダ層によって出力される特徴と、第1層の特徴処理層によって出力される特徴とを生成する。
【0101】
本開示において、本開示のトレーニング方法は、注意力モジュールを使用して、残りの注意力特徴を保持又は拡張し、既存の注意力特徴を増強するように、特徴をより良く細分化することができ、特徴反復モジュールを使用して、デコーダ層によって出力される特徴と特徴処理層によって出力される特徴とを交換してモデリングし、第1モデルの処理効果を向上させ、同時に、特徴反復モジュールと注意力モジュールとを組み合わせて、特徴処理層内のノイズを低減させ、残りの注意力特徴をより良く保持又は拡張し、既存の注意力特徴を増強する。
【0102】
図9は、本開示の実施例による画像処理方法200のフローチャートを示す。当該方法は、コンピュータなどによって自動的に行うことができる。例えば、当該方法は、セグメント化された画像を取得するために使用される。例えば、当該方法は、ソフトウェア、ハードウェア、ファームウェア、又はそれらの任意の組み合わせで実現でき、例えば、携帯電話、タブレットコンピュータ、ノートブックコンピュータ、デスクトップコンピュータ、ネットワークサーバなどのデバイスのプロセッサによってロードして実行される。
【0103】
図9に示すように、当該画像処理方法200は、以下のステップS201~S203を含む。
【0104】
ステップS201において、第1モデルを使用し、入力画像を処理して、目標画像の中間特徴を取得し、前記第1モデルは、複数のエンコーダ層と複数のデコーダ層とを含み、前記第1モデルは、前記複数のエンコーダ層と前記複数のデコーダ層とに従って、目標画像を生成する。
【0105】
ステップS202において、前記複数のデコーダ層のうちの少なくとも1つのデコーダ層に対応する1つ又は複数の注意力モジュールを少なくとも使用し、前記中間特徴に基づいて、前記注意力モジュールによって出力される特徴を取得する。
【0106】
ステップS203において、前記複数の注意力モジュールのうちの少なくとも1つと、複数の特徴処理層のうちの少なくとも1つの特徴処理層と、の両方に対応する1つ又は複数の特徴反復モジュールを使用し、少なくとも前記注意力モジュールによって出力される特徴と、少なくとも1つの注意力モジュールに対応する少なくとも1つのデコーダ層の前の1層のデコーダ層によって出力される特徴とに基づいて、前記少なくとも1つのデコーダ層によって出力される特徴を取得し、前記第1モデルは、さらに、前記複数のエンコーダ層と前記複数の特徴処理層とを使用して目標を生成する。
【0107】
本開示において、本開示の画像処理方法は、注意力モジュールを使用して、残りの注意力特徴を保持又は拡張し、既存の注意力特徴を増強するように、特徴をより良く細分化することができ、特徴反復モジュールを使用して、デコーダ層によって出力される特徴と特徴処理層によって出力される特徴とを交換してモデリングし、第1モデルの処理効果を向上させ、同時に、特徴反復モジュールと注意力モジュールとを組み合わせて、特徴処理層内のノイズを低減させ、残りの注意力特徴を保持又は拡張し、既存の注意力特徴を増強する。
【0108】
以下、
図10を参照して、本開示の実施例によるトレーニングデバイス1100を説明する。
図10は、本開示の実施例によるトレーニングデバイスの概略図を示す。本実施例のトレーニングデバイスの機能は、
図8を参照して上で説明した方法の詳細と同じであるため、ここでは、簡単にするために、同じ内容の詳細な説明を省略する。
【0109】
本開示のトレーニングデバイスは、プロセッサ1102と、コンピュータ読み取り可能なプログラム命令が記憶されているストレージ1101と、を含み、前記コンピュータ読み取り可能なプログラム命令が前記プロセッサによって実行される場合、トレーニング方法が実行される。前記方法は、第1モデルによって出力される目標のグローバル情報特徴を取得するステップと、前記グローバル情報特徴に基づいて、前記第1モデルの前記複数のデコーダ層のうちの少なくとも1層をトレーニングして、目標モデルを取得するステップと、を含み、前記第1モデルは、複数のエンコーダ層と複数のデコーダ層とに基づいて、目標を生成する。
【0110】
代替策として、前記コンピュータ読み取り可能なプログラム命令が前記プロセッサによって実行される場合、画像処理方法が実行される。前記方法は、第1モデルを使用して、入力画像を処理して、目標画像の中間特徴を取得するステップであって、前記第1モデルは、複数のエンコーダ層と複数のデコーダ層とを含み、前記第1モデルは、前記複数のエンコーダ層と前記複数のデコーダ層とに基づいて、目標画像を生成するステップと、前記複数のデコーダ層のうちの少なくとも1つのデコーダ層に対応する1つ又は複数の注意力モジュールを少なくとも使用して、前記中間特徴に基づいて、前記注意力モジュールによって出力される特徴を取得するステップと、前記複数の注意力モジュールのうちの少なくとも1つの注意力モジュールと、複数の特徴処理層の少なくとも1つの特徴処理層と、の両方に対応する1つ又は複数の特徴反復モジュールを使用して、少なくとも前記注意力モジュールによって出力される特徴と、少なくとも1つの注意力モジュールに対応する少なくとも1つのデコーダ層の前の1層のデコーダ層によって出力される特徴とに基づいて、前記少なくとも1つのデコーダ層によって出力される特徴を取得するステップと、を含み、前記第1モデルは、さらに、前記複数のエンコーダ層と前記複数の特徴処理層とを使用して目標を生成する。
【0111】
異なる実施例によるトレーニング装置1000及びトレーニングデバイス1100の技術的効果に関して、本開示の実施例で提供されるトレーニング方法の技術的効果を参照することができるが、ここでは繰り返さない。
【0112】
トレーニング装置1000及びトレーニングデバイス1100は、様々な適切な電子デバイスに適用されることができる。
【0113】
図11は、本開示の実施例による、コンピュータ読み取り可能な記憶媒体1200の概略図である。
【0114】
図11に示すように、本開示は、コンピュータ読み取り可能な命令1201を記憶するためのコンピュータ読み取り可能な記憶媒体1200をさらに含み、前記命令は、コンピュータに、それぞれ
図8~9を参照して説明した上記のトレーニング方法及び画像処理方法を実行させる。
【0115】
<ハードウェア構造>
さらに、上記の実施形態の説明で使用されるブロック図は、機能を単位としたブロックを示す。これらの機能ブロック(構造単位)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。即ち、各機能ブロックは、物理的及び/又は論理的に結合された1つの装置によって実現されてもよく、又は物理的及び/又は論理的に分離された2つ以上の装置を直接及び/又は間接的(例えば、有線及び/又は無線)に接続して、上記の複数の装置によって実現されてもよい。
【0116】
例えば、本開示の一実施形態による電子デバイスは、本開示のトレーニング方法の処理を実行するコンピュータとして機能することができる。
図12は、本開示の一実施形態による、電子デバイス60のハードウェア構造の例を示す図である。上記の電子デバイス60は、物理的には、プロセッサ1010、メモリ1020、ストレージ1030、通信装置1040、入力装置1050、出力装置1060、バス1070などを含むコンピュータ装置として構成することができる。
【0117】
また、以下の説明において、「装置」という用語は、回路、デバイス、ユニットなどに置き換えることができる。電子デバイス60のハードウェア構造は、図に示される様々な装置のうちの1つ又は複数を含んでもよいか、又はいくつかの装置を含まなくてもよい。
【0118】
例えば、1つのプロセッサ1010のみが示されているが、複数のプロセッサが存在してもよい。また、1つのプロセッサによって処理を実行しもよく、1つ以上のプロセッサによって同時に、順次に、又は他の方法で処理を実行してもよい。さらに、プロセッサ1010は、1つ以上のチップによって取り付けることができる。
【0119】
電子デバイス60の各機能は、例えば、所定のソフトウェア(プログラム)をプロセッサ1010、メモリ1020などのハードウェアに読み込み、それによってプロセッサ1010が算出を行い、通信デバイス1040による通信を制御し、かつメモリ1020及びストレージ1030におけるデータの読み取り及び/又は書き込みを制御するように実現される。
【0120】
プロセッサ1010は、例えば、オペレーティングシステムを作動してコンピュータ全体を制御する。プロセッサ1010は、周辺機器のインターフェース、制御装置、コンピューティング装置、レジスタなど含む中央処理装置(CPU、Central Processing Unit)で構成することができる。
【0121】
また、プロセッサ1010は、プログラム(プログラムコード)、ソフトウェアモジュール、データなどを、ストレージ1030及び/又は通信装置1040からメモリ1020に読み出し、それらに従って様々な処理を実行する。プログラムとして、コンピュータに上記の実施形態に記載された動作の少なくとも一部を実行させるためのプログラムを使用することができる。例えば、電子デバイス60の制御ユニット401は、メモリ1020に記憶され、プロセッサ1010によって作動する制御プログラムによって実現することができ、他の機能ブロックも同様に実現することができる。
【0122】
メモリ1020は、例えば、読み取り専用メモリ(ROM、Read Only Memory)、プログラム可能な読み取り専用メモリ(EPROM、Erasable Programmable ROM)、電気的にプログラム可能な読み取り専用メモリ(EEPROM、EEPROM、Electrically EPROM)、ランダムアクセスメモリ(RAM、Random Access Memory)、及びその他の適切な記憶媒体の少なくとも1つで構成されるコンピュータ読み取り可能な記録媒体である。メモリ1020は、さらに、レジスタ、キャッシュ、メインメモリ(主な記憶装置)などと呼ばれてもよい。メモリ1020は、本開示の一実施形態による、無線通信方法を実施するための実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを記憶することができる。
【0123】
ストレージ1030は、コンピュータ読み取り可能な記録媒体であり、例えば、フレキシブルディスク(flexible disk)、フロッピーディスク(登録商標)(floppy disk)、光磁気ディスク(例えば、読み取り専用ディスク(CD-ROM(Compact Disc ROM)など)、デジタル汎用ディスク、ブルーレイ(Blu-ray(登録商標)ディスク)、リムーバブルディスク、ハードドライブ、スマートカード、フラッシュメモリデバイス(例えば、カード、スティック(stick)、キードライバ(key driver)など)、磁気ストライプ、データベース、サーバ、及び他の適切な記憶媒体の少なくとも1つで構成することができる。ストレージ1030は、さらに、補助記憶装置と呼ばれてもよい。
【0124】
通信装置1040は、有線及び/又は無線ネットワークを介したコンピュータ間の通信に使用されるハードウェア(送受信デバイス)であり、例えば、ネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールとも呼ばれる。
【0125】
入力装置1050は、外部からの入力を受け取る入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1060は、外部への出力を行う出力デバイス(例えば、ディスプレイ、スピーカー、発光ダイオード(LED、Light Emitting Diode)ランプなど)である。さらに、入力装置1050及び出力装置1060は、さらに、一体構造(例えば、タッチパネル)であってもよい。
【0126】
また、プロセッサ1010及びメモリ1020などの各装置は、情報を通信するためのバス1070を介して接続されている。バス1070は、単一のバスによって構成されてもよく、又は装置間の異なるバスによって構成されてもよい。
【0127】
また、電子デバイス60は、マイクロプロセッサ、デジタル信号プロセッサ(DSP、Digital Signal Processor)、特定用途向け集積回路(ASIC、Application Specific Integrated Circuit)、プログラマブルロジックデバイス(PLD、Programmable Logic Device)、フィールドプログラマブルゲートアレイ(FPGA、Field Programmable Gate Array)などのハードウェアを含むことができ、当該ハードウェアを介して各機能ブロックの一部又はすべてを実現できる。例えば、プロセッサ1010は、これらのハードウェアの少なくとも1つによって取り付けることができる。
【0128】
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語呼ばれるか、又は、他の名称で呼ばれるかにかかわらず、コマンド、コマンドセット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能なファイル、実行スレッド、ステップ、機能などを意味すると広く解釈されるべきである。
【0129】
また、ソフトウェア、コマンド、情報などは、伝送媒体を介して送受信されてもよい。例えば、有線技術(同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者線(DSL、Digital Subscriber Line)など)及び/又は無線技術(赤外線、マイクロ波など)を使用して、ウェブサイト、サーバ、又はその他のリモートソースからソフトウェアを送信する場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義に含まれる。
【0130】
本明細書に記載されている各態様/実施形態は、単独で使用してもよく、組み合わせて使用してもよく、実行中に切り替えて使用してもよい。また、本明細書に記載されている各態様/実施形態の処理ステップ、シーケンス、フローチャートなどに矛盾がない限り、順序を変更することができる。例えば、本明細書に記載されている方法に関して、様々なステップユニットが例示的な順序で与えられたが、与えられた特定の順序に限定されない。
【0131】
本明細書で使用される「に基づいて」などの説明は、他の段落で明確に述べられていない限り、「のみに基づいて」を意味するものではない。言い換えれば、「に基づいて」の説明は、「のみに基づいて」と「少なくともに基づいて」の両方を意味する。
【0132】
本明細書における「第1」、「第2」などの名称を使用するユニットへの参照はすべて、これらのユニットの数又は順序を包括的に制限することを意図するものではない。これらの名称は、2つ以上のユニットを区別する便利な方法として本明細書で使用できる。したがって、第1ユニット及び第2ユニットへの参照は、2つのユニットのみが使用されること、又は第1ユニットが何らかの形で第2ユニットに先行しなければならないことを意味しない。
【0133】
「含む(including)」、「含有する(comprising)」、及びそれらの変形が本明細書又は特許請求の範囲で使用される場合、これらの用語は、「有する」という用語と同様に無制限である。さらに、本明細書又は特許請求の範囲で使用される「又は(or)」という用語は、排他的論理和ではない。
【0134】
当業者は、本開示の様々な態様が、新規で有用なプロセス、機械、製品、又は物質の組み合わせ、あるいはそれらに対する任意の新規で有用な改良含む、いくつかの特許性のあるカテゴリー又は状況で例示及び説明されてもよいことを理解できる。それに応じて、本開示の様々な態様は、完全にハードウェアによって、完全にソフトウェア(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)によって、又はハードウェアとソフトウェアの組み合わせによって実行されてもよい。上記のハードウェア又はソフトウェアは、「データブロック」、「モジュール」、「エンジン」、「ユニット」、「アセンブリ」、又は「システム」と呼ばれてもよい。さらに、本開示の各態様は、1つ又は複数のコンピュータ読み取り可能な媒体に位置し、かつコンピュータ読み取り可能なプログラムコードを含むコンピュータ製品として具体化されてもよい。
【0135】
本開示は、特定の用語を使用して、本開示の実施例を説明する。「1つの実施例」、「一実施例」、及び/又は「いくつかの実施例」などは、本開示の少なくとも1つの実施例に関連する特定の特徴、構造、又は特性を意味する。したがって、本明細書の異なる箇所で「一実施例」又は「1つの実施例」又は「一代替実施例」への2回以上の言及は、必ずしも同じ実施例を指すとは限らないことに留意されたい。また、本開示の1つ又は複数の実施例のいくつかの特定の特徴、構造又は特性は、適切に組み合わせることができる。
【0136】
別段の定義がない限り、本明細書で使用されるすべての用語(技術用語及び科学用語を含む)は、本開示が属する分野の当業者によって一般に理解されるものと同じ意味を有する。また、通常の辞書で定義されているような用語は、関連技術の文脈での意味と一致する意味を持つと解釈されるべきであり、本明細書で明示的に定義されていない限り、理想化又は高度に形式化された意味で解釈されるべきではないことも理解されたい。
【0137】
上記において本開示を詳細に説明してきたが、本開示が本明細書に記載された実施形態に限定されないことは当業者には明らかである。本開示は、特許請求の範囲の説明によって定義される本開示の精神及び範囲から逸脱することなく、修正及び変更された形態として実施することができる。したがって、本明細書に記載されていることは、例示の説明を目的としたものであり、本開示に限定的な意味を有するものではない。