(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-12-22
(54)【発明の名称】複合特性分類と共通局所化のためのニューラルネットワークモデルの学習方法及び装置
(51)【国際特許分類】
G06V 10/82 20220101AFI20221215BHJP
G06T 7/00 20170101ALI20221215BHJP
G06N 3/08 20060101ALI20221215BHJP
【FI】
G06V10/82
G06T7/00 350C
G06N3/08 140
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022524128
(86)(22)【出願日】2021-07-29
(85)【翻訳文提出日】2022-04-22
(86)【国際出願番号】 KR2021009939
(87)【国際公開番号】W WO2022025690
(87)【国際公開日】2022-02-03
(31)【優先権主張番号】10-2020-0095773
(32)【優先日】2020-07-31
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
(71)【出願人】
【識別番号】522164271
【氏名又は名称】ウェイセン インコーポレイテッド
(74)【代理人】
【識別番号】110000338
【氏名又は名称】特許業務法人HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】クム,ジス
(72)【発明者】
【氏名】オ,サンイル
(72)【発明者】
【氏名】キム,キョンナム
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096HA11
5L096JA22
5L096KA04
(57)【要約】
本発明の実施形態による画像の複合特性分類及び共通局所化のためのニューラルネットワークモデルの学習方法において、前記ニューラルネットワークモデルは、入力画像に対して畳み込みフィルタを用いて畳み込み演算を行う畳み込み層と、前記畳み込み層の出力に対してプーリング(pooling)を行うためのプーリング層と、複合特性が分類される複数のクラスにそれぞれ対応し、前記プーリング層の出力に対してクラス別重みwfc(Tt)を掛けた値を出力する複数のクラス別全結合層(fully connected layer)と、を含み、前記方法は、(a)入力画像を前記畳み込み層に入力するステップと、(b)前記畳み込み層の出力に基づいて複数のクラス別観察マップを演算するステップと、(c)前記複数のクラス別観察マップに基づいて、複数のクラスに共通する観察損失Lobsを演算するステップと、(d)観察損失Lobsに基づく損失を前記ニューラルネットワークモデルに逆伝播するステップと、を含む。
【特許請求の範囲】
【請求項1】
画像の複合特性分類及び共通局所化のためのニューラルネットワークモデルの学習方法であって、
前記ニューラルネットワークモデルは、
入力画像に対して畳み込みフィルタを用いて畳み込み演算を行う畳み込み層と、
前記畳み込み層の出力に対してプーリング(pooling)を行うためのプーリング層と、
複合特性が分類される複数のクラスにそれぞれ対応し、前記プーリング層の出力に対してクラス別重みw
fc(T
t)を掛けた値を出力する複数のクラス別全結合層(fully connected layer)と、を含み、
前記複数のクラスは、互いに異なる基準によって区別され、
前記複数のクラスそれぞれは、複数のクラス別特性に分類され、
前記ニューラルネットワークモデルは、前記クラス別全結合層の出力に応じて、前記複数のクラスそれぞれのクラス別特性に対するクラス別特性確率を提供することができ、
前記方法は、
(a)入力画像を前記畳み込み層に入力するステップと、
(b)前記畳み込み層の出力に基づいて、前記複数のクラスそれぞれに対するクラス別観察マップを演算するステップと、
(c)前記クラス別観察マップに基づいて、前記複数のクラスに共通する観察損失L
obsを演算するステップと、
(d)前記観察損失L
obsに基づく損失を前記ニューラルネットワークモデルに逆伝播するステップと、を含み、
前記(c)ステップは、
(c-1)前記クラス別観察マップに基づいて、前記複数のクラスに共通する共通観察マップを生成するステップと、
(c-2)前記共通観察マップ及び前記入力画像の対象領域を用いて前記観察損失L
obsを演算するステップと、
を含み、各ステップがコンピュータプロセッサによって行われる、ニューラルネットワークモデルの学習方法。
【請求項2】
前記共通観察マップは前記クラス別観察マップの平均値であることを特徴とする、請求項1に記載のニューラルネットワークモデルの学習方法。
【請求項3】
前記観察損失は、前記共通観察マップと前記入力画像の対象領域をそれぞれ横及び縦方向にプロジェクションした値同士を連結(concatenate)した値に対してコサイン距離を計算することにより算出されることを特徴とする、請求項1に記載のニューラルネットワークモデルの学習方法。
【請求項4】
前記(b)ステップで、前記クラス別観察マップは下記の式によって算出されることを特徴とする、請求項1に記載のニューラルネットワークモデルの学習方法。
【数1】
(式中、T
tはクラス、w
fc(T
t)はクラス別全結合層の重み、o
convは畳み込み層の出力、Cはチャネル数をそれぞれ示す。)
【請求項5】
前記ニューラルネットワークモデルは、
前記複数のクラス別全結合層にそれぞれ対応し、各クラス別全結合層の出力に応じてクラス別特性確率を演算する複数のクラス別分類器をさらに含むことを特徴とする、請求項1に記載のニューラルネットワークモデルの学習方法。
【請求項6】
前記(d)ステップは、
(d-1)前記複数のクラス別分類器それぞれの出力結果に基づいてクラス別分類損失L
cls(T
t)を演算するステップと、
(d-2)前記観測損失L
obs及び前記クラス別分類損失L
cls(T
t)に基づいてクラス別特性損失L(T
t)を演算するステップと、
(d-3)前記クラス別特性損失L(T
t)をクラス別に前記複数のクラス別分類器及び前記複数のクラス別全結合層に逆伝播するステップと、を含むことを特徴とする、請求項5に記載のニューラルネットワークモデルの学習方法。
【請求項7】
前記(d-2)ステップで、前記クラス別特性損失L(T
t)は下記の式によって算出されることを特徴とする、請求項6に記載のニューラルネットワークモデルの学習方法。
【数2】
(式中、0≦α≦1)
【請求項8】
前記(d)ステップは、
(d-4)複数の前記クラス別分類損失L
cls(T
t)と前記観察損失L
obsに基づいてマルチラベル分類損失L(T)を演算するステップと、
(d-5)前記マルチラベル分類損失L(T)を前記複数のクラス別分類器、前記複数のクラス別全結合層、前記プーリング層及び前記畳み込み層に逆伝播するステップと、をさらに含むことを特徴とする、請求項6に記載のニューラルネットワークモデルの学習方法。
【請求項9】
前記プーリング層は全体平均プーリング層(global average pooling layer)であることを特徴とする、請求項1に記載のニューラルネットワークモデルの学習方法。
【請求項10】
ニューラルネットワークモデルが記憶されるメモリと、
プロセッサと、
を含む、画像の複合特性分類及び共通局所化のためのニューラルネットワークモデルの学習装置であって、
前記ニューラルネットワークモデルは、
入力画像に対して畳み込みフィルタを用いて畳み込み演算を行う畳み込み層と、
前記畳み込み層の出力に対してプーリング(pooling)を行うためのプーリング層と、
複合特性が分類される複数のクラスにそれぞれ対応し、前記プーリング層の出力に対してクラス別重みw
fc(
Tt)を掛けた値を出力する複数のクラス別全結合層(fully connected layer)と、を含み、
前記複数のクラスは、互いに異なる基準によって区別され、
前記複数のクラスそれぞれは、複数のクラス別特性に分類され、
前記ニューラルネットワークモデルは、前記クラス別全結合層の出力に応じて、前記複数のクラスそれぞれのクラス別特性に対するクラス別特性確率を提供することができ、
前記プロセッサは、
入力画像を前記畳み込み層に入力し、前記畳み込み層の出力に基づいて、前記複数のクラスそれぞれに対する複数のクラス別観察マップを演算し、前記複数のクラス別観察マップに基づいて、前記複数のクラスに共通する共通観察マップを生成し、前記共通観察マップ及び前記入力画像の対象領域を用いて観察損失L
obsを演算し、前記観察損失L
obsに基づく損失を前記ニューラルネットワークモデルに逆伝播することを特徴とする、ニューラルネットワークモデルの学習装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複合特性分類と共通局所化のためのニューラルネットワークモデルの学習方法及び装置に関する。
【背景技術】
【0002】
図1の(a)は従来技術によるニューラルネットワークモデルを示す。
【0003】
図1の(a)を参照すると、ニューラルネットワークモデルは、入力層、1つ以上の畳み込み層、プーリング層、及び全結合層を含む。このようなニューラルネットワークモデルを用いて、ある入力が在るとき、A、B、C、Dの4つの特性のうちの1つの結果値、又は各特性に該当する確率を出力することができる。この時、結果値の総和は100パーセントであり得る。
【0004】
しかし、ある入力は、複数の結果が可能な複合特性を持つことができる。例えば、Aは男性、Bは女性の特性であり、Cは東洋人、Dは非東洋人の特性である場合、結果値としてAとCが同時に可能であり得る。
【0005】
ところが、従来のニューラルネットワークモデルによる場合、結果値の総和が100%となるように判断するため、このような複合特性が正しく反映され難い。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明の実施形態は、複合特性を正しく予測することができる、ニューラルネットワークモデルの学習方法及び装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の実施形態による画像の複合特性分類及び共通局所化のためのニューラルネットワークモデルの学習方法において、前記ニューラルネットワークモデルは、入力画像に対して畳み込みフィルタを用いて畳み込み演算を行う畳み込み層と、前記畳み込み層の出力に対してプーリング(pooling)を行うためのプーリング層と、複合特性が分類される複数のクラスにそれぞれ対応し、前記プーリング層の出力に対してクラス別重みwfc(Tt)を掛けた値を出力する複数のクラス別全結合層(fully connected layer)と、を含み、前記方法は、(a)入力画像を前記畳み込み層に入力するステップと、(b)前記畳み込み層の出力に基づいて複数のクラス別観察マップを演算するステップと、(c)前記複数のクラス別観察マップに基づいて、複数のクラスに共通する観察損失Lobsを演算するステップと、(d)前記観察損失Lobsに基づく損失を前記ニューラルネットワークモデルに逆伝播するステップと、を含む。
【0008】
前記(c)ステップは、(c-1)前記複数のクラス別観察マップに基づいて、前記複数のクラスに共通する共通観察マップを生成するステップと、(c-2)前記共通観察マップ及び前記入力画像の対象領域を用いて前記観察損失Lobsを演算するステップと、を含む。
【0009】
前記共通観察マップは、前記クラス別観察マップの平均値であり得る。
【0010】
前記観察損失は、前記共通観察マップと前記入力画像の対象領域をそれぞれ横及び縦方向にプロジェクションした値同士を連結(concatenate)した値に対してコサイン距離を計算することにより算出できる。
【0011】
前記(b)ステップで、前記クラス別観察マップは、下記の式によって算出できる。
【0012】
【0013】
(式中、Ttはクラス、wfc(Tt)はクラス別全結合層の重み、oconvは畳み込み層の出力、Cはチャネル数をそれぞれ示す。)
前記ニューラルネットワークモデルは、前記複数のクラス別全結合層にそれぞれ対応し、各クラス別全結合層の出力に応じてクラス別特性確率を演算する複数のクラス別分類器をさらに含むことができる。
【0014】
前記(d)ステップは、(d-1)前記複数のクラス別分類器それぞれの出力結果に基づいてクラス別分類損失Lcls(Tt)を演算するステップと、(d-2)前記観測損失Lobs及び前記クラス別分類損失Lcls(Tt)に基づいてクラス別特性損失L(Tt)を演算するステップと、(d-3)前記クラス別特性損失L(Tt)をクラス別に前記複数のクラス別分類器及び前記複数のクラス別全結合層に逆伝播するステップと、を含むことができる。
【0015】
前記(d-2)ステップで、前記クラス別特性損失L(Tt)は、下記の式によって算出できる。
【0016】
【0017】
(式中、0≦α≦1)
前記(d)ステップは、(d-4)複数の前記クラス別分類損失Lcls(Tt)と前記観察損失Lobsに基づいてマルチラベル分類損失L(T)を演算するステップと、(d-5)前記マルチラベル分類損失L(T)を前記複数のクラス別分類器、前記複数のクラス別全結合層、前記プーリング層及び前記畳み込み層に逆伝播するステップと、をさらに含むことができる。
【0018】
前記プーリング層は、全体平均プーリング層(global average pooling layer)であり得る。
【0019】
本発明の実施形態によるニューラルネットワークモデルの学習装置は、ニューラルネットワークモデルが記憶されるメモリと、プロセッサとを含む、画像の複合特性分類及び共通局所化のためのニューラルネットワークモデルの学習装置であって、前記ニューラルネットワークモデルは、入力画像に対して畳み込みフィルタを用いて畳み込み演算を行う畳み込み層と、前記畳み込み層の出力に対してプーリング(pooling)を行うためのプーリング層と、複合特性が分類される複数のクラスにそれぞれ対応し、前記プーリング層の出力に対してクラス別重みwfc(Tt)を掛けた値を出力する複数のクラス別全結合層(fully connected layer)と、を含み、前記プロセッサは、入力画像を前記畳み込み層に入力し、前記畳み込み層の出力に基づいて複数のクラス別観察マップを演算し、前記複数のクラス別観察マップに基づいて、複数のクラスに共通する観察損失Lobsを演算し、前記観察損失Lobsに基づく損失を前記ニューラルネットワークモデルに逆伝播する。
【発明の効果】
【0020】
本発明の実施形態によれば、複合特性を正しく分類することができる。
本発明の実施形態によれば、クラス間の関連性が反映できる。
本発明の実施形態によれば、複合特性間の共通局所化が実現できる。
【図面の簡単な説明】
【0021】
【
図1】
図1の(a)は従来技術による一対一モデルを示すものであり、
図1の(b)は比較例による一対一分類モデルを2つ使用したものを示すものであり、
図1の(c)は本発明の実施形態による一対多モデルを示すものである。
【
図2】本発明の実施形態によるニューラルネットワークモデル1の構造を示す図である。
【
図3】本発明の実施形態によるニューラルネットワークモデルの学習方法を示すフローチャートである。
【
図5】本発明の実施形態による観察損失の算出方法を説明するための図である。
【
図6】本発明の実施形態による観察損失の算出方法を説明するための図である。
【
図7】本発明の実施形態によるニューラルネットワークモデルの学習方法を示すフローチャートである。
【
図8】本発明の実施形態によるニューラルネットワークモデルの学習方法を示すデータのフローチャートである。
【
図9a】
図2のニューラルネットワークモデルにおける
図7及び
図8の各ステップに該当する部分を示すものである。
【
図9b】
図2のニューラルネットワークモデルにおける
図7及び
図8の各ステップに該当する部分を示すものである。
【
図9c】
図2のニューラルネットワークモデルにおける
図7及び
図8の各ステップに該当する部分を示すものである。
【
図9d】
図2のニューラルネットワークモデルにおける
図7及び
図8の各ステップに該当する部分を示すものである。
【
図9e】
図2のニューラルネットワークモデルにおける
図7及び
図8の各ステップに該当する部分を示すものである。
【
図9f】
図2のニューラルネットワークモデルにおける
図7及び
図8の各ステップに該当する部分を示すものである。
【
図9g】
図2のニューラルネットワークモデルにおける
図7及び
図8の各ステップに該当する部分を示すものである。
【
図9h】
図2のニューラルネットワークモデルにおける
図7及び
図8の各ステップに該当する部分を示すものである。
【
図9i】
図2のニューラルネットワークモデルにおける
図7及び
図8の各ステップに該当する部分を示すものである。
【
図9j】
図2のニューラルネットワークモデルにおける
図7及び
図8の各ステップに該当する部分を示すものである。
【
図10】本発明の実施形態に係るニューラルネットワークモデルの学習装置の構成を示す図である。
【発明を実施するための形態】
【0022】
発明者は自分の発明を最善の方法で説明するために用語の概念を適切に定義することができるという原則に即して、本明細書及び請求の範囲で使用された用語又は単語は、本発明の技術的思想に符合する意味と概念で解釈されるべきである。
【0023】
明細書全体において、ある部分がある構成要素を「含む」とするとき、これは、特に反対の記載がない限り、他の構成要素を除外するのではなく、他の構成要素をさらに含むことができることを意味する。また、ある構成要素が他の構成要素に「接続」、「伝送」、「送信」、「受信」又は「伝達」されるとするとき、これは、直接的に接続、伝送、送信、受信又は伝達される場合だけでなく、他の構成要素を介して間接的に接続、伝送、送信、受信又は伝達される場合も含む。また、明細書に記載された「…部」、「…器」、「モジュール」、「装置」などの用語は、少なくとも一つの機能又は動作を処理する単位を意味し、これは、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの組み合わせで実現できる。
【0024】
以下、図面を参照して本発明の具体的な実施形態について説明する。
【0025】
図1の(b)は比較例による一対一分類モデルを2つ使用したものを示すものであり、
図1の(c)は本発明の実施形態による一対多モデルを示すものである。
【0026】
図1において、AとBはクラスIに属する特性を示し、CとDはクラスIIに属する特性を示す。クラスIの分類基準とクラスIIの分類基準とは互いに異なり得る。このように、複数のクラスに属する特性を、本明細書では複合特性と呼ぶ。複合特性を有する入力は、複数の特性、すなわち各クラス別に特性を有することができる。
【0027】
図1の(b)を参照すると、2つの一対一分類モデルが使用される場合、特性AとBの予測確率の和は100パーセントであり、特性CとDの予測確率の和は100パーセントである。この場合、予測結果は正確であり得るが、2つのモデルを学習しなければならないので、計算量が増加することができる。また、2つのモデルが独立して学習されるので、クラス間の連関性が反映され難い。
【0028】
図1の(c)を参照すると、一対多モデルでは、一部の層、すなわち畳み込み層とプーリング層(pooling layer)がクラス間で共有され、全結合層はクラス別に提供される。このとき、全結合層がクラス別に提供されるため、特性AとBの予測確率の和は100%であり、特性CとDの予測確率の和は100%である。よって、クラスIでの予測結果とクラスIIでの予測結果がそれぞれ提供されるため、
図1の(a)に比べて正確な予測結果を得ることができる。また、畳み込み層がクラス間で共有されるため、
図1の(b)のモデルに比べて計算量を減少させながらもクラス間の連関性を反映させることができる。
【0029】
本発明の実施形態による画像の複合特性分類及び共通局所化のためのニューラルネットワークモデルの学習方法において、
前記ニューラルネットワークモデルは、
入力画像に対して畳み込みフィルタを用いて畳み込み演算を行う畳み込み層と、
前記畳み込み層の出力に対してプーリング(pooling)を行うためのプーリング層と、
複合特性が分類される複数のクラスにそれぞれ対応し、前記プーリング層の出力に対してクラス別重みwfc(Tt)を掛けた値を出力する複数のクラス別全結合層(fully connected layer)と、
を含み、
前記方法は、
(a)入力画像を前記畳み込み層に入力するステップと、
(b)前記畳み込み層の出力に基づいてクラス別観察マップを演算するステップと、
(c)前記クラス別観察マップに基づいて、複数のクラスに共通する観察損失Lobsを演算するステップと、
(d)観察損失Lobsに基づく損失を前記ニューラルネットワークモデルに逆伝播するステップと、を含む。
【0030】
図2は本発明の実施形態によるニューラルネットワークモデル1の構造を示す図である。
図2において、N
T個のクラスT
1、T
2、…T
t、…T
NTが存在し、クラスT
1には2つの特性が属し、クラスT
2には2つの特性が属し、クラスT
tにはn個の特性が属し、クラスT
NTには3つの特性が属すると仮定した。
【0031】
図2を参照すると、本発明の実施形態によるニューラルネットワークモデル1は、入力画像x
iに対して畳み込みフィルタを用いて畳み込み演算を行うための畳み込み層10と、前記畳み込み層10の出力o
convに対してプーリングを行うためのプーリング層20と、複合特性が分類される複数のクラスにそれぞれ対応し、前記プーリング層20の出力に対してクラス別重みw
fc(T
t)を掛けた値を出力する複数のクラス別全結合層30と、を含む。
【0032】
ニューラルネットワークモデル1は、前記複数のクラス別全結合層30にそれぞれ対応し、各クラス別全結合層30の出力に応じてクラス別特性確率を演算する複数のクラス別分類器40をさらに含むことができる。
畳み込み層10は、入力画像に対して複数の畳み込みフィルタを用いて畳み込み演算を行うことにより、特徴マップを抽出する。
図2に示すように、畳み込み演算は複数回行われてもよい。畳み込み層10の出力、すなわち特徴マップo
convは、高さ(H)、幅(W)、チャネル数(C)を有すると仮定した。
【0033】
プーリング層20は、畳み込み層10と全結合層30との間に位置し、特徴マップoconvの大きさを減少させて後述の全結合層30で必要な演算を減少させ、オーバーフィッティングを防止する役割をする。プーリング層20は、特徴マップoconvの各チャネルに対して平均値を出力する全体平均プーリング(global average pooling)を行うことができる。
【0034】
クラス別全結合層30は、プーリング層20の出力にクラス別重みwfc(T1)、wfc(T2)、・・・wfc(Tt)、・・・wfc(TNT)を掛けた値を出力する。このとき、クラス別重みwfc(T1)、wfc(T2)、...wfc(Tt)、...wfc(TNT)のそれぞれは、チャネル数に該当する複数の値であり得る。
【0035】
クラス別分類器40は、クラス別全結合層30にそれぞれ対応し、クラス別全結合層30の出力に応じてクラス別特性確率を演算する。
図2を参照すると、クラスT
1に該当する分類器は、クラスT
1に属する特性のそれぞれに該当する確率P
1(T
1)、P
2(T
1)を演算し、クラスT
2に該当する分類器は、クラスT
2に属する特性のそれぞれに該当する確率P
1(T
2)、P
2(T
2)を演算し、クラスT
tに該当する分類器は、クラスT
tに属する特性それぞれに該当する確率P
1(T
t)、P
2(T
t)、...P
n(T
t)を演算し、クラスT
NTに該当する分類器は、クラスT
NTに属する特性のそれぞれに該当する確率P
1(T
NT)、P
2(T
NT)、P
3(T
NT)を演算する。クラス別分類器40として、例えば、Softmax関数、Sigmoid関数などが用いられることができる。
【0036】
次に、
図3及び
図4を参照して、本発明の実施形態によるニューラルネットワークモデルの学習方法について説明する。
【0037】
図3は本発明の実施形態によるニューラルネットワークモデルの学習方法を示すフローチャートであり、
図4は
図3の学習方法を説明するための図である。本発明の実施形態によるニューラルネットワークモデルの学習方法は、
図2のニューラルネットワークモデルが使用される。
【0038】
図3を参照すると、まず、ニューラルネットワークモデルの畳み込み層に画像が入力される(S100)。入力画像のクラス別特性(複合特性)と対象領域は既に知られている。ここで、対象領域とは、入力画像の一部であって、クラス別特性の判断に大きな影響を及ぼす部分を意味する。例えば、
図4に示すように、入力画像が超音波画像であるとき、対象領域は、病変が現れた部分であり得る。対象領域は、複数のクラスに対して同一であってもよい。
【0039】
次に、畳み込み層の出力に基づいて複数のクラス別観察マップを演算する(S110)。
【0040】
観察マップは、分類活性化マップ(Cams Activation Map;CAM)とも呼ばれ、入力画像の各部分が分類結果にどれほど影響を及ぼしたかを示す。本実施形態において、観察マップはクラス別に演算される。
図4にクラス別観察マップの例示を示した。クラス別観察マップは、下記の式によって算出できる。
【0041】
【0042】
式中、Ttはクラス、wfc(Tt)はクラス別全結合層の重み、oconvは畳み込み層の出力、Cはチャネル数をそれぞれ示す。
【0043】
次に、複数のクラス別観察マップに基づいて、複数のクラスに共通する観察損失を演算する(S120)。
【0044】
実施形態によって、ステップS120は、複数のクラス別観察マップに基づいて、複数のクラスに共通する共通観察マップを生成するステップ(S121)と、共通観察マップ及び入力画像の対象領域を用いて観察損失を演算するステップ(S122)と、を含むことができる。観察損失は、入力画像の対象領域と共通観察マップとの差に基づいて演算できる。共通観察マップは、クラス別観察マップの平均値であり、下記の式によって算出できる。
【0045】
【0046】
ここで、
【0047】
【0048】
は前述したクラス別観察マップを示し、NTはクラスの数を示す。
【0049】
但し、これは一例であり、各クラスの観察マップの割合を異ならせるか、或いは全体クラスのうちの一部クラスの観察マップに基づいて共通観察マップを算出することもできる。
【0050】
算出された共通観察マップと入力画像の対象領域を用いて観察損失を演算する。
【0051】
例えば、観察損失は、下記の式によって算出できる。
【0052】
【0053】
ここで、
【0054】
【0055】
【0056】
は入力画像xiの対象領域を示し、
【0057】
【0058】
は入力画像xiの共通観察マップを示す。
【0059】
図5及び
図6は本発明の実施形態による観察損失の算出方法を説明するための図である。
【0060】
図5の(a)は入力画像の対象領域を縦方向に沿ってプロジェクションした値M
Hを示し、
図5の(b)は入力画像の対象領域を横方向に沿ってプロジェクションした値M
Vを示す。
【0061】
図5の(a)には、入力画像の対象領域に対してのみ例示を挙げて説明したが、共通観察マップに対しても同様に、横及び縦方向に沿ってプロジェクションした値が計算できる。
【0062】
図6の(a)は入力画像の対象領域を縦方向にプロジェクションした値をグラフで示すものであり、
図6の(b)は入力画像の対象領域を横方向にプロジェクションした値をグラフで示すものである。
図6の(c)は共通観察マップの対象領域を縦方向にプロジェクションした値をグラフで示すものであり、
図6の(d)は共通観察マップの対象領域を横方向にプロジェクションした値をグラフで示すものである。
【0063】
実施形態によって、観察損失は、入力画像の対象領域と共通観察マップをそれぞれ横及び縦方向にプロジェクションし、それらを連結(concatenate)した値に対してコサイン距離を計算することにより算出できる。
【0064】
すなわち、観察損失は、下記の式によって算出できる。
【0065】
【0066】
上記の式によれば、ピクセル単位の正確性よりも全体的な分布を反映することが可能である。
【0067】
次に、
図3を再び参照すると、観察損失に基づく損失をニューラルネットワークモデルに逆伝播する(S130)。
【0068】
上述したステップS100~ステップS130は、複数の入力画像に対して行われることができ、これによりニューラルネットワークモデルが学習され得る。
【0069】
本実施形態において、クラス別に観察マップを生成するが、観察損失は、複数のクラスに対して同様に適用される。これにより、複数のクラスに対して観察マップが同一になる効果、すなわち共通局所化の効果を得ることができる。
【0070】
図7は本発明の実施形態によるニューラルネットワークモデルの学習方法を示すフローチャートである。
【0071】
まず、ニューラルネットワークモデルの畳み込み層に画像が入力される(S200)。
【0072】
次に、ニューラルネットワークモデルからクラス別分類損失と観察損失が算出される(S210、S220)。
【0073】
クラス別分類損失は、各クラスに属する特性がどれほど正確に予測されたかを示す値であって、クラス別に算出される。クラス別分類損失は、複数のクラス別分類器それぞれの出力結果に基づいて演算されることができる。例えば、入力画像のクラス別特性と、クラス別分類器の出力であるクラス別特性確率(
図2のP
1(T
t)、P
2(T
t)、…P
n(T
t)を参照)の差異からクラス別分類損失が計算されることができる。
【0074】
クラス別分類損失は、下記の式によって計算できる。
【0075】
【0076】
ここで、
【0077】
【0078】
は入力画像xiのクラスTtに対するクラス別特性cの出力確率を示し、
Nxは学習画像数を示し、CTtはクラスTtに属するクラス別特性の数を示す。
【0079】
観察損失は、前述したのと同様なので、重複説明は省略する。
【0080】
次に、クラス別分類損失と観察損失に基づいてクラス別特性損失が演算される(S230)。
【0081】
クラス別特性損失は、観察損失とクラス別分類損失を反映した値である。前述したように、観察損失は複数のクラスに対して同一であるが、クラス別分類損失はクラスによって異なるため、クラス別特性損失はクラス別に異なる値を持つことができる。
【0082】
クラス別特性損失は、下記の式によって算出できる。
【0083】
【0084】
ここで、Lcls(Tt)はクラス別分類損失を示し、Lobsは観察損失を示し、0≦α≦1を満たす。
【0085】
次に、クラス別特性損失を、複数のクラス別分類器及び複数のクラス別全結合層にクラス別に逆伝播する(S240)。
【0086】
図2のニューラルネットワークモデルを参照すると、クラス別全結合層30及びクラス別分類器40は、クラス別分岐(branch)に該当する。つまり、クラス別特性損失は、ニューラルネットワークモデルのクラス別分岐に該当する部分にのみ逆伝播される。また、クラス別特性損失はクラス別に逆伝播される。具体的には、
図2を参照すると、クラスT
1の特性損失は、クラスT
1に該当する分類器40及び全結合層30に逆伝播され、クラスT
2の特性損失は、クラスT
2に該当する分類器40及び全結合層30に逆伝播され、クラスT
tの特性損失は、クラスT
tに該当する分類器40及び全結合層30に逆伝播され、クラスT
NTの特性損失は、クラスT
NTに該当する分類器40及び全結合層30に逆伝播されることができる。
【0087】
次に、マルチラベル分類損失が演算される(S250)。
【0088】
マルチラベル分類損失は、クラス別分類損失(S210参照)とは異なり、クラス別に演算されたクラス別分類損失を反映した値である。マルチラベル分類損失は、複数のクラス別分類損失と観察損失に基づいて演算できる。マルチラベル分類損失は、複数のクラスに対して同様に適用される。
【0089】
前記ステップS240の逆伝播によって複数のクラス別全結合層30のクラス別重みが調整され、これにより複数のクラス別分類損失及び観察損失も変更されることができる。マルチラベル分類損失は、変更された複数のクラス別分類損失と観察損失に基づいて算定できる。
【0090】
マルチラベル分類損失は、下記の式によって算出できる。
【0091】
【0092】
【0093】
ここで、
【0094】
【0095】
は、入力画像xiの複数のクラス全体に対するクラス別特性cの出力確率を示し、
Nxは学習画像数を示し、CTは複数のクラス全体に対するクラス別特性の数を示す。
【0096】
次に、マルチラベル分類損失をニューラルネットワークモデルの全域に逆伝播する(S260)。
【0097】
図2を参照すると、ニューラルネットワークモデルの全域は、複数のクラス別分類器40、複数のクラス別全結合層30、プーリング層20及び畳み込み層10を示す。これにより、ニューラルネットワークモデルのパラメータ値、例えば畳み込み層10の畳み込みフィルタ、クラス別全結合層30のクラス別重みなどが調整できる。
【0098】
上述したステップS200~ステップS260は、複数の入力画像に対して行われることができ、これによりニューラルネットワークモデルが学習され得る。
【0099】
次に、
図8及び
図9を参照して、本発明の実施形態によるニューラルネットワークモデルの学習のためのデータフ流れについて説明する。
【0100】
図8は本発明の実施形態によるニューラルネットワークモデルの学習方法を示すデータのフローチャートであり、
図9は
図2のニューラルネットワークモデルにおける
図6の各ステップに該当する部分を示すものである。
図8において、長方形はデータの処理を示し、平行四辺形はデータを示し。
【0101】
図8及び
図9の(a)を参照すると、まず、画像x
iがニューラルネットワークモデルに入力される(S300)。このとき、入力画像x
iのクラス別特性及び対象領域は既に知られている。
【0102】
ニューラルネットワークモデルは、
図2を参照して説明したように、畳み込み層10、プーリング層20、クラス別全結合層30及びクラス別分類器40を含む。
図8には1つのクラス別全結合層30及び1つのクラス別分類器40が示されているが、これらはクラスの数だけ備えられることができる。
【0103】
図8及び
図9の(b)に示すように、入力画像x
iが畳み込み層10を経ることにより、特性マップo
convが出力される。
【0104】
そして、
図8及び
図9の(c)を参照すると、畳み込み層10を経た入力画像は、ニューラルネットワークモデルの残りの部分、すなわちプーリング層20、クラス別全結合層30及びクラス別分類器40を経ることにより、クラス別特性確率P
n(T
t)が出力される。
【0105】
次に、
図8及び
図9の(d)を参照すると、クラス別特性確率P
n(T
t)と入力画像のクラス別特性に基づいてクラス別分類損失L
cls(T
t)が演算される(S310)。
一方、畳み込み層10の出力o
convとクラス別全結合層30の重みw
fc(T
t)に基づいてクラス別観察マップが算出される(S320)。
【0106】
次に、
図8及び
図9の(e)を参照すると、クラス別観察マップに基づいて共通観察マップ
【0107】
【0108】
を生成する(S330)。
その後、
図8及び
図9の(f)を参照すると、入力画像の対象領域
【0109】
【0110】
と共通観察マップ
【0111】
【0112】
に基づいて観察損失Lobsを演算する(S340)。
【0113】
次に、
図8及び
図9の(g)を参照すると、クラス別分類損失L
cls(T
t)と観察損失L
obsに基づいてクラス別特性損失L(T
t)を算出する(S350)。
【0114】
次いで、
図8及び
図9の(h)を参照すると、クラス別特性損失L(T
t)が学習終了条件を満たすか否かを判断し(S360)、満たさない場合(S360、NO)には、クラス別特性損失L(T
t)をクラス別分類器40及びクラス別全結合層30に逆伝播する(S370)。
【0115】
これにより、クラス別全結合層30のクラス別重みwfc(Tt)が調整され、クラス別全結合層10の処理、クラス別分類器40の処理、クラス別分類損失演算(S310)が再び行われてクラス別分類損失Lcls(Tt)が調整され、クラス別観察マップ演算(S320)、共通観察マップ演算(S330)及び観察損失演算(S340)が再び行われて観察損失Lobsが調整される。
【0116】
次に、
図8及び
図9の(i)を参照すると、マルチラベル分類損失が演算される(S380)。
【0117】
その後、
図8及び
図9の(j)を参照すると、マルチラベル分類損失L(T)が学習終了条件を満たすか否かを判断し(S390)、満たさない場合(S390、NO)には、マルチラベル分類損失L(T)をニューラルネットワークモデル全体、すなわちクラス別分類器40、クラス別全結合層30、プーリング層20及び畳み込み層10に逆伝播する(S400)。これにより、ニューラルネットワークモデルのパラメータが調整できる。
【0118】
図10は本発明の実施形態に係るニューラルネットワークモデルの学習装置1000の構成を示す図である。
【0119】
ニューラルネットワークモデルの学習装置1000は、ニューラルネットワークモデルが記憶されるメモリ1100及びプロセッサ1200を含む。
【0120】
メモリ1100に記憶されるニューラルネットワークモデルは、
図2を参照して既に説明した通りである。
【0121】
プロセッサ1200は、
図3~
図9を参照して説明したニューラルネットワークモデルの学習方法を行う。すなわち、プロセッサ1200は、入力画像を畳み込み層に入力し、畳み込み層の出力に基づいて複数のクラス別観察マップを演算し、複数のクラス別観察マップに基づいて、複数のクラスに共通する観察損失L
obsを演算し、前記観察損失L
obsに基づく損失をニューラルネットワークモデルに逆伝播する。
【0122】
以上、好適な実施形態を介して本発明について詳細に説明したが、本発明は、これに限定されるものではなく、本発明の技術的思想から逸脱することなく、種々な変更及び応用を加え得るのは、当該技術分野における通常の技術者にとって自明である。よって、本発明の真正な保護範囲は以下の請求の範囲によって解釈されるべきであり、それと同等の範囲内にあるすべての技術的思想は本発明の権利範囲に含まれるものと解釈されるべきである。
【国際調査報告】