特表2022-518322 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

特表2022-518322ソフトクロスエントロピー損失を用いたセマンティックセグメンテーション

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5A
5B
5C
5D
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2022-03-15

(54)【発明の名称】ソフトクロスエントロピー損失を用いたセマンティックセグメンテーション

(51)【国際特許分類】

G06N 3/08 20060101AFI20220308BHJP

G06T 7/00 20170101ALI20220308BHJP

G06N 20/00 20190101ALI20220308BHJP

【ＦＩ】

G06N3/08

G06T7/00 350C

G06N20/00

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2021525648

(86)(22)【出願日】2019-10-10

(85)【翻訳文提出日】2021-05-11

(86)【国際出願番号】 IB2019058664

(87)【国際公開番号】W WO2020099957

(87)【国際公開日】2020-05-22

(31)【優先権主張番号】62/758,781

(32)【優先日】2018-11-12

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】16/572,742

(32)【優先日】2019-09-17

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＺＩＧＢＥＥ

２．ＢＬＵＥＴＯＯＴＨ

(71)【出願人】

【識別番号】000002185

【氏名又は名称】ソニーグループ株式会社

(74)【代理人】

【識別番号】100092093

【弁理士】

【氏名又は名称】辻居幸一

(74)【代理人】

【識別番号】100109070

【弁理士】

【氏名又は名称】須田洋之

(74)【代理人】

【識別番号】100067013

【弁理士】

【氏名又は名称】大塚文昭

(74)【代理人】

【識別番号】100109335

【弁理士】

【氏名又は名称】上杉浩

(74)【代理人】

【識別番号】100120525

【弁理士】

【氏名又は名称】近藤直樹

(74)【代理人】

【識別番号】100151987

【弁理士】

【氏名又は名称】谷口信行

(72)【発明者】

【氏名】コジマタマキ

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA02

5L096AA06

5L096BA04

5L096DA02

5L096HA02

5L096HA11

5L096KA04

(57)【要約】

ソフトクロスエントロピー損失を用いたセマンティックセグメンテーションのためのシステム及び方法が提供される。システムは、マルチクラス分類タスクのためにセマンティックセグメンテーションネットワークの入力層に第１のカラー画像を入力する。セマンティックセグメンテーションネットワークは、第１の入力カラー画像に基づくセマンティックセグメンテーションネットワークの補助層の出力として補助ストライドで第１の特徴マップを生成する。システムは、生成された第１の特徴マップを補助層から抽出し、抽出された第１の特徴マップに基づいて、マルチクラス分類タスクの一連のクラスにわたるソフトラベルセットとしての確率マップを計算する。システムは、計算された確率マップと補助ストライドでのグラウンドトゥルース確率マップとの間の補助クロスエントロピー損失をさらに計算し、計算された補助クロスエントロピー損失に基づいてセマンティックセグメンテーションネットワークをマルチクラス分類タスクのためにトレーニングする。
【選択図】図５Ａ

【特許請求の範囲】

【請求項1】

回路を備えたシステムであって、前記回路は、
マルチクラス分類タスクのためにセマンティックセグメンテーションネットワークの入力層に第１のカラー画像を入力するように構成され、
前記セマンティックセグメンテーションネットワークは、前記入力された第１のカラー画像に基づく前記セマンティックセグメンテーションネットワークの補助層の出力として補助ストライドで第１の特徴マップを生成し、前記回路は、
前記生成された第１の特徴マップを前記補助層から抽出し、
前記抽出された第１の特徴マップに基づいて、前記マルチクラス分類タスクの一連のクラスにわたるソフトラベルセットとしての確率マップを計算し、
前記計算された確率マップと前記補助ストライドでのグラウンドトゥルース確率マップとの間の補助クロスエントロピー損失を計算し、
前記計算された補助クロスエントロピー損失に基づいて前記セマンティックセグメンテーションネットワークを前記マルチクラス分類タスクのためにトレーニングする、
ようにさらに構成される、ことを特徴とするシステム。

【請求項2】

前記セマンティックセグメンテーションネットワークは、エンコーダネットワークと、該エンコーダネットワークの出力に接続されたデコーダネットワークとを含み、
前記エンコーダネットワークは、前記第１のカラー画像を前記入力として初期ストライドで受け取り、第２の特徴マップを第１のストライドで出力し、
前記第１のストライドは前記初期ストライドの倍数であり、
前記デコーダネットワークは、前記第１のストライドの前記第２の特徴マップを受け取り、前記初期ストライドで最終スコアマップを逆出力する、
請求項１に記載のシステム。

【請求項3】

前記回路は、前記セマンティックセグメンテーションネットワークの性能測度に基づいて、前記セマンティックセグメンテーションネットワークの前記デコーダネットワークから前記補助層を選択するようにさらに構成される、
請求項２に記載のシステム。

【請求項4】

前記補助ストライドは、前記第１のカラー画像のサイズに対する前記第１の特徴マップのサイズの比率に対応し、
前記第１のストライドは、前記第１のカラー画像のサイズに対する前記第２の特徴マップのサイズの比率に対応する、
請求項２に記載のシステム。

【請求項5】

前記エンコーダネットワークは、入力層と、一連のＤｅｎｓｅブロックと、一連の遷移層と、ピラミッド空間プーリング層と、空間経路ブロックとを含み、
前記デコーダネットワークは、アップサンプリング層と、畳み込み層と、プーリング層と、スコアリング層と、出力層とを含み、
前記空間経路ブロックは、前記一連のＤｅｎｓｅブロックのうちの１つから分岐して、前記デコーダネットワークの前記プーリング層と逆融合する、
請求項２に記載のシステム。

【請求項6】

前記一連のＤｅｎｓｅブロックの各Ｄｅｎｓｅブロックは、第１のバッチ正規化層と、１×１の畳み込み層と、第２のバッチ正規化層と、３×３のＤｅｐｔｈ－ｗｉｓｅ（ＤＷ）分離可能畳み込み層と、１×１のＰｏｉｎｔ－ｗｉｓｅ（ＰＷ）分離可能畳み込み層と、連結層とを含む、
請求項５に記載のシステム。

【請求項7】

前記セマンティックセグメンテーションネットワークは、空間経路とコンテキスト経路とに分岐し、
前記空間経路及び前記コンテキスト経路は、前記セマンティックセグメンテーションネットワークの出力層の前に逆プーリングされ、
前記空間経路は、前記セマンティックセグメンテーションネットワークがトレーニングされている間に、前記セマンティックセグメンテーションネットワークの各ストライドでの前記第１のカラー画像の空間情報を維持し、
前記コンテキスト経路は、セマンティックセグメンテーションネットワークがトレーニングされている間に、各ストライドでの前記第１のカラー画像の意味的コンテキスト情報を維持する、
請求項１に記載のシステム。

【請求項8】

前記回路は、前記補助層の前の前記セマンティックセグメンテーションネットワークの１又は２以上の層の確率マップに基づいて、前記一連のクラスにわたるマルチラベル確率分布としての前記グラウンドトゥルース確率マップを前記補助ストライドで計算するようにさらに構成される、
請求項１に記載のシステム。

【請求項9】

前記回路は、
前記セマンティックセグメンテーションネットワークの出力層から、前記入力されたカラー画像に対する前記セマンティックセグメンテーションネットワークの出力に対応する最終スコアマップを抽出し、
前記抽出された最終スコアマップに基づいて最終クロスエントロピー損失を計算する、
ようにさらに構成される、請求項１に記載のシステム。

【請求項10】

前記計算される最終クロスエントロピー損失は、ヒストグラム重み付きソフトマックスクロスエントロピー損失である、
請求項９に記載のシステム。

【請求項11】

前記回路は、
前記計算された補助クロスエントロピー損失及び前記計算された最終クロスエントロピー損失に基づいて前記セマンティックセグメンテーションネットワークの全体的損失測度を推定し、
前記推定された全体的損失測度にさらに基づいて前記セマンティックセグメンテーションネットワークをトレーニングする、
ようにさらに構成される、請求項９に記載のシステム。

【請求項12】

前記セマンティックセグメンテーションネットワークの前記トレーニングは、前記推定される全体的損失測度が最小になるまで前記セマンティックセグメンテーションネットワークの異なる層の重みを更新することに対応する、
請求項１１に記載のシステム。

【請求項13】

前記マルチクラス分類タスクは、前記第１のカラー画像の各ピクセルを前記一連のクラスのうちの１つに分類することに対応する、
請求項１に記載のシステム。

【請求項14】

前記回路は、
前記トレーニング済みセマンティックセグメンテーションネットワークに第２のカラー画像を入力し、
前記トレーニング済みセマンティックセグメンテーションネットワークの出力層から、前記入力された第２のカラー画像の各ピクセルの分類結果を抽出し、
前記分類結果に基づいて、対応する一連の色で塗りつぶされた一連の領域を含む意味的にセグメント化された画像を生成する、
ようにさらに構成され、前記一連の領域の各領域は、一連のクラスのうちの特定のクラスに対応する、
請求項１に記載のシステム。

【請求項15】

電子装置であって、
セマンティックセグメンテーションネットワークの補助層の補助クロスエントロピー損失に基づいて予めトレーニングされた前記セマンティックセグメンテーションネットワークを記憶するように構成されたメモリと、
回路と、
を備え、前記回路は、
前記セマンティックセグメンテーションネットワークの入力層にカラー画像を入力し、
前記セマンティックセグメンテーションネットワークの出力層から、前記入力されたカラー画像の各ピクセルの分類結果を抽出し、
前記抽出された分類結果に基づいて、意味的にセグメント化された画像を生成する、
ように構成され、
前記意味的にセグメント化された画像は、対応する一連の色で塗りつぶされた一連の領域を含み、
前記一連の領域の各領域は、マルチクラス分類タスクのうちの特定のクラスに対応する、
ことを特徴とする電子装置。

【請求項16】

マルチクラス分類タスクのためにセマンティックセグメンテーションネットワークの入力層に第１のカラー画像を入力し、前記セマンティックセグメンテーションネットワークが、前記入力された第１のカラー画像に基づく前記セマンティックセグメンテーションネットワークの補助層の出力として補助ストライドで第１の特徴マップを生成するステップと、
前記第１の特徴マップを前記補助層から抽出するステップと、
前記抽出された第１の特徴マップに基づいて、前記マルチクラス分類タスクの一連のクラスにわたるソフトラベルセットとしての確率マップを計算するステップと、
前記計算された確率マップと前記補助ストライドでのグラウンドトゥルース確率マップとの間の補助クロスエントロピー損失を計算するステップと、
前記計算された補助クロスエントロピー損失に基づいて前記セマンティックセグメンテーションネットワークを前記マルチクラス分類タスクのためにトレーニングするステップと、
を含むことを特徴とする方法。

【請求項17】

前記補助層の前の前記セマンティックセグメンテーションネットワークの１又は２以上の層の確率マップに基づいて、前記一連のクラスにわたるマルチラベル確率分布としての前記グラウンドトゥルース確率マップを前記補助ストライドで計算するステップをさらに含む、
請求項１６に記載の方法。

【請求項18】

前記セマンティックセグメンテーションネットワークの出力層から、前記入力された第１のカラー画像に対する前記セマンティックセグメンテーションネットワークの出力に対応する最終スコアマップを抽出するステップと、
前記抽出された最終スコアマップに基づいて最終クロスエントロピー損失を計算するステップと、
をさらに含む、請求項１６に記載の方法。

【請求項19】

前記計算された補助クロスエントロピー損失及び前記計算された最終クロスエントロピー損失に基づいて前記セマンティックセグメンテーションネットワークの全体的損失測度を推定するステップと、
前記推定された全体的損失測度にさらに基づいて、前記セマンティックセグメンテーションネットワークを前記マルチクラス分類タスクに関してトレーニングするステップと、
をさらに含む、請求項１８に記載の方法。

【請求項20】

前記トレーニング済みセマンティックセグメンテーションネットワークに第２のカラー画像を入力するステップと、
前記トレーニング済みセマンティックセグメンテーションネットワークの出力層から、前記入力された第２のカラー画像の各ピクセルの分類結果としての最終スコアマップを抽出するステップと、
前記抽出された最終スコアマップに基づいて、対応する一連の色で塗りつぶされた一連の領域を含む意味的にセグメント化された画像を生成する、
ようにさらに構成され、前記一連の領域の各領域は、一連のクラスのうちの特定のクラスに対応する、
請求項１６に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

〔関連出願との相互参照／引用による組み入れ〕
本出願は、２０１８年１１月１２日に出願された米国仮特許出願第６２／７５８，７８１号に対する優先権を主張するものであり、この文献の内容は全体が引用により本明細書に組み入れられる。

【0002】

本開示の様々な実施形態は、機械学習及びコンピュータビジョンに関する。具体的には、本開示の様々な実施形態は、ソフトクロスエントロピー損失を用いたセマンティックセグメンテーションのためのシステム及び方法に関する。

【背景技術】

【0003】

セマンティックセグメンテーションはシーン理解の重要な要素の１つであり、個々のピクセルにセマンティックラベルを割り当てるタスクである。応用分野は、自動運転車、ドローン及び娯楽用ロボットなどの自律モバイルエージェント、並びに拡張現実装置及び監視と多岐にわたる。これらの応用分野は、効率的推論速度及び高解像度画像処理能力を必要とする。最近のセマンティックセグメンテーションの進歩は、視覚タスクの著しい発展を示している。しかしながら、リソース制約のあるコンピュータ環境、特に限られたメモリ及び計算リソース内で動作するモバイル環境では、高解像度画像に対して動作できる効率的なオールインワンモデルを取得することが依然として課題である。高解像度画像上で望ましい分類精度レベルを得るために、従来のセマンティックセグメンテーションモデルは、トレーニング時間中にパラメータサイズが大きくなるとともに非常に多くのメモリを占め、自律走行車のようなモバイルトレーニング環境にとっての有用性が低い。

【発明の概要】

【発明が解決しようとする課題】

【0004】

当業者には、説明したシステムと、本出願の残り部分において図面を参照しながら示す本開示のいくつかの態様とを比較することにより、従来の慣習的な手法のさらなる限界及び不利点が明らかになるであろう。

【課題を解決するための手段】

【0005】

少なくとも１つの図に関連して図示及び／又は説明し、特許請求の範囲にさらに完全に示すような、ソフトクロスエントロピー損失を用いたセマンティックセグメンテーションのためのシステム及び方法を提供する。

【0006】

全体を通じて同じ要素を同じ参照符号によって示す添付図面を参照しながら本開示の以下の詳細な説明を検討することにより、本開示のこれらの及びその他の特徴及び利点を理解することができる。

【図面の簡単な説明】

【0007】

【図1】本開示の実施形態による、入力画像フレームのセマンティックセグメンテーションのための環境を示す図である。

【図2】本開示の実施形態による、入力画像フレームのセマンティックセグメンテーションのための例示的なシステムのブロック図である。

【図3】本開示の実施形態による、入力画像フレームのセマンティックセグメンテーションのための例示的な電子装置のブロック図である。

【図4】本開示の実施形態による、セマンティックセグメンテーションネットワークをマルチクラス分類タスクのためにトレーニングする例示的な動作を示す図である。

【図5A】本開示の実施形態による、セマンティックセグメンテーションネットワークの例示的なアーキテクチャを示す図である。

【図5B】本開示の実施形態による、図５Ａの例示的なアーキテクチャにおける分岐ブロック及びアップサンプリング層を示す図である。

【図5C】本開示の実施形態による、図５Ａの例示的なアーキテクチャにおける分岐ブロック及びアップサンプリング層を示す図である。

【図5D】本開示の実施形態による、図５Ａの例示的なアーキテクチャにおける分岐ブロック及びアップサンプリング層を示す図である。

【図6】本開示の実施形態による、セマンティックセグメンテーションネットワークの別の例示的なアーキテクチャを示す図である。

【図7】本開示の実施形態による、図３の電子装置における図４のセマンティックセグメンテーションネットワークの例示的な実装を示す図である。

【図8】本開示の実施形態による、ソフトクロスエントロピー損失を用いたセマンティックセグメンテーションのための例示的な方法を示すフローチャートである。

【発明を実施するための形態】

【0008】

開示するソフトクロスエントロピー損失を用いたセマンティックセグメンテーションのためのシステム及び方法では、後述する実装を見出すことができる。本開示の例示的な態様は、セマンティックセグメンテーションネットワークの分類精度と簡潔さとの間のバランスを維持しながら、セマンティックセグメンテーションをリアルタイム推論に適するようにトレーニングするシステムを提供する。開示するシステムは、ソフトクロスエントロピー（ＣＥ）損失を補助損失として利用してセマンティックセグメンテーションネットワークのトレーニングを正則化し、トレーニング時間中のメモリ使用量を抑える。開示するシステムは、従来の分類タスクのハードラベル割り当てとは対照的に、各補助ストライド（ａｕｘｉｌｉａｒｙｓｔｒｉｄｅ）上の確率分布としてソフト割り当てラベル（ｓｏｆｔ－ａｓｓｉｇｎｅｄｌａｂｅｌｓ）を生成し、ソフトターゲット（ｓｏｆｔｔａｒｇｅｔ）に補助損失関数（ａｕｘｉｌｉａｒｙｌｏｓｓｆｕｎｃｔｉｏｎ）としてクロスエントロピーを適用する。ここで言うソフト割り当ては、特徴マップの各値に２進値の一方（０又は１）を割り当てる典型的なハード割り当てとは異なることができる。ソフト割り当てでは、各ソフト割り当てラベルが０～１の浮動小数点値であり、特徴マップのそれぞれの値のクラス確率（ｃｌａｓｓ－ｐｒｏｂａｂｉｌｉｔｙ）を符号化する。全てのソフト割り当てラベルは、マルチクラス分類タスクの一連のクラスにわたる確率マップ又は確率分布と呼ぶことができる。

【0009】

ソフトＣＥ損失を補助損失として使用することで、トレーニング時間中の勾配計算のためのメモリ使用量を大幅に抑えることができる。ソフトＣＥ補助損失がメモリを節約するので、セマンティックセグメンテーションネットワークのトレーニングのための入力としてさらに高解像度な画像を提供することができる。このことは、特に従来の方法がバッチサイズとメモリ空間との間のバランスを保つように入力画像をクロップしようと試みる際に、高解像度の意味的にセグメント化された画像を取得するのに役立つことができる。ソフトＣＥ損失の使用により、高解像度空間の勾配を記憶するために必要となり得るスコアマップ拡大の必要性を回避することができ、これによって少ないメモリ使用量で補助損失ストライド数の利用可能性を高めることを確実にすることができる。また、ソフトＣＥ損失の使用により、最近傍法を使用してラベルを補助ストライドにダウンサンプリングする必要性を回避することができ、これによって意味的コンテキスト情報の損失を防ぐこともできる。セマンティックセグメンテーションネットワークの軽量トレーニングは、リアルタイム推論及びマルチクラス分類タスクに適した、特にセマンティックセグメンテーションとインスタンスセグメンテーションとを組み合わせるパノプティックセグメンテーションタスク（ｐａｎｏｐｔｉｃｓｅｇｍｅｎｔａｔｉｏｎｔａｓｋ）に適した、高解像度画像入力に対して動作できるオールインワンモデルをもたらすことができる。

【0010】

図１は、本開示の実施形態による、入力画像フレームのセマンティックセグメンテーションのための環境を示す図である。図１には環境１００を示す。環境１００は、システム１０２と、画像取り込み装置１０４と、電子装置１０６と、通信ネットワーク１０８とを含む。システム１０２は、通信ネットワーク１０８を介して画像取り込み装置１０４及び電子装置１０６に通信可能に結合することができる。システム１０２は、例えばシステム１０２のメモリに記憶されたアプリケーションの一部としてセマンティックセグメンテーションネットワーク１１０を含むことができる。

【0011】

システム１０２は、セマンティックセグメンテーションネットワーク１１０をマルチクラス分類タスクのためにトレーニングするように構成できる好適なロジック、回路、インターフェイス及び／又はコードを含むことができる。セマンティックセグメンテーションネットワーク１１０は、トレーニングされると、入力画像フレームの各ピクセルをマルチクラス分類タスクの一連のクラスのうちの１つのクラスに分類することができる。また、セマンティックセグメンテーションネットワーク１１０は、トレーニングされると、行動の開始或いはリアルタイム又は近リアルタイム推論の生成のために意味的にセグメント化された画像フレームを必要とし得る用途のためにデプロイすることができる。一例として、システム１０２は、当業者に周知の複数の技術を使用して、複数の分散クラウドベースリソースとして実装することができる。システム１０２の他の実装例としては、以下に限定するわけではないが、車載電子制御ユニット（ＥＣＵ）、車載サーバ、ウェブ／クラウドサーバ、アプリケーションサーバ、メディアサーバ、家庭用電化（ＣＥ）製品、カメラ及び車両を挙げることができる。

【0012】

画像取り込み装置１０４は、画像取り込み装置１０４の視野（ＦＯＶ）領域の一連のカラー画像フレームを取り込むように構成できる好適なロジック、回路、インターフェイス及び／又はコードを含むことができる。取り込まれた一連のカラー画像フレームは、例えばセマンティックセグメンテーションネットワーク１１０をトレーニングするために、又は（例えば、ベンチマーキングのための）テスト環境におけるトレーニング済みセマンティックセグメンテーションネットワーク１１０への入力として、或いは自動運転車に関連する用途などの特定用途向けのデプロイにおいて使用することができる。

【0013】

限定ではなく一例として、画像取り込み装置１０４は、シーン及び／又はシーン内の関心物体に焦点を合わせるために、レンズ及びレンズ用アクチュエータなどの好適な光学機器を有することができる。画像取り込み装置１０４の実装例としては、以下に限定するわけではないが、デジタルカメラ、車載カメラ、ビデオカメラ、デジタル一眼レフ（ＤＳＬＲ）カメラ、業務用ビデオカメラ、及びドライブレコーダを挙げることができる。図１には、システム１０２及び画像取り込み装置１０４を２つの別個のエンティティとして示しているが、本開示はこのように限定されるものではない。従って、いくつかの実施形態では、本開示の範囲から逸脱することなく画像取り込み装置１０４の機能全体をシステム１０２に含めることもできる。

【0014】

電子装置１０６は、セマンティックセグメンテーションネットワーク１１０の出力を使用してリアルタイム又は近リアルタイム推論の生成、判断の実行又は予測結果の出力を行うアプリケーションエンジンの一部としてセマンティックセグメンテーションネットワーク１１０をデプロイするように構成できる好適なロジック、回路、インターフェイス及び／又はコードを含むことができる。セマンティックセグメンテーションネットワーク１１０は、システム１０２上でマルチクラス分類タスクのためにトレーニングされると、電子装置１０６上にデプロイすることができる。

【0015】

電子装置１０６の機能は、高速コンピュータ装置又はカメラなどのポータブル装置、及び／又はサーバなどの非ポータブル装置に実装することができる。電子装置１０６の例としては、以下に限定するわけではないが、車載ＥＣＵ、車載カメラ、デジタルカメラ、デジタルビデオカメラ、カメラ付き携帯電話、スマートフォン、仮想現実装置、ゲーム機、モバイル装置、又はハードウェアビデオプレーヤを挙げることができる。電子装置１０６の他の例としては、以下に限定するわけではないが、テレビ、家庭用娯楽システム、拡張現実装置、及び（スマートメガネなどの）スマートウェアラブルを挙げることができる。

【0016】

通信ネットワーク１０８は、システム１０２、画像取り込み装置１０４及び電子装置１０６が互いに通信できるようにする通信媒体を含むことができる。通信ネットワーク１０８の例としては、以下に限定するわけではないが、インターネット、クラウドネットワーク、ワイヤレスフィディリティー（Ｗi-Ｆi）ネットワーク、パーソナルエリアネットワーク（ＰＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、又はメトロポリタンエリアネットワーク（ＭＡＮ）を挙げることができる。環境１００内の様々な装置は、様々な有線及び無線通信プロトコルに従って通信ネットワーク１０８に接続するように構成することができる。このような有線及び無線通信プロトコルの例としては、以下に限定するわけではないが、伝送制御プロトコル及びインターネットプロトコル（ＴＣＰ／ＩＰ）、ユーザデータグラムプロトコル（ＵＤＰ）、ハイパーテキスト転送プロトコル（ＨＴＴＰ）、ファイル転送プロトコル（ＦＴＰ）、ＺｉｇＢｅｅ、ＥＤＧＥ、ＩＥＥＥ８０２．１１、ライトフィデリティ（Ｌｉ－Ｆｉ）、８０２．１６、ＩＥＥＥ８０２．１１ｓ、ＩＥＥＥ８０２．１１ｇ、マルチホップ通信、無線アクセスポイント（ＡＰ）、装置間通信、セルラー通信プロトコル、及びＢｌｕｅｔｏｏｔｈ（ＢＴ）通信プロトコルを挙げることができる。

【0017】

セマンティックセグメンテーションネットワーク１１０は、エンコーダ－デコーダアーキテクチャを有する多段式ニューラルネットワーク（ＮＮ）とすることができる。セマンティックセグメンテーションネットワーク１１０は、エンコーダネットワーク１１２を含むことができる。エンコーダネットワーク１１２は、入力カラー画像内のシーンの空間的及び意味的コンテキスト情報を特徴マップに符号化できる複数のＮＮ層１１２ａ．．．１１２ｎを含むことができる。エンコーダネットワーク１１２は、初期ストライドで入力カラー画像を受け取り、初期ストライドの倍数とすることができる第１のストライドで特徴マップを出力することができる。本明細書におけるストライドとは、入力カラー画像のサイズに対する特徴マップのサイズの比率を表す出力ストライドを意味することができる。例えば、１の初期ストライドでは、１０２４×１０２４ピクセルの解像度の入力カラー画像がエンコーダネットワーク１１２に提供される。エンコーダネットワーク１１２は、３２のストライドで入力カラー画像の特徴マップを出力することができる。特徴マップは、入力カラー画像内の空間的及び意味的コンテキスト情報を符号化することができる。３２のストライドでは、特徴マップのサイズが入力カラー画像のサイズの１／３２（すなわち、１／３２）になることができる。

【0018】

セマンティックセグメンテーションネットワーク１１０は、エンコーダネットワーク１１２の出力１１２ｎに接続できるデコーダネットワーク１１４をさらに含むことができる。デコーダネットワーク１１４は、エンコーダネットワーク１１２の出力１１２ｎから第１のストライドでの入力として特徴マップを受け取り、最終スコアマップを初期ストライドで逆出力することができる。具体的には、デコーダネットワーク１１４は、最終スコアマップのサイズが入力カラー画像のサイズと同じになるように特徴マップを初期ストライドに逆アップサンプリングすることができる。この時点で、入力カラー画像内の各ピクセルは最終スコアマップ内のスコア値に対応する。デコーダネットワーク１１４は、出力特徴マップを復号して最終スコアマップを出力できる複数のＮＮ層１１４ａ．．．１１４ｎを含むことができる。最終スコアマップは、マルチクラス分類タスクの異なるクラスに基づく入力カラー画像の各ピクセルのスコアを含むことができる。

【0019】

セマンティックセグメンテーションネットワーク１１０は、セマンティックセグメンテーションネットワーク１１０の各ＮＮ層が人工ニューロンをノードとして含む、人工ニューロンの計算ネットワーク又はシステムと呼ぶことができる。セマンティックセグメンテーションネットワーク１１０内の全てのノードの出力は、セマンティックセグメンテーションネットワーク１１０の先行又は後続するＮＮ層の少なくとも１つのノードに結合することができる。同様に、セマンティックセグメンテーションネットワーク１１０内の全てのノードの入力は、セマンティックセグメンテーションネットワーク１１０の先行又は後続するＮＮ層の少なくとも１つのノードに結合することができる。セマンティックセグメンテーションネットワーク１１０の最終層の（単複の）ノードは、少なくとも１つ前の層から入力を受け取ることができる。ＮＮ層の数、及び各ＮＮ層内のノードの数は、セマンティックセグメンテーションネットワーク１１０のハイパーパラメータから決定することができる。このようなハイパーパラメータは、カラー画像フレームのトレーニングデータセットに基づくセマンティックセグメンテーションネットワーク１１０のトレーニング前又はトレーニング中に設定することができる。

【0020】

セマンティックセグメンテーションネットワーク１１０内の各ノードは、セマンティックセグメンテーションネットワーク１１０がトレーニングされている間に調整できるパラメータセットを有する数学関数に対応することができる。これらのパラメータは、例えば重みパラメータ及び正則化パラメータなどを含むことができる。各ノードは、セマンティックセグメンテーションネットワーク１１０の他の層（例えば、前の層）内のノードからの１又は２以上の入力に基づいて、数学関数を使用して出力を計算することができる。

【0021】

セマンティックセグメンテーションネットワーク１１０は、例えばシステム１０２及び電子装置１０６などの処理装置が実行するソフトウェアプログラム、ソフトウェアプログラムのコード、ライブラリ、アプリケーション、スクリプト又はその他のロジック／命令などの電子データを含むことができる。これに加えて、又はこれとは別に、セマンティックセグメンテーションネットワーク１１０は、プロセッサ、（例えば、１又は２以上の動作の実行又は実行の制御を行う）マイクロプロセッサ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）又は特定用途向け集積回路（ＡＳＩＣ）などのハードウェアを使用して実装することもできる。いくつかの実施形態では、セマンティックセグメンテーションネットワーク１１０を、ハードウェア及びソフトウェアプログラムの両方の組み合わせを使用して実装することができる。

【0022】

動作時には、例えばセマンティック又はパノプティック画像セグメンテーションなどのマルチクラス分類タスクに基づいてセマンティックセグメンテーションネットワーク１１０をトレーニングするようにプロセスを初期化することができる。セマンティックセグメンテーションネットワーク１１０のトレーニングでは、セマンティックセグメンテーションネットワーク１１０の各ノードのパラメータセットのうちの１つ又は２つ以上を更新することができる。いくつかのトレーニング方法の例としては、以下に限定するわけではないが、勾配降下法、確率的勾配降下法、バッチ勾配降下法、勾配ブースト法、Ａｄａｍ及びメタヒューリスティクスを挙げることができる。

【0023】

プロセスの一部として、システム１０２は、セマンティックセグメンテーションネットワーク１１０の入力層１１２ａに第１のカラー画像を入力することができる。一例として、セマンティックセグメンテーションネットワーク１１０は、異なる複雑な状況における自律走行車制御のためにシーンの複雑な意味構造を理解するようにトレーニングすることができる。複雑な状況のうちの１つは、路上の走行可能エリアを発見し、又は歩道、地形、障害物、他の車、壁及び柱などを区別するタスクに関連することができる。

【0024】

セマンティックセグメンテーションネットワーク１１０は、例えば第１の入力カラー画像から空間情報及び意味的コンテキスト情報を抽出する独立経路を含むことができる。空間情報及びコンテキスト情報は、いずれも後でセマンティックセグメンテーションネットワーク１１０によって最終スコアマップが生成される前に融合することができる。セマンティックセグメンテーションネットワーク１１０は、第１の入力カラー画像に基づいて、セマンティックセグメンテーションネットワーク１１０の補助層１１６の出力として補助ストライドで第１の特徴マップを生成することができる。次に、システム１０２は、生成された第１の特徴マップを補助層１１６から抽出し、抽出された第１の特徴マップに基づいて、マルチクラス分類タスクの一連のクラスにわたるソフトラベルセットとしての確率マップを計算することができる。これらのソフトラベルセットは、クラスラベルとして２進数（０及び１）を含むハード割り当てラベルとは対照的に０～１の確率値を表す浮動小数点数を含むことができる。

【0025】

通常は、抽出された第１の特徴マップを第１の入力カラー画像のオリジナルストライドにアップサンプリングし、オリジナルストライドに記憶された全ての意味的コンテキスト情報を維持するために補助クロスエントロピー（ＣＥ）損失を使用することが必要となり得る。しかしながら、抽出された第１の特徴マップを拡大する場合には高解像度空間内の勾配を記憶することが必要になり、これによってトレーニングのためのメモリ効率が低くなり、補助ＣＥ損失を使用するためのストライド数が制限されてしまうことがある。一方で、最終スコアマップを補助ストライドにダウンサンプリングすると、意味的コンテキスト情報の一部が失われてしまうことがある。これらの問題を解決するために、システム１０２は、計算された確率マップと補助ストライドでのグラウンドトゥルース確率マップとの間の補助ＣＥ損失（ソフトＣＥ損失とも呼ばれる）を計算することができる。補助ＣＥ損失は、セマンティックセグメンテーションネットワーク１１０をトレーニングするプロセスの一部として計算することができ、オリジナルストライドの第１の入力カラー画像に記憶された全ての意味的コンテキスト情報を維持するのに役立つことができる。その後、システム１０２は、計算された補助クロスエントロピー損失に基づいて、セマンティックセグメンテーションネットワーク１１０をマルチクラス分類タスクのためにトレーニングすることができる。

【0026】

これに加えて、又はこれとは別に、システム１０２は、セマンティックセグメンテーションネットワーク１１０の出力層１１４ｎから最終スコアマップを抽出し、抽出された最終スコアマップに基づいて最終クロスエントロピー損失を計算することもできる。最終スコアマップは、入力カラー画像に対するセマンティックセグメンテーションネットワーク１１０の出力に対応することができる。計算された最終クロスエントロピー損失は、例えばヒストグラム重み付きソフトマックスクロスエントロピー損失（ｈｉｓｔｏｇｒａｍｗｅｉｇｈｔｅｄｓｏｆｔ－ｍａｘｃｒｏｓｓ－ｅｎｔｒｏｐｙｌｏｓｓ）とすることができる。システム１０２は、計算された補助クロスエントロピー損失及び計算された最終クロスエントロピー損失に基づいて、セマンティックセグメンテーションネットワーク１１０の全体的損失測度（ｇｌｏｂａｌｌｏｓｓ－ｍｅａｓｕｒｅ）を推定することができる。この推定された全体的損失測度に基づいてセマンティックセグメンテーションネットワーク１１０をトレーニングすることができる。具体的に言えば、セマンティックセグメンテーションネットワーク１１０のトレーニングは、推定された全体的損失測度が最小になるまでセマンティックセグメンテーションネットワーク１１０の異なる層の重みを更新することに対応することができる。

【0027】

セマンティックセグメンテーションネットワーク１１０は、トレーニングされると、好適な装置上でデプロイされる準備が整ったトレーニング済みセマンティックセグメンテーションネットワーク１１０と呼ぶこともできる。トレーニング後には、確率マップの計算及び補助ＣＥ損失の計算に関連する動作を実行する必要はなく、セマンティックセグメンテーションネットワーク１１０のみを使用して、セマンティックセグメンテーションネットワーク１１０への入力としてのカラー画像の分類結果を生成することができる。システム１０２は、トレーニング済みセマンティックセグメンテーションネットワーク１１０を独自のネットワーク上で独自の用途のためにデプロイすることができる。これに加えて、又はこれとは別に、システム１０２は、トレーニング済みセマンティックセグメンテーションネットワークを電子装置１０６などの他の外部装置上にデプロイすることもできる。

【0028】

本明細書では、例えばトレーニング済みセマンティックセグメンテーションネットワーク１１０をセマンティック画像セグメンテーションのために使用する例示的なシナリオについて説明する。システム１０２は、トレーニング済みセマンティックセグメンテーションネットワーク１１０に第２のカラー画像を入力した後に、トレーニング済みセマンティックセグメンテーションネットワーク１１０の出力層１１４ｎから第２の入力カラー画像の各ピクセルの分類結果を抽出することができる。限定ではなく一例として、この分類結果は、クラスの最大スコアインデックスを含むことができる。換言すれば、最大スコアインデックスは、第２のカラー画像のピクセル毎に、それぞれのピクセルの最大スコア（確率）を有する（分類タスクの一連のクラスＩＤ／ラベルのうちの）最終クラスＩＤを表すことができる。トレーニング済みセマンティックセグメンテーションネットワーク１１０は、それ自体が第２のカラー画像の確率マップを出力できるので、クラスの最大スコアインデックスの計算に基づいて分類結果を取得することができる。例えば、トレーニング済みセマンティックセグメンテーションネットワーク１１０の出力は、体積テンソルによって（［ｎｕｍ＿ｃｌａｓｓ（クラス数）×高さ×幅］で）表すことができる。２Ｄの最終クラスＩＤマップ又は最終スコアマップを取得するには、各ピクセルが特定のクラスＩＤ及びカラー値に割り当てられた入力カラー画像のサイズ（すなわち、高さ×幅（ピクセル単位））に出力を再形成する必要がある。このため、システム１０２は、体積テンソルにａｒｇｍａｘ演算を適用してクラスチャネルの最大スコアインデックスを抽出することができる。

【0029】

システム１０２は、分類結果に基づいて、対応する一連の色で塗りつぶされた一連の領域を含む意味的にセグメント化された画像を生成することができる。一連の領域の各領域は、一連のクラスのうちの特定のクラスに対応する。例えば、都市街路の画像を入力とする場合、意味的にセグメント化された画像は、車、建物及び道路などのような割り当てクラスに従ってそれぞれのピクセルが別様に色分けされた異なる領域を含むことができる。

【0030】

図２は、本開示の実施形態による、入力画像フレームのセマンティックセグメンテーションのための例示的なシステムのブロック図である。図２の説明は、図１の要素に関連して行う。図２には、システム１０２のブロック図２００を示す。システム１０２は、回路２０２と、メモリ２０４と、入力／出力（Ｉ／Ｏ）装置２０６と、ネットワークインターフェイス２０８と、アプリケーションインターフェイス２１０と、永続的データストレージ２１２とを含むことができる。システム１０２は、例えば半自律又は自律走行車における画像ベース判定のためのソフトウェアアプリケーションの一部としてセマンティックセグメンテーションネットワーク１１０を含むこともできる。回路２０２は、メモリ２０４、Ｉ／Ｏ装置２０６、ネットワークインターフェイス２０８、アプリケーションインターフェイス２１０、及び永続的データストレージ２１２に通信可能に結合することができる。１又は２以上の実施形態では、システム１０２が、例えば画像取り込み装置１０４などの１又は２以上の画像取り込み装置を介して画像／ビデオを取り込むための設備／機能を含むこともできる。

【0031】

回路２０２は、セマンティックセグメンテーションネットワーク１１０を入力カラー画像フレーム上のマルチクラス分類タスクのためにトレーニングするように構成できる好適なロジック、回路、インターフェイス及び／又はコードを含むことができる。セマンティックセグメンテーションネットワーク１１０は、トレーニングされると、ライブ／事前取り込みビデオフィードの画像フレームのリアルタイムセマンティック／パノプティック画像セグメンテーションのために他の電子装置（例えば、電子装置１０６）上又はシステム１０２上のいずれかにデプロイすることができる。回路２０２は、当業者に周知と思われる複数のプロセッサ技術に基づいて実装することができる。回路２０２の実装例は、グラフィックスプロセッシングユニット（ＧＰＵ）、縮小命令セットコンピューティング（ＲＩＳＣ）プロセッサ、特定用途向け集積回路（ＡＳＩＣ）プロセッサ、複合命令セットコンピューティング（ＣＩＳＣ）プロセッサ、マイクロコントローラ、人工知能（ＡＩ）アクセラレータチップ、コプロセッサ、中央処理装置（ＣＰＵ）、及び／又はこれらの組み合わせとすることができる。

【0032】

メモリ２０４は、回路２０２が実行できる命令を記憶するように構成できる好適なロジック、回路及び／又はインターフェイスを含むことができる。また、メモリ２０４は、セマンティックセグメンテーションネットワーク１１０のプログラムコード、及び／又はセマンティックセグメンテーションネットワーク１１０のプログラムコードを含むことができるソフトウェアアプリケーションを記憶するように構成することができる。メモリ２０４の実装例としては、以下に限定するわけではないが、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、電気的に消去可能なプログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、ハードディスクドライブ（ＨＤＤ）、固体ドライブ（ＳＳＤ）、ＣＰＵキャッシュ、及び／又はセキュアデジタル（ＳＤ）カードを挙げることができる。

【0033】

Ｉ／Ｏ装置２０６は、ユーザとシステム１０２との間のＩ／Ｏインターフェイスとして動作するように構成できる好適なロジック、回路及び／又はインターフェイスを含むことができる。Ｉ／Ｏ装置２０６は、システム１０２の異なる動作コンポーネントと通信するように構成できる様々な入力及び出力装置を含むことができる。Ｉ／Ｏ装置２０６の例としては、以下に限定するわけではないが、タッチ画面、キーボード、マウス、ジョイスティック、マイク、及びディスプレイ画面を挙げることができる。

【0034】

ネットワークインターフェイス２０８は、システム１０２の異なるコンポーネントが環境１００内の電子装置１０６などの他の装置と通信ネットワーク１０８を介して通信するのを容易にするように構成できる好適なロジック、回路、インターフェイス及び／又はコードを含むことができる。ネットワークインターフェイス２０８は、有線又は無線通信をサポートする既知の技術を実装するように構成することができる。ネットワークインターフェイス２０８のコンポーネントとしては、以下に限定するわけではないが、アンテナ、無線周波数（ＲＦ）トランシーバ、１又は２以上の増幅器、チューナ、１又は２以上の発振器、デジタルシグナルプロセッサ、コーダ－デコーダ（ＣＯＤＥＣ）チップセット、識別モジュール、及び／又はローカルバッファを挙げることができる。

【0035】

ネットワークインターフェイス２０８は、インターネット、イントラネット、及び／又は携帯電話ネットワーク、無線ローカルエリアネットワーク（ＬＡＮ）、パーソナルエリアネットワーク及び／又はメトロポリタンエリアネットワーク（ＭＡＮ）などの無線ネットワークなどのネットワークとの間でオフライン及びオンライン無線通信を介して通信するように構成することができる。無線通信は、グローバルシステムフォーモバイルコミュニケーション（ＧＳＭ）、拡張データＧＳＭ環境（ＥＤＧＥ）、広帯域符号分割多元接続（Ｗ－ＣＤＭＡ）、符号分割多元接続（ＣＤＭＡ）、ＬＴＥ、時分割多元接続（ＴＤＭＡ）、Ｂｌｕｅｔｏｏｔｈ、（ＩＥＥＥ８０２．１１、ＩＥＥＥ８０２．１１ｂ、ＩＥＥＥ８０２．１１ｇ、ＩＥＥＥ８０２．１１ｎ、及び／又は他のいずれかのＩＥＥＥ８０２．１１プロトコルなどの）ワイヤレスフィディリティー（Ｗｉ－Ｆｉ）、ボイスオーバーインターネットプロトコル（ＶｏＩＰ）、Ｗｉ－ＭＡＸ、モノのインターネット（ＩｏＴ）技術、マシンタイプ通信（ＭＴＣ）技術、電子メール用プロトコル、インスタントメッセージング及び／又はショートメッセージサービス（ＳＭＳ）などの複数の通信規格、プロトコル及び技術のうちのいずれかを使用することができる。

【0036】

アプリケーションインターフェイス２１０は、ユーザがシステム１０２と相互作用するための媒体として構成することができる。アプリケーションインターフェイス２１０は、ユーザによる設定及びシステム１０２の構成に従って変更できる動的インターフェイスを有するように構成することができる。いくつかの実施形態では、アプリケーションインターフェイス２１０が、システム１０２にインストールされた１又は２以上のアプリケーションのユーザインターフェイスに対応することができる。

【0037】

永続的データストレージ２１２は、回路２０２が実行できるプログラム命令、オペレーティングシステム、及び／又はログ及び特定用途向けデータベースなどの特定用途向け情報を記憶するように構成できる好適なロジック、回路及び／又はインターフェイスを含むことができる。永続的データストレージ２１２は、記憶されたコンピュータ実行可能命令又はデータ構造を保持又は有するためのコンピュータ可読記憶媒体を含むことができる。このようなコンピュータ可読記憶媒体は、回路２０２などの汎用又は専用コンピュータがアクセスできるいずれかの利用可能な媒体を含むことができる。

【0038】

限定ではなく一例として、このようなコンピュータ可読記憶媒体は、以下に限定するわけではないが、コンパクトディスクリードオンリメモリ（ＣＤ-ＲＯＭ）又はその他の光ディスクストレージ、磁気ディスクストレージ又はその他の磁気記憶装置（例えば、ハードディスクドライブ（ＨＤＤ））、フラッシュメモリデバイス（例えば、固体ドライブ（ＳＳＤ）、セキュアデジタル（ＳＤ）カード、その他の固体メモリデバイス）、又は特定のプログラムコードをコンピュータ実行可能命令又はデータ構造の形態で保持又は記憶するために使用できて汎用又は専用コンピュータがアクセスできる他のいずれかの記憶媒体を含む有形又は非一時的コンピュータ可読記憶媒体を含むことができる。コンピュータ可読記憶媒体の範囲にはこれらの組み合わせを含めることもできる。

【0039】

コンピュータ実行可能命令は、例えばシステム１０２に関連する特定の動作又は一連の動作を回路２０２に実行させるように構成された命令及びデータを含むことができる。図１に示すようなシステム１０２によって実行される機能又は動作は、回路２０２が実行することができる。回路２０２の動作については、例えば図４、図５Ａ、図５Ｂ、図５Ｃ及び図５Ｄに詳細に示す。

【0040】

図３は、本開示の実施形態による、入力画像フレームのセマンティックセグメンテーションのための例示的な電子装置のブロック図である。図３には、電子装置１０６のブロック図３００を示す。電子装置１０６は、回路３０２と、メモリ３０４と、Ｉ／Ｏ装置３０６と、ネットワークインターフェイス３０８と、アプリケーションインターフェイス３１０とを含むことができる。セマンティックセグメンテーションネットワーク１１０は、トレーニングされると、例えば半自律又は自律走行車のための別のソフトウェアアプリケーションの一部として電子装置１０６上にデプロイすることができる。回路３０２は、メモリ３０４、Ｉ／Ｏ装置３０６、ネットワークインターフェイス３０８、及びアプリケーションインターフェイス３１０に通信可能に結合することができる。少なくとも１つの実施形態では、電子装置１０６が、例えば画像取り込み装置１０４などの１又は２以上の画像取り込み装置を介して画像／ビデオを取り込むための設備／機能を含むこともできる。

【0041】

回路３０２は、セマンティックセグメンテーションネットワーク１１０が（例えば、ライブビデオフィードからの）入力カラー画像フレーム上でのマルチクラス分類タスクのためにトレーニングされた後にセマンティックセグメンテーションネットワーク１１０を実装するように構成できる好適なロジック、回路、インターフェイス及び／又はコードを含むことができる。回路３０２は、当業者に周知と思われる複数のプロセッサ技術に基づいて実装することができる。回路３０２の実装例は、車載ＥＣＵの（単複の）プロセッサとすることができる。回路３０２のさらなる実装例は、グラフィックスプロセッシングユニット（ＧＰＵ）、縮小命令セットコンピューティング（ＲＩＳＣ）プロセッサ、特定用途向け集積回路（ＡＳＩＣ）プロセッサ、複合命令セットコンピューティング（ＣＩＳＣ）プロセッサ、マイクロコントローラ、（単複の）人工知能（ＡＩ）アクセラレータチップ、コプロセッサ、中央処理装置（ＣＰＵ）、及び／又はこれらの組み合わせとすることができる。

【0042】

メモリ３０４は、回路３０２が実行できる命令を記憶するように構成できる好適なロジック、回路及び／又はインターフェイスを含むことができる。また、メモリ３０４は、セマンティックセグメンテーションネットワーク１１０の（単複の）補助層の補助クロスエントロピー（ＣＥ）損失に基づいて予めトレーニングされたセマンティックセグメンテーションネットワーク１１０を記憶するように構成することもできる。メモリ３０４は、セマンティックセグメンテーションネットワーク１１０のプログラムコード、及び／又はセマンティックセグメンテーションネットワーク１１０のプログラムコードを含むことができるソフトウェアアプリケーションを記憶することもできる。メモリ３０４の実装例としては、以下に限定するわけではないが、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、電気的に消去可能なプログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、ハードディスクドライブ（ＨＤＤ）、固体ドライブ（ＳＳＤ）、ＣＰＵキャッシュ、及び／又はセキュアデジタル（ＳＤ）カードを挙げることができる。

【0043】

Ｉ／Ｏ装置３０６は、ユーザと電子装置１０６との間のＩ／Ｏインターフェイスとして動作するように構成できる好適なロジック、回路及び／又はインターフェイスを含むことができる。Ｉ／Ｏ装置３０６は、電子装置１０６の異なる動作コンポーネントと通信するように構成できる様々な入力及び出力装置を含むことができる。Ｉ／Ｏ装置３０６の例としては、以下に限定するわけではないが、タッチ画面、キーボード、マウス、ジョイスティック、マイク、及びディスプレイ画面を挙げることができる。

【0044】

ネットワークインターフェイス３０８は、電子装置１０６の異なるコンポーネントが環境１００内の他の装置と通信ネットワーク１０８を介して通信するのを容易にするように構成できる好適なロジック、回路、インターフェイス及び／又はコードを含むことができる。ネットワークインターフェイス３０８は、有線又は無線通信をサポートする既知の技術を実装するように構成することができる。ネットワークインターフェイス３０８のコンポーネントとしては、以下に限定するわけではないが、アンテナ、無線周波数（ＲＦ）トランシーバ、１又は２以上の増幅器、チューナ、１又は２以上の発振器、デジタルシグナルプロセッサ、コーダ－デコーダ（ＣＯＤＥＣ）チップセット、識別モジュール、及び／又はローカルバッファを挙げることができる。

【0045】

ネットワークインターフェイス３０８は、インターネット、イントラネット、及び／又は携帯電話ネットワーク、無線ローカルエリアネットワーク（ＬＡＮ）、パーソナルエリアネットワーク及び／又はメトロポリタンエリアネットワーク（ＭＡＮ）などの無線ネットワークなどのネットワークとの間でオフライン及びオンライン無線通信を介して通信するように構成することができる。無線通信は、グローバルシステムフォーモバイルコミュニケーション（ＧＳＭ）、拡張データＧＳＭ環境（ＥＤＧＥ）、広帯域符号分割多元接続（Ｗ－ＣＤＭＡ）、符号分割多元接続（ＣＤＭＡ）、ＬＴＥ、時分割多元接続（ＴＤＭＡ）、Ｂｌｕｅｔｏｏｔｈ、（ＩＥＥＥ８０２．１１、ＩＥＥＥ８０２．１１ｂ、ＩＥＥＥ８０２．１１ｇ、ＩＥＥＥ８０２．１１ｎ、及び／又は他のいずれかのＩＥＥＥ８０２．１１プロトコルなどの）ワイヤレスフィディリティー（Ｗｉ－Ｆｉ）、ボイスオーバーインターネットプロトコル（ＶｏＩＰ）、Ｗｉ－ＭＡＸ、モノのインターネット（ＩｏＴ）技術、マシンタイプ通信（ＭＴＣ）技術、電子メール用プロトコル、インスタントメッセージング及び／又はショートメッセージサービス（ＳＭＳ）などの複数の通信規格、プロトコル及び技術のうちのいずれかを使用することができる。

【0046】

アプリケーションインターフェイス３１０は、ユーザが電子装置１０６と相互作用するための媒体として構成することができる。アプリケーションインターフェイス３１０は、ユーザによる設定及び電子装置１０６の構成に従って変更できる動的インターフェイスを有するように構成することができる。いくつかの実施形態では、アプリケーションインターフェイス３１０が、電子装置１０６にインストールされた１又は２以上のアプリケーションのユーザインターフェイスに対応することができる。例えば、アプリケーションインターフェイスは、自動運転車のマルチインフォメーションディスプレイ（ＭＩＤ）上に表示されて、ユーザが電子装置１０６によって処理された情報を視覚化できるようにすることができる。図１に示すような電子装置１０６によって実行される機能又は動作は、回路３０２が実行することができる。回路３０２の動作については、例えば図７に詳細に示す。

【0047】

図４は、本開示の実施形態による、セマンティックセグメンテーションネットワークをマルチクラス分類タスクのためにトレーニングする例示的な動作を示す図である。図４の説明は、図１、図２及び図３の要素に関連して行う。図４には、本明細書で説明するようにセマンティックセグメンテーションネットワーク４０２をマルチクラス分類タスクのためにトレーニングする一連の動作を示す図４００を示す。本明細書におけるマルチクラス分類タスクとは、入力画像フレームのセマンティックセグメンテーションのための密な分類タスク（ｄｅｎｓｅｃｌａｓｓｉｆｉｃａｔｉｏｎｔａｓｋ）、及び入力画像フレームの個々のピクセルにクラスラベルを割り当てるタスクとすることができる。セマンティックセグメンテーションネットワーク４０２は、図１のセマンティックセグメンテーションネットワーク４０２に対応することができ、例えば複数の段を有する完全畳み込みネットワーク（ｆｕｌｌｙｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋ：ＦＣＮ）アーキテクチャに基づいてモデル化することができる。以下の４０４～４１８の例示的な動作は、セマンティックセグメンテーションネットワーク４０２のトレーニングプロセスの詳細を明確に示すものである。以下の例示的な動作は、セマンティックセグメンテーションネットワーク４０２のトレーニングにおける補助ストライドでの補助損失の適用（例えば、セマンティックセグメンテーションネットワーク４０２の補助層の特徴マップのためのソフト割り当てラベルにわたる補助クロスエントロピー損失）も例示する。

【0048】

４０４において、データ取得動作を実行することができる。データ取得動作では、回路２０２が、一連のカラー画像を含むことができるトレーニングデータセットを取得することができる。トレーニングデータセットの例は、ディープニューラルネットワークを都市街路のシーンを理解するセマンティック画像セグメンテーションのためにトレーニングし、トレーニングされたディープニューラルネットワークの相対的性能及び精度をベンチマーク評価するために使用できる、都市街路の画像のデータセットとすることができる。図示のように、例えばトレーニングデータセット内の一連のカラー画像は、車、道路、歩行者、歩道、信号機及び照明設備などの都市建造及び物体を含むことができる都市街路シーンの第１のカラー画像４０４ａを含む。

【0049】

本明細書に示すように、セマンティックセグメンテーションネットワーク４０２は、エンコーダ－デコーダアーキテクチャに基づくことができ、エンコーダネットワーク４０２ａと、エンコーダネットワーク４０２ａの出力に接続されたデコーダネットワーク４０２ｂとを含むことができる。例えば、セマンティックセグメンテーションネットワーク４０２の例示的なブロックレベルアーキテクチャを図５に示す。上述した層／ブロックの詳細についても、例えば図５Ａ、図５Ｂ、図５Ｃ及び図５Ｄで詳細に取り扱う。

【0050】

回路２０２は、例えばセマンティック画像セグメンテーションタスクなどのマルチクラス分類タスクのために、セマンティックセグメンテーションネットワーク４０２の入力層に第１のカラー画像４０４ａを入力することができる。エンコーダネットワーク４０２ａは、第１のカラー画像４０４ａを初期ストライドで入力として受け取って特徴マップを出力することができる。出力特徴マップは、初期ストライドの倍数とすることができる第１のストライドのものとすることができる。本明細書におけるストライドとは、第１のカラー画像４０４ａのサイズに対する特徴マップサイズの比率を表す出力ストライドを意味することができる。例えば、２０４８ｘ１０２４のピクセルサイズの第１のカラー画像４０４ａの初期ストライドが「１」である場合、エンコーダネットワーク４０２ａの出力における３２のストライドは、出力特徴マップのサイズが６４ｘ３２（すなわち、第１のカラー画像４０４ａのサイズの１／３２）であることを示すことができる。

【0051】

回路２０２は、セマンティックセグメンテーションネットワーク４０２から補助層を選択することができる。選択された補助層は、セマンティックセグメンテーションネットワーク４０２のトレーニングにおいて最適なパラメータサイズ及び低いメモリ利用率を達成するように補助損失（すなわち、補助クロスエントロピー（ＣＥ）損失）を適用できる補助ストライド（例えば、１～３２）に対応することができる。少なくとも１つの実施形態では、セマンティックセグメンテーションネットワーク４０２の性能測度に基づいて、セマンティックセグメンテーションネットワーク４０２のデコーダネットワーク４０２ｂから補助層を選択することができる。例えば、表１に示すように、性能測度は、セマンティックセグメンテーションネットワーク４０２のトレーニングにおける異なるストライドで計算されたパラメータによるメモリ使用量に基づくことができる。表１に基づけば、補助ＣＥ損失は、［８、１６、３２］のストライドでセマンティックセグメンテーションネットワーク４０２のトレーニングのために好ましいのに対し、アップサンプリングスコア上のハードＣＥ損失は３２のストライドでしか持ちこたえられない場合がある。このことは、補助ＣＥ損失がセマンティックセグメンテーションネットワーク４０２の大きな入力サイズをサポートできることを示すことができる。

【0052】

表１におけるソフトＣＥ損失は、セマンティックセグメンテーションネットワーク４０２の補助層の特徴／スコアマップのためのソフト割り当てラベル（すなわち、０～１の確率分布）でのＣＥ損失を意味することができる。ハードＣＥ損失は、セマンティックセグメンテーションネットワーク４０２の補助層の特徴／スコアマップのためのハード割り当てラベル（すなわち、２進ラベル０及び１）でのＣＥ損失を意味することができる。

表１：セマンティックセグメンテーションネットワーク４０２のトレーニング中における補助損失メモリ使用量のアブレーション研究

表２：検証セット性能に影響する異なる補助損失戦略を有することについてのアブレーション研究

【0053】

なお、表１及び表２に示すデータは実験データにすぎないと解釈すべきであり、本開示を限定するものとして解釈すべきではない。例えば、表２に示すように、性能測度は、検証データセットによる％ｍｉｌｌｉｏｎＩｎｔｅｒｓｅｃｔｉｏｎ－ｏｖｅｒ－Ｕｎｉｏｎ（ＩｏＵ）に基づくことができる。表２には、検証データセットでのセマンティックセグメンテーションネットワーク４０２の性能に補助損失タイプがどのように影響を与え得るかを示す。表２にさらに示すように、ソフトＣＥ補助損失を複数の補助ストライドに適用した場合が最良に機能することができる。セマンティックセグメンテーションネットワーク４０２は、第１の入力カラー画像４０４ａに基づくセマンティックセグメンテーションネットワーク４０２の補助層（又は選択された補助層）の出力として補助ストライドで第１の特徴マップを生成することができる。

【0054】

４０６において、特徴マップ抽出動作を実行することができる。特徴マップ抽出動作では、回路２０２が、セマンティックセグメンテーションネットワーク４０２の補助層から、生成された第１の特徴マップを抽出することができる。例えば、表１及び表２に基づいて［４、８、１６、３２］のストライドでの補助層を選択することができ、このような補助層においてセマンティックセグメンテーションネットワーク４０２のトレーニングの一部として補助損失を適用できるように補助層からのそれぞれの特徴マップを抽出することができる。

【0055】

通常、トレーニングプロセスでは、大きなストライド特徴上で符号化された意味的コンテキストをより良好に学習するように、しばしば補助損失を使用してネットワークを正則化する。しかしながら、補助損失が多いと、メモリ（例えば、ＧＰＵメモリ）がトレーニングのために消費されて、バッチサイズ及び入力解像度が限られた範囲内に限定されてしまうことがある（すなわち、入力をクロップする必要がある）。表１に示すデータからはこのことも例示される。通常、大きなストライド（例えば、１６／３２）上では、グラウンドトゥルース確率マップを使用して補助損失を計算する。グラウンドトゥルース確率マップを（例えば、入力解像度の１／３２に）ダウンサンプリングした場合には、グラウンドトゥルース確率マップの空間情報が切り取られて豊富な空間コンテキスト情報が失われることがある。典型的な解決策としては、補助ストライドの特徴マップを初期ストライドに（すなわち、第１のカラー画像４０４ａの入力解像度／サイズに）アップサンプリングして補助損失を計算することが考えられるが、これによってメモリが犠牲になる場合がある。従って、特徴マップに２進値（０又は１）を割り当てるハード割り当てではなく、特徴マップにソフトラベルを割り当てるソフト割り当て（すなわち、０～１の浮動小数点値を含む確率分布）が好ましいと考えられる。

【0056】

４０８において、確率マップ計算動作を実行することができる。確率マップ計算動作では、回路２０２が、抽出された第１の特徴マップに基づいて、マルチクラス分類タスクの一連のクラスにわたるソフトラベルセットとしての確率マップを計算することができる。ソフトラベルセットは０～１の浮動小数点値を含むことができ、マルチクラス分類タスクの一連のクラスにわたる確率分布を表すことができる。例えば、セマンティックセグメンテーションネットワーク４０２の補助層から抽出された第１の特徴マップ内の値毎にそれぞれのソフトラベルを計算して割り当てることができる。それぞれのソフトラベルは０及び１の浮動小数点値とすることができ、一連のクラス（例えば、クラス０、１．．．２４）のうちの特定のクラス（例えば、クラスＩＤ）を表すことができる。表３に、例えば都市街路シーンの８つのクラス及び８つのクラスＩＤのリストを示す。

表３：都市街路シーンのクラス及びクラスＩＤ

【0057】

ソフト割り当ては、特徴マップの各値に２進値の一方を割り当てる典型的なハード割り当てとは異なることができる。結果として得られる補助ストライドの全てのソフトラベルを含む行列は、マルチクラス分類タスクの一連のクラスにわたる確率マップ又は確率分布と呼ぶことができる。

【0058】

回路２０２は、補助損失を計算できるまでに、一連のクラスにわたるマルチラベル確率分布としてのグラウンドトゥルース確率マップ４０８ａを補助ストライドで計算することもできる。補助ストライドでグラウンドトゥルース確率マップ４０８ａを取得する従来の手法としては、初期ストライド（例えば、１）のグラウンドトゥルースマップを補助ストライド（例えば、３２）にダウンサンプリングすることが考えられる。しかしながら、この手法では、元々第１のカラー画像４０４ａ内に存在する空間情報が切り取られて、このような豊富な空間コンテキスト情報が失われることがある。従って、セマンティックセグメンテーションネットワーク４０２の補助層の前の１又は２以上の層の確率マップに基づいてグラウンドトゥルース確率マップ４０８ａを計算することができる。例えば、補助層の前の１又は２以上の層の確率マップを平均プーリングしてグラウンドトゥルース確率マップ４０８ａを生成することができる。補助層の確率マップと同様に、グラウンドトゥルース確率マップ４０８ａもソフトラベルを含むことができ、グラウンドトゥルース確率のサイズは、補助ストライドの確率マップのサイズと同じであることができる。

【0059】

４１０において、補助損失計算動作を実行することができる。補助損失計算動作では、回路２０２が、補助ストライドでの計算された確率マップと、補助ストライドでの計算されたグラウンドトゥルース確率マップ４０８ａとの間の補助ＣＥ損失を計算することができる。本明細書では、分類タスクで通常見られるハードラベル割り当て（ハードＣＥ）を含むＣＥ損失との間で用語を区別するために、補助ＣＥ損失をソフトＣＥ損失と呼ぶこともある。一例として、ソフトＣＥ損失は、方程式（１）によって以下のように与えることができ、

ここでのｑ_i,c∈Ｑｊは、補助層によって生成される確率マップであり、
ｐ_i,c∈Ｐ_jは、ストライドｊにおいて平均プーリングされたグラウンドトゥルース確率マップであり、ｃ∈Ｋはクラスであり、ｉ∈Ｎはストライドでのピクセルである。

【0060】

方程式（１）を使用した計算は、コスト量ｐ、ｑに関するカルバックライブラー（ＫＬ）情報量を有することに相当することができ、この場合のｑは、ストライド内に存在するクラス間確率を符号化する。なお、各ｐｉ，ｃは、ワンホット２進マップ（ｏｎｅ－ｈｏｔｂｉｎａｒｙｍａｐ）でないこともできる。ソフトＣＥ損失は、たとえ大きなストライドを使用する場合であっても、各ストライド間に存在する意味的コンテキスト情報を学習することができる。ラベルのワンホット符号化によってストライド１の確率マップを作成した後に、各補助ストライドに平均プーリングすることができる。プーリング後、確率マップは、ソフトＣＥ損失を計算するために使用できるマルチラベル分布を含むことができる。これを使用して、セマンティックセグメンテーションネットワーク４０２がトレーニングされている間に、空間的及び意味的コンテキスト情報をメモリ効率の高い方法で維持することができる。ソフトＣＥ損失を適用すると、トレーニング時間中に勾配計算によって利用されるメモリを大幅に少なくすることができる。ソフトＣＥ損失はメモリ効率が高く、従ってセマンティックセグメンテーションネットワーク４０２のトレーニングのための入力として大きなサイズ（例えば、２０４８ピクセル×１０２４ピクセル）の画像を提供することができる。対照的に、従来の多くのトレーニング法は、バッチサイズとメモリ空間との間のバランスを保つために入力画像をクロップしようと試みる。また、表１及び表２を参照すると、ソフトＣＥ損失の使用は、特にセマンティックセグメンテーションネットワーク４０２のトレーニングにおけるバックプロパゲーション法（例えば、サイズを抑えた勾配パラメータ）のためのメモリ使用量を抑えるのに役立つこともできる。また、ソフトＣＥ損失は、セマンティックセグメンテーションネットワーク４０２のトレーニングにおける入力解像度の高い（例えば、高解像度（ＨＤ）フルＨＤ、又は４Ｋ解像度）入力、及びより良いＩｏＵ性能をもたらす大きなミニバッチサイズを可能にすることができる。

【0061】

４１２において、最終スコアマップ抽出を実行することができる。最終スコアマップ抽出では、回路２０２が、セマンティックセグメンテーションネットワーク４０２の出力層から最終スコアマップを抽出することができる。最終スコアマップは、第１の入力カラー画像４０４ａのセマンティックセグメンテーションネットワーク４０２の出力に対応することができ、デコーダネットワーク４０２ｂがエンコーダネットワーク４０２ａの初期ストライドで生成することができる。

【0062】

少なくとも１つの実施形態では、デコーダネットワーク４０２ｂのスコアリング層（例えば、図５Ａのスコアリング層５２６又は図６のスコアリング層６２２）が、補助ストライド（例えば、「４」）での初期スコアマップを計算することができる。この場合、スコアリング層は、セマンティックセグメンテーションネットワーク４０２の出力層に先行することができる。初期スコアマップのサイズは入力カラー画像（すなわち、第１のカラー画像４０４ａ）のサイズよりも小さく、従ってピクセル毎の分類では初期スコアマップを初期ストライド（例えば、１）にアップサンプリングする必要がある。従って、デコーダネットワーク４０２ｂは、出力層において、初期スコアマップを例えば「１」などの初期ストライドでの最終スコアマップにアップサンプリングすることができる。

【0063】

限定ではなく一例として、デコーダネットワーク４０２ｂは、エンコーダネットワーク４０２ａから第１のストライド（例えば、３２）で特徴マップを受け取り、最終スコアマップを初期ストライド（例えば、１）で逆出力することができる。本明細書では、最終スコアマップの解像度が、セマンティックセグメンテーションネットワーク４０２への入力として提供された第１のカラー画像４０４ａの解像度と同じものであることができる。換言すれば、最終スコアマップには、第１のカラー画像４０４ａ内のピクセル毎に対応するスコア値が存在することができる。

【0064】

４１４において、最終損失計算を実行することができる。最終損失計算では、回路２０２が、抽出された最終スコアマップに基づいて最終ＣＥ損失を計算することができる。例えば、最終ＣＥ損失は、抽出された最終スコアマップと初期ストライド（すなわち、１）でのグラウンドトゥルース確率マップとの間で計算されたヒストグラム重み付きソフトマックスクロスエントロピー損失（ｈｉｓｔｏｇｒａｍｗｅｉｇｈｔｅｄｓｏｆｔ－ｍａｘｃｒｏｓｓ－ｅｎｔｒｏｐｙｌｏｓｓ）とすることができる。

【0065】

４１６において、全体的損失測度推定を実行することができる。全体的損失測度推定では、回路２０２が、計算された補助クロスエントロピー損失及び計算された最終クロスエントロピー損失に基づいて、セマンティックセグメンテーションネットワーク４０２の全体的損失測度を推定することができる。例えば、セマンティックセグメンテーションネットワーク４０２をトレーニングするために、方程式（２）を使用してハイブリッド損失関数の値としての全体的損失測度を以下のように推定することができ、

ここでのＬは、ハイブリッド損失関数とすることができ、
Ｌ_Hard-CEは、４１２における最終スコアマップ上で計算されたヒストグラム重み付きソフトマックスＣＥ損失とすることができ、
Ｌ_Soft-CEjは、各補助ストライド上の（４１０における）補助損失とすることができ、
αは、線形結合のための係数パラメータとすることができる。

【0066】

４１８において、ネットワークトレーニング動作を実行することができる。ネットワークトレーニング動作では、回路２０２が、（４１０において推定された）補助ＣＥ損失に基づいてセマンティックセグメンテーションネットワーク４０２をマルチクラス分類タスクのためにトレーニングすることができる。また、いくつかの実施形態では、推定された全体的損失測度に基づいてセマンティックセグメンテーションネットワーク４０２をさらにトレーニングすることができる。例えば、セマンティックセグメンテーションネットワーク４０２のトレーニングでは、セマンティックセグメンテーションネットワーク４０２の異なる層のノード／ニューロンの重みを、推定される全体的損失測度が最小になるまで繰り返し更新することができる。すなわち、補助ＣＥ損失及び最終ＣＥ損失はいずれも繰り返し計算することができ、好適な最適化法に基づいて重みを更新することができる。例えば、ベータ＝［０．９，０．９９９］であり、初期学習率が１ｅ^３であり、ミニバッチサイズが１８であるＡｄａｍ最適化法を使用することができる。また、０．５／５０エポックのステップ学習率減衰係数（ｓｔｅｐｌｅａｒｎｉｎｇｒａｔｅｄｅｃａｙｆａｃｔｏｒ）を使用することもできる。

【0067】

従来のＦＣＮベースのネットワークとは対照的に、セマンティックセグメンテーションネットワーク４０２は、トレーニングされると、低い計算の複雑性、小さなパラメータサイズ、及びセマンティックセグメンテーションネットワーク４０２の出力における入力画像フレームの意味的コンテキストと空間コンテキストとの間のバランスをもたらすことができる。対照的に、従来のＦＣＮベースのネットワークは、（例えば、ギガ浮動小数点演算（ＧＦＬＯＰＳ）又は１００万ＩｏＵに関して）計算の複雑性が高く、トレーニングにおける勾配計算の数が多いことによってパラメータサイズが大きく、従来のセマンティックセグメンテーションネットワークの深層における意味的コンテキスト及び空間コンテキストの損失が多い。セマンティックセグメンテーションネットワーク４０２は、トレーニングされると、カラー画像に取り込まれたシーンの複雑な意味構造の理解、特にセマンティックセグメンテーションネットワーク４０２の出力を使用してリアルタイム推論を作成して複雑な状況において好適な判断を行う用途に適することができる。例えば、リアルタイム用途のうちの１つは自動運転車（ＳＤＶ）に関連することができる。ＳＤＶは、トレーニング済みセマンティックセグメンテーションネットワーク４０２をデプロイし、状況に応じた自律制御のためにシーンを理解するように、デプロイされたセマンティックセグメンテーションネットワーク４０２に周辺環境のリアルタイムビデオフィードを提供することができる。デプロイされたセマンティックセグメンテーションネットワーク４０２の出力を使用して走行可能エリア（占有マップ）を識別し、或いは歩道、地形、障害物、歩行者、他の車、壁及び柱などを区別することができる。図４では、４０４～４１８の個別の動作について説明しているが、本開示はこのように限定されるものではない。従って、いくつかの実施形態では、開示する実施形態の本質を損なうことなく、特定の実装に応じてこのような個別の動作をさらなる動作にさらに分割し、少ない動作に組み合わせ、又は削除することもできる。

【0068】

トレーニング後には、（４０８における）確率マップの計算及び（４１０における）補助ＣＥ損失の計算に関連する動作を実行する必要はなく、従ってトレーニング済みセマンティックセグメンテーションネットワーク４０２のデプロイ時にはこれらを一連の動作から除外することができる。このような場合には、トレーニング済みセマンティックセグメンテーションネットワーク４０２のみを使用して、トレーニング済みセマンティックセグメンテーションネットワーク４０２への入力としてのカラー画像の分類結果を生成することができる。

【0069】

図５Ａは、本開示の実施形態による、セマンティックセグメンテーションネットワークの例示的なアーキテクチャを示す図である。図５には、セマンティックセグメンテーションネットワーク５００の例示的なアーキテクチャを示す。セマンティックセグメンテーションネットワーク５００は、図１のセマンティックセグメンテーションネットワーク５００及び図４のセマンティックセグメンテーションネットワーク４０２の例とすることができる。

【0070】

この例示的なアーキテクチャには、入力層５０２と、畳み込み層５０４と、複数のバックボーンブロックを含むバックボーン層５０６とを示す。バックボーン層５０６の後には、空間ピラミッドプーリング層５０８、１×１の畳み込み／ＲｅＬＵ層５１０、第１のアップサンプリング層５１２、及び第１のプーリング層５１４が続くことができる。第１のプーリング層５１４の後には、ＲｅＬＵ６５１６、１×１の畳み込み／バッチ正規化層５１８、第２のアップサンプリング層５２０、及び第２のプーリング層５２２が続くことができる。また、第２のプーリング層５２２の後には、ＲｅＬＵ６５２４、スコアリング層５２６、及び出力層５２８が続くこともできる。また、例示的なアーキテクチャは、第１の分岐５３０及び第２の分岐５３２を含むこともできる。第１の分岐５３０及び第２の分岐５３２は、いずれもバックボーン層５０６の異なるブロックから分岐することができ、それぞれ第２のプーリング層５２２及び第１のプーリング層５１４において融合することができる。

【0071】

入力層５０２は、入力としてのカラー画像を受け取り、この入力を畳み込み層５０４に送ることができる。畳み込み層５０４は、畳み込み関数、ＲｅＬＵ、及びバッチ正規化関数を含むことができる。畳み込み層５０４の出力は、バックボーン層５０６に送ることができる特徴マップとすることができる。

【0072】

バックボーン層５０６の複数のバックボーンブロックは、ブロック１＆２、ブロック３、ブロック４、ブロック５、ブロック６及びブロック７を含むことができる。複数のバックボーンブロックは、密に接続された畳み込みニューラルネットワーク（以下、ｄｅｎｓｅ－ｎｅｔと呼ぶ）に基づくことができる。各バックボーンブロックは、一群の畳み込み層を含む少なくとも１つのＤｅｎｓｅブロックを含むことができ、一群の畳み込み層の各畳み込み層は、その前の全ての畳み込み層に接続することができる。また、各畳み込み層では、前の層からの特徴マップを連結することができる。Ｄｅｎｓｅブロックは、１又は２以上の畳み込み層間に１又は２以上の遷移層を含むこともできる。各遷移層は、バックボーン層５０６のそれぞれのＤｅｎｓｅブロック内の前の層からの活性化／特徴マップをダウンサンプリングすることができ、好適な活性化関数（例えば、ＲｅＬＵ）及びバッチ正規化関数を含むことができる。

【0073】

本明細書では、セマンティックセグメンテーションネットワーク５００が空間経路５３４とコンテキスト経路５３６とに分岐することができる。空間経路及びコンテキスト経路は逆プーリングすることができる。空間経路５３４は、セマンティックセグメンテーションネットワーク５００がトレーニングされている間に、セマンティックセグメンテーションネットワーク５００の各ストライドで入力カラー画像の空間情報を維持することができる。同様に、コンテキスト経路５３６は、セマンティックセグメンテーションネットワーク５００がトレーニングされている間に、各ストライドで入力カラー画像の意味的コンテキスト情報を維持することができる。

【0074】

空間特徴分岐：ブロック１＆２の第１の畳み込みブロックの出力は、空間特徴を抽出するために第１の分岐５３０に沿って分岐することができる。本明細書では、第１の分岐５３０が、セマンティックセグメンテーションネットワーク５００の空間経路５３４を形成することができる。第１の畳み込みブロックは、入力カラー画像から基本形状情報（ｐｒｉｍｉｔｉｖｅｓｈａｐｅｉｎｆｏｒｍａｔｉｏｎ）を取り込むことを学習する傾向にあるので、第１の分岐５３０は、後で第２のプーリング層５２２と融合できるように、例えば８のストライドで空間特徴を抽出することができる。

【0075】

コンテキスト抽出：大半が入力カラー画像の空間解像度に由来する計算の複雑性を抑えるために、Ｄｅｎｓｅブロック内の（単複の）遷移層は、（単複の）特徴マップがバックボーン層５０６の第１のＤｅｎｓｅブロックに提供される前に特徴マップを８などの高ストライドレベルにダウンサンプリングすることができる。本明細書では、複数のバックボーンブロックがセマンティックセグメンテーションネットワーク５００のコンテキスト経路５３６を形成することができる。各Ｄｅｎｓｅブロック内では、ダウンサンプリング段（すなわち、遷移層）の数を３倍ではなく２倍に低減することができ、ＤｅｎｓｅブロックのＤｅｎｓｅ層内の特徴マップに膨張畳み込み（ｄｉｌａｔｅｄｃｏｎｖｏｌｕｔｉｏｎ）を適用して、パラメータサイズ及び計算の複雑性を犠牲にすることなく受容野サイズを増加させることができる。

【0076】

空間ピラミッドプーリング：空間ピラミッドプーリング層５０８は、入力特徴空間のサイズを所与としてバックボーン層５０６からの（単複の）出力特徴マップの平均プーリングを複数のスケールにわたって自動的に実行できる動的空間プーリング法を採用することができる。例えば、最初に全体平均プーリング（ｇｌｏｂａｌａｖｅｒａｇｅｐｏｏｌｉｎｇ）を実行して、特徴の高さ及び幅［ｈ０，ｗ０］を、空間ピラミッドプーリング層５０８で使用されるフィルタカーネルのサイズ［ｋｈ₀，ｋｗ₀］に等しくすることができる。全体平均プーリングの後にダウンサイジング動作を行って、例えばフィルタカーネルを０．５倍だけダウンサイジングできる一方でフィルタカーネルの両側［ｋｈｊ，ｋｗｊ］を４以上にし、すなわちｋｈｊ＝４又はｋｗｊ＝４とすることができる。この動作は、動的ピラミッド空間プーリング（ＤＰＳＰ）と呼ぶことができる。ＤＰＳＰの後に、ＤＰＳＰからの出力特徴マップを１×１の畳み込み／ＲｅＬＵ層５１０に提供して、１×１の畳み込みの後にバッチ正規化及びＲｅＬＵ関数を適用することができる。空間ピラミッドプーリング層５０８の出力は、入力カラー画像の意味的コンテキスト情報を含むことができる。

【0077】

融合及びアップサンプリング：第２のプーリング層５２２では、（第２の分岐５３２及び空間ピラミッドプーリング層５０８からの）意味的コンテキスト情報を融合することができる。同様に、第１のプーリング層５１４では、第２のプーリング層５２２からの意味的コンテキスト情報を空間情報（又は第１の分岐５３０からの空間特徴）と融合することができる。第１の分岐５３０及び第２の分岐５３２の融合は、要素毎の和とその後のＲｅＬＵ関数とを使用して実行することができる。第１のプーリング層５１４の前には、第１のアップサンプリング層５１２を使用して空間ピラミッドプーリング層５０８の出力をアップサンプリングすることができる。同様に、第２のプーリング層５２２の前には、第２のアップサンプリング層５２０を使用して第１のプーリング層５１４の出力をさらにアップサンプリングすることができる。第１の分岐５３０の後にのみ、第１のプーリング層５１４の出力にバッチ正規化を含むさらなる１×１の畳み込みを適用して特徴サイズを次のストライドレベルに揃えることができる。第１のアップサンプリング層５１２の出力特徴マップサイズは、例えば１６８とすることができるのに対し、第２のアップサンプリング層５２０の出力特徴マップサイズは１２８である。空間情報を意味的コンテキスト情報と融合する第２のプーリング層５２２の後に、８のストライドにアップスケーリングされた第２のプーリング層５２２の出力特徴マップをスコアリング層５２６に送ることができ、スコアリング層５２６が入力カラー画像の最終スコアマップを出力することができる。

【0078】

なお、図５に示す例示的なアーキテクチャは、ソフトＣＥ損失に基づくトレーニングの例として示すものにすぎず、本開示の範囲を限定するものとして解釈すべきではない。開示した（図１及び図４の）セマンティックセグメンテーションネットワーク５００のトレーニングの動作は、エンコーダ－デコーダタイプのアーキテクチャを有するあらゆる任意のセマンティックセグメンテーションネットワークに適用することもできる。

【0079】

図５Ｂ、図５Ｃ及び図５Ｄは、本開示の実施形態による、図５Ａの例示的なアーキテクチャの分岐ブロック及びアップサンプリング層を示す図である。図５Ｂ、図５Ｃ及び図５Ｄの説明は、図１、図２、図３、図４及び図５Ａの要素に関連して行う。図５Ｂ、図５Ｃ及び図５Ｄには、図５Ａのセマンティックセグメンテーションネットワークの第１の分岐５３０、第２の分岐５３２及びアップサンプリング層５３８を示す。

【0080】

第１の分岐５３０は、３×３の畳み込みの後に、上限６のバッチ正規化／ＲｅＬＵ活性化、１×１の畳み込み、及びバッチ正規化を含むことができる。本明細書におけるＲｅＬＵは、正規化線形関数（ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｆｕｎｃｔｉｏｎ）を意味する。第１の分岐５３０は、入力カラー画像の空間特徴をセマンティックセグメンテーションネットワーク５００の空間経路５３４に沿った空間情報として抽出することができる。空間経路５３４は、セマンティックセグメンテーションネットワーク５００のトレーニング期間全体を通じて入力カラー画像に空間情報を維持するのに役立つことができる。

【0081】

第２の分岐５３２は、１×１の畳み込み及びバッチ正規化を含むことができる。アップサンプリング層５３８は、双一次アップサンプリング関数（ｂｉｌｉｎｅａｒｕｐ－ｓａｍｐｌｉｎｇｆｕｎｃｔｉｏｎ）、３×３のＤｅｐｔｈ－ｗｉｓｅ畳み込み、１×１のＰｏｉｎｔ－ｗｉｓｅ畳み込み、及びバッチ正規化を含むことができる。アップサンプリング層５３８は、特徴マップを好適なストライドでアップスケーリングするために使用される第１のアップサンプリング層５１２及び第２のアップサンプリング層５２０の両方に適用することができる。

【0082】

図６は、本開示の実施形態による、セマンティックセグメンテーションネットワークの別の例示的なアーキテクチャを示す図である。図６の説明は、図１、図２、図３、図４、図５Ａ、図５Ｂ、図５Ｃ及び図５Ｄの要素に関連して行う。図６には、セマンティックセグメンテーションネットワーク６００の例示的なアーキテクチャを示す。セマンティックセグメンテーションネットワーク６００は、図１のセマンティックセグメンテーションネットワーク１１０及び図４のセマンティックセグメンテーションネットワーク４０２の例とすることができる。

【0083】

この例示的なアーキテクチャでは、セマンティックセグメンテーションネットワーク６００が、エンコーダネットワーク６０２と、エンコーダネットワーク６０２の出力に接続されたデコーダネットワーク６０４とを含むことができる。エンコーダネットワーク６０２は、入力層６０６と、一連のＤｅｎｓｅブロック６０８と、一連の遷移層６１０とを含むことができる。エンコーダネットワーク６０２は、ピラミッド空間プーリング層６１２及び空間経路ブロック６１４を含むこともできる。

【0084】

デコーダネットワーク６０４は、アップサンプリング層６１６と、畳み込み層６１８と、プーリング層６２０と、スコアリング層６２２と、出力層６２４とを含むことができる。（第１の分岐５３０と同じ）空間経路ブロック６１４は、一連のＤｅｎｓｅブロック６０８のうちの１つから分岐することができ、デコーダネットワーク６０４のプーリング層６２０と逆融合することができる。一連のＤｅｎｓｅブロック６０８の各Ｄｅｎｓｅブロックは、第１のバッチ正規化層６０８ａと、１×１の畳み込み層６０８ｂと、第２のバッチ正規化層６０８ｃと、３×３のＤｅｐｔｈ－ｗｉｓｅ（ＤＷ）分離可能畳み込み層６０８ｄと、１×１のＰｏｉｎｔ－ｗｉｓｅ（ＰＷ）分離可能畳み込み層６０８ｅと、連結層６０８ｆとを含むことができる。セマンティックセグメンテーションネットワークブロック／層の詳細については既に図１、図５Ａ、図５Ｂ、図５Ｃ及び図５Ｄに示しており、従って説明を簡潔にするために本開示から省略する。

【0085】

図７は、本開示の実施形態による、図３の電子装置における図４のセマンティックセグメンテーションネットワークの例示的な実装を示す図である。図７の説明は、図１、図３、図４、図５Ａ、図５Ｂ、図５Ｃ、図５Ｄ及び図６の要素に関連して行う。図７には、電子装置１０６におけるセマンティックセグメンテーションネットワーク４０２の実装を示す図７００を示す。セマンティックセグメンテーションネットワーク４０２は、図１の４０４～４１８の動作に基づいてシステム１０２上でトレーニングされると、電子装置１０６などの様々な装置へのデプロイ準備が整うことができる。

【0086】

電子装置１０６上にデプロイされると、メモリ３０４は、セマンティックセグメンテーションネットワーク４０２を記憶して、セマンティックセグメンテーションネットワーク４０２の機能と、その出力を必要とし得るアプリケーションのプログラムコードとを統合することができる。応用例として、自動運転車における自律制御応用を挙げることができる。自律制御応用は、セマンティックセグメンテーションネットワーク４０２の出力に依拠してそのカメラセンサのＦＯＶ内の様々なオブジェクトタイプを区別し、リアルタイム／近リアルタイムで好適な運転判断又は推論を行うことができる。

【0087】

電子装置１０６では、回路３０２が、セマンティックセグメンテーションネットワーク４０２の入力層にカラー画像７０２を入力することができる。例えば、入力カラー画像７０２は、車、建物、照明設備、信号機、道路及び歩行者などを含む都市街路シーンに関連することができる。セマンティックセグメンテーションネットワーク４０２は、入力カラー画像７０２を受け取ると、初期ストライド（すなわち、１）でのスコアマップを含むことができる分類結果計算７０４を実行することができる。スコアマップのサイズは、入力カラー画像７０２のサイズと同じであることができるので、スコアマップ内の各点は、入力カラー画像７０２の対応するピクセルのクラスラベルを表すことができる。

【0088】

分類結果の計算は、クラスの最大スコアインデックスを含むことができる。トレーニング済みセマンティックセグメンテーションネットワーク４０２は、それ自体が入力カラー画像７０２の確率マップを出力できるので、クラスの最大スコアインデックスの計算に基づいて分類結果を取得することができる。例えば、トレーニング済みセマンティックセグメンテーションネットワーク４０２の出力は、体積テンソルによって（［ｎｕｍ＿ｃｌａｓｓ（クラス数）×高さ×幅］で）表すことができる。２Ｄの最終クラスＩＤマップ又は最終スコアマップを取得するには、各ピクセルが特定のクラスＩＤ及びカラー値に割り当てられた入力カラー画像７０２のサイズ（すなわち、高さ×幅（ピクセル単位））に出力を再形成する必要がある。このため、電子装置１０６は、体積テンソルにａｒｇｍａｘ演算を適用してクラスチャネルの最大スコアインデックスを抽出することができる。その後、回路３０２は、セマンティックセグメンテーションネットワーク４０２の出力層から入力カラー画像７０２の各ピクセルの分類結果を抽出することができる。分類結果は、例えば入力カラー画像７０２の解像度に等しい解像度のスコアマップを含むことができる。スコアマップの各値は、クラスラベルセットの中から入力カラー画像７０２の各ピクセルのクラスラベルを予測することができる。

【0089】

次に、回路３０２は、分類結果に基づいて、意味的にセグメント化された画像７０６を生成することができる。意味的にセグメント化された画像７０６は、対応する一連の色で塗りつぶされた一連の領域７０８を含むことができ、一連の領域７０８の各領域は、マルチクラス分類タスクの特定のクラスに対応することができる。例えば、意味的にセグメント化された画像７０６は、木のラベルに属するピクセルを１つの色によって示し、車のラベルに属するピクセルを別の色によって示し、建物のラベルに属するピクセルを別の色によって示す。

【0090】

図８は、本開示の実施形態による、ソフトクロスエントロピー損失を用いたセマンティックセグメンテーションのための例示的な方法を示すフローチャートである。図８には、フローチャート８００を示す。例示的な方法の動作は、例えば図２のシステム１０２などのいずれかのコンピュータシステムが実行することができる。フローチャート８００の動作は、８０２から開始して８０４に進むことができる。

【0091】

８０４において、セマンティックセグメンテーションネットワーク１１０の入力層に第１のカラー画像を入力することができる。少なくとも１つの実施形態では、回路２０２が、セマンティックセグメンテーションネットワーク１１０の入力層に第１のカラー画像を入力することができる。セマンティックセグメンテーションネットワーク１１０は、第１の入力カラー画像に基づくセマンティックセグメンテーションネットワーク１１０の補助層の出力として補助ストライドで第１の特徴マップを生成することができる。

【0092】

８０６において、セマンティックセグメンテーションネットワーク１１０の補助層から第１の特徴マップを抽出することができる。少なくとも１つの実施形態では、回路２０２が、セマンティックセグメンテーションネットワーク１１０の補助層から第１の特徴マップを抽出することができる。

【0093】

８０８において、抽出された第１の特徴マップに基づいて、マルチクラス分類タスクの一連のクラスにわたるソフトラベルセットとしての確率マップを計算することができる。少なくとも１つの実施形態では、回路２０２が、抽出された第１の特徴マップに基づいて、マルチクラス分類タスクの一連のクラスにわたるソフトラベルセットとしての確率マップを計算することができる。

【0094】

８１０において、計算された確率マップと補助ストライドでのグラウンドトゥルース確率マップとの間の補助ＣＥ損失を計算することができる。少なくとも１つの実施形態では、回路２０２が、計算された確率マップと補助ストライドでのグラウンドトゥルース確率マップとの間の補助ＣＥ損失を計算することができる。

【0095】

８１２において、計算された補助ＣＥ損失に基づいて、セマンティックセグメンテーションネットワーク１１０をマルチクラス分類タスクのためにトレーニングすることができる。少なくとも１つの実施形態では、回路２０２が、計算された補助ＣＥ損失に基づいて、セマンティックセグメンテーションネットワーク１１０をマルチクラス分類タスクのためにトレーニングすることができる。制御は、終了に進むことができる。

【0096】

本開示の様々な実施形態は、機械及び／又はコンピュータがソフトクロスエントロピー損失を用いたセマンティックセグメンテーションのためのシステムを動作させるために実行できる命令を記憶した非一時的コンピュータ可読媒体及び／又は記憶媒体を提供することができる。これらの命令は、マルチクラス分類タスクのためにセマンティックセグメンテーションネットワークの入力層に第１のカラー画像を入力することを含む動作を機械及び／又はコンピュータに実行させることができる。マルチクラス分類タスクは、第１のカラー画像の各ピクセルを一連のクラスのうちの１つに分類することに対応することができる。動作は、セマンティックセグメンテーションネットワークが、第１の入力カラー画像に基づいて、セマンティックセグメンテーションネットワークの補助層の出力として補助ストライドで第１の特徴マップを生成することをさらに含むことができる。動作は、生成された第１の特徴マップを補助層から抽出することと、抽出された第１の特徴マップに基づいて、マルチクラス分類タスクの一連のクラスにわたるソフトラベルセットとしての確率マップを計算することとをさらに含むことができる。動作は、計算された確率マップと補助ストライドでのグラウンドトゥルース確率マップとの間の補助クロスエントロピー損失を計算することと、計算された補助クロスエントロピー損失に基づいて、セマンティックセグメンテーションネットワークをマルチクラス分類タスクのためにトレーニングすることとをさらに含むことができる。

【0097】

本開示の様々な実施形態は、機械及び／又はコンピュータがソフトクロスエントロピー損失を用いたセマンティックセグメンテーションのための電子装置を動作させるために実行できる命令を記憶した非一時的コンピュータ可読媒体及び／又は記憶媒体を提供することができる。これらの命令は、セマンティックセグメンテーションネットワークの補助層の補助クロスエントロピー損失に基づいて予めトレーニングされたセマンティックセグメンテーションネットワークを記憶することを含む動作を機械及び／又はコンピュータに実行させることができる。動作は、セマンティックセグメンテーションネットワークの入力層にカラー画像を入力することと、セマンティックセグメンテーションネットワークの出力層から入力カラー画像の各ピクセルの分類結果を抽出することとをさらに含むことができる。動作は、抽出された最終スコアマップに基づいて、意味的にセグメント化された画像を生成することをさらに含むことができる。意味的にセグメント化された画像は、対応する一連の色で塗りつぶされた一連の領域を含むことができ、一連の領域の各領域は、マルチクラス分類タスクの特定のクラスに対応することができる。

【0098】

本開示のいくつかの実施形態は、ソフトクロスエントロピー損失を用いたセマンティックセグメンテーションのためのシステム及び方法において見出すことができる。本開示の様々な実施形態は、回路２０２（図２）を含むことができるシステム１０２（図１）を提供することができる。回路２０２は、マルチクラス分類タスクのためにセマンティックセグメンテーションネットワーク１１０の入力層１１０ａに第１のカラー画像を入力するように構成することができる。マルチクラス分類タスクは、第１のカラー画像の各ピクセルを一連のクラスのうちの１つに分類することに対応することができる。セマンティックセグメンテーションネットワーク１１０は、第１の入力カラー画像に基づくセマンティックセグメンテーションネットワーク１１０の補助層１１６の出力として補助ストライドで第１の特徴マップを生成することができる。回路２０２は、生成された第１の特徴マップを補助層１１６から抽出し、抽出された第１の特徴マップに基づいてマルチクラス分類タスクの一連のクラスにわたるソフトラベルセットとしての確率マップを計算するようにさらに構成することができる。その後、回路２０２は、計算された確率マップと補助ストライドでのグラウンドトゥルース確率マップとの間の補助クロスエントロピー損失を計算し、計算された補助クロスエントロピー損失に基づいてセマンティックセグメンテーションネットワーク１１０をマルチクラス分類タスクのためにトレーニングするようにさらに構成することができる。

【0099】

ある実施形態によれば、セマンティックセグメンテーションネットワーク１１０は、エンコーダネットワーク１１２と、エンコーダネットワーク１１２の出力１１２ｎに接続されたデコーダネットワーク１１４とを含むことができる。エンコーダネットワーク１１２は、第１のカラー画像を初期ストライドで入力として受け取り、第１のストライドで第２の特徴マップを出力することができる。第１のストライドは、初期ストライドの倍数とすることができる。デコーダネットワーク１１４は、第２の特徴マップを第１のストライドで受け取り、最終スコアマップを初期ストライドで逆出力することができる。

【0100】

ある実施形態によれば、回路２０２は、セマンティックセグメンテーションネットワーク１１０の性能測度に基づいて、セマンティックセグメンテーションネットワーク１１０のデコーダネットワーク１１４から補助層１１６を選択するようにさらに構成することができる。

【0101】

ある実施形態によれば、補助ストライドは、第１のカラー画像のサイズに対する第１の特徴マップのサイズの比率に対応することができる。同様に、第１のストライドは、第１のカラー画像のサイズに対する第２の特徴マップのサイズの比率に対応することができる。

【0102】

ある実施形態によれば、セマンティックセグメンテーションネットワーク１１０は、後でセマンティックセグメンテーションネットワーク１１０の出力層５２８の前に逆プーリングすることができる空間経路５３４とコンテキスト経路５３６とに分岐することができる。本明細書では、セマンティックセグメンテーションネットワーク１１０がトレーニングされている間に、空間経路５３４がセマンティックセグメンテーションネットワーク１１０の各ストライドでの第１のカラー画像の空間情報を維持することができる。同様に、コンテキスト経路５３６は、セマンティックセグメンテーションネットワーク１１０がトレーニングされている間に、各ストライドでの第１のカラー画像の意味的コンテキスト情報を維持することができる。

【0103】

ある実施形態によれば、エンコーダネットワーク６０２は、入力層６０６と、一連のＤｅｎｓｅブロック６０８と、一連の遷移層６１０と、ピラミッド空間プーリング層６１２と、空間経路ブロック６１４とを含むことができる。同様に、デコーダネットワーク６０４は、アップサンプリング層６１６と、畳み込み層６１８と、プーリング層６２０と、スコアリング層６２２とを含むことができる。空間経路ブロック６１４は、一連のＤｅｎｓｅブロック６０８のうちの１つから分岐することができ、デコーダネットワーク１１４のプーリング層６２０と逆融合することができる。ある実施形態によれば、一連のＤｅｎｓｅブロック６０８の各Ｄｅｎｓｅブロックは、第１のバッチ正規化層６０８ａと、１×１の畳み込み層６０８ｂと、第２のバッチ正規化層６０８ｃと、３×３のＤｅｐｔｈ－ｗｉｓｅ（ＤＷ）分離可能畳み込み層６０８ｄと、１×１のＰｏｉｎｔ－ｗｉｓｅ（ＰＷ）分離可能畳み込み層６０８ｅと、連結層６０８ｆとを含むことができる。

【0104】

ある実施形態によれば、回路２０２は、補助層１１６の前のセマンティックセグメンテーションネットワーク１１０の１又は２以上の層の確率マップに基づいて、一連のクラスにわたるマルチラベル確率分布としてのグラウンドトゥルース確率マップ４０８ａを補助ストライドで計算するようにさらに構成することができる。

【0105】

ある実施形態によれば、回路２０２は、セマンティックセグメンテーションネットワーク１１０の出力層１１４ｎから最終スコアマップを抽出するようにさらに構成することができる。最終スコアマップは、入力カラー画像に対するセマンティックセグメンテーションネットワーク１１０の出力に対応することができる。回路２０２は、抽出された最終スコアマップに基づいて最終クロスエントロピー損失を計算するようにさらに構成することができる。計算された最終クロスエントロピー損失は、例えばヒストグラム重み付きソフトマックスクロスエントロピー損失とすることができる。回路２０２は、計算された補助クロスエントロピー損失及び計算された最終クロスエントロピー損失に基づいてセマンティックセグメンテーションネットワーク１１０の全体的損失測度を推定し、推定された全体的損失測度にさらに基づいてセマンティックセグメンテーションネットワーク１１０をトレーニングするようにさらに構成することができる。セマンティックセグメンテーションネットワーク１１０のトレーニングは、推定される全体的損失測度が最小になるまでセマンティックセグメンテーションネットワーク１１０の異なる層の重みを更新することに対応することができる。

【0106】

ある実施形態によれば、回路２０２は、トレーニング済みセマンティックセグメンテーションネットワーク１１０に第２のカラー画像を入力し、トレーニング済みセマンティックセグメンテーションネットワーク１１０の出力層１１４ｎから第２の入力カラー画像の各ピクセルの分類結果を抽出するようにさらに構成することができる。その後、回路２０２は、分類結果に基づいて、対応する一連の色で塗りつぶされた一連の領域を含む意味的にセグメント化された画像を生成するようにさらに構成することができる。一連の領域の各領域は、一連のクラスのクラスに対応することができる。

【0107】

本開示は、ハードウェアで実現することも、又はハードウェアとソフトウェアとの組み合わせで実現することもできる。本開示は、少なくとも１つのコンピュータシステム内で集中方式で実現することも、又は異なる要素を複数の相互接続されたコンピュータシステムにわたって分散できる分散方式で実現することもできる。本明細書で説明した方法を実行するように適合されたコンピュータシステム又はその他の装置が適することができる。ハードウェアとソフトウェアとの組み合わせは、ロードされて実行された時に本明細書で説明した方法を実行するようにコンピュータシステムを制御することができるコンピュータプログラムを含む汎用コンピュータシステムとすることができる。本開示は、他の機能も実行する集積回路の一部を含むハードウェアで実現することができる。

【0108】

本開示は、本明細書で説明した方法の実装を可能にする全ての特徴を含み、コンピュータシステムにロードされた時にこれらの方法を実行できるコンピュータプログラム製品に組み込むこともできる。本文脈におけるコンピュータプログラムとは、情報処理能力を有するシステムに特定の機能を直接的に、或いはａ）別の言語、コード又は表記法への変換、ｂ）異なる内容形態での複製、のいずれか又は両方を行った後に実行させるように意図された命令セットの、あらゆる言語、コード又は表記法におけるあらゆる表現を意味する。

【0109】

いくつかの実施形態を参照しながら本開示を説明したが、当業者であれば、本開示の範囲から逸脱することなく様々な変更を行うことができ、同等物を代用することもできると理解するであろう。また、本開示の範囲から逸脱することなく、特定の状況又は内容を本開示の教示に適合させるように多くの修正を行うこともできる。従って、本開示は、開示した特定の実施形態に限定されるものではなく、添付の特許請求の範囲内に収まる全ての実施形態を含むように意図される。

【符号の説明】

【0110】

５００セマンティックセグメンテーションネットワーク
５０２入力層
５０４畳み込み層
５０６バックボーン層
５０８空間ピラミッドプーリング層
５１０１×１の畳み込み／ＲｅＬＵ
５１２第１のアップサンプリング層
５１４第１のプーリング層
５１６ＲｅＬＵ６
５１８１×１の畳み込み／ＢＮ
５２０第２のアップサンプリング層
５２２第２のプーリング層
５２４ＲｅＬＵ６
５２６スコアリング層
５２８出力層
５３０第１の分岐
５３２第２の分岐
５３４空間経路
５３６コンテキスト経路

【図1】