IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

特表2022-518322ソフトクロスエントロピー損失を用いたセマンティックセグメンテーション
<>
  • 特表-ソフトクロスエントロピー損失を用いたセマンティックセグメンテーション 図1
  • 特表-ソフトクロスエントロピー損失を用いたセマンティックセグメンテーション 図2
  • 特表-ソフトクロスエントロピー損失を用いたセマンティックセグメンテーション 図3
  • 特表-ソフトクロスエントロピー損失を用いたセマンティックセグメンテーション 図4
  • 特表-ソフトクロスエントロピー損失を用いたセマンティックセグメンテーション 図5A
  • 特表-ソフトクロスエントロピー損失を用いたセマンティックセグメンテーション 図5B
  • 特表-ソフトクロスエントロピー損失を用いたセマンティックセグメンテーション 図5C
  • 特表-ソフトクロスエントロピー損失を用いたセマンティックセグメンテーション 図5D
  • 特表-ソフトクロスエントロピー損失を用いたセマンティックセグメンテーション 図6
  • 特表-ソフトクロスエントロピー損失を用いたセマンティックセグメンテーション 図7
  • 特表-ソフトクロスエントロピー損失を用いたセマンティックセグメンテーション 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-03-15
(54)【発明の名称】ソフトクロスエントロピー損失を用いたセマンティックセグメンテーション
(51)【国際特許分類】
   G06N 3/08 20060101AFI20220308BHJP
   G06T 7/00 20170101ALI20220308BHJP
   G06N 20/00 20190101ALI20220308BHJP
【FI】
G06N3/08
G06T7/00 350C
G06N20/00
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021525648
(86)(22)【出願日】2019-10-10
(85)【翻訳文提出日】2021-05-11
(86)【国際出願番号】 IB2019058664
(87)【国際公開番号】W WO2020099957
(87)【国際公開日】2020-05-22
(31)【優先権主張番号】62/758,781
(32)【優先日】2018-11-12
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】16/572,742
(32)【優先日】2019-09-17
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.ZIGBEE
2.BLUETOOTH
(71)【出願人】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】100092093
【弁理士】
【氏名又は名称】辻居 幸一
(74)【代理人】
【識別番号】100109070
【弁理士】
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【弁理士】
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100109335
【弁理士】
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【弁理士】
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100151987
【弁理士】
【氏名又は名称】谷口 信行
(72)【発明者】
【氏名】コジマ タマキ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096BA04
5L096DA02
5L096HA02
5L096HA11
5L096KA04
(57)【要約】
ソフトクロスエントロピー損失を用いたセマンティックセグメンテーションのためのシステム及び方法が提供される。システムは、マルチクラス分類タスクのためにセマンティックセグメンテーションネットワークの入力層に第1のカラー画像を入力する。セマンティックセグメンテーションネットワークは、第1の入力カラー画像に基づくセマンティックセグメンテーションネットワークの補助層の出力として補助ストライドで第1の特徴マップを生成する。システムは、生成された第1の特徴マップを補助層から抽出し、抽出された第1の特徴マップに基づいて、マルチクラス分類タスクの一連のクラスにわたるソフトラベルセットとしての確率マップを計算する。システムは、計算された確率マップと補助ストライドでのグラウンドトゥルース確率マップとの間の補助クロスエントロピー損失をさらに計算し、計算された補助クロスエントロピー損失に基づいてセマンティックセグメンテーションネットワークをマルチクラス分類タスクのためにトレーニングする。
【選択図】図5A
【特許請求の範囲】
【請求項1】
回路を備えたシステムであって、前記回路は、
マルチクラス分類タスクのためにセマンティックセグメンテーションネットワークの入力層に第1のカラー画像を入力するように構成され、
前記セマンティックセグメンテーションネットワークは、前記入力された第1のカラー画像に基づく前記セマンティックセグメンテーションネットワークの補助層の出力として補助ストライドで第1の特徴マップを生成し、前記回路は、
前記生成された第1の特徴マップを前記補助層から抽出し、
前記抽出された第1の特徴マップに基づいて、前記マルチクラス分類タスクの一連のクラスにわたるソフトラベルセットとしての確率マップを計算し、
前記計算された確率マップと前記補助ストライドでのグラウンドトゥルース確率マップとの間の補助クロスエントロピー損失を計算し、
前記計算された補助クロスエントロピー損失に基づいて前記セマンティックセグメンテーションネットワークを前記マルチクラス分類タスクのためにトレーニングする、
ようにさらに構成される、ことを特徴とするシステム。
【請求項2】
前記セマンティックセグメンテーションネットワークは、エンコーダネットワークと、該エンコーダネットワークの出力に接続されたデコーダネットワークとを含み、
前記エンコーダネットワークは、前記第1のカラー画像を前記入力として初期ストライドで受け取り、第2の特徴マップを第1のストライドで出力し、
前記第1のストライドは前記初期ストライドの倍数であり、
前記デコーダネットワークは、前記第1のストライドの前記第2の特徴マップを受け取り、前記初期ストライドで最終スコアマップを逆出力する、
請求項1に記載のシステム。
【請求項3】
前記回路は、前記セマンティックセグメンテーションネットワークの性能測度に基づいて、前記セマンティックセグメンテーションネットワークの前記デコーダネットワークから前記補助層を選択するようにさらに構成される、
請求項2に記載のシステム。
【請求項4】
前記補助ストライドは、前記第1のカラー画像のサイズに対する前記第1の特徴マップのサイズの比率に対応し、
前記第1のストライドは、前記第1のカラー画像のサイズに対する前記第2の特徴マップのサイズの比率に対応する、
請求項2に記載のシステム。
【請求項5】
前記エンコーダネットワークは、入力層と、一連のDenseブロックと、一連の遷移層と、ピラミッド空間プーリング層と、空間経路ブロックとを含み、
前記デコーダネットワークは、アップサンプリング層と、畳み込み層と、プーリング層と、スコアリング層と、出力層とを含み、
前記空間経路ブロックは、前記一連のDenseブロックのうちの1つから分岐して、前記デコーダネットワークの前記プーリング層と逆融合する、
請求項2に記載のシステム。
【請求項6】
前記一連のDenseブロックの各Denseブロックは、第1のバッチ正規化層と、1×1の畳み込み層と、第2のバッチ正規化層と、3×3のDepth-wise(DW)分離可能畳み込み層と、1×1のPoint-wise(PW)分離可能畳み込み層と、連結層とを含む、
請求項5に記載のシステム。
【請求項7】
前記セマンティックセグメンテーションネットワークは、空間経路とコンテキスト経路とに分岐し、
前記空間経路及び前記コンテキスト経路は、前記セマンティックセグメンテーションネットワークの出力層の前に逆プーリングされ、
前記空間経路は、前記セマンティックセグメンテーションネットワークがトレーニングされている間に、前記セマンティックセグメンテーションネットワークの各ストライドでの前記第1のカラー画像の空間情報を維持し、
前記コンテキスト経路は、セマンティックセグメンテーションネットワークがトレーニングされている間に、各ストライドでの前記第1のカラー画像の意味的コンテキスト情報を維持する、
請求項1に記載のシステム。
【請求項8】
前記回路は、前記補助層の前の前記セマンティックセグメンテーションネットワークの1又は2以上の層の確率マップに基づいて、前記一連のクラスにわたるマルチラベル確率分布としての前記グラウンドトゥルース確率マップを前記補助ストライドで計算するようにさらに構成される、
請求項1に記載のシステム。
【請求項9】
前記回路は、
前記セマンティックセグメンテーションネットワークの出力層から、前記入力されたカラー画像に対する前記セマンティックセグメンテーションネットワークの出力に対応する最終スコアマップを抽出し、
前記抽出された最終スコアマップに基づいて最終クロスエントロピー損失を計算する、
ようにさらに構成される、請求項1に記載のシステム。
【請求項10】
前記計算される最終クロスエントロピー損失は、ヒストグラム重み付きソフトマックスクロスエントロピー損失である、
請求項9に記載のシステム。
【請求項11】
前記回路は、
前記計算された補助クロスエントロピー損失及び前記計算された最終クロスエントロピー損失に基づいて前記セマンティックセグメンテーションネットワークの全体的損失測度を推定し、
前記推定された全体的損失測度にさらに基づいて前記セマンティックセグメンテーションネットワークをトレーニングする、
ようにさらに構成される、請求項9に記載のシステム。
【請求項12】
前記セマンティックセグメンテーションネットワークの前記トレーニングは、前記推定される全体的損失測度が最小になるまで前記セマンティックセグメンテーションネットワークの異なる層の重みを更新することに対応する、
請求項11に記載のシステム。
【請求項13】
前記マルチクラス分類タスクは、前記第1のカラー画像の各ピクセルを前記一連のクラスのうちの1つに分類することに対応する、
請求項1に記載のシステム。
【請求項14】
前記回路は、
前記トレーニング済みセマンティックセグメンテーションネットワークに第2のカラー画像を入力し、
前記トレーニング済みセマンティックセグメンテーションネットワークの出力層から、前記入力された第2のカラー画像の各ピクセルの分類結果を抽出し、
前記分類結果に基づいて、対応する一連の色で塗りつぶされた一連の領域を含む意味的にセグメント化された画像を生成する、
ようにさらに構成され、前記一連の領域の各領域は、一連のクラスのうちの特定のクラスに対応する、
請求項1に記載のシステム。
【請求項15】
電子装置であって、
セマンティックセグメンテーションネットワークの補助層の補助クロスエントロピー損失に基づいて予めトレーニングされた前記セマンティックセグメンテーションネットワークを記憶するように構成されたメモリと、
回路と、
を備え、前記回路は、
前記セマンティックセグメンテーションネットワークの入力層にカラー画像を入力し、
前記セマンティックセグメンテーションネットワークの出力層から、前記入力されたカラー画像の各ピクセルの分類結果を抽出し、
前記抽出された分類結果に基づいて、意味的にセグメント化された画像を生成する、
ように構成され、
前記意味的にセグメント化された画像は、対応する一連の色で塗りつぶされた一連の領域を含み、
前記一連の領域の各領域は、マルチクラス分類タスクのうちの特定のクラスに対応する、
ことを特徴とする電子装置。
【請求項16】
マルチクラス分類タスクのためにセマンティックセグメンテーションネットワークの入力層に第1のカラー画像を入力し、前記セマンティックセグメンテーションネットワークが、前記入力された第1のカラー画像に基づく前記セマンティックセグメンテーションネットワークの補助層の出力として補助ストライドで第1の特徴マップを生成するステップと、
前記第1の特徴マップを前記補助層から抽出するステップと、
前記抽出された第1の特徴マップに基づいて、前記マルチクラス分類タスクの一連のクラスにわたるソフトラベルセットとしての確率マップを計算するステップと、
前記計算された確率マップと前記補助ストライドでのグラウンドトゥルース確率マップとの間の補助クロスエントロピー損失を計算するステップと、
前記計算された補助クロスエントロピー損失に基づいて前記セマンティックセグメンテーションネットワークを前記マルチクラス分類タスクのためにトレーニングするステップと、
を含むことを特徴とする方法。
【請求項17】
前記補助層の前の前記セマンティックセグメンテーションネットワークの1又は2以上の層の確率マップに基づいて、前記一連のクラスにわたるマルチラベル確率分布としての前記グラウンドトゥルース確率マップを前記補助ストライドで計算するステップをさらに含む、
請求項16に記載の方法。
【請求項18】
前記セマンティックセグメンテーションネットワークの出力層から、前記入力された第1のカラー画像に対する前記セマンティックセグメンテーションネットワークの出力に対応する最終スコアマップを抽出するステップと、
前記抽出された最終スコアマップに基づいて最終クロスエントロピー損失を計算するステップと、
をさらに含む、請求項16に記載の方法。
【請求項19】
前記計算された補助クロスエントロピー損失及び前記計算された最終クロスエントロピー損失に基づいて前記セマンティックセグメンテーションネットワークの全体的損失測度を推定するステップと、
前記推定された全体的損失測度にさらに基づいて、前記セマンティックセグメンテーションネットワークを前記マルチクラス分類タスクに関してトレーニングするステップと、
をさらに含む、請求項18に記載の方法。
【請求項20】
前記トレーニング済みセマンティックセグメンテーションネットワークに第2のカラー画像を入力するステップと、
前記トレーニング済みセマンティックセグメンテーションネットワークの出力層から、前記入力された第2のカラー画像の各ピクセルの分類結果としての最終スコアマップを抽出するステップと、
前記抽出された最終スコアマップに基づいて、対応する一連の色で塗りつぶされた一連の領域を含む意味的にセグメント化された画像を生成する、
ようにさらに構成され、前記一連の領域の各領域は、一連のクラスのうちの特定のクラスに対応する、
請求項16に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
〔関連出願との相互参照/引用による組み入れ〕
本出願は、2018年11月12日に出願された米国仮特許出願第62/758,781号に対する優先権を主張するものであり、この文献の内容は全体が引用により本明細書に組み入れられる。
【0002】
本開示の様々な実施形態は、機械学習及びコンピュータビジョンに関する。具体的には、本開示の様々な実施形態は、ソフトクロスエントロピー損失を用いたセマンティックセグメンテーションのためのシステム及び方法に関する。
【背景技術】
【0003】
セマンティックセグメンテーションはシーン理解の重要な要素の1つであり、個々のピクセルにセマンティックラベルを割り当てるタスクである。応用分野は、自動運転車、ドローン及び娯楽用ロボットなどの自律モバイルエージェント、並びに拡張現実装置及び監視と多岐にわたる。これらの応用分野は、効率的推論速度及び高解像度画像処理能力を必要とする。最近のセマンティックセグメンテーションの進歩は、視覚タスクの著しい発展を示している。しかしながら、リソース制約のあるコンピュータ環境、特に限られたメモリ及び計算リソース内で動作するモバイル環境では、高解像度画像に対して動作できる効率的なオールインワンモデルを取得することが依然として課題である。高解像度画像上で望ましい分類精度レベルを得るために、従来のセマンティックセグメンテーションモデルは、トレーニング時間中にパラメータサイズが大きくなるとともに非常に多くのメモリを占め、自律走行車のようなモバイルトレーニング環境にとっての有用性が低い。
【発明の概要】
【発明が解決しようとする課題】
【0004】
当業者には、説明したシステムと、本出願の残り部分において図面を参照しながら示す本開示のいくつかの態様とを比較することにより、従来の慣習的な手法のさらなる限界及び不利点が明らかになるであろう。
【課題を解決するための手段】
【0005】
少なくとも1つの図に関連して図示及び/又は説明し、特許請求の範囲にさらに完全に示すような、ソフトクロスエントロピー損失を用いたセマンティックセグメンテーションのためのシステム及び方法を提供する。
【0006】
全体を通じて同じ要素を同じ参照符号によって示す添付図面を参照しながら本開示の以下の詳細な説明を検討することにより、本開示のこれらの及びその他の特徴及び利点を理解することができる。
【図面の簡単な説明】
【0007】
図1】本開示の実施形態による、入力画像フレームのセマンティックセグメンテーションのための環境を示す図である。
図2】本開示の実施形態による、入力画像フレームのセマンティックセグメンテーションのための例示的なシステムのブロック図である。
図3】本開示の実施形態による、入力画像フレームのセマンティックセグメンテーションのための例示的な電子装置のブロック図である。
図4】本開示の実施形態による、セマンティックセグメンテーションネットワークをマルチクラス分類タスクのためにトレーニングする例示的な動作を示す図である。
図5A】本開示の実施形態による、セマンティックセグメンテーションネットワークの例示的なアーキテクチャを示す図である。
図5B】本開示の実施形態による、図5Aの例示的なアーキテクチャにおける分岐ブロック及びアップサンプリング層を示す図である。
図5C】本開示の実施形態による、図5Aの例示的なアーキテクチャにおける分岐ブロック及びアップサンプリング層を示す図である。
図5D】本開示の実施形態による、図5Aの例示的なアーキテクチャにおける分岐ブロック及びアップサンプリング層を示す図である。
図6】本開示の実施形態による、セマンティックセグメンテーションネットワークの別の例示的なアーキテクチャを示す図である。
図7】本開示の実施形態による、図3の電子装置における図4のセマンティックセグメンテーションネットワークの例示的な実装を示す図である。
図8】本開示の実施形態による、ソフトクロスエントロピー損失を用いたセマンティックセグメンテーションのための例示的な方法を示すフローチャートである。
【発明を実施するための形態】
【0008】
開示するソフトクロスエントロピー損失を用いたセマンティックセグメンテーションのためのシステム及び方法では、後述する実装を見出すことができる。本開示の例示的な態様は、セマンティックセグメンテーションネットワークの分類精度と簡潔さとの間のバランスを維持しながら、セマンティックセグメンテーションをリアルタイム推論に適するようにトレーニングするシステムを提供する。開示するシステムは、ソフトクロスエントロピー(CE)損失を補助損失として利用してセマンティックセグメンテーションネットワークのトレーニングを正則化し、トレーニング時間中のメモリ使用量を抑える。開示するシステムは、従来の分類タスクのハードラベル割り当てとは対照的に、各補助ストライド(auxiliary stride)上の確率分布としてソフト割り当てラベル(soft-assigned labels)を生成し、ソフトターゲット(soft target)に補助損失関数(auxiliary loss function)としてクロスエントロピーを適用する。ここで言うソフト割り当ては、特徴マップの各値に2進値の一方(0又は1)を割り当てる典型的なハード割り当てとは異なることができる。ソフト割り当てでは、各ソフト割り当てラベルが0~1の浮動小数点値であり、特徴マップのそれぞれの値のクラス確率(class-probability)を符号化する。全てのソフト割り当てラベルは、マルチクラス分類タスクの一連のクラスにわたる確率マップ又は確率分布と呼ぶことができる。
【0009】
ソフトCE損失を補助損失として使用することで、トレーニング時間中の勾配計算のためのメモリ使用量を大幅に抑えることができる。ソフトCE補助損失がメモリを節約するので、セマンティックセグメンテーションネットワークのトレーニングのための入力としてさらに高解像度な画像を提供することができる。このことは、特に従来の方法がバッチサイズとメモリ空間との間のバランスを保つように入力画像をクロップしようと試みる際に、高解像度の意味的にセグメント化された画像を取得するのに役立つことができる。ソフトCE損失の使用により、高解像度空間の勾配を記憶するために必要となり得るスコアマップ拡大の必要性を回避することができ、これによって少ないメモリ使用量で補助損失ストライド数の利用可能性を高めることを確実にすることができる。また、ソフトCE損失の使用により、最近傍法を使用してラベルを補助ストライドにダウンサンプリングする必要性を回避することができ、これによって意味的コンテキスト情報の損失を防ぐこともできる。セマンティックセグメンテーションネットワークの軽量トレーニングは、リアルタイム推論及びマルチクラス分類タスクに適した、特にセマンティックセグメンテーションとインスタンスセグメンテーションとを組み合わせるパノプティックセグメンテーションタスク(panoptic segmentation task)に適した、高解像度画像入力に対して動作できるオールインワンモデルをもたらすことができる。
【0010】
図1は、本開示の実施形態による、入力画像フレームのセマンティックセグメンテーションのための環境を示す図である。図1には環境100を示す。環境100は、システム102と、画像取り込み装置104と、電子装置106と、通信ネットワーク108とを含む。システム102は、通信ネットワーク108を介して画像取り込み装置104及び電子装置106に通信可能に結合することができる。システム102は、例えばシステム102のメモリに記憶されたアプリケーションの一部としてセマンティックセグメンテーションネットワーク110を含むことができる。
【0011】
システム102は、セマンティックセグメンテーションネットワーク110をマルチクラス分類タスクのためにトレーニングするように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。セマンティックセグメンテーションネットワーク110は、トレーニングされると、入力画像フレームの各ピクセルをマルチクラス分類タスクの一連のクラスのうちの1つのクラスに分類することができる。また、セマンティックセグメンテーションネットワーク110は、トレーニングされると、行動の開始或いはリアルタイム又は近リアルタイム推論の生成のために意味的にセグメント化された画像フレームを必要とし得る用途のためにデプロイすることができる。一例として、システム102は、当業者に周知の複数の技術を使用して、複数の分散クラウドベースリソースとして実装することができる。システム102の他の実装例としては、以下に限定するわけではないが、車載電子制御ユニット(ECU)、車載サーバ、ウェブ/クラウドサーバ、アプリケーションサーバ、メディアサーバ、家庭用電化(CE)製品、カメラ及び車両を挙げることができる。
【0012】
画像取り込み装置104は、画像取り込み装置104の視野(FOV)領域の一連のカラー画像フレームを取り込むように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。取り込まれた一連のカラー画像フレームは、例えばセマンティックセグメンテーションネットワーク110をトレーニングするために、又は(例えば、ベンチマーキングのための)テスト環境におけるトレーニング済みセマンティックセグメンテーションネットワーク110への入力として、或いは自動運転車に関連する用途などの特定用途向けのデプロイにおいて使用することができる。
【0013】
限定ではなく一例として、画像取り込み装置104は、シーン及び/又はシーン内の関心物体に焦点を合わせるために、レンズ及びレンズ用アクチュエータなどの好適な光学機器を有することができる。画像取り込み装置104の実装例としては、以下に限定するわけではないが、デジタルカメラ、車載カメラ、ビデオカメラ、デジタル一眼レフ(DSLR)カメラ、業務用ビデオカメラ、及びドライブレコーダを挙げることができる。図1には、システム102及び画像取り込み装置104を2つの別個のエンティティとして示しているが、本開示はこのように限定されるものではない。従って、いくつかの実施形態では、本開示の範囲から逸脱することなく画像取り込み装置104の機能全体をシステム102に含めることもできる。
【0014】
電子装置106は、セマンティックセグメンテーションネットワーク110の出力を使用してリアルタイム又は近リアルタイム推論の生成、判断の実行又は予測結果の出力を行うアプリケーションエンジンの一部としてセマンティックセグメンテーションネットワーク110をデプロイするように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。セマンティックセグメンテーションネットワーク110は、システム102上でマルチクラス分類タスクのためにトレーニングされると、電子装置106上にデプロイすることができる。
【0015】
電子装置106の機能は、高速コンピュータ装置又はカメラなどのポータブル装置、及び/又はサーバなどの非ポータブル装置に実装することができる。電子装置106の例としては、以下に限定するわけではないが、車載ECU、車載カメラ、デジタルカメラ、デジタルビデオカメラ、カメラ付き携帯電話、スマートフォン、仮想現実装置、ゲーム機、モバイル装置、又はハードウェアビデオプレーヤを挙げることができる。電子装置106の他の例としては、以下に限定するわけではないが、テレビ、家庭用娯楽システム、拡張現実装置、及び(スマートメガネなどの)スマートウェアラブルを挙げることができる。
【0016】
通信ネットワーク108は、システム102、画像取り込み装置104及び電子装置106が互いに通信できるようにする通信媒体を含むことができる。通信ネットワーク108の例としては、以下に限定するわけではないが、インターネット、クラウドネットワーク、ワイヤレスフィディリティー(Wi-Fi)ネットワーク、パーソナルエリアネットワーク(PAN)、ローカルエリアネットワーク(LAN)、又はメトロポリタンエリアネットワーク(MAN)を挙げることができる。環境100内の様々な装置は、様々な有線及び無線通信プロトコルに従って通信ネットワーク108に接続するように構成することができる。このような有線及び無線通信プロトコルの例としては、以下に限定するわけではないが、伝送制御プロトコル及びインターネットプロトコル(TCP/IP)、ユーザデータグラムプロトコル(UDP)、ハイパーテキスト転送プロトコル(HTTP)、ファイル転送プロトコル(FTP)、ZigBee、EDGE、IEEE802.11、ライトフィデリティ(Li-Fi)、802.16、IEEE802.11s、IEEE802.11g、マルチホップ通信、無線アクセスポイント(AP)、装置間通信、セルラー通信プロトコル、及びBluetooth(BT)通信プロトコルを挙げることができる。
【0017】
セマンティックセグメンテーションネットワーク110は、エンコーダ-デコーダアーキテクチャを有する多段式ニューラルネットワーク(NN)とすることができる。セマンティックセグメンテーションネットワーク110は、エンコーダネットワーク112を含むことができる。エンコーダネットワーク112は、入力カラー画像内のシーンの空間的及び意味的コンテキスト情報を特徴マップに符号化できる複数のNN層112a...112nを含むことができる。エンコーダネットワーク112は、初期ストライドで入力カラー画像を受け取り、初期ストライドの倍数とすることができる第1のストライドで特徴マップを出力することができる。本明細書におけるストライドとは、入力カラー画像のサイズに対する特徴マップのサイズの比率を表す出力ストライドを意味することができる。例えば、1の初期ストライドでは、1024×1024ピクセルの解像度の入力カラー画像がエンコーダネットワーク112に提供される。エンコーダネットワーク112は、32のストライドで入力カラー画像の特徴マップを出力することができる。特徴マップは、入力カラー画像内の空間的及び意味的コンテキスト情報を符号化することができる。32のストライドでは、特徴マップのサイズが入力カラー画像のサイズの1/32(すなわち、1/32)になることができる。
【0018】
セマンティックセグメンテーションネットワーク110は、エンコーダネットワーク112の出力112nに接続できるデコーダネットワーク114をさらに含むことができる。デコーダネットワーク114は、エンコーダネットワーク112の出力112nから第1のストライドでの入力として特徴マップを受け取り、最終スコアマップを初期ストライドで逆出力することができる。具体的には、デコーダネットワーク114は、最終スコアマップのサイズが入力カラー画像のサイズと同じになるように特徴マップを初期ストライドに逆アップサンプリングすることができる。この時点で、入力カラー画像内の各ピクセルは最終スコアマップ内のスコア値に対応する。デコーダネットワーク114は、出力特徴マップを復号して最終スコアマップを出力できる複数のNN層114a...114nを含むことができる。最終スコアマップは、マルチクラス分類タスクの異なるクラスに基づく入力カラー画像の各ピクセルのスコアを含むことができる。
【0019】
セマンティックセグメンテーションネットワーク110は、セマンティックセグメンテーションネットワーク110の各NN層が人工ニューロンをノードとして含む、人工ニューロンの計算ネットワーク又はシステムと呼ぶことができる。セマンティックセグメンテーションネットワーク110内の全てのノードの出力は、セマンティックセグメンテーションネットワーク110の先行又は後続するNN層の少なくとも1つのノードに結合することができる。同様に、セマンティックセグメンテーションネットワーク110内の全てのノードの入力は、セマンティックセグメンテーションネットワーク110の先行又は後続するNN層の少なくとも1つのノードに結合することができる。セマンティックセグメンテーションネットワーク110の最終層の(単複の)ノードは、少なくとも1つ前の層から入力を受け取ることができる。NN層の数、及び各NN層内のノードの数は、セマンティックセグメンテーションネットワーク110のハイパーパラメータから決定することができる。このようなハイパーパラメータは、カラー画像フレームのトレーニングデータセットに基づくセマンティックセグメンテーションネットワーク110のトレーニング前又はトレーニング中に設定することができる。
【0020】
セマンティックセグメンテーションネットワーク110内の各ノードは、セマンティックセグメンテーションネットワーク110がトレーニングされている間に調整できるパラメータセットを有する数学関数に対応することができる。これらのパラメータは、例えば重みパラメータ及び正則化パラメータなどを含むことができる。各ノードは、セマンティックセグメンテーションネットワーク110の他の層(例えば、前の層)内のノードからの1又は2以上の入力に基づいて、数学関数を使用して出力を計算することができる。
【0021】
セマンティックセグメンテーションネットワーク110は、例えばシステム102及び電子装置106などの処理装置が実行するソフトウェアプログラム、ソフトウェアプログラムのコード、ライブラリ、アプリケーション、スクリプト又はその他のロジック/命令などの電子データを含むことができる。これに加えて、又はこれとは別に、セマンティックセグメンテーションネットワーク110は、プロセッサ、(例えば、1又は2以上の動作の実行又は実行の制御を行う)マイクロプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)又は特定用途向け集積回路(ASIC)などのハードウェアを使用して実装することもできる。いくつかの実施形態では、セマンティックセグメンテーションネットワーク110を、ハードウェア及びソフトウェアプログラムの両方の組み合わせを使用して実装することができる。
【0022】
動作時には、例えばセマンティック又はパノプティック画像セグメンテーションなどのマルチクラス分類タスクに基づいてセマンティックセグメンテーションネットワーク110をトレーニングするようにプロセスを初期化することができる。セマンティックセグメンテーションネットワーク110のトレーニングでは、セマンティックセグメンテーションネットワーク110の各ノードのパラメータセットのうちの1つ又は2つ以上を更新することができる。いくつかのトレーニング方法の例としては、以下に限定するわけではないが、勾配降下法、確率的勾配降下法、バッチ勾配降下法、勾配ブースト法、Adam及びメタヒューリスティクスを挙げることができる。
【0023】
プロセスの一部として、システム102は、セマンティックセグメンテーションネットワーク110の入力層112aに第1のカラー画像を入力することができる。一例として、セマンティックセグメンテーションネットワーク110は、異なる複雑な状況における自律走行車制御のためにシーンの複雑な意味構造を理解するようにトレーニングすることができる。複雑な状況のうちの1つは、路上の走行可能エリアを発見し、又は歩道、地形、障害物、他の車、壁及び柱などを区別するタスクに関連することができる。
【0024】
セマンティックセグメンテーションネットワーク110は、例えば第1の入力カラー画像から空間情報及び意味的コンテキスト情報を抽出する独立経路を含むことができる。空間情報及びコンテキスト情報は、いずれも後でセマンティックセグメンテーションネットワーク110によって最終スコアマップが生成される前に融合することができる。セマンティックセグメンテーションネットワーク110は、第1の入力カラー画像に基づいて、セマンティックセグメンテーションネットワーク110の補助層116の出力として補助ストライドで第1の特徴マップを生成することができる。次に、システム102は、生成された第1の特徴マップを補助層116から抽出し、抽出された第1の特徴マップに基づいて、マルチクラス分類タスクの一連のクラスにわたるソフトラベルセットとしての確率マップを計算することができる。これらのソフトラベルセットは、クラスラベルとして2進数(0及び1)を含むハード割り当てラベルとは対照的に0~1の確率値を表す浮動小数点数を含むことができる。
【0025】
通常は、抽出された第1の特徴マップを第1の入力カラー画像のオリジナルストライドにアップサンプリングし、オリジナルストライドに記憶された全ての意味的コンテキスト情報を維持するために補助クロスエントロピー(CE)損失を使用することが必要となり得る。しかしながら、抽出された第1の特徴マップを拡大する場合には高解像度空間内の勾配を記憶することが必要になり、これによってトレーニングのためのメモリ効率が低くなり、補助CE損失を使用するためのストライド数が制限されてしまうことがある。一方で、最終スコアマップを補助ストライドにダウンサンプリングすると、意味的コンテキスト情報の一部が失われてしまうことがある。これらの問題を解決するために、システム102は、計算された確率マップと補助ストライドでのグラウンドトゥルース確率マップとの間の補助CE損失(ソフトCE損失とも呼ばれる)を計算することができる。補助CE損失は、セマンティックセグメンテーションネットワーク110をトレーニングするプロセスの一部として計算することができ、オリジナルストライドの第1の入力カラー画像に記憶された全ての意味的コンテキスト情報を維持するのに役立つことができる。その後、システム102は、計算された補助クロスエントロピー損失に基づいて、セマンティックセグメンテーションネットワーク110をマルチクラス分類タスクのためにトレーニングすることができる。
【0026】
これに加えて、又はこれとは別に、システム102は、セマンティックセグメンテーションネットワーク110の出力層114nから最終スコアマップを抽出し、抽出された最終スコアマップに基づいて最終クロスエントロピー損失を計算することもできる。最終スコアマップは、入力カラー画像に対するセマンティックセグメンテーションネットワーク110の出力に対応することができる。計算された最終クロスエントロピー損失は、例えばヒストグラム重み付きソフトマックスクロスエントロピー損失(histogram weighted soft-max cross-entropy loss)とすることができる。システム102は、計算された補助クロスエントロピー損失及び計算された最終クロスエントロピー損失に基づいて、セマンティックセグメンテーションネットワーク110の全体的損失測度(global loss-measure)を推定することができる。この推定された全体的損失測度に基づいてセマンティックセグメンテーションネットワーク110をトレーニングすることができる。具体的に言えば、セマンティックセグメンテーションネットワーク110のトレーニングは、推定された全体的損失測度が最小になるまでセマンティックセグメンテーションネットワーク110の異なる層の重みを更新することに対応することができる。
【0027】
セマンティックセグメンテーションネットワーク110は、トレーニングされると、好適な装置上でデプロイされる準備が整ったトレーニング済みセマンティックセグメンテーションネットワーク110と呼ぶこともできる。トレーニング後には、確率マップの計算及び補助CE損失の計算に関連する動作を実行する必要はなく、セマンティックセグメンテーションネットワーク110のみを使用して、セマンティックセグメンテーションネットワーク110への入力としてのカラー画像の分類結果を生成することができる。システム102は、トレーニング済みセマンティックセグメンテーションネットワーク110を独自のネットワーク上で独自の用途のためにデプロイすることができる。これに加えて、又はこれとは別に、システム102は、トレーニング済みセマンティックセグメンテーションネットワークを電子装置106などの他の外部装置上にデプロイすることもできる。
【0028】
本明細書では、例えばトレーニング済みセマンティックセグメンテーションネットワーク110をセマンティック画像セグメンテーションのために使用する例示的なシナリオについて説明する。システム102は、トレーニング済みセマンティックセグメンテーションネットワーク110に第2のカラー画像を入力した後に、トレーニング済みセマンティックセグメンテーションネットワーク110の出力層114nから第2の入力カラー画像の各ピクセルの分類結果を抽出することができる。限定ではなく一例として、この分類結果は、クラスの最大スコアインデックスを含むことができる。換言すれば、最大スコアインデックスは、第2のカラー画像のピクセル毎に、それぞれのピクセルの最大スコア(確率)を有する(分類タスクの一連のクラスID/ラベルのうちの)最終クラスIDを表すことができる。トレーニング済みセマンティックセグメンテーションネットワーク110は、それ自体が第2のカラー画像の確率マップを出力できるので、クラスの最大スコアインデックスの計算に基づいて分類結果を取得することができる。例えば、トレーニング済みセマンティックセグメンテーションネットワーク110の出力は、体積テンソルによって([num_class(クラス数)×高さ×幅]で)表すことができる。2Dの最終クラスIDマップ又は最終スコアマップを取得するには、各ピクセルが特定のクラスID及びカラー値に割り当てられた入力カラー画像のサイズ(すなわち、高さ×幅(ピクセル単位))に出力を再形成する必要がある。このため、システム102は、体積テンソルにargmax演算を適用してクラスチャネルの最大スコアインデックスを抽出することができる。
【0029】
システム102は、分類結果に基づいて、対応する一連の色で塗りつぶされた一連の領域を含む意味的にセグメント化された画像を生成することができる。一連の領域の各領域は、一連のクラスのうちの特定のクラスに対応する。例えば、都市街路の画像を入力とする場合、意味的にセグメント化された画像は、車、建物及び道路などのような割り当てクラスに従ってそれぞれのピクセルが別様に色分けされた異なる領域を含むことができる。
【0030】
図2は、本開示の実施形態による、入力画像フレームのセマンティックセグメンテーションのための例示的なシステムのブロック図である。図2の説明は、図1の要素に関連して行う。図2には、システム102のブロック図200を示す。システム102は、回路202と、メモリ204と、入力/出力(I/O)装置206と、ネットワークインターフェイス208と、アプリケーションインターフェイス210と、永続的データストレージ212とを含むことができる。システム102は、例えば半自律又は自律走行車における画像ベース判定のためのソフトウェアアプリケーションの一部としてセマンティックセグメンテーションネットワーク110を含むこともできる。回路202は、メモリ204、I/O装置206、ネットワークインターフェイス208、アプリケーションインターフェイス210、及び永続的データストレージ212に通信可能に結合することができる。1又は2以上の実施形態では、システム102が、例えば画像取り込み装置104などの1又は2以上の画像取り込み装置を介して画像/ビデオを取り込むための設備/機能を含むこともできる。
【0031】
回路202は、セマンティックセグメンテーションネットワーク110を入力カラー画像フレーム上のマルチクラス分類タスクのためにトレーニングするように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。セマンティックセグメンテーションネットワーク110は、トレーニングされると、ライブ/事前取り込みビデオフィードの画像フレームのリアルタイムセマンティック/パノプティック画像セグメンテーションのために他の電子装置(例えば、電子装置106)上又はシステム102上のいずれかにデプロイすることができる。回路202は、当業者に周知と思われる複数のプロセッサ技術に基づいて実装することができる。回路202の実装例は、グラフィックスプロセッシングユニット(GPU)、縮小命令セットコンピューティング(RISC)プロセッサ、特定用途向け集積回路(ASIC)プロセッサ、複合命令セットコンピューティング(CISC)プロセッサ、マイクロコントローラ、人工知能(AI)アクセラレータチップ、コプロセッサ、中央処理装置(CPU)、及び/又はこれらの組み合わせとすることができる。
【0032】
メモリ204は、回路202が実行できる命令を記憶するように構成できる好適なロジック、回路及び/又はインターフェイスを含むことができる。また、メモリ204は、セマンティックセグメンテーションネットワーク110のプログラムコード、及び/又はセマンティックセグメンテーションネットワーク110のプログラムコードを含むことができるソフトウェアアプリケーションを記憶するように構成することができる。メモリ204の実装例としては、以下に限定するわけではないが、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、電気的に消去可能なプログラマブルリードオンリメモリ(EEPROM)、ハードディスクドライブ(HDD)、固体ドライブ(SSD)、CPUキャッシュ、及び/又はセキュアデジタル(SD)カードを挙げることができる。
【0033】
I/O装置206は、ユーザとシステム102との間のI/Oインターフェイスとして動作するように構成できる好適なロジック、回路及び/又はインターフェイスを含むことができる。I/O装置206は、システム102の異なる動作コンポーネントと通信するように構成できる様々な入力及び出力装置を含むことができる。I/O装置206の例としては、以下に限定するわけではないが、タッチ画面、キーボード、マウス、ジョイスティック、マイク、及びディスプレイ画面を挙げることができる。
【0034】
ネットワークインターフェイス208は、システム102の異なるコンポーネントが環境100内の電子装置106などの他の装置と通信ネットワーク108を介して通信するのを容易にするように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。ネットワークインターフェイス208は、有線又は無線通信をサポートする既知の技術を実装するように構成することができる。ネットワークインターフェイス208のコンポーネントとしては、以下に限定するわけではないが、アンテナ、無線周波数(RF)トランシーバ、1又は2以上の増幅器、チューナ、1又は2以上の発振器、デジタルシグナルプロセッサ、コーダ-デコーダ(CODEC)チップセット、識別モジュール、及び/又はローカルバッファを挙げることができる。
【0035】
ネットワークインターフェイス208は、インターネット、イントラネット、及び/又は携帯電話ネットワーク、無線ローカルエリアネットワーク(LAN)、パーソナルエリアネットワーク及び/又はメトロポリタンエリアネットワーク(MAN)などの無線ネットワークなどのネットワークとの間でオフライン及びオンライン無線通信を介して通信するように構成することができる。無線通信は、グローバルシステムフォーモバイルコミュニケーション(GSM)、拡張データGSM環境(EDGE)、広帯域符号分割多元接続(W-CDMA)、符号分割多元接続(CDMA)、LTE、時分割多元接続(TDMA)、Bluetooth、(IEEE 802.11、IEEE 802.11b、IEEE 802.11g、IEEE 802.11n、及び/又は他のいずれかのIEEE 802.11プロトコルなどの)ワイヤレスフィディリティー(Wi-Fi)、ボイスオーバーインターネットプロトコル(VoIP)、Wi-MAX、モノのインターネット(IoT)技術、マシンタイプ通信(MTC)技術、電子メール用プロトコル、インスタントメッセージング及び/又はショートメッセージサービス(SMS)などの複数の通信規格、プロトコル及び技術のうちのいずれかを使用することができる。
【0036】
アプリケーションインターフェイス210は、ユーザがシステム102と相互作用するための媒体として構成することができる。アプリケーションインターフェイス210は、ユーザによる設定及びシステム102の構成に従って変更できる動的インターフェイスを有するように構成することができる。いくつかの実施形態では、アプリケーションインターフェイス210が、システム102にインストールされた1又は2以上のアプリケーションのユーザインターフェイスに対応することができる。
【0037】
永続的データストレージ212は、回路202が実行できるプログラム命令、オペレーティングシステム、及び/又はログ及び特定用途向けデータベースなどの特定用途向け情報を記憶するように構成できる好適なロジック、回路及び/又はインターフェイスを含むことができる。永続的データストレージ212は、記憶されたコンピュータ実行可能命令又はデータ構造を保持又は有するためのコンピュータ可読記憶媒体を含むことができる。このようなコンピュータ可読記憶媒体は、回路202などの汎用又は専用コンピュータがアクセスできるいずれかの利用可能な媒体を含むことができる。
【0038】
限定ではなく一例として、このようなコンピュータ可読記憶媒体は、以下に限定するわけではないが、コンパクトディスクリードオンリメモリ(CD-ROM)又はその他の光ディスクストレージ、磁気ディスクストレージ又はその他の磁気記憶装置(例えば、ハードディスクドライブ(HDD))、フラッシュメモリデバイス(例えば、固体ドライブ(SSD)、セキュアデジタル(SD)カード、その他の固体メモリデバイス)、又は特定のプログラムコードをコンピュータ実行可能命令又はデータ構造の形態で保持又は記憶するために使用できて汎用又は専用コンピュータがアクセスできる他のいずれかの記憶媒体を含む有形又は非一時的コンピュータ可読記憶媒体を含むことができる。コンピュータ可読記憶媒体の範囲にはこれらの組み合わせを含めることもできる。
【0039】
コンピュータ実行可能命令は、例えばシステム102に関連する特定の動作又は一連の動作を回路202に実行させるように構成された命令及びデータを含むことができる。図1に示すようなシステム102によって実行される機能又は動作は、回路202が実行することができる。回路202の動作については、例えば図4図5A図5B図5C及び図5Dに詳細に示す。
【0040】
図3は、本開示の実施形態による、入力画像フレームのセマンティックセグメンテーションのための例示的な電子装置のブロック図である。図3には、電子装置106のブロック図300を示す。電子装置106は、回路302と、メモリ304と、I/O装置306と、ネットワークインターフェイス308と、アプリケーションインターフェイス310とを含むことができる。セマンティックセグメンテーションネットワーク110は、トレーニングされると、例えば半自律又は自律走行車のための別のソフトウェアアプリケーションの一部として電子装置106上にデプロイすることができる。回路302は、メモリ304、I/O装置306、ネットワークインターフェイス308、及びアプリケーションインターフェイス310に通信可能に結合することができる。少なくとも1つの実施形態では、電子装置106が、例えば画像取り込み装置104などの1又は2以上の画像取り込み装置を介して画像/ビデオを取り込むための設備/機能を含むこともできる。
【0041】
回路302は、セマンティックセグメンテーションネットワーク110が(例えば、ライブビデオフィードからの)入力カラー画像フレーム上でのマルチクラス分類タスクのためにトレーニングされた後にセマンティックセグメンテーションネットワーク110を実装するように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。回路302は、当業者に周知と思われる複数のプロセッサ技術に基づいて実装することができる。回路302の実装例は、車載ECUの(単複の)プロセッサとすることができる。回路302のさらなる実装例は、グラフィックスプロセッシングユニット(GPU)、縮小命令セットコンピューティング(RISC)プロセッサ、特定用途向け集積回路(ASIC)プロセッサ、複合命令セットコンピューティング(CISC)プロセッサ、マイクロコントローラ、(単複の)人工知能(AI)アクセラレータチップ、コプロセッサ、中央処理装置(CPU)、及び/又はこれらの組み合わせとすることができる。
【0042】
メモリ304は、回路302が実行できる命令を記憶するように構成できる好適なロジック、回路及び/又はインターフェイスを含むことができる。また、メモリ304は、セマンティックセグメンテーションネットワーク110の(単複の)補助層の補助クロスエントロピー(CE)損失に基づいて予めトレーニングされたセマンティックセグメンテーションネットワーク110を記憶するように構成することもできる。メモリ304は、セマンティックセグメンテーションネットワーク110のプログラムコード、及び/又はセマンティックセグメンテーションネットワーク110のプログラムコードを含むことができるソフトウェアアプリケーションを記憶することもできる。メモリ304の実装例としては、以下に限定するわけではないが、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、電気的に消去可能なプログラマブルリードオンリメモリ(EEPROM)、ハードディスクドライブ(HDD)、固体ドライブ(SSD)、CPUキャッシュ、及び/又はセキュアデジタル(SD)カードを挙げることができる。
【0043】
I/O装置306は、ユーザと電子装置106との間のI/Oインターフェイスとして動作するように構成できる好適なロジック、回路及び/又はインターフェイスを含むことができる。I/O装置306は、電子装置106の異なる動作コンポーネントと通信するように構成できる様々な入力及び出力装置を含むことができる。I/O装置306の例としては、以下に限定するわけではないが、タッチ画面、キーボード、マウス、ジョイスティック、マイク、及びディスプレイ画面を挙げることができる。
【0044】
ネットワークインターフェイス308は、電子装置106の異なるコンポーネントが環境100内の他の装置と通信ネットワーク108を介して通信するのを容易にするように構成できる好適なロジック、回路、インターフェイス及び/又はコードを含むことができる。ネットワークインターフェイス308は、有線又は無線通信をサポートする既知の技術を実装するように構成することができる。ネットワークインターフェイス308のコンポーネントとしては、以下に限定するわけではないが、アンテナ、無線周波数(RF)トランシーバ、1又は2以上の増幅器、チューナ、1又は2以上の発振器、デジタルシグナルプロセッサ、コーダ-デコーダ(CODEC)チップセット、識別モジュール、及び/又はローカルバッファを挙げることができる。
【0045】
ネットワークインターフェイス308は、インターネット、イントラネット、及び/又は携帯電話ネットワーク、無線ローカルエリアネットワーク(LAN)、パーソナルエリアネットワーク及び/又はメトロポリタンエリアネットワーク(MAN)などの無線ネットワークなどのネットワークとの間でオフライン及びオンライン無線通信を介して通信するように構成することができる。無線通信は、グローバルシステムフォーモバイルコミュニケーション(GSM)、拡張データGSM環境(EDGE)、広帯域符号分割多元接続(W-CDMA)、符号分割多元接続(CDMA)、LTE、時分割多元接続(TDMA)、Bluetooth、(IEEE 802.11、IEEE 802.11b、IEEE 802.11g、IEEE 802.11n、及び/又は他のいずれかのIEEE 802.11プロトコルなどの)ワイヤレスフィディリティー(Wi-Fi)、ボイスオーバーインターネットプロトコル(VoIP)、Wi-MAX、モノのインターネット(IoT)技術、マシンタイプ通信(MTC)技術、電子メール用プロトコル、インスタントメッセージング及び/又はショートメッセージサービス(SMS)などの複数の通信規格、プロトコル及び技術のうちのいずれかを使用することができる。
【0046】
アプリケーションインターフェイス310は、ユーザが電子装置106と相互作用するための媒体として構成することができる。アプリケーションインターフェイス310は、ユーザによる設定及び電子装置106の構成に従って変更できる動的インターフェイスを有するように構成することができる。いくつかの実施形態では、アプリケーションインターフェイス310が、電子装置106にインストールされた1又は2以上のアプリケーションのユーザインターフェイスに対応することができる。例えば、アプリケーションインターフェイスは、自動運転車のマルチインフォメーションディスプレイ(MID)上に表示されて、ユーザが電子装置106によって処理された情報を視覚化できるようにすることができる。図1に示すような電子装置106によって実行される機能又は動作は、回路302が実行することができる。回路302の動作については、例えば図7に詳細に示す。
【0047】
図4は、本開示の実施形態による、セマンティックセグメンテーションネットワークをマルチクラス分類タスクのためにトレーニングする例示的な動作を示す図である。図4の説明は、図1図2及び図3の要素に関連して行う。図4には、本明細書で説明するようにセマンティックセグメンテーションネットワーク402をマルチクラス分類タスクのためにトレーニングする一連の動作を示す図400を示す。本明細書におけるマルチクラス分類タスクとは、入力画像フレームのセマンティックセグメンテーションのための密な分類タスク(dense classification task)、及び入力画像フレームの個々のピクセルにクラスラベルを割り当てるタスクとすることができる。セマンティックセグメンテーションネットワーク402は、図1のセマンティックセグメンテーションネットワーク402に対応することができ、例えば複数の段を有する完全畳み込みネットワーク(fully convolutional network:FCN)アーキテクチャに基づいてモデル化することができる。以下の404~418の例示的な動作は、セマンティックセグメンテーションネットワーク402のトレーニングプロセスの詳細を明確に示すものである。以下の例示的な動作は、セマンティックセグメンテーションネットワーク402のトレーニングにおける補助ストライドでの補助損失の適用(例えば、セマンティックセグメンテーションネットワーク402の補助層の特徴マップのためのソフト割り当てラベルにわたる補助クロスエントロピー損失)も例示する。
【0048】
404において、データ取得動作を実行することができる。データ取得動作では、回路202が、一連のカラー画像を含むことができるトレーニングデータセットを取得することができる。トレーニングデータセットの例は、ディープニューラルネットワークを都市街路のシーンを理解するセマンティック画像セグメンテーションのためにトレーニングし、トレーニングされたディープニューラルネットワークの相対的性能及び精度をベンチマーク評価するために使用できる、都市街路の画像のデータセットとすることができる。図示のように、例えばトレーニングデータセット内の一連のカラー画像は、車、道路、歩行者、歩道、信号機及び照明設備などの都市建造及び物体を含むことができる都市街路シーンの第1のカラー画像404aを含む。
【0049】
本明細書に示すように、セマンティックセグメンテーションネットワーク402は、エンコーダ-デコーダアーキテクチャに基づくことができ、エンコーダネットワーク402aと、エンコーダネットワーク402aの出力に接続されたデコーダネットワーク402bとを含むことができる。例えば、セマンティックセグメンテーションネットワーク402の例示的なブロックレベルアーキテクチャを図5に示す。上述した層/ブロックの詳細についても、例えば図5A図5B図5C及び図5Dで詳細に取り扱う。
【0050】
回路202は、例えばセマンティック画像セグメンテーションタスクなどのマルチクラス分類タスクのために、セマンティックセグメンテーションネットワーク402の入力層に第1のカラー画像404aを入力することができる。エンコーダネットワーク402aは、第1のカラー画像404aを初期ストライドで入力として受け取って特徴マップを出力することができる。出力特徴マップは、初期ストライドの倍数とすることができる第1のストライドのものとすることができる。本明細書におけるストライドとは、第1のカラー画像404aのサイズに対する特徴マップサイズの比率を表す出力ストライドを意味することができる。例えば、2048x1024のピクセルサイズの第1のカラー画像404aの初期ストライドが「1」である場合、エンコーダネットワーク402aの出力における32のストライドは、出力特徴マップのサイズが64x32(すなわち、第1のカラー画像404aのサイズの1/32)であることを示すことができる。
【0051】
回路202は、セマンティックセグメンテーションネットワーク402から補助層を選択することができる。選択された補助層は、セマンティックセグメンテーションネットワーク402のトレーニングにおいて最適なパラメータサイズ及び低いメモリ利用率を達成するように補助損失(すなわち、補助クロスエントロピー(CE)損失)を適用できる補助ストライド(例えば、1~32)に対応することができる。少なくとも1つの実施形態では、セマンティックセグメンテーションネットワーク402の性能測度に基づいて、セマンティックセグメンテーションネットワーク402のデコーダネットワーク402bから補助層を選択することができる。例えば、表1に示すように、性能測度は、セマンティックセグメンテーションネットワーク402のトレーニングにおける異なるストライドで計算されたパラメータによるメモリ使用量に基づくことができる。表1に基づけば、補助CE損失は、[8、16、32]のストライドでセマンティックセグメンテーションネットワーク402のトレーニングのために好ましいのに対し、アップサンプリングスコア上のハードCE損失は32のストライドでしか持ちこたえられない場合がある。このことは、補助CE損失がセマンティックセグメンテーションネットワーク402の大きな入力サイズをサポートできることを示すことができる。
【0052】
表1におけるソフトCE損失は、セマンティックセグメンテーションネットワーク402の補助層の特徴/スコアマップのためのソフト割り当てラベル(すなわち、0~1の確率分布)でのCE損失を意味することができる。ハードCE損失は、セマンティックセグメンテーションネットワーク402の補助層の特徴/スコアマップのためのハード割り当てラベル(すなわち、2進ラベル0及び1)でのCE損失を意味することができる。
表1:セマンティックセグメンテーションネットワーク402のトレーニング中における補助損失メモリ使用量のアブレーション研究

表2:検証セット性能に影響する異なる補助損失戦略を有することについてのアブレーション研究
【0053】
なお、表1及び表2に示すデータは実験データにすぎないと解釈すべきであり、本開示を限定するものとして解釈すべきではない。例えば、表2に示すように、性能測度は、検証データセットによる%million Intersection-over-Union (IoU)に基づくことができる。表2には、検証データセットでのセマンティックセグメンテーションネットワーク402の性能に補助損失タイプがどのように影響を与え得るかを示す。表2にさらに示すように、ソフトCE補助損失を複数の補助ストライドに適用した場合が最良に機能することができる。セマンティックセグメンテーションネットワーク402は、第1の入力カラー画像404aに基づくセマンティックセグメンテーションネットワーク402の補助層(又は選択された補助層)の出力として補助ストライドで第1の特徴マップを生成することができる。
【0054】
406において、特徴マップ抽出動作を実行することができる。特徴マップ抽出動作では、回路202が、セマンティックセグメンテーションネットワーク402の補助層から、生成された第1の特徴マップを抽出することができる。例えば、表1及び表2に基づいて[4、8、16、32]のストライドでの補助層を選択することができ、このような補助層においてセマンティックセグメンテーションネットワーク402のトレーニングの一部として補助損失を適用できるように補助層からのそれぞれの特徴マップを抽出することができる。
【0055】
通常、トレーニングプロセスでは、大きなストライド特徴上で符号化された意味的コンテキストをより良好に学習するように、しばしば補助損失を使用してネットワークを正則化する。しかしながら、補助損失が多いと、メモリ(例えば、GPUメモリ)がトレーニングのために消費されて、バッチサイズ及び入力解像度が限られた範囲内に限定されてしまうことがある(すなわち、入力をクロップする必要がある)。表1に示すデータからはこのことも例示される。通常、大きなストライド(例えば、16/32)上では、グラウンドトゥルース確率マップを使用して補助損失を計算する。グラウンドトゥルース確率マップを(例えば、入力解像度の1/32に)ダウンサンプリングした場合には、グラウンドトゥルース確率マップの空間情報が切り取られて豊富な空間コンテキスト情報が失われることがある。典型的な解決策としては、補助ストライドの特徴マップを初期ストライドに(すなわち、第1のカラー画像404aの入力解像度/サイズに)アップサンプリングして補助損失を計算することが考えられるが、これによってメモリが犠牲になる場合がある。従って、特徴マップに2進値(0又は1)を割り当てるハード割り当てではなく、特徴マップにソフトラベルを割り当てるソフト割り当て(すなわち、0~1の浮動小数点値を含む確率分布)が好ましいと考えられる。
【0056】
408において、確率マップ計算動作を実行することができる。確率マップ計算動作では、回路202が、抽出された第1の特徴マップに基づいて、マルチクラス分類タスクの一連のクラスにわたるソフトラベルセットとしての確率マップを計算することができる。ソフトラベルセットは0~1の浮動小数点値を含むことができ、マルチクラス分類タスクの一連のクラスにわたる確率分布を表すことができる。例えば、セマンティックセグメンテーションネットワーク402の補助層から抽出された第1の特徴マップ内の値毎にそれぞれのソフトラベルを計算して割り当てることができる。それぞれのソフトラベルは0及び1の浮動小数点値とすることができ、一連のクラス(例えば、クラス0、1...24)のうちの特定のクラス(例えば、クラスID)を表すことができる。表3に、例えば都市街路シーンの8つのクラス及び8つのクラスIDのリストを示す。
表3:都市街路シーンのクラス及びクラスID
【0057】
ソフト割り当ては、特徴マップの各値に2進値の一方を割り当てる典型的なハード割り当てとは異なることができる。結果として得られる補助ストライドの全てのソフトラベルを含む行列は、マルチクラス分類タスクの一連のクラスにわたる確率マップ又は確率分布と呼ぶことができる。
【0058】
回路202は、補助損失を計算できるまでに、一連のクラスにわたるマルチラベル確率分布としてのグラウンドトゥルース確率マップ408aを補助ストライドで計算することもできる。補助ストライドでグラウンドトゥルース確率マップ408aを取得する従来の手法としては、初期ストライド(例えば、1)のグラウンドトゥルースマップを補助ストライド(例えば、32)にダウンサンプリングすることが考えられる。しかしながら、この手法では、元々第1のカラー画像404a内に存在する空間情報が切り取られて、このような豊富な空間コンテキスト情報が失われることがある。従って、セマンティックセグメンテーションネットワーク402の補助層の前の1又は2以上の層の確率マップに基づいてグラウンドトゥルース確率マップ408aを計算することができる。例えば、補助層の前の1又は2以上の層の確率マップを平均プーリングしてグラウンドトゥルース確率マップ408aを生成することができる。補助層の確率マップと同様に、グラウンドトゥルース確率マップ408aもソフトラベルを含むことができ、グラウンドトゥルース確率のサイズは、補助ストライドの確率マップのサイズと同じであることができる。
【0059】
410において、補助損失計算動作を実行することができる。補助損失計算動作では、回路202が、補助ストライドでの計算された確率マップと、補助ストライドでの計算されたグラウンドトゥルース確率マップ408aとの間の補助CE損失を計算することができる。本明細書では、分類タスクで通常見られるハードラベル割り当て(ハードCE)を含むCE損失との間で用語を区別するために、補助CE損失をソフトCE損失と呼ぶこともある。一例として、ソフトCE損失は、方程式(1)によって以下のように与えることができ、
ここでのqi,c∈Qjは、補助層によって生成される確率マップであり、
i,c∈Pjは、ストライドjにおいて平均プーリングされたグラウンドトゥルース確率マップであり、c∈Kはクラスであり、i∈Nはストライドでのピクセルである。
【0060】
方程式(1)を使用した計算は、コスト量p、qに関するカルバックライブラー(KL)情報量を有することに相当することができ、この場合のqは、ストライド内に存在するクラス間確率を符号化する。なお、各pi,cは、ワンホット2進マップ(one-hot binary map)でないこともできる。ソフトCE損失は、たとえ大きなストライドを使用する場合であっても、各ストライド間に存在する意味的コンテキスト情報を学習することができる。ラベルのワンホット符号化によってストライド1の確率マップを作成した後に、各補助ストライドに平均プーリングすることができる。プーリング後、確率マップは、ソフトCE損失を計算するために使用できるマルチラベル分布を含むことができる。これを使用して、セマンティックセグメンテーションネットワーク402がトレーニングされている間に、空間的及び意味的コンテキスト情報をメモリ効率の高い方法で維持することができる。ソフトCE損失を適用すると、トレーニング時間中に勾配計算によって利用されるメモリを大幅に少なくすることができる。ソフトCE損失はメモリ効率が高く、従ってセマンティックセグメンテーションネットワーク402のトレーニングのための入力として大きなサイズ(例えば、2048ピクセル×1024ピクセル)の画像を提供することができる。対照的に、従来の多くのトレーニング法は、バッチサイズとメモリ空間との間のバランスを保つために入力画像をクロップしようと試みる。また、表1及び表2を参照すると、ソフトCE損失の使用は、特にセマンティックセグメンテーションネットワーク402のトレーニングにおけるバックプロパゲーション法(例えば、サイズを抑えた勾配パラメータ)のためのメモリ使用量を抑えるのに役立つこともできる。また、ソフトCE損失は、セマンティックセグメンテーションネットワーク402のトレーニングにおける入力解像度の高い(例えば、高解像度(HD)フルHD、又は4K解像度)入力、及びより良いIoU性能をもたらす大きなミニバッチサイズを可能にすることができる。
【0061】
412において、最終スコアマップ抽出を実行することができる。最終スコアマップ抽出では、回路202が、セマンティックセグメンテーションネットワーク402の出力層から最終スコアマップを抽出することができる。最終スコアマップは、第1の入力カラー画像404aのセマンティックセグメンテーションネットワーク402の出力に対応することができ、デコーダネットワーク402bがエンコーダネットワーク402aの初期ストライドで生成することができる。
【0062】
少なくとも1つの実施形態では、デコーダネットワーク402bのスコアリング層(例えば、図5Aのスコアリング層526又は図6のスコアリング層622)が、補助ストライド(例えば、「4」)での初期スコアマップを計算することができる。この場合、スコアリング層は、セマンティックセグメンテーションネットワーク402の出力層に先行することができる。初期スコアマップのサイズは入力カラー画像(すなわち、第1のカラー画像404a)のサイズよりも小さく、従ってピクセル毎の分類では初期スコアマップを初期ストライド(例えば、1)にアップサンプリングする必要がある。従って、デコーダネットワーク402bは、出力層において、初期スコアマップを例えば「1」などの初期ストライドでの最終スコアマップにアップサンプリングすることができる。
【0063】
限定ではなく一例として、デコーダネットワーク402bは、エンコーダネットワーク402aから第1のストライド(例えば、32)で特徴マップを受け取り、最終スコアマップを初期ストライド(例えば、1)で逆出力することができる。本明細書では、最終スコアマップの解像度が、セマンティックセグメンテーションネットワーク402への入力として提供された第1のカラー画像404aの解像度と同じものであることができる。換言すれば、最終スコアマップには、第1のカラー画像404a内のピクセル毎に対応するスコア値が存在することができる。
【0064】
414において、最終損失計算を実行することができる。最終損失計算では、回路202が、抽出された最終スコアマップに基づいて最終CE損失を計算することができる。例えば、最終CE損失は、抽出された最終スコアマップと初期ストライド(すなわち、1)でのグラウンドトゥルース確率マップとの間で計算されたヒストグラム重み付きソフトマックスクロスエントロピー損失(histogram weighted soft-max cross-entropy loss)とすることができる。
【0065】
416において、全体的損失測度推定を実行することができる。全体的損失測度推定では、回路202が、計算された補助クロスエントロピー損失及び計算された最終クロスエントロピー損失に基づいて、セマンティックセグメンテーションネットワーク402の全体的損失測度を推定することができる。例えば、セマンティックセグメンテーションネットワーク402をトレーニングするために、方程式(2)を使用してハイブリッド損失関数の値としての全体的損失測度を以下のように推定することができ、
ここでのLは、ハイブリッド損失関数とすることができ、
Hard-CEは、412における最終スコアマップ上で計算されたヒストグラム重み付きソフトマックスCE損失とすることができ、
Soft-CEjは、各補助ストライド上の(410における)補助損失とすることができ、
αは、線形結合のための係数パラメータとすることができる。
【0066】
418において、ネットワークトレーニング動作を実行することができる。ネットワークトレーニング動作では、回路202が、(410において推定された)補助CE損失に基づいてセマンティックセグメンテーションネットワーク402をマルチクラス分類タスクのためにトレーニングすることができる。また、いくつかの実施形態では、推定された全体的損失測度に基づいてセマンティックセグメンテーションネットワーク402をさらにトレーニングすることができる。例えば、セマンティックセグメンテーションネットワーク402のトレーニングでは、セマンティックセグメンテーションネットワーク402の異なる層のノード/ニューロンの重みを、推定される全体的損失測度が最小になるまで繰り返し更新することができる。すなわち、補助CE損失及び最終CE損失はいずれも繰り返し計算することができ、好適な最適化法に基づいて重みを更新することができる。例えば、ベータ=[0.9,0.999]であり、初期学習率が1e^3であり、ミニバッチサイズが18であるAdam最適化法を使用することができる。また、0.5/50エポックのステップ学習率減衰係数(step learning rate decay factor)を使用することもできる。
【0067】
従来のFCNベースのネットワークとは対照的に、セマンティックセグメンテーションネットワーク402は、トレーニングされると、低い計算の複雑性、小さなパラメータサイズ、及びセマンティックセグメンテーションネットワーク402の出力における入力画像フレームの意味的コンテキストと空間コンテキストとの間のバランスをもたらすことができる。対照的に、従来のFCNベースのネットワークは、(例えば、ギガ浮動小数点演算(GFLOPS)又は100万IoUに関して)計算の複雑性が高く、トレーニングにおける勾配計算の数が多いことによってパラメータサイズが大きく、従来のセマンティックセグメンテーションネットワークの深層における意味的コンテキスト及び空間コンテキストの損失が多い。セマンティックセグメンテーションネットワーク402は、トレーニングされると、カラー画像に取り込まれたシーンの複雑な意味構造の理解、特にセマンティックセグメンテーションネットワーク402の出力を使用してリアルタイム推論を作成して複雑な状況において好適な判断を行う用途に適することができる。例えば、リアルタイム用途のうちの1つは自動運転車(SDV)に関連することができる。SDVは、トレーニング済みセマンティックセグメンテーションネットワーク402をデプロイし、状況に応じた自律制御のためにシーンを理解するように、デプロイされたセマンティックセグメンテーションネットワーク402に周辺環境のリアルタイムビデオフィードを提供することができる。デプロイされたセマンティックセグメンテーションネットワーク402の出力を使用して走行可能エリア(占有マップ)を識別し、或いは歩道、地形、障害物、歩行者、他の車、壁及び柱などを区別することができる。図4では、404~418の個別の動作について説明しているが、本開示はこのように限定されるものではない。従って、いくつかの実施形態では、開示する実施形態の本質を損なうことなく、特定の実装に応じてこのような個別の動作をさらなる動作にさらに分割し、少ない動作に組み合わせ、又は削除することもできる。
【0068】
トレーニング後には、(408における)確率マップの計算及び(410における)補助CE損失の計算に関連する動作を実行する必要はなく、従ってトレーニング済みセマンティックセグメンテーションネットワーク402のデプロイ時にはこれらを一連の動作から除外することができる。このような場合には、トレーニング済みセマンティックセグメンテーションネットワーク402のみを使用して、トレーニング済みセマンティックセグメンテーションネットワーク402への入力としてのカラー画像の分類結果を生成することができる。
【0069】
図5Aは、本開示の実施形態による、セマンティックセグメンテーションネットワークの例示的なアーキテクチャを示す図である。図5には、セマンティックセグメンテーションネットワーク500の例示的なアーキテクチャを示す。セマンティックセグメンテーションネットワーク500は、図1のセマンティックセグメンテーションネットワーク500及び図4のセマンティックセグメンテーションネットワーク402の例とすることができる。
【0070】
この例示的なアーキテクチャには、入力層502と、畳み込み層504と、複数のバックボーンブロックを含むバックボーン層506とを示す。バックボーン層506の後には、空間ピラミッドプーリング層508、1×1の畳み込み/ReLU層510、第1のアップサンプリング層512、及び第1のプーリング層514が続くことができる。第1のプーリング層514の後には、ReLU6 516、1×1の畳み込み/バッチ正規化層518、第2のアップサンプリング層520、及び第2のプーリング層522が続くことができる。また、第2のプーリング層522の後には、ReLU6 524、スコアリング層526、及び出力層528が続くこともできる。また、例示的なアーキテクチャは、第1の分岐530及び第2の分岐532を含むこともできる。第1の分岐530及び第2の分岐532は、いずれもバックボーン層506の異なるブロックから分岐することができ、それぞれ第2のプーリング層522及び第1のプーリング層514において融合することができる。
【0071】
入力層502は、入力としてのカラー画像を受け取り、この入力を畳み込み層504に送ることができる。畳み込み層504は、畳み込み関数、ReLU、及びバッチ正規化関数を含むことができる。畳み込み層504の出力は、バックボーン層506に送ることができる特徴マップとすることができる。
【0072】
バックボーン層506の複数のバックボーンブロックは、ブロック1&2、ブロック3、ブロック4、ブロック5、ブロック6及びブロック7を含むことができる。複数のバックボーンブロックは、密に接続された畳み込みニューラルネットワーク(以下、dense-netと呼ぶ)に基づくことができる。各バックボーンブロックは、一群の畳み込み層を含む少なくとも1つのDenseブロックを含むことができ、一群の畳み込み層の各畳み込み層は、その前の全ての畳み込み層に接続することができる。また、各畳み込み層では、前の層からの特徴マップを連結することができる。Denseブロックは、1又は2以上の畳み込み層間に1又は2以上の遷移層を含むこともできる。各遷移層は、バックボーン層506のそれぞれのDenseブロック内の前の層からの活性化/特徴マップをダウンサンプリングすることができ、好適な活性化関数(例えば、ReLU)及びバッチ正規化関数を含むことができる。
【0073】
本明細書では、セマンティックセグメンテーションネットワーク500が空間経路534とコンテキスト経路536とに分岐することができる。空間経路及びコンテキスト経路は逆プーリングすることができる。空間経路534は、セマンティックセグメンテーションネットワーク500がトレーニングされている間に、セマンティックセグメンテーションネットワーク500の各ストライドで入力カラー画像の空間情報を維持することができる。同様に、コンテキスト経路536は、セマンティックセグメンテーションネットワーク500がトレーニングされている間に、各ストライドで入力カラー画像の意味的コンテキスト情報を維持することができる。
【0074】
空間特徴分岐:ブロック1&2の第1の畳み込みブロックの出力は、空間特徴を抽出するために第1の分岐530に沿って分岐することができる。本明細書では、第1の分岐530が、セマンティックセグメンテーションネットワーク500の空間経路534を形成することができる。第1の畳み込みブロックは、入力カラー画像から基本形状情報(primitive shape information)を取り込むことを学習する傾向にあるので、第1の分岐530は、後で第2のプーリング層522と融合できるように、例えば8のストライドで空間特徴を抽出することができる。
【0075】
コンテキスト抽出:大半が入力カラー画像の空間解像度に由来する計算の複雑性を抑えるために、Denseブロック内の(単複の)遷移層は、(単複の)特徴マップがバックボーン層506の第1のDenseブロックに提供される前に特徴マップを8などの高ストライドレベルにダウンサンプリングすることができる。本明細書では、複数のバックボーンブロックがセマンティックセグメンテーションネットワーク500のコンテキスト経路536を形成することができる。各Denseブロック内では、ダウンサンプリング段(すなわち、遷移層)の数を3倍ではなく2倍に低減することができ、DenseブロックのDense層内の特徴マップに膨張畳み込み(dilated convolution)を適用して、パラメータサイズ及び計算の複雑性を犠牲にすることなく受容野サイズを増加させることができる。
【0076】
空間ピラミッドプーリング:空間ピラミッドプーリング層508は、入力特徴空間のサイズを所与としてバックボーン層506からの(単複の)出力特徴マップの平均プーリングを複数のスケールにわたって自動的に実行できる動的空間プーリング法を採用することができる。例えば、最初に全体平均プーリング(global average pooling)を実行して、特徴の高さ及び幅[h0,w0]を、空間ピラミッドプーリング層508で使用されるフィルタカーネルのサイズ[kh0,kw0]に等しくすることができる。全体平均プーリングの後にダウンサイジング動作を行って、例えばフィルタカーネルを0.5倍だけダウンサイジングできる一方でフィルタカーネルの両側[khj,kwj]を4以上にし、すなわちkhj=4又はkwj=4とすることができる。この動作は、動的ピラミッド空間プーリング(DPSP)と呼ぶことができる。DPSPの後に、DPSPからの出力特徴マップを1×1の畳み込み/ReLU層510に提供して、1×1の畳み込みの後にバッチ正規化及びReLU関数を適用することができる。空間ピラミッドプーリング層508の出力は、入力カラー画像の意味的コンテキスト情報を含むことができる。
【0077】
融合及びアップサンプリング:第2のプーリング層522では、(第2の分岐532及び空間ピラミッドプーリング層508からの)意味的コンテキスト情報を融合することができる。同様に、第1のプーリング層514では、第2のプーリング層522からの意味的コンテキスト情報を空間情報(又は第1の分岐530からの空間特徴)と融合することができる。第1の分岐530及び第2の分岐532の融合は、要素毎の和とその後のReLU関数とを使用して実行することができる。第1のプーリング層514の前には、第1のアップサンプリング層512を使用して空間ピラミッドプーリング層508の出力をアップサンプリングすることができる。同様に、第2のプーリング層522の前には、第2のアップサンプリング層520を使用して第1のプーリング層514の出力をさらにアップサンプリングすることができる。第1の分岐530の後にのみ、第1のプーリング層514の出力にバッチ正規化を含むさらなる1×1の畳み込みを適用して特徴サイズを次のストライドレベルに揃えることができる。第1のアップサンプリング層512の出力特徴マップサイズは、例えば168とすることができるのに対し、第2のアップサンプリング層520の出力特徴マップサイズは128である。空間情報を意味的コンテキスト情報と融合する第2のプーリング層522の後に、8のストライドにアップスケーリングされた第2のプーリング層522の出力特徴マップをスコアリング層526に送ることができ、スコアリング層526が入力カラー画像の最終スコアマップを出力することができる。
【0078】
なお、図5に示す例示的なアーキテクチャは、ソフトCE損失に基づくトレーニングの例として示すものにすぎず、本開示の範囲を限定するものとして解釈すべきではない。開示した(図1及び図4の)セマンティックセグメンテーションネットワーク500のトレーニングの動作は、エンコーダ-デコーダタイプのアーキテクチャを有するあらゆる任意のセマンティックセグメンテーションネットワークに適用することもできる。
【0079】
図5B図5C及び図5Dは、本開示の実施形態による、図5Aの例示的なアーキテクチャの分岐ブロック及びアップサンプリング層を示す図である。図5B図5C及び図5Dの説明は、図1図2図3図4及び図5Aの要素に関連して行う。図5B図5C及び図5Dには、図5Aのセマンティックセグメンテーションネットワークの第1の分岐530、第2の分岐532及びアップサンプリング層538を示す。
【0080】
第1の分岐530は、3×3の畳み込みの後に、上限6のバッチ正規化/ReLU活性化、1×1の畳み込み、及びバッチ正規化を含むことができる。本明細書におけるReLUは、正規化線形関数(rectified linear function)を意味する。第1の分岐530は、入力カラー画像の空間特徴をセマンティックセグメンテーションネットワーク500の空間経路534に沿った空間情報として抽出することができる。空間経路534は、セマンティックセグメンテーションネットワーク500のトレーニング期間全体を通じて入力カラー画像に空間情報を維持するのに役立つことができる。
【0081】
第2の分岐532は、1×1の畳み込み及びバッチ正規化を含むことができる。アップサンプリング層538は、双一次アップサンプリング関数(bilinear up-sampling function)、3×3のDepth-wise畳み込み、1×1のPoint-wise畳み込み、及びバッチ正規化を含むことができる。アップサンプリング層538は、特徴マップを好適なストライドでアップスケーリングするために使用される第1のアップサンプリング層512及び第2のアップサンプリング層520の両方に適用することができる。
【0082】
図6は、本開示の実施形態による、セマンティックセグメンテーションネットワークの別の例示的なアーキテクチャを示す図である。図6の説明は、図1図2図3図4図5A図5B図5C及び図5Dの要素に関連して行う。図6には、セマンティックセグメンテーションネットワーク600の例示的なアーキテクチャを示す。セマンティックセグメンテーションネットワーク600は、図1のセマンティックセグメンテーションネットワーク110及び図4のセマンティックセグメンテーションネットワーク402の例とすることができる。
【0083】
この例示的なアーキテクチャでは、セマンティックセグメンテーションネットワーク600が、エンコーダネットワーク602と、エンコーダネットワーク602の出力に接続されたデコーダネットワーク604とを含むことができる。エンコーダネットワーク602は、入力層606と、一連のDenseブロック608と、一連の遷移層610とを含むことができる。エンコーダネットワーク602は、ピラミッド空間プーリング層612及び空間経路ブロック614を含むこともできる。
【0084】
デコーダネットワーク604は、アップサンプリング層616と、畳み込み層618と、プーリング層620と、スコアリング層622と、出力層624とを含むことができる。(第1の分岐530と同じ)空間経路ブロック614は、一連のDenseブロック608のうちの1つから分岐することができ、デコーダネットワーク604のプーリング層620と逆融合することができる。一連のDenseブロック608の各Denseブロックは、第1のバッチ正規化層608aと、1×1の畳み込み層608bと、第2のバッチ正規化層608cと、3×3のDepth-wise(DW)分離可能畳み込み層608dと、1×1のPoint-wise(PW)分離可能畳み込み層608eと、連結層608fとを含むことができる。セマンティックセグメンテーションネットワークブロック/層の詳細については既に図1図5A図5B図5C及び図5Dに示しており、従って説明を簡潔にするために本開示から省略する。
【0085】
図7は、本開示の実施形態による、図3の電子装置における図4のセマンティックセグメンテーションネットワークの例示的な実装を示す図である。図7の説明は、図1図3図4図5A図5B図5C図5D及び図6の要素に関連して行う。図7には、電子装置106におけるセマンティックセグメンテーションネットワーク402の実装を示す図700を示す。セマンティックセグメンテーションネットワーク402は、図1の404~418の動作に基づいてシステム102上でトレーニングされると、電子装置106などの様々な装置へのデプロイ準備が整うことができる。
【0086】
電子装置106上にデプロイされると、メモリ304は、セマンティックセグメンテーションネットワーク402を記憶して、セマンティックセグメンテーションネットワーク402の機能と、その出力を必要とし得るアプリケーションのプログラムコードとを統合することができる。応用例として、自動運転車における自律制御応用を挙げることができる。自律制御応用は、セマンティックセグメンテーションネットワーク402の出力に依拠してそのカメラセンサのFOV内の様々なオブジェクトタイプを区別し、リアルタイム/近リアルタイムで好適な運転判断又は推論を行うことができる。
【0087】
電子装置106では、回路302が、セマンティックセグメンテーションネットワーク402の入力層にカラー画像702を入力することができる。例えば、入力カラー画像702は、車、建物、照明設備、信号機、道路及び歩行者などを含む都市街路シーンに関連することができる。セマンティックセグメンテーションネットワーク402は、入力カラー画像702を受け取ると、初期ストライド(すなわち、1)でのスコアマップを含むことができる分類結果計算704を実行することができる。スコアマップのサイズは、入力カラー画像702のサイズと同じであることができるので、スコアマップ内の各点は、入力カラー画像702の対応するピクセルのクラスラベルを表すことができる。
【0088】
分類結果の計算は、クラスの最大スコアインデックスを含むことができる。トレーニング済みセマンティックセグメンテーションネットワーク402は、それ自体が入力カラー画像702の確率マップを出力できるので、クラスの最大スコアインデックスの計算に基づいて分類結果を取得することができる。例えば、トレーニング済みセマンティックセグメンテーションネットワーク402の出力は、体積テンソルによって([num_class(クラス数)×高さ×幅]で)表すことができる。2Dの最終クラスIDマップ又は最終スコアマップを取得するには、各ピクセルが特定のクラスID及びカラー値に割り当てられた入力カラー画像702のサイズ(すなわち、高さ×幅(ピクセル単位))に出力を再形成する必要がある。このため、電子装置106は、体積テンソルにargmax演算を適用してクラスチャネルの最大スコアインデックスを抽出することができる。その後、回路302は、セマンティックセグメンテーションネットワーク402の出力層から入力カラー画像702の各ピクセルの分類結果を抽出することができる。分類結果は、例えば入力カラー画像702の解像度に等しい解像度のスコアマップを含むことができる。スコアマップの各値は、クラスラベルセットの中から入力カラー画像702の各ピクセルのクラスラベルを予測することができる。
【0089】
次に、回路302は、分類結果に基づいて、意味的にセグメント化された画像706を生成することができる。意味的にセグメント化された画像706は、対応する一連の色で塗りつぶされた一連の領域708を含むことができ、一連の領域708の各領域は、マルチクラス分類タスクの特定のクラスに対応することができる。例えば、意味的にセグメント化された画像706は、木のラベルに属するピクセルを1つの色によって示し、車のラベルに属するピクセルを別の色によって示し、建物のラベルに属するピクセルを別の色によって示す。
【0090】
図8は、本開示の実施形態による、ソフトクロスエントロピー損失を用いたセマンティックセグメンテーションのための例示的な方法を示すフローチャートである。図8には、フローチャート800を示す。例示的な方法の動作は、例えば図2のシステム102などのいずれかのコンピュータシステムが実行することができる。フローチャート800の動作は、802から開始して804に進むことができる。
【0091】
804において、セマンティックセグメンテーションネットワーク110の入力層に第1のカラー画像を入力することができる。少なくとも1つの実施形態では、回路202が、セマンティックセグメンテーションネットワーク110の入力層に第1のカラー画像を入力することができる。セマンティックセグメンテーションネットワーク110は、第1の入力カラー画像に基づくセマンティックセグメンテーションネットワーク110の補助層の出力として補助ストライドで第1の特徴マップを生成することができる。
【0092】
806において、セマンティックセグメンテーションネットワーク110の補助層から第1の特徴マップを抽出することができる。少なくとも1つの実施形態では、回路202が、セマンティックセグメンテーションネットワーク110の補助層から第1の特徴マップを抽出することができる。
【0093】
808において、抽出された第1の特徴マップに基づいて、マルチクラス分類タスクの一連のクラスにわたるソフトラベルセットとしての確率マップを計算することができる。少なくとも1つの実施形態では、回路202が、抽出された第1の特徴マップに基づいて、マルチクラス分類タスクの一連のクラスにわたるソフトラベルセットとしての確率マップを計算することができる。
【0094】
810において、計算された確率マップと補助ストライドでのグラウンドトゥルース確率マップとの間の補助CE損失を計算することができる。少なくとも1つの実施形態では、回路202が、計算された確率マップと補助ストライドでのグラウンドトゥルース確率マップとの間の補助CE損失を計算することができる。
【0095】
812において、計算された補助CE損失に基づいて、セマンティックセグメンテーションネットワーク110をマルチクラス分類タスクのためにトレーニングすることができる。少なくとも1つの実施形態では、回路202が、計算された補助CE損失に基づいて、セマンティックセグメンテーションネットワーク110をマルチクラス分類タスクのためにトレーニングすることができる。制御は、終了に進むことができる。
【0096】
本開示の様々な実施形態は、機械及び/又はコンピュータがソフトクロスエントロピー損失を用いたセマンティックセグメンテーションのためのシステムを動作させるために実行できる命令を記憶した非一時的コンピュータ可読媒体及び/又は記憶媒体を提供することができる。これらの命令は、マルチクラス分類タスクのためにセマンティックセグメンテーションネットワークの入力層に第1のカラー画像を入力することを含む動作を機械及び/又はコンピュータに実行させることができる。マルチクラス分類タスクは、第1のカラー画像の各ピクセルを一連のクラスのうちの1つに分類することに対応することができる。動作は、セマンティックセグメンテーションネットワークが、第1の入力カラー画像に基づいて、セマンティックセグメンテーションネットワークの補助層の出力として補助ストライドで第1の特徴マップを生成することをさらに含むことができる。動作は、生成された第1の特徴マップを補助層から抽出することと、抽出された第1の特徴マップに基づいて、マルチクラス分類タスクの一連のクラスにわたるソフトラベルセットとしての確率マップを計算することとをさらに含むことができる。動作は、計算された確率マップと補助ストライドでのグラウンドトゥルース確率マップとの間の補助クロスエントロピー損失を計算することと、計算された補助クロスエントロピー損失に基づいて、セマンティックセグメンテーションネットワークをマルチクラス分類タスクのためにトレーニングすることとをさらに含むことができる。
【0097】
本開示の様々な実施形態は、機械及び/又はコンピュータがソフトクロスエントロピー損失を用いたセマンティックセグメンテーションのための電子装置を動作させるために実行できる命令を記憶した非一時的コンピュータ可読媒体及び/又は記憶媒体を提供することができる。これらの命令は、セマンティックセグメンテーションネットワークの補助層の補助クロスエントロピー損失に基づいて予めトレーニングされたセマンティックセグメンテーションネットワークを記憶することを含む動作を機械及び/又はコンピュータに実行させることができる。動作は、セマンティックセグメンテーションネットワークの入力層にカラー画像を入力することと、セマンティックセグメンテーションネットワークの出力層から入力カラー画像の各ピクセルの分類結果を抽出することとをさらに含むことができる。動作は、抽出された最終スコアマップに基づいて、意味的にセグメント化された画像を生成することをさらに含むことができる。意味的にセグメント化された画像は、対応する一連の色で塗りつぶされた一連の領域を含むことができ、一連の領域の各領域は、マルチクラス分類タスクの特定のクラスに対応することができる。
【0098】
本開示のいくつかの実施形態は、ソフトクロスエントロピー損失を用いたセマンティックセグメンテーションのためのシステム及び方法において見出すことができる。本開示の様々な実施形態は、回路202(図2)を含むことができるシステム102(図1)を提供することができる。回路202は、マルチクラス分類タスクのためにセマンティックセグメンテーションネットワーク110の入力層110aに第1のカラー画像を入力するように構成することができる。マルチクラス分類タスクは、第1のカラー画像の各ピクセルを一連のクラスのうちの1つに分類することに対応することができる。セマンティックセグメンテーションネットワーク110は、第1の入力カラー画像に基づくセマンティックセグメンテーションネットワーク110の補助層116の出力として補助ストライドで第1の特徴マップを生成することができる。回路202は、生成された第1の特徴マップを補助層116から抽出し、抽出された第1の特徴マップに基づいてマルチクラス分類タスクの一連のクラスにわたるソフトラベルセットとしての確率マップを計算するようにさらに構成することができる。その後、回路202は、計算された確率マップと補助ストライドでのグラウンドトゥルース確率マップとの間の補助クロスエントロピー損失を計算し、計算された補助クロスエントロピー損失に基づいてセマンティックセグメンテーションネットワーク110をマルチクラス分類タスクのためにトレーニングするようにさらに構成することができる。
【0099】
ある実施形態によれば、セマンティックセグメンテーションネットワーク110は、エンコーダネットワーク112と、エンコーダネットワーク112の出力112nに接続されたデコーダネットワーク114とを含むことができる。エンコーダネットワーク112は、第1のカラー画像を初期ストライドで入力として受け取り、第1のストライドで第2の特徴マップを出力することができる。第1のストライドは、初期ストライドの倍数とすることができる。デコーダネットワーク114は、第2の特徴マップを第1のストライドで受け取り、最終スコアマップを初期ストライドで逆出力することができる。
【0100】
ある実施形態によれば、回路202は、セマンティックセグメンテーションネットワーク110の性能測度に基づいて、セマンティックセグメンテーションネットワーク110のデコーダネットワーク114から補助層116を選択するようにさらに構成することができる。
【0101】
ある実施形態によれば、補助ストライドは、第1のカラー画像のサイズに対する第1の特徴マップのサイズの比率に対応することができる。同様に、第1のストライドは、第1のカラー画像のサイズに対する第2の特徴マップのサイズの比率に対応することができる。
【0102】
ある実施形態によれば、セマンティックセグメンテーションネットワーク110は、後でセマンティックセグメンテーションネットワーク110の出力層528の前に逆プーリングすることができる空間経路534とコンテキスト経路536とに分岐することができる。本明細書では、セマンティックセグメンテーションネットワーク110がトレーニングされている間に、空間経路534がセマンティックセグメンテーションネットワーク110の各ストライドでの第1のカラー画像の空間情報を維持することができる。同様に、コンテキスト経路536は、セマンティックセグメンテーションネットワーク110がトレーニングされている間に、各ストライドでの第1のカラー画像の意味的コンテキスト情報を維持することができる。
【0103】
ある実施形態によれば、エンコーダネットワーク602は、入力層606と、一連のDenseブロック608と、一連の遷移層610と、ピラミッド空間プーリング層612と、空間経路ブロック614とを含むことができる。同様に、デコーダネットワーク604は、アップサンプリング層616と、畳み込み層618と、プーリング層620と、スコアリング層622とを含むことができる。空間経路ブロック614は、一連のDenseブロック608のうちの1つから分岐することができ、デコーダネットワーク114のプーリング層620と逆融合することができる。ある実施形態によれば、一連のDenseブロック608の各Denseブロックは、第1のバッチ正規化層608aと、1×1の畳み込み層608bと、第2のバッチ正規化層608cと、3×3のDepth-wise(DW)分離可能畳み込み層608dと、1×1のPoint-wise(PW)分離可能畳み込み層608eと、連結層608fとを含むことができる。
【0104】
ある実施形態によれば、回路202は、補助層116の前のセマンティックセグメンテーションネットワーク110の1又は2以上の層の確率マップに基づいて、一連のクラスにわたるマルチラベル確率分布としてのグラウンドトゥルース確率マップ408aを補助ストライドで計算するようにさらに構成することができる。
【0105】
ある実施形態によれば、回路202は、セマンティックセグメンテーションネットワーク110の出力層114nから最終スコアマップを抽出するようにさらに構成することができる。最終スコアマップは、入力カラー画像に対するセマンティックセグメンテーションネットワーク110の出力に対応することができる。回路202は、抽出された最終スコアマップに基づいて最終クロスエントロピー損失を計算するようにさらに構成することができる。計算された最終クロスエントロピー損失は、例えばヒストグラム重み付きソフトマックスクロスエントロピー損失とすることができる。回路202は、計算された補助クロスエントロピー損失及び計算された最終クロスエントロピー損失に基づいてセマンティックセグメンテーションネットワーク110の全体的損失測度を推定し、推定された全体的損失測度にさらに基づいてセマンティックセグメンテーションネットワーク110をトレーニングするようにさらに構成することができる。セマンティックセグメンテーションネットワーク110のトレーニングは、推定される全体的損失測度が最小になるまでセマンティックセグメンテーションネットワーク110の異なる層の重みを更新することに対応することができる。
【0106】
ある実施形態によれば、回路202は、トレーニング済みセマンティックセグメンテーションネットワーク110に第2のカラー画像を入力し、トレーニング済みセマンティックセグメンテーションネットワーク110の出力層114nから第2の入力カラー画像の各ピクセルの分類結果を抽出するようにさらに構成することができる。その後、回路202は、分類結果に基づいて、対応する一連の色で塗りつぶされた一連の領域を含む意味的にセグメント化された画像を生成するようにさらに構成することができる。一連の領域の各領域は、一連のクラスのクラスに対応することができる。
【0107】
本開示は、ハードウェアで実現することも、又はハードウェアとソフトウェアとの組み合わせで実現することもできる。本開示は、少なくとも1つのコンピュータシステム内で集中方式で実現することも、又は異なる要素を複数の相互接続されたコンピュータシステムにわたって分散できる分散方式で実現することもできる。本明細書で説明した方法を実行するように適合されたコンピュータシステム又はその他の装置が適することができる。ハードウェアとソフトウェアとの組み合わせは、ロードされて実行された時に本明細書で説明した方法を実行するようにコンピュータシステムを制御することができるコンピュータプログラムを含む汎用コンピュータシステムとすることができる。本開示は、他の機能も実行する集積回路の一部を含むハードウェアで実現することができる。
【0108】
本開示は、本明細書で説明した方法の実装を可能にする全ての特徴を含み、コンピュータシステムにロードされた時にこれらの方法を実行できるコンピュータプログラム製品に組み込むこともできる。本文脈におけるコンピュータプログラムとは、情報処理能力を有するシステムに特定の機能を直接的に、或いはa)別の言語、コード又は表記法への変換、b)異なる内容形態での複製、のいずれか又は両方を行った後に実行させるように意図された命令セットの、あらゆる言語、コード又は表記法におけるあらゆる表現を意味する。
【0109】
いくつかの実施形態を参照しながら本開示を説明したが、当業者であれば、本開示の範囲から逸脱することなく様々な変更を行うことができ、同等物を代用することもできると理解するであろう。また、本開示の範囲から逸脱することなく、特定の状況又は内容を本開示の教示に適合させるように多くの修正を行うこともできる。従って、本開示は、開示した特定の実施形態に限定されるものではなく、添付の特許請求の範囲内に収まる全ての実施形態を含むように意図される。
【符号の説明】
【0110】
500 セマンティックセグメンテーションネットワーク
502 入力層
504 畳み込み層
506 バックボーン層
508 空間ピラミッドプーリング層
510 1×1の畳み込み/ReLU
512 第1のアップサンプリング層
514 第1のプーリング層
516 ReLU6
518 1×1の畳み込み/BN
520 第2のアップサンプリング層
522 第2のプーリング層
524 ReLU6
526 スコアリング層
528 出力層
530 第1の分岐
532 第2の分岐
534 空間経路
536 コンテキスト経路
図1
図2
図3
図4
図5A
図5B
図5C
図5D
図6
図7
図8
【国際調査報告】