IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ロレアルの特許一覧

特許7498195複数のオブジェクトを追跡するための畳み込みニューラルネットワークを用いた画像処理
<>
  • 特許-複数のオブジェクトを追跡するための畳み込みニューラルネットワークを用いた画像処理 図1
  • 特許-複数のオブジェクトを追跡するための畳み込みニューラルネットワークを用いた画像処理 図2
  • 特許-複数のオブジェクトを追跡するための畳み込みニューラルネットワークを用いた画像処理 図3
  • 特許-複数のオブジェクトを追跡するための畳み込みニューラルネットワークを用いた画像処理 図4
  • 特許-複数のオブジェクトを追跡するための畳み込みニューラルネットワークを用いた画像処理 図5
  • 特許-複数のオブジェクトを追跡するための畳み込みニューラルネットワークを用いた画像処理 図6
  • 特許-複数のオブジェクトを追跡するための畳み込みニューラルネットワークを用いた画像処理 図7
  • 特許-複数のオブジェクトを追跡するための畳み込みニューラルネットワークを用いた画像処理 図8
  • 特許-複数のオブジェクトを追跡するための畳み込みニューラルネットワークを用いた画像処理 図9
  • 特許-複数のオブジェクトを追跡するための畳み込みニューラルネットワークを用いた画像処理 図10
  • 特許-複数のオブジェクトを追跡するための畳み込みニューラルネットワークを用いた画像処理 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-03
(45)【発行日】2024-06-11
(54)【発明の名称】複数のオブジェクトを追跡するための畳み込みニューラルネットワークを用いた画像処理
(51)【国際特許分類】
   G06T 7/194 20170101AFI20240604BHJP
   G06T 7/00 20170101ALI20240604BHJP
   G06N 3/04 20230101ALI20240604BHJP
【FI】
G06T7/194
G06T7/00 350C
G06N3/04
【請求項の数】 9
(21)【出願番号】P 2021564763
(86)(22)【出願日】2020-04-29
(65)【公表番号】
(43)【公表日】2022-07-04
(86)【国際出願番号】 CA2020050566
(87)【国際公開番号】W WO2020220126
(87)【国際公開日】2020-11-05
【審査請求日】2022-12-22
(31)【優先権主張番号】62/840,718
(32)【優先日】2019-04-30
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】391023932
【氏名又は名称】ロレアル
【氏名又は名称原語表記】L’OREAL
【住所又は居所原語表記】14 Rue Royale,75008 PARIS,France
(74)【代理人】
【識別番号】110000534
【氏名又は名称】弁理士法人真明センチュリー
(72)【発明者】
【氏名】デューク・ブレンダン
(72)【発明者】
【氏名】アフマド・アブドラ
(72)【発明者】
【氏名】フォン・エドモンド
(72)【発明者】
【氏名】ケゼル・イリーナ
(72)【発明者】
【氏名】アーラビ・パラム
【審査官】松浦 功
(56)【参考文献】
【文献】国際公開第2018/221092(WO,A1)
【文献】特表2020-511190(JP,A)
【文献】米国特許出願公開第2019/0094875(US,A1)
【文献】中国特許出願公開第109508681(CN,A)
【文献】中国特許出願公開第109522966(CN,A)
【文献】MAZZINI, D. et al.,A CNN Architecture for Efficient Semantic Segmentation of Street Scenes,2018 IEEE 8th International Conference on Consumer Electronics - Berlin (ICCE-Berlin) [online],2018年,[検索日 2023.12.14],インターネット,URL:https://ieeexplore.ieee.org/abstract/document/8576193
【文献】ZHAO, H. et al.,ICNet for Real-Time Semantic Segmentation on High-Resolution Images,Proceedings of the European Conference on Computer Vision (ECCV) [online],2018年,pp. 1-16,[検索日 2023.12.14],インターネット,URL:https://openaccess.thecvf.com/content_ECCV_2018/html/Hengshuang_Zhao_ICNet_for_Real-Time_ECCV_2018_paper.html
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G06N 3/04 - 3/0499
G06V 10/00 -20/90
(57)【特許請求の範囲】
【請求項1】
畳み込みニューラルネットワーク(CNN)を有する複数のオブジェクトを備える画像処理であって、前記CNNは、画像内の前記複数のオブジェクトを意味論的にセグメント化するように構成され、前記CNNは、カスケードされた意味論的セグメンテーションモデルアーキテクチャを備え、
低解像度特徴の深い学習を提供する第1の分岐と、
高解像度特徴の浅い学習を提供する第2の分岐と、を備え、
前記CNNは、前記第1の分岐および前記第2の分岐からのそれぞれの予測を組み合わせて、フォアグラウンド/バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、方向性情報と、を含む情報を出力し、
前記方向性情報は、前記オブジェクトごとに第1の端から第2の端までの2D方向性ベクトルのフィールドからなる方法。
【請求項2】
前記情報の少なくとも一部を前記CNNからの出力として用いて前記画像から更新された画像を生成し画像処理を実行することを含む請求項1記載の方法。
【請求項3】
前記複数のオブジェクトに適用するための外観選択を受信するためのユーザインタフェースを提示することと、
カメラから、前記画像として用いるためのセルフィービデオ画像を受信することと、
前記外観選択を用いて、前記更新された画像を生成するために前記セルフィービデオ画像を処理することと、
拡張現実をシミュレートするために前記更新された画像を提示することと、を備える請求項記載の方法。
【請求項4】
複数のオブジェクトを含む画像を処理した畳み込みニューラルネットワーク(CNN)によって意味論的にセグメント化された前記複数のオブジェクトの各々について、フォアグラウンド/バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、方向性情報と、を含む出力を受信することと、
更新された画像を生成するための画像を処理することと、
前記フォアグラウンド/バックグラウンドセグメンテーション及び前記オブジェクトクラスセグメンテーションに従ってセグメント化された前記複数のオブジェクトの各々にわたる選択された色の勾配を描画し、前記選択された色は、前記方向性情報によって示されるように、前記オブジェクトの各々のそれぞれの方向に垂直に描画され
前記方向性情報は、前記オブジェクトごとに第1の端から第2の端までの2D方向性ベクトルのフィールドからなる方法。
【請求項5】
前記勾配にわたって前記複数のオブジェクトの各々にそれぞれのスペキュラー成分を適用することと、混合することと、をさらに含む請求項記載の方法。
【請求項6】
描画の前に、前記フォアグラウンド/バックグラウンドセグメンテーションによって識別される前記複数のオブジェクトの各々のそれぞれの領域を伸張して、その先端のマージンが描画のために含まれることを保証することをさらに含む請求項記載の方法。
【請求項7】
描画の前に、前記複数のオブジェクトから決定された平均色で伸張された前記複数のオブジェクトの各々の前記それぞれの領域の外側の少なくとも一部の隣接する領域を着色することと、
伸張された前記複数のオブジェクトの各々の前記それぞれの領域および前記隣接する領域をぼかすことと、をさらに含む請求項6記載の方法。
【請求項8】
前記画像は、指爪を有する手の少なくとも一部を含み、前記複数のオブジェクトは、指爪を含む請求項1からのいずれかに記載の方法。
【請求項9】
処理装置と、それに結合された記憶デバイスと、を備えるコンピューティングデバイスであって、前記記憶デバイスは、前記処理装置によって請求項1からのいずれかに記載の方法を実行するように構成される命令を記憶するコンピューティングデバイス。
【発明の詳細な説明】
【技術分野】
【0001】
以下は、畳み込みニューラルネットワーク(CNN)に適合されたコンピューティングデバイスを用いて、ビデオ画像を含む画像を処理することに関し、このようなコンピューティングデバイスは、消費者向けスマートフォン又はタブレットを含むことができ、より詳細には、CNNを用いて、ビデオ内の指爪などの複数のオブジェクトを追跡(例えば、意味論的にセグメント化)する画像処理に関する。
【0002】
<バックグラウンド>
指爪の追跡問題は、ビデオストリームからの指爪をピクセル精度においてリアルタイムで位置特定し、識別することである。さらに、拡張現実を提供するように、ビデオストリームからの画像を適応させるためのレンダリング技術をサポートすることが望ましい。ビデオストリーム内を含め、画像内の指紋以外のオブジェクトの位置を特定し、識別することが望まれる場合がある。
【発明の概要】
【0003】
指爪をリアルタイムで追跡し、マニキュア液をレンダリングするためのエンドツーエンドの解決策が提示されている。意味論的セグメンテーションおよびランドマークラベルを有する全く新しいデータセットが収集された。モバイルデバイス用の高解像度ニューラルネットワークモデルを開発し、新しいデータセットを用いてトレーニングした。意味論的セグメンテーションを提供することに加えて、モデルは、向きを示すなどの方向性情報を提供する。マニキュア試着のための後処理およびレンダリングオペレーションが提供され、このオペレーションはモデルの出力の少なくともいくつかを用いる。
【0004】
指爪に関連して説明したが、セグメンテーション及び画像更新のために、他のオブジェクトを同様に処理することができる。このような他のオブジェクトはまた、単純な境界を有する小さなオブジェクト(例えば、指爪、爪先、靴、車(自動車)、ナンバープレート、または車の部品など)であってもよい。本明細書における単語「小さい」は、スケールおよび画像全体のサイズに関する相対的な単語である。例えば、指爪は、指爪を含む画像において捕捉される手のサイズと比較して比較的小さい。距離を置いて撮像された車のグループ内の車は、テーブル上に撮像されたプルーン(または他のフルーツ)のグループと同様に小さい。このモデルは、(ここでは手の指先を分類するように)既知のカウントおよびコンステレーションを有するオブジェクトのセットを分類するための一般化によく適している。
【0005】
処理装置と、それに結合された記憶デバイスと、を備えるコンピューティングデバイスが提供される。記憶デバイスは、CNNと、処理装置によって実行されてコンピューティングデバイスを以下のように構成する命令と、を記憶している。CNNを有する複数のオブジェクトを含む画像を処理する。CNNは、画像内の複数のオブジェクトを意味論的にセグメント化するように構成される。CNNは、以下を有するカスケードされた意味論的セグメンテーションモデルアーキテクチャを含む。低解像度特徴の深い学習を提供する第1の分岐と、高解像度特徴の浅い学習を提供する第2の分岐と、を備える。CNNは、第1の分岐および第2の分岐からのそれぞれの予測を組み合わせて、フォアグラウンド/バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、を含む情報を出力する。
【0006】
CNNは、第1の分岐および第2の分岐からのそれぞれの予測を組み合わせて、CNNからの出力としての情報が方向性情報をさらに含むことができる。
【0007】
第1の分岐は、第1の分岐のそれぞれの予測を生成するためのエンコーダ-デコーダバックボーンを備えることができる。第1の分岐のそれぞれの予測は、第1の分岐のエンコーダフェーズに続いて生成される初期予測と、第1の分岐のデコーダフェーズによるさらなる処理に続いて生成されるさらなる予測と、の組み合わせを含む。初期予測およびさらなる予測が、第1の分岐融合ブロックを用いて組み合わされて、第2の分岐のそれぞれの予測とさらに組み合わせるように提供するための第1の分岐のそれぞれの予測を生成してもよい。
【0008】
第2の分岐のそれぞれの予測は、第1の分岐とカスケード接続して、第2の分岐のエンコーダフェーズによる処理に続いて生成されてもよい。第1の分岐のそれぞれの予測(F)は、第2の分岐融合ブロックを用いて第2の分岐のそれぞれの予測(F)と組み合わせることができる。Fは、アップサンプリングされた低解像度の高意味論的情報特徴を含むことができ、Fは、高解像度の低意味論的情報特徴を含むことができる。このように、第2の分岐融合ブロックは、FとFとを組み合わせて、第2の分岐のデコーダフェーズで高解像度融合特徴F´を生成する。CNNは、ダウンサンプリングされたクラスラベルを生成するために、それぞれの予測Fに適用される畳み込み分類器を用いることができる。Fを処理するために、CNNは、多重出力デコーダ分岐を用いて、フォアグラウンド/バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、方向性情報と、を生成することができる。
【0009】
多重出力デコーダ分岐は、1×1畳み込みブロックとフォアグラウンド/バックグラウンドセグメンテーションを生成するためのアクティベーション関数とを有する第1の出力デコーダ分岐と、1×1畳み込みブロックとオブジェクトクラスセグメンテーションを生成するためのアクティベーション関数とを有する第2の出力デコーダ分岐と、方向性情報を生成するための1×1畳み込みブロックを有する第3の出力デコーダ分岐と、を備えることができる。
【0010】
CNNは、フォアグラウンド/バックグラウンドセグメンテーションを決定するように、意味論的セグメンテーションにおけるピクセル単位のクラス不均衡を克服するために、ロスマックスプーリング(LMP)損失関数を用いてトレーニングされてもよい。
【0011】
CNNは、ネガティブログライクリフッド損失(NLL)関数を用いてトレーニングされて、フォアグラウンド/バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、を決定することができる。
【0012】
CNNは、方向性情報を決定するためにHuber損失関数を用いてトレーニングされてもよい。
【0013】
各オブジェクトは基部および先端を含むことができ、方向性情報は、基部-先端方向フィールドを含むことができる。
【0014】
第1の分岐は、MobileNetV2エンコーダ-デコーダ構造を用いて定義することができ、第2の分岐は、MobileNetV2エンコーダ-デコーダ構造からのエンコーダ構造を用いて定義することができる。CNNは、最初に、ImageNetからのトレーニングデータを用いてトレーニングされ、その後、グランドトゥルースでラベル付けされた複数のオブジェクトについてのオブジェクト追跡データセットを用いてトレーニングされてもよい。
【0015】
命令は、さらに、少なくとも一部の情報を出力として用いて、画像から更新された画像を生成するための画像処理を実行するように、コンピューティングデバイスを構成してもよい。画像処理を実行するために、フォアグラウンド/バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、方向性情報と、の少なくとも一部を用いて、複数のオブジェクトの色などの外観を変更することができる。
【0016】
コンピューティングデバイスは、カメラを備え、複数のオブジェクトに適用するための外観選択肢を受信し、カメラから、画像として用いるためのセルフィービデオ画像を受信するためのユーザインタフェースを提示し、セルフィービデオ画像を処理して、外観選択肢を用いて更新された画像を生成し、拡張現実をシミュレートするために更新された画像を提示するように構成され得る。
【0017】
コンピューティングデバイスは、スマートフォン又はタブレットを備えることができる。
【0018】
画像は、指爪を有する手の少なくとも一部を含むことができ、複数のオブジェクトは、指爪を含むことができる。CNNは、出力情報のラプラシアンピラミッドを提供するように定義することができる。
【0019】
処理装置と、それに結合された記憶デバイスとを備えるコンピューティングデバイスであって、処理装置によって実行されると、複数のオブジェクトを含む画像を処理したCNNによって意味論的にセグメント化された複数のオブジェクトの各々について、フォアグラウンド/バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、方向性情報と、を含むCNN出力を受信し、フォアグラウンド/バックグラウンドセグメンテーション(及びオブジェクトクラスセグメンテーション)に従ってセグメント化された複数のオブジェクトの各々の上に選択された色の勾配を描画することによって、画像を処理して更新された画像を生成するように、コンピューティングデバイスを構成する命令を記憶する記憶デバイスが提供され、選択された色は、方向性情報によって示されるように、オブジェクトの各々のそれぞれの方向に垂直に描かれる。
【0020】
コンピューティングデバイスは、勾配にわたって複数のオブジェクトの各々にそれぞれのスペキュラー成分を適用し、結果を混合するように構成され得る。
【0021】
コンピューティングデバイスは、描画の前に、フォアグラウンド/バックグラウンドセグメンテーションによって識別される複数のオブジェクトの各々のそれぞれの領域を伸張して、その先端などのマージンが描画のために含まれることを保証するように構成され得る。コンピューティングデバイスは、描画の前に、複数のオブジェクトから決定された平均色で伸張された複数のオブジェクトの各々のそれぞれの領域の外側の少なくとも一部の隣接する領域を色付けし、伸張された複数のオブジェクトの各々のそれぞれの領域および隣接する領域をぼかすように構成されてもよい。
【0022】
コンピューティングデバイスは、描画時に用いるために選択された色を受け取るように構成することができる。
【0023】
処理装置と、それに結合された記憶デバイスとを備えるコンピューティングデバイスであって、CNNと、命令を記憶する記憶デバイスとを備え、処理装置によって実行されると、コンピューティングデバイスを、複数のオブジェクトを含む画像をCNNで処理するように構成し、CNNは、画像内で複数のオブジェクトを意味論的にセグメント化するように構成され、CNNは、低解像度特徴の深い学習を提供する第1の分岐と、高解像度特徴の浅い学習を提供する第2の分岐と、を有するカスケードされた意味論的セグメンテーションモデルアーキテクチャを備え、CNNは、第1の分岐および第2の分岐からのそれぞれの予測を組み合わせて、フォアグラウンド/バックグラウンドセグメンテーションを含む情報を出力し、CNNは、ロスミーンポーリング損失関数を用いてトレーニングされるコンピューティングデバイスが提供される。
【0024】
画像は、複数のピクセルを含み、画像内の複数のオブジェクトは、複数のピクセルのうちの少数によって表現される。CNNは、第1の分岐および第2の分岐からのそれぞれの予測を組み合わせて、オブジェクトクラスセグメンテーションを含む情報をさらに出力することができ、CNNは、NLL損失関数を用いてさらにトレーニングされる。CNNは、第1の分岐および第2の分岐からのそれぞれの予測を組み合わせて、方向性情報を含む情報をさらに出力することができ、CNNは、Huber損失関数またはL2損失関数を用いてさらにトレーニングされ得る。
【0025】
CNNは、出力情報のラプラシアンピラミッドを提供するように定義することができる。
【0026】
処理装置と、それに結合された記憶デバイスとを備えるコンピューティングデバイスが提供され、記憶デバイスは、命令を記憶し、処理装置によって実行されると、コンピューティングデバイスがCNNをトレーニングするために画像のデータセットに注釈を付けるようにグラフィカルユーザインタフェース(GUI)を提供するように構成し、GUIは、注釈付けされるべきそれぞれの画像を表示するための表示部を有し、この表示部はそれぞれの画像に示されるそれぞれのオブジェクトの輪郭を描く(セグメント)ための入力を受信し、それぞれのオブジェクトの各々について方向性情報を示す入力を受信し、画像に注釈を付けるための入力を受信し、データセットを定義するために注釈に画像を関連付けて保存するように構成される。
【0027】
コンピューティングデバイスは、それぞれのオブジェクトを意味論的に分類するための入力を受信するための制御を提供するように構成されてもよい。
【0028】
CNNは、画像内の複数のオブジェクトを意味論的にセグメント化するように構成されてもよく、CNNは、低解像度特徴の深い学習を提供する第1の分岐と、高解像度特徴の浅い学習を提供する第2の分岐と、を有するカスケードされた意味論的セグメンテーションモデルアーキテクチャを備え、CNNは、第1の分岐および第2の分岐からのそれぞれの予測を組み合わせて、フォアグラウンド/バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、を備える情報を出力する。
【0029】
コンピューティングデバイスは、本明細書のコンピューティングデバイスの任意の局面または特徴を有するように構成されてもよい。関連する方法の態様および特徴、ならびに関連するコンピュータプログラム製品の態様および特徴が、コンピューティングデバイスの態様および特徴のそれぞれについて提供されることは明らかであろう。これら及び他のことは、当業者には明らかであろう。
【図面の簡単な説明】
【0030】
図1図1は、一実施例によるデータセットの注釈付きデータを定義するグラフィカルユーザインタフェース(GUI)のスクリーンショットである。
図2図2は、一実施例によるデータセットの注釈付きデータを定義するGUIの一部のスクリーンショットである。
図3図3は、一実施例による画像を処理するCNNを示した図である。
図4図4は、図3のCNNの各部分を示した図である。
図5図5は、図3のCNNの各部分を示した図である。
図6図6は、フォアグラウンド、バックグラウンドマスク及び方向性情報を示す、本明細書の一例によるCNNを用いて処理された画像の4×4のアレイである。
図7図7A図7Cは、図6の拡大図である。
図8図8は、それぞれの指爪に対するオブジェクトクラスセグメンテーションマスクの適用を示す、本明細書の一実施例によるCNNを用いて処理された画像の4×4のアレイである。
図9図9は、図8の拡大図である。
図10図10は、オペレーションのフローチャートである。
図11図11は、オペレーションのための擬似コードを示した図である。
【0031】
【0032】
【0033】
【0034】
【0035】
【0036】
【0037】
【0038】
【0039】
【発明を実施するための形態】
【0040】
本発明の概念は、添付の図面を参照して本明細書で説明される、その特定の実施形態を通して最もよく説明され、ここで、同一の付番は全体を通して同一の特徴を指す。本明細書で使用されるとき、「発明」という単語は、単に実施形態自体ではなく、以下に記載される実施形態の基礎をなす発明概念を暗示することが意図されることを理解されたい。さらに、本発明の一般的な概念は、以下に記載される例示的な実施形態に限定されず、以下の説明はそのような観点から読まれるべきであることが理解されるべきである。2つ以上の発明概念が示され、説明されてもよく、それぞれは、別ステップの記載がない限り、独立であってもよく、または1つ以上の他のものと組み合わされてもよい。
【0041】
指爪をリアルタイムで追跡し、マニキュア液をレンダリングするためのエンドツーエンドの解決策が提示されている。意味論的セグメンテーション及びランドマークラベルを有する全く新しいデータセットが収集された。モバイルデバイス用の高解像度ニューラルネットワークモデルを開発し、新しいデータセットを用いてトレーニングした。意味論的セグメンテーションを提供することに加えて、モデルは、向きを示すなどの方向性情報を提供する。マニキュア試着のための後処理およびレンダリングオペレーションが提供され、このオペレーションは、モデルの出力の少なくとも一部を用いる。
【0042】
指爪に関連して説明したが、セグメンテーション及び画像更新のために、他のオブジェクトを同様に処理することができる。このような他のオブジェクトはまた、単純な境界を有する小さなオブジェクト(例えば、指爪、爪先、靴、自動車(自動車)、ナンバープレート、または自動車の自動車部品など)であってもよい。本明細書における「小さい」という単語は、スケール及び画像全体のサイズに関する相対的な単語である。例えば、指爪は、指爪を含む画像において捕捉される手のサイズと比較して比較的小さい。距離を置いて撮像された自動車のグループ内の自動車は、テーブル上に撮像されたプルーン(または他のフルーツ)のグループと同様に小さい。このモデルは、(ここでは、手の指先を分類するように)既知のカウント及びコンステレーションを有するオブジェクトのセットを分類するための一般化によく適している。
【0043】
トレーニングされたモデルは、2つのハードウェアプラットフォーム、すなわち、Core ML(登録商標)を介したiOS(登録商標)(例えば、そのような環境をサポートするiPhone(登録商標)などのApple Inc.製品上のネイティブアプリケーション実装)、及びTensorFlow.js(登録商標)[1]を介したウェブブラウザ(これは、よりプラットフォームに依存しない)上に展開された。以下は、Apple Inc.の商標である。iOS(登録商標)、Core ML(登録商標)、およびiPhone(登録商標)。モデル及び後処理オペレーションは、より高い計算ネイティブiOS(登録商標)プラットフォームと、よりリソース制約のあるウェブプラットフォームとの両方を、モデルアーキテクチャにわずかな微調整を行うだけで、性能に大きな悪影響を及ぼすことなくサポートするのに十分に柔軟である。
【0044】
以下は、選択された機能である。写真とビデオとの両方から供給され、フォアグラウンド-バックグラウンド、指毎のクラス、および基部-先端方向フィールドラベルで注釈付けされた1438個の画像のデータセットが作成された。モバイルデバイス上で実行し、小さなオブジェクトを正確にセグメント化するために設計された意味論的セグメンテーションのための新規なニューラルネットワークアーキテクチャが開発された。ロスマックスプーリングは、空間的(又はピクセル単位)クラス不均衡を誘発する、小さなオブジェクトの正確なセグメンテーションマスクをロバストに生成することが実証された。指爪追跡モデルからの複数の出力を用いて、指爪をセグメント化し、個々の指爪の位置を特定するとともに、それらの2D方向を見つける後処理オペレーションが開発された。後処理(レンダリングを含む)オペレーションは、勾配をレンダリングし、自然な指爪の明るい色の遠位縁を隠すために、これらの個々の指爪の位置および向きを用いる。
【0045】
<関連作業>
MobileNetV2[2]は、エンコーダ-デコーダニューラルネットワークアーキテクチャのエンコーダの基礎を形成する。この研究は、カスケードされた意味論的セグメンテーションモデルアーキテクチャにおけるバックボーンとして用いることにより、MobileNetV2上に構築される。さらに、モデルは、使用される特定のエンコーダモデルとは無視できるので、文献[3]、[4]、[5]、[6]からの既存の効率的なモデルは手で設計され、自動的に発見される(例えば、ネットワークプルーニングを介して)任意の将来の効率的なモデルと同様に、エンコーダのためのドロップイン置換として用いることができる。MobileNetV2は(例えば、ラップトップ、デスクトップ、ゲームコンピュータなどの大型コンピュータよりも少ないグラフィック処理リソースを有する)、スマートフォンで利用可能な、より少ないリソース上でのモデルの記憶および実行を可能にする効率の要件を満たす。
【0046】
ロスマックスプーリング(LMP)損失関数は[7]に基づいており、ここで、p-normパラメータは、関数を単純化する一方で、[7]による最適p-normパラメータの性能の標準誤差範囲内に性能を保持するので、p=1に固定される。実験はさらに、LMPを指爪セグメンテーションの本質的にクラス不均衡なタスクに適用することによって、意味論的セグメンテーションにおけるピクセル単位のクラス不均衡を克服するためのLMPの有効性を支持する。
【0047】
カスケードされたアーキテクチャは、本明細書のニューラルネットワークモデルが浅い/高解像度分岐と、深い/低解像度分岐と、を組み合わせるという意味で、ICNet[8]に関連する。ICNetとは異なり、モデルは、モバイルデバイス上でオペレーションするように設計され、従って、エンコーダ及びデコーダは、この要求に基づいて完全に再設計される。
【0048】
<データセット>
特に指爪追跡に関する従来の研究がないため、このタスクのために全く新しいデータセットが作成された。エゴセントリックデータは、参加者から収集され、参加者はあたかも彼らがソーシャルメディア上に投稿するために彼らの指爪を見せているかのように、彼らの手の写真またはビデオのいずれかを撮るように求められた。
【0049】
高密度意味論的セグメンテーションラベルは、ポリゴンを用いて作成され、ポリゴンは、注釈付けが容易であり、指爪のような硬いオブジェクトのための正確なラベルタイプである。モデルは、高密度ラベル上でトレーニングされるので、ポリゴン注釈方法は、ピクセル単位の注釈に置き換えることもできる。図1及び図2には、3つのラベルタイプの組み合わせによって爪注釈を作成するために使用されるインタフェース100の一例が示されている。図1は、データセットに対して注釈付けされる画像のための入力を表示し、受信するための部分102を有するインタフェース100を示す。インタフェース100はまた、データ(例えば、フラグ)を設定するためのラジオボタン制御のようないくつかの制御を有する部分104を含む。部分104内の他のコントロールは、ポリゴン及びマーキングランドマーク(例えば、先端ランドマーク106A及び基部ランドマーク106B)などを定義するために利用可能である。
【0050】
したがって、インタフェース100は、以下を有効にする。
【0051】
1.指爪のピクセルを囲む(すなわち、フォアグラウンドの指爪をバックグラウンドから分離する)ポリゴン。
【0052】
2.個々の指爪を識別するために、ポリゴン毎のクラスラベルが付けられる。データセット内の各ポリゴンは指爪を表し、10個の指爪のクラス、すなわち、「左の小指」、「右の親指」などのうちの1つとして分類される。図2の102を参照されたい。
【0053】
3.ポリゴン毎の方向を定義するための基部および先端のランドマーク。指爪基部/先端ランドマークは、入力画像と同じ空間解像度である密な方向フィールドを生成するために使用され、各ピクセルは、そのピクセルが属する指爪について、基部から先端までのx及びy方向を表す値のペアを有している。
【0054】
新しい注釈付きデータセットは、全体で1438個の注釈付き画像からなり、これらは画像を提供した参加者に基づいて、訓練、検証、および試験セットに分割される(すなわち、各参加者の画像は訓練、検証、または試験のいずれかに排他的に属する)。分割されたデータセットは、訓練、検証、および試験のそれぞれにおいて941個、254個、および243個の画像を含む。実験では、モデルを訓練セットでトレーニングし、検証セットで評価した。
【0055】
<型式>
爪追跡システム(例えば、本明細書に記載されるように構成されたコンピューティングデバイス)の核心は、方向性情報(例えば、基部先端方向フィールド)と同様に、フォアグラウンド/バックグラウンドセグメンテーションと、指爪クラスセグメンテーションと、を出力するようにトレーニングされたエンコーダ-デコーダ畳み込みニューラルネットワーク(CNN)アーキテクチャである。モデルアーキテクチャは、ICNet[8]に関連するが、モバイルデバイス上で実行するのに十分に高速であるようにモデルを適応させ、マルチタスク出力を生成するために変更が行われた。モデルアーキテクチャのトップレベル図を図3に示す。
【0056】
図3は、2つの分岐を用いて入力(画像)302を処理するモデル300を示す。第1の分岐300A(図3の上側分岐)は、ブロック304-324を備える。図3の第2の分岐300B(下部)は、ブロック326-338を備える。これらの明るい線の区別は、修正されてもよいことが理解されるのであろう。例えば、ブロック326は、第1の分岐300Aのブロックであってもよい。ブロック304は、ダウンサンプリング×2ブロックである。ブロック306-320(stage_low1,stage_low2,...stage_low8とも呼ばれる)は、さらに説明するように、エンコーダ-デコーダバックボーン(エンコーダフェーズ及びデコーダフェーズを有する)のブロックである。ブロック322は、アップサンプリング×2ブロックであり、ブロック324は、さらに説明するように、第1の分岐融合ブロックである。ブロック326は、アップサンプル×2ブロックでもある。ブロック326-332(stage_high1,stage_high2,...stage_high4とも呼ばれる)は、さらに説明するエンコーダフェーズのブロックである。エンコーダ-デコーダバックボーンは、MobileNetV2[2]に基づいてモデル化される。さらなる詳細を表1に示す。第2の分岐のエンコーダフェーズ(ブロック328-332)も、MobileNetV2[2]のエンコーダ上でモデル化される。
【0057】
モデルのエンコーダは、ImageNet上で事前トレーニングされたMobileNetV2[2]モデル重みで初期化された[9]。2つのα=1.0のMobileNetV2エンコーダバックボーン(すなわち、エンコーダフェーズ)のカスケードが使用され、両方とも224×224のImageNet画像上で事前トレーニングされた。(それぞれの分岐からの)エンコーダカスケードは高解像度入力(stage_high1...4)を有する1つの浅いネットワークと、低解像度入力(stage_low1...8)を有する1つの深いネットワークとからなり、これらは両方とも完全なMobileNetV2のプレフィックスである。第1の分岐stage6の低解像度エンコーダはストライド2(stride2)からストライド1(stride1)に変更され、この変更を補償するために、stage7及び8において拡張(dilated)2×畳み込みが使用された。したがって、低解像度エンコーダの出力ストライド(stride)は、元のMobileNetV2のように32×ではなく、その入力に対して16×である。レイヤごとの詳細な説明については表1を参照されたい。表1は、指爪セグメンテーションモデルアーキテクチャの詳細な要約を示す。各レイヤ名は、本明細書で説明する図3及び図4のブロックに対応する。高さH、幅Wは、フル解像度のH×W入力サイズを示す。投影408及び拡張レイヤ410については、p∈{16,8}である。stage3_lowからstage7_lowの場合、括弧内のチャネル数はstageの最初のレイヤ(図示せず)のためのもので、同じstage内の後続のレイヤの括弧なしの数まで増加する。
【表1】
【0058】
モデル300のデコーダは、図3の中ステップおよび下ステップ右側に示され(例えば、ブロック324と、336(融合ブロックを含む)と、アップサンプリングブロック322及び326と、を含む)、ブロック324及び336の各々に対するデコーダ融合モデルの詳細図が図4に示される。大きさH×Wの元の入力に対して、デコーダは(ブロック312からの)stage_low4からの
【数1】

特徴をstage_low8から導出されたブロック322からのアップサンプリングされた特徴と融合し、次に(ブロック326)アップサンプリングし、融合ブロック336を介して得られた特徴をstage_high4からの
【数2】
特徴と融合する(ブロック334)。
【0059】
図4は、ブロック408,410,412及び加算器414を用いて、デコーダ内の特徴マップF´(406)によって表される高解像度の融合特徴を生成するために、特徴マップF(402)によって表されるアップサンプリングされた低解像度の高意味論的情報特徴を、特徴マップF(404)によって表される高解像度の低意味論的情報特徴と融合するために使用される融合モジュール400を示す。ブロック324に関連して、特徴マップF(402)はブロック322から出力され、特徴マップF(404)はブロック312から出力される。ブロック324からの特徴マップF´(406)は、そのブロックのモデル400の一例における特徴マップF(402)としてブロック336に提供するために、326でアップサンプリングされる。ブロック336では、特徴マップF(404)がブロック334から受信され、特徴マップF´(406)がブロック338への出力として提供される。ブロック338は、入力解像度/4にアップサンプリングし、次いで、結果として得られる特徴マップをデコーダモデル340に提供する。デコーダモデル340を図5に示す。デコーダモデル340は図5に関連してさらに説明されるように、画像のための3つのタイプの情報(例えば、3チャネル出力342)を生成する。
【0060】
図4に示されるように、1×1畳み込み分類器412は、アップサンプリングされたF特徴に適用され、これはダウンサンプリングされたラベルを予測するために使用される。[10]と同様に、この出力の「ラプラシアンピラミッド」は低解像度でより大きな受信フィールド特徴マップからの予測を精緻化することに焦点を当てるために、より高解像度でより小さな受信フィールド特徴マップを最適化する。したがって、モデル400では、ブロック412からの特徴マップ(図示せず)がそれ自体は出力として使用されない。むしろ、トレーニングにおいて、損失関数はピラミッド出力正則化(すなわち、図5で適用される損失)の形態で適用される。
【0061】
ブロック342は、図5の3つの分岐502,504及び506からのブロックの出力に対応する3つのチャネルを含むデコーダからの1つのグローバル出力を表す。第1のチャネルは、ピクセル毎の分類(例えば、フォアグラウンド/バックグラウンドセグメンテーションマスク又はオブジェクトセグメンテーションマスク)を含み、第2のチャネルは、セグメント化されたマスクの個々の指先クラスへの分類を含み、第3のチャネルは、セグメント化されたマスクピクセル毎の2D方向性ベクトル(例えば、ピクセル毎(x,y))のフィールドを含む。
【0062】
図5に示すように、デコーダは、複数の出力デコーダ分岐502,504及び506を用いて、指爪の先端の上にレンダリングするのに必要な方向性情報(例えば、第3のチャネルにおける基部から先端までのベクトル)と、接続された構成要素を用いて指爪の一例を見つけるのに必要な指爪のクラス予測(第2のチャネルにおける)とを提供する。これらの付加的なデコーダは、画像の注釈付けされた指爪領域においてのみペナルティを課される高密度予測を生成するようにトレーニングされる。各分岐は、この例によれば、それぞれの損失関数を用いる。正規化された指数関数(Softmax)が分岐502及び504に示されているが、セグメンテーション/分類のための別のアクティベーション関数を用いることができる。本明細書における次元は代表的なものであり、異なるタスクに適合させることができることを理解されたい。例えば、図5では、分岐502,504は、10個のクラスに関連し、それに応じて次元決めされる。
【0063】
2値(すなわち、指爪対バックグラウンド)予測が方向フィールド予測と共に図6に視覚化されている。すなわち、図6は、処理された入力画像から生成され更新された画像の4×4のアレイ600を示す。フォアグラウンド/バックグラウンドマスクを用いて、着色のためのそれぞれの爪を同定した。爪領域は(ここでは、グレースケールで描かれているが)ピクセル単位に着色されており、フォアグラウンド/バックグラウンドマスクにおける偽陽性および偽陰性の識別と同様に、グラウンドトゥルースとの一致を示す。アレイ600の更新された画像は、方向性情報も示す。図6A図6B及び図6Cは、白い矢印が偽陽性領域を指し、黒い矢印が偽陰性領域を指す注釈を有するアレイ600からの拡大画像602,604及び606を示す。画像604には、見えない手の姿勢がオーバーセグメンテーションを引き起こす共通の故障モードが示されている。画像606では、目に見えない照明/爪の色の組み合わせによるアンダーセグメンテーションの例が示されている。両方の故障事例は、関連するトレーニングデータを追加することによって改善され得ることが期待される。
【0064】
各手/指の組み合わせ(例えば、左の小指)についての個々のクラス予測は、図8の4×4のアレイ800において、指爪領域においてのみ視覚化される。図9は、1つのクラス(薬指)が別のクラス(中指)に漏れることを示す注釈(白い矢印900)を付けた拡大画像802を示す。カメラの遠近感により爪が重なっているためクラスが漏れる。これは、高密度CRF又は誘導フィルタ後処理によって改善され得る。
【0065】
<推論(トレーニング内容)>
ニューラルネットワークモデルは、PyTorchを用いてトレーニングされた[11]。トレーニングされたモデルはCore ML(登録商標)を用いてiOS(登録商標)に、及びTensorFlow.js(登録商標)を用いてウェブブラウザに配備された[1]。
【0066】
データ拡張は、コントラスト正規化と周波数雑音アルファブレンディング拡張、並びにランダムスケール、アスペクト比、回転およびクロップ拡張を含んだ。コントラスト正規化は、それぞれのピクセル値Iijを127+α(Iij-127)、ここではα∈[0.5,2.0]にスケールすることでコントラストを調整する。周波数ノイズアルファブレンディングは、周波数ノイズマスクを用いて2つの画像ソースを混合する。[1/2,2]からの均一なランダムにサンプリングされたスケール拡張、[2/3,3/2]からのアスペクト比延伸拡張、±180°からのローテーション拡張、および所与のダウンサンプリングされたトレーニング画像の短い方の辺の長さの14/15の辺の長さのランダムにトリミングされた正方形画像があった。
【0067】
現在のソフトウェア実装、すなわち、Core ML(登録商標)およびTensorFlow.js(登録商標)、ならびに現在のモバイルデバイスハードウェアが与えられると、システムは、640×480(ネイティブモバイル)および480×360(ウェブモバイル)までのすべての解像度においてリアルタイムで(すなわち、≧10FPSで)実行することができ、そのために、モデルは、それぞれ448×448及び336×336の入力解像度でトレーニングされた。すべての入力画像をImageNetデータセットの平均および標準偏差によって正規化した。MobileNetV2エンコーダバックボーンは、Nesterovモーメントが0.9のSGDを用いて400エポックのImageNetで事前トレーニングされ、エポック200及び300で10-2の初期ラーニング率が10倍減少した。
【0068】
エンコーダ-デコーダモデルは、指爪追跡データセット上の400エポックについてトレーニングされた。事前トレーニングされたすべてのレイヤ、すなわちstage_high1..4及びstage_low1..8に対して、事前トレーニングされた重み値を保持するために、5×10-3の低い初期ラーニング率を用いたが、他のすべてのレイヤに対しては5×10-2の初期学習率を用いた。以前の研究[12]に続き、
【数3】
に従った多項式減衰ラーニング率スケジュールを用いた。ここで、lは反復tでのラーニング率であり、Tはステップの総数である。32のバッチサイズを用いた。オプティマイザーは、Nesterovモーメントが0.99で、モデルの重みに10-4の加重減衰があるSGDであった。クリッピング勾配は1.0であった。LMP損失関数は、損失を、最も高い損失値を有するピクセルの10%の平均損失として計算する。
【0069】
<目標関数の議論>
バックグラウンド(過剰表現クラス)と指爪(過少表現クラス)とのクラス不均衡を扱うために、目標関数では、各ピクセルの損失の大きさでソートし、ピクセルの上位10%にわたる平均をミニバッチ損失として、ミニバッチの全ピクセルにわたってロスマックスプーリング[7]を用いた。ロスマックスプーリングを用いることは、指爪クラスをバックグラウンドよりも20×だけ重み付けしたばかりのベースラインと比較した場合、検証セットで評価されるように、mIoUの≒2%の増加をもたらし、ここで、mIoUの改善は、クラス境界に沿ったより鋭い爪縁の外観に反映された(ここで、ナイーブなベースラインは一貫して過剰セグメント化された)。
【0070】
図5に示すモデルの3つの出力に対応する3つの損失関数を用いた。指爪クラスとフォアグラウンド/バックグラウンド予測は両方とも、数式1で与えられた多項分布のネガティブログライクリフッドを最小化する。ここで、cはグランドトゥルース値クラス、xij はモデルによるクラスの事前ソフトマックス予測、Lijは(x,y)=(i,j)でのピクセルの損失である。
【数4】
【0071】
クラス予測のケースでは、c∈{1,2,...,10}、フォアグラウンド/バックグラウンド予測のケースでは、c∈{1,2}。LMPは、フォアグラウンド/バックグラウンド予測のみに使用される。指爪クラス予測が指爪領域においてのみ有効であるので、これらのクラスはバランスがとれており、LMPを必要としない。
【数5】
数式2において、
【数6】
であり、閾値τは、[0.1×H×W]番目に高い損失ピクセルの損失値である。[・]演算子はインジケータ関数である。
【0072】
方向フィールド出力に対しては、正規化ベース上のHuber損失を、グランドトゥルース爪内部の各ピクセルに対して爪の先端方向に適用した。これは、基部先端方向の近似的な正確さがレンダリングに必要とされる全てであり、これが、方向フィールド損失が2進およびクラスの指爪セグメンテーション損失を減じることを防止するので、いったんそれがほぼ正しいならば、フィールド損失を強調しないようにするためである。Huber損失の代わりに、L2やL1エラーのような他のロス機能も用いることができる。
【数7】
【0073】
数式3において、インデックス(i,j)は全ての空間ピクセル位置にわたり、一方、基部先端方向ベクトルの(x,y)方向をk∈{0,1}インデックスする。さらに、各スカラーフィールド予測
【数8】
は、ベクトル
【数9】
が単位ベクトルとなるように正規化される。すなわち、
【数10】

である。フィールド方向ラベルも、
【数11】

のように正規化される。方向フィールドと指紋クラス損失については、クラス不均衡の問題はないので、それらは単にそれらの個々の損失の手段、すなわち
【数12】
及び、
【数13】
であり、Nclass=H×WおよびNfield=2×H×Wである。総合的なロスは、l=lfgbg+lclass+lfieldである。
【0074】
<後処理とレンダリング>
モデルからの出力は、入力画像を処理し、生成され、更新された画像を処理するために使用されてもよい。方法1(図10も参照)では、CNNモデルの追跡予測の出力を用いてユーザの指爪に現実的なマニキュア液を描く後処理およびレンダリング方法が記載されている。この方法は(CNNモデルを用いて)、指爪追跡モジュールによって予測された個々の指爪位置および方向性情報を用いて、勾配をレンダリングし、自然の爪の明るい色の遠位縁を隠す。
【0075】
図10は、コンピューティングデバイスのオペレーション1000を示す。コンピューティングデバイスは、本明細書に示され、説明されるようなCNNモデルと、コンピューティングデバイスを構成するための命令と、を備える。オペレーション1000は、ステップ1002において、複数のオブジェクト(例えば、指爪)に適用するための外観の選択肢を受け取るためのユーザインタフェース(例えば、GUI)を提示するコンピューティングデバイスを示す。1004において、オペレーションは、コンピューティングデバイスのカメラなどからソース画像を受信する。ソース画像は、処理される画像として用いるためのセルフィー静止画像またはセルフィービデオ画像であってもよい。1006で、命令は、複数のオブジェクトを決定するために画像を処理するようにコンピューティングデバイスを構成し、1008で、外観選択を適用するために画像を処理し、1010で、適用された外観選択を示す更新された画像を生成する。更新された画像は、拡張現実をシミュレートするために(1012で)存在することができる。
【0076】
図11は、CNNからの出力を用いてCNNによって処理された後に使用され得るオペレーションのための擬似コード1100を備える「方法1」を示す。方法1は、後処理およびマニキュア液レンダリングオペレーションを示す。このオペレーションはまず、予測された爪の方向を用いて、それぞれの爪の上にユーザが選んだ色の勾配を描き、爪の方向に垂直にし、爪マスクによってマスクアウトする。次に、元の爪からスペキュラー成分をコピーし、勾配の上にそれらを混合する。
【0077】
<雑多なもの>
前処理は、例えば、必要なサイズの入力を生成し、画像の所望の部分をセンタリングし、照明を補正するために、モデルによる処理の前に使用されてもよいことが理解されよう。
【0078】
指爪に関連して記載されているが、他のオブジェクトが記述されているように追跡されてもよく、本明細書の記載は、当業者によって適合されてもよい。カラー外観効果を適用して更新された画像を生成することが記載されているが、他の外観効果を用いることもできる。外観効果は、追跡されるオブジェクトの位置またはその周辺に適用されてもよい。
【0079】
コンピューティングデバイスの態様に加えて、通常の当業者は、コンピュータプログラム製品の態様が開示され、そこでは命令が非一時的記憶デバイス(例えば、メモリ、CD-ROM、DVD-ROM、RAM、テープ、ディスクなど)に記憶され、処理装置によって実行され、ここに記憶された任意の態様を実行するようにコンピューティングデバイスを構成することを理解するのであろう。処理装置は、CPU、GPU、または他のプログラマブルデバイス、あるいはそのようなもののうちの1つ又は複数の組合せとすることができる。本明細書に記載されるように、1つの実装は、Apple Inc.からのiOS(登録商標)ベースのiPhone(登録商標)製品のためのCore ML(登録商標)を用いて準備された。
【0080】
実際の実施は、本明細書に記載された特徴のいずれか又は全てを含むことができる。これらおよび他の態様、特徴、ならびに様々な組み合わせは、本明細書で説明される特徴を組み合わせる、機能、プログラム製品を実行するための方法、機器、システム、手段として、および他の方法で表現され得る。多数の実施形態が記載されている。それにもかかわらず、本明細書で説明されるプロセスおよび技術的思想および範囲から逸脱することなく、様々な修正を行うことができることが理解されるのであろう。加えて、記載された方法から、他のステップを提供することができ、またはステップを排除することができ、記載されたシステムに他の成分を加えるか、またはそこから除去することができる。したがって、他の態様は特許請求の範囲の範囲内にある。
【0081】
本明細書の説明および特許請求の範囲を通して、単語「含む」および「備え」およびそれらの変形は「含むが、それらに限定されない」を意味し、他の構成要素、整数またはステップを排除することを意図しない(かつ排除しない)。本明細書を通して、単数形は文脈が別ステップ要求しない限り、複数形を包含する。特に、不定冠詞が使用される場合、本明細書は文脈が別ステップを要求しない限り、複数形および単数形を意図するものとして理解されるべきである。単語「および/または」は、例えば、本明細書において、「Aおよび/またはB」に関して、A,BならびにA及びBの両方の一方を意味する。
【0082】
本発明の特定の局面、実施形態または実施例に関連して記載される特徴、整数特性、化合物、化学部分または基は、それらと適合しない限り、任意の他の局面、実施形態または実施例に適用可能であると理解されるべきである。本明細書に開示された特徴(任意の添付の特許請求の範囲、要約書、および図面を含む)のすべて、および/またはそのように開示された任意の方法または処理のステップのすべては、そのような特徴および/またはステップの少なくともいくつかが相互に排他的である組み合わせを除いて、任意の組合せで組み合わせることができる。本発明は、前述の実施例または実施形態の詳細に限定されない。本明細書(添付の特許請求の範囲、要約書、および図面を含む)に開示された特徴の任意の新規なもの、または任意の新規な組み合わせ、または開示された任意の方法または処理のステップの任意の新規なもの、または任意の新規な組み合わせに拡張される。
【0083】
<結論>
マニキュア液レンダリングのための指爪追跡およびオペレーションのためのモデルが提示される。現在のソフトウェア及びハードウェアを用いて、スマートフォン又はタブレットのようなユーザコンピューティングデバイスを、iOS(登録商標)及びウェブプラットフォームの両方においてリアルタイムで実行するように構成することができる。カスケードされたモデルアーキテクチャ設計と結合したLMPの使用は、640×480解像度までのピクセル精度の指爪予測を同時に可能にした。モデルの複数の出力予測を利用して、個々の指爪に勾配を与え、爪マスクを指爪の先の方向に引き伸ばすことによって自然な指爪の上にレンダリングするときに明るい色の遠位縁を隠す後処理オペレーションが提案されている。
<参考文献(References)>
以下に列挙する参考文献[1]-[13]の各々は、参照することにより本明細書に組み込まれている。
[1]Daniel Smilkov, Nikhil Thorat, Yannick Assogba, Ann Yuan, Nick Kreeger, Ping Yu, Kangyi Zhang, Shanqing Cai, Eric Nielsen, David Soergel, Stan BileschI, Michael Terry, Charles Nicholson, Sandeep N. Gupta, Sarah Sirajuddin, D. Sculley, Rajat Monga, Greg Corrado, Fernanda B. Viegas, and Martin Wattenberg. Tensorflow.js: Machine learning for the web and beyond. arXiv preprint arXiv:1901.05350, 2019.
[2]Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, and Liang-Chieh Chen. MobileNetV2: Inverted residuals and linear bottlenecks. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018.
[3]Xiangyu Zhang, Xinyu Zhou, Mengxiao Lin, and Jian Sun. Shufflenet: An extremely efficient convolutional neural network for mobile devices. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.
[4]Robert J Wang, Xiang Li, and Charles X Ling. Pelee: A real-time object detection system on mobile devices. In Advances in Neural Information Processing Systems 31, 2018.
[5]Forrest N. Iandola, Song Han, Matthew W. Moskewicz, Khalid Ashraf, William J. Dally, and Kurt Keutzer. Squeezenet: Alexnet-level accuracy with 50x fewer parameters and <0.5mb model size. arXiv:1602.07360, 2016.
[6]Barret Zoph, Vijay Vasudevan, Jonathon Shlens, and Quoc V. Le. Learning transferable architectures for scalable image recognition. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.
[7」Samuel Rota Bulo, Gerhard Neuhold, and Peter Kontschieder. Loss max-pooling for semantic image segmentation. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.
[8]Hengshuang Zhao, Xiaojuan Qi, Xiaoyong Shen, Jianping Shi, and Jiaya Jia. ICNet for realtime semantic segmentation on high-resolution images. In ECCV, 2018.
[9]J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2009.
[10]Golnaz Ghiasi and Charless C. Fowlkes. Laplacian reconstruction and refinement for semantic segmentation. In ECCV, 2016.
[11」Adam Paszke, Sam Gross, Soumith Chintala, Gregory Chanan, Edward Yang, Zachary DeVito, Zeming Lin, Alban Desmaison, Luca Antiga, and Adam Lerer. Automatic differentiation in pytorch. In NIPS-W, 2017.
[12]Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, and Alan L. Yuille. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. arXiv preprint arXiv:1606.00915, 2016.
[13]C. Grana, D. Borghesani, and R. Cucchiara. Optimized block-based connected components labeling with decision trees. IEEE Transactions on Image Processing, 2010.
<その他>
<手段>
技術的思想1のコンピューティングデバイスは、処理装置と、それに結合された記憶デバイスと、を備えるものであって、前記記憶デバイスは、CNNと、前記処理装置によって実行されるように構成する命令と、を記憶し、前記CNNを有する複数のオブジェクトを含む画像を処理し、前記CNNは、前記画像内の前記複数のオブジェクトを意味論的にセグメント化するように構成され、前記CNNは、以下を有するカスケードされた意味論的セグメンテーションモデルアーキテクチャを含み、低解像度特徴の深い学習を提供する第1の分岐と、高解像度特徴の浅い学習を提供する第2の分岐と、を備え、前記CNNは、前記第1の分岐および前記第2の分岐からのそれぞれの予測を組み合わせて、フォアグラウンド/バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、を含む情報を出力する。
技術的思想2のコンピューティングデバイスは、技術的思想1記載のコンピューティングデバイスにおいて、前記CNNは、前記第1の分岐および前記第2の分岐からの前記それぞれの予測を組み合わせて、前記CNNからの出力としての前記情報が方向性情報をさらに含む。
技術的思想3のコンピューティングデバイスは、技術的思想1又は2に記載のコンピューティングデバイスにおいて、前記第1の分岐は、前記第1の分岐のそれぞれの予測を生成するためのエンコーダ-デコーダバックボーンを備える。
技術的思想4のコンピューティングデバイスは、技術的思想3記載のコンピューティングデバイスにおいて、前記第1の分岐のそれぞれの予測は、前記第1の分岐のエンコーダフェーズに続いて生成される初期予測と、前記第1の分岐のデコーダフェーズによるさらなる処理に続いて生成されるさらなる予測と、の組み合わせを含む。
技術的思想5のコンピューティングデバイスは、技術的思想4記載のコンピューティングデバイスにおいて、前記初期予測および前記さらなる予測は、第1の分岐融合ブロックを用いて組み合わされて、前記第2の分岐のそれぞれの予測とさらに組み合わせるように提供する前記第1の分岐の前記それぞれの予測を生成する。
技術的思想6のコンピューティングデバイスは、技術的思想1から3のいずれかに記載のコンピューティングデバイスにおいて、前記第2の分岐のそれぞれの予測は、前記第1の分岐とカスケード接続された、前記第2の分岐のエンコーダフェーズによる処理に続いて生成される。
技術的思想7のコンピューティングデバイスは、技術的思想6記載のコンピューティングデバイスにおいて、前記第1の分岐のそれぞれの予測(F )は、第2の分岐融合ブロックを用いて、前記第2の分岐の前記それぞれの予測(F )と組み合わされる。
技術的思想8のコンピューティングデバイスは、技術的思想7記載のコンピューティングデバイスにおいて、F がアップサンプリングされた低解像度の高意味論的情報特徴を含み、F が高解像度の低意味論的情報特徴を含み、前記第2の分岐融合ブロックは、F とF を組み合わせて、前記第2の分岐のデコーダフェーズで高解像度の融合特徴F ´を生成する。
技術的思想9のコンピューティングデバイスは、技術的思想8記載のコンピューティングデバイスにおいて、前記CNNは、ダウンサンプリングされたクラスラベルを生成するために、前記それぞれの予測F に適用される畳み込み分類器を用いる。
技術的思想10のコンピューティングデバイスは、技術的思想2に従属する技術的思想8記載のコンピューティングデバイスにおいて、F を処理するために、前記CNNは、多重出力デコーダ分岐を用いて、前記フォアグラウンド/バックグラウンドセグメンテーションと、前記オブジェクトクラスセグメンテーションと、前記方向性情報と、を生成する。
技術的思想11のコンピューティングデバイスは、技術的思想10記載のコンピューティングデバイスにおいて、前記多重出力デコーダ分岐は、第1の出力デコーダ分岐が1×1畳み込みブロックと、前記フォアグラウンド/バックグラウンドセグメンテーションを生成するためのアクティベーション関数と、を有し、第2の出力デコーダ分岐が1×1畳み込みブロックと、前記オブジェクトクラスセグメンテーションを生成するためのアクティベーション関数と、を有し、第3の出力デコーダ分岐が前記方向性情報を生成するための1×1畳み込みブロックを有する。
技術的思想12のコンピューティングデバイスは、技術的思想1から11のいずれかに記載のコンピューティングデバイスにおいて、前記CNNは、前記フォアグラウンド/バックグラウンドセグメンテーションを決定するために、意味論的セグメンテーションにおけるピクセル単位のクラス不均衡を克服するように、ロスマックスプーリング(LMP)損失関数を用いてトレーニングされる。
技術的思想13のコンピューティングデバイスは、技術的思想1から12のいずれかに記載のコンピューティングデバイスにおいて、前記CNNは、ネガティブログライクリフッド損失(NLL)関数を用いてトレーニングされ、前記フォアグラウンド/バックグラウンドセグメンテーションと、前記オブジェクトクラスセグメンテーションと、を決定する。
技術的思想14のコンピューティングデバイスは、技術的思想2から13のいずれかに記載のコンピューティングデバイスにおいて、前記CNNは、前記方向性情報を決定するためにHuber損失関数を用いてトレーニングされる。
技術的思想15のコンピューティングデバイスは、技術的思想2から14のいずれかに記載のコンピューティングデバイスにおいて、各オブジェクトが基部と先端とを有し、前記方向性情報が基部先端方向フィールドを含む。
技術的思想16のコンピューティングデバイスは、技術的思想1から15のいずれかに記載のコンピューティングデバイスにおいて、前記第1の分岐は、MobileNetV2エンコーダ-デコーダ構造を用いて定義され、前記第2の分岐は、前記MobileNetV2エンコーダ-デコーダ構造からのエンコーダ構造を用いて定義され、前記CNNは、最初に、ImageNetからのトレーニングデータを用いてトレーニングされ、その後、グラウンドトゥルースでラベル付けされた前記複数のオブジェクトのためのオブジェクト追跡データセットを用いてトレーニングされる。
技術的思想17のコンピューティングデバイスは、技術的思想1から16のいずれかに記載のコンピューティングデバイスにおいて、前記命令は、前記情報の少なくとも一部を出力として用いて前記画像から更新された画像を生成し画像処理を実行するようにさらに構成する。
技術的思想18のコンピューティングデバイスは、技術的思想2に従属する技術的思想17記載のコンピューティングデバイスにおいて、画像処理を実行することは、前記複数のオブジェクトの色などの外観を変更するために、前記フォアグラウンド/バックグラウンドセグメンテーションと、前記オブジェクトクラスセグメンテーションと、前記方向性情報と、のうちの少なくとも一部を用いる。
技術的思想19のコンピューティングデバイスは、技術的思想17又は18に記載のコンピューティングデバイスにおいて、カメラを備え、前記命令は、前記複数のオブジェクトに適用するための外観選択を受信し、前記画像として用いるためのセルフィービデオ画像を前記カメラから受信するためのユーザインタフェースを提示し、前記外観選択を用いて、前記更新された画像を生成するために前記セルフィービデオ画像を処理し、拡張現実をシミュレートするために前記更新された画像を提示するように構成する。
技術的思想20のコンピューティングデバイスは、技術的思想1から19のいずれかに記載のコンピューティングデバイスにおいて、スマートフォン又はタブレットを備える。
技術的思想21のコンピューティングデバイスは、技術的思想1から20のいずれかに記載のコンピューティングデバイスにおいて、前記画像は、指爪を有する手の少なくとも一部を含み、前記複数のオブジェクトは、指爪を含む。
技術的思想22のコンピューティングデバイスは、処理装置と、それに結合された記憶デバイスと、を備えるものであって、前記記憶デバイスは、前記処理装置によって実行され、複数のオブジェクトを含む画像を処理したCNNによって意味論的にセグメント化された前記複数のオブジェクトの各々について、フォアグラウンド/バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、方向性情報と、を含むCNN出力を受信し、前記画像を処理して、更新された画像を生成し、前記フォアグラウンド/バックグラウンドセグメンテーション(及び前記オブジェクトクラスセグメンテーション)に従ってセグメント化された前記複数のオブジェクトの各々にわたる選択された色の勾配を描画し、前記選択された色は、前記方向性情報によって示されるように、前記オブジェクトの各々のそれぞれの方向に垂直に描画されるように構成する命令を記憶する。
技術的思想23のコンピューティングデバイスは、技術的思想22記載のコンピューティングデバイスにおいて、前記勾配にわたって前記複数のオブジェクトの各々にそれぞれのスペキュラー成分を適用し、結果を混合するようにさらに構成される。
技術的思想24のコンピューティングデバイスは、技術的思想23記載のコンピューティングデバイスにおいて、描画の前に、前記フォアグラウンド/バックグラウンドセグメンテーションによって識別される前記複数のオブジェクトの各々のそれぞれの領域を伸張して、その先端などのマージンが描画のために含まれることを保証するようにさらに構成される。
技術的思想25のコンピューティングデバイスは、技術的思想24記載のコンピューティングデバイスにおいて、描画の前に、前記複数のオブジェクトから決定された平均色で伸張された前記複数のオブジェクトの各々のそれぞれの領域の外側の少なくとも一部の隣接する領域を色付けし、伸張された前記複数のオブジェクトの各々の前記それぞれの領域および前記隣接する領域をぼかすようにさらに構成される。
技術的思想26のコンピューティングデバイスは、技術的思想22から25のいずれかに記載のコンピューティングデバイスにおいて、描画時に用いるために選択された色を受け取るようにさらに構成された。
技術的思想27のコンピューティングデバイスは、技術的思想22から26のいずれかに記載のコンピューティングデバイスであって、技術的思想2から21のいずれかに記載のコンピューティングデバイスによってさらに定義される。
技術的思想28のコンピューティングデバイスは、処理装置と、それに結合された記憶デバイスと、を備えるものであって、前記記憶デバイスは、CNNと、前記処理装置によって実行されてコンピューティングデバイスを以下のように構成する命令と、を記憶し、前記CNNを有する複数のオブジェクトを含む画像を処理し、前記CNNは、前記画像内の前記複数のオブジェクトを意味論的にセグメント化するように構成され、前記CNNは、以下を有するカスケードされた意味論的セグメンテーションモデルアーキテクチャを含み、低解像度特徴の深い学習を提供する第1の分岐と、高解像度特徴の浅い学習を提供する第2の分岐と、を備え、前記CNNは、前記第1の分岐および前記第2の分岐からのそれぞれの予測を組み合わせて、フォアグラウンド/バックグラウンドセグメンテーションを含む情報を出力し、前記CNNは、ロスミーンポーリング損失関数を用いてトレーニングされる。
技術的思想29のコンピューティングデバイスは、技術的思想28記載のコンピューティングデバイスにおいて、前記画像が複数のピクセルを含み、前記画像内の前記複数のオブジェクトが前記複数のピクセルのうちの少数によって表される。
技術的思想30のコンピューティングデバイスは、技術的思想28又は29に記載のコンピューティングデバイスにおいて、前記CNNは、前記第1の分岐および前記第2の分岐からの前記それぞれの予測を組み合わせて、オブジェクトクラスセグメンテーションを含む情報をさらに出力し、前記CNNは、NLL損失関数を用いてさらにトレーニングされる。
技術的思想31のコンピューティングデバイスは、技術的思想28から30のいずれかに記載のコンピューティングデバイスにおいて、前記CNNは、前記第1の分岐および前記第2の分岐からの前記それぞれの予測を組み合わせて、方向性情報を含む情報をさらに出力し、前記CNNは、Huber損失関数またはL2損失関数を用いてさらにトレーニングされる。
技術的思想32のコンピューティングデバイスは、技術的思想1から31のいずれかに記載のコンピューティングデバイスにおいて、前記CNNは、出力情報のラプラシアンピラミッドを提供するように定義される。
技術的思想33のコンピューティングデバイスは、処理装置と、それに結合された記憶デバイスと、を備えるものであって、前記記憶デバイスは、前記処理装置によって実行されると、コンピューティングデバイスを以下のように構成する命令を記憶し、CNNをトレーニングするように画像のデータセットに注釈を付けるためのグラフィカルユーザインタフェース(GUI)を提供し、前記GUIは注釈を付けるべきそれぞれの画像を表示するための表示部を有し、前記表示部は前記それぞれの画像に示されるそれぞれのオブジェクトの輪郭を描く(セグメント)ための入力を受け取り、前記それぞれのオブジェクトの各々についての方向性情報を示す入力を受け取るように構成され、前記画像に注釈を付ける入力を受け取り、前記データセットを定義するために前記注釈に関連付けて前記画像を保存する。
技術的思想34のコンピューティングデバイスは、技術的思想33記載のコンピューティングデバイスにおいて、前記それぞれのオブジェクトの各々を意味論的に分類するように入力を受け取るための制御を提供するようにさらに構成される
技術的思想35のコンピューティングデバイスは、技術的思想33又は34に記載のコンピューティングデバイスにおいて、前記CNNは、前記画像内の前記複数のオブジェクトを意味論的にセグメント化するように構成され、前記CNNは、いかに有するカスケードされた意味論的セグメンテーションモデルアーキテクチャを備え、低解像度特徴の深い学習を提供する第1の分岐と、高解像度特徴の浅い学習を提供する第2の分岐と、備え、前記CNNは、前記第1の分岐および前記第2の分岐からのそれぞれの予測を組み合わせて、フォアグラウンド/バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、を含む情報を出力する。
技術的思想36の方法は、畳み込みニューラルネットワーク(CNN)を有する複数のオブジェクトを備える画像処理であって、前記CNNは、前記画像内の前記複数のオブジェクトを意味論的にセグメント化するように構成され、前記CNNは、カスケードされた意味論的セグメンテーションモデルアーキテクチャを備え、低解像度特徴の深い学習を提供する第1の分岐と、高解像度特徴の浅い学習を提供する第2の分岐と、を備え、前記CNNは、前記第1の分岐および前記第2の分岐からのそれぞれの予測を組み合わせて、フォアグラウンド/バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、を含む情報を出力する。
技術的思想37の方法は、技術的思想36記載の方法において、前記CNNは、前記第1の分岐および前記第2の分岐からの前記それぞれの予測を組み合わせて、前記CNNによって出力される前記情報が方向性情報をさらに含む。
技術的思想38の方法は、技術的思想36又は37に記載の方法において、前記第1の分岐は、前記第1の分岐のそれぞれの予測を生成するためのエンコーダ-デコーダバックボーンを備える。
技術的思想39の方法は、技術的思想38記載の方法において、前記第1の分岐のそれぞれの予測は、前記第1の分岐のエンコーダフェーズに続いて生成される初期予測と、前記第1の分岐のデコーダフェーズによるさらなる処理に続いて生成されるさらなる予測と、の組み合わせを含む。
技術的思想40の方法は、技術的思想39記載の方法において、前記初期予測およびさらなる予測は、第1の分岐融合ブロックを用いて前記CNNによって組み合わされて、前記第2の分岐の前記それぞれの予測とさらに組み合わさるように提供する前記第1の分岐のそれぞれの予測を生成する。
技術的思想41の方法は、技術的思想36から38のいずれかに記載の方法において、前記第2の分岐のそれぞれの予測は、前記第1の分岐とカスケード接続された前記第2の分岐のエンコーダフェーズによる処理に続いて、前記CNNによって生成される。
技術的思想42の方法は、技術的思想41記載の方法において、前記第1の分岐のそれぞれの予測(F )は、第2の分岐融合ブロックを用いて、前記第2の分岐の前記それぞれの予測(F )と組み合わされる。
技術的思想43の方法は、技術的思想42記載の方法において、F がアップサンプリングされた低解像度の高意味論的情報特徴を含み、F が高解像度の低意味論的情報特徴を含み、前記第2の分岐融合ブロックは、F とF とを組み合わせて、前記第2の分岐のデコーダフェーズで高解像度の融合特徴F ´を生成する。
技術的思想44の方法は、技術的思想43記載の方法において、前記CNNは、ダウンサンプリングされたクラスラベルを生成するために、前記それぞれの予測F に適用される畳み込み分類器を用いる。
技術的思想45の方法は、技術的思想2に従属する技術的思想43記載の方法において、F を処理するために、前記CNNは、多重出力デコーダ分岐を用いて、前記フォアグラウンド/バックグラウンドセグメンテーションと、前記オブジェクトクラスセグメンテーションと、前記方向性情報と、を生成する。
技術的思想46の方法は、技術的思想45記載の方法において、前記多重出力デコーダ分岐は、第1の出力デコーダ分岐が1×1畳み込みブロックと、前記フォアグラウンド/バックグラウンドセグメンテーションを生成するためのアクティベーション関数と、を有し、第2の出力デコーダ分岐が1×1畳み込みブロックと、前記オブジェクトクラスセグメンテーションを生成するためのアクティベーション関数と、を有し、第3の出力デコーダ分岐が前記方向性情報を生成するための1×1畳み込みブロックを有する。
技術的思想47の方法は、技術的思想36から47のいずれかに記載の方法において、前記CNNは、前記フォアグラウンド/バックグラウンドセグメンテーションを決定するために、意味論的セグメンテーションにおけるピクセル単位のクラス不均衡を克服するように、ロスマックスプーリング(LMP)損失関数を用いてトレーニングされる。
技術的思想48の方法は、技術的思想36から47のいずれかに記載の方法において、前記CNNは、ネガティブログライクリフッド損失(NLL)関数を用いてトレーニングされ、前記フォアグラウンド/バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、を決定する。
技術的思想49の方法は、技術的思想37から48のいずれかに記載の方法において、前記CNNは、前記方向性情報を決定するためにHuber損失関数を用いてトレーニングされる。
技術的思想50の方法は、技術的思想37から49のいずれかに記載の方法において、各オブジェクトが基部および先端を有し、前記方向性情報が基部先端方向フィールドを含む。
技術的思想51の方法は、技術的思想36から50のいずれかに記載の方法において、前記第1の分岐は、MobileNetV2エンコーダ-デコーダ構造を用いて定義され、前記第2の分岐は、前記MobileNetV2エンコーダ-デコーダ構造からのエンコーダ構造を用いて定義され、前記CNNは、最初に、ImageNetからのトレーニングデータを用いてトレーニングされ、その後、グラウンドトゥルースでラベル付けされた前記複数のオブジェクトのためのオブジェクト追跡データセットを用いてトレーニングされる。
技術的思想52の方法は、技術的思想36から51のいずれかに記載の方法において、前記情報の少なくとも一部を前記CNNからの出力として用いて前記画像から更新された画像を生成し画像処理を実行することを含む。
技術的思想53の方法は、技術的思想37に従属する技術的思想52記載の方法において、画像処理を実行することは、前記複数のオブジェクトの色などの外観を変更するために、前記フォアグラウンド/バックグラウンドセグメンテーションと、前記オブジェクトクラスセグメンテーションと、前記方向性情報と、のうちの少なくとも一部を用いる。
技術的思想54の方法は、技術的思想52又は53に記載の方法において、前記複数のオブジェクトに適用するための外観選択を受信するためのユーザインタフェースを提示することと、カメラから、前記画像として用いるためのセルフィービデオ画像を受信することと、前記外観選択を用いて、前記更新された画像を生成するために前記セルフィービデオ画像を処理することと、拡張現実をシミュレートするために前記更新された画像を提示することと、を備える。
技術的思想55の方法は、技術的思想36から54のいずれかに記載の方法において、スマートフォン又はタブレットを備えるコンピューティングデバイスによって実行される。
技術的思想56の方法は、技術的思想36から55のいずれかに記載の方法において、前記画像は、指爪を有する手の少なくとも一部を含み、前記複数のオブジェクトは、指爪を含む。
技術的思想57の方法は、複数のオブジェクトを含む画像を処理した畳み込みニューラルネットワーク(CNN)によって意味論的にセグメント化された前記複数のオブジェクトの各々について、フォアグラウンド/バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、方向性情報と、を含む出力を受信することと、更新された画像を生成するための画像を処理することと、前記フォアグラウンド/バックグラウンドセグメンテーション(及び前記オブジェクトクラスセグメンテーション)に従ってセグメント化された前記複数のオブジェクトの各々にわたる選択された色の勾配を描画し、前記選択された色は、前記方向性情報によって示されるように、前記オブジェクトの各々のそれぞれの方向に垂直に描画される。
技術的思想58の方法は、技術的思想57記載の方法において、前記勾配にわたって前記複数のオブジェクトの各々にそれぞれのスペキュラー成分を適用することと、混合することと、をさらに含む。
技術的思想59の方法は、技術的思想58記載の方法において、描画の前に、前記フォアグラウンド/バックグラウンドセグメンテーションによって識別される前記複数のオブジェクトの各々のそれぞれの領域を伸張して、その先端などのマージンが描画のために含まれることを保証することをさらに含む。
技術的思想60の方法は、技術的思想59記載の方法において、描画の前に、前記複数のオブジェクトから決定された平均色で伸張された前記複数のオブジェクトの各々の前記それぞれの領域の外側の少なくとも一部の隣接する領域を着色することと、
伸張された前記複数のオブジェクトの各々の前記それぞれの領域および前記隣接する領域をぼかすことと、をさらに含む。
技術的思想61の方法は、技術的思想57から60のいずれかに記載の方法において、描画に用いるための選択された色を受け取ることを含む。
技術的思想62の方法は、技術的思想57から61のいずれかに記載の方法において、技術的思想2から21のいずれかに記載のコンピューティングデバイスによって実行される。
技術的思想63の方法は、畳み込みニューラルネットワーク(CNN)を有する複数のオブジェクトを含む画像を処理することであって、前記CNNは、前記画像内の前記複数のオブジェクトを意味論的にセグメント化するように構成され、前記CNNは、以下を有するカスケードされた意味論的セグメンテーションモデルアーキテクチャを備え、低解像度特徴の深い学習を提供する第1の分岐と、高解像度特徴の浅い学習を提供する第2の分岐と、を備え、前記CNNは、前記第1の分岐および前記第2の分岐からのそれぞれの予測を組み合わせて、フォアグラウンド/バックグラウンドセグメンテーションを含む情報を出力し、前記CNNは、ロスミーンポーリング損失関数を用いてトレーニングされる。
技術的思想64の方法は、技術的思想63記載の方法において、前記画像が複数のピクセルを含み、前記画像内の前記複数のオブジェクトが前記複数のピクセルの少数によって表される。
技術的思想65の方法は、技術的思想63又は64に記載の方法において、前記CNNは、前記第1の分岐および前記第2の分岐からの前記それぞれの予測を組み合わせて、オブジェクトクラスセグメンテーションを含む情報をさらに出力し、前記CNNは、NLL損失関数を用いてさらにトレーニングされる。
技術的思想66の方法は、技術的思想63から65のいずれかに記載の方法において、前記CNNは、前記第1の分岐および前記第2の分岐からの前記それぞれの予測を組み合わせて、方向性情報を含む情報をさらに出力し、前記CNNは、Huber損失関数またはL2損失関数を用いてさらにトレーニングされる。
技術的思想67の方法は、技術的思想63から66のいずれかに記載の方法において、前記情報の少なくとも一部を前記CNNからの出力として用いて前記画像から更新された画像を生成することをさらに含む。
技術的思想68の方法は、技術的思想36から67のいずれかに記載の方法において、前記CNNは、出力情報のラプラシアンピラミッドを提供するように定義される。
技術的思想69の方法は、CNNをトレーニングするように画像のデータセットに注釈を付けるためのグラフィカルユーザインタフェース(GUI)を提供することであって、前記GUIは注釈を付けるべきそれぞれの画像を表示するための表示部を有し、前記表示部は前記それぞれの画像に示されるそれぞれのオブジェクトの輪郭を描く(セグメント)ための入力を受け取り、前記それぞれのオブジェクトの各々についての方向性情報を示す入力を受け取るように構成され、前記画像に注釈を付ける入力を受け取り、前記データセットを定義するために前記注釈に関連付けて前記画像を保存する。
技術的思想70の方法は、技術的思想69記載の方法において、前記GUIは、前記それぞれのオブジェクトの各々を意味論的に分類するように入力を受け取るための制御を提供するようにさらに構成される。
技術的思想71の方法は、技術的思想69又は70に記載の方法において、前記CNNは、前記画像内の前記複数のオブジェクトを意味論的にセグメント化するように構成され、前記CNNは以下を有するカスケードされた意味論的セグメンテーションモデルアーキテクチャを備え、低解像度特徴の深い学習を提供する第1の分岐と、高解像度特徴の浅い学習を提供する第2の分岐と、を備え、前記CNNは、前記第1の分岐および前記第2の分岐からのそれぞれの予測を組み合わせて、フォアグラウンド/バックグラウンドセグメンテーションと、オブジェクトクラスセグメンテーションと、を含む情報を出力する。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11