IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 華為技術有限公司の特許一覧

特許7560040ターゲットとした総合相違損失を用いるセマンティック・セグメンテーション
<>
  • 特許-ターゲットとした総合相違損失を用いるセマンティック・セグメンテーション 図1
  • 特許-ターゲットとした総合相違損失を用いるセマンティック・セグメンテーション 図2
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-24
(45)【発行日】2024-10-02
(54)【発明の名称】ターゲットとした総合相違損失を用いるセマンティック・セグメンテーション
(51)【国際特許分類】
   G06N 3/084 20230101AFI20240925BHJP
   G06T 7/00 20170101ALI20240925BHJP
【FI】
G06N3/084
G06T7/00 350C
【請求項の数】 10
(21)【出願番号】P 2023505822
(86)(22)【出願日】2021-07-28
(65)【公表番号】
(43)【公表日】2023-08-17
(86)【国際出願番号】 CA2021051059
(87)【国際公開番号】W WO2022020954
(87)【国際公開日】2022-02-03
【審査請求日】2023-04-03
(31)【優先権主張番号】63/057,876
(32)【優先日】2020-07-28
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】503433420
【氏名又は名称】華為技術有限公司
【氏名又は名称原語表記】HUAWEI TECHNOLOGIES CO.,LTD.
【住所又は居所原語表記】Huawei Administration Building, Bantian, Longgang District, Shenzhen, Guangdong 518129, P.R. China
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ゲルジェフ,マーティン イワノフ
(72)【発明者】
【氏名】タガヴィ,エーサン
(72)【発明者】
【氏名】ラザニ,ライアン
(72)【発明者】
【氏名】リィウ,ビンビン
【審査官】山本 俊介
(56)【参考文献】
【文献】特開2020-052032(JP,A)
【文献】David Eigen ほか,Predicting Depth, Surface Normals and Semantic Labels with a Common Multi-Scale Convolutional Architecture,arXiv.org [オンライン],version 4,2015年,頁1~9,[検索日 2024.03.22] インターネット<URL:https://arxiv.org/abs/1411.4734>
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
データ点をそれぞれ分類するニューラル・ネットワークの訓練中にバックプロパゲーションで使用する総合的な相違損失を計算する方法であって:
前記ニューラル・ネットワークを用いて、入力データ点のセット内の各データ点に対するそれぞれのラベルを予測するステップ;
(i)近辺のデータ点の中での予測されたラベルの平滑性と(ii)同じ近辺のデータ点の中でのグランド・トゥルース・ラベルの平滑性との間の相違を示す相違インジケータを決定するステップ;及び
前記相違インジケータに基づいて総合的な相違損失を計算するステップ;
を含み、前記データ点は点群のうちの点群データ点であり、前記近辺のデータ点は最近傍同定アルゴリズムによって決定される、方法。
【請求項2】
請求項1に記載の方法において、前記近辺のデータ点の中での予測されたラベルの平滑性を決定するステップは、前記近辺のデータ点の間における前記予測されたラベルの差異を決定するステップを含み、前記近辺のデータ点の中でのグランド・トゥルース・ラベルの平滑性を決定するステップは、前記近辺のデータ点の間における前記グランド・トゥルース・ラベルの差異を決定するステップを含む、方法。
【請求項3】
請求項2に記載の方法において、前記相違インジケータを決定するステップは、前記近辺のデータ点の中での予測されたラベルの平滑性と、前記同じ近辺のデータ点の中でのグランド・トゥルース・ラベルの平滑性との間の相違のノルムを決定するステップを含む、方法。
【請求項4】
請求項1ないし3のうちの何れか1項に記載の方法において、前記データ点は画像ピクセルであり、近辺のデータ点は所定のピクセル距離によって決定される、方法。
【請求項5】
請求項1ないし3のうちの何れか1項に記載の方法において、前記総合的な相違損失は、前記ニューラル・ネットワークの総合的な損失を生成するために、前記ニューラル・ネットワークの総合的な損失関数に組み込まれ、前記方法は、前記ニューラル・ネットワークの複数のパラメータの更新値を、前記ニューラル・ネットワークの勾配降下訓練の一部として決定するステップを更に含む、方法。
【請求項6】
セマンティック・セグメンテーションを実行するニューラル・ネットワークを訓練する方法であって:
前記ニューラル・ネットワークを使用して、入力データ点のセット内の各データ点に対するそれぞれのラベルを予測するステップ;
各データ点に対して、(i)前記データ点に対して予測されたラベルと前記データ点の少なくとも1つの近辺のデータ点に対する予測されたラベルとの間の予測ラベル相違値;及び(ii)前記データ点に対するグランド・トゥルース・ラベルと前記データ点の少なくとも1つの近辺のデータ点に対するグランド・トゥルース・ラベルとの間のグランド・トゥルース・ラベル相違値を決定するステップ;
各データ点に対して、前記予測ラベル相違値と前記グランド・トゥルース・ラベル相違値との間の差異のノルムを決定するステップ;
前記ノルムの合計に基づいて前記入力データ点のセットに対する総合的な相違損失を計算するステップ;及び
少なくとも前記総合的な相違損失に基づいて前記ニューラル・ネットワークのパラメータのセットを更新するためにバックプロパゲーションを実行するステップ;
を含み、前記入力データ点のセットは点群のデータ点を含み、前記近辺のデータ点は最近傍同定アルゴリズムによって決定される、方法。
【請求項7】
請求項6に記載の方法において:
前記予測ラベル相違値を決定するステップは:(i,j)がデータ点インデックスであり、Δijが前記データ点インデックスにおけるそれぞれのステップ値であり、y{i,j}がテンソル変数Y{(Δi),(j)}の対応する位置での包含に対するデータ点(i,j)に対する予測されたラベルである場合において、全てのデータ点(i,j)及び値Δijに対して、y{(i+Δi),(j)}-y{i,j}の絶対値を計算し、テンソル変数Y{(Δi),(j)}の対応する位置での包含に対するy{(i),(j+Δj)}-y{i,j}の絶対値を計算するステップを含み;
グランド・トゥルース・ラベル相違値を決定するステップは:y^ {i,j}が、テンソル変数Y^ {(i),(Δj)}の対応する位置での包含に対するデータ点(i,j)に対するグランド・トゥルース・ラベルである場合において、全てのデータ点(i,j)及び値Δijに対して、y^ {(i+Δi),(j)}-y^ {i,j}の絶対値を計算し、テンソル変数Y^ {(i),(Δj)}の対応する位置での包含に対するy^ {(i),(j+Δj)}-y^ {i,j}の絶対値を計算するステップを含み;及び
前記差異のノルムを決定するステップは:(Δi),(j)の全てのペアに対して、Y{(Δi),(j)} 及びY^ {(Δi),(j)}の第1のp,qノルムを計算し、 (i),(Δj)の全てのペアに対して、Y{(i),(Δj)} 及びY^ {(i),(Δj)}のp,qノルムを計算するステップを含む、方法。
【請求項8】
請求項6又は7に記載の方法において、前記入力データ点のセットは画像を含む、方法。
【請求項9】
プロセッサと前記プロセッサに結合された不揮発性メモリとを含むコンピュータ・システムであって、前記不揮発性メモリは、前記プロセッサにより実行された場合に、請求項1ないし3のうちの何れか1項に記載の方法を実行するように前記コンピュータ・システムを構築する命令を記憶している、コンピュータ・システム。
【請求項10】
請求項1ないし3のうちの何れか1項に記載の方法をコンピュータに実行させる命令を含むコンピュータ・プログラム。
【発明の詳細な説明】
【技術分野】
【0002】
[0002] 分野
本開示は、一般に、人工知能、特にニューラル・ネットワークに関連し、セマンティック・セグメンテーションを実行する(即ち、データ点をそれぞれ分類する)ニューラル・ネットワークを訓練する際に使用する総合的な相違損失を計算する方法を提供する。
【背景技術】
【0003】
[0003] 背景
コンピュータ・ビジョンは、自律運転、自律製造、検査、及び医療診断のような様々な分野における様々なインテリジェント/自律システムの不可欠な部分である。コンピュータ・ビジョンは、コンピュータがデジタル画像を用いて視覚的な世界を解釈及び理解することを学習する人工知能の分野である。カメラによって生成されたデジタル画像を用いて、コンピュータは、ディープ・ラーニング・モデルを用いて、環境の中で環境を正確に「知覚し」(即ち、物体を識別して分類し)、その環境の中で「知覚され」たものに反応することができる。例えば、自律車両は、車両に搭載されたカメラを有し、カメラは、車両の運転中に車両を取り巻く環境の画像を捕捉する。車両のコンピュータは、カメラによって捕捉されたデジタル画像を処理する。
【0004】
[0004] セマンティック・セグメンテーションは、デジタル画像の各ピクセルに、何が表現されているかについての対応するクラスをラベル付けする機械学習(ML)技術である。同じクラスの物体に属する全てのピクセルは、その物体としてラベル付けされる。例えば、画像の中で検出される全ての人々は1つの物体としてセグメント化され、背景(即ち、人々でないもの)は別の物体としてセグメント化されることが可能である。
【0005】
[0005] セマンティック・セグメンテーションは、例えば、光検出及び測距(LiDAR)センサーによって生成される点群の状況で適用される可能性もある。点群の中の各データ点は、何が表現されているかについての対応するクラスでラベル付けされることが可能である。
【0006】
[0006] MLベースのセマンティック・セグメンテーション・モデルを訓練するための多くの既知の解決策は、データ点(例えば、画像データの場合のピクセルや、点群の場合のクラウド・ポイント)に対してモデルにより予測されたラベル出力の比較に基づく損失値を低くすることに着目している。そのような解決策は、近辺のデータ点情報をほとんど又は全く考慮せずに、データ点について予測されたラベルとそのグランド・トゥルース・ラベルとの関係に着目しているだけである可能性がある。一部の解決策は、漠プロパゲーションの目的のために全てのデータ点にわたって平均化を実行するが、そのような解決策でさえ、近辺のデータ点に関する情報は活用されていない。
【0007】
[0007] 点群の中の画像又はデータ点のピクセルを分類することは、近辺のデータ点(例えば、画像データの場合は近辺のピクセルであり、LiDARセンサーによって生成される点群の場合は最近傍のデータ点)によって提供される情報から多大な恩恵を享受することが可能である。
【0008】
[0008] 近辺のデータ点から恩恵を受けるために、近辺のデータ点により提供される情報を組み込み、セマンティック・セグメンテーションを実行するニューラル・ネットワークの精度を改善することが望ましい。
【発明の概要】
【0009】
[0009] 第1の例示的な態様による方法は、データ点をそれぞれ分類するニューラル・ネットワークの訓練中にバックプロパゲーションで使用する総合的な相違損失を計算する方法であり、本方法は、前記ニューラル・ネットワークを用いて、入力データ点のセット内の各データ点に対するそれぞれのラベルを予測するステップ;(i)近辺のデータ点の中での予測されたラベルの平滑性と(ii)同じ近辺のデータ点の中でのグランド・トゥルース・ラベルの平滑性との間のバリアンス(variance)を示す相違インジケータを決定するステップ;及び及び相違インジケータに基づいて総合的な相違損失を計算するステップを含む。
【0010】
[0010] 少なくとも幾つかのアプリケーションでは、近辺のデータ点の中での予測されたラベルと近辺のデータ点の中でのグランド・トゥルース・ラベルとの比較を組み込んだ総合的な相違損失値は、セマンティック・セグメンテーション・タスクを実行するように訓練されたニューラル・ネットワークの精度を改善することができる。
【0011】
[0011] 方法についての上記の態様の一部の例において、前記近辺のデータ点の中での予測されたラベルの平滑性を決定するステップは、前記近辺のデータ点の間における前記予測されたラベルの差異を決定するステップを含み、前記近辺のデータ点の中でのグランド・トゥルース・ラベルの平滑性を決定するステップは、前記近辺のデータ点の間における前記グランド・トゥルース・ラベルの差異を決定するステップを含む。
【0012】
[0012] 方法についての上記の態様の一部の例において、前記相違インジケータを決定するステップは、前記近辺のデータ点の中での予測されたラベルの平滑性と、前記同じ近辺のデータ点の中でのグランド・トゥルース・ラベルの平滑性との間の相違のノルムを決定するステップを含む。
【0013】
[0013] 方法についての上記の態様の一部の例において、前記データ点は画像ピクセルであり、近辺のデータ点は所定のピクセル距離によって決定される。
【0014】
[0014] 方法についての上記の態様の一部の例において、前記データ点は点群のうちの点群データ点であり、近辺のデータ点は最近傍同定アルゴリズムによって決定される。
【0015】
[0015] 方法についての上記の態様の一部の例において、前記総合的な相違損失は、前記ニューラル・ネットワークの総合的な損失を生成するために、損失関数に組み込まれ、前記方法は、前記ニューラル・ネットワークの複数のパラメータの更新値を、前記ニューラル・ネットワークの勾配降下訓練の一部として決定するステップを更に含む。
【0016】
[0016] 別の例示的な態様による方法は、セマンティック・セグメンテーションを実行するニューラル・ネットワークを訓練する際に使用する損失値を決定する方法であり、本方法は:前記ニューラル・ネットワークを使用して、入力データ点のセット内の各データ点に対するそれぞれのラベルを予測するステップ;各データ点に対して、(i)前記データ点に対して予測されたラベルと前記データ点の少なくとも1つの近辺のデータ点に対する予測されたラベルとの間の予測ラベル相違値;及び(ii)前記データ点に対するグランド・トゥルースと前記データ点の少なくとも1つの近辺のデータ点に対するグランド・トゥルース・ラベルとの間のグランド・トゥルース・ラベル相違値を決定するステップ;各データ点に対して、前記予測ラベル相違値と前記グランド・トゥルース・ラベル相違値との間の差異インジケータを決定するステップ;及び再インジケータのノルムに基づいて損失値を指定するステップを含む。
【0017】
[0017] 別の態様によるコンピュータ・システムは、プロセッサと前記プロセッサに結合された不揮発性メモリとを含み、前記メモリは、前記プロセッサにより実行された場合に、上記の態様の何れかの方法を実行するように前記コンピュータ・システムを構築する命令を記憶している。
【0018】
[0018] 本開示は、セマンティック・セグメンテーションのために構築され配置されたニューラル・ネットワークを訓練する際の効率を改善する損失計算方法を提供する。
【図面の簡単な説明】
【0019】
[0019] 例示的な実施形態及びその利点のより完全な理解のために、添付図面に関連する以下の詳細な説明が参照される。
図1】[0020] 図1は、例示的な実施形態による機械学習システムを示す概略図である。
図2】[0021] 図2は、図1の機械学習システムの特徴を実装するために使用することが可能な演算デバイスのブロック図を示す。 [0022] 類似する参照番号は様々な図面の中で類似する構成要素を示すために使用されている可能性がある。
【発明を実施するための形態】
【0020】
[0023] 本開示の実施形態は、データ点を個別に分類するためにニューラル・ネットワークを訓練する際に使用する損失値を生成する方法に関する。訓練済みニューラル・ネットワークは、データ点をそれぞれ分類するように構成され、配置される。データ・セット及びそのラベルで利用可能な近辺情報から恩恵を受けるために、本開示は、特定の最近傍情報を、損失関数に組み込むことを可能にする総合的な相違損失を導入する。開示される損失関数は、幾つかのアプリケーションにおいて、セマンティック・セグメンテーション及び分類に対する精度メトリックを改善することができる。
【0021】
[0024] 本開示において、データ点とは、データ・セット内の基本データ要素、例えば、光検出及び測距(LiDAR)センサーのような検出及び測距(DAR)センサーによって生成される点群内のクラウド・データ点又はデジタル画像内のピクセル を指す可能性がある。ニューラル・ネットワーク(NN)は、1つ以上の畳み込みNN層、全結合NN層、活性化関数、及びその他の層並びに処理から構成される機械学習ベースのコンピュータ・アルゴリズム実装モデルを指す可能性がある。意味的な分類のためのNNの場合、層及び関数は、関数f(.)を近似するようにまとめて構造化され且つ配置され、その関数は、タスクに依存して、データ点又はデータ点のサブセットをそれぞれ分類することが可能なものである。例えば、NNは、入力x(画像の場合は赤、緑、青(RGB)強度値のW×Hの配列、又は、LIDAR点群の場合はデータ点の値の点群集合(x,y,z強度))を取り込み、入力xにおけるデータ点の全部又は一部に対するラベル予測を出力することが可能である。例えば、一部のセマンティックNNは、車両、オートバイ運転者及び歩行者のみのような動的な物体を分類することに焦点を当て、別のセマンティックNNは、道路、建物及び交通標識のような他のタイプの物体を分類することを含む可能性がある。
【0022】
[0025] 図1は、ニューラル・ネットワーク104を含むコンピュータに実装された機械学習システム100のブロック図である。ニューラル・ネットワーク104は、教師あり学習プロセスと訓練データ・セット102とを使用して訓練され、訓練データ・セットは、画像又は点群の形態の訓練データと、各データ点(例えば、画像の場合は各々のピクセル、点群の場合は各々の点群データ点)に対するグランド・トゥルース・ラベルyとを含む。セマンティック・セグメンテーションのために構築及び配置されるニューラル・ネットワーク104は、次のようにモデルを近似する:
【0023】
【数1】

この場合において、xはニューラル・ネットワークに対する入力であり、fNN(.)はニューラル・ネットワーク104によって近似される関数であり、y^はニューラル・ネットワーク104により出力される予測である。ニューラル・ネットワーク104に対する入力xは、デジタル画像又は点群に対応するデータ点であってもよい。ニューラル・ネットワーク104によって出力される予測ラベルy^は、入力xがデジタル画像である場合には画像内の全てのピクセルについての予測されたクラス・ラベルを含み、或いは、入力xが点群である場合には全てのデータ点についての予測されたクラス・ラベルを含む。ニューラル・ネットワーク104は、教師あり学習アルゴリズム及び訓練データ・セット102を用いて訓練され、その場合において、訓練データ・セット102内の各々の訓練データ・サンプルは、デジタル画像又は点群に対応するデータ点のセットと、データ点のセット内の全データに対するグランド・トゥルース・ラベルを含むグランド・トゥルース・ラベルyとを含む。
【0024】
[0026] ニューラル・ネットワーク104に対する入力xは、指定されたタスクに適した任意のフォーマットにおけるものであるとすることが可能である。画像分類タスクの場合、入力xは、サイズ(W,H)のRGBチャネルを有する、(C,W,H)のサイズのテンソルを用いて表現される画像データであってもよく、ここで、Cはフィーチャー・チャネルである。画像データは、(W,H)サイズ・マトリックス中のピクセル(例えば、データ点)の位置が構造及び意味を有するように構造化されたデータである。各々のピクセル(例えば、データ点)の近辺は、マトリクス中のそのピクセルの位置(例えば、データ点)によって定義される。特定のピクセル(例えば、データ点)の近傍サイズは、ステップ数によって定義されることが可能である(例えば、1ステップは、対象ピクセル(例えば、データ点)の直近のピクセル(例えば、データ点)を意味する)。
【0025】
[0027] 他の例では、入力xは、走査光検出及び測距(LiDAR)センサーのような、検出及び測距センサーによって生成される点群であってもよい。点群は、三次元の形状又は特徴を表す三次元座標系におけるデータ点の集合である。このような例では、入力xは点群のデータ点であり、これは、近辺のデータ点は組織化されていない可能性があり、その結果、近辺のデータ点は単に相対的な位置に基づいて同定することはできない。別の演算、例えば、k最近傍演算(k-nearest neighbor computation)が、点群の近傍データ点を識別するために必要とされる可能性がある。
【0026】
[0028] ニューラル・ネットワーク104を訓練する方法は、ニューラル・ネットワーク104の学習可能なパラメータ(例えば、ウェイト及びバイアス)がイニシャライザ106を使用して初期化される際に、初期化動作とともに開始することが可能である。訓練データ・セット102からの訓練データ(入力x)は、ニューラル・ネットワーク104に対する入力として提供される。ニューラル・ネットワーク104は、入力データ点のセット内の各データ点について、それぞれのラベルy^を予測する。
【0027】
[0029] 本開示の態様によれば、ターゲットのデータ点に加えてその近辺のデータ点の両方に基づいて、総合的な相違損失Vloss(y,y^)が計算される。総合的な相違損失は、ターゲットのデータ点とその近辺のデータ点の両方に関連する誤差の総和を組み込む。例示的な実施例において、総合的な相違損失は、次のようにして計算される:データ点の近辺のグループ内の全てのデータ点に対して:(a)各データ点とその近辺のデータ点との間の予測されたラベルにおける相違の絶対値を計算して、予測ラベル相違値の集合を決定し;(b)各々のデータ点とその近辺との間のグランド・トゥルース・ラベルにおける相違の絶対値を計算して、グランド・トゥルース・ラベル相違値の集合を決定し;(c)データ点の近辺のグループ内のデータ点の各ペアについて、予測ラベル相違値の集合とグランド・トゥルース・ラベル相違値との間の差分のノルムを計算し;及び(d)計算されたノルムを合計して、入力xに対する損失に到達する。
[0030] この点に関して、総合的な相違損失Vloss(y,y^)を決定する損失計算部108は、以下の方程式により説明されることが可能である:
【0028】
【数2】

ここで、Vloss(y,y^)は、総合的な相違損失であり、(i,j)はデータ点インデックス(例えば、画像データの場合におけるピクセル位置)であり、Δi,Δjは、点群の場合のカーテシアン座標、画像のピクセル・ドメインのような既知の座標系におけるデータ点又は近辺のピクセルを参照するデータ点インデックスにおけるそれぞれのステップ値であり、yi,jは位置(i,j)におけるデータ位置に対するグランド・トゥルースであり、y^ i,jは予測されたラベル(ニューラル・ネットワーク104の出力)であり、|・|は絶対値関数であり、||・||p,qはp,qノルムである。
【0029】
[0031] 例示的な実施形態において、損失計算部108は、以下のようにして総合的な相違損失Vloss(y,y^)を計算するように構成される:
[0032] ステップ1:近辺の位置インデックスがデータ構造によって本来的に定義されていない場合(例えば、データ点が構造化されたデータでない場合)、各々の予測されたデータ点の近辺のデータ点を特定する(例えば、k-近傍アルゴリズムを適用する)。
【0030】
[0033] ステップ2:ペア(y,y^)の全てのデータ点に対する1つの項として、全ての値(y,y^)に対して数式(3)を計算する。より詳細には、
【0031】
【数3】


[0034] ステップ4:総合的な相違損失Vloss(y,y^)が主要な損失関数に含まれる複数の損失のうちの1つである場合、総合的な相違損失Vloss(y,y^)を、ニューラル・ネットワーク104の訓練に使用される主要な損失関数に加えて、トータルの損失を計算する(通常、トータルの損失関数は、様々な損失関数の組み合わせである)。総合的な相違損失Vloss(y,y^)は、唯一の損失項として使用されたり、或いは、クロス・エントロピーのような他の損失項に加えて使用されたりすることが可能である。
【0032】
[0035] ステップ5:逆伝搬エンジン112を使用して、ニューラル・ネットワーク104の学習可能なパラメータ(例えば、ウェイト及びバイアス)を更新する。
【0033】
[0036] 逆伝搬エンジン112は、前述の総合的な損失関数又は総合的な相違Vloss(y,y^)のような損失(コスト)関数を使用して、ニューラル・ネットワーク104のパラメータ(例えば、ウェイト及びバイアス)を更新するために、機械学習において任意の既知の逆伝搬技術を実行する(又は動作させる)ことが可能である。逆伝搬技術の具体例は、ニューラル・ネットワーク104のパラメータ(例えば、ウェイト及びバイアス)を更新するための方程式とともに導出される自動勾配計算及び分析勾配計算を含む。
【0034】
[0037] 要するに、データ点をそれぞれ分類するニューラル・ネットワーク104の訓練中に使用する総合的な相違損失Vloss(y,y^)を生成する方法は:
ニューラル・ネットワーク104を使用して、入力データ点のセット内の各データ点についてそれぞれのラベルy^を予測するステップ;
(i)近辺のデータ点の中での予測されたラベルy^のスムーズ性と、(ii)同じ近辺のデータ点の中でのグランド・トゥルース・ラベルyのスムーズ性との間のバリアンスを示す相違インジケータを決定するステップ;及び
相違インジケータに基づいて総合的な相違損失Vloss(y,y^)を決定するステップを含むことが可能である。
【0035】
[0038] 例示的な実施形態において、点群は、道路車両の場合には、点群のセットを生成するように収集される。訓練データ・セットは、各々の点群に含まれる各データ点に関するグランド・トゥルース・ラベルを取得することによって生成される。次いで、訓練データ・セットは、NN104を訓練するために使用される。例示的な実施形態では、NN104は、次の参考文献に記載されているSalsaNextモデルのアーキテクチャに類似したアーキテクチャを有している:
SalsaNext: Fast, Uncertainty-aware Semantic Segmentation of LiDAR Point Clouds for Autonomous Driving, Mar 2020, Tiago Cortinhal, George Tzelepis, Eren Erdal Aksoy, https://arxiv.org/abs/2003.03653.
損失計算部108によりNN104のトータル損失を計算するために使用された損失関数は:次のようなものである:
[0039]
【0036】
【数4】

[0040] 少なくとも幾つかの実施例において、上述の損失関数とともにNN104を使用することは、セマンティック・セグメンテーションを実行する(即ち、データ点をそれぞれ分類する)NN104の精度を改善することができる。
【0037】
[0041] 例示的な実施形態では、上述の構成要素、モジュール、システム、及びエージェントは、ハードウェア処理回路と、ハードウェア処理回路上で実行可能な機械読み取り可能な命令(ソフトウェア及び/又はファームウェア)との組み合わせを各々が含む1つ以上のコンピュータ・デバイス、サーバー、又はシステムを使用して実現することができる。ハードウェア処理回路は、マイクロプロセッサ、マルチ・コア・マイクロプロセッサのコア、マイクロコントローラ、プログラマブル集積回路、デジタル信号プロセッサ、又はその他のハードウェア処理回路のうちの何れか又は幾つかの組み合わせを含むことが可能である。
【0038】
[0042] 図2を参照すると、トータルの相違損失を計算する方法及びニューラル・ネットワーク104を訓練する方法を実施するための例示的な演算デバイス200の概略ハードウェア図が示される。演算デバイス200は、演算デバイス200の全体的な動作を制御する少なくとも1つのプロセッサ202を含む。プロセッサ202は、1つ以上の中央処理ユニット、グラフィック処理ユニット、テンソル処理ユニット、AI対応処理ユニット、及び関連するハードウェア・アクセラレータを含む可能性がある。プロセッサ202は、構成要素とプロセッサ202との間の通信経路を提供する通信バス(図示せず)を介して複数の構成要素に結合される。演算デバイス200はまた、ランダム・アクセス・メモリ(RAM)、リード・オンリー・メモリ(ROM)、永続的な(不揮発性)メモリであって、磁気ハード・ドライブ、フラッシュ消去可能プログラマブル・リード・オンリー・メモリ(EPROM)(「フラッシュ・メモリ」)、又はその他の適切なメモリ形態のうちの1つ以上であってもよい永続的なメモリを含む。
【0039】
[0043] メモリ204は、ニューラル・ネットワーク104を訓練するためのコンピュータ・プログラム206を記憶する。コンピュータ・プログラム206は、プロセッサ202によって実行可能なコンピュータ読み取り可能命令を含む。プロセッサ202がコンピュータ・プログラム206のコンピュータ読み取り可能な命令を実行すると、ニューラル・ネットワーク104を訓練する方法、及び/又は本件で説明されているようなニューラル・ネットワーク104の訓練中の逆伝搬に使用するためのトータル相違損失を計算する方法が実行される。
【0040】
[0044] 本開示は、一定の順序のステップで方法及びプロセスを説明しているが、方法及びプロセスの1つ以上のステップは、適宜省略又は変更される可能性がある。1つ以上のステップは、必要に応じて、それらが説明されている順序以外の順序で行われてもよい。
【0041】
[0045] 本開示は、少なくとも部分的には、方法の観点で説明されているが、当業者は、本開示が、ハードウェア構成要素、ソフトウェア、又はそれら両者の任意の組み合わせにより、説明された方法の態様及び特徴のうちの少なくとも一部を実施するための種々の構成要素にも向けられていることを理解するであろう。従って、本開示の技術的解決策は、ソフトウェア製品の形態で具現化されてもよい。適切なソフトウェア製品は、予め記録されたストレージ・デバイス、又は、その他の類似の不揮発性又は非一時的なコンピュータ読み取り可能媒体、例えばDVD、CD-ROM、USBフラッシュ・ディスク、リムーバブル・ハード・ディスク、又はその他の記憶媒体、に記憶されることが可能である。ソフトウェア製品は具体的に記憶された命令を含み、命令は、処理デバイス(例えば、パーソナル・コンピュータ、サーバー、又はネットワーク・デバイス)が、本件に開示された方法の例を実行することを可能にする。
【0042】
[0046] 本開示は、クレームの対象事項から逸脱することなく、他の具体的な形態で具現化される可能性がある。説明される例示的な実施形態は、全ての点において、例示的なものであるだけに過ぎず、限定的なものではないと考えられるべきである。上述の実施形態のうちの1つ以上から選択された特徴は、明示的に説明されていない代替的な実施形態を生み出すように組み合わせられる可能性があり、そのような組み合わせに適した特徴は本開示の範囲内にあると理解される。
【0043】
[0047] 開示された範囲内の全ての値及びサブ・レンジも開示されている。また、本件に開示及び示されているシステム、デバイス及びプロセスは、特定の数の要素/構成要素を含む可能性があるが、システム、デバイス及びアセンブリは、追加の又は数個のそのような要素/構成要素を含むように修正されることが可能でる。例えば、開示される要素/構成要素の内の何れかは、単数であるとして参照されるかもしれないが、本件で開示される実施形態は、複数のそのような要素/構成要素を含むように修正されることが可能である。本件で説明される対象事項は、技術的な全ての適切な変更をカバーして包含しているように意図されている。

図1
図2