特許7284352 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 北京京東尚科信息技術有限公司の特許一覧 ▶ 京東美国科技公司の特許一覧

特許7284352リアルタイムオブジェクト検出及び語意分割の同時行いシステム及び方法及び非一時的なコンピュータ可読媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-05-22

(45)【発行日】2023-05-30

(54)【発明の名称】リアルタイムオブジェクト検出及び語意分割の同時行いシステム及び方法及び非一時的なコンピュータ可読媒体

(51)【国際特許分類】

G06T 7/00 20170101AFI20230523BHJP

G06T 7/11 20170101ALI20230523BHJP

G06V 10/82 20220101ALI20230523BHJP

G06N 3/08 20230101ALI20230523BHJP

G06N 3/0464 20230101ALI20230523BHJP

【ＦＩ】

G06T7/00 350C

G06T7/11

G06V10/82

G06N3/08

G06N3/0464

【請求項の数】 20

(21)【出願番号】P 2022547758

(86)(22)【出願日】2021-02-19

(65)【公表番号】

(43)【公表日】2023-03-27

(86)【国際出願番号】 CN2021076914

(87)【国際公開番号】W WO2021169852

(87)【国際公開日】2021-09-02

【審査請求日】2022-08-04

(31)【優先権主張番号】16/802,078

(32)【優先日】2020-02-26

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】517156872

【氏名又は名称】北京京東尚科信息技術有限公司

【氏名又は名称原語表記】ＢｅｉｊｉｎｇＪｉｎｇｄｏｎｇＳｈａｎｇｋｅＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙＣｏ．，Ｌｔｄ．

【住所又は居所原語表記】８ｔｈｆｌｏｏｒｏｆｂｕｉｌｄｉｎｇＮｏ．７６，ＺｈｉｃｈｕｎＲｏａｄ，ＨａｉｄｉａｎＤｉｓｔｒｉｃｔ，Ｂｅｉｊｉｎｇ１０００８６Ｃｈｉｎａ

(73)【特許権者】

【識別番号】521108663

【氏名又は名称】ジェイ・ディー・ドット・コムアメリカンテクノロジーズコーポレーション

【氏名又は名称原語表記】ＪＤ．ｃｏｍＡｍｅｒｉｃａｎＴｅｃｈｎｏｌｏｇｉｅｓＣｏｒｐｏｒａｔｉｏｎ

【住所又は居所原語表記】６７５ＥＭｉｄｄｌｅｆｉｅｌｄＲｄ，ＭｏｕｎｔａｉｎＶｉｅｗ，ＣＡ９４０４３，ＵＳＡ

(74)【代理人】

【識別番号】110001771

【氏名又は名称】弁理士法人虎ノ門知的財産事務所

(72)【発明者】

【氏名】マオフォンダ

(72)【発明者】

【氏名】シアンウエイ

(72)【発明者】

【氏名】ルゥーチュモン

(72)【発明者】

【氏名】チャンウエイドン

【審査官】伊知地和之

(56)【参考文献】

【文献】米国特許出願公開第２０１９／００５７５０７（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１９／００５０６６７（ＵＳ，Ａ１）

【文献】Wei XIANG et al.，ThunderNet: A Turbo Unified Network for Real-Time Semantic Segmentation，2019 IEEE Winter Conference on Applications of Computer Vision (WACV)，IEEE，2019年01月，pp.1789-1796

【文献】Hengshuang ZHAO et al.，Pyramid Scene Parsing Network，Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)，IEEE，2017年，pp. 2881-2890

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／００－３／１２

Ｇ０６Ｎ７／０８－９９／００

Ｇ０６Ｔ７／００－７／９０

Ｇ０６Ｖ１０／００－２０／９０

Ｇ０６Ｖ３０／４１８

Ｇ０６Ｖ４０／１６

Ｇ０６Ｖ４０／２０

ＩＥＥＥＸｐｌｏｒｅ

(57)【特許請求の範囲】

【請求項1】

プロセッサ及びコンピュータ実行可能なコードを記憶した不揮発性メモリを含む計算装置を含み、ここで、前記コンピュータ実行可能なコードは前記プロセッサで実行される時に以下のように構成され、
シーンの画像を受信し、
ニューラルネットワークバックボーンを用いて前記画像を処理して、特徴図を取得し、
オブジェクト検出モジュールを用いて前記特徴図を処理して、前記画像のオブジェクト検出結果を取得し、
語意分割モジュールを用いて前記特徴図を処理して、前記画像の語意分割結果を取得し、
ここで、同一の損失関数を用いて前記オブジェクト検出モジュールと前記語意分割モジュールをトレーニングし、前記損失関数はオブジェクト検出コンポーネント及び語意分割コンポーネントを含み、
ここで、前記ニューラルネットワークバックボーンはＲｅｓＮｅｔ１８バックボーンを含み、前記ＲｅｓＮｅｔ１８バックボーンはその第４のブロックから切断される
オブジェクト検出及び語意分割システム。

【請求項2】

前記オブジェクト検出モジュール及び前記語意分割モジュールに対するトレーニングデータは、トレーニング画像、前記トレーニング画像に限定された少なくとも一つのバウンディングボックス、前記少なくとも一つのバウンディングボックスのラベル、及び前記トレーニング画像のマスクを含む
請求項１に記載のシステム。

【請求項3】

前記オブジェクト検出モジュールは単回検出器ＳＳＤである
請求項１に記載のシステム。

【請求項4】

前記オブジェクト検出モジュールは、順に、
五つの畳み込み層と、
検出層と、
非極大値抑制ＮＭＳ層と、を含む
請求項１に記載のシステム。

【請求項5】

５１２×５１２解像度の画像に対して、前記ニューラルネットワークバックボーンは、前記検出層に６４×６４情報及び３２×３２情報を畳み込んで添加し、前記五つの畳み込み層は、それぞれ前記検出層に１６×１６情報、８×８情報、４×４情報、２×２情報及び１×１情報を添加する
請求項４に記載のシステム。

【請求項6】

前記語意分割モジュールはピラミッドプーリングモジュールである
請求項１に記載のシステム。

【請求項7】

前記語意分割モジュールは、順に、
前記特徴図をプーリングして異なる大きさのプーリング特徴を取得するプーリングモジュールと、
各畳み込み層が前記異なる大きさのプーリング特徴のうちの一つのプーリング特徴を畳み込んで異なる大きさの畳み込み特徴を取得する複数の畳み込み層と、
前記異なる大きさの畳み込み特徴を受信してアップサンプリング特徴を取得するアップサンプリングモジュールと、
前記アップサンプリング特徴及び前記ニューラルネットワークバックボーンからの特徴を受信して接合特徴を取得する接合層と、
前記接合特徴を畳み込んで前記語意分割結果としての画素ごとの予測を取得する畳み込み層と、を含む
請求項１に記載のシステム。

【請求項8】

前記プーリング特徴の大きさは１×１、２×２、３×３及び６×６である
請求項７に記載のシステム。

【請求項9】

前記コンピュータ実行可能なコードは、さらに、前記オブジェクト検出結果と前記語意分割結果に基づいて前記シーンにおける操作装置を制御するように構成される
請求項１に記載のシステム。

【請求項10】

計算装置によりシーンの画像を受信することと、
前記計算装置によりニューラルネットワークバックボーンを用いて前記画像を処理して、特徴図を取得することと、
前記計算装置によりオブジェクト検出モジュールを用いて前記特徴図を処理して、前記画像のオブジェクト検出結果を取得することと、
前記計算装置により語意分割モジュールを用いて前記特徴図を処理して、前記画像の語意分割結果を取得することと、を含み、
ここで、同一の損失関数を使用して前記オブジェクト検出モジュールと前記語意分割モジュールをトレーニングし、前記損失関数はオブジェクト検出コンポーネント及び語意分割コンポーネントを含み、
ここで、前記ニューラルネットワークバックボーンはＲｅｓＮｅｔ１８バックボーンを含み、前記ＲｅｓＮｅｔ１８バックボーンはその第４のブロックから切断される
オブジェクト検出及び語意分割方法。

【請求項11】

前記オブジェクト検出モジュール及び前記語意分割モジュールに対するトレーニングデータは、トレーニング画像、前記トレーニング画像に限定された少なくとも一つのバウンディングボックス、前記少なくとも一つのバウンディングボックスのラベル、及び前記トレーニング画像のマスクを含む
請求項１０に記載の方法。

【請求項12】

前記オブジェクト検出モジュールは単回検出器である
請求項１０に記載の方法。

【請求項13】

前記オブジェクト検出モジュールは、順に、
五つの畳み込み層と、
検出層と、
非極大値抑制ＮＭＳ層と、を含む
請求項１０に記載の方法。

【請求項14】

５１２×５１２解像度の画像に対して、前記ニューラルネットワークバックボーンは前記検出層に６４×６４情報及び３２×３２情報を畳み込んで添加し、前記五つの畳み込み層は、それぞれ前記検出層に１６×１６情報、８×８情報、４×４情報、２×２情報及び１×１情報を添加する
請求項１３に記載の方法。

【請求項15】

前記語意分割モジュールは、ピラミッドプーリングモジュールである
請求項１０に記載の方法。

【請求項16】

前記語意分割モジュールは、順に、
前記特徴図をプーリングして異なる大きさのプーリング特徴を取得するプーリングモジュールと、
各畳み込み層が前記異なる大きさのプーリング特徴のうちの一つのプーリング特徴を畳み込んで異なる大きさの畳み込み特徴を取得する複数の畳み込み層と、
前記異なる大きさの畳み込み特徴を受信してアップサンプリング特徴を取得するアップサンプリングモジュールと、
前記アップサンプリング特徴及び前記ニューラルネットワークバックボーンからの特徴を受信して接合特徴を取得する接合層と、
前記接合特徴を畳み込んで前記語意分割結果を取得する畳み込み層と、を含む
請求項１０に記載の方法。

【請求項17】

前記オブジェクト検出結果及び前記語意分割結果に基づいて前記シーンにおける操作装置を制御することをさらに含む
請求項１０に記載の方法。

【請求項18】

コンピュータ実行可能なコードを記憶した非一時的なコンピュータ可読媒体であって、
ここで、前記コンピュータ実行可能なコードは計算装置のプロセッサで実行される時に以下のように構成され、
シーンの画像を受信し、
ニューラルネットワークバックボーンを用いて前記画像を処理して、特徴図を取得し、
オブジェクト検出モジュールを用いて前記特徴図を処理して、前記画像のオブジェクト検出結果を取得し、
語意分割モジュールを用いて前記特徴図を処理して、前記画像の語意分割結果を取得し、
ここで、同一の損失関数を使用して前記オブジェクト検出モジュールと前記語意分割モジュールをトレーニングし、前記損失関数はオブジェクト検出コンポーネント及び語意分割コンポーネントを含み、
ここで、前記ニューラルネットワークバックボーンはＲｅｓＮｅｔ１８バックボーンを含み、前記ＲｅｓＮｅｔ１８バックボーンはその第４のブロックから切断される
非一時的なコンピュータ可読媒体。

【請求項19】

前記オブジェクト検出モジュールは、順に、
五つの畳み込み層と、
検出層と、
非極大値抑制ＮＭＳ層と、を含む
請求項１８に記載の非一時的なコンピュータ可読媒体。

【請求項20】

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、全体として、コンピュータビジョンに関し、具体的には、リアルタイムオブジェクト検出及び語意分割を同時に行うシステム及び方法に関する。

【背景技術】

【0002】

ここで提供される背景記述は、本開示の文脈を概略的に示すためである。本背景部分に記載された範囲内において、発明者の作業及び出願の提出時に従来技術の説明に適合しない可能性があり、本開示に対して既存のものであると明確的に又は暗黙的に承認されない。

【0003】

自動運転車両にとって、その周囲環境、例えば自動車、歩行者、交通信号灯、交通標識及び利用可能な空間などをタイムリーに理解することは重要である。この目標を実現するために、自動運転システムは一般的に視覚に基づく複数のタスク、例えばオブジェクト検出、語意分割、動き推定及び３Ｄ再構成を実行する必要があり、ここで、オブジェクト検出及び語意分割は二つの最も重要なタスクである。しかしながら、自動車の計算能力が限られることに鑑み、各タスクを実行する計算コストが非常に高い。

【発明の概要】

【発明が解決しようとする課題】

【0004】

したがって、本分野において上記欠陥及び不足を解決する必要がある。

【課題を解決するための手段】

【0005】

いくつかの態様において、本開示はオブジェクト検出及び語意分割システムに関する。いくつかの実施例において、前記システムは計算装置を含む。前記計算装置は、プロセッサと、コンピュータ実行可能なコードを記憶した不揮発性メモリとを有する。前記コンピュータ実行可能なコードは前記プロセッサで実行される時に、以下のように構成される。シーンの画像を受信する；ニューラルネットワークバックボーンを用いて前記画像を処理して、特徴図を取得する；オブジェクト検出モジュールを用いて前記特徴図を処理して、前記画像のオブジェクト検出結果を取得する；及び語意分割モジュールを用いて前記特徴図を処理することにより、前記画像の語意分割結果を取得する。同一の損失関数を使用して前記オブジェクト検出モジュールと前記語意分割モジュールをトレーニングし、前記損失関数はオブジェクト検出コンポーネント及び語意分割コンポーネントを含む。

【0006】

いくつかの実施例において、前記オブジェクト検出モジュール及び前記語意分割モジュールに対するトレーニングデータは、トレーニング画像、前記トレーニング画像に限定された少なくとも一つのバウンディングボックス、前記少なくとも一つのバウンディングボックスのラベル、及び前記トレーニング画像のマスクを含む。

【0007】

いくつかの実施例において、前記ニューラルネットワークバックボーンはＲｅｓＮｅｔ１８バックボーンを含み、前記ＲｅｓＮｅｔ１８バックボーンは、その第４のブロックから切断される。

【0008】

いくつかの実施例において、前記オブジェクト検出モジュールは単回検出器（ＳＳＤ）である。

【0009】

いくつかの実施例において、前記オブジェクト検出モジュールは、五つの畳み込み層、検出層、及び非極大値抑制（ＮＭＳ）層を順に含む。いくつかの実施例において、５１２×５１２解像度の画像に対して、前記ニューラルネットワークバックボーンは、前記検出層に６４×６４情報及び３２×３２情報を畳み込んで添加し、前記五つの畳み込み層はそれぞれ前記検出層に１６×１６情報、８×８情報、４×４情報、２×２情報及び１×１情報を添加する。

【0010】

いくつかの実施例において、前記語意分割モジュールはピラミッドプーリングモジュールである。

【0011】

いくつかの実施例において、前記語意分割モジュールは、順に、前記特徴図をプーリングして異なる大きさのプーリング特徴を取得するプーリングモジュールと、各畳み込み層が前記異なる大きさのプーリング特徴のうちの一つのプーリング特徴を畳み込んで異なる大きさの畳み込み特徴を取得する複数の畳み込み層と、前記異なる大きさの畳み込み特徴を受信してアップサンプリング特徴を取得するアップサンプリングモジュールと、前記アップサンプリング特徴及び前記ニューラルネットワークバックボーンからの特徴を受信して接合特徴を取得する接合層と、前記接合特徴を畳み込んで前記語意分割結果としての画素ごとの予測を取得する畳み込み層と、を含む。いくつかの実施例において、前記プーリング特徴の大きさは１×１、２×２、３×３及び６×６である。

【0012】

いくつかの実施例において、前記コンピュータ実行可能なコードはさらに前記オブジェクト検出結果と前記語意分割結果に基づいて前記シーンにおける操作装置を制御するように構成される。

【0013】

いくつかの態様において、本開示はオブジェクト検出及び語意分割方法に関する。いくつかの実施例において、前記方法は、計算装置によりシーンの画像を受信することと、前記計算装置によりニューラルネットワークバックボーンを使用して前記画像を処理し、特徴図を取得することと、前記計算装置によりオブジェクト検出モジュールを使用して前記特徴図を処理し、前記画像のオブジェクト検出結果を取得することと、前記計算装置により語意分割モジュールを使用して前記特徴図を処理し、前記画像の語意分割結果を取得することと、を含み、同一の損失関数を使用して前記オブジェクト検出モジュール及び前記語意分割モジュールをトレーニングし、前記損失関数はオブジェクト検出コンポーネント及び語意分割コンポーネントを含む。

【0014】

【0015】

いくつかの実施例において、前記ニューラルネットワークバックボーンは、ＲｅｓＮｅｔ１８のバックボーンを含み、前記ＲｅｓＮｅｔ１８のバックボーンはその第４のブロックから切断される。

【0016】

いくつかの実施例において、前記オブジェクト検出モジュールは単回検出器（ＳＳＤ）である。

【0017】

いくつかの実施例において、前記オブジェクト検出モジュールは、順に、五つの畳み込み層、検出層、及び非極大値抑制（ＮＭＳ）層を含む。いくつかの実施例において、５１２×５１２解像度の画像に対して、前記ニューラルネットワークバックボーンは前記検出層に６４×６４情報及び３２×３２情報を畳み込んで添加し、前記五つの畳み込み層はそれぞれ前記検出層に１６×１６情報、８×８情報、４×４情報、２×２情報及び１×１情報を添加する。

【0018】

いくつかの実施例において、前記語意分割モジュールはピラミッドプーリングモジュールである。

【0019】

いくつかの実施例において、前記語意分割モジュールは、順に、前記特徴図をプーリングして異なる大きさのプーリング特徴を取得するプーリングモジュールと、前記異なる大きさのプーリング特徴のうちの一つのプーリング特徴を畳み込んで異なる大きさの畳み込み特徴を取得する複数の畳み込み層と、前記異なる大きさの畳み込み特徴を受信してアップサンプリング特徴を取得するアップサンプリングモジュールと、前記アップサンプリング特徴及び前記ニューラルネットワークバックボーンからの特徴を受信して接合特徴を取得する接合層と、前記接合特徴を畳み込んで前記語意分割結果を取得する畳み込み層と、含む。

【0020】

いくつかの実施例において、前記方法は、前記オブジェクト検出結果と前記語意分割結果に基づいて前記シーンにおける操作装置を制御することをさらに含む。

【0021】

いくつかの態様において、本開示は、コンピュータ実行可能なコードを記憶する非一時的なコンピュータ可読媒体に関する。コンピュータ実行可能なコードは、計算装置のプロセッサで実行される場合に、上述した方法を実現するように構成される。

【0022】

本開示のこれら及び他の態様は、以下の図面及びその説明を参照する好ましい実施形態の説明から明らかになり、その中の変化及び修正は影響を受ける可能性があるが、本開示の新規てきな概念の精神及び範囲から逸脱することはない。

【図面の簡単な説明】

【0023】

本開示は、詳細な説明及び添付図面からより十分に理解されるであろう。添付図面は、本開示の一つ又は複数の実施例を示し、かつ書面の説明と共に本開示の原理を説明する。可能な場合に、図面全体を貫通し、同じ参照符号を使用して実施例の同一又は類似の要素を指す。

【0024】

【図1】図１は、本開示のいくつかの実施例に係るオブジェクト検出及び語意分割を同時に行うモデルの構造を概略的に示す。

【図2】図２は、本開示のいくつかの実施例に係るオブジェクト検出及び語意分割システムを概略的に示す。

【図3】図３は、本開示のいくつかの実施例に係るオブジェクト検出及び語意分割モデルのトレーニング方法を概略的に示す。

【図4】図４は、本開示のいくつかの実施例に係るオブジェクト検出及び語意分割モデルの使用方法を概略的に示す。

【図5】図５は、本開示のいくつかの実施例に係るオブジェクト検出及び語意分割モデルの例示的な構成を概略的に示す。

【発明を実施するための形態】

【0025】

以下の例示において本開示をより具体的に説明し、これらの実施例は単に説明するためのものであり、そのうちの多くの修正及び変更は当業者にとって明らかであるためである。以下、本開示の各実施例について詳細に説明する。図面を参照し、図面全体を貫通し、同じ数字は同じコンポーネントを示す。また、本明細書で使用されるいくつかの用語は以下により具体的に定義される。

【0026】

本明細書において使用される用語は、本分野において、本開示の文脈および用語を用いた特定の文脈において、通常、それらの一般的な意味を有するものとする。本開示を説明するいくつかの用語は、以下又は明細書における他の部分に説明され、これにより、事業者に本開示の説明に関連する追加の指導を提供する。理解できるように、同様のことは一つ以上の方式で表現することができる。したがって、代替言語及び同義語は本明細書に記載されたいかなる一つ又は複数の用語に用いられてもよく、かつ本明細書に詳細に説明されたか又は議論された用語にいかなる特別な意味がない。本開示はいくつかの用語の同義語を提供する。一つ又は複数の同義語の使用は他の同義語を使用することを排除しない。本明細書における任意の箇所の例示的な使用は、本明細書に記載されたいかなる用語の例示を含み、説明的なものであり、本開示の内容又は任意の例示的な用語の範囲及び意味を限定するものではない。同様に、本開示は本明細書に示された様々な実施例に限定されない。

【0027】

特別な定義がない限り、本開示が使用する全ての技術用語及び科学的用語は本開示の属する分野の当業者が一般的に理解するのと同じ意味を有する。衝突がある場合、本開示（定義を含む）を基準とする。

【0028】

文脈が明確に規定されない限り、本明細書の記述及び請求項全体に使用された「一つ」、「一」及び「前記」の意味は複数を含む。また、本開示の説明及び特許請求の範囲に使用されるように、文脈が明確に規定されない限り、“にある”の意味は「……の中にある」及び「……の上にある」を含む。かつ、明細書において読者の便宜上、タイトル又はサブタイトルを使用することができ、本開示の範囲に影響を与えない。

【0029】

本明細書に記載するように、「複数」は二つ以上を指す。本明細書に記載されるように、用語「含む」、「含める」、「携帯」、「有する」、「含有」、「に関する」等は開放式であると理解すべきであり、すなわち含むがこれらに限定されるものではない、ということを意味しています。

【0030】

本明細書に記載のように、「Ａ、Ｂ及びＣのうちの少なくとも一つ」というフレーズは、論理（Ａ又はＢ又はＣ）を表すと解釈すべきであり、非排他的論理あるいは（ＯＲ）を使用する。理解すべきことは、本開示の原理を変更しない場合、方法内の一つ又は複数のステップは異なる順序（又は同時に）で実行することができる。

【0031】

本明細書に記載のように、「モジュール」という用語は例えばオンシートシステムにおける、専用集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＡＳＩＣ）；電子回路；組み合わせ論理回路；フィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、ＦＰＧＡ）；コードを実行する（共有、専用の）プロセッサ又はプロセッサグループ；記述された機能を提供する他の適切なハードウェアコンポーネント；又は以上の部分又は全ての組み合わせを含む。「モジュール」という用語は、プロセッサにより実行されたコードを記憶する（共有、専用の）メモリ又はメモリグループを含むことができる。

【0032】

本明細書で使用される「コード」という用語は、ソフトウェア、ファームウェア及び／又はマイクロコードを含むことができ、かつプログラム、ルーチン、関数、クラス及び／又はオブジェクトを指すことができる。ここで、「共有」とは、単一の（共有の）プロセッサを用いて、複数のモジュールからのいくつかのコード又は全てのコードを実行することができることを意味する。また、複数のモジュールからのいくつかのコード又は全てのコードを単一（共有の）メモリに記憶することができる。ここで、「グループ」とは、プロセッサグループを用いて単一のモジュールからのいくつかのコード又は全てのコードを実行することができることを意味する。また、メモリグループを使用して単一のモジュールからのいくつかのコード又は全てのコードを記憶することができる。

【0033】

本明細書に記載のように、「インタフェース」という用語は一般的にコンポーネント間のインタラクションポイントでコンポーネント間のデータ通信を実行するための通信ツール又は装置を指す。一般的には、インタフェースはハードウェアレベル及びソフトウェアレベルにいずれも適用することができ、インタフェースは一方向インタフェース又は双方向インタフェースであってもよい。物理的なハードウェアインタフェースとしては、例えば、電気コネクタ、バス、ポート、ケーブル、端子、その他のＩ／Ｏ機器、コンポーネント等が挙げられる。インタフェースと通信する手段は、例えばコンピュータシステムの複数のコンポーネントや周辺機器であってもよい。

【0034】

本開示は、コンピュータシステムに関する。図面に示すように、コンピュータコンポーネントは、実線枠として示される物理的ハードウェアコンポーネントと、破線枠として示される仮想ソフトウェアコンポーネントと、を含む。当業者として理解されるように、特に説明しない限り、これらのコンピュータコンポーネントはソフトウェア、ファームウェア又はハードウェアコンポーネント又はそれらの組み合わせの形式で実現することができるが、これらの形式に限定されない。

【0035】

本明細書に記載の装置、システム及び方法は、一つ又は複数のプロセッサによって実行される一又は複数のコンピュータプログラムによって実現されてもよい。コンピュータプログラムは、非一時的な有形のコンピュータ可読媒体に格納されたプロセッサが実行可能な命令を含む。コンピュータプログラムは、記憶されたデータをさらに含んでもよい。非一時的な有形のコンピュータ可読媒体の非限定的な例示は、不揮発性メモリ、磁気記憶、光記憶である。

【0036】

以下に図面を参照しながら本開示をより全面的に説明し、ここで本開示の実施例を示す。しかしながら、本開示は多くの異なる形態で体現することができ、かつ本明細書に説明された実施例に限定して解釈されるべきではない；逆に、これらの実施例を提供することは本開示を徹底的かつ完全にし、かつ本開示の範囲を当業者に十分に伝えるためである。

【0037】

いくつかの態様において、本開示は、リアルタイム方式でオブジェクト検出及び語意分割を同時に行うための、計算効率が高いフレームに関する。該フレームは、新規な軽量型深層ニューラルネットワークである。図１に示すように、フレーム１００は、ニューラルネットワークバックボーン１０４、オブジェクト検出モジュール１０６及び語意分割モジュール１０８を含む。オブジェクト検出モジュール１０６と語意分割モジュール１０８は同一のニューラルネットワークバックボーン１０４を共有する。シーン１０２の画像が入力として用いられる場合、ニューラルネットワークバックボーン１０４は該画像を処理して特徴図を取得する。この特徴図は、オブジェクト検出モジュール１０６および語意分割モジュール１０８の入力として用いられる。オブジェクト検出モジュール１０６は、該特徴図を処理して画像１１０を取得し、ここで検出されたオブジェクトは、画像１１０におけるバウンディングボックスによって限定しオブジェクトの名称を用いてマークする。語意分割モジュール１０８は、該特徴図を処理してマスク１１２を取得し、ここで画像における画素が種別に応じて分類される。

【0038】

オブジェクト検出モジュール１０６及び語意分割モジュール１０８は、使用前に予めトレーニングされ、トレーニング期間にオブジェクト検出モジュール１０６及び語意分割モジュール１０８の両方に対して混合損失関数を定義する。混合損失関数を定義することにより、オブジェクト検出モジュール１０６及び語意分割モジュール１０８のトレーニングがより迅速で正確である。

【0039】

さらに、ニューラルネットワークバックボーン１０４を共有しかつオブジェクト検出モジュール１０６及び語意分割モジュール１０８の構造が簡単であるため、トレーニングされたシステム全体の演算速度が非常に速くかつ低い計算能力を必要とする。したがって、オブジェクト検出及び語意分割をリアルタイムで行うことは、ＮＶＩＤＩＡ（登録商標）Ｊｅｔｓｏｎ（登録商標）ＴＸ２のような低計算能力機器で実現することができる。また、マルチタスクネットワークにより、この二つのタスクは、正確性方で互いに促進することができる。

【0040】

図２は、本開示のいくつかの実施例に係るリアルタイムオブジェクト検出及び語意分割を同時に行うためのシステムを概略的に示す。図２に示すように、システム２００は、計算装置２１０、画像採集装置２５０及び操作装置２７０を含む。画像採集装置２５０と操作装置２７０とは、例えば、同一又は異なるシステムインタフェース又はネットワーク２４０を介して、計算装置２１０と通信を行う。いくつかの実施例において、計算装置２１０は、汎用コンピュータ、専用コンピュータ、スマートフォン、タブレットコンピュータ、コントローラ又は例えば自動運転車両に位置する組み込み装置であってもよい。計算装置２１０は、同一の画像又は同一の画像セットに基づいて、同時のオブジェクト検出及び語意分割サービスを提供する。

【0041】

いくつかの実施例において、システムインタフェース２４０は様々なバス、記憶装置、他のＩ／Ｏ装置、又はＵＳＢインタフェースであってもよい。インタフェースがネットワークである場合、ネットワーク２４０は様々な形式の有線ネットワーク又は無線ネットワークであってもよい。ネットワークの例示は、ローカルエリアネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ、ＬＡＮ）、インターネットを含むワイドエリアネットワーク（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ、ＷＡＮ）、又は任意の他のタイプのネットワークを含むが、それらに限定されない。いくつかの実施例において、システムインタフェース２４０は、計算装置２１０と画像採集装置２５０及び操作装置２７０を通信接続する任意の他のタイプのインタフェースであってもよい。

【0042】

いくつかの実施例において、画像採集装置２５０は、ビデオカメラ、グレーカメラ、ＲＧＢカメラ、ＲＧＢ深度カメラ、深度カメラ、ＬＩＤＡＲ又はそれらの組み合わせであってもよい。画像採集装置２５０は、環境又はシーンの画像を採集するために用いられ、好ましくはビデオの形式で画像を連続的に採集する。

【0043】

いくつかの実施例において、操作装置２７０は自動運転車両又はオブジェクト検出及び語意分割情報に基づく指令を必要とする任意の他の装置であってもよい。計算装置２１０が画像採集装置２５０から画像又はビデオを受信し、リアルタイムオブジェクト検出及び語意分割を行う場合、計算装置２１０は、取得されたリアルタイム情報を用いて操作装置２７０の操作を指示することができる。いくつかの実施例において、計算装置２１０以外のコントローラにより操作装置２７０を制御することができ、該コントローラは、計算装置２１０からオブジェクト検出及び語意分割情報を受信し、該情報を用いて操作装置２７０の動作を指示するために用いられる。

【0044】

いくつかの実施例において、図２に示すように、計算装置２１０は、プロセッサ２１２、メモリ２１４及び記憶装置２１６を含むがそれらに限定されない。いくつかの実施例において、計算装置２１０は、他のハードウェアコンポーネント及びソフトウェアコンポーネント（図示せず）を含むことにより相応的なタスクを実行することができる。これらのハードウェアコンポーネント及びソフトウェアコンポーネントの例示は、他に必要なメモリ、インタフェース、バス、入出力（Ｉｎｐｕｔ/Ｏｕｔｐｕｔ、Ｉ／Ｏ）モジュール、装置、ネットワークインタフェース、周辺機器等を含むが、これらに限定されない。

【0045】

プロセッサ２１２は、中央処理ユニット（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）であってもよく、計算装置２１０の操作を制御するために用いられる。プロセッサ１１２は、計算装置２１０のオペレーティングシステム（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ、ＯＳ）又は他のアプリケーションを実行することができる。いくつかの実施例において、サーバ計算装置２１０は、一つ以上のＣＰＵをプロセッサとして有してもよく、例えば二つのＣＰＵ、四つのＣＰＵ、八つのＣＰＵ又は任意の適切な数のＣＰＵである。

【0046】

メモリ２１４は揮発性メモリであってもよく、例えばランダムアクセスメモリ（Ｒａｎｄｏｍ－ＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）であって、計算装置２１０の動作期間にデータ及び情報を記憶するために用いられるもの。いくつかの実施例において、メモリ２１４は揮発性メモリアレイであってもよい。いくつかの実施例において、計算装置２１０は一つ以上のメモリ２１４で運行することができる。

【0047】

記憶装置２１６は、在庫割付け計算装置２１０のオペレーティングシステム（図示せず）やその他のアプリケーションを記憶するための不揮発性のデータ記憶媒体である。記憶装置２１６の例示は、フラッシュメモリ、メモリカード、ＵＳＢドライブ、ハードディスクドライブ、フレキシブルディスク、光ドライブ等の不揮発性メモリ、又は任意の他のタイプのデータ記憶装置を含む。いくつかの実施例において、計算装置２１０は、複数の記憶装置２１６を有してもよく、これらの記憶装置２１６は、同じ記憶装置又は異なるタイプの記憶装置であってもよく、計算装置２１０のアプリケーションは、計算装置２１０の一つ以上の記憶装置２１６に記憶されてもよい。

【0048】

記憶装置２１６は、オブジェクト検出および語意分割アプリケーション２１８と、（選択的には）トレーニングデータ２３２および制御アプリケーション２３４とを含む。オブジェクト検出及び語意分割アプリケーション２１８は、オブジェクト検出モデル及び語意分割モデルを用いて採集された画像を処理することにより、採集された画像におけるオブジェクト及び採集された画像における画素を分類するために用いられる。トレーニングデータ２３２を用いて、オブジェクト検出および語意分割アプリケーション２１８をトレーニングする。いくつかの実施例において、オブジェクト検出及び語意分割アプリケーション２１８のオブジェクト検出モデル及び語意分割モデルは、記憶装置２１６にインストールする前に予めトレーニングされてもよく、記憶装置２１６はトレーニングデータ２３６を有する必要がない。いくつかの実施例において、記憶装置２１６は語意分割をトレーニングして実行するために必要な他のモジュールを含むことができる。制御アプリケーション２３４は、オブジェクト検出及び語意分割アプリケーション２１８からオブジェクト検出結果及び語意分割結果を受信した場合、これらの結果と結果に対応する操作コマンドに基づいて操作装置２７０の操作を制御するために用いられる。操作コマンドとその結果との対応関係は、制御アプリケーション２３４に予め記憶されていてもよい。

【0049】

図２に示すように、オブジェクト検出及び語意分割アプリケーション２１８は画像採集モジュール２２０、ニューラルネットワークバックボーン２２２、オブジェクト検出モジュール２２４、語意分割モジュール２２６、トレーニングモジュール２２８及び混合損失関数モジュール２３０を含む。いくつかの実施例において、オブジェクト検出及び語意分割アプリケーション２１８をリアルタイムに実行し、かつ識別されたオブジェクト及び分類された画素をリアルタイムに使用して操作装置２７０を制御する。いくつかの実施例において、オブジェクト検出及び語意分割アプリケーション２１８は画像採集モジュール２２０、トレーニングモジュール２２８及び混合損失関数モジュール２３０のうちの一つ又は複数を含まなくてもよいが、ニューラルネットワークバックボーン２２２、オブジェクト検出モジュール２２４及び語意分割モジュール２２６を少なくとも含む。オブジェクト検出及び語意分割の両者を考慮した混合損失関数を用いてニューラルネットワークバックボーン２２２、オブジェクト検出モジュール２２４及び語意分割モジュール２２６に対して好ましく事前トレーニングを行い、ここで混合損失関数は混合損失関数モジュール２３０により定義される。

【0050】

画像採集モジュール２２０は、画像採集装置２５０がシーン又は環境の画像又はビデオをリアルタイムに採集するように指示するために用いられる。いくつかの実施例において、画像採集モジュール２２０は画像採集装置２５０により採集された画像を受動的に受信してもよい。画像採集モジュール２２０は、画像を取得した後、さらに画像を事前処理することができる。事前処理は画像の光バランスを調整し、画像を再フォーマットし、画像サイズを調整し、（選択的に）異なるリソース（例えば画像採集装置２５０の複数のカメラ）からの画像を同期すること等を含むことができる。その後、画像採集モジュール２２０は、処理された画像をニューラルネットワークバックボーン２２２に送信する。

【0051】

ニューラルネットワークバックボーン２２２は、画像採集モジュール２２０から一つ又は複数の画像を受信した後、該画像を処理して特徴図を取得することに用いられる。いくつかの実施例において、ニューラルネットワークバックボーン２２２はＲｅｓＮｅｔ１８バックボーンである。いくつかの実施例において、取得された特徴図は複数の画素を含み、各画素は該画素の特徴を表す値又はベクトルを有する。各ベクトルは、長さ又はＣの次元を有し、アプリケーション２１８のトレーニング期間にＣの値を学習することができる。一例において、入力画像の大きさは５１２×５１２（高Ｈと幅Ｗ）であり、ニューラルネットワークバックボーン２２２を介して畳み込みた後、出力は６４×６４特徴図と３２×３２特徴図を含むことができる。ニューラルネットワークバックボーン２２２は、６４×６４特徴図と３２×３２特徴図をオブジェクト検出モジュール２２４に送信し、６４×６４特徴図を語意分割モジュール２２６に送信するために用いられる。

【0052】

オブジェクト検出モジュール２２４はニューラルネットワークバックボーン２２２から特徴図を受信した後、該特徴図を処理して画像からオブジェクトを識別するために用いられる。いくつかの実施例において、オブジェクト検出モジュール２２４は、単回検出器（ＳｉｎｇｌｅＳｈｏｔＤｅｔｅｃｔｏｒ、ＳＳＤ）、デコンボリューション単回検出器（ＤｅｃｏｎｖｏｌｕｔｉｎｇＳｉｎｇｌｅＳｈｏｔＤｅｔｅｃｔｏｒ、ＤＳＳＤ）、ライトヘッダ領域畳み込みニューラルネットワーク（Ｌｉｇｈｔ－ｈｅａｄＲｅｇｉｏｎ－ｃｏｎｖｏｌｕｔｉｎｇＮｅｕｒａｌＮｅｔｗｏｒｋ、Ｒ－ＣＮＮ）、ＦａｓｔｅｒＲ－ＣＮＮ、領域に基づく全畳み込みネットワーク（Ｒｅｇｉｏｎ－ｂａｓｅｄＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ、Ｒ－ＦＣＮ）、特徴ピラミッドネットワーク（ＦｅａｔｕｒｅＰｙｒａｍｉｄＮｅｔｗｏｒｋ、ＦＰＮ）、ＲｅｔｉｎａＮｅｔ、又はオブジェクト検出用の一見（ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ、Ｙｏｌｏ）を使用することができる。一例では、単回検出器（ＳＳＤ）はオブジェクト検出に用いられる。

【0053】

語意分割モジュール２２６は、ニューラルネットワークバックボーン２２２から特徴図を受信した後、該特徴図を処理して画像の複数の画素を分類するために用いられる。いくつかの実施例において、語意分割モジュール２２６は、ピラミッドシーン解析ネットワーク（ＰｙｒａｍｉｄＳｃｅｎｅＰａｒｓｉｎｇＮｅｔｗｏｒｋ、ＰＳＰＮｅｔ）又はＦＣＮを用いて語意分割を行うことができる。一例において、ＰＳＰＮｅｔは語意分割に用いられる。

【0054】

トレーニングモジュール２２８は、トレーニングデータ２３２と混合損失関数モジュール２３０により提供された混合損失関数を用いて、ニューラルネットワークバックボーン２２２、オブジェクト検出モジュール２２４及び語意分割モジュール２２６をトレーニングするために用いられる。

【0055】

混合損失関数モジュール２３０は、混合損失関数を提供してニューラルネットワークバックボーン２２２、オブジェクト検出モジュール２２４及び語意分割モジュール２２６をトレーニングするために用いられる。混合損失関数は、オブジェクト検出と語意分割の両方に用いられるコンポーネントを含む。混合損失関数及びトレーニングデータ２２２を提供することにより、トレーニング過程がオブジェクト検出及び語意分割が互いに促進することができることによって効率が高くなることができる。

【0056】

トレーニングデータ２３２は、オブジェクト検出および語意分割の両方をトレーニングするためのデータを含む。具体的には、トレーニングデータ２３２におけるデータエントリに対して、トレーニングデータ２３２は、画像、画像におけるオブジェクトのバウンディングボックス、バウンディングボックスにおけるオブジェクトのラベル（例えばオブジェクトの名称）及び画像における画素の種別ラベルを提供する。

【0057】

いくつかの態様において、本開示は、オブジェクト検出及び語意分割アプリケーション２１８のトレーニング方法に関し、具体的には、ニューラルネットワークバックボーン２２２、オブジェクト検出モジュール２２４及び語意分割モジュール２２６のトレーニング方法に関する。いくつかの実施例において、図３に示す方法は、図２に示すようなシステムで実現することができる。特に説明すべきものとして、本開示が特に説明しない限り、該方法のステップは異なる順序で配列されてもよく、そのため、図３に示す順序に限定されない。

【0058】

図３に示すように、ステップ３０２において、トレーニングモジュール２２８はトレーニングデータ２３２を検索し、トレーニングデータをニューラルネットワークバックボーン２２２に送信する。トレーニングデータ２３２の各トレーニングエントリは、画像、画像におけるオブジェクトのバウンディングボックス、バウンディングボックスにおけるオブジェクトのラベル、画像における各画素の種別ラベルとを含む。

【0059】

ステップ３０４において、ニューラルネットワークバックボーン２２２は、トレーニングデータ２３２を受信した後、画像を特徴図に変換し、特徴図をそれぞれオブジェクト検出モジュール２２４及び語意分割モジュール２２６に送信する。ステップ３０４を実行することに、画像を使用し、画像のバウンディングボックス、バウンディングボックス／オブジェクトラベル及び画素ラベルを使用しない。画像のバウンディングボックスおよびラベルをトレーニングして、後から使用することができる。

【0060】

ステップ３０６において、オブジェクト検出モジュール２２４はニューラルネットワークバックボーン２２２から特徴図を受信した後、該特徴図に基づいてオブジェクトを検出する。検出結果は、画像におけるバウンディングボックスと、異なるオブジェクトのバウンディングボックスを示すラベルとを含んでいてもよい。ラベルは、例えば、自動車、自転車、人、交通信号灯等を含んでもよい。

【0061】

ステップ３０８において、語意分割モジュール２２６は、ニューラルネットワークバックボーン２２２から特徴図を受信した後、画像を分割し、特徴図に基づいて各画素に種別ラベルを提供する。各画素に対するラベルは、道路、人、歩道、建物、自動車等を含むことができる。

【0062】

ステップ３１０において、オブジェクト検出モジュール２２４のオブジェクト検出及び語意分割モジュール２２６の語意分割が完了した後、トレーニングモジュール２２８はオブジェクト検出結果及び語意分割結果とトレーニング画像に対する元のラベルとを比較し、予測結果とトレーニングデータにおけるラベルとの間の差分を取得し、混合損失関数モジュール２３０により提供された損失関数を検索し、かつ損失関数及び差分を用いてニューラルネットワークバックボーン２２２、オブジェクト検出モジュール２２４及び語意分割モジュール２２６のパラメータ又は重みを調整する。

【0063】

ステップ３１２において、ニューラルネットワークバックボーン２２２、オブジェクト検出モジュール２２４及び語意分割モジュール２２６のパラメータ又は重みが収束するまでに、ステップ３０２～ステップ３１０を複数回繰り返して実行する。

【0064】

いくつかの態様において、本開示は、図３に記載のような良好なトレーニングを経たアプリケーション２１８の使用方法に関する。図４は、本開示のいくつかの実施例に係るリアルタイムオブジェクト検出及び語意分割を同時に行う方法を模式的に示す。いくつかの実施例において、図４に示す方法は、図２に示すようなシステムで実現することができる。特に説明すべきものとして、本開示が特に説明されない限り、該方法のステップは、異なる順序で配列されてもよく、そのため、図４に示す順序に限定されない。いくつかの実施例において、図４に示す方法は、図３に示す方法と類似し、入力画像がリアルタイムに採集された画像でありラベル付きのトレーニング画像ではなく、予測されたオブジェクト検出結果と語意分割結果を比較する必要がないこと、を区別とする。

【0065】

図４に示すように、ステップ４０２において、画像採集装置２５０は、シーンの画像を撮影し画像を画像採集モジュール２２０に送信する。画像採集モジュール２２０は、画像を受信し、画像をニューラルネットワークバックボーン２２２に送信する。いくつかの実施例において、画像採集モジュール２２０は、画像を送信してさらなる処理に用いられる前に、画像に事前処理を行うことができ、例えば画像を再フォーマットするか又は画像サイズを調整してニューラルネットワークバックボーン２２２の要求を満たす。

【0066】

ステップ４０４において、ニューラルネットワークバックボーン２２２は、採集された画像を受信した後、採集された画像を特徴図に変換し、かつ特徴図をそれぞれオブジェクト検出モジュール２２４及び語意分割モジュール２２６に送信する。

【0067】

ステップ４０６において、オブジェクト検出モジュール２２４は、ニューラルネットワークバックボーン２２２から特徴図を受信した後、該特徴図に基づいてオブジェクトを検出する。検出結果は、採集された画像におけるバウンディングボックスと異なるオブジェクトのバウンディングボックスを示すラベルとを含むことができる。ラベルは、例えば、自動車、自転車、人、通信信号灯等を含んでもよい。

【0068】

ステップ４０８において、語意分割モジュール２２６は、ニューラルネットワークバックボーン２２２から特徴図を受信する時に、画像を分割し、かつ特徴図に基づいて各画素に種別ラベルを提供する。各画素のラベルは、道路、人、歩道、建物、自動車等を含んでいてもよい。

【0069】

いくつかの実施例において、該方法はさらにステップ４１０を含むことができる。ステップ４１０において、制御アプリケーション２３４は、オブジェクト検出モジュール２２４からのオブジェクト検出結果と語意分割モジュール２２６からの語意分割結果を使用し、これらの結果に基づいて操作装置２７０の操作を指示する。

【0070】

図５は、本開示のいくつかの実施例に係るオブジェクト検出及び語意分割モデルの例示を示す。いくつかの実施例において、該モデルは、ニューラルネットワークバックボーン２２２、オブジェクト検出モジュール２２４及び語意分割モジュール２２６に対応し、該モデルはさらにオブジェクト検出コンポーネント及び語意分割コンポーネントを含む混合損失関数を使用して限定する。

【0071】

図５に示すように、モデル５００は共有ＲｅｓＮｅｔ１８バックボーン、オブジェクト検出サブモデル及び語意分割サブモデルを含む。共有ＲｅｓＮｅｔ１８バックボーンは、画像を特徴図に変換する。特徴図は、オブジェクト検出サブモデル及び語意分割サブモデルに入力される。いくつかの実施例において、オブジェクト検出サブモデルはＳＳＤを用いて実現され、語意分割サブモデルはピラミッドプーリングを用いて実現される。

【0072】

オブジェクト検出サブモデルは、複数の異なる大きさの畳み込み層を用いてＲｅｓＮｅｔ１８バックボーンからの特徴図を処理する。畳み込み層からの結果は、ＲｅｓＮｅｔ１８バックボーンからの情報と結合してオブジェクト検出を行う。さらに、非極大値抑制（Ｎｏｎ－ｍａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ、ＮＭＳ）を利用して該検出を処理することにより、最終的なオブジェクト検出結果を取得する。

【0073】

語意分割サブモデルは異なる大きさの特徴図をプーリングし、異なるＨおよびＷの大きさの特徴図に畳み込みを行う。畳み込みの後、語意分割サブモデルは畳み込みの結果を同じＨとＷサイズとしてアップサンプリングし、かつアップサンプリングされた特徴図を接合して、接合されたせた特徴図を得る。その後、接合された特徴図に畳み込みを行って最終的な語意分割結果を取得する。結果において、種別を利用して採集された画像における各画素を予測し、これらの種別は地面、人、建物、電柱及び樹木を含むことができる。

【0074】

いくつかの実施例において、モデルは、図５に示すような精密な積層構造及び次元を有する。いくつかの実施例において、モデルは、図５に示すような精密な積層構造を有し、次元ＨとＷの大きさは、比例的に変化するか又は変更することができる（次元Ｃが同じであることを保持する）。いくつかの実施例において、モデルは、図５に示すような精密な積層構造を有し、次元Ｈ及びＷの大きさは、比例的に変化するか又は変更することができる（次元Ｃは変化することができるが、Ｈ及びＷの変化に比例しない）。いくつかの実施例において、モデルは、図５に示すような精密な積層構造を有するが、次元Ｈ、Ｗ及びＣの大きさは、比例的に変化するか又は変更することができる。いくつかの実施例において、図５に示すモデルにおける層の大きさは、説明のみに用いられ、本開示の範囲を限定することを意図していない。処理しようとするデータタイプに応じて、様々な大きさの次元Ｈ、Ｗ、Ｃを使用することができる。

【0075】

いくつかの態様において、本開示は、コンピュータ実行可能なコードを記憶する非一時的なコンピュータ可読媒体に関する。いくつかの実施例において、コンピュータ実行可能なコードは上記のような不揮発性記憶装置２１６に記憶されたソフトウェアであってもよい。コンピュータ実行可能なコードは、実行された場合に、上述した方法のいずれかを実行することができる。いくつかの実施例において、非一時的なコンピュータ可読媒体は上記のような計算装置２１０の記憶装置２１６、又は計算装置２１０の任意の他の記憶媒体を含むがそれらに限定されない。

【0076】

それ以外に、本開示のいくつかの実施例は、同時に行われたリアルタイムオブジェクト検出及び語意分割を提供する。本開示のいくつかの実施例の利点は以下のとおりである:（１）共有の軽量型バックボーンネットワークにより、モデルをより迅速にする；（２）少なくとも共有のＲｅｓＮｅｔ１８バックボーン及び混合損失関数によりＳＳＤと特徴ピラミッドのプーリングとの間のインタラクションを行い、それにより予測がより効率的で正確である；（３）オブジェクト検出及び分割を同時に実現して自動運転車両のような操作装置を制御することに役立つ。

【0077】

本開示の例示的な実施例の前述の記述は説明及び記述の目的のみで示され、網羅的に、又は本開示を開示された正確な形式に限定することを意図していない。上記教示によれば、多くの修正及び変更が可能である。

【0078】

実施例を選択して説明することは、本開示の原理及びその実際の応用を説明するためであり、それにより当業者は本開示及び様々な実施例及び所望の特定用途に適する様々な修正を利用することができる。本開示の精神及び範囲から逸脱することなく、代替実施例は、本開示の属する分野の当業者にとって明らかになる。したがって、本開示の範囲は、上記説明及び説明した例示的な実施例ではなく、添付の特許請求の範囲によって限定される。

【図1】

【図2】

【図3】

【図4】

【図5】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版