(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024127754
(43)【公開日】2024-09-20
(54)【発明の名称】疎な深度マップの深度補完方法及びそのシステム
(51)【国際特許分類】
G06T 7/55 20170101AFI20240912BHJP
G06T 7/00 20170101ALI20240912BHJP
【FI】
G06T7/55
G06T7/00 350C
【審査請求】有
【請求項の数】19
【出願形態】OL
(21)【出願番号】P 2024006283
(22)【出願日】2024-01-18
(31)【優先権主張番号】18/180,104
(32)【優先日】2023-03-07
(33)【優先権主張国・地域又は機関】US
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.TENSORFLOW
(71)【出願人】
【識別番号】502016219
【氏名又は名称】ハイマックス テクノロジーズ リミテッド
(74)【代理人】
【識別番号】100206335
【弁理士】
【氏名又は名称】太田 和宏
(72)【発明者】
【氏名】邱 泓諭
(72)【発明者】
【氏名】リュウ イー-ヌン
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA03
5L096AA06
5L096AA09
5L096CA02
5L096DA01
5L096EA33
5L096FA66
5L096GA51
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
【課題】疎な深度マップの深度補完方法及びそのシステムを提供する。
【解決手段】グレースケール画像及びグレースケール画像に対応する疎な深度マップを取得するステップと、疎な深度マップに基づいて、最近傍補間画像とユークリッド距離変換画像を取得するステップと、グレースケール画像、最近傍補間画像及びユークリッド距離変換画像をニューラルネットワークモデルに入力して、予測残差マップを出力するステップと、予測残差マップと最近傍補間画像に基づいて予測密深度マップを生成するステップと、を含む疎な深度マップの深度補完方法。
【選択図】
図1
【特許請求の範囲】
【請求項1】
グレースケール画像及び前記グレースケール画像に対応する疎な深度マップを取得するステップと、
前記疎な深度マップに基づいて、最近傍補間(nearest neighbor interpolation;NNI)画像とユークリッド距離変換(Euclidean distance transform;EDT)画像を取得するステップと、
前記グレースケール画像、前記最近傍補間画像及び前記ユークリッド距離変換画像をニューラルネットワークモデルに入力して、予測残差マップを出力するステップと、
前記予測残差マップと前記最近傍補間画像に基づいて予測密深度マップを生成するステップと、
を含む疎な深度マップの深度補完方法。
【請求項2】
画素レベル加算方法を用いて前記予測残差マップと前記最近傍補間画像に基づいて前記予測密深度マップを生成し、前記予測残差マップは前記最近傍補間画像の残差情報を含む請求項1に記載の疎な深度マップの深度補完方法。
【請求項3】
飛行時間測距センサを用いて前記グレースケール画像と前記疎な深度マップを取得する請求項1に記載の疎な深度マップの深度補完方法。
【請求項4】
前記グレースケール画像、前記最近傍補間画像及び前記ユークリッド距離変換画像を前記ニューラルネットワークモデルに入力する前に、前記グレースケール画像、前記最近傍補間画像及び前記ユークリッド距離変換画像にダウンサンプリング処理を実行するステップと、
前記予測密深度マップにアップサンプリング処理を実行するステップと、
を更に含み、
前記ダウンサンプリング処理及び前記アップサンプリング処理は、アンチエイリアス機能を有するバイリニア補間によって実行される請求項1に記載の疎な深度マップの深度補完方法。
【請求項5】
前記ニューラルネットワークモデルは、UNetネットワークアーキテクチャに基づくエンコーダ-デコーダ方式を採用して前記グレースケール画像、前記最近傍補間画像及び前記ユークリッド距離変換画像の複数の特徴をキャプチャする請求項1に記載の疎な深度マップの深度補完方法。
【請求項6】
前記ニューラルネットワークモデルにモデルプルーニング操作を実行して、前記ニューラルネットワークモデルを圧縮するステップを更に含む請求項1に記載の疎な深度マップの深度補完方法。
【請求項7】
前記ニューラルネットワークモデルの複数のターゲット層のみに前記モデルプルーニング操作を実行し、前記ターゲット層のそれぞれの重みは閾値より大きい請求項6に記載の疎な深度マップの深度補完方法。
【請求項8】
前記モデルプルーニング操作を実行した後、前記ニューラルネットワークモデルにモデルクラスタリング操作を実行して、前記ニューラルネットワークモデルを更に圧縮するステップを更に含む請求項6に記載の疎な深度マップの深度補完方法。
【請求項9】
前記ニューラルネットワークモデルの複数のターゲット層のみに前記モデルクラスタリング操作を実行し、前記ターゲット層のそれぞれの重みは閾値より大きい請求項8に記載の疎な深度マップの深度補完方法。
【請求項10】
前記ニューラルネットワークモデルを浮動小数点数モデルから整数モデルに量子化するステップを更に含む請求項1に記載の疎な深度マップの深度補完方法。
【請求項11】
グレースケール画像及び前記グレースケール画像に対応する疎な深度マップを取得するための飛行時間測距センサと、
前記飛行時間測距センサから前記グレースケール画像及び前記疎な深度マップを受信することと、前記疎な深度マップに基づいて最近傍補間画像及びユークリッド距離変換画像を取得することと、前記グレースケール画像、前記最近傍補間画像及び前記ユークリッド距離変換画像をニューラルネットワークモデルに入力して、予測残差マップを出力することと、前記予測残差マップと前記最近傍補間画像に基づいて予測密深度マップを生成することと、に用いられるプロセッサと、
を備える疎な深度マップの深度補完システム。
【請求項12】
前記プロセッサは、画素レベル加算方法を用いて前記予測残差マップと前記最近傍補間画像に基づいて前記予測密深度マップを生成し、前記予測残差マップは前記最近傍補間画像の残差情報を含む請求項11に記載の疎な深度マップの深度補完システム。
【請求項13】
前記プロセッサは、
前記グレースケール画像、前記最近傍補間画像及び前記ユークリッド距離変換画像を前記ニューラルネットワークモデルに入力する前に、前記グレースケール画像、前記最近傍補間画像及び前記ユークリッド距離変換画像にダウンサンプリング処理を実行することと、
前記予測密深度マップにアップサンプリング処理を実行することと、
に更に用いられ、
前記ダウンサンプリング処理及び前記アップサンプリング処理は、アンチエイリアス機能を有するバイリニア補間によって実行される請求項11に記載の疎な深度マップの深度補完システム。
【請求項14】
前記ニューラルネットワークモデルは、UNetネットワークアーキテクチャに基づくエンコーダ-デコーダ方式を採用して前記グレースケール画像、前記最近傍補間画像及び前記ユークリッド距離変換画像の複数の特徴をキャプチャする請求項11に記載の疎な深度マップの深度補完システム。
【請求項15】
前記プロセッサは、
前記ニューラルネットワークモデルにモデルプルーニング操作を実行して、前記ニューラルネットワークモデルを圧縮することに更に用いられる請求項11に記載の疎な深度マップの深度補完システム。
【請求項16】
前記ニューラルネットワークモデルの複数のターゲット層のみに前記モデルプルーニング操作を実行し、前記ターゲット層のそれぞれの重みは閾値より大きい請求項15に記載の疎な深度マップの深度補完システム。
【請求項17】
前記プロセッサは、
前記モデルプルーニング操作を実行した後、前記ニューラルネットワークモデルにモデルクラスタリング操作を実行して、前記ニューラルネットワークモデルを更に圧縮することに更に用いられる請求項15に記載の疎な深度マップの深度補完システム。
【請求項18】
前記ニューラルネットワークモデルの複数のターゲット層のみに前記モデルクラスタリング操作を実行し、前記ターゲット層のそれぞれの重みは閾値より大きい請求項17に記載の疎な深度マップの深度補完システム。
【請求項19】
前記プロセッサは、
前記ニューラルネットワークモデルを浮動小数点数モデルから整数モデルに量子化することに更に用いられる請求項11に記載の疎な深度マップの深度補完システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は深度補完(depth completion)方法に関し、特に疎な深度マップ(sparse depth map)の深度補完方法及びそのシステムに関する。
【背景技術】
【0002】
飛行時間測距(time-of-flight;ToF)センサは、真の三次元(3D)感知を通して、より高い信頼性のシーンの理解を提供する潜在力を備えるアクティブな深度センシング装置である。ToFセンサは、低消費電力とリアルタイムフレームレートの精度により、最近ではモバイル消費者向け装置に統合されている。しかしながら、ToFセンサはアクティブ照明に依存しており、これが消費電力の相当部分を占める。また、ToFセンサは正確な3D情報を提供できるが、目の安全性と低消費電力を確保するためにドット数の少ないプロジェクターを使用すると、その解像度がカラー画像より遥かに低くなる可能性がある。モバイル装置の限られた電力バジェットをより効率的に使用するには、ドットパターン光源を使用してシーンを照明することで、その放射強度が少数の領域(点)に集中するようにすることができる。室内3D感知に用いられる低消費電力ToFセンサは、通常、フレームあたり500~1500個のドットをキャプチャする。このようなスパース性のため、高密度の深度マップを得るためにはセンサ融合技術が必要となる。
【発明の概要】
【0003】
本発明の目的は、グレースケール画像及びグレースケール画像に対応する疎な深度マップを取得するステップと、疎な深度マップに基づいて、最近傍補間(nearest neighbor interpolation;NNI)画像とユークリッド距離変換(Euclidean distance transform;EDT)画像を取得するステップと、グレースケール画像、最近傍補間画像及びユークリッド距離変換画像をニューラルネットワークモデルに入力して、予測残差マップを出力するステップと、予測残差マップと最近傍補間画像に基づいて予測密深度マップを生成するステップと、を含む疎な深度マップの深度補完方法を提供することである。
【0004】
幾つかの実施例において、画素レベル加算方法を用いて予測残差マップと最近傍補間画像に基づいて予測密深度マップを生成し、予測残差マップは最近傍補間画像の残差情報を含む。
【0005】
幾つかの実施例において、飛行時間測距センサを用いてグレースケール画像と疎な深度マップを取得する。
【0006】
幾つかの実施例において、前記疎な深度マップの深度補完方法は、グレースケール画像、最近傍補間画像及びユークリッド距離変換画像をニューラルネットワークモデルに入力する前に、グレースケール画像、最近傍補間画像及びユークリッド距離変換画像にダウンサンプリング処理を実行するステップと、予測密深度マップにアップサンプリング処理を実行するステップと、を更に含み、ダウンサンプリング処理及びアップサンプリング処理は、アンチエイリアス機能を有するバイリニア補間によって実行される。
【0007】
幾つかの実施例において、ニューラルネットワークモデルは、UNetネットワークアーキテクチャに基づくエンコーダ-デコーダ方式を採用してグレースケール画像、最近傍補間画像及びユークリッド距離変換画像の複数の特徴をキャプチャする。
【0008】
幾つかの実施例において、前記疎な深度マップの深度補完方法は、ニューラルネットワークモデルにモデルプルーニング操作を実行して、ニューラルネットワークモデルを圧縮するステップを更に含む。
【0009】
幾つかの実施例において、ニューラルネットワークモデルの複数のターゲット層のみにモデルプルーニング操作を実行し、前記複数のターゲット層のそれぞれの重みは閾値より大きい。
【0010】
幾つかの実施例において、前記疎な深度マップの深度補完方法は、モデルプルーニング操作を実行した後、ニューラルネットワークモデルにモデルクラスタリング操作を実行して、ニューラルネットワークモデルを更に圧縮するステップを更に含む。
【0011】
幾つかの実施例において、ニューラルネットワークモデルの複数のターゲット層のみにモデルクラスタリング操作を実行し、前記複数のターゲット層のそれぞれの重みは閾値より大きい。
【0012】
幾つかの実施例において、前記疎な深度マップの深度補完方法は、ニューラルネットワークモデルを浮動小数点数モデルから整数モデルに量子化するステップを更に含む。
【0013】
本発明の別の目的は、グレースケール画像及びグレースケール画像に対応する疎な深度マップを取得するための飛行時間測距センサと、飛行時間測距センサからグレースケール画像及び疎な深度マップを受信することと、疎な深度マップに基づいて最近傍補間画像及びユークリッド距離変換画像を取得することと、グレースケール画像、最近傍補間画像及びユークリッド距離変換画像をニューラルネットワークモデルに入力して予測残差マップを出力することと、予測残差マップと最近傍補間画像に基づいて予測密深度マップを生成することと、に用いられるプロセッサと、を備える疎な深度マップの深度補完システムを提供することである。
【0014】
幾つかの実施例において、前記プロセッサは、画素レベル加算方法を用いて予測残差マップと最近傍補間画像に基づいて予測密深度マップを生成し、予測残差マップは最近傍補間画像の残差情報を含む。
【0015】
幾つかの実施例において、前記プロセッサは、グレースケール画像、最近傍補間画像及びユークリッド距離変換画像をニューラルネットワークモデルに入力する前に、グレースケール画像、最近傍補間画像及びユークリッド距離変換画像にダウンサンプリング処理を実行することと、予測密深度マップにアップサンプリング処理を実行することと、に更に用いられ、ダウンサンプリング処理及びアップサンプリング処理は、アンチエイリアス機能を有するバイリニア補間によって実行される。
【0016】
幾つかの実施例において、ニューラルネットワークモデルは、UNetネットワークアーキテクチャに基づくエンコーダ-デコーダ方式を採用してグレースケール画像、最近傍補間画像及びユークリッド距離変換画像の複数の特徴をキャプチャする。
【0017】
幾つかの実施例において、前記プロセッサは、ニューラルネットワークモデルにモデルプルーニング操作を実行して、ニューラルネットワークモデルを圧縮することに更に用いられる。
【0018】
幾つかの実施例において、ニューラルネットワークモデルの複数のターゲット層のみにモデルプルーニング操作を実行し、前記複数のターゲット層のそれぞれの重みは閾値より大きい。
【0019】
幾つかの実施例において、前記プロセッサは、モデルプルーニング操作を実行した後、ニューラルネットワークモデルにモデルクラスタリング操作を実行して、ニューラルネットワークモデルを更に圧縮することに更に用いられる。
【0020】
幾つかの実施例において、ニューラルネットワークモデルの複数のターゲット層のみにモデルクラスタリング操作を実行し、前記複数のターゲット層のそれぞれの重みは閾値より大きい。
【0021】
幾つかの実施例において、前記プロセッサは、ニューラルネットワークモデルを浮動小数点数モデルから整数モデルに量子化することに更に用いられる。
【0022】
本発明の上記特徴や利点をより分かりやすくするために、以下、実施例を挙げて、添付図面を参照しながら説明する。
【図面の簡単な説明】
【0023】
以下、添付図面に合わせて詳細に説明することで、本発明の態様はよりよく理解できる。業界の標準実務により、各特徴は縮尺で描かれていないことに注意されたい。実際には、議論をより明確にするために、各特徴のサイズを任意に増加又は減少してよい。
【
図1】本発明の実施例による疎な深度マップの深度補完方法のフローチャートである。
【
図2】本発明の実施例による疎な深度マップの深度補完システムのブロック図である。
【
図3】本発明の実施例による
図1の疎な深度マップの深度補完方法に対応する処理フローである。
【
図4】本発明の実施例によるニューラルネットワークモデルの例示的なアーキテクチャの模式図である。
【
図5】本発明の実施例による疎な深度マップの深度補完方法のフローチャートである。
【
図6】本発明の実施例によるニューラルネットワークモデルの最適化の例示的なフローチャートである。
【発明を実施するための形態】
【0024】
以下、本発明の実施例を詳細に説明する。しかしながら、理解できるように、実施例は多くの応用可能な概念を提供し、それが様々な特定の内容に実施可能である。討論・開示される実施例は、説明のためのものに過ぎず、本発明の範囲を限定するものではない。
【0025】
図1は、本発明の実施例による疎な深度マップの深度補完方法のフローチャートである。
図2は、本発明の実施例による疎な深度マップの深度補完システムのブロック図である。
図3は、本発明の実施例による
図1の疎な深度マップの深度補完方法に対応する処理フローである。
【0026】
図2に示すように、本発明の疎な深度マップの深度補完システムは、飛行時間測距センサ120と、飛行時間測距センサ120に通信接続されるプロセッサ140とを備える。
【0027】
図1~
図3に示すように、本発明の疎な深度マップの深度補完方法は、ステップS1~S4を含む。ステップS1において、飛行時間測距センサ120を用いてグレースケール画像及びグレースケール画像に対応する疎な深度マップを取得する。本発明の幾つかの実施例において、疎な深度マップは、有用な情報を持つ有効画素(即ち、ターゲット深度マップの解像度でのスパース度)を0.1%~10%(好ましくは約1%)含む。具体的には、本発明では単一のグレースケール画像フレーム及び疎な深度マップを使用する。
【0028】
具体的には、本発明では単一のキャプチャ装置(即ち、飛行時間測距センサ120)を用いてグレースケール画像及び疎な深度マップを取得し、それにより疎な深度マップの深度補完システムを簡素化する。具体的には、本発明では、グレースケール画像(RGB/カラー画像ではない)を後段のニューラルネットワークモデルにフィードすることにより、後段のニューラルネットワークモデルはリソースが限られた低消費電力の装置で実現できる。
【0029】
図1~
図3に示すように、ステップS2において、プロセッサ140は、飛行時間測距センサ120からグレースケール画像及び疎な深度マップを受信し、プロセッサ140は、疎な深度マップを前処理して、最近傍補間(nearest neighbor interpolation;NNI)画像及びユークリッド距離変換(Euclidean distance transform;EDT)画像を取得する。具体的には、最近傍補間(nearest neighbor interpolation;NNI)処理を実行することでNNI画像を取得し、NNI処理は、ユークリッド意味(Euclidean sense)で最も近いスパース深度画素に各座標をマッピングすることである。具体的には、ユークリッド距離変換(Euclidean distance transform;EDT)の推定によってEDT画像を得ることにより、最も近い有効画素までの二次元(2D)距離マップを与える。
【0030】
図1~
図3に示すように、ステップS3において、プロセッサ140は、グレースケール画像、NNI画像及びEDT画像をニューラルネットワークモデルに入力して、予測残差マップを出力する。ディープラーニングに基づくアルゴリズムによってニューラルネットワークモデルを構築する。ニューラルネットワークモデルは、エンコーダ-デコーダ(encoder-decoder)畳み込みニューラルネットワーク(convolutional neural network;CNN)として設計されてよい。具体的には、ニューラルネットワークモデルは、UNetネットワークアーキテクチャに基づくエンコーダ-デコーダ方式(encoder-decoder fashion)を採用してグレースケール画像、NNI画像及びEDT画像の複数の特徴をキャプチャする。
【0031】
図4は、本発明の実施例によるニューラルネットワークモデルの例示的なアーキテクチャの模式図である。
図4に示すように、設計されたエンコーダ-デコーダ畳み込みニューラルネットワークは、単純な「UNetのような(U-net like)」テンプレートである。例えば、
図4に示すように、本発明のニューラルネットワークモデルは、ライトバージョン(lite version)のEfficientNetV2(即ち、EfficientNetV2-Liteモデル)からなるエンコーダ-デコーダ方式を特徴抽出器として採用し、且つ最近傍アップサンプリング(nearest neighbor up-sampling)を有する通常のConv2D層(regular Conv2D layers)をデコーダとして採用する。具体的には、ニューラルネットワークモデルのエンコーダ部分は、グレースケール画像、NNI画像及びEDT画像の複数の特徴をキャプチャする。具体的には、ニューラルネットワークモデルのデコーダ部分は、エンコーダ部分からの特徴と加算演算を融合する。全てのスキップ接続(skip connections)は、連結(concatenation)によって行われる。
【0032】
エンコーダの実現方式について、
図4に示すように、エンコーダのアーキテクチャは、特徴マップ解像度が小さい(X/32)(EfficientNetV2-Liteモデルの)最後の数層を破棄することで、本発明のEfficientNetV2-Liteモデルは、より少ないパラメータ及びより速い推論速度を実現するように、より少ないブロック(blocks)を有する。具体的には、本発明のEfficientNetV2-Liteモデルは、Add操作、Pad操作、Cov2D操作、DepthwiseConv2D操作、ReLU6操作のみを含み、より良い量子化が実現される。EfficientNetV2-Liteモデルは、主にConv2DとDepthwiseConv2Dで構築され、そして量子化損失の少ないReLU6を使用する。ReLU6は、励起値(activation value)の範囲を[0,6]に制限する。量子化性能が低いため、アテンションメカニズム(attention mechanism)(即ち、圧縮及び励起ブロック(Squeeze-and-Excitation(SE)block)は使用されていない。
【0033】
言い換えれば、デコーダの実現方式について、
図4に示すように、全てのConv2Dは、kernel_size=3であり、次にBatchNormalizationとReLUである。1つのConv2Dブロックは、2つのConv2Dと、それに続く最近傍補間(NNI)を有するUpsample2Dとを含む。解像度をX/16からXに拡大できるブロックは4つがある。最終出力ブロックは、Upsample2Dがない3つのConv2Dを有し、最後のConv2Dは、kernel_size=1であり、且つバイアスパラメータ(bias parameter)を有する。デコーダは、Conv2DとReLUのみで実現されるため、量子化が容易となる。ニューラルネットワークモデルは、デコーダに高密度深度マップ全体ではなく、残差マップを予測させることに注意されたい。残差情報が小さい値範囲を有するため、よりよく量子化することができる。
【0034】
図1~
図3に示すように、ステップS4において、プロセッサ140は、予測残差マップとNNI画像に基づいて予測密深度マップを生成する。具体的には、画素レベル加算(pixel-level addition)方法を用いて予測残差マップとNNI画像に基づいて予測密深度マップを生成する。予測残差マップは、NNI画像の残差情報を含む。
【0035】
図5は、本発明の実施例による疎な深度マップの深度補完方法のフローチャートである。
図5に示される疎な深度マップの深度補完方法は、
図1に示される疎な深度マップの深度補完方法と類似し、両者の相違点は、
図5に示される疎な深度マップの深度補完方法がステップP1とステップP2を更に含むことである。
【0036】
図5に示すように、ステップP1において、グレースケール画像、NNI画像及びEDT画像をニューラルネットワークモデルに入力する前に、プロセッサ140は、グレースケール画像、NNI画像及びEDT画像にダウンサンプリング(down-sampling)処理を更に実行する。ステップP2において、プロセッサ140は、予測密深度マップにアップサンプリング(up-sampling)処理を更に実行する。本発明の幾つかの実施例において、ダウンサンプリング処理及びアップサンプリング処理は、アンチエイリアス(antialiasing)機能を有するバイリニア補間(bilinear interpolation)によって実行される。例えば、ダウンサンプリング処理の解像度を224x304から128x160に低減することで、スタティックランダムアクセスメモリ(SRAM)の使用量を低減することができる。例えば、疎な深度マップの解像度を480x640から240x320に調整し、センターを224x304に切り取り(center crop)、グレースケール画像、NNI画像及びEDT画像のそれぞれの解像度を128x160に調整し、そしてサイズが決められたグレースケール画像、NNI画像及びEDT画像をニューラルネットワークモデルに入力する。上記ダウンサンプリング処理は本発明にとってオプション(optional)であることに注意されたい。また、ダウンサンプリング処理に対応して、予測密深度マップの解像度はまた、224x304に調整される。
【0037】
図6は、本発明の実施例によるニューラルネットワークモデルの最適化の例示的なフローチャートである。具体的には、本発明は、公式TensorFlowモデル最適化ツールキット(TensorFlow Model Optimization toolkit;TFMOT)を用いてニューラルネットワークモデルを最適化する。
図6に示すように、ステップQ1において、プロセッサ140は、ニューラルネットワークモデルにモデルプルーニング(pruning)操作を実行してニューラルネットワークモデルを圧縮する。具体的には、ステップQ1では、ニューラルネットワークモデルをプルーニング(pruns)して、圧縮サイズとモデル性能とのトレードオフ(trade-off)を調べる。前記モデルプルーニング操作は本発明にとってオプション(optional)であることに注意されたい。
【0038】
モデルプルーニング操作について、ニューラルネットワークモデルの複数のターゲット層のみにモデルプルーニング操作を実行し、これは選択的プルーニングとも呼ばれる。プルーニングの前に、ニューラルネットワークモデルの各層の重み(n)を計算する。その後、閾値を設定することで重みが大きく且つ潜在的な冗長を有する複数のターゲット層を探す。言い換えれば、各ターゲット層の重みは閾値より大きい。例えば、前記閾値が10000である場合、重み(n)が10000より大きい特定の層をターゲット層として定義し、その後、50%又は75%のスパース度でターゲット層をプルーニングし、ターゲット層ではない他の層は変わらない。例えば、50%のスパース度でプルーニングするターゲット層は、当該層の重みの50%をゼロとして確保する。例えば、前記閾値が5000である場合、重み(n)が5000より大きい特定の層をターゲット層として定義し、その後、90%のスパース度でターゲット層をプルーニングし、ターゲット層ではない他の層は変わらない。具体的には、選択的プルーニングは、ターゲット層にモデルプルーニング操作を実行し、他の層は変わらない。
【0039】
図6に示すように、ステップQ2において、モデルプルーニング操作を実行した後、プロセッサ140は、ニューラルネットワークモデルにモデルクラスタリング(clustering)操作を実行して、ニューラルネットワークモデルを更に圧縮する。具体的には、ステップQ2では、スパース保留クラスタリング(sparsity-preserved clustering)を用いてニューラルネットワークモデルを更に圧縮する。前記モデルクラスタリング操作は本発明にとってオプション(optional)であることに注意されたい。
【0040】
モデルクラスタリング操作について、ニューラルネットワークモデルの複数のターゲット層のみにモデルクラスタリング操作を実行し、これは選択的クラスタリングとも呼ばれる。クラスタリングの前に、ニューラルネットワークモデルの各層の重み(n)を計算する。その後、閾値を設定することで重みが大きく且つ潜在的な冗長を有する複数のターゲット層を探す。言い換えれば、各ターゲット層の重みは閾値より大きい。例えば、前記閾値が10000である場合、重み(n)が10000より大きい特定の層をターゲット層として定義し、その後、50%又は75%のスパース度でターゲット層をクラスタリングし、ターゲット層ではない他の層は変わらない。例えば、前記閾値が5000である場合、重み(n)が5000より大きい特定の層をターゲット層として定義し、その後、90%のスパース度でターゲット層をクラスタリングし、ターゲット層ではない他の層は変わらない。具体的には、選択的クラスタリングは、ターゲット層にモデルクラスタリング操作を実行し、他の層は変わらない。
【0041】
図6に示すように、ステップQ3において、プロセッサ140は、トレーニング後の量子化(post-training quantization)を行うことで、ニューラルネットワークモデルを浮動小数点数モデル(即ち、データフォーマットがFLOAT32である)から整数モデル(即ち、データフォーマットがfully integer(INT8)である)に量子化することにより、ニューラルネットワークモデルを4倍に圧縮し、その結果、圧縮されたニューラルネットワークモデルは、リソースが限られた低消費電力の装置で実現できる。前記トレーニング後の量子化は本発明にとってオプション(optional)であることに注意されたい。
【0042】
具体的には、
図6に示すように、選択的プルーニング(ステップQ1)、選択的クラスタリング(ステップQ2)及びトレーニング後にINT8モデル(Q3)に量子化することで、浮動小数点数モデルを更に最適化する。最適化されたINT8モデルの配置は、極めて高いエネルギー効率を実現するためのものであり、その結果、最適化されたINT8モデルは、リソースが限られた低消費電力の装置で実現できる。
【0043】
以上より、本発明は、多重最適化された高効率且つ小型のニューラルネットワークを用いて疎な深度マップ及びグレースケール画像から密深度マップを予測する。モデルサイズ(model size)及びメモリ使用量が少ない高効率且つ小型のニューラルネットワークは、リソースが限られた低消費電力の装置で実現できる。スパース深度画像と対応するグレースケール画像を融合することで、高精度且つ高解像度の深度画像を生成することができる。融合結果は、後続のタスク(例えば、3Dオブジェクト検出(3D object detection)、セマンティックセグメンテーション(semantic segmentation)等)のパフォーマンスを改善することができる。
【0044】
以上、幾つかの実施例の特徴を概説したので、当業者は本発明の態様をより理解することができる。当業者は、本発明を基礎として他の製造プロセス及び構造を容易に設計又は修正することができ、これにより、本明細書で紹介されたこれらの実施例と同じ目的を実現し、及び/又は同じ利点を達成することを理解すべきである。当業者はまた、これらの等価な構成が本発明の精神と範囲を逸脱しておらず、且つ本発明の精神と範囲を逸脱することなく様々な変更、置換及び変更を行うことができることを理解できるであろう。
【符号の説明】
【0045】
120 飛行時間測距センサ
140 プロセッサ
P1、P2、Q1、Q2、Q3、S1、S2、S3、S4 ステップ