IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特表2024-545451物体検出デバイス、物体検出方法、および物体検出システム
<>
  • 特表-物体検出デバイス、物体検出方法、および物体検出システム 図1
  • 特表-物体検出デバイス、物体検出方法、および物体検出システム 図2
  • 特表-物体検出デバイス、物体検出方法、および物体検出システム 図3
  • 特表-物体検出デバイス、物体検出方法、および物体検出システム 図4
  • 特表-物体検出デバイス、物体検出方法、および物体検出システム 図5
  • 特表-物体検出デバイス、物体検出方法、および物体検出システム 図6
  • 特表-物体検出デバイス、物体検出方法、および物体検出システム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-06
(54)【発明の名称】物体検出デバイス、物体検出方法、および物体検出システム
(51)【国際特許分類】
   G06T 7/194 20170101AFI20241129BHJP
   G06T 5/60 20240101ALI20241129BHJP
【FI】
G06T7/194
G06T5/60
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024533295
(86)(22)【出願日】2021-12-10
(85)【翻訳文提出日】2024-06-04
(86)【国際出願番号】 JP2021045698
(87)【国際公開番号】W WO2023105800
(87)【国際公開日】2023-06-15
(81)【指定国・地域】
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110000062
【氏名又は名称】弁理士法人第一国際特許事務所
(72)【発明者】
【氏名】チャウ マンイウー
(72)【発明者】
【氏名】木谷 光博
(72)【発明者】
【氏名】小池 潤
(72)【発明者】
【氏名】小田 篤史
【テーマコード(参考)】
5B057
5L096
【Fターム(参考)】
5B057CA08
5B057CA12
5B057CA16
5B057CB08
5B057CB12
5B057CB16
5B057CC03
5B057CE20
5L096AA06
5L096DA01
5L096DA02
5L096FA02
5L096FA59
5L096GA10
5L096HA11
5L096JA22
5L096KA04
5L096MA03
5L096MA07
(57)【要約】
被遮蔽物体を高正確性で検出できる物体検出デバイスが提供される。本物体検出デバイスは、第1の目標物体を含む目標画像を受信するための画像取得ユニットと、第1の目標物体が第1の遮蔽物体によって遮蔽されている目標画像の被遮蔽領域を識別するための画像セグメンテーションユニットと、目標画像の被遮蔽領域を第1の回復マスクに変換することによって第1の回復画像を生成するための画像変換ユニットと、第1の回復マスクが第1の予測画像で置き換えられた第1の回復された画像を生成するためのジェネレータユニットと、前記第1の目標物体を検出し、物体検出結果を生成するための物体検出ユニットとを含む。
【選択図】図3
【特許請求の範囲】
【請求項1】
物体検出デバイスであって、
少なくとも第1の目標物体を含む目標画像を受信するための画像取得ユニットと、
少なくとも前記第1の目標物体が、第1の遮蔽物体によって少なくとも部分的に遮蔽されている、前記目標画像の被遮蔽領域を識別し、前記第1の遮蔽物体の物体クラスを示す第1の物体ラベルを前記第1の遮蔽物体に割り当てるように、前記目標画像を処理するための画像セグメンテーションユニットと、
前記第1の物体ラベルに基づいて前記目標画像の前記被遮蔽領域を第1の回復マスクに変換することによって第1の回復画像を生成するための画像変換ユニットと、
前記第1の回復マスクが、第1の予測物体および前記第1の目標物体の両方に対応する物体クラスを示す第2の物体ラベルと関連付けられた少なくとも前記第1の予測物体を含む第1の予測画像で置き換えられた第1の回復された画像を生成するように、前記第1の回復画像を処理するためのジェネレータユニットと、
前記第1の目標物体を検出するように、前記第1の回復された画像を処理し、前記第1の目標物体の少なくとも場所および前記第1の目標物体の物体クラスを示す目標物体ラベルを含む物体検出結果を生成するための物体検出ユニットと、
を備える、物体検出デバイス。
【請求項2】
前記ジェネレータユニットが、第2の目標物体が第2の遮蔽物体によって少なくとも部分的に遮蔽されている訓練画像に対して、前記第2の遮蔽物体に対応する第2の回復マスクが、第2の予測物体の物体クラスを示す第3の物体ラベルと関連付けられた少なくとも前記第2の予測物体を示す第2の予測画像で置き換えられた第2の回復された画像を生成するようにさらに構成されており、
前記物体検出デバイスが、前記第2の回復された画像の画像品質レベルに基づいて、第1のフィードバック重みセットを生成するように構成されたディスクリミネータユニットをさらに備えており、
前記ディスクリミネータユニットが、
前記第2の遮蔽物体の物体クラスを示す第4の物体ラベルを前記第2の遮蔽物体に割り当てるように、前記画像セグメンテーションユニットを用いて前記訓練画像を処理することによって生成された第1のラベル付き訓練画像と、
遮蔽物体によって遮蔽されていない前記第2の目標物体を含む基準画像と、に基づいて訓練されている、
請求項1に記載の物体検出デバイス。
【請求項3】
前記第2の予測物体の前記第3の物体ラベルと、前記第2の目標物体の物体クラスを示す第5の物体ラベルとの相関に基づいて、第2のフィードバック重みセットを生成するように構成されたパッチラベル分類器ユニットをさらに備えており、
前記パッチラベル分類器ユニットが、
注釈付き目標物体ラベルのセットに基づいて、前記第5の物体ラベルを前記第2の目標物体に割り当てるように、前記画像セグメンテーションユニットを用いて前記訓練画像を処理することによって生成された第2のラベル付き訓練画像と、
前記基準画像とに基づいて訓練される、
請求項2に記載の物体検出デバイス。
【請求項4】
前記第2の回復された画像および前記訓練画像に基づいて、前記第2の回復された画像と前記訓練画像との間の情報損失度を示す整合性損失値を計算するように構成された整合性管理ユニットをさらに備える、請求項3に記載の物体検出デバイス。
【請求項5】
前記ジェネレータユニットが、前記第1のフィードバック重みセット、前記第2のフィードバック重みセット、および前記整合性損失値に基づいて、回復画像を生成するように訓練されている、請求項4に記載の物体検出デバイス。
【請求項6】
トランスフォームされた目標画像のセットを生成するように構成されたトランスフォーメーションユニットのセットをさらに備えており、前記トランスフォーメーションユニットのセットが、
前記目標画像とは異なる解像度を有する第1のトランスフォームされた目標画像を生成するために、解像度トランスフォーメーション動作を前記目標画像に対して行うように構成された第1のトランスフォーメーションユニットと、
前記目標画像とは異なる気象条件を有する第2のトランスフォームされた目標画像を生成するために、気象トランスフォーメーション動作を行うように構成された第2のトランスフォーメーションユニットと、
前記目標画像とは異なる照明条件を有する第3のトランスフォームされた目標画像を生成するために、照明トランスフォーメーション動作を行うように構成された第3のトランスフォーメーションユニットと、を含む、
請求項1に記載の物体検出デバイス。
【請求項7】
トランスフォーメーション管理ユニットをさらに備え、前記トランスフォーメーション管理ユニットが、
前記目標画像と、前記物体検出ユニットを訓練するために使用される物体検出訓練画像との類似度に少なくとも基づいて、第1の重みセットを前記目標画像に割り当てることと、
前記第1の回復された画像と、前記物体検出訓練画像との類似度に少なくとも基づいて、第2の重みセットを前記第1の回復された画像に割り当てることと、
前記第1のトランスフォームされた目標画像と、前記物体検出訓練画像との類似度に少なくとも基づいて、第3の重みセットを前記第1のトランスフォームされた目標画像に割り当てることと、
前記第2のトランスフォームされた目標画像と、前記物体検出訓練画像との類似度に少なくとも基づいて、第4の重みセットを前記第2のトランスフォームされた目標画像に割り当てることと、
前記第3のトランスフォームされた目標画像と、前記物体検出訓練画像との類似度に少なくとも基づいて、第5の重みセットを前記第3のトランスフォームされた目標画像に割り当てることと、
前記第1の重みセット、前記第2の重みセット、前記第3の重みセット、前記第4の重みセット、および前記第5の重みセットに基づいて、前記目標画像、前記第1の回復された画像、前記第1のトランスフォームされた目標画像、前記第2のトランスフォームされた目標画像、および前記第3のトランスフォームされた目標画像を、結合されたトランスフォームされた目標画像に結合すること、
を行うように構成されている、請求項6に記載の物体検出デバイス。
【請求項8】
物体検出システムであって、
少なくとも第1の目標物体を含む目標画像をキャプチャするための画像キャプチャデバイスと、
前記目標画像内の前記第1の目標物体を検出し、物体検出結果を生成するための物体検出デバイスと、
前記物体検出結果を閲覧するためのクライアントデバイスとを備え、
前記画像キャプチャデバイス、前記物体検出デバイス、および前記クライアントデバイスは、通信ネットワークを介して通信可能に接続され、
前記物体検出デバイスが、
前記目標画像を前記画像取得ユニットから受信するための画像取得ユニットと、
少なくとも前記第1の目標物体が、第1の遮蔽物体によって少なくとも部分的に遮蔽されている、前記目標画像の被遮蔽領域を識別し、前記第1の遮蔽物体の物体クラスを示す第1の物体ラベルを前記第1の遮蔽物体に割り当てるように、前記目標画像を処理するための画像セグメンテーションユニットと、
前記第1の物体ラベルに基づいて前記目標画像の前記被遮蔽領域を第1の回復マスクに変換することによって第1の回復画像を生成するための画像変換ユニットと、
前記第1の回復マスクが、第1の予測物体および前記第1の目標物体の両方に対応する物体クラスを示す第2の物体ラベルと関連付けられた少なくとも第1の予測物体を含む第1の予測画像で置き換えられた第1の回復された画像を生成するように、前記第1の回復画像を処理するためのジェネレータユニットと、
前記第1の目標物体を検出するように、前記第1の回復された画像を処理し、前記第1の目標物体の少なくとも場所および前記第1の目標物体の物体クラスを示す目標物体ラベルを含む前記物体検出結果を生成し、前記物体検出結果を前記クライアントデバイスに送信するための物体検出ユニットと、を備える、
物体検出システム。
【請求項9】
物体検出方法であって、
訓練されていないジェネレータユニットを使用して、第1の目標物体が第1の遮蔽物体によって少なくとも部分的に遮蔽されている訓練画像に対して、前記第1の遮蔽物体に対応する第1の回復マスクが、第1の予測物体の物体クラスを示す第1の物体ラベルと関連付けられた少なくとも前記第1の予測物体を示す第1の予測画像で置き換えられた第1の回復された画像を生成することと、
前記第1の遮蔽物体の物体クラスを示す第2の物体ラベルを前記第1の遮蔽物体に割り当てるように、画像セグメンテーションユニットを用いて前記訓練画像を処理することによって生成された第1のラベル付き訓練画像と、遮蔽物体によって遮蔽されていない前記第1の目標物体を含む基準画像とに基づいてディスクリミネータユニットを訓練することと、
前記第1の回復された画像を評価するために前記ディスクリミネータユニットを使用することによって、前記第1の回復された画像の画像品質レベルに基づいて第1のフィードバック重みセットを生成することと、
前記基準画像と、注釈付き目標物体ラベルのセットに基づいて前記第1の目標物体の物体クラスを示す第3の物体ラベルを前記第1の目標物体に割り当てるように、前記画像セグメンテーションユニットを用いて前記訓練画像を処理することによって生成された第2のラベル付き訓練画像とに基づいて、パッチラベル分類器ユニットを訓練することと、
前記第1の回復された画像を処理するために前記パッチラベル分類器ユニットを使用して、前記第1の予測物体の前記第1の物体ラベルと、前記第1の目標物体の前記第3の物体ラベルとの相関に基づいて、第2のフィードバック重みセットを生成することと、
整合性管理ユニットを使用して、前記第1の回復された画像および前記訓練画像に基づいて、前記第1の回復された画像と前記訓練画像との間の情報損失度を示す整合性損失値を計算することと、
前記第1のフィードバック重みセット、前記第2のフィードバック重みセット、および前記整合性損失値に基づいて、回復画像を生成するように、前記訓練されていないジェネレータユニットを訓練することによって訓練されたジェネレータユニットを生成することと、
画像取得ユニットを使用して、第2の目標物体を含む目標画像を受信することと、
前記画像セグメンテーションユニットを用いて前記目標画像を処理することによって、少なくとも前記第2の目標物体が、第2の遮蔽物体によって少なくとも部分的に遮蔽されている、前記目標画像の被遮蔽領域を識別し、前記第2の遮蔽物体の物体クラスを示す第4の物体ラベルを前記第2の遮蔽物体に割り当てることと、
画像変換ユニットを使用して、前記第4の物体ラベルに基づいて前記目標画像の前記被遮蔽領域を第2の回復マスクに変換することによって第2の回復画像を生成することと、
前記第2の回復画像を処理するための前記訓練されたジェネレータユニットを使用して、前記第2の回復マスクが、第2の予測物体および前記第2の目標物体の両方に対応する物体クラスを示す第5の物体ラベルと関連付けられた少なくとも前記第2の予測物体を含む第2の予測画像で置き換えられた第2の回復された画像を生成することと、
前記第2の回復された画像を処理するための物体検出ユニットを使用して、前記第2の目標物体の少なくとも場所および前記第2の目標物体の物体クラスを示す目標物体ラベルを含む物体検出結果を生成することと、を含む、物体検出方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、概して、物体検出デバイス、物体検出方法、および物体検出システムに関する。
【背景技術】
【0002】
近年、情報技術およびモノのインターネット(IoT)の成長が続くことにともなって、多種多様な分野におけるデータ収集のために、センサデバイスがますます使用されている。この収集されたデータは、次いで、様々な物理的現象を検出および測定し、貴重な洞察を集めるために分析され得る。
【0003】
情報技術およびIoTシステムの一態様は、カメラによって収集された画像における物体の検出および追跡に関する。物体の検出および追跡は、監視、健康管理、小売り、および輸送の業界において用途を有する。関心物体は、例えば、人間、動物、車両、荷物などを含み得る。しかしながら、場合によっては、画像中の関心物体が、他の物体による遮蔽に起因して部分的にのみ可視であることがある。そのような場合、既存の物体検出方法では、正確な物体検出結果を提供するのが困難である。
【0004】
したがって、そのような課題を鑑みて、画像中で被遮蔽物体を検出するための方法が提案されている。
一例として、特許文献1は、方法を開示し、その方法は、「以下のステップを含む。1つまたは複数の検出器からの検出結果を含む動画像列が受信され、この検出結果が、1つまたは複数の物体を識別する。その1つまたは複数の物体と関連付けられた1つまたは複数のクラスタを識別するために、クラスタリングフレームワークが、その検出結果に適用される。このクラスタリングフレームワークは、フレームごとに、動画像列に適用される。1つまたは複数のクラスタの各々についての空間情報および時間情報が判定される。この1つまたは複数のクラスタは、動画像列の連続するフレーム内の空間情報および時間情報に基づいて検出結果と関連付けられて、追跡情報を生成する。1つまたは複数のクラスタについての追跡情報に基づいて、1つまたは複数の目標トラックが生成される。1つまたは複数の目標トラックが統合されて、1つまたは複数の物体についての洗練されたトラックが生成される。」
【0005】
加えて、特許文献2は、以下のように開示する。「フュージョンセンサを使用した物体検出装置および方法が開示されている。フュージョンセンサを使用して物体を検出する方法は、物体を検出する探索領域を求めて、ライダーセンサおよびレーダーセンサを使用して、ライダーデータおよびレーダーデータを収集することと、収集されたライダーデータおよびレーダーデータにそれぞれ基づいて探索領域に存在する物体を抽出することと、収集されたライダーデータを使用して、ライダーセンサの関心領域を設定することと、ライダーデータに基づいて抽出された物体を使用して、遮蔽されている深さを生成することと、収集されたレーダーデータを使用してレーダーセンサの関心領域を設定することと、ライダーセンサの関心領域もしくは遮蔽深さ、およびレーダーセンサの関心領域を使用することによって、探索領域内に存在する物体が移動物体であるかどうかを判定することとを含む。」
【先行技術文献】
【特許文献】
【0006】
【特許文献1】米国特許第10,002,309B2号
【特許文献2】韓国特許第102090487B1号
【発明の概要】
【発明が解決しようとする課題】
【0007】
特許文献1は、目標物体が特定のフレームにおいて正確に識別されると、クラスタリング方法は、その目標物体が、遮蔽されている可能性がある後続のフレームにわたって追跡するために使用される技法を開示している。特許文献1のクラスタリング方法は、動画像列の収集を必要とし、クラスタは、連続するフレームにおける目標物体の空間情報および時間情報に基づいて、目標物体と関連付けられる。
【0008】
しかしながら、特許文献1に開示されている技法は、第一に、目標物体が遮蔽されている可能性がある後続のフレームで追跡可能となる前に、目標物体が遮蔽されていないフレームにおける目標物体の正確な識別に依存する。したがって、特許文献1に開示されている技法は、目標物体が1つまたは複数のフレームにおいて遮蔽されていない動画像列が利用可能でない場合に、好適ではない。さらに、特許文献1に開示されている技法は、動画像列の後続のフレームにおける目標物体の時間および空間関係に基づいてクラスタリングを実行するため、クラスタリングは、後続のフレーム間の目標物体の距離が、クラスタ関連付けのためには大きすぎるとき、画像キャプチャ速度が遅い状況で正確に実行されることができない。
【0009】
特許文献2は、レーダーおよびライダー測定の両方に基づいて部分的に遮蔽された物体の深さを判定するためのセンサフュージョン方法を開示している。
【0010】
しかしながら、特許文献2に開示されている技法は、部分的に遮蔽された物体の深さを判定することに焦点を当てており、目標物体のクラスを検出する能力が限定されている。したがって、特許文献2の技法は、自動車または列車の安全性に対する特定の物体の危険性が、物体のクラスに依存する可能性がある(例えば、動的物体は、静的物体よりも大きなリスクを発生させる可能性がある)自動車または鉄道における適用など、目標物体の正確なクラス識別が重要である状況に対して好適ではない。
【0011】
したがって、本開示の目的は、被遮蔽物体を高い正確度で検出できる物体検出のためのデバイス、方法およびシステムを提供することである。
【課題を解決するための手段】
【0012】
本開示の1つの代表的な例は、物体検出デバイスであって、少なくとも第1の目標物体を含む目標画像を受信するための画像取得ユニットと、少なくとも第1の目標物体が、第1の遮蔽物体によって少なくとも部分的に遮蔽されている、目標画像の被遮蔽領域を識別し、第1の遮蔽物体の物体クラスを示す第1の物体ラベルを第1の遮蔽物体に割り当てるように、目標画像を処理するための画像セグメンテーションユニットと、第1の物体ラベルに基づいて目標画像の被遮蔽領域を第1の回復マスクに変換することによって第1の回復画像を生成するための画像変換ユニットと、第1の回復マスクが、第1の予測物体および第1の目標物体の両方に対応する物体クラスを示す第2の物体ラベルと関連付けられた少なくとも第1の予測物体を含む第1の予測画像で置き換えられた第1の回復された画像を生成するように、第1の回復画像を処理するためのジェネレータユニットと、第1の目標物体を検出するように、第1の回復された画像を処理し、第1の目標物体の少なくとも場所および第1の目標物体の物体クラスを示す目標物体ラベルを含む物体検出結果を生成するための物体検出ユニットと、を備える、物体検出デバイスに関する。
【発明の効果】
【0013】
本開示によれば、被遮蔽物体を高い正確度で検出できる物体検出のためのデバイス、方法およびシステムを提供することが可能である。
【0014】
上述した以外の問題、構成、および効果は、本発明を実行するための実施形態の以下の記載によって明確となるであろう。
【図面の簡単な説明】
【0015】
図1】本開示の実施形態を実行するための例示的なコンピューティングアーキテクチャを示す図である。
図2】実施形態による、物体検出システムの例示的な構成を示す図である。
図3】実施形態による、物体検出システムの推論段階プロセスのブロック図である。
図4】実施形態による、物体検出システムの訓練段階プロセスのブロック図である。
図5】実施形態による、画像セグメンテーション訓練プロセスのブロック図である。
図6】実施形態による、トランスフォーメーションユニットのセットのブロック図である。
図7】実施形態による、目標画像、回復画像、および回復された画像の例を示す図である。
【発明を実施するための形態】
【0016】
以下において、本発明の実施形態が図面を参照して説明される。なお、本明細書で説明される実施形態は、特許請求の範囲にしたがって本発明を限定することは意図されないことを留意されるべきであり、実施形態に関して説明される要素の各々およびそれらの組み合わせが本発明の態様を実施するために厳密に必要なものではないことを理解されたい。
【0017】
以下の説明および関連図面において、様々な態様が開示される。代替的な態様は、本開示の範囲から逸脱しない範囲で考案可能である。加えて、本開示のよく知られた要素は、本開示の関連詳細を不明瞭にしないために、詳細に説明されず、または省略される。
【0018】
「例示的」および/または「例」という語は、本明細書では、「例、事例、または説明例の役割を果たす」ことを意味するために使用される。「例示的」および/または「例」として本明細書で説明されるあらゆる態様は、他の態様よりも好ましい、または有益であると必ずしも解釈されるべきではない。同様に、「本開示の態様」という表現は、本開示の全態様が、動作の論じられる特徴、利点、または特性を含むことを必要としない。
【0019】
さらに、例えば、演算デバイスの要素によって実行されるアクションの順序に関して、多くの態様が説明される。本明細書で説明される様々なアクションは、特定の回路(例えば、特定用途向け集積回路(ASIC))、1つまたは複数のプロセッサによって実行されるプログラム命令、またはその両方の組み合わせによって実行可能であることが認識されるであろう。加えて、本明細書で説明されるアクションの順序は、実行されると、関連プロセッサに本明細書で説明される機能を実行させ得るコンピュータ命令の対応セットを記憶するコンピュータ可読記憶媒体の任意の形態内で全体として具体化されると考えられることが可能である。そのため、本開示の様々な態様は、多数の様々な形態で具体化されてもよく、そのすべては、特許請求の範囲に記載の主題内にあると企図される。
【0020】
本開示の態様は、セマンティックセグメンテーションを利用して、目標物体を遮蔽する遮蔽物体を識別することと、遮蔽物体の領域を回復マスクで置き換えることと、その後、敵対的生成ニューラルネットワーク(GAN)を利用して、回復マスクが、物体クラスを目標物体と共有する少なくとも予測物体を示す予測画像で置き換えられた回復された画像を生成することとに関する。この回復された画像に関して物体検出を実行することによって、高い正確性の物体検出結果を達成することができる。
【0021】
より具体的には、画像内の被遮蔽領域を認識するために、高解像度のセマンティックセグメンテーションを利用して、目標物体を遮蔽する遮蔽物体を識別できる。ここで、鉄道または自動車用途の場合、遮蔽物体の例として、電柱、木、および他の障壁が挙げられ得、目標物体としては、人、動物、自動車などが挙げられ得る。したがって、本開示で使用される場合、「被遮蔽領域」とは、セマンティックセグメンテーションによって識別された遮蔽物体に対応する画像内の領域を指す。
【0022】
訓練段階において、高解像度セマンティックセグメンテーションを使用して識別された被遮蔽領域を使用して、パッチラベル分類器、ディスクリミネータ、およびGAN内のジェネレータの被遮蔽物体の回復能力に対するモデル重みを推定できる。加えて、推論段階において、被遮蔽領域で置き換えられる予測画像を生成するようGANを誘導するために、被遮蔽領域を使用することができる。ここで、被遮蔽領域は、二値の回復マスクを使用して表され得る。
【0023】
さらに、訓練段階中に、GAN内のジェネレータは、目標物体の物体クラスをより高い正確性で回復するようにジェネレータの訓練を誘導するためのグローバル/パッチディスクリミネータおよび追加のパッチラベル分類器を含み得る。より具体的には、これらのグローバル/パッチディスクリミネータは、被遮蔽領域のためのモデルをラベルのセットから汎化するためにセマンティックセグメンテーションを使用して識別された被遮蔽領域を受け取り、被遮蔽領域で置き換えられるリアルな予測画像を生成するようにジェネレータを誘導し得る。
【0024】
さらに、実施形態では、本開示の態様は、入力画像の品質を向上させ、特徴(例えば、気象条件、照明条件)を修正するために、複数のトランスフォーメーションユニット(例えば、追加のGAN)を利用することに関する。これらのトランスフォーメーションユニットの出力は、重み付けされ、畳み込み層のセットを使用して単一の画像となるように結合され得る。複数のトランスフォーメーションユニットの結果を融合することによって、各トランスフォーメーションユニットの重みのバランスをとり、誤検出の可能性を低減することが可能である。
【0025】
このように、本開示によれば、被遮蔽物体を高い正確性で検出できる物体検出のためのデバイス、方法およびシステムを提供することが可能である。
【0026】
次に、図面を参照すると、図1は、実施形態による、本開示の様々な実施形態を実施するためのコンピュータシステム100の概略ブロック図である。本明細書で開示される様々な実施形態の機構および装置は、任意の適切な演算システムに等しく適用可能である。コンピュータシステム100の主要構成要素は、1つまたは複数のプロセッサ102、メモリ104、端末インターフェース112、記憶インターフェース113、I/O(入力/出力)デバイスインターフェース114、およびネットワークインターフェース115を含み、そのすべては、メモリバス106、I/Oバス108、バスインターフェースユニット109、およびI/Oバスインターフェースユニット110を介した構成要素間通信のために、直接または間接的に、通信可能に結合される。
【0027】
コンピュータシステム100は、本明細書では全般的にプロセッサ102と呼ばれる、1つまたは複数の汎用プログラマブル中央処理装置(CPU)102Aおよび102Bを含み得る。実施形態では、コンピュータシステム100は複数のプロセッサを含み得るが、特定の実施形態では、コンピュータシステム100は、代替として、単一のCPUシステムでもよい。各プロセッサ102は、メモリ104に記憶された命令を実行し、1つまたは複数のレベルのオンボードのキャッシュを含み得る。
【0028】
実施形態では、メモリ104は、データおよびプログラムを記憶または符号化するためのランダムアクセス半導体メモリ、記憶デバイス、または記憶媒体(揮発性、または不揮発性のいずれか)を含み得る。特定の実施形態では、メモリ104は、コンピュータシステム100の仮想メモリ全体を表し、さらに、コンピュータシステム100に結合された、またはネットワークを介して接続された他のコンピュータシステムの仮想メモリを含み得る。メモリ104は、概念上、単一のモノリシックな実体として見られることが可能であるが、他の実施形態では、メモリ104は、キャッシュおよび他のメモリ素子の階層など、より複雑な構成である。例えば、メモリは、複数のレベルのキャッシュに存在してもよく、それらのキャッシュは、さらに機能別に分割されてもよく、それによって、1つのキャッシュが命令を保持し、他の1つのキャッシュが、プロセッサによって使用される命令以外のデータを保持する。メモリは、さらに、様々な、いわゆる不均一メモリアクセス(NUMA)コンピュータアーキテクチャのうちの任意のアーキテクチャにおいて知られるように、分散されて、異なるCPUまたはCPUのセットと関連付けられてもよい。
【0029】
メモリ104は、本明細書で説明されるデータ転送を処理するための様々なプログラム、モジュール、およびデータ構造の全部または一部分を記憶し得る。例えば、メモリ104は、物体検出アプリケーション150を記憶可能である。実施形態では、物体検出アプリケーション150は、プロセッサ102上で実行される命令またはステートメント、またはさらに後述されるような機能を実行するためにプロセッサ102上で実行される命令またはステートメントによって解釈される命令またはステートメントを含み得る。
特定の実施形態では、物体検出アプリケーション150は、プロセッサベースのシステムに代わって、またはプロセッサベースのシステムに加えて、半導体デバイス、チップ、論理ゲート、回路、回路カード、および/または他の物理的ハードウェアデバイスを介してハードウェアで実施される。実施形態では、物体検出アプリケーション150は、命令またはステートメントに加えて、データを含み得る。特定の実施形態では、カメラ、センサ、または他のデータ入力デバイス(図示せず)は、コンピュータシステム100のバスインターフェースユニット109、プロセッサ102、または他のハードウェアとの直接通信状態で提供され得る。そのような構成では、プロセッサ102がメモリ104および物体検出アプリケーション150にアクセスする必要性が削減され得る。
【0030】
コンピュータシステム100は、プロセッサ102、メモリ104、表示システム124、およびI/Oバスインターフェースユニット110間での通信を扱うバスインターフェースユニット109を含み得る。I/Oバスインターフェースユニット110は、様々なI/Oユニットとの間でデータを転送するためにI/Oバス108と結合され得る。I/Oバスインターフェースユニット110は、I/Oバス108を介して、I/Oプロセッサ(IOP)またはI/Oアダプタ(IOA)としても知られる複数のI/Oインターフェースユニット112、113、114、および115と通信する。表示システム124は、ディスプレイコントローラ、ディスプレイメモリ、またはその両方を含み得る。ディスプレイコントローラは、映像、音声、またはその両方の種類のデータを表示デバイス126に提供し得る。さらに、コンピュータシステム100は、データを収集してプロセッサ102に提供するように構成された1つまたは複数のセンサまたは他のデバイスを含み得る。
例として、コンピュータシステム100は、バイオメトリックセンサ(例えば、心拍数データ、ストレスレベルデータを収集)、環境センサ(例えば、湿度データ、温度データ、圧力データを収集)、運動センサ(例えば、加速度データ、移動データを収集)、などを含み得る。他の種類のセンサも可能である。ディスプレイメモリは、映像データをバッファに入れるための専用メモリでもよい。表示システム124は、スタンドアロンの表示画面、コンピュータモニタ、テレビジョン、タブレット、またはハンドヘルドデバイスのディスプレイなどの表示デバイス126と結合され得る。
一実施形態では、表示デバイス126は、音声をレンダリングするための1つまたは複数のスピーカーを含み得る。代替的に、音声をレンダリングするための1つまたは複数のスピーカーは、I/Oインターフェースユニットと結合され得る。代替の実施形態では、表示システム124によって提供される機能のうちの1つまたは複数は、プロセッサ102も含む集積回路に搭載されてもよい。加えて、バスインターフェースユニット109によって提供される機能のうちの1つまたは複数は、プロセッサ102も含む集積回路に搭載されてもよい。
【0031】
I/Oインターフェースユニットは、種々の記憶デバイスおよびI/Oデバイスとの通信をサポートする。例えば、端末インターフェースユニット112は、ユーザ出力デバイス(映像表示デバイス、スピーカー、および/またはテレビジョンセットなど)と、ユーザ入力デバイス(キーボード、マウス、キーパッド、タッチパッド、トラックボール、ボタン、光ペン、または他のポインティングデバイスなど)とを含み得る1つまたは複数のユーザI/Oデバイス116の接続をサポートする。ユーザは、入力データおよびコマンドをユーザI/Oデバイス116およびコンピュータシステム100に提供するために、ユーザインターフェースを使用してユーザ入力デバイスを操作してもよく、さらに、ユーザ出力デバイスを介して出力データを受信してもよい。例えば、ユーザインターフェースは、表示デバイス上での表示、スピーカーによる再生、またはプリンタによる印刷など、ユーザI/Oデバイス116を介して提示されてもよい。
【0032】
記憶インターフェース113は、1つまたは複数のディスクドライブまたは直接アクセス記憶デバイス117(通常、磁気ディスクドライブ記憶デバイスを回転させるが、代替として、ホストコンピュータにとって単一の大容量記憶デバイスに見えるディスクドライブ、またはフラッシュメモリなどのソリッドステートドライブのアレイを含む他の記憶デバイスでもよい)の接続をサポートする。いくつかの実施形態では、記憶デバイス117は、任意の種類の二次記憶デバイスによって実施され得る。メモリ104の内容物、またはその任意の部分は、記憶デバイス117に記憶されてもよく、必要に応じて記憶デバイス117から取り出されてもよい。I/Oデバイスインターフェース114は、様々な他のI/Oデバイス、またはプリンタまたはファックス機などの他の種類のデバイスのうちのいずれかへのインターフェースを提供する。ネットワークインターフェース115は、コンピュータシステム100から他のデジタルデバイスおよびコンピュータシステムへの1つまたは複数の通信経路を提供し、これらの通信経路は、例えば、1つまたは複数のネットワーク130を含み得る。
【0033】
図1に示されるコンピュータシステム100は、プロセッサ102、メモリ104、バスインターフェース109、表示システム124、およびI/Oバスインターフェースユニット110間において直接通信経路を提供する特定のバス構造を説明しているが、代替の実施形態では、コンピュータシステム100は、階層的構成、星状構成またはウェブ構成、複数の階層的バス、並列および冗長経路、または任意の他の適切な種類の構成における二点間リンクなどの様々な形態のうちのいずれかで構成され得る異なるバスまたは通信経路を含み得る。さらに、I/Oバスインターフェースユニット110およびI/Oバス108は、単独のそれぞれの部材として示されているが、コンピュータシステム100は、実際に、複数のI/Oバスインターフェースユニット110および/または複数のI/Oバス108を含み得る。様々なI/Oデバイスに向かって走る様々な通信経路からI/Oバス108を分離する複数のI/Oインターフェースユニットが示されているが、他の実施形態では、そのI/Oデバイスのいくつか、または全部は、1つまたは複数のシステムI/Oバスに対して直接接続される。
【0034】
様々な実施形態では、コンピュータシステム100は、複数ユーザメインフレームコンピュータシステム、単一ユーザシステム、もしくはサーバコンピュータまたは直接ユーザインターフェースがほとんどまたは全くない同様のデバイスであるが、他のコンピュータシステム(クライアント)から要求を受信する。他の実施形態では、コンピュータシステム100は、デスクトップコンピュータ、ポータブルコンピュータ、ラップトップまたはノート型のコンピュータ、タブレットコンピュータ、ポケットコンピュータ、電話、スマートフォン、または任意の他の適切な種類の電子デバイスとして実施され得る。
【0035】
次に、本開示の実施形態による物体検出システムの例示的な構成が、図2を参照して説明される。
【0036】
図2は、本開示の実施形態による、物体検出システム200の例示的な構成を示す。図2に示すように、物体検出システム200は、主に、画像キャプチャデバイス210と、クライアントデバイス220と、物体検出デバイス230とを含む。画像キャプチャデバイス210、クライアントデバイス220、および物体検出デバイス230は、ローカルエリアネットワーク(LAN)またはインターネットなどの通信ネットワーク225を介して通信可能に接続され得る。
【0037】
画像キャプチャデバイス210は、画像データをキャプチャするように構成されたデバイスである。画像キャプチャデバイスによってキャプチャされた画像データは、静止画または動画(すなわち、時系列順の画像フレームのシーケンス)を含み得る。例として、画像キャプチャデバイス210は、所定の場所に取り付けられた静止カメラ(例えば、監視カメラ)、自動車または列車に取り付けられたカメラ、モバイルコンピューティングデバイスに含まれたカメラ(例えば、スマートフォンもしくはタブレットのカメラ)などを含み得る。実施形態では、画像キャプチャデバイスは、目標物体を含む目標画像212をキャプチャし、通信ネットワーク225を介して物体検出デバイス230に送信するように構成され得る。
【0038】
クライアントデバイス220は、物体検出デバイス230によって実行される物体検出プロセスを管理し、物体検出プロセスの結果として物体検出デバイス230から送信された物体検出結果222を閲覧および確定するためのコンピューティングデバイスを含み得る。実施形態では、クライアントデバイス220を使用して、検出対象の目標物体の指定、物体検出デバイス230のパラメータの設定、または同様のことを行い得る。例として、クライアントデバイス220は、スマートフォン、タブレットデバイス、ラップトップコンピュータ、デスクトップコンピュータ、または他の適したコンピューティングデバイスを含み得る。
【0039】
物体検出デバイス230は、被遮蔽物体によって少なくとも部分的に遮蔽された目標物体を検出するために、本開示の実施形態による物体検出プロセスを実行するように構成されたコンピューティングデバイスである。図2に示すように、物体検出デバイス230は、画像取得ユニット232と、画像セグメンテーションユニット234と、画像変換ユニット236と、ジェネレータユニット238と、物体検出ユニット240とを含み得る。実施形態では、物体検出デバイス230は、物体検出デバイス230の画像取得ユニット232、画像セグメンテーションユニット234、画像変換ユニット236、ジェネレータユニット238、物体検出ユニット240の機能、および他の機能が、物体検出アプリケーション150を用いて実行されるように、図1に示されるコンピュータシステム100を使用して実施され得る。
なお、画像取得ユニット232、画像セグメンテーションユニット234、画像変換ユニット236、ジェネレータユニット238、および物体検出ユニット240を含む物体検出デバイス230の例が図2に示されているが、本開示はそれに限定されず、物体検出デバイス230の他の機能ユニット(例えば、訓練プロセスで使用される機能ユニット)が本明細書で説明されることに留意されたい。
【0040】
画像取得ユニット232は、画像キャプチャデバイス210によってキャプチャされた目標画像212を受信するように構成された機能ユニットである。ここで、目標画像212は、目標物体が遮蔽物体によって少なくとも部分的に遮蔽されている画像を含み得る。本明細書では、目標画像212が3チャネルRGB画像である例を説明するが、本開示はそれに限定されない。一例として、画像キャプチャデバイス210が、運転手のいない列車上に取り付けられたカメラである場合、画像キャプチャデバイス210は、クラス識別が望ましい目標物体を含む、運転者のいない列車の周囲の目標画像212をキャプチャしてもよい。ここで、遮蔽物体は、目標画像212内の目標物体を部分的に遮断する、隠す、または暗くする物体を指す。実施形態では、遮蔽物体が、目標画像212内の目標物体の30%以下を遮断することが好ましい。運転手のいない列車の例を参照すると、遮蔽物体は、踏切デバイス、電柱、木、建物、または目標物体を部分的に暗くする任意の他の物体を含み得る。
【0041】
画像セグメンテーションユニット234は、目標物体が遮蔽物体によって少なくとも部分的に遮蔽されている目標画像212の被遮蔽領域を識別し、遮蔽物体の物体クラスを示す物体ラベルを遮蔽物体に割り当てるために、画像取得ユニット232によって取得された目標画像を処理するように構成された機能ユニットである。ここで、物体クラスは、物体のタイプ分類(例えば、人、犬、木)を指し、物体ラベルは、物体クラスを示すメタデータタグを指す。実施形態では、画像セグメンテーションユニット234の機能は、好適なセマンティックセグメンテーション技法を使用して実現され得る。例として、画像セグメンテーションユニット234は、完全畳み込みネットワーク、DeepLab、Atrous convolution、空間ピラミッドプーリング、グローバル畳み込みネットワーク、時空間完全畳み込みネットワーク、または同様のものを含み得る。
【0042】
画像変換ユニット236は、遮蔽物体の物体ラベルに基づいて、目標画像212の被遮蔽領域を回復マスクに変換することによって回復画像を生成するように構成された機能ユニットである。
【0043】
ジェネレータユニット238は、回復マスクが予測画像で置き換えられた回復された画像を生成するために、画像変換ユニット236によって生成された回復画像を処理するための機能ユニットである。ここで、予測画像は、回復マスクとほぼ同じ場所に配置され、ほぼ同じ面積(例えば、被遮蔽領域と同じ面積)を占有する。実施形態では、後述するように、ジェネレータユニット238が、敵対的生成ネットワーク(GAN)の訓練されたジェネレータを含み得る。
【0044】
物体検出ユニット240は、目標物体を検出して物体検出結果222を生成するために、ジェネレータユニット238によって生成された回復された画像を処理するように構成された機能ユニットである。物体検出ユニット240の機能は、任意の好適な物体検出技法を使用して実現され得る。例として、物体検出ユニット240は、配向勾配ヒストグラム(HOG)、領域ベースの畳み込みニューラルネットワーク(R-CNN)、Fast R-CNN、Faster R-CNN、領域ベースの完全畳み込みネットワーク(R-FCN)、シングルショット検出器(SSD)、空間ピラミッドプーリング(SPP-net)、YOLO(You Only Look Once)、または同様のものを含み得る。
【0045】
次に、物体検出システムの推論段階プロセスのブロック図を、図3を参照して説明する。
【0046】
実施形態では、本開示の態様は、物体検出デバイス230が、高い物体検出正確性を達成するように訓練される訓練段階プロセス400と、訓練された物体検出デバイス230が、目標画像に関して物体検出結果を生成する推論段階プロセス300とに関する。それに応じて、図3は、実施形態による、物体検出システム200の推論段階プロセスのブロック図を示す。
【0047】
最初に、ステップS310で、画像セグメンテーションユニット234は、画像取得ユニット232(図3では図示せず)によってキャプチャされた目標画像212を受信し、目標物体が遮蔽物体によって少なくとも部分的に遮蔽されている目標画像212の被遮蔽領域を識別するように目標画像212を処理し、物体ラベルをその遮蔽物体に割り当てる。ここで、目標画像212の被遮蔽領域は、遮蔽物体の領域全体を指す。物体ラベルは、遮蔽物体の予測されたクラスを識別するデータラベルを指す。実施形態では、物体ラベルはまた、画像内の遮蔽物体の場所を指定し得る。一例として、目標画像が電柱によって部分的に遮蔽されている人を目標物体として含んでいる場合、ステップS310で、画像セグメンテーションユニット234は、被遮蔽領域として電柱の領域全体を識別し、その電柱に、「電柱」の第1の物体ラベルを割り当て得る。
【0048】
次に、ステップS320で、画像変換ユニット236は、ステップS310で割り当てられた物体ラベルに基づいて、目標画像212の被遮蔽領域を回復マスクに変換することによって回復画像325を生成する。ここで、回復マスクは、ステップS330においてジェネレータユニット238によって処理される目標画像212の領域を示し、分離するために使用される画像を指す。実施形態では、回復マスクは、被遮蔽領域に対応するピクセルが第1のピクセル値(例えば、「1」)によって示され、被遮蔽領域に対応しないピクセルが第2のピクセル値(例えば、「0」)によって示される二値画像を含み得る。
【0049】
次に、ステップS330で、ジェネレータユニット238は、回復マスクが予測画像で置き換えられた回復された画像335を生成するために、ステップS320において画像変換ユニット236によって生成された回復画像325を処理する。ここで、予測画像は、回復マスクで置き換えられる人工的に生成された画像(すなわち、遮蔽領域)を指す。予測画像は、物体クラスを目標物体と共有する予測物体を含む。目標画像212内の遮蔽物体によって遮蔽されている領域が異なる物体クラスを有する複数の被遮蔽物体を含む場合、予測画像は、被遮蔽物体にそれぞれ対応する物体クラスを有する複数の予測物体を含む。
一例として、目標画像212が、遮蔽物体が人、自動車、地面、および空を遮蔽している画像を含む場合、ジェネレータユニット238は、人、自動車、地面、および空の予測物体が回復マスク(すなわち遮蔽領域)で置き換えられた予測画像を生成し得る。
【0050】
次に、ステップS340で、物体検出ユニット240は、目標物体を検出して物体検出結果222を生成するために、ステップS330でジェネレータユニット238によって生成された回復された画像335を処理する。ここで、物体検出結果222は、目標物体の物体クラスを示す少なくとも目標物体ラベルを示すデータのコレクションを含み得る。実施形態では、物体検出結果222は、画像内の目標物体の場所、目標物体の軌道(例えば、予測移動経路)、または同様のものなど、目標物体に関する追加情報を含み得る。その後、物体検出結果222は、通信ネットワーク225を介してクライアントデバイス220に送信され得る。
【0051】
図3に示される物体検出システム200の推論段階プロセス300によれば、被遮蔽物体を高正確度で検出できる方法を提供することが可能である。
【0052】
次に、物体検出システムの訓練段階プロセスのブロック図を、図4を参照して説明する。
【0053】
実施形態では、本開示の態様は、物体検出デバイス230が、高い物体検出正確度を達成するように訓練される訓練段階プロセス400と、訓練された物体検出デバイス230が、目標画像に関して物体検出結果を生成する推論段階プロセス300とに関する。それに応じて、図4は、実施形態による、物体検出システムの訓練段階プロセス400のブロック図を示す。
【0054】
最初に、ステップS405で、画像セグメンテーションユニット234は、訓練画像401において遮蔽物体(例えば、目標物体を部分的に遮蔽する物体)を識別するように、訓練画像401を処理するために使用される。画像セグメンテーションユニット234は、訓練画像401内の遮蔽物体の物体クラスおよび場所情報(例えば、遮蔽物体に対応する遮蔽領域を示す座標)を示す物体ラベル407のセットを出力し得る。ここで、訓練画像510は、目標物体が遮蔽物体によって遮蔽されているシーンの画像を含み得る。加えて、ステップS405で、画像セグメンテーションユニット234が遮蔽物体を正確に識別するように既に訓練されていると仮定される。
【0055】
加えて、画像セグメンテーションユニット235は、遮蔽領域に対応する各ピクセルが「フェイク」としてラベル付けされ、遮蔽領域に対応しない各ピクセルが「リアル」としてラベル付けされるように、訓練画像の各ピクセルを「リアル」または「フェイク」としてラベル付けする機能を実行することによってピクセル分類データ414のセットを生成し得る。このピクセル分類データ414のセットは、ジェネレータユニット238によって生成された回復された画像413を評価するために、後述するディスクリミネータユニットによって使用され得る。
【0056】
さらに、画像セグメンテーションユニット235は、被遮蔽物体ラベル418のセットを使用して、遮蔽物体に対応する物体ラベルを被遮蔽物体に対応する物体ラベルで置き換え、被遮蔽物体がそれらの正しい物体クラスでラベル付けされた被遮蔽物体ラベル付き画像を生成し得る。より具体的には、画像セグメンテーションユニット235は、被遮蔽領域の各ピクセルの物体ラベルを被遮蔽物体の物体ラベルで置き換えることによって、被遮蔽物体ラベル付き画像を生成し得る。実施形態では、被遮蔽物体ラベル418のセットは、訓練画像401内の被遮蔽物体の正しい物体クラスを示す、ユーザもしくは管理者によって作成された(例えば、さらにデータベースに記憶されている)注釈付き目標物体ラベルのセットに基づいて生成され得る。
【0057】
次に、ステップS410で、画像変換ユニット236は、物体ラベル407に基づいて、訓練画像401の被遮蔽領域を回復マスクに変換することによって回復画像411を生成する。本明細書で説明するように、回復マスクは、被遮蔽領域に対応するピクセルが第1のピクセル値(例えば、「1」)によって示され、被遮蔽領域に対応しないピクセルが第2のピクセル値(例えば、「0」)によって示される二値画像を含み得る。
【0058】
次に、ステップS412で、ジェネレータユニット238は、回復マスクが、訓練画像401のそれぞれの被遮蔽物体と物体クラスを共有する1つまたは複数の予測物体を示す予測画像で置き換えられた回復された画像413(例えば、第2の回復された画像)を生成するために回復画像411を処理する。なお、この段階では、ジェネレータユニット238が完全に訓練されていないため、ステップS412でジェネレータユニット238によって生成された回復された画像413の正確性は低い場合がある。しかしながら、本明細書で説明する訓練段階プロセス400を繰り返すことによって、ジェネレータユニット238は、その正確性を高め、遮蔽物体によって遮蔽されている被遮蔽領域が、訓練画像401内の被遮蔽物体と同じ物体クラスを有する1つまたは複数の予測物体を含む予測画像で置き換えられ得る正確な回復された画像413を生成するように訓練され得る。
【0059】
次に、ステップS414で、ディスクリミネータユニットは、ジェネレータユニット238から回復された画像413、画像セグメンテーションユニット234からピクセル分類データ414、および遮蔽物体によって遮蔽されていない状態にある目標物体を示す基準画像415を受信し、受信したデータを使用して、受信した回復された画像413の予測画像に対応する領域を識別するように訓練される。換言すると、ディスクリミネータユニットは、回復された画像413が、リアル(例えば、元の画像)であるか、またはフェイク(例えば、ジェネレータユニットによって生成された画像)であるかを区別するように構成されている。ここで、ディスクリミネータユニットは、GANの分類器ユニットを含み得る。実施形態では、ディスクリミネータユニットは、回復された画像413を全体的に評価するように構成されたグローバルディスクリミネータと、回復された画像413内の予測画像を評価するように構成されたパッチディスクリミネータとを含み得る。
【0060】
ここで、基準画像415は、目標物体が遮蔽物体によって遮蔽されていないことを除いて、訓練画像401とほぼ同じシーンを示す画像であり得る。基準画像415をディスクリミネータユニットに提供することによって、ディスクリミネータユニットは、目標物体に対応するピクセルの誤ったラベル付けを避けるように訓練することができる。ステップS416で、ピクセル分類データ414および基準画像415を使用して、ディスクリミネータユニットは、回復された画像413の画像品質レベルに基づいて第1のフィードバック重みセット417を生成するように訓練され得る。ここで、画像品質レベルは、回復された画像413がリアルの画像と類似している度合いの定量的尺度を指す(例えば、ディスクリミネータがフェイクであると区別することがより難しい回復された画像413は、より高い画像品質レベルを有すると考えられ得る)。この第1のフィードバック重みセット417は、ジェネレータユニット238に逆伝搬され得る。その後、ジェネレータユニット238のパラメータは、より正確な回復された画像413の生成を容易にするために、この第1のフィードバック重みセット417に基づいて調整され得る。
【0061】
次に、ステップS419で、パッチラベル分類器ユニットは、ジェネレータユニット238から回復された画像413、画像セグメンテーションユニット234から被遮蔽物体ラベル418のセット(例えば、被遮蔽物体ラベル付き画像)、および基準画像415を受信し、受信したデータを使用して、受信した画像413内の予測物体の物体ラベルを分類するように訓練される。実施形態では、パッチラベル分類器ユニットは、回復された画像413内の予測物体の物体ラベルの正確性を評価するために、回復された画像413内の予測物体について識別された物体ラベルを被遮蔽物体ラベル418と比較し、回復された画像413内の予測物体の物体ラベルと被遮蔽物体ラベル418との相関に基づいて第2のフィードバック重みセット420を生成し得る。この第2のフィードバック重みセット420は、ジェネレータユニット238に逆伝搬され得る。その後、ジェネレータユニット238のパラメータは、より正確な予測物体を用いて回復された画像413の生成を容易にするために、この第2のフィードバック重みセット420に基づいて調整され得る。換言すれば、ジェネレータユニット238は、訓練画像401内で遮蔽された目標物体と同じ物体クラスを共有する予測物体を有する回復された画像413を生成するように訓練され得る。
【0062】
次に、ステップS422で、整合性管理ユニットは、回復された画像413および訓練画像401に基づいて、回復された画像413と訓練画像401との間の情報損失度を示す整合性損失値を計算する。この整合性損失値は、回復された画像413内に存在しない訓練画像401の遮蔽されていない領域のピクセル量にともなって増加する値である。この整合性損失値は、ジェネレータユニット238に逆伝搬され得る。その後、ジェネレータユニット238のパラメータは、以後の回復された画像413についての整合性損失値を減少させるように調整され得る。このように、ジェネレータユニット238は、遮蔽していない領域のために訓練画像401と回復された画像413との間で維持される視覚情報量を最大限にするように訓練され得る(例えば、訓練画像401の遮蔽されていない部分が損失している回復された画像413を生成することを避けるため)。
【0063】
上述した訓練段階プロセス400によれば、ディスクリミネータユニットは、ジェネレータユニット238によって生成された回復された画像413がリアルであるか、フェイクであるかを区別するように訓練され得、ジェネレータユニット238は、ディスクリミネータユニットをだます回復された画像413(例えば、ジェネレータユニット238によって生成されたにもかかわらず、ディスクリミネータユニットがリアルの画像であると分類する画像)を生成するように訓練され得る。このように、ジェネレータが所望の正確性レベルに達するまで訓練段階プロセス400を繰り返すことによって、ジェネレータユニット238は、遮蔽物体によって遮蔽されている領域が元の目標画像内の被遮蔽物体に対応する物体を示す予測画像で置き換えられたリアルな回復された画像を生成するように訓練され得る。
【0064】
次に、画像セグメンテーションユニットの訓練段階プロセスのブロック図を、図5を参照して説明する。
【0065】
本明細書で説明するように、本開示の態様は、目標物体を少なくとも部分的に遮蔽する遮蔽物体を識別するために、画像取得ユニット232によって取得された目標画像を処理することに画像セグメンテーションユニット234を利用することに関する。例として、画像セグメンテーションユニット234は、完全畳み込みネットワーク、DeepLab、Atrous convolution、空間ピラミッドプーリング、グローバル畳み込みネットワーク、時空間完全畳み込みネットワーク、または同等のものを含み得る。それに応じて、目標画像内の遮蔽物体を正確に識別するために、画像セグメンテーションユニット234を訓練するための画像セグメンテーション訓練プロセス500を実行することが望ましい。図5は、実施形態による、画像セグメンテーション訓練プロセス500のブロック図を示す。
【0066】
ステップS520で、訓練されていない画像セグメンテーションユニット234が、訓練画像510を処理するために使用される。ここで、訓練画像510は、目標物体が遮蔽物体によって遮蔽されているシーンの画像を含み得る。画像セグメンテーションユニット234は、遮蔽領域(例えば、すなわち、遮蔽物体によって囲まれている領域)とともに遮蔽物体の物体クラスの識別を試行するために、訓練画像510を処理する。画像セグメンテーションユニット234によって出力された結果は、正確なラベルを示すグラウンドトゥルースデータ530のセットおよび訓練画像510内の遮蔽物体(例えば、木、交通標識、電柱、踏切デバイス)の遮蔽領域と比較され、画像セグメンテーションユニット234の結果とグラウンドトゥルースデータとの差に基づいて、損失値が計算される。
【0067】
その後、画像セグメンテーションユニット234のパラメータが、画像セグメンテーションユニット234の結果とグラウンドトゥルースデータとの差に基づいて計算された損失値を減少させるように調整される(例えば、逆伝搬などによる)。異なる訓練画像510および対応するグラウンドトゥルースデータ530を用いて複数の反復回にわたって上記プロセスを繰り返すことによって、画像セグメンテーションユニット234は、遮蔽物体の物体ラベルおよび遮蔽領域を正確に識別するように訓練され得る。この画像セグメンテーション訓練プロセス500は、画像セグメンテーションユニット234の画像セグメンテーション正確性が所定の正確性閾値(例えば、90%、95%)に達するまで繰り返され得る。
このように、画像セグメンテーションユニット234は、遮蔽物体の物体ラベルおよび遮蔽領域を正確に識別するように訓練され得る。
【0068】
次に、トランスフォーメーションユニットのセットのブロック図を、図6を参照して説明する。
【0069】
実施形態では、本開示の態様は、いくつかの場合に、気象条件、照明条件、画像解像度、または同様のものに起因して、目標画像が低画像品質を有している可能性があることの認識に関する。そのような状況において、低画像品質は、これらの目標画像に対して実行される物体検出の正確性に悪影響を及ぼす可能性がある。したがって、本開示の態様は、正確な物体検出を容易にするために、目標画像に対して画像トランスフォーメーション動作を実行するように構成されたトランスフォーメーションユニットのセットを利用することに関する。したがって、図6は、本開示の実施形態による、トランスフォーメーションユニットのセット600を示す。
【0070】
実施形態では、トランスフォーメーションユニットのセット600は、上述した画像セグメンテーションユニット234、画像変換ユニット236、およびジェネレータユニット238と並列して構成され得る。一例として、トランスフォーメーションユニットのセット600、画像セグメンテーションユニット234、画像変換ユニット236、およびジェネレータユニット238は、ニューラルネットワーク内の異なる層として構成され得る。後述するように、トランスフォーメーションユニットのセット600およびジェネレータユニット238によって生成された出力画像640のセットは集約されて、単一の合成出力となり得る。
なお、画像セグメンテーションユニット234、画像変換ユニット236、ジェネレータユニット238、および回復された画像335が上記で説明されたため、その説明は、ここでは省略されることに留意されたい。
【0071】
図6に示すように、トランスフォーメーションユニットのセット600は、第1のトランスフォーメーションユニット610、第2のトランスフォーメーションユニット620、および第3のトランスフォーメーションユニット630を含む。トランスフォーメーションユニットのセット600のうちの各々は、目標画像212に対して異なる画像トランスフォーメーションを実行するように訓練されたジェネレータ(例えば、GANのジェネレータ)を使用して構成され得る。より具体的には、トランスフォーメーションユニットのセット600のうちの各々は、目標画像212と物体検出ユニット240を訓練するために使用された訓練画像(例えば、物体検出訓練画像)との類似度を高めるために、画像トランスフォーメーション動作を実行するように構成され得る。目標画像212と、物体検出ユニット240を訓練するために使用される訓練画像との類似度を高めることによって、正確な物体検出を容易にすることが可能である。
【0072】
第1のトランスフォーメーションユニット610は、目標画像212とは異なる解像度を有する第1のトランスフォームされた目標画像612を生成するために、解像度トランスフォーメーション動作を目標画像212に対して行うように構成され得る。例えば、第1のトランスフォーメーションユニット610は、解像度トランスフォーメーション動作を目標画像212に対して実行して、物体検出を容易にするために目標画像212に関して解像度を増加させた第1のトランスフォームされた目標画像612を生成し得る。
【0073】
第2のトランスフォーメーションユニット620は、目標画像212とは異なる気象条件を有する第2のトランスフォームされた目標画像622を生成するために、気象トランスフォーメーション動作を行うように構成され得る。例えば、目標画像212が霧の気象を有するシーンを示す場合、第2のトランスフォーメーションユニット620は、目標画像212が物体検出を容易にするために、晴天の気象を有するシーンにトランスフォームされた第2のトランスフォームされた目標画像622を生成するように、目標画像212に対して気象トランスフォーメーション動作を実行し得る。
【0074】
第3のトランスフォーメーションユニット630は、目標画像212とは異なる照明条件を有する第3のトランスフォームされた目標画像632を生成するために、照明トランスフォーメーション動作を行うように構成され得る。例えば、目標画像212が夜間のシーンを示す場合、第3のトランスフォーメーションユニット630は、目標画像212が物体検出を容易にするために、昼間のシーンにトランスフォームされた第3のトランスフォームされた目標画像632を生成するように、目標画像212に対して照明トランスフォーメーション動作を実行し得る。
【0075】
次に、トランスフォーメーション管理ユニット645は、目標画像212、回復された画像335、第1のトランスフォームされた目標画像612、第2のトランスフォームされた目標画像622、および第3のトランスフォームされた目標画像632を受信し、第1の重みセットを目標画像に、第2の重みセットを回復された画像335に、第3の重みセットを第1のトランスフォームされた目標画像612に、第4の重みセットを第2のトランスフォームされた目標画像622に、および第5の重みセットを第3のトランスフォームされた目標画像632に割り当て得る。ここで、第1、第2、第3、第4、および第5の重みセットは、各それぞれの画像に対応する特徴が最終的な結合されたトランスフォームされた目標画像において反射されているべき度合いを示す重みである。
【0076】
実施形態では、トランスフォーメーション管理ユニット645は、物体検出ユニット240を訓練するために使用される訓練画像により類似した特徴(照明条件、気象条件、解像度)を含む画像が、より大きな重みを与えられるように、目標画像212、回復された画像335、第1のトランスフォームされた目標画像612、第2のトランスフォームされた目標画像622、および第3のトランスフォームされた目標画像632の各々の特徴が物体検出ユニット240を訓練するために使用される訓練画像において提示される度合いに基づいて、第1、第2、第3、第4、および第5の重みセットを割り当てるように訓練され得る。実施形態では、トランスフォーメーション管理ユニット645は、GANの異なるモデル層を使用して実施され得る。
【0077】
次に、トランスフォーメーション管理ユニット615は、第1の重みセット、第2の重みセット、第3の重みセット、第4の重みセット、および第5の重みセットに基づいて、目標画像212、回復された画像335、第1のトランスフォームされた目標画像612、第2のトランスフォームされた目標画像622、および第3のトランスフォームされた目標画像632を結合して、結合されたトランスフォームされた目標画像655を得ることを行い得る(S650)。このように、第1、第2、第3、第4、および第5の重みセットにしたがって目標画像212、回復された画像335、第1のトランスフォームされた目標画像612、第2のトランスフォームされた目標画像622、および第3のトランスフォームされた目標画像632の各々の特性を反映する、結合されたトランスフォームされた目標画像655が生成され得る。換言すれば、物体検出ユニット240を訓練するために使用される訓練画像とより大きい類似度を有するようにトランスフォームされた、結合されたトランスフォームされた目標画像655が生成され得る。
【0078】
次に、結合されたトランスフォームされた目標画像655は、物体検出ユニット240に入力され得る。物体検出ユニット240は、本明細書で説明するように、目標物体を検出し、物体検出結果222を生成するように、結合されたトランスフォームされた目標画像655を処理し得る。
【0079】
本明細書で説明するトランスフォーメーションユニットのセット600によれば、目標画像212と物体検出ユニット240を訓練するために使用される訓練画像との類似度を高めるために、目標画像212に対し画像ランスフォーメーションを実行することができ、またそれにより正確な物体検出を容易にすることが可能である。
【0080】
次に、目標画像、回復画像、および回復された画像の例を、図7を参照して説明する。
【0081】
本明細書で説明するように、本開示の態様は、1つまたは複数の目標物体が1つまたは複数の遮蔽物体によって少なくとも部分的に遮蔽されている目標画像212を、遮蔽物体によって遮蔽されている領域が二値回復マスクとして表される回復画像720に変換することと、その後、回復マスクが、目標画像212の遮蔽されている目標物体に対応する(例えば、物体クラスを共有する)予測物体を示す予測画像で置き換えられた回復された画像335を生成することとに関する。図7は、実施形態による、目標画像212、回復画像720、および回復された画像335の例を示す。
【0082】
一例として、図7に示されている目標画像212では、第1の目標物体である自動車が鉄道踏切デバイス705によって遮蔽されており、第2の目標物体である人712が、鉄道踏切デバイス715によって遮蔽されている。したがって、画像セグメンテーションユニット234を使用して目標画像212を処理することによって、鉄道踏切デバイス715、715の両方によって遮蔽されている領域が識別可能であり、「鉄道踏切デバイス」の物体ラベルが、それに対して割り当てられ得る。
【0083】
次に、画像セグメンテーションユニット234は、物体ラベルに基づいて、目標画像212の被遮蔽領域を回復マスク725に変換することによって回復画像720を生成することができる。
【0084】
その後、ジェネレータユニット238は、回復マスク725が、目標物体とそれぞれ同じ物体クラスを有する1つまたは複数の予測物体を含む第1の予測画像745で置き換えられた回復された画像335を生成するように、回復画像720を処理できる。より具体的には、回復された画像335に示すように、目標画像212において遮蔽された空および地面の適切な背景画像に加えて、鉄道踏切デバイス705によって遮蔽されている目標画像212の領域が、自動車752を示す予測画像で置き換えられており、鉄道踏切デバイス715によって遮蔽されている目標画像212の領域が、人762を示す予測画像で置き換えられている。
このように生成された回復画像720は、その後、目標物体である自動車および人を高正確度で生成することを容易にするために、物体検出ユニット(例えば、物体検出ユニット240)に入力され得る。
【0085】
本開示に記載の本物体検出デバイス、物体検出方法、および物体検出システムによれば、ジェネレータユニット(例えば、GANにおけるジェネレータ)は、目標画像の被遮蔽領域が、目標画像におけるそれぞれの被遮蔽物体と同じ物体クラスを有する1つまたは複数の予測物体を示す予測画像で置き換えられた回復された画像を生成するように訓練されることができ、その後、この回復された画像に対して物体検出を実行するため、目標物体が遮蔽されている場合にも正確な物体検出結果を生成することが可能である。
【0086】
さらに、本開示の態様は、入力画像の品質を向上させ、特徴(例えば、気象条件、照明条件)を修正するために、複数のトランスフォーメーションユニット(例えば、追加のGAN)を利用することに関する。これらのトランスフォーメーションユニットの出力は、重み付けされ、畳み込み層のセットを使用して単一の画像となるように結合され得る。複数のトランスフォーメーションユニットの結果を融合することによって、各トランスフォーメーションユニットの重みのバランスをとって、物体検出ユニットを訓練するために使用される画像との類似度がより高い画像を生成することが可能である。したがって、誤検出の可能性が低減されることができ、物体検出の正確性をさらに改善する。
【0087】
このように、本開示によれば、被遮蔽物体を高い正確度で検出できる物体検出のためのデバイス、方法およびシステムを提供することが可能である。
【0088】
本発明は、システム、方法、および/またはコンピュータプログラム製品でもよい。このコンピュータプログラム製品は、プロセッサに本発明の態様を実施させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体を含み得る。
【0089】
コンピュータ可読記憶媒体は、命令実行デバイスによって使用される命令を保持および記憶可能な有形デバイスであり得る。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または上記の任意の適切な組み合わせでもよいが、それに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的リストは、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、デジタルバーサタイルディスク(DVD)、メモリスティック、フロッピーディスク、命令が記録されたパンチカードまたは溝の隆起構造などの機械的暗号化デバイス、および上記の任意の適切な組み合わせを含む。
本明細書で使用される場合、コンピュータ可読記憶媒体は、それ自体、電波または他の自由に伝搬する電磁波、導波路または他の伝送媒体(例えば、光ファイバケーブルを通過する光パルス)を通って伝搬する電磁波、または電線によって伝達される電気信号などの一次的信号であるとして解釈されるべきではない。
【0090】
本発明の態様は、本発明の実施形態による方法、装置(システム)、およびコンピュータプログラム製品のフローチャートの図および/またはブロック図を参照して、本明細書で説明される。フローチャートの図および/またはブロック図の各ブロック、ならびにフローチャートの図および/またはブロック図ブロックの組み合わせは、コンピュータ可読プログラム命令によって実施可能であることを理解されるであろう。
【0091】
コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを介して実行される命令がフローチャートおよび/またはブロック図のブロックにおいて明示された機能/動作を実施するための手段を創出するように、上記のコンピュータ可読プログラム命令は、機械を製造するために、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサに提供されてもよい。これらのコンピュータ可読プログラム命令は、さらに、命令を記憶したコンピュータ可読記憶媒体がフローチャートおよび/またはブロック図のブロックに明示された機能/動作の態様を実施する命令を含む製品を備えるように、コンピュータ、プログラマブルデータ処理装置、および/または他のデバイスに特定のやり方で機能させ得るコンピュータ可読記憶媒体に記憶されてもよい。
【0092】
コンピュータ、他のプログラマブル装置、または他のデバイス上で実行される命令が、フローチャートおよび/またはブロック図のブロックにおいて明示された機能/動作を実施するように、上記のコンピュータ可読プログラム命令は、一連の動作ステップがコンピュータ実施プロセスを創出するようにコンピュータ、他のプログラマブル装置、または他のデバイス上で実行されるようにするためにコンピュータ、他のプログラマブルデータ処理装置、または他のデバイスにさらにロードされてもよい。
【0093】
本開示による実施形態は、クラウドコンピューティングインフラストラクチャを介してエンドユーザに提供され得る。クラウドコンピューティングは、一般的に、ネットワークを介してサービスとしてスケーラビリティのあるコンピューティングリソースの提供を指す。より正式には、クラウドコンピューティングは、コンピューティングリソースとその下位の技術的アーキテクチャ(例えばサーバ、ストレージ、ネットワーク)との間に抽象を提供するコンピューティング機能として定義されてもよく、最小限の管理労力またはサービスプロバイダの相互作用で高速で提供および解放され得る構成可能なコンピューティングリソースの共有プールへの便利なオンデマンドのネットワークアクセスを可能にする。それによって、クラウドコンピューティングは、コンピューティングリソースを提供するために使用される基礎となる物理的システム(またはそれらのシステムの場所)を考慮せずに、ユーザが「クラウド」における仮想コンピューティングリソース(例えば、ストレージ、データ、アプリケーション、さらには包括的な仮想化コンピューティングシステム)にアクセスできるようにする。
【0094】
図面におけるフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータプログラム製品の可能な実施のアーキテクチャ、機能、および動作を示す。これに関連して、フローチャートまたはブロック図における各ブロックは、特化した論理機能を実施するための1つまたは複数の実行可能命令を含む命令のモジュール、セグメント、または部分を表し得る。いくつかの代替の実施例では、ブロックに記載された機能は、図面に記載の順序とは異なる順序で発生し得る。例えば、連続して示される2つのブロックは、実際には、ほぼ同時に実行されてもよく、またはブロックは、場合によっては、関連する機能に応じて、逆の順序で実行されてもよい。また、ブロック図および/またはフローチャートの図の各ブロックおよびブロック図および/またはフローチャートの図のブロックの組み合わせは、特化した機能または動作を実行する、または専用ハードウェアおよびコンピュータ命令の組み合わせを実行する専用ハードウェアをベースとしたシステムによって実施可能であることが認識されるであろう。
【0095】
上記は本発明の例示的な実施形態に関するが、本発明の他のさらなる実施形態が本発明の基本的範囲から逸脱しない範囲で考え出されてもよく、その範囲は、後述の請求項によって判断される。本開示の様々な実施形態の説明が例示目的で提供されたが、網羅的である、または開示された実施形態に限定されることは意図されない。多くの修正および変形は、説明された実施形態の範囲および思想から逸脱しない範囲で、当業者にとって明らかであろう。実施形態の原理、市場に存在する技術の実用化または技術的改良を説明するため、または本開示が属する分野の通常技量を有する他者が本明細書で開示される実施形態を理解できるようにするために、本明細書で使用される用語は選ばれた。
【0096】
本明細書で使用される用語は特定の実施形態を説明する目的のみであり、様々な実施形態を限定することは、意図されない。本明細書で使用される場合、文脈が明確に示さない限り、単数形は複数形も同様に含むことが意図される。「~セット」、「~群」などは、1つまたは複数を含むことが意図される。さらに、本明細書で使用される場合の「含む」および/または「含むこと」という語は、述べられた特徴、整数、ステップ、動作、要素、および/または構成要素の存在を明示するが、1つまたは複数の他の特徴、整数、ステップ、動作、要素、構成要素および/またはその群の存在または追加を排除しないことが理解されるであろう。様々な実施形態の例示的な実施形態の上記の詳細な説明において、その部分を形成する添付図面(同様の番号は同様の要素を示す)について言及したが、例として、特定の例示的な実施形態が示されたものであり、様々な実施形態が実践可能である。上記の実施形態は、当業者が実施形態を実践できる程度に詳細に説明されたが、他の実施形態も使用可能であり、論理的、機械的、電気的および他の変更が、様々な実施形態の範囲から逸脱しない範囲でなされ得る。様々な実施形態の十分な理解を実現するために、上記の説明において、数多くの特定の詳細が記載された。しかしながら、様々な実施形態は、それらの特定の詳細がなくても実践され得る。他の事例では、よく知られる回路、構造、および技法は、実施形態を不明瞭にしないために、詳細には示されていない。
【符号の説明】
【0097】
200 物体検出システム
210 画像キャプチャデバイス
212 目標画像
220 クライアントデバイス
222 物体検出結果
225 通信ネットワーク
230 物体検出デバイス
232 画像取得ユニット
234 画像セグメンテーションユニット
236 画像変換ユニット
238 ジェネレータユニット
240 物体検出ユニット
300 推論段階プロセス
335 回復された画像
400 訓練段階プロセス
500 画像セグメンテーション訓練プロセス
600 トランスフォーメーションユニットのセット
図1
図2
図3
図4
図5
図6
図7
【手続補正書】
【提出日】2024-06-04
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
物体検出デバイスであって、
少なくとも第1の目標物体を含む目標画像を受信するための画像取得ユニットと、
少なくとも前記第1の目標物体が、第1の遮蔽物体によって少なくとも部分的に遮蔽されている、前記目標画像の被遮蔽領域を識別し、前記第1の遮蔽物体の物体クラスを示す第1の物体ラベルを前記第1の遮蔽物体に割り当てるように、前記目標画像を処理するための画像セグメンテーションユニットと、
前記第1の物体ラベルに基づいて前記目標画像の前記被遮蔽領域を第1の回復マスクに変換することによって第1の回復画像を生成するための画像変換ユニットと、
前記第1の回復マスクが、第1の予測物体および前記第1の目標物体の両方に対応する物体クラスを示す第2の物体ラベルと関連付けられた少なくとも前記第1の予測物体を含む第1の予測画像で置き換えられた第1の回復された画像を生成するように、前記第1の回復画像を処理するためのジェネレータユニットと、
前記第1の目標物体を検出するように、前記第1の回復された画像を処理し、前記第1の目標物体の少なくとも場所および前記第1の目標物体の物体クラスを示す目標物体ラベルを含む物体検出結果を生成するための物体検出ユニットと、
を備える、物体検出デバイス。
【請求項2】
前記ジェネレータユニットが、第2の目標物体が第2の遮蔽物体によって少なくとも部分的に遮蔽されている訓練画像に対して、前記第2の遮蔽物体に対応する第2の回復マスクが、第2の予測物体の物体クラスを示す第3の物体ラベルと関連付けられた少なくとも前記第2の予測物体を示す第2の予測画像で置き換えられた第2の回復された画像を生成するようにさらに構成されており、
前記物体検出デバイスが、前記第2の回復された画像の画像品質レベルに基づいて、第1のフィードバック重みセットを生成するように構成されたディスクリミネータユニットをさらに備えており、
前記ディスクリミネータユニットが、
前記第2の遮蔽物体の物体クラスを示す第4の物体ラベルを前記第2の遮蔽物体に割り当てるように、前記画像セグメンテーションユニットを用いて前記訓練画像を処理することによって生成された第1のラベル付き訓練画像と、
遮蔽物体によって遮蔽されていない前記第2の目標物体を含む基準画像と、に基づいて訓練されている、
請求項1に記載の物体検出デバイス。
【請求項3】
前記第2の予測物体の前記第3の物体ラベルと、前記第2の目標物体の物体クラスを示す第5の物体ラベルとの相関に基づいて、第2のフィードバック重みセットを生成するように構成されたパッチラベル分類器ユニットをさらに備えており、
前記パッチラベル分類器ユニットが、
注釈付き目標物体ラベルのセットに基づいて、前記第5の物体ラベルを前記第2の目標物体に割り当てるように、前記画像セグメンテーションユニットを用いて前記訓練画像を処理することによって生成された第2のラベル付き訓練画像と、
前記基準画像とに基づいて訓練される、
請求項2に記載の物体検出デバイス。
【請求項4】
前記第2の回復された画像および前記訓練画像に基づいて、前記第2の回復された画像と前記訓練画像との間の情報損失度を示す整合性損失値を計算するように構成された整合性管理ユニットをさらに備える、請求項3に記載の物体検出デバイス。
【請求項5】
前記ジェネレータユニットが、前記第1のフィードバック重みセット、前記第2のフィードバック重みセット、および前記整合性損失値に基づいて、回復画像を生成するように訓練されている、請求項4に記載の物体検出デバイス。
【請求項6】
トランスフォームされた目標画像のセットを生成するように構成されたトランスフォーメーションユニットのセットをさらに備えており、前記トランスフォーメーションユニットのセットが、
前記目標画像とは異なる解像度を有する第1のトランスフォームされた目標画像を生成するために、解像度トランスフォーメーション動作を前記目標画像に対して行うように構成された第1のトランスフォーメーションユニットと、
前記目標画像とは異なる気象条件を有する第2のトランスフォームされた目標画像を生成するために、気象トランスフォーメーション動作を行うように構成された第2のトランスフォーメーションユニットと、
前記目標画像とは異なる照明条件を有する第3のトランスフォームされた目標画像を生成するために、照明トランスフォーメーション動作を行うように構成された第3のトランスフォーメーションユニットと、を含む、
請求項1に記載の物体検出デバイス。
【請求項7】
トランスフォーメーション管理ユニットをさらに備え、前記トランスフォーメーション管理ユニットが、
前記目標画像と、前記物体検出ユニットを訓練するために使用される物体検出訓練画像との類似度に少なくとも基づいて、第1の重みセットを前記目標画像に割り当てることと、
前記第1の回復された画像と、前記物体検出訓練画像との類似度に少なくとも基づいて、第2の重みセットを前記第1の回復された画像に割り当てることと、
前記第1のトランスフォームされた目標画像と、前記物体検出訓練画像との類似度に少なくとも基づいて、第3の重みセットを前記第1のトランスフォームされた目標画像に割り当てることと、
前記第2のトランスフォームされた目標画像と、前記物体検出訓練画像との類似度に少なくとも基づいて、第4の重みセットを前記第2のトランスフォームされた目標画像に割り当てることと、
前記第3のトランスフォームされた目標画像と、前記物体検出訓練画像との類似度に少なくとも基づいて、第5の重みセットを前記第3のトランスフォームされた目標画像に割り当てることと、
前記第1の重みセット、前記第2の重みセット、前記第3の重みセット、前記第4の重みセット、および前記第5の重みセットに基づいて、前記目標画像、前記第1の回復された画像、前記第1のトランスフォームされた目標画像、前記第2のトランスフォームされた目標画像、および前記第3のトランスフォームされた目標画像を、結合されたトランスフォームされた目標画像に結合すること、
を行うように構成されている、請求項6に記載の物体検出デバイス。
【請求項8】
物体検出システムであって、
少なくとも第1の目標物体を含む目標画像をキャプチャするための画像キャプチャデバイスと、
前記目標画像内の前記第1の目標物体を検出し、物体検出結果を生成するための物体検出デバイスと、
前記物体検出結果を閲覧するためのクライアントデバイスとを備え、
前記画像キャプチャデバイス、前記物体検出デバイス、および前記クライアントデバイスは、通信ネットワークを介して通信可能に接続され、
前記物体検出デバイスが、
前記目標画像を前記画像キャプチャデバイスから受信するための画像取得ユニットと、
少なくとも前記第1の目標物体が、第1の遮蔽物体によって少なくとも部分的に遮蔽されている、前記目標画像の被遮蔽領域を識別し、前記第1の遮蔽物体の物体クラスを示す第1の物体ラベルを前記第1の遮蔽物体に割り当てるように、前記目標画像を処理するための画像セグメンテーションユニットと、
前記第1の物体ラベルに基づいて前記目標画像の前記被遮蔽領域を第1の回復マスクに変換することによって第1の回復画像を生成するための画像変換ユニットと、
前記第1の回復マスクが、第1の予測物体および前記第1の目標物体の両方に対応する物体クラスを示す第2の物体ラベルと関連付けられた少なくとも第1の予測物体を含む第1の予測画像で置き換えられた第1の回復された画像を生成するように、前記第1の回復画像を処理するためのジェネレータユニットと、
前記第1の目標物体を検出するように、前記第1の回復された画像を処理し、前記第1の目標物体の少なくとも場所および前記第1の目標物体の物体クラスを示す目標物体ラベルを含む前記物体検出結果を生成し、前記物体検出結果を前記クライアントデバイスに送信するための物体検出ユニットと、を備える、
物体検出システム。
【請求項9】
物体検出方法であって、
訓練されていないジェネレータユニットを使用して、第1の目標物体が第1の遮蔽物体によって少なくとも部分的に遮蔽されている訓練画像に対して、前記第1の遮蔽物体に対応する第1の回復マスクが、第1の予測物体の物体クラスを示す第1の物体ラベルと関連付けられた少なくとも前記第1の予測物体を示す第1の予測画像で置き換えられた第1の回復された画像を生成することと、
前記第1の遮蔽物体の物体クラスを示す第2の物体ラベルを前記第1の遮蔽物体に割り当てるように、画像セグメンテーションユニットを用いて前記訓練画像を処理することによって生成された第1のラベル付き訓練画像と、遮蔽物体によって遮蔽されていない前記第1の目標物体を含む基準画像とに基づいてディスクリミネータユニットを訓練することと、
前記第1の回復された画像を評価するために前記ディスクリミネータユニットを使用することによって、前記第1の回復された画像の画像品質レベルに基づいて第1のフィードバック重みセットを生成することと、
前記基準画像と、注釈付き目標物体ラベルのセットに基づいて前記第1の目標物体の物体クラスを示す第3の物体ラベルを前記第1の目標物体に割り当てるように、前記画像セグメンテーションユニットを用いて前記訓練画像を処理することによって生成された第2のラベル付き訓練画像とに基づいて、パッチラベル分類器ユニットを訓練することと、
前記第1の回復された画像を処理するために前記パッチラベル分類器ユニットを使用して、前記第1の予測物体の前記第1の物体ラベルと、前記第1の目標物体の前記第3の物体ラベルとの相関に基づいて、第2のフィードバック重みセットを生成することと、
整合性管理ユニットを使用して、前記第1の回復された画像および前記訓練画像に基づいて、前記第1の回復された画像と前記訓練画像との間の情報損失度を示す整合性損失値を計算することと、
前記第1のフィードバック重みセット、前記第2のフィードバック重みセット、および前記整合性損失値に基づいて、回復画像を生成するように、前記訓練されていないジェネレータユニットを訓練することによって訓練されたジェネレータユニットを生成することと、
画像取得ユニットを使用して、第2の目標物体を含む目標画像を受信することと、
前記画像セグメンテーションユニットを用いて前記目標画像を処理することによって、少なくとも前記第2の目標物体が、第2の遮蔽物体によって少なくとも部分的に遮蔽されている、前記目標画像の被遮蔽領域を識別し、前記第2の遮蔽物体の物体クラスを示す第4の物体ラベルを前記第2の遮蔽物体に割り当てることと、
画像変換ユニットを使用して、前記第4の物体ラベルに基づいて前記目標画像の前記被遮蔽領域を第2の回復マスクに変換することによって第2の回復画像を生成することと、
前記第2の回復画像を処理するための前記訓練されたジェネレータユニットを使用して、前記第2の回復マスクが、第2の予測物体および前記第2の目標物体の両方に対応する物体クラスを示す第5の物体ラベルと関連付けられた少なくとも前記第2の予測物体を含む第2の予測画像で置き換えられた第2の回復された画像を生成することと、
前記第2の回復された画像を処理するための物体検出ユニットを使用して、前記第2の目標物体の少なくとも場所および前記第2の目標物体の物体クラスを示す目標物体ラベルを含む物体検出結果を生成することと、を含む、物体検出方法。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0054
【補正方法】変更
【補正の内容】
【0054】
最初に、ステップS405で、画像セグメンテーションユニット234は、訓練画像401において遮蔽物体(例えば、目標物体を部分的に遮蔽する物体)を識別するように、訓練画像401を処理するために使用される。画像セグメンテーションユニット234は、訓練画像401内の遮蔽物体の物体クラスおよび場所情報(例えば、遮蔽物体に対応する遮蔽領域を示す座標)を示す物体ラベル407のセットを出力し得る。ここで、訓練画像401は、目標物体が遮蔽物体によって遮蔽されているシーンの画像を含み得る。加えて、ステップS405で、画像セグメンテーションユニット234が遮蔽物体を正確に識別するように既に訓練されていると仮定される。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0055
【補正方法】変更
【補正の内容】
【0055】
加えて、画像セグメンテーションユニット234は、遮蔽領域に対応する各ピクセルが「フェイク」としてラベル付けされ、遮蔽領域に対応しない各ピクセルが「リアル」としてラベル付けされるように、訓練画像の各ピクセルを「リアル」または「フェイク」としてラベル付けする機能を実行することによってピクセル分類データ414のセットを生成し得る。このピクセル分類データ414のセットは、ジェネレータユニット238によって生成された回復された画像413を評価するために、後述するディスクリミネータユニットによって使用され得る。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0056
【補正方法】変更
【補正の内容】
【0056】
さらに、画像セグメンテーションユニット234は、被遮蔽物体ラベル418のセットを使用して、遮蔽物体に対応する物体ラベルを被遮蔽物体に対応する物体ラベルで置き換え、被遮蔽物体がそれらの正しい物体クラスでラベル付けされた被遮蔽物体ラベル付き画像を生成し得る。より具体的には、画像セグメンテーションユニット234は、被遮蔽領域の各ピクセルの物体ラベルを被遮蔽物体の物体ラベルで置き換えることによって、被遮蔽物体ラベル付き画像を生成し得る。実施形態では、被遮蔽物体ラベル418のセットは、訓練画像401内の被遮蔽物体の正しい物体クラスを示す、ユーザもしくは管理者によって作成された(例えば、さらにデータベースに記憶されている)注釈付き目標物体ラベルのセットに基づいて生成され得る。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0077
【補正方法】変更
【補正の内容】
【0077】
次に、トランスフォーメーション管理ユニット645は、第1の重みセット、第2の重みセット、第3の重みセット、第4の重みセット、および第5の重みセットに基づいて、目標画像212、回復された画像335、第1のトランスフォームされた目標画像612、第2のトランスフォームされた目標画像622、および第3のトランスフォームされた目標画像632を結合して、結合されたトランスフォームされた目標画像655を得ることを行い得る(S650)。このように、第1、第2、第3、第4、および第5の重みセットにしたがって目標画像212、回復された画像335、第1のトランスフォームされた目標画像612、第2のトランスフォームされた目標画像622、および第3のトランスフォームされた目標画像632の各々の特性を反映する、結合されたトランスフォームされた目標画像655が生成され得る。換言すれば、物体検出ユニット240を訓練するために使用される訓練画像とより大きい類似度を有するようにトランスフォームされた、結合されたトランスフォームされた目標画像655が生成され得る。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0082
【補正方法】変更
【補正の内容】
【0082】
一例として、図7に示されている目標画像212では、第1の目標物体である自動車が鉄道踏切デバイス705によって遮蔽されており、第2の目標物体である人712が、鉄道踏切デバイス715によって遮蔽されている。したがって、画像セグメンテーションユニット234を使用して目標画像212を処理することによって、鉄道踏切デバイス705、715の両方によって遮蔽されている領域が識別可能であり、「鉄道踏切デバイス」の物体ラベルが、それに対して割り当てられ得る。
【国際調査報告】