特開2019-149142(P2019-149142A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 財團法人工業技術研究院の特許一覧

特開2019-149142対象物標識のためのシステムおよび方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2019-149142(P2019-149142A)
(43)【公開日】2019年9月5日
(54)【発明の名称】対象物標識のためのシステムおよび方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20190809BHJP
   G06F 16/00 20190101ALI20190809BHJP
   G06F 16/70 20190101ALI20190809BHJP
【FI】
   G06T7/00 C
   G06F17/30 220B
   G06F17/30 170D
   G06T7/00 350B
【審査請求】有
【請求項の数】14
【出願形態】OL
【全頁数】15
(21)【出願番号】特願2018-153246(P2018-153246)
(22)【出願日】2018年8月16日
(31)【優先権主張番号】107106279
(32)【優先日】2018年2月26日
(33)【優先権主張国】TW
(71)【出願人】
【識別番号】390023582
【氏名又は名称】財團法人工業技術研究院
【氏名又は名称原語表記】INDUSTRIAL TECHNOLOGY RESEARCH INSTITUTE
(74)【代理人】
【識別番号】110001896
【氏名又は名称】特許業務法人朝日奈特許事務所
(72)【発明者】
【氏名】粘 為博
(72)【発明者】
【氏名】楊 宗賢
(72)【発明者】
【氏名】莊 淳富
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096AA09
5L096BA04
5L096CA04
5L096DA02
5L096FA06
5L096FA66
5L096FA67
5L096FA70
5L096HA05
5L096HA09
5L096JA16
5L096KA04
5L096KA15
(57)【要約】      (修正有)
【課題】対象物標識のためのシステム及び方法を提供する。
【解決手段】対象物標識システム1aは、第1の対象物標識モジュール、第2の対象物標識モジュール、標識統合モジュール、およびフレーム間追跡モジュールを含む。第1の対象物標識モジュールは、2Dビデオのフレームの1つである第1の2D画像に従って第1の対象物標識結果を生成するように構成される。第2の対象物標識モジュールは、3D情報に従って第2の2D画像を生成し、3D情報および第2の2D画像に従って第2の対象物標識結果を生成するように構成される。標識統合モジュールは、第1の対象物標識結果および第2の対象物標識結果に従って第3の対象物標識結果を生成するように構成される。フレーム間追跡モジュールは、第3の対象物標識結果に従ってフレーム間対象物標識プロセスを実行して、第4の対象物標識結果を生成するように構成される。
【選択図】図1A
【特許請求の範囲】
【請求項1】
2Dビデオの画像フレームの1つである第1の2D画像に従って第1の対象物標識結果を生成するように構成される第1の対象物標識モジュールと、
3D情報に従って第2の2D画像を生成するように構成され、前記3D情報および前記第2の2D画像に従って第2の対象物標識結果を生成するように構成される第2の対象物標識モジュールと、
前記第1の対象物標識結果および前記第2の対象物標識結果に従って第3の対象物標識結果を生成するように構成される標識統合モジュールと、
前記第3の対象物標識結果に従ってフレーム間対象物標識プロセスを実行し、第4の対象物標識結果を取得するように構成されるフレーム間追跡モジュールと
を備える対象物標識システム。
【請求項2】
前記第3の対象物標識結果および前記第4の対象物標識結果に従ってトレーニングデータを生成するように構成され、前記トレーニングデータを前記第1の対象物標識モジュールに転送するように構成されるトレーニングデータ生成モジュールをさらに備える請求項1記載の対象物標識システム。
【請求項3】
前記フレーム間対象物標識プロセスが、
前記第3の対象物標識結果において少なくとも1つの第1の対象物フレームを見つけることと、
アルゴリズムに従って前記2Dビデオの以前の画像フレームまたは後続の画像フレームの前記少なくとも1つの第1の対象物フレームのそれぞれに対応する位置において前記第1の対象物フレームの特定の比率のサイズを有する第2の対象物フレームを標識することと
を含む、請求項1記載の対象物標識システム。
【請求項4】
前記第1の対象物標識モジュールがさらに、前記第1の対象物標識結果および第1のグラウンドトゥルースに従って第1の信頼度を算出し、前記第2の対象物標識モジュールがさらに、前記第2の対象物標識結果および第2のグラウンドトゥルースに従って第2の信頼度を算出し、前記標識統合モジュールが、前記第1の信頼度および前記第2の信頼度に従って重み付け比を決定し、前記重み付け比にさらに従って前記第3の対象物標識結果を生成する、請求項1記載の対象物標識システム。
【請求項5】
前記第3の対象物標識結果が、前記第1の対象物標識結果および前記第2の対象物標識結果の和集合である、請求項1記載の対象物標識システム。
【請求項6】
前記トレーニングデータ生成モジュールが、前記第4の対象物標識結果および第3の信頼度に従って手動支援標識プロセスを可能にするか否かを決定する、請求項2記載の対象物標識システム。
【請求項7】
前記トレーニングデータ生成モジュールが、前記第4の対象物標識結果を記述するためのテキストファイルを生成し、前記第4の対象物標識結果と前記テキストファイルとを前記トレーニングデータとして接続する、または、
前記トレーニングデータ生成モジュールが、1つまたは複数の対象物フレームにより標識された1つまたは複数の対象物を前記トレーニングデータとして切り取り、分類する、請求項2記載の対象物標識システム。
【請求項8】
第1の対象物標識モジュールにより、2Dビデオの画像フレームの1つである第1の2D画像に従って第1の対象物標識結果を生成することと、
第2の対象物標識モジュールにより、3D情報に従って第2の2D画像を生成し、前記3D情報および前記第2の2D画像に従って第2の対象物標識結果を生成することと、
標識統合モジュールにより、前記第1の対象物標識結果および前記第2の対象物標識結果に従って第3の対象物標識結果を生成することと、
フレーム間追跡モジュールにより、前記第3の対象物標識結果に従ってフレーム間対象物標識プロセスを実行し、第4の対象物標識結果を取得することと
を含む対象物標識方法。
【請求項9】
トレーニングデータ生成モジュールにより、前記第3の対象物標識結果および前記第4の対象物標識結果に従ってトレーニングデータを生成することと、
前記トレーニングデータ生成モジュールにより、前記トレーニングデータを前記第1の対象物標識モジュールに転送することと
をさらに含む請求項8記載の対象物標識方法。
【請求項10】
前記フレーム間対象物標識プロセスが、
前記第3の対象物標識結果において少なくとも1つの第1の対象物フレームを見つけることと、
アルゴリズムに従って前記2Dビデオの以前の画像フレームまたは後続の画像フレームの前記少なくとも1つの第1の対象物フレームのそれぞれに対応する位置において前記第1の対象物フレームの特定の比率のサイズを有する第2の対象物フレームを標識することと
を含む、請求項8記載の対象物標識方法。
【請求項11】
前記第1の対象物標識モジュールがさらに、前記第1の対象物標識結果および第1のグラウンドトゥルースに従って第1の信頼度を算出し、前記第2の対象物標識モジュールがさらに、前記第2の対象物標識結果および第2のグラウンドトゥルースに従って第2の信頼度を算出し、前記標識統合モジュールが、前記第1の信頼度および前記第2の信頼度に従って重み付け比を決定し、前記重み付け比にさらに従って前記第3の対象物標識結果を生成する、請求項8記載の対象物標識方法。
【請求項12】
前記第3の対象物標識結果が、前記第1の対象物標識結果および前記第2の対象物標識結果の和集合である、請求項8記載の対象物標識方法。
【請求項13】
前記トレーニングデータ生成モジュールが、前記第4の対象物標識結果および第3の信頼度に従って手動支援標識プロセスを可能にするか否かを決定する、請求項9記載の対象物標識方法。
【請求項14】
前記トレーニングデータ生成モジュールが、前記第4の対象物標識結果を記述するためのテキストファイルを生成し、前記第4の対象物標識結果と前記テキストファイルとを前記トレーニングデータとして接続する、または、
前記トレーニングデータ生成モジュールが、1つまたは複数の対象物フレームにより標識された1つまたは複数の対象物を前記トレーニングデータとして切り取り、分類する、請求項9記載の対象物標識方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、対象物標識(object labeling)のためのシステムおよび方法に関する。
【背景技術】
【0002】
対象物検出の技術は、自走、衛星画像解析、車両リアルタイムモニタリングなど、多くの分野で広く応用されている。自動対象物検出システムを構築する過程において、標識の精度を向上させるために、自己学習のための対象物標識モデルのために多大な量のトレーニングデータが提供される必要がある。しかしながら、従来技術では、トレーニングデータの大部分は、手動標識、または半手動標識(すなわち、低レベルの人工知能によって標識されて、その後、手動で標識または調節される)に依存する。したがって、多大な量のトレーニングデータを提供するためには、多大な人的資源を消費する必要がある。
【0003】
一方、トレーニングデータを提供するのにあまりにも多くの人的資源を費やさないと決定され、対象物標識に低レベルの人工知能のみが使用される場合、標識結果の正確さの要件を満たすことが困難な場合がある。
【0004】
特許文献1では、ポータブルデバイス上の画像アノテーションが開示されている。特許文献1は、画像およびビデオの自動アノテーションのためのシステムを開示しており、モバイルデバイスは、対象物のアノテーション付きで場面の画像を表示するために、建造物または景観などの関心のある対象物に向けられる。アノテーションには、名称、歴史的情報、ならびに画像、ビデオ、およびオーディオファイルのデータベースへのリンクが含まれ得る。アノテーションの位置的な配置を決定するために様々な技法を使用することができ、複数の技法を使用することにより、より正確かつ信頼できる位置決めを行うことができる。アノテーション情報の詳細レベルは、使用される技術の精度に応じて調節することができる。アノテーションの精度と、通信コスト、遅延および/または電力消費との間のトレードオフを考慮に入れることができる。アノテーションデータベースは、自己組織化の方法で更新することができる。Web上で公開されている公開情報は、アノテーションデータに変換することができる。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】米国特許出願公開第2012/0300089号明細書
【発明の概要】
【発明が解決しようとする課題】
【0006】
本開示は、対象物を標識するためのシステムおよび方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
本開示の実施形態は、第1の対象物標識モジュール(object labeling module)、第2の対象物標識モジュール、標識統合モジュール(label integrating module)、およびフレーム間追跡モジュール(inter-frame tracking module)を含む対象物標識システム(object labeling system)を開示する。第1の対象物標識モジュールは、2Dビデオのフレームの1つである第1の2D画像に従って第1の対象物標識結果(object labeling result)を生成するように構成される。第2の対象物標識モジュールは、3D情報に従って第2の2D画像を生成し、3D情報および第2の2D画像に従って第2の対象物標識結果を生成するように構成される。標識統合モジュールは、第1の対象物標識結果および第2の対象物標識結果に従って第3の対象物標識結果を生成するように構成される。フレーム間追跡モジュールは、第3の対象物標識結果に従ってフレーム間対象物標識プロセス(inter-frame object labeling process)を実行して、第4の対象物標識結果を生成するように構成される。
【0008】
本開示の実施形態は、対象物標識方法(object labeling method)を開示し、対象物標識方法が、第1の対象物標識モジュールにより、2Dビデオの画像フレームの1つである第1の2D画像に従って第1の対象物標識結果を生成することと;第2の対象物標識モジュールにより、3D情報に従って第2の2D画像を生成し、3D情報および第2の2D画像に従って第2の対象物標識結果を生成することと;標識統合モジュールにより、第1の対象物標識結果および第2の対象物標識結果に従って第3の対象物標識結果を生成することと;フレーム間追跡モジュールにより、第3の対象物標識結果に従ってフレーム間対象物標識プロセスを実行して、第4の対象物標識結果を取得することとを含む。
【0009】
本発明の上記および他の態様は、好ましいが非限定的な(1つまたは複数の)実施形態の以下の詳細な説明に関して、よりよく理解される。以下の説明は、添付図面を参照してなされる。
【図面の簡単な説明】
【0010】
図1A】本開示の一実施形態による対象物標識のためのシステムのブロック図である。
図1B】本開示の別の実施形態による対象物標識のためのシステムのブロック図である。
図2A】本開示の一実施形態による対象物標識のための方法のフローチャートである。
図2B】本開示の別の実施形態による対象物標識のための方法のフローチャートである。
図3A】対象物標識のための方法を実行する工程の概略図である。
図3B】対象物標識のための方法を実行する工程の概略図である。
図3C】対象物標識のための方法を実行する工程の概略図である。
図3D】対象物標識のための方法を実行する工程の概略図である。
図4A】フレーム間対象物標識プロセスを実行する工程の概略図である。
図4B】フレーム間対象物標識プロセスを実行する工程の概略図である。
図4C】フレーム間対象物標識プロセスを実行する工程の概略図である。
図4D】フレーム間対象物標識プロセスを実行する工程の概略図である。
【発明を実施するための形態】
【0011】
図1Aを参照すると、図1Aは、本開示の一実施形態による対象物標識(object labeling)のためのシステムのブロック図を示す。また、理解のために、図2Aに示される対象物標識のための方法や、図3A〜3Cに示される概略図も参照されたい。対象物標識システム(object labeling system)1aは、画像またはビデオ内の対象物を検出し、認識し、標識(label)するように構成され得る。対象物は、画像またはビデオにおける歩行者、自動二輪車、車、またはそれらの組み合わせを含み得る。対象物標識システム1aは、第1の対象物標識モジュール(object labeling module)12と、第2の対象物標識モジュール14と、標識統合モジュール(label integrating module)16と、フレーム間追跡モジュール(inter-frame tracking module)19とを含む。一実施形態では、対象物標識システム1aは、トレーニングデータ生成モジュール(training data generating module)18をさらに含んでいてもよい。別の実施形態では、トレーニングデータ生成モジュール18は、対象物標識システム1aに結合された外部装置(図示せず)内に構成される。すなわち、トレーニングデータ生成モジュール18は、対象物標識システム1aに選択的に含まれる。
【0012】
第1の対象物標識モジュール12は、第1の二次元(2D)画像2Dimg1を受け取るように構成される。一実施形態では、第1の2D画像2Dimg1は、2Dカメラによって取得されたリアルタイム画像である。別の実施形態では、第1の2D画像2Dimg1は、コンピュータ可読記憶装置に格納された2D画像である。第1の2D画像2Dimg1は、個々の2D画像、写真、または2Dビデオの画像フレームの1つであってもよい。本明細書で説明する「画像フレーム(image frame)」は、ビデオのフレームを指す。たとえば、フレームレートが25fpsのビデオは、1秒あたり25枚の画像フレームを有する。
【0013】
第1の対象物標識モジュール12は、第1の2D画像2Dimg1に従って、第1の対象物標識結果(object labeling result)LABEL1を生成する(ステップS202)。一実施形態では、第1の対象物標識モジュール12は、自己学習(self-learning)(たとえば、深層学習(deep learning))の機能を有する、1つまたは複数のコンピュータ可読媒体に格納されたアプリケーション、コンピュータ可読命令、プログラムまたはプロセスである。第1の対象物標識モジュール12が1つまたは複数のプロセッサによって実行されるとき、第1の対象物標識結果LABEL1を生成するために、第1の2D画像2Dimg1内の(1つまたは複数の)対象物を認識して、標識することが実行され得る(たとえば、1つまたは複数の対象物が、歩行者、自動二輪車、車などの対象物タイプ(object type)により、フレーム化され、標識され得る)。たとえば、(1つまたは複数の)対象物を標識するとき、第1の対象物標識モジュール12は、最初に、1つまたは複数のフィルタを使用することによって、対象物認識に影響を及ぼすノイズまたは他の情報をフィルタリングしてもよい。次に、第1の対象物標識モジュール12は、(1つまたは複数の)対象物である可能性のある(1つまたは複数の)輪郭(contour)を見つけ出し、その(1つまたは複数の)輪郭に従って、(1つまたは複数の)輪郭が(1つまたは複数の)対象物であるかどうかを判定する。輪郭が対象物として判定される場合、第1の対象物標識モジュール12は、対象物の対象物タイプをさらに判定する。第1の対象物標識モジュール12は、認識された全ての対象物を対象物フレーム(object frame)によってフレーム化し、対象物タイプをそれぞれ標識して、第1の対象物標識結果LABEL1を生成する。別の実施形態では、第1の対象物標識モジュール12は、Faster R−CNN、SSD、およびYOLOv2などの既存の対象物標識モジュールを使用することができる。
【0014】
たとえば、図3Aに示されるように、第1の対象物標識モジュール12によって生成された第1の対象物標識結果LABEL1は、それぞれ車、車および歩行者の対象物タイプを有する対象物フレーム301、302、303によってフレーム化された対象物を含んでいる。
【0015】
第2の対象物標識モジュール14は、第1の対象物標識モジュール12に結合され、三次元(3D)情報3Dinfoを受け取るように構成される。一実施形態では、3D情報3Dinfoは、3Dカメラまたは空間センサ(たとえば、LIDAR)によって取得または感知されたリアルタイム3D画像またはリアルタイム情報である。別の実施形態では、3D情報は、コンピュータ可読記憶装置に格納された画像またはデータである。さらに別の実施形態では、3D情報3Dinfoおよび第1の2D画像2Dimg1は、多数の異種センサを含む1つまたは複数の装置によって、実質的に同じ角度および同じ時間に同じ領域を撮影または感知することによって取得される。異種とは、たとえば、2Dセンサおよび3Dセンサを意味し、2つのセンサが、2つのセンサによって感知され得る次元が異なり、基本的に異なることを意味する。3D情報3Dinfoは、撮影もしくは感知領域におけるそれぞれのポイントの位置(たとえば、3D座標)、色情報(たとえば、RGB値)、(1つもしくは複数の)対象物の奥行き、(1つもしくは複数の)対象物に光が照射されることによって生成される反射光の強度、またはこれらの組み合わせを表す点群(point cloud)を含み得る。
【0016】
第2の対象物標識モジュール14は、3D情報3Dinfoに従って、第2の2D画像を生成し、3D情報3Dinfoおよび第2の2D画像に従って、第2の対象物標識結果LABEL2を生成することができる(ステップS204)。一実施形態では、第2の対象物標識モジュール14は、1つまたは複数のコンピュータ可読媒体に格納されたアプリケーション、コンピュータ可読命令、プログラムまたはプロセスである。第2の対象物標識モジュール14が1つまたは複数のプロセッサによって実行されるとき、以下のステップ、すなわち、当業者に周知の変換ロジックまたは変換アルゴリズムを使用して3D情報を第2の2D画像に変換することと、3D情報3Dinfoに基づいて1つまたは複数の対象物の位置、サイズ、輪郭などを導き出すことと、(1つまたは複数の)対象物フレームを用いることにより第2の2D画像内の導き出された(1つまたは複数の)対象物をフレーム化して、第2の対象物標識結果LABEL2を生成することとが実行され得る。
【0017】
たとえば、図3Bに示されるように、第2の対象物標識モジュール14によって生成された第2の対象物標識結果LABEL2は、それぞれ車、歩行者および歩行者の対象物タイプを有する対象物フレーム301、303、304によってフレーム化された対象物を含んでいる。なお、第2の2D画像は、3D情報3Dinfoに基づいて生成されるため、第2の2D画像は、第1の2D画像2Dimg1と異なり得る。図3A〜3Cは、説明の目的のみのためであり、本開示を限定するものではない。
【0018】
標識統合モジュール16は、第1の対象物標識モジュール12および第2の対象物標識モジュール14に結合される。標識統合モジュール16は、第1の対象物標識結果LABEL1および第2の対象物標識結果LABEL2に従って、第3の対象物標識結果LABEL3を生成することができる(ステップS206)。一実施形態では、標識統合モジュール16は、1つまたは複数のコンピュータ可読媒体に格納されたアプリケーション、コンピュータ可読命令、プログラムまたはプロセスである。標識統合モジュール16が1つまたは複数のプロセッサによって実行されるとき、以下のステップ、すなわち、第1の対象物標識結果LABEL1および第2の対象物標識結果LABEL2に従って第3の対象物標識結果LABEL3を生成することが実行され得る。一実施形態では、標識統合モジュール16は、第1の対象物標識結果LABEL1と第2の対象物標識結果LABEL2との和集合(union)を第3の対象物標識結果LABEL3として導出する。すなわち、第3の対象物標識結果LABEL3で標識された(1つまたは複数の)対象物は、第1の対象物標識結果LABEL1で標識された(1つまたは複数の)対象物と、第2の対象物標識結果LABEL2で標識された(1つまたは複数の)対象物とを含んでいてもよい。たとえば、図3Cに示されるように、第3の対象物標識結果LABEL3は、それぞれ車、車、歩行者および歩行者の対象物タイプを有する対象物フレーム301、302、303、304によってフレーム化された対象物を含む。
【0019】
フレーム間追跡モジュール19は、標識統合モジュール16に結合される。一実施形態では、フレーム間追跡モジュール19は、1つまたは複数のコンピュータ可読媒体に格納されたアプリケーション、コンピュータ可読命令、プログラムまたはプロセスである。フレーム間追跡モジュール19が1つまたは複数のプロセッサによって実行されるとき、以下のプロセス、すなわち、第3の対象物標識結果LABEL3に従ってフレーム間対象物標識プロセス(inter-frame object labeling process)を実行して、第4の対象物標識結果LABEL4を生成することを実行し得る(ステップS207)。
【0020】
フレーム間対象物標識処理を明確に示すために、図2Bに示されるフレーム間対象物標識処理のフローチャート、および図4A〜4Dに示されるフレーム間対象物標識処理の概略図を参照されたい。
【0021】
フレーム間対象物標識処理は、ステップS2071およびS2073を含む。ステップS2071において、フレーム間追跡モジュール19は、第3の対象物標識結果LABEL3内で少なくとも1つの第1の対象物フレーム(たとえば、図4Aの601、605)を見つける。ステップS2073において、フレーム間追跡モジュール19は、アルゴリズムに従って、以前の画像フレームまたは後続の画像フレーム内(または、第1の2D画像2Dimg1の以前の画像フレームもしくは後続のフレームに従って生成された第3の対象物標識結果)の少なくとも1つの第1の対象物フレームのそれぞれに対応する位置で、第1の対象物フレームに対して特定のサイズを有する第2の対象物フレームを標識して、第4の対象物標識結果LABEL4を生成する(たとえば、図4B〜4Dの602、603、604)。
【0022】
一実施形態では、図4A〜4Dは、図4Dが最初にタイムライン上に現れ、図4C図4Bおよび図4Aがその後に続く、2Dビデオの4つの画像フレームであってもよい。場合によっては、図4Dの対象物である自動二輪車Oだけでなく、図4Cおよび図4Bの画像フレームの対象物も、第1の対象物標識モジュール12および第2の対象物標識モジュール14によって認識され、標識されるのに十分な大きさではないので、図4Aの画像フレームになってやっと、対象物である自動二輪車Oが正常に標識される。つまり、フレーム間対象物追跡処理を実行する前には、対象物フレーム601以外に対象物フレーム602、603、604は存在しない。フレーム間対象物追跡処理を実行するとき、フレーム間追跡モジュール19は、たとえばオプティカルフローアルゴリズム(optical flow algorithm)に従って、対象物である自動二輪車Oの速度および移動方向を導出でき、対象物である自動二輪車Oが近づいているという結果を得ることができる。次に、フレーム間追跡モジュール19は、ビデオ内の以前の画像フレーム(すなわち図4B)内の対象物フレーム601に対応する位置を見つけ、対象物である自動二輪車Oの導出された速度に従って対象物フレーム602のサイズを導出し、対象物である自動二輪車Oに標識するために、以前の画像フレーム上の対象物フレーム602にマークを付ける。フレーム間追跡モジュール19は、上述した動作を繰り返して、第4の対象物標識結果LABEL4として対象物フレーム603、604を標識する。一実施形態では、第4の対象物標識結果LABEL4は、トレーニングデータ生成モジュール18に入力されてもよい。
【0023】
別の実施形態では、図4A〜4Dは、図4Aが最初にタイムライン上に現れ、図4B図4Cおよび図4Dがその後に続く、2Dビデオの4つの画像フレームであってもよい。この実施形態と前の実施形態との間の相違点は、フレーム間追跡モジュール19が、対象物である自動二輪車Oを標識するために、ビデオ内の後続の画像フレーム内で、対象物フレーム601に対応する位置を見つけることができることである。
【0024】
一実施形態では、対象物標識システム1aは、第3の対象物標識結果LABEL3、第4の対象物標識結果LABEL4またはそれらの組み合わせを格納するように構成されたレジスタ(register)(図示せず)をさらに含んでいてもよい。フレーム間追跡モジュール19によってフレーム間対象物標識処理が実行されるとき、以前の1つ(または複数)の画像フレームに従って生成された(1つまたは複数の)第3の対象物標識結果LABEL3がレジスタから抽出されてもよい。
【0025】
一実施形態では、フレーム間追跡モジュール19は、対象物フレーム602を、対象物フレーム601の特定の比率、たとえば0.5のサイズで標識することができるが、本開示はこれに限定されない。
【0026】
また、図4A〜4Dに示されるように、対象物フレーム605によって標識された対象物は静的な対象物であるので、対象物フレーム605は、常に図4A〜4Dに存在し、サイズは変化しない。
【0027】
トレーニングデータ生成モジュール18は、フレーム間追跡モジュール19に結合される。トレーニングデータ生成モジュール18は、第4の対象物標識結果LABEL4に従って(または第3の対象物標識結果LABEL3および第4の対象物標識結果LABEL4に従って)トレーニングデータ(training data)Tdataを生成することができ、トレーニングデータTdataを第1の対象物標識モジュール12に提供することができる(ステップS208)。なお、ステップS208は、選択的に実行されてもよい。たとえば、トレーニングデータ生成モジュール18が対象物標識システム1aに含まれる場合に、ステップS208が実行されてもよく、トレーニングデータ生成モジュール18が対象物標識システム1aの外部に配置されている(すなわち、トレーニングデータ生成モジュール18が対象物標識システム1aに含まれていない)場合、ステップS208はこのプロセスに含まれなくてもよく、他のプロセスで実行されてもよい。一実施形態では、トレーニングデータ生成モジュール18は、1つまたは複数のコンピュータ可読媒体に格納されたアプリケーション、コンピュータ可読命令、プログラムまたはプロセスである。トレーニングデータ生成モジュール18が1つまたは複数のプロセッサによって実行されるとき、第4の対象物標識結果LABEL4に基づいてトレーニングデータTdataを生成し、トレーニングデータTdataを第1の対象物標識モジュール12に提供することができる。
【0028】
一実施形態では、トレーニングデータ生成モジュール18は、第4の対象物標識結果LABEL4に従って(または第3の対象物標識結果LABEL3および第4の対象物標識結果LABEL4に従って)テキストファイル(たとえば、txtファイル)を生成してもよい。テキストファイルの内容は、第4の対象物標識結果LABEL4で標識された(1つまたは複数の)対象物の対象物タイプ、位置およびサイズを記録する。すなわち、テキストファイルは、第4の対象物標識結果LABEL4で標識された(1つまたは複数の)対象物の記述であり、または、テキストファイルは、第4の対象物標識結果LABEL4で標識された(1つまたは複数の)対象物を記述するために使用される。トレーニングデータ生成モジュール18は、第4の対象物標識結果LABEL4を、トレーニングデータTdataとしてテキストファイルに関連付けることができ、トレーニングデータTdataを第1の対象物標識モジュール12に提供することができる。一実施形態では、トレーニングデータ生成モジュール18によってトレーニングデータTdataが生成された後、トレーニングデータ生成モジュール18は、トレーニングデータTdataをデータベースに格納することができる。第1の対象物標識モジュール12は、標識の精度を向上させるために、データベースに格納されたデータを読み取ることによって自己学習を実行してもよい。
【0029】
一実施形態では、トレーニングデータTdataは、第1のグラウンドトゥルース(ground truth)として第1の対象物標識モジュール12によって使用される。第1の対象物標識モジュール12は、第1の対象物標識結果LABEL1とトレーニングデータTdata(すなわち、第1のグラウンドトゥルース)とを比較し、両者の差異または類似度(similarity)を計算することができる。たとえば、第1の対象物標識モジュール12は、第1の信頼度(confidence)を得るために、第1の対象物標識結果LABEL1とトレーニングデータTdataとの間の共通部分/和集合(IOU)(intersection over union (IOU))を計算する。ここで、IOUは、たとえば、両者で標識された対象物の共通部分の数を、両者で標識された対象物の和集合の数で割ることにより計算されてもよい。たとえば、図3Aおよび3Cを参照すると、第4の対象物標識結果LABEL4と第3の対象物標識結果LABEL3とが同一であり、対応するテキストファイルがトレーニングデータとして使用されるとすると、第1の対象物標識結果LABEL1と第4の対象物標識結果LABEL4との間のIOUは75%である。第1の対象物標識結果LABEL1とトレーニングデータTdataとの差が小さい(またはIOUが大きい)ほど、第1の信頼度が高くなる。すなわち、第1の対象物標識モジュール12が第1のグラウンドトゥルースに近づく。第1の対象物標識モジュール12の精度が高くなると考えられる。逆に、第1の対象物標識結果LABEL1とトレーニングデータTdataとの差が大きい(またはIOUが小さい)ほど、第1の信頼度は低くなる。さらに、第1の対象物標識モジュール12は、トレーニングデータTdataに従って第1の対象物標識モジュール12の1つまたは複数のパラメータを調節してもよい。複数の調節および修正の後、第1の対象物標識モジュール12によって生成された第1の対象物標識結果LABEL1は、トレーニングデータTdataにますます類似し得る、すなわち、精度がより高くなり得る。
【0030】
一実施形態では、第2の対象物標識モジュール14は、第2のグラウンドトゥルースおよび第2の対象物標識結果LABEL2に従って第2の信頼度を計算してもよい。第2のグラウンドトゥルースは、第2の2D画像内の対象物を標識するためのユーザの入力を受け取ることによって生成されてもよいし、(以前の第4の対象物標識結果LABEL4または以前のトレーニングデータTdataに従って)ニューラルネットワークによる計算によって生成されてもよい。第2の対象物標識モジュール14は、第2の信頼度を得るために、第2の対象物標識結果LABEL2と第2のグラウンドトゥルースとの間の差異または類似度(たとえば、IOU)を計算する。第2の信頼度が高いほど、第2の対象物標識結果LABEL2が第2のグラウンドトゥルースに近づき、精度が高くなる。
【0031】
一実施形態では、標識統合モジュール16は、第1の信頼度および第2の信頼度に従って重み付け比(weight ratio)を決定してもよい。標識統合モジュール16は、重み付け比に従って、使用される第1の対象物標識結果LABEL1と第2の対象物標識結果LABEL2との比を決定してもよい。たとえば、より低い明度の環境では、第1の対象物標識モジュール12は、より低い第1の信頼度を有し、第2の対象物標識モジュール14は、より高い第2の信頼度を有していてもよい。この場合、標識統合モジュール16は、重み付け比が第2の対象物標識モジュール14に偏っていると判定することができる。すなわち、標識統合モジュール16は、第1の対象物標識結果LABEL1と第2の対象物標識結果LABEL2とを統合することにより、第2の対象物標識結果LABEL2で標識された対象物をより多く使用し、第1の対象物標識結果LABEL1で標識された対象物をより少なく使用する。
【0032】
一実施形態では、トレーニングデータ生成モジュール18は、第4の対象物標識結果LABEL4および第3のグラウンドトゥルースに従って、第3の信頼度を計算することができ、第3のグラウンドトゥルースは、たとえば以前の標識結果または以前のトレーニングデータに従って、ニューラルネットワークにより計算することができる。トレーニングデータ生成モジュール18は、第3の信頼度に従って手動支援標識プロセス(manual assisted labeling process)を可能にするか否かを決定することができる。たとえば、第3の信頼度が閾値よりも低い場合、トレーニングデータ生成モジュール18は、手動支援標識プロセスを可能にすることを決定してもよい。手動支援標識プロセスが可能である場合、トレーニングデータ生成モジュール18は、たとえばユーザインターフェースを介して、ユーザからの(1つまたは複数の)入力を受け取り、第3の対象物標識結果LABEL3、トレーニングデータTdata、またはそれらの組み合わせを調節または修正し、たとえば、誤って標識された(1つまたは複数の)対象物を取り除き、標識された対象物の対象物タイプを変更し、標識されていない対象物を標識し、または、それらの組み合わせを行うことができる。一実施形態では、第1の対象物標識モジュール12および第2の対象物標識モジュール14が、1つまたは複数の対象物が対象であるかどうかを判定する際に相違がある場合、トレーニングデータ生成モジュール18は、手動支援標識プロセスを可能にすることができる。たとえば、図3Aにおいて、第1の対象物標識モジュール12は、対象物フレーム302が車の対象物タイプで対象物を標識していると判定している。図3Bにおいて、第2の対象物標識モジュール14は、対象物フレーム302に対応する位置が対象ではないと判定している。この場合、トレーニングデータ生成モジュール18は、手動支援標識プロセスを可能にすることができる。たとえば、第1の対象物標識モジュール12により標識された対象物および対象物標識302を表示するウィンドウが、対象物フレーム302が実際に対象物を標識するかどうかをユーザが選択するために、ユーザインターフェース上に突然現れる。
【0033】
一実施形態では、第1の信頼度、第2の信頼度および第3の信頼度が低すぎる場合(たとえば、第1の信頼度、第2の信頼度および第3の信頼度が閾値より低い場合)、トレーニングデータ生成モジュール18は、手動支援標識プロセスを可能にする。手動支援標識プロセスでは、対象物候補(object candidate)のそれぞれが実際に対象物であるかどうかをユーザが選択するために、1つまたは複数の対象物候補をユーザインターフェース上に表示することができる。そして、トレーニングデータ生成モジュール18は、ユーザの(1つまたは複数の)選択に従ってトレーニングデータTdataを生成することができる。
【0034】
図1Bを参照すると、図1Bは、本開示の別の実施形態による対象物標識のためのシステムのブロック図を示す。理解するために、図3Dも参照されたい。対象物標識システム1bは、対象物標識システム1aと類似している。対象物標識システム1aと対象物標識システム1bとの違いは、トレーニングデータ生成モジュール18である。
【0035】
この実施形態では、トレーニングデータ生成モジュール18は、対象物トリミングプロセス(object cropping process)182、手動支援標識プロセス(manual assisted labeling process)184、およびトレーニングデータ変換プロセス(training data transforming process)186を含み、手動支援標識プロセス184の可能化および詳細は上記の説明と同様である。
【0036】
トレーニングデータ生成モジュール18は、対象物トリミングプロセス182が実行されるとき、(図3Dに示されるように、第4の対象物標識結果LABEL4が第3の対象物標識結果LABEL3と同一であると仮定すると)第4の対象物標識結果LABEL4で標識された(1つまたは複数の)対象物をトリミングし、(1つまたは複数の)対象物タイプに従って、トリミングされた(1つまたは複数の)対象物を分類することができる。トレーニングデータ変換プロセスが実行されるとき、トレーニングデータ生成モジュール18は、対象物フレーム301〜304によって標識された、トリミングされた対象物を解析のためにニューラルネットワークに送信して、同じ対象物タイプを有する対象物の共通の特性(characteristic)、輪郭(contour)、パラメータ(parameter)、またはその組み合わせを取得し、対象物標識システム1aとは異なるトレーニングデータTdataを生成する。第1の信頼度を計算するとき、第1の対象物標識モジュール12は、トレーニングデータTdataにおける各対象物タイプの対象物の特性、輪郭、パラメータ、またはそれらの組み合わせと、対象物を認識するために第1の対象物標識モジュール12によって使用されたものとの間の差異を計算することができる。自己学習を実行する場合、第1の対象物標識モジュール12は、トレーニングデータTdataに従って各対象物タイプの対象物を認識するために使用される特性、輪郭、パラメータ、またはそれらの組み合わせを調節または修正することができる。
【0037】
なお、一実施形態では、第1の対象物標識モジュール12、第2の対象物標識モジュール14、標識統合モジュール16およびフレーム間追跡モジュール19(ならびに選択的に含まれるトレーニングデータ生成モジュール18)は、1つの装置(たとえば、監視センターのメインコンピュータまたは自走車のモバイルコンピュータ)に一体化されてもよく、外部に接続された2Dカメラおよび3Dカメラによって提供される第1の2D画像2Dimg1および3D情報3Dinfoを使用することにより本方法を実行してもよい。別の実施形態では、第1の対象物標識モジュール12は、2Dカメラに一体化されてもよく、第2の対象物標識モジュール14は、3Dカメラに一体化されてもよく、標識統合モジュール16およびフレーム間追跡モジュール19(ならびに選択的に含まれるトレーニングデータ生成モジュール18)は、サーバ内に構成されてもよい。この場合、第1の対象物標識モジュール12(すなわち、2Dカメラ)は、それ自身により取得した第1の2D画像2Dimgに従って、第1の対象物標識結果LABEL1を生成し、第1の対象物標識結果LABEL1をサーバに転送する。第2の対象物標識モジュール14(すなわち、3Dカメラ)は、それ自身により取得した3D情報3Dinfoに従って、第2の対象物標識結果LABEL2を生成し、第2の対象物標識結果LABEL2をサーバに転送する。サーバにおいて、標識統合モジュール16は、第1の対象物標識結果LABEL1と第2の対象物標識結果LABEL2とを第3の対象物標識結果LABEL3に統合し、フレーム間追跡モジュール19は、第3の対象物標識結果LABEL3に従って第4の対象物標識結果LABEL4を生成し、トレーニングデータ生成モジュール18は、第4の対象物標識結果LABEL4に従って(または第3の対象物標識結果LABEL3および第4の対象物標識結果LABEL4の両方に従って)トレーニングデータTdataを生成する。換言すれば、上述したモジュールは、ソフトウェアだけでなく、ハードウェアまたはファームウェアによって実装されてもよい。
【0038】
上記の実施形態によれば、対象物標識システムおよび対象物標識方法は、第1の対象物標識モジュール12および第2の対象物標識モジュール14の入力として、異なる次元を有する第1の2D画像2Dimg1および3D情報3Dinfoをそれぞれ使用して、第1の対象物標識結果LABEL1および第2の対象物標識結果を取得することができ、第1の対象物標識結果LABEL1および第2の対象物標識結果LABEL2とを統合して、第3の対象物標識結果LABEL3を取得する。フレーム間追跡モジュール19は、第3の対象物標識結果LABEL3に従って第4の対象物標識結果LABEL4を生成し、トレーニングデータ生成モジュール18は、第4の対象物標識結果LABEL4に基づいてトレーニングデータTdataを生成して、学習のために第1の対象物標識モジュール12に提供する。第1の2D画像2Dimg1および3D情報3Dinfoは異なる情報を提供することができるので、第1の対象物標識モジュール12および第2の対象物標識モジュール14はそれぞれ、認識に優れた、または認識に優れていない環境または対象物を有する。両者によって提供される対象物標識結果を組み合わせることによって、互いに補完する効果を達成することができる。標識の自動化の程度を高め、手動標識の割合を減らすことができるだけでなく、対象物標識の精度を高めることができる。さらに、ビデオ内の動的対象物は、フレーム間追跡モジュール19およびフレーム間対象物標識プロセスによって追跡され、標識される。フレーム間追跡モジュール19およびフレーム間対象物標識プロセスを使用することにより、第1の対象物標識モジュール12および第2の対象物標識モジュール14によって標識されていない対象物を追跡および標識することができるので、対象物標識の精度がさらに改善され、手動支援標識の必要性がさらに低減され得る。
【0039】
本発明は、例として、および好ましい(1つまたは複数の)実施形態の観点から記載されているが、本発明はそれに限定されないことが理解さるべきである。それどころか、様々な修正ならびに同様の配置および手順を網羅することを意図しており、したがって、添付の特許請求の範囲は、そのような修正ならびに同様の配置および手順をすべて網羅するように最も広い解釈を与えられるべきである。
【符号の説明】
【0040】
1a、1b 対象物標識システム
12 第1の対象物標識モジュール
14 第2の対象物標識モジュール
16 標識統合モジュール
18 トレーニングデータ生成モジュール
182 対象物トリミングプロセス
184 手動支援標識プロセス
186 トレーニングデータ変換プロセス
19 フレーム間追跡モジュール
301、302、303、304 対象物フレーム
601、602、603、604、605 対象物フレーム
2Dimg1 第1の2D画像
3Dinfo 3D情報
LABEL1 第1の対象物標識結果
LABEL2 第2の対象物標識結果
LABEL3 第3の対象物標識結果
LABEL4 第4の対象物標識結果
O 自動二輪車
Tdata トレーニングデータ
図1A
図1B
図2A
図2B
図3A
図3B
図3C
図3D
図4A
図4B
図4C
図4D