特開2024-178145 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ シンクウェア　コーポレーションの特許一覧

特開2024-178145ビデオ内の外部オブジェクトを追跡するための電子装置及びその方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1a
1b
2
3
4
5a
5b
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024178145

(43)【公開日】2024-12-24

(54)【発明の名称】ビデオ内の外部オブジェクトを追跡するための電子装置及びその方法

(51)【国際特許分類】

G06T 7/70 20170101AFI20241217BHJP

【ＦＩ】

G06T7/70 A

【審査請求】未請求

【請求項の数】20

【出願形態】ＯＬ

(21)【出願番号】P 2024095245

(22)【出願日】2024-06-12

(31)【優先権主張番号】10-2023-0074826

(32)【優先日】2023-06-12

(33)【優先権主張国・地域又は機関】KR

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．アンドロイド

２．ＡＮＤＲＯＩＤ

３．ＢＬＵＥＴＯＯＴＨ

４．ＷＣＤＭＡ

５．ＪＡＶＡＳＣＲＩＰＴ

(71)【出願人】

【識別番号】516082420

【氏名又は名称】シンクウェアコーポレーション

【氏名又は名称原語表記】ＴＨＩＮＫＷＡＲＥＣＯＲＰＯＲＡＴＩＯＮ

(74)【代理人】

【識別番号】110002789

【氏名又は名称】弁理士法人ＩＰＸ

(72)【発明者】

【氏名】シン・トンウォン

(72)【発明者】

【氏名】ハン・テギュ

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA06

5L096BA04

5L096CA04

5L096DA01

5L096DA02

5L096FA16

5L096FA69

5L096HA03

5L096HA11

5L096KA04

(57)【要約】（修正有）

【課題】複数の画像を含むビデオから、オブジェクトを認識するためのモデルのトレーニングに用いられるラベリング情報を取得する電子装置及びその方法を提供する。
【解決手段】方法は、ビデオの複数の画像及び複数の画像のうち第１のタイミングの第１の画像内で、外部オブジェクトに関連する第１の位置を識別し、第１の画像内の第１の位置に基づいて、複数の画像のうち第１のタイミングの後の第２のタイミングの第２の画像内で、外部オブジェクトに関連する第２の位置を識別し、第１の位置及び第２の位置に基づいて、第１のタイミングと第２のタイミングとの間の時間区間に含まれる１つ又はそれ以上の第３の画像に対応し、外部オブジェクトに関連する１つ又はそれ以上の第３の位置を取得し、ビデオの時間区間内で識別された外部オブジェクトの動きを示すラベリング情報として、第１の位置、１つ又はそれ以上の第３の位置及び第２の位置を格納する。
【選択図】図３

【特許請求の範囲】

【請求項1】

電子装置（ｅｌｅｃｔｒｏｎｉｃｄｅｖｉｃｅ）であって、
メモリと、
プロセッサとを含み、前記プロセッサは、
前記メモリから、ビデオ用の複数の画像及び前記複数の画像のうち第１のタイミングの第１の画像内で、外部オブジェクトに関連する第１の位置を識別し、
前記第１の画像内の前記第１の位置に基づいて、前記複数の画像のうち前記第１のタイミングの後の第２のタイミングの第２の画像内で、前記外部オブジェクトに関連する第２の位置を識別し、
前記第１の位置及び前記第２の位置に基づいて、前記第１のタイミングと前記第２のタイミングとの間の時間区間に含まれる１つ又はそれ以上の第３の画像に対応し、前記外部オブジェクトに関連する１つ又はそれ以上の第３の位置を取得し、及び
前記ビデオの前記時間区間内で識別された前記外部オブジェクトの動きを示すラベリング情報として、前記第１の位置、前記１つ又はそれ以上の第３の位置、及び前記第２の位置を格納するように構成されている、電子装置。

【請求項2】

前記プロセッサは、
前記第１のタイミングにおける前記第１の画像内の前記第１の位置を示す第１の座標と、前記第２のタイミングにおける前記第２の画像内の前記第２の位置を示す第２の座標とを、前記第１のタイミングと前記第２のタイミングとの間の長さを用いて補間することによって、前記１つ又はそれ以上の第３の位置を取得するように構成されている、請求項１に記載の電子装置。

【請求項3】

前記プロセッサは、
前記第１の座標及び前記第２の座標を、前記１つ又はそれ以上の第３の画像の前記時間区間内のタイミングに基づいて補間することによって、前記１つ又はそれ以上の第３の位置を取得するように構成されている、請求項２に記載の電子装置。

【請求項4】

前記プロセッサは、
前記外部オブジェクトに対応する前記第１の位置を含む前記第１の画像の一部に含まれる１つ又はそれ以上の特徴点と、前記外部オブジェクトに対応する第２の画像に含まれる１つ又はそれ以上の特徴点とを比較することによって、前記第２の画像内で前記第２の位置を識別するように構成されている、請求項２に記載の電子装置。

【請求項5】

前記プロセッサは、
前記第１のタイミングの後の閾値区間の後の前記第２のタイミングの前記第２の画像に対する前記第２の位置を識別することに基づいて、前記１つ又はそれ以上の第３の画像に含まれる少なくとも１つの特徴点を用いて、前記第３の位置を変更するように構成されている、請求項１に記載の電子装置。

【請求項6】

前記プロセッサは、
前記外部オブジェクトを認識するためのモデルに、前記第１の画像及び前記第２の画像を入力して、前記時間区間内にキャプチャされた前記外部オブジェクトの前記第１の位置及び前記第２の位置を識別するように構成されている、請求項１に記載の電子装置。

【請求項7】

ディスプレイをさらに含み、
前記プロセッサは、
前記ディスプレイに、前記ビデオを再生するための画面を表示し、
前記複数の画像のいずれかの画像が、前記ビデオの再生を示す入力に基づいて、前記画面内に表示される状態内で、前記ラベリング情報に基づいて、前記画面内に表示された前記画像上に重畳され（ｓｕｐｅｒｉｍｐｏｓｅｄｏｎ）、前記外部オブジェクトの位置を示す視覚オブジェクトを表示するように構成されている、請求項１に記載の電子装置。

【請求項8】

前記プロセッサは、
前記画面に前記１つ又はそれ以上の第３の画像のいずれかの画像を表示する前記状態内で、前記視覚オブジェクトの動きを示す入力を識別し、
前記入力に基づいて、前記１つ又はそれ以上の第３の画像のうち、前記画面に表示された画像とは異なる他の画像に対応する前記外部オブジェクトの位置を、前記入力によって移動された前記視覚オブジェクトの位置に基づいて調整するするように構成されている、請求項７に記載の電子装置。

【請求項9】

電子装置の方法であって、
前記電子装置のメモリから、ビデオ用の複数の画像及び前記複数の画像のうち第１のタイミングの第１の画像内で、外部オブジェクトに関連する第１の位置を識別する動作、
前記第１の画像内の前記第１の位置に基づいて、前記複数の画像のうち前記第１のタイミングの後の第２のタイミングの第２の画像内で、前記外部オブジェクトに関連する第２の位置を識別する動作、
前記第１の位置及び前記第２の位置に基づいて、前記第１のタイミングと前記第２のタイミングとの間の時間区間に含まれる１つ又はそれ以上の第３の画像に対応し、前記外部オブジェクトに関連する１つ又はそれ以上の第３の位置を取得する動作、及び
前記ビデオの前記時間区間内で識別された前記外部オブジェクトの動きを示すラベリング情報として、前記第１の位置、前記１つ又はそれ以上の第３の位置、及び前記第２の位置を格納する動作を含む、方法。

【請求項10】

前記取得する動作は、
前記第１のタイミングにおける前記第１の画像内の前記第１の位置を示す第１の座標と、前記第２のタイミングにおける前記第２の画像内の前記第２の位置を示す第２の座標とを、前記第１のタイミングと前記第２のタイミングとの間の長さを用いて補間することによって、前記１つ又はそれ以上の第３の位置を取得する動作を含む、請求項９に記載の方法。

【請求項11】

前記取得する動作は、
前記第１の座標及び前記第２の座標を、前記１つ又はそれ以上の第３の画像の前記時間区間内のタイミングに基づいて補間することによって、前記１つ又はそれ以上の第３の位置を取得する動作を含む、請求項１０に記載の方法。

【請求項12】

前記第２の位置を識別する動作は、
前記外部オブジェクトに対応する前記第１の位置を含む前記第１の画像の一部に含まれる１つ又はそれ以上の特徴点を比較することによって、前記第２の画像内で前記第２の位置を識別する動作を含む、請求項１０に記載の方法。

【請求項13】

前記取得する動作は、
前記第１のタイミングの後の閾値区間の後の前記第２のタイミングの前記第２の画像に対する前記第２の位置を識別することに基づいて、前記１つ又はそれ以上の第３の画像に含まれる少なくとも１つの特徴点を用いることによって、前記第３の位置を変更する動作を含む、請求項９に記載の方法。

【請求項14】

前記第２の位置を識別する動作は、
前記外部オブジェクトを認識するためのモデルに、前記第１の画像及び前記第２の画像を入力して、前記時間区間内にキャプチャされた前記外部オブジェクトの前記第１の位置及び前記第２の位置を識別する動作を含む、請求項９に記載の方法。

【請求項15】

前記電子装置のディスプレイに、前記ビデオを再生するための画面を表示する動作、
前記複数の画像のいずれかの画像が、前記ビデオの再生を示す入力に基づいて、前記画面内に表示された状態内で、前記ラベリング情報に基づいて、前記画面内に表示された前記画像上に重畳され、前記外部オブジェクトの位置を示す視覚オブジェクトを表示する動作をさらに含む、請求項９に記載の方法。

【請求項16】

前記画面に、前記１つ又はそれ以上の第３の画像のいずれかの画像を表示する前記状態内で、前記視覚オブジェクトの移動を示す入力を識別する動作、
前記入力に基づいて、前記１つ又はそれ以上の第３の画像のうち、前記画面に表示された画像とは異なる他の画像に対応する前記外部オブジェクトの位置を、前記入力によって移動された前記視覚オブジェクトの位置に基づいて調整する動作をさらに含む、請求項１５に記載の方法。

【請求項17】

電子装置（ｅｌｅｃｔｒｏｎｉｃｄｅｖｉｃｅ）であって、
ディスプレイと、
メモリと、
プロセッサとを含み、前記プロセッサは、
前記メモリに格納されたビデオの第１の画像を、前記ディスプレイに表示した状態で、前記第１の画像内で外部オブジェクトに関連する第１の位置の選択を示す第１の入力を識別し、
前記第１の入力に基づいて、前記外部オブジェクトを認識するための第１のタイプの計算（ｆｉｒｓｔｔｙｐｅｏｆｃｏｍｐｕｔａｔｉｏｎ）を実行して、前記ビデオ用の複数の画像のうち、前記第１の画像のタイミングから始まる時間区間の後の第２の画像内で、前記外部オブジェクトに関連する第２の位置を識別し、
前記第１の位置及び前記第２の位置を補間するための第２のタイプの計算を実行して、前記区間に含まれる１つ又はそれ以上の第３の画像内で、前記外部オブジェクトに関連する第３の位置を取得し、及び
前記時間区間に含まれる前記ビデオの少なくとも一部の再生を示す第２の入力に応答して、前記第１の画像、前記１つ又はそれ以上の第３の画像、及び前記第２の画像のいずれかを、前記ディスプレイに表示し、
前記ディスプレイに表示された画像上に重畳され、前記第１の位置、前記第３の位置、又は前記第２の位置のいずれかに対応する視覚オブジェクトを表示するように構成されている、電子装置。

【請求項18】

前記プロセッサは、
１つ又はそれ以上の特徴点に基づく前記外部オブジェクトを認識するための前記第１のタイプの計算を、前記第１の画像の前記タイミングから前記時間区間ごとに繰り返し実行するように構成されている、請求項１７に記載の電子装置。

【請求項19】

前記プロセッサは、
前記第１の位置、前記第２の位置、及び前記時間区間内で前記１つ又はそれ以上の第３の画像のタイミングに基づいて、前記第３の位置を取得するための前記第２のタイプの前記計算を実行するように構成されている、請求項１７に記載の電子装置。

【請求項20】

前記プロセッサは、
前記メモリに、前記ビデオに対応するラベリング情報として、前記第１の位置、前記第３の位置、及び前記第２の位置を格納するように構成されている、請求項１７に記載の電子装置。

【発明の詳細な説明】

【技術分野】

【0001】

本開示（ｐｒｅｓｅｎｔｄｉｓｃｌｏｓｕｒｅ）は、ビデオ内の外部オブジェクトを追跡するための電子装置及びその方法に関する。

【背景技術】

【0002】

画像オブジェクト認識技術が発達するにつれて、様々な形態のサービスが出現している。これらのサービスは、自律走行（ＡｕｔｏｍａｔｉｃＤｒｉｖｉｎｇ）、拡張現実（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）、仮想現実（ＶｉｒｔｕａｌＲｅａｌｉｔｙ）、メタバス（Ｍｅｔａｖｅｒｓｅ）などに使用でき、スマートフォンなどの異なるユーザが有する電子装置を介して提供することができる。前記サービスは、人工知能（ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）など、ヒトの行動及び／又は思考を模倣するハードウェア及び／又はソフトウェアメカニズムに関連し得る。人工知能に関連する技術は、生物の神経網をシミュレートしたニューラルネットワークを利用する技術を含むことができる。

【発明の概要】

【発明が解決しようとする課題】

【0003】

ビデオの再生のために、ビデオに含まれる画像（例えば、フレーム）で、画像内で共通にキャプチャされた外部オブジェクトの位置を、より迅速に識別するための方法が研究されている。

【課題を解決するための手段】

【0004】

一実施形態（ａｎｅｍｂｏｄｉｍｅｎｔ）によれば、電子装置（ｅｌｅｃｔｒｏｎｉｃｄｅｖｉｃｅ）は、メモリ及びプロセッサを含むことができる。このプロセッサは、前記メモリから、ビデオ用の複数の画像及び前記複数の画像のうち第１のタイミングの第１の画像内で、外部オブジェクトに関連する第１の位置を識別するように構成することができる。前記プロセッサは、前記第１の画像内の前記第１の位置に基づいて、前記複数の画像のうち前記第１のタイミングの後の第２のタイミングの第２の画像内で、前記外部オブジェクトに関連する第２の位置を識別するように構成することができる。前記プロセッサは、前記第１の位置及び前記第２の位置に基づいて、前記第１のタイミングと前記第２のタイミングとの間の時間区間に含まれる１つ又はそれ以上の第３の画像に対応し、前記外部オブジェクトに関連する１つ又はそれ以上の第３の位置を取得するように構成することができる。前記プロセッサは、前記ビデオの前記時間区間内で識別された前記外部オブジェクトの動きを示すラベリング情報として、前記第１の位置、前記１つ又はそれ以上の第３の位置、及び前記第２の位置を格納するように構成することができる。

【0005】

一実施形態によれば、電子装置の方法は、前記電子装置のメモリから、ビデオ用の複数の画像及び前記複数の画像のうち第１のタイミングの第１の画像内で、外部オブジェクトに関連する第１の位置を識別する動作を含むことができる。この方法は、前記第１の画像内の前記第１の位置に、前記複数の画像のうち前記第１のタイミングの後の第２のタイミングの第２の画像内で、前記外部オブジェクトに関連する第２の位置を識別する動作を含むことができる。この方法は、前記第１の位置及び前記第２の位置に基づいて、前記第１のタイミングと前記第２のタイミングとの間の時間区間に含まれる１つ又はそれ以上の第３の画像に対応し、前記外部オブジェクトに関連する１つ又はそれ以上の第３の位置を取得する動作を含むことができる。この方法は、前記ビデオの前記時間区間内で識別された前記外部オブジェクトの動きを示すラベリング情報として、前記第１の位置、前記１つ又はそれ以上の第３の位置、及び前記第２の位置を格納する動作を含むことができる。

【0006】

一実施形態によれば、電子装置は、ディスプレイ、メモリ、及びプロセッサを含むことができる。前記プロセッサは、前記メモリに格納されたビデオの第１の画像を前記ディスプレイに表示した状態で、前記第１の画像内で外部オブジェクトに関連する第１の位置の選択を示す第１の入力を識別するように構成されてもよい。前記プロセッサは、前記第１の入力に基づいて、前記外部オブジェクトを認識するための第１のタイプの計算を実行して、前記ビデオ用の複数の画像のうち、前記第１の画像のタイミングから始まる時間区間の後の第２の画像内で、前記外部オブジェクトに関連する第２の位置を識別するように構成することができる。前記プロセッサは、前記第１の位置及び前記第２の位置を補間するための第２のタイプの計算を実行して、前記区間に含まれる１つ又はそれ以上の第３の画像内で、前記外部オブジェクトに関連する第３の位置を取得するように構成することができる。前記プロセッサは、前記時間区間に含まれる前記ビデオの少なくとも一部の再生を示す第２の入力に応答して、前記第１の画像、前記１つ又はそれ以上の第３の画像、及び前記第２の画像のいずれかを、前記ディスプレイに表示し、前記ディスプレイに表示された画像の上に重畳されて、前記第１の位置、前記第３の位置、又は前記第２の位置のいずれかに対応する視覚オブジェクトを表示するように構成することができる。

【0007】

一実施形態によれば、電子装置の方法は、前記電子装置のメモリに格納されたビデオの第１の画像を、前記電子装置のディスプレイに表示した状態で、前記第１の画像内で外部オブジェクトに関連する第１の位置の選択を示す第１の入力を識別する動作を含むことができる。前記方法は、前記第１の入力に基づいて、前記外部オブジェクトを認識するための第１のタイプの計算を実行して、前記ビデオ用の複数の画像のうち、前記第１の画像のタイミングから始まる時間区間の後の第２の画像内で、外部オブジェクトに関連する第２の位置を識別する動作を含むことができる。この方法は、前記第１の位置及び前記第２の位置を補間するための第２のタイプの計算を実行して、前記時間区間に含まれる１つ又はそれ以上の第３の画像内で、前記外部オブジェクトに関連する第３の位置を取得する動作を含むことができる。この方法は、前記時間区間に含まれる前記ビデオの少なくとも一部の再生を示す第２の入力に応答して、前記第１の画像、前記１つ又はそれ以上の第３の画像、及び前記第２の画像のいずれかを、前記ディスプレイに表示し、前記ディスプレイに表示された画像の上に重畳されて、前記第１の位置、前記第３の位置、又は前記第２の位置のいずれかに対応する視覚オブジェクトを表示する動作を含むことができる。

【発明の効果】

【0008】

一実施形態によれば、電子装置は、順次に記録された（ｓｅｑｕｅｎｔｉａｌｌｙｒｅｃｏｒｄｅｄ）複数の画像を含むビデオから、オブジェクトを認識するためのモデルのトレーニングに用いられるラベリング情報を取得することができる。

【0009】

一実施形態によれば、電子装置は、ビデオに含まれる複数の画像のそれぞれに含まれる視覚オブジェクトの位置を含むラベリング情報をより迅速に取得することができる。

【図面の簡単な説明】

【0010】

【図1a】一実施形態による、電子装置によってラベリング情報を取得する動作の一例を示す。

【図1b】一実施形態による、電子装置によってラベリング情報を取得する動作の一例を示す。

【図2】一実施形態による、電子装置のブロック図の一例を示す。

【図3】一実施形態による、電子装置によって実行される動作のフローチャートの一例を示す。

【図4】一実施形態による、電子装置によってビデオに含まれる画像からオブジェクトを認識する動作の一例を示す。

【図5a】ビデオに含まれる２つの画像のラベリング情報に基づいて、他の画像のラベリング情報を取得する電子装置の動作の一例を示す。

【図5b】ビデオに含まれる２つの画像のラベリング情報に基づいて、他の画像のラベリング情報を取得する電子装置の動作の一例を示す。

【図6】一実施形態による、電子装置によって実行される動作のフローチャートの一例を示す。

【図7】一実施形態による、電子装置によって実行される補間の一例を示す。

【図8】一実施形態による、車両の自律走行システムを示すブロック図の一例を示す。

【図9】一実施形態による、自律走行移動体を示すブロック図の一例を示す。

【図10】一実施形態による、自律走行移動体を示すブロック図の一例を示す。

【図11】一実施形態による、ユーザ装置に関連するゲートウェイの例を示す。

【図12】学習データのセットに基づいて、ニューラルネットワークをトレーニングする電子装置の動作を説明するための図である。

【図13】一実施形態による、電子装置のブロック図である。

【図14】一実施形態による、電子装置のブロック図である。

【図15】本発明の一実施形態による画像内でユーザの入力によって選択された領域に関連するラベリングデータを取得する過程を説明するための図である。

【図16】本発明の一実施形態による画像内でオブジェクトを識別するための学習用のラベリングデータを生成する過程を説明するための図である。

【図17】本発明の一実施形態によって生成されたラベリングデータの階層構造を説明するための図である。

【図18】本発明の一実施形態によって生成されたラベリングデータの外部オブジェクトに関する情報の階層構造を説明するための図である。

【0011】

【図19】本発明の一実施形態によってＳｈａｐｅＴｙｐｅが「Ｐｏｌｙｇｏｎ」の場合、Ｐｏｉｎｔｓパラメータに割り当てられる座標の例を示す図である。

【0012】

【図20】本発明の一実施形態によるニューラルネットワークの効率的なトレーニングのために生成されたラベリングデータを、トレーニングセット、検証セット、及び／又はテストセットに区分する例を説明するための図である。

【発明を実施するための形態】

【0013】

以下、添付の図面を参照して本文書の様々な実施形態について説明する。

【0014】

本文書の様々な実施形態及びそれに使用される用語は、本文書に記載された技術を、特定の実施形態に限定することを意図するものではなく、その実施形態の様々な変更、等価物、又は代替物を含むことを理解されたい。図面の説明に関して、類似する構成要素には、類似の参照番号を使用する場合がある。文脈上、明らかに別段の定めがない限り、単数の表現には、複数の表現が含まれることがある。本文書において、「Ａ又はＢ」、「Ａ及び／又はＢのうち少なくとも１つ」、「Ａ、Ｂ又はＣ」、又は「Ａ、Ｂ及びＣのうち少なくとも１つ」などの表現は、一緒に列挙された項目の可能なすべての組み合わせを含むことができる。「第１」、「第２」、又は「一番目」又は「二番目」などの表現は、対応する構成要素を順序又は重要度に関係なく修飾することができ、ある構成要素を他の構成要素と区別するために使用するだけ、対応する構成要素を限定しない。ある（例えば、第１の）構成要素が、他の（例えば、第２の）構成要素に、「（機能的に又は通信的に）連結されている」か、又は「接続されている」と言及されている場合、その構成要素は、他の構成要素に直接接続されてもよく、他の構成要素（例えば、第３の構成要素）を介して接続されてもよい。

【0015】

本文書で使用される「モジュール」という用語は、ハードウェア、ソフトウェア、又はファームウェアで構成されたユニットを含み、例えば、ロジック、論理ブロック、部品、又は回路などの用語と交換可能に使用することができる。モジュールは、一体に構成された部品又は１つ又はそれ以上の機能を実行する、部品の最小単位又はその一部であり得る。例えば、モジュールは、ＡＳＩＣ（ａｐｐｌｉｃａｔｉｏｎ－ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）で構成され得る。

【0016】

図１ａ～図１ｂは、一実施形態による、電子装置１０１によってラベリング情報を取得する動作の一例を示す。図１ａ～図１ｂを参照すると、電子装置１０１のフォームファクタ（ｆｏｒｍｆａｃｔｏｒｓ）が例示的に示されている。ユーザが所有する観点から、電子装置１０１は、端末、ユーザ装置、及び／又はユーザ端末と呼ばれることがある。電子装置１０１は、デスクトップ１０１－１及び／又はラップトップ１０１－２などのパーソナルコンピュータ（ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ、ＰＣ）を含むことができる。電子装置１０１は、スマートフォン（ｓｍａｒｔｐｈｏｎｅ）１０１－３、スマートパッド（ｓｍａｒｔｐａｄ）、及び／又はタブレットＰＣを含むことができる。端末は、スマートウォッチ（ｓｍａｒｔｗａｔｃｈ）及び／又はＨＭＤ（ｈｅａｄ－ｍｏｕｎｔｅｄｄｅｖｉｃｅ）などのスマートアクセサリを含むことができる。

【0017】

図１ａを参照すると、一実施形態による電子装置１０１は、画面１１０を表示することができる。電子装置１０１は、画面１１０を用いて、情報（例えば、ビデオ１２０）を視覚化することができる。画面１１０を表示するために、及び／又は情報を出力するために、電子装置１０１に含まれる１つ又はそれ以上のハードウェアが、図２を参照して例示的に説明される。以下では、画面１１０は、ディスプレイの少なくとも一部内に表示されるＵＩ（ｕｓｅｒｉｎｔｅｒｆａｃｅ）を意味することがある。画面は、例えば、ウィンドウズ（登録商標）オペレーティングシステムのウィンドウ及び／又はアンドロイド（ａｎｄｒｏｉｄ）オペレーティングシステムのアクティビティ（ａｃｔｉｖｉｔｙ）を含むことができる。実施形態は、これに限定されず、画面１１０は、電子装置１０１から外部空間に出力される光によって、外部空間に形成されてもよい。例えば、画面１１０は、外部空間内で、光が投影された（ｐｒｏｊｅｃｔｅｄ）平面上に形成されてもよい。例えば、画面１１０は、外部空間内にホログラムの形で立体的に表示されてもよい。

【0018】

一実施形態によれば、電子装置１０１は、ビデオ１２０を再生するための画面１１０を表示することができる。ビデオ１２０は、フレームレート（ｆｒａｍｅｒａｔｅ）（又はｆｐｓ（ｆｒａｍｅｓｐｅｒｓｅｃｏｎｄ））に従って順次に（ｓｅｑｕｅｎｔｉａｌｌｙ）表示され得る画像のセットを含むことができる。セットに含まれる画像は、フレーム、フレームデータ、及び／又はフレーム画像と呼ばれることがある。ビデオ１２０は、画像が順次に表示されている間に出力されるオーディオ信号を含むことができる。視覚情報（例えば、画像のセット）及び聴覚（ａｕｄｉｔｏｒｙ）情報（例えば、オーディオ信号）の両方を含む観点から、ビデオ１２０は、マルチメディアコンテンツ（又はメディアコンテンツ）と呼ばれることがある。

【0019】

図１ａを参照すると、電子装置１０１がビデオ１２０から識別した複数の画像１２０－１、１２０－ｋ、１２０－Ｎが例示的に示されている。ビデオ１２０を再生している状態では、電子装置１０１は、図１ａに示す複数の画像のうち、図１ａの左側に示す画像（例えば、第１の画像１２０－１）を、別の画像（例えば、第ｋの画像１２０－ｋ）の前に表示すると仮定する。例えば、前記状態内で、第ｋの画像１２０－ｋは、電子装置１０１によって第１の画像１２０－１の後に表示されてもよい。例えば、前記状態内で、第Ｎの画像１２０－Ｎは、電子装置１０１によって第ｋの画像１２０－ｋの後に表示されてもよい。例えば、電子装置１０１は、第１の画像１２０－１、第ｋの画像１２０－ｋ、第Ｎの画像１２０－Ｎの順に順次表示されてもよい。

【0020】

一実施形態によれば、電子装置１０１は、ビデオ１２０から１つ又はそれ以上の外部オブジェクトを認識することができる。一実施形態による外部オブジェクトは、電子装置１０１が取り付けられたシステム（例えば、車両）の周囲に存在するオブジェクトとして、歩行者（ｐｅｄｅｓｔｒｉａｎ）、車両（ｖｅｈｉｃｌｅ）、自転車（ｂｉｋｅ）、ＰＭ（ＰｅｒｓｏｎａｌＭｏｂｉｌｉｔｙ）道路標識（ｒｏａｄｓｉｇｎ）、車線区分線（ｌａｎｅｍａｒｋｉｎｇ）などを含むことができる。１つ又はそれ以上の外部オブジェクトを認識することは、ビデオ１２０から、ビデオ１２０によってキャプチャされた１つ又はそれ以上の外部オブジェクトに関する情報を生成及び／又は取得する動作を含むことができる。これらの情報は、ビデオ１２０のための複数の画像のうち少なくとも１つにおいて、１つ又はそれ以上の外部オブジェクトに関連する部分を示すデータを含み得る。前記情報は、１つ又はそれ以上の外部オブジェクトの分類（ｃｌａｓｓｉｆｉｃａｔｉｏｎ又はｃａｔｅｇｏｒｙ）を示すデータを含み得る。一実施形態では、電子装置１０１が前記１つ又はそれ以上の外部オブジェクトを認識することは、ビデオ１２０に含まれる複数の画像のうち少なくとも１つにおいて、前記１つ又はそれ以上の外部オブジェクトに関連する位置を示す情報を生成及び／又は取得する動作を含むことができる。一実施形態によれば、電子装置１０１は、ビデオ１２０から１つ又はそれ以上の外部オブジェクトを認識することに基づいて、この１つ又はそれ以上の外部オブジェクトを認識した結果を含む情報を取得することができる。電子装置１０１によって取得された情報は、ビデオ１２０に対応するメタデータ及び／又はラベリング（ｌａｂｅｌｉｎｇ）情報と呼ばれることがある。

【0021】

一実施形態によれば、電子装置１０１によって取得され、ビデオ１２０に関連する１つ又はそれ以上の外部オブジェクトに関する情報は、外部オブジェクトを認識するためのモデルをトレーニングするという観点から、ラベリング情報と呼ばれることがある。例えば、ラベリング情報は、該ラベリング情報とマッチングするビデオ１２０と共に、モデルの教師あり学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）に使用することができる。モデルは、多数の人工ニューロン（Ａｒｔｉｆｉｃｉａｌｎｅｕｒｏｎ）（又はノード、パーセプトロン（Ｐｅｒｃｅｐｔｒｏｎ））を用いて、生物学的システムの計算能力を模倣するソフトウェア又はハードウェアで実装された認識モデルである。前記モデルに基づいて、電子装置１０１は、人間の認知作用や学習過程と同様の動作を行うことができる。モデルの教師あり学習は、モデルに含まれる複数のノード及び／又は複数のノード間の接続に割り当てられた（ａｓｓｉｇｎｅｄ）重みを、入力データ（例えば、ビデオ１２０）、この入力データの前記モデルの出力データ及び基底トゥルース（ｇｒｏｕｎｄｔｒｕｔｈ）データ（例えば、ビデオ１２０に対応するラベリング情報）を用いて変更する動作を含むことができる。ビデオ１２０及びビデオ１２０に対応するラベリング情報によってトレーニングされたモデルは、ビデオ１２０とは異なる他のビデオを受信した状態で、他のビデオから外部オブジェクトを認識した結果を出力することができる。１つ又はそれ以上の外部オブジェクトに関する情報は、教師あり学習以外の目的に使用することができる。例えば、ビデオ１２０に含まれる外部オブジェクトを追跡及び／又は監視する観点から、ビデオ１２０に関連する１つ又はそれ以上の外部オブジェクトに関する情報は、オブジェクト追跡情報（ｏｂｊｅｃｔｔｒａｃｋｉｎｇｉｎｆｏｒｍａｔｉｏｎ）と呼ばれることがある。

【0022】

図１ａを参照すると、ビデオ１２０に対応するラベリング情報を生成するために、電子装置１０１によって表示された画面１１０が例示的に示されている。電子装置１０１は、ビデオ１２０の第１のタイミングの第１の画像１２０－１を表示することができる。電子装置１０１は、画面１１０内で、第１の画像１２０－１と共に、ビデオ１２０を制御するための１つ又はそれ以上の視覚オブジェクト（ｖｉｓｕａｌｏｂｊｅｃｔｓ）を含むパネル１１２を表示することができる。視覚オブジェクトは、テキスト、画像、アイコン、ビデオ、ボタン、チェックボックス、ラジオボタン、テキストボックス、スライダ、及び／又はテーブルなど、情報の送信及び／又は相互作用（ｉｎｔｅｒａｃｔｉｏｎ）のために、画面１１０内に配置可能な（ｄｅｐｌｏｙａｂｌｅ）オブジェクトを意味することができる。視覚オブジェクトは、視覚要素（ｖｉｓｕａｌｅｌｅｍｅｎｔ）、ＵＩ要素（ＵＩｅｌｅｍｅｎｔ）ビューオブジェクト（ｖｉｅｗｏｂｊｅｃｔ）及び／又はビュー要素（ｖｉｅｗｅｌｅｍｅｎｔ）と呼ばれることがある。ビデオ１２０内の第１の画像１２０－１を表示した状態内で、電子装置１０１は、第１の画像１２０－１内で外部オブジェクトに関連する領域を選択するためのユーザ入力を識別することができる。ユーザ入力を識別する電子装置１０１の例示的な動作を、図１ｂを参照して説明する。

【0023】

図１ａの例示的なケース内では、第１の画像１２０－１内で車両を表す（ｒｅｐｒｅｓｅｎｔｉｎｇ）視覚オブジェクト１３０－１を含む第１の画像１２０－１を表示する電子装置１０１は、視覚オブジェクト１３０－１を選択及び／又は分割（ｓｅｇｍｅｎｔｉｎｇ）するためのユーザ入力を識別することができる。例えば、電子装置１０１は、視覚オブジェクト１３０－１を含む第１の画像１２０－１の領域１４０－１の頂点（ａｐｅｘｅｓ）Ａ１、Ｂ１、Ｃ１、Ｄ１の選択を示す入力を識別することができる。

【0024】

一実施形態では、頂点Ａ１、Ｂ１、Ｃ１、Ｄ１の選択を示す入力に応答して、電子装置１０１は、前記入力に対応する領域１４０－１を表すバウンディングボックスの形態内（ｉｎａｓｈａｐｅｏｆｂｏｕｎｄｉｎｇｂｏｘ）の視覚オブジェクトを表示することができる。例えば、バウンディングボックスの頂点は、領域１４０－１の頂点Ａ１、Ｂ１、Ｃ１、Ｄ１とマッチングすることができる。電子装置１０１は、頂点Ａ１、Ｂ１、Ｃ１、Ｄ１の間を、指定された色を有する線で連結することで、バウンディングボックスを表示することができる。バウンディングボックスを表示するための線の指定された色は、領域１４０－１に含まれる視覚オブジェクト１３０－１を認識した結果に関連され得る。図１ａの例示的なケース内では、視覚オブジェクト１３０－１に対応する外部オブジェクトが、車両であることを識別することに基づいて、電子装置１０１は、バウンディングボックスの指定された色を、車両に対応する指定された色として設定（ｓｅｔ）できる。実施形態は、これに限定されず、電子装置１０１は、バウンディングボックスに隣接するか、又はバウンディングボックス上に重畳されたテキスト（例えば、「車両」）を表示することによって、バウンディングボックス内に含まれる第１の画像１２０－１の領域１４０－１で外部オブジェクトを認識した結果を表示することができる。

【0025】

一実施形態によれば、電子装置１０１は、第１の画像１２０－１内で外部オブジェクトに関連する位置（例えば、領域１４０－１）を識別することに基づいて、第１の画像１２０－１とは異なる他の画像（例えば、第ｋの画像１２０－ｋ及び／又は第Ｎの画像１２０－Ｎから、外部オブジェクトに関連する１つ又はそれ以上の位置を識別することができる。一実施形態では、電子装置１０１は、外部オブジェクトに関連する第１の画像１２０－１内の位置（例えば、領域１４０－１の位置）を選択するためのユーザ入力に基づいて、第１の画像１２０－１とは異なる他の画像から外部オブジェクトに関連する位置を識別することができる。電子装置１０１は、第１の画像１２０－１に対応するユーザ入力と区別される他のユーザ入力を必要とせず、第１の画像１２０－１とは異なる他の画像から、外部オブジェクトに関連する位置を識別することができる。第１の画像１２０－１へのユーザ入力に基づいて、ビデオ１２０内の他の画像における外部オブジェクトの位置を識別する電子装置１０１の動作は、図３及び／又は図６を参照して説明する。

【0026】

一実施形態によれば、電子装置１０１は、第１の画像１２０－１に関連する入力によって識別された領域１４０－１に基づいて、ビデオ１２０内における第１の画像１２０－１の第１のタイミングの後の第２のタイミングの第２の画像で、領域１４０－１に関連する外部オブジェクト（図１ａの例示的なケース内で、車両）に関連する第２の位置を識別することができる。第２の位置を識別するために、電子装置１０１は、第１の画像１２０－１及び第２の画像のそれぞれの特徴情報（例えば、１つ又はそれ以上の特徴点）を比較することができる。第２の位置を識別するために、電子装置１０１は、オブジェクトを認識するためにトレーニングされたモデルを使用することができる。特徴情報に基づいて、第２の位置を識別する電子装置１０１の動作について、図４を参照して説明する。

【0027】

実施形態を限定しない例では、ビデオ１２０に含まれる複数の画像（画像フレーム）のうち第１の画像１２０－１とは異なる他の画像の全ての特徴情報を抽出するか、他の画像の全てをモデルに入力することは、演算量及び／又は消費電力の増加を引き起こす可能性がある。これは、本発明の一実施形態による電子装置１０１に多くの負荷を与えることになり、したがって、非常に可変的で予測不可能な状況が頻繁に発生する道路環境、特に、市内環境（ｕｒｂａｎｅｎｖｉｒｏｎｍｅｎｔ）で走行すべき車両の運転者の走行支援（ｄｒｉｖｉｎｇａｓｓｉｓｔａｎｃｅ）のためのシステム又は車両の自律走行システムを効率的に動作させることに悪影響を及ぼす可能性がある。一実施形態によれば、電子装置１０１は、ユーザによって選択された第１の画像１２０－１の領域１４０－１に基づいて、他の画像から外部オブジェクトを認識しながら、外部オブジェクトを認識するための計算方法（ｃｏｍｐｕｔｉｎｇｍｅｔｈｏｄ）を変更することができる。電子装置１０１は、ビデオ１２０内で他の画像のそれぞれのタイミングに基づいて、異なる計算方法のうち、他の画像のそれぞれに適用される計算方法を変更することができる。前記計算方法は、画像の特徴点に基づいて、外部オブジェクトを認識するための第１のタイプの計算方法と、異なる画像から識別された特定の外部オブジェクトの位置の補間（ｉｎｔｅｒｐｏｌａｔｉｏｎ）に関連する第２のタイプの計算方法とを含むことができる。

【0028】

図１ａを参照すると、外部オブジェクトに関連する第１の画像１２０－１内の位置（例えば、領域１４０－１）を示す入力に基づいて、電子装置１０１は、第１の画像１２０－１の第１のタイミングの後、Ｎ番目（Ｎ_ｔｈ）に取得された画像（又はＮ番目（Ｎ_ｔｈ）のタイミングに位置する画像）である第Ｎの画像１２０－Ｎ内で、外部オブジェクトに関連する位置（例えば、領域１４０－Ｎ）を識別することができる。例えば、電子装置１０１は、第１の画像１２０－１の領域１４０－１に含まれる１つ又はそれ以上の特徴点と、第Ｎの画像１２０－Ｎの特徴点とを比較して、第Ｎの画像１２０－Ｎ内で、外部オブジェクトに関連する領域１４０－Ｎを識別することができる。画面１１０に第Ｎの画像１２０－Ｎを表示する場合、電子装置１０１は、第Ｎの画像１２０－Ｎと重畳して、領域１４０－Ｎに対応するバウンディングボックスの形態を有する視覚オブジェクトを表示することができる。例えば、電子装置１０１は、領域１４０－Ｎの頂点ＡＮ、ＢＮ、ＣＮ、ＤＮを連結する線の形態を有するバウンディングボックスを表示することができる。

【0029】

図１ａを参照すると、第１の画像１２０－１の領域１４０－１内の特徴点に基づいて、第Ｎの画像１２０－Ｎの領域１４０－Ｎを識別した状態で、電子装置１０１は、第１の画像１２０－１及び第Ｎの画像１２０－Ｎによって区分けられたビデオ１２０の時間区間に含まれる１つ又はそれ以上の画像において、領域１４０－１、１４０－Ｎに対応する外部オブジェクトに関連する位置を識別することができる。図１ａを参照すると、第１の画像１２０－１と第Ｎの画像１２０－Ｎとによって区分けられたビデオ１２０の時間区間は、第１の画像１２０－１の第１のタイミングを始点（ｂｅｇｉｎｎｉｎｇｔｉｍｉｎｇ）としても、第Ｎの画像１２０－Ｎの第２のタイミングを終点（ｅｎｄｔｉｍｉｎｇ）としてもよい。一実施形態では、電子装置１０１は、前記時間区間に含まれる第ｋの画像１２０－ｋ（ここで、「ｋ」は、１より大きく、Ｎより小さい自然数）に関連する領域１４０－ｋを、第１の画像１２０－１の領域１４０－１及び第Ｎの画像１２０－Ｎの領域１４０－Ｎに対する補間に基づいて識別することができる。

【0030】

一実施形態では、領域１４０－１、１４０－Ｎの補間に基づいて、領域１４０－ｋを識別する状態内で、電子装置１０１は、領域１４０－ｋの頂点Ａｋ、Ｂｋ、Ｃｋ、Ｄｋの第ｋの画像１２０－ｋ内の座標を、領域１２０－１の頂点Ａ１、Ｂ１、Ｃ１、Ｄ１の座標及び領域１４０－ｋの頂点ＡＮ、ＢＮ、ＣＮ、ＤＮの座標に基づいて決定することができる。例えば、領域１４０－ｋの頂点Ａｋの座標は、領域１４０－１の頂点Ａ１と、領域１４０－Ｎの頂点ＡＮとを結ぶ線内内分点（ｉｎｔｅｒｎａｌｌｙｄｉｖｉｄｉｎｇｐｏｉｎｔ）の座標であってもよい。この内分点によって線が分割される割合は、第ｋの画像１２０－ｋが時間区間内に有するタイミングに関連し得る。領域１４０－１、１４０－Ｎの頂点の補間に基づいて、第ｋの画像１２０－ｋの領域１４０－ｋ及び／又は領域１４０－ｋの頂点を識別する電子装置１０１の動作の一例を、図５ａ～図５ｂを参照して説明する。

【0031】

図１ａを参照すると、第１の画像１２０－１、第ｋの画像１２０－ｋ、及び第Ｎの画像１２０－Ｎで外部オブジェクトに関連する領域１４０－１、１４０－ｋ、１４０－Ｎを認識する電子装置１０１の動作について説明したが、実施形態は、これに限定されるものではない。例えば、電子装置１０１は、第ｋの画像を含む、第１の画像と第Ｎの画像との間の画像の全てについて、領域１４０－１、１４０－Ｎの補間に基づいて、外部オブジェクトに関連する領域を識別することができる。図示されていないが、ビデオ１２０内で第Ｎの画像の後の他の画像に対して、電子装置１０１は、特徴点及び／又は補間に基づいて、外部オブジェクトに関連する領域を識別することができる。一実施形態によれば、電子装置１０１は、ビデオ１２０に含まれる複数の画像から外部オブジェクトに関連する領域を識別した結果を、ビデオ１２０に対応するラベリング情報として格納することができる。

【0032】

一実施形態によれば、電子装置１０１は、画面１１０内で、外部オブジェクトに関連する領域を、ビデオ１２０のための複数の画像のそれぞれから識別した結果を視覚化することができる。電子装置１０１は、図７を参照して後述するように、ユーザから前記領域を識別した結果を調整（又はキャリブレーション）するための入力を識別することができる。

【0033】

図１ｂを参照すると、ビデオ１２０の特定の画像（例えば、第１の画像１２０－１）内で外部オブジェクトの選択を示す入力を識別する電子装置１０１の例示的な動作が説明される。図１ｂを参照すると、一実施形態による電子装置１０１は、第１の画像１２０－１に対応するラベリングデータを取得するための画面（例えば、画面１５０－１、１５０－２）を表示することができる。電子装置１０１は、ビデオ１２０に含まれる複数の画像のうち、第１の画像１２０－１の選択を示す入力に基づいて、図１ｂの画面１５０－１、１５０－２のいずれかを表示することができる。

【0034】

図１ｂを参照すると、ビデオ１２０の第１の画像１２０－１に対応する画面１５０－１に基づいて、電子装置１０１は、矩形の領域１６０－１の選択を示す入力を識別することができる。領域１６０－１の選択を示す入力は、電子装置１０１に接続されたマウスに基づいて識別された、領域１６０－１の頂点Ａ１から頂点Ａ３に向かうドラッグ入力を含むことができる。実施形態は、これに限定されず、電子装置１０１は、タッチスクリーン上で行われたドラッグジェスチャに基づいて、領域１６０－１の選択を示す入力を識別することができる。前記入力を識別した電子装置１０１は、領域１６０－１を介してキャプチャされた被写体のクラス（又はカテゴリ）を取得することができる。例えば、電子装置１０１は、前記クラスを表すテキストを受信するためのポップアップウィンドウを表示することができる。このポップアップウィンドウを介して、ユーザから受信したテキストに基づいて、電子装置１０１は、領域１６０－１にキャプチャされた被写体（例えば、視覚オブジェクト１３０－１）のクラス（又はカテゴリ）を識別することができる。電子装置１０１は、領域１６０－１に関する情報（例えば、頂点Ａ１、Ａ２、Ａ３、Ａ４の座標、クラス及び／又はカテゴリ）を、第１の画像１２０－１に対応するラベリングデータとして格納することができる。

【0035】

一実施形態では、ラベリングデータを取得するために、第１の画像１２０－１に形成される領域の形態は、矩形（例えば、図１ｂの領域１６０－１）に限定されない。図１ｂの画面１５０－２を参照すると、ビデオ１２０の第１の画像１２０－１から多角形の領域１６０－２の選択を示す入力を識別することができる。領域１６０－２の選択を示す入力は、多角形の頂点Ｂ１、Ｂ２、Ｂ３、Ｂ４、Ｂ５、Ｂ６、Ｂ７、Ｂ８、Ｂ９、Ｂ１０、Ｂ１１、Ｂ１２、Ｂ１３、Ｂ１４を順次にクリック及び／又はタッチするジェスチャによって識別することができる。前記入力を識別した電子装置１０１は、図１ｂの画面１５０－２のように、頂点の連結によって第１の画像１２０－１内に形成された多角形の領域１６０－２を表示することができる。電子装置１０１は、領域１６０－２の選択を示す入力と共に、領域１６０－２によって区分けられる第１の画像１２０－１内の視覚オブジェクト１３０－１のクラス（又はカテゴリ）を設定するための入力を識別することができる。電子装置１０１は、領域１６０－２の頂点Ｂ１、Ｂ２、Ｂ３、Ｂ４、Ｂ５、Ｂ６、Ｂ７、Ｂ８、Ｂ９、Ｂ１０、Ｂ１１、Ｂ１２、Ｂ１３、Ｂ１４の座標、及び前記クラス（又はカテゴリ）の組み合わせを、第１の画像１２０－１のラベリングデータとして格納することができる。

【0036】

前述のように、一実施形態によれば、電子装置１０１は、ビデオ１２０に含まれる複数の画像のうち、特定の画像（例えば、第１の画像１２０－１）内で外部オブジェクトの選択を示す入力に基づいて、特定の画像と区別される他の画像で、前記外部オブジェクトを認識することができる。電子装置１０１が外部オブジェクトを認識することは、特徴点及び／又はモデルに基づいて、比較的多くの計算量を必要とする第１のタイプの計算方法及び補間に基づいて、比較的少ない計算量を必要とする第２のタイプの計算方法の組み合わせに基づいて行うことができる。例えば、電子装置１０１は、ビデオ１２０内の複数の画像全体で外部オブジェクトを認識する動作を、特定の画像とは異なる他の画像において外部オブジェクトを認識することなく実行することができる。電子装置１０１は、ビデオ１２０内の異なる画像に対して、異なる計算量を必要とする計算方法を交互に（ａｌｔｅｒｎａｔｅｌｙ）適用するので、ビデオ１２０に対応するラベリング情報を取得するのに必要な計算量が減少することがある。ラベリング情報を取得するのに必要な計算量が減少されるので、電子装置１０１は、より迅速にビデオ１２０に対応するラベリング情報を取得することができる。

【0037】

以下では、図１ａ～図１ｂを参照して説明した動作を実行するための電子装置１０１の例示的な構造について、図２を参照して説明する。

【0038】

図２は、一実施形態による、電子装置１０１のブロック図の一例を示す。図２の電子装置１０１は、図１ａ～図１ｂの電子装置１０１を含むことができる。図２の電子装置１０１は、プロセッサ２１０、メモリ２２０、又はディスプレイ２３０のうち少なくとも１つを含むことができる。プロセッサ２１０、メモリ２２０、及びディスプレイ２３０は、通信バス（ａｃｏｍｍｕｎｉｃａｔｉｏｎｂｕｓ）２０２などの電子部品（ｅｌｅｃｔｒｏｎｉｃａｌｃｏｍｐｏｎｅｎｔ）によって互いに電気的及び／又は動作的に接続することができる（ｅｌｅｃｔｒｏｎｉｃａｌｌｙａｎｄ／ｏｒｏｐｅｒａｂｌｙｃｏｕｐｌｅｄｗｉｔｈｅａｃｈｏｔｈｅｒ）。以下では、ハードウェアが動作的に結合されていることは、ハードウェアのうち第１のハードウェアによって第２のハードウェアが制御されるように、ハードウェア間の直接的な接続、又は間接的な接続が有線又は無線で確立されることを意味することができる。異なるブロックに基づいて示されているが、実施形態は、これに限定されず、図２のハードウェアの一部（例えば、プロセッサ２１０及びメモリ２２０の少なくとも一部）は、ＳｏＣ（ｓｙｓｔｅｍｏｎａｃｈｉｐ）などの単一の集積回路（ｓｉｎｇｌｅｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）に含まれてもよい。電子装置１０１に含まれるハードウェアのタイプ及び／又は数は、図２に示すものに限定されない。例えば、電子装置１０１は、図２に示すハードウェア構成要素の一部のみを含むことができる。

【0039】

一実施形態によれば、電子装置１０１のプロセッサ２１０は、１つ又はそれ以上の命令に基づいて、データを処理するためのハードウェアを含み得る。データを処理するためのハードウェアは、例えば、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃａｎｄｌｏｇｉｃｕｎｉｔ）、ＦＰＵ（ｆｌｏａｔｉｎｇｐｏｉｎｔｕｎｉｔ）、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＣＰＵ（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、及び／又はＡＰ（ａｐｐｌｉｃａｔｉｏｎｐｒｏｃｅｓｓｏｒ）を含むことができる。プロセッサ２１０の数は、１つ以上であり得る。例えば、プロセッサ２１０は、デュアルコア（ｄｕａｌｃｏｒｅ）、クアッドコア（ｑｕａｄｃｏｒｅ）、又はヘキサコア（ｈｅｘａｃｏｒｅ）などのマルチコアプロセッサの構造を有することができる。

【0040】

一実施形態によれば、電子装置１０１のメモリ２２０は、プロセッサ２１０に入力及び／又は出力されるデータ及び／又は命令を格納するためのハードウェア構成要素を含むことができる。メモリ２２０は、例えば、ＲＡＭ（ｒａｎｄｏｍ－ａｃｃｅｓｓｍｅｍｏｒｙ）などの揮発性メモリ（ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）及び／又はＲＯＭ（ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ）などの不揮発性メモリ（ｎｏｎ－ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）を含むことができる。揮発性メモリは、例えば、ＤＲＡＭ（ｄｙｎａｍｉｃＲＡＭ）、ＳＲＡＭ（ｓｔａｔｉｃＲＡＭ）、キャッシュＲＡＭ（ＣａｃｈｅＲＡＭ）、ＰＳＲＡＭ（ｐｓｅｕｄｏＳＲＡＭ）のうち少なくとも１つを含むことができる。不揮発性メモリは、例えば、ＰＲＯＭ（ｐｒｏｇｒａｍｍａｂｌｅＲＯＭ）、ＥＰＲＯＭ（ｅｒａｓａｂｌｅＰＲＯＭ）、ＥＥＰＲＯＭ（ｅｌｅｃｔｒｉｃａｌｌｙｅｒａｓａｂｌｅＰＲＯＭ）、フラッシュメモリ、ハードディスク、コンパクトディスク、ＳＳＤ（ｓｏｌｉｄｓｔａｔｅｄｒｉｖｅ）、ｅＭＭＣ（ｅｍｂｅｄｄｅｄｍｕｌｔｉｍｅｄｉａｃａｒｄ）のうち少なくとも１つを含むことができる。

【0041】

一実施形態によれば、電子装置１０１のメモリ２２０内で、プロセッサ２１０がデータに対して実行する演算、及び／又は動作を示す１つ又はそれ以上の命令（又はンストラクション）を格納することができる。１つ又はそれ以上の命令の集合は、ファームウェア、オペレーティングシステム、プロセス、ルーチン、サブルーチン、及び／又はアプリケーションを含み得る。例えば、電子装置１０１及び／又はプロセッサ２１０は、オペレーティングシステム、ファームウェア、ドライバ、及び／又はアプリケーションの形態で配布された複数の命令の集合（ｓｅｔｏｆａｐｌｕｒａｌｉｔｙｏｆｉｎｓｔｒｕｃｔｉｏｎｓ）が実行されるときに、図３及び／又は図６の動作のうち少なくとも１つを実行することができる。以下では、アプリケーションが電子装置１０１にインストールされたことは、アプリケーションの形態で提供された１つ又はそれ以上の命令が、電子装置１０１のメモリ２２０内に格納されていることで、１つ又はそれ以上のアプリケーションが電子装置１０１のプロセッサ２１０によって実行可能な（ｅｘｅｃｕｔａｂｌｅ）フォーマット（例えば、電子装置１０１のオペレーティングシステムによって指定された拡張子を有するファイル）として記憶されていることを意味することができる。

【0042】

一実施形態によれば、電子装置１０１のディスプレイ２３０は、ユーザに視覚化された情報（例えば、図１ａの画面）を出力することができる。例えば、ディスプレイ２３０は、ＧＰＵ（ｇｒａｐｈｉｃｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）などのコントローラによって制御され、ユーザに視覚化された情報（ｖｉｓｕａｌｉｚｅｄｉｎｆｏｒｍａｔｉｏｎ）を出力することができる。ディスプレイ２３０は、ＬＣＤ（ｌｉｑｕｉｄｃｒｙｓｔａｌｄｉｓｐｌａｙ）、ＰＤＰ（ｐｌａｓｍａｄｉｓｐｌａｙｐａｎｅｌ）、及び／又は１つ又はそれ以上のＬＥＤ（ｌｉｇｈｔｅｍｉｔｔｉｎｇｄｉｏｄｅ）を含むことができる。ＬＥＤは、ＯＬＥＤ（ｏｒｇａｎｉｃＬＥＤ）を含むことができる。ディスプレイ２３０は、ＦＰＤ（ｆｌａｔｐａｎｅｌｄｉｓｐｌａｙ）及び／又は電子ペーパー（ｅｌｅｃｔｒｏｎｉｃｐａｐｅｒ）を含むことができる。実施形態は、これに限定されず、ディスプレイ２３０は、少なくとも部分的に湾曲した形態を有してもよく、変形可能な（ｄｅｆｏｒｍａｂｌｅ）形態を有してもよい。

【0043】

一実施形態によれば、電子装置１０１は、メモリ２２０に記憶されたビデオ１２０から、ラベリング情報２４０を取得することができる。図２のビデオ１２０は、図１ａ～図１ｂのビデオ１２０を含むことができる。例えば、電子装置１０１は、ビデオ１２０から、ビデオ１２０を再生するために、ビデオ１２０内に符号化又は圧縮された複数の画像（例えば、図１ａ～図１ｂの第１の画像１２０－１、第ｋの画像１２０－ｋ、及び／又は第Ｎの画像１２０－Ｎ）を識別することができる。電子装置１０１によってビデオ１２０から取得されたラベリング情報２４０は、複数の画像のそれぞれに関連する外部オブジェクトの位置を含むことができる。一実施形態によれば、電子装置１０１は、複数の画像全体へのユーザ入力（例えば、図１ｂを参照して説明した入力）なしで、複数（ｓｅｖｅｒａｌ）の画像に関連する外部オブジェクトの位置に基づいて、複数の画像全体のラベリング情報２４０を取得することができる。

【0044】

一実施形態によれば、電子装置１０１は、ビデオ１２０に含まれる画像のシーケンス内で互いに離隔された２つの画像に対応する位置を補間して、２つの画像間の他の画像に対応する位置を獲得することができる。互いに離隔された２つの画像に関連する外部オブジェクトの位置は、電子装置１０１のユーザ及び／又は特徴点の分析のために、電子装置１０１に含まれるモデルによって識別することができる。互いに離隔された２つの画像間の時間区間の長さが、比較的長い場合（例えば、指定された閾値長を超える場合）、電子装置１０１は、補間によって取得された位置の補正（ｃａｌｉｂｒａｔｉｏｎ）を、時間区間内の１つ又はそれ以上の画像の特徴点に基づいて実行することができる。一実施形態によれば、電子装置１０１によってメモリ２２０に格納されたラベリング情報２４０は、各画像内の外部オブジェクトに関連する位置を示すデータを含むことができる。このデータは、図１ａの領域１４０－１、１４０－ｋ、１４０－Ｎの頂点のうち少なくとも１つの座標、幅、高さ、アスペクト比、又はサイズのうち少なくとも１つを含み得る。

【0045】

一実施形態によれば、電子装置１０１によって取得されたラベリング情報２４０は、ビデオ１２０にキャプチャされた外部オブジェクトの動きを表すことができる。例えば、ラベリング情報２４０は、ビデオ１２０に含まれる複数の画像が順次再生される時間区間内で、複数の画像のそれぞれにおける外部オブジェクトに関連付けられた領域の位置を含むことができる。電子装置１０１は、ラベリング情報２４０に基づいて、ビデオ１２０の複数の画像のそれぞれにおける外部オブジェクトを認識した結果を識別することができる。その結果は、特定の画像内で外部オブジェクトに関連する領域の位置を含み得る。電子装置１０１は、複数の画像及びラベリング情報２４０を用いて、外部オブジェクトを認識するためのモデル（又はニューラルネットワーク）をチューニング（又はトレーニング）することができる。モデルの性能を改善するために、比較的多くの画像に基づくモデルのチューニングが必要とされることがある。一実施形態によれば、電子装置１０１は、ビデオ１２０の特定の画像に関連する外部オブジェクトに関する情報（例えば、特定の画像内で外部オブジェクトに関連する領域を示す情報）を用いて、ビデオ１２０に含まれる複数の画像全体のラベリング情報２４０を生成することができる。電子装置１０１は、複数の画像全体のラベリング情報２４０を生成するので、電子装置１０１は、モデルのチューニングに必要な数の画像をより迅速に取得することができる。

【0046】

以下では、図３を参照して、図２の電子装置１０１によって実行される動作の一例について説明する。

【0047】

図３は、一実施形態による、電子装置によって実行される動作のフローチャートの一例を示す。図１ａ～図１ｂ、図２の電子装置１０１及び／又はプロセッサ２１０は、図３を参照して説明した動作を実行することができる。

【0048】

図３を参照すると、動作３１０内で、一実施形態による、電子装置のプロセッサは、ビデオ用の複数の画像を識別することができる。動作３１０のビデオは、図１ａ～図２のビデオ１２０を含み得る。プロセッサは、ＭＰＥＧ（ｍｏｔｉｏｎｐｉｃｔｕｒｅｅｘｐｅｒｔｓｇｒｏｕｐ）に関連するフォーマットを有するファイルから、ビデオを再生するための複数の画像を識別することができる。前記ファイルは、メモリ（例えば、図２のメモリ２２０）に格納されてもよく、又は電子装置に接続されたネットワーク（例えば、インターネット）からストリーミングに基づいて受信されてもよい。プロセッサは、動作３１０に基づいて、複数の画像及び複数の画像が再生される順序を識別することができる。

【0049】

図３を参照すると、動作３２０内で、一実施形態による、電子装置のプロセッサは、複数の画像のうち第１のタイミングの第１の画像内で、外部オブジェクトに関連する第１の位置を識別することができる。プロセッサは、第１の画像をディスプレイ（例えば、図２のディスプレイ２３０）に表示した状態で、第１の位置の選択を示す第１の入力（例えば、図１ｂを参照して説明した入力）を識別することができる。動作３２０の第１の画像は、図１ａの第１の画像１２０－１を含むことができる。例えば、図１ａの画面１１０は、第１の画像１２０－１の領域１４０－１の選択を示す入力を識別したプロセッサによって表示されてもよい。図１ａの領域１４０－１の選択を示す入力に基づいて、プロセッサは、第１の画像１４０－１内で、外部オブジェクトに関連する第１の位置（例えば、領域１４０－１の位置）を識別することができる。一実施形態では、動作３２０に基づいてプロセッサに識別された第１の位置は、第１の画像内で外部オブジェクトに関連する視覚オブジェクト（例えば、図１ａの視覚オブジェクト１３０－１）に関連する少なくとも１つの座標を含むことができる。少なくとも１つの座標は、図１ａの画像１２０－１内で頂点Ａ１、Ｂ１、Ｃ１、Ｄ１によって区分けられた領域１４０－１に含まれてもよい。

【0050】

図３を参照すると、動作３３０内で、一実施形態による、電子装置のプロセッサは、動作３２０の第１の位置に基づいて、複数の画像のうち第１のタイミングの後の第２のタイミングの第２の画像内で、外部オブジェクトに関連する第２の位置を識別することができる。動作３２０の第１の位置を識別するための第１の入力を識別した状態で、プロセッサは、第１の入力に基づいて、外部オブジェクトを認識するための第１のタイプの計算を実行して、第１のタイミングから始まる時間区間の後の第２の画像内で、第２の位置を識別することができる。動作３１０のビデオを再生するための複数の画像のシーケンス内で、第１のタイミングの第１の画像と第２のタイミングの第２の画像との間に、１つ又はそれ以上の第３の画像を配置することができる。

【0051】

一実施形態では、動作３３０の第２の位置を識別するために、プロセッサによって実行される、第１のタイプの計算は、第１の画像及び第２の画像の特徴点に関連され得る。例えば、プロセッサは、動作３２０によって識別された第１の画像の第１の位置に関連する少なくとも１つの特徴点を、第１の画像から抽出することができる。プロセッサは、動作３３０の第２の画像から１つ又はそれ以上の特徴点を抽出することができる。プロセッサは、第１の画像から抽出された少なくとも１つの特徴点と、第２の画像から抽出された１つ又はそれ以上の特徴点とを比較することができる。この比較に基づいて、プロセッサは、第１の画像内で第１の位置を含む領域（例えば、図１ａの領域１４０－１）と同様の第２の画像の領域（例えば、図１ａの領域１４０－Ｎ）を識別することができる。動作３３０の第２の位置は、プロセッサによって識別された第２の画像の領域内に含まれてもよい。

【0052】

実施形態は、これに限定されず、動作３３０の第２の位置を識別するためにプロセッサによって実行される、第１のタイプの計算は、外部オブジェクトを認識するためにトレーニングされたモデルに関連され得る。例えば、プロセッサは、第１の画像の第１の位置に関連する外部オブジェクトに関するデータを、第２の画像と共に、モデルに入力することができる。前記データと、第２の画像が入力されたモデルから出力されたデータとに基づいて、プロセッサは、第２の画像内で外部オブジェクトに関連する第２の位置を識別することができる。

【0053】

図３を参照すると、動作３４０内で、一実施形態による、電子装置のプロセッサは、第１の位置及び第２の位置に基づいて、第１のタイミングと第２のタイミングとの間の時間区間に含まれる１つ又はそれ以上の第３の画像に対応し、外部オブジェクトに関連する１つ又はそれ以上の第３の位置を取得することができる。例えば、プロセッサは、動作３２０の第１の位置及び動作３３０の第２の位置を補間するための第２のタイプの計算を実行して、１つ又はそれ以上の第３の位置を取得することができる。プロセッサによって取得された１つ又はそれ以上の第３の位置は、第１の位置と第２の位置とを連結する線上に配置されてもよい。この線上の１つ又はそれ以上の第３の位置は、１つ又はそれ以上の第３の画像のタイミングと関連付けられてもよい。プロセッサは、特徴点を抽出するために、動作３３０によって実行される計算量より少ない計算量に基づいて、動作３４０の１つ又はそれ以上の第３の位置を取得することができる。

【0054】

図３を参照すると、動作３５０内で、一実施形態による、電子装置のプロセッサは、ビデオの時間区間内で識別された外部オブジェクトの動きを示すラベリング情報として、第１の位置、１つ又はそれ以上の第３の位置及び第２の位置を格納することができる。図２のラベリング情報２４０は、動作３５０のラベリング情報を含むことができる。一実施形態によれば、プロセッサは、ラベリング情報内に、複数の画像のうち、動作３２０から動作３４０によって識別された位置に対応する画像を表すパラメータを記憶することができる。例えば、プロセッサによって記憶されたラベリング情報は、第１の位置が第１の画像に対応することを示すパラメータ（例えば、第１の位置を示すデータと連動されたタイムスタンプ）を含み得る。例えば、プロセッサによって記憶されたラベリング情報は、第２の位置及び第２の画像のマッピングを表すパラメータを含むことができる。例えば、プロセッサによって記憶されたラベリング情報は、１つ又はそれ以上の第３の位置及び１つ又はそれ以上の第３の画像の関係を表すパラメータを含むことができる。

【0055】

前述のように、一実施形態による、電子装置のプロセッサは、ビデオに含まれる複数の画像に対して、ラベリング情報を取得するための異なるタイプの計算を実行することができる。プロセッサによって取得されたラベリング情報は、複数の画像に基づくモデルのトレーニングに使用することができる。一実施形態によれば、電子装置のプロセッサは、ラベリング情報の精度を改善するために、ラベリング情報に対するユーザのフィードバックを受信するための画面を表示することができる。例えば、プロセッサは、ディスプレイ（例えば、図２のディスプレイ２３０）に、第１の画像、１つ又はそれ以上の第３の画像、及び第２の画像のいずれかを表示することができる。プロセッサは、動作３４０の時間区間に含まれるビデオの少なくとも一部の再生を示す第２の入力に応答して、ディスプレイに第１の画像、１つ又はそれ以上の第３の画像、及び第２の画像のいずれかを表示することができる。プロセッサは、ディスプレイに表示された画像の上に重畳され、ラベリング情報に含まれる第１の位置、第３の位置、又は第２の位置のいずれかに対応する視覚オブジェクトを表示することができる。視覚オブジェクトは、バウンディングボックスの形態をとることができる。視覚オブジェクトに基づいて、電子装置のプロセッサは、ラベリング情報を少なくとも部分的に調整するための入力を受信することができる。ラベリング情報を少なくとも部分的に調整するための入力は、図１ｂを参照して説明した、領域（例えば、領域１６０－１、１６０－２）の選択を示す入力と同様に受信することができる。

【0056】

以下では、図４、図５ａ～図５ｂを参照して、一実施形態による、電子装置によって実行される図３の動作３３０、３４０の一例を説明する。

【0057】

図４は、一実施形態による、電子装置によってビデオに含まれる画像からオブジェクトを認識する動作の一例を示す。図４を参照して説明される電子装置の動作は、図１ａ～図１ｂ、図２の電子装置１０１及び／又はプロセッサ２１０によって実行することができる。図４を参照して説明された電子装置の動作は、図３の動作のうち少なくとも１つ（例えば、動作３３０）に関連し得る。

【0058】

図４を参照すると、一実施形態によれば、電子装置は、ビデオ１２０に含まれる複数の画像のシーケンス内で、互いに離隔された第１の画像１２０－１及び第Ｎの画像１２０－Ｎと共通に関連する外部オブジェクト（例えば、車両）を識別することができる。電子装置は、図３の動作３２０に基づいて、第１の画像１２０－１及び第１の画像１２０－１内で外部オブジェクトに対応する視覚オブジェクト１３０－１を識別することができる。一実施形態では、電子装置は、領域１４０－１の選択を示す入力に基づいて、第１の画像１２０－１内で外部オブジェクトに関連する視覚オブジェクト１３０－１の位置を識別することができる。領域１４０－１の選択を示す入力は、図１ｂの入力を含んでもよい。視覚オブジェクト１３０－１の位置は、図３の第１の位置に対応し得る。

【0059】

図４を参照すると、一実施形態によれば、電子装置は、第１の画像１２０－１の領域１４０－１を識別することに基づいて、領域１４０－１に含まれる特徴点（例えば、Ｆ１１、Ｆ１２、Ｆ１３、Ｆ１４、Ｆ１５）を識別することができる。電子装置は、第１の画像１２０－１に含まれるピクセル間の色及び／又は明るさの変化に基づいて、特徴点（例えば、Ｆ１１、Ｆ１２、Ｆ１３、Ｆ１４、Ｆ１５）を識別することができる。例えば、領域１４０－１から抽出された特徴点は、色及び／又は明るさが比較的急激に変化するピクセルを表すことができる。例えば、前記特徴点は、領域１４０－１に含まれるピクセルによって表されるエッジ、コーナ、及び／又はスケルトンを含み得る。

【0060】

さらに、一実施形態によれば、電子装置は、ビデオ１２０を構成する画像フレーム内に存在するピクセル（Ｐｉｘｅｌ）の軌跡を推定するピクセル軌道推定（ＰｉｘｅｌＴｒａｊｅｃｔｏｒｙＥｓｔｉｍａｔｉｏｎ）方法を介して、領域１４０－１に含まれる外部オブジェクトの動き軌跡を追跡することにより、第１の画像１２０－１の領域１４０－１に存在する外部オブジェクトが、第１の画像１２０－１の後（ｔ時間経過後）に位置する（取得された）画像内に存在するかどうかを判断し、存在するオブジェクトの位置を予測することができる。

【0061】

一実施形態によれば、電子装置は、ビデオ１２０の画像のシーケンス内で、第１の画像１２０－１の第１のタイミングの後の第２のタイミングの第Ｎの画像１２０－Ｎから特徴点を抽出することができる。電子装置は、第１の画像１２０－１の領域１４０－１から抽出された特徴点Ｆ１１、Ｆ１２、Ｆ１３、Ｆ１４、Ｆ１５と、第Ｎの画像１２０－Ｎから抽出された特徴点とを比較して、第Ｎの画像１２０－Ｎ内で領域１４０－１と同様の色及び／又は明るさを有する領域１４０－Ｎを識別することができる。例えば、電子装置は、領域１４０－１内の特徴点Ｆ１１、Ｆ１２、Ｆ１３、Ｆ１４、Ｆ１５に類似した特徴点Ｆ２１、Ｆ２２、Ｆ２３、Ｆ２４、Ｆ２５、Ｆ２６を、第Ｎの画像１２０－Ｎから識別することができる。第Ｎの画像１２０－Ｎから特徴点Ｆ２１、Ｆ２２、Ｆ２３、Ｆ２４、Ｆ２５、Ｆ２６を識別することに基づいて、電子装置は、特徴点Ｆ２１、Ｆ２２、Ｆ２３、Ｆ２４、Ｆ２５、Ｆ２６を含む領域１４０－Ｎ及び／又は領域１４０－Ｎに含まれる視覚オブジェクト１３０－Ｎを、第１の画像１２０－１の領域１４０－１を通して識別された外部オブジェクトに関連する視覚オブジェクトとして決定できる。

【0062】

電子装置が外部オブジェクトに対応する第１の位置を含む第１の画像１２０－１の領域１４０－１に含まれる特徴点Ｆ１１、Ｆ１２、Ｆ１３、Ｆ１４、Ｆ１５と、第Ｎの画像１２０－Ｎに含まれる１つ又はそれ以上の特徴点とを比較して、第Ｎの画像１２０－Ｎ内で外部オブジェクトに関連する第２の位置を識別する一実施形態を説明したが、実施形態は、これに限定されない。一実施形態によれば、電子装置は、外部オブジェクトを認識するためのモデルに、第１の画像１２０－１及び第Ｎの画像１２０－Ｎを入力して、第１の位置及び第２の位置を識別することができる。

【0063】

前述のように、一実施形態によれば、電子装置は、ビデオ１２０の複数の画像で、ユーザ入力（例えば、図１ｂを参照して説明した入力）によって識別される領域１４０－１に対応する第１の画像１２０－１の第１のタイミングから、指定された時間区間に沿って離隔された１つ又はそれ以上のタイミングに対応する画像（例えば、第Ｎの画像１２０－Ｎ）を抽出することができる。電子装置は、抽出された画像の特徴点を、第１の画像１２０－１の領域１４０－１内の特徴点Ｆ１１、Ｆ１２、Ｆ１３、Ｆ１４、Ｆ１５と比較して、抽出された画像のそれぞれで外部オブジェクト（例えば、領域１４０－１に関連する外部オブジェクト）に関連する位置を識別することができる。電子装置によって識別された位置は、ビデオ１２０に対応するラベリング情報として格納することができる。一実施形態によれば、電子装置は、特徴点に基づいて、外部オブジェクトを認識するための第１のタイプの計算を、第１の画像１２０－１の第１のタイミングから前記時間区間ごとに繰り返し実行することができる。第１のタイプの計算を繰り返し実行することによって、電子装置は、ラベリング情報を取得するために必要なユーザ入力（例えば、図１ｂを参照して説明した入力）を減らすことができる。第１のタイプの計算によって識別された位置に対する線形補間に基づいて、電子装置は、ビデオ１２０に含まれる複数の画像全体のラベリング情報を取得することができる。以下では、図５ａ～図５ｂを参照して、線形補間に基づいて、ラベリング情報を取得する電子装置の動作の一例について説明する。

【0064】

図５ａ～図５ｂは、ビデオに含まれる２つの画像のラベリング情報に基づいて、他の画像のラベリング情報を取得する電子装置の動作の一例を示す。図５ａ～図５ｂを参照して説明した電子装置の動作は、図１ａ～図１ｂ、図２の電子装置１０１及び／又はプロセッサ２１０によって実行することができる。図５ａ～図５ｂを参照して説明された電子装置の動作は、図３の動作のうち少なくとも１つ（例えば、動作３４０）に関連し得る。

【0065】

図５ａを参照すると、図４を参照して説明した動作を実行した電子装置によって識別され、第１の画像１２０－１及び第Ｎの画像１２０－Ｎのそれぞれに対応する領域１４０－１、１４０－Ｎが示されている。一実施形態によれば、第１の画像１２０－１に含まれる１つ又はそれ以上の特徴点と、第Ｎの画像１２０－Ｎに含まれる１つ又はそれ以上の特徴点とを比較して、第１の画像１２０－１及び第Ｎの画像１２０－Ｎの全てに関連する外部オブジェクトに対応する領域１４０－１、１４０－Ｎを識別することができる。

【0066】

図５ａを参照すると、説明の便宜のために、第１の画像１２０－１及び第Ｎの画像１２０－Ｎのそれぞれから識別された領域１４０－１、１４０－Ｎの位置が、座標平面５１０内に重畳表示される。座標平面５１０の頂点は、第１の画像１２０－１及び第Ｎの画像１２０－Ｎの頂点のそれぞれにマッチングされてもよい。一実施形態によれば、電子装置は、第１の画像１２０－１と第Ｎの画像１２０－Ｎとの間の画像（例えば、第ｋの画像１２０－ｋ）のラベリング情報を、領域１４０－１、１４０－Ｎの位置に基づいて取得することができる。例えば、電子装置によって取得されたラベリング情報は、第１の画像１２０－１と第Ｎの画像１２０－Ｎとの間の第ｋの画像１２０－ｋに対応し、外部オブジェクトに関連する位置を含むことができる。

【0067】

図５ａを参照すると、領域１４０－１、１４０－Ｎの位置の補間に基づいて取得された第ｋの画像１２０－ｋ内の領域５２０が示されている。一実施形態によれば、電子装置は、領域５２０の頂点ＡＫ、ＢＫ、ＣＫ、ＤＫの座標を、数１に基づいて取得することができる。

【0068】

【数1】

【0069】

数１を参照すると、領域５２０の頂点ＡＫのｘ座標（ｘ_ＡＫ）は、第１の画像１２０－１の領域１４０－１及び第Ｎの画像１２０－Ｎの領域１４０－Ｎの頂点Ａ１、ＡＮのｘ座標（ｘ_Ａ１、ｘ_ＡＮ）をＮ：ｋに分割する値を有してもよい。同様に、領域５２０の頂点ＡＫのｙ座標（ｙ_ＡＫ）は、第１の画像１２０－１の領域１４０－１及び第Ｎの画像１２０－Ｎの領域１４０－Ｎの頂点Ａ１、ＡＮのｙ座標（ｙ_Ａ１、ｙ_ＡＮ）をＮ：ｋに分割する値を有してもよい。例えば、領域５２０の頂点ＡＫ、ＢＫ、ＣＫ、ＤＫのそれぞれは、領域１４０－１の頂点Ａ１、Ｂ１、Ｃ１、Ｄ１及び領域１４０－Ｎの頂点ＡＮ、ＢＮ、ＣＮ、ＤＮのそれぞれを、Ｎ：ｋに分割する内分点に対応することができる。図５ａを参照すると、領域５２０の頂点ＡＫ、ＢＫ、ＣＫ、ＤＫのそれぞれは、領域１４０－１の頂点Ａ１、Ｂ１、Ｃ１、Ｄ１のそれぞれにおいて、領域１４０－Ｎの頂点ＡＮ、ＢＮ、ＣＮ、ＤＮのそれぞれを連結する線上に配置することができる。数１のＮは、第１の画像１２０－１と第Ｎの画像１２０－Ｎとの間の時間区間の長さを、数１のｋは、第ｋの画像１２０－ｋに対応するタイミングの前記時間区間内の位置を示すことができる。

【0070】

図５ｂを参照すると、第ｋの画像１２０－ｋから領域５２０を識別する電子装置１０１の動作が例示的に説明される。電子装置１０１は、数１に基づいて、第１の画像１２０－１と第Ｎの画像１２０－Ｎとの間の第ｋの画像１２０－ｋの領域５２０の頂点ＡＫ、ＢＫ、ＣＫ、ＤＫの座標を取得することができる。図５ｂの領域５２０の頂点ＡＫのｘ座標は、第１の画像１２０－１から識別された領域の頂点Ａ１のｘ座標及び、第Ｎの画像１２０－Ｎの頂点ＡＮのｘ座標をＮ：ｋに分割する値を有してもよい。同様に、領域５２０の頂点ＡＫのｙ座標は、第１の画像１２０－１から識別された領域の頂点Ａ１のｙ座標及び、第Ｎの画像１２０－Ｎの頂点ＡＮのｙ座標をＮ：ｋに分割する値を有してもよい。領域５２０の他の頂点ＢＫ、ＣＫ、ＤＫのｘ座標も、第１の画像１２０－１から識別された領域の頂点Ｂ１、Ｃ１、Ｄ１のｘ座標及び、第Ｎの画像１２０－Ｎから識別された領域の頂点ＢＮ、ＣＮ、ＤＮのｘ座標をＮ：ｋに分割する値を有することができる。同様に、領域５２０の他の頂点ＢＫ、ＣＫ、ＤＫのｙ座標も、第１の画像１２０－１から識別された領域の頂点Ｂ１、Ｃ１、Ｄ１のｙ座標、及び第Ｎの画像１２０－Ｎから識別された領域の頂点ＢＮ、ＣＮ、ＤＮのｙ座標をＮ：ｋに分割する値を有することができる。

【0071】

一実施形態によれば、電子装置は、ビデオ１２０に対応するラベリング情報として、領域１４０－１、５２０、１４０－Ｎの位置及び／又はサイズを示すデータを格納することができる。例えば、電子装置は、ラベリング情報内に、第１の画像１２０－１に対応する領域１４０－１を示す情報として、頂点Ａ１、Ｂ１、Ｃ１、Ｄ１に関するデータを格納することができる。電子装置は、ラベリング情報内に、第ｋの画像１２０－ｋに対応する領域１４０－ｋを示す情報として、頂点ＡＫ、ＢＫ、ＣＫ、ＤＫの座標を表すデータを格納することができる。電子装置は、ラベリング情報内に、第Ｎの画像１２０－Ｎに対応する領域１４０－Ｎを示す情報として、頂点ＡＮ、ＢＮ、ＣＮ、ＤＮのうち少なくとも１つに関連するパラメータを記憶することができる。電子装置は、ラベリング情報内で、領域１４０－Ｎの頂点ＡＮ、ＢＮ、ＣＮ、ＤＮのうち少なくとも１つに関連するパラメータと共に、これらのパラメータが、第Ｎの画像１２０－Ｎに対応することを表すパラメータをさらに記憶することができる。

【0072】

前述のように、一実施形態によれば、電子装置は、第１のタイミングにおける第１の画像１２０－１内の領域１４０－１の第１の位置を示す第１の座標、及び、第２のタイミングにおける第Ｎの画像１２０－Ｎ内の領域１４０－Ｎの第２の位置を示す第２の座標を、第１のタイミングと第２のタイミングとの間の長さ（例えば、数１のＮ）を用いて補間することによって、第１の画像１２０－１と第Ｎの画像１２０－Ｎとの間の第ｋの画像１２０－ｋ内の領域５２０の第３の位置を示す第３の座標を取得することができる。電子装置は、第１の座標及び第２の座標を、第ｋの画像１２０－ｋのタイミング（例えば、数１のｋ）に基づいて補間することによって、第３の位置を取得することができる。例えば、電子装置は、第１の位置、第２の位置及び第ｋの画像のタイミングに基づいて、第３の位置を取得するための第２のタイプの計算（例えば、数１を参照して説明された補間）を実行することができる。

【0073】

以下では、前述の図面を参照して説明した電子装置の例示的な動作について、図６を参照して説明する。

【0074】

図６は、一実施形態による、電子装置によって実行される動作のフローチャートの一例を示す。図６を参照して説明される電子装置の動作は、図１ａ～図１ｂ、図２の電子装置１０１及び／又はプロセッサ２１０によって実行することができる。図６を参照して説明した電子装置の動作は、図３を参照して説明した電子装置の動作に関連し得る。

【0075】

図６を参照すると、動作６１０内で、一実施形態による、電子装置のプロセッサは、ビデオを再生するための複数の画像を識別することができる。プロセッサは、図３の動作３１０と同様に図６の動作６１０を実行することができる。動作６１０のビデオは、図１ａ～図５ａのビデオ１２０を含み得る。

【0076】

図６を参照すると、動作６２０内で、一実施形態による、電子装置のプロセッサは、複数の画像のうち第ａの画像に対応するラベリングデータを取得することができる。動作６２０の第ａの画像は、図１ａ～図５ｂの第１の画像１２０－１を含むことができる。動作６２０のラベリングデータは、第ａの画像内で外部オブジェクトに関連する領域（例えば、図１ａ～図５ａの領域１４０－１）を表すことができる。プロセッサは、図１ａの画面１１０を介して、第ａの画像内で前記領域の選択を示す入力を識別することに基づいて、ラベリングデータを取得することができる。前記入力は、図１ｂを参照して説明した入力を含み得る。プロセッサは、前記領域の位置（例えば、図１ａ～図５ａの領域１４０－１の頂点Ａ１、Ｂ１、Ｃ１、Ｄ１の座標）への入力に基づいて、ラベリングデータを取得することができる。

【0077】

図６を参照すると、動作６３０内で、一実施形態による、電子装置のプロセッサは、複数の画像のうち第ａ＋Ｍの画像に対応するラベリングデータを取得することができる。動作６３０の第ａ＋Ｍの画像は、図１ａ～図５ｂの第Ｎの画像１２０－Ｎを含むことができる。プロセッサによって取得された、動作６３０のラベリングデータは、第ａ＋Ｍの画像内で外部オブジェクトに関連する領域（例えば、図１ａ～図５ａの領域１４０－Ｎ）を表すことができる。一実施形態によれば、プロセッサは、図４を参照して説明した動作に基づいて、図６の動作６３０を実行することができる。

【0078】

例えば、図６の動作６３２内で、一実施形態による、電子装置のプロセッサは、第ａの画像の特徴点と、第ａ＋Ｍの画像の特徴点とを比較して、第ａの画像に関連する外部オブジェクトの第ａ＋Ｍの画像内の位置を識別することができる。少なくとも１つの特徴点によって表される第ａの画像及び第ａ＋Ｍの画像の類似性に基づいて、プロセッサは、第ａの画像と第ａ＋Ｍの画像の両方に含まれる外部オブジェクトの第ａの画像と第ａ＋Ｍの画像のそれぞれの位置を識別することができる。一実施形態では、特徴点に基づいて、外部オブジェクトに関連する第ａ＋Ｍの画像内の位置を自動的に識別できなかった場合、プロセッサは、電子装置のユーザに前記位置を入力するように要求することができる。

【0079】

例えば、図６の動作６３４内で、一実施形態による、電子装置のプロセッサは、外部オブジェクトに対応する視覚オブジェクトが、第ａ＋Ｍの画像に含まれているかどうかを識別することができる。例えば、動作６２０のラベリングデータによって表される、外部オブジェクトに関連する第ａの画像内の位置から識別された、１つ又はそれ以上の特徴点と、第ａ＋Ｍの画像に含まれる１つ又はそれ以上の特徴点とを比較して、プロセッサは、外部オブジェクトに対応する視覚オブジェクトが、第ａ＋Ｍの画像に含まれているかどうかを識別することができる。外部オブジェクトを認識するためのモデルを使用する一実施形態では、プロセッサは、モデルによって識別された第ａ＋Ｍの画像が、外部オブジェクトを含む確率に基づいて、外部オブジェクトに対応する視覚オブジェクトが、第ａ＋Ｍの画像に含まれているかどうかを識別することができる。視覚オブジェクトが第ａ＋Ｍの画像に含まれている場合（６３４－ＹＥＳ）、プロセッサは、動作６４０を実行することができる。視覚オブジェクトが第ａ＋Ｍの画像に含まれていない場合（６３４－ＮＯ）、プロセッサは、動作６３６を実行することができる。

【0080】

例えば、図６の動作６３６内で、一実施形態による、電子装置のプロセッサは、外部オブジェクトに関連する第ａ＋Ｍの画像内の位置の選択を示す入力に基づいて、第ａ＋Ｍの画像に対応するラベリングデータを取得することができる。動作６３６内で、プロセッサは、ディスプレイに、第ａ＋Ｍの画像内で外部オブジェクトに関連する位置を取得するための画面を表示することができる。前記画面を通じて受信された入力に基づいて、プロセッサは、動作６３６のラベリングデータを取得することができる。

【0081】

図６を参照すると、動作６４０内で、一実施形態による、電子装置のプロセッサは、第ａの画像に対応するラベリングデータ及び第ａ＋Ｍの画像に対応するラベリングデータに基づいて、第ａ＋Ｎの画像に対応するラベリングデータを生成することができる。Ｎは、０より大きく、Ｍより小さい自然数であり得る（０<Ｎ<Ｍ）。動作６４０の第ａ＋Ｎの画像は、図１ａ～図５ｂの第ｋの画像を含むことができる。プロセッサは、動作６２０のラベリングデータによって表される第ａの画像内の位置及び動作６３０のラベリングデータによって示される第ａ＋Ｍの画像内の位置に対して補間を実行して、第ａ＋Ｎの画像に対応するラベリングデータを生成することができる。プロセッサは、図５ａ及び／又は図５ｂを参照して説明した動作に基づいて、図６の動作６４０を実行することができる。プロセッサは、数１を参照して説明した補間を実行して、第ａ＋Ｎの画像に対応するラベリングデータを生成することができる。

【0082】

一実施形態によれば、電子装置のプロセッサは、図６の動作６１０から動作６４０を実行して、第ａの画像から第ａ＋Ｍの画像全体のラベリングデータを取得することができる。図６を参照すると、動作６５０内で、一実施形態による、電子装置のプロセッサは、動作６１０から動作６４０によって生成されたラベリングデータに対してキャリブレーションを実行することができる。プロセッサによって実行されるキャリブレーションは、線形補間によって線形に（ｌｉｎｅａｒｌｙ）調整されたラベリングデータに、ビデオによってキャプチャされた外部オブジェクトの非線形的な動きを結合するために実行され得る。

【0083】

例えば、図６の動作６５２内で、一実施形態による、電子装置のプロセッサは、第ａの画像と第ａ＋Ｍの画像との間の間隔を表すパラメータ（例えば、自然数Ｍ）が、閾値を超過しているかどうかを識別することができる。この間隔は、第ａの画像のタイミングと第ａ＋Ｍの画像のタイミングとの間の時間区間の長さに関連し得る。前記間隔が閾値を超える場合（６５２－ＹＥＳ）、プロセッサは、動作６５４を実行することができる。例えば、前記間隔が閾値間隔よりも長い場合、プロセッサは、動作６５４を実行することができる。前記間隔が閾値以下である場合（６５２－ＮＯ）、プロセッサは、動作６５６を実行することができる。

【0084】

例えば、図６の動作６５４内で、一実施形態による、電子装置のプロセッサは、特徴点に基づいて、第ａ＋Ｎの画像に対応するラベリングデータを変更することができる。例えば、プロセッサは、第ａの画像に対応するラベリングデータ（例えば、電子装置のユーザから取得されたラベリングデータ）に基づいて、第ａの画像から抽出された１つ又はそれ以上の特徴点を、第ａ＋Ｎの画像に含まれる特徴点と比較して、第ａ＋Ｎの画像に対応するラベリングデータを変更することができる。第ａの画像から抽出された１つ又はそれ以上の特徴点は、ラベリングデータによって表される第ａの画像内で外部オブジェクトに関連する領域から抽出されてもよい。第ａの画像から抽出された１つ又はそれ以上の特徴点と比較される第ａ＋Ｎの画像内の特徴点は、第ａ＋Ｎの画像全体から抽出されてもよい。

【0085】

例えば、プロセッサは、第ａの画像に対応するラベリングデータによって表される第ａの画像の領域と類似した第ａ＋Ｎの画像内の領域を、前記比較に基づいて識別することができる。プロセッサは、前記比較に基づいて識別された第ａ＋Ｎの画像内の領域の位置に基づいて、第ａ＋Ｎの画像に対応するラベリングデータを変更することができる。プロセッサは、補間に関連する動作６４０によって生成されたラベリングデータを、異なる画像の特徴点の比較に関連する動作６５４に基づいて変更することができる。

【0086】

例えば、図６の動作６５６内で、一実施形態による、電子装置のプロセッサは、ビデオ及びラベリングデータを表示するための画面を介して受信された入力に基づいて、ラベリングデータを変更することができる。動作６５６の画面は、図１ａの画面１１０を含むことができる。電子装置のプロセッサは、画面を介して、第ａの画像～第ａ＋Ｍの画像のいずれかに対応するラベリングデータを変更するための入力を識別することができる。この入力に基づいて、プロセッサは、入力に対応するラベリングデータを調整して、外部オブジェクトに関連する画像内の位置を変更することができる。

【0087】

図６を参照すると、動作６６０内で、一実施形態による、電子装置のプロセッサは、第ａの画像、第ａ＋Ｎの画像及び第ａ＋Ｍの画像のラベリングデータを、ビデオと連動して格納することができる。動作６６０によってビデオと連動して格納されたラベリングデータは、図２のラベリング情報２４０に対応し得る。動作６６０によって格納されたラベリングデータは、ラベリングデータと連動したビデオと共に、ビデオ及び／又は画像を認識するためのモデル（又はニューラルネットワーク）のトレーニングに使用することができる。

【0088】

一実施形態では、動作６６０に基づいて識別されたラベリングデータは、表１のような情報を含み得る。

【0089】

【表1】

【0090】

表１の外部オブジェクトに関する情報（Ｓｈａｐｅｓ）は、画像に含まれる外部オブジェクトに関する情報を、サブオブジェクトとして含むことができる。表１の外部オブジェクトに関する情報は、表２のような情報を含み得る。

【0091】

【表2】

【0092】

一実施形態では、ニューラルネットワークのトレーニングのために、Ｋ分割交差検証（Ｋ－ｆｏｌｄｃｒｏｓｓｖａｌｉｄａｔｉｏｎ）を実行することができる。図６に基づいて、大量の画像に対応するラベリングデータを取得したプロセッサは、Ｋ分割交差検証などのニューラルネットワークの信頼性を検証するためのアルゴリズムを実行することができる。例えば、プロセッサは、ラベリングデータを、トレーニングセット、検証セット、及び／又はテストセットに区分けることができる。例えば、プロセッサは、表１のｉｍａｇｅｆｌａｇｓに基づいて、ラベリングデータを区別することができる。例えば、天気に基づくｉｍａｇｅｆｌａｇｓに基づいて、プロセッサは、天気に応じてラベリングデータを分類することができる。ｉｍａｇｅｆｌａｇｓに基づいて、ラベリングデータを分類することは、ニューラルネットワークのトレーニング及び／又は検証に使用される画像の特性を均一化（ｕｎｉｆｏｒｍｉｚｅ）するために使用され得る。例えば、天気に応じたｉｍａｇｅｆｌａｇｓに基づいて分類されたラベリングデータを用いて、プロセッサは、特定の天気に分類されたラベリングデータが、ニューラルネットワークのトレーニング及び／又は検証に使用されないように、異なる天気に対応するラベリングデータのグループからラベリングデータをサンプリングすることができる。ラベリングデータが指定された数を超える画像に対して生成された場合、プロセッサは、ラベリングデータをトレーニングセット、検証セット、及びテストセットの３つのセットに区分けることができる。ラベリングデータが指定された数以下の画像に対して生成された場合、プロセッサは、ラベリングデータをトレーニングセット及びテストセットの２つのセットに区分けることができる。

【0093】

一実施形態では、プロセッサは、トレーニングセットに含まれるラベリングデータをＫ個のフォールドに区分けることができる。区分けられたフォールド内で、プロセッサは、ラベリングデータを再びＫ個のフォールドに区分けた後、Ｋ－１個のラベリングデータを、トレーニングのためのラベリングデータとして、残りの１つのラベリングデータを、検証のためのラベリングデータとして指定することができる。プロセッサは、ニューラルネットワーク（又はモデル）を生成し、トレーニングのためのラベリングデータを入力して、エラー値を抽出することができる。プロセッサは、フォールドごとに検証のためのラベリングデータを交差しながら、エラー値を抽出することができる。すべてのフォールドのエラー値を抽出したプロセッサは、抽出されたエラー値に基づいて、ニューラルネットワークの最適化を実行することができる。プロセッサは、最適化されたニューラルネットワークに基づいて、全トレーニングセットに対してトレーニングを実行することができる。全トレーニングセットのトレーニングを実行した後、プロセッサは、テストセットに含まれるラベリングデータに基づいて、ニューラルネットワークの評価を実行することができる。

【0094】

前述のように、一実施形態による、電子装置のプロセッサは、特徴点の比較に基づく第１のタイプの計算とラベリングデータによって示される位置（又は座標）との間の補間に基づく第２のタイプの計算を交互に実行して、ビデオに含まれる複数の画像のすべてについてラベリングデータを取得することができる。プロセッサは、前記計算を交互に行うので、複数の画像の全てから特徴点を抽出することなく、プロセッサは、ラベリングデータをより迅速に取得することができる。

【0095】

以下では、図７を参照して、ラベリングデータを変更するためのユーザ入力を識別した電子装置の動作の一例について説明する。

【0096】

図７は、一実施形態による、電子装置によって実行される補間の一例を示す。図７を参照して説明される電子装置の動作は、図１ａ～図１ｂ、図２の電子装置１０１及び／又はプロセッサ２１０によって実行することができる。図７を参照して説明される電子装置の動作は、図３及び／又は図６の動作のうち少なくとも１つ（例えば、図６の動作６５４、６５６のうち少なくとも１つ）に関連し得る。

【0097】

図７を参照すると、ビデオ１２０を再生するための複数の画像のシーケンスに含まれる第１の画像１２０－１、第ｋの画像１２０－ｋ、及び第Ｎの画像１２０－Ｎのそれぞれに対応する領域１４０－１、５２０、１４０－Ｎが示されている。第１の画像１２０－１に対応する領域１４０－１は、第１の画像１２０－１内で外部オブジェクトに関連する位置を選択するためのユーザ入力（例えば、図１ｂを参照して説明された入力）によって識別できる。第Ｎの画像１２０－Ｎに対応する領域１４０－Ｎは、第１の画像１２０－１の領域１４０－１に含まれる１つ又はそれ以上の特徴点と、第Ｎの画像１２０－Ｎに含まれる特徴点との比較に基づいて識別することができる。第ｋの画像１２０－ｋに対応する領域５２０は、図５ａ～図５ｂを参照して説明した補間に基づいて取得することができる。例えば、電子装置は、領域１４０－１、１４０－Ｎの補間に基づいて、第ｋの画像１２０－ｋの領域５２０の位置を識別することができる。

【0098】

図７の例示的なケース内で、ビデオ１２０によって表される外部オブジェクトの非線形的な動きに基づいて、補間によって線形に取得された領域５２０の位置が、第ｋの画像１２０－ｋ内で外部オブジェクトに関連する位置から離隔されてもよい。一実施形態によれば、電子装置のプロセッサは、図６の動作６５４に基づいて、第ｋの画像１２０－ｋに含まれる特徴点を、他の画像（例えば、第１の画像１２０－１）の特徴点（例えば、第１の画像１２０－１の領域１４０－１内の特徴点）と比較して、補間によって識別される領域５２０を変更することができる。図７を参照すると、プロセッサは、特徴点の比較に基づいて、第ｋの画像１２０－ｋ内で外部オブジェクトに関連する領域を、領域５２０から領域７２０に変更することができる。プロセッサが、補間によって取得された領域５２０を、領域７２０に変更及び／又は移動することは、図６の動作６５４に基づいて実行することができる。

【0099】

図７の例示的なケース内で、プロセッサは、第ｋの画像１２０－ｋに対する領域５２０の変更を示す入力を識別することができる。例えば、プロセッサは、ディスプレイ（例えば、図２のディスプレイ２３０）を介して、第ｋの画像１２０－ｋを表示している状態で、第ｋの画像１２０－ｋに対応するラベリング情報に基づいて、第ｋの画像１２０－ｋ上に重畳されて（ｓｕｐｅｒｉｍｐｏｓｅｄｏｎ）、外部オブジェクトの位置を示す視覚オブジェクト（例えば、バウンディングボックス）を表示することができる。視覚オブジェクトの第ｋの画像１２０－ｋ上の位置は、領域５２０に対応し得る。前記の例では、プロセッサは、視覚オブジェクトの動きを表す入力を識別することができる。この入力に基づいて、プロセッサは、第ｋの画像１２０－ｋに対応するラベリングデータを、前記入力によって移動された視覚オブジェクトの位置に基づいて調整することができる。例えば、領域５２０を領域７２０に移動する入力に基づいて、プロセッサは、ラベリングデータ内で第ｋの画像１２０－ｋ内で外部オブジェクトに関連する位置を、領域７２０の位置に変更できる。

【0100】

一実施形態によれば、電子装置のプロセッサは、第ｋの画像１２０－ｋ内で外部オブジェクトに関連する位置を変更することに基づいて、ビデオ１２０を再生するための複数の画像のシーケンス内で、第ｋの画像１２０－ｋに隣接する他の画像のラベリングデータを、前記変更された位置を用いて変更することができる。例えば、第ｋの画像１２０－ｋ内で外部オブジェクトに関連する位置を、領域５２０に関連する位置から領域７２０に関連する位置に変更した状態で、プロセッサは、第ｋの画像１２０－ｋとは異なる少なくとも１つの画像内で外部オブジェクトに関連する位置を変更することができる。例えば、プロセッサは、第１の画像１２０－１から第ｋの画像１２０－ｋの間の他の画像（例えば、第ｋ－１の画像１２０－ｋ－１）及び／又は第ｋの画像１２０－ｋから第Ｎの画像１２０－Ｎの間の他の画像（例えば、第ｋ＋１の画像１２０－ｋ＋１）に対応するラベリングデータを変更することができる。

【0101】

図７を参照すると、補間に基づいて取得されたラベリングデータによって表される第ｋの画像１２０－ｋの領域５２０を領域７２０に変更した状態で、プロセッサは、領域７２０の頂点ＡＫ２、ＢＫ２、ＣＫ２、ＤＫ２と、第１の画像１２０－１の頂点Ａ１、Ｂ１、Ｃ１、Ｄ１とを連結する線上で、第１の画像１２０－１と第ｋの画像１２０－ｋとの間の他の画像内で外部オブジェクトに関連する位置及び／又は領域を識別することができる。例えば、プロセッサは、第１の画像１２０－１の領域１４０－１及び第ｋの画像１２０－ｋの領域７２０の補間に基づいて、第１の画像１２０－１と第ｋの画像１２０－ｋとの間の画像のラベリングデータを取得することができる。同様に、この状態では、プロセッサは、領域７２０の頂点ＡＫ２、ＢＫ２、ＣＫ２、ＤＫ２と第Ｎの画像１２０－Ｎの頂点ＡＮ、ＢＮ、ＣＮ、ＤＮとを連結する線上で、第ｋの画像１２０－ｋと第Ｎの画像１２０－Ｎとの間の他の画像から外部オブジェクトに関連する位置及び／又は領域を識別することができる。

【0102】

前述したように、補間に基づいて取得されたラベリングデータによって表される、第ｋの画像１２０－ｋの領域５２０を領域７２０に変更するための入力に基づいて、電子装置１０１は、第ｋの画像１２０－ｋに隣接する他の画像（例えば、第１の画像１２０－１と第ｋの画像１２０－ｋとの間の画像及び／又は第ｋの画像１２０－ｋと第Ｎの画像１２０－Ｎとの間の他の画像）のラベリングデータをさらに調整することができる。この調整に基づいて、電子装置１０１は、ビデオ１２０に含まれる複数の画像に関するラベリング情報の精度を、前記入力を使用して改善することができる。

【0103】

前述のように、一実施形態によれば、電子装置は、ビデオ１２０に含まれる複数の画像のラベリング情報をより迅速に取得するために、特徴点のマッチング及び／又は線形補間を、選択的に複数の画像に適用できる。電子装置は、補間に基づいて、ラベリング情報を生成するための計算量及び／又は時間を短縮しながら、前記特徴点のマッチングに基づいて、ラベリング情報の精度を維持及び／又は改善することができる。

【0104】

図８は、一実施形態による、車両の自律走行システムを示すブロック図の一例を示す。

【0105】

図９及び図１０は、一実施形態による、自律走行移動体を示すブロック図の一例を示す。

【0106】

図１１は、一実施形態による、ユーザ装置に関連するゲートウェイの例を示す。

【0107】

図８は、一実施形態による、車両の自律走行システムを示すブロック図の一例を示す。

【0108】

図８による車両の自律走行システム８００は、センサ８０３、画像前処理器８０５、ディープラーニングネットワーク８０７、人工知能（ＡＩ）プロセッサ８０９、車両制御モジュール８１１、ネットワークインタフェース８１３、及び通信部８１５を含むディープラーニングネットワークであり得る。様々な実施形態では、各要素は、様々なインタフェースを介して接続することができる。例えば、センサ８０３によってセンシングされ、出力されたセンサデータは、画像前処理器８０５に供給（ｆｅｅｄ）されることができる。画像前処理器８０５によって処理されたセンサデータは、ＡＩプロセッサ８０９で実行（ｒｕｎ）されるディープラーニングネットワーク８０７に供給されてもよい。ＡＩプロセッサ８０９によって実行されるディープラーニングネットワーク８０７の出力は、車両制御モジュール８１１に供給されてもよい。ＡＩプロセッサ８０９で実行されるディープラーニングネットワーク８０７の中間結果は、ＡＩプロセッサ８０９に供給することができる。様々な実施形態では、ネットワークインタフェース８１３は、車載電子装置と通信を実行することによって、車両の自律走行のための自律走行経路情報及び／又は自律走行制御命令を、内部ブロック構成に伝達する。一実施形態では、ネットワークインタフェース８１３は、センサ８０３を介して取得したセンサデータを、外部サーバに送信するために使用され得る。いくつかの実施形態では、自律走行制御システム８００は、適切に（ａｓａｐｐｒｏｐｒｉａｔｅ）追加的な又はより少ない構成要素を含んでもよい。例えば、いくつかの実施形態では、画像前処理器８０５は、選択的（ｏｐｔｉｏｎａｌ）構成要素であり得る。別の例では、後処理構成要素（図示せず）は、出力が車両制御モジュール８１１に提供される前に、ディープラーニングネットワーク８０７の出力で、後処理を実行するために、自律走行制御システム８００内に含まれてもよい。

【0109】

いくつかの実施形態では、センサ８０３は、１つ以上のセンサを含むことができる。様々な実施形態では、センサ８０３は、車両の異なる位置に取り付けることができる。センサ８０３は、１つ以上の異なる方向に向けられてもよい。例えば、センサ８０３は、前面（ｆｏｒｗａｒｄ－ｆａｃｉｎｇ）、後面（ｒｅａｒ－ｆａｃｉｎｇ）、側面（ｓｉｄｅ－ｆａｃｉｎｇ）などの方向に向くように、車両の前（ｆｒｏｎｔ）、側（ｓｉｄｅｓ）、後（ｒｅａｒ）、及び／又はループ（ｒｏｏｆ）に取り付けることができる。いくつかの実施形態では、センサ８０３は、高ダイナミックレンジカメラ（ｈｉｇｈｄｙｎａｍｉｃｒａｎｇｅｃａｍｅｒａｓ）などの画像センサであってもよい。いくつかの実施形態では、センサ８０３は、非視覚センサ（ｎｏｎ－ｖｉｓｕａｌｓｅｎｓｏｒｓ）を含む。いくつかの実施形態では、センサ８０３は、画像センサに加えて、レーダ（ＲＡＤＡＲ）、ＬｉＤＡＲ（ＬｉｇｈｔＤｅｔｅｃｔｉｏｎＡｎｄＲａｎｇｉｎｇ）、及び／又は超音波センサを含む。いくつかの実施形態では、センサ８０３は、車両制御モジュール８１１を有する車両に取り付けられて（ｍｏｕｎｔｅｄ）いない。例えば、センサ８０３は、センサデータをキャプチャするためのディープラーニングシステムの一部として含まれ、環境又は道路に取り付けられてもよいし、及び／又は周囲の車両に取り付けられてもよい。

【0110】

いくつかの実施形態では、画像前処理器（Ｉｍａｇｅｐｒｅ－ｐｒｏｃｅｓｓｏｒ）８０５は、センサ８０３のセンサデータを前処理するために使用することができる。例えば、画像前処理器８０５は、センサデータを前処理するために、１つ又はそれ以上の構成要素にセンサデータをスプリット（ｓｐｌｉｔ）するために、及び／又は１つ又はそれ以上の構成要素を後処理するために使用することができる。いくつかの実施形態では、画像前処理器８０５は、グラフィック処理装置（ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ；ＧＰＵ）、中央処理装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ；ＣＰＵ）、画像信号プロセッサ、又は専門化された画像プロセッサ（ｓｐｅｃｉａｌｉｚｅｄｉｍａｇｅｐｒｏｃｅｓｓｏｒ）であってもよい。様々な実施形態では、画像前処理器８０５は、高ダイナミックレンジデータ（ｈｉｇｈｄｙｎａｍｉｃｒａｎｇｅｄａｔａ）を処理するためのトーンマッパー（ｔｏｎｅ－ｍａｐｐｅｒ）プロセッサであり得る。いくつかの実施形態では、画像前処理器８０５は、ＡＩプロセッサ８０９の構成要素であってもよい。

【0111】

いくつかの実施形態では、ディープラーニングネットワーク（Ｄｅｅｐｌｅａｒｎｉｎｇｎｅｔｗｏｒｋ）８０７は、自律車両を制御するための制御命令を実施するためのディープラーニングネットワークであり得る。例えば、ディープラーニングネットワーク８０７は、センサデータを使用してトレーニングされた畳み込みニューラルネットワーク（ＣＮＮ）などの人工ニューラルネットワークであり得、ディープラーニングネットワーク８０７の出力は、車両制御モジュール８１１に提供される。

【0112】

いくつかの実施形態では、人工知能（ＡＩ）プロセッサ８０９は、ディープラーニングネットワーク８０７を実行（ｒｕｎ）するためのハードウェアプロセッサであり得る。いくつかの実施形態では、ＡＩプロセッサ８０９は、センサデータに対して畳み込みニューラルネットワーク（ＣＮＮ）を介して推論（ｉｎｆｅｒｅｎｃｅ）を実行するための専門化されたＡＩプロセッサである。いくつかの実施形態では、ＡＩプロセッサ８０９は、センサデータのビット深さ（ｂｉｔｄｅｐｔｈ）のために最適化されてもよい。いくつかの実施形態では、ＡＩプロセッサ８０９は、畳み込み、内積、ベクトル、及び／又は行列演算を含むニューラルネットワークの演算などのディープラーニング演算に最適化されてもよい。いくつかの実施形態では、ＡＩプロセッサ８０９は、並列処理を効果的に実行できる複数のグラフィック処理装置（ＧＰＵ）を介して実装されてもよい。

【0113】

様々な実施形態では、ＡＩプロセッサ８０９は、ＡＩプロセッサ８０９が実行されている間に、センサ８０３から受信されたセンサデータに対してディープラーニング分析を行い、車両を少なくとも部分的に自律的に動作させるために使用された機械学習の結果を決定するために引き起こされる命令を有するＡＩプロセッサを提供するように構成されたメモリに、入出力インタフェースを介してカップリングすることができる。いくつかの実施形態では、車両制御モジュール（ＶｅｈｉｃｌｅＣｏｎｔｒｏｌＭｏｄｕｌｅ）８１１は、人工知能（ＡＩ）プロセッサ８０９から出力された車両制御のための命令を処理し、車両の様々なモジュールを制御するために、ＡＩプロセッサ８０９の出力を、各車両のモジュールを制御するための命令に変換する（ｔｒａｎｓｌａｔｅ）ために使用することができる。いくつかの実施形態では、車両制御モジュール８１１は、自律走行用の車両を制御するために用いられる。いくつかの実施形態では、車両制御モジュール８１１は、車両のステアリング及び／又は速度を調整することができる。例えば、車両制御モジュール８１１は、減速、加速、ステアリング、車線変更、車線維持などの車両の走行を制御するために使用することができる。いくつかの実施形態では、車両制御モジュール８１１は、ブレーキライト（ｂｒａｋｅｌｉｇｈｔｓ）、方向指示灯（ｔｕｒｎｓｓｉｇｎａｌｓ）、ヘッドライト（ｈｅａｄｌｉｇｈｔｓ）などの車両照明（ｖｅｈｉｃｌｅｌｉｇｈｔｉｎｇ）を制御するための制御信号を生成することができる。いくつかの実施形態では、車両制御モジュール８１１は、車両の音響システム（ｖｅｈｉｃｌｅ'ｓｓｏｕｎｄｓｙｓｔｅｍ）、車両の音声警告（ｖｅｈｉｃｌｅ'ｓａｕｄｉｏｗａｒｎｉｎｇｓ）、車両のマイクロホンシステム（ｖｅｈｉｃｌｅ'ｓｍｉｃｒｏｐｈｏｎｅｓｙｓｔｅｍ）、車両のホーンシステム（ｖｅｈｉｃｌｅ'ｓｈｏｒｎｓｙｓｔｅｍ）などの車両オーディオ関連システムを制御するために使用することができる。

【0114】

いくつかの実施形態では、車両制御モジュール８１１は、意図された目的地へのアクセス又は潜在的な衝突（ｐｏｔｅｎｔｉａｌｃｏｌｌｉｓｉｏｎ）などの走行イベントの乗客及び／又は運転者を知らせるための警告システムを含む通知システム（ｎｏｔｉｆｉｃａｔｉｏｎｓｙｓｔｅｍｓ）を制御するために使用することができる。いくつかの実施形態では、車両制御モジュール８１１は、車両のセンサ８０３などのセンサを調整するために使用されてもよい。例えば、車両制御モジュール８１１は、センサ８０３の指向方向の修正（ｍｏｄｉｆｙｉｎｇｔｈｅｏｒｉｅｎｔａｔｉｏｎ）、センサ８０３の出力解像度及び／又はフォーマットタイプの変更、キャプチャレート（ｃａｐｔｕｒｅｒａｔｅ）の増加又は減少、ダイナミックレンジ（ｄｙｎａｍｉｃｒａｎｇｅ）の調整、カメラの焦点の調整を行うことができる。さらに、車両制御モジュール８１１は、センサの動作を個別に又は集団的にオン／オフすることができる。

【0115】

いくつかの実施形態では、車両制御モジュール８１１は、フィルタの周波数の範囲を変更したり、特徴（ｆｅａｔｕｒｅｓ）及び／又はオブジェクトの検出のためのエッジ検出パラメータ（ｅｄｇｅｄｅｔｅｃｔｉｏｎｐａｒａｍｅｔｅｒ）を調整したり、ビット深さ及びチャネルを調整（ａｄｊｕｓｔｉｎｇｃｈａｎｎｅｌｓａｎｄｂｉｔｄｅｐｔｈ）したりするなどの方法で、画像前処理器８０５のパラメータを変更するために使用することができる。様々な実施形態では、車両制御モジュール８１１は、車両の自律走行及び／又は車両の運転者支援（Ｄｒｉｖｅｒａｓｓｉｓｔａｎｃｅ）機能を制御するために使用されてもよい。

【0116】

いくつかの実施形態では、ネットワークインタフェース８１３は、自律走行制御システム８００のブロック構成と通信部８１５との間の内部インタフェースを担当することができる。具体的には、ネットワークインタフェース８１３は、音声データを含むデータを受信及び／又は発信するための通信インタフェースであり得る。様々な実施形態では、ネットワークインタフェース８１３は、通信部８１５を介して音声通話を接続するか、テキストメッセージを受信及び／又は発信するか、センサデータを送信するか、自律走行システムで車両のソフトウェアを更新するか、又は車両の自律走行システムのソフトウェアを更新するために、外部のサーバと接続することができる。

【0117】

様々な実施形態では、通信部８１５は、セルラー又はＷｉＦｉ方式の様々な無線インタフェースを含むことができる。例えば、ネットワークインタフェース８１３は、通信部８１５を介して接続された外部サーバから、センサ８０３、画像前処理器８０５、ディープラーニングネットワーク８０７、ＡＩプロセッサ８０９、車両制御モジュール８１１のための動作パラメータ及び／又は命令に対する更新を受信するために使用することができる。例えば、ディープラーニングネットワーク８０７の機械学習モデルは、通信部８１５を用いて更新することができる。さらに別の例によれば、通信部８１５は、画像処理パラメータなどの画像前処理器８０５の動作パラメータ及び／又はセンサ８０３のファームウェアを更新するために使用されてもよい。

【0118】

別の実施形態では、通信部８１５は、事故又は事故が発生する恐れのある（ｎｅａｒ－ａｃｃｉｄｅｎｔ）イベントで、緊急サービス（ｅｍｅｒｇｅｎｃｙｓｅｒｖｉｃｅｓ）と緊急連絡（ｅｍｅｒｇｅｎｃｙｃｏｎｔａｃｔ）のための通信を活性化するために使用することができる。例えば、衝突イベントでは、通信部８１５は、支援のための緊急サービスを呼び出すために使用され、衝突の詳細及び車両の位置の緊急サービスを外部に通知するために使用され得る。様々な実施形態では、通信部８１５は、予想到着時刻及び／又は目的地の位置を更新又は取得することができる。

【0119】

一実施形態によれば、図８に示す自律走行システム８００は、車両の電子装置で構成されてもよい。一実施形態によれば、自律走行システム８００のＡＩプロセッサ８０９は、車両の自律走行時に、ユーザから自律走行解除イベントが発生した場合、自律走行解除イベント関連情報を、ディープラーニングネットワークのトレーニングセットデータに入力するように制御することによって、車両の自律走行ソフトウェアを学習させるように制御することができる。

【0120】

図９及び図１０は、一実施形態による、自律走行移動体を示すブロック図の一例を示す。図９を参照すると、本実施形態による自律走行移動体９００は、制御装置１０００、センシングモジュール９０４ａ、９０４ｂ、９０４ｃ、９０４ｄ、エンジン９０６、及びユーザインタフェース９０８を含むことができる。

【0121】

自律走行移動体９００は、自律走行モード又はマニュアルモードを備えることができる。一例として、ユーザインタフェース９０８を介して受信されたユーザ入力に従って、マニュアルモードから自律走行モードに切り替えても、又は自律走行モードからマニュアルモードに切り替えてもよい。

【0122】

移動体９００が自律走行モードで運行される場合、自律走行移動体９００は、制御装置１０００の制御下で運行することができる。

【0123】

本実施形態では、制御装置１０００は、メモリ１０２２とプロセッサ１０２４とを含むコントローラ１０２０、センサ１０１０、通信装置１０３０、オブジェクト検出装置１０４０を含むことができる。

【0124】

ここで、オブジェクト検出装置１０４０は、距離測定装置（例えば、電子装置１０１）の全部又は一部の機能を実行することができる。

【0125】

すなわち、本実施形態では、オブジェクト検出装置１０４０は、移動体９００の外側に位置するオブジェクを検出するための装置であり、オブジェクト検出装置１０４０は、移動体９００の外側に位置するオブジェクを検出し、検出結果に応じたオブジェクト情報を生成することができる。

【0126】

オブジェクト情報は、オブジェクトの存在の有無に関する情報、オブジェクトの位置情報、移動体とオブジェクトとの距離情報、及び移動体とオブジェクトとの相対速度情報を含むことができる。

【0127】

オブジェクトは、車線、他の車両、歩行者、交通信号、光、道路、構造物、過速度防止顎、地形物、動物など、移動体９００の外側に位置する様々なオブジェクトを含むことができる。ここで、交通信号は、交通信号灯、交通標識、道路面に描かれた文様又はテキストを含む概念であり得る。そして、光は、他の車両に設けられたランプから生成された光であってもよく、街灯で生成された光であっても、太陽光であってもよい。

【0128】

そして、構造物は、道路の周りに位置し、地面に固定された物体であり得る。例えば、構造物は、街灯、街路樹、建物、電柱、信号灯、橋を含むことができる。地形物は、山、丘などを含み得る。

【0129】

そのようなオブジェクト検出装置１０４０は、カメラモジュールを含むことができる。コントローラ１０２０は、カメラモジュールで撮影された外部画像から、オブジェクト情報を抽出し、その情報をコントローラ１０２０に処理させることができる。

【0130】

また、オブジェクト検出装置１０４０は、外部環境を認識するための撮像装置をさらに含んでもよい。ＬＩＤＡＲに加えて、ＲＡＤＡＲ、ＧＰＳ装置、走行距離測定装置（Ｏｄｏｍｅｔｒｙ）及び他のコンピュータビジョン装置、超音波センサ、赤外線センサなどを使用することができ、これらの装置は、必要に応じて、選択又は同時に動作し、より正確な感知を可能にする。

【0131】

一方、本発明の一実施形態に係る距離測定装置は、自律走行移動体９００とオブジェクトとの間の距離を算出し、自律走行移動体９００の制御装置１０００と連携して算出された距離に基づいて、移動体の動作を制御することができる。

【0132】

一例として、自律走行移動体９００とオブジェクトとの間の距離に応じて追突する可能性のある場合、自律走行移動体９００は、速度を低下又は停止するように、ブレーキを制御することができる。別の例として、オブジェクトが移動するオブジェクトである場合、自律走行移動体９００は、オブジェクトと所定の距離以上を維持するように、自律走行移動体９００の走行速度を制御することができる。

【0133】

本発明の一実施形態による距離測定装置は、自律走行移動体９００の制御装置１０００内の一モジュールで構成することができる。すなわち、制御装置１０００のメモリ１０２２とプロセッサ１０２４とが、本発明による追突防止方法をソフトウェア的に実現させることができる。

【0134】

また、センサ１０１０は、移動体の内部／外部環境をセンシングモジュール９０４ａ、９０４ｂ、９０４ｃ、９０４ｄと接続して、各種のセンシング情報を取得することができる。ここで、センサ１０１０は、姿勢センサ（例えば、ヨーセンサ（ｙａｗｓｅｎｓｏｒ）、ロールセンサ（ｒｏｌｌｓｅｎｓｏｒ）、ピッチセンサ（ｐｉｔｃｈｓｅｎｓｏｒ）、衝突センサ、ホイールセンサ（ｗｈｅｅｌｓｅｎｓｏｒ）、速度センサ、傾斜センサ、重量感知センサ、ヘディングセンサ（ｈｅａｄｉｎｇｓｅｎｓｏｒ）、ジャイロセンサ（ｇｙｒｏｓｅｎｓｏｒ）、ポジションモジュール（ｐｏｓｉｔｉｏｎｍｏｄｕｌｅ）、移動体前進／後進センサ、バッテリセンサ、燃料センサ、タイヤセンサ、ハンドル回転によるステアリングセンサ、移動体内部温度センサ、移動体内部湿度センサ、超音波センサ、照度センサ、加速ペダルポジションセンサ、ブレーキペダルポジションセンサなどを含むことができる。

【0135】

これにより、センサ１０１０は、移動体姿勢情報、移動体衝突情報、移動体方向情報、移動体位置情報（ＧＰＳ情報）、移動体角度情報、移動体速度情報、移動体加速度情報、移動体傾き情報、移動体前進／後進情報、バッテリー情報、燃料情報、タイヤ情報、移動体ランプ情報、移動体内部温度情報、移動体内部湿度情報、ステアリングホイール回転角度、移動体外部照度、アクセルペダルにかかる圧力、ブレーキペダルにかかる圧力などに対するセンシング信号を取得することができる。

【0136】

また、センサ１０１０は、その他、加速ペダルセンサ、圧力センサ、エンジン回転速度センサ（ｅｎｇｉｎｅｓｐｅｅｄｓｅｎｓｏｒ）、空気流量センサ（ＡＦＳ）、吸気温度センサ（ＡＴＳ）、水温センサ（ＷＴＳ）、スロットル位置センサ（ＴＰＳ）、ＴＤＣセンサ、クランク角センサ（ＣＡＳ）などをさらに含んでもよい。

【0137】

このように、センサ１０１０は、センシングデータに基づいて、移動体状態情報を生成することができる。

【0138】

無線通信装置１０３０は、自律走行移動体９００間の無線通信を実施するように構成される。例えば、ユーザの携帯電話、又は他の無線通信装置１０３０、他の移動体、中央装置（交通制御装置）、サーバなどと自律走行移動体９００とが通信できるようにする。無線通信装置１０３０は、接続無線プロトコルに従って、無線信号を送受信することができる。無線通信プロトコルは、Ｗｉ‐Ｆｉ、Ｂｌｕｅｔｏｏｔｈ、ＬＴＥ（Ｌｏｎｇ－ＴｅｒｍＥｖｏｌｕｔｉｏｎ）、ＣＤＭＡ（ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ）、ＷＣＤＭＡ（ＷｉｄｅｂａｎｄＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ）、ＧＳＭ（ＧｌｏｂａｌＳｙｓｔｅｍｓｆｏｒＭｏｂｉｌｅＣｏｍｍｕｎｉｃａｔｉｏｎｓ）であり、通信プロトコルは、これに限定されない。

【0139】

また、本実施形態における自律走行移動体９００は、無線通信装置１０３０を介して、移動体間の通信を実現することも可能である。すなわち、無線通信装置１０３０は、車両対車両間（Ｖ２Ｖ）通信（ｖｅｈｉｃｌｅ－ｔｏ－ｖｅｈｉｃｌｅｃｏｍｍｕｎｉｃａｔｉｏｎ）で道路上の他の移動体や他の移動体と通信を行うことができる。自律走行移動体９００は、走行警告、交通情報などの情報を、車両間通信で送受信することができ、他の移動体に情報を要求するか、要求を受信することも可能である。例えば、無線通信装置１０３０は、Ｖ２Ｖ通信を短距離通信（ＤＳＲＣ、ｄｅｄｉｃａｔｅｄｓｈｏｒｔ－ｒａｎｇｅｃｏｍｍｕｎｉｃａｔｉｏｎ）装置又はＣ－Ｖ２Ｖ（Ｃｅｌｌｕｌａｒ－Ｖ２Ｖ）装置で行うことができる。また、車両間の通信に加えて、車両と他の物体（例えば、歩行者が携帯する電子装置など）との間の通信（Ｖ２Ｘ、ＶｅｈｉｃｌｅｔｏＥｖｅｒｙｔｈｉｎｇｃｏｍｍｕｎｉｃａｔｉｏｎ）も無線通信装置１０３０を介して実現することができる。

【0140】

本実施形態では、コントローラ１０２０は、移動体９００内の各ユニットの全体的な動作を制御するユニットであり、移動体の製造業者によって製造時に構成されてもよく、又は製造後に自律走行の機能を実行するためにさらに構成されてもよい。あるいは、製造時に構成されたコントローラ１０２０のアップグレードを通じて、継続的な追加機能を実行するための構成を含むことができる。そのようなコントローラ１０２０は、ＥＣＵ（ＥｌｅｃｔｒｏｎｉｃＣｏｎｔｒｏｌＵｎｉｔ）と呼ばれることがある。

【0141】

コントローラ１０２０は、接続されたセンサ１０１０、オブジェクト検出装置１０４０、通信装置１０３０などから各種データを収集し、収集されたデータに基づいて、制御信号を移動体内の他の構成を含むセンサ１０１０、エンジン９０６、ユーザインタフェース９０８、通信装置１０３０、オブジェクト検出装置１０４０に伝達することができる。また、図示されていないが、移動体の走行に関連する加速装置、ブレーキングシステム、操舵装置、又はナビゲーション装置にも制御信号を伝達することができる。

【0142】

本実施形態では、コントローラ１０２０は、エンジン９０６を制御することができ、例えば、自律走行移動体９００が走行中の道路の制限速度を検出し、走行速度が制限速度を超えないように、エンジン９０６を制御するか、又は制限速度を超えない範囲内で、自律走行移動体９００の走行速度を加速するように、エンジン９０６を制御することができる。

【0143】

また、コントローラ１０２０は、自律走行移動体９００の走行中に、自律走行移動体９００が車線に近接するか、車線を逸脱している場合、そのような車線の近接及び離脱が正常の走行状況に応じたものか、その他の走行状況に応じたか否かを判断し、判断結果に応じて、移動体の走行を制御するように、エンジン９０６を制御することができる。具体的には、自律走行移動体９００は、移動体が走行中の車路の両側に形成された車線を検出することができる。この場合、コントローラ１０２０は、自律走行移動体９００が車線に近接するか、車線を離脱しているかを判断し、自律走行移動体９００が車線に近接するか、車線を離脱していると判断すると、このような走行が正確な走行状況によるのか、又はその他の走行状況によるのかを判断することができる。ここで、正常の走行状況の例として、移動体の車路変更が必要な状況であり得る。そして、他の走行状況の例として、移動体の車路変更が必要でない状況であり得る。コントローラ１０２０は、移動体の車路変更を必要としない状況で、自律走行移動体９００が車線に近いか、車線を離脱していると判断した場合、自律走行移動体９００が車線を離脱せずに、その移動体で正常に走行するように、自律走行移動体９００の走行を制御することができる。

【0144】

移動体の前方に他の移動体又は妨害物が存在する場合には、走行移動体を減速するように、エンジン９０６又はブレーキングシステムを制御することができ、速度に加えて、軌跡、運行経路、操舵角を制御することができる。あるいは、コントローラ１０２０は、移動体の走行車線、走行信号などの他の外部環境の認識情報に応じて、必要な制御信号を生成して、移動体の走行を制御してもよい。

【0145】

コントローラ１０２０は、自らの制御信号の生成に加えて、周辺移動体又は中央サーバとの通信を行い、受信した情報を介して、周辺装置を制御するための命令を送信することによって、移動体の走行を制御することも可能である。

【0146】

また、コントローラ１０２０は、カメラモジュール１０５０の位置が変更されるか、画角が変更された場合、本実施形態による正確な移動体又は車線認識が困難な場合があるので、これを防止するために、カメラモジュール１０５０のキャリブレーション（ｃａｌｉｂｒａｔｉｏｎ）を実行するように制御する制御信号を生成することもできる。したがって、本実施形態では、コントローラ１０２０は、カメラモジュール１０５０でキャリブレーション制御信号を生成することにより、自律走行移動体９００の移動に伴って発生する振動や衝撃等により、カメラモジュール１０５０の装着位置が変更されても、カメラモジュール１０５０の正常な装着位置、方向、画角などを継続的に維持することができる。コントローラ１０２０は、予め記憶されたカメラモジュール１０５０の初期装着位置、方向、画角情報と、自律走行移動体９００の走行中に測定されるカメラモジュール１０５０の初期装着位置、方向、画角情報等が、臨界値以上に変化した場合、カメラモジュール１０５０のキャリブレーションを実行するように、制御信号を生成することができる。

【0147】

本実施形態では、コントローラ１０２０は、メモリ１０２２とプロセッサ１０２４とを含むことができる。プロセッサ１０２４は、コントローラ１０２０の制御信号に従って、メモリ１０２２に記憶されたソフトウェアを実行することができる。具体的には、コントローラ１０２０は、本発明による車線検出方法を行うためのデータ及び命令をメモリ１０２２に格納し、この命令は、本明細書に開示された１つ又はそれ以上の方法を実施するために、プロセッサ１０２４によって実行され得る。

【0148】

このとき、メモリ１０２２は、不揮発性のプロセッサ１０２４で実行可能な記録媒体に記憶されてもよい。メモリ１０２２は、適切な内外部装置を介して、ソフトウェア及びデータを格納することができる。メモリ１０２２は、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、ハードディスク、及びドングルに接続されたメモリ１０２２装置から構成することができる。

【0149】

メモリ１０２２は、オペレーティングシステム（ＯＳ、Ｏｐｅｒａｔｉｎｇｓｙｓｔｅｍ）、ユーザアプリケーション、実行可能な命令を少なくとも格納することができる。メモリ１０２２は、アプリケーションデータ、配列データ構造も格納することができる。

【0150】

プロセッサ１０２４は、マイクロプロセッサ又は適切な電子プロセッサで、コントローラ、マイクロコントローラ、又はステートマシンであり得る。

【0151】

プロセッサ１０２４は、コンピューティングデバイスの組み合わせで実装することができ、コンピューティングデバイスは、デジタル信号プロセッサ、マイクロプロセッサ、又はそれらの適切な組み合わせで構成することができる。

【0152】

一方、自律走行移動体９００は、前述した制御装置１０００へのユーザの入力のためのユーザインタフェース９０８をさらに含んでもよい。ユーザインタフェース９０８は、適切な相互作用でユーザに情報を入力させることができる。例えば、タッチスクリーン、キーパッド、操作ボタンなどで実施することができる。ユーザインタフェース９０８は、入力又は命令をコントローラ１０２０に送信し、コントローラ１０２０は、入力又は命令に応答して、移動体の制御動作を実行することができる。

【0153】

また、ユーザインタフェース９０８は、自律走行移動体９００の外部の装置で、無線通信装置１０３０を介して、自律走行移動体９００と通信を行うことができる。例えば、ユーザインタフェース９０８は、携帯電話、タブレット、又は他のコンピュータ装置と連動可能にすることができる。

【0154】

さらに、本実施形態では、自律走行移動体９００は、エンジン９０６を含むものとして説明したが、他のタイプの推進システムを含むことも可能である。例えば、移動体は、電気エネルギーで運転することができ、水素エネルギー又はそれらを組み合わせたハイブリッドシステムを介して運転することができる。したがって、コントローラ１０２０は、自律走行移動体９００の推進システムによる推進メカニズムを含み、これによる制御信号を、各推進メカニズムの構成に提供することができる。

【0155】

以下、図１０を参照して、本実施形態による制御装置１０００の詳細構成についてより詳細に説明する。

【0156】

制御装置１０００は、プロセッサ１０２４を含む。プロセッサ１０２４は、汎用シングルチップ又はマルチチップマイクロプロセッサ、専用マイクロプロセッサ、マイクロコントローラ、プログラマブルゲートアレイなどであり得る。プロセッサは、中央処理装置（ＣＰＵ）と呼ばれることがある。また、本実施形態では、プロセッサ１０２４は、複数のプロセッサの組み合わせで使用することも可能である。

【0157】

制御装置１０００はまた、メモリ１０２２を含む。メモリ１０２２は、電子情報を格納することができる任意の電子構成要素であり得る。メモリ１０２２も、単一のメモリに加えて、メモリ１０２２の組み合わせを含むことができる。

【0158】

本発明による距離測定装置の距離測定方法を実行するためのデータ及び命令１０２２ａは、メモリ１０２２に記憶されてもよい。プロセッサ１０２４が命令１０２２ａを実行するとき、命令１０２２ａ及び命令の実行に必要なデータ１０２２ｂの全部又は一部が、プロセッサ１０２４上にロード１０２４ａ、１０２４ｂされてもよい。

【0159】

制御装置１０００は、信号の送信及び受信を可能にするための送信機１０３０ａ、受信機１０３０ｂ、又はトランシーバ１０３０ｃを含んでもよい。１つ以上のアンテナ１０３２ａ、１０３２ｂは、送信機１０３０ａ、受信機１０３０ｂ、又は各トランシーバ１０３０ｃに電気的に接続されてもよく、さらにアンテナを含んでもよい。

【0160】

制御装置１０００は、デジタル信号プロセッサ（ＤＳＰ）１０７０を含んでもよい。ＤＳＰ１０７０を介して、移動体がデジタル信号を迅速に処理できるようにすることができる。

【0161】

制御装置１０００は、通信インタフェース１０８０を含んでもよい。通信インタフェース１０８０は、他の装置を制御装置１０００に接続するための１つ以上のポート及び／又は通信モジュールを含んでもよい。通信インタフェース１０８０は、ユーザと制御装置１０００とが相互作用することを可能にすることができる。

【0162】

制御装置１０００の様々な構成は、一緒に１つ以上のバス１０９０によって接続されてもよく、バス１０９０は、電力バス、制御信号バス、状態信号バス、データバスなどを含むこともできる。プロセッサ１０２４の制御に応じて、構成は、バス１０９０を介して相互情報を伝達し、所望の機能を実行させることができる。

【0163】

一方、様々な実施形態では、制御装置１０００は、セキュリティクラウドとの通信のために、ゲートウェイに関連付けられてもよい。例えば、図１１を参照すると、制御装置１０００は、車両１１００の構成要素１１０１～１１０４のうち少なくとも１つから取得された情報を、セキュリティクラウド１１０６に提供するためのゲートウェイ１１０５に関連付けられてもよい。例えば、ゲートウェイ１１０５は、制御装置１０００内に含まれてもよい。別の例では、ゲートウェイ１１０５は、制御装置１０００と区別される車両１１００内の別々の装置から構成されてもよい。ゲートウェイ１１０５は、異なるネットワークを有するソフトウェア管理クラウド１１０９、セキュリティクラウド１１０６、及び車載セキュリティソフトウェア１１１０によって保護された車両１１００内のネットワークを通信可能に接続する。

【0164】

例えば、構成要素１１０１は、センサであり得る。例えば、このセンサは、車両１１００の状態又は車両１１００の周囲の状態のうち少なくとも１つに関する情報を取得するために用いられ得る。例えば、構成要素１１０１は、センサ１４１０を含むことができる。

【0165】

例えば、構成要素１１０２は、ＥＣＵ（ｅｌｅｃｔｒｏｎｉｃｃｏｎｔｒｏｌｕｎｉｔ）であってもよい。例えば、ＥＣＵは、エンジン制御、変速機の制御、エアバッグの制御、タイヤ空気圧管理に使用することができる。

【0166】

例えば、構成要素１１０３は、インストルメントクラスタ（ｉｎｓｔｒｕｍｅｎｔｃｌｕｓｔｅｒ）であり得る。例えば、インストルメントクラスタは、ダッシュボード（ｄａｓｈｂｏａｒｄ）のうち運転席の正面に配置されたパネルを意味することがある。例えば、インストルメントクラスタは、運転に必要な情報を運転者（又は搭乗者）に表示するように構成されてもよい。例えば、インストルメントクラスタは、エンジンの１分当たりの回転数（ＲＰＭ、ｒｅｖｏｌｕｔｉｏｎｓｐｅｒｍｉｎｕｔｅ、又はｒｏｔａｔｅｐｅｒｍｉｎｕｔｅ）を指示するための視覚要素、車両１１００の速度を指示するための視覚要素、残留燃料量を指示するための視覚要素、歯車の状態を指示するための視覚要素、又は構成要素１１０１を介して取得された情報を指示するための視覚要素のうち少なくとも１つを表示するために使用することができる。

【0167】

例えば、構成要素１１０４は、テレマティクス（ｔｅｌｅｍａｔｉｃｓ）装置であり得る。例えば、このテレマティックス装置は、無線通信技術とＧＰＳ（ｇｌｏｂａｌｐｏｓｉｔｉｏｎｉｎｇｓｙｓｔｅｍ）技術とを組み合わせて、車両１１００内で位置情報、安全運転などの様々な移動通信サービスを提供する装置を意味することができる。例えば、テレマティックス装置は、運転者、クラウド（例えば、セキュリティクラウド１１０６）、及び／又は周辺環境と車両１１００とを接続するために使用することができる。例えば、前記テレマティックス装置は、５ＧＮＲ規格の技術（例えば、５ＧＮＲのＶ２Ｘ技術）のために、高帯域幅及び低遅延をサポートするように構成されてもよい。例えば、前記テレマティックス装置は、車両１１００の自律走行をサポートするように構成されてもよい。

【0168】

例えば、ゲートウェイ１１０５は、車両１１００内のネットワークと車両外のネットワークであるソフトウェア管理クラウド１１０９とセキュリティクラウド１１０６とを接続するために使用することができる。例えば、ソフトウェア管理クラウド１１０９は、車両１１００の走行及び管理に必要な少なくとも１つのソフトウェアを更新又は管理するために使用することができる。例えば、ソフトウェア管理クラウド１１０９は、車両内に設置された車載セキュリティソフトウェア（ｉｎ－ｃａｒｓｅｃｕｒｉｔｙｓｏｆｔｗａｒｅ）１１１０と連動することができる。例えば、車載セキュリティソフトウェア１１１０は、車両１１００内のセキュリティ機能を提供するために使用され得る。例えば、車載セキュリティソフトウェア１１１０は、車内ネットワークの暗号化のために、外部の認証された（ａｕｔｈｏｒｉｚｅｄ）サーバから取得した暗号化キーを用いて、車内ネットワークを介して送受信されるデータを暗号化することができる。様々な実施形態において、車載セキュリティソフトウェア１１１０によって使用される暗号化キーは、車両の識別情報（車両ナンバープレート、車ＶＩＮ（ｖｅｈｉｃｌｅｉｄｅｎｔｉｆｉｃａｔｉｏｎｎｕｍｂｅｒ））又はユーザごとに一意に付与された情報（ユーザ識別情報など）に対応して生成することができる。

【0169】

様々な実施形態では、ゲートウェイ１１０５は、前記暗号化キーに基づいて、車載セキュリティソフトウェア１１１０によって暗号化されたデータを、ソフトウェア管理クラウド１１０９及び／又はセキュリティクラウド１１０６に送信することができる。ソフトウェア管理クラウド１１０９及び／又はセキュリティクラウド１１０６は、車載セキュリティソフトウェア１１１０の暗号化キー（ＥｎｃｒｙｐｔｉｏｎＫｅｙ）によって暗号化された前記データを復号することができる復号キー（ＤｅｃｒｙｐｔｉｏｎＫｅｙ）を用いて復号することによって、前記データがどの車両又はどのユーザから受信したデータであるかを識別することができる。例えば、この復号キーは、前記暗号化キーに対応する固有のキーであるため、ソフトウェア管理クラウド１１０９及び／又はセキュリティクラウド１１０６は、前記復号キーを介して復号されたデータに基づいて、前記データの送信主体（例えば、車両又はユーザ）を識別することができる。

【0170】

例えば、ゲートウェイ１１０５は、車載セキュリティソフトウェア１１１０をサポートするように構成されており、制御装置１０００と関連付けられてもよい。例えば、ゲートウェイ１１０５は、セキュリティクラウド１１０６に接続されたクライアント装置１１０７と制御装置１０００との間の接続をサポートするために、制御装置１０００に関連付けられてもよい。別の例では、ゲートウェイ１１０５は、セキュリティクラウド１１０６に接続されたサードパーティクラウド１１０８と制御装置１０００との間の接続をサポートするために、制御装置１０００に関連付けられてもよい。しかし、これに限定されない。

【0171】

様々な実施形態では、ゲートウェイ１１０５は、車両１１００のオペレーティングソフトウェアを管理するためのソフトウェア管理クラウド１１０９と車両１１００とを接続するために使用することができる。例えば、ソフトウェア管理クラウド１１０９は、車両１１００のオペレーティングソフトウェアの更新が要求されるか否かをモニタリングし、車両１１００のオペレーティングソフトウェアの更新が要求されたことをモニタリングすることに基づいて、ゲートウェイ１１０５を介して、車両１１００のオペレーティングソフトウェアを更新するためのデータを提供することができる。別の例として、ソフトウェア管理クラウド１１０９は、車両１１００のオペレーティングソフトウェアの更新を要求するユーザ要求を、車両１１００からゲートウェイ１１０５を介して受信し、この受信に基づいて、車両１１００のオペレーティングソフトウェアを更新するためのデータを提供することができる。しかし、これに限定されない。

【0172】

図１２は、一実施形態による、学習データのセットに基づいて、ニューラルネットワークをトレーニングする電子装置１０１の動作を説明するための図である。図１２を参照して説明される動作は、図１ａ～図１１の電子装置によって実行することができる。

【0173】

図１２を参照すると、動作１２０２において、一実施形態による電子装置は、学習データのセットを取得することができる。電子装置は、教師あり学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）のための学習データのセットを取得することができる。学習データは、入力データとこの入力データに対応する基底トゥルース（ｇｒｏｕｎｄｔｒｕｔｈ）データのペア（ｐａｉｒ）を含むことができる。基底トゥルースデータは、この基底トゥルースデータのペアである入力データを受信したニューラルネットワークから取得しようとする出力データを表すことができる。前記基底トゥルースデータは、図１ａ～図１２を参照して説明した電子装置によって取得することができる。

【0174】

例えば、画像を認識するために、ニューラルネットワークをトレーニングする場合、学習データは、画像及び該画像に含まれる１つ又はそれ以上の被写体に関する情報を含むことができる。前記情報は、画像を介して識別可能な被写体の分類（ｃａｔｅｇｏｒｙ又はｃｌａｓｓ）を含んでもよい。前記情報は、画像内で、被写体に対応する視覚オブジェクトの位置、幅、高さ、及び／又はサイズを含み得る。動作１２０２を通じて識別される学習データのセットは、複数の学習データのペアを含んでもよい。画像を認識するために、ニューラルネットワークをトレーニングする前記の例では、電子装置によって識別される学習データのセットは、複数の画像及び該複数の画像のそれぞれに対応する基底トゥルースデータを含むことができる。

【0175】

図１２を参照すると、動作１２０４において、一実施形態による電子装置は、学習データのセットに基づいて、ニューラルネットワークのトレーニングを実行することができる。ニューラルネットワークが教師あり学習に基づいてトレーニングされる一実施形態では、電子装置は、学習データに含まれる入力データを、前記ニューラルネットワークの入力層に入力することができる。前記入力層を含むニューラルネットワークの一例を、図１３を参照して説明する。入力層を介して、前記入力データを受信したニューラルネットワークの出力層から、電子装置は、前記入力データに対応するニューラルネットワークの出力データを取得することができる。

【0176】

一実施形態では、動作１２０４のトレーニングは、前記出力データと、前記学習データに含まれ、前記入力データに対応する基底トゥルースデータとの間の差に基づいて実行されてもよい。例えば、電子装置は、傾斜降下アルゴリズム（ｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ）に基づいて、前記差が減少するように、前記ニューラルネットワークに関連する１つ又はそれ以上のパラメータ（例えば、図１３を参照して後述する重み）を調整することができる。前記１つ以上のパラメータを調整する電子装置の動作は、ニューラルネットワークへのチューニングと呼ばれることがある。電子装置は、出力データに基づくニューラルネットワークのチューニングを、コスト関数（ｃｏｓｔｆｕｎｃｔｉｏｎ）など、ニューラルネットワークの性能を評価するために定義された関数を用いて実行することができる。前述の出力データと基底トゥルースデータとの間の差は、コスト関数の一例として含まれてもよい。

【0177】

図１２を参照すると、動作１２０６において、一実施形態による電子装置は、動作１２０４によってトレーニングされたニューラルネットワークから、有効な出力データが出力されたか否かを識別することができる。出力データが有効であるということは、出力データと基底トゥルースデータとの間の差（又はコスト関数）が、前記ニューラルネットワークを使用するために設定された条件を満たすことを意味することができる。例えば、出力データと基底トゥルースデータとの間の差の平均値及び／又は最大値が、指定された閾値以下である場合、電子装置は、有効な出力データがニューラルネットワークから出力されると決定することができる。

【0178】

ニューラルネットワークから有効な出力データが出力されない場合（動作１２０６－ＮＯ）、電子装置は、動作１２０４に基づくニューラルネットワークのトレーニングを繰り返し実行することができる。実施形態は、これに限定されず、電子装置は、動作１２０２、１２０４を繰り返し実行することができる。

【0179】

ニューラルネットワークから有効な出力データを取得した状態で（動作１２０６‐ＹＥＳ）、動作１２０８に基づいて、一実施形態による電子装置は、トレーニングされたニューラルネットワークを使用することができる。例えば、電子装置は、学習データとして、前記ニューラルネットワークに入力された入力データと区別された他の入力データを、ニューラルネットワークに入力することができる。前記他の入力データを受信したニューラルネットワークから取得した出力データを、電子装置は、ニューラルネットワークに基づいて、前記他の入力データの推論を行った結果として利用することができる。

【0180】

図１３は、一実施形態による、電子装置１０１のブロック図である。図１３の電子装置１０１は、図１ａ～図１１の電子装置を含んでもよい。例えば、図１２を参照して説明した動作は、図１３の電子装置１０１及び／又は図１３のプロセッサ１３１０によって実行することができる。

【0181】

図１３を参照すると、電子装置１０１のプロセッサ１３１０は、メモリ１３２０に格納されたニューラルネットワーク１３３０に関連する計算（ｃｏｍｐｕｔａｔｉｏｎｓ）を実行することができる。プロセッサ１３１０は、ＣＰＵ（ｃｅｎｔｅｒｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、ＧＰＵ（ｇｒａｐｈｉｃｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、又はＮＰＵ（ｎｅｕｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）のうち少なくとも１つを含んでもよい。ＮＰＵは、ＣＰＵとは別のチップとして実装されてもよく、又はＳｏＣ（ｓｙｓｔｅｍｏｎａｃｈｉｐ）の形態でＣＰＵなどのチップに集積され（ｉｎｔｅｇｒａｔｅｄ）てもよい。ＣＰＵに集積された（ｉｎｔｅｇｒａｔｅｄ）ＮＰＵは、ニューラルコア及び／又はＡＩ（ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）アクセラレータと呼ばれることがある。

【0182】

図１３を参照すると、プロセッサ１３１０は、メモリ１３２０に格納されたニューラルネットワーク１３３０を識別することができる。ニューラルネットワーク１３３０は、入力層（Ｉｎｐｕｔｌａｙｅｒ）１３３２、１つ以上の隠れ層（Ｈｉｄｄｅｎｌａｙｅｒｓ）１３３４（又は中間層（Ｉｎｔｅｒｍｅｄｉａｔｅｌａｙｅｒｓ））、及び出力層（Ｏｕｔｐｕｔｌａｙｅｒｓ）１３３６の結合を含むことができる。前述の層（例えば、入力層１３３２、１つ以上の隠れ層１３３４、及び出力層１３３６）は、複数のノードを含むことができる。隠れ層１３３４の数は、実施形態によって変わってもよく、複数の隠れ層１３３４を含むニューラルネットワーク１３３０は、ディープ（ｄｅｅｐ）ニューラルネットワークと呼ばれることがある。ディープニューラルネットワークをトレーニングする動作は、ディープラーニング（ｄｅｅｐｌｅａｒｎｉｎｇ）と呼ばれることがある。

【0183】

一実施形態では、ニューラルネットワーク１３３０が、フィードフォワードニューラルネットワーク（ｆｅｅｄｆｏｒｗａｒｄｎｅｕｒａｌｎｅｔｗｏｒｋ）の構造を有する場合、特定の層に含まれる第１のノードは、前記特定の層の以前の別の層に含まれる第２のノードのすべてに接続することができる。メモリ１３２０内で、ニューラルネットワーク１３３０のために格納されたパラメータは、第２のノードと第１のノードとの間の接続に割り当てられた（ａｓｓｉｇｎｅｄ）重み付け（ｗｅｉｇｈｔ）を含むことができる。フィードフォワードニューラルネットワークの構造を有するニューラルネットワーク１３３０において、第１のノードの値は、第２のノードと第１のノードとを接続する接続に割り当てられた重み付けに基づく、第２のノードに割り当てられた値の重み付け合（ｗｅｉｇｈｔｅｄｓｕｍ）に対応することができる。

【0184】

一実施形態では、ニューラルネットワーク１３３０が畳み込み（ｃｏｎｖｏｌｕｔｉｏｎ）ニューラルネットワークの構造を有する場合、特定の層に含まれる第１のノードは、前記特定の層の以前の別の層に含まれる第２のノードの一部に対する重み付け合に対応できる。第１のノードに対応する第２のノードのいくつかは、前記特定の層に対応するフィルタによって識別されてもよい。メモリ１３２０内で、ニューラルネットワーク１３３０のために格納されたパラメータは、前記フィルタを表す重み付けを含むことができる。フィルタは、第２のノードのうち、第１のノードの重み付け合を計算するために使用される１つ以上のノード、及び前記１つ以上のノードのそれぞれに対応する重み付けを含むことができる。

【0185】

一実施形態によれば、電子装置１０１のプロセッサ１３１０は、メモリ１３２０に記憶された学習データセット１３４０を使用して、ニューラルネットワーク１３３０に対してトレーニングを実行することができる。学習データセット１３４０に基づいて、プロセッサ１３１０は、図１２を参照して説明した動作を実行して、ニューラルネットワーク１３３０のためにメモリ１３２０に格納された１つ又はそれ以上のパラメータを調整することができる。

【0186】

一実施形態によれば、電子装置１０１のプロセッサ１３１０は、学習データセット１３４０に基づいてトレーニングされたニューラルネットワーク１３３０を用いて、オブジェクト検出、オブジェクト認識、及び／又はオブジェクト分類を実行することができる。プロセッサ１３１０は、カメラ１３５０を介して取得した画像（又はビデオ）を、ニューラルネットワーク１３３０の入力層１３３２に入力することができる。画像が入力された入力層１３３２に基づいて、プロセッサ１３１０は、ニューラルネットワーク１３３０に含まれる層のノードの値を順次取得し、出力層１３３６のノードの値のセット（例えば、出力データ）を取得することができる。前記出力データは、ニューラルネットワーク１３３０を用いて、前記画像に含まれる情報を推定した結果として使用することができる。実施形態は、これに限定されず、プロセッサ１３１０は、通信回路１３６０を介して、電子装置１０１に接続された外部電子装置から取得した画像（又はビデオ）を、ニューラルネットワーク１３３０に入力することができる。

【0187】

一実施形態では、画像を処理するためにトレーニングされたニューラルネットワーク１３３０は、前記画像内で、被写体に対応する領域を識別するか（オブジェクト検出）、及び／又は前記画像内でに表現された被写体のクラスを識別する（オブジェクト認識及び／又はオブジェクト分類）ために使用することができる。例えば、電子装置１０１は、ニューラルネットワーク１３３０を用いて、前記画像内で、前記被写体に対応する領域を、バウンディングボックスなどの矩形の形状に基づいて、分割（ｓｅｇｍｅｎｔ）することができる。例えば、電子装置１０１は、ニューラルネットワーク１３３０を用いて、複数の指定されたクラスのうち、前記被写体にマッチングする少なくとも１つのクラスを識別することができる。

【0188】

図１４は、一実施形態による電子装置のブロック図である。図１４を参照して説明される電子装置の動作は、図１ａ～図１ｂ、図２の電子装置１０１、及び／又はプロセッサ２１０によって実行することができる。

【0189】

図１４を参照すると、動作１４００内で、一実施形態による電子装置のプロセッサは、画像を取得することができる。前記画像は、カメラによって連続的に取得された画像のシーケンス（例えば、ビデオ）内で識別することができる。動作１４００の画像は、画像フレームと呼ばれることがある。

【0190】

図１４を参照すると、動作１４０２内で、一実施形態による、電子装置のプロセッサは、取得された画像内の外部オブジェクトを識別することができる。前記外部オブジェクトは、オブジェクト認識に基づいて識別することができる。例えば、電子装置は、オブジェクト認識のためにトレーニングされたニューラルネットワークに基づいて、画像内の外部オブジェクトの位置及び／又はクラスを識別することができる。

【0191】

図１４を参照すると、動作１４０４内で、一実施形態による、電子装置のプロセッサは、動作１４０２に基づいて識別された外部オブジェクトのうち車両の走行に影響を及ぼす可能性のある外部オブジェクトを分類することができる。プロセッサは、画像から識別された外部オブジェクトに対する前記可能性を、指定された閾値と比較して、動作１４０４を実行することができる。動作１４０４に基づいて、プロセッサは、指定された閾値を超える可能性のある少なくとも１つの外部オブジェクトを識別することができる。

【0192】

図１４を参照すると、動作１４０６内で、一実施形態による電子装置のプロセッサは、動作１４０４によって分類された外部オブジェクトのそれぞれに、オブジェクト識別情報を割り当てることができる。前記オブジェクト識別情報は、外部オブジェクトに一意に割り当てられる（ｕｎｉｑｕｅｌｙａｓｓｉｇｎｅｄ）識別子（又はキー値）を含むことができる。前記識別子は、自然数に基づいて割り当てられてもよい。オブジェクト識別情報は、動作１４００の画像内で外部オブジェクトの位置、クラス、及び／又は識別子のうち少なくとも１つを含んでもよい。

【0193】

図１４を参照すると、動作１４０８内で、一実施形態による電子装置のプロセッサは、画像フレームベースの線形補間方法を用いて、外部オブジェクトを追跡し始めることができる。例えば、動作１４１０内で、一実施形態による、電子装置のプロセッサは、第１の画像フレーム内で特定の識別子（例えば、１から徐々に増加する自然数ｉ）を識別子として有する外部オブジェクトを識別するすることができる。

【0194】

図１４を参照すると、動作１４１２内で、一実施形態による、電子装置のプロセッサは、動作１４１０に基づいて識別された外部オブジェクトに関する情報を格納し、ラベリングを実行することができる。ラベリングに基づいて、プロセッサは、特定の識別子のラベリングデータを取得することができる。

【0195】

図１４を参照すると、動作１４１４内で、一実施形態による、電子装置のプロセッサは、第１の画像フレームから入力された画像フレームの数だけ離隔された、第ｍの画像フレームに移動できる。動作１４１６内では、一実施形態による、電子装置のプロセッサは、第ｍの画像フレーム内で動作１４１０の自然数ｉを識別子として有する外部オブジェクトを識別することができる。動作１４１８内で、一実施形態による、電子装置のプロセッサは、第ｍの画像フレームから識別された外部オブジェクトに関する情報を格納し、ラベリングを実行することができる。

【0196】

図１４を参照すると、動作１４２０内で、一実施形態による、電子装置のプロセッサは、第１の画像フレームで格納された外部オブジェクト情報と、第ｍの画像フレームで格納された外部オブジェクト情報とを使用して、ｃ番目の画像フレーム内に存在すると予測される外部オブジェクト情報に関する情報を格納し、ラベリングを実行することができる。ここで、ｃは、１より大きく、ｍより小さい自然数であり得る。動作１４２０において、第ｃの画像フレームに対して取得される外部オブジェクト情報は、自然数ｉを識別子として有する外部オブジェクトに対応し得る。

【0197】

図１４を参照すると、動作１４２２内で、一実施形態による、電子装置のプロセッサは、取得されたすべての画像フレームの外部オブジェクト（例えば、自然数ｉを識別子として有する外部オブジェクト）のラベリング動作を完了することができる。例えば、動作１４２４内で、プロセッサは、画像フレーム内に存在するすべての外部オブジェクトに対するラベリング動作を完了したかどうかを識別することができる。すべての外部オブジェクトのラベリング動作を完了できなかった場合（１４２４－ＮＯ）、電子装置のプロセッサは、動作１４２６を実行することができる。

【0198】

図１４を参照すると、動作１４２６内で、一実施形態による、電子装置のプロセッサは、他の外部オブジェクトを識別することができる。例えば、自然数ｉの増加に基づいて、プロセッサは、自然数ｉを識別子として有する外部オブジェクトと区別される他の外部オブジェクトを識別することができる。図１４を参照すると、動作１４２８内で、一実施形態による、電子装置のプロセッサは、動作１４２６に基づいて増加した識別子が、動作１４０２に基づいて識別された外部オブジェクトの数（ｎ）を超えるかどうかを識別することができる。識別子がその個数を超えると（１４２８－ＹＥＳ）、プロセッサは、ラベリング動作を中断することがある。識別子がその個数以下の場合（１４２８－ＮＯ）、プロセッサは、動作１４２６に基づいて増加した識別子を有する外部オブジェクトに対して追跡を実行することができる。

【0199】

図１５は、本発明の一実施形態による画像内でユーザの入力によって選択された領域に関連するラベリングデータを取得する過程を説明するための図である。図１５において、参照番号１５００は、ラベリングデータを生成するための画像フレームを示し、参照番号１５０５及び１５１０は、画像フレーム１５００内に存在する外部オブジェクトをそれぞれ示す。

【0200】

参照番号１５５０は、本発明の一実施形態による外部オブジェクト１５０５、１５１０に対応するラベリングデータを生成するために、ユーザ入力によって電子装置が各外部オブジェクト１５０５、１５１０に対応するバウンディングボックス１５５５、１５６０をそれぞれ表示し、各バウンディングボックス１５５５、１５６０の横、縦サイズのピクセル値を表示することを示す。一実施形態によれば、電子装置は、図１ｂを参照して説明した動作に基づいて、バウンディングボックス１５５５、１５６０への入力を識別することができる。

【0201】

図１６は、本発明の一実施形態による画像内でオブジェクトを識別するための学習用のラベリングデータを生成する過程を説明するための図である。

【0202】

本発明の一実施形態による電子装置のプロセッサは、画像内でオブジェクトを識別するための学習用のラベリングデータを生成するために、学習の対象となる画像ファイル１６０２と、その画像ファイルに対してラベリングしたラベルファイル（ｌａｂｅｌｆｉｌｅ）１６０４を、１つのペア（ｏｎｅｐａｉｒ）として管理して、記憶装置に記憶することができる。

【0203】

図１６では、学習の対象となる画像ファイル１６０２の形式として、「ｊｐｇ」を用いたものを示しているが、これは、一実施形態に過ぎず、本発明の実施形態を限定するものではない。例えば、画像ファイル１６０２の形式として「ｐｎｇ」又は「ｇｉｆ」などの様々なビデオ圧縮形式を使用することも可能であろう。

【0204】

また、図１６は、画像ファイル１６０２に対するラベルファイル１６０４の拡張子が「ｊｓｏｎ」であることを示しているが、これは、画像ファイル１６０２内のオブジェクト（ｏｂｊｅｃｔｓ）のラベリング情報を、Ｊａｖａｓｃｒｉｐｔオブジェクト文法で構造化したデータを表現するためのフォーマットであるＪＳＯＮ（ＪａｖａＳｃｒｉｐｔＯｂｊｅｃｔＮｏｔａｔｉｏｎ）を用いる場合を説明するための一実施形態に過ぎず、本発明の実施形態を限定するものではない。例えば、ラベリングデータのフォーマットとして、ＸＭＬ（ｅＸｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）、ｃｓｖ（ｃｏｍｍａ－ｓｅｐａｒａｔｅｄｖａｌｕｅｓ）、ＣＯＣＯ（ＣｏｍｍｏｎＯｂｊｅｃｔｉｎＣｏｎｔｅｘｔ）、ＶＯＣ（ＶｉｓｕａｌＯｂｊｅｃｔＣｌａｓｓｅ）、ＴＦＲｅｃｏｒｄ（ＴｅｎｓｏｒＦｌｏｗＲｅｃｏｒｄ）などの様々な階層データ構造を表すことができるデータセットのフォーマットを使用することができ、ラベリングに使用するツール（ｔｏｏｌ）に応じて、ラベリングデータフォーマットは、変わり得る。

【0205】

図１６の参照番号１６５０は、本発明の実施形態によるオブジェクト検出（ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ）のためのラベリングデータを生成する対象である画像ファイル１６０２の一例を示す。画像フレーム１６５０は、横１２８０ピクセル（ｐｉｘｅｌ）、縦６５０ピクセル（ｐｉｘｅｌ）の大きさを有し、画像フレーム１６５０内でラベリングデータを生成するオブジェクトは、合計３個で、歩行者オブジェクト２個と車両オブジェクト１個を含む。具体的には、参照番号１６５２は、歩行者オブジェクト０に対応するバウンディングボックスを示し、参照番号１６５４は、車両オブジェクト０に対するバウンディングボックスを示し、参照番号１６５６は、歩行者オブジェクト１に対応するバウンディングボックスをそれぞれ示す。そして、図１６において、（Ｘ１、Ｙ１）と（Ｘ２、Ｙ２）は、画像フレーム１６５０内でのバウンディングボックス１６５２の位置を示すＸ軸、Ｙ軸の座標点であり、バウンディングボックス１６５２の左側上端の頂点と、右側下端の頂点とをそれぞれ表すことができる。

【0206】

また、図１６において、（Ｘ３、Ｙ３）と（Ｘ４、Ｙ４）は、画像フレーム１６５０内でのバウンディングボックス１６５４の位置を示すＸ軸、Ｙ軸の座標点であり、バウンディングボックス１６５４の左側上端の頂点と、右側下端の頂点とをそれぞれ表すことができる。そして、（Ｘ５、Ｙ５）と（Ｘ６、Ｙ６）は、画像フレーム１６５０内でのバウンディングボックス１６５６の位置を示すＸ軸、Ｙ軸の座標点であり、バウンディングボックス１６５６の左側上端の頂点と、右側下端の頂点とをそれぞれ表すことができる。

【0207】

そして、本発明の一実施形態では、図１６において、バウンディングボックス１６５２内の歩行者オブジェクトのオブジェクトクラスを「Ｐｅｄｅｓｔｒｉａｎ」と指定し、当該オブジェクトの追跡のためのオブジェクト識別子を「０」と指定し、バウンディングボックス１６５４内の車両オブジェクトのオブジェクトクラスを「ｃａｒ」と指定し、当該オブジェクトの追跡のためのオブジェクト識別子を「０」と指定し、バウンディングボックス１６５６の歩行者オブジェクトのオブジェクトクラスを「ｐｅｄｅｓｔｒｉａｎ」と指定し、当該オブジェクトを追跡するためのオブジェクト識別子を「１」と指定したことがわかる。

【0208】

図１６に示すオブジェクトクラスとオブジェクト識別子とは、一例に過ぎず、ユーザの指定に応じて異なるように設定してもよい。

【0209】

図１７は、本発明の一実施形態によって生成されたラベリングデータの階層構造を説明するための図である。図１７を参照すると、参照番号１７０２は、対象ファイルでラベリングデータを生成するために使用されるツール（Ｔｏｏｌ）に関する情報の例を示し、参照番号１７０４は、ラベリングデータに対応するファイルの経路の例を示す。参照番号１７０２のツール情報は、ラベリングに使用するツールの種類、そのツールのバージョン情報などを含むことができる。

【0210】

本発明の一実施形態によるラベリングデータを生成するためのツールは、機械学習又はディープラーニングモデリングタスクを実行する前に、学習データに特定の値を割り当てることができるソフトウェアプログラムであり、「ｌａｂｅｌｌｍｇ」、「ＣＶＡＴ（ＣｏｍｐｕｔｅｒＶｉｓｉｏｎＡｎｎｏｔａｔｉｏｎＴｏｏｌ」、「ＬａｂｅｌＭｅ」、「Ｌａｂｅｌｂｏｘ」、「ＶｏＴＴ」、「ｉｍｇｌａｂ」、「ＹＯＬＯＭａｒｋ」、「ＯｐｅｎＬａｂｅｌｉｎｇ」、「ＰｉｘｅｌＡｎｎｏｔａｔｉｏｎＴｏｏｌ」、「ｉｍａｇｅｔａｇｇｅｒ」、「Ａｌｔｕｒｏｓ．ＩｍａｇｅＡｎｎｏｔａｔｉｏｎ」、「ＤｅｅｐＬａｂｅｌ」、「ＭｅｄＴａｇｇｅｒ」、「Ｔｕｒｋｔｏｏｌｓ」、「Ｐｉｘｉｅ」、「ＯｐｅｎＬａｂｅｌｅｒ」、「Ａｎｎｏ－Ｍａｇｅ」、「ＣＡＴＭＡＩＤ」、「ｍａｋｅｓｅｎｓｅ．ａｉ」、「ＬＯＳＴ（ＬａｂｅｌＯｂｊｅｃｔａｎｄＳａｖｅＴｉｍｅ）」、「ａｎｎｏｔｏｒｉｏｕｓ」、「ｓｌｏｔｈ」などを含むことができる。しかし、これは、本発明の実施形態に過ぎず、本発明の実施形態を限定するものではない。具体的には、本発明の実施形態によるラベリングデータを生成するためのツールは、オブジェクト検出、オブジェクト識別の学習のために、画像中のＲｅｃｔａｎｇｌｅ、Ｐｏｌｙｇｏｎ、Ｌｉｎｅ、Ｐｏｉｎｔなど、様々な形状の図形を指定して、ラベリングを行い、そのバウンディングボックス関連情報を、一定の形式のデータ構造として保存できるソフトウェアプログラムであれば、可能である。また、参照番号１７０６は、ラベリングデータに対応するファイル（画像ファイル）の幅に関する情報の例、参照番号１７０８は、ラベリングデータに対応するファイル（画像ファイル）の高さに関する情報の例をそれぞれ示す。

【0211】

そして、参照番号１７５０は、ラベリングデータの対象となるデータのフラグ情報の一例である。本発明の実施形態では、ラベリングデータの対象となるデータは、画像ファイルであり、自律走行に必要なオブジェクト識別率、オブジェクト検出率が天気（曇り、晴れ、雨、雪など）、昼夜などの環境に影響を多く受けるため、フラグ情報を晴れの日（Ｓｕｎｎｙｄａｙ）、雨の日（Ｒａｉｎｙｄａｙ）、曇りの日（Ｃｌｏｕｄｙｄａｙ）と設定したが、本発明を限定するものではない。

【0212】

本発明の実施形態において、ラベリングデータの対象となる画像フレーム１６５０は、天気が晴れの日（Ｓｕｎｎｙｄａｙ）であるので、図１７では、画像フラグ１７５０に含まれるフラグのうち、晴れの日（Ｓｕｎｎｙｄａｙ）フラグは、「Ｔｒｕｅ」、雨の日（Ｒａｉｎｙｄａｙ）フラグと曇りの日（Ｃｌｏｕｄｙｄａｙ）フラグはそれぞれ、「Ｆａｌｓｅ」に割り当てられていることがわかる。即ち、図１７の参照番号１７５０に示されるデータは、一実施形態に過ぎず、オブジェクト識別率、オブジェクト検出率を高めるために使用され得る様々なフラグが存在することができる。

【0213】

図１８は、本発明の一実施形態によって生成されたラベリングデータの外部オブジェクトに関する情報の階層構造を説明するための図である。図１８の参照番号１８１０は、図１６の歩行者オブジェクト０に対応するバウンディングボックス１６５２のラベリングデータ構造を示す例である。

【0214】

参照番号１８１０のＬａｂｅｌパラメータは、バウンディングボックス１６５２内のオブジェクトが歩行者であるため、「Ｐｅｄｅｓｔｒｉａｎ」に割り当てられ、ＴｒａｃｋｉｎｇＩＤパラメータは、「０」に割り当てられ、ＳｈａｐｅＴｙｐｅパラメータは、「Ｒｅｃｔａｎｇｌｅ」に割り当てられ、Ｐｏｉｎｔｓパラメータは、バウンディングボックス１６５２の少なくとも２つの頂点座標（Ｘ１、Ｙ１）、（Ｘ２、Ｙ２）値に割り当てられる。そして、図１８において、ＬａｂｅｌＦｌａｇｓパラメータは、合計３個のサブパラメータ（補間される、隠される、切り取られる場合）を含み、この３個のサブパラメータは、バウンディングボックス１６５２内に含まれるオブジェクトが、補間されたオブジェクトであるか、他のオブジェクトによって隠されたオブジェクトであるか、一部が切り取られたオブジェクトであるかを示す。参照番号１８１０のＬａｂｅｌＦｌａｇｓのうち、「補間された」パラメータは、「Ｔｒｕｅ」に、「隠された」パラメータと「切り取られた」パラメータはともに、「Ｆａｌｓｅ」に割り当てられることを示す。

【0215】

参照番号１８３０のＬａｂｅｌパラメータは、バウンディングボックス１６５４内のオブジェクトが車両であるため、「Ｃａｒ」に割り当てられ、ＴｒａｃｋｉｎｇＩＤパラメータは、「０」に割り当てられ、ＳｈａｐｅＴｙｐｅパラメータは、「Ｒｅｃｔａｎｇｌｅ」に割り当てられ、Ｐｏｉｎｔｓパラメータは、バウンディングボックス１６５４の少なくとも２つの頂点座標値（（Ｘ３、Ｙ３）、（Ｘ４、Ｙ４））に割り当てられる。そして、参照番号１８３０のＬａｂｅｌＦｌａｇｓのうち、「補間された」パラメータ、「隠された」パラメータ、「切り取られた」パラメータは、いずれも「Ｆａｌｓｅ」に割り当てられていることを示す。

【0216】

参照番号１８５０のＬａｂｅｌパラメータは、バウンディングボックス１６５６内のオブジェクトが歩行者であるので、「Ｐｅｄｅｓｔｒｉａｎ」に割り当てられ、ＴｒａｃｋｉｎｇＩＤパラメータは、バウンディングボックス１６５６の他の歩行者オブジェクトと区別するために、「１」に割り当てられ、ＳｈａｐｅＴｙｐｅパラメータは、「Ｒｅｃｔａｎｇｌｅ」に割り当てられ、Ｐｏｉｎｔｓパラメータは、バウンディングボックス１６５６の少なくとも２つの頂点座標値（（Ｘ５、Ｙ５）、（Ｘ６、Ｙ６））に割り当てられる。そして、参照番号１８５０のＬａｂｅｌＦｌａｇｓのうち、「補間された」パラメータ、「隠された」パラメータ、「切り取られた」パラメータは、いずれも「Ｆａｌｓｅ」に割り当てられていることを示す。

【0217】

図１８に示すラベリングデータの外部オブジェクトに関する情報の階層構造に含まれる情報は、本発明の理解を容易にするために例示されており、外部オブジェクトクラスに「Ｂｕｓ」、「Ｔｒｕｃｋ」、「Ｐｉｃｋ－ＵＰＴｒｕｃｋ」、「Ｓｅｄａｎ」、「ＳＵＶ（ＳｐｏｒｔｓＵｔｉｌｉｔｙＶｅｈｉｃｌｅ）」、「Ｂｉｋｅ」、「Ｓｃｏｏｔｅｒ」、「Ｍｏｔｏｒ－Ｃｙｃｌｅ」など、車両の自律走行のために識別する必要のある外部オブジェクトを含んでもよい。

【0218】

また、図１８には、ラベリング対象のオブジェクトに対応するバウンディングボックスが、「矩形（Ｒｅｃｔａｎｇｌｅ）」として割り当てられているので、その位置座標を表すＰｏｉｎｔｓが、２つのＸ軸座標、Ｙ軸座標値のペア（ｐａｉｒ）として割り当てられるが、ＳｈａｐｅＴｙｐｅが「Ｐｏｌｙｇｏｎ」の場合は、ユーザがラベリングする対象オブジェクトの外観に沿って生成した点（ｐｏｉｎｔｓ）のＸ軸座標、Ｙ軸座標値のペアが、ユーザが生成した点の順序に応じて保存される。本発明の一実施形態により、ＳｈａｐｅＴｙｐｅが「Ｐｏｌｙｇｏｎ」の場合、Ｐｏｉｎｔｓパラメータに割り当てられる座標の例は、後述する図１９を参照して説明する。

【0219】

図１９は、本発明の一実施形態によるＳｈａｐｅＴｙｐｅが「Ｐｏｌｙｇｏｎ」の場合、Ｐｏｉｎｔｓパラメータに割り当てられる座標の一例を示す図である。図１９を参照すると、ラベリング対象の画像フレーム内の外部オブジェクトである車両１９５０に対するラベリングデータの「ＳｈａｐｅＴｙｐｅ」が「ポリゴン（Ｐｏｌｙｇｏｎ）」であり、ユーザが１番から２０番までの合計２０点（ｐｏｉｎｔｓ）を生成した場合、参照番号１９７０のように、１番から２０番までの合計２０点（ｐｏｉｎｔｓ）に該当する（Ｘ１、Ｙ１）から（Ｘ２０、Ｙ２０）までのＸ軸座標、Ｙ軸座標値のペアが割り当てられる。

【0220】

本発明で説明したラベリングデータは、ユーザのローカルコンピュータの記憶装置又はクラウドサーバの記憶装置に記憶することができる。

【0221】

図２０は、本発明の一実施形態によるニューラルネットワークの効率的なトレーニングのために、生成されたラベリングデータをトレーニングセット、検証セット、及び／又はテストセットに区分ける例を説明するための図である。

【0222】

図２０を参照すると、本発明の一実施形態による電子装置は、ラベリングデータ（ＬａｂｅｌｅｄＤａｔａ）２００５の画像フラグを分析し（２０１０）、分析された画像フラグ別にラベリングされたデータを分類することができる。

【0223】

本発明の一実施形態による電子装置のプロセッサは、参照番号２０２０のようにラベリングされたデータ２００５を、画像フラグに従って天気関連フラグ別に分類するか、時間別に分類することができる。具体的には、図２０では、ラベリングされたデータ２０１０を、天気関連フラグに従って、晴れの日（Ｓｕｎｎｙｄａｙ）、曇りの日（Ｃｌｏｕｄｙｄａｙ）、雪の日（Ｓｎｏｗｙｄａｙ）、雨の日（Ｒａｉｎｙｄａｙ）及び霧の日（Ｆｏｇｇｙｄａｙ）に分類できる。

【0224】

さらに、本発明の一実施形態による電子装置のプロセッサは、ラベリングデータ２００５を、画像フラグに応じた時間別フラグに基づいて、午前、午後、夜、日没、日出に分類することができる。

【0225】

また、本発明の一実施形態による電子装置のプロセッサは、参照番号２０２０のように分類されたラベリングデータを、ラベリングデータの量と、ユーザが予め設定した値とを比較し、その比較結果に応じて、ラベリングデータ２００５をトレーニングセット２０４２、検証セット２０４４、及び／又はテストセット２０４６に区分ける区分方式を決定することができる。このとき、ラベリングデータの区分方式を決定するための予め設定された値は、事前にユーザによって決定された値であり、検証セット２０４４を生成するのに十分に確保されるほどラベリングデータが確保されたか否かを決定するための事前経験値や実験値などによって決定することができる。

【0226】

参照番号２０４０は、ラベリングデータ２００５の量が予め設定された値より多い場合に、本発明の一実施形態による電子装置のプロセッサがラベリングデータ２００５を、トレーニングセット２０４２、検証セット２０４４及び／又はテストセット２０４６に区分ける方法の例を示す。このとき、参照番号２０４０では、ユーザが予め設定した割合に応じて、電子装置のプロセッサは、トレーニングセット２０４２、検証セット２０４４、及び／又はテストセット２０４６に区分けることができる。

【0227】

一方、参照番号２０６０は、ラベリングデータ２００５の量が予め設定された値より小さいか等しい場合に、本発明の一実施形態による電子装置のプロセッサは、ラベリングデータ２００５をトレーニングセット２０４２及びテストセット２０４６に区分ける方式の例を示す。このとき、参照番号２０６０では、ユーザが予め設定した割合に応じて、電子装置のプロセッサがトレーニングセット２０４２とテストセット２０４６とに区分され、トレーニングセット２０４２の信頼度を検証するために、ニューラルネットワークの信頼度を検証するためのアルゴリズム２０６５の１つであるＫ分割交差検証（Ｋ－ｆｏｌｄｃｒｏｓｓｖａｌｉｄａｔｉｏｎ）を使用することを示す。

【0228】

前述のように、一実施形態によれば、電子装置は、メモリ及びプロセッサを含むことができる。前記プロセッサは、前記メモリから、ビデオ用の複数の画像及び前記複数の画像のうち第１のタイミングの第１の画像内で、外部オブジェクトに関連する第１の位置を識別するように構成されてもよい。前記プロセッサは、前記第１の画像内の前記第１の位置に基づいて、前記複数の画像のうち前記第１のタイミングの後の第２のタイミングの第２の画像内で、前記外部オブジェクトに関連する第２の位置を識別するように構成されてもよい。前記プロセッサは、前記第１の位置及び前記第２の位置に基づいて、前記第１のタイミングと前記第２のタイミングとの間の時間区間に含まれる１つ又はそれ以上の第３の画像に対応し、前記外部オブジェクトに関連する１つ又はそれ以上の第３の位置を取得するように構成されてもよい。前記プロセッサは、前記ビデオの前記時間区間内で識別された前記外部オブジェクトの動きを示すラベリング情報として、前記第１の位置、前記１つ又はそれ以上の第３の位置、及び前記第２の位置を記憶するように構成されてもよい。

【0229】

例えば、前記プロセッサは、前記第１のタイミングでの前記第１の画像内の前記第１の位置を示す第１の座標と、前記第２のタイミングでの前記第２の画像内の前記第２の位置を示す第２の座標とを、前記第１のタイミングと前記第２のタイミングとの間の長さを用いて補間することによって、前記１つ又はそれ以上の第３の位置を取得するように構成することができる。

【0230】

例えば、前記プロセッサは、前記第１の座標及び前記第２の座標を、前記１つ又はそれ以上の第３の画像の前記時間区間内のタイミングに基づいて補間することによって、前記１つ又はそれ以上の第３の位置を取得するように構成することができる。

【0231】

例えば、前記プロセッサは、前記外部オブジェクトに対応する前記第１の位置を含む前記第１の画像の一部に含まれる１つ又はそれ以上の特徴点と、前記外部オブジェクトに対応する第２の画像に含まれる１つ又はそれ以上の特徴点とを比較して、前記第２の画像内で前記第２の位置を識別するように構成することができる。

【0232】

例えば、前記プロセッサは、前記第１のタイミングの後の閾値区間の後の前記第２のタイミングの前記第２の画像に対する前記第２の位置を識別することに基づいて、前記１つ又はそれ以上の第３の画像に含まれる少なくとも１つの特徴点を用いて、前記第３の位置を変更するように構成することができる。

【0233】

例えば、前記プロセッサは、前記第１の画像及び前記第２の画像を、前記外部オブジェクトを認識するためのモデルに入力して、前記時間区間内にキャプチャされた外部オブジェクトの前記第１の位置及び前記第２の位置を識別するように構成することができる。

【0234】

例えば、電子装置は、ディスプレイをさらに含んでもよい。前記プロセッサは、前記ディスプレイに、前記ビデオを再生するための画面を表示するように構成することができる。前記プロセッサは、前記複数の画像のいずれかが、前記ビデオの再生を示す入力に基づいて、前記画面内に表示される状態で、前記ラベリング情報に基づいて、前記画面内に表示された画像上に重畳され（ｓｕｐｅｒｉｍｐｏｓｅｄｏｎ）、前記外部オブジェクトの位置を示す視覚オブジェクトを表示するように構成することができる。

【0235】

例えば、前記プロセッサは、前記画面上に前記１つ又はそれ以上の第３の画像のいずれかを表示する状態内で、前記視覚オブジェクトの動きを示す入力を識別するように構成されてもよい。前記プロセッサは、前記入力に基づいて、前記１つ又はそれ以上の第３の画像のうち、前記画面に表示された画像とは異なる他の画像に対応する前記外部オブジェクトの位置を、前記入力によって移動された前記視覚オブジェクトの位置に基づいて調整するように構成することができる。

【0236】

前述のように、一実施形態による、電子装置の方法は、前記電子装置のメモリから、ビデオ用の複数の画像及び前記複数の画像のうち第１のタイミングの第１の画像内で、外部オブジェクトに関連する第１の位置を識別する動作を含むことができる。この方法は、前記第１の画像内の前記第１の位置に基づいて、前記複数の画像のうち前記第１のタイミングの後の第２のタイミングの第２の画像内で、前記外部オブジェクトに関連する第２の位置を識別する動作を含むことができる。この方法は、前記第１の位置及び前記第２の位置に基づいて、前記第１のタイミングと前記第２のタイミングとの間の時間区間に含まれる１つ又はそれ以上の第３の画像に対応し、前記外部オブジェクトに関連する１つ又はそれ以上の第３の位置を取得する動作を含むことができる。この方法は、前記ビデオの前記時間区間内で識別された前記外部オブジェクトの動きを示すラベリング情報として、前記第１の位置、前記１つ又はそれ以上の第３の位置、及び前記第２の位置を記憶する動作を含むことができる。

【0237】

例えば、前記取得する動作は、前記第１のタイミングでの前記第１の画像内の前記第１の位置を示す第１の座標と、前記第２のタイミングでの前記第２の画像内の前記第２の位置を示す第２の座標とを、前記第１のタイミングと前記第２のタイミングとの間の長さを用いて補間することによって、前記１つ又はそれ以上の第３の位置を取得する動作を含むことができる。

【0238】

例えば、前記取得する動作は、前記第１の座標及び前記第２の座標を、前記１つ又はそれ以上の第３の画像の前記時間区間内のタイミングに基づいて補間することによって、前記１つ又はそれ以上の第３の位置を取得する動作を含むことができる。

【0239】

例えば、前記第２の位置を識別する動作は、前記外部オブジェクトに対応する前記第１の位置を含む前記第１の画像の部分に含まれる１つ又はそれ以上の特徴点を比較することによって、前記第２の画像内で、前記第２の位置を識別する動作を含むことができる。

【0240】

例えば、前記取得する動作は、前記第１のタイミングの後の閾値区間の後の前記第２のタイミングの前記第２の画像に対する前記第２の位置を識別することに基づいて、前記１つ又はそれ以上の第３の画像に含まれる少なくとも１つの特徴点を用いて、前記第３の位置を変更する動作を含むことができる。

【0241】

例えば、前記第２の位置を識別する動作は、前記第１の画像及び前記第２の画像を、前記外部オブジェクトを認識するためのモデルに入力して、前記時間区間内にキャプチャされた外部オブジェクトの前記第１の位置及び前記第２の位置を識別する動作を含むことができる。

【0242】

例えば、前記方法は、前記電子装置のディスプレイに、前記ビデオを再生するための画面を表示する動作を含むことができる。前記方法は、前記複数の画像のいずれかが、前記ビデオの再生を示す入力に基づいて、前記画面内に表示される状態で、前記ラベリング情報に基づいて、前記画面内に表示された前記画像上に重畳され、前記外部オブジェクトの位置を示す視覚オブジェクトを表示する動作を含むことができる。

【0243】

例えば、前記画面上に前記１つ又はそれ以上の第３の画像のいずれかを表示する状態内で、前記視覚オブジェクトの動きを示す入力を識別する動作を含むことができる。この方法は、前記入力に基づいて、前記１つ又はそれ以上の第３の画像のうち、前記画面に表示された画像とは異なる他の画像に対応する前記外部オブジェクトの位置を、前記入力によって移動された前記視覚オブジェクトの位置に基づいて調整する動作をさらに含むことができる。

【0244】

前述のように、一実施形態による電子装置は、ディスプレイ、メモリ、及びプロセッサを含むことができる。前記プロセッサは、前記メモリに記憶されたビデオの第１の画像を、前記ディスプレイに表示した状態で、前記第１の画像内で外部オブジェクトに関連する第１の位置の選択を示す第１の入力を識別するように構成されてもよい。前記プロセッサは、前記第１の入力に基づいて、前記外部オブジェクトを認識するための第１のタイプの計算（ｆｉｒｓｔｔｙｐｅｏｆｃｏｍｐｕｔａｔｉｏｎ）を実行して、前記ビデオ用の複数の画像のうち、前記第１の画像のタイミングから開始される時間区間の後の第２の画像内で、前記外部オブジェクトに関連する第２の位置を識別するように構成することができる。前記プロセッサは、前記第１の位置及び前記第２の位置を補間するための第２のタイプの計算を実行して、前記区間に含まれる１つ又はそれ以上の第３の画像内で、前記外部オブジェクトに関連する第３の位置を取得するように構成することができる。前記プロセッサは、前記時間区間に含まれる前記ビデオの少なくとも一部の再生を示す第２の入力に応答して、前記ディスプレイに前記第１の画像、前記１つ又はそれ以上の第３の画像、及び前記第２の画像のいずれかを表示し、前記ディスプレイに表示された画像上に重畳され、前記第１の位置、前記第３の位置、又は前記第２の位置のいずれかに対応する視覚オブジェクトを表示するように構成することができる。

【0245】

例えば、前記プロセッサは、１つ又はそれ以上の特徴点に基づく前記外部オブジェクトを認識するための前記第１のタイプの前記計算を、前記第１の画像の前記タイミングから前記時間区間ごとに繰り返し実行するように構成することができる。

【0246】

例えば、前記プロセッサは、前記第１の位置、前記第２の位置、及び前記時間区間内で、前記１つ又はそれ以上の第３の画像のタイミングに基づいて、前記第３の位置を取得するための前記第２のタイプの計算を実行するように構成することができる。

【0247】

例えば、前記プロセッサは、前記ビデオに対応するラベリング情報として、前記メモリに、前記第１の位置、前記第３の位置、及び前記第２の位置を記憶するように構成されてもよい。

【0248】

例えば、前記プロセッサは、前記第１の画像の前記タイミングを示すデータを、前記第１の位置と連動して、前記ラベリング情報に格納するように構成されてもよい。

【0249】

前述したように、一実施形態による、電子装置の方法は、前記電子装置のメモリに記憶されたビデオの第１の画像を、前記電子装置のディスプレイに表示した状態で、前記第１の画像内で外部オブジェクトと関連する第１の位置の選択を示す第１の入力を識別する動作を含むことができる。前記方法は、前記第１の入力に基づいて、前記外部オブジェクトを認識するための第１のタイプの計算を実行して、前記ビデオのための複数の画像のうち、前記第１の画像のタイミングから始まる時間区間の後の第２の画像内で、外部オブジェクトに関連する第２の位置を識別する動作を含むことができる。この方法は、前記第１の位置及び前記第２の位置を補間するための第２のタイプの計算を実行して、前記時間区間に含まれる１つ又はそれ以上の第３の画像内で、前記外部オブジェクトに関連する第３の位置を取得する動作を含むことができる。この方法は、前記時間区間に含まれる前記ビデオの少なくとも一部の再生を示す第２の入力に応答して、前記ディスプレイに前記第１の画像、前記１つ又はそれ以上の第３の画像、及び前記第２の画像のいずれかを表示し、前記ディスプレイに表示された画像上に重畳され、前記第１の位置、前記第３の位置、又は前記第２の位置のいずれかに対応する視覚オブジェクトを表示する動作を含むことができる。

【0250】

例えば、前記第２の位置を識別する動作は、１つ又はそれ以上の特徴点に基づく前記外部オブジェクトを認識するための前記第１のタイプの計算を、前記第１の画像の前記タイミングから前記時間区間ごとに繰り返し実行する動作を含むことができる。

【0251】

例えば、前記第３の位置を取得する動作は、前記第１の位置、前記第２の位置、及び前記時間区間内で前記１つ又はそれ以上の第３の画像のタイミングに基づいて、前記第３の位置を取得するための前記第２のタイプの計算を実行する動作を含むことができる。

【0252】

例えば、前記方法は、前記メモリに、前記ビデオに対応するラベリング情報として、前記第１の位置、前記第３の位置、及び前記第２の位置を格納する動作をさらに含むことができる。

【0253】

例えば、前記格納する動作は、前記第１の画像の前記タイミングを示すデータを、前記第１の位置と連動して、前記ラベリング情報に格納する動作を含むことができる。

【0254】

前述の装置は、ハードウェア構成要素、ソフトウェア構成要素、及び／又はハードウェア構成要素及びソフトウェア構成要素の組み合わせで実施することができる。例えば、実施形態で説明した装置及び構成要素は、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行及び応答することができる他の任意の装置など、１つ又はそれ以上の汎用コンピュータ又は特殊目的コンピュータを使用して実装することができる。処理装置は、オペレーティングシステム（ＯＳ）及びオペレーティングシステム上で実行される１つ又はそれ以上のソフトウェアアプリケーションを実行することができる。さらに、処理装置は、ソフトウェアの実行に応答して、データにアクセス、格納、操作、処理及び生成することができる。理解の便宜のために、処理装置は、１つが使用されると説明されている場合もあるが、当該技術分野における通常の知識を有する者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数タイプの処理要素を含むことができることがわかる。例えば、処理装置は、複数のプロセッサ又は１つのプロセッサ及び１つのコントローラを含むことができる。さらに、パラレルプロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）などの他の処理構成（ｐｒｏｃｅｓｓｉｎｇｃｏｎｆｉｇｕｒａｔｉｏｎ）も可能である。

【0255】

ソフトウェアは、コンピュータプログラム（ｃｏｍｐｕｔｅｒｐｒｏｇｒａｍ）、コード（ｃｏｄｅ）、命令（ｉｎｓｔｒｕｃｔｉｏｎ）、又はこれらのうち１つ又はそれ以上の組み合わせを含むことができ、所望のように動作するように処理装置を構成するか、独立して又は組み合わせて（ｃｏｌｌｅｃｔｉｖｅｌｙ）処理装置に命令することができる。ソフトウェア及び／又はデータは、処理装置によって解釈されるか、又は処理装置に命令又はデータを提供するために、任意のタイプの機械、構成要素（ｃｏｍｐｏｎｅｎｔ）、物理装置、コンピュータ記憶媒体又は装置に具体化（ｅｍｂｏｄｙ）されてもよい。ソフトウェアは、ネットワークに接続されたコンピュータシステム上に分散され、分散した方法で保存するか、実行されてもよい。ソフトウェア及びデータは、１つ又はそれ以上のコンピュータ可読記録媒体に記憶することができる。

【0256】

実施形態による方法は、様々なコンピュータ手段を介して実行できるプログラム命令の形態で実施され、コンピュータ可読媒体に記録することができる。この場合、媒体は、コンピュータで実行可能なプログラムを保存し続けるか、実行又はダウンロードのために一時的に保存することができる。さらに、媒体は、単一又は複数のハードウェアが結合された形態の様々な記録手段又は記憶手段であり得、任意のコンピュータシステムに直接接続される媒体に限定されず、ネットワーク上に分散して存在することができる。媒体の例としては、ハードディスク、フロッピーディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）、磁気テープなどの磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤなどの光記録媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）などの磁気光学媒体（ｍａｇｎｅｔｏ－ｏｐｔｉｃａｌｍｅｄｉｕｍ）、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどを含むプログラム命令が格納されるように構成されたものがあり得る。また、他の媒体の例として、アプリケーションを流通するアプリストアや他の様々なソフトウェアを供給又は流通するサイト、サーバなどで管理する記録媒体から記憶媒体も挙げられる。

【0257】

以上のように、実施形態が限定された実施形態と図面によって説明されたが、当該技術分野における通常の知識を有する者であれば、前記の記載から様々な修正及び変形が可能である。例えば、記載された技術は、記載された方法とは異なる順序で実行され、及び／又は記載されたシステム、構造、装置、回路などの構成要素が、記載された方法とは異なる形態で結合されるか又は組み合わされ、又は他の構成要素あるいは、均等物によって代替又は置換されても、適切な結果が達成され得る。

【0258】

したがって、他の実現、他の実施形態、及び特許請求の範囲と均等なものも、後述する特許請求の範囲に属する。

【図1a】