IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特表2024-502516データ注釈方法、装置、システム、デバイスおよび記憶媒体
<>
  • 特表-データ注釈方法、装置、システム、デバイスおよび記憶媒体 図1
  • 特表-データ注釈方法、装置、システム、デバイスおよび記憶媒体 図2
  • 特表-データ注釈方法、装置、システム、デバイスおよび記憶媒体 図3
  • 特表-データ注釈方法、装置、システム、デバイスおよび記憶媒体 図4
  • 特表-データ注釈方法、装置、システム、デバイスおよび記憶媒体 図5
  • 特表-データ注釈方法、装置、システム、デバイスおよび記憶媒体 図6
  • 特表-データ注釈方法、装置、システム、デバイスおよび記憶媒体 図7
  • 特表-データ注釈方法、装置、システム、デバイスおよび記憶媒体 図8
  • 特表-データ注釈方法、装置、システム、デバイスおよび記憶媒体 図9
  • 特表-データ注釈方法、装置、システム、デバイスおよび記憶媒体 図10
  • 特表-データ注釈方法、装置、システム、デバイスおよび記憶媒体 図11
  • 特表-データ注釈方法、装置、システム、デバイスおよび記憶媒体 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-22
(54)【発明の名称】データ注釈方法、装置、システム、デバイスおよび記憶媒体
(51)【国際特許分類】
   G06F 16/783 20190101AFI20240115BHJP
   G06T 7/70 20170101ALI20240115BHJP
【FI】
G06F16/783
G06T7/70 A
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023508558
(86)(22)【出願日】2022-06-20
(85)【翻訳文提出日】2023-02-07
(86)【国際出願番号】 CN2022099883
(87)【国際公開番号】W WO2023103329
(87)【国際公開日】2023-06-15
(31)【優先権主張番号】202111489679.1
(32)【優先日】2021-12-08
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100147485
【弁理士】
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【弁護士】
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100163511
【弁理士】
【氏名又は名称】辻 啓太
(72)【発明者】
【氏名】王 磊
(72)【発明者】
【氏名】王 迎
(72)【発明者】
【氏名】▲ザン▼ 暁▲ティン▼
【テーマコード(参考)】
5B175
5L096
【Fターム(参考)】
5B175DA04
5B175FA01
5B175FB02
5L096AA06
5L096CA04
5L096CA05
5L096DA01
5L096FA18
5L096FA69
(57)【要約】
本発明は、データ注釈方法、装置、システム、デバイスおよび記憶媒体を提供し、データ処理技術分野に関し、特に、人工知能、ビッグデータ、ディープラーニングなどの分野に関する。本発明の具体的な実現手段は、内容が連続する複数のピクチャーを取得し、複数のピクチャーのそれぞれは同じオブジェクトを少なくとも1つ含み、各オブジェクトに対して、隣接する2つのピクチャーにおけるオブジェクトの位置情報によってオブジェクトの位置シフト量を確定し、ここで、隣接する2つのピクチャーは2つ前のピクチャーと1つ前のピクチャーとを含み、1つ前のピクチャーは時系列で注釈対象ピクチャーの前にあって、注釈対象ピクチャーに隣接するピクチャーであり、2つ前のピクチャーは時系列で1つ前のピクチャーの前にあって、1つ前のピクチャーに隣接するピクチャーであり、1つ前のピクチャーの位置情報および位置シフト量に基づいて、注釈対象ピクチャーにおけるオブジェクトの予測位置情報を確定し、予測位置情報に基づいて注釈対象ピクチャーにおけるオブジェクトを注釈することである。本発明によれば、複数のピクチャーにおいて、同じオブジェクトを注釈する速度を高めることができる。
【選択図】図3
【特許請求の範囲】
【請求項1】
内容が連続する複数のピクチャーを取得し、前記複数のピクチャーのそれぞれは同じオブジェクトを少なくとも1つ含むことと、
各オブジェクトに対して、隣接する2つのピクチャーにおける前記オブジェクトの位置情報によって前記オブジェクトの位置シフト量を確定し、ここで、前記隣接する2つのピクチャーは2つ前のピクチャーと1つ前のピクチャーとを含み、前記1つ前のピクチャーは時系列で注釈対象ピクチャーの前にあって、前記注釈対象ピクチャーに隣接するピクチャーであり、前記2つ前のピクチャーは時系列で前記1つ前のピクチャーの前にあって、前記1つ前のピクチャーに隣接するピクチャーであることと、
前記1つ前のピクチャーの位置情報および前記位置シフト量に基づいて、前記注釈対象ピクチャーにおける前記オブジェクトの予測位置情報を確定することと、
前記予測位置情報に基づいて前記注釈対象ピクチャーにおける前記オブジェクトを注釈することと、を含む、
データ注釈方法。
【請求項2】
前記内容が連続する複数のピクチャーを取得することは、
少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得し、1つの動画データについて、前記動画データに対応する時間順に並べた複数のピクチャーは、前記動画データをフレーム抽出し、フレーム抽出して得られた前記動画データに対応するピクチャーの時間順に前記ピクチャーを並べて得られたものであること、を含む、
請求項1に記載の方法。
【請求項3】
前記方法は、さらに、
少なくとも1つの動画データを取得することと、
各動画データについて、前記動画データをフレーム抽出し、前記動画データに対応するピクチャーを取得することと、
前記ピクチャーの時間順に前記ピクチャーを並べて、前記動画データに対応する時間順に並べた複数のピクチャーを取得することと、を含む、
請求項2に記載の方法。
【請求項4】
前記の少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得することは、
注釈システムデータベースから少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得し、ここで、前記少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、動画データ処理システムが前記注釈システムデータベースに格納するものであり、前記少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、各前記動画データのそれぞれについて、前記動画データ処理システムが前記動画データをフレーム抽出し、フレーム抽出して得られた前記動画データに対応するピクチャーの時間順に前記ピクチャーを並べて得られたものであること、を含む、
請求項2に記載の方法。
【請求項5】
前記方法は、さらに、
前記予測位置情報を展示することと、
前記予測位置情報を校正して得られた校正後の予測位置情報を受信することと、を含み、
前記予測位置情報に基づいて前記注釈対象ピクチャーにおける前記オブジェクトを注釈することは、
前記注釈対象ピクチャーに前記校正後の予測位置情報を注釈し、前記校正後の予測位置情報に基づいて確定された位置に前記オブジェクトのタグを注釈すること、を含む、
請求項1~4のいずれか一項に記載の方法。
【請求項6】
内容が連続する複数のピクチャーを取得し、前記複数のピクチャーのそれぞれは同じオブジェクトを少なくとも1つ含む、第1取得モジュールと、
各オブジェクトに対して、隣接する2つのピクチャーにおける前記オブジェクトの位置情報によって前記オブジェクトの位置シフト量を確定し、ここで、前記隣接する2つのピクチャーは2つ前のピクチャーと1つ前のピクチャーとを含み、前記1つ前のピクチャーは時系列で注釈対象ピクチャーの前にあって、前記注釈対象ピクチャーに隣接するピクチャーであり、前記2つ前のピクチャーは時系列で前記1つ前のピクチャーの前にあって、前記1つ前のピクチャーに隣接するピクチャーであり、前記1つ前のピクチャーの位置情報および前記位置シフト量に基づいて、前記注釈対象ピクチャーにおける前記オブジェクトの予測位置情報を確定する、確定モジュールと、
前記予測位置情報に基づいて前記注釈対象ピクチャーにおける前記オブジェクトを注釈する、注釈モジュールと、を含む、
データ注釈装置。
【請求項7】
前記第1取得モジュールは、少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得し、1つの動画データについて、前記動画データに対応する時間順に並べた複数のピクチャーは、前記動画データをフレーム抽出し、フレーム抽出して得られた前記動画データに対応するピクチャーの時間順に前記ピクチャーを並べて得られたものである、
請求項6に記載の装置。
【請求項8】
少なくとも1つの動画データを取得する、第2取得モジュールと、
各動画データについて、前記動画データをフレーム抽出し、前記動画データに対応するピクチャーを取得する、フレーム抽出モジュールと、
前記ピクチャーの時間順に前記ピクチャーを並べて、前記動画データに対応する時間順に並べた複数のピクチャーを取得する、ソートモジュールとを、さらに含む、
請求項7に記載の装置。
【請求項9】
前記第1取得モジュールは、注釈システムデータベースから少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得し、ここで、前記少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、動画データ処理システムが前記注釈システムデータベースに格納するものであり、前記少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、各前記動画データのそれぞれについて、前記動画データ処理システムが前記動画データをフレーム抽出し、フレーム抽出して得られた前記動画データに対応するピクチャーの時間順に前記ピクチャーを並べて得られたものである、
請求項7に記載の装置。
【請求項10】
前記予測位置情報を展示する、展示モジュールと、
前記予測位置情報を校正して得られた校正後の予測位置情報を受信する、受信モジュールと、をさらに含み、
前記注釈モジュールは、前記注釈対象ピクチャーに前記校正後の予測位置情報を注釈し、前記校正後の予測位置情報に基づいて確定された位置に前記オブジェクトのタグを注釈する、
請求項6~9のいずれか一項に記載の装置。
【請求項11】
注釈システムバックエンドと注釈システムフロントエンドとを含むデータ注釈システムであって、
前記注釈システムバックエンドは、内容が連続する複数のピクチャーを取得し、前記複数のピクチャーのそれぞれは同じオブジェクトを少なくとも1つ含み、各オブジェクトに対して、隣接する2つのピクチャーにおける前記オブジェクトの位置情報によって前記オブジェクトの位置シフト量を確定し、ここで、前記隣接する2つのピクチャーは2つ前のピクチャーと1つ前のピクチャーとを含み、前記1つ前のピクチャーは時系列で注釈対象ピクチャーの前にあって、前記注釈対象ピクチャーに隣接するピクチャーであり、前記2つ前のピクチャーは時系列で前記1つ前のピクチャーの前にあって、前記1つ前のピクチャーに隣接するピクチャーであり、前記1つ前のピクチャーの位置情報および前記位置シフト量に基づいて、前記注釈対象ピクチャーにおける前記オブジェクトの予測位置情報を確定し、前記予測位置情報に基づいて前記注釈対象ピクチャーにおける前記オブジェクトを注釈し、
前記注釈システムフロントエンドは、前記注釈システムバックエンドが前記注釈対象ピクチャーにおける前記オブジェクトに対する注釈を展示する、
データ注釈システム。
【請求項12】
前記システムは、さらに、注釈システムデータベースを含み、
前記注釈システムバックエンドは、前記注釈システムデータベースから少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得し、1つの動画データについて、前記動画データに対応する時間順に並べた複数のピクチャーは、前記動画データをフレーム抽出し、フレーム抽出して得られた前記動画データに対応するピクチャーの時間順に前記ピクチャーを並べて得られたものである、
請求項11に記載のシステム。
【請求項13】
前記少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、動画データ処理システムが前記注釈システムデータベースに格納するものであり、前記少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、各前記動画データのそれぞれについて、前記動画データ処理システムが前記動画データをフレーム抽出し、フレーム抽出して得られた前記動画データに対応するピクチャーの時間順に前記ピクチャーを並べて得られたものである、
請求項12に記載のシステム。
【請求項14】
前記注釈システムバックエンドは、前記予測位置情報を展示し、前記予測位置情報を校正して得られた校正後の予測位置情報を受信し、前記注釈対象ピクチャーに前記校正後の予測位置情報を注釈し、前記校正後の予測位置情報に基づいて確定された位置に前記オブジェクトのタグを注釈する、
請求項11~13のいずれか一項に記載のシステム。
【請求項15】
少なくとも1つのプロセッサーと、
前記少なくとも1つのプロセッサーと通信接続しているメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサーによって実行できる命令が記憶されており、前記少なくとも1つのプロセッサーによって前記命令を実行することにより、前記少なくとも1つのプロセッサーが請求項1-5のいずれか一項に記載の方法を実行できる、
電子デバイス。
【請求項16】
コンピューター命令が記憶されている非一時的なコンピューター可読記憶媒体であって、前記コンピューター命令は、前記コンピューターに請求項1~5のいずれか一項に記載の方法を実行させる、
非一時的なコンピューター可読記憶媒体。
【請求項17】
コンピュータープログラムを含むコンピュータープログラム製品であって、前記コンピュータープログラムは、プロセッサーによって実行されると、請求項1~5のいずれか一項に記載の方法を実行させる、
コンピュータープログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、2021年12月8日に中国特許局に提出した、出願番号が202111489679.1であり、発明名称が「データ注釈方法、装置、システム、デバイスおよび記憶媒体」である中国特許出願を優先権として主張し、その内容の全ては、援用により本発明に組み込まれる。
【0002】
本発明は、データ処理技術分野に関し、特に、人工知能、ビッグデータ、およびディープラーニングなどの分野に関する。
【背景技術】
【0003】
データを注釈することは、コンピューター研究・応用分野で重要な過程である。例えば、大量の注釈されたデータに基づいてモデルのトレーニングなどを行う。
【発明の概要】
【0004】
本発明は、データ注釈方法、装置、システム、デバイスおよび記憶媒体を提供する。
【0005】
本発明の第1態様では、データ注釈方法を提供する。前記データ注釈方法は、
内容が連続する複数のピクチャーを取得し、前記複数のピクチャーのそれぞれは同じオブジェクトを少なくとも1つ含むことと、
各オブジェクトに対して、隣接する2つのピクチャーにおける前記オブジェクトの位置情報によって前記オブジェクトの位置シフト量を確定し、ここで、前記隣接する2つのピクチャーは2つ前のピクチャーと1つ前のピクチャーとを含み、前記1つ前のピクチャーは時系列で注釈対象ピクチャーの前にあって、前記注釈対象ピクチャーに隣接するピクチャーであり、前記2つ前のピクチャーは時系列で前記1つ前のピクチャーの前にあって、前記1つ前のピクチャーに隣接するピクチャーであることと、
前記1つ前のピクチャーの位置情報および前記位置シフト量に基づいて、前記注釈対象ピクチャーにおける前記オブジェクトの予測位置情報を確定することと、
前記予測位置情報に基づいて前記注釈対象ピクチャーにおける前記オブジェクトを注釈することと、を含む。
【0006】
本発明の第2態様では、データ注釈装置を提供する。前記データ注釈装置は、
内容が連続する複数のピクチャーを取得し、前記複数のピクチャーのそれぞれは同じオブジェクトを少なくとも1つ含む、第1取得モジュールと、
各オブジェクトに対して、隣接する2つのピクチャーにおける前記オブジェクトの位置情報によって前記オブジェクトの位置シフト量を確定し、ここで、前記隣接する2つのピクチャーは2つ前のピクチャーと1つ前のピクチャーとを含み、前記1つ前のピクチャーは時系列で注釈対象ピクチャーの前にあって、前記注釈対象ピクチャーに隣接するピクチャーであり、前記2つ前のピクチャーは時系列で前記1つ前のピクチャーの前にあって、前記1つ前のピクチャーに隣接するピクチャーであり、前記1つ前のピクチャーの位置情報および前記位置シフト量に基づいて、前記注釈対象ピクチャーにおける前記オブジェクトの予測位置情報を確定する、確定モジュールと、
前記予測位置情報に基づいて前記注釈対象ピクチャーにおける前記オブジェクトを注釈する、注釈モジュールと、を含む。
【0007】
本発明の第3態様では、データ注釈システムを提供する。前記データ注釈システムは、注釈システムバックエンドと注釈システムフロントエンドとを含み、
前記注釈システムバックエンドは、内容が連続する複数のピクチャーを取得し、前記複数のピクチャーのそれぞれは同じオブジェクトを少なくとも1つ含み、各オブジェクトに対して、隣接する2つのピクチャーにおける前記オブジェクトの位置情報によって前記オブジェクトの位置シフト量を確定し、ここで、前記隣接する2つのピクチャーは2つ前のピクチャーと1つ前のピクチャーとを含み、前記1つ前のピクチャーは時系列で注釈対象ピクチャーの前にあって、前記注釈対象ピクチャーに隣接するピクチャーであり、前記2つ前のピクチャーは時系列で前記1つ前のピクチャーの前にあって、前記1つ前のピクチャーに隣接するピクチャーであり、前記1つ前のピクチャーの位置情報および前記位置シフト量に基づいて、前記注釈対象ピクチャーにおける前記オブジェクトの予測位置情報を確定し、前記予測位置情報に基づいて前記注釈対象ピクチャーにおける前記オブジェクトを注釈し、
前記注釈システムフロントエンドは、前記注釈システムバックエンドが前記注釈対象ピクチャーにおける前記オブジェクトに対する注釈を展示する。
【0008】
本発明の第4態様では、電子デバイスを提供する。前記電子デバイスは、
少なくとも1つのプロセッサーと、
前記少なくとも1つのプロセッサーと通信接続しているメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサーによって実行される命令が記憶されており、前記少なくとも1つのプロセッサーによって前記命令を実行することにより、前記少なくとも1つのプロセッサーが第1態様に記載の方法を実行できる。
【0009】
本発明の第五態様では、コンピューター命令が記憶されている非一時的なコンピューター可読記憶媒体を提供する。ここで、前記コンピューター命令は、前記コンピューターに第1態様に記載の方法を実行させる。
【0010】
本発明の第六態様では、コンピュータープログラム製品を提供する。前記コンピュータープログラム製品は、コンピュータープログラムを含み、前記コンピュータープログラムは、プロセッサーによって実行されると、第1態様に記載の方法を実現する。
【発明の効果】
【0011】
本発明は、隣接する2つのピクチャーにおけるオブジェクトの位置情報によってオブジェクトの位置シフト量を確定し、1つ前のピクチャーの位置情報および位置シフト量に基づいて注釈対象ピクチャーにおけるオブジェクトの予測位置情報を確定し、予測位置情報に基づいて注釈対象ピクチャーにおけるオブジェクトを注釈することができる。これにより、人間の記憶によってピクチャーにおける各オブジェクトを注釈することを回避し、複数のピクチャーに同じオブジェクトを注釈する速度を高めることができる。
【0012】
この部分で記述された内容は、本発明実施例の要旨又は重要な特徴を特定することを意図しておらず、本発明の範囲に対する限定にならないことを理解すべきである。本発明の他の特徴は、以下の明細書によって容易に理解される。
【図面の簡単な説明】
【0013】
以下の図面は、本技術案をより理解するためのものであり、本発明に対する限定にならない。
図1図1は本発明実施例におけるブロック選択の模式図である。
図2図2は本発明実施例におけるピクチャーにオブジェクトタグを注釈する模式図である。
図3図3は本発明実施例が提供するデータ注釈方法のフローチャートである。
図4図4は本発明実施例における動画データに対応する時間順に並べた複数のピクチャーを確定するフローチャートである。
図5図5は本発明実施例におけるシステムのインタラクションの模式図である。
図6図6は本発明実施例が提供するデータ注釈方法の応用の模式図である。
図7図7は本発明実施例が提供するデータ注釈装置の一構成模式図である。
図8図8は本発明実施例が提供するデータ注釈装置の別の構成模式図である。
図9図9は本発明実施例が提供するデータ注釈装置のさらに別の構成模式図である。
図10図10は本発明実施例が提供するデータ注釈システムの一構成模式図である。
図11図11は本発明実施例が提供するデータ注釈システムの別の構成模式図である。
図12図12は本発明実施例のデータ注釈方法を実現するための電子デバイスのブロック図である。
【発明を実施するための形態】
【0014】
本発明の目的、技術案、及び利点をより明らかに説明するためには、以下、図面を参照し実施例を挙げて、本発明をさらに詳しく説明する。勿論、説明される実施例は単に本発明の一部の実施例に過ぎず、すべての実施例ではない。本発明の実施例に基づき、当業者が進歩性を有する努力をせずに想到し得るほかの実施例はすべて本発明の保護範囲に属する。
【0015】
以下、附図を参照しながら、本発明の例示的な実施例に対して説明する。理解の便宜上、本発明実施例の様々な詳細が含まれるが、これらは例示的なものに過ぎないとみなされるべきである。そのため、当業者であれば、本発明の範囲及び精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更及び修正を行うことができることを認識するべきである。また、以下の説明では、明確や簡潔のために、公知の機能や構成に対する説明を省略する。
【0016】
現在、スマートシティという概念での人工知能(Artificial Intelligence、AI)アプリケーションは、多くの場合にはカメラが収集した画面に対して注釈する必要がある。例えば、オブジェクトが撮像範囲に入ってから、当該オブジェクトが撮像範囲から離れるまで、オブジェクトを注釈する。これは、カメラが撮ったピクチャーに対して注釈することと理解してよい。
【0017】
通常、ブロック選択することで注釈を行い、ブロック選択する同時に、異なるオブジェクトに対して、例えば、船、車両などの異なる物体に対して、異なるID(タグ)をマークすることで、同じIDによって、異なる画面において同一オブジェクトが識別される。ここで、ブロック選択とは、ピクチャーにおけるあるオブジェクトを中心として、当該オブジェクトの最大カバー範囲を注釈することである。図1に示すように、矩形の枠で1つの船をブロック選択した。オブジェクトに対してIDをマークした。オブジェクトの付近に1つのIDをマークすることができる。図2のように、ピクチャーにおいて、船のIDを1としてマークした。その後のピクチャーには、当該船の位置が変化する可能性があり、例えば、左下にずれている場合、位置が変化した後の当該船に対して、1つ前のピクチャーと同じID:1をマークし続ける必要がある。
【0018】
本発明実施例が提供するデータ注釈方法は、電子デバイスに用いられることができる。具体的には、電子デバイスは、端末装置、サーバーなどであってよい。
【0019】
本発明実施例は、データ注釈方法を提供する。前記データ注釈方法は、
内容が連続する複数のピクチャーを取得し、複数のピクチャーのそれぞれは同じオブジェクトを少なくとも1つ含むことと、
各オブジェクトに対して、隣接する2つのピクチャーにおけるオブジェクトの位置情報によってオブジェクトの位置シフト量を確定し、ここで、隣接する2つのピクチャーは2つ前のピクチャーと1つ前のピクチャーとを含み、1つ前のピクチャーは時系列で注釈対象ピクチャーの前にあって、注釈対象ピクチャーに隣接するピクチャーであり、2つ前のピクチャーは時系列で1つ前のピクチャーの前にあって、1つ前のピクチャーに隣接するピクチャーであることと、
1つ前のピクチャーの位置情報および位置シフト量に基づいて、注釈対象ピクチャーにおけるオブジェクトの予測位置情報を確定することと、
予測位置情報に基づいて注釈対象ピクチャーにおけるオブジェクトを注釈することと、を含む。
【0020】
本発明は、隣接する2つのピクチャーにおけるオブジェクトの位置情報によってオブジェクトの位置シフト量を確定し、1つ前のピクチャーの位置情報および位置シフト量に基づいて注釈対象ピクチャーにおけるオブジェクトの予測位置情報を確定し、予測位置情報に基づいて注釈対象ピクチャーにおけるオブジェクトに対して注釈を行うことができる。これにより、人間の記憶によってピクチャーにおける各オブジェクトを注釈することを回避し、複数のピクチャーに同じオブジェクトを注釈する速度を高めることができる。
【0021】
なお、注釈者は記憶に基づいて同じオブジェクトを注釈すると、人為的なミスが発生しやすい。例えば、オブジェクトが何度も撮像範囲内に入り、異なる注釈のニーズがある場合、ミスが発生する可能性が大きくなる。例えば、同一オブジェクトが何度も撮像範囲に入った場合は同じIDを用いる要求がある。本発明実施例では、人間の記憶によってピクチャーにおける各オブジェクトを注釈することを回避でき、さらに、注釈の正確度を向上することができる。
【0022】
図3は本発明実施例が提供するデータ注釈方法のフローチャートである。図3を参照して、本発明実施例が提供するデータ注釈方法は、以下のステップを含んでよい。
【0023】
S301において、内容が連続する複数のピクチャーを取得する。
複数のピクチャーのそれぞれは同じオブジェクトを少なくとも1つ含む。
【0024】
オブジェクトとは、ピクチャーにおけるターゲット、例えば、船、車両などの物体と理解してもよい。
【0025】
内容が連続するとは、複数のピクチャーにおける内容が連続していることを指す。具体的には、内容が連続する複数のピクチャーは、動画における連続フレームであってもよく、時間順に並べた複数のピクチャー、例えば、動画データからフレーム抽出して得られた複数のピクチャーなどであってもよい。
【0026】
1つの実現可能な形態において、画像取集デバイスが取集したピクチャーをリアルタイムで受けてよい。内容が連続する複数のピクチャーは画像取集デバイスがリアルタイムで取集した連続フレームである。ここで、画像取集デバイスは、ビデオカメラ、カメラなどを含んでもよい。
【0027】
別の実現可能な形態において、データベースから、格納されている動画データに対応する時間順に並べた複数のピクチャーを取得してもよい。内容が連続する複数のピクチャーとして、動画データにおけるすべてのフレームを取得してもよく、動画における一部のフレームを取得してもよい。例えば、画像取集デバイスがデバイスデータを取集した後、動画データをデータベースに格納し、動画データをフレーム抽出して並べて、動画データに対応する時間順に並べた複数のピクチャーを取得し、動画データに対応する時間順に並べた複数のピクチャーをデータベースに格納する。
【0028】
S302において、各オブジェクトに対して、隣接する2つのピクチャーにおけるオブジェクトの位置情報によってオブジェクトの位置シフト量を確定する。
【0029】
ここで、隣接する2つのピクチャーは2つ前のピクチャーと1つ前のピクチャーとを含み、1つ前のピクチャーは時系列で注釈対象ピクチャーの前にあって、注釈対象ピクチャーに隣接するピクチャーであり、2つ前のピクチャーは時系列で1つ前のピクチャーの前にあって、1つ前のピクチャーに隣接するピクチャーである。
【0030】
1つの実現可能な形態において、当該位置シフト量は、1つ前のピクチャーにおけるオブジェクトの位置情報から当該2つ前のピクチャーにおける当該オブジェクトの位置情報を減算して得られたものであってよい。
【0031】
別の実現可能な形態において、当該位置シフト量は、2つ前のピクチャーにおけるオブジェクトの位置情報から当該1つ前のピクチャーにおける当該オブジェクトの位置情報を減算して得られたものであってもよい。
【0032】
S303において、1つ前のピクチャーの位置情報および位置シフト量に基づいて、注釈対象ピクチャーにおけるオブジェクトの予測位置情報を確定する。
【0033】
通常、内容が連続する複数のピクチャー(例えば、動画における連続フレーム)における同一オブジェクトの位置変化は規律があり、例えば、同一オブジェクトについて、1つのピクチャーにおける位置が当該ピクチャーの内容と連続する1つ前のピクチャーにおける位置に対する変化は、変化1と理解してよく、当該ピクチャーの内容と連続する1つ後ろのピクチャーにおける当該オブジェクトの位置が当該ピクチャーにおける当該オブジェクトの位置に対する変化は、変化2と理解してよく、変化1と変化2との間の差は、一般に小さく、ひいて変化1と変化2は同じである可能性もある。本発明実施例では、隣接する2つのピクチャーにおける同一オブジェクトの位置情報によって注釈対象ピクチャーにおける当該オブジェクトの予測位置情報を確定することができる。簡単に理解すると、隣接する2つのピクチャーにおける同一オブジェクトの位置情報によって注釈対象ピクチャーにおける当該オブジェクトの位置情報を予測する。
【0034】
1つの実現可能な形態において、位置シフト量が1つ前のピクチャーにおけるオブジェクトの位置情報から2つ前のピクチャーにおける当該オブジェクトの位置情報を減算して得られたものである場合、S303は、1つ前のピクチャーにおけるオブジェクトの位置情報に当該位置シフト量を加算し、即ち、1つ前のピクチャーにおけるオブジェクトの位置情報を元に、当該位置シフト量を増加することと理解してもよく、そして、注釈対象ピクチャーにおけるオブジェクトの予測位置情報を取得すること、を含んでよい。
【0035】
1つの実現可能な形態において、位置シフト量が2つ前のピクチャーにおけるオブジェクトの位置情報から1つ前のピクチャーにおける当該オブジェクトの位置情報を減算して得られたものである場合、S303は、1つ前のピクチャーにおけるオブジェクトの位置情報から当該位置シフト量を減算し、即ち、1つ前のピクチャーにおけるオブジェクトの位置情報元に、当該位置シフト量を減算することと理解してよく、そして、注釈対象ピクチャーにおけるオブジェクトの予測位置情報を取得すること、を含んでよい。
【0036】
注釈対象ピクチャーは、内容が連続する複数のピクチャーのうち、1つ目のピクチャーおよび2つ目のピクチャー以外の他のピクチャーを含んでよい。
【0037】
複数のピクチャーにおける時間順に並べる1つ目のピクチャーおよび2つ目のピクチャーを注釈し、1つ目のピクチャーおよび2つ目のピクチャーにおけるオブジェクトの位置情報を後続の注釈のベースとして、即ち、1つ目のピクチャーおよび2つ目のピクチャーにおけるオブジェクトの位置情報に基づいて、後続の各ピクチャーにおける各オブジェクトのそれぞれの位置情報を予測すると理解してよい。
【0038】
簡単に理解すると、隣接する2つのピクチャーによって次のピクチャーの位置を予測することである。例えば、時系列を有する5つのピクチャーについて、5つのピクチャーは1つの動画における連続フレームであってよく、例えば、1つの動画の一部である。または、5つのピクチャーは、動画からフレーム抽出し、並べて得られたピクチャーである。まず、1つ目のピクチャーおよび2つ目のピクチャーを注釈し、具体的に、1つ目のピクチャーにおける各オブジェクトの位置を注釈し、各オブジェクトの位置に当該オブジェクトのタグを注釈する。そして、2つ目のピクチャーにおいて、各オブジェクトに対して1つ目のピクチャーにおける同じタグを注釈し、2つ目のピクチャーにおける各オブジェクトの位置を注釈する。次に、各オブジェクトに対して、1つ目のピクチャーおよび2つ目のピクチャーによって3つ目のピクチャーにおける当該オブジェクトの位置を予測し、即ち、1つ目のピクチャーおよび2つ目のピクチャーにおける当該オブジェクトの位置情報によって当該オブジェクトの位置シフト量を確定し、2つ目のピクチャーにおける当該オブジェクトの座標から1つ目のピクチャーにおける当該オブジェクトの座標を減算して、座標の差を取得し、その座標の差は当該位置シフト量として理解されることができ、2つ目のピクチャーの位置情報に当該位置シフト量を加算して、3つ目のピクチャーにおける当該オブジェクトの位置情報を取得する。同様に、2つ目のピクチャーおよび3つ目のピクチャーによって4つ目のピクチャーにおける当該オブジェクトの位置を予測し、即ち、2つ目のピクチャーおよび3つ目のピクチャーにおける当該オブジェクトの位置情報によって当該オブジェクトの位置シフト量を確定し、3つ目のピクチャーにおける当該オブジェクトの座標から2つ目のピクチャーにおける当該オブジェクトの座標を減算して、座標の差を取得し、その座標の差は当該位置シフト量として理解されることができ、3つ目のピクチャーの位置情報に当該位置シフト量を加算して、4つ目のピクチャーにおける当該オブジェクトの位置情報を取得する。3つ目のピクチャーおよび4つ目のピクチャーによって5つ目のピクチャーにおける当該オブジェクトの位置を予測し、即ち、3つ目のピクチャーおよび4つ目のピクチャーにおける当該オブジェクトの位置情報によって当該オブジェクトの位置シフト量を確定し、4つ目のピクチャーにおける当該オブジェクトの座標から3つ目のピクチャーにおける当該オブジェクトの座標を減算して、座標の差を取得し、その座標の差は当該位置シフト量として理解されることができ、4つ目のピクチャーの位置情報に当該位置シフト量を加算して、5つ目のピクチャーにおける当該オブジェクトの位置情報を取得する。
【0039】
ここで、5つのピクチャーは、隣接するピクチャーに基づいて注釈対象ピクチャーの位置を予測する過程を説明するためのものであり、実際応用の過程において、ピクチャーの数量がさらに多くなる可能性がある。
【0040】
S304において、予測位置情報に基づいて注釈対象ピクチャーにおけるオブジェクトを注釈する。
【0041】
1つの実現可能な形態において、注釈対象ピクチャーに、当該予測位置情報を直接に注釈し、当該予測位置情報に基づいて確定された位置に、オブジェクトのタグを注釈することができる。1つの形態において、当該予測位置情報が存在する位置は、注釈対象ピクチャーにおける当該オブジェクトの位置と理解してよく、かつ、当該位置に当該オブジェクトのタグを注釈することができる。これにより、注釈対象ピクチャーにおける当該オブジェクトの注釈を完成する。別の形態において、予測位置情報が1つの座標であり、当該座標を矩形の中心点として、当該中心点に基づいて1つの矩形を書くことができる。当該矩形が当該オブジェクトに対する矩形の枠であると理解してよく、当該矩形の枠の位置に当該オブジェクトのタグをマークすることができ、例えば、当該矩形の枠の左側に当該オブジェクトのタグをマークする。
【0042】
このような形態は、各オブジェクトのタグおよび位置を人為的に記憶する難しさを回避し、マークの速度を高めることができ、かつ、各オブジェクトのタグおよび位置を人為的に記憶することによる注釈ミスを回避し、注釈の正確度を高めることができる。
【0043】
別の実現可能な形態において、当該予測位置情報を展示することによって、注釈者は当該予測位置情報を校正し、校正後の予測位置情報を入力する。これにより、当該校正後の予測位置情報を受信し、注釈対象ピクチャーに校正後の予測位置情報を注釈することができる。注釈対象ピクチャーに校正後の予測位置情報を注釈し、校正後の予測位置情報に基づいて確定された位置に、オブジェクトのタグを注釈する。1つの形態において、当該校正後の予測位置情報は、注釈対象ピクチャーにおける当該オブジェクトの位置と理解してよく、かつ、当該位置に当該オブジェクトのタグを注釈することができる。これにより、注釈対象ピクチャーにおける当該オブジェクトのマークを完成する。別の形態において、当該校正後の予測位置情報を矩形の中心点として、当該中心点に基づいて1つの矩形を書くことができる。当該矩形は当該オブジェクトに対する矩形の枠であると理解してよく、当該矩形の枠の位置に当該オブジェクトのタグをマークすることができ、例えば、当該矩形の枠の左側に当該オブジェクトのタグをマークする。
【0044】
この方法は、人間の記憶によってピクチャーにおける各オブジェクトを注釈することを回避し、注釈の速度を高めることができる。かつ、注釈者は、注釈の過程において、予測位置に対して少量の校正を行うことだけで、隣接するピクチャーにおける同一オブジェクトの位置記録の作業を完成でき、注釈者がIDを記憶する難しさを大幅に下げており、人間の記憶が注釈効率および正確性に与える影響を下げており、注釈速度および正確度を向上することができる。なお、得られた予測位置情報を校正することは、注釈の正確性をさらに向上することができる。
【0045】
1つの好ましい実施例において、内容が連続する複数のピクチャーを取得することは、少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得すること、を含む。
【0046】
1つの動画データについて、動画データに対応する時間順に並べた複数のピクチャーは、動画データをフレーム抽出し、フレーム抽出して得られた動画データに対応するピクチャーの時間順に従って、ピクチャーを並べて得られたものである。
【0047】
時間順に並べた複数のピクチャーは、内容が連続する複数のピクチャーと理解してよい。即ち、異なる動画データにそれぞれ対応する、内容が連続する複数のピクチャーに対して注釈することを実現できる。動画の注釈において、連続画面における同じオブジェクトに対して継続的に注釈する効率を高めることを実現できる。
【0048】
1つの実現可能な形態において、動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、電子デバイスが動画データをフレーム抽出し、フレーム抽出して得られた動画データに対応するピクチャーの時間順に従って、ピクチャーを並べて得られたものであってよい。
【0049】
図4に示すように、本発明実施例が提供するデータ注釈方法は、以下のステップを含む。
【0050】
S401において、少なくとも1つの動画データを取得する。
【0051】
1つの画像取集デバイスが取集した動画データを取得してよい。例えば、1つのビデオカメラは複数のカメラを備える場合、複数のカメラのそれぞれが取集した動画データを取得してよい。または、1つのカメラが異なる時間帯で取集した動画データをそれぞれ取得してよい。少なくとも2つの画像取集デバイスが取集した動画データのそれぞれを取得してもよい。
【0052】
本発明実施例において、電子デバイスは直接に画像取集デバイスから動画データを取得することができ、または、画像取集デバイスは取集された動画データをデータベースに格納し、電子デバイスはデータベースから動画データを取得することなどができる。
【0053】
1つの実現可能な形態において、少なくとも2つのビデオカメラによってデータをそれぞれ取集し、カメラにより得られたデータに対して番号を付け、各カメラがそれぞれ唯一の識別コードを有し、当該識別コードは、異なるカメラにより得られたデータを区別するために用いられる。例えば、番号1のカメラにより得られたすべてのデータに対して、「001-」をデータファイル名のプレフィックスとして、番号2のカメラにより得られたデータに対して、「002-」をデータファイル名のプレフィックスとして、以下はこのようにしてよい。
【0054】
データファイルパッケージによってビデオカメラが取集したデータを格納することができる。データファイルのデータファイル名にはカメラに対応する標識コードを含むことで、当該標識コードは、当該データファイルに格納されているデータがどのカメラにより取集したデータであるかを標識するために用いられる。
【0055】
1つの実現可能な形態において、異なるカメラにより得られたデータは、異なるデータファイルにそれぞれ格納することができ、即ち、1つのカメラが取集したすべてのデータが1つのデータファイルに格納されており、かつ、各データファイルに対して、当該データファイルのデータファイル名には、当該データファイルに格納されているデータに対応するカメラを標識するための標識コードを含む。これにより、異なるデータファイルから、異なる画像取集デバイスにより得られた動画データを取得しやすくなる。
【0056】
S402において、各動画データについて、動画データをフレーム抽出し、動画データに対応するピクチャーを取得する。
【0057】
本発明実施例において、フレーム抽出する方法は制限されなく、実際の要求に応じて選択すればよい。例えば、予め設定された時間の間隔ごとに1つのフレームの画像を抽出するように、動画データ全体に対してフレーム抽出してよい。ここで、予め設定された時間の間隔は、実際の要求や経験などに応じて確定してよく、例えば、1秒ごとに1つのフレームの画像を抽出してもよい。即ち、抽出された隣接する2つのフレームの画像の間隔が1秒であることと理解してもよい。または、予め設定された時間範囲の動画ごとに1つのフレームの画像を抽出するように、例えば、1秒の動画ごとに1つのフレームの画像を抽出するように、フレーム抽出してよい。抽出された当該フレームの画像は、この1秒の動画におけるいずれか1つのフレームの画像であってもよい。
【0058】
フレーム抽出して得られたピクチャーには、時間タグを含むことができる。例えば、ビデオカメラがデータを取集する過程において、1つのフレームの画像のそれぞれの撮影時間を記録することができる。当該時間タグは、当該撮影時間を示すことができる。
【0059】
または、時間タグは、シフト時間を示すことができる。シフト時間とは、ある1フレームの画像に対して、抽出された当該フレームの画像のシフト時間を指す。当該フレームの画像は、動画データにおけるいずれか1つのフレームの画像であってよく、例えば、抽出された1番目のフレームの画像であってよい。
【0060】
本発明実施例において、フレーム抽出して得られたピクチャーにおける時間タグは、制限されなく、同一組のピクチャーが同一種類の時間の時間タグを使用すればよい。例えば、1つの動画データをフレーム抽出して得られたすべてのピクチャーの時間は、いずれも撮影時間を標識するためのものであり、または、いずれもシフト時間を標識するためのものである。
【0061】
本発明実施例において、フレーム抽出して得られた動画データに対応するピクチャーを格納する。ここで、動画データのタグおよびピクチャーの時間タグで当該ピクチャーを命名することができる。例えば、動画データファイル名のプレフィックス(動画データを生成した画像取集デバイス、例えばビデオカメラを標識する)を画像データファイルのファイル名のプレフィックスとして保存する。画像データファイル名は、動画データプレフィックス+当該フレームを生成した時刻のタイムスタンプに構成される。動画データプレフィックスは動画データを格納するデータファイルのデータファイル名のプレフィックスであり、当該フレームを生成した時刻のタイムスタンプは上記した時間タグである。
【0062】
1つの場合では、フレーム抽出する過程において、同じ秒の動画から複数フレームのピクチャーを抽出した可能性がある。この場合、時間タグが標識した時間の単位が秒であれば、これらの複数フレームの画像を区別することができない。そのため、この場合は、時間タグが標識した時間の単位がミリ秒であってよく、即ち、ピクチャーを命名する過程において、当該フレームを生成した時刻のタイムスタンプにミリ秒フィールドを増加してよい。
【0063】
S403において、ピクチャーの時間順にピクチャーを並べて、動画データに対応する時間順に並べた複数のピクチャーを取得する。
【0064】
ピクチャーの時間タグに基づいて、各動画データからフレーム抽出して得られたピクチャーのそれぞれを時間順に並べることができる。例えば、時間の前後順に従って、即ち、時間的に前のピクチャーを前に、時間的に後のピクチャーを後に並べることができる。これにより、各動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得することができる。
【0065】
フレーム抽出して得られた複数のピクチャーを時間が自然に流れる順に並べることで、複数のピクチャーに連続性を持たせることができ、各ピクチャーは、ピクチャーの内容について、前後のピクチャーと連続性を生じる。時間順に並べた複数のピクチャーは、内容が連続する複数のピクチャーであると理解してよい。
【0066】
異なるカメラが生成したデータを組に分けて、各組に同一カメラが生成した画像データを格納することができる。例えば、異なるカメラにより得られた動画データにそれぞれ対応する時間順に並べた複数のピクチャーをそれぞれ分けて格納する。例えば、全部で、3つのカメラが取集した動画データが3つある場合、3つの動画データから、それらに対応する3組の時間順に並べた複数のピクチャーをそれぞれ取得でき、これらの3組のピクチャーはそれぞれ分けて格納されることができる。
【0067】
これにより、内容が連続する複数のピクチャーを取得することは、時間順に並べた複数のピクチャーを取得することを含む。内容が連続する複数のピクチャーは、上記した時間順に並べた複数のピクチャーを含む。
【0068】
本発明実施例において、動画データを取得した後、まず、動画データをフレーム抽出し、そして、フレーム抽出して得られたピクチャーを時間順に並べることができる。並べた複数のピクチャーは、内容が連続する複数のピクチャーであると理解してよい。具体的に、複数の動画データにおける各動画データについて、それぞれに対応する内容が連続する複数のピクチャーを取得することができる。異なる動画データにそれぞれ対応する内容が連続する複数のピクチャーに対して、上記したステップS302~S304をそれぞれ実行することで、異なる動画データにそれぞれ対応する内容が連続する複数のピクチャーを注釈することをできる。
【0069】
本発明実施例において、異なるカメラが撮った動画データを取得することができ、各カメラが撮った動画データをそれぞれフレーム抽出し、異なるカメラに対応する画像データを取得し、画像データには、各ピクチャーのカメラタグおよび時間タグを含む。これにより、注釈する過程において、時間順に並べた複数のピクチャーを取得し、2つ前のピクチャーにおけるオブジェクトを注釈し(各オブジェクトのオブジェクトタグおよび位置を注釈する)、各オブジェクトに対して、後続のピクチャーにおける同一オブジェクトの位置を予測することができる。具体的に、予測することは、各ピクチャーに対して、当該ピクチャーと当該ピクチャーの1つ前のピクチャーにおける同一オブジェクトの位置との差を算出し、オブジェクトの位置シフト量を取得し、当該ピクチャーにおけるオブジェクトの位置に当該位置シフト量を加算して、次のピクチャーにおける当該オブジェクトの位置を取得し、当該位置に基づいて次のピクチャーに当該オブジェクトを注釈することを含む。予測した位置に基づいて当該オブジェクトを注釈する前に、予測して得られた位置を校正することもできる。
【0070】
別の実現可能な形態において、少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、電子デバイスがデータベース、例えば注釈システムデータベースから取得したものであってよく、各動画データに対応する時間順に並べた複数のピクチャーは、動画データ処理システムが注釈システムデータベースに格納したものである。
【0071】
各動画データを処理し、各動画データに対応する時間順に並べた複数のピクチャーを取得することは、
各動画データについて、動画データをフレーム抽出し、動画データに対応するピクチャーを取得することと、ピクチャーの時間順にピクチャーを並べて、動画データに対応する時間順に並べた複数のピクチャーを取得することと、を含んでもよい。
【0072】
具体的に、動画データ処理システムは、上記したS401~S403を実行して、各動画データに対応する時間順に並べた複数のピクチャーを取得し、各動画データに対応する時間順に並べた複数のピクチャーを注釈システムデータベースに保存する。これにより、注釈する過程において、注釈システムデータベースから、少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得することができる。
【0073】
動画データ処理システムによって動画データを処理して、時間順に並べた複数のピクチャーを取得し、注釈システムデータベースによって複数の動画データにそれぞれ対応する時間順に並べた複数のピクチャーを保存し、注釈する過程において、注釈システムデータベースからこれらの時間順に並べた複数のピクチャーを直接に取得して注釈することによって、注釈する過程において、電子デバイスの処理負荷を低減し、電子デバイスの計算リソースなどを節約することができる。
【0074】
図5に示すように、複数のカメラがデータをそれぞれ取集し、複数のカメラのそれぞれに対応する動画データを取得する。各カメラが動画データを取得した後、当該カメラの動画データを動画データ処理システムに送信することができる。動画データ処理システムは、各動画データをそれぞれ処理し、各動画データに対応する時間順に並べた複数のピクチャーを取得し、各動画データに対応する時間順に並べた複数のピクチャーを注釈システムデータベースに格納する。ここで、時間順に並べた複数のピクチャーは、内容が連続するピクチャーであると理解してもよい。
【0075】
注釈システムバックエンドは、アプリケーションプログラムインタフェース(Application Programming Interface、API)を介して注釈システムデータベースからこれらの内容が連続するピクチャーを取得し、これらの内容が連続するピクチャーを注釈する。注釈システムフロントエンドは、注釈されたピクチャーを展示する。
【0076】
ここで、注釈システムバックエンドおよび注釈システムフロントエンドは、1つの電子デバイスにおける2つの部分であってよく、または、2つの独立した電子デバイスなどであってもよい。
【0077】
注釈システムバックエンドは内容が連続するピクチャーを取得し、これらの内容が連続するピクチャーを注釈することは、
内容が連続する複数のピクチャーを取得し、複数のピクチャーのそれぞれは同じオブジェクトを少なくとも1つ含むことと、各オブジェクトに対して、隣接する2つのピクチャーにおけるオブジェクトの位置情報によってオブジェクトの位置シフト量を確定し、ここで、隣接する2つのピクチャーは2つ前のピクチャーと1つ前のピクチャーとを含み、1つ前のピクチャーは時系列で注釈対象ピクチャーの前にあって、注釈対象ピクチャーに隣接するピクチャーであり、2つ前のピクチャーは時系列で1つ前のピクチャーの前にあって、1つ前のピクチャーに隣接するピクチャーであることと、1つ前のピクチャーの位置情報および位置シフト量に基づいて、注釈対象ピクチャーにおけるオブジェクトの予測位置情報を確定することと、予測位置情報に基づいて注釈対象ピクチャーにおけるオブジェクトを注釈することと、を含んでよい。具体的な過程は、上記した実施例に詳しく説明した。
【0078】
1つの具体的な例において、図6に示すように、本発明実施例が提供するデータ注釈方法は、以下のステップを含む。
【0079】
ステップAにおいて、動画データを取集し、カメラによって番号を付ける。
【0080】
複数のカメラが動画データをそれぞれ取集し、異なるカメラが取集した動画データに対してカメラの番号によって標識する。
【0081】
各カメラは唯一の識別コードをそれぞれ有し、当該識別コードは、異なるカメラにより得られた動画データを区別するために用いられる。例えば、番号1のカメラにより得られた動画データは、いずれも「001-」をデータファイル名のプレフィックスとし、即ち、番号1のカメラにより得られた動画データは、1つのデータファイルに格納されており、「001-」をデータファイル名のプレフィックスとする。番号2のカメラにより得られたデータは、いずれも「002-」データファイル名のプレフィックスとし、即ち、番号2のカメラにより得られた動画データは、他のデータファイルに格納されており、「002-」をデータファイル名のプレフィックスとする。このようにして、異なるカメラにより得られた動画データを、異なるデータファイルにそれぞれ格納し、異なるデータファイル名で区別する。
【0082】
ステップBにおいて、動画データをフレーム抽出し、動画シフト時間に従ってピクチャーに対して番号を付ける。
【0083】
本発明実施例において、動画データを取得した後、まず動画データを処理し、即ち、まず動画データをフレーム抽出してよい。
【0084】
動画データを動画データファイルに格納してよく、各動画データファイルから動画データをそれぞれ取得し、動画データを処理する。
【0085】
シフト時間に従ってピクチャーに対して番号を付けることは、フレーム抽出して得られた各ピクチャーに当該ピクチャーのシフト時間を標識することと理解してもよい。シフト時間は、ある1つのフレームのピクチャーに対して、抽出された当該フレームのピクチャーのシフト時間であってよい。当該フレームの画像は、動画データにおけるいずれか1つのフレームの画像であってよく、例えば、抽出された1番目のフレームの画像であってよい。
【0086】
1つの例において、1秒の動画ごとに1つのフレームのピクチャーを抽出するように、すべての動画データをフレーム抽出するとともに、各ピクチャーのシフト時間を計算する。シフト時間は、ミリ秒まで精確なものであってよい。シフト時間をピクチャーの作成時間として格納する。ピクチャーは、データベースに格納されてよく、例えば、データベースにおける画像データファイルに格納されてよい。
【0087】
ピクチャーを格納する過程において、シフト時間を格納することのほか、動画データファイル名のプレフィックスを画像データファイルのファイル名のプレフィックスとして保存することもできる。画像データファイル名は、元プレフィックス(動画データファイル名のプレフィックス)+当該フレームを生成した時刻のタイムスタンプ(時間タグ、例えば、撮影時間、シフト時間など)+ミリ秒数に構成される。即ち、画像データファイル名は、動画データプレフィックス+当該フレームを生成した時刻のタイムスタンプに構成されることと理解してもよい。動画データプレフィックスは動画データを格納するデータファイルのデータファイル名のプレフィックスであり、当該フレームを生成した時刻のタイムスタンプは上記した時間タグである。時間タグが標識した時間の単位はミリ秒であってよく、即ち、ピクチャーを命名する過程において、当該フレームを生成した時刻のタイムスタンプにミリ秒フィールドを追加してよい。ミリ秒数を追加することは、あるフレーム抽出方法において1秒の動画から複数のピクチャーを抽出した場合があることを考慮するためである。
【0088】
ステップCにおいて、ピクチャーを組に分けて並べる。
【0089】
異なるカメラが生成した画像データを組に分けて、各組に同一カメラが生成した画像データを格納することができる。ここで、各カメラが生成した画像データは、当該カメラの動画データをフレーム抽出して得られた複数のピクチャーである。
【0090】
各ピクチャーはいずれも時間属性を有し、即ち、各ピクチャーにはいずれも時間タグが標識されているため、同一組にあるデータ、即ち複数のピクチャーを、ピクチャーの時間タグに従って並べることができ、複数のピクチャーに連続性を持たせ、ピクチャーを時間が自然に流れる順に並べさせることを目的とする。これにより、各ピクチャーは、ピクチャーの内容について、前後のピクチャーと連続性を生じる。
【0091】
1つの実現可能な形態において、各カメラが動画データを取得した後、当該カメラの動画データを動画データ処理システムに送信することができる。動画データ処理システムは、各動画データをそれぞれ処理する。具体的に、動画データ処理システムがカメラによって番号を付け、動画データをフレーム抽出し、動画シフト時間に従ってピクチャーに対して番号を付け、ピクチャーを組に分けて並べる。これにより、各動画データに対応する時間順に並べた複数のピクチャーを取得する。
【0092】
なお、各動画データに対応する時間順に並べた複数のピクチャーを注釈システムデータベースに格納することができる。
【0093】
ステップDにおいて、ピクチャーの組の1つ目のピクチャーおよび2つ目のピクチャーにおける各オブジェクトに対して、IDおよび位置を注釈する。
【0094】
ステップEにおいて、次のピクチャーにおける各オブジェクトの位置を予測する。
【0095】
注釈システムデータベースから少なくとも1つの動画データに対応する時間順に並べた複数のピクチャーを取得することができる。例えば、複数のカメラにそれぞれ対応する複数組のピクチャーを取得することができる。例えば、注釈システムバックエンドは、注釈システムデータベースから少なくとも1つの動画データに対応する時間順に並べた複数のピクチャーを取得する。
【0096】
並べた各組のピクチャーに対して、当該組のピクチャーのうち1つ目のピクチャーおよび2つ目のピクチャーにおけるオブジェクトを注釈し、各オブジェクトのIDおよび座標を記録する。IDは当該オブジェクトの唯一の標識であり、座標はピクチャーにおける当該オブジェクトの位置である。
【0097】
当該組のピクチャーのうち残りのピクチャー(1つ目のピクチャーおよび2つ目のピクチャー以外の他のピクチャー)におけるオブジェクトの位置を逐次に予測する。予測方法は、隣接する2つのピクチャーにおける同じIDのオブジェクトの位置シフト量を計算し、例えば、隣接する2つのピクチャーの位置(1つの座標であってよい)の差を計算し、各オブジェクトに対して、ピクチャーにおける当該オブジェクトの現在の位置に当該オブジェクトの位置シフト量を加算することで、次のピクチャーにおける各オブジェクトの座標を計算することである。
【0098】
当該ピクチャーと当該ピクチャーの1つ前のピクチャーにおける同一オブジェクトの位置の差を計算し、オブジェクトの位置シフト量を取得し、当該ピクチャーにおけるオブジェクトの位置に当該位置シフト量を加算して、次のピクチャーにおける当該オブジェクトの位置を取得する。
【0099】
ステップFにおいて、各オブジェクトの位置を校正する。
【0100】
次のピクチャーにおける各オブジェクトの予測位置情報を取得した後、注釈対象ピクチャーに当該予測位置情報を直接に注釈し、当該予測位置情報に基づいて確定された位置にオブジェクトのタグを注釈することができる。
【0101】
または、当該予測位置情報を展示することによって、注釈者は当該予測位置情報を校正し、校正後の予測位置情報を入力することもできる。これにより、当該校正後の予測位置情報を受信し、注釈対象ピクチャーに当該校正後の予測位置情報を注釈することができる。注釈対象ピクチャーに校正後の予測位置情報を注釈し、校正後の予測位置情報に基づいて確定された位置に、オブジェクトのタグを注釈する。
【0102】
注釈者は、注釈する過程において、予測位置に対して少量の座標校正を行うことだけで、隣接するピクチャーにおける同一オブジェクトの位置記録の作業を完成でき、注釈者がIDを記憶する難しさを大幅に下げるとともに、注釈の正確度を向上することができる。
【0103】
ステップGにおいて、注釈結果を整理する。
【0104】
注釈された結果をファイル名に従って並べて整理してから、交付する。
【0105】
ファイル名は、上記した画像データファイル名である。
【0106】
各カメラが生成した画像データは1組のピクチャーであり、即ち、各カメラの動画データに対して得られた時間順に並べた複数のピクチャーが1組のピクチャーであると理解されてよい。複数のカメラに対応する複数組のピクチャーをそれぞれ注釈し、複数組の注釈されたピクチャーを取得する。
【0107】
注釈が完成された後にも、注釈結果を展示することができる。具体的に、各ピクチャーに注釈された各オブジェクトのタグおよび位置を展示してもよい。例えば、注釈システムフロントエンドは、注釈された各ピクチャーを展示する。
【0108】
本発明実施例は、動画中の連続画面における同じオブジェクトを注釈すること実現でき、動画中の連続画面における同じオブジェクトを注釈する速度を向上し、注釈の正確度を高めることができる。かつ、注釈過程は注釈者の能力に制限されない。
【0109】
本発明実施例は、さらに、データ注釈装置を提供する。図7に示すように、前記データ注釈装置は、
内容が連続する複数のピクチャーを取得し、複数のピクチャーのそれぞれは同じオブジェクトを少なくとも1つ含む、第1取得モジュール701と、
各オブジェクトに対して、隣接する2つのピクチャーにおけるオブジェクトの位置情報によってオブジェクトの位置シフト量を確定し、ここで、隣接する2つのピクチャーは2つ前のピクチャーと1つ前のピクチャーとを含み、1つ前のピクチャーは時系列で注釈対象ピクチャーの前にあって、注釈対象ピクチャーに隣接するピクチャーであり、2つ前のピクチャーは時系列で1つ前のピクチャーの前にあって、1つ前のピクチャーに隣接するピクチャーであり、1つ前のピクチャーの位置情報および位置シフト量に基づいて、注釈対象ピクチャーにおけるオブジェクトの予測位置情報を確定する、確定モジュール702と、
予測位置情報に基づいて注釈対象ピクチャーにおけるオブジェクトを注釈する、注釈モジュール703と、を含む。
【0110】
好ましくは、第1取得モジュール701は、具体的に、少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得する。1つの動画データについて、動画データに対応する時間順に並べた複数のピクチャーは、動画データをフレーム抽出し、フレーム抽出して得られた動画データに対応するピクチャーの時間順にピクチャーを並べて得られたものである。
【0111】
好ましくは、図8に示すように、当該装置は、さらに、
少なくとも1つの動画データを取得する、第2取得モジュール801と、
各動画データについて、動画データをフレーム抽出し、動画データに対応するピクチャーを取得する、フレーム抽出モジュール802と、
ピクチャーの時間順にピクチャーを並べて、動画データに対応する時間順に並べた複数のピクチャーを取得する、ソートモジュール803と、を含む。
【0112】
好ましくは、第1取得モジュール701は、具体的に、注釈システムデータベースから少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得する。少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、動画データ処理システムが注釈システムデータベースに格納されているものであり、少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、各動画データのそれぞれについて、動画データ処理システムが動画データをフレーム抽出し、フレーム抽出して得られた動画データに対応するピクチャーの時間順にピクチャーを並べて得られたものである。
【0113】
好ましくは、図9に示すように、当該装置は、さらに、
予測位置情報を展示する、展示モジュール901と、
予測位置情報を校正して得られた校正後の予測位置情報を受信する、受信モジュール902と、
注釈対象ピクチャーに校正後の予測位置情報を注釈し、校正後の予測位置情報に基づいて確定された位置にオブジェクトのタグを注釈する、注釈モジュール703と、を含み。
【0114】
本発明実施例は、さらに、データ注釈システムを提供する。図10に示すように、前記データ注釈システムは、注釈システムバックエンド1001と注釈システムフロントエンド1002とを含み、
注釈システムバックエンド1001は、内容が連続する複数のピクチャーを取得し、複数のピクチャーのそれぞれは同じオブジェクトを少なくとも1つ含み、各オブジェクトに対して、隣接する2つのピクチャーにおけるオブジェクトの位置情報によってオブジェクトの位置シフト量を確定し、ここで、隣接する2つのピクチャーは2つ前のピクチャーと1つ前のピクチャーとを含み、1つ前のピクチャーは時系列で注釈対象ピクチャーの前にあって、注釈対象ピクチャーに隣接するピクチャーであり、2つ前のピクチャーは時系列で1つ前のピクチャーの前にあって、1つ前のピクチャーに隣接するピクチャーであり、1つ前のピクチャーの位置情報および位置シフト量に基づいて、注釈対象ピクチャーにおけるオブジェクトの予測位置情報を確定し、予測位置情報に基づいて注釈対象ピクチャーにおけるオブジェクトを注釈し、
注釈システムフロントエンド1002は、注釈システムバックエンド1001による注釈対象ピクチャーにおけるオブジェクトに対する注釈を展示する。
【0115】
好ましくは、図11に示すように、当該データ注釈システムは、さらに、注釈システムデータベース1101と、
注釈システムデータベース1101から少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得し、1つの動画データについて、動画データに対応する時間順に並べた複数のピクチャーは、動画データをフレーム抽出し、フレーム抽出して得られた動画データに対応するピクチャーの時間順にピクチャーを並べて得られたものである、注釈システムバックエンド1001と、を含む。
【0116】
好ましくは、少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、動画データ処理システムが注釈システムデータベース1101に格納するものであり、少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、各動画データのそれぞれについて、動画データ処理システムが動画データをフレーム抽出し、フレーム抽出して得られた動画データに対応するピクチャーの時間順にピクチャーを並べて得られたものである。
【0117】
好ましくは、注釈システムバックエンド1001は、予測位置情報を展示し、予測位置情報を校正して得られた校正後の予測位置情報を受信し、注釈対象ピクチャーに校正後の予測位置情報を注釈し、校正後の予測位置情報に基づいて確定された位置にオブジェクトのタグを注釈する。
【0118】
装置、システム実施例は、方法実施例と基本的に同様であるため、簡単に説明したが、関連する内容について、方法実施例の説明部分に参照すればよい。
【0119】
本発明の技術案に関するユーザーの個人情報に対する収集、保存、使用、加工、伝送、提供及び公開等の処理は、いずれも関連する法律および規制に従い、公序良俗に反しないものである。
【0120】
本発明実施例によれば、本発明は、デバイス、可読記憶媒体、及びコンピュータープログラム製品をさらに提供する。
【0121】
図12は、本発明実施例を実施できる例示である電子デバイス1200の模式的なブロック図を示す。電子デバイスとしては、例えば、ラップトップパソコン、デスクトップパソコン、ワークステーション、パーソナルデジタルアシスタント、サーバー、ブレードサーバー、メインフレームコンピューター、及び他の適当なコンピューターなど、様々な形態のデジタルコンピューターである。電子デバイスとしては、さらに、例えば、パーソナルデジタルアシスタント、セルフォン、スマートフォン、ウェアラブル機器、及び他の類似の計算装置など、様々な形態のモバイル装置である。本明細書に記載のコンポーネント、それらの接続関係、及びそれらの機能は例示的なものに過ぎず、本発明の実施に関して本明細書に記載及び/又は主張された内容に限定するものではない。
【0122】
図12に示すように、デバイス1200は、リードオンリーメモリ(ROM)1202に記憶されているコンピュータープログラムによって、又は記憶手段1208からランダムアクセスメモリ(RAM)1203にロードされたコンピュータープログラムによって、各種の適当な動作や処理を実行する、計算手段1201を含む。RAM 1203には、さらに、デバイス1200の動作に必要する各種のプログラムやデータが記憶されていることもできる。計算手段1201、ROM 1202及びRAM 1203は、それぞれ、バス1204によって接続する。入力/出力(I/O)インターフェース1205も、バス1204に接続されている。
【0123】
デバイス1200における複数のコンポーネントは、I/Oインターフェース1205に接続されている。前記複数のコンポーネントは、例えばキーボード、マウス等の入力手段1206と、例えば各種の型のディスプレイ、スピーカー等の出力手段1207と、例えばディスク、光ディスク等の記憶手段1208と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信手段1209と、を含む。通信手段1209によって、デバイス1200は、例えばインターネット等のコンピューターネットワーク、及び/又は各種の通信ネットワークを介して、他のデバイスと情報/データを交換することが可能である。
【0124】
計算手段1201は、処理及び計算能力を有する、各種の汎用な及び/又は専用な処理コンポーネントであってよい。計算手段1201のいくつかの例示は、中央処理ユニット(CPU)、画像処理ユニット(GPU)、各種の専用な人工知能(AI)演算チップ、機械学習モデルアルゴリズムを実行する各種の演算ユニット、デジタルシグナルプロセッサー(DSP)、及び任意の適当なプロセッサー、コントローラ、マイクロコントローラ等を含むが、これらに限定されない。計算手段1201は、上述した各方法や処理、例えばデータ注釈方法を実行する。例えば、いくつかの実施例では、データ注釈方法は、コンピューターソフトウェアプログラムとして実現されることができ、例えば記憶手段1208等の機械可読媒体に有形的に含まれている。いくつかの実施例では、コンピュータープログラムの一部又は全部は、ROM 1202及び/又は通信手段1209を介して、デバイス1200にロード及び/又はインストールされていることができる。コンピュータープログラムは、RAM 1203にロードされ、計算手段1201によって実行されると、上述したデータ注釈方法の1つ又は複数のステップを実行することができる。予備的に、他の実施例において、計算手段1201は、他の任意の適当な方式によって(例えば、ファームウェアによって)、実行データ注釈方法を実行するように構成されてよい。
【0125】
本明細書において、上述したシステムや技術の各種実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、複合プログラマブルロジックデバイス(CPLD)、コンピューターハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現できる。これらの各種実施形態は、1つ以上のコンピュータープログラムにおいて実施されており、当該1つ以上のコンピュータープログラムは、少なくとも1つのプログラマブルプロセッサーを含むプログラマブルシステムにおいて実行及び/又は解釈されてよく、当該プログラマブルプロセッサーは、専用又は汎用のプログラマブルプロセッサーであってよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる、ことを含んでもよい。
【0126】
本発明の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語の任意の組み合わせを用いて編集してよい。これらのプログラムコードは、汎用コンピューター、専用コンピューター又は他のプログラマブルデータ処理装置のプロセッサー又はコントローラに提供されることができる。これによって、プログラムコードがプロセッサー又はコントローラによって実行される時、フローチャート図及び/又はブロック図で規定された機能/動作を実施させられることができる。プログラムコードは、完全的に機械で実行されることができ、部分的に機械で実行されることができ、スタンドアロンパッケージとして部分的に機械で実行され且つ部分的にリモート機械で実行され、又は完全的にリモート機械やサーバーで実行されることができる。
【0127】
本発明の文脈では、機械可読媒体は、命令実行システム、装置又はデバイスが使用されるプログラム、又は、命令実行システム、装置又はデバイスと結合して使用されるプログラムを含み又は記憶されている有形の媒体であってよい。機械可読媒体は、機械可読シグナル媒体、又は機械可読記憶媒体であってよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体のシステム、装置又はデバイス、又はこれらの任意の適当な組み合わせを含んでよいが、これに限定されない。機械可読記憶媒体のより具体的な例示としては、1本以上のワイヤに基づく電気接続、携帯型コンピューターディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバー、携帯型コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶デバイス、磁気記憶デバイス、又はこれらの任意の適当な組み合わせを含んでよい。
【0128】
ユーザーとのインタラクションを提供するために、上述したシステム及び技術は、コンピューターで実施されることができる。当該コンピューターは、ユーザーに情報を表示することに用いられる表示装置(例えば、CRT(ブラウン管)又はLCD(液晶ディスプレイ)モニター)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザーは、当該キーボード及び当該ポインティングデバイスによって、コンピューターに入力を提供することができる。ユーザーとのインタラクションを提供するために、他の種類の装置も使える。例えば、ユーザーに提供されるフィードバックは、任意の形式の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってよい。また、任意の形式(音入力、音声入力、触覚入力を含む)によって、ユーザーからの入力を受信してよい。
【0129】
ここで記述したシステム及び技術は、バックグラウンドコンポーネントを含む計算システム(例えば、データサーバーとして)、又は中間コンポーネントを含む計算システム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含む計算システム(例えば、グラフィカルユーザーインタフェース又はウェブブラウザーを備えるユーザーコンピューターであって、ユーザーは、当該グラフィカルユーザーインタフェース又は当該ウェブブラウザーによって上記したシステム及び技術の実施形態とインタラクションを行うことができる)、又はこのようなバックグラウンドコンポーネント、中間コンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含む計算システムで、実施されることができる。任意の形式又は媒体によるデジタルデータ通信(例えば、通信ネットワーク)を介して、システムのコンポーネントを互いに接続することができる。通信ネットワークの例示としては、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
【0130】
コンピューターシステムは、クライアントとサーバーとを含んでよい。クライアントとサーバーとは、一般的に互いに離れており、通常、通信ネットワークを介してインタラクションを行う。対応するコンピューターで実行され、互いにクライアント-サーバー関係を有するコンピュータープログラムによって、クライアントとサーバーとの関係を確立する。サーバーは、クラウドサーバー、分散システムのサーバー、又はブロックチェーンを結合したサーバーであってよい。
【0131】
なお、上記の様々なプロセスを使用して、ステップを並べ替え、追加、又は削除することができる。例えば、本発明に記載の各ステップは同時に実行されてもよいし、順に実行されてもよいし、他の順番で実行されてもよく、本開示の技術的解決手段の所望の結果を得られるものであれば、本明細書では特に限定しない。
【0132】
上記具体的な実施形態は、本開示の保護範囲を限定するものと見なされない。当業者が理解したように、設計上の要件や他の要素に基づいて、様々な修正や、組み合わせ、置き換えを行うことができる。本開示の趣旨においてなされた修正、同等な置き換えや改善等は、いずれも本開示の保護範囲に含まれる。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
【手続補正書】
【提出日】2023-02-07
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
内容が連続する複数のピクチャーを取得し、前記複数のピクチャーのそれぞれは同じオブジェクトを少なくとも1つ含むことと、
各オブジェクトに対して、隣接する2つのピクチャーにおける前記オブジェクトの位置情報によって前記オブジェクトの位置シフト量を確定し、ここで、前記隣接する2つのピクチャーは2つ前のピクチャーと1つ前のピクチャーとを含み、前記1つ前のピクチャーは時系列で注釈対象ピクチャーの前にあって、前記注釈対象ピクチャーに隣接するピクチャーであり、前記2つ前のピクチャーは時系列で前記1つ前のピクチャーの前にあって、前記1つ前のピクチャーに隣接するピクチャーであることと、
前記1つ前のピクチャーの位置情報および前記位置シフト量に基づいて、前記注釈対象ピクチャーにおける前記オブジェクトの予測位置情報を確定することと、
前記予測位置情報に基づいて前記注釈対象ピクチャーにおける前記オブジェクトを注釈することと、を含む、
データ注釈方法。
【請求項2】
前記内容が連続する複数のピクチャーを取得することは、
少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得し、1つの動画データについて、前記動画データに対応する時間順に並べた複数のピクチャーは、前記動画データをフレーム抽出し、フレーム抽出して得られた前記動画データに対応するピクチャーの時間順に前記ピクチャーを並べて得られたものであること、を含む、
請求項1に記載の方法。
【請求項3】
前記方法は、さらに、
少なくとも1つの動画データを取得することと、
各動画データについて、前記動画データをフレーム抽出し、前記動画データに対応するピクチャーを取得することと、
前記ピクチャーの時間順に前記ピクチャーを並べて、前記動画データに対応する時間順に並べた複数のピクチャーを取得することと、を含む、
請求項2に記載の方法。
【請求項4】
前記の少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得することは、
注釈システムデータベースから少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得し、ここで、前記少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、動画データ処理システムが前記注釈システムデータベースに格納するものであり、前記少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、各前記動画データのそれぞれについて、前記動画データ処理システムが前記動画データをフレーム抽出し、フレーム抽出して得られた前記動画データに対応するピクチャーの時間順に前記ピクチャーを並べて得られたものであること、を含む、
請求項2に記載の方法。
【請求項5】
前記方法は、さらに、
前記予測位置情報を展示することと、
前記予測位置情報を校正して得られた校正後の予測位置情報を受信することと、を含み、
前記予測位置情報に基づいて前記注釈対象ピクチャーにおける前記オブジェクトを注釈することは、
前記注釈対象ピクチャーに前記校正後の予測位置情報を注釈し、前記校正後の予測位置情報に基づいて確定された位置に前記オブジェクトのタグを注釈すること、を含む、
請求項1~4のいずれか一項に記載の方法。
【請求項6】
内容が連続する複数のピクチャーを取得し、前記複数のピクチャーのそれぞれは同じオブジェクトを少なくとも1つ含む、第1取得モジュールと、
各オブジェクトに対して、隣接する2つのピクチャーにおける前記オブジェクトの位置情報によって前記オブジェクトの位置シフト量を確定し、ここで、前記隣接する2つのピクチャーは2つ前のピクチャーと1つ前のピクチャーとを含み、前記1つ前のピクチャーは時系列で注釈対象ピクチャーの前にあって、前記注釈対象ピクチャーに隣接するピクチャーであり、前記2つ前のピクチャーは時系列で前記1つ前のピクチャーの前にあって、前記1つ前のピクチャーに隣接するピクチャーであり、前記1つ前のピクチャーの位置情報および前記位置シフト量に基づいて、前記注釈対象ピクチャーにおける前記オブジェクトの予測位置情報を確定する、確定モジュールと、
前記予測位置情報に基づいて前記注釈対象ピクチャーにおける前記オブジェクトを注釈する、注釈モジュールと、を含む、
データ注釈装置。
【請求項7】
前記第1取得モジュールは、少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得し、1つの動画データについて、前記動画データに対応する時間順に並べた複数のピクチャーは、前記動画データをフレーム抽出し、フレーム抽出して得られた前記動画データに対応するピクチャーの時間順に前記ピクチャーを並べて得られたものである、
請求項6に記載の装置。
【請求項8】
少なくとも1つの動画データを取得する、第2取得モジュールと、
各動画データについて、前記動画データをフレーム抽出し、前記動画データに対応するピクチャーを取得する、フレーム抽出モジュールと、
前記ピクチャーの時間順に前記ピクチャーを並べて、前記動画データに対応する時間順に並べた複数のピクチャーを取得する、ソートモジュールとを、さらに含む、
請求項7に記載の装置。
【請求項9】
前記第1取得モジュールは、注釈システムデータベースから少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得し、ここで、前記少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、動画データ処理システムが前記注釈システムデータベースに格納するものであり、前記少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、各前記動画データのそれぞれについて、前記動画データ処理システムが前記動画データをフレーム抽出し、フレーム抽出して得られた前記動画データに対応するピクチャーの時間順に前記ピクチャーを並べて得られたものである、
請求項7に記載の装置。
【請求項10】
前記予測位置情報を展示する、展示モジュールと、
前記予測位置情報を校正して得られた校正後の予測位置情報を受信する、受信モジュールと、をさらに含み、
前記注釈モジュールは、前記注釈対象ピクチャーに前記校正後の予測位置情報を注釈し、前記校正後の予測位置情報に基づいて確定された位置に前記オブジェクトのタグを注釈する、
請求項6~9のいずれか一項に記載の装置。
【請求項11】
注釈システムバックエンドと注釈システムフロントエンドとを含むデータ注釈システムであって、
前記注釈システムバックエンドは、内容が連続する複数のピクチャーを取得し、前記複数のピクチャーのそれぞれは同じオブジェクトを少なくとも1つ含み、各オブジェクトに対して、隣接する2つのピクチャーにおける前記オブジェクトの位置情報によって前記オブジェクトの位置シフト量を確定し、ここで、前記隣接する2つのピクチャーは2つ前のピクチャーと1つ前のピクチャーとを含み、前記1つ前のピクチャーは時系列で注釈対象ピクチャーの前にあって、前記注釈対象ピクチャーに隣接するピクチャーであり、前記2つ前のピクチャーは時系列で前記1つ前のピクチャーの前にあって、前記1つ前のピクチャーに隣接するピクチャーであり、前記1つ前のピクチャーの位置情報および前記位置シフト量に基づいて、前記注釈対象ピクチャーにおける前記オブジェクトの予測位置情報を確定し、前記予測位置情報に基づいて前記注釈対象ピクチャーにおける前記オブジェクトを注釈し、
前記注釈システムフロントエンドは、前記注釈システムバックエンドが前記注釈対象ピクチャーにおける前記オブジェクトに対する注釈を展示する、
データ注釈システム。
【請求項12】
前記システムは、さらに、注釈システムデータベースを含み、
前記注釈システムバックエンドは、前記注釈システムデータベースから少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーを取得し、1つの動画データについて、前記動画データに対応する時間順に並べた複数のピクチャーは、前記動画データをフレーム抽出し、フレーム抽出して得られた前記動画データに対応するピクチャーの時間順に前記ピクチャーを並べて得られたものである、
請求項11に記載のシステム。
【請求項13】
前記少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、動画データ処理システムが前記注釈システムデータベースに格納するものであり、前記少なくとも1つの動画データにそれぞれ対応する時間順に並べた複数のピクチャーは、各前記動画データのそれぞれについて、前記動画データ処理システムが前記動画データをフレーム抽出し、フレーム抽出して得られた前記動画データに対応するピクチャーの時間順に前記ピクチャーを並べて得られたものである、
請求項12に記載のシステム。
【請求項14】
前記注釈システムバックエンドは、前記予測位置情報を展示し、前記予測位置情報を校正して得られた校正後の予測位置情報を受信し、前記注釈対象ピクチャーに前記校正後の予測位置情報を注釈し、前記校正後の予測位置情報に基づいて確定された位置に前記オブジェクトのタグを注釈する、
請求項11~13のいずれか一項に記載のシステム。
【請求項15】
少なくとも1つのプロセッサーと、
前記少なくとも1つのプロセッサーと通信接続しているメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサーによって実行できる命令が記憶されており、前記少なくとも1つのプロセッサーによって前記命令を実行することにより、前記少なくとも1つのプロセッサーが請求項1に記載の方法を実行できる、
電子デバイス。
【請求項16】
コンピューター命令が記憶されている非一時的なコンピューター可読記憶媒体であって、前記コンピューター命令は、前記コンピューターに請求項1に記載の方法を実行させる、
非一時的なコンピューター可読記憶媒体。
【請求項17】
コンピュータープログラムを含むコンピュータープログラム製品であって、前記コンピュータープログラムは、プロセッサーによって実行されると、請求項1に記載の方法を実行させる、
コンピュータープログラム製品。
【国際調査報告】