特許7529514 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 矢崎総業株式会社の特許一覧

特許7529514アノテーション装置、アノテーション方法、及び、アノテーションプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-07-29

(45)【発行日】2024-08-06

(54)【発明の名称】アノテーション装置、アノテーション方法、及び、アノテーションプログラム

(51)【国際特許分類】

H04N 5/92 20060101AFI20240730BHJP

G06N 20/00 20190101ALI20240730BHJP

G06T 7/00 20170101ALI20240730BHJP

H04N 5/222 20060101ALI20240730BHJP

G06N 3/02 20060101ALN20240730BHJP

【ＦＩ】

H04N5/92 010

G06N20/00 130

G06T7/00 350B

H04N5/222

G06N3/02

【請求項の数】 4

(21)【出願番号】P 2020164661

(22)【出願日】2020-09-30

(65)【公開番号】P2022056744

(43)【公開日】2022-04-11

【審査請求日】2023-08-09

(73)【特許権者】

【識別番号】000006895

【氏名又は名称】矢崎総業株式会社

(74)【代理人】

【識別番号】110001771

【氏名又は名称】弁理士法人虎ノ門知的財産事務所

(72)【発明者】

【氏名】杉田明宏

(72)【発明者】

【氏名】鈴木睦子

(72)【発明者】

【氏名】畠山征也

(72)【発明者】

【氏名】橋本亜矢

【審査官】大西宏

(56)【参考文献】

【文献】特開２０１４－１２３８１７（ＪＰ，Ａ）

【文献】特開２０１５－１９１３４８（ＪＰ，Ａ）

【文献】特開２０１８－０７２９４０（ＪＰ，Ａ）

【文献】特開２０１８－２００６８５（ＪＰ，Ａ）

【文献】特開２０２０－０３５０９５（ＪＰ，Ａ）

【文献】特開２０２０－０３５１１６（ＪＰ，Ａ）

【文献】特開２０２０－１０１９６８（ＪＰ，Ａ）

【文献】国際公開第２０２０／１６０２７６（ＷＯ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ５／９１－５／９５６

Ｈ０４Ｎ５／２２２－５／２５７

Ｇ０６Ｔ７／００－７／９０

Ｇ０６Ｎ３／００－９９／００

(57)【特許請求の範囲】

【請求項1】

動画像データが表す動画像を表示可能である表示部と、
操作を受け付ける操作部と、
前記操作部への操作に応じて前記動画像データにアノテーション情報を付加して学習済みモデルの機械学習に用いる教師データを作成するアノテーション処理を実行可能である処理部とを備え、
前記処理部は、前記アノテーション処理において、前記操作部への操作に応じて前記動画像に含まれる物体の位置を特定し当該物体の種類を表す物体ラベルを前記アノテーション情報として前記動画像データに付加する処理、前記操作部への操作に応じて前記動画像に含まれる複数の物体が相関する事象の種類を表す関係ラベルを前記アノテーション情報として前記動画像データに付加する処理、及び、前記操作部への操作に応じて付加した前記物体ラベルから前記関係ラベルの対象とされた前記事象に関係する前記物体の前記物体ラベルを指定し前記アノテーション情報として前記動画像データに付加する処理を実行することを特徴とする、
アノテーション装置。

【請求項2】

前記処理部は、前記アノテーション処理において、予め指定された複数の動画像データファイルを一連の前記動画像を表す前記動画像データとして取り扱う、
請求項１に記載のアノテーション装置。

【請求項3】

動画像データが表す動画像を表示するステップと、
操作を受け付けるステップと、
操作に応じて前記動画像データにアノテーション情報を付加して学習済みモデルの機械学習に用いる教師データを作成するステップとを含み、
前記教師データを作成するステップでは、操作に応じて前記動画像に含まれる物体の位置を特定し当該物体の種類を表す物体ラベルを前記アノテーション情報として前記動画像データに付加し、操作に応じて前記動画像に含まれる複数の物体が相関する事象の種類を表す関係ラベルを前記アノテーション情報として前記動画像データに付加し、操作に応じて付加した前記物体ラベルから前記関係ラベルの対象とされた前記事象に関係する前記物体の前記物体ラベルを指定し前記アノテーション情報として前記動画像データに付加することを特徴とする、
アノテーション方法。

【請求項4】

動画像データが表す動画像を表示し、
操作を受け付け、
操作に応じて前記動画像データにアノテーション情報を付加して学習済みモデルの機械学習に用いる教師データを作成する、
各処理をコンピュータに実行させ、
前記教師データを作成する処理において、操作に応じて前記動画像に含まれる物体の位置を特定し当該物体の種類を表す物体ラベルを前記アノテーション情報として前記動画像データに付加し、操作に応じて前記動画像に含まれる複数の物体が相関する事象の種類を表す関係ラベルを前記アノテーション情報として前記動画像データに付加し、操作に応じて付加した前記物体ラベルから前記関係ラベルの対象とされた前記事象に関係する前記物体の前記物体ラベルを指定し前記アノテーション情報として前記動画像データに付加する、
各処理を前記コンピュータに実行させることを特徴とする、
アノテーションプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、アノテーション装置、アノテーション方法、及び、アノテーションプログラムに関する。

【背景技術】

【0002】

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）や深層学習（ＤｅｅｐＬｅａｒｎｉｎｇ）を用いて、ドライブレコーダ等の動画像から種々の検出を行う従来の技術として、例えば、特許文献１には、情報処理装置が開示されている。この情報処理装置は、取得部と、信号領域認識部と、速度情報取得部と、加速度情報取得部と、判断部と、を備える。取得部は、車両に搭載された撮影装置により撮影された撮影画像を取得する。信号領域認識部は、取得部により取得された撮影画像のうち、信号機の赤信号を示す赤信号領域を認識する。速度情報取得部は、車両の速度を示す速度情報を取得する。加速度情報取得部は、車両の加速度を示す加速度情報を取得する。判断部は、速度情報または加速度情報と、赤信号領域と、車両が赤信号を無視した運転を行っていることを識別するために予め定められた赤信号無視識別情報と、に基づいて、車両が赤信号を無視した運転を行っているか否かを判断する。この場合において、赤信号無視識別情報は、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）を用いた機械学習方法を利用して予め作成される。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１８－０７２９４０号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

ところで、上述の特許文献１に記載の情報処理装置は、例えば、複数の物体が関係することで生じる事象を検出するために学習済みモデルを用いる場合、当該学習済みモデルを機械学習させるための適正な教師データが必要となる。

【0005】

本発明は、上記の事情に鑑みてなされたものであって、適正に教師データの作成を行うことができるアノテーション装置、アノテーション方法、及び、アノテーションプログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

上記目的を達成するために、本発明に係るアノテーション装置は、動画像データが表す動画像を表示可能である表示部と、操作を受け付ける操作部と、前記操作部への操作に応じて前記動画像データにアノテーション情報を付加して学習済みモデルの機械学習に用いる教師データを作成するアノテーション処理を実行可能である処理部とを備え、前記処理部は、前記アノテーション処理において、前記操作部への操作に応じて前記動画像に含まれる物体の位置を特定し当該物体の種類を表す物体ラベルを前記アノテーション情報として前記動画像データに付加する処理、前記操作部への操作に応じて前記動画像に含まれる複数の物体が相関する事象の種類を表す関係ラベルを前記アノテーション情報として前記動画像データに付加する処理、及び、前記操作部への操作に応じて付加した前記物体ラベルから前記関係ラベルの対象とされた前記事象に関係する前記物体の前記物体ラベルを指定し前記アノテーション情報として前記動画像データに付加する処理を実行することを特徴とする。

【0007】

また、上記アノテーション装置では、前記処理部は、前記アノテーション処理において、予め指定された複数の動画像データファイルを一連の前記動画像を表す前記動画像データとして取り扱うものとすることができる。

【0008】

上記目的を達成するために、本発明に係るアノテーション方法は、動画像データが表す動画像を表示するステップと、操作を受け付けるステップと、操作に応じて前記動画像データにアノテーション情報を付加して学習済みモデルの機械学習に用いる教師データを作成するステップとを含み、前記教師データを作成するステップでは、操作に応じて前記動画像に含まれる物体の位置を特定し当該物体の種類を表す物体ラベルを前記アノテーション情報として前記動画像データに付加し、操作に応じて前記動画像に含まれる複数の物体が相関する事象の種類を表す関係ラベルを前記アノテーション情報として前記動画像データに付加し、操作に応じて付加した前記物体ラベルから前記関係ラベルの対象とされた前記事象に関係する前記物体の前記物体ラベルを指定し前記アノテーション情報として前記動画像データに付加することを特徴とする。

【0009】

上記目的を達成するために、本発明に係るアノテーションプログラムは、動画像データが表す動画像を表示し、操作を受け付け、操作に応じて前記動画像データにアノテーション情報を付加して学習済みモデルの機械学習に用いる教師データを作成する、各処理をコンピュータに実行させ、前記教師データを作成する処理において、操作に応じて前記動画像に含まれる物体の位置を特定し当該物体の種類を表す物体ラベルを前記アノテーション情報として前記動画像データに付加し、操作に応じて前記動画像に含まれる複数の物体が相関する事象の種類を表す関係ラベルを前記アノテーション情報として前記動画像データに付加し、操作に応じて付加した前記物体ラベルから前記関係ラベルの対象とされた前記事象に関係する前記物体の前記物体ラベルを指定し前記アノテーション情報として前記動画像データに付加する、各処理を前記コンピュータに実行させることを特徴とする。

【発明の効果】

【0010】

本発明に係るアノテーション装置、アノテーション方法、及び、アノテーションプログラムは、適正に教師データの作成を行うことができる、という効果を奏する。

【図面の簡単な説明】

【0011】

【図1】図１は、実施形態に係るアノテーション装置の概略構成を表すブロック図である。

【図2】図２は、物体検出について説明する模式図である。

【図3】図３は、物体検出について説明する模式図である。

【図4】図４は、行動検出について説明する模式図である。

【図5】図５は、関係行動検出について説明する模式図である。

【図6】図６は、関係行動検出について説明する模式図である。

【図7】図７は、関係行動検出について説明する模式図である。

【図8】図８は、学習フェーズ、及び、使用フェーズの処理を示す模式図である。

【図9】図９は、実施形態に係るアノテーション装置の表示機器において表示される画面の一例を表す図である。

【図10】図１０は、実施形態に係るアノテーション装置の表示機器において表示される画面の一例を表す図である。

【図11】図１１は、実施形態に係るアノテーション装置の表示機器において表示される画面の一例を表す図である。

【図12】図１２は、実施形態に係るアノテーション装置の表示機器において表示される画面の一例を表す図である。

【図13】図１３は、実施形態に係るアノテーション装置の表示機器において表示される画面の一例を表す図である。

【図14】図１４は、実施形態に係るアノテーション装置の表示機器において表示される画面の一例を表す図である。

【図15】図１５は、実施形態に係るアノテーション装置における動画像データファイルについて説明する模式図である。

【図16】図１６は、実施形態に係るアノテーション装置の表示機器において表示される画面の一例を表す図である。

【図17】図１７は、実施形態に係るアノテーション装置の表示機器において表示される画面の一例を表す図である。

【図18】図１８は、実施形態に係るアノテーション装置の表示機器において表示される画面の一例を表す図である。

【図19】図１９は、実施形態に係るアノテーション装置の表示機器において表示される画面の一例を表す図である。

【図20】図２０は、実施形態に係るアノテーション装置の表示機器において表示される画面の一例を表す図である。

【図21】図２１は、実施形態に係るアノテーション装置におけるファイル形式について説明する模式図である。

【図22】図２２は、実施形態に係るアノテーション装置におけるファイル形式について説明する模式図である。

【図23】図２３は、実施形態に係るアノテーション装置における処理の一例を説明するフローチャートである。

【図24】図２４は、実施形態に係るアノテーション装置における処理の一例を説明するフローチャートである。

【図25】図２５は、実施形態に係るアノテーション装置における処理の一例を説明するフローチャートである。

【発明を実施するための形態】

【0012】

以下に、本発明に係る実施形態を図面に基づいて詳細に説明する。なお、この実施形態によりこの発明が限定されるものではない。また、下記実施形態における構成要素には、当業者が置換可能かつ容易なもの、あるいは実質的に同一のものが含まれる。

【0013】

［実施形態］
図１に示す本実施形態のアノテーション装置１は、動画像データに対してアノテーション処理を行うためのアノテーションツールを構成するものである。ここで、アノテーション処理とは、動画像データにアノテーション情報を付加して学習済みモデルＭ（図８参照）の機械学習に用いる教師データＤ２（図８参照）を作成する処理である。ここでのアノテーション情報とは、動画像データを、学習済みモデルＭの機械学習における教師データＤ２として成り立たせるために当該動画像データに付加されるメタデータである。

【0014】

本実施形態のアノテーション装置１において、アノテーション処理によって作成された教師データＤ２は、典型的には、関係行動検出（ＲｅｌａｔｉｏｎａｌＡｃｔｉｏｎＤｅｔｅｃｔｉｏｎ）用の学習済みモデルＭを機械学習によって生成する際に用いられる。ここで、関係行動検出とは、画像を用いた検出技術であり、複数の物体が関係することで生じる事象を検出するものである。

【0015】

ここで、画像を用いた検出技術としては、関係行動検出の他、例えば、物体検出（ＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎ）、行動検出（ＡｃｔｉｏｎＤｅｔｅｃｔｉｏｎ）等がある。

【0016】

物体検出とは、図２に示すように、動画像（映像）を構成する静止画像内から物体の種類と位置を検出するものである。さらに言えば、物体検出とは、静止画像からある瞬間の物体の静的な位置、種類を検出するものである。物体検出によって検出される物体は、例えば、車両、通行人、自転車、障害物、街灯、看板、電柱、標識、停止線等である。図２は、一例として、静止画像内の物体検出によって、物体として「自転車」、「停止線」が検出された場合を表しており、当該検出された「自転車」、「停止線」の位置が矩形枠によって示されている。また、この物体検出では、図３に示すように、動画像を構成する複数の静止画像を比較して物体の位置変化を検出することも可能である。図３は、一例として、動画像を構成する複数の静止画像内の物体検出によって、物体として「自転車」、「停止線」が検出され、「自転車」の位置が右から左に変化したことが検出された場合を表している。

【0017】

一方、行動検出とは、図４に示すように、動画像を構成する複数の静止画像から物体検出によって検出された物体の位置、状態等の時間的な変化から物体単独の動き（行動）を検出するものである。言い換えれば、行動検出とは、時間変化に伴う物体の動き（行動）を検出するものである。なおこの場合、例えば、「停止線」等のように、検出された物体がその位置で静止していること（言い換えれば、動いていないこと）も物体の動き（行動）の一例として、当該物体の動きの概念の範疇に含まれる。行動検出では、例えば、動画像を構成する静止画像から複数の物体が検出された場合でも、それぞれの物体単独の動きを検出する。図４は、一例として、動画像を構成する複数の静止画像内の物体検出によって２台の「自転車」が検出された上で、行動検出によって当該２台の「自転車」が「それぞれふらついて走行している」という物体単独の動きが検出された場合を表している。

【0018】

この行動検出では、物体単独の状態や変化（例えば、「自転車」がふらついて走行している動き）を検出し、例えば、車両の運転者等に対して危険予知を行うことはできるが、検出した複数の物体同士を関係づけて挙動の意味などを検出することはできない。このため、例えば、図４の例では、ふらついて走行している２台の「自転車」が他の物体との関係に関わりなく双方ともに危険であると判断されることとなる。

【0019】

これに対して、上述した関係行動検出では、動画像から検出した物体同士の関係性を検出し、これらの動きを関係づけて相互の挙動の意味（種別）を検出する。より詳細には、関係行動検出とは、図５に示すように、動画像を構成する複数の静止画像から行動検出によって検出された物体単独の動きから、複数の物体が関係することで生じる挙動（振る舞い）、物体同士の関係性を検出するものである。言い換えれば、関係行動検出とは、複数の物体のそれぞれの時間変化に伴う動きが関係して生じる挙動を検出するものである。複数の物体の動きが関係して生じる挙動は、例えば、「複数の物体の関係性の変化に応じて生じる事象」と言い換えることもできる。図５は、一例として、動画像を構成する複数の静止画像内の物体検出によって２台の「自転車」が検出され、行動検出によって当該２台の「自転車」が「それぞれふらついて走行している」という物体単独の動きが検出された場合を表している。そして、図５は、関係行動検出によって、左折しようとしている車両の動きに対して、ふらついて走行している手前側の「自転車」が車両の進行方向に向かっている一方、奥側の「自転車」が車両の進行方向とは異なる方向に向かっているという挙動（事象）が検出された場合を表している。関係行動検出では、このように車両の進行方向に向かっている手前側の「自転車」に対しては危険であると判断することが可能である一方、ふらついているものの車両とは異なる方向に向かっている奥側の「自転車」に対しては危険ではないと判断することも可能となる。

【0020】

他の例として、図６は、複数の物体の動きが関係して生じる挙動（事象）の種別として、例えば、「赤信号」、「停止線」、「車両」の動きの関係性から「赤信号で車両が停止線上で停止したという交通違反ではない安全な挙動（事象）」が検出された場合を表している。一方、図７は、複数の物体の動きが関係して生じる挙動（事象）の種別として、例えば、「赤信号」、「停止線」、「車両」の動きの関係性から「赤信号で車両が停止線上で停止しない（信号無視）という交通違反である危険な挙動（事象）」が検出された場合を表している。

【0021】

上記のような画像に基づいた関係行動検出は、例えば、図８に示すような検出システムＳｙｓ１によって学習済みモデルＭを用いて行われる。この検出システムＳｙｓ１では、図８に示すように、学習済みモデルＭを生成する処理を行う学習フェーズと、学習済みモデルＭを用いて上記のような関係行動検出を実際に行う使用フェーズとがある。以下、検出システムＳｙｓ１の概要について簡単に説明する。

【0022】

検出システムＳｙｓ１は、学習フェーズでは、学習済みモデルＭを学習させるために、入力データＤ１と教師データＤ２とからなる学習用データセットＤ３を取得する。学習用データセットＤ３は、学習済みモデルＭを機械学習によって生成する際に用いられる教師データセットである。学習用データセットＤ３は、説明変数となる入力データＤ１と、当該入力データＤ１に対応する目的変数となる教師データＤ２とが１組のセットとして紐づけられることで構成される。さらに言えば、学習用データセットＤ３は、説明変数として定量化された当該入力データＤ１と、目的変数として定量化された当該教師データＤ２とから構成される。本実施形態において、学習用データセットＤ３を構成する入力データＤ１は、例えば、車両に搭載されたカメラから撮影された車両の周囲の動画像を表す動画像データである。一方、学習用データセットＤ３を構成する教師データＤ２は、入力データＤ１である当該動画像データが表す動画像中の複数の物体が関係することで生じる挙動（事象）の種別を表すデータであり、本実施形態のアノテーション装置１によって作成される。検出システムＳｙｓ１は、例えば、後述する学習用データ提供システム（サーバー）Ｓｖ（図１参照）から学習用データセットＤ３を取得することができる。

【0023】

そして、検出システムＳｙｓ１は、学習フェーズでは、複数の学習用データセットＤ３を教師データセットとして、種々の機械学習アルゴリズムＡＬに基づく機械学習を行うことによって、学習済みモデルＭを生成する。使用する機械学習アルゴリズムＡＬとしては、例えば、ディープラーニング（ＤｅｅｐＬｅａｒｎｉｎｇ）、ニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）、ロジスティック（Ｌｏｇｉｓｔｉｃ）回帰、アンサンブル学習（ＥｎｓｅｍｂｌｅＬｅａｒｎｉｎｇ）、サポートベクターマシン（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）、ランダムフォレスト（ＲａｎｄｏｍＦｏｒｅｓｔ）、ナイーブベイズ（ＮａｉｖｅＢａｙｓ）等の公知のアルゴリズムが挙げられる。検出システムＳｙｓ１は、学習用データセットＤ３のうち、入力データＤ１を説明変数とし、教師データＤ２を目的変数として、学習済みモデルＭの機械学習を行う。

【0024】

本実施形態において、検出システムＳｙｓ１は、上記の機械学習の結果として、上述したように動画像に基づいた関係行動検出に用いられる学習済みモデルＭを生成する。学習済みモデルＭは、例えば、ニューラルネットワークにより実現される。ニューラルネットワークとしては、例えば、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＬＳＴＭ(Ｌｏｎｇｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙ) ネットワーク等の任意の構成を有するニューラルネットワークを採用することができる。検出システムＳｙｓ１は、複数の学習用データセットＤ３を用いた機械学習を行うことにより、当該ニューラルネットワークにおいて重み付けとして用いられる学習重み付け係数等を学習し、当該学習済みモデルＭを生成する。なお、この学習済みモデルＭは、単一のモデルに限らず、複数のモデルが組み合わさることで構成されてもよい。

【0025】

本実施形態において、学習フェーズで機械学習によって生成される学習済みモデルＭは、上述したように動画像を表す動画像データから複数の物体が関係することで生じる挙動（事象）の種別を特定するために用いられるモデルである。つまり、この学習済みモデルＭは、入力を「動画像データ」とし、出力を「挙動（事象）の種別」としたモデルである。すなわち、学習済みモデルＭは、動画像データの入力を受け付けて当該動画像データから複数の物体が関係することで生じる挙動（事象）の種別を出力するように機能付けられる。

【0026】

検出システムＳｙｓ１は、使用フェーズでは、学習フェーズで生成した上記学習済みモデルＭを用いて、複数の物体が関係することで生じる挙動（事象）の種別を特定する。使用フェーズにおいて、当該挙動（事象）の種別を特定する処理は、上述の関係行動検出に関する処理に相当する。検出システムＳｙｓ１は、使用フェーズでは、検出対象データ（入力データ）Ｄ４として、検出対象となる動画像データを学習済みモデルＭに入力し、当該動画像データから複数の物体が関係することで生じる挙動（事象）の種別を出力する。検出システムＳｙｓ１は、出力された上記挙動の種別を定量化した値を、種別特定結果データ（出力データ）Ｄ５として出力する。

【0027】

そして、本実施形態のアノテーション装置１は、上記のように構成される検出システムＳｙｓ１において、関係行動検出用の学習済みモデルＭの機械学習に用いられる学習用データセットＤ３の教師データＤ２を作成するものである。アノテーション装置１によって作成される教師データＤ２は、上述したように学習済みモデルＭの機械学習における目的変数として成り立たせるためのアノテーション情報として、動画像中に含まれる複数の物体が関係することで生じる挙動（事象）の種別を表すデータを動画像データに付加したものである。言い換えれば、教師データＤ２は、動画像に映った事象における複数の物体の関係性を追跡した関係追跡データということもできる。そして、このアノテーション装置１は、動画像データにおいて複数の物体が関係することで生じる挙動（事象）を追跡する関係追跡（ＲｅｌａｔｉｏｎａｌＴｒａｃｋｉｎｇ）アノテーションツールを構成するものであるということもできる。ここでは、アノテーション装置１は、例えば、パーソナルコンピュータ、ワークステーション、タブレット端末等の種々のコンピュータ機器によって実現される。また、アノテーション装置１は、単一のコンピュータ機器によって実現されてもよいし、複数のコンピュータ機器によって実現されてもよい。以下、図１、図９～図１４を参照してアノテーション装置１の各構成について詳細に説明する。

【0028】

具体的には、アノテーション装置１は、表示機器１０と、操作機器２０と、データ入出力機器３０と、記憶回路４０と、処理回路５０とを備える。表示機器１０、操作機器２０、データ入出力機器３０、記憶回路４０、及び、処理回路５０は、ネットワークを介して相互に通信可能に接続されている。

【0029】

表示機器１０は、動画像データが表す動画像を表示可能な表示部である。表示機器１０は、例えば、液晶ディスプレイ、プラズマディスプレイ、有機ＥＬディスプレイ等、各種画像情報を出力して表示する画像表示装置によって構成される。

【0030】

操作機器２０は、アノテーション装置１に対する作業者等による種々の操作を受け付ける操作部である。表示機器１０は、例えば、マウス、キーボード、トラックボール、スイッチ、ボタン、ジョイスティック、タッチパッド、タッチスクリーン、非接触入力回路、音声入力回路等、作業者等からの各種の操作入力を受け付ける操作入力機器によって構成される。

【0031】

データ入出力機器３０は、アノテーション装置１に対するデータ（情報）の入出力を行うデータ入出力部である。データ入出力機器３０は、アノテーション装置１外の他の機器からのデータ（情報）入力を受け付けると共に他の機器に対するデータ（情報）出力を行う。データ入出力機器３０は、例えば、通信インターフェース、記録媒体インターフェース等によって構成される。通信インターフェースは、有線、無線を問わず通信を介して、アノテーション装置１と他の機器との間で各種データの送受信を行う。記録媒体インターフェースは、例えば、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）、フレキシブルディスク（ＦＤ）、光磁気ディスク（Ｍａｇｎｅｔｏ－Ｏｐｔｉｃａｌｄｉｓｋ）、ＣＤ－ＲＯＭ、ＤＶＤ、ＵＳＢメモリ、ＳＤカードメモリ、Ｆｌａｓｈメモリ等の記録媒体に対して各種データの読み出し、書き込みを行う。

【0032】

本実施形態のデータ入出力機器３０は、少なくとも学習用データ提供システムＳｖとの間でデータの送受信が可能である。学習用データ提供システムＳｖは、例えば、多数の入力データＤ１、教師データＤ２、学習用データセットＤ３等をデータベース化して記憶しており、これらのデータを必要に応じて検索し、他の機器に提供するシステムである。アノテーション装置１は、典型的には、この学習用データ提供システムＳｖからデータ入出力機器３０を介してアノテーション処理を施す対象となる動画像データが入力される。また、アノテーション装置１によって作成された教師データＤ２は、データ入出力機器３０を介してこの学習用データ提供システムＳｖに登録され、記憶、管理される。

【0033】

記憶回路４０は、各種データを記憶する回路である。記憶回路４０は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、フラッシュメモリ等の半導体メモリ素子、ハードディスク、光ディスク等によって実現される。記憶回路４０は、例えば、アノテーション装置１が各種の機能を実現するためのプログラムを記憶する。記憶回路４０に記憶されるプログラムには、表示機器１０を機能させるプログラム、操作機器２０を機能させるプログラム、データ入出力機器３０を機能させるプログラム、処理回路５０を機能させるプログラム等が含まれる。また、記憶回路４０は、データ入出力機器３０を介して入力された動画像データ、処理回路５０での各種処理に必要なデータ、アノテーション装置１において作成された教師データＤ２等の各種データを記憶する。記憶回路４０は、処理回路５０等によってこれらの各種データが必要に応じて読み出される。なお、記憶回路４０は、ネットワークを介してアノテーション装置１に接続されたクラウドサーバ等により実現されてもよい。

【0034】

処理回路５０は、アノテーション装置１における各種処理機能を実現する回路を構成する処理部である。処理回路５０は、例えば、プロセッサによって実現される。プロセッサとは、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等の回路を意味する。処理回路５０は、例えば、記憶回路４０から読み込んだプログラムを実行することにより、各処理機能を実現する。

【0035】

以上、本実施形態に係るアノテーション装置１の全体構成の概略について説明した。このような構成のもと、本実施形態に係る処理回路５０は、操作機器２０への操作に応じて動画像データにアノテーション情報を付加して学習済みモデルＭの機械学習に用いる教師データＤ２を作成するアノテーション処理を実行可能とするための機能を有している。

【0036】

具体的には、本実施形態の処理回路５０は、上記各種処理機能を実現するために、機能概念的に、表示処理部５１、操作処理部５２、タスク作成処理部５４、及び、アノテーション処理部５５を含んで構成される。処理回路５０は、例えば、記憶回路４０から読み込んだプログラムを実行することにより、これら表示処理部５１、操作処理部５２、データ入出力処理部５３、タスク作成処理部５４、及び、アノテーション処理部５５の各処理機能を実現する。

【0037】

表示処理部５１は、表示機器１０を制御し、当該表示機器１０によって動画像等を表示するための各種処理を実行可能な機能を有する部分である。

【0038】

操作処理部５２は、操作機器２０を制御し、当該操作機器２０によって操作を受け付けるための各種処理を実行可能な機能を有する部分である。

【0039】

データ入出力処理部５３は、データ入出力機器３０を制御し、当該データ入出力機器３０によってアノテーション装置１と他の機器との間でデータを送受信するための各種処理を実行可能な機能を有する部分である。

【0040】

タスク作成処理部５４は、アノテーション処理部５５によって処理する一連のタスクを作成するための各種処理を実行可能な機能を有する部分である。

【0041】

アノテーション処理部５５は、動画像データにアノテーション情報を付加して教師データＤ２を作成するアノテーション処理のための各種処理を実行可能な機能を有する部分である。アノテーション処理部５５は、例えば、タスク作成処理部５４によって作成された一連のタスクに対応したアノテーション処理を実行する。

【0042】

より具体的には、アノテーション処理部５５は、図９、図１０に示すように、アノテーション処理において、操作機器２０に対する管理者、作業者等の操作（以下、単に「操作」と略記する場合がある。）に応じてアノテーション情報として物体ラベルを動画像データに付加する処理を実行可能である。アノテーション情報として動画像データに付加される物体ラベルは、動画像データが表す動画像に含まれる物体の位置を特定し当該物体の種類を表すメタデータである。

【0043】

また、アノテーション処理部５５は、図１１、図１２に示すように、アノテーション処理において、操作に応じてアノテーション情報として関係ラベルを動画像データに付加する処理を実行可能である。アノテーション情報として動画像データに付加される関係ラベルは、動画像データが表す動画像に含まれる複数の物体が相関する事象の種類を表すメタデータである。

【0044】

そして、アノテーション処理部５５は、図１３、図１４に示すように、アノテーション処理において、操作に応じて、上記のように付加された物体ラベルから上記関係ラベルの対象とされた事象に関係する物体の物体ラベルを指定しアノテーション情報として動画像データに付加する処理を実行可能である。言い換えれば、アノテーション処理部５５は、物体ラベルによって特定された物体から関係ラベルによって特定された事象に関係する物体を指定しアノテーション情報として動画像データに付加する処理を実行可能である。

【0045】

これらの処理の結果、アノテーション処理部５５は、動画像データにアノテーション情報を付加して教師データＤ２を作成することができる。上記のようにアノテーション情報として付加される物体ラベルや関係ラベルは、動画像データが表す動画像に映った物体ごとの関係性を追跡した関係追跡情報を記録したものということもできる。アノテーション処理部５５は、作成した教師データＤ２を記憶回路４０に記憶させる。そして、アノテーション処理部５５によって作成された教師データＤ２は、データ入出力処理部５３の処理によってデータ入出力機器３０を介して学習用データ提供システムＳｖに送信され登録、記憶、管理される。以下、各図を参照してアノテーション処理における上記各処理の一例をより具体的に説明する。

【0046】

図９、図１０は、動画像データに物体ラベルを付加する際に表示機器１０に表示されるアノテーション画面１００Ａの一例を模式的に表している。ここでは、図９は、アノテーション画面１００Ａの全体を表し、図１０は、アノテーション画面１００Ａの一部における表示の遷移を表している。

【0047】

表示処理部５１は、物体ラベルを動画像データに付加する操作を行う際に図９に示すようなアノテーション画面１００Ａを表示機器１０に表示させる。アノテーション処理部５５は、このアノテーション画面１００Ａを介して操作に応じて動画像データに物体ラベルを付加する処理を実行する。

【0048】

図９に例示したアノテーション画面１００Ａは、種々の情報と共に、動画像表示領域１０１、ラベル追加操作領域１０２、ラベル選択領域１０３、及び、タスク終了操作領域１０４が表示される。

【0049】

動画像表示領域１０１は、アノテーション処理の対象となる動画像データの動画像を表示する領域である。動画像表示領域１０１は、典型的には、タスク作成処理部５４によって作成された一連のタスクに対応した動画像データの動画像を表示する。動画像表示領域１０１は、典型的には、動画像を構成する各フレームを静止画像として表示可能である。動画像表示領域１０１は、アノテーション画面１００Ａに表示された動画像操作領域１０１ａの操作に応じて、表示する動画像を再生し、当該動画像表示領域１０１に表示されるフレームを順次遷移させることができる。アノテーション処理部５５は、動画像表示領域１０１に表示されるフレームが順次遷移されることで、操作に応じて各フレームに対して順次アノテーション処理を施すことができる。

【0050】

ラベル追加操作領域１０２は、動画像表示領域１０１に表示されている動画像にラベルを付加する際に操作される領域である。

【0051】

ラベル選択領域１０３は、動画像に付加するラベルの種類を選択する際に操作される領域である。このラベル選択領域１０３に表示されるラベルは、言い換えれば、アノテーション処理において選択可能なラベルの候補に相当する。アノテーション処理において選択可能なラベルは、例えば、アノテーション装置１に読み込まれたラベル定義ファイルによって定義されてもよいし、操作に応じて適宜設定されてもよい。典型的には、アノテーション処理において選択可能なラベルは、動画像データに対してラベルを付加する一連のタスクが終了するまで固定とされる。

【0052】

タスク終了操作領域１０４は、動画像データに対してラベルを付加する一連のタスクを終了する場合に操作される領域である。

【0053】

アノテーション処理部５５は、アノテーション画面１００Ａにおいて、操作に応じてラベル追加操作領域１０２が選択されると、動画像表示領域１０１に表示されている動画像に位置指定用の矩形枠（円形枠、多角形枠等でもよい）の表示を追加する。そして、アノテーション処理部５５は、操作に応じて当該矩形枠によって動画像に含まれる物体の位置が指定されることで当該物体の位置を特定する。

【0054】

そして、アノテーション処理部５５は、操作に応じてラベル選択領域１０３に表示されているラベルリストからいずれかの１つのラベルが選択されることで、上記で位置が特定された物体の種類を表す物体ラベルを決定する。そして、アノテーション処理部５５は、決定した当該物体の種類を表す物体ラベルをアノテーション情報として動画像データに付加する。

【0055】

図９に例示したラベル選択領域１０３は、選択可能なラベル（候補ラベル）を表すメインリスト１０３Ａを表示している。一例として、図９に例示したメインリスト１０３Ａは、「関係」、「信号機」、「速度標識」、「一時停止標識」等を表すラベルをリスト表示している。このメインリスト１０３Ａにおける「信号機」、「速度標識」、「一時停止標識」は、物体ラベルを表している一方、「関係」は、後述する関係ラベルを表している。アノテーション装置１は、動画像データに物体ラベルを付加する際には、典型的には、操作に応じて「信号機」、「速度標識」、「一時停止標識」等の物体ラベルからいずれかの１つのラベルが選択される。

【0056】

そしてここでは、図１０に例示するように、表示処理部５１は、操作に応じてラベル選択領域１０３に表示されているメインリスト１０３Ａからいずれかの１つの物体ラベルが選択されると、選択された物体ラベルの種類に応じてサブリスト１０３Ｂをラベル選択領域１０３に表示させる。サブリスト１０３Ｂは、選択された物体ラベルの種類をさらに細分化したより詳細な属性を選択するためのラベルリストである。図１０の例では、表示処理部５１は、操作に応じて「信号機」の物体ラベルが選択されると、「青」、「黄」、「赤」等の属性を表すサブリスト１０３Ｂをラベル選択領域１０３に表示させる。

【0057】

アノテーション処理部５５は、操作に応じてラベル選択領域１０３に表示されているサブリスト１０３Ｂからいずれかの１つの属性が選択されることで、上記で位置が特定された物体の種類（属性も含む）を表す物体ラベルを決定する。このとき、アノテーション処理部５５は、上記のように物体ラベルが決定された今回のフレームを、当該物体ラベルの対象とされた物体が映る開始キーフレーム（初回のフレーム）であるものとして記憶回路４０に記憶させる。ここで、上記のように決定された物体ラベルの対象とされた物体とは、言い換えれば、当該物体ラベルによって特定される物体に相当する。

【0058】

なお、表示処理部５１は、上記で選択された属性の種類に応じてさらに詳細な属性を選択可能は場合には、当該詳細な属性を選択させるためのサブリストをラベル選択領域１０３に表示させることも可能である。

【0059】

そして、表示処理部５１は、上記のようにして物体ラベルが決定されると、例えば、図１０に例示するように、決定ラベル表示画像１０５と共に消去操作領域１０６、及び、終了操作領域１０７をアノテーション画面１００Ａに表示させる。

【0060】

決定ラベル表示画像１０５は、上記のようにして決定された物体ラベルの種類を表す画像である。例えば、アノテーション処理部５５は、操作に応じて当該決定ラベル表示画像１０５が選択されると、再度、物体ラベルを選び直せるようにしてもよい。

【0061】

消去操作領域１０６は、上記のようにして決定された物体ラベルを一旦消去（ｄｅｌｅｔｅ）する場合に操作される領域である。表示処理部５１は、操作に応じて当該消去操作領域１０６が選択されると、消去決定画像１０８をアノテーション画面１００Ａに表示させる。アノテーション処理部５５は、消去決定画像１０８において操作に応じて「ＯＫ」が選択されると、上記のようにして決定された物体ラベルを一旦消去する。一方、表示処理部５１は、消去決定画像１０８において操作に応じて「Ｃａｎｃｅｌ」が選択されると、当該消去決定画像１０８を非表示とし、元の表示画面に復帰させる。

【0062】

終了操作領域１０７は、上記のように決定された物体ラベルの対象とされた物体が映る最終のフレームを決定する場合に操作される領域である。言い換えれば、終了操作領域１０７は、当該物体ラベルの対象が映る終了のフレームで選択されることで、当該物体ラベルの最終のフレームを特定する操作を行うための領域である。

【0063】

例えば、表示処理部５１は、操作に応じて動画像表示領域１０１に表示される動画像のフレームを順次遷移させながら、当該ラベルの対象となった物体が映る最終のフレームを動画像表示領域１０１に表示させる。この間、当該ラベルの対象となった物体の位置が変化した場合には、アノテーション処理部５５は、操作に応じて当該物体の位置の変化に対応させて矩形枠で指定する物体の位置を修正する。このとき、アノテーション処理部５５は、先に物体の位置を指定したフレームと、ここで物体の位置を再度指定したフレームとの間の各フレームでの物体の位置を、先のフレームでの物体の位置と後のフレームでの物体の位置とに基づいて線形補間によって算出、特定する。つまり、アノテーション処理部５５は、先のフレームで指定した物体の位置と、このフレームで再指定した物体の位置とに基づいてこれらの間の各フレームでの物体の位置を線形補間等によって算出、特定する。これにより、アノテーション処理部５５は、物体ラベルの対象とされた物体の位置変化を追跡する。

【0064】

そして、アノテーション処理部５５は、操作に応じて当該終了操作領域１０７が選択されると、当該フレームを、当該物体ラベルによって特定される物体が映る終了キーフレーム（最終のフレーム）であるものとして記憶回路４０に記憶させる。この結果、アノテーション処理部５５は、当該物体ラベルの時間範囲を決定することができる。

【0065】

上記のようにしてアノテーション処理部５５は、操作に応じてアノテーション処理の対象となる物体に対して、当該物体の位置、及び、当該物体の種類に応じた物体ラベルを決定すると共に、当該物体ラベルの開始キーフレームと終了キーフレームとを特定することで、この動画像における当該物体ラベルの時間範囲を決定することができる。

【0066】

なおこのとき、表示処理部５１は、図１０に例示するように、終了操作領域１０７が選択されたことを表すように当該終了操作領域１０７の表示態様を変更（例えば、「Ｅｎｄ？」を「Ｅｎｄ」にすると共にグレーアウト）すると共に消去操作領域１０６を非表示とする。ここで、アノテーション処理部５５は、例えば、操作に応じて表示態様変更後の終了操作領域１０７が再度選択されることで、終了キーフレームの決定についての上記の処理を一旦解除することもできる。表示処理部５１は、終了キーフレームが確定すると、決定ラベル表示画像１０５、終了操作領域１０７等を非表示とし、アノテーション処理部５５は、次のフレームのアノテーション処理に移行する。

【0067】

アノテーション処理部５５は、上記のようにして動画像表示領域１０１に表示されている動画像に映る物体ごとに決定した物体ラベルをアノテーション情報として動画像データに付加することができる。またこのとき、アノテーション処理部５５は、矩形枠で特定されている物体の位置を表す座標値等も当該物体ラベルの情報として付加する。物体ラベルは、１つではなく、個数に制限なく付加することができる。

【0068】

次に、図１１、図１２は、動画像データに関係ラベルを付加する際に表示機器１０に表示されるアノテーション画面１００Ｂの一例を模式的に表している。ここでも、図１１は、アノテーション画面１００Ｂの全体を表し、図１２は、アノテーション画面１００Ａの一部における表示の遷移を表している。

【0069】

表示処理部５１は、関係ラベルを動画像データに付加する操作を行う際に図１１に示すようなアノテーション画面１００Ｂを表示機器１０に表示させる。アノテーション処理部５５は、このアノテーション画面１００Ｂを介して操作に応じて動画像データに関係ラベルを付加する処理を実行する。

【0070】

図１１に例示したアノテーション画面１００Ｂは、アノテーション画面１００Ａと同様に、動画像表示領域１０１、ラベル追加操作領域１０２、ラベル選択領域１０３、及び、タスク終了操作領域１０４等が表示される。そして、これらに加えて、アノテーション画面１００Ｂは、追加済みラベル表示領域１０９が表示される。

【0071】

追加済みラベル表示領域１０９は、動画像表示領域１０１に表示されている動画像のフレームにおいて、上記のようにして既に付加されている物体ラベルの種類をリスト表示する領域である。

【0072】

この場合、表示処理部５１は、操作に応じて上記のようにして付加された物体ラベルの対象とされた物体が相関する事象（挙動）が始まるフレームを動画像表示領域１０１に表示させる。そして、アノテーション処理部５５は、当該事象が始まるフレームから関係ラベルの作成を開始する。アノテーション処理部５５は、この状態でアノテーション画面１００Ｂにおいて、操作に応じてラベル追加操作領域１０２が選択されると、動画像表示領域１０１に表示されている動画像に矩形枠の表示を追加する。アノテーション処理部５５は、動画像データに関係ラベルを付加する場合、操作に応じて当該矩形枠によって動画像の当該フレームの全体が指定される。

【0073】

そして、アノテーション処理部５５は、操作に応じてラベル選択領域１０３に表示されているラベルリストから「関係」を表す関係ラベルが選択されることで、関係ラベルの種類の選択に移行する。

【0074】

表示処理部５１は、図１２に例示するように、操作に応じてラベル選択領域１０３に表示されているメインリスト１０３Ａから「関係」を表す関係ラベルが選択されると、関係ラベルの種類に応じてサブリスト１０３Ｃをラベル選択領域１０３に表示させる。サブリスト１０３Ｃは、関係ラベルの種類、言い換えれば、複数の物体が相関する事象（挙動）の種類を選択するためのラベルリストである。図１２の例では、表示処理部５１は、操作に応じて「関係」の関係ラベルが選択されると、「安全」、「注意」、「違反」等の関係ラベルの種類を表すサブリスト１０３Ｃをラベル選択領域１０３に表示させる。

【0075】

さらにここでは、表示処理部５１は、図１２に例示するように、操作に応じてラベル選択領域１０３に表示されているサブリスト１０３Ｃからいずれかの１つの関係ラベルの種類が選択されると、当該選択された関係ラベルの種類に応じてサブリスト１０３Ｄをラベル選択領域１０３に表示させる。サブリスト１０３Ｄは、選択された関係ラベルの種類をさらに細分化したより詳細な属性を選択するためのラベルリストである。図１２の例では、表示処理部５１は、操作に応じて「違反」の関係ラベルが選択されると、「信号機無視」、「一時停止線無視」等の属性を表すサブリスト１０３Ｄをラベル選択領域１０３に表示させる。

【0076】

アノテーション処理部５５は、操作に応じてラベル選択領域１０３に表示されているサブリスト１０３Ｄからいずれかの１つの属性が選択されることで、今回のフレームで発生が認められる事象（複数の物体が相関する事象）の種類（属性も含む）を表す関係ラベルを決定する。このとき、アノテーション処理部５５は、上記のように関係ラベルが決定された今回のフレームを、当該関係ラベルの対象とされた事象が映る開始キーフレーム（初回のフレーム）であるものとして記憶回路４０に記憶させる。ここで、上記のように決定された関係ラベルの対象とされた事象とは、言い換えれば、当該関係ラベルによって特定される事象に相当する。

【0077】

そして、表示処理部５１は、上記のようにして関係ラベルが決定されると、図１０と同様に、例えば、図１２に例示するように、消去操作領域１０６、及び、終了操作領域１０７をアノテーション画面１００Ｂに表示させる。

【0078】

消去操作領域１０６は、上記と同様に、上記のようにして決定された関係ラベルを一旦消去（ｄｅｌｅｔｅ）する場合に操作される領域である。表示処理部５１は、操作に応じて当該消去操作領域１０６が選択されると、消去決定画像１０８をアノテーション画面１００Ｂに表示させる。アノテーション処理部５５は、消去決定画像１０８において操作に応じて「ＯＫ」が選択されると、上記のようにして決定された関係ラベルを一旦消去する。一方、表示処理部５１は、消去決定画像１０８において操作に応じて「Ｃａｎｃｅｌ」が選択されると、当該消去決定画像１０８を非表示とし、元の表示画面に復帰させる。

【0079】

終了操作領域１０７は、上記と同様に、上記のように決定された関係ラベルの対象とされた事象が映る最終のフレームを決定する場合に操作される領域である。言い換えれば、終了操作領域１０７は、関係ラベルの対象が映る終了のフレームで選択されることで、当該関係ラベルの最終のフレームを特定する操作を行うための領域である。

【0080】

例えば、表示処理部５１は、操作に応じて動画像表示領域１０１に表示される動画像のフレームを順次遷移させながら、当該ラベルの対象となった事象が映る最終のフレームを動画像表示領域１０１に表示させる。

【0081】

そして、アノテーション処理部５５は、操作に応じて当該終了操作領域１０７が選択されると、当該フレームを、当該関係ラベルによって特定される事象が映る終了キーフレーム（最終のフレーム）であるものとして記憶回路４０に記憶させる。この結果、アノテーション処理部５５は、当該関係ラベルの時間範囲を決定することができる。

【0082】

上記のようにしてアノテーション処理部５５は、操作に応じてアノテーション処理の対象となる事象に対して、当該事象の種類に応じた関係ラベルを決定すると共に、当該関係ラベルの開始キーフレームと終了キーフレームとを特定することで、この動画像における当該関係ラベルの時間範囲を決定することができる。

【0083】

このとき、表示処理部５１は、上記と同様に、図１２に例示するように、終了操作領域１０７が選択されたことを表すように当該終了操作領域１０７の表示態様を変更すると共に消去操作領域１０６を非表示とする。ここでも、アノテーション処理部５５は、例えば、操作に応じて表示態様変更後の終了操作領域１０７が再度選択されることで、終了キーフレームの決定についての上記の処理を一旦解除することもできる。表示処理部５１は、終了キーフレームが確定すると、終了操作領域１０７等を非表示とし、アノテーション処理部５５は、次のフレームのアノテーション処理に移行する。

【0084】

アノテーション処理部５５は、上記のようにして動画像表示領域１０１に表示されている動画像の事象ごとに決定した関係ラベルをアノテーション情報として動画像データに付加することができる。関係ラベルは、１つではなく、個数に制限なく付加することができる。

【0085】

次に、図１３、図１４は、付加した物体ラベルから関係ラベルの対象とされた事象に関係する物体の物体ラベルを指定する際に表示機器１０に表示されるアノテーション画面１００Ｃの一例を模式的に表している。ここでも、図１３は、アノテーション画面１００Ｃの全体を表し、図１４は、アノテーション画面１００Ｃの一部における表示の遷移を表している。

【0086】

表示処理部５１は、関係ラベルの対象とされた事象に関係する物体の物体ラベルを指定するアノテーション情報を動画像データに付加する操作を行う際に図１３に示すようなアノテーション画面１００Ｃを表示機器１０に表示させる。アノテーション処理部５５は、このアノテーション画面１００Ｃを介して操作に応じて、動画像データに、事象に関係する物体を指定するアノテーション情報を付加する処理を実行する。

【0087】

図１３に例示したアノテーション画面１００Ｃは、アノテーション画面１００Ａ、１００Ｂと同様に、動画像表示領域１０１、ラベル追加操作領域１０２、ラベル選択領域１０３、及び、タスク終了操作領域１０４等が表示される。そして、これらに加えて、アノテーション画面１００Ｂは、スライドバー表示領域１１０が表示される。

【0088】

スライドバー表示領域１１０は、上記のように付加、決定された物体ラベル、関係ラベルそれぞれの動画像における時間範囲をスライドバーによって表示する領域である。なお、アノテーション処理部５５は、操作に応じてこのスライドバーの始端位置、終端位置を変更することにより、それぞれのラベルにおける時間範囲の開始キーフレーム、終了キーフレームを事後的に修正することができる。

【0089】

アノテーション処理部５５は、上記のように関係ラベルの開始キーフレームと終了キーフレームとが決定され、対象の動画像における当該関係ラベルの時間範囲が決定されると、当該時間範囲において１フレームでも含まれる物体ラベルを検索、抽出する。そして、表示処理部５１は、アノテーション処理部５５によって抽出されたすべての物体ラベルの時間範囲、及び、関係ラベルの時間範囲をそれぞれ異なるスライドバーでスライドバー表示領域１１０に表示させる。

【0090】

図１３の例では、表示処理部５１は、スライドバー表示領域１１０において、各スライドバーの左端に各物体ラベルに対応した物体の種類（名称）を表示させる。ここで、表示処理部５１は、同じ種類の物体ラベルが複数ある場合には、例えば、表示名に連番の数字を追加する等、これらを相互に区別するための情報を付加して表示させてもよい。また、表示処理部５１は、スライドバー表示領域１１０の各スライドバー、及び、動画像表示領域１０１の動画像上の矩形枠も各物体ラベル応じて色分けで区別して表示させてもよい。また、表示処理部５１は、操作に応じてスライドバーや矩形枠にポインタをあわせることで該当する物体ラベルについての情報をポップアップで表示させるようにしてもよい。

【0091】

そして、アノテーション処理部５５は、操作に応じてラベル選択領域１０３に表示されているラベルリストから「関係」を表す関係ラベルが選択されることで、関係ラベルの対象とされた事象に関係する物体の選択に移行する。

【0092】

表示処理部５１は、図１４に例示するように、操作に応じてラベル選択領域１０３に表示されているメインリスト１０３Ａから「関係」を表す関係ラベルが選択されると、サブリスト１０３Ｅをラベル選択領域１０３に表示させる。サブリスト１０３Ｅは、当該関係ラベルの対象とされた事象に関係する物体の候補となる物体ラベルのラベルリストである。ここでは、サブリスト１０３Ｅは、上記のようにアノテーション処理部５５によって当該関係ラベルの時間範囲に含まれるラベルとして抽出された物体ラベル（候補ラベル）のラベルリストである。言い換えれば、サブリスト１０３Ｅは、当該関係ラベルの時間範囲において１フレームでも含まれる物体ラベルのラベルリストである。図１４の例では、表示処理部５１は、操作に応じて「関係」の関係ラベルが選択されると、「信号機」、「一時停止線１」、「一時停止線２」等の物体ラベルを表すサブリスト１０３Ｅをラベル選択領域１０３に表示させる。

【0093】

アノテーション処理部５５は、操作に応じてラベル選択領域１０３に表示されているサブリスト１０３Ｅからいずれかの物体ラベルが選択されることで、既に付加されている物体ラベルから当該関係ラベルの対象とされた事象に関係する物体の物体ラベルを決定する。例えば、「信号機無視」という事象に対しては、アノテーション処理部５５は、操作に応じて「信号機」を表す物体ラベル、対象の車両の車線における「一時停止線１」を表す物体ラベルが選択される一方、対象の車両の車線の反対車線における「一時停止線２」を表す物体ラベルは選択されない。アノテーション処理部５５は、操作に応じて当該関係ラベルによって特定された事象に関係する物体の物体ラベルを複数決定することができる。

【0094】

そして、表示処理部５１は、上記のようにして当該関係ラベルの対象とされた事象に関係する物体の物体ラベルが決定されると、上記と同様に、例えば、図１４に例示するように、消去操作領域１０６、及び、終了操作領域１０７をアノテーション画面１００Ｃに表示させる。

【0095】

消去操作領域１０６は、上記と同様に、上記のようにして決定された物体ラベルを一旦消去（ｄｅｌｅｔｅ）する場合に操作される領域である。表示処理部５１は、操作に応じて当該消去操作領域１０６が選択されると、消去決定画像１０８をアノテーション画面１００Ｃに表示させる。アノテーション処理部５５は、消去決定画像１０８において操作に応じて「ＯＫ」が選択されると、上記のようにして決定された物体ラベルを一旦消去する。一方、表示処理部５１は、消去決定画像１０８において操作に応じて「Ｃａｎｃｅｌ」が選択されると、当該消去決定画像１０８を非表示とし、元の表示画面に復帰させる。

【0096】

終了操作領域１０７は、上記のように当該関係ラベルによって特定された事象に関係する物体の物体ラベルの決定を終了する場合に操作される領域である。アノテーション処理部５５は、操作に応じて当該終了操作領域１０７が選択されると、当該関係ラベルによって特定された事象に関係する物体の物体ラベルの決定を終了する。

【0097】

このとき、表示処理部５１は、上記と同様に、図１４に例示するように、終了操作領域１０７が選択されたことを表すように当該終了操作領域１０７の表示態様を変更すると共に消去操作領域１０６を非表示とする。

【0098】

アノテーション処理部５５は、上記のようにして付加された物体ラベルから上記関係ラベルの対象とされた事象に関係する物体の物体ラベルを指定しアノテーション情報として動画像データに付加することができる。

【0099】

以上のように、アノテーション処理部５５は、上記のようにして動画像データに各種アノテーション情報を付加して教師データＤ２を作成し、当該作成した教師データＤ２を記憶回路４０に記憶させる。教師データＤ２は、例えば、ラベル毎に対応する「動画像データファイルを特定可能なパス」、ラベルを付加した物体、事象が映っている「開始キーフレーム（最初に確認したフレームの番号）」、「終了キーフレーム（最後に確認したフレームの番号）」等の情報を含んでいる。そして、アノテーション処理部５５は、動画像データに対してラベルを付加する一連のタスクが終了した際に、操作に応じてタスク終了操作領域１０４が選択されることで当該タスクを終了する。

【0100】

ここで、上記のようなアノテーション処理の対象となる動画像データのファイル（動画像データファイル）は、サイズ（データ量）が相対的に大きくなり易い傾向にある。このため、動画像データファイルは、一連の動画像を一定時間や一定サイズごとにファイルを分割して保存することが一般的に行われる。この場合に、例えば、既存のアノテーション装置では、例えば、１つの分割ファイルに対するアノテーション処理によってラベルを作成し、当該１つの分割ファイルに対しての作業結果として、アノテーションファイル（教師データ）を１つ保存することがある。

【0101】

ここで、例えば、既存のアノテーション装置は、分割された分割ファイル群において、ある分割ファイルの動画像中に映っている物体に対して物体ラベルを付加する処理を行っていた際、処理の対象となっている分割ファイルの動画像中ではその物体が映り終わることなく、当該物体が時系列的に次の分割ファイルの動画像にまで継続して映り続ける場合がある。

【0102】

このとき、作業者は、例えば、既存のアノテーション装置上で現在処理中の分割ファイルを閉じ、次の分割ファイルを開いて作業を継続するが、先ほど追加した物体ラベルが次の分割ファイルの動画像でも前の分割ファイルの動画像から継続している取り扱いとなるように設定し直さなければならない場合がある。この場合、例えば、その設定にわずかでも違いがあれば、教師データに誤差を生むことになり、この結果、教師データの品質を低下させてしまうおそれがある。

【0103】

また、上記のように一連の動画像を複数の分割ファイルとした場合、一連の動画像であるにもかかわらず複数の分割ファイルに対して、複数のアノテーションファイル（教師データ）が保存される場合がある。既存のアノテーション装置は、例えば、アノテーションファイル（教師データ）に対して備考のような任意のテキストを入力することができる機能を有するものもあり、その任意項目にＩＤ番号等を入力することができるものもある。このような機能をする既存のアノテーション装置では、例えば、異なる分割ファイルに分かれて映っている同一の物体に対して、同じＩＤ番号を設定する場合がある。そして、例えば、そのＩＤ番号に基づいて複数のアノテーションファイルから一連となるラベルを抽出しその一連のラベルを１つのアノテーションファイルとして連結して保存する機能を持つ変換ツールを用いることで、一連の動画像が複数の分割ファイルに分割されていても、同一の物体に対するラベルが１つのアノテーションファイル（教師データ）となるように変換することができるものもある。

【0104】

しかしながら、このような変換ツールを作成することは煩雑である。また、一連のラベルであることを示すＩＤ番号は、別途、作業者等によって記録しておくことが必要となる。ラベルの総数は、例えば、数千や数万を超えることも多々あり、このような作業は、非常に煩雑であり、間違いも発生し易く、この点でも教師データの品質を低下させてしまうおそれがある。

【0105】

そこで、本実施形態のアノテーション処理部５５は、上記のようなアノテーション処理において、予め指定された複数の動画像データファイルを一連の動画像を表す動画像データとして取り扱う。そして、アノテーション処理部５５は、典型的には、このように一連の動画像を表す動画像データとして取り扱った複数の動画像データファイルに対して１つのまとまった教師データＤ２（アノテーションファイル）を作成するように構成することができる。ここでは、タスク作成処理部５４は、予め指定された複数の動画像データファイルが一連の動画像を表す動画像データとして取り扱われるように、アノテーション処理部５５によって処理する一連のタスクを作成する。以下、具体的に説明する。

【0106】

まず、本実施形態のタスク作成処理部５４は、図１５に例示するように、記憶回路４０の指定ファイル記憶領域４０ａにおいて、一連の動画像となる複数の動画像データファイルを保存している場所を時系列順に記録したリストファイルを作成しておく。ここで、このリストファイルの作成は、例えば、ビッグデータを保存したデータ基盤（例えば、学習用データ提供システムＳｖ等）に対して検索条件を設定した検索コマンドを送ると、その検索条件に合致したリストファイルを自動で出力するデータ基盤を用いることができるがこれに限らず、当該リストファイルを人手により作成してもよい。また、タスク作成処理部５４は、一連の動画像となる複数の動画像データファイルに対して時系列順に連番となるファイル名を設定するようにしてもよい。

【0107】

そして、本実施形態のアノテーション装置１は、上述したアノテーション画面１００Ａ、１００Ｂ、１００Ｃ等を用いた作業モードの他に、図１６に例示するような管理モード画面２００を用いた管理モードも実装している。なお、このアノテーション装置１は、例えば、作業モードと管理モードとの両方を実行可能である「管理者」や作業モードだけを実行可能である「作業者」等のユーザ権限を設定することができる機能を有していてもよい。また、アノテーション装置１は、「管理者」用の機器と「作業者」用の機器とが別個に構成されてもよい。

【0108】

図１６に例示した管理モード画面２００は、管理モードの際に表示機器１０に表示される画面であり、タスク作成操作領域２０１が表示される。タスク作成操作領域２０１は、動画像データに対してラベルを付加する一連のタスクを作成する際に操作される領域である。なおここは、管理モード画面２００は、タスク作成操作領域２０１のみを図示しており、他の管理用操作領域の図示については省略している。

【0109】

表示処理部５１は、操作に応じてタスク作成操作領域２０１が選択されると、図１７に例示するようなタスク作成画面３００を表示機器１０に表示させる。図１７に例示するタスク作成画面３００は、動画像データに対してラベルを付加する一連のタスクを作成する際に表示機器１０に表示される画面である。さらに言えば、当該タスク作成画面３００は、アノテーション処理において、一連の動画像を表す動画像データとして取り扱う複数の動画像データファイルを指定する際に表示される画面である。表示処理部５１は、タスク作成画面３００において、ファイルダイアログを表示させることで、一連のタスクとして取り扱いたい動画像データファイル、言い換えれば、一連の動画像を表す動画像データとして取り扱いたい動画像データファイルを選択させる。

【0110】

タスク作成処理部５４は、例えば、このファイルダイアログを介して、操作に応じて上記リストファイルが選択されることで、一連の動画像を表す動画像データとして取り扱いたい複数の動画像データファイルを指定する。あるいは、タスク作成処理部５４は、例えば、ファイルが選択されていない状態で操作に応じてファイルダイアログの「開く」が選択されると、連番のファイル名の一連となる複数の動画像データファイルが保存されたディレクトリであると設定された、と認識する。

【0111】

このようにして、タスク作成処理部５４は、ここで指定された複数の動画像データファイルが一連の動画像を表す動画像データとして取り扱われるように、一連のタスクを作成する。この結果、アノテーション処理部５５は、アノテーション処理において、ここで指定された複数の動画像データファイルを一連の動画像を表す動画像データとして取り扱う。これにより、アノテーション装置１は、分割された複数の動画像データファイルであっても、アノテーション画面１００Ａ、１００Ｂ、１００Ｃの動画像表示領域１０１において、ここで指定された複数の動画像データファイルを一連の動画像データの動画像のように連続再生することができる。

【0112】

なおここでは、アノテーション装置１は、あくまでも上記のように指定された複数の動画像データファイルを一連の動画像データとして取り扱うだけであり、当該複数の動画像データファイルを１つの動画像データファイルに変換するわけではない。つまり、アノテーション装置１は、一連の複数の動画像データファイルをリストとして記憶している。

【0113】

また、上述した図９、図１１、図１３で上述したアノテーション画面１００Ａ、１００Ｂ、１００Ｃは、動画像表示領域１０１等と共にファイル名表示領域１１１、ファイル選択領域１１２等が表示される。ファイル名表示領域１１１は、動画像表示領域１０１に表示されている動画像に対応する動画像データファイルのファイル名を表示する領域である。ファイル選択領域１１２は、動画像表示領域１０１に表示されている動画像に対応する動画像データファイルを選択する際に操作される領域である。

【0114】

例えば、表示処理部５１は、操作に応じてファイル選択領域１１２の「Ｎｅｘｔ」が選択されると、現在、ファイル名表示領域１１１にファイル名が表示されている動画像データファイルの次の動画像データファイルの動画像を先頭から動画像表示領域１０１に表示させる。同様に、表示処理部５１は、操作に応じてファイル選択領域１１２の「Ｐｒｅｖ」が選択されると、現在、ファイル名表示領域１１１にファイル名が表示されている動画像データファイルの前の動画像データファイルの動画像を先頭から動画像表示領域１０１に表示させる。

【0115】

また、例えば、表示処理部５１は、操作に応じてファイル名表示領域１１１が選択されると、図１８に例示するように、ファイル名表示領域１１１にファイルリスト１１１Ａを表示させることができる。ファイルリスト１１１Ａは、上記のように一連のタスクとして指定された複数の動画像データファイルのファイル名リストである。表示処理部５１は、例えば、ファイル名表示領域１１１に表示されるファイルリスト１１１Ａにおいて、既に再生済みの動画像データファイルのファイル名の文字色をグレー、現在再生中の動画像データファイルのファイル名の文字色を黒、未だ再生していない動画像データファイルのファイル名の文字色を赤色等のように表示態様を区別して表示させることができる。また、表示処理部５１は、操作に応じて別の動画像データファイルが選択されると、当該選択された動画像データファイルの動画像を先頭から動画像表示領域１０１に表示させることもできる。

【0116】

このようにアノテーション装置１は、作業者や管理者等の任意に動画像データファイルを指定し動画像を再生する機能を有するが、例えば、現在、作業している動画像データファイルの最終時刻で終了キーフレームが設定されていない作業継続状態のラベルが存在する場合、そのラベルの付加作業が終了していないことを記憶する機能を有する。表示処理部５１は、例えば、上記のように作業継続状態のラベルがある場合、当該動画像データファイルの後の動画像データファイルの動画像を再生している際には、ラベル選択領域１０３や追加済みラベル表示領域１０９に作業継続状態のラベルを表示させるようにしてもよい。また例えば、表示処理部５１は、物体ラベルによって特定される物体の位置を表す矩形枠の座標値を用いて、その座標の点を表示させ、それらの点と点との間を線で結ぶように表示してもよい。このようにして、アノテーション装置１は、異なる複数の動画像データファイルの動画像を再生しても当該物体ラベルが同一の物体に対する物体ラベルであると記憶することも可能である。

【0117】

そして、アノテーション処理部５５は、上記のように指定された複数の動画像データファイルによる一連のタスクが終了した際に、操作に応じてタスク終了操作領域１０４（図９、図１１、図１３参照）が選択されることで当該タスクを終了する。一方、アノテーション処理部５５は、一連のタスクが終了しておらず、作業継続状態のラベルがある状態で、操作に応じてタスク終了操作領域１０４が選択されたり画面クローズボタンが選択されたりするとアノテーション作業の終了処理を始める。このとき、作業継続状態のラベルが存在する場合、表示処理部５１は、図１９に例示するような作業終了確認画像１１３をアノテーション画面１００Ａ、１００Ｂ、１００Ｃに表示させてもよい。作業終了確認画像１１３は、作業終了を確認させるための画像であり、例えば、「終了すると継続状態のラベルの作業データは消去されるが、それでも終了するか？」等の文字画像を表示している。アノテーション処理部５５は、作業終了確認画像１１３において操作に応じて「ＯＫ」が選択されると、作業継続状態のラベルの作業データを消去して終了するように処理することができる。一方、表示処理部５１は、作業終了確認画像１１３おいて操作に応じて「Ｃａｎｃｅｌ」が選択されると、作業終了確認画像１１３を非表示とし、元の表示画面に復帰させる。

【0118】

また、表示処理部５１は、作業継続状態のラベルがない状態であっても、操作に応じてタスク終了操作領域１０４が選択された際に、一旦、図２０に例示するような作業終了決定画像１１４をアノテーション画面１００Ａ、１００Ｂ、１００Ｃに表示させてもよい。作業終了決定画像１１４は、作業終了を決定させるための画像であり、例えば、タスクを終了するか？」等の文字画像を表示している。アノテーション処理部５５は、作業終了決定画像１１４おいて操作に応じて「ＯＫ」が選択されると当該タスクを終了する。一方、表示処理部５１は、作業終了決定画像１１４において操作に応じて「Ｃａｎｃｅｌ」が選択されると、作業終了決定画像１１４を非表示とし、元の表示画面に復帰させる。

【0119】

ここで、本実施形態のアノテーション処理部５５は、上記のように一連の動画像を表す動画像データとして取り扱う複数の動画像データファイルにおいて、ある動画像データファイルに映っている物体が、次の動画像データファイルにも引き続き映っている場合でも、例えば、図２１に例示するように、１つの物体ラベルについての情報を記録した１つの教師データＤ２（アノテーションファイル）として保存する機能を有する。

【0120】

また、関係ラベルでは、１つの物体ラベルが他の物体ラベルと連携することになる。本実施形態のアノテーション処理部５５は、関係ラベルについては、例えば、図２２に例示するように、ヘッダ情報の１つに、関係するラベルのＩＤを記録するキーを設け、そのキーの値として、関係ラベルに関係する物体ラベルのＩＤ番号を記録するフォーマットによって教師データＤ２（アノテーションファイル）として保存する機能を有していてもよい。

【0121】

なお、図２１、図２２に例示した教師データＤ２（アノテーションファイル）は、テキストファイルのフォーマットであるものとして例示したが、ＪＳＯＮ（ＪａｖａＳｃｒｉｐｔ（登録商標）ＯｂｊｅｃｔＮｏｔａｔｉｏｎ）やＸＭＬ（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）のようなデータ記述言語でフォーマットを定めた半構造化データとされてもよい。この場合、アノテーション処理部５５は、例えば、関係ラベルの教師データＤ２（アノテーションファイル）では、関係ラベルに関係する物体ラベルの情報はＩＤ番号だけでなく、物体ラベルが関係ラベルに関係している時間範囲等も記録することができる。ここで、ＪＳＯＮは、プログラミング言語ＪａｖａＳｃｒｉｐｔ（登録商標）だけに使われるものではなく、ＸＭＬと同様に汎用的なデータ交換用フォーマットの１つとして使用されているものである。

【0122】

次に、図２３、図２４、図２５のフローチャートを参照して、タスク作成からアノテーション作業の一連の処理手順について説明する。以下で説明する方法は、操作に応じてアノテーション装置１の処理回路５０によって各種プログラムが実行されることで各ステップに関する処理が実行される。

【0123】

まず、図２３を参照して、アノテーション作業に提供するタスクの作成方法における各処理について説明する。このタスクの作成方法は、典型的には、主に管理者用の機器を構成するアノテーション装置１によって行われる。

【0124】

まず、処理回路５０のデータ入出力処理部５３は、例えば、管理者の操作に応じてアノテーションサーバーに通信接続する（ステップＳ１）。アノテーションサーバーは、例えば、上述した学習用データ提供システムＳｖ等によって構成されるものである。そして、処理回路５０のタスク作成処理部５４は、管理者の操作に応じて教師データを作成する対象とする動画像データの検索条件を入力し（ステップＳ２）、データ入出力処理部５３は、当該入力された検索条件をアノテーションサーバーに送信する（ステップＳ３）。タスク作成処理部５４は、検索条件として、例えば、対象とする動画像データの日時や車両等を指定することができる。

【0125】

そして、データ入出力処理部５３は、アノテーションサーバーにおいて検索条件に応じて検索された検索結果を受信し（ステップＳ４）、タスク作成処理部５４は、検索条件に合致したデータが存在しないか否かを判定する（ステップＳ５）。タスク作成処理部５４は、検索条件に合致したデータが存在しないと判定した場合（ステップＳ５：Ｙｅｓ）、ステップＳ１の処理に戻って以降の処理を繰り返し実行する。処理回路５０の表示処理部５１は、タスク作成処理部５４によって検索条件に合致したデータが存在すると判定された場合（ステップＳ５：Ｎｏ）、例えば、検索結果を表示機器１０に表示させることで、管理者に対して検索結果を出力する（ステップＳ６）。

【0126】

次に、タスク作成処理部５４は、管理者の操作に応じて検索結果に対応した動画像データファイルを割り振って一連の作業タスクとするためのデータ条件を設定し（ステップＳ７）、当該データ条件に応じた作業タスクを生成する（ステップＳ８）。そして、表示処理部５１は、例えば、生成された作業タスクの情報を表示機器１０に表示させることで、管理者に対して当該作業タスクの情報を出力する（ステップＳ９）。

【0127】

次に、タスク作成処理部５４は、管理者の操作に応じて生成された各作業タスクを各作業者に割り当てた後（ステップＳ１０）、例えば、各作業者用の機器等に割り当てられた作業タスクの情報を連絡し（ステップＳ１１）、本フローチャートによる処理を終了する。

【0128】

次に、図２４を参照して、アノテーション作業として提供されたタスクの実行方法における各処理について説明する。このタスクの実行方法は、典型的には、主に作業者用の機器を構成するアノテーション装置１によって行われる。

【0129】

アノテーション処理部５５は、例えば、作業者の操作に応じて当該作業者に割り当てられた作業タスクを開始し（ステップＳ１０１）、データ入出力処理部５３は、割り当てられた作業タスクに付帯したデータ条件をアノテーションサーバーに送信する（ステップＳ１０２）。

【0130】

そして、データ入出力処理部５３は、アノテーションサーバーから当該データ条件に一致する動画像データファイルを受信し（ステップＳ１０３）、記憶回路４０の指定ファイル記憶領域４０ａ等に記憶させる。

【0131】

そして、アノテーション処理部５５は、作業者の操作に応じて受信した動画像データファイルを、一連の動画像を表す動画像データとして取り扱ってアノテーション作業を実行させる（ステップＳ１０４）。

【0132】

ここでは、表示処理部５１は、作業者の操作に応じて動画像を表示機器１０に表示して再生させ（ステップＳ１０５）、アノテーション処理部５５は、作業者の操作に応じてアノテーション処理の対象となる物体、事象が検出されたか否かを判定する（ステップＳ１０６）。アノテーション処理部５５は、例えば、ラベル追加操作領域１０２への操作の有無に応じてアノテーション処理の対象となる物体、事象が検出されたか否かを判定することができる。アノテーション処理部５５は、アノテーション処理の対象となる物体、事象が検出されていないと判定した場合（ステップＳ１０６：Ｎｏ）、ステップＳ１０５の処理に戻って以降の処理を繰り返し実行する。

【0133】

アノテーション処理部５５は、アノテーション処理の対象となる物体、事象が検出されたと判定した場合（ステップＳ１０６：Ｙｅｓ）、作業者の操作に応じて物体ラベルや関係ラベル等のアノテーション情報が追加されると（ステップＳ１０７）、当該アノテーション情報と共に対応する動画像データの情報を教師データ（アノテーションファイル）に追加する（ステップＳ１０８）。

【0134】

そして、アノテーション処理部５５は、データ条件に動画像データ以外の条件があるか否かを判定する（ステップＳ１０９）。アノテーション処理部５５は、データ条件に動画像データ以外の条件があると判定した場合（ステップＳ１０９：Ｙｅｓ）、上記アノテーション情報と対応する他データの情報も教師データ（アノテーションファイル）に追加する（ステップＳ１１０）。

【0135】

その後、アノテーション処理部５５は、作業者の操作に応じてアノテーション作業の終了が入力されたか否か（言い換えれば、タスク終了操作領域１０４が選択されたか否か）を判定し（ステップＳ１１１）、アノテーション作業の終了が入力されたと判定した場合（ステップＳ１１１：Ｙｅｓ）、本フローチャートによる処理を終了する。アノテーション処理部５５は、アノテーション作業の終了が入力されていないと判定した場合（ステップＳ１１１：Ｎｏ）、ステップＳ１０５の処理に戻って以降の処理を繰り返し実行する。

【0136】

アノテーション処理部５５は、ステップＳ１０９の処理において、データ条件に動画像データ以外の条件がないと判定した場合（ステップＳ１０９：Ｎｏ）、ステップＳ１１０の処理をとばしてステップＳ１１１の処理に移行する。

【0137】

次に、図２５を参照して、アノテーション作業のより具体的な実行方法における各処理について説明する。このアノテーション作業の実行方法は、典型的には、主に作業者用の機器を構成するアノテーション装置１によって行われる。

【0138】

表示処理部５１は、作業者の操作に応じて動画像を表示機器１０に表示して再生させ（ステップＳ２０１）、アノテーション処理部５５は、作業者の操作に応じてアノテーション処理の対象となる物体が検出されたか否かを判定する（ステップＳ２０２）。アノテーション処理部５５は、例えば、ラベル追加操作領域１０２への操作の有無に応じてアノテーション処理の対象となる物体が検出されたか否かを判定することができる。アノテーション処理部５５は、アノテーション処理の対象となる物体が検出されていないと判定した場合（ステップＳ２０２：Ｎｏ）、ステップＳ２０１の処理に戻って以降の処理を繰り返し実行する。

【0139】

表示処理部５１は、アノテーション処理部５５によってアノテーション処理の対象となる物体が検出されたと判定した場合（ステップＳ２０２：Ｙｅｓ）、作業者の操作に応じて表示機器１０に再生されている動画像を停止する（ステップＳ２０３）。

【0140】

そして、アノテーション処理部５５は、作業者の操作に応じて、上記で検出された物体についての物体ラベルを新規作成し（ステップＳ２０４）、この物体ラベルに対応する物体の種類や位置などをアノテーション情報として追加する（ステップＳ２０５）。またこのとき、アノテーション処理部５５は、現在のフレームを当該物体ラベルの開始キーフレームとして記憶回路４０に記憶させる。

【0141】

次に、表示処理部５１は、作業者の操作に応じて動画像を表示機器１０に表示して再生させ（ステップＳ２０６）、アノテーション処理部５５は、作業者の操作に応じて当該物体ラベルに対応する物体の位置指定の修正を決定したか否かを判定する（ステップＳ２０７）。表示処理部５１は、アノテーション処理部５５によって物体の位置指定の修正を決定したと判定された場合（ステップＳ２０７：Ｙｅｓ）、作業者の操作に応じて表示機器１０に再生されている動画像を停止する（ステップＳ２０８）。

【0142】

そして、アノテーション処理部５５は、作業者の操作に応じて物体ラベルの対象とされた物体の位置指定を修正し（ステップＳ２０９）、先のフレーム（例えば、開始キーフレーム）で指定した物体の位置と、このフレームで再指定した物体の位置とに基づいてこれらの間の各フレームでの物体の位置を線形補間等によって算出、特定する（ステップＳ２１０）。そして、表示処理部５１は、作業者の操作に応じて動画像を表示機器１０に表示して再生させる（ステップＳ２１１）。

【0143】

次に、アノテーション処理部５５は、作業者の操作に応じて上記のように決定された物体ラベルの対象の物体が映るフレームが終了したか否かを判定する（ステップＳ２１２）。アノテーション処理部５５は、例えば、終了操作領域１０７への操作の有無に応じて当該物体ラベルの対象とされた物体が映るフレームが終了したか否かを判定することができる。また、アノテーション処理部５５は、上述のステップＳ２０７の処理において、物体ラベルの対象とされた物体の位置指定の修正を決定していないと判定した場合（ステップＳ２０７：Ｎｏ）には、ステップＳ２０８～ステップＳ２１１の処理をとばしてこのステップＳ２１２の処理に移行する。

【0144】

アノテーション処理部５５は、検出対象の物体が映るフレームが終了していないと判定した場合（ステップＳ２１２：Ｎｏ）、ステップＳ２０６の処理に戻って以降の処理を繰り返し実行する。アノテーション処理部５５は、検出対象の物体が映るフレームが終了したと判定した場合（ステップＳ２１２：Ｙｅｓ）、作業者の操作に応じてこの物体ラベル作業の終了を実行し（ステップＳ２１３）、現在のフレームを当該物体ラベルの終了キーフレームとして記憶回路４０に記憶させ、この動画像における当該物体ラベルの時間範囲を決定する。

【0145】

次に、アノテーション処理部５５は、作業者の操作に応じて同時間帯にアノテーション処理の対象となる他の物体が検出されたか否かを判定する（ステップＳ２１４）。表示処理部５１は、アノテーション処理部５５によってアノテーション処理の対象となる他の物体が検出されたと判定された場合（ステップＳ２１４：Ｙｅｓ）、作業者の操作に応じて該当する再生フレームを検索、表示させ（ステップＳ２１５）、ステップＳ２０４の処理に戻って以降の処理を繰り返し実行する。

【0146】

アノテーション処理部５５は、アノテーション処理の対象となる他の物体が検出されていないと判定した場合（ステップＳ２１４：Ｎｏ）、作業者の操作に応じてアノテーション処理の対象となる事象が検出されたか否かを判定する（ステップＳ２１６）。アノテーション処理部５５は、例えば、ラベル追加操作領域１０２への操作の有無に応じてアノテーション処理の対象となる事象が検出されたか否かを判定することができる。アノテーション処理部５５は、アノテーション処理の対象となる事象が検出されていないと判定した場合（ステップＳ２１６：Ｎｏ）、本フローチャートによる処理を終了する。

【0147】

表示処理部５１は、アノテーション処理部５５によってアノテーション処理の対象となる事象が検出されたと判定された場合（ステップＳ２１６：Ｙｅｓ）、作業者の操作に応じて該当する再生フレームを検索、表示させる（ステップＳ２１７）。

【0148】

そして、アノテーション処理部５５は、作業者の操作に応じて、上記で検出された事象についての関係ラベルを新規作成し（ステップＳ２１８）、この関係ラベルに対応する事象の種類などをアノテーション情報として追加する（ステップＳ２１９）。またこのとき、アノテーション処理部５５は、現在のフレームを当該関係ラベルの開始キーフレームとして記憶回路４０に記憶させる。

【0149】

そして、アノテーション処理部５５は、作業者の操作に応じて当該関係ラベルの対象とされた事象に関係する物体の物体ラベルを指定し、関係ラベルのアノテーション情報として追加する（ステップＳ２２０）。そして、表示処理部５１は、作業者の操作に応じて動画像を表示機器１０に表示して再生させる（ステップＳ２２１）。

【0150】

次に、アノテーション処理部５５は、作業者の操作に応じて上記のように決定された関係ラベルの対象とされた事象が映るフレームが終了したか否かを判定する（ステップＳ２２２）。アノテーション処理部５５は、例えば、終了操作領域１０７への操作の有無に応じて当該関係ラベルの対象とされた事象が映るフレームが終了したか否かを判定することができる。

【0151】

アノテーション処理部５５は、関係ラベルの対象とされた事象が映るフレームが終了していないと判定した場合（ステップＳ２２２：Ｎｏ）、ステップＳ２２１の処理に戻って以降の処理を繰り返し実行する。表示処理部５１は、アノテーション処理部５５によって関係ラベルの対象とされた事象が映るフレームが終了したと判定された場合（ステップＳ２２２：Ｙｅｓ）、作業者の操作に応じて表示機器１０に再生されている動画像を停止する（ステップＳ２２３）。

【0152】

そして、アノテーション処理部５５は、作業者の操作に応じてこの関係ラベル作業の終了を実行し（ステップＳ２２４）、現在のフレームを当該関係ラベルの終了キーフレームとして記憶回路４０に記憶させ、この動画像における当該関係ラベルの時間範囲を決定し、本フローチャートによる処理を終了する。

【0153】

以上で説明した図２５のアノテーション作業に関する方法は、「動画像データが表す動画像を表示するステップと、操作を受け付けるステップと、操作に応じて動画像データにアノテーション情報を付加して学習済みモデルの機械学習に用いる教師データを作成するステップとを含み、教師データを作成するステップでは、操作に応じて動画像に含まれる物体の位置を特定し当該物体の種類を表す物体ラベルをアノテーション情報として動画像データに付加し、操作に応じて動画像に含まれる複数の物体が相関する事象の種類を表す関係ラベルをアノテーション情報として動画像データに付加し、操作に応じて上記付加した物体ラベルから関係ラベルの対象とされた事象に関係する物体の物体ラベルを指定しアノテーション情報として動画像データに付加することを特徴とするアノテーション方法」の当該各ステップに相当するステップが含まれている。また、この「アノテーション方法」は、予め用意された「アノテーションプログラム」をパーソナルコンピュータやワークステーション等のコンピュータで実行することによって実現することができる。この「アノテーションプログラム」は、上述したステップの各処理をコンピュータに実行させる。

【0154】

以上で説明したアノテーション装置１、アノテーション方法、及び、アノテーションプログラムは、複数の物体が関係することで生じる事象を検出するための学習済みモデルＭの機械学習に用いる教師データを作成することができる。この場合、アノテーション装置１、アノテーション方法、及び、アノテーションプログラムは、動画像データに対してアノテーション情報として、動画像に映る物体の種類を表す物体ラベル、及び、複数の物体が相関する事象の種類を表す関係ラベルを付加することができる。その上で、アノテーション装置１、アノテーション方法、及び、アノテーションプログラムは、さらに、動画像データに対してアノテーション情報として、当該関係ラベルが対象とする事象と相関する物体の物体ラベルもあわせて指定し付加することができる。この結果、アノテーション装置１、アノテーション方法、及び、アノテーションプログラムは、適正に教師データの作成を行うことができる。この結果、例えば、検出システムＳｙｓ１は、当該教師データを用いた機械学習によって関係行動検出用の学習済みモデルＭを生成することができ、この学習済みモデルＭを用いて関係行動検出を適正に行うことができる。

【0155】

例えば、以上で説明したアノテーション装置１、アノテーション方法、及び、アノテーションプログラムは、ある動画像に映る物体に対して、「赤信号である歩行者信号機」を表す物体ラベルと「横断歩道を歩いている歩行者」を表す物体ラベルとを付加すると共に当該歩行者信号機、当該歩行者が相関する事象の種類として「歩行者の信号無視」という関係ラベルを付加した際に、当該関係ラベルに関係する物体の物体ラベルとして、「赤信号である歩行者信号機」を表す物体ラベル、及び、「横断歩道を歩いている歩行者」を表す物体ラベルを紐付けたアノテーション情報を付加し、教師データとすることができる。そして、検出システムＳｙｓ１は、例えば、当該教師データを用いた機械学習によって、「赤信号である歩行者信号機」、及び、「横断歩道を歩いている歩行者」が映る動画像の動画像データから「歩行者の信号無視」を検出可能な学習済みモデルＭを生成することができ、学習済みモデルＭを用いて当該「歩行者の信号無視」等の事象の検出（関係行動検出）を行うことができる。

【0156】

また、以上で説明したアノテーション装置１、アノテーション方法、及び、アノテーションプログラムは、アノテーション処理において、予め指定された複数の動画像データファイルを一連の動画像を表す動画像データとして取り扱う。これにより、アノテーション装置１、アノテーション方法、及び、アノテーションプログラムは、ファイルの切り替わりを作業者に意識させることとなく連続して動画像を再生しアノテーション処理を行うことができるので、煩雑な作業を抑制し、作業性を向上することができる。また、アノテーション装置１、アノテーション方法、及び、アノテーションプログラムは、異なるファイルにまたがる物体や事象であってもラベルが別々になることなく、シームレスにアノテーション処理を行うことができるので、教師データの品質の低下を招くことを抑制することができる。さらに、アノテーション装置１、アノテーション方法、及び、アノテーションプログラムは、複数の動画像データファイル単位ではなく、一連の動画像として取り扱う動画像データ単位で１つのまとまりの教師データを作成することができるので、この点でも分断された教師データの取りまとめ作業等の煩雑な作業を抑制し、教師データの品質の低下を招くことを抑制することができる。

【0157】

なお、上述した本発明の実施形態に係るアノテーション装置、アノテーション方法、及び、アノテーションプログラムは、上述した実施形態に限定されず、特許請求の範囲に記載された範囲で種々の変更が可能である。

【0158】

以上で説明したアノテーション装置１は、動画像再生機能に加えて、サウンド再生機能を有し、動画像データに加えて、例えば、サウンドデータに対してもアノテーション処理を適用するものであってもよい。さらに、アノテーション装置１は、例えば、ＩｏＴ（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）データのような時系列データを２次元プロットする機能を有し、当該時系列データに対してもアノテーション処理を適用するものであってもよい。アノテーション装置１は、例えば、動画像データとは異なる構造のデータとしてサウンドデータを例にすると、例えば、「警報音」と「うわっ」という声とが相関する事象の種類として「驚き」という事象を表す関係ラベルを付加すると共に、当該関係ラベルの対象とされた事象に関係する音ラベルとして、「うわっ」という声に対する音ラベルと「警報音」に対する音ラベルとを指定しアノテーション情報としてサウンドデータに付加することができる。またこの場合、アノテーション装置１は、予め指定された複数の動画像データファイルを一連の動画像を表す動画像データとして取り扱う機能を、サウンドデータファイルやＩｏＴデータファイルに対して適用してもよい。

【0159】

以上で説明した処理回路５０は、単一のプロセッサによって各処理機能が実現されるものとして説明したがこれに限らない。処理回路５０は、複数の独立したプロセッサを組み合わせて各プロセッサがプログラムを実行することにより各処理機能が実現されてもよい。また、処理回路５０が有する処理機能は、単一又は複数の処理回路に適宜に分散又は統合されて実現されてもよい。また、処理回路５０が有する処理機能は、その全部又は任意の一部をプログラムにて実現してもよく、また、ワイヤードロジック等によるハードウェアとして実現してもよい。

【0160】

以上で説明したプロセッサによって実行されるプログラムは、記憶回路４０等に予め組み込まれて提供される。なお、このプログラムは、これらの装置にインストール可能な形式又は実行可能な形式のファイルで、コンピュータで読み取り可能な記憶媒体に記録されて提供されてもよい。また、このプログラムは、インターネット等のネットワークに接続されたコンピュータ上に格納され、ネットワーク経由でダウンロードされることにより提供又は配布されてもよい。

【0161】

本実施形態に係るアノテーション装置、アノテーション方法、及び、アノテーションプログラムは、以上で説明した実施形態、変形例の構成要素を適宜組み合わせることで構成してもよい。

【符号の説明】

【0162】

１アノテーション装置
１０表示機器（表示部）
２０操作機器（操作部）
３０データ入出力機器
４０記憶回路
４０ａ指定ファイル記憶領域
５０処理回路（処理部）
５１表示処理部
５２操作処理部
５３データ入出力処理部
５４タスク作成処理部
５５アノテーション処理部
１００Ａ、１００Ｂ、１００Ｃアノテーション画面
１０１動画像表示領域
１０１ａ動画像操作領域
１０２ラベル追加操作領域
１０３ラベル選択領域
１０３Ａメインリスト
１０３Ｂ、１０３Ｃ、１０３Ｄ、１０３Ｅサブリスト
１０４タスク終了操作領域
１０５決定ラベル表示画像
１０６消去操作領域
１０７終了操作領域
１０８消去決定画像
１０９追加済みラベル表示領域
１１０スライドバー表示領域
１１１ファイル名表示領域
１１１Ａファイルリスト
１１２ファイル選択領域
１１３作業終了確認画像
１１４作業終了決定画像
２００管理モード画面
２０１タスク作成操作領域
３００タスク作成画面
ＡＬ機械学習アルゴリズム
Ｄ１入力データ
Ｄ２教師データ
Ｄ３学習用データセット
Ｄ４検出対象データ
Ｄ５種別特定結果データ
Ｍ学習済みモデル
Ｓｖ学習用データ提供システム
Ｓｙｓ１検出システム

【図1】