IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 矢崎総業株式会社の特許一覧

特許7529514アノテーション装置、アノテーション方法、及び、アノテーションプログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-29
(45)【発行日】2024-08-06
(54)【発明の名称】アノテーション装置、アノテーション方法、及び、アノテーションプログラム
(51)【国際特許分類】
   H04N 5/92 20060101AFI20240730BHJP
   G06N 20/00 20190101ALI20240730BHJP
   G06T 7/00 20170101ALI20240730BHJP
   H04N 5/222 20060101ALI20240730BHJP
   G06N 3/02 20060101ALN20240730BHJP
【FI】
H04N5/92 010
G06N20/00 130
G06T7/00 350B
H04N5/222
G06N3/02
【請求項の数】 4
(21)【出願番号】P 2020164661
(22)【出願日】2020-09-30
(65)【公開番号】P2022056744
(43)【公開日】2022-04-11
【審査請求日】2023-08-09
(73)【特許権者】
【識別番号】000006895
【氏名又は名称】矢崎総業株式会社
(74)【代理人】
【識別番号】110001771
【氏名又は名称】弁理士法人虎ノ門知的財産事務所
(72)【発明者】
【氏名】杉田 明宏
(72)【発明者】
【氏名】鈴木 睦子
(72)【発明者】
【氏名】畠山 征也
(72)【発明者】
【氏名】橋本 亜矢
【審査官】大西 宏
(56)【参考文献】
【文献】特開2014-123817(JP,A)
【文献】特開2015-191348(JP,A)
【文献】特開2018-072940(JP,A)
【文献】特開2018-200685(JP,A)
【文献】特開2020-035095(JP,A)
【文献】特開2020-035116(JP,A)
【文献】特開2020-101968(JP,A)
【文献】国際公開第2020/160276(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 5/91 - 5/956
H04N 5/222- 5/257
G06T 7/00 - 7/90
G06N 3/00 -99/00
(57)【特許請求の範囲】
【請求項1】
動画像データが表す動画像を表示可能である表示部と、
操作を受け付ける操作部と、
前記操作部への操作に応じて前記動画像データにアノテーション情報を付加して学習済みモデルの機械学習に用いる教師データを作成するアノテーション処理を実行可能である処理部とを備え、
前記処理部は、前記アノテーション処理において、前記操作部への操作に応じて前記動画像に含まれる物体の位置を特定し当該物体の種類を表す物体ラベルを前記アノテーション情報として前記動画像データに付加する処理、前記操作部への操作に応じて前記動画像に含まれる複数の物体が相関する事象の種類を表す関係ラベルを前記アノテーション情報として前記動画像データに付加する処理、及び、前記操作部への操作に応じて付加した前記物体ラベルから前記関係ラベルの対象とされた前記事象に関係する前記物体の前記物体ラベルを指定し前記アノテーション情報として前記動画像データに付加する処理を実行することを特徴とする、
アノテーション装置。
【請求項2】
前記処理部は、前記アノテーション処理において、予め指定された複数の動画像データファイルを一連の前記動画像を表す前記動画像データとして取り扱う、
請求項1に記載のアノテーション装置。
【請求項3】
動画像データが表す動画像を表示するステップと、
操作を受け付けるステップと、
操作に応じて前記動画像データにアノテーション情報を付加して学習済みモデルの機械学習に用いる教師データを作成するステップとを含み、
前記教師データを作成するステップでは、操作に応じて前記動画像に含まれる物体の位置を特定し当該物体の種類を表す物体ラベルを前記アノテーション情報として前記動画像データに付加し、操作に応じて前記動画像に含まれる複数の物体が相関する事象の種類を表す関係ラベルを前記アノテーション情報として前記動画像データに付加し、操作に応じて付加した前記物体ラベルから前記関係ラベルの対象とされた前記事象に関係する前記物体の前記物体ラベルを指定し前記アノテーション情報として前記動画像データに付加することを特徴とする、
アノテーション方法。
【請求項4】
動画像データが表す動画像を表示し、
操作を受け付け、
操作に応じて前記動画像データにアノテーション情報を付加して学習済みモデルの機械学習に用いる教師データを作成する、
各処理をコンピュータに実行させ、
前記教師データを作成する処理において、操作に応じて前記動画像に含まれる物体の位置を特定し当該物体の種類を表す物体ラベルを前記アノテーション情報として前記動画像データに付加し、操作に応じて前記動画像に含まれる複数の物体が相関する事象の種類を表す関係ラベルを前記アノテーション情報として前記動画像データに付加し、操作に応じて付加した前記物体ラベルから前記関係ラベルの対象とされた前記事象に関係する前記物体の前記物体ラベルを指定し前記アノテーション情報として前記動画像データに付加する、
各処理を前記コンピュータに実行させることを特徴とする、
アノテーションプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、アノテーション装置、アノテーション方法、及び、アノテーションプログラムに関する。
【背景技術】
【0002】
人工知能(Artificial Intelligence)や深層学習(Deep Learning)を用いて、ドライブレコーダ等の動画像から種々の検出を行う従来の技術として、例えば、特許文献1には、情報処理装置が開示されている。この情報処理装置は、取得部と、信号領域認識部と、速度情報取得部と、加速度情報取得部と、判断部と、を備える。取得部は、車両に搭載された撮影装置により撮影された撮影画像を取得する。信号領域認識部は、取得部により取得された撮影画像のうち、信号機の赤信号を示す赤信号領域を認識する。速度情報取得部は、車両の速度を示す速度情報を取得する。加速度情報取得部は、車両の加速度を示す加速度情報を取得する。判断部は、速度情報または加速度情報と、赤信号領域と、車両が赤信号を無視した運転を行っていることを識別するために予め定められた赤信号無視識別情報と、に基づいて、車両が赤信号を無視した運転を行っているか否かを判断する。この場合において、赤信号無視識別情報は、SVM(Support Vector Machine)を用いた機械学習方法を利用して予め作成される。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2018-072940号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、上述の特許文献1に記載の情報処理装置は、例えば、複数の物体が関係することで生じる事象を検出するために学習済みモデルを用いる場合、当該学習済みモデルを機械学習させるための適正な教師データが必要となる。
【0005】
本発明は、上記の事情に鑑みてなされたものであって、適正に教師データの作成を行うことができるアノテーション装置、アノテーション方法、及び、アノテーションプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するために、本発明に係るアノテーション装置は、動画像データが表す動画像を表示可能である表示部と、操作を受け付ける操作部と、前記操作部への操作に応じて前記動画像データにアノテーション情報を付加して学習済みモデルの機械学習に用いる教師データを作成するアノテーション処理を実行可能である処理部とを備え、前記処理部は、前記アノテーション処理において、前記操作部への操作に応じて前記動画像に含まれる物体の位置を特定し当該物体の種類を表す物体ラベルを前記アノテーション情報として前記動画像データに付加する処理、前記操作部への操作に応じて前記動画像に含まれる複数の物体が相関する事象の種類を表す関係ラベルを前記アノテーション情報として前記動画像データに付加する処理、及び、前記操作部への操作に応じて付加した前記物体ラベルから前記関係ラベルの対象とされた前記事象に関係する前記物体の前記物体ラベルを指定し前記アノテーション情報として前記動画像データに付加する処理を実行することを特徴とする。
【0007】
また、上記アノテーション装置では、前記処理部は、前記アノテーション処理において、予め指定された複数の動画像データファイルを一連の前記動画像を表す前記動画像データとして取り扱うものとすることができる。
【0008】
上記目的を達成するために、本発明に係るアノテーション方法は、動画像データが表す動画像を表示するステップと、操作を受け付けるステップと、操作に応じて前記動画像データにアノテーション情報を付加して学習済みモデルの機械学習に用いる教師データを作成するステップとを含み、前記教師データを作成するステップでは、操作に応じて前記動画像に含まれる物体の位置を特定し当該物体の種類を表す物体ラベルを前記アノテーション情報として前記動画像データに付加し、操作に応じて前記動画像に含まれる複数の物体が相関する事象の種類を表す関係ラベルを前記アノテーション情報として前記動画像データに付加し、操作に応じて付加した前記物体ラベルから前記関係ラベルの対象とされた前記事象に関係する前記物体の前記物体ラベルを指定し前記アノテーション情報として前記動画像データに付加することを特徴とする。
【0009】
上記目的を達成するために、本発明に係るアノテーションプログラムは、動画像データが表す動画像を表示し、操作を受け付け、操作に応じて前記動画像データにアノテーション情報を付加して学習済みモデルの機械学習に用いる教師データを作成する、各処理をコンピュータに実行させ、前記教師データを作成する処理において、操作に応じて前記動画像に含まれる物体の位置を特定し当該物体の種類を表す物体ラベルを前記アノテーション情報として前記動画像データに付加し、操作に応じて前記動画像に含まれる複数の物体が相関する事象の種類を表す関係ラベルを前記アノテーション情報として前記動画像データに付加し、操作に応じて付加した前記物体ラベルから前記関係ラベルの対象とされた前記事象に関係する前記物体の前記物体ラベルを指定し前記アノテーション情報として前記動画像データに付加する、各処理を前記コンピュータに実行させることを特徴とする。
【発明の効果】
【0010】
本発明に係るアノテーション装置、アノテーション方法、及び、アノテーションプログラムは、適正に教師データの作成を行うことができる、という効果を奏する。
【図面の簡単な説明】
【0011】
図1図1は、実施形態に係るアノテーション装置の概略構成を表すブロック図である。
図2図2は、物体検出について説明する模式図である。
図3図3は、物体検出について説明する模式図である。
図4図4は、行動検出について説明する模式図である。
図5図5は、関係行動検出について説明する模式図である。
図6図6は、関係行動検出について説明する模式図である。
図7図7は、関係行動検出について説明する模式図である。
図8図8は、学習フェーズ、及び、使用フェーズの処理を示す模式図である。
図9図9は、実施形態に係るアノテーション装置の表示機器において表示される画面の一例を表す図である。
図10図10は、実施形態に係るアノテーション装置の表示機器において表示される画面の一例を表す図である。
図11図11は、実施形態に係るアノテーション装置の表示機器において表示される画面の一例を表す図である。
図12図12は、実施形態に係るアノテーション装置の表示機器において表示される画面の一例を表す図である。
図13図13は、実施形態に係るアノテーション装置の表示機器において表示される画面の一例を表す図である。
図14図14は、実施形態に係るアノテーション装置の表示機器において表示される画面の一例を表す図である。
図15図15は、実施形態に係るアノテーション装置における動画像データファイルについて説明する模式図である。
図16図16は、実施形態に係るアノテーション装置の表示機器において表示される画面の一例を表す図である。
図17図17は、実施形態に係るアノテーション装置の表示機器において表示される画面の一例を表す図である。
図18図18は、実施形態に係るアノテーション装置の表示機器において表示される画面の一例を表す図である。
図19図19は、実施形態に係るアノテーション装置の表示機器において表示される画面の一例を表す図である。
図20図20は、実施形態に係るアノテーション装置の表示機器において表示される画面の一例を表す図である。
図21図21は、実施形態に係るアノテーション装置におけるファイル形式について説明する模式図である。
図22図22は、実施形態に係るアノテーション装置におけるファイル形式について説明する模式図である。
図23図23は、実施形態に係るアノテーション装置における処理の一例を説明するフローチャートである。
図24図24は、実施形態に係るアノテーション装置における処理の一例を説明するフローチャートである。
図25図25は、実施形態に係るアノテーション装置における処理の一例を説明するフローチャートである。
【発明を実施するための形態】
【0012】
以下に、本発明に係る実施形態を図面に基づいて詳細に説明する。なお、この実施形態によりこの発明が限定されるものではない。また、下記実施形態における構成要素には、当業者が置換可能かつ容易なもの、あるいは実質的に同一のものが含まれる。
【0013】
[実施形態]
図1に示す本実施形態のアノテーション装置1は、動画像データに対してアノテーション処理を行うためのアノテーションツールを構成するものである。ここで、アノテーション処理とは、動画像データにアノテーション情報を付加して学習済みモデルM(図8参照)の機械学習に用いる教師データD2(図8参照)を作成する処理である。ここでのアノテーション情報とは、動画像データを、学習済みモデルMの機械学習における教師データD2として成り立たせるために当該動画像データに付加されるメタデータである。
【0014】
本実施形態のアノテーション装置1において、アノテーション処理によって作成された教師データD2は、典型的には、関係行動検出(Relational Action Detection)用の学習済みモデルMを機械学習によって生成する際に用いられる。ここで、関係行動検出とは、画像を用いた検出技術であり、複数の物体が関係することで生じる事象を検出するものである。
【0015】
ここで、画像を用いた検出技術としては、関係行動検出の他、例えば、物体検出(Object Detection)、行動検出(Action Detection)等がある。
【0016】
物体検出とは、図2に示すように、動画像(映像)を構成する静止画像内から物体の種類と位置を検出するものである。さらに言えば、物体検出とは、静止画像からある瞬間の物体の静的な位置、種類を検出するものである。物体検出によって検出される物体は、例えば、車両、通行人、自転車、障害物、街灯、看板、電柱、標識、停止線等である。図2は、一例として、静止画像内の物体検出によって、物体として「自転車」、「停止線」が検出された場合を表しており、当該検出された「自転車」、「停止線」の位置が矩形枠によって示されている。また、この物体検出では、図3に示すように、動画像を構成する複数の静止画像を比較して物体の位置変化を検出することも可能である。図3は、一例として、動画像を構成する複数の静止画像内の物体検出によって、物体として「自転車」、「停止線」が検出され、「自転車」の位置が右から左に変化したことが検出された場合を表している。
【0017】
一方、行動検出とは、図4に示すように、動画像を構成する複数の静止画像から物体検出によって検出された物体の位置、状態等の時間的な変化から物体単独の動き(行動)を検出するものである。言い換えれば、行動検出とは、時間変化に伴う物体の動き(行動)を検出するものである。なおこの場合、例えば、「停止線」等のように、検出された物体がその位置で静止していること(言い換えれば、動いていないこと)も物体の動き(行動)の一例として、当該物体の動きの概念の範疇に含まれる。行動検出では、例えば、動画像を構成する静止画像から複数の物体が検出された場合でも、それぞれの物体単独の動きを検出する。図4は、一例として、動画像を構成する複数の静止画像内の物体検出によって2台の「自転車」が検出された上で、行動検出によって当該2台の「自転車」が「それぞれふらついて走行している」という物体単独の動きが検出された場合を表している。
【0018】
この行動検出では、物体単独の状態や変化(例えば、「自転車」がふらついて走行している動き)を検出し、例えば、車両の運転者等に対して危険予知を行うことはできるが、検出した複数の物体同士を関係づけて挙動の意味などを検出することはできない。このため、例えば、図4の例では、ふらついて走行している2台の「自転車」が他の物体との関係に関わりなく双方ともに危険であると判断されることとなる。
【0019】
これに対して、上述した関係行動検出では、動画像から検出した物体同士の関係性を検出し、これらの動きを関係づけて相互の挙動の意味(種別)を検出する。より詳細には、関係行動検出とは、図5に示すように、動画像を構成する複数の静止画像から行動検出によって検出された物体単独の動きから、複数の物体が関係することで生じる挙動(振る舞い)、物体同士の関係性を検出するものである。言い換えれば、関係行動検出とは、複数の物体のそれぞれの時間変化に伴う動きが関係して生じる挙動を検出するものである。複数の物体の動きが関係して生じる挙動は、例えば、「複数の物体の関係性の変化に応じて生じる事象」と言い換えることもできる。図5は、一例として、動画像を構成する複数の静止画像内の物体検出によって2台の「自転車」が検出され、行動検出によって当該2台の「自転車」が「それぞれふらついて走行している」という物体単独の動きが検出された場合を表している。そして、図5は、関係行動検出によって、左折しようとしている車両の動きに対して、ふらついて走行している手前側の「自転車」が車両の進行方向に向かっている一方、奥側の「自転車」が車両の進行方向とは異なる方向に向かっているという挙動(事象)が検出された場合を表している。関係行動検出では、このように車両の進行方向に向かっている手前側の「自転車」に対しては危険であると判断することが可能である一方、ふらついているものの車両とは異なる方向に向かっている奥側の「自転車」に対しては危険ではないと判断することも可能となる。
【0020】
他の例として、図6は、複数の物体の動きが関係して生じる挙動(事象)の種別として、例えば、「赤信号」、「停止線」、「車両」の動きの関係性から「赤信号で車両が停止線上で停止したという交通違反ではない安全な挙動(事象)」が検出された場合を表している。一方、図7は、複数の物体の動きが関係して生じる挙動(事象)の種別として、例えば、「赤信号」、「停止線」、「車両」の動きの関係性から「赤信号で車両が停止線上で停止しない(信号無視)という交通違反である危険な挙動(事象)」が検出された場合を表している。
【0021】
上記のような画像に基づいた関係行動検出は、例えば、図8に示すような検出システムSys1によって学習済みモデルMを用いて行われる。この検出システムSys1では、図8に示すように、学習済みモデルMを生成する処理を行う学習フェーズと、学習済みモデルMを用いて上記のような関係行動検出を実際に行う使用フェーズとがある。以下、検出システムSys1の概要について簡単に説明する。
【0022】
検出システムSys1は、学習フェーズでは、学習済みモデルMを学習させるために、入力データD1と教師データD2とからなる学習用データセットD3を取得する。学習用データセットD3は、学習済みモデルMを機械学習によって生成する際に用いられる教師データセットである。学習用データセットD3は、説明変数となる入力データD1と、当該入力データD1に対応する目的変数となる教師データD2とが1組のセットとして紐づけられることで構成される。さらに言えば、学習用データセットD3は、説明変数として定量化された当該入力データD1と、目的変数として定量化された当該教師データD2とから構成される。本実施形態において、学習用データセットD3を構成する入力データD1は、例えば、車両に搭載されたカメラから撮影された車両の周囲の動画像を表す動画像データである。一方、学習用データセットD3を構成する教師データD2は、入力データD1である当該動画像データが表す動画像中の複数の物体が関係することで生じる挙動(事象)の種別を表すデータであり、本実施形態のアノテーション装置1によって作成される。検出システムSys1は、例えば、後述する学習用データ提供システム(サーバー)Sv(図1参照)から学習用データセットD3を取得することができる。
【0023】
そして、検出システムSys1は、学習フェーズでは、複数の学習用データセットD3を教師データセットとして、種々の機械学習アルゴリズムALに基づく機械学習を行うことによって、学習済みモデルMを生成する。使用する機械学習アルゴリズムALとしては、例えば、ディープラーニング(Deep Learning)、ニューラルネットワーク(Neural Network)、ロジスティック(Logistic)回帰、アンサンブル学習(Ensemble Learning)、サポートベクターマシン(Support Vector Machine)、ランダムフォレスト(Random Forest)、ナイーブベイズ(Naive Bays)等の公知のアルゴリズムが挙げられる。検出システムSys1は、学習用データセットD3のうち、入力データD1を説明変数とし、教師データD2を目的変数として、学習済みモデルMの機械学習を行う。
【0024】
本実施形態において、検出システムSys1は、上記の機械学習の結果として、上述したように動画像に基づいた関係行動検出に用いられる学習済みモデルMを生成する。学習済みモデルMは、例えば、ニューラルネットワークにより実現される。ニューラルネットワークとしては、例えば、CNN(Convolution Neural Network)、RNN(Recurrent Neural Network)、LSTM(Long short-term memory) ネットワーク等の任意の構成を有するニューラルネットワークを採用することができる。検出システムSys1は、複数の学習用データセットD3を用いた機械学習を行うことにより、当該ニューラルネットワークにおいて重み付けとして用いられる学習重み付け係数等を学習し、当該学習済みモデルMを生成する。なお、この学習済みモデルMは、単一のモデルに限らず、複数のモデルが組み合わさることで構成されてもよい。
【0025】
本実施形態において、学習フェーズで機械学習によって生成される学習済みモデルMは、上述したように動画像を表す動画像データから複数の物体が関係することで生じる挙動(事象)の種別を特定するために用いられるモデルである。つまり、この学習済みモデルMは、入力を「動画像データ」とし、出力を「挙動(事象)の種別」としたモデルである。すなわち、学習済みモデルMは、動画像データの入力を受け付けて当該動画像データから複数の物体が関係することで生じる挙動(事象)の種別を出力するように機能付けられる。
【0026】
検出システムSys1は、使用フェーズでは、学習フェーズで生成した上記学習済みモデルMを用いて、複数の物体が関係することで生じる挙動(事象)の種別を特定する。使用フェーズにおいて、当該挙動(事象)の種別を特定する処理は、上述の関係行動検出に関する処理に相当する。検出システムSys1は、使用フェーズでは、検出対象データ(入力データ)D4として、検出対象となる動画像データを学習済みモデルMに入力し、当該動画像データから複数の物体が関係することで生じる挙動(事象)の種別を出力する。検出システムSys1は、出力された上記挙動の種別を定量化した値を、種別特定結果データ(出力データ)D5として出力する。
【0027】
そして、本実施形態のアノテーション装置1は、上記のように構成される検出システムSys1において、関係行動検出用の学習済みモデルMの機械学習に用いられる学習用データセットD3の教師データD2を作成するものである。アノテーション装置1によって作成される教師データD2は、上述したように学習済みモデルMの機械学習における目的変数として成り立たせるためのアノテーション情報として、動画像中に含まれる複数の物体が関係することで生じる挙動(事象)の種別を表すデータを動画像データに付加したものである。言い換えれば、教師データD2は、動画像に映った事象における複数の物体の関係性を追跡した関係追跡データということもできる。そして、このアノテーション装置1は、動画像データにおいて複数の物体が関係することで生じる挙動(事象)を追跡する関係追跡 (Relational Tracking)アノテーションツールを構成するものであるということもできる。ここでは、アノテーション装置1は、例えば、パーソナルコンピュータ、ワークステーション、タブレット端末等の種々のコンピュータ機器によって実現される。また、アノテーション装置1は、単一のコンピュータ機器によって実現されてもよいし、複数のコンピュータ機器によって実現されてもよい。以下、図1図9図14を参照してアノテーション装置1の各構成について詳細に説明する。
【0028】
具体的には、アノテーション装置1は、表示機器10と、操作機器20と、データ入出力機器30と、記憶回路40と、処理回路50とを備える。表示機器10、操作機器20、データ入出力機器30、記憶回路40、及び、処理回路50は、ネットワークを介して相互に通信可能に接続されている。
【0029】
表示機器10は、動画像データが表す動画像を表示可能な表示部である。表示機器10は、例えば、液晶ディスプレイ、プラズマディスプレイ、有機ELディスプレイ等、各種画像情報を出力して表示する画像表示装置によって構成される。
【0030】
操作機器20は、アノテーション装置1に対する作業者等による種々の操作を受け付ける操作部である。表示機器10は、例えば、マウス、キーボード、トラックボール、スイッチ、ボタン、ジョイスティック、タッチパッド、タッチスクリーン、非接触入力回路、音声入力回路等、作業者等からの各種の操作入力を受け付ける操作入力機器によって構成される。
【0031】
データ入出力機器30は、アノテーション装置1に対するデータ(情報)の入出力を行うデータ入出力部である。データ入出力機器30は、アノテーション装置1外の他の機器からのデータ(情報)入力を受け付けると共に他の機器に対するデータ(情報)出力を行う。データ入出力機器30は、例えば、通信インターフェース、記録媒体インターフェース等によって構成される。通信インターフェースは、有線、無線を問わず通信を介して、アノテーション装置1と他の機器との間で各種データの送受信を行う。記録媒体インターフェースは、例えば、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、フレキシブルディスク(FD)、光磁気ディスク(Magneto-Optical disk)、CD-ROM、DVD、USBメモリ、SDカードメモリ、Flashメモリ等の記録媒体に対して各種データの読み出し、書き込みを行う。
【0032】
本実施形態のデータ入出力機器30は、少なくとも学習用データ提供システムSvとの間でデータの送受信が可能である。学習用データ提供システムSvは、例えば、多数の入力データD1、教師データD2、学習用データセットD3等をデータベース化して記憶しており、これらのデータを必要に応じて検索し、他の機器に提供するシステムである。アノテーション装置1は、典型的には、この学習用データ提供システムSvからデータ入出力機器30を介してアノテーション処理を施す対象となる動画像データが入力される。また、アノテーション装置1によって作成された教師データD2は、データ入出力機器30を介してこの学習用データ提供システムSvに登録され、記憶、管理される。
【0033】
記憶回路40は、各種データを記憶する回路である。記憶回路40は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子、ハードディスク、光ディスク等によって実現される。記憶回路40は、例えば、アノテーション装置1が各種の機能を実現するためのプログラムを記憶する。記憶回路40に記憶されるプログラムには、表示機器10を機能させるプログラム、操作機器20を機能させるプログラム、データ入出力機器30を機能させるプログラム、処理回路50を機能させるプログラム等が含まれる。また、記憶回路40は、データ入出力機器30を介して入力された動画像データ、処理回路50での各種処理に必要なデータ、アノテーション装置1において作成された教師データD2等の各種データを記憶する。記憶回路40は、処理回路50等によってこれらの各種データが必要に応じて読み出される。なお、記憶回路40は、ネットワークを介してアノテーション装置1に接続されたクラウドサーバ等により実現されてもよい。
【0034】
処理回路50は、アノテーション装置1における各種処理機能を実現する回路を構成する処理部である。処理回路50は、例えば、プロセッサによって実現される。プロセッサとは、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の回路を意味する。処理回路50は、例えば、記憶回路40から読み込んだプログラムを実行することにより、各処理機能を実現する。
【0035】
以上、本実施形態に係るアノテーション装置1の全体構成の概略について説明した。このような構成のもと、本実施形態に係る処理回路50は、操作機器20への操作に応じて動画像データにアノテーション情報を付加して学習済みモデルMの機械学習に用いる教師データD2を作成するアノテーション処理を実行可能とするための機能を有している。
【0036】
具体的には、本実施形態の処理回路50は、上記各種処理機能を実現するために、機能概念的に、表示処理部51、操作処理部52、タスク作成処理部54、及び、アノテーション処理部55を含んで構成される。処理回路50は、例えば、記憶回路40から読み込んだプログラムを実行することにより、これら表示処理部51、操作処理部52、データ入出力処理部53、タスク作成処理部54、及び、アノテーション処理部55の各処理機能を実現する。
【0037】
表示処理部51は、表示機器10を制御し、当該表示機器10によって動画像等を表示するための各種処理を実行可能な機能を有する部分である。
【0038】
操作処理部52は、操作機器20を制御し、当該操作機器20によって操作を受け付けるための各種処理を実行可能な機能を有する部分である。
【0039】
データ入出力処理部53は、データ入出力機器30を制御し、当該データ入出力機器30によってアノテーション装置1と他の機器との間でデータを送受信するための各種処理を実行可能な機能を有する部分である。
【0040】
タスク作成処理部54は、アノテーション処理部55によって処理する一連のタスクを作成するための各種処理を実行可能な機能を有する部分である。
【0041】
アノテーション処理部55は、動画像データにアノテーション情報を付加して教師データD2を作成するアノテーション処理のための各種処理を実行可能な機能を有する部分である。アノテーション処理部55は、例えば、タスク作成処理部54によって作成された一連のタスクに対応したアノテーション処理を実行する。
【0042】
より具体的には、アノテーション処理部55は、図9図10に示すように、アノテーション処理において、操作機器20に対する管理者、作業者等の操作(以下、単に「操作」と略記する場合がある。)に応じてアノテーション情報として物体ラベルを動画像データに付加する処理を実行可能である。アノテーション情報として動画像データに付加される物体ラベルは、動画像データが表す動画像に含まれる物体の位置を特定し当該物体の種類を表すメタデータである。
【0043】
また、アノテーション処理部55は、図11図12に示すように、アノテーション処理において、操作に応じてアノテーション情報として関係ラベルを動画像データに付加する処理を実行可能である。アノテーション情報として動画像データに付加される関係ラベルは、動画像データが表す動画像に含まれる複数の物体が相関する事象の種類を表すメタデータである。
【0044】
そして、アノテーション処理部55は、図13図14に示すように、アノテーション処理において、操作に応じて、上記のように付加された物体ラベルから上記関係ラベルの対象とされた事象に関係する物体の物体ラベルを指定しアノテーション情報として動画像データに付加する処理を実行可能である。言い換えれば、アノテーション処理部55は、物体ラベルによって特定された物体から関係ラベルによって特定された事象に関係する物体を指定しアノテーション情報として動画像データに付加する処理を実行可能である。
【0045】
これらの処理の結果、アノテーション処理部55は、動画像データにアノテーション情報を付加して教師データD2を作成することができる。上記のようにアノテーション情報として付加される物体ラベルや関係ラベルは、動画像データが表す動画像に映った物体ごとの関係性を追跡した関係追跡情報を記録したものということもできる。アノテーション処理部55は、作成した教師データD2を記憶回路40に記憶させる。そして、アノテーション処理部55によって作成された教師データD2は、データ入出力処理部53の処理によってデータ入出力機器30を介して学習用データ提供システムSvに送信され登録、記憶、管理される。以下、各図を参照してアノテーション処理における上記各処理の一例をより具体的に説明する。
【0046】
図9図10は、動画像データに物体ラベルを付加する際に表示機器10に表示されるアノテーション画面100Aの一例を模式的に表している。ここでは、図9は、アノテーション画面100Aの全体を表し、図10は、アノテーション画面100Aの一部における表示の遷移を表している。
【0047】
表示処理部51は、物体ラベルを動画像データに付加する操作を行う際に図9に示すようなアノテーション画面100Aを表示機器10に表示させる。アノテーション処理部55は、このアノテーション画面100Aを介して操作に応じて動画像データに物体ラベルを付加する処理を実行する。
【0048】
図9に例示したアノテーション画面100Aは、種々の情報と共に、動画像表示領域101、ラベル追加操作領域102、ラベル選択領域103、及び、タスク終了操作領域104が表示される。
【0049】
動画像表示領域101は、アノテーション処理の対象となる動画像データの動画像を表示する領域である。動画像表示領域101は、典型的には、タスク作成処理部54によって作成された一連のタスクに対応した動画像データの動画像を表示する。動画像表示領域101は、典型的には、動画像を構成する各フレームを静止画像として表示可能である。動画像表示領域101は、アノテーション画面100Aに表示された動画像操作領域101aの操作に応じて、表示する動画像を再生し、当該動画像表示領域101に表示されるフレームを順次遷移させることができる。アノテーション処理部55は、動画像表示領域101に表示されるフレームが順次遷移されることで、操作に応じて各フレームに対して順次アノテーション処理を施すことができる。
【0050】
ラベル追加操作領域102は、動画像表示領域101に表示されている動画像にラベルを付加する際に操作される領域である。
【0051】
ラベル選択領域103は、動画像に付加するラベルの種類を選択する際に操作される領域である。このラベル選択領域103に表示されるラベルは、言い換えれば、アノテーション処理において選択可能なラベルの候補に相当する。アノテーション処理において選択可能なラベルは、例えば、アノテーション装置1に読み込まれたラベル定義ファイルによって定義されてもよいし、操作に応じて適宜設定されてもよい。典型的には、アノテーション処理において選択可能なラベルは、動画像データに対してラベルを付加する一連のタスクが終了するまで固定とされる。
【0052】
タスク終了操作領域104は、動画像データに対してラベルを付加する一連のタスクを終了する場合に操作される領域である。
【0053】
アノテーション処理部55は、アノテーション画面100Aにおいて、操作に応じてラベル追加操作領域102が選択されると、動画像表示領域101に表示されている動画像に位置指定用の矩形枠(円形枠、多角形枠等でもよい)の表示を追加する。そして、アノテーション処理部55は、操作に応じて当該矩形枠によって動画像に含まれる物体の位置が指定されることで当該物体の位置を特定する。
【0054】
そして、アノテーション処理部55は、操作に応じてラベル選択領域103に表示されているラベルリストからいずれかの1つのラベルが選択されることで、上記で位置が特定された物体の種類を表す物体ラベルを決定する。そして、アノテーション処理部55は、決定した当該物体の種類を表す物体ラベルをアノテーション情報として動画像データに付加する。
【0055】
図9に例示したラベル選択領域103は、選択可能なラベル(候補ラベル)を表すメインリスト103Aを表示している。一例として、図9に例示したメインリスト103Aは、「関係」、「信号機」、「速度標識」、「一時停止標識」等を表すラベルをリスト表示している。このメインリスト103Aにおける「信号機」、「速度標識」、「一時停止標識」は、物体ラベルを表している一方、「関係」は、後述する関係ラベルを表している。アノテーション装置1は、動画像データに物体ラベルを付加する際には、典型的には、操作に応じて「信号機」、「速度標識」、「一時停止標識」等の物体ラベルからいずれかの1つのラベルが選択される。
【0056】
そしてここでは、図10に例示するように、表示処理部51は、操作に応じてラベル選択領域103に表示されているメインリスト103Aからいずれかの1つの物体ラベルが選択されると、選択された物体ラベルの種類に応じてサブリスト103Bをラベル選択領域103に表示させる。サブリスト103Bは、選択された物体ラベルの種類をさらに細分化したより詳細な属性を選択するためのラベルリストである。図10の例では、表示処理部51は、操作に応じて「信号機」の物体ラベルが選択されると、「青」、「黄」、「赤」等の属性を表すサブリスト103Bをラベル選択領域103に表示させる。
【0057】
アノテーション処理部55は、操作に応じてラベル選択領域103に表示されているサブリスト103Bからいずれかの1つの属性が選択されることで、上記で位置が特定された物体の種類(属性も含む)を表す物体ラベルを決定する。このとき、アノテーション処理部55は、上記のように物体ラベルが決定された今回のフレームを、当該物体ラベルの対象とされた物体が映る開始キーフレーム(初回のフレーム)であるものとして記憶回路40に記憶させる。ここで、上記のように決定された物体ラベルの対象とされた物体とは、言い換えれば、当該物体ラベルによって特定される物体に相当する。
【0058】
なお、表示処理部51は、上記で選択された属性の種類に応じてさらに詳細な属性を選択可能は場合には、当該詳細な属性を選択させるためのサブリストをラベル選択領域103に表示させることも可能である。
【0059】
そして、表示処理部51は、上記のようにして物体ラベルが決定されると、例えば、図10に例示するように、決定ラベル表示画像105と共に消去操作領域106、及び、終了操作領域107をアノテーション画面100Aに表示させる。
【0060】
決定ラベル表示画像105は、上記のようにして決定された物体ラベルの種類を表す画像である。例えば、アノテーション処理部55は、操作に応じて当該決定ラベル表示画像105が選択されると、再度、物体ラベルを選び直せるようにしてもよい。
【0061】
消去操作領域106は、上記のようにして決定された物体ラベルを一旦消去(delete)する場合に操作される領域である。表示処理部51は、操作に応じて当該消去操作領域106が選択されると、消去決定画像108をアノテーション画面100Aに表示させる。アノテーション処理部55は、消去決定画像108において操作に応じて「OK」が選択されると、上記のようにして決定された物体ラベルを一旦消去する。一方、表示処理部51は、消去決定画像108において操作に応じて「Cancel」が選択されると、当該消去決定画像108を非表示とし、元の表示画面に復帰させる。
【0062】
終了操作領域107は、上記のように決定された物体ラベルの対象とされた物体が映る最終のフレームを決定する場合に操作される領域である。言い換えれば、終了操作領域107は、当該物体ラベルの対象が映る終了のフレームで選択されることで、当該物体ラベルの最終のフレームを特定する操作を行うための領域である。
【0063】
例えば、表示処理部51は、操作に応じて動画像表示領域101に表示される動画像のフレームを順次遷移させながら、当該ラベルの対象となった物体が映る最終のフレームを動画像表示領域101に表示させる。この間、当該ラベルの対象となった物体の位置が変化した場合には、アノテーション処理部55は、操作に応じて当該物体の位置の変化に対応させて矩形枠で指定する物体の位置を修正する。このとき、アノテーション処理部55は、先に物体の位置を指定したフレームと、ここで物体の位置を再度指定したフレームとの間の各フレームでの物体の位置を、先のフレームでの物体の位置と後のフレームでの物体の位置とに基づいて線形補間によって算出、特定する。つまり、アノテーション処理部55は、先のフレームで指定した物体の位置と、このフレームで再指定した物体の位置とに基づいてこれらの間の各フレームでの物体の位置を線形補間等によって算出、特定する。これにより、アノテーション処理部55は、物体ラベルの対象とされた物体の位置変化を追跡する。
【0064】
そして、アノテーション処理部55は、操作に応じて当該終了操作領域107が選択されると、当該フレームを、当該物体ラベルによって特定される物体が映る終了キーフレーム(最終のフレーム)であるものとして記憶回路40に記憶させる。この結果、アノテーション処理部55は、当該物体ラベルの時間範囲を決定することができる。
【0065】
上記のようにしてアノテーション処理部55は、操作に応じてアノテーション処理の対象となる物体に対して、当該物体の位置、及び、当該物体の種類に応じた物体ラベルを決定すると共に、当該物体ラベルの開始キーフレームと終了キーフレームとを特定することで、この動画像における当該物体ラベルの時間範囲を決定することができる。
【0066】
なおこのとき、表示処理部51は、図10に例示するように、終了操作領域107が選択されたことを表すように当該終了操作領域107の表示態様を変更(例えば、「End?」を「End」にすると共にグレーアウト)すると共に消去操作領域106を非表示とする。ここで、アノテーション処理部55は、例えば、操作に応じて表示態様変更後の終了操作領域107が再度選択されることで、終了キーフレームの決定についての上記の処理を一旦解除することもできる。表示処理部51は、終了キーフレームが確定すると、決定ラベル表示画像105、終了操作領域107等を非表示とし、アノテーション処理部55は、次のフレームのアノテーション処理に移行する。
【0067】
アノテーション処理部55は、上記のようにして動画像表示領域101に表示されている動画像に映る物体ごとに決定した物体ラベルをアノテーション情報として動画像データに付加することができる。またこのとき、アノテーション処理部55は、矩形枠で特定されている物体の位置を表す座標値等も当該物体ラベルの情報として付加する。物体ラベルは、1つではなく、個数に制限なく付加することができる。
【0068】
次に、図11図12は、動画像データに関係ラベルを付加する際に表示機器10に表示されるアノテーション画面100Bの一例を模式的に表している。ここでも、図11は、アノテーション画面100Bの全体を表し、図12は、アノテーション画面100Aの一部における表示の遷移を表している。
【0069】
表示処理部51は、関係ラベルを動画像データに付加する操作を行う際に図11に示すようなアノテーション画面100Bを表示機器10に表示させる。アノテーション処理部55は、このアノテーション画面100Bを介して操作に応じて動画像データに関係ラベルを付加する処理を実行する。
【0070】
図11に例示したアノテーション画面100Bは、アノテーション画面100Aと同様に、動画像表示領域101、ラベル追加操作領域102、ラベル選択領域103、及び、タスク終了操作領域104等が表示される。そして、これらに加えて、アノテーション画面100Bは、追加済みラベル表示領域109が表示される。
【0071】
追加済みラベル表示領域109は、動画像表示領域101に表示されている動画像のフレームにおいて、上記のようにして既に付加されている物体ラベルの種類をリスト表示する領域である。
【0072】
この場合、表示処理部51は、操作に応じて上記のようにして付加された物体ラベルの対象とされた物体が相関する事象(挙動)が始まるフレームを動画像表示領域101に表示させる。そして、アノテーション処理部55は、当該事象が始まるフレームから関係ラベルの作成を開始する。アノテーション処理部55は、この状態でアノテーション画面100Bにおいて、操作に応じてラベル追加操作領域102が選択されると、動画像表示領域101に表示されている動画像に矩形枠の表示を追加する。アノテーション処理部55は、動画像データに関係ラベルを付加する場合、操作に応じて当該矩形枠によって動画像の当該フレームの全体が指定される。
【0073】
そして、アノテーション処理部55は、操作に応じてラベル選択領域103に表示されているラベルリストから「関係」を表す関係ラベルが選択されることで、関係ラベルの種類の選択に移行する。
【0074】
表示処理部51は、図12に例示するように、操作に応じてラベル選択領域103に表示されているメインリスト103Aから「関係」を表す関係ラベルが選択されると、関係ラベルの種類に応じてサブリスト103Cをラベル選択領域103に表示させる。サブリスト103Cは、関係ラベルの種類、言い換えれば、複数の物体が相関する事象(挙動)の種類を選択するためのラベルリストである。図12の例では、表示処理部51は、操作に応じて「関係」の関係ラベルが選択されると、「安全」、「注意」、「違反」等の関係ラベルの種類を表すサブリスト103Cをラベル選択領域103に表示させる。
【0075】
さらにここでは、表示処理部51は、図12に例示するように、操作に応じてラベル選択領域103に表示されているサブリスト103Cからいずれかの1つの関係ラベルの種類が選択されると、当該選択された関係ラベルの種類に応じてサブリスト103Dをラベル選択領域103に表示させる。サブリスト103Dは、選択された関係ラベルの種類をさらに細分化したより詳細な属性を選択するためのラベルリストである。図12の例では、表示処理部51は、操作に応じて「違反」の関係ラベルが選択されると、「信号機無視」、「一時停止線無視」等の属性を表すサブリスト103Dをラベル選択領域103に表示させる。
【0076】
アノテーション処理部55は、操作に応じてラベル選択領域103に表示されているサブリスト103Dからいずれかの1つの属性が選択されることで、今回のフレームで発生が認められる事象(複数の物体が相関する事象)の種類(属性も含む)を表す関係ラベルを決定する。このとき、アノテーション処理部55は、上記のように関係ラベルが決定された今回のフレームを、当該関係ラベルの対象とされた事象が映る開始キーフレーム(初回のフレーム)であるものとして記憶回路40に記憶させる。ここで、上記のように決定された関係ラベルの対象とされた事象とは、言い換えれば、当該関係ラベルによって特定される事象に相当する。
【0077】
そして、表示処理部51は、上記のようにして関係ラベルが決定されると、図10と同様に、例えば、図12に例示するように、消去操作領域106、及び、終了操作領域107をアノテーション画面100Bに表示させる。
【0078】
消去操作領域106は、上記と同様に、上記のようにして決定された関係ラベルを一旦消去(delete)する場合に操作される領域である。表示処理部51は、操作に応じて当該消去操作領域106が選択されると、消去決定画像108をアノテーション画面100Bに表示させる。アノテーション処理部55は、消去決定画像108において操作に応じて「OK」が選択されると、上記のようにして決定された関係ラベルを一旦消去する。一方、表示処理部51は、消去決定画像108において操作に応じて「Cancel」が選択されると、当該消去決定画像108を非表示とし、元の表示画面に復帰させる。
【0079】
終了操作領域107は、上記と同様に、上記のように決定された関係ラベルの対象とされた事象が映る最終のフレームを決定する場合に操作される領域である。言い換えれば、終了操作領域107は、関係ラベルの対象が映る終了のフレームで選択されることで、当該関係ラベルの最終のフレームを特定する操作を行うための領域である。
【0080】
例えば、表示処理部51は、操作に応じて動画像表示領域101に表示される動画像のフレームを順次遷移させながら、当該ラベルの対象となった事象が映る最終のフレームを動画像表示領域101に表示させる。
【0081】
そして、アノテーション処理部55は、操作に応じて当該終了操作領域107が選択されると、当該フレームを、当該関係ラベルによって特定される事象が映る終了キーフレーム(最終のフレーム)であるものとして記憶回路40に記憶させる。この結果、アノテーション処理部55は、当該関係ラベルの時間範囲を決定することができる。
【0082】
上記のようにしてアノテーション処理部55は、操作に応じてアノテーション処理の対象となる事象に対して、当該事象の種類に応じた関係ラベルを決定すると共に、当該関係ラベルの開始キーフレームと終了キーフレームとを特定することで、この動画像における当該関係ラベルの時間範囲を決定することができる。
【0083】
このとき、表示処理部51は、上記と同様に、図12に例示するように、終了操作領域107が選択されたことを表すように当該終了操作領域107の表示態様を変更すると共に消去操作領域106を非表示とする。ここでも、アノテーション処理部55は、例えば、操作に応じて表示態様変更後の終了操作領域107が再度選択されることで、終了キーフレームの決定についての上記の処理を一旦解除することもできる。表示処理部51は、終了キーフレームが確定すると、終了操作領域107等を非表示とし、アノテーション処理部55は、次のフレームのアノテーション処理に移行する。
【0084】
アノテーション処理部55は、上記のようにして動画像表示領域101に表示されている動画像の事象ごとに決定した関係ラベルをアノテーション情報として動画像データに付加することができる。関係ラベルは、1つではなく、個数に制限なく付加することができる。
【0085】
次に、図13図14は、付加した物体ラベルから関係ラベルの対象とされた事象に関係する物体の物体ラベルを指定する際に表示機器10に表示されるアノテーション画面100Cの一例を模式的に表している。ここでも、図13は、アノテーション画面100Cの全体を表し、図14は、アノテーション画面100Cの一部における表示の遷移を表している。
【0086】
表示処理部51は、関係ラベルの対象とされた事象に関係する物体の物体ラベルを指定するアノテーション情報を動画像データに付加する操作を行う際に図13に示すようなアノテーション画面100Cを表示機器10に表示させる。アノテーション処理部55は、このアノテーション画面100Cを介して操作に応じて、動画像データに、事象に関係する物体を指定するアノテーション情報を付加する処理を実行する。
【0087】
図13に例示したアノテーション画面100Cは、アノテーション画面100A、100Bと同様に、動画像表示領域101、ラベル追加操作領域102、ラベル選択領域103、及び、タスク終了操作領域104等が表示される。そして、これらに加えて、アノテーション画面100Bは、スライドバー表示領域110が表示される。
【0088】
スライドバー表示領域110は、上記のように付加、決定された物体ラベル、関係ラベルそれぞれの動画像における時間範囲をスライドバーによって表示する領域である。なお、アノテーション処理部55は、操作に応じてこのスライドバーの始端位置、終端位置を変更することにより、それぞれのラベルにおける時間範囲の開始キーフレーム、終了キーフレームを事後的に修正することができる。
【0089】
アノテーション処理部55は、上記のように関係ラベルの開始キーフレームと終了キーフレームとが決定され、対象の動画像における当該関係ラベルの時間範囲が決定されると、当該時間範囲において1フレームでも含まれる物体ラベルを検索、抽出する。そして、表示処理部51は、アノテーション処理部55によって抽出されたすべての物体ラベルの時間範囲、及び、関係ラベルの時間範囲をそれぞれ異なるスライドバーでスライドバー表示領域110に表示させる。
【0090】
図13の例では、表示処理部51は、スライドバー表示領域110において、各スライドバーの左端に各物体ラベルに対応した物体の種類(名称)を表示させる。ここで、表示処理部51は、同じ種類の物体ラベルが複数ある場合には、例えば、表示名に連番の数字を追加する等、これらを相互に区別するための情報を付加して表示させてもよい。また、表示処理部51は、スライドバー表示領域110の各スライドバー、及び、動画像表示領域101の動画像上の矩形枠も各物体ラベル応じて色分けで区別して表示させてもよい。また、表示処理部51は、操作に応じてスライドバーや矩形枠にポインタをあわせることで該当する物体ラベルについての情報をポップアップで表示させるようにしてもよい。
【0091】
そして、アノテーション処理部55は、操作に応じてラベル選択領域103に表示されているラベルリストから「関係」を表す関係ラベルが選択されることで、関係ラベルの対象とされた事象に関係する物体の選択に移行する。
【0092】
表示処理部51は、図14に例示するように、操作に応じてラベル選択領域103に表示されているメインリスト103Aから「関係」を表す関係ラベルが選択されると、サブリスト103Eをラベル選択領域103に表示させる。サブリスト103Eは、当該関係ラベルの対象とされた事象に関係する物体の候補となる物体ラベルのラベルリストである。ここでは、サブリスト103Eは、上記のようにアノテーション処理部55によって当該関係ラベルの時間範囲に含まれるラベルとして抽出された物体ラベル(候補ラベル)のラベルリストである。言い換えれば、サブリスト103Eは、当該関係ラベルの時間範囲において1フレームでも含まれる物体ラベルのラベルリストである。図14の例では、表示処理部51は、操作に応じて「関係」の関係ラベルが選択されると、「信号機」、「一時停止線1」、「一時停止線2」等の物体ラベルを表すサブリスト103Eをラベル選択領域103に表示させる。
【0093】
アノテーション処理部55は、操作に応じてラベル選択領域103に表示されているサブリスト103Eからいずれかの物体ラベルが選択されることで、既に付加されている物体ラベルから当該関係ラベルの対象とされた事象に関係する物体の物体ラベルを決定する。例えば、「信号機無視」という事象に対しては、アノテーション処理部55は、操作に応じて「信号機」を表す物体ラベル、対象の車両の車線における「一時停止線1」を表す物体ラベルが選択される一方、対象の車両の車線の反対車線における「一時停止線2」を表す物体ラベルは選択されない。アノテーション処理部55は、操作に応じて当該関係ラベルによって特定された事象に関係する物体の物体ラベルを複数決定することができる。
【0094】
そして、表示処理部51は、上記のようにして当該関係ラベルの対象とされた事象に関係する物体の物体ラベルが決定されると、上記と同様に、例えば、図14に例示するように、消去操作領域106、及び、終了操作領域107をアノテーション画面100Cに表示させる。
【0095】
消去操作領域106は、上記と同様に、上記のようにして決定された物体ラベルを一旦消去(delete)する場合に操作される領域である。表示処理部51は、操作に応じて当該消去操作領域106が選択されると、消去決定画像108をアノテーション画面100Cに表示させる。アノテーション処理部55は、消去決定画像108において操作に応じて「OK」が選択されると、上記のようにして決定された物体ラベルを一旦消去する。一方、表示処理部51は、消去決定画像108において操作に応じて「Cancel」が選択されると、当該消去決定画像108を非表示とし、元の表示画面に復帰させる。
【0096】
終了操作領域107は、上記のように当該関係ラベルによって特定された事象に関係する物体の物体ラベルの決定を終了する場合に操作される領域である。アノテーション処理部55は、操作に応じて当該終了操作領域107が選択されると、当該関係ラベルによって特定された事象に関係する物体の物体ラベルの決定を終了する。
【0097】
このとき、表示処理部51は、上記と同様に、図14に例示するように、終了操作領域107が選択されたことを表すように当該終了操作領域107の表示態様を変更すると共に消去操作領域106を非表示とする。
【0098】
アノテーション処理部55は、上記のようにして付加された物体ラベルから上記関係ラベルの対象とされた事象に関係する物体の物体ラベルを指定しアノテーション情報として動画像データに付加することができる。
【0099】
以上のように、アノテーション処理部55は、上記のようにして動画像データに各種アノテーション情報を付加して教師データD2を作成し、当該作成した教師データD2を記憶回路40に記憶させる。教師データD2は、例えば、ラベル毎に対応する「動画像データファイルを特定可能なパス」、ラベルを付加した物体、事象が映っている「開始キーフレーム(最初に確認したフレームの番号)」、「終了キーフレーム(最後に確認したフレームの番号)」等の情報を含んでいる。そして、アノテーション処理部55は、動画像データに対してラベルを付加する一連のタスクが終了した際に、操作に応じてタスク終了操作領域104が選択されることで当該タスクを終了する。
【0100】
ここで、上記のようなアノテーション処理の対象となる動画像データのファイル(動画像データファイル)は、サイズ(データ量)が相対的に大きくなり易い傾向にある。このため、動画像データファイルは、一連の動画像を一定時間や一定サイズごとにファイルを分割して保存することが一般的に行われる。この場合に、例えば、既存のアノテーション装置では、例えば、1つの分割ファイルに対するアノテーション処理によってラベルを作成し、当該1つの分割ファイルに対しての作業結果として、アノテーションファイル(教師データ)を1つ保存することがある。
【0101】
ここで、例えば、既存のアノテーション装置は、分割された分割ファイル群において、ある分割ファイルの動画像中に映っている物体に対して物体ラベルを付加する処理を行っていた際、処理の対象となっている分割ファイルの動画像中ではその物体が映り終わることなく、当該物体が時系列的に次の分割ファイルの動画像にまで継続して映り続ける場合がある。
【0102】
このとき、作業者は、例えば、既存のアノテーション装置上で現在処理中の分割ファイルを閉じ、次の分割ファイルを開いて作業を継続するが、先ほど追加した物体ラベルが次の分割ファイルの動画像でも前の分割ファイルの動画像から継続している取り扱いとなるように設定し直さなければならない場合がある。この場合、例えば、その設定にわずかでも違いがあれば、教師データに誤差を生むことになり、この結果、教師データの品質を低下させてしまうおそれがある。
【0103】
また、上記のように一連の動画像を複数の分割ファイルとした場合、一連の動画像であるにもかかわらず複数の分割ファイルに対して、複数のアノテーションファイル(教師データ)が保存される場合がある。既存のアノテーション装置は、例えば、アノテーションファイル(教師データ)に対して備考のような任意のテキストを入力することができる機能を有するものもあり、その任意項目にID番号等を入力することができるものもある。このような機能をする既存のアノテーション装置では、例えば、異なる分割ファイルに分かれて映っている同一の物体に対して、同じID番号を設定する場合がある。そして、例えば、そのID番号に基づいて複数のアノテーションファイルから一連となるラベルを抽出しその一連のラベルを1つのアノテーションファイルとして連結して保存する機能を持つ変換ツールを用いることで、一連の動画像が複数の分割ファイルに分割されていても、同一の物体に対するラベルが1つのアノテーションファイル(教師データ)となるように変換することができるものもある。
【0104】
しかしながら、このような変換ツールを作成することは煩雑である。また、一連のラベルであることを示すID番号は、別途、作業者等によって記録しておくことが必要となる。ラベルの総数は、例えば、数千や数万を超えることも多々あり、このような作業は、非常に煩雑であり、間違いも発生し易く、この点でも教師データの品質を低下させてしまうおそれがある。
【0105】
そこで、本実施形態のアノテーション処理部55は、上記のようなアノテーション処理において、予め指定された複数の動画像データファイルを一連の動画像を表す動画像データとして取り扱う。そして、アノテーション処理部55は、典型的には、このように一連の動画像を表す動画像データとして取り扱った複数の動画像データファイルに対して1つのまとまった教師データD2(アノテーションファイル)を作成するように構成することができる。ここでは、タスク作成処理部54は、予め指定された複数の動画像データファイルが一連の動画像を表す動画像データとして取り扱われるように、アノテーション処理部55によって処理する一連のタスクを作成する。以下、具体的に説明する。
【0106】
まず、本実施形態のタスク作成処理部54は、図15に例示するように、記憶回路40の指定ファイル記憶領域40aにおいて、一連の動画像となる複数の動画像データファイルを保存している場所を時系列順に記録したリストファイルを作成しておく。ここで、このリストファイルの作成は、例えば、ビッグデータを保存したデータ基盤(例えば、学習用データ提供システムSv等)に対して検索条件を設定した検索コマンドを送ると、その検索条件に合致したリストファイルを自動で出力するデータ基盤を用いることができるがこれに限らず、当該リストファイルを人手により作成してもよい。また、タスク作成処理部54は、一連の動画像となる複数の動画像データファイルに対して時系列順に連番となるファイル名を設定するようにしてもよい。
【0107】
そして、本実施形態のアノテーション装置1は、上述したアノテーション画面100A、100B、100C等を用いた作業モードの他に、図16に例示するような管理モード画面200を用いた管理モードも実装している。なお、このアノテーション装置1は、例えば、作業モードと管理モードとの両方を実行可能である「管理者」や作業モードだけを実行可能である「作業者」等のユーザ権限を設定することができる機能を有していてもよい。また、アノテーション装置1は、「管理者」用の機器と「作業者」用の機器とが別個に構成されてもよい。
【0108】
図16に例示した管理モード画面200は、管理モードの際に表示機器10に表示される画面であり、タスク作成操作領域201が表示される。タスク作成操作領域201は、動画像データに対してラベルを付加する一連のタスクを作成する際に操作される領域である。なおここは、管理モード画面200は、タスク作成操作領域201のみを図示しており、他の管理用操作領域の図示については省略している。
【0109】
表示処理部51は、操作に応じてタスク作成操作領域201が選択されると、図17に例示するようなタスク作成画面300を表示機器10に表示させる。図17に例示するタスク作成画面300は、動画像データに対してラベルを付加する一連のタスクを作成する際に表示機器10に表示される画面である。さらに言えば、当該タスク作成画面300は、アノテーション処理において、一連の動画像を表す動画像データとして取り扱う複数の動画像データファイルを指定する際に表示される画面である。表示処理部51は、タスク作成画面300において、ファイルダイアログを表示させることで、一連のタスクとして取り扱いたい動画像データファイル、言い換えれば、一連の動画像を表す動画像データとして取り扱いたい動画像データファイルを選択させる。
【0110】
タスク作成処理部54は、例えば、このファイルダイアログを介して、操作に応じて上記リストファイルが選択されることで、一連の動画像を表す動画像データとして取り扱いたい複数の動画像データファイルを指定する。あるいは、タスク作成処理部54は、例えば、ファイルが選択されていない状態で操作に応じてファイルダイアログの「開く」が選択されると、連番のファイル名の一連となる複数の動画像データファイルが保存されたディレクトリであると設定された、と認識する。
【0111】
このようにして、タスク作成処理部54は、ここで指定された複数の動画像データファイルが一連の動画像を表す動画像データとして取り扱われるように、一連のタスクを作成する。この結果、アノテーション処理部55は、アノテーション処理において、ここで指定された複数の動画像データファイルを一連の動画像を表す動画像データとして取り扱う。これにより、アノテーション装置1は、分割された複数の動画像データファイルであっても、アノテーション画面100A、100B、100Cの動画像表示領域101において、ここで指定された複数の動画像データファイルを一連の動画像データの動画像のように連続再生することができる。
【0112】
なおここでは、アノテーション装置1は、あくまでも上記のように指定された複数の動画像データファイルを一連の動画像データとして取り扱うだけであり、当該複数の動画像データファイルを1つの動画像データファイルに変換するわけではない。つまり、アノテーション装置1は、一連の複数の動画像データファイルをリストとして記憶している。
【0113】
また、上述した図9図11図13で上述したアノテーション画面100A、100B、100Cは、動画像表示領域101等と共にファイル名表示領域111、ファイル選択領域112等が表示される。ファイル名表示領域111は、動画像表示領域101に表示されている動画像に対応する動画像データファイルのファイル名を表示する領域である。ファイル選択領域112は、動画像表示領域101に表示されている動画像に対応する動画像データファイルを選択する際に操作される領域である。
【0114】
例えば、表示処理部51は、操作に応じてファイル選択領域112の「Next」が選択されると、現在、ファイル名表示領域111にファイル名が表示されている動画像データファイルの次の動画像データファイルの動画像を先頭から動画像表示領域101に表示させる。同様に、表示処理部51は、操作に応じてファイル選択領域112の「Prev」が選択されると、現在、ファイル名表示領域111にファイル名が表示されている動画像データファイルの前の動画像データファイルの動画像を先頭から動画像表示領域101に表示させる。
【0115】
また、例えば、表示処理部51は、操作に応じてファイル名表示領域111が選択されると、図18に例示するように、ファイル名表示領域111にファイルリスト111Aを表示させることができる。ファイルリスト111Aは、上記のように一連のタスクとして指定された複数の動画像データファイルのファイル名リストである。表示処理部51は、例えば、ファイル名表示領域111に表示されるファイルリスト111Aにおいて、既に再生済みの動画像データファイルのファイル名の文字色をグレー、現在再生中の動画像データファイルのファイル名の文字色を黒、未だ再生していない動画像データファイルのファイル名の文字色を赤色等のように表示態様を区別して表示させることができる。また、表示処理部51は、操作に応じて別の動画像データファイルが選択されると、当該選択された動画像データファイルの動画像を先頭から動画像表示領域101に表示させることもできる。
【0116】
このようにアノテーション装置1は、作業者や管理者等の任意に動画像データファイルを指定し動画像を再生する機能を有するが、例えば、現在、作業している動画像データファイルの最終時刻で終了キーフレームが設定されていない作業継続状態のラベルが存在する場合、そのラベルの付加作業が終了していないことを記憶する機能を有する。表示処理部51は、例えば、上記のように作業継続状態のラベルがある場合、当該動画像データファイルの後の動画像データファイルの動画像を再生している際には、ラベル選択領域103や追加済みラベル表示領域109に作業継続状態のラベルを表示させるようにしてもよい。また例えば、表示処理部51は、物体ラベルによって特定される物体の位置を表す矩形枠の座標値を用いて、その座標の点を表示させ、それらの点と点との間を線で結ぶように表示してもよい。このようにして、アノテーション装置1は、異なる複数の動画像データファイルの動画像を再生しても当該物体ラベルが同一の物体に対する物体ラベルであると記憶することも可能である。
【0117】
そして、アノテーション処理部55は、上記のように指定された複数の動画像データファイルによる一連のタスクが終了した際に、操作に応じてタスク終了操作領域104(図9図11図13参照)が選択されることで当該タスクを終了する。一方、アノテーション処理部55は、一連のタスクが終了しておらず、作業継続状態のラベルがある状態で、操作に応じてタスク終了操作領域104が選択されたり画面クローズボタンが選択されたりするとアノテーション作業の終了処理を始める。このとき、作業継続状態のラベルが存在する場合、表示処理部51は、図19に例示するような作業終了確認画像113をアノテーション画面100A、100B、100Cに表示させてもよい。作業終了確認画像113は、作業終了を確認させるための画像であり、例えば、「終了すると継続状態のラベルの作業データは消去されるが、それでも終了するか?」等の文字画像を表示している。アノテーション処理部55は、作業終了確認画像113において操作に応じて「OK」が選択されると、作業継続状態のラベルの作業データを消去して終了するように処理することができる。一方、表示処理部51は、作業終了確認画像113おいて操作に応じて「Cancel」が選択されると、作業終了確認画像113を非表示とし、元の表示画面に復帰させる。
【0118】
また、表示処理部51は、作業継続状態のラベルがない状態であっても、操作に応じてタスク終了操作領域104が選択された際に、一旦、図20に例示するような作業終了決定画像114をアノテーション画面100A、100B、100Cに表示させてもよい。作業終了決定画像114は、作業終了を決定させるための画像であり、例えば、タスクを終了するか?」等の文字画像を表示している。アノテーション処理部55は、作業終了決定画像114おいて操作に応じて「OK」が選択されると当該タスクを終了する。一方、表示処理部51は、作業終了決定画像114において操作に応じて「Cancel」が選択されると、作業終了決定画像114を非表示とし、元の表示画面に復帰させる。
【0119】
ここで、本実施形態のアノテーション処理部55は、上記のように一連の動画像を表す動画像データとして取り扱う複数の動画像データファイルにおいて、ある動画像データファイルに映っている物体が、次の動画像データファイルにも引き続き映っている場合でも、例えば、図21に例示するように、1つの物体ラベルについての情報を記録した1つの教師データD2(アノテーションファイル)として保存する機能を有する。
【0120】
また、関係ラベルでは、1つの物体ラベルが他の物体ラベルと連携することになる。本実施形態のアノテーション処理部55は、関係ラベルについては、例えば、図22に例示するように、ヘッダ情報の1つに、関係するラベルのIDを記録するキーを設け、そのキーの値として、関係ラベルに関係する物体ラベルのID番号を記録するフォーマットによって教師データD2(アノテーションファイル)として保存する機能を有していてもよい。
【0121】
なお、図21図22に例示した教師データD2(アノテーションファイル)は、テキストファイルのフォーマットであるものとして例示したが、JSON(JavaScript(登録商標) Object Notation)やXML(Extensible Markup Language) のようなデータ記述言語でフォーマットを定めた半構造化データとされてもよい。この場合、アノテーション処理部55は、例えば、関係ラベルの教師データD2(アノテーションファイル)では、関係ラベルに関係する物体ラベルの情報はID番号だけでなく、物体ラベルが関係ラベルに関係している時間範囲等も記録することができる。ここで、JSON は、プログラミング言語JavaScript(登録商標) だけに使われるものではなく、XMLと同様に汎用的なデータ交換用フォーマットの1つとして使用されているものである。
【0122】
次に、図23図24図25のフローチャートを参照して、タスク作成からアノテーション作業の一連の処理手順について説明する。以下で説明する方法は、操作に応じてアノテーション装置1の処理回路50によって各種プログラムが実行されることで各ステップに関する処理が実行される。
【0123】
まず、図23を参照して、アノテーション作業に提供するタスクの作成方法における各処理について説明する。このタスクの作成方法は、典型的には、主に管理者用の機器を構成するアノテーション装置1によって行われる。
【0124】
まず、処理回路50のデータ入出力処理部53は、例えば、管理者の操作に応じてアノテーションサーバーに通信接続する(ステップS1)。アノテーションサーバーは、例えば、上述した学習用データ提供システムSv等によって構成されるものである。そして、処理回路50のタスク作成処理部54は、管理者の操作に応じて教師データを作成する対象とする動画像データの検索条件を入力し(ステップS2)、データ入出力処理部53は、当該入力された検索条件をアノテーションサーバーに送信する(ステップS3)。タスク作成処理部54は、検索条件として、例えば、対象とする動画像データの日時や車両等を指定することができる。
【0125】
そして、データ入出力処理部53は、アノテーションサーバーにおいて検索条件に応じて検索された検索結果を受信し(ステップS4)、タスク作成処理部54は、検索条件に合致したデータが存在しないか否かを判定する(ステップS5)。タスク作成処理部54は、検索条件に合致したデータが存在しないと判定した場合(ステップS5:Yes)、ステップS1の処理に戻って以降の処理を繰り返し実行する。処理回路50の表示処理部51は、タスク作成処理部54によって検索条件に合致したデータが存在すると判定された場合(ステップS5:No)、例えば、検索結果を表示機器10に表示させることで、管理者に対して検索結果を出力する(ステップS6)。
【0126】
次に、タスク作成処理部54は、管理者の操作に応じて検索結果に対応した動画像データファイルを割り振って一連の作業タスクとするためのデータ条件を設定し(ステップS7)、当該データ条件に応じた作業タスクを生成する(ステップS8)。そして、表示処理部51は、例えば、生成された作業タスクの情報を表示機器10に表示させることで、管理者に対して当該作業タスクの情報を出力する(ステップS9)。
【0127】
次に、タスク作成処理部54は、管理者の操作に応じて生成された各作業タスクを各作業者に割り当てた後(ステップS10)、例えば、各作業者用の機器等に割り当てられた作業タスクの情報を連絡し(ステップS11)、本フローチャートによる処理を終了する。
【0128】
次に、図24を参照して、アノテーション作業として提供されたタスクの実行方法における各処理について説明する。このタスクの実行方法は、典型的には、主に作業者用の機器を構成するアノテーション装置1によって行われる。
【0129】
アノテーション処理部55は、例えば、作業者の操作に応じて当該作業者に割り当てられた作業タスクを開始し(ステップS101)、データ入出力処理部53は、割り当てられた作業タスクに付帯したデータ条件をアノテーションサーバーに送信する(ステップS102)。
【0130】
そして、データ入出力処理部53は、アノテーションサーバーから当該データ条件に一致する動画像データファイルを受信し(ステップS103)、記憶回路40の指定ファイル記憶領域40a等に記憶させる。
【0131】
そして、アノテーション処理部55は、作業者の操作に応じて受信した動画像データファイルを、一連の動画像を表す動画像データとして取り扱ってアノテーション作業を実行させる(ステップS104)。
【0132】
ここでは、表示処理部51は、作業者の操作に応じて動画像を表示機器10に表示して再生させ(ステップS105)、アノテーション処理部55は、作業者の操作に応じてアノテーション処理の対象となる物体、事象が検出されたか否かを判定する(ステップS106)。アノテーション処理部55は、例えば、ラベル追加操作領域102への操作の有無に応じてアノテーション処理の対象となる物体、事象が検出されたか否かを判定することができる。アノテーション処理部55は、アノテーション処理の対象となる物体、事象が検出されていないと判定した場合(ステップS106:No)、ステップS105の処理に戻って以降の処理を繰り返し実行する。
【0133】
アノテーション処理部55は、アノテーション処理の対象となる物体、事象が検出されたと判定した場合(ステップS106:Yes)、作業者の操作に応じて物体ラベルや関係ラベル等のアノテーション情報が追加されると(ステップS107)、当該アノテーション情報と共に対応する動画像データの情報を教師データ(アノテーションファイル)に追加する(ステップS108)。
【0134】
そして、アノテーション処理部55は、データ条件に動画像データ以外の条件があるか否かを判定する(ステップS109)。アノテーション処理部55は、データ条件に動画像データ以外の条件があると判定した場合(ステップS109:Yes)、上記アノテーション情報と対応する他データの情報も教師データ(アノテーションファイル)に追加する(ステップS110)。
【0135】
その後、アノテーション処理部55は、作業者の操作に応じてアノテーション作業の終了が入力されたか否か(言い換えれば、タスク終了操作領域104が選択されたか否か)を判定し(ステップS111)、アノテーション作業の終了が入力されたと判定した場合(ステップS111:Yes)、本フローチャートによる処理を終了する。アノテーション処理部55は、アノテーション作業の終了が入力されていないと判定した場合(ステップS111:No)、ステップS105の処理に戻って以降の処理を繰り返し実行する。
【0136】
アノテーション処理部55は、ステップS109の処理において、データ条件に動画像データ以外の条件がないと判定した場合(ステップS109:No)、ステップS110の処理をとばしてステップS111の処理に移行する。
【0137】
次に、図25を参照して、アノテーション作業のより具体的な実行方法における各処理について説明する。このアノテーション作業の実行方法は、典型的には、主に作業者用の機器を構成するアノテーション装置1によって行われる。
【0138】
表示処理部51は、作業者の操作に応じて動画像を表示機器10に表示して再生させ(ステップS201)、アノテーション処理部55は、作業者の操作に応じてアノテーション処理の対象となる物体が検出されたか否かを判定する(ステップS202)。アノテーション処理部55は、例えば、ラベル追加操作領域102への操作の有無に応じてアノテーション処理の対象となる物体が検出されたか否かを判定することができる。アノテーション処理部55は、アノテーション処理の対象となる物体が検出されていないと判定した場合(ステップS202:No)、ステップS201の処理に戻って以降の処理を繰り返し実行する。
【0139】
表示処理部51は、アノテーション処理部55によってアノテーション処理の対象となる物体が検出されたと判定した場合(ステップS202:Yes)、作業者の操作に応じて表示機器10に再生されている動画像を停止する(ステップS203)。
【0140】
そして、アノテーション処理部55は、作業者の操作に応じて、上記で検出された物体についての物体ラベルを新規作成し(ステップS204)、この物体ラベルに対応する物体の種類や位置などをアノテーション情報として追加する(ステップS205)。またこのとき、アノテーション処理部55は、現在のフレームを当該物体ラベルの開始キーフレームとして記憶回路40に記憶させる。
【0141】
次に、表示処理部51は、作業者の操作に応じて動画像を表示機器10に表示して再生させ(ステップS206)、アノテーション処理部55は、作業者の操作に応じて当該物体ラベルに対応する物体の位置指定の修正を決定したか否かを判定する(ステップS207)。表示処理部51は、アノテーション処理部55によって物体の位置指定の修正を決定したと判定された場合(ステップS207:Yes)、作業者の操作に応じて表示機器10に再生されている動画像を停止する(ステップS208)。
【0142】
そして、アノテーション処理部55は、作業者の操作に応じて物体ラベルの対象とされた物体の位置指定を修正し(ステップS209)、先のフレーム(例えば、開始キーフレーム)で指定した物体の位置と、このフレームで再指定した物体の位置とに基づいてこれらの間の各フレームでの物体の位置を線形補間等によって算出、特定する(ステップS210)。そして、表示処理部51は、作業者の操作に応じて動画像を表示機器10に表示して再生させる(ステップS211)。
【0143】
次に、アノテーション処理部55は、作業者の操作に応じて上記のように決定された物体ラベルの対象の物体が映るフレームが終了したか否かを判定する(ステップS212)。アノテーション処理部55は、例えば、終了操作領域107への操作の有無に応じて当該物体ラベルの対象とされた物体が映るフレームが終了したか否かを判定することができる。また、アノテーション処理部55は、上述のステップS207の処理において、物体ラベルの対象とされた物体の位置指定の修正を決定していないと判定した場合(ステップS207:No)には、ステップS208~ステップS211の処理をとばしてこのステップS212の処理に移行する。
【0144】
アノテーション処理部55は、検出対象の物体が映るフレームが終了していないと判定した場合(ステップS212:No)、ステップS206の処理に戻って以降の処理を繰り返し実行する。アノテーション処理部55は、検出対象の物体が映るフレームが終了したと判定した場合(ステップS212:Yes)、作業者の操作に応じてこの物体ラベル作業の終了を実行し(ステップS213)、現在のフレームを当該物体ラベルの終了キーフレームとして記憶回路40に記憶させ、この動画像における当該物体ラベルの時間範囲を決定する。
【0145】
次に、アノテーション処理部55は、作業者の操作に応じて同時間帯にアノテーション処理の対象となる他の物体が検出されたか否かを判定する(ステップS214)。表示処理部51は、アノテーション処理部55によってアノテーション処理の対象となる他の物体が検出されたと判定された場合(ステップS214:Yes)、作業者の操作に応じて該当する再生フレームを検索、表示させ(ステップS215)、ステップS204の処理に戻って以降の処理を繰り返し実行する。
【0146】
アノテーション処理部55は、アノテーション処理の対象となる他の物体が検出されていないと判定した場合(ステップS214:No)、作業者の操作に応じてアノテーション処理の対象となる事象が検出されたか否かを判定する(ステップS216)。アノテーション処理部55は、例えば、ラベル追加操作領域102への操作の有無に応じてアノテーション処理の対象となる事象が検出されたか否かを判定することができる。アノテーション処理部55は、アノテーション処理の対象となる事象が検出されていないと判定した場合(ステップS216:No)、本フローチャートによる処理を終了する。
【0147】
表示処理部51は、アノテーション処理部55によってアノテーション処理の対象となる事象が検出されたと判定された場合(ステップS216:Yes)、作業者の操作に応じて該当する再生フレームを検索、表示させる(ステップS217)。
【0148】
そして、アノテーション処理部55は、作業者の操作に応じて、上記で検出された事象についての関係ラベルを新規作成し(ステップS218)、この関係ラベルに対応する事象の種類などをアノテーション情報として追加する(ステップS219)。またこのとき、アノテーション処理部55は、現在のフレームを当該関係ラベルの開始キーフレームとして記憶回路40に記憶させる。
【0149】
そして、アノテーション処理部55は、作業者の操作に応じて当該関係ラベルの対象とされた事象に関係する物体の物体ラベルを指定し、関係ラベルのアノテーション情報として追加する(ステップS220)。そして、表示処理部51は、作業者の操作に応じて動画像を表示機器10に表示して再生させる(ステップS221)。
【0150】
次に、アノテーション処理部55は、作業者の操作に応じて上記のように決定された関係ラベルの対象とされた事象が映るフレームが終了したか否かを判定する(ステップS222)。アノテーション処理部55は、例えば、終了操作領域107への操作の有無に応じて当該関係ラベルの対象とされた事象が映るフレームが終了したか否かを判定することができる。
【0151】
アノテーション処理部55は、関係ラベルの対象とされた事象が映るフレームが終了していないと判定した場合(ステップS222:No)、ステップS221の処理に戻って以降の処理を繰り返し実行する。表示処理部51は、アノテーション処理部55によって関係ラベルの対象とされた事象が映るフレームが終了したと判定された場合(ステップS222:Yes)、作業者の操作に応じて表示機器10に再生されている動画像を停止する(ステップS223)。
【0152】
そして、アノテーション処理部55は、作業者の操作に応じてこの関係ラベル作業の終了を実行し(ステップS224)、現在のフレームを当該関係ラベルの終了キーフレームとして記憶回路40に記憶させ、この動画像における当該関係ラベルの時間範囲を決定し、本フローチャートによる処理を終了する。
【0153】
以上で説明した図25のアノテーション作業に関する方法は、「動画像データが表す動画像を表示するステップと、操作を受け付けるステップと、操作に応じて動画像データにアノテーション情報を付加して学習済みモデルの機械学習に用いる教師データを作成するステップとを含み、教師データを作成するステップでは、操作に応じて動画像に含まれる物体の位置を特定し当該物体の種類を表す物体ラベルをアノテーション情報として動画像データに付加し、操作に応じて動画像に含まれる複数の物体が相関する事象の種類を表す関係ラベルをアノテーション情報として動画像データに付加し、操作に応じて上記付加した物体ラベルから関係ラベルの対象とされた事象に関係する物体の物体ラベルを指定しアノテーション情報として動画像データに付加することを特徴とするアノテーション方法」の当該各ステップに相当するステップが含まれている。また、この「アノテーション方法」は、予め用意された「アノテーションプログラム」をパーソナルコンピュータやワークステーション等のコンピュータで実行することによって実現することができる。この「アノテーションプログラム」は、上述したステップの各処理をコンピュータに実行させる。
【0154】
以上で説明したアノテーション装置1、アノテーション方法、及び、アノテーションプログラムは、複数の物体が関係することで生じる事象を検出するための学習済みモデルMの機械学習に用いる教師データを作成することができる。この場合、アノテーション装置1、アノテーション方法、及び、アノテーションプログラムは、動画像データに対してアノテーション情報として、動画像に映る物体の種類を表す物体ラベル、及び、複数の物体が相関する事象の種類を表す関係ラベルを付加することができる。その上で、アノテーション装置1、アノテーション方法、及び、アノテーションプログラムは、さらに、動画像データに対してアノテーション情報として、当該関係ラベルが対象とする事象と相関する物体の物体ラベルもあわせて指定し付加することができる。この結果、アノテーション装置1、アノテーション方法、及び、アノテーションプログラムは、適正に教師データの作成を行うことができる。この結果、例えば、検出システムSys1は、当該教師データを用いた機械学習によって関係行動検出用の学習済みモデルMを生成することができ、この学習済みモデルMを用いて関係行動検出を適正に行うことができる。
【0155】
例えば、以上で説明したアノテーション装置1、アノテーション方法、及び、アノテーションプログラムは、ある動画像に映る物体に対して、「赤信号である歩行者信号機」を表す物体ラベルと「横断歩道を歩いている歩行者」を表す物体ラベルとを付加すると共に当該歩行者信号機、当該歩行者が相関する事象の種類として「歩行者の信号無視」という関係ラベルを付加した際に、当該関係ラベルに関係する物体の物体ラベルとして、「赤信号である歩行者信号機」を表す物体ラベル、及び、「横断歩道を歩いている歩行者」を表す物体ラベルを紐付けたアノテーション情報を付加し、教師データとすることができる。そして、検出システムSys1は、例えば、当該教師データを用いた機械学習によって、「赤信号である歩行者信号機」、及び、「横断歩道を歩いている歩行者」が映る動画像の動画像データから「歩行者の信号無視」を検出可能な学習済みモデルMを生成することができ、学習済みモデルMを用いて当該「歩行者の信号無視」等の事象の検出(関係行動検出)を行うことができる。
【0156】
また、以上で説明したアノテーション装置1、アノテーション方法、及び、アノテーションプログラムは、アノテーション処理において、予め指定された複数の動画像データファイルを一連の動画像を表す動画像データとして取り扱う。これにより、アノテーション装置1、アノテーション方法、及び、アノテーションプログラムは、ファイルの切り替わりを作業者に意識させることとなく連続して動画像を再生しアノテーション処理を行うことができるので、煩雑な作業を抑制し、作業性を向上することができる。また、アノテーション装置1、アノテーション方法、及び、アノテーションプログラムは、異なるファイルにまたがる物体や事象であってもラベルが別々になることなく、シームレスにアノテーション処理を行うことができるので、教師データの品質の低下を招くことを抑制することができる。さらに、アノテーション装置1、アノテーション方法、及び、アノテーションプログラムは、複数の動画像データファイル単位ではなく、一連の動画像として取り扱う動画像データ単位で1つのまとまりの教師データを作成することができるので、この点でも分断された教師データの取りまとめ作業等の煩雑な作業を抑制し、教師データの品質の低下を招くことを抑制することができる。
【0157】
なお、上述した本発明の実施形態に係るアノテーション装置、アノテーション方法、及び、アノテーションプログラムは、上述した実施形態に限定されず、特許請求の範囲に記載された範囲で種々の変更が可能である。
【0158】
以上で説明したアノテーション装置1は、動画像再生機能に加えて、サウンド再生機能を有し、動画像データに加えて、例えば、サウンドデータに対してもアノテーション処理を適用するものであってもよい。さらに、アノテーション装置1は、例えば、IoT(Internet of Things)データのような時系列データを2次元プロットする機能を有し、当該時系列データに対してもアノテーション処理を適用するものであってもよい。アノテーション装置1は、例えば、動画像データとは異なる構造のデータとしてサウンドデータを例にすると、例えば、「警報音」と「うわっ」という声とが相関する事象の種類として「驚き」という事象を表す関係ラベルを付加すると共に、当該関係ラベルの対象とされた事象に関係する音ラベルとして、「うわっ」という声に対する音ラベルと「警報音」に対する音ラベルとを指定しアノテーション情報としてサウンドデータに付加することができる。またこの場合、アノテーション装置1は、予め指定された複数の動画像データファイルを一連の動画像を表す動画像データとして取り扱う機能を、サウンドデータファイルやIoTデータファイルに対して適用してもよい。
【0159】
以上で説明した処理回路50は、単一のプロセッサによって各処理機能が実現されるものとして説明したがこれに限らない。処理回路50は、複数の独立したプロセッサを組み合わせて各プロセッサがプログラムを実行することにより各処理機能が実現されてもよい。また、処理回路50が有する処理機能は、単一又は複数の処理回路に適宜に分散又は統合されて実現されてもよい。また、処理回路50が有する処理機能は、その全部又は任意の一部をプログラムにて実現してもよく、また、ワイヤードロジック等によるハードウェアとして実現してもよい。
【0160】
以上で説明したプロセッサによって実行されるプログラムは、記憶回路40等に予め組み込まれて提供される。なお、このプログラムは、これらの装置にインストール可能な形式又は実行可能な形式のファイルで、コンピュータで読み取り可能な記憶媒体に記録されて提供されてもよい。また、このプログラムは、インターネット等のネットワークに接続されたコンピュータ上に格納され、ネットワーク経由でダウンロードされることにより提供又は配布されてもよい。
【0161】
本実施形態に係るアノテーション装置、アノテーション方法、及び、アノテーションプログラムは、以上で説明した実施形態、変形例の構成要素を適宜組み合わせることで構成してもよい。
【符号の説明】
【0162】
1 アノテーション装置
10 表示機器(表示部)
20 操作機器(操作部)
30 データ入出力機器
40 記憶回路
40a 指定ファイル記憶領域
50 処理回路(処理部)
51 表示処理部
52 操作処理部
53 データ入出力処理部
54 タスク作成処理部
55 アノテーション処理部
100A、100B、100C アノテーション画面
101 動画像表示領域
101a 動画像操作領域
102 ラベル追加操作領域
103 ラベル選択領域
103A メインリスト
103B、103C、103D、103E サブリスト
104 タスク終了操作領域
105 決定ラベル表示画像
106 消去操作領域
107 終了操作領域
108 消去決定画像
109 追加済みラベル表示領域
110 スライドバー表示領域
111 ファイル名表示領域
111A ファイルリスト
112 ファイル選択領域
113 作業終了確認画像
114 作業終了決定画像
200 管理モード画面
201 タスク作成操作領域
300 タスク作成画面
AL 機械学習アルゴリズム
D1 入力データ
D2 教師データ
D3 学習用データセット
D4 検出対象データ
D5 種別特定結果データ
M 学習済みモデル
Sv 学習用データ提供システム
Sys1 検出システム
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25