特開2022-124739 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ トヨタ自動車東日本株式会社の特許一覧

特開2022-124739教師データの作成方法及び教師データ作成装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022124739

(43)【公開日】2022-08-26

(54)【発明の名称】教師データの作成方法及び教師データ作成装置

(51)【国際特許分類】

G06T 1/00 20060101AFI20220819BHJP

G06T 7/00 20170101ALI20220819BHJP

【ＦＩ】

G06T1/00 500Z

G06T7/00 350C

【審査請求】未請求

【請求項の数】4

【出願形態】ＯＬ

(21)【出願番号】P 2021022545

(22)【出願日】2021-02-16

(71)【出願人】

【識別番号】000157083

【氏名又は名称】トヨタ自動車東日本株式会社

(74)【代理人】

【識別番号】100082876

【弁理士】

【氏名又は名称】平山一幸

(74)【代理人】

【識別番号】100086807

【弁理士】

【氏名又は名称】柿本恭成

(74)【代理人】

【識別番号】100178906

【弁理士】

【氏名又は名称】近藤充和

(72)【発明者】

【氏名】齋藤匠

(72)【発明者】

【氏名】門脇啓介

【テーマコード（参考）】

5B057

5L096

【Ｆターム（参考）】

5B057BA02

5B057CA08

5B057CA12

5B057CA16

5B057CB08

5B057CB12

5B057CB16

5B057CE08

5B057DC02

5B057DC03

5B057DC40

5L096AA06

5L096CA02

5L096FA12

5L096FA64

5L096FA66

5L096FA67

5L096FA69

5L096HA11

5L096KA04

(57)【要約】（修正有）

【課題】容易に、且つ、短時間で、対象物の認識方法における深層学習のための大量の教師データを作成する教師データの作成方法及び装置を提供する。
【解決手段】撮像された画面情報に基づいて深層学習を用いて認識すべき対象物を検出する方法における教師データの作成方法であって、種々の方向及び画角の複数枚の背景画像を撮像する第一の段階と、認識すべき対象物の種々の向き及び姿勢の背景なし、且つ、方形枠状の対象物画像を作成する第二の段階と、背景画像上の所定位置に対象物画像を貼り付けて合成画像を生成する第三の段階と、背景画像上での対象物画像の一つの角部を貼り付け基準点としてその座標Ｐ１を取得する第四の段階と、背景画像上での対象物画像の角部に対して対角点の座標Ｐ２を取得する第五の段階と、座標Ｐ１及びＰ２をアノテーション情報として合成画像に付与して教師データを作成する第六の段階と、を含む。
【選択図】図８

【特許請求の範囲】

【請求項1】

撮像された画面情報に基づいて、前もって設定された深層学習によるＡＩ機能を用いて認識すべき対象物を検出する対象物の認識方法における深層学習のための教師データに関して、
種々の方向及び画角の複数枚の背景画像を作成する第一の段階と、
前記認識すべき対象物の種々の向き及び姿勢の背景なしで且つ方形枠状の対象物画像を作成する第二の段階と、
前記背景画像上の所定位置に前記対象物画像を貼り付けて合成画像を生成する第三の段階と、
前記背景画像上での前記対象物画像の一つの角部を貼り付け基準点としてその座標Ｐ１を取得する第四の段階と、
前記背景画像上での前記対象物画像の前記角部に対して対角点の座標Ｐ２を取得する第五の段階と、
前記座標Ｐ１及びＰ２をアノテーション情報として前記合成画像に付与して教師データを作成する第六の段階と、
を含んでいることを特徴とする、教師データの作成方法。

【請求項2】

前記第一の段階にて、方形枠状に前記背景画像を作成し、前記第三の段階にて、前記背景画像と２辺が平行となるように前記対象物画像を貼り付け、前記第四の段階にて、前記背景画像の一つの角部である背景基準点から最も近い前記対象物画像の角部を前記貼り付け基準点とし、前記背景基準点を通る前記背景画像の１辺と平行な前記貼り付け基準点を通る前記対象物画像の１辺との間の距離と、前記背景基準点を通る前記背景画像の他方の１辺と平行な前記貼り付け基準点を通る前記対象物画像の他方の１辺との間の距離と、から前記座標Ｐ１を求めることを特徴とする、請求項１に記載の教師データの作成方法。

【請求項3】

前記第五の段階にて、前記対象物画像の２辺の長さを取得し、該取得した２辺の長さと、前記座標Ｐ１と、から前記座標Ｐ２を求めることを特徴とする、請求項１又は２に記載の教師データの作成方法。

【請求項4】

撮像された画面情報に基づいて、前もって設定された深層学習によるＡＩ機能を用いて認識すべき対象物を検出する対象物の認識方法における深層学習のための教師データに関して、
種々の方向及び画角の複数枚の背景画像を作成する背景画像作成部と、
前記認識すべき対象物の種々の向き及び姿勢の背景なしで且つ方形枠状の対象物画像を作成する対象物画像作成部と、
前記背景画像上の所定位置に前記対象物画像を貼り付けて合成画像を生成する合成画像生成部と、
前記背景画像上での前記対象物画像の一つの角部を貼り付け基準点としてその座標Ｐ１を取得する座標Ｐ１取得部と、
前記背景画像上での前記対象物画像の前記角部に対して対角点の座標Ｐ２を取得する座標Ｐ２取得部と、
前記座標Ｐ１及びＰ２をアノテーション情報として前記合成画像に付与して教師データを作成するアノテーション付与部と、
を備える教師データ作成装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、カメラの撮像画面に基づいて前もって設定された深層学習によるＡＩ機能を用いて、認識すべき対象物を検出する対象物認識方法における深層学習のための教師データの作成方法に関するものである。

【背景技術】

【0002】

従来、認識すべき対象物、例えばターゲットとなる特定の人を認識して、当該人の動きに追従して走行する自律走行体において、カメラで撮像した画面情報に基づいて、特定の人を深層学習によるＡＩ機能により検出する場合、ＡＩに当該特定の人に関する画像認識を深層学習させる方法が知られている。
ここで、深層学習に用いるソフトウェアは、オープンソースのもの、例えばオープンソース（Yoro Ver.3 tiny）が使用され、人に関する教師データも、オープンソースである、例えばYoro Ver.3 tinyの教師データが使用される。

【0003】

このような人認識の方法において、人認識の精度を高めるためには、深層学習のための教師データとして、オープンソースのサンプルデータを使用せずに、使用する環境に対応したサンプルデータを用意する必要がある。このようなサンプルデータは、使用する環境における種々の方向及び画角の背景画像に対して、それぞれ各背景画像上に種々の向きや姿勢の認識すべき人が写っていることが必要である。
従って、このようなサンプルデータを用意するためには、種々の方向及び画角の大量の背景画像に対して、それぞれ認識すべき人の向きや姿勢に対応した種々の人画像を組み合わせた膨大な量の画像を撮像する必要があると共に、撮像した個々の画像に対して、背景画面上における当該特定の人の範囲及び位置情報を座標位置として付与するアノテーション作業が必要となる。このため、サンプルデータを準備するためには、膨大な時間と労力が必要とされる。

【0004】

これに対して、例えば特許文献１には、背景画像上において対象領域を定める領域決定部と、対象領域に対象物の画像を貼り付けて合成画像を生成する画像合成部と、対象物の画像にかかるデータに基づいて合成画像の正解ラベルを作成する正解ラベル作成部と、を備える学習用データ生成装置が開示されている。

【0005】

この装置によれば、背景画像上の対象領域に、対象物の画像を貼り付けて合成画像を生成することにより、適切な正解ラベルが付加された学習用データを簡易に生成することが可能である。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】特開２０２０－１４９０８６号公報

【発明の概要】

【発明が解決しようとする課題】

【0007】

前述した特許文献１による学習用データ生成装置においては、適切な正解ラベルを付加された学習用データは効率的に生成され得るので、大量の学習用データを短時間で生成することは可能である。

【0008】

しかしながら、生成された各学習用データに関して、背景画像上における対象物の画像の範囲及び位置情報を付与する、所謂アノテーション作業を行なうことが必要となる。従って、生成された学習用データが大量にある場合、各学習用データに対してアノテーション作業が必要であることから、大量の学習用データに対してアノテーション作業を行なうためには、作業時間とその作業コストを要してしまう。

【0009】

本発明は以上の点に鑑み、簡単な構成により容易に且つ短時間で、対象物の認識方法における深層学習のための大量の教師データを作成することができるようにした、極めて優れた教師データの作成方法を提供することを第一の目的とし、教師データ作成装置を提供することを第二の目的としている。

【課題を解決するための手段】

【0010】

上記第一の目的は、本発明の構成によれば、撮像された画面情報に基づいて、前もって設定された深層学習によるＡＩ機能を用いて認識すべき対象物を検出する対象物の認識方法における深層学習のための教師データに関して、種々の方向及び画角の複数枚の背景画像を作成する第一の段階と、認識すべき対象物の種々の向き及び姿勢の背景なしで且つ方形枠状の対象物画像を作成する第二の段階と、背景画像上の所定位置に対象物画像を貼り付けて合成画像を生成する第三の段階と、背景画像上での対象物画像の一つの角部を貼り付け基準点としてその座標Ｐ１を取得する第四の段階と、背景画像上での対象物画像の角部に対して対角点の座標Ｐ２を取得する第五の段階と、座標Ｐ１及び座標Ｐ２をアノテーション情報として合成画像に付与して教師データを作成する第六の段階と、を含んでいることを特徴とする、教師データの作成方法により達成される。
上記構成において、好ましくは、第一の段階にて、方形枠状に背景画像を作成し、第三の段階にて、背景画像と２辺が平行となるように対象物画像を貼り付け、第四の段階にて、背景画像の一つの角部である背景基準点から最も近い対象物画像の角部を貼り付け基準点とし、背景基準点を通る背景画像の１辺と平行な貼り付け基準点を通る対象物画像の１辺との間の距離と、背景基準点を通る背景画像の他方の１辺と平行な貼り付け基準点を通る対象物画像の他方の１辺との間の距離と、から座標Ｐ１を求める。好ましくは、第五の段階にて、対象物画像の２辺の長さを取得し、取得した２辺の長さと座標Ｐ１とから座標Ｐ２を求める。

【0011】

上記第二の目的は、本発明の構成によれば、撮像された画面情報に基づいて、前もって設定された深層学習によるＡＩ機能を用いて認識すべき対象物を検出する対象物の認識方法における深層学習のための教師データに関して、種々の方向及び画角の複数枚の背景画像を作成する背景画像作成部と、認識すべき対象物の種々の向き及び姿勢の背景なしで且つ方形枠状の対象物画像を作成する対象物画像作成部と、背景画像上の所定位置に対象物画像を貼り付けて合成画像を生成する合成画像生成部と、背景画像上での対象物画像の一つの角部を貼り付け基準点としてその座標Ｐ１を取得する座標Ｐ１取得部と、背景画像上での対象物画像の角部に対して対角点の座標Ｐ２を取得する座標Ｐ２取得部と、座標Ｐ１及び座標Ｐ２をアノテーション情報として合成画像に付与して教師データを作成するアノテーション付与部と、を備える教師データ作成装置により達成される。

【発明の効果】

【0012】

本発明によれば、簡単な構成で容易に且つ短時間で、対象物の認識方法における深層学習のための大量の教師データを作成することができるようにした、極めて優れた教師データの作成方法及び教師データ作成装置を提供することができる。

【図面の簡単な説明】

【0013】

【図1】本発明による教師データの作成方法を実施するための教師データ作成装置の一実施形態の構成を示すブロック図である。

【図2】図１の教師データ作成装置のカメラにより撮像された背景画像を示す図である。

【図3】図１の教師データ作成装置における人画像の作成工程を順次に示す工程図である。

【図4】図１の教師データ作成装置における背景画像上での人画像の貼り付け工程を順次に示す工程図である。

【図5】図１の教師データ作成装置における合成画像のデータ加工の第一の例を示す図である。

【図6】図１の教師データ作成装置における合成画像のデータ加工の第二の例を示す図である。

【図7】図１の教師データ作成装置における合成画像のデータ加工の第三の例を示す図である。

【図8】図１の教師データ作成装置における教師データ作成作業を順次に示すフローチャートである。

【発明を実施するための形態】

【0014】

以下、図面に示した実施形態に基づいて本発明を詳細に説明する。
図１は、本発明による教師データ作成方法を実施するための教師データ作成装置の一実施形態の構成を示している。図１において、教師データ作成装置１０は、背景画像を撮像する例えば静止カメラ１１と、認識すべき対象物を撮影する例えばビデオカメラ１２と、制御部１３と、記憶部１４と、から構成されている。静止カメラ１１とビデオカメラ１２は、それぞれを単眼デジタルカメラで構成してもよい。

【0015】

カメラ１１は、例えば公知の構成のデジタルカメラであって、作成すべき教師データの背景となる背景画像を撮像し、撮像画面のデータを検出信号Ｓ１として制御部１３に出力する。ここで、背景画像２１は、図２に示すように、認識すべき対象物の移動範囲に関して種々の方向及び画角で多数枚撮像される。なお、カメラ１１は、すべての背景画像２１を撮像した後に、これらすべての背景画像２１を一括して検出信号Ｓ１として制御部１３に送出してもよく、また個々の背景画像２１を撮像する毎に、その都度、一枚の背景画像２１を検出信号Ｓ１として制御部１３に送出するようにしてもよい。

【0016】

ビデオカメラ１２は、例えば公知の構成のビデオカメラや単眼デジタルカメラであって、認識すべき対象物を動画撮影して、認識すべき対象物画像となる動画データ２２（図３に示す）を検出信号Ｓ２として制御部１３に出力する。認識すべき対象物としては、特定の人、動物、生物、静物、車両等が含まれる。以下の説明においては、認識すべき対象物を認識すべき特定の人として説明する。ここで、認識すべき特定の人は、例えば視認しやすいユニフォーム等の服装を着用しており、人認識の際に想定され得る種々の向き及び姿勢を取るように、動きながら動画撮影されるものである。また、認識すべき特定の人に関して、ビデオカメラ１２で撮像した撮像画面から人画像を作成する際に、当該人の輪郭の外側部分が、後述するトリミング処理等の画像処理により取り除かれるので、撮影場所や背景は考慮しなくてもよい、即ち任意の場所で撮影可能である。
なお、ビデオカメラ１２は、すべての動画データ２２を撮像した後に、これらすべての動画データ２２を一括して検出信号Ｓ２として制御部１３に送出してもよく、また動画データ２２を撮像しながら、順次に検出信号Ｓ２として制御部１３に送出するようにしてもよい。ビデオカメラ１２により撮像された動画データ２２は、後述するように制御部１３により処理され、各フレームに関してそれぞれ適宜に処理され切り出されて背景なしの方形枠状の人画像が作成される。

【0017】

制御部１３は、例えばパーソナルコンピュータ等から構成され、制御部１３及び記憶部１４にインストールされた画像処理等を行なうプログラムにより動作し、カメラ１１からの検出信号Ｓ１及びビデオカメラ１２からの検出信号Ｓ２に基づいて、以下のように処理を行なって教師データを作成する。ここで、記憶部１４は、例えばハードディスク，半導体メモリ等の公知の記憶手段であって、制御部１３に接続されることで制御部１３により各種データが読み書き可能に登録される。

【0018】

制御部１３は、カメラ１１からの検出信号Ｓ１を受け取って、図２に示すように背景画像２１として記憶部１４に登録する。

【0019】

また、制御部１３は、ビデオカメラ１２からの検出信号Ｓ２を受け取って、動画データ２２として記憶部１４に登録する。そして、制御部１３は動画データ２２を以下のように処理して、複数枚の人画像２６を作成して記憶部１４に登録する。

【0020】

即ち、制御部１３は図３に示すように、動画データ２２から動画分割処理１３ａによりフレーム毎に分割して、個々のフレームの静止画像２３を抽出する。つまり、認識すべき特定の人を撮像した動画から複数のフレームを取り出して、各フレームに対して人画像を抽出する。これにより、認識すべき特定の人が動いている場合に、その動きに従って変化する認識すべき特定の人の向きや姿勢を人画像にて忠実に再現することができる。
続いて、制御部１３はトリミング処理１３ｂにより、認識すべき特定の人の周りに背景を取り除くように方形枠状に切り出してトリム画像２４を得る。

【0021】

次に、制御部１３は、クロマキー処理１３ｃにより、トリム画像２４の認識すべき特定の人の周りに残っている背景を透明化してクロマキー画像２５を作成し、ノイズ除去処理１３ｄにより、クロマキー画像２５に残っているノイズを除去し、さらに透明箇所のトリミング処理１３ｅにより、クロマキー画像２５の人の周囲の透明部分を取り除くように方形枠状に切り出して人画像２６を作成する。このようにして、人画像２６を作成する際に、背景を気にすることなくどこでも撮像することが可能である。

【0022】

さらに、制御部１３は、リサイズ処理１３ｆにより人画像２６を種々の大きさに拡大又は縮小してリサイズし、リサイズした人画像２６ａを作成する。このようにして、制御部１３は、ビデオカメラ１２で撮像した動画データ即ち検出信号Ｓ２に基づき、認識すべき特定の人の動きに従って複数枚の人画像２６及び２６ａを作成し、これらの人画像２６，２６ａを記憶部１４に登録する。

【0023】

また、制御部１３は、図４に示すように、記憶部１４に登録された背景画像２１及び人画像２６，２６ａのうち、一枚の背景画像２１と、それに組み合わせるべき一枚の人画像２６ａを選択して読み出し、当該背景画像２１上の所定位置に選択した当該人画像２６ａを貼り付けて、図４（Ｃ）に示すように、合成画像２７を生成する。その際、制御部１３は、図４（Ａ）に示すように、背景画像２１の左上の角部を原点（０，０）とし、背景画像２１上での人画像２６ａの左上の角部を貼り付け基準点として、その座標Ｐ１（Ｘ，Ｙ）を取得する。

【0024】

続いて、制御部１３は、図４（Ｂ）に示すように、人画像２６ａの画像サイズ（幅Ｗ，高さＨ）に基づいて、図４（Ｃ）に示すように、背景画像２１の貼り付け基準点に人画像２６ａの左上の角部を合わせて貼り付けた人画像２６又は２６ａの右下の対角点の座標Ｐ２（Ｘ＋Ｗ，Ｙ＋Ｈ）を取得する。
次に、制御部１３は、合成画像２７（図４（Ｃ））に対して、図４（Ｄ）に示すように、これらの座標Ｐ１及びＰ２をアノテーション情報として付与して教師データ２８を作成し、記憶部１４に登録する。
このようにして、制御部１３により、記憶部１４から順次に背景画像２１を読み出し、当該背景画像２１に対して順次に種々の人画像２６ａを組み合わせて貼り付けて合成画像２７を生成すると共に、それぞれ座標Ｐ１及びＰ２をアノテーション情報として付与することにより、複数の教師データ２８を作成することができる。かくして背景画像２１に応じて、所定位置に選択した人画像２６ａを貼り付けて複数の合成画面２６ａが作成されて、複数の合成画面２６ａが記憶部１４に登録される。

【0025】

本発明による教師データ作成方法においては、撮像された画面情報に基づいて、前もって設定された深層学習によるＡＩ機能を用いて認識すべき対象物を検出する対象物の認識方法における深層学習のために以下の段階を含んで作成される。
第一の段階：種々の方向及び画角の複数枚の背景画像２１を作成する。背景画像２１は方形枠状に作成してもよい。
第二の段階：認識すべき対象物の種々の向き及び姿勢の背景なしで且つ方形枠状の対象物画像２６を作成する。
第三の段階：背景画像２１上の所定の位置に対象物画像２６を貼り付けて合成画像２７を生成する。対象物画像２６は、背景画像２１と２辺が平行となるように貼り付けてもよい。
第四の段階：背景画像２１上での対象物画像２６の一つの角部を貼り付け基準点として、その座標Ｐ１を取得する。この場合、背景画像２１の一つの角部である背景基準点から最も近い対象物画像２６の角部を貼り付け基準点とし、背景基準点を通る背景画像２１の１辺と平行な貼り付け基準点を通る対象物画像２６の１辺との間の距離（図４（Ａ）中のＹ参照）と、背景基準点を通る背景画像２１の他方の１辺と平行な貼り付け基準点を通る対象物画像２６の他方の１辺との間の距離（図４（Ａ）中のＸ参照）と、から座標Ｐ１（Ｘ，Ｙ）を求めてもよい。
第五の段階：背景画像２１上での対象物画像２６の角部に対して対角点の座標Ｐ２を取得する。この場合、対象物画像２６の２辺の長さ（図４（Ｂ）のＷ，Ｈ参照）を取得し、該取得した２辺の長さと座標Ｐ１（Ｘ，Ｙ）とから座標Ｐ２（Ｘ＋Ｗ，Ｙ＋Ｈ）を求めてもよい。
第六の段階：座標Ｐ１及びＰ２をアノテーション情報として合成画像２７に付与して、教師データ２８を作成する。

【0026】

本発明の教師データ作成方法によれば、種々の方向及び画角の複数枚の背景画像２１を撮像つまり、作成しておくと共に、認識すべき対象物の種々の向き及び姿勢の背景なしの複数枚の対象物画像２６を撮像しておくことができる。そして、これらの背景画像２１を順次に各対象物画像２６と組み合わせ、背景画像２１上の所定位置に対象物画像２６を貼り付けて合成画像２７を生成する。その際、背景画像２１上で、貼り付けた対象物画像２６の一つの角部及び対角点の座標Ｐ１及びＰ２を取得して、座標Ｐ１及びＰ２をアノテーション情報として、合成画像２７に付与する。具体的には、教師データ作成装置１０に格納されたコンピュータプログラムを利用して、背景画像２１及び対象物画像２６を任意に選択して合成画像２７を生成すると共に、取得された座標Ｐ１及びＰ２を含むアノテーション情報を自動付与することにより、大量の合成画像２７であっても、個々の合成画像２７に対してアノテーション情報を手作業で付与する必要がなくなり、短時間で大量の教師データ２８が生成されることになる。

【0027】

本発明の教師データ作成方法によれば、簡単な構成により容易に且つ短時間で、対象物の認識方法における深層学習のための大量の教師データ２８を作成することができるようにした、極めて優れた教師データの作成方法を提供することができる。

【0028】

（データ加工）
制御部１３は、必要に応じて合成画像２７に対してデータ加工を行なって、教師データ２８ａを作成する。このデータ加工は、アフィン変換，左右反転，ＲＧＢ変更，ＲＧＢチャンネル変更，輝度の変更，色相又は彩度の変更及びノイズ付与の何れか又はこれらの組み合わせにより行われる。アフィン変換，左右反転，ＲＧＢ変更，ＲＧＢチャンネル変更輝度の変更，色相又は彩度の変更及びノイズ付与が、ランダムに実行されてもよい。
ここで、アフィン変換とは、回転，拡大・縮小又は剪断等のデータ加工である。ＲＧＢ変更やＲＧＢチャンネル変更は、色交換、単色化、白黒化、グレースケール化等のデータ加工である。ノイズ付与は画質を劣化させるノイズを加えるデータ加工である。このようなデータ加工を行うことで、合成画像２７として同じ背景画像２１及び人画像２６（２６ａ）を利用しながら、より多くの多様な教師データ２８，２８ａとして利用することができる。

【0029】

例えば、図５は教師データ２８のデータ加工の第一の例を示している。この場合、データ加工により、図５（Ａ）に示す教師データ２８を左回りに回転させると共に、輝度を低くし、ＲＧＢ変更、つまり色交換によりデータ加工した教師データ２８ｂが作成される。

【0030】

図６は教師データ２８のデータ加工の第二の例を示している。この場合、データ加工により、図６（Ａ）に示す教師データ２９を左回りに回転させて、さらに左右反転すると共に、ＲＧＢ変更した教師データ２８ｃが作成される。

【0031】

図７は教師データ２８のデータ加工の第三の例を示している。この場合、データ加工により、図７（Ａ）に示す教師データ３０を左右反転し、ＲＧＢ変換すると共に、ノイズ付与した教師データ２８ｄが作成される。

【0032】

上記のデータ加工によれば、教師データ２８、２９，３０を、さらにアフィン変換，左右反転，ＲＧＢ変更，ＲＧＢチャンネル変更，輝度の変更，色相又は彩度の変更及びノイズ付与の何れか、又はこれらの組み合わせたデータ加工を実行することにより、同じ背景画像２１及び人画像２６を利用して、より多くの多様な教師データ２８～３０を取得することができる。

【0033】

本発明実施形態による教師他データの作成方法を実施するための教師データ作成装置１０は以上のように構成され、背景画像作成部と、対象物画像作成部と、合成画像生成部と、座標Ｐ１取得部と、座標Ｐ２取得部と、アノテーション付与部と、を備えるようにプログラムにより制御されており、図８のフローチャートに従って動作する。
図８において、まずステップＳＴ１にて、カメラ１１が認識すべき特定の人の移動範囲及びその周辺における種々の向き及び画角の複数枚の背景画像２１となる静止画像を撮像し、検出信号Ｓ１として制御部１３に送出する。制御部１３は、カメラ１１からの検出信号Ｓ１を受け取って個々の背景画像２１として記憶部１４に登録する。これにより、教師データ作成装置１０は、ステップＳＴ１にて種々の方向及び画角の複数枚の背景画像２１を作成する背景画像作成部として動作する。

【0034】

続いて、ステップＳＴ２にて、ビデオカメラ１２が認識すべき特定の人を移動中の種々の向きや姿勢で動画撮影し、動画データを検出信号Ｓ２として制御部１３に送出する。制御部１３は、ビデオカメラ１２からの検出信号Ｓ２を受け取って、動画データ２２として記憶部１４に登録する。

【0035】

その後、ステップＳＴ３にて、制御部１３は図３に示した人画像作成工程に従って人画像２６又は２６ａを作成する。即ち、制御部１３は、動画データ２２から動画分割処理１３ａによりフレーム毎に分割して個々のフレームの静止画像２３を抽出し、トリミング処理１３ｂにより認識すべき特定の人の周りに背景を取り除いた方形枠状のトリム画像２４を得る。

【0036】

次に、制御部１３は、クロマキー処理１３ｃによりトリム画像２４の認識すべき特定の人の周りに残っている背景を透明化したクロマキー画像２５を作成し、ノイズ除去処理１３ｄによりクロマキー画像２５に残っているノイズを除去し、さらに透明箇所トリミング処理１３ｅによりクロマキー画像２５の人の周囲の透明部分を取り除くように方形枠状に切り出して、人画像２６を作成する。
さらに、制御部１３は、リサイズ処理１３ｆにより人画像２６を種々の大きさに拡大又は縮小してリサイズし、リサイズした人画像２６ａを作成する。これにより、背景画像２１に対して、種々の大きさにリサイズされた人画像２６ａを貼り付けることによって、より多様な教師データ２８を作成することができる。これにより、教師データ作成装置１０は、ステップＳＴ２からステップＳＴ３にて、認識すべき対象物の種々の向き及び姿勢の背景なしで且つ方形枠状の対象物画像２６を作成する対象物画像作成部として動作する。

【0037】

次に、ステップＳＴ４にて、制御部１３は、記憶部１４に登録された背景画像２１及び人画像２６，２６ａから、一枚の背景画像２１と、この背景画像２１に組み合わせるべき一枚の人画像２６又は２６ａを選択して読み出し、当該背景画像２１上の所定位置に当該人画像２６又は２６ａを貼り付けて、合成画像２７を作成する。これにより、教師データ作成装置１０は、ステップＳＴ４にて、背景画像２１上の所定位置に対象物画像２６を貼り付けて合成画像２７を生成する合成画像生成部として動作する。

【0038】

そして、ステップＳＴ５にて、制御部１３は、図４（Ａ）に示すように、背景画像２１の左上の角部を原点（０，０）とし、人画像２６又は２６ａの左上の角部を貼り付け基準点の座標即ち座標Ｐ１（Ｘ，Ｙ）を取得する。これにより、教師データ作成装置１０は、ステップＳＴ５にて、背景画像２１上での対象物画像２６の一つの角部を貼り付け基準点としてその座標Ｐ１を取得する座標Ｐ１取得部として動作する。

【0039】

続いて、ステップＳＴ６にて、制御部１３は、人画像２６又は２６ａの画像サイズ（幅Ｗ，高さＨ）に基づいて、図４（Ｃ）に示すように、座標Ｐ１に人画像２６又は２６ａの左上の角部を合わせて貼り付けた人画像２６又は２６ａの右下の対角点の座標Ｐ２（Ｘ＋Ｗ，Ｙ＋Ｈ）を取得する。これにより、教師データ作成装置１０は、ステップＳＴ６にて、背景画像２１上での対象物画像２６の角部に対して対角点の座標Ｐ２を取得する座標Ｐ２取得部として動作する。

【0040】

その後、ステップＳＴ７にて、制御部１３は、ステップＳＴ４で作成した合成画像２７に対して、図４（Ｄ）に示すように、座標Ｐ１及びＰ２をアノテーション情報２８として付与して教師データ２８を作成する。これにより、教師データ作成装置１０は、ステップＳＴ７にて、座標Ｐ１及びＰ２をアノテーション情報として合成画像２７に付与して教師データを作成するアノテーション付与部として動作する。

【0041】

ここで、制御部１３は、ステップＳＴ８にて、当該教師データ２８について、アフィン変換、左右反転又はその組み合わせ、あるいはＲＧＢ変更、ＲＧＢチャンネル変更、さらには輝度，色相又は彩度の変更、ノイズ付与等のデータ加工が必要か否かを判断して、データ加工が必要である場合（ＹＥＳ）には、ステップＳＴ９にて合成画像２７に対して必要なデータ加工を行なった後、教師データ２８ａを作成し、ステップＳＴ１０にて教師データ２８ａを記憶部１４に登録する。
また、ステップＳＴ８にて、データ加工が不要である場合（ＮＯ）には、制御部１３はステップＳＴ１０に進み、教師データ２８を記憶部１４に登録する。
かくして、教師データ作成作業が終了する。

【0042】

このようにして、制御部１３が、選択した各背景画像２１に対してそれぞれ複数個の人画像２６又は２６ａを組み合わせて、合成画像２７、そしてアノテーション情報を付与した教師データ２８，２８ａを作成することで、膨大な量の教師データ２８及び２８ａを短時間で作成することができる。その際、合成画像２７にアノテーション情報を付与する作業は、制御部１３が自動的に行なうので、教師データ２８，２８ａの作成作業が容易に且つ短時間で効率良く行なわれる。以下に、実施例によりさらに詳細に説明する。

【実施例0043】

教師データ作成装置１０として、以下の構成の静止カメラ１１と、ビデオカメラ１２と、制御部１３とを用い、図８に示すフローチャートを、Ｐｙｔｈｏｎ（登録商標）を用いたプログラムにより実行し、教師データ２８を作成した。
静止カメラ：単眼デジタルカメラ（株式会社ロジクール製、商品モデル番号C930eR）
ビデオカメラ：単眼デジタルカメラ（株式会社ロジクール製、商品モデル番号C930eR）
制御部：
ＣＰＵ：インテル株式会社製、型番core i7 9th Gen
ＲＡＭ（ランダムアクセスメモリ）：１６ＧＢ
記憶装置：５１２ＴＢ

【0044】

図５～７に示すように、背景画像２１を競技場とし、認識すべき特定の人を黄色のユニフォームの着用した人として、約１０秒の実行時間で２０数枚以上の教師データ２８を作成できた。これは、従来のアノテーション工程の１０倍以上の枚数である。

【0045】

本発明はその趣旨を逸脱しない範囲において様々な形態で実施することができる。
例えば、上述した実施形態においては、人画像２６又は２６ａは、ビデオカメラ１２で撮像した動画データ２２をフレーム分割した静止画に基づいて作成するようになっているが、これに限らず、静止画カメラにより撮像した静止画像に基づいて、人画像２６を作成してもよいことは明らかである。

【0046】

また、上述した実施形態においては、背景画像２１上の貼り付け基準点に、人画像２６（２６ａ）の左上の角部を合わせて貼り合わせるようになっているが、これに限らず、他の角部を合わせてもよいことは明らかである。

【符号の説明】

【0047】

１０教師データ作成装置
１１カメラ
１２ビデオカメラ
１３制御部
１４記憶部
２１背景画像
２２動画データ
２３静止画像
２４トリム画像
２５クロマキー画像
２６対象物画像（人画像）
２６ａリサイズした人画像
２７合成画像
２８，２９，３０教師データ
２８ａ，２８ｂ，２８ｃ，２８ｄデータ加工した教師データ
Ｐ１貼り付け基準点の座標
Ｐ２対角点の座標
Ｓ１，Ｓ２検出信号

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

IP Force 特許公報掲載プロジェクト 2022.1.31 β版