IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ トヨタ自動車東日本株式会社の特許一覧

特開2022-124739教師データの作成方法及び教師データ作成装置
<>
  • 特開-教師データの作成方法及び教師データ作成装置 図1
  • 特開-教師データの作成方法及び教師データ作成装置 図2
  • 特開-教師データの作成方法及び教師データ作成装置 図3
  • 特開-教師データの作成方法及び教師データ作成装置 図4
  • 特開-教師データの作成方法及び教師データ作成装置 図5
  • 特開-教師データの作成方法及び教師データ作成装置 図6
  • 特開-教師データの作成方法及び教師データ作成装置 図7
  • 特開-教師データの作成方法及び教師データ作成装置 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022124739
(43)【公開日】2022-08-26
(54)【発明の名称】教師データの作成方法及び教師データ作成装置
(51)【国際特許分類】
   G06T 1/00 20060101AFI20220819BHJP
   G06T 7/00 20170101ALI20220819BHJP
【FI】
G06T1/00 500Z
G06T7/00 350C
【審査請求】未請求
【請求項の数】4
【出願形態】OL
(21)【出願番号】P 2021022545
(22)【出願日】2021-02-16
(71)【出願人】
【識別番号】000157083
【氏名又は名称】トヨタ自動車東日本株式会社
(74)【代理人】
【識別番号】100082876
【弁理士】
【氏名又は名称】平山 一幸
(74)【代理人】
【識別番号】100086807
【弁理士】
【氏名又は名称】柿本 恭成
(74)【代理人】
【識別番号】100178906
【弁理士】
【氏名又は名称】近藤 充和
(72)【発明者】
【氏名】齋藤 匠
(72)【発明者】
【氏名】門脇 啓介
【テーマコード(参考)】
5B057
5L096
【Fターム(参考)】
5B057BA02
5B057CA08
5B057CA12
5B057CA16
5B057CB08
5B057CB12
5B057CB16
5B057CE08
5B057DC02
5B057DC03
5B057DC40
5L096AA06
5L096CA02
5L096FA12
5L096FA64
5L096FA66
5L096FA67
5L096FA69
5L096HA11
5L096KA04
(57)【要約】      (修正有)
【課題】容易に、且つ、短時間で、対象物の認識方法における深層学習のための大量の教師データを作成する教師データの作成方法及び装置を提供する。
【解決手段】撮像された画面情報に基づいて深層学習を用いて認識すべき対象物を検出する方法における教師データの作成方法であって、種々の方向及び画角の複数枚の背景画像を撮像する第一の段階と、認識すべき対象物の種々の向き及び姿勢の背景なし、且つ、方形枠状の対象物画像を作成する第二の段階と、背景画像上の所定位置に対象物画像を貼り付けて合成画像を生成する第三の段階と、背景画像上での対象物画像の一つの角部を貼り付け基準点としてその座標P1を取得する第四の段階と、背景画像上での対象物画像の角部に対して対角点の座標P2を取得する第五の段階と、座標P1及びP2をアノテーション情報として合成画像に付与して教師データを作成する第六の段階と、を含む。
【選択図】図8
【特許請求の範囲】
【請求項1】
撮像された画面情報に基づいて、前もって設定された深層学習によるAI機能を用いて認識すべき対象物を検出する対象物の認識方法における深層学習のための教師データに関して、
種々の方向及び画角の複数枚の背景画像を作成する第一の段階と、
前記認識すべき対象物の種々の向き及び姿勢の背景なしで且つ方形枠状の対象物画像を作成する第二の段階と、
前記背景画像上の所定位置に前記対象物画像を貼り付けて合成画像を生成する第三の段階と、
前記背景画像上での前記対象物画像の一つの角部を貼り付け基準点としてその座標P1を取得する第四の段階と、
前記背景画像上での前記対象物画像の前記角部に対して対角点の座標P2を取得する第五の段階と、
前記座標P1及びP2をアノテーション情報として前記合成画像に付与して教師データを作成する第六の段階と、
を含んでいることを特徴とする、教師データの作成方法。
【請求項2】
前記第一の段階にて、方形枠状に前記背景画像を作成し、前記第三の段階にて、前記背景画像と2辺が平行となるように前記対象物画像を貼り付け、前記第四の段階にて、前記背景画像の一つの角部である背景基準点から最も近い前記対象物画像の角部を前記貼り付け基準点とし、前記背景基準点を通る前記背景画像の1辺と平行な前記貼り付け基準点を通る前記対象物画像の1辺との間の距離と、前記背景基準点を通る前記背景画像の他方の1辺と平行な前記貼り付け基準点を通る前記対象物画像の他方の1辺との間の距離と、から前記座標P1を求めることを特徴とする、請求項1に記載の教師データの作成方法。
【請求項3】
前記第五の段階にて、前記対象物画像の2辺の長さを取得し、該取得した2辺の長さと、前記座標P1と、から前記座標P2を求めることを特徴とする、請求項1又は2に記載の教師データの作成方法。
【請求項4】
撮像された画面情報に基づいて、前もって設定された深層学習によるAI機能を用いて認識すべき対象物を検出する対象物の認識方法における深層学習のための教師データに関して、
種々の方向及び画角の複数枚の背景画像を作成する背景画像作成部と、
前記認識すべき対象物の種々の向き及び姿勢の背景なしで且つ方形枠状の対象物画像を作成する対象物画像作成部と、
前記背景画像上の所定位置に前記対象物画像を貼り付けて合成画像を生成する合成画像生成部と、
前記背景画像上での前記対象物画像の一つの角部を貼り付け基準点としてその座標P1を取得する座標P1取得部と、
前記背景画像上での前記対象物画像の前記角部に対して対角点の座標P2を取得する座標P2取得部と、
前記座標P1及びP2をアノテーション情報として前記合成画像に付与して教師データを作成するアノテーション付与部と、
を備える教師データ作成装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、カメラの撮像画面に基づいて前もって設定された深層学習によるAI機能を用いて、認識すべき対象物を検出する対象物認識方法における深層学習のための教師データの作成方法に関するものである。
【背景技術】
【0002】
従来、認識すべき対象物、例えばターゲットとなる特定の人を認識して、当該人の動きに追従して走行する自律走行体において、カメラで撮像した画面情報に基づいて、特定の人を深層学習によるAI機能により検出する場合、AIに当該特定の人に関する画像認識を深層学習させる方法が知られている。
ここで、深層学習に用いるソフトウェアは、オープンソースのもの、例えばオープンソース(Yoro Ver.3 tiny)が使用され、人に関する教師データも、オープンソースである、例えばYoro Ver.3 tinyの教師データが使用される。
【0003】
このような人認識の方法において、人認識の精度を高めるためには、深層学習のための教師データとして、オープンソースのサンプルデータを使用せずに、使用する環境に対応したサンプルデータを用意する必要がある。このようなサンプルデータは、使用する環境における種々の方向及び画角の背景画像に対して、それぞれ各背景画像上に種々の向きや姿勢の認識すべき人が写っていることが必要である。
従って、このようなサンプルデータを用意するためには、種々の方向及び画角の大量の背景画像に対して、それぞれ認識すべき人の向きや姿勢に対応した種々の人画像を組み合わせた膨大な量の画像を撮像する必要があると共に、撮像した個々の画像に対して、背景画面上における当該特定の人の範囲及び位置情報を座標位置として付与するアノテーション作業が必要となる。このため、サンプルデータを準備するためには、膨大な時間と労力が必要とされる。
【0004】
これに対して、例えば特許文献1には、背景画像上において対象領域を定める領域決定部と、対象領域に対象物の画像を貼り付けて合成画像を生成する画像合成部と、対象物の画像にかかるデータに基づいて合成画像の正解ラベルを作成する正解ラベル作成部と、を備える学習用データ生成装置が開示されている。
【0005】
この装置によれば、背景画像上の対象領域に、対象物の画像を貼り付けて合成画像を生成することにより、適切な正解ラベルが付加された学習用データを簡易に生成することが可能である。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2020-149086号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
前述した特許文献1による学習用データ生成装置においては、適切な正解ラベルを付加された学習用データは効率的に生成され得るので、大量の学習用データを短時間で生成することは可能である。
【0008】
しかしながら、生成された各学習用データに関して、背景画像上における対象物の画像の範囲及び位置情報を付与する、所謂アノテーション作業を行なうことが必要となる。従って、生成された学習用データが大量にある場合、各学習用データに対してアノテーション作業が必要であることから、大量の学習用データに対してアノテーション作業を行なうためには、作業時間とその作業コストを要してしまう。
【0009】
本発明は以上の点に鑑み、簡単な構成により容易に且つ短時間で、対象物の認識方法における深層学習のための大量の教師データを作成することができるようにした、極めて優れた教師データの作成方法を提供することを第一の目的とし、教師データ作成装置を提供することを第二の目的としている。
【課題を解決するための手段】
【0010】
上記第一の目的は、本発明の構成によれば、撮像された画面情報に基づいて、前もって設定された深層学習によるAI機能を用いて認識すべき対象物を検出する対象物の認識方法における深層学習のための教師データに関して、種々の方向及び画角の複数枚の背景画像を作成する第一の段階と、認識すべき対象物の種々の向き及び姿勢の背景なしで且つ方形枠状の対象物画像を作成する第二の段階と、背景画像上の所定位置に対象物画像を貼り付けて合成画像を生成する第三の段階と、背景画像上での対象物画像の一つの角部を貼り付け基準点としてその座標P1を取得する第四の段階と、背景画像上での対象物画像の角部に対して対角点の座標P2を取得する第五の段階と、座標P1及び座標P2をアノテーション情報として合成画像に付与して教師データを作成する第六の段階と、を含んでいることを特徴とする、教師データの作成方法により達成される。
上記構成において、好ましくは、第一の段階にて、方形枠状に背景画像を作成し、第三の段階にて、背景画像と2辺が平行となるように対象物画像を貼り付け、第四の段階にて、背景画像の一つの角部である背景基準点から最も近い対象物画像の角部を貼り付け基準点とし、背景基準点を通る背景画像の1辺と平行な貼り付け基準点を通る対象物画像の1辺との間の距離と、背景基準点を通る背景画像の他方の1辺と平行な貼り付け基準点を通る対象物画像の他方の1辺との間の距離と、から座標P1を求める。好ましくは、第五の段階にて、対象物画像の2辺の長さを取得し、取得した2辺の長さと座標P1とから座標P2を求める。
【0011】
上記第二の目的は、本発明の構成によれば、撮像された画面情報に基づいて、前もって設定された深層学習によるAI機能を用いて認識すべき対象物を検出する対象物の認識方法における深層学習のための教師データに関して、種々の方向及び画角の複数枚の背景画像を作成する背景画像作成部と、認識すべき対象物の種々の向き及び姿勢の背景なしで且つ方形枠状の対象物画像を作成する対象物画像作成部と、背景画像上の所定位置に対象物画像を貼り付けて合成画像を生成する合成画像生成部と、背景画像上での対象物画像の一つの角部を貼り付け基準点としてその座標P1を取得する座標P1取得部と、背景画像上での対象物画像の角部に対して対角点の座標P2を取得する座標P2取得部と、座標P1及び座標P2をアノテーション情報として合成画像に付与して教師データを作成するアノテーション付与部と、を備える教師データ作成装置により達成される。
【発明の効果】
【0012】
本発明によれば、簡単な構成で容易に且つ短時間で、対象物の認識方法における深層学習のための大量の教師データを作成することができるようにした、極めて優れた教師データの作成方法及び教師データ作成装置を提供することができる。
【図面の簡単な説明】
【0013】
図1】本発明による教師データの作成方法を実施するための教師データ作成装置の一実施形態の構成を示すブロック図である。
図2図1の教師データ作成装置のカメラにより撮像された背景画像を示す図である。
図3図1の教師データ作成装置における人画像の作成工程を順次に示す工程図である。
図4図1の教師データ作成装置における背景画像上での人画像の貼り付け工程を順次に示す工程図である。
図5図1の教師データ作成装置における合成画像のデータ加工の第一の例を示す図である。
図6図1の教師データ作成装置における合成画像のデータ加工の第二の例を示す図である。
図7図1の教師データ作成装置における合成画像のデータ加工の第三の例を示す図である。
図8図1の教師データ作成装置における教師データ作成作業を順次に示すフローチャートである。
【発明を実施するための形態】
【0014】
以下、図面に示した実施形態に基づいて本発明を詳細に説明する。
図1は、本発明による教師データ作成方法を実施するための教師データ作成装置の一実施形態の構成を示している。図1において、教師データ作成装置10は、背景画像を撮像する例えば静止カメラ11と、認識すべき対象物を撮影する例えばビデオカメラ12と、制御部13と、記憶部14と、から構成されている。静止カメラ11とビデオカメラ12は、それぞれを単眼デジタルカメラで構成してもよい。
【0015】
カメラ11は、例えば公知の構成のデジタルカメラであって、作成すべき教師データの背景となる背景画像を撮像し、撮像画面のデータを検出信号S1として制御部13に出力する。ここで、背景画像21は、図2に示すように、認識すべき対象物の移動範囲に関して種々の方向及び画角で多数枚撮像される。なお、カメラ11は、すべての背景画像21を撮像した後に、これらすべての背景画像21を一括して検出信号S1として制御部13に送出してもよく、また個々の背景画像21を撮像する毎に、その都度、一枚の背景画像21を検出信号S1として制御部13に送出するようにしてもよい。
【0016】
ビデオカメラ12は、例えば公知の構成のビデオカメラや単眼デジタルカメラであって、認識すべき対象物を動画撮影して、認識すべき対象物画像となる動画データ22(図3に示す)を検出信号S2として制御部13に出力する。認識すべき対象物としては、特定の人、動物、生物、静物、車両等が含まれる。以下の説明においては、認識すべき対象物を認識すべき特定の人として説明する。ここで、認識すべき特定の人は、例えば視認しやすいユニフォーム等の服装を着用しており、人認識の際に想定され得る種々の向き及び姿勢を取るように、動きながら動画撮影されるものである。また、認識すべき特定の人に関して、ビデオカメラ12で撮像した撮像画面から人画像を作成する際に、当該人の輪郭の外側部分が、後述するトリミング処理等の画像処理により取り除かれるので、撮影場所や背景は考慮しなくてもよい、即ち任意の場所で撮影可能である。
なお、ビデオカメラ12は、すべての動画データ22を撮像した後に、これらすべての動画データ22を一括して検出信号S2として制御部13に送出してもよく、また動画データ22を撮像しながら、順次に検出信号S2として制御部13に送出するようにしてもよい。ビデオカメラ12により撮像された動画データ22は、後述するように制御部13により処理され、各フレームに関してそれぞれ適宜に処理され切り出されて背景なしの方形枠状の人画像が作成される。
【0017】
制御部13は、例えばパーソナルコンピュータ等から構成され、制御部13及び記憶部14にインストールされた画像処理等を行なうプログラムにより動作し、カメラ11からの検出信号S1及びビデオカメラ12からの検出信号S2に基づいて、以下のように処理を行なって教師データを作成する。ここで、記憶部14は、例えばハードディスク,半導体メモリ等の公知の記憶手段であって、制御部13に接続されることで制御部13により各種データが読み書き可能に登録される。
【0018】
制御部13は、カメラ11からの検出信号S1を受け取って、図2に示すように背景画像21として記憶部14に登録する。
【0019】
また、制御部13は、ビデオカメラ12からの検出信号S2を受け取って、動画データ22として記憶部14に登録する。そして、制御部13は動画データ22を以下のように処理して、複数枚の人画像26を作成して記憶部14に登録する。
【0020】
即ち、制御部13は図3に示すように、動画データ22から動画分割処理13aによりフレーム毎に分割して、個々のフレームの静止画像23を抽出する。つまり、認識すべき特定の人を撮像した動画から複数のフレームを取り出して、各フレームに対して人画像を抽出する。これにより、認識すべき特定の人が動いている場合に、その動きに従って変化する認識すべき特定の人の向きや姿勢を人画像にて忠実に再現することができる。
続いて、制御部13はトリミング処理13bにより、認識すべき特定の人の周りに背景を取り除くように方形枠状に切り出してトリム画像24を得る。
【0021】
次に、制御部13は、クロマキー処理13cにより、トリム画像24の認識すべき特定の人の周りに残っている背景を透明化してクロマキー画像25を作成し、ノイズ除去処理13dにより、クロマキー画像25に残っているノイズを除去し、さらに透明箇所のトリミング処理13eにより、クロマキー画像25の人の周囲の透明部分を取り除くように方形枠状に切り出して人画像26を作成する。このようにして、人画像26を作成する際に、背景を気にすることなくどこでも撮像することが可能である。
【0022】
さらに、制御部13は、リサイズ処理13fにより人画像26を種々の大きさに拡大又は縮小してリサイズし、リサイズした人画像26aを作成する。このようにして、制御部13は、ビデオカメラ12で撮像した動画データ即ち検出信号S2に基づき、認識すべき特定の人の動きに従って複数枚の人画像26及び26aを作成し、これらの人画像26,26aを記憶部14に登録する。
【0023】
また、制御部13は、図4に示すように、記憶部14に登録された背景画像21及び人画像26,26aのうち、一枚の背景画像21と、それに組み合わせるべき一枚の人画像26aを選択して読み出し、当該背景画像21上の所定位置に選択した当該人画像26aを貼り付けて、図4(C)に示すように、合成画像27を生成する。その際、制御部13は、図4(A)に示すように、背景画像21の左上の角部を原点(0,0)とし、背景画像21上での人画像26aの左上の角部を貼り付け基準点として、その座標P1(X,Y)を取得する。
【0024】
続いて、制御部13は、図4(B)に示すように、人画像26aの画像サイズ(幅W,高さH)に基づいて、図4(C)に示すように、背景画像21の貼り付け基準点に人画像26aの左上の角部を合わせて貼り付けた人画像26又は26aの右下の対角点の座標P2(X+W,Y+H)を取得する。
次に、制御部13は、合成画像27(図4(C))に対して、図4(D)に示すように、これらの座標P1及びP2をアノテーション情報として付与して教師データ28を作成し、記憶部14に登録する。
このようにして、制御部13により、記憶部14から順次に背景画像21を読み出し、当該背景画像21に対して順次に種々の人画像26aを組み合わせて貼り付けて合成画像27を生成すると共に、それぞれ座標P1及びP2をアノテーション情報として付与することにより、複数の教師データ28を作成することができる。かくして背景画像21に応じて、所定位置に選択した人画像26aを貼り付けて複数の合成画面26aが作成されて、複数の合成画面26aが記憶部14に登録される。
【0025】
本発明による教師データ作成方法においては、撮像された画面情報に基づいて、前もって設定された深層学習によるAI機能を用いて認識すべき対象物を検出する対象物の認識方法における深層学習のために以下の段階を含んで作成される。
第一の段階:種々の方向及び画角の複数枚の背景画像21を作成する。背景画像21は方形枠状に作成してもよい。
第二の段階:認識すべき対象物の種々の向き及び姿勢の背景なしで且つ方形枠状の対象物画像26を作成する。
第三の段階:背景画像21上の所定の位置に対象物画像26を貼り付けて合成画像27を生成する。対象物画像26は、背景画像21と2辺が平行となるように貼り付けてもよい。
第四の段階:背景画像21上での対象物画像26の一つの角部を貼り付け基準点として、その座標P1を取得する。この場合、背景画像21の一つの角部である背景基準点から最も近い対象物画像26の角部を貼り付け基準点とし、背景基準点を通る背景画像21の1辺と平行な貼り付け基準点を通る対象物画像26の1辺との間の距離(図4(A)中のY参照)と、背景基準点を通る背景画像21の他方の1辺と平行な貼り付け基準点を通る対象物画像26の他方の1辺との間の距離(図4(A)中のX参照)と、から座標P1(X,Y)を求めてもよい。
第五の段階:背景画像21上での対象物画像26の角部に対して対角点の座標P2を取得する。この場合、対象物画像26の2辺の長さ(図4(B)のW,H参照)を取得し、該取得した2辺の長さと座標P1(X,Y)とから座標P2(X+W,Y+H)を求めてもよい。
第六の段階:座標P1及びP2をアノテーション情報として合成画像27に付与して、教師データ28を作成する。
【0026】
本発明の教師データ作成方法によれば、種々の方向及び画角の複数枚の背景画像21を撮像つまり、作成しておくと共に、認識すべき対象物の種々の向き及び姿勢の背景なしの複数枚の対象物画像26を撮像しておくことができる。そして、これらの背景画像21を順次に各対象物画像26と組み合わせ、背景画像21上の所定位置に対象物画像26を貼り付けて合成画像27を生成する。その際、背景画像21上で、貼り付けた対象物画像26の一つの角部及び対角点の座標P1及びP2を取得して、座標P1及びP2をアノテーション情報として、合成画像27に付与する。具体的には、教師データ作成装置10に格納されたコンピュータプログラムを利用して、背景画像21及び対象物画像26を任意に選択して合成画像27を生成すると共に、取得された座標P1及びP2を含むアノテーション情報を自動付与することにより、大量の合成画像27であっても、個々の合成画像27に対してアノテーション情報を手作業で付与する必要がなくなり、短時間で大量の教師データ28が生成されることになる。
【0027】
本発明の教師データ作成方法によれば、簡単な構成により容易に且つ短時間で、対象物の認識方法における深層学習のための大量の教師データ28を作成することができるようにした、極めて優れた教師データの作成方法を提供することができる。
【0028】
(データ加工)
制御部13は、必要に応じて合成画像27に対してデータ加工を行なって、教師データ28aを作成する。このデータ加工は、アフィン変換,左右反転,RGB変更,RGBチャンネル変更,輝度の変更,色相又は彩度の変更及びノイズ付与の何れか又はこれらの組み合わせにより行われる。アフィン変換,左右反転,RGB変更,RGBチャンネル変更輝度の変更,色相又は彩度の変更及びノイズ付与が、ランダムに実行されてもよい。
ここで、アフィン変換とは、回転,拡大・縮小又は剪断等のデータ加工である。RGB変更やRGBチャンネル変更は、色交換、単色化、白黒化、グレースケール化等のデータ加工である。ノイズ付与は画質を劣化させるノイズを加えるデータ加工である。このようなデータ加工を行うことで、合成画像27として同じ背景画像21及び人画像26(26a)を利用しながら、より多くの多様な教師データ28,28aとして利用することができる。
【0029】
例えば、図5は教師データ28のデータ加工の第一の例を示している。この場合、データ加工により、図5(A)に示す教師データ28を左回りに回転させると共に、輝度を低くし、RGB変更、つまり色交換によりデータ加工した教師データ28bが作成される。
【0030】
図6は教師データ28のデータ加工の第二の例を示している。この場合、データ加工により、図6(A)に示す教師データ29を左回りに回転させて、さらに左右反転すると共に、RGB変更した教師データ28cが作成される。
【0031】
図7は教師データ28のデータ加工の第三の例を示している。この場合、データ加工により、図7(A)に示す教師データ30を左右反転し、RGB変換すると共に、ノイズ付与した教師データ28dが作成される。
【0032】
上記のデータ加工によれば、教師データ28、29,30を、さらにアフィン変換,左右反転,RGB変更,RGBチャンネル変更,輝度の変更,色相又は彩度の変更及びノイズ付与の何れか、又はこれらの組み合わせたデータ加工を実行することにより、同じ背景画像21及び人画像26を利用して、より多くの多様な教師データ28~30を取得することができる。
【0033】
本発明実施形態による教師他データの作成方法を実施するための教師データ作成装置10は以上のように構成され、背景画像作成部と、対象物画像作成部と、合成画像生成部と、座標P1取得部と、座標P2取得部と、アノテーション付与部と、を備えるようにプログラムにより制御されており、図8のフローチャートに従って動作する。
図8において、まずステップST1にて、カメラ11が認識すべき特定の人の移動範囲及びその周辺における種々の向き及び画角の複数枚の背景画像21となる静止画像を撮像し、検出信号S1として制御部13に送出する。制御部13は、カメラ11からの検出信号S1を受け取って個々の背景画像21として記憶部14に登録する。これにより、教師データ作成装置10は、ステップST1にて種々の方向及び画角の複数枚の背景画像21を作成する背景画像作成部として動作する。
【0034】
続いて、ステップST2にて、ビデオカメラ12が認識すべき特定の人を移動中の種々の向きや姿勢で動画撮影し、動画データを検出信号S2として制御部13に送出する。制御部13は、ビデオカメラ12からの検出信号S2を受け取って、動画データ22として記憶部14に登録する。
【0035】
その後、ステップST3にて、制御部13は図3に示した人画像作成工程に従って人画像26又は26aを作成する。即ち、制御部13は、動画データ22から動画分割処理13aによりフレーム毎に分割して個々のフレームの静止画像23を抽出し、トリミング処理13bにより認識すべき特定の人の周りに背景を取り除いた方形枠状のトリム画像24を得る。
【0036】
次に、制御部13は、クロマキー処理13cによりトリム画像24の認識すべき特定の人の周りに残っている背景を透明化したクロマキー画像25を作成し、ノイズ除去処理13dによりクロマキー画像25に残っているノイズを除去し、さらに透明箇所トリミング処理13eによりクロマキー画像25の人の周囲の透明部分を取り除くように方形枠状に切り出して、人画像26を作成する。
さらに、制御部13は、リサイズ処理13fにより人画像26を種々の大きさに拡大又は縮小してリサイズし、リサイズした人画像26aを作成する。これにより、背景画像21に対して、種々の大きさにリサイズされた人画像26aを貼り付けることによって、より多様な教師データ28を作成することができる。これにより、教師データ作成装置10は、ステップST2からステップST3にて、認識すべき対象物の種々の向き及び姿勢の背景なしで且つ方形枠状の対象物画像26を作成する対象物画像作成部として動作する。
【0037】
次に、ステップST4にて、制御部13は、記憶部14に登録された背景画像21及び人画像26,26aから、一枚の背景画像21と、この背景画像21に組み合わせるべき一枚の人画像26又は26aを選択して読み出し、当該背景画像21上の所定位置に当該人画像26又は26aを貼り付けて、合成画像27を作成する。これにより、教師データ作成装置10は、ステップST4にて、背景画像21上の所定位置に対象物画像26を貼り付けて合成画像27を生成する合成画像生成部として動作する。
【0038】
そして、ステップST5にて、制御部13は、図4(A)に示すように、背景画像21の左上の角部を原点(0,0)とし、人画像26又は26aの左上の角部を貼り付け基準点の座標即ち座標P1(X,Y)を取得する。これにより、教師データ作成装置10は、ステップST5にて、背景画像21上での対象物画像26の一つの角部を貼り付け基準点としてその座標P1を取得する座標P1取得部として動作する。
【0039】
続いて、ステップST6にて、制御部13は、人画像26又は26aの画像サイズ(幅W,高さH)に基づいて、図4(C)に示すように、座標P1に人画像26又は26aの左上の角部を合わせて貼り付けた人画像26又は26aの右下の対角点の座標P2(X+W,Y+H)を取得する。これにより、教師データ作成装置10は、ステップST6にて、背景画像21上での対象物画像26の角部に対して対角点の座標P2を取得する座標P2取得部として動作する。
【0040】
その後、ステップST7にて、制御部13は、ステップST4で作成した合成画像27に対して、図4(D)に示すように、座標P1及びP2をアノテーション情報28として付与して教師データ28を作成する。これにより、教師データ作成装置10は、ステップST7にて、座標P1及びP2をアノテーション情報として合成画像27に付与して教師データを作成するアノテーション付与部として動作する。
【0041】
ここで、制御部13は、ステップST8にて、当該教師データ28について、アフィン変換、左右反転又はその組み合わせ、あるいはRGB変更、RGBチャンネル変更、さらには輝度,色相又は彩度の変更、ノイズ付与等のデータ加工が必要か否かを判断して、データ加工が必要である場合(YES)には、ステップST9にて合成画像27に対して必要なデータ加工を行なった後、教師データ28aを作成し、ステップST10にて教師データ28aを記憶部14に登録する。
また、ステップST8にて、データ加工が不要である場合(NO)には、制御部13はステップST10に進み、教師データ28を記憶部14に登録する。
かくして、教師データ作成作業が終了する。
【0042】
このようにして、制御部13が、選択した各背景画像21に対してそれぞれ複数個の人画像26又は26aを組み合わせて、合成画像27、そしてアノテーション情報を付与した教師データ28,28aを作成することで、膨大な量の教師データ28及び28aを短時間で作成することができる。その際、合成画像27にアノテーション情報を付与する作業は、制御部13が自動的に行なうので、教師データ28,28aの作成作業が容易に且つ短時間で効率良く行なわれる。以下に、実施例によりさらに詳細に説明する。
【実施例0043】
教師データ作成装置10として、以下の構成の静止カメラ11と、ビデオカメラ12と、制御部13とを用い、図8に示すフローチャートを、Python(登録商標)を用いたプログラムにより実行し、教師データ28を作成した。
静止カメラ:単眼デジタルカメラ(株式会社ロジクール製、商品モデル番号C930eR)
ビデオカメラ:単眼デジタルカメラ(株式会社ロジクール製、商品モデル番号C930eR)
制御部:
CPU:インテル株式会社製、型番core i7 9th Gen
RAM(ランダムアクセスメモリ):16GB
記憶装置:512TB
【0044】
図5~7に示すように、背景画像21を競技場とし、認識すべき特定の人を黄色のユニフォームの着用した人として、約10秒の実行時間で20数枚以上の教師データ28を作成できた。これは、従来のアノテーション工程の10倍以上の枚数である。
【0045】
本発明はその趣旨を逸脱しない範囲において様々な形態で実施することができる。
例えば、上述した実施形態においては、人画像26又は26aは、ビデオカメラ12で撮像した動画データ22をフレーム分割した静止画に基づいて作成するようになっているが、これに限らず、静止画カメラにより撮像した静止画像に基づいて、人画像26を作成してもよいことは明らかである。
【0046】
また、上述した実施形態においては、背景画像21上の貼り付け基準点に、人画像26(26a)の左上の角部を合わせて貼り合わせるようになっているが、これに限らず、他の角部を合わせてもよいことは明らかである。
【符号の説明】
【0047】
10 教師データ作成装置
11 カメラ
12 ビデオカメラ
13 制御部
14 記憶部
21 背景画像
22 動画データ
23 静止画像
24 トリム画像
25 クロマキー画像
26 対象物画像(人画像)
26a リサイズした人画像
27 合成画像
28,29,30 教師データ
28a,28b,28c,28d データ加工した教師データ
P1 貼り付け基準点の座標
P2 対角点の座標
S1,S2 検出信号
図1
図2
図3
図4
図5
図6
図7
図8