IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 大成建設株式会社の特許一覧

特開2024-40906物体学習装置、場面推定装置、物体学習方法、および場面推定方法
<>
  • 特開-物体学習装置、場面推定装置、物体学習方法、および場面推定方法 図1
  • 特開-物体学習装置、場面推定装置、物体学習方法、および場面推定方法 図2
  • 特開-物体学習装置、場面推定装置、物体学習方法、および場面推定方法 図3
  • 特開-物体学習装置、場面推定装置、物体学習方法、および場面推定方法 図4
  • 特開-物体学習装置、場面推定装置、物体学習方法、および場面推定方法 図5
  • 特開-物体学習装置、場面推定装置、物体学習方法、および場面推定方法 図6
  • 特開-物体学習装置、場面推定装置、物体学習方法、および場面推定方法 図7
  • 特開-物体学習装置、場面推定装置、物体学習方法、および場面推定方法 図8
  • 特開-物体学習装置、場面推定装置、物体学習方法、および場面推定方法 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024040906
(43)【公開日】2024-03-26
(54)【発明の名称】物体学習装置、場面推定装置、物体学習方法、および場面推定方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240318BHJP
   G06V 10/82 20220101ALI20240318BHJP
   G06N 3/08 20230101ALI20240318BHJP
   G06N 3/04 20230101ALI20240318BHJP
【FI】
G06T7/00 350C
G06V10/82
G06N3/08
G06N3/04
【審査請求】未請求
【請求項の数】4
【出願形態】OL
(21)【出願番号】P 2022145561
(22)【出願日】2022-09-13
(71)【出願人】
【識別番号】000206211
【氏名又は名称】大成建設株式会社
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】野村 価生
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096BA02
5L096FA09
5L096FA69
5L096GA34
5L096GA40
5L096GA55
5L096HA11
5L096JA11
5L096KA04
5L096MA07
(57)【要約】
【課題】画像から場面を精度よく判定することを低コストで実現可能にする。
【解決手段】物体学習装置は、画像を入力することによって前記画像に写る物体に関する物体情報を出力する推論モデル8を生成する深層学習部を備えており、前記深層学習部は、第1の学習画像の特定部分と前記特定部分に写る物体に関する物体情報との組合せを用いて初期モデルを学習させ、推論モデル8の基礎となる基礎モデル50を生成する第1の学習部13Aと、基礎モデル50に含まれる特徴抽出伝播層を用いて再学習を行い、基礎モデル50に含まれる第1の分類層とは異なる第2の分類層66を生成する第2の学習部13Bとを有する。第2の学習部13Bは、第2の学習画像と前記第2の学習画像に写る場面を判定した場面情報との組合せを用いて再学習を行い、推論モデル8は、第2の分類層66の後段に基礎モデル50を結合したものである。
【選択図】図4
【特許請求の範囲】
【請求項1】
画像を入力することによって前記画像に写る物体に関する物体情報を出力する推論モデルを生成する深層学習部と、
生成した前記推論モデルを記憶する記憶部と、を備えており、
前記深層学習部は、
第1の学習画像の特定部分と前記特定部分に写る物体に関する物体情報との組合せを用いて初期モデルを学習させ、前記推論モデルの基礎となる基礎モデルを生成する第1の学習部と、
前記基礎モデルに含まれる特徴抽出伝播層を用いて再学習を行い、前記基礎モデルに含まれる第1の分類層とは異なる第2の分類層を生成する第2の学習部と、を有し、
前記第2の学習部は、第2の学習画像と前記第2の学習画像に写る場面を判定した場面情報との組合せを用いて再学習を行い、
前記推論モデルは、前記第2の分類層の後段に前記基礎モデルを結合したものである、
ことを特徴とする物体学習装置。
【請求項2】
請求項1に記載の物体学習装置が学習した前記推論モデルを用いて画像に写る場面を推定する場面推定装置であって、
推定画像の入力を受け付ける推定画像入力部と、
前記推定画像から前記推論モデルを用いて前記物体情報を取得する推定部と、
取得した前記物体情報に基づいて場面を判定する場面判定部と、を備える、
ことを特徴とする場面推定装置。
【請求項3】
画像を入力することによって前記画像に写る物体に関する物体情報を出力する推論モデルを生成する深層学習工程と、
生成した前記推論モデルを記憶する記憶工程と、を備えており、
前記深層学習工程は、
第1の学習画像の特定部分と前記特定部分に写る物体に関する物体情報との組合せを用いて初期モデルを学習させ、前記推論モデルの基礎となる基礎モデルを生成する第1の学習工程と、
前記基礎モデルに含まれる特徴抽出伝播層を用いて再学習を行い、前記基礎モデルに含まれる第1の分類層とは異なる第2の分類層を生成する第2の学習工程と、を有し、
前記第2の学習工程では、第2の学習画像と前記第2の学習画像に写る場面を判定した場面情報との組合せを用いて再学習を行い、
前記推論モデルは、前記第2の分類層の後段に前記基礎モデルを結合したものである、
ことを特徴とする物体学習方法。
【請求項4】
請求項3に記載の物体学習方法で学習した前記推論モデルを用いて画像に写る場面を推定する場面推定方法であって、
推定画像の入力を受け付ける推定画像入力工程と、
前記推定画像から前記推論モデルを用いて前記物体情報を取得する推定工程と、
取得した前記物体情報に基づいて場面を判定する場面判定工程と、を備える、
ことを特徴とする場面推定方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、物体学習装置、場面推定装置、物体学習方法、および場面推定方法に関する。
【背景技術】
【0002】
建設現場において、作業内容の進捗を判定できれば、判定した情報に基づいて品質管理や作業効率を容易に求めることができるので有用である。これに関連して、トンネル施工におけるトンネル施工工程を記録する技術が知られている(特許文献1参照)。特許文献1に記載される技術では、複数の機器に電力を供給する分電盤等の電源から、電気使用状態のON/OFFや電力量等の電気使用情報を取得し、その取得した電気使用情報の分析により、対応するトンネル施工工程を判定する。
【0003】
また、AI(Artificial Intelligence)技術を利用して、建設現場で作業員や建設機械を撮影画像から物体検出することが行われている。撮影画像からの物体検出には、畳み込みネットワーク(CNN:Convolutional Neural Network)を検出器として用いることが有効である。
非特許文献1には、検出器として、学習が容易で検出が速いYOLO(You Only Look Once)が記載されている。
非特許文献2には、検出器として、SSD(Single Shot MultiBox Detector)、Faster R-CNN(Regional Convolution Neural Network)、Fast R-CNN、R-CNN等が記載されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2019-027097号公報
【非特許文献】
【0005】
【非特許文献1】Kiana Ehsani, Hessam Bagherinezhad, Joseph Redmon, Roozbeh Mottaghi, and Ali Farhadi, "You only look once: Unified, real-time object detection.",CVPR2016.
【非特許文献2】Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu,Alexander C. Berg, "SSD: Single shot multibox detector. ", ECCV2016.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、従来のAI技術では、撮影画像から撮影された場面(シーン)を認識することが難しかった。例えば、撮影画像の特定部分に写る物体の物体認識を行い、その結果から撮影された場面を判定する方法では、物体を撮影する条件によっては物体の細かい分類(例えば、バックボウとホイールローダ、吹付け機とバックホウなど)を認識することが難しいという問題があり、トンネル工事等の場面を判定することが難しかった。ここでの物体を撮影する条件とは、例えば物体の特徴的でない部分のみしか撮影できない場合であり、トンネル工事において切羽付近で作業する建設機械の後部のみしか撮影できない場合などを想定している。また、撮影画像に写る場面自体を学習させ、撮影画像から場面を推定する方法では、学習が収束しなかったり、学習コスト(学習に要する計算コスト)が非常に高くなるという問題があり、市販されている汎用的なPC(Personal Computer)を用いることを想定した場合に現実的ではなかった。
このような観点から、本発明は、画像から場面を精度よく判定することを低コストで実現可能にする物体学習装置、場面推定装置、物体学習方法、および場面推定方法を提供する。
【課題を解決するための手段】
【0007】
本発明に係る物体学習装置は、画像を入力することによって前記画像に写る物体に関する物体情報を出力する推論モデルを生成する深層学習部と、生成した前記推論モデルを記憶する記憶部とを備え、前記深層学習部は、第1の学習部と、第2の学習部とを有する。
第1の学習部は、第1の学習画像の特定部分と前記特定部分に写る物体に関する物体情報との組合せを用いて初期モデルを学習させ、前記推論モデルの基礎となる基礎モデルを生成する。第2の学習部は、前記基礎モデルに含まれる特徴抽出伝播層を用いて再学習を行い、前記基礎モデルに含まれる第1の分類層とは異なる第2の分類層を生成する。第2の学習部は、第2の学習画像と前記第2の学習画像に写る場面を判定した場面情報との組合せを用いて再学習を行う。前記推論モデルは、前記第2の分類層の後段に前記基礎モデルを結合したものである。
本発明に係る物体学習装置においては、画像に写る場面を判定した場面情報を用いて学習を行うので、第2の分類層には画像に写る場面が反映されている。そのため、第2の分類層を含んだ推論モデルを用いることによって画像の場面を考慮した物体の認識ができるので、画像に写る物体のより細かい分類が高い精度で可能となる。その結果、物体の認識結果に基づいて画像に写る場面の判定を行うことができる。なお、第2の学習部では、画像全体を学習させているものの、画像から場面を推定できるまで学習させなくてよいので、学習が収束しなかったり、学習コストが非常に高くなるといった問題が発生し難い。
【0008】
本発明に係る場面推定装置は、上記の物体学習装置が学習した前記推論モデルを用いて画像に写る場面を推定する場面推定装置である。この場面推定装置は、推定画像の入力を受け付ける推定画像入力部と、前記推定画像から前記推論モデルを用いて前記物体情報を取得する推定部と、取得した前記物体情報に基づいて場面を判定する場面判定部とを備える。
本発明に係る場面推定装置においては、第2の分類層を含んだ推論モデルを用いることによって画像の場面を考慮した物体の認識ができるので、画像に写る物体のより細かい分類が高い精度で可能となる。そのため、物体の認識結果に基づいて画像に写る場面の判定を行うことができる。
【0009】
本発明に係る物体学習方法は、画像を入力することによって前記画像に写る物体に関する物体情報を出力する推論モデルを生成する深層学習工程と、生成した前記推論モデルを記憶する記憶工程とを備え、前記深層学習工程は、第1の学習工程と、第2の学習工程とを有する。
第1の学習工程は、第1の学習画像の特定部分と前記特定部分に写る物体に関する物体情報との組合せを用いて初期モデルを学習させ、前記推論モデルの基礎となる基礎モデルを生成する。第2の学習工程は、前記基礎モデルに含まれる特徴抽出伝播層を用いて再学習を行い、前記基礎モデルに含まれる第1の分類層とは異なる第2の分類層を生成する。前記第2の学習工程では、第2の学習画像と前記第2の学習画像に写る場面を判定した場面情報との組合せを用いて再学習を行う。前記推論モデルは、前記第2の分類層の後段に前記基礎モデルを結合したものである。
本発明に係る物体学習方法においては、画像に写る場面を判定した場面情報を用いて学習を行うので、第2の分類層には画像に写る場面が反映されている。そのため、第2の分類層を含んだ推論モデルを用いることによって画像の場面を考慮した物体の認識ができるので、画像に写る物体のより細かい分類が高い精度で可能となる。その結果、物体の認識結果に基づいて画像に写る場面の判定を行うことができる。なお、第2の学習部では、画像全体を学習させているものの、画像から場面を推定できるまで学習させなくてよいので、学習が収束しなかったり、学習コストが非常に高くなるといった問題が発生し難い。
【0010】
本発明に係る場面推定方法は、上記の物体学習方法で学習した前記推論モデルを用いて画像に写る場面を推定する場面推定方法である。この場面推定方法は、推定画像の入力を受け付ける推定画像入力工程と、前記推定画像から前記推論モデルを用いて前記物体情報を取得する推定工程と、取得した前記物体情報に基づいて場面を判定する場面判定工程とを備える。
本発明に係る場面推定方法においては、第2の分類層を含んだ推論モデルを用いることによって画像の場面を考慮した物体の認識ができるので、画像に写る物体のより細かい分類が高い精度で可能となる。そのため、物体の認識結果に基づいて画像に写る場面の判定を行うことができる。
【発明の効果】
【0011】
本発明によれば、画像から場面を精度よく判定することを低コストで実現可能にする。
【図面の簡単な説明】
【0012】
図1】本発明の実施形態に係る場面認識システムの概略構成図である。
図2】場面判定画像のイメージ図である。
図3】推論モデルのイメージ図である。
図4】推論モデルの学習方法を説明するための図である。
図5】本発明の実施形態に係る場面認識システムの動作を示すフローチャートの一例である。
図6】比較例として、YOLOに基づく処理を示すフローチャートである。
図7】比較例として、SSDに基づく処理を示すフローチャートである。
図8】比較例での物体認識結果のイメージ図である。
図9】本発明の実施形態に係る推論モデルでの物体認識結果のイメージ図である。
【発明を実施するための形態】
【0013】
以下、本発明の実施をするための形態を、適宜図面を参照しながら詳細に説明する。各図は、本発明を十分に理解できる程度に、概略的に示してあるに過ぎない。よって、本発明は、図示例のみに限定されるものではない。なお、各図において、共通する構成要素や同様な構成要素については、同一の符号を付し、それらの重複する説明を省略する。
【0014】
<実施形態に係る場面認識システムの構成について>
図1を参照して、実施形態に係る場面認識システム9の構成について説明する。図1は、実施形態に係る場面認識システム9の概略構成図である。
場面認識システム9は、撮影画像に基づいて撮影された場面(シーン)を認識するシステムである。場面認識システム9は、場面の認識を必要とする様々な場面で使用することができ、認識の対象となる場面は、業種、用途などを限定されない。例えば、場面認識システム9をトンネル工事に用いることで、撮影画像からトンネル施工工程(例えば、発破作業、ズリ出し作業、コンクリートの吹付け作業など)を認識できる。
【0015】
図1に示すように、場面認識システム9は、カメラ1,2と、物体学習装置10と、場面推定装置20とを有する。
カメラ1は、撮影した学習用映像を物体学習装置10に出力する。カメラ2は、撮影した推定用映像を場面推定装置20に出力する。カメラ1,2は、例えば、デジタル画像を取得可能なビデオカメラである。カメラ1,2は同じカメラでもよい。
【0016】
物体学習装置10は、画像に写る物体と当該物体に関する物体情報との関係を学習する装置である。物体情報は、物体を分類や特定するための情報であり、例えば物体の種類である。物体学習装置10は、学習用映像入力部11と、教師データ生成部12と、深層学習部13と、記憶部14とを有する。
【0017】
学習用映像入力部11は、カメラ1から入力された学習用映像に対して、事前に指定された抽出レートで学習対象となる学習画像を抽出し、その学習画像を教師データ生成部12に出力する。例えば、学習用映像が「60フレーム/秒」で撮影され、抽出レートが「10フレーム/秒」の場合、1秒の学習用映像から「10枚」の学習画像が抽出され、その他の「50枚」の画像は抽出されずに破棄される。なお、映像を入力する学習用映像入力部11に代えて、静止画像を入力する学習画像入力部(図示せず)を備える構成であってもよい。学習用映像入力部11は、学習画像入力部の一例である。また、カメラ1から学習用映像や学習画像を直接入力せず、学習用映像や学習画像を記憶する記憶手段(例えば、ファイルサーバ)から学習用映像や学習画像を入力してもよい。つまり、学習用映像や学習画像の入力方法は限定されない。
【0018】
教師データ生成部12は、学習用映像入力部11が抽出した学習画像を表示装置(図示省略)でユーザに閲覧させ、そのユーザから教師データとしてのタグの入力を受け付ける。タグとは、学習画像内のどの位置に何が写っているかを示す物体の情報である。そして、教師データ生成部12は、学習画像とタグとの組み合わせを深層学習部13に出力する。教師データ生成部12は、通常、学習画像とタグの組を複数組セットにした学習用データセットを生成し、この学習用データセットを深層学習部13に出力するが、学習画像とタグの組を1組ずつ深層学習部13に出力してもよい。
【0019】
深層学習部13は、学習用データセットから推論モデルを生成する装置である。推論モデルは、画像を入力することによって当該画像に写る物体に関する物体情報を出力するプログラムである。深層学習部13は、学習前のCNNなどの学習モデル(「初期モデル」と称する)に対して、学習画像とタグとの組み合わせを入力することにより、初期モデルの学習(パラメータの調整等)を行い、その結果としての学習済の推論モデルを記憶部14に書き出す。
記憶部14は、深層学習部13により生成された推論モデルを受け取り、要求に応じて受け渡し可能な状態で推論モデルを記憶する。
【0020】
場面推定装置20は、画像に写る場面を推定する装置である。場面推定装置20は、物体学習装置10が学習した推論モデルを用いて場面を推定する。場面推定装置20は、推定用映像入力部21と、推定部22と、推定結果記憶部23とを有する。
推定用映像入力部21は、カメラ2から入力された推定用映像に対して、事前に指定された抽出レートで推定対象となる推定画像を抽出し、その推定画像を推定部22に出力する。なお、映像を入力する推定用映像入力部21に代えて、静止画像を入力する推定画像入力部(図示せず)を備える構成であってもよい。推定用映像入力部21は、推定画像入力部の一例である。また、カメラ2から推定用映像や推定画像を直接入力せず、推定用映像や推定画像を記憶する記憶手段(例えば、ファイルサーバ)から推定用映像や推定画像を入力してもよい。つまり、推定用映像や推定画像の入力方法は限定されない。
【0021】
推定部22は、推論モデルを用いて推定画像から物体情報を取得する。例えば、推定部22は、学習済の推論モデルを記憶部14から読み出し、その推論モデルに対して推定画像を入力することにより、推定画像に対応するタグを推論モデルから取得する。推定部22は、推定画像と推論モデルから取得したタグ(推定画像のどこに何が映っているか)とを推定結果記憶部23に書き出す。
【0022】
場面判定部24は、推定部22で取得した物体情報に基づいて推定画像の場面を判定する。例えば、場面判定部24は、推定画像のタグを推定結果記憶部23から読み出して、画像に写る物体の種類に基づいて推定画像の場面を判定する。場面判定部24は、例えば、物体の種類と場面との関係を示すテーブルを有しており、そのテーブルに基づいて場面を判定する。場面判定部24は、画像における物体の位置と種類とを把握し、物体の位置と種類との関係から推定画像の場面を判定してもよい。
場面判定部24は、推定画像と判定した場面の情報(場面情報)とを対応付けて表示装置(図示せず)に出力する。場面判定部24は、例えば、推定画像の一部に場面情報を付加した状態の場面判定画像90(図2参照)を表示装置に出力する。図2に示す場面判定画像90には、左上の角部分に場面情報「shotcrete(吹付けコンクリート)」が付加されており、当該画像を見たユーザは「コンクリートの吹付け作業」を行っていることが一目で理解できる。場面判定画像90の切羽付近には、コンクリート吹付機91が写っており、「コンクリートの吹付け作業」の場面判定は正しいことが分かる。
【0023】
図3および図4を参照して(適宜、図1および図2を参照)、推論モデル8について説明する。図3は、推論モデル8のイメージ図である。図4は、推論モデル8の学習方法を説明するための図である。図3に示すように、推論モデル8は、推論モデルの基礎となる基礎モデル50と、基礎モデル50の前工程の処理を行う前処理部60とを備える。
図3に示す前処理部60は、第2の分類層66を有する。第2の分類層66は、図4に示す第2の学習工程(ステップS20)によって生成される。第2の分類層66は、推定画像を受け、基礎モデル50の入力層51に処理後のデータを渡す。つまり、第2の分類層66の後段に基礎モデル50が結合される。
【0024】
図3に示すように、基礎モデル50は、入力層51、特徴抽出伝播層59、第1の分類層56、出力層57の順に接続されて構成される。基礎モデル50は、画像から物体検出可能な学習モデルであり、例えば、YOLO、SSD等の学習モデルである。基礎モデル50は、図4に示す第1の学習工程(ステップS10)によって生成される。
入力層51は、第2の分類層66の出力結果を受け、特徴抽出伝播層59に伝搬する。
特徴抽出伝播層59は、入力層51の出力結果から物体情報の推定に用いられる特徴点(特徴量)を抽出し、抽出した情報を次層へ伝播させる(例えば、抽出した情報をそのまま直列で次層へ伝播させる)層である。特徴抽出伝播層59は、画像内から特定のパターンを抽出するフィルタとして機能する畳み込み層52,54と、画像サイズを集約して後段の層に扱いやすくするためのプーリング層53,55とを接続して構成される。なお、図3では、(2層の畳み込み層52,54)+(2層のプーリング層53,55)=合計4層から構成される特徴抽出伝播層59を例示したが、各層の数は任意である。
第1の分類層56は、特徴抽出伝播層59の出力結果を受け、特徴抽出伝播層59の特徴量に基づく分類を行う層である。第1の分類層56は、特徴抽出伝播層59(末尾の第1の分類層56)と全結合される。本実施形態での第1の分類層56は、全結合されている全結合層(Fully Connected Layer)である。なお、第1の分類層56は、全結合されるものでなくてもよい。
出力層57は、第1の分類層56の出力結果を受け、物体情報を出力する層である。
【0025】
図4に示すように、推論モデル8(図3参照)の学習工程は、「第1の学習工程(ステップS10)」と、「第2の学習工程(ステップS20)」と、「結合工程(ステップS30)」と、を有する。深層学習部13(図1参照)は、図4に示す第1の学習部13Aおよび第2の学習部13Bを有する。第1の学習部13Aは、第1の学習工程(ステップS10)の処理を実施し、また、第2の学習部13Bは、第2の学習工程(ステップS20)の処理を実施する。
【0026】
<第1の学習工程(ステップS10)>
図4に示す第1の学習工程(ステップS10)は、基礎モデル50を生成する工程である。基礎モデル50は、画像から物体認識可能なもの(例えばYOLOモデル、SSDモデル等)である。第1の学習部13Aは、学習画像の特定部分と当該特定部分に写る物体に関する物体情報との組合せを用いて初期モデルを学習させて基礎モデル50を生成する。基礎モデル50の学習方法は限定されず、様々な学習方法を用いることが可能である。
学習前の初期モデルを用意し、学習画像とタグ(学習画像のどこに何が映っているか)の組を複数組セットにした学習用データセットを第1の学習部13Aに渡すことによって第1の学習工程(ステップS10)の処理が開始される。
【0027】
第1の学習部13Aは、初期モデルの入力層に学習画像を入力し(ステップS11)、特徴抽出伝播層の処理を行う(ステップS12)。ステップS12では、所定の方法(例えば、誤差更新方法)により特徴抽出伝播層を学習する。ステップS12では、畳み込み層による畳み込み処理およびプーリング層によるプーリング処理を任意の回数繰り返し実行する(ステップS12A)。これにより、各々の畳み込み層(各フィルタ)によって特徴が分割される。また、初期モデルの分類層による特徴量に基づく分類処理を実行する(ステップS12B)。これにより、画像から物体認識可能な基礎モデル50が生成される。図3に示すように、基礎モデル50は、第1の学習工程で学習された第1の分類層56を有する。第1の学習部13Aは、生成した基礎モデル50を深層学習部13に出力する(ステップS13)。
【0028】
<第2の学習工程(ステップS20)>
図4に示す第2の学習工程(ステップS20)は、基礎モデル50に含まれる特徴抽出伝播層59を用いて再学習を行い、基礎モデル50に含まれる第1の分類層56とは異なる第2の分類層66(図3参照)を生成する工程である。そのため、第2の学習工程(ステップS20)は、第1の学習工程(ステップS10)の後で実施される。
第2の学習工程(ステップS20)では、学習画像がどのような場面であるかの情報(場面情報)をタグとして用いて学習を行う。第2の学習工程(ステップS20)で使用する学習画像は、第1の学習工程(ステップS10)で使用したものと同じ画像であってよく、本実施形態でも同じ画像を使用することを想定して説明する。ただし、第1の学習工程(ステップS10)と第2の学習工程(ステップS20)とで同じ学習画像を用いないことも可能である。第1の学習工程(ステップS10)で使用する学習画像を「第1の学習画像」と呼び、また、第2の学習工程(ステップS20)で使用する学習画像を「第2の学習画像」と呼ぶ場合がある。なお、第2の学習工程(ステップS20)では、第1の学習工程(ステップS10)とは異なり、撮影画像から場面を正確に推定できるまで学習させなくてよい(例えば、推定の精度が低いものであってよい)。例えば、認識率が更新されなくなるまで学習を行うのがよく、ケースによっては学習を収束させなくてもよい場合もある。
第1の学習工程(ステップS10)で生成した基礎モデル50を用意し、学習画像とタグ(学習画像がどのような場面であるか)の組を複数組セットにした学習用データセットを第2の学習部13Bに渡すことによって第2の学習工程(ステップS20)の処理が開始される。
【0029】
第2の学習部13Bは、基礎モデル50の入力層に学習画像を入力し(ステップS21)、特徴抽出伝播層の処理を行う(ステップS22)。ここで、畳み込み層およびプーリング層は、第1の学習工程(ステップS10)で既に学習が実施されたものであるが、第1の学習工程(ステップS10)とはパラメータを変更してある。つまり、第2の学習工程(ステップS20)では、畳み込み層およびプーリング層のパラメータを第1の学習工程(ステップS10)とは異なる任意の値に変更して再学習を行う。ステップS22では、所定の方法(例えば、誤差更新方法)により特徴抽出伝播層を学習する。ステップS22では、畳み込み層による畳み込み処理およびプーリング層によるプーリング処理を任意の回数繰り返し実行する(ステップS22A)。これにより、各々の畳み込み層(各フィルタ)によって特徴が分割される。また、新たに分類層による特徴量に基づく分類処理を実行する(ステップS22B)。これにより、基礎モデル50に含まれる第1の分類層56とは異なる第2の分類層66(図3参照)が生成される。第2の学習部13Bは、生成した第2の分類層66を深層学習部13に出力する(ステップS23)。本実施形態での第2の分類層66は、全結合されている全結合層(Fully Connected Layer)である。なお、第2の分類層66は、全結合されるものでなくてもよい。
【0030】
<結合工程(ステップS30)>
図4に示す結合工程(ステップS30)は、第1の学習工程(ステップS10)で生成した基礎モデル50と、第2の学習工程(ステップS20)で生成した第2の分類層66とを結合し、推論モデル8を生成する工程である。第2の分類層66と基礎モデル50との結合は、データの受け渡しが可能であればよく、データの受け渡し方法は限定されない。図4に示すように、第2の分類層66は、基礎モデル50の前工程として結合される。例えば、第2の分類層66と基礎モデル50とを別々のプログラムとして作成し、第2の分類層66の処理の後で基礎モデル50をラップして処理するようにする。第2の分類層66と基礎モデル50とが結合されて生成された推論モデル8は、推定画像を入力することによって物体情報を出力する(図3参照)。
【0031】
<実施形態に係る場面認識システムの動作について>
図5を参照して(適宜、図1ないし図4を参照)、実施形態に係る場面認識システム9の動作について説明する。図5は、実施形態に係る場面認識システム9の動作を示すフローチャートの一例である。場面認識システム9の動作は、「学習工程」と「推定工程」とを有する。
【0032】
[学習工程]
学習する前の初期モデル(例えば、YOLOモデルやSSDモデルなど)の入力層(サイズ=W×H×RGB)に、全学習素材を入力する(ステップS11)。サイズ「W×H×RGB」は、画像サイズ「W(横の要素数)×H(縦の要素数)」と、色情報数「RGB(Red,Green,Blue)」との組み合わせである。サイズ「W×H×RGB」の積は、学習モデルの入力層に含まれるニューロンの数を意味する。例えば、サイズ「416×416×3」の学習画像を入力層に入力する。次に、入力層から特徴抽出伝播層(例えば、16個の畳み込み層)に学習素材を伝搬することで、初期モデルを畳み込み学習する(ステップS12)。第1の学習部13Aは、入力された全学習素材について最後まで学習を実行し、基礎モデル50を生成する(ステップS30)。
【0033】
続いて、第2の学習部13Bは、生成した基礎モデル50のレイヤーのみを別パラメータを用いて別途再学習する(ステップS20)。例えば、「Weights」「Dense」「Dropout」「Activation」の四つを変更して再学習を行う。パラメータの変更は、種々の最適化ツールを用いて行うことも可能であり、モデル解析を実行しその結果に基づいてレイヤーの並びを入れ替えたり増減させたりしてもよい。次に、深層学習部13は、基礎モデル50と再学習した第2の分類層66(Fully Connected Layer)とを結合する(ステップS30)。このとき、第2の分類層66の下流側に基礎モデル50を結合させる。第2の分類層66のサイズは、例えば「1024×1024×3」であり、入力層よりも大きくなっている。これにより、推論モデル8が生成され、学習工程が完了する。
【0034】
[推定工程]
推定部22は、学習工程で生成した推論モデル8を用いて、対象のフレームを演算処理する(ステップS40)。推定部22は、第2の分類層66、基礎モデル50の順番で対象のフレームを読み込ませて処理を行う。次に、場面判定部24は、例えばフレームの一部に場面情報を付加した状態の場面判定画像90(図2参照)を推定結果として表示装置に出力する(ステップS50)。
【0035】
以上のように、実施形態に係る場面認識システム9においては、画像に写る場面を判定した場面情報を用いて学習を行うので、第2の分類層66には画像に写る場面が反映されている。そのため、第2の分類層66を含んだ推論モデル8を用いることによって画像の場面を考慮した物体の認識ができるので、画像に写る物体のより細かい分類が高い精度で可能となる。その結果、物体の認識結果に基づいて画像に写る場面の判定を行うことができる。なお、第2の学習部13Bでは、画像全体を学習させているものの、画像から場面を推定できるまで学習させなくてよいので、学習が収束しなかったり、学習コストが非常に高くなるといった問題が発生し難い。
【0036】
以上、図1ないし図5を参照して、本実施形態の場面認識システム9を説明した。以下の図6ないし図9では、比較例(非特許文献1のYOLO、非特許文献2のSSD)と比較することで、場面認識システム9の効果を説明する。
【0037】
図6は、比較例として、YOLOに基づく処理を示すフローチャートである。
比較例に係る学習装置は、YOLOモデルの入力層(サイズ=416×416×3)に、全学習素材を入力する(S401)。
この学習装置は、S401の入力層から53個の畳み込み層に学習素材を伝搬することで、YOLOモデルを学習する(S402)。
学習装置は、学習素材の特徴点を集約する層(サイズ=7×7×30)をS402の畳み込み層に追加することで、学習モデルを生成する(S403)。なお、層のサイズや層の数は、デフォルト値であるが、別の値を用いてもよい。
【0038】
図7は、比較例として、SSDに基づく処理を示すフローチャートである。
比較例に係る学習装置は、SSDモデル入力層(サイズ=224×224×3)に、全学習素材を入力する(S501)。
学習装置は、S501の入力層から16個の畳み込み層に学習素材を伝搬することで、SSDモデルを学習する(S502)。
学習装置は、学習素材の特徴点を集約する層(サイズ=19×19×1024)をS502の畳み込み層に追加することで、学習モデルを生成する(S503)。なお、層のサイズや層の数は、デフォルト値であるが、別の値を用いてもよい。
学習装置は、S501の学習素材とは別の学習素材で学習済の任意の補助モデル(例えばVGG-16)の後に、S503の学習モデルを結合した結合モデルを生成する(S504)。
学習装置は、学習素材の特徴点を集約する層(サイズ=13×13×256)をS504の結合モデルに追加することで、学習モデルを生成する(S505)。
【0039】
図8に比較例による物体認識結果を示す。図8に示す画像190では、切羽付近にある建設機械91が「掘削機」であると誤認識している(正しくは「コンクリート吹付機」である)。これは、建設機械91の後部のみしか撮影できておらず、特徴的な前部を撮影できていないことが主な原因である。
これに対して、本発明の推論モデル8による物体認識結果を図9に示す。図9に画像290では、建設機械91の後部からでも当該建設機械91が「コンクリート吹付機」であると正しく認識できている。そのため、本実施形態に係る場面認識システム9においては、図9に示す認識結果に基づいて、「コンクリートの吹付け作業」の場面判定を行うことが可能である(図2参照)。
【0040】
以上、本発明の実施形態について説明したが、本発明はこれに限定されるものではなく、特許請求の範囲の趣旨を変えない範囲で実施することができる。
例えば、本実施形態ではトンネル施工工程(例えば、発破作業、ズリ出し作業、コンクリートの吹付け作業など)を認識する場合を説明したが、他の分野(例えば防犯分野)にも適用可能である。
【符号の説明】
【0041】
1,2 カメラ
8 推論モデル
9 場面認識システム
10 物体学習装置
11 学習用映像入力部(学習画像入力部)
12 教師データ生成部
13 深層学習部
13A 第1の学習部
13B 第2の学習部
14 記憶部
20 場面推定装置
21 推定用映像入力部(推定画像入力部)
22 推定部
23 推定結果記憶部
24 場面判定部
50 基礎モデル
51 入力層
52,54 畳み込み層
53,55 プーリング層
56 第1の分類層
57 出力層
59 特徴抽出伝播層
60 前処理部
66 第2の分類層
図1
図2
図3
図4
図5
図6
図7
図8
図9