IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧

特許7621851学習装置、処理システム、学習方法、処理方法、プログラム、及び記憶媒体
<>
  • 特許-学習装置、処理システム、学習方法、処理方法、プログラム、及び記憶媒体 図1
  • 特許-学習装置、処理システム、学習方法、処理方法、プログラム、及び記憶媒体 図2
  • 特許-学習装置、処理システム、学習方法、処理方法、プログラム、及び記憶媒体 図3
  • 特許-学習装置、処理システム、学習方法、処理方法、プログラム、及び記憶媒体 図4
  • 特許-学習装置、処理システム、学習方法、処理方法、プログラム、及び記憶媒体 図5
  • 特許-学習装置、処理システム、学習方法、処理方法、プログラム、及び記憶媒体 図6
  • 特許-学習装置、処理システム、学習方法、処理方法、プログラム、及び記憶媒体 図7
  • 特許-学習装置、処理システム、学習方法、処理方法、プログラム、及び記憶媒体 図8
  • 特許-学習装置、処理システム、学習方法、処理方法、プログラム、及び記憶媒体 図9
  • 特許-学習装置、処理システム、学習方法、処理方法、プログラム、及び記憶媒体 図10
  • 特許-学習装置、処理システム、学習方法、処理方法、プログラム、及び記憶媒体 図11
  • 特許-学習装置、処理システム、学習方法、処理方法、プログラム、及び記憶媒体 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-01-17
(45)【発行日】2025-01-27
(54)【発明の名称】学習装置、処理システム、学習方法、処理方法、プログラム、及び記憶媒体
(51)【国際特許分類】
   G06T 7/00 20170101AFI20250120BHJP
   G06N 20/00 20190101ALI20250120BHJP
【FI】
G06T7/00 350B
G06N20/00 130
【請求項の数】 15
(21)【出願番号】P 2021049516
(22)【出願日】2021-03-24
(65)【公開番号】P2022148006
(43)【公開日】2022-10-06
【審査請求日】2023-09-22
【前置審査】
(73)【特許権者】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(74)【代理人】
【識別番号】110004026
【氏名又は名称】弁理士法人iX
(72)【発明者】
【氏名】瀧 利和
【審査官】佐田 宏史
(56)【参考文献】
【文献】特開2020-181467(JP,A)
【文献】特開2021-012665(JP,A)
【文献】特開2021-093161(JP,A)
【文献】中国特許出願公開第110378257(CN,A)
【文献】藤田 悠介、浜本 義彦,“画像処理によるアナログメータ自動読み取り”,電気学会論文誌C,日本,(社)電気学会,2009年05月01日,Vol.129, No.5,pp.901-908
【文献】Tao Ni et al.,"Multi-meter Intelligent Detection and Recognition Method under Complex Background",2020 39th Chinese Control Conference (CCC),米国,IEEE,2020年07月27日,pp.7135-7141
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00,3/00,5/00,7/00-7/90
G06V 10/00-10/98
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
複数の目盛及び指針を含む計器が写る第1画像を用いて、前記複数の目盛に対して前記指針が相対的に回転した第2画像を生成し、
前記第2画像を変形させ、
変形させた前記第2画像を用いて、計器画像を処理する第1モデルを学習させる、
学習装置。
【請求項2】
前記第2画像における前記指針の領域を示す教示画像を生成し、
前記第2画像を入力データとし、前記教示画像を教師データとして用いて、前記第1モデルを学習させる、請求項1記載の学習装置。
【請求項3】
複数の目盛及び指針を含む計器が写る第1画像から、前記指針を含む指針領域、前記複数の目盛を含む目盛領域、及び前記計器の文字を含む文字領域を抽出し、
前記目盛領域に含まれる前記複数の目盛と前記文字領域に含まれる文字を対応付け、
前記複数の目盛に対して前記指針が相対的に回転した第2画像を生成し、
前記目盛領域と前記文字領域との対応から、前記第2画像における前記計器の示度を算出し、
前記第2画像を入力データとし、前記示度を教師データとして用いて、計器画像を処理する第1モデルを学習させる、学習装置。
【請求項4】
前記第2画像の生成において、
前記第1画像における前記指針の領域の位置及び前記指針の回転中心の位置を取得し、
前記第1画像から前記指針を消去し、
前記指針が消去された前記第1画像に、前記回転中心を中心として回転させた前記指針を合成する、
請求項1~3のいずれか1つに記載の学習装置。
【請求項5】
前記第2画像の生成において、
前記第1画像における前記指針の領域の位置及び前記指針の回転中心の位置を取得し、
前記第1画像から前記指針を消去し、
前記指針が消去された前記第1画像を、前記回転中心を中心として回転させ、
回転させた前記第1画像に、消去した前記指針を合成する、
請求項1~3のいずれか1つに記載の学習装置。
【請求項6】
前記計器の目盛の認識結果から、前記指針の回転範囲を設定し、
前記回転範囲内で前記複数の目盛に対して前記指針を相対的に回転させ、前記第2画像を生成する、請求項1~4のいずれか1つに記載の学習装置。
【請求項7】
前記第1画像を用いて、前記第1モデルを学習させる、請求項1~6のいずれか1つに記載の学習装置。
【請求項8】
前記指針の位置が互いに異なる複数の前記第2画像を生成し、
前記複数の第2画像を用いて、前記第1モデルを順次学習させる、請求項1~7のいずれか1つに記載の学習装置。
【請求項9】
請求項1記載の学習装置と、
前記第1画像から、前記指針を含む指針領域、前記計器の目盛を含む目盛領域、及び前記計器の文字を含む文字領域を抽出し、
前記指針領域、前記目盛領域、及び前記文字領域に基づいて、前記第1画像における前記計器の示度を読み取る、
読取装置と、
を備え、
前記学習装置は、前記読取装置によって抽出された前記指針領域を用いて、前記第2画像を生成する、処理システム。
【請求項10】
前記第1モデルは、計器画像の入力に応じて指針領域を識別し、
前記学習装置は、前記第1モデルの精度を示す第1評価値を算出し、
前記第1評価値が第1条件を満たした後、前記読取装置は、前記目盛領域と、前記文字領域と、前記第1モデルによって識別された前記指針領域と、に基づいて、前記示度を読み取る、請求項記載の処理システム。
【請求項11】
前記学習装置は、計器画像の入力に応じて示度を識別する第2モデルをさらに学習させ、
前記学習装置は、前記第2モデルの精度を示す第2評価値を算出し、
前記第2評価値が第2条件を満たした後、前記読取装置は、前記第2モデルの出力から前記示度を取得する、請求項記載の処理システム。
【請求項12】
コンピュータが、
指針を含む計器が写る第1画像を用いて、前記指針を回転させた第2画像を生成し、
前記第2画像を変形させ、
変形させた前記第2画像を用いて、計器画像を処理する第1モデルを学習させる、
学習方法。
【請求項13】
コンピュータが、
複数の目盛及び指針を含む計器が写る第1画像から、前記指針を含む指針領域、前記複数の目盛を含む目盛領域、及び前記計器の文字を含む文字領域を抽出し、
前記目盛領域に含まれる前記複数の目盛と前記文字領域に含まれる文字を対応付け、
前記複数の目盛に対して前記指針が相対的に回転した第2画像を生成し、
前記目盛領域と前記文字領域との対応から、前記第2画像における前記計器の示度を算出し、
前記第2画像を入力データとし、前記示度を教師データとして用いて、計器画像を処理する第1モデルを学習させる、
学習方法。
【請求項14】
請求項12又は13に記載の学習方法と、
コンピュータが、
前記第1画像から、前記指針を含む指針領域、前記計器の目盛を含む目盛領域、及び前記計器の文字を含む文字領域を抽出し、
前記指針領域、前記目盛領域、及び前記文字領域に基づいて、前記第1画像における前記計器の示度を読み取る、
読取方法と、
を備え、
前記学習方法を実行する前記コンピュータは、前記読取方法によって抽出された前記指針領域を用いて、前記第2画像を生成する、処理方法。
【請求項15】
コンピュータに、請求項12又は13に記載の学習方法を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、学習装置、処理システム、学習方法、処理方法、プログラム、及び記憶媒体に関する。
【背景技術】
【0002】
画像から計器の示度を読み取る技術がある。読取のロバスト性を向上させるためには、画像処理モデルを用いることが有効である。モデル学習時のユーザの負担を軽減可能な技術が求められている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2007-114828号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明が解決しようとする課題は、モデル学習時のユーザの負担を軽減可能な、学習装置、処理システム、学習方法、処理方法、プログラム、及び記憶媒体を提供することである。
【課題を解決するための手段】
【0005】
実施形態に係る学習装置は、指針を含む計器が写る第1画像を用いて、前記指針を回転させた第2画像を生成させる。前記学習装置は、前記第2画像を用いて、計器画像を処理する第1モデルを学習させる。
【図面の簡単な説明】
【0006】
図1】第1実施形態に係る学習装置の構成を表す模式図である。
図2】実施形態に係る学習装置の処理を説明するための模式図である。
図3】実施形態に係る学習装置の処理を説明するための画像である。
図4】実施形態に係る学習装置の処理を説明するための画像である。
図5】実施形態に係る学習方法を表すフローチャートである。
図6】第2実施形態に係る処理システムの構成を表す模式図である。
図7】第2実施形態に係る処理方法を表すフローチャートである。
図8】第2実施形態に係る読取方法を表すフローチャートである。
図9】第2実施形態の変形例に係る処理システムの構成を表す模式図である。
図10】第2実施形態の変形例に係る処理方法を表すフローチャートである。
図11】第2実施形態の変形例に係る処理方法を表すフローチャートである。
図12】ハードウェア構成を表す模式図である。
【発明を実施するための形態】
【0007】
以下に、本発明の各実施形態について図面を参照しつつ説明する。本願明細書と各図において、既に説明したものと同様の要素には同一の符号を付して詳細な説明は適宜省略する。
【0008】
(第1実施形態)
図1は、第1実施形態に係る学習装置の構成を表す模式図である。
学習装置10は、計器画像を処理する第1モデルを学習させる。計器画像には、指針を含む計器が写されている。学習装置10は、取得部11、生成部12、及び学習部13を含む。
【0009】
計器は、アナログメータである。計器は、回転する指針と、指針の回転中心の周りに配列された複数の目盛と、複数の目盛の少なくとも一部に対応して記された複数の文字と、を含む。複数の目盛は、円状に配列されていても良いし、円弧状に配列されていても良い。複数の目盛及び複数の文字は、表示盤に記載されている。表示盤の外縁、計器の外枠などは、円又は円状(例えば楕円やオーバルなど)である。表示盤の外縁及び計器の外枠は、四角状でも良い。文字は、例えば数字である。
【0010】
計器の種類は、任意である。例えば、計器は、温度計、湿度計、圧力計、電流計、電圧計、電力計、周波数計、又は速度計などである。計器の示度は、温度、湿度、圧力値、電流値、電圧値、電力値、周波数、又は速度を示す。
【0011】
取得部11は、計器が写る第1画像について、指針を含む指針領域の位置を取得する。第1画像は、計器画像の一種である。例えば、取得部11は、第1画像を処理し、指針領域を第1画像から抽出する。取得部11は、別の処理装置によって得られた指針領域の位置を受信しても良い。指針領域の位置は、ユーザによって指定されても良い。
【0012】
取得部11は、第1画像における指針の回転中心の位置を取得する。例えば、取得部11は、ユーザによって指定された回転中心の位置を取得する。取得部11は、画像処理モデルに第1画像を入力し、画像処理モデルの出力結果から回転中心を取得しても良い。画像処理モデルは、計器画像から指針の回転中心を識別するように、学習される。取得部11は、別の処理装置によって得られた回転中心の位置を受信しても良い。
【0013】
生成部12は、第1画像を用いて、複数の目盛に対して指針を相対的に回転させた第2画像を生成する。例えば、生成部12は、第1画像から指針を消去する。生成部12は、指針が消去された第1画像に、回転中心を中心として回転させた指針を合成する。これにより、複数の目盛に対して指針が回転した第2画像が得られる。生成部12は、第1画像から指針を消去した後に、回転中心を中心として第1画像を回転させても良い。回転させた第1画像に、消去した指針を合成する。これにより、複数の目盛が計器に対して回転した第2画像が得られる。いずれかの方法により、複数の目盛に対して、指針が相対的に回転される。
【0014】
消去には、Navier-Stokes方程式を利用したアルゴリズム、Fast Marching法、又はDeep Image Priorの方法などを用いることができる。合成では、指針が消去された第1画像において、第1画像の一部の画素が、指針画像の画素に置き換えられる。合成時に、事前に反射などの外乱成分が除去されても良い。外乱成分が除去された第1画像を用いて第2画像を生成した後に、第2画像に外乱成分が付加されても良い。合成後の画像について、指針と他の領域との非連続性を緩和するために、画像に対してフィルタリングが行われても良い。例えば、ガウンシアンフィルタ又はメディアンフィルタなどが用いられる。第2画像における指針の角度は、第1画像における指針の角度と異なる。生成部12は、第2画像を記憶装置30に保存する。
【0015】
学習部13は、記憶装置30に保存された第1モデルM1を取得する。学習部13は、第2画像を用いて、計器画像を処理する第1モデルM1を学習させる。学習部13は、学習させた第1モデルM1を記憶装置30に保存する。
【0016】
例えば、第1モデルM1は、計器画像の入力に応じて、計器の指針領域を識別する。第1モデルM1は、ニューラルネットワークを含み、セグメンテーションを実行する。好ましくは、第1モデルM1は、畳み込みニューラルネットワーク(CNN)を含む。学習時には、第2画像における指針領域を示す教示画像が用いられる。学習部13は、第2画像を入力データとし、教示画像を教師データとして用いて、第1モデルM1を学習させる。
【0017】
第1モデルM1は、計器画像の入力に応じて、計器の示度を識別しても良い。この場合も、第1モデルM1は、CNNを含むことが好ましい。学習時には、第2画像における示度が教師データとして用いられる。学習部13は、第2画像を入力データとし、示度を教師データとして用いて、第1モデルM1を学習させる。
【0018】
実施形態の利点を説明する。
従来、計器の示度は、画像処理によって指針領域、目盛領域、及び文字領域を抽出し、抽出結果に基づいて読み取られる。従来の方法では、読取処理のロバスト性について、改善の余地があった。例えば、計器画像について、計器が不鮮明である場合に、読取の精度が低下する。不鮮明な例として、低解像度、大きなノイズ(輝度の大きなばらつき)、白飛び、黒つぶれ、計器の一部に別の物が重なっていることなどが挙げられる。
【0019】
ロバスト性の向上には、計器画像を処理するためのモデルを用いることが有効である。モデルを用いることで、上述したいずれかの場合においても、読取の精度を改善できる。一方で、モデルの学習には、多くの画像が必要となる。人が計器を撮像し、学習用の画像を用意すると、多くの時間を要する。
【0020】
この課題について、実施形態に係る学習装置10は、計器が写った第1画像を用いて、指針を回転させた第2画像を生成する。そして、学習装置10は、この第2画像を用いて計器画像を処理する第1モデルM1を学習させる。実施形態によれば、既に存在する画像から、学習用の別の画像を生成できる。これにより、モデル学習時に、ユーザが学習用の画像を用意する負担を軽減できる。
【0021】
例えば、学習装置10は、第1画像から、指針の角度が互いに異なる複数の第2画像を生成する。学習装置10は、それぞれの第2画像を用いて、第1モデルM1を順次学習させる。学習装置10は、さらに第1画像を用いて、第1モデルM1を学習させても良い。
【0022】
以降では、実施形態について、より具体的に説明する。
取得部11は、前処理を実行しても良い。前処理は、切り出し、回転中心の検出、補正、各領域の抽出、及び対応付けから選択される1つ以上を含む。例えば、取得部11は、計器以外のものが写る全体画像から、第1画像を切り出す。取得部11は、指針の回転中心を検出する。取得部11は、第1画像の歪みを補正する。取得部11は、第1画像から、指針領域、目盛領域、及び文字領域をそれぞれ抽出する。取得部11は、指針が採りうる角度と示度をそれぞれ対応付ける。以下で、前処理について詳述する。
【0023】
(切り出し)
取得部11は、全体画像から、計器が写った領域の候補を抽出する。例えば、取得部11は、全体画像をグレイスケールに変換した後に、二値化する。取得部11は、エッジ検出を実行する。取得部11は、エッジで囲まれた領域の面積を算出する。複数のエッジが検出された場合は、それぞれの領域の面積を算出する。取得部11は、算出された各面積と所定の閾値とを比較し、面積が閾値以上の領域のみを選定する。また、取得部11は、輪郭の形状を検出する。取得部11は、輪郭の形状が円状又は四角形では無い場合、候補から除外する。取得部11は、残った候補の領域に計器が写っていると判定する。取得部11は、その領域を含む全体画像の一部を、第1画像として切り出す。
【0024】
(回転中心の検出)
取得部11は、第1画像における輝度差に基づいて、計器の複数の目盛を認識する。典型的には、それぞれの目盛は、計器の中心に向いて延びる線分である。取得部11は、それぞれの目盛に沿う直線を生成する。取得部11は、複数の直線の交点が集まった領域を、回転中心として検出する。
【0025】
(補正)
取得部11は、第1画像に対してエッジ検出を行い、計器の外枠を認識する。例えば、計器の外枠は、四角形である。取得部11は、計器の外枠が矩形となるように、第1画像を補正する。補正には、射影変換が好適である。射影変換を実行する際、指針の回転中心を極座標系の中心として用いることができる。補正により、第1画像の歪みが低減される。計器の外枠の形状が四角形以外の場合、取得部11は、計器の外枠に外接する四角形を生成する。取得部11は、その四角形が矩形となるように、第1画像を補正する。
【0026】
(領域の抽出)
図2(a)~図2(d)は、実施形態に係る学習装置の処理を説明するための模式図である。
取得部11は、図2(a)に表したように、第1画像100から、計器101の表示盤領域110を抽出する。典型的には、計器の表示盤には目盛及び文字が記載され、指針が表示盤に重なっている。取得部11は、図2(b)に表したように、表示盤領域110を、目盛が存在する目盛領域120と、文字が存在する文字領域130と、指針が存在する指針領域140と、に分割する。
【0027】
例えば、取得部11は、第1画像に対してエッジ検出を実行した後に、Hough変換により最も円らしいエッジを抽出する。取得部11は、抽出された円の外周部に位置する領域を、目盛領域120として抽出する。取得部11は、目盛領域120における輝度差から、複数の目盛121を認識する。
【0028】
取得部11は、目盛領域120の内側に位置する領域から、複数の文字を含む文字領域130を抽出する。取得部11は、図3(c)に表したように、文字領域130から文字を含む複数の長方形131を切り出す。取得部11は、それぞれの長方形131に含まれる文字132を認識する。
【0029】
取得部11は、目盛領域120の内側に位置し、指針141に対応するエッジが検出された領域を、指針領域140として抽出する。
【0030】
(対応付け)
取得部11は、表示盤領域110における基準線143を生成する。基準線143は、回転中心から真下に延びる直線である。取得部11は、図2(d)に表したように、目盛領域120における各目盛121に沿う直線122を生成する。また、取得部11は、直線122の交点が集まった領域を、指針141の回転中心142として検出する。取得部11は、回転中心142から真下に延びる基準線143を生成する。
【0031】
取得部11は、指針領域140に含まれる指針141と基準線143との角度θを算出する。また、取得部11は、それぞれの直線122と基準線143との間の角度を算出する。直線122の角度は、目盛121の角度に対応する。取得部11は、それぞれの文字132を目盛121の角度と対応付ける。取得部11は、目盛121の角度と文字132の対応関係から、指針141のそれぞれの角度と示度を対応付ける。
【0032】
生成部12は、第2画像を生成する際に、前処理によって得られたデータを使用しても良い。例えば、生成部12は、目盛121の認識結果を取得する。生成部12は、目盛121が認識された角度の範囲を、指針141の回転範囲として設定する。生成部12は、その回転範囲内に指針141が位置するように、複数の目盛121に対して指針141を相対的に回転させる。回転範囲内で指針141が相対的に回転することで、より学習に適した第2画像を得ることができる。
【0033】
生成部12は、学習用の教示データを生成しても良い。第1モデルM1が指針領域を識別する場合、生成部12は、第2画像を生成する際に、第2画像における指針の領域を示す教示画像を生成する。第1モデルM1が計器画像から計器の示度を識別する場合、生成部12は、取得部11によって生成された指針141の角度と示度との対応関係に基づき、回転させた指針が示す値を算出する。
【0034】
生成部12によって教示データが生成されることで、ユーザは教示データを用意する必要が無い。これにより、モデル学習時のユーザの負担を、さらに軽減できる。
【0035】
生成部12は、第2画像を変形させても良い。生成部12は、射影変換によって第2画像を歪ませる。生成部12は、第2画像の縦横比を変化させ、第2画像を変形させても良い。学習部13は、歪んだ第2画像を用いて第1モデルM1を学習させる。
【0036】
例えば、生成部12は、互いに指針の角度が異なる複数の第2画像を生成する。生成部12は、複数の第2画像をそれぞれ異なる条件で変形させる。この結果、縦横比が互いに異なる複数の第2画像が生成される。
【0037】
計器は、計器に正対する位置から撮像されるとは限らない。計器に対して斜めの位置から計器を撮像した場合、画像中の計器は歪む。実際の表示盤の外縁が円形である場合、歪んだ画像では当該表示盤の外縁が楕円形となる。歪んだ第2画像を用いて第1モデルM1を学習させることで、第1モデルM1は、歪んだ計器画像も適切に処理できるようになる。これにより、読取のロバスト性をさらに向上できる。
【0038】
図3(a)~図3(e)及び図4(a)~図4(f)は、実施形態に係る学習装置の処理を説明するための画像である。
図3(a)は、第1画像の一例である。図3(a)に表した第1画像200には、計器201が写っている。計器201は、指針241を含む。取得部11は、第1画像200における指針241の領域を取得する。取得部11は、図3(b)に表したように、第1画像から指針241を抽出する。
【0039】
生成部12は、図3(c)に表したように、第1画像200から指針241を消去する。生成部12は、図3(d)に表したように、指針241の回転範囲内において、指針241を回転させる。生成部12は、図3(c)に表した第1画像200に、図3(d)に表した指針241を合成し、図3(e)に表した第2画像250を生成する。
【0040】
図4(a)、図4(c)、及び図4(e)は、第2画像の別の例である。図4(b)、図4(d)、及び図4(f)に表した教示画像261~263は、それぞれ、図4(a)、図4(c)、及び図4(e)の第2画像251~253に対応する。図4(b)、図4(d)、及び図4(f)では、指針及び計器の外枠が、アノテーション261a~263aによってそれぞれ示されている。アノテーションは、第1モデルの学習のためにユーザが付与したラベルである。生成部12は、第2画像251~253を生成する際に、教示画像261~263を生成する。学習部13は、第2画像と教示画像のセットを用いて、第1モデルを順次学習させる。
【0041】
計器は、複数の指針を含んでも良い。第1モデルM1が画像から複数の指針を識別する場合、第1モデルM1は、それぞれの指針を区別して識別できることが好ましい。第1モデルM1が画像から複数の示度を識別する場合、第1モデルM1は、それぞれの指針の示度を区別して識別できることが好ましい。例えば、第1モデルM1は、インスタンスセグメンテーションを実行する。インスタンスセグメンテーションにより、それぞれの指針を区別して識別できる、又は、それぞれの指針の示度を区別して識別できる。
【0042】
図5は、実施形態に係る学習方法を表すフローチャートである。
学習装置10は、図5に表した学習方法TMを実行する。取得部11は、前処理を実行する(ステップS1)。生成部12は、第1画像から指針を消去する(ステップS2)。生成部12は、抽出した指針を複数の目盛に対して相対的に回転させる(ステップS3)。生成部12は、第2画像を生成する(ステップS4)。生成部12は、教示データを生成する(ステップS5)。学習部13は、第2画像及び教示データを用いて第1モデルM1を学習させる(ステップS6)。学習方法TMにおける各ステップの順序は、適宜変更可能である。例えば、ステップS3は、ステップS2の前に実行されても良いし、ステップS2と同時に実行されても良い。ステップS5は、ステップS4の前に実行されても良いし、ステップS4と同時に実行されても良い。
【0043】
(第2実施形態)
図6は、第2実施形態に係る処理システムの構成を表す模式図である。
処理システム1は、学習装置10、読取装置20、記憶装置30、撮像装置40、出力装置50、及び入力装置60を含む。撮像装置40は、計器を撮像し、画像を生成する。読取装置20は、画像から計器の示度を読み取る。学習装置10は、読取装置20の処理によって得られたデータを用いて、第1モデルM1を学習させる。
【0044】
読取装置20は、切出部21、補正部22、抽出部23、及び読取部24を含む。切出部21は、計器以外のものが写る全体画像から、第1画像を切り出す。補正部22は、第1画像を補正し、第1画像の歪みを低減する。抽出部23は、第1画像から、目盛領域、文字領域、及び指針領域を抽出する。読取部24は、目盛領域及び文字領域の抽出結果に基づき、指針が採りうる角度と示度をそれぞれ対応付ける。読取部24は、対応付けの結果及び指針領域の抽出結果に基づき、計器の示度を算出する。切出部21、補正部22、抽出部23、及び読取部24による各処理は、第1実施形態で説明した方法を用いて実行される。
【0045】
読取装置20は、切り出した第1画像、各領域の抽出結果、角度と示度の対応関係などの処理中に得られたデータを、記憶装置30に適宜保存する。学習装置10は、読取装置20の処理によって得られたデータを、記憶装置30から取得する。学習装置10は、取得したデータを用いて第2画像を生成する。学習装置10は、第2画像を用いて第1モデルM1を学習させる。
【0046】
評価部25は、第1モデルM1の精度を評価する。具体的には、第1モデルM1の精度を示す評価値を算出する。例えば、評価値が高いほど、第1モデルM1の精度が高いことを示す。評価部25は、以下の方法により評価値を算出する。評価部25は、読取装置20によって既に示度が読み取られた画像を選択する。評価部25は、選択した画像を第1モデルM1に入力し、第1モデルM1の出力結果を取得する。評価部25は、読取装置20によって得られたデータと、第1モデルM1の出力結果と、が一致しているほど、より高い評価値を算出する。
【0047】
例えば、第1モデルM1が計器の指針領域を識別する場合、評価部25は、抽出部23によって抽出された指針領域と、第1モデルM1によって識別された指針領域と、を比較する。評価部25は、それらの指針領域の一致する面積の割合が大きいほど、より高い評価値を算出する。又は、評価部25は、抽出部23による処理に基づく指針の角度と、第1モデルM1による処理に基づく指針の角度と、を比較しても良い。評価部25は、それらの角度の差が小さいほど、より高い評価値を算出する。第1モデルM1が計器の示度を識別する場合、評価部25は、読取部24によって読み取られた示度と、第1モデルM1によって識別された示度と、を比較する。評価部25は、それらの示度の差が小さいほど、より高い評価値を算出する。
【0048】
一致率が大きいほど、評価値の増加率が大きいことが好ましい。例えば、評価値と一致率との関係は、二次以上の関数で表される。又は、評価部25は、第1モデルM1の出力結果に基づく確率分布と、読取装置20によるデータに基づく確率分布と、を生成しても良い。評価部25は、これらの確率分布の差に基づいて、評価値を算出する。例えば、評価部25は、読取装置20から得られた角度又は示度を中心とした正規分布を、第1確率分布として生成する。評価部25は、第1モデルM1から得られた角度又は示度を中心とした正規分布を、第2確率分布として生成する。第1確率分布及び第2確率分布は、ヒストグラムで表されても良い。評価部25は、第1確率分布と第2確率分布が一致しているほど、より高い評価値を算出する。第1確率分布と第2確率分布の差をbhattacharyya係数などで評価した結果が、評価値として用いられても良い。
【0049】
評価部25は、ユーザから入力された正解を用いて、第1モデルM1に対する評価値を算出しても良い。読取装置20は、第1モデルM1に入力した計器画像を出力装置50に送信する。出力装置50は、計器画像をユーザに向けて出力する。入力装置60は、ユーザから正解の入力を受け付ける。評価部25は、第1モデルM1から得られた角度又は示度が、入力された正解と一致しているほど、より高い評価値を算出する。この場合、上述した通り、一致率が大きいほど、評価値の増加率が大きいことが好ましい。又は、正解の角度又は示度を用いた第1確率分布と、第2確率分布と、を用いて、評価値が算出されても良い。評価値が下記の第1条件を満たさない場合、学習装置10は、第1モデルM1に入力された計器画像と、ユーザから入力された正解と、を用いて、第1モデルM1を学習させても良い。
【0050】
評価部25は、評価値が予め設定された第1条件を満たすか判定する。例えば、第1条件として、閾値が設定される。評価値が高いほど第1モデルM1の精度が高いことを示す場合、評価部25は、評価値が閾値を超えるか判定する。評価値が第1条件を満たすと判定されると、読取装置20は、以降の読取において、第1モデルM1を使用する。第1モデルM1が計器の指針領域を識別する場合、抽出部23は、第1モデルM1に第1画像を入力し、第1モデルM1の出力から指針領域を取得する。第1モデルM1が計器の示度を識別する場合、読取部24は、第1モデルM1に第1画像を入力し、示度を取得する。この場合、抽出部23による処理は、省略されても良い。
【0051】
第2実施形態に係る処理システム1によれば、画像処理による読取を実行しつつ、第1モデルM1を学習できる。これにより、ユーザは、学習のための第1画像を用意する必要が無い。また、第1モデルM1が十分に学習された後は、第1モデルM1が自動的に読取に適用される。第1モデルM1の適用により、読取のロバスト性を向上できる。
【0052】
例えば、計器画像において、一部の目盛又は一部の文字が認識できなかった場合でも、他の目盛又は他の文字から、認識できなかった目盛又は文字を推定し、補完できる。目盛及び文字はそれぞれ複数記載されているのに比べて、指針の数は少ない。通常、1つの指針によって、1つの値が示される。指針領域が適切に抽出されず、指針が認識できない場合、示度の読取が困難となる。指針領域を識別する第1モデルM1を用いて指針領域を抽出することで、指針領域の一部が不鮮明な場合でも、指針領域の抽出の精度を向上できる。また、示度を識別する第1モデルM1を用いる場合、計器の一部が不鮮明であっても、示度の精度を向上できる。これらの結果、読取のロバスト性を向上できる。
【0053】
撮像装置40は、動画を取得しても良い。撮像装置40は、動画から計器が写った静止画を切り出す。読取装置20は、読み取った示度を出力装置50に出力しても良い。ユーザは、入力装置60を用いて、出力された示度に対する評価を読取装置20へ入力しても良い。例えば、示度に対する評価が肯定的である場合、読取装置20は、その示度を保存する。示度に対する評価が否定的である場合、読取装置20は、計器画像に対する示度の読み取りを再度実行する。又は、読取装置20は、正しい示度の入力をユーザに要求し、ユーザから入力された示度を出力装置50に出力しても良い。
【0054】
図7は、第2実施形態に係る処理方法を表すフローチャートである。
撮像装置40によって新たな画像が生成されると、処理システム1は、図7に表した処理方法PM1を実行する。切出部21は、全体画像から第1画像を切り出す(ステップS11)。補正部22は、第1画像を補正する(ステップS12)。抽出部23は、第1画像から、目盛領域、文字領域、及び指針領域を抽出する(ステップS13)。読取部24は、計器の示度を算出する(ステップS14)。その後、図5に表した学習方法TMと同様に、ステップS2~S6が実行される。評価部25は、第1モデルを評価する(ステップS15)。
【0055】
図8(a)及び図8(b)は、第2実施形態に係る読取方法を表すフローチャートである。
図7に表した処理方法PM1のステップS15において、評価値が第1条件を満たすと判定された後は、図8(a)又は図8(b)に表した読取方法RM1又はRM2が実行される。
【0056】
第1モデルM1が計器の指針領域を識別する場合、図8(a)に表した読取方法RM1が実行される。ステップS11及びS12は、図7に表した処理方法PM1と同様に実行される。抽出部23は、目盛領域及び文字領域を抽出するとともに、指針領域第1モデルを使用して指針領域を抽出する(ステップS13a)。読取部24は、計器の示度を算出する(ステップS14)。
【0057】
第1モデルM1が計器の示度を識別する場合、図8(b)に表した読取方法RM2が実行される。ステップS11は、図7に表した処理方法PM1と同様に実行される。読取部24は、第1画像を第1モデルM1に入力する(ステップS13b)。読取部24は、第1モデルM1から出力された示度を取得する(ステップS14a)。
【0058】
第2実施形態に係る処理システム1によれば、第1モデルM1の学習の進行に応じて、読取の方法を適宜切り替えることができる。第1モデルM1の適用に切り替わることで、読取処理のロバスト性を向上できる。また、ユーザが、第1モデルM1の使用への切り替えを設定する必要が無い。
【0059】
読取方法RM1又はRM2において、示度が得られた後に、図7に表した処理方法PM1におけるステップS2~S6がさらに実行されても良い。これにより、第1モデルM1の精度をさらに向上できる。
【0060】
(変形例)
図9は、第2実施形態の変形例に係る処理システムの構成を表す模式図である。
図9に表した変形例に係る処理システム2では、第1モデルM1及び第2モデルM2の2つのモデルが用いられる。第1モデルM1は、計器画像から計器の指針領域を識別する。第2モデルM2は、計器画像から計器の示度を識別する。学習装置10は、読取装置20の処理によって得られたデータを用いて、第1モデルM1及び第2モデルM2を学習させる。
【0061】
図10及び図11は、第2実施形態の変形例に係る処理方法を表すフローチャートである。
処理システム2は、図10及び図11に表した処理方法PM2a及びPM2bを実行する。まず、処理システム2は、処理方法PM2aを実行する。図7に表した処理方法PM1と同様に、ステップS11~S14及びS2~S4が実行される。生成部12は、第1モデルM1の学習用の教示画像と、第2モデルM2の学習用の示度と、を生成する(ステップS5a)。学習部13は、第2画像及び教示画像を用いて第1モデルM1を学習させ、第2画像及び示度を用いて第2モデルM2を学習させる(ステップS6a)。
【0062】
評価部25は、第1モデルM1を評価する(ステップS15a)。評価部25は、第1モデルM1の精度を評価するための第1評価値を算出する。評価部25は、第1評価値が第1条件を満たすか判定する。第1評価値が第1条件を満たす場合、第1モデルM1の精度が十分であると判定される。評価部25は、第2モデルM2をさらに評価しても良い。ただし、第2モデルM2の精度は、第1モデルM1の精度に比べて向上し難い。処理時間の短縮のために、評価部25は、第1モデルM1のみを評価しても良い。
【0063】
第1評価値が第1条件を満たした後、処理システム2は、処理方法PM2bを実行する。図8(a)に表した読取方法RM1と同様に、ステップS11~S14が実行される。図10に表した処理方法PM2aと同様に、ステップS2~S4が実行される。生成部12は、第2モデルM2の学習用の示度を生成する(ステップS5b)。学習部13は、第2画像及び示度を用いて第2モデルM2を学習させる(ステップS6b)。
【0064】
評価部25は、第2モデルM2を評価する(ステップS15b)。評価部25は、第2モデルM2の精度を評価するための第2評価値を算出する。評価部25は、第2評価値が予め設定された第2条件を満たすか判定する。第2評価値が第2条件を満たす場合、第2モデルM2の精度が十分であると判定される。例えば、第2条件として、第2閾値が設定される。第2評価値が高いほど第2モデルM2の精度が高いことを示す場合、評価部25は、第2評価値が第2閾値を超えるか判定する。
【0065】
第2評価値が第2条件を満たした後、読取装置20は、図8(b)に表した読取方法RM2と同様に、第1画像を第2モデルM2に入力し、第2モデルM2の出力から示度を取得する。
【0066】
処理方法PM2bのステップS5bにおいて、第1モデルM1の学習用の教示画像がさらに生成されても良い。ステップS6bにおいて、第1モデルM1がさらに学習されても良い。これにより、第1モデルM1の精度をさらに向上できる。読取方法RM2の実行後に、処理方法PM2bのステップS2~S6bがさらに実行されても良い。これにより、第2モデルM2の精度をさらに向上できる。
【0067】
変形例に係る処理システム2によれば、第1モデルM1及び第2モデルM2の学習の進行に応じて、読取の方法を適宜切り替えることができる。第1モデルM1の適用に切り替わることで、読取のロバスト性を向上できる。第2モデルM2の適用に切り替わることで、読取のロバスト性をさらに向上できる。また、ユーザが、第1モデルM1又は第2モデルM2の使用への切り替えを設定する必要が無い。
【0068】
図12は、ハードウェア構成を表す模式図である。
学習装置10及び読取装置20は、例えば図17に表したハードウェア構成を有する。図17に表した処理装置90は、CPU91、ROM92、RAM93、記憶装置94、入力インタフェース95、出力インタフェース96、及び通信インタフェース97を含む。
【0069】
ROM92は、コンピュータの動作を制御するプログラムを格納している。ROM92には、上述した各処理をコンピュータに実現させるために必要なプログラムが格納されている。RAM93は、ROM92に格納されたプログラムが展開される記憶領域として機能する。
【0070】
CPU91は、処理回路を含む。CPU91は、RAM93をワークメモリとして、ROM92又は記憶装置94の少なくともいずれかに記憶されたプログラムを実行する。プログラムの実行中、CPU91は、システムバス98を介して各構成を制御し、種々の処理を実行する。
【0071】
記憶装置94は、プログラムの実行に必要なデータや、プログラムの実行によって得られたデータを記憶する。
【0072】
入力インタフェース(I/F)95は、処理装置90と入力装置95aとを接続する。入力I/F95は、例えば、USB等のシリアルバスインタフェースである。CPU91は、入力I/F95を介して、入力装置95aから各種データを読み込むことができる。
【0073】
出力インタフェース(I/F)96は、処理装置90と出力装置96aとを接続する。出力I/F96は、例えば、Digital Visual Interface(DVI)やHigh-Definition Multimedia Interface(HDMI(登録商標))等の映像出力インタフェース、又はUSB等のシリアルバスインタフェースである。CPU91は、出力I/F96を介して、出力装置96aにデータを出力させることができる。
【0074】
通信インタフェース(I/F)97は、処理装置90外部のサーバ97aと、処理装置90と、を接続する。通信I/F97は、例えば、LANカード等のネットワークカードである。CPU91は、通信I/F97を介して、サーバ97aから各種データを読み込むことができる。カメラ99は、物品を撮像し、画像をサーバ97aに保存する。
【0075】
記憶装置94は、Hard Disk Drive(HDD)及びSolid State Drive(SSD)から選択される1つ以上を含む。入力装置95aは、マウス、キーボード、マイク(音声入力)、及びタッチパッドから選択される1つ以上を含む。出力装置96aは、モニタ、プロジェクタ、プリンタ、及びスピーカから選択される1つ以上を含む。タッチパネルのように、入力装置95aと出力装置96aの両方の機能を備えた機器が用いられても良い。
【0076】
記憶装置94及びサーバ97aは、記憶装置30として機能する。入力装置95aは、入力装置60として機能する。出力装置96aは、出力装置50として機能する。カメラ99は、撮像装置40として機能する。
【0077】
例えば、カメラ99は、スマートフォン又はタブレットなどのスマートデバイス、無人搬送車(AGV)、又はドローンに搭載され、計器を撮像する。カメラ99は、計器が見える位置に固定されても良い。
【0078】
2つの処理装置90が、それぞれ、学習装置10及び読取装置20として機能しても良い。1つの処理装置90が、学習装置10及び読取装置20として機能しても良い。学習装置10又は読取装置20の機能は、複数の処理装置90の協働により実現されても良い。
【0079】
以上で説明した、学習装置、処理システム、学習方法、又は処理方法を用いることで、ユーザが学習用のデータを用意する負担を軽減できる。コンピュータを、学習装置として動作させるためのプログラムを用いることで、同様の効果を得ることができる。
【0080】
上記の種々のデータの処理は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク及びハードディスクなど)、光ディスク(CD-ROM、CD-R、CD-RW、DVD-ROM、DVD±R、DVD±RWなど)、半導体メモリ、又は、他の非一時的なコンピュータで読取可能な記録媒体(non-transitory computer-readable storage medium)に記録されても良い。
【0081】
例えば、記録媒体に記録された情報は、コンピュータ(または組み込みシステム)により読み出されることが可能である。記録媒体において、記録形式(記憶形式)は任意である。例えば、コンピュータは、記録媒体からプログラムを読み出し、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させる。コンピュータにおいて、プログラムの取得(または読み出し)は、ネットワークを通じて行われても良い。
【0082】
以上、本発明のいくつかの実施形態を例示したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更などを行うことができる。これら実施形態やその変形例は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。また、前述の各実施形態は、相互に組み合わせて実施することができる。
【符号の説明】
【0083】
1,2:処理システム、 10:学習装置、 11:取得部、 12:生成部、 13:学習部、 20:読取装置、 21:切出部、 22:補正部、 23:抽出部、 24:読取部、 25:評価部、 30:記憶装置、 40:撮像装置、 50:出力装置、 60:入力装置、 90:処理装置、 91:CPU、 92:ROM、 93:RAM、 94:記憶装置、 95:入力インタフェース、 95a:入力装置、 96:出力インタフェース、 96a:出力装置、 97:通信インタフェース、 97a:サーバ、 98:システムバス、 99:カメラ、 100:第1画像、 101:計器、 110:表示盤領域、 120:目盛領域、 121:目盛、 130:文字領域、 131:長方形、 132:文字、 140:指針領域、 141:指針、 142:回転中心、 143:基準線、 200:第1画像、 201:計器、 241:指針、 250~253:第2画像、 261~263:教示画像、 M1:第1モデル、 M2:第2モデル、 PM1,PM2a,PM2b:処理方法、 RM1,RM2:読取方法、 TM:学習方法、 θ:角度
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12