IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ グローリー株式会社の特許一覧

特許7405528媒体判別装置、媒体判別システム及び媒体判別方法
<>
  • 特許-媒体判別装置、媒体判別システム及び媒体判別方法 図1
  • 特許-媒体判別装置、媒体判別システム及び媒体判別方法 図2
  • 特許-媒体判別装置、媒体判別システム及び媒体判別方法 図3
  • 特許-媒体判別装置、媒体判別システム及び媒体判別方法 図4
  • 特許-媒体判別装置、媒体判別システム及び媒体判別方法 図5
  • 特許-媒体判別装置、媒体判別システム及び媒体判別方法 図6
  • 特許-媒体判別装置、媒体判別システム及び媒体判別方法 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-18
(45)【発行日】2023-12-26
(54)【発明の名称】媒体判別装置、媒体判別システム及び媒体判別方法
(51)【国際特許分類】
   G06V 30/412 20220101AFI20231219BHJP
【FI】
G06V30/412
【請求項の数】 8
(21)【出願番号】P 2019139725
(22)【出願日】2019-07-30
(65)【公開番号】P2021022285
(43)【公開日】2021-02-18
【審査請求日】2022-05-02
【前置審査】
(73)【特許権者】
【識別番号】000001432
【氏名又は名称】グローリー株式会社
(74)【代理人】
【識別番号】110000914
【氏名又は名称】弁理士法人WisePlus
(72)【発明者】
【氏名】長谷部 英嗣
(72)【発明者】
【氏名】文野 滋子
(72)【発明者】
【氏名】横田 政憲
【審査官】真木 健彦
(56)【参考文献】
【文献】特開平11-224307(JP,A)
【文献】特許第6430672(JP,B1)
【文献】特許第6490860(JP,B1)
【文献】特開平11-016020(JP,A)
【文献】国際公開第2015/002906(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/412
G06V 30/00
(57)【特許請求の範囲】
【請求項1】
媒体の画像に基づいて、前記媒体の複数の特徴部を検出する特徴検出部と、
前記複数の特徴部に基づいて、前記媒体の種類を判別する種類判別部と、
前記複数の特徴部の間の相対位置と、前記媒体の前記種類とに基づいて、文字認識の対象となる文字認識領域を特定する認識領域特定部と、
前記文字認識領域内の文字を認識する文字認識部と、
を備え、
前記複数の特徴部は、各々、特定の文字列及びロゴの少なくとも一方を含み、
前記認識領域特定部は、媒体の種類毎に設定された位置情報であって、各特徴部及び文字認識領域のそれぞれの位置を示す位置情報のうち、前記種類判別部によって判別された前記媒体の前記種類に対応する位置情報と、前記特徴検出部によって検出された前記複数の特徴部間の相対的な位置関係とに基づいて、前記文字認識領域の位置を算出する
ことを特徴とする媒体判別装置。
【請求項2】
前記複数の特徴部の間の前記相対位置に基づいて、前記文字認識領域の向きを補正する文字認識用向き補正部を更に備え、
前記文字認識部は、向きが補正された前記文字認識領域内の文字を認識する
ことを特徴とする請求項記載の媒体判別装置。
【請求項3】
前記媒体の前記画像を表示する表示部と、
前記複数の特徴部の間の相対位置に基づいて、前記表示部に表示する前記画像の向きを補正する表示用向き補正部と、を更に備える
ことを特徴とする請求項1又は2記載の媒体判別装置。
【請求項4】
前記特徴検出部は、機械学習された推論モデルを用いて、前記複数の特徴部を検出する
ことを特徴とする請求項1~のいずれかに記載の媒体判別装置。
【請求項5】
前記特徴検出部は、前記媒体に対して少なくとも二つの特徴部の位置及びクラスがラベル情報として付されたデータセットにより機械学習された推論モデルを用いて、前記複数の特徴部を検出する
ことを特徴とする請求項1~のいずれかに記載の媒体判別装置。
【請求項6】
前記複数の特徴部と、前記媒体の前記種類とに基づいて、前記媒体の大きさを判定するとともに、前記媒体の全体が前記画像中に撮像されているか否かを判定する判定部を更に備える
ことを特徴とする請求項1~のいずれかに記載の媒体判別装置。
【請求項7】
請求項1~のいずれかに記載の媒体判別装置と、
媒体の画像を撮像する撮像装置と、
を備えることを特徴とする媒体判別システム。
【請求項8】
媒体の画像に基づいて、前記媒体の複数の特徴部を検出する特徴検出ステップと、
前記複数の特徴部に基づいて、前記媒体の種類を判別する種類判別ステップと、
前記複数の特徴部の間の相対位置と、前記媒体の前記種類とに基づいて、文字認識の対象となる文字認識領域を特定する認識領域特定ステップと、
前記文字認識領域内の文字を認識する文字認識ステップと、
を含み、
前記複数の特徴部は、各々、特定の文字列及びロゴの少なくとも一方を含み、
前記認識領域特定ステップは、媒体の種類毎に設定された位置情報であって、各特徴部及び文字認識領域のそれぞれの位置を示す位置情報のうち、前記種類判別ステップによって判別された前記媒体の前記種類に対応する位置情報と、前記特徴検出ステップによって検出された前記複数の特徴部間の相対的な位置関係とに基づいて、前記文字認識領域の位置を算出する
ことを特徴とする媒体判別方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、媒体判別装置、媒体判別システム及び媒体判別方法に関する。
【背景技術】
【0002】
従来、帳票等といった文字が記入された媒体の種類を、当該媒体の画像から判別する技術が知られている。
【0003】
例えば、特許文献1には、帳票画像から縦罫線及び横罫線の特徴を抽出し、抽出した罫線特徴を照合して複数の有力候補帳票を選択し、選択した有力候補帳票の所定の位置の印字文字と、帳票画像上の対応する領域で認識された文字との合致度に基づいて帳票の種類判別結果を出力する手法が開示されている。また、特許文献1には、取り込んだ帳票画像の縦罫線及び横罫線をそれぞれ基準の方向と平行となるように帳票画像の傾きを補正すること(例えば、段落[0021]、[0032]参照)、有力候補帳票と帳票画像の間に位置ずれが存在する場合は、この位置ずれを考慮して有力候補帳票の印字文字が印字される領域を補正すること(例えば、段落[0030]、[0067-0070]参照)、標準ヒストグラムと比較し易くするために罫線のエッジに基づくヒストグラムを圧縮することによって正規化すること(例えば、段落[0038]、[0046]、[0066]参照)等が記載されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2014-16921号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に記載の手法では、帳票画像の回転角度が大きすぎると、上述の傾き補正や位置ずれ補正を行ったとしても当該帳票の種類を精度良く判別することは困難である。また、スキャナではなくカメラで帳票画像を取り込む場合では、帳票端が画像からはみ出した場合のように帳票端が検出できないと、上述の正規化を行ったとしても、当該帳票の種類を判別できないことがある。更に、スキャナではなくカメラで帳票画像を取り込む場合は、帳票画像の大きさ(解像度)が撮影状況により一致しないことに起因して、当該帳票の種類を判別できないこともある。そもそも、特許文献1に記載の手法では、罫線がない媒体の種類を判別することはできない。
【0006】
本発明は、上記現状に鑑みてなされたものであり、種々の媒体について撮像された向き及び大きさによらずそれらの種類を高精度に判別可能な媒体判別装置、媒体判別システム及び媒体判別方法を提供することを目的とするものである。
【課題を解決するための手段】
【0007】
上述した課題を解決し、目的を達成するために、本発明は、媒体判別装置であって、媒体の画像に基づいて、前記媒体の複数の特徴部を検出する特徴検出部と、前記複数の特徴部に基づいて、前記媒体の種類を判別する種類判別部と、を備えることを特徴とする。
【0008】
また、本発明は、上記発明において、前記媒体判別装置は、前記複数の特徴部の間の相対位置と、前記媒体の前記種類とに基づいて、文字認識の対象となる文字認識領域を特定する認識領域特定部と、前記文字認識領域内の文字を認識する文字認識部と、を更に備えることを特徴とする。
【0009】
また、本発明は、上記発明において、前記媒体判別装置は、前記複数の特徴部の間の前記相対位置に基づいて、前記文字認識領域の向きを補正する文字認識用向き補正部を更に備え、前記文字認識部は、向きが補正された前記文字認識領域内の文字を認識することを特徴とする。
【0010】
また、本発明は、上記発明において、前記媒体判別装置は、前記媒体の前記画像を表示する表示部と、前記複数の特徴部の間の相対位置に基づいて、前記表示部に表示する前記画像の向きを補正する表示用向き補正部と、を更に備えることを特徴とする。
【0011】
また、本発明は、上記発明において、前記特徴検出部は、機械学習された推論モデルを用いて、前記複数の特徴部を検出することを特徴とする。
【0012】
また、本発明は、上記発明において、前記媒体判別装置は、前記複数の特徴部と、前記媒体の前記種類とに基づいて、前記媒体の大きさを判定するとともに、前記媒体の全体が前記画像中に撮像されているか否かを判定する判定部を更に備えることを特徴とする。
【0013】
また、本発明は、媒体判別システムであって、前記媒体判別装置と、媒体の画像を撮像する撮像装置と、を備えることを特徴とする。
【0014】
また、本発明は、媒体判別方法であって、媒体の画像に基づいて、前記媒体の複数の特徴部を検出する特徴検出ステップと、前記複数の特徴部に基づいて、前記媒体の種類を判別する種類判別ステップと、前記複数の特徴部の間の相対位置と、前記媒体の前記種類とに基づいて、文字認識の対象となる文字認識領域を特定する認識領域特定ステップと、前記文字認識領域内の文字を認識する文字認識ステップと、を含むことを特徴とする。
【発明の効果】
【0015】
本発明の媒体判別装置、媒体判別システム及び媒体判別方法によれば、種々の媒体について撮像された向き及び大きさによらずそれらの種類を高精度に判別することができる。
【図面の簡単な説明】
【0016】
図1】実施形態1における媒体の判別手法の概要を説明するための模式図であり、機械学習段階において媒体の複数の特徴部に対して設定された矩形のバウンディングボックスと、文字認識の対象となる文字認識領域とを示す。
図2】実施形態1における媒体の判別手法の概要を説明するための模式図であり、媒体の判別段階において検出された複数の特徴部と、検出された複数の特徴部に基づき特定された文字認識領域とを示す。
図3】実施形態1に係る媒体判別システムの全体構成を説明する図である。
図4】実施形態1に係る媒体判別装置の構成を説明するブロック図である。
図5】実施形態1における文字認識領域の特定方法を説明するための図であり、(a)は、複数の特徴部及び文字認識領域の基準の位置を示し、(b)は、特徴検出部によって検出された複数の特徴部の位置と、認識領域特定部によって特定された文字認識領域の位置とを示す。
図6】実施形態1に係る媒体判別システムで行われる媒体判別処理の手順の一例を示すフローチャートである。
図7】変形形態に係る媒体判別システムの全体構成を説明する図である。
【発明を実施するための形態】
【0017】
以下、本発明に係る媒体判別装置、媒体判別システム及び媒体判別方法の好適な実施形態を、図面を参照しながら説明する。本発明において、媒体判別装置、媒体判別システム及び媒体判別方法が判別する媒体の具体的な種類は、特に限定されず、例えば、切符(交通機関で発行される乗車券や定期券)、レシート(流通店舗等で発行されるレシート)、処方箋、テーマパーク等の入場券、ギフト券、商品券等の紙媒体が挙げられる。
【0018】
<媒体の判別手法の概要>
まず、実施形態1における媒体の判別手法の概要について説明する。本実施形態では、媒体の種類の判別に必要な複数個所の特徴部を予め登録及び機械学習することによって、判別対象の媒体の映像から当該媒体の種類を判別し、更に、当該媒体に記載された読み取りたい部分を文字認識する。また、このとき、認識した複数個所の特徴部の位置関係に基づき媒体の向きを判断し、文字が読める向きに当該媒体の映像を回転して補正する。以下、図1及び2を用いて、より詳しく説明する。
【0019】
まず、機械学習段階では、図1に示すように、事前に各種の媒体Mを撮影し、キーワードやロゴ等の判別に用いる複数の特徴部Maに矩形のバウンディングボックスを媒体毎に設定する。この設定内容に基づき教師データを作成し、Single Shot Multibox Detector(SSD)と呼ばれる機械学習アルゴリズムにより、各特徴部Maを学習する。また、図1に示したように、媒体毎に、各特徴部Maと、文字認識の対象となる文字認識領域Mbとの間の相対的な位置関係を特定し、媒体の基準情報に登録しておく。
【0020】
続いて、媒体の判別段階では、図2に示すように、まず、上記教師データを学習した推論プログラム(学習済みモデル)により、撮影した媒体Mの映像から複数の特徴部Maを検出し、検出した複数の特徴部Maの組み合わせに基づき当該媒体Mを判別する。次に、検出した複数の特徴部Maの間の相対的な位置関係と、基準情報とに基づき文字認識領域Mbを特定する。最後に、特定した文字認識領域Mb内の文字を認識する。なお、特定及び認識する文字認識領域Mbの数は、一つでも複数でもよい。
【0021】
本実施形態によれば、推論プログラム(学習済みモデル)を用いて特徴部を検出するため、媒体の向き、大きさ(画像サイズ)といった条件に関係なく、特徴部を検出することができる。また、特徴部のみから媒体の判別を行うため、特徴部以外の手書き部分やスタンプ部分といった媒体によって変動する箇所の影響を受けにくい。
【0022】
<媒体判別システムの全体構成>
次に、図3を用いて、本実施形態の媒体判別システムの全体構成について説明する。図3に示すように、本実施形態の媒体判別システム1は、媒体Mを撮像する撮像装置としてのカメラ2と、媒体判別装置3と、を備えている。カメラ2は、媒体判別装置3と通信可能に接続されている。本実施形態では、図3に示すように、上面が平らな読取台6の上面に載置された媒体Mをカメラ1によって撮像する。
【0023】
カメラ2は、読取台6の上方に固定されており、読取台6の上面を含む所定エリアの画像、ここでは動画像(映像)を取得する。撮影された映像(動画像)は、媒体判別装置3に出力される。カメラ2は、RGBのカラー映像を取得してもよいし、モノクロ映像を取得してもよい。
【0024】
媒体判別装置3には、撮影した映像等を表示する表示部としてのモニタ(表示装置)4と、操作者が種々の入力操作を行う入力デバイス(例えばキーボードやマウス等)5とが通信可能に接続されている。なお、モニタ4及び入力デバイス5は、タッチパネルディスプレイ等の入力機能付きの表示装置から構成されてもよい。
【0025】
媒体判別装置3は、操作者が、モニタ4によって、カメラ2で撮像された映像をリアルタイムで閲覧できるように構成されている。
【0026】
<媒体判別装置の構成>
次に、図4を用いて、媒体判別装置3の構成について更に説明する。媒体判別装置3は、一般的なパーソナルコンピューター相当の機能を有する情報処理装置から構成され、図4に示すように、制御部10及び記憶部20を備えている。
【0027】
制御部10は、映像入力部11と、特徴検出部12と、種類判定部13と、認識領域特定部14と、文字認識用向き補正部15と、文字認識部16と、表示用向き補正部17と、判定部18との機能を備えている。制御部10は、例えば、各種の処理を実現するためのソフトウェアプログラムと、該ソフトウェアプログラムを実行するCPU(Central Processing Unit)と、該CPUによって制御される各種ハードウェア等によって構成されている。機械学習時及び学習済みモデルの実行時における処理の高速化のために、制御部10は、CPUに加えて、GPU(Graphics Processing Unit)等のハードウェアを含む構成であってもよい。制御部10の動作に必要なソフトウェアプログラムやデータは記憶部20に記憶される。
【0028】
記憶部20は、ハードディスク装置や不揮発性メモリ等の記憶装置から構成され、推論モデル21及び基準情報22を記憶している。
【0029】
映像入力部11は、カメラ2から映像を取得する処理を行い、映像を特徴検出部12に出力する。
【0030】
特徴検出部12は、映像入力部11から出力された媒体の映像(画像)に基づいて、媒体の複数の特徴部を検出する。すなわち、媒体を撮影した映像において、当該媒体を特徴付ける部分、例えば特定の文字列等を少なくとも二つ検出する。特徴検出部12は、画像の中から特定の物体の位置及びカテゴリー(クラス)を検出する物体検出の手法を用いて実現されるものである。すなわち、特徴検出部12は、媒体上の所定の位置に特徴部が存在するか否かを判定するものではなく、媒体上をくまなく検索し、事前に登録された特徴部を媒体上の任意の場所で見つけ出し、かつその種類を認識するものである。また、特徴検出部12は、事前に登録された特徴部をその回転角度及び大きさ(解像度)によらず、すなわち媒体の回転角度及び大きさ(解像度)によらず、媒体上で見つけ出し、かつその種類を認識する。
【0031】
本実施形態では、特徴検出部12は、記憶部20に記憶された推論モデル21を用いて、複数の特徴部を検出(推定)する。
【0032】
ここで、推論モデル21について説明する。推論モデル21は、ラベル情報(正解データ)が付されたデータセット(教師データ)の教師あり機械学習により作成される。より具体的には、推論モデル21は、媒体の画像(二次元の静止画像)を入力データとし、その媒体の各特徴部に付与された位置やクラス(種類)等の情報をラベルとして、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を利用した学習用プログラムにより深層学習(ディープラーニング)を行うことによって作成される。本実施形態では、畳み込みニューラルネットワークとして、SSDを利用する。
【0033】
教師あり機械学習により作成された推論モデル21は、学習済みパラメータが組み込まれた推論プログラム(学習済みモデル)として機能する。なお、学習済みパラメータは、データセットを用いた学習の結果、得られたパラメータ(係数)である。また。推論プログラムは、入力として与えられた媒体の映像(映像を構成する各静止画像)に対して、学習の結果として取得された学習済みパラメータを適用し、当該映像に対する結果(具体的には、上述したような各特徴部の位置やクラス等)を出力するための一連の演算手順を規定したプログラムである。
【0034】
機械学習に用いるデータセットは、例えば、以下のようにして生成することができる。まず、各種の媒体の画像(二次元の静止画像)を取得する。このとき、回転角度や形状(皺や折り目)、手書きやスタンプの有無等を適宜変更して様々な状態の媒体の画像を取得する。そして、取得した各画像において、各媒体の各特徴部に、矩形のバウンディングボックスを設定することによって、バウンディングボックスの左上及び右下の座標を各特徴部の位置に指定する。また、各特徴部について、クラス(種類)を設定する。このとき、一つの媒体に対して少なくとも二つの特徴部の位置及びクラスを登録する。また、このとき、取得した各画像において、機械学習に用いられない領域として無効領域を指定してもよい。これにより、手書き部分やスタンプ部分等、同一の種類であっても媒体によって変動する箇所が存在する場合に、そのような箇所を無効領域に指定することができるため、より効果的に特徴部を学習することができる。以上の結果、各画像に対して、各特徴部の位置及びクラスがラベル情報として付されたデータセットが生成される。これにより、各種の媒体における各特徴部の画像と、その特徴部の位置及びクラスとが対応付けられることとなる。
【0035】
なお、作成された推論モデル21は、その後、追加学習されてもよい。すなわち、推論モデル21に異なるデータセットを適用し、更なる学習を行うことによって、新たに学習済みパラメータを生成し、この新たな学習済みパラメータが組み込まれた推論プログラムを推論モデル21として利用してもよい。
【0036】
また、機械学習は、媒体判別装置3が備えるプロセッサにより実行してもよいが、専用のサーバやクラウド上のサーバといった演算処理能力に優れたコンピュータにより実行することが好ましい。
【0037】
種類判別部13は、特徴検出部12によって検出された複数の特徴部に基づいて、媒体の種類を判別する。
【0038】
より詳細には、基準情報22は、媒体の種類毎に、当該媒体がもつ複数の特徴部の組み合わせを示す組合せ情報を含んでおり、種類判別部13は、特徴検出部12によって検出された複数の特徴部の組み合わせを組合せ情報と比較して、媒体の種類を判別する。
【0039】
なお、複数の特徴部のクラスの組み合わせは、異なる種類の媒体間で一致しないように設定されているが、異なる種類の媒体間で一部の特徴部のクラスは重複していてもよい。具体的には、例えば、特徴部のクラスとして、a~dの4つがあり、媒体Aの特徴部の組み合わせが(a,b)であり、媒体Bの特徴部の組み合わせが(c,d)であり、媒体Cの特徴部の組み合わせが(a,c)であってもよい。もちろん、異なる種類の媒体間で、特徴部のクラスが全く重複していなくてもよい。すなわち、例えば、特徴部のクラスとして、a~fの6つがあり、媒体Aの特徴部の組み合わせが(a,b)であり、媒体Bの特徴部の組み合わせが(c,d)であり、媒体Cの特徴部の組み合わせが(e,f)であってもよい。
【0040】
また、異なる種類の媒体間で、複数の特徴部の組み合わせの数は異なっていてもよい。例えば、ある媒体では、二つの特徴部のクラスの組み合わせに基づいて、その媒体の種類を判別し、他の媒体では、三つ以上の特徴部のクラスの組み合わせに基づいて、その媒体の種類を判別してもよい。
【0041】
このように、媒体の特徴部とは、複数の特徴部の組み合わせによって当該媒体の種類を特定し得る特徴であればよく、例えば、キーワードやタイトル等の特定の文字 列、意匠、ロゴ等が挙げられる。各特徴部は、予め人為的に決定されたものであってもよいし、予め機械的に決定されたものであってもよい。後者の場合は、例えば、同一の種類の複数の媒体の画像から変動が小さい部分を抽出する画像処理を行い、その部分を特徴部に決定してもよい。これにより、手書き部分やスタンプ部分等、同一の種類であっても媒体によって変動する箇所が存在する場合に、検出するのにより効果的な特徴部を容易に決定することができる。
【0042】
認識領域特定部14は、特徴検出部12によって検出された複数の特徴部の間の相対位置と、種類判別部13によって判別された媒体の種類とに基づいて、文字認識の対象となる文字認識領域を特定する。
【0043】
より詳細には、基準情報22は、媒体の種類毎に、基準となる各特徴部及び文字認識領域のそれぞれの位置を示す位置情報を含んでおり、認識領域特定部14は、複数の特徴部間の相対的な位置関係と、当該媒体の種類に対応する位置情報とに基づいて、文字認識領域の位置を算出する。
【0044】
図5を用いて更に具体的に説明すると、例えば、基準情報22の位置情報は、図5(a)に示すように、二つの特徴部A及びBのそれぞれの基準の位置(座標)と、文字認識領域Cの基準の位置(座標)とを含んでおり、認識領域特定部14は、特徴検出部12によって検出された特徴部A’及びB’の座標を(図5(b)参照)、一方の特徴部A’の位置が対応する特徴部Aの基準の位置に一致するように、特徴部A’及びB’の相対的な位置関係を維持しつつ平行移動させる(図5(a)参照)。そして、図5(a)に示すように、一致させた特徴部A’(A)から特徴部Bへ向かう方向に対する特徴部A’(A)から特徴部B’へ向かう方向の回転角θを算出する。この回転角θは、撮像された媒体の基準の方向に対する回転角度に相当する。また、特徴部Aから特徴部Bまでの長さLと、特徴部A’から特徴部B’までの長さL’の比Rを算出する(L’=R×L)。この長さの比Rは、撮像された媒体の基準の画像に対する拡大率に相当する。その後、図5(b)に示すように、認識領域特定部14は、基準情報22の位置情報から特徴部Aに対する文字認識領域Cの相対的な位置(特徴部Aから文字認識領域Cへ向かう方向と長さの比R)から特徴検出部12によって検出された特徴部A’に対する仮の文字認識領域C’’の位置を算出し、特徴部A’を中心にして文字認識領域C’’の位置を回転角θだけ回転し、目的の文字認識領域C’の位置を算出する。
【0045】
なお、媒体判別装置3は、特徴検出部12及び認識領域特定部14による出力結果をモニタ4に表示可能なように構成されていてもよい。例えば、図2に示したように、モニタにおいて、媒体Mの映像上に、各特徴部Ma及び各文字認識領域Mbを囲むバウンディングボックスがオーバーレイ表示されてもよい。
【0046】
文字認識用向き補正部15は、特徴検出部12によって検出された複数の特徴部の間の相対位置に基づいて、認識領域特定部14によって特定された文字認識領域の向きを補正する。これにより、文字認識部16が文字認識領域内の文字を誤認識する割合を低減することが可能である。例えば、認識すべき文字列が「069」であった場合、当該媒体が反対向きに配置されてしまうと、その文字列を「690」と誤って認識してしまうが、上述のように、文字認識用向き補正部15によって文字認識領域の向きを補正することによって、このような誤認識を防止することが可能である。
【0047】
より詳細には、文字認識用向き補正部15は、上述のように認識領域特定部14によって複数の特徴部の間の相対位置に基づいて算出された回転角θに対して反対方向の回転角(-θ)だけ回転するように、文字認識領域をアフィン変換する。
【0048】
文字認識部16は、文字認識用向き補正部15によって向きが補正された文字認識領域内の文字を認識(光学文字認識:OCR)する。
【0049】
より詳細には、記憶部20には、判別対象の媒体の文字認識領域に使用され得る全種類の文字が文字画像として記憶されており、文字認識部16は、向きが補正された文字認識領域内の文字列の各構成文字を文字画像と比較して各構成文字を特定し、最終的に、それらの特定した文字を結合することにより文字認識領域内の文字列を認識する。
【0050】
表示用向き補正部17は、特徴検出部12によって検出された複数の特徴部の間の相対位置に基づいて、モニタ4に表示する媒体の映像の向きを補正する。これにより、操作者が文字認識領域内の文字を視認し易い向きで媒体の映像をモニタ4に表示することが可能である。
【0051】
より詳細には、表示用向き補正部17は、上述のように認識領域特定部14によって複数の特徴部の間の相対位置に基づいて算出された回転角θに対して反対方向の回転角(-θ)だけ回転するように、媒体の映像全体をアフィン変換する。
【0052】
判定部18は、特徴検出部12によって検出された複数の特徴部と、種類判別部13によって判別された媒体の種類とに基づいて、当該媒体の大きさを判定するとともに、当該媒体の全体が映像中に撮像されているか否かを判定する。これにより、媒体の一部、例えば文字認識領域が撮像されていない場合に、そのことを知らせるエラーメッセージを操作者に報知することが可能である。
【0053】
より詳細には、基準情報22は、媒体の種類毎に、当該媒体の外形を規定する媒体領域を示す第一の媒体領域情報と、媒体領域に対応する各特徴部に対する当該媒体領域の相対的な位置関係を示す第二の媒体領域情報とを含んでおり、判定部18は、種類判別部13によって判別された媒体の種類に対応する第一の媒体領域情報に基づいて、当該媒体の媒体領域を特定することによって当該媒体の大きさを判定する。また、判定部18は、特徴検出部12によって検出された各特徴部の位置と、種類判別部13によって判別された媒体の種類に対応する第二の媒体領域情報とに基づいて、当該媒体の媒体領域の映像内における位置を特定し、そして、当該媒体の全体が映像中に撮像されているか否かを判定する。
【0054】
判定部18は、特徴検出部12によって検出された複数の特徴部と、種類判別部13によって判別された媒体の種類と、認識領域特定部14によって特定された文字認識領域とに基づいて、当該文字認識領域の全体が映像中に撮像されているか否かを判定してもよい。これにより、文字認識領域の少なくとも一部が撮像されていない場合に、そのことを知らせるエラーメッセージを操作者に報知することが可能である。
【0055】
この場合、判定部18は、認識領域特定部14によって特定された文字認識領域の位置に基づいて、当該文字認識領域の全体が映像中に撮像されているか否かを判定する。
【0056】
<媒体判別処理の手順>
次に、図6を用いて、媒体判別システム1で行われる媒体判別処理の手順について説明する。
【0057】
図6に示すように、まず、映像入力部11に、カメラ2から媒体の映像が入力される(映像入力ステップS11)。
【0058】
次に、特徴検出部12が、推論モデル21を用いて、映像入力ステップS11で入力された媒体の映像から、媒体の複数の特徴部を検出する(特徴検出ステップS12)。このとき、特徴部が一つしか検出されないか、又は全く検出されなかった場合は、当該媒体を判別不能な媒体として処理する。例えば、判別不能な媒体である旨を操作者に報知する処理を行う。
【0059】
次に、種類判別部13が、特徴検出ステップS12で検出された複数の特徴部に基づいて、媒体の種類を判別する(種類判別ステップS13)。このとき、検出された全ての特徴部の組み合わせが、登録されたいずれかの媒体種の組合せ情報に一致する場合は、当該媒体をその種類に判別する。他方、検出された全ての特徴部の組み合わせが登録されたいずれの媒体種の組合せ情報にも一致しない場合は、当該媒体を判別不能な媒体として処理する。例えば、判別不能な媒体である旨を操作者に報知する処理を行う。
【0060】
次に、認識領域特定部14が、特徴検出ステップS12で検出された複数の特徴部の間の相対位置と、種類判別ステップS13で判別された媒体の種類とに基づいて、文字認識の対象となる文字認識領域を特定する(認識領域特定ステップS14)。
【0061】
次に、判定部18が、特徴検出ステップS12で検出された複数の特徴部と、種類判別ステップS13で判別された媒体の種類とに基づいて、当該媒体の大きさを判定するとともに、当該媒体の全体が映像中に撮像されているか否かを判定する(判定ステップS15)。
【0062】
判定部18は、判定ステップS15において、特徴検出ステップS12で検出された複数の特徴部と、種類判別ステップS13で判別された媒体の種類と、認識領域特定ステップS14で特定された文字認識領域とに基づいて、当該文字認識領域の全体が映像中に撮像されているか否かを判定してもよい。
【0063】
次に、文字認識用向き補正部15が、特徴検出ステップS12で検出された複数の特徴部の間の相対位置に基づいて、認識領域特定ステップS14で特定された文字認識領域の向きを補正する(文字認識用向き補正ステップS16)。
【0064】
次に、文字認識部16が、認識領域補正ステップS16で向きが補正された文字認識領域内の文字を認識する(文字認識ステップS17)。
【0065】
次に、表示用向き補正部17が、特徴検出ステップS12で検出された複数の特徴部の間の相対位置に基づいて、モニタ4に表示する媒体の映像の向きを補正する(表示用向き補正ステップS18)。
【0066】
そして、モニタ4が、表示用向き補正ステップS18で向きが補正された媒体の映像を表示し(表示ステップS19)、媒体判別処理を終了する。
【0067】
なお、表示用向き補正ステップS18及び表示ステップS19の処理実行タイミングは、特徴検出ステップS12以降であれば特に限定されず、適宜、変更可能である。
【0068】
以上説明したように、本実施形態では、特徴検出部12が、媒体の映像(画像)に基づいて、媒体の複数の特徴部を検出し、種類判別部13が、特徴検出部12によって検出された複数の特徴部に基づいて、媒体の種類を判別することから、特徴検出部12によって、事前に登録された複数の特徴部をそれらの回転角度によらず媒体上の任意の場所で見つけ出し、かつそれらの種類を認識することができ、種類判別部13によって、検出された複数の特徴部の組み合わせから当該媒体の種類を判別することができる。したがって、種々の媒体について撮像された向きによらずそれらの種類を判別することができる。また、複数の特徴部に基づいて媒体の種類を判別することから、一つの特徴部に基づいて媒体の種類を判別する場合に比べて、より高精度に当該媒体の種類を判別することができる。
【0069】
また、本実施形態では、認識領域特定部14が、特徴検出部12によって検出された複数の特徴部の間の相対位置と、種類判別部13によって判別された媒体の種類とに基づいて、文字認識の対象となる文字認識領域を特定し、文字認識部16が、認識領域特定部14によって特定された文字認識領域内の文字を認識することから、文字認識すべき領域を正確に特定でき、かつ当該領域内で文字認識を行うことができる。したがって、媒体の向き、画像サイズといった状態によらず、目的の領域の文字を正確に認識することができる。
【0070】
なお、上記実施形態では、媒体の動画像(映像)において当該媒体の種類を判別する場合について説明したが、使用する画像は、静止画であってもよい。
【0071】
また、上記実施形態では、推論モデル21が畳み込みニューラルネットワークを利用した深層学習により構築された場合について説明したが、推論モデル21は、機械学習により作成されたものであれば特に限定されず、推論モデル21は、深層学習以外の機械学習により作成されたものであってもよい。ただし、媒体の特徴部の検出処理を様々な対象へ適用できることから、上述のSSDや、You Only Look Once(YOLO)、Regions with Convolutional Neural Networks(R-CNN)といった、畳み込みニューラルネットワークを利用した深層学習により構築されることが好ましい。特に、SSDが好ましい。
【0072】
また、上記実施形態では、特徴検出部12が機械学習により作成された推論モデル21を用いて複数の特徴部を検出する場合について説明したが、特徴検出部12による特徴部の検出手法は、画像の回転角度及び大きさ(解像度)によらず物体を検出可能な物体検出の手法であればよく、機械学習を利用した検出手法に特に限定されない。例えば、Scale-Invariant Feature Transform(SIFT)やSpeeded-Up Robust Features(SURF)等の局所特徴量を用いた物体検出の手法を用いてもよい。
【0073】
また、上記実施形態では、媒体判別装置3を一つの装置として構成する場合について説明したが、媒体判別装置3の各機能を適宜複数の装置に分散した分散処理システムにより実現してもよい。
【0074】
具体的には、例えば、図7に示すように、カメラ102と、カメラ102と通信可能に接続されたクラウドサーバ103と、クラウドサーバ103と通信可能に接続されたモニタを備えるパーソナルコンピューター104とから媒体判別システムを構成してもよい。そして、カメラ102に上述の特徴検出部12の機能を持たせ、クラウドサーバ103に上述の種類判定部13、認識領域特定部14、文字認識用向き補正部15、文字認識部16、表示用向き補正部17及び判定部18の機能を持たせ、パーソナルコンピューター104のモニタを表示部として利用し、当該モニタに媒体の映像や、特徴検出部12及び認識領域特定部14による出力結果を表示してもよい。
【0075】
以上、図面を参照しながら本発明の実施形態を説明したが、本発明は、上記実施形態に限定されるものではない。また、各実施形態の構成は、本発明の要旨を逸脱しない範囲において適宜組み合わされてもよいし、変更されてもよい。
【産業上の利用可能性】
【0076】
以上のように、本発明は、種々の媒体の種類を判別するのに有用な技術である。
【符号の説明】
【0077】
1:媒体判別システム
2、102:カメラ
3:媒体判別装置
4:モニタ
5:入力デバイス
6:読取台
10:制御部
11:映像入力部
12:特徴検出部
13:種類判定部
14:認識領域特定部
15:文字認識用向き補正部
16:文字認識部
17:表示用向き補正部
18:判定部
20:記憶部
21:推論モデル
22:基準情報
103:クラウドサーバ
104:パーソナルコンピューター
M:媒体
Ma:特徴部
Mb:文字認識領域

図1
図2
図3
図4
図5
図6
図7