(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-15
(45)【発行日】2024-01-23
(54)【発明の名称】画像処理装置および画像処理方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20240116BHJP
【FI】
G06T7/00 350B
(21)【出願番号】P 2019090044
(22)【出願日】2019-05-10
【審査請求日】2022-05-10
(73)【特許権者】
【識別番号】000006150
【氏名又は名称】京セラドキュメントソリューションズ株式会社
(74)【代理人】
【識別番号】100168583
【氏名又は名称】前井 宏之
(72)【発明者】
【氏名】田中 邦彦
【審査官】高野 美帆子
(56)【参考文献】
【文献】特開2017-107455(JP,A)
【文献】国際公開第2019/012570(WO,A1)
【文献】中国特許出願公開第108594321(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
帳票を示す複数の第1画像を取得する取得部と、
前記複数の第1画像に基づいて、前記帳票の種類を分類する分類器を生成する学習部と、
生成された前記分類器に基づいて、前記複数の第1画像について注目領域を特定する特定部と、
前記複数の第1画像と、前記注目領域とに基づいて
、複数の第2画像を生成する生成部と
を備え
、
前記生成部は、
前記複数の第1画像について、それぞれn個の部分画像に分割する分割部と、
前記それぞれn個に分割された部分画像の中から、一の前記第1画像に近似する画像を構成するように、n個の部分画像を選択する選択部と、
選択された前記n個の部分画像によって構成される前記一の第1画像に近似する画像の前記注目領域に対応する部分を、前記一の第1画像の前記注目領域に対応する部分の画像に置換して前記第2画像を生成する置換部と
を備える、画像処理装置。
【請求項2】
前記特定部は、Grad-CAM技術を前記分類器に適用して生成された、ヒートマップによって強調された領域を前記注目領域として特定する、
請求項
1に記載の画像処理装置。
【請求項3】
帳票を示す複数の第1画像を取得するステップと、
前記複数の第1画像に基づいて、前記帳票を分類する分類器を生成するステップと、
生成された前記分類器に基づいて、前記複数の第1画像について注目領域を特定するステップと、
前記複数の第1画像と、前記注目領域とに基づいて
、複数の第2画像を生成するステップと
を包含
し、
前記複数の第2画像を生成する前記ステップは、
前記複数の第1画像について、それぞれn個の部分画像に分割するステップと、
前記それぞれn個に分割された部分画像の中から、一の前記第1画像に近似する画像を構成するように、n個の部分画像を選択するステップと、
選択された前記n個の部分画像によって構成される前記一の第1画像に近似する画像の前記注目領域に対応する部分を、前記一の第1画像の前記注目領域に対応する部分の画像に置換して前記第2画像を生成するステップと
を包含する、画像処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置および画像処理方法に関する。
【背景技術】
【0002】
近年、画像認識又は画像解析の分野に深層学習(ディープラーニング)が利用されている。ところが、深層学習を利用して高精度の画像認識等を実現するためには、大量の学習用の画像データが必要になる。そこで、サンプル画像に対して左右反転処理又は回転処理を施すことにより、大量の画像データを生成する技術が提案されている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1の技術は、帳票を識別又は分類する分類器の学習に適用することは困難である。というのは、特許文献1で生成される画像は、サンプル画像に対して左右反転処理等の幾何変換を行ったものに過ぎず、実質的には同一の画像が繰り返し学習に使用されることとなる。つまり、膨大な種類のフォーマットがあり、記入される文字も印字文字および手書き文字等、多岐にわたる帳票の分類器を生成するための学習用データとしてはデータの範囲が狭いため、改善が望まれる。
【0005】
本発明は上記課題に鑑みてなされたものであり、その目的は、帳票を識別又は分類する分類器のための学習用データを大量に準備することが可能な画像処理装置および画像処理方法を提供することにある。
【課題を解決するための手段】
【0006】
本発明に係る画像処理装置は、取得部と、学習部と、特定部と、生成部とを備える。前記取得部は、帳票を示す複数の第1画像を取得する。前記学習部は、前記複数の第1画像に基づいて、前記帳票の種類を分類する分類器を生成する。前記特定部は、生成された前記分類器に基づいて、前記複数の第1画像について注目領域を特定する。前記生成部は、前記複数の第1画像と、前記注目領域とに基づいて、前記注目領域を含む複数の第2画像を生成する。
【0007】
本発明に係る画像処理方法は、帳票を示す複数の第1画像を取得するステップと、前記複数の第1画像に基づいて、前記帳票を分類する分類器を生成するステップと、生成された前記分類器に基づいて、前記複数の第1画像について注目領域を特定するステップと、前記複数の第1画像と、前記注目領域とに基づいて、前記注目領域を含む複数の第2画像を生成するステップとを包含する。
【発明の効果】
【0008】
本発明によれば、帳票を識別又は分類する分類器のための学習用データを大量に準備することが可能になる。
【図面の簡単な説明】
【0009】
【
図1】本発明の実施形態に係る画像処理装置の構成を示す概略図である。
【
図2】(a)は、画像処理装置の構成を示すブロック図である。(b)は、生成部の構成を示すブロック図である。
【
図3】(a)は、取得画像の一例を示す図である。(b)は、ヒートマップ画像の一例を示す模式図である。(c)は、取得画像とヒートマップ画像とを重ね合わせた画像の一例を示す模式図である。
【
図5】学習用データ生成処理の概略を示す模式図である。
【
図6】学習用データ生成処理と分類器学習処理とを示すフローチャートである。
【発明を実施するための形態】
【0010】
以下、本発明の実施形態について、図面(
図1~
図6)を参照しながら説明する。なお、図中、同一又は相当部分については同一の参照符号を付して説明を繰り返さない。
【0011】
まず、
図1および
図2を参照して、本発明の実施形態に係る画像処理装置100の構成について説明する。
図1は、画像処理装置100の構成を示す概略図である。
【0012】
図1に示すように、画像処理装置100は、画像形成ユニット1と、画像読取ユニット2と、原稿搬送ユニット3と、入出力部4と、通信部5と、装置制御部6とを備える。本実施形態では、画像処理装置100は、カラー方式の複合機である。
【0013】
画像形成ユニット1は、用紙Pに画像を形成する。
【0014】
画像読取ユニット2は、原稿Rの画像を読み取り、原稿Rを示す画像データを生成する。本実施形態では、原稿Rは帳票である。帳票は、例えば振込依頼書又は領収書である。
【0015】
原稿搬送ユニット3は、原稿Rを画像読取ユニット2に搬送する。入出力部4は、ユーザーに各種の情報を報知する。更に、入出力部4は、ユーザーから指示を受け付ける。
【0016】
通信部5は、他の電子機器から帳票を示す画像データを取得する。具体的には、通信部5は、ネットワーク網を介して接続する他の複合機から帳票を示す画像データを受信する。なお、通信部5は、「取得部」の一例である。
【0017】
装置制御部6は、画像処理装置100の各構成部分の動作を制御する。
【0018】
画像形成ユニット1は、給紙部12、搬送部L、トナー供給部13、画像形成部14、定着部16および排出部17を備える。画像形成部14は、転写部15を含む。
【0019】
給紙部12は、用紙Pを搬送部Lへ供給する。搬送部Lは、用紙Pを転写部15および定着部16を経由して排出部17まで搬送する。
【0020】
トナー供給部13は、画像形成部14にトナーを供給する。画像形成部14は、用紙Pに画像を形成する。
【0021】
転写部15は、中間転写ベルト154を備える。画像形成部14が、中間転写ベルト154上にシアン色、マゼンタ色、イエロー色、および黒色のトナー像を転写する。複数色のトナー像が中間転写ベルト154上で重畳され、中間転写ベルト154上に画像が形成される。転写部15は、中間転写ベルト154上に形成された画像を、用紙P上に転写する。その結果、用紙Pに画像が形成される。
【0022】
定着部16は、用紙Pを加熱および加圧し、用紙Pに形成された画像を用紙Pに定着させる。排出部17は、画像処理装置100の外部に用紙Pを排出する。
【0023】
画像読取ユニット2は、画像読取部21を備える。画像読取部21は、原稿Rの画像を読み取り、画像データを生成する。具体的には、画像読取部21は、帳票の画像を読み取り、帳票を示す画像データを生成する。画像読取部21は、LED(Light Emitting Diode)、コンタクトガラス、結像レンズ、およびイメージセンサーを備え、これらの各部材が一体化されたCIS(Contact Image Sensor)ユニットである。なお、画像読取部21は、「取得部」の一例である。以下、画像読取部21を介して取得した帳票を示す画像、又は通信部5を介して取得した帳票を示す画像を「取得画像」という。取得画像は、「第1画像」の一例である。
【0024】
入出力部4は、表示部41および受付部42を有する。表示部41は、画面上に各種の情報を表示する。受付部42は、ユーザーから指示を受け付ける。入出力部4は、テンキーを含む。入出力部4は、文字入力キーを含んでもよい。入出力部4は、例えばタッチパネルを有する液晶ディスプレーである。
【0025】
通信部5は、同じ通信方式(プロトコル)を利用する電子機器との間で通信が可能である。本実施形態において、通信部5は、装置制御部6の指示に応じて、インターネットおよびLAN(Local Area Network)などのネットワーク網と接続する。通信部5は、例えば、LANボードのような通信モジュールである。
【0026】
装置制御部6は、制御プログラムに基づいて、画像処理装置100の各構成部分の動作を制御する。
【0027】
図2(a)は、画像処理装置100の構成を示すブロック図である。
図2(b)は、生成部613の構成を示すブロック図である。
図1を参照して説明したように、画像処理装置100は、画像形成ユニット1と、画像読取ユニット2と、原稿搬送ユニット3と、入出力部4と、通信部5と、装置制御部6とを備える。以下では、装置制御部6について、更に詳細に説明する。
【0028】
装置制御部6は、
図2(a)に示すように、処理部61と、記憶部62とを備える。処理部61は、例えば、プロセッサーである。プロセッサーは、例えばCPU(Central Processing Unit)である。プロセッサーは、特定用途集積回路(Application Specific Integrated Circuit:ASIC)を含んでもよい。処理部61は、記憶部62に記憶された制御プログラムを実行することによって、画像処理装置100の各構成部分の動作を制御する。
【0029】
記憶部62は、画像処理装置100の制御に関する各種のデータ、および制御プログラムを記憶する。記憶部62は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、および/又はソリッドステートドライブ(Solid State Drive:SSD)によって構成される。記憶部62は、外部メモリーを含んでいてもよい。外部メモリーは、リムーバブルメディアである。記憶部62は、外部メモリーとして、例えば、USB(Universal Serial Bus)メモリー、および/又はSD(Secure Digital)カードを含んでもよい。
【0030】
更に、記憶部62は、通信部5を介して受信した画像データ、又は画像読取部21で生成された画像データを記憶する。また、記憶部62は、生成部613で生成された画像の画像データを記憶する。以下、生成部613で生成された画像を「生成画像」という。生成画像は、「第2画像」の一例である。
【0031】
処理部61は、学習部611と、特定部612と、生成部613と、制御部614とを含む。本実施形態において、処理部61が記憶部62に格納された制御プログラムを実行することによって、制御プログラムが、学習部611と、特定部612と、生成部613と、制御部614との機能を実現する。
【0032】
学習部611は、複数の取得画像に基づいて、帳票の種類を分類する分類器を生成する。具体的には、学習部611は、複数の取得画像を入力して機械学習を実行して、分類器を生成する。例えば、分類器は、特定の「振込依頼書」と、特定の「領収書」とを分類する。なお、取得画像は、正解の教師データと、不正解の教師データとを含む。
【0033】
特定部612は、複数の取得画像について、注目部位を示す注目領域を特定する。なお、特定部612は、分類器にGrad-CAM技術を適用して生成されたヒートマップによって強調された領域を注目領域として特定してもよい。
【0034】
更に、特定部612は、注目領域に含まれている記載内容と、第1画像の中に占める注目領域の位置とを特定してもよい。これにより、特定の帳票毎に異なる注目領域と、注目領域に含まれている記載内容とを特定することができるので、個々の帳票に則した学習用データを準備することが可能となる。
【0035】
生成部613は、複数の取得画像に基づいて、注目領域を含む複数の第2画像を生成する。具体的には、生成部613は、
図2(b)を参照して後述するように、複数の取得画像について、それぞれn個の部分画像に分割する。更に生成部613は、それぞれn個に分割された部分画像の中から、一つの取得画像に近似する画像を構成するように、n個の部分画像を選択する。そして、生成部613は、選択されたn個の部分画像によって構成される一つの取得画像に近似する画像の一部と、注目領域とを置換する。
【0036】
制御部614は、記憶部62に記憶された制御プログラムを実行することによって、画像処理装置100の各構成部分の動作を制御する。
【0037】
図2(b)は、生成部613の構成を示すブロック図である。
図2(b)に示すように、生成部613は、分割部6131と、選択部6132と、置換部6133とを備える。
【0038】
分割部6131は、複数の第1画像について、それぞれn個の部分画像に分割する。
【0039】
選択部6132は、それぞれn個に分割された部分画像の中から、一の第1画像に近似する画像を構成するように、n個の部分画像を選択する。
【0040】
置換部6133は、選択されたn個の部分画像によって構成される一の第1画像に近似する画像の一部と、注目領域とを置換する。
【0041】
次に、
図3~
図5を参照して、学習用データ生成処理について説明する。
図3(a)は、取得画像300の一例を示す図である。取得画像300は、実際の帳票をスキャナー等で読み取った画像である。
図3(a)に示すように、取得画像300は、帳票タイトル301と、帳票内容302とを含む。帳票タイトル301は、帳票の名称を示す。本実施形態では、帳票タイトル301は、「○○振込依頼書」である。帳票内容302は、帳票の具体的な内容を示す。なお、取得画像300は、「第1画像」の一例である。
【0042】
図3(b)は、ヒートマップ画像310の一例を示す模式図である。本実施形態では、ヒートマップ画像310は、特定部612が分類器にGrad-CAM技術を適用した場合に生成される画像である。ヒートマップ画像310は、注目領域311と、非注目領域312とを含む。注目領域311は、機械学習の実行過程で注目された領域である。更に、注目領域311は、第1領域311aと、第2領域311bとを含む。第1領域311aの注目度は、第2領域311bの注目度より高い。Grad-CAM技術を適用した場合に、第1領域311aは、例えば「赤色」のヒートマップとして示され、第2領域311bは「黄色」のヒートマップとして示される。
【0043】
非注目領域312は、ヒートマップ画像310から注目領域311を除いた領域であり、
図3(b)ではドットパターンで示されている。なお、非注目領域312は、Grad-CAM技術を適用した場合は、例えば「青色」で示される。
【0044】
図3(c)は、取得画像300とヒートマップ画像310とを重ね合わせた重畳画像320の一例を示す模式図である。
図3(c)に示すように、重畳画像320は、取得画像300に、注目領域311および非注目領域312が重畳されている。
【0045】
図4は、分割部6131による取得画像400の分割方法の一例を示す図である。本実施形態では、分割部6131は、取得画像400を4分割する。したがって、例えば、「20枚」の取得画像400を用意した場合は、最多で「160000枚」の生成画像を生成することができる。
【0046】
次に、
図5を参照して、学習用データ生成処理について説明する。
図5は、学習用データ生成処理の概略を示す模式図である。
図5において、取得画像510~取得画像540は、生成画像を生成するために用意された複数枚(例えば、20枚)取得画像のうちの一部を示す。画像550は、生成画像560を生成する途中の画像である。生成画像560は、生成部613で生成される生成画像を示す。
【0047】
図5に示すように、学習用データ生成処理を実行することによって、複数の取得画像に基づいて、生成画像が生成される。具体的には、取得画像510~取得画像540から1枚の生成画像560が生成される。
【0048】
本実施形態では、まず、分割部6131が、取得画像510~取得画像540のそれぞれをn分割(n=4)する。例えば、分割部6131は、取得画像510を部分画像a11と、部分画像a12と、部分画像a21と、部分画像a22とに4分割する。
【0049】
次に、選択部6132が、取得画像510から部分画像a11を選択し、取得画像520から部分画像b12を選択し、取得画像530から部分画像c21を選択し、取得画像540からd22を選択して、画像550を生成する。
【0050】
最後に、置換部6133が、画像550の一部と注目領域311とを置換する。
【0051】
次に、
図6を参照して、学習用データ生成処理と分類器学習処理とについて説明する。学習用データ生成処理601は、ステップS2~ステップS12によって実行される。分類器学習処理602は、ステップS14によって実行される。
【0052】
ステップS2:学習部611は、帳票を示す複数の画像を取得し、複数の画像に基づいて学習を行い、帳票の分類器を生成する。処理は、ステップS4に進む。
【0053】
ステップS4:特定部612は、複数の画像に基づいて、ヒートマップを生成する。処理は、ステップS6に進む。
【0054】
ステップS6:特定部612は、ヒートマップに基づいて、注目領域311を検出し、記憶部62に記憶する。処理は、ステップS8に進む。処理は、ステップS8に進む。
【0055】
ステップS8:生成部613は、置換用画像を生成する。処理は、ステップS10に進む。
【0056】
ステップS10:生成部613は、置換用画像に対して、非注目領域312の画像を置き換える。処理は、ステップS12に進む。
【0057】
ステップS12:制御部614は、所定数の学習用データを生成したか否かを判定する。所定数の学習用データを生成したと制御部614が判定した場合(ステップS12でYes)、処理は終了する。所定数の学習用データを生成していないと制御部614が判定した場合(ステップS12でNo)、処理はステップS8に戻る。所定数は、例えば「20」である。
【0058】
ステップS14:学習部611は、所定数の学習用データを用いて、分類器を学習する。処理は終了する。
【0059】
以上のように、本実施形態の画像処理装置100によれば、生成部613は、複数の取得画像510~取得画像540と、注目領域311とに基づいて、注目領域311を含む複数の生成画像560を生成する。したがって、機械学習で生成した分類器に基づいて特定された注目領域311の画像を含む生成画像560を大量に生成することができる。その結果、分類器の学習に適度に貢献し得る学習用データを大量に準備することが可能になる。
【0060】
以上、図面(
図1~
図6)を参照しながら本発明の実施形態を説明した。但し、本発明は、上記の実施形態に限られるものではなく、その要旨を逸脱しない範囲で種々の態様において実施することが可能である(例えば、下記に示す(1)、(2))。図面は、理解しやすくするために、それぞれの構成要素を主体に模式的に示しており、図示された各構成要素の厚み、長さ、個数等は、図面作成の都合上から実際とは異なる。また、上記の実施形態で示す各構成要素の材質や形状、寸法等は一例であって、特に限定されるものではなく、本発明の効果から実質的に逸脱しない範囲で種々の変更が可能である。
【0061】
(1)本発明の実施形態では、画像処理装置100として複合機を挙げて説明したが、画像処理装置100は複合機に限定されない。画像処理装置100は、例えば、スキャナーと接続可能なパーソナルコンピューターであってもよい。
【0062】
(2)また、本発明は、本発明に係る画像処理装置の特徴的な構成手段をステップとする画像処理方法として実現したり、それらのステップを含む制御プログラムとして実現したりすることもできる。また、そのプログラムは、CD-ROM等の非一時的に記録した記録媒体、又は通信ネットワーク等の伝送媒体を介して流通させることもできる。
【産業上の利用可能性】
【0063】
本発明は、画像処理装置の分野に利用可能である。
【符号の説明】
【0064】
21 画像読取部(取得部)
5 通信部(取得部)
6 装置制御部
61 処理部
611 学習部
612 特定部
613 生成部
6131 分割部
6132 選択部
6133 置換部
614 制御部
62 記憶部
100 画像処理装置
300,400,510,520,530,540 取得画像(第1画像)
560 生成画像(第2画像)