(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-01
(45)【発行日】2023-11-10
(54)【発明の名称】画像の意味的領域分割装置、領域検知感度向上方法、及びプログラム
(51)【国際特許分類】
G06T 7/12 20170101AFI20231102BHJP
【FI】
G06T7/12
(21)【出願番号】P 2019178591
(22)【出願日】2019-09-30
【審査請求日】2022-08-03
(73)【特許権者】
【識別番号】000110217
【氏名又は名称】TOPPANエッジ株式会社
(73)【特許権者】
【識別番号】500140725
【氏名又は名称】株式会社オープンストリーム
(74)【代理人】
【識別番号】100141139
【氏名又は名称】及川 周
(74)【代理人】
【識別番号】100140774
【氏名又は名称】大浪 一徳
(74)【代理人】
【識別番号】100206999
【氏名又は名称】萩原 綾夏
(72)【発明者】
【氏名】大串 美恵
(72)【発明者】
【氏名】馬場 貴広
(72)【発明者】
【氏名】▲高▼岡 陽太
(72)【発明者】
【氏名】寺田 英雄
【審査官】佐藤 直樹
(56)【参考文献】
【文献】特開2017-118480(JP,A)
【文献】特開2002-112022(JP,A)
【文献】特開平11-261814(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/12
(57)【特許請求の範囲】
【請求項1】
文字と幾何学的図形とを含む対象画像における、画素ごとの画素値を含む画像情報を取得する取得部と、
前記取得部により取得された前記画像情報に基づいて、前記対象画像における画素ごとの画素値を、
画素がエッジである場合には第1画素値に変更し、画素がエッジでない場合には前記第1画素値とは異なる第2画素値に変更した変調画像を生成する生成部と、
画像における画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を
、推定対象とする画像に関わらず同じ領域分割器を用いて推定する推定部と、
前記推定部により推定された、前記対象画像及び前記変調画像のそれぞれにおける、画素ごとの前記要素種別を推定した結果に基づいて、前記対象画像における画素ごとの前記要素種別を決定する決定部と、
を備える判定装置。
【請求項2】
文字と幾何学的図形とを含む対象画像における、画素ごとの画素値を含む画像情報を取得する取得部と、
前記取得部により取得された前記画像情報に基づいて、前記対象画像における画素
座標を移動させた変調画像を生成する生成部と、
画像における画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を
、畳み込み積分層を有する学習済みモデルを用いて推定する推定部と、
前記推定部により推定された、前記対象画像及び前記変調画像のそれぞれにおける、画素ごとの前記要素種別を推定した結果に基づいて、前記対象画像における画素ごとの前記要素種別を決定する決定部と、
を備える判定装置。
【請求項3】
前記推定部は、学習済みモデルを用いて、画像における画素の前記要素種別を推定し、
前記学習済みモデルは、学習用の画像である学習画像の画像情報と、前記学習画像における画素の前記要素種別とを対応付けた情報をデータセットとし、前記データセットを学習モデルに機械学習させた学習結果である、
請求項
1に記載の判定装置。
【請求項4】
前記決定部は、
前記対象画像における所定画素の前記要素種別、及び前記変調画像における前記所定画素に対応する対応画素の前記要素種別のうち、少なくとも一方が前記文字要素である場合、前記所定画素の前記要素種別が前記文字要素であると決定し、
所定画素の前記要素種別、及び前記対応画素の前記要素種別のうち、少なくとも一方が前記幾何学要素である場合、前記所定画素の前記要素種別が前記幾何学要素であると決定し、
前記所定画素の前記要素種別、及び前記対応画素の前記要素種別が、共に前記背景要素である場合、前記所定画素の前記要素種別が前記背景要素であると決定する、
請求項1から請求項3のいずれか一項に記載の判定装置。
【請求項5】
取得部が、文字と幾何学的図形とを含む対象画像における、画素ごとの画素値を含む画像情報を取得し、
生成部が、前記取得部により取得された前記画像情報に基づいて、前記対象画像における画素ごとの画素値を、
画素がエッジである場合には第1画素値に変更し、画素がエッジでない場合には前記第1画素値とは異なる第2画素値に変更した変調画像を生成し、
推定部が、画像における画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を
、推定対象とする画像に関わらず同じ領域分割器を用いて推定し、
決定部が、前記推定部により推定された、前記対象画像及び前記変調画像のそれぞれにおける画素ごとの前記要素種別を推定した結果に基づいて、前記対象画像における画素の前記要素種別を決定する、
判定方法。
【請求項6】
取得部が、文字と幾何学的図形とを含む対象画像における、画素ごとの画素値を含む画像情報を取得し、
生成部が、前記取得部により取得された前記画像情報に基づいて、前記対象画像における画素
座標を移動させた変調画像を生成し、
推定部が、画像における画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を
、畳み込み積分層を有する学習済みモデルを用いて推定し、
決定部が、前記推定部により推定された、前記対象画像及び前記変調画像のそれぞれにおける画素ごとの前記要素種別を推定した結果に基づいて、前記対象画像における画素の前記要素種別を決定する、
判定方法。
【請求項7】
コンピュータを、請求項1から請求項4のいずれか一項に記載の判定装置として動作させるためのプログラムであって、前記コンピュータを前記判定装置が備える各部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像の意味的領域分割装置、領域検知感度向上方法、及びプログラムに関する。
【背景技術】
【0002】
デジタル画像の意味的領域分割(または、セマンティック・セグメンテーションともいう)において、DCNN(Deep Convolutional Neural Network)を用いた機械学習によって、画像の特徴抽出を自動的に行わせる手法が、近年よく用いられる。
【0003】
例えば、書類をスキャナーやカメラ等によりデジタル画像化した文書画像を対象に、意味的領域分割を実施し、各画素のクラス(=要素種別)を判定するという課題がある。ここで、クラスとは、文字クラス、図形クラス、写真クラス、背景クラスなど、利用者が対象画像中で、意味的に区別したい分類種別に応じて定められるものである。
【0004】
前記のDCNNにおける離散的2次元コンボリュージョン(Convolution、畳込み積分)演算は、画像パターンの空間的な形状の特徴を抽出するものである。例えば、DCNNにおけるConvolution演算は、水平なエッジ、垂直なエッジ、斜めのエッジ、矩形の角、円・・・等々の、画像を構成する基本的な形状特徴をそれぞれ抽出する手段となり得る。Convolution演算を用いることで、理想的には、あらゆる特徴パターンと、特徴の発生方向に対応した(全方向に対応した)特徴抽出力を持たせることができる。しかしながら、機械学習に基づく現実のConvolution(以下、学習型Convolutionともいう)においては、有限回の学習によって獲得した重みパラメータによって特徴抽出の特性が決まるため、完全に理想的なものにはならず、一定の偏りを含むのが普通である。一定の偏りとは、例えば、右45度のエッジに対する出力に比べて、左45度のエッジに対する出力がわずかに大きい、といった偏りである。
【0005】
したがって、前記の学習型Convolutionを用いた意味的領域分割では、入力画像に対して、完全に線対称、あるいは回転対称な出力とはならないことがある。例えば、ある画像パターンAにおける領域分割結果と、パターンAを90度回転した画像における意味的領域分割結果は、理想的には一致すべきであるが、実際には、わずかに異なることがしばしば起こる。
【0006】
また、同様に、デジタル計算機上のConvolution計算は、離散的であるため、同じ入力画像パターンであっても、画像上の位置によって出力結果が異なる場合がある。例えば、あるパターンBの出力ラベルと、パターンBを1画素ずらした場合の出力ラベルが合致しないことがある。
【0007】
このような、機械学習によるConvolutionの現実的な特性により、意味的領域分割において、画像の回転や、上下反転、あるいは位置ずれ等が原因となり、本来検知されるべき画素が検知されないことがあり、結果的に検知感度の低下を招いている。
【0008】
特許文献1では、建築分野のコンクリート画像のセグメンテーション(領域分割)を、CNN(Convolutional Neural Network))を用いて実施しており、その精度を高めるために、第1の機械学習による画像特徴検出器と、第2機械学習による領域分割器を用いるという方法で対処している。
【先行技術文献】
【特許文献】
【0009】
【発明の概要】
【発明が解決しようとする課題】
【0010】
本発明が解決しようとする課題は、機械学習による画像の意味的領域分割において、離散的Convolutionに起因する、領域の検知感度の低下を防ぐことである。特に文書画像のような、比較的均一な背景の上に文字や図形などが配置された画像(=非自然画像)において顕著に効果を発揮することを狙いとしている。
【0011】
特許文献1は、CNNを使ったセグメンテーション応用の例であるが、ここでは精度向上のために二つの機械学習器を使う方式である。二つの機械学習器を使用するため、その学習に要する計算時間やメモリ容量が肥大するという問題がある。また、同文献では、本件の背景技術で説明したような、機械学習によって得られる離散的Convolutionの特性をうまく活用していないという問題もある。
【0012】
本発明では、前記のような離散的Convolutionの現実的な特性を考慮して上手く利用することにより、一つの機械学習器だけを用いて意味的領域分割の感度(精度ともいう)の向上を計る。
【0013】
本発明は、このような状況に鑑みてなされたもので、一つの機械学習器だけを用いて、意味的領域分割の感度を向上させることができる画像の意味的領域分割装置、領域検知感度向上方法、及びプログラムを提供する。
【課題を解決するための手段】
【0014】
本発明の上述した課題を解決するために、本発明は、文字と幾何学的図形とを含む対象画像における、画素ごとの画素値を含む画像情報を取得する取得部と、前記取得部により取得された前記画像情報に基づいて、前記対象画像における画素ごとの画素値を、画素がエッジである場合には第1画素値に変更し、画素がエッジでない場合には前記第1画素値とは異なる第2画素値に変更した変調画像を生成する生成部と、画像における画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を、推定対象とする画像に関わらず同じ領域分割器を用いて推定する推定部(意味的領域分割を使用する部分)と、前記推定部により推定された、前記対象画像及び前記変調画像のそれぞれにおける、画素ごとの前記要素種別を推定した結果に基づいて、前記対象画像における画素ごとの前記要素種別を決定する決定部と、を備える判定装置である。
本発明の上述した課題を解決するために、本発明は、文字と幾何学的図形とを含む対象画像における、画素ごとの画素値を含む画像情報を取得する取得部と、前記取得部により取得された前記画像情報に基づいて、前記対象画像における画素ごとの画素座標を移動させた変調画像を生成する生成部と、画像における画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を、畳み込み積分層を有する学習済みモデルを用いて推定する推定する推定部(意味的領域分割を使用する部分)と、前記推定部により推定された、前記対象画像及び前記変調画像のそれぞれにおける、画素ごとの前記要素種別を推定した結果に基づいて、前記対象画像における画素ごとの前記要素種別を決定する決定部と、を備える判定装置である。
【0015】
また、本発明は、上述の判定装置において、前記生成部は、前記対象画像における画素ごとの画素値を、当該画素がエッジであるか否かに応じて、予め定めた所定の画素値に変更する。
【0016】
また、本発明は、上述の判定装置において、前記推定部は、学習済みモデルを用いて、画像における画素の前記要素種別を推定し、前記学習済みモデルは、学習用の画像である学習画像の画像情報と、前記学習画像における画素の前記要素種別とを対応付けた情報をデータセットとし、前記データセットを学習モデルに機械学習させた学習結果である。
【0017】
また、本発明は、上述の判定装置において、前記決定部は、前記対象画像における所定画素の前記要素種別、及び前記変調画像における前記所定画素に対応する対応画素の前記要素種別のうち、少なくとも一方が前記文字要素である場合、前記所定画素の前記要素種別が前記文字要素であると決定し、所定画素の前記要素種別、及び前記対応画素の前記要素種別のうち、少なくとも一方が前記幾何学要素である場合、前記所定画素の前記要素種別が前記幾何学要素であると決定し、前記所定画素の前記要素種別、及び前記対応画素の前記要素種別が、共に前記背景要素である場合、前記所定画素の前記要素種別が前記背景要素であると決定する。
【0018】
また、本発明は、取得部が、文字と幾何学的図形とを含む対象画像における、画素ごとの画素値を含む画像情報を取得し、生成部が、前記取得部により取得された前記画像情報に基づいて、前記対象画像における画素ごとの画素値を、画素がエッジである場合には第1画素値に変更し、画素がエッジでない場合には前記第1画素値とは異なる第2画素値に変更した変調画像を生成し、推定部が、画像における画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を、推定対象とする画像に関わらず同じ領域分割器を用いて推定し、決定部が、前記推定部により推定された、前記対象画像及び前記変調画像のそれぞれにおける画素ごとの前記要素種別を推定した結果に基づいて、前記対象画像における画素の前記要素種別を決定する判定方法である。
また、本発明は、取得部が、文字と幾何学的図形とを含む対象画像における、画素ごとの画素値を含む画像情報を取得し、生成部が、前記取得部により取得された前記画像情報に基づいて、前記対象画像における画素ごとの画素座標を移動させた変調画像を生成し、推定部が、画像における画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を、畳み込み積分層を有する学習済みモデルを用いて推定し、決定部が、前記推定部により推定された、前記対象画像及び前記変調画像のそれぞれにおける画素ごとの前記要素種別を推定した結果に基づいて、前記対象画像における画素の前記要素種別を決定する判定方法である。
【0019】
また、本発明は、コンピュータを、上記に記載の判定装置として動作させるためのプログラムであって、前記コンピュータを前記判定装置が備える各部として機能させるためのプログラムである。
【発明の効果】
【0020】
本発明によれば、画像内の文字と幾何学的図形とを区別することができる。
【図面の簡単な説明】
【0021】
【
図1】実施形態に係る領域分割装置10の構成の例を示すブロック図である。
【
図2】実施形態に係る領域分割装置10が行う処理を説明する図である。
【
図3】実施形態に係る領域分割装置10が行う処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0022】
以下、発明の実施形態について図面を参照しながら説明する。
【0023】
領域分割装置10は、画像に示されている内容の意味的な種類ごとに、画像の領域を分割(意味的領域分割)する装置である。以下の説明では、意味的な種類として、画像に示されている、線、文字、背景の種類ごとに領域分割する場合を例示して説明する。しかしながら、画像に示される内容の意味的な種類は、これに限定されることはない。領域分割装置10は、線、文字、背景の他、例えば、画像、図形、記号、色、形状などの種別ごとに画像を領域分割してもよく、このような意味的な種類ごとに領域分割する場合にも、以下に説明する方法と同様な手法を適用することができる。
【0024】
領域分割装置10は、画像の画素ごとに、当該画素が画像に示されている如何なる内容を構成する要素であるか判定し、判定した結果に基づいて、画像に示されている内容ごとに領域を分割する。すなわち、領域分割装置10は、画像における画素が画像に示されている如何なる内容を構成する要素であるか判定する、「判定装置」の一例である。例えば、領域分割装置10は、文字とそれ以外の要素との何れであるかを判定する。ここで、それ以外の要素とは、例えば、幾何学的図形である。幾何学的図形とは、幾何学的な図形であって、例えば、線、線分、一定条件を満たす状態で配置された記号の群などである。
【0025】
図1は、実施形態に係る領域分割装置10の構成の例を示すブロック図である。領域分割装置10は、例えば、画像情報取得部11と、変調画像生成部12と、要素種別推定部13と、要素種別決定部14と、領域マップ生成部15と、マップ情報出力部16とを備える。ここで、画像情報取得部11は、「取得部」の一例である。変調画像生成部12は、「生成部」の一例である。要素種別推定部13は「推定部」の一例である。要素種別決定部14は、「決定部」の一例である。
【0026】
画像情報取得部11は、スキャン画像G11(
図2参照)の画像情報を取得する。スキャン画像G11は、線、及び文字を含む画像である。線が組み合わされる、或いは線の一部が屈曲(或いは湾曲)されることで、罫線や枠線などが構成される場合もある。スキャン画像G11は、領域分割装置10による領域分割の対象とする画像である。すなわち、スキャン画像G11は、「対象画像」の一例である。
【0027】
スキャン画像G11は、例えばディスプレイやWeb上で表示される画像などを印刷した印刷画像G10(
図2参照)をスキャナーで読み込むことにより作成された画像である。画像情報は、画素ごとに、画像に関する情報が対応付けられた情報であり、例えば、画素ごとのグレースケール値が示された情報、或いは、画素ごとのRGB値が示された情報などである。画像情報取得部11は、取得した画像情報を変調画像生成部12、及び要素種別推定部13に出力する。
【0028】
変調画像生成部12は、画像情報取得部11から取得した画像情報に基づいて、強調画像G12(
図2参照)を生成する。強調画像G12は、スキャン画像G11における画素ごとの画素値(グレースケール値や、RGB値)を所定の変調条件に基づいて変更した画像であり、「変調画像」の一例である。
【0029】
変調画像生成部12は、例えば、スキャン画像G11のエッジを強調する強調処理を行った画像を強調画像G12として生成する。この場合、変調画像生成部12は、スキャン画像G11におけるエッジを検出する。変調画像生成部12は、従来行われている任意の手法によりエッジを検出する。例えば、変調画像生成部12は、スキャン画像G11にメディアンフィルタ処理を行ったものと、ガウシアンフィルタなどによる平滑化処理を行ったものとの差分を検出することにより、エッジを検出する。或いは、変調画像生成部12は、ラプラシアンフィルタやソーベル(Sobel)フィルタを適用することにより、スキャン画像G11におけるエッジを検出するようにしてもよい。
【0030】
変調画像生成部12は、検出したエッジをある特定の画素値(例えば、「黒」を示すグレースケール値や、RGB値)とし、その他のエッジとして検出されなかった画素の画素値を、別の特定の画素値(例えば、「白」を示すグレースケール値や、RGB値)に変更した強調画像G12を生成する。
【0031】
なお、強調画像G12は、上述したようなエッジを強調した画像に限定されることはない。強調画像G12は、所定の変調条件に応じて生成された画像であればよく、例えば、画像内の画素を、水平方向、又は/及び垂直方向に、所定の距離(例えば、所定の数の画素分に対応する距離)を移動させた画像であってもよい。変調画像生成部12は、生成した強調画像G12の画像情報を要素種別推定部13に出力する。
【0032】
要素種別推定部13は、スキャン画像G11、及び強調画像G12のそれぞれについて、画素ごとの要素種別を推定する。要素種別は、画素が画像における如何なる種類を構成する要素であるかを示す情報であり、文字要素、線分要素、及び背景要素のいずれかを示す情報である。文字要素は、画素が画像における文字を構成する要素であることを示す。線分要素は、画素が画像における線分を構成する要素であることを示す。背景要素は、画素が画像における背景(線分ではなく、且つ文字ではないもの)を構成する要素であることを示す。ここで、線分要素は「幾何学要素」の一例である。
【0033】
要素種別推定部13は、例えば、機械学習の手法により画像における要素種別を推定する。例えば、要素種別推定部13は、学習済みモデルを用いて、画像における要素種別を推定する。学習済みモデルは、画像情報と、画素ごとの要素種別との関係を学習したモデルである。
【0034】
(DCNNの基本)
学習済みモデルの学習方法は、例えば、教師有り学習である。学習済みモデルは、学習用のデータセットを用いてDCNN(Deep Convolutional Neural Network)などのモデルを学習させることにより生成される。DCNNは、Convolution(畳込み積分)層を主要部分に使用する、深層形のニューラルネットワークである。画像認識においては、DCNNにて、入力層に2次元のConvolution層を使用する。これにより、着目画素とその近傍にある画素の双方の情報を加味した画像特徴情報を効率よく認識できる。画像認識においては、さらに、2次元Convolutionを重ねて多層化して適用する。これにより、着目画素の近傍だけでなく、より離れた画素の情報も加味した大域的な画像特徴情報も認識できる。
(DCNNの学習)
Convolution層の計算は、数学的な線形変換式(y=<W,x>+b)で表現することができる。すなわち、これは微分可能な計算式である。微分可能な計算層は、誤差逆伝播法として知られているニューラルネットの教師有り学習の原理を使って、学習を実行することが可能である。
【0035】
DCNNでは、ある層のユニットから、より深い層のユニットにデータが出力される際に、ユニット同士を接続するノードの結合係数に応じた重みW、及びバイアス成分bが付与されたデータが出力される。学習モデルは、入力されたデータ(入力データ)に対し、各ユニット間の演算を行い、出力層から出力データを出力する。
【0036】
本実施形態における学習用のデータセットは、入力としての画素情報と、その画素ごとの要素種別とを対応付けた情報である。
【0037】
学習の過程において、学習モデルに、学習用のデータセットの入力データを入力させる。学習モデルは、入力データに対して出力層から出力されるデータ(出力データ)が、学習用のデータセットの出力に近づくように、学習モデルのパラメータ(重みW及びバイアス成分b)を調整することにより、学習モデルを学習させる。
【0038】
例えば、DCNNモデルのパラメータ(重みW、及びバイアス成分b)の調整には、誤差逆伝搬法が用いられる。誤差逆伝搬法では、学習モデルの出力層から出力されるデータと、学習用データとセットの出力との乖離度合いが、損失関数として表現される。ここでの乖離度合いには、任意の指標が用いられてよいが、例えば、誤差の二乗(二乗誤差)やクロスエントロピー等が用いられる。誤差逆伝搬法では、出力層から入力層側に至る方向に、損失関数が最小となるように、重みWとバイアス成分bの値を決定(更新)する。これにより学習モデルを学習させ、推定の精度を向上させる。
【0039】
なお、学習モデルは、DCNNに限定されることはない。学習モデルとして、例えば、CNN、決定木、階層ベイズ、SVM(Support Vector Machine)などの手法が用いられてもよい。
【0040】
要素種別推定部13は、学習済みモデルに画像情報を入力することにより、学習済みモデルからの出力(要素種別)を取得する。学習済みモデルからの出力は、例えば、「文字要素である可能性が12%、線分要素である可能性が80%、背景要素である可能性が8%」など、要素種別のそれぞれである可能性を、確立で示す情報である。変調画像生成部12は、学習済みモデルからの出力に基づいて、例えば、画素ごとの、最も高い確立で示される要素種別を、その画像における要素種別と推定する。
【0041】
要素種別推定部13は、学習済みモデルにスキャン画像G11の画像情報を入力することにより得られる出力に基づいて、スキャン画像G11における画素ごとの要素種別を推定し、推定結果を、要素種別決定部14に出力する。要素種別推定部13は、学習済みモデルに強調画像G12の画像情報を入力することにより得られる出力に基づいて、強調画像G12における画素ごとの要素種別を推定し、推定結果を、要素種別決定部14に出力する。
【0042】
なお、上記では、要素種別推定部13が機械学習の手法を用いて、画素ごとの要素種別を推定する場合を例に説明した。しかしながら、これに限定されることはない。要素種別推定部13は、機械学習の手法を用いない方法、例えば、ルールベースにより画素ごとの要素種別を推定するようにしてもよい。この場合、予め登録したルールに基づく推定がなされる。ここでのルールとは、画素の要素種別に応じた条件を規定するものであって、例えば、所定のグレースケール値の画素が、水平方向に所定の数、連続している場合、これらの画素を線分要素とする等のルールである。
【0043】
要素種別決定部14は、要素種別推定部13から取得した、スキャン画像G11及び強調画像G12の双方における、画素ごとの要素種別を推定した推定結果に基づいて、スキャン画像G11における要素種別を決定する。
【0044】
要素種別決定部14は、例えば、スキャン画像G11における所定の画素(所定画素)に対応する、強調画像G12の画素(対応画素)を取得する。所定画素と対応画素との関係は変調処理(所定の変調条件に対応する処理)に応じて任意に決定されてよい。例えば、変調処理がエッジを強調する処理である場合、所定画素と対応画素とは、それぞれの画像(スキャン画像G11と強調画像G12)において、それぞれの画像において同じ位置座標に位置する画素である。例えば、変調処理が、画像内の画素を、水平方向、又は/及び垂直方向に、所定の距離を移動させる処理である場合、所定画素と対応画素との関係は、所定画素の位置座標から所定の距離を移動させた位置が、対応画素の位置座標となる関係である。
【0045】
要素種別決定部14は、所定画素の推定結果と、対応画素の推定結果とに基づいて、所定画素の要素種別を推定する。要素種別決定部14は、所定画素の要素種別、及び対応画素の要素種別の少なくとも一方が文字要素であると推定されている場合、所定画素は文字要素であると決定する。すなわち、要素種別決定部14は、所定画素が文字要素と推定されている場合には、対応画素において推定された要素種別にかかわらず、当該所定画素を文字要素と決定する。また、要素種別決定部14は、対応画素が文字要素と推定されている場合には、所定画素において推定された要素種別にかかわらず、当該所定画素を文字要素と決定する。
【0046】
要素種別決定部14は、所定画素の要素種別、及び対応画素の要素種別の少なくとも一方が線分要素であると推定されている場合、所定画素は線分要素であると決定する。すなわち、要素種別決定部14は、所定画素が線分要素と推定されている場合には、対応画素において推定された要素種別にかかわらず、当該所定画素を線分要素と決定する。また、要素種別決定部14は、対応画素が線分要素と推定されている場合には、所定画素において推定された要素種別にかかわらず、当該所定画素を線分要素と決定する。
【0047】
要素種別決定部14は、所定画素の要素種別、及び対応画素の要素種別の双方が背景要素であると推定されている場合、所定画素は背景要素であると決定する。すなわち、要素種別決定部14は、所定画素が背景要素と推定され、且つ、対応画素が背景要素と推定されている場合に、当該所定画素を背景要素と決定する。要素種別決定部14は、スキャン画像G11において画素ごとに決定した要素種別を示す情報を、領域マップ生成部15に出力する。
【0048】
領域マップ生成部15は、要素種別決定部14からのスキャン画像G11において画素ごとに決定した要素種別を示す情報に基づいて、領域マップを生成する。領域マップは、画素に要素種別が対応づけられたマップ(画像)である。領域マップ生成部15は、例えば、要素種別ごとに領域マップを生成する。
領域マップ生成部15は、要素種別が文字要素である画素をある特定の色(例えば、黒)とし、文字要素ではない画素を、別の色(例えば、白)とすることにより、文字要素の領域マップを生成する。
領域マップ生成部15は、要素種別が線分要素である画素をある特定の色(例えば、黒)とし、線分要素ではない画素を、別の色(例えば、白)とすることにより、線分要素の領域マップを生成する。
領域マップ生成部15は、要素種別が背景要素である画素をある特定の色(例えば、黒)とし、背景要素ではない画素を、別の色(例えば、白)とすることにより、背景要素の領域マップを生成する。
領域マップ生成部15は、生成した領域マップを示す情報を記憶部(不図示)に記憶させる。
【0049】
マップ情報出力部16は、ユーザの操作などに応じて記憶部を参照し、所定の領域マップを示す情報を出力する。マップ情報出力部16は、領域分割装置10に接続されたディスプレイに領域マップを示す情報を出力することにより領域マップを表示させるようにしてもよい。また、マップ情報出力部16は、領域分割装置10に接続されたプリンタに領域マップを示す情報を出力することにより、領域マップを印刷するようにしてもよい。
【0050】
図2は、実施形態に係る領域分割装置10が行う処理を説明する図である。
図2に示すように、印刷画像G10は、例えば、「あいうえお」、「X」、「ABC」などの文字、及び、複数の線分が組み合わされた枠線が示されている画像である。この例に示すように、印刷画像G10には、太字や細字の文字が混在していてもよいし、文字の色や背景色が異なる文字が混在していてもよい。また、枠の中に文字が記載されていてもよいし、枠の中に更に枠線が描画されていてもよい。
スキャン画像G11(「対象画像」の一例)は、例えば、スキャナーによる読み取りの際に画像全体にノイズが生じ、印刷画像G10において白で示されていた部分が薄い灰色に、黒で示されていた文字や背景の色が濃い灰色に変化したような画像である。
【0051】
変調画像生成部12は、スキャン画像G11の画像情報に基づいて、所定の処理(ここでは「変調処理」と記載)を行うことにより、強調画像G12を生成する。強調画像G12は、例えば、文字のエッジ、及び枠線のエッジが共に強調された画像である。この例では、スキャン画像G11において太字で記載された文字は、その文字の色にかかわらず、強調画像G12において、いわゆる白抜き文字のように変換されている。また、スキャン画像G11において細字で示されていた文字は、強調画像G12でそのまま文字の形状に沿って示される。また、スキャン画像G11において太めのラインで描画されていた線分は、強調画像G12において二重の枠のように変換されている。
【0052】
要素種別推定部13(
図2では、領域分割器(処理)と記載)は、スキャン画像G11、について、画素ごとの要素種別を推定する。要素種別推定部13は、推定結果としてのスキャン画像G11の推定領域マップM10を出力する。推定領域マップM10は、スキャン画像G11の画素ごとに、推定した要素種別が対応付けられたマップ(画像)である。このように、要素種別推定部13は、推定結果を、マップ(画像)の形式にて出力するようにしてもよい。
【0053】
また、要素種別推定部13は、強調画像G12について、画素ごとの要素種別を推定する。要素種別推定部13は、推定結果としての強調画像G12の推定領域マップM11を出力する。推定領域マップM11は、強調画像G12の画素ごとに、推定した要素種別が対応付けられたマップ(画像)である。このように、要素種別推定部13は、推定結果を、マップ(画像)の形式にて出力するようにしてもよい。
【0054】
要素種別決定部14は、推定領域マップM10、及びM11を合成することにより、スキャン画像G11の画素ごとの要素種別を決定する。ここでの合成は、上述したような、スキャン画像G11における所定画素の推定結果と、強調画像G12における対応画素の推定結果に応じて所定画素の要素種別が決定される処理が行われることを示している。
領域マップ生成部15は、要素種別決定部14により決定された、スキャン画像G11の画素ごとの要素種別に基づいて、スキャン画像G11の領域マップM12を生成する。
【0055】
図3は、実施形態に係る領域分割装置10が行う処理の流れを示すフローチャートである。領域分割装置10の画像情報取得部11は、スキャン画像G11の画像情報を取得する(ステップS10)。変調画像生成部12は、スキャン画像G11の画像情報に基づいて、強調画像G12を生成する(ステップS11)。要素種別推定部13は、スキャン画像G11の画像情報に基づいて、スキャン画像G11における画素の要素種別を推定する(ステップS12)。要素種別推定部13は、強調画像G12の画像情報に基づいて、強調画像G12における画素の要素種別を推定する(ステップS13)。要素種別決定部14は、スキャン画像G11、及び強調画像G12における、それぞれの画素の要素種別の推定結果に基づいて、スキャン画像G11における画素ごとの要素種別を決定する(ステップS14)。領域マップ生成部15は、スキャン画像G11における画素ごとの要素種別に基づいて、要素種別ごとの領域マップM12を生成する(ステップS15)。
【0056】
なお、上述したフローでは、ステップS12にて、スキャン画像G11における画素の要素種別を推定した後に、ステップS13にて、強調画像G12における画素の要素種別を推定する場合の例をしめしたが、ステップS13に示す処理が行われた後に、ステップS13に示す処理が行われてもよい。
【0057】
以上説明したように、実施形態の領域分割装置10は、画像情報取得部11と、変調画像生成部12と、要素種別推定部13と、要素種別決定部14とを備える。画像情報取得部11は、スキャン画像G11の画像情報を取得する。変調画像生成部12は、スキャン画像G11における画素ごとの画素値を、所定の変調条件に応じて変更した強調画像G12を生成する。要素種別推定部13は、画像における画素ごとの要素種別を推定する。要素種別決定部14は、画像における画素ごとの要素種別を推定した推定結果に基づいて、スキャン画像G11の要素種別を決定する。これにより、実施形態の領域分割装置10では、スキャン画像G11の要素種別として、文字要素と線分要素とを決定することができる。
【0058】
ここで、比較例として、スキャン画像G11の推定結果のみを用いて、要素種別を決定する構成を考える。一般に、学習済みモデルを用いて推定を行う場合、学習用のデータセットと同じか、或いは類似する入力については精度よく推定を行うことができる。一方、学習用のデータセットにない入力について、精度よく推定を行うことが困難である。このため、スキャン画像G11の画像情報に、学習用のデータセットにはなかった画素の配置パターンが含まれていた場合、そのパターンに含まれる画素や、そのパターン周辺の画素の推定結果に誤りがある可能性が高い。学習済みモデルを学習し直さない限り、推定結果が変化することはないため、このような場合には、推定の精度を向上させることはできない。すなわち、スキャン画像G11の画像情報と、学習用のデータセットの内容とが乖離する部分について精度よく推定することが困難となってしまう。学習済みモデルの代わりにルールベースの推定(判定)結果を用いる場合でも同様である。
【0059】
これに対し、本実施形態の領域分割装置10では、スキャン画像G11の推定結果と、強調画像G12の推定結果を用いて、スキャン画像G11の要素種別を決定する。強調画像G12は、スキャン画像G11に所定の変調処理を行うことで生成された画像である。こうすることで、スキャン画像G11の特定の画素について推定結果に誤りがある場合であっても、強調画像G12の対応する画素については精度よく推定することができる可能性がある。すなわち、スキャン画像G11の推定結果と、強調画像G12の推定結果を用いることで、スキャン画像G11の画像情報と、学習用のデータセットの内容とが乖離する部分についても、精度よく推定することが可能となる。すなわち、一つの機械学習器だけを用いて、意味的領域分割の感度を向上させることが可能である。
【0060】
また、本実施形態の領域分割装置10では、変調画像生成部12は、スキャン画像G11における画素ごとの画素値を、当該画素がエッジであるか否かに応じて、予め定めた所定の画素値に変更する。これにより、実施形態の領域分割装置10は、文字要素、線分要素のエッジを強調させた強調画像G12を生成することができる。したがって、スキャン画像G11の画像情報のみでは精度のよい推定が困難となるような文字、或いは線分が存在する場合であっても、文字要素、及び線分要素を強調させた場合の推定結果を用いて、精度よく推定することが可能となる。
【0061】
また、本実施形態の領域分割装置10では、要素種別推定部13は、学習済みモデルを用いて、画像における画素の要素種別を推定する。学習済みモデルは、学習用の画像である学習画像の画像情報と、前記学習画像における画素の前記要素種別とを対応付けた情報をデータセットとし、データセットを学習モデルに機械学習させた学習結果である。これにより、本実施形態の領域分割装置10では、学習済みモデルに画像情報を入力するという容易な方法により、要素種別を推定することができる。
【0062】
また、本実施形態の領域分割装置10では、要素種別決定部14は、スキャン画像G11における所定画素の要素種別、及び強調画像G12における対応画素の要素種別のうち、少なくとも一方が文字要素である場合、所定画素が文字要素であると決定する。要素種別決定部14は、スキャン画像G11における所定画素の要素種別、及び強調画像G12における対応画素の要素種別のうち、少なくとも一方が線分要素である場合、所定画素が線分要素であると決定する。要素種別決定部14は、スキャン画像G11における所定画素の要素種別、及び強調画像G12における対応画素の要素種別が共に、背景要素である場合、所定画素が背景要素であると決定する。これにより、本実施形態の領域分割装置10では、スキャン画像G11の画像情報のみでは、精度のよい推定が困難となるような線分、或いは文字が存在する場合であっても、線分要素、及び文字要素を強調させた場合の推定結果を用いて、精度よく推定することが可能となる。
【0063】
上述した実施形態における領域分割装置10の全部または一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
【0064】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0065】
10…領域分割装置
11…画像情報取得部(取得部)
12…変調画像生成部(生成部)
13…要素種別推定部(推定部)
14…要素種別決定部(決定部)
15…領域マップ生成部
16…マップ情報出力部