(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-06-29
(45)【発行日】2023-07-07
(54)【発明の名称】画像解析装置、画像解析方法、及びプログラム
(51)【国際特許分類】
G06T 7/187 20170101AFI20230630BHJP
G06T 7/00 20170101ALI20230630BHJP
【FI】
G06T7/187
G06T7/00 350B
(21)【出願番号】P 2019154569
(22)【出願日】2019-08-27
【審査請求日】2022-05-23
(73)【特許権者】
【識別番号】000110217
【氏名又は名称】TOPPANエッジ株式会社
(74)【代理人】
【識別番号】100141139
【氏名又は名称】及川 周
(74)【代理人】
【識別番号】100140774
【氏名又は名称】大浪 一徳
(74)【代理人】
【識別番号】100206999
【氏名又は名称】萩原 綾夏
(72)【発明者】
【氏名】鈴木 雅之
【審査官】藤原 敬利
(56)【参考文献】
【文献】特開2018-005548(JP,A)
【文献】特開平07-168910(JP,A)
【文献】特開2003-271955(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00- 1/40
G06T 3/00- 7/90
G06V 10/00-30/424
G06V 40/16、40/20
H04N 1/38- 1/409
(57)【特許請求の範囲】
【請求項1】
文書画像に対するぼかし処理により、前記文書画像に含まれる第1のオブジェクトが加工された第2のオブジェクトを含むぼかし画像を生成する画像加工部と、
前記ぼかし画像に対して、前記第2のオブジェクトが1つ含まれる矩形の領域を示す区画を設定する区画設定部と、
前記ぼかし画像に設定された前記区画に基づき、判定対象の前記文書画像の種類を判定する判定部と、
を備える、画像解析装置。
【請求項2】
前記判定部は、前記区画のレイアウトと前記文書画像の種類との関係を学習した学習済みモデルを用いて、前記ぼかし画像における前記区画のレイアウトと、前記学習済みモデルが学習に用いた前記区画のレイアウトとの類似度を取得し、前記類似度に基づき判定対象の前記文書画像の種類を判定する、請求項
1に記載の画像解析装置。
【請求項3】
取得した前記類似度のうち、所定の閾値以上の前記類似度が存在する場合、
前記判定部は、所定の閾値以上の前記類似度のうち最大値の前記類似度と対応する前記文書画像の種類を、判定対象の前記文書画像の種類と判定する、請求項
2に記載の画像解析装置。
【請求項4】
取得した前記類似度のうち、所定の閾値以上の前記類似度が存在しない場合、
前記判定部は、ぼかしの程度を変更して生成された前記ぼかし画像を用いて前記類似度を再取得し、再取得した前記類似度に基づき、判定対象の前記文書画像の種類を判定する、請求項
2又は請求項
3に記載の画像解析装置。
【請求項5】
前記画像加工部は、変更後の前記ぼかしの程度を、変更前の前記ぼかしの程度よりも強くする、請求項
4に記載の画像解析装置。
【請求項6】
文書画像に対するぼかし処理により、前記文書画像に含まれる第1のオブジェクトが加工された第2のオブジェクトを含むぼかし画像を生成することと、
前記ぼかし画像に対して、前記第2のオブジェクトが1つ含まれる矩形の領域を示す区画を設定することと、
前記ぼかし画像に設定された前記区画に基づき、判定対象の前記文書画像の種類を判定することと、
を含む、プロセッサにより実行される画像解析方法。
【請求項7】
コンピュータを、
文書画像に対するぼかし処理により、前記文書画像に含まれる第1のオブジェクトが加工された第2のオブジェクトを含むぼかし画像を生成する画像加工部と、
前記ぼかし画像に対して、前記第2のオブジェクトが1つ含まれる矩形の領域を示す区画を設定する区画設定部と、
前記ぼかし画像に設定された前記区画に基づき、判定対象の前記文書画像の種類を判定する判定部と、
として機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像解析装置、画像解析方法、及びプログラムに関する。
【背景技術】
【0002】
近年、文書画像に対する文字認識により、文書画像における文字の領域を認識する技術が各種提案されている。
【0003】
例えば、下記特許文献1には、文書画像における単語の領域を認識する技術が開示されている。当該技術では、文書画像にぼかしをかけて隣接する文字同士を結合させ、結合した部分を抽出することで単語の領域を認識する。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1の技術は、文書画像における各単語の領域を認識することができるため、単語単位での処理を行う場合に特に有効である。しかしながら、当該技術では、段落を認識することまでは考慮されていない。そのため、例えば、段落単位での処理が望まれる場合に、段落を認識して処理を行うことは困難である。
【0006】
上述の課題を鑑み、本発明の目的は、文書画像における段落の設定を容易に行うことが可能な画像解析装置、画像解析方法、及びプログラムを提供することにある。
【課題を解決するための手段】
【0007】
上述の課題を解決するために、本発明の一態様に係る画像解析装置は、文書画像に対するぼかし処理により、前記文書画像に含まれる第1のオブジェクトが加工された第2のオブジェクトを含むぼかし画像を生成する画像加工部と、前記ぼかし画像に対して、前記第2のオブジェクトが1つ含まれる矩形の領域を示す区画を設定する区画設定部と、前記ぼかし画像に設定された前記区画に基づき、判定対象の前記文書画像の種類を判定する判定部と、を備える。
【0008】
本発明の一態様に係る画像解析方法は、文書画像に対するぼかし処理により、前記文書画像に含まれる第1のオブジェクトが加工された第2のオブジェクトを含むぼかし画像を生成することと、前記ぼかし画像に対して、前記第2のオブジェクトが1つ含まれる矩形の領域を示す区画を設定することと、前記ぼかし画像に設定された前記区画に基づき、判定対象の前記文書画像の種類を判定することと、を含み、プロセッサにより実行される。
【0009】
本発明の一態様に係るプログラムは、コンピュータを、文書画像に対するぼかし処理により、前記文書画像に含まれる第1のオブジェクトが加工された第2のオブジェクトを含むぼかし画像を生成する画像加工部と、前記ぼかし画像に対して、前記第2のオブジェクトが1つ含まれる矩形の領域を示す区画を設定する区画設定部と、前記ぼかし画像に設定された前記区画に基づき、判定対象の前記文書画像の種類を判定する判定部と、として機能させる。
【発明の効果】
【0010】
本発明によれば、文書画像における段落の設定を容易に行うことができる。
【図面の簡単な説明】
【0011】
【
図1】本発明の実施形態に係る画像解析システムの構成例を示す図である。
【
図2】同実施形態に係る文書画像の例を示す図である。
【
図3】同実施形態に係るぼかし画像の例を示す図である。
【
図4】同実施形態に係るぼかし画像に対する区画の設定例を示す図である。
【
図5】同実施形態に係る文書画像に対する区画の合成例を示す図である。
【
図6】同実施形態に係るぼかしの程度を強くした際のぼかし画像に対する区画の設定例を示す図である。
【
図7】同実施形態に係るぼかしの程度を弱くした際のぼかし画像に対する区画の設定例を示す図である。
【
図8】同実施形態に係る画像解析装置における処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0012】
<画像解析システムの構成>
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図1は、本発明の実施形態に係る画像解析システム1の構成例を示す図である。
図1に示すように、画像解析システム1は、画像解析装置10、類似度算出サーバ20、及びネットワーク30で構成される。画像解析装置10と類似度算出サーバ20は、互いに情報の送受信が行えるようにネットワーク30により接続されている。
【0013】
画像解析装置10は、画像の種類を判定する処理(以下、「判定処理」とも称される)を行う装置である。画像解析装置10は、例えば、PC(Personal Computer)、タブレット端末、スマートフォンなどの端末により実現される。
【0014】
画像解析装置10は、例えば、文書画像の種類を判定する。文書画像は、文字、線、記号、図形、表、画像などのオブジェクト(第1のオブジェクト)で構成される文書の画像である。文書は、段組みされた構成の文書であってもよい。文書画像の種類は、一例として、論文、雑誌、カタログ、新聞などが挙げられる。なお、文書画像の構成、文書の構成、及び文書画像の種類は、かかる例に限定されない。
【0015】
画像解析装置10は、判定対象となる文書画像にぼかし処理を施したぼかし画像を生成し、当該ぼかし画像に対して区画を設定する。ここで、区画とは、ぼかし処理により、文書画像に含まれるオブジェクトが加工された加工オブジェクト(第2のオブジェクト)が1つ含まれる矩形の領域のことである。加工オブジェクトは、例えば、ぼかしをかけられたことによりぼやけたオブジェクトや、ぼやけたことにより複数のオブジェクトが結合して1つになったオブジェクトなどである。区画の設定後、画像解析装置10は、ネットワーク30を介して、区画が設定されたぼかし画像を類似度算出サーバ20へ送信する。
【0016】
類似度算出サーバ20は、画像の類似度を算出する処理(以下、「類似度算出処理」とも称される)を行う装置である。類似度算出サーバ20は、例えば、サーバ装置等のコンピュータにより実現される。
【0017】
類似度算出サーバ20は、例えば、機械学習の手法により画像の類似度を算出する。例えば、類似度算出サーバ20は、学習済みモデルを用いて、画像の類似度を算出する。学習済みモデルは、区画のレイアウトと文書画像の種類との関係を学習したモデルである。
【0018】
学習済みモデルの学習方法は、例えば、教師有り学習である。学習済みモデルは、学習用のデータセットを用いて、CNN(Convolutional Neural Network)などの学習モデルを学習させることにより生成される。CNNは、入力層、隠れ層(中間層)、出力層の3つの階層により構成されるモデルである。入力層には、CNNに推定させたいデータ(入力データ)が入力される。出力層からは、CNNによって学習された結果を示すデータ(推定結果)が出力される。隠れ層は、学習の核となる処理を行う。例えば、隠れ層は、入力を活性化関数(伝達関数)と呼ばれる関数により表現される値に変換して出力する。例えば、活性化関数は、正規化線形関数や、シグモイド関数、ステップ関数などであるが、これに限定されず、任意の関数が用いられてよい。
【0019】
CNNでは、ある層のユニットから、より深い層のユニットにデータが出力される際に、ユニット同士を接続するノードの結合係数に応じた重みW、及びバイアス成分bが付与されたデータが出力される。学習モデルは、入力されたデータ(入力データ)に対し、各ユニット間の演算を行い、出力層から出力データを出力する。
【0020】
本実施形態における学習用のデータセットは、入力としての区画のレイアウトと、出力としての文書画像の種類とを対応付けた情報である。
【0021】
学習の過程において、学習モデルに、学習用のデータセットの入力データを入力させる。学習モデルは、入力データに対して出力層から出力されるデータ(出力データ)が、学習用のデータセットの出力に近づくように、学習モデルのパラメータ(重みW及びバイアス成分b)を調整することにより、学習モデルを学習させる。
【0022】
例えば、学習モデルのパラメータ(重みW、及びバイアス成分b)の調整には、誤差逆伝搬法が用いられる。誤差逆伝搬法では、学習モデルの出力層から出力されるデータと、学習用データとセットの出力との乖離度合いが、損失関数として導出される。ここでの乖離度合いには、任意の指標が用いられてよいが、例えば、誤差の二乗(二乗誤差)やクロスエントロピー等が用いられる。誤差逆伝搬法では、出力層から入力層側に至る方向に、損失関数が最小となるように、重みWとバイアス成分bの組み合わせを決定(更新)する。これにより学習モデルを学習させ、推定の精度を向上させる。
【0023】
なお、学習モデルは、CNNに限定されることはない。学習モデルとして、例えば、決定木、階層ベイズ、SVM(Support Vector Machine)などの手法が用いられてもよい。
【0024】
類似度算出サーバ20は、画像解析装置10から受信するぼかし画像を学習済みモデルに入力することにより、学習済みモデルからの出力(文書画像の種類と類似度)を取得する。学習済みモデルからの出力は、例えば、「論文との類似度が80%、雑誌との類似度が50%、新聞との類似度が8%」など、文書画像の種類のそれぞれとの類似度を示す情報である。なお、ここでいう類似度は、判定対象のぼかし画像における区画のレイアウトと、学習済みモデルが学習に用いた区画のレイアウトとの類似度である。
【0025】
類似度算出サーバ20は、学習済みモデルからの出力を画像解析装置10へ送信する。そして、画像解析装置10は、受信した類似度を示す情報に基づき、判定対象の文書画像の種類を判定する。例えば、画像解析装置10は、最も高い類似度を示す文書画像の種類を、判定対象の文書画像の種類と判定する。
【0026】
なお、本実施形態に係る学習済みモデルは、類似度算出サーバ20が備える記憶媒体に保存されているものとするが、学習済みモデルの保存先はかかる例に限定されない。例えば、学習済みモデルは、画像解析装置10が備える記憶媒体に保存されていてもよい。これにより、画像解析装置10は、類似度算出サーバ20にアクセスすることなく、自装置の記憶媒体に保存された学習済みモデルを用いて類似度を取得することができる。
【0027】
<画像解析装置の構成>
ここで、画像解析装置10の構成について、より詳細に説明する。
図1に示すように、画像解析装置10は、画像取得部110、制御部120、通信部130、記憶部140、及び出力部150を備える。
【0028】
(画像取得部110)
画像取得部110は、判定処理の対象となる画像を取得する機能を有する。例えば、画像取得部110は、判定処理の対象として文書画像を取得し、取得した文書画像を制御部120へ出力する。なお、画像取得部110は、取得した文書画像を出力部150へ出力してもよい。
【0029】
画像取得部110は、多様な手段により文書画像を取得し得る。例えば、画像取得部110は、記憶部140に記憶されている文書画像を取得する。また、画像解析装置10が撮像装置を有する場合、画像取得部110は、撮像装置が文書の印刷物等を撮像した画像を文書画像として取得してもよい。また、画像取得部110は、外部装置から文書画像を取得してもよい。一例として、スキャナ装置が外部装置として画像解析装置10に接続されている場合、画像取得部110は、スキャナ装置が文書の印刷物等をスキャンすることで生成される画像を文書画像として取得する。なお、外部装置は、画像解析装置10と有線又は無線のどちらで接続されていてもよい。また、画像取得部110は、ネットワーク30を介して、ウェブサービスなどから文書画像を取得してもよい。
【0030】
ここで、
図2を参照して、文書画像の一例について説明する。
図2は、本発明の実施形態に係る文書画像40の例を示す図である。
図2に示す文書画像40は、2段組みの論文の画像である。当該論文には、上部に「XXXX学会第xx回全国大会」という論文のタイトルが記載され、タイトルの下に罫線をはさんで論文の本文が2段組みで記載されている。本文の1段目には、「1.*****」という見出しとその本文、「2.*****」という見出しとその本文、及び表1のタイトルとその表が記載されている。本文の2段目には、表2のタイトルとその表、1段目から続いている「2.*****」という見出しの本文、及び「3.*****」という見出しとその本文が記載されている。
【0031】
以下では、
図2に示した2段組みの論文の文書画像40が、判定処理の対象である例について説明する。
【0032】
(制御部120)
制御部120は、画像解析装置10の動作全般を制御する機能を有する。制御部120は、例えば、画像解析装置10がハードウェアとして備えるCPU(Central Processing Unit)にプログラムを実行させることによって実現される。当該機能を実現するために、制御部120は、画像読込部1202、画像加工部1204、区画設定部1206、区画合成部1208、判定部1210、及び後処理部1212を備える。
【0033】
(画像読込部1202)
画像読込部1202は、文書画像を読み込む機能を有する。例えば、画像読込部1202は、画像取得部110から入力される文書画像を読み込み、読み込んだ文書画像を画像加工部1204へ出力する。文書画像の読み込み時、画像読込部1202は、文書画像をグレースケールに変換する。なお、画像読込部1202は、文書画像をカラー画像として読み込んでもよい。
【0034】
(画像加工部1204)
画像加工部1204は、文書画像を加工する機能を有する。例えば、画像加工部1204は、画像読込部1202から入力される文書画像を加工し、加工した文書画像を区画設定部1206へ出力する。なお、画像加工部1204は、加工した文書画像を出力部150へ出力してもよい。加工の一例として、画像加工部1204は、文書画像に対してぼかし処理と2値変換処理を施す。
【0035】
まず、画像加工部1204は、文書画像に対してぼかし処理を施す。ぼかし処理は、処理対象にぼかしをかける処理である。画像加工部1204は、ぼかし処理により文書画像にぼかしをかけたぼかし画像を生成する。ぼかし処理は、例えば、平準化フィルターを用いて行われる。平準化フィルターは、例えば、ガウシアンフィルタである。ガウシアンフィルタは、画像の画素の内、注目した1つの画素(注目画素)を中心とした所定の領域内の画素の画素値を、注目画素からの距離に応じた重みをかけて平均化する。所定の領域の大きさは、例えば、3画素×3画素、5画素×5画素のように設定され得る。注目画素を中心とした所定の領域内の画素の画素値が平均化されることにより、所定の領域内の色の濃淡の変化がなめらかになるため、画像がぼやける。
【0036】
文書画像内のオブジェクトを示す画素とオブジェクト以外を示す画素との境界にて、オブジェクトを示す画素を注目画素としてガウシアンフィルタを適用すると、注目画素を中心とした所定の領域内の画素の画素値が平均化される。この時、所定の領域内に含まれていたオブジェクト以外を示す画素の画素値が、平均化によりオブジェクトを示す画素の画素値に近くなった場合、オブジェクトを示す画素の画素値に近い画素値である画素の数が増えるため、オブジェクトの大きさが大きくなる。これより、画像加工部1204は、文書画像に対してぼかし処理を施すと、文書画像内のオブジェクトの大きさをぼかし処理前の大きさよりも大きくすることができる。画像加工部1204がぼかし処理によってオブジェクトの大きさを大きくすることで、オブジェクトを示す画素から当該オブジェクトの外側に向かってオブジェクトが大きくなる。そのため、複数のオブジェクトが隣接して配置されている場合には、画像加工部1204は、隣接するオブジェクト同士をぼかし処理によって結合させることもできる。
【0037】
ぼかし処理により、文書画像中のオブジェクトが加工された多様な加工オブジェクトが生成され得る。例えば、文字列にぼかしがかけられると、隣接する文字が結合した加工オブジェクトが生成される。また、複数行の文章にぼかしがかけられると、隣接する行が結合した加工オブジェクトが生成される。また、表にぼかしがかけられると、表の枠線を示す罫線と表内の文字列が結合した加工オブジェクトが生成される。また、罫線にぼかしがかけられると、罫線がぼやけて太くなった加工オブジェクトが生成される。
【0038】
ぼかし処理では、ぼかしの強弱を示すぼかしの程度が調整可能に設定される。例えば、ぼかしの程度は、文書画像中の複数のオブジェクトが適切に結合するように設定されることが望ましい。ここでいう適切に結合することとは、各加工オブジェクトが意味を有するように、複数のオブジェクトが結合することである。例えば、文書画像が論文である場合、ぼかしの程度は、論文のタイトル、見出し、本文などの意味を有する加工オブジェクトが生成されるように設定される。
【0039】
また、論文のように文章が含まれる文書画像である場合、文章間の距離に応じてぼかしの程度が設定されることで、加工オブジェクトを適切な文章のまとまりごとに分けることができる。ここでいう適切な文章のまとまりとは、例えば段落である。文章間の距離は、例えば、改行が1回されている場合と改行が2回されている場合とで異なる。
【0040】
例えば、複数の段落がそれぞれ分かれた加工オブジェクトが生成されることが望ましい場合、ぼかしの程度は、複数の段落間(段落の境目をはさむ2行の文章間)の距離に応じて、それぞれの加工オブジェクトが分かれるように設定される。例えば、段落間の距離が短い場合、ぼかしの程度が強すぎると複数の段落が結合する可能性がある。よって、ぼかしの程度は、2つの段落が結合しない程度の強さに設定される。一方、段落間の距離が長い場合、ぼかしの程度がある程度強くても複数の段落が結合しない可能性がある。よって、ぼかしの程度は、2つの段落が結合しない程度まで強く設定されてもよい。
【0041】
複数の段落が結合した加工オブジェクトが生成されることが望ましい場合、ぼかしの程度は、複数の段落間の距離に応じて、複数の段落が結合するように設定されてもよい。例えば、段落間の距離が短い場合、ぼかしの程度がある程度弱くても複数の段落が結合する可能性がある。よって、ぼかしの程度は、2つの段落が分かれない程度に弱く設定されてよい。一方、段落間の距離が長い場合、ぼかしの程度が弱すぎると複数の段落が結合しない可能性がある。よって、ぼかしの程度は、複数の段落が結合する程度に強く設定される。
【0042】
また、ぼかしの程度は、ぼかしをかけられた文字列の意味が認識されないように設定されることが望ましい。具体的に、ぼかしの程度は、ユーザがぼかし画像を見た際に、ぼかしをかけられた文字列が示す意味をユーザが理解できない程度に設定される。これにより、判定対象の文書画像が個人情報を含む文書画像であっても、個人情報は認識されない程度にぼかしをかけられるため、個人情報を保護することができる。
【0043】
また、ぼかし処理により個人情報が保護されるため、ぼかし画像を用いた処理に対してクラウドサービス等の外部サービスを利用しても、外部に個人情報が漏洩することを防ぐことができる。そのため、ユーザは、ぼかし画像を用いた処理に対して外部サービスを利用しやすくなる。
【0044】
なお、画像加工部1204は、最も弱いぼかしの程度を初期設定とする。ここでいう最も弱いぼかしの程度は、ぼかしをかけられた文字列の意味が認識されない程度である。ぼかしの程度を変更する場合、画像加工部1204は、初期設定から徐々に強くなるようにぼかしの程度を強める。例えば、初期設定のぼかしの程度で生成されたぼかし画像に基づき判定処理が行われた結果、文書画像の種類が判定されなかった場合、画像加工部1204は、ぼかしの程度を初期設定よりも強くする。
【0045】
ここで、
図3を参照して、ぼかし画像の一例について説明する。
図3は、本発明の実施形態に係るぼかし画像42の例を示す図である。
図3に示すぼかし画像42は、
図2に示した文書画像40がぼかし処理によりぼかしをかけられた画像である。当該ぼかし画像42では、ぼかしをかけられた文字や記号は、黒丸で示されている。また、ぼかしをかけられた表の枠線等の罫線は、ぼかし処理の前よりも太く示されている。
【0046】
図3に示すぼかし画像42では、
図2に示した上部の論文のタイトルは、複数の文字が結合して1つの加工オブジェクトになっている。タイトルの下の罫線は、ぼやけて太くなった加工オブジェクトになっている。本文の1段目の「1.*****」という見出しとその本文は、それぞれ分かれて複数の文字が結合して2つの加工オブジェクトとなっている。本文の1段目の「2.*****」という見出しとその本文は、それぞれ分かれて複数の文字が結合して2つの加工オブジェクトとなっている。本文の1段目の表1のタイトルとその表は、タイトルの文字と表内の文字と表の罫線とが結合して1つの加工オブジェクトとなっている。本文の2段目の表2のタイトルとその表は、タイトルの文字と表内の文字と表の罫線とが結合して1つの加工オブジェクトとなっている。本文の2段目において、1段目から続いている「2.*****」という見出しの本文は、1段目の本文とは分かれて複数の文字が結合して1つの加工オブジェクトとなっている。本文の2段目の「3.*****」という見出しとその本文は、それぞれ分かれて複数の文字が結合して加工オブジェクトとなっており、本文はさらに分かれて複数の文字が結合して3つの加工オブジェクトとなっている。
【0047】
ぼかし処理後、画像加工部1204は、ぼかし画像に対して2値変換処理を施す。2値変換処理は、処理対象の画像を白と黒の2階調に変換する処理である。例えば、画像加工部1204は、ぼかし画像の各画素の画素値に基づき、ぼかし画像を白と黒の2階調に変換する。具体的に、画像加工部1204は、画素値が所定の閾値以上である画素には黒を示す値(例えば1)を設定し、画素値が所定の閾値未満である画素には白を示す値(例えば0)を設定する。
図3に示すぼかし画像42の場合、ぼかしがかけられて黒くなっている画素には1が設定され、それ以外の白い画素には0が設定される。そして、画像加工部1204は、2値変換処理後のぼかし画像を区画設定部1206へ出力する。
【0048】
(区画設定部1206)
区画設定部1206は、ぼかし画像に対して区画を設定する機能を有する。例えば、区画設定部1206は、画像加工部1204から入力されるぼかし画像に対して区画を設定し、区画を設定したぼかし画像を区画合成部1208及び判定部1210へ出力する。なお、区画設定部1206は、区画を設定したぼかし画像を出力部150へ出力してもよい。
【0049】
具体的に、区画設定部1206は、画像加工部1204から入力される2値変換されたぼかし画像の画素値に基づき、区画を設定する。まず、区画設定部1206は、ぼかし画像の各画素に設定されている画素値に基づき、ぼかし画像における加工オブジェクトを検出する。例えば、画素値に1が設定されている画素(即ち黒の画素)は加工オブジェクトを構成する画素であり、画素値に0が設定されている画素(即ち白の画素)は加工オブジェクト以外を構成する画素である。検出後、区画設定部1206は、検出した加工オブジェクトに対して区画を設定する。
【0050】
区画の設定時、区画設定部1206は、区画を設定した加工オブジェクトごとに、オブジェクトの情報を示すオブジェクト情報を抽出する。オブジェクト情報は、例えば、ヘッダー、フッター、タイトル、見出し、本文、表、又は図形などの加工オブジェクトの種類を示す情報である。区画設定部1206は、例えば、区画の形状、サイズ、面積、位置情報などに基づき、オブジェクトの種類を判定し、オブジェクト情報を抽出する。
【0051】
また、区画設定部1206は、設定した区画に対してラベリング処理を行う。ラベリング処理は、設定した区画に対してラベリング情報を付与する処理である。ラベリング情報は、例えば、区画の番号、サイズ、面積、位置情報、抽出したオブジェクト情報などである。
【0052】
ここで、
図4を参照して、区画が設定されたぼかし画像の一例について説明する。
図4は、本発明の実施形態に係るぼかし画像に対する区画の設定例を示す図である。
図4に示すぼかし画像では、区画が二点鎖線の矩形の枠で示されている。
【0053】
図4に示すぼかし画像44では、
図3に示したぼかし画像42にて判定された加工オブジェクトの各々に対して、区画が設定されている。具体的に、論文のタイトルと、タイトルの下の罫線とのそれぞれに対して区画が設定されている。また、本文の1段目の「1.*****」という見出しと、その本文とのそれぞれに対して区画が設定されている。また、本文の1段目の「2.*****」という見出しと、その本文とのそれぞれに対して区画が設定されている。また、本文の1段目の表1のタイトルとその表が結合した加工オブジェクトに対して区画が設定されている。また、本文の2段目の表2のタイトルとその表が結合した加工オブジェクトに対して区画が設定されている。また、本文の2段目において、1段目から続いている「2.*****」という見出しの本文に対して区画が設定されている。また、本文の2段目の「3.*****」という見出しと、その3つの本文とのそれぞれに対して区画が設定されている。
【0054】
なお、本実施形態では、ぼかし画像に対して、加工オブジェクトの形状に関わらず、単純な形状である矩形の区画が設定される。もし、ぼかし画像に加工オブジェクトの形状に応じた複雑な形状の区画が設定された場合、ぼかし画像を用いた処理を行う学習済みモデルは、複雑な形状を考慮した処理を行う必要があるため、処理が重くなってしまう。これに対し、ぼかし画像に設定された区画の形状が単純であるほど、学習済みモデルは、区画の形状に対する考慮を減らすことができる。よって、加工オブジェクトの形状に関わらず区画の形状が矩形であることにより、学習済みモデルにおける処理の負担を軽減することができる。
【0055】
(区画合成部1208)
区画合成部1208は、ぼかし画像に設定された区画を示す区画枠を文書画像に合成する機能を有する。例えば、区画合成部1208は、区画設定部1206から入力される区画が設定されたぼかし画像に基づき文書画像に区画枠を合成し、合成後の文書画像を出力部150へ出力する。これにより、ぼかし画像に設定された区画が文書画像上に可視化され、ユーザが区画を視認することができる。なお、区画合成部1208は、区画枠だけでなく、ラベリング情報やオブジェクト情報も文書画像に合成してもよい。
【0056】
ここで、
図5を参照して、区画枠が合成された文書画像の一例について説明する。
図5は、本発明の実施形態に係る文書画像に対する区画の合成例を示す図である。
図5に示す文書画像では、区画が実線の矩形の枠で示されている。
【0057】
図5に示す文書画像46は、
図2の文書画像40に対して、
図4のぼかし画像44に二点鎖線で示した区画と同一の位置に、実線の区画枠が合成され、さらに、各区画枠の近くに区画の番号を示すラベリング情報が合成された画像である。一例として、論文のタイトルの区画枠には「No.1」、本文の1段目の「2.*****」という見出しの本文の区画枠には「No.6」、表1の区画枠には「No.7」とそれぞれ区画の番号が示されている。
【0058】
(判定部1210)
判定部1210は、文書画像の種類を判定する機能を有する。例えば、判定部1210は、区画設定部1206から入力されるぼかし画像に設定された区画に基づき、文書画像の種類を判定し、判定結果を後処理部1212へ出力する。
【0059】
例えば、まず、判定部1210は、学習済みモデルを用いて、ぼかし画像に設定された区画のレイアウトと、学習済みモデルが学習に用いた区画のレイアウトとの類似度を取得する。本実施形態では、学習済みモデルは類似度算出サーバ20に保存されている。そのため、判定部1210は、学習済みモデルを用いる際に、区画が設定されたぼかし画像を通信部130に類似度算出サーバ20へ送信させる。類似度算出サーバ20は、受信したぼかし画像を学習済みモデルへ入力することで類似度を算出し、ネットワーク30を介して、算出した類似度を画像解析装置10へ送信する。そして、類似度算出サーバ20から類似度を受信した通信部130は、受信した類似度を判定部1210へ出力する。これにより、判定部1210は、類似度を取得することができる。
【0060】
類似度の取得後、判定部1210は、取得した類似度に基づき判定対象の文書画像の種類を判定する。例えば、判定部1210は、取得した類似度に対する閾値判定を行い、文書画像の種類を判定する。
【0061】
取得した類似度のうち、所定の閾値以上の類似度が存在する場合、判定部1210は、所定の閾値以上の類似度のうち最大値の類似度と対応する文書画像の種類を、判定対象の文書画像の種類と判定する。例えば、所定の閾値が50%であり、論文との類似度が80%、雑誌との類似度が75%、新聞との類似度が8%であったとする。この場合、判定部1210は、類似度が50%以上かつ最大値である論文を、判定対象の文書画像の種類と判定する。
【0062】
取得した類似度のうち、所定の閾値以上の類似度が存在しない場合、判定部1210は、ぼかしの程度を変更して生成されたぼかし画像を用いて類似度を再取得し、再取得した類似度に基づき、判定対象の文書画像の種類を判定する。例えば、所定の閾値が50%であり、論文との類似度が40%、雑誌との類似度が25%、新聞との類似度が8%であったとする。この場合、判定部1210は、判定対象の文書画像の種類が判定できなかったものとし、ぼかし画像の生成から判定処理をやり直す。
【0063】
この時、画像加工部1204は、ぼかしの程度を変更してぼかし画像を再生成する。具体的に、画像加工部1204は、変更後のぼかしの程度を、変更前のぼかしの程度よりも強くする。次いで、区画設定部1206は、再生成されたぼかし画像に区画を設定する。そして、判定部1210は、区画が設定されたぼかし画像を用いて類似度を再取得し、再取得した類似度に基づき、判定対象の文書画像の種類を再判定する。ここで、判定対象の文書画像の種類を判定できなかった場合、ぼかし画像の生成から処理をやり直す。このように、判定対象の文書画像の種類を判定できなかった際に、ぼかしの程度を変更しながら判定処理を繰り返すことで、判定の精度を向上することができる。なお、判定処理を所定の回数だけ繰り返しても判定対象の文書画像の種類を判定できなかった場合、判定部1210は、エラーを返してもよい。
【0064】
ここで、
図6を参照して、ぼかしの程度を強くして区画が設定されたぼかし画像の一例について説明する。
図6は、本発明の実施形態に係るぼかしの程度を強くした際のぼかし画像に対する区画の設定例を示す図である。
図6の左側の図は、ぼかしの程度の変更前の区画の設定例を示す図である。
図6の右側の図は、ぼかしの程度の変更後の区画の設定例を示す図である。
【0065】
ぼかしの程度の変更前は、
図6の左側の図に示すように、見出しの区画51と、見出しの本文の2つの段落にそれぞれ区画52と区画53が設定されている。この状態で、区画52が設定された段落と、区画53が設定された段落とが結合する程度に、ぼかしの程度を強く変更する。ぼかしの程度が強くなると、オブジェクトがより大きくぼやけるようになるため、オブジェクトのぼやけ具合を示す黒丸の大きさも大きくなる。よって、ぼかしの程度を強く変更すると、
図6の右側の図に示すように、見出しにはぼかしの程度の変更前よりも大きくなった区画54が設定されている。また、本文の2つの段落が結合する程度にぼかしの程度が強く変更されているため、
図6の右側の図に示すように、結合した2つの段落には、2つの段落を含む大きさの1つの区画55が設定されている。
【0066】
(後処理部1212)
後処理部1212は、文書画像の種類の判定結果に応じた処理を実行する機能を有する。後処理部1212は、判定部1210から入力される判定結果に基づき、多様な処理を実行し得る。
【0067】
後処理部1212は、例えば、文書画像の種類に応じた処理を実行する。後処理部1212は、例えば、文書画像の種類と処理が対応付けられた処理リストを有する。判定部1210から判定結果を入力された際に、後処理部1212は、判定結果と処理リストを参照し、判定結果が示す文書画像の種類と対応する処理をリストから選択して実行する。例えば、文書画像の種類が論文である場合には論文に関する処理が実行され、文書画像の種類が雑誌である場合は雑誌に関する処理が実行される。
【0068】
処理の一例として、後処理部1212は、OCR(Optical Character Recognition)処理を実行する。OCR処理は、区画枠が合成された文書画像に対して行われ、区画枠内の文字が認識される。この時、後処理部1212は、区画枠ごとにOCR処理を実行する。これにより、後処理部1212は、オブジェクトごとにOCR処理を実行する場合と比較して処理対象数を削減することができるため、OCR処理にかかるコストを削減することができる。
【0069】
また、後処理部1212は、区画枠ごとにOCR処理を実行することで、文書画像内の文章の構成(例えば、書字方向、段組みなど)の影響を受けずにOCR処理を実行することができる。一例として、
図5に示した区画が設定された文書画像46のように、文書画像内の文章が2段組みの構成である場合、後処理部1212は、区画ごとにOCR処理を実行することで、1段目の文章と2段目の文章とを分けて認識することができる。よって、後処理部1212は、処理結果に1段目の文章と2段目の文章とが部分的に混在することを防ぐことができる。また、後処理部1212は、1段目の文章を認識してから2段目の文章を認識することもできるため、1段目の文章と2段目の文章とを正しい順序で接続して認識することもできる。
【0070】
また、OCR処理が区画枠ごとに実行されるため、ぼかしの程度の変更により区画枠内に含まれるオブジェクトを調整することで、OCR処理で認識させたい認識対象を変更することができる。
【0071】
ここで、
図7を参照して、OCR処理にて表のセルごとに文字を認識させる場合の区画の設定の変更例について説明する。
図7は、本発明の実施形態に係るぼかしの程度を弱くした際のぼかし画像に対する区画の設定例を示す図である。
図7の左側の図は、ぼかしの程度の変更前の区画の設定例を示す図である。
図7の右側の図は、ぼかしの程度の変更後の区画の設定例を示す図である。
【0072】
ぼかしの程度の変更前は、
図7の左側の図に示すように、表のタイトルと表の枠線を示す罫線と表内の文字が結合した1つの加工オブジェクトに対して、1つの区画60が設定されている。この状態で、例えば、表内のセルごとに文字を認識できるようにするには、各セルの加工オブジェクトごとに区画が設定される必要がある。そこで、表の枠線を示す罫線と表内の文字とが分離する程度に、ぼかしの程度を弱く変更する。ぼかしの程度が弱くなると、オブジェクトがより小さくぼやけるようになるため、オブジェクトのぼやけ具合を示す黒丸の大きさも小さくなる。よって、表の枠線を示す罫線と表内の文字とが分離する程度にぼかしの程度を弱くすることで、
図7の右側の図に示すように、表の各セル内の各加工オブジェクトに対して、それぞれ区画61~64を設定することができる。
【0073】
また、処理の一例として、後処理部1212は、文書画像内の文章の読み上げ処理を実行する。読み上げ時の音声は、例えば、出力部150から出力される。読み上げ処理では、例えば、後処理部1212がOCR処理にて認識した文字が読み上げられる。そのため、後処理部1212は、文書画像内の文章が段組みの構成であっても、適切な順序で文章を読み上げることができる。例えば、文書画像内の文章が2段組みの文章である場合、後処理部1212は、1段目の文章を読み上げ終えてから、2段目の文章を読み上げる。
【0074】
また、後処理部1212は、オブジェクト情報に基づく読み上げ処理を実行してもよい。例えば、後処理部1212は、区画に設定されたオブジェクト情報を参照し、加工オブジェクトの種類別に読み上げを行う。具体的に、後処理部1212は、先に見出しを全て読み上げてから、本文を読み上げる。また、加工オブジェクトの種類に応じて読み上げの有無が設定されてもよい。例えば、複数のページからなる文書画像のすべてのページに同一のヘッダーとフッターが設定されているとする。この場合、ヘッダーとフッターの読み上げの有無は、無しに設定されてよい。これにより、後処理部1212が同一のヘッダーとフッターの読み上げを毎ページで行うことを防ぐことができる。よって、加工オブジェクトの種類ごとに読み上げの有無が設定されることで、後処理部1212による冗長な読み上げを防ぐことができる。
【0075】
(通信部130)
通信部130は、外部装置と通信を行う機能を有する。通信部130は、制御部120から入力される情報を外部装置へ送信する。一例として、通信部130は、制御部120から入力される区画が設定されたぼかし画像を、ネットワーク30を介して類似度算出サーバ20へ送信する。通信部130は、外部装置から受信する情報を制御部120へ出力する。一例として、通信部130は、ネットワーク30を介して類似度算出サーバ20から受信した類似度を、制御部120へ出力する。
【0076】
(記憶部140)
記憶部140は、各種情報を記憶する機能を有する。記憶部140は、記憶媒体、例えば、HDD(Hard Disk Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、RAM(Random Access read/write Memory)、ROM(Read Only Memory)、又はこれらの記憶媒体の任意の組み合わせによって構成される。記憶部140は、例えば、不揮発性メモリを用いることができる。
【0077】
なお、記憶部140は、各種情報の一例として、学習済みモデルを記憶してもよい。これにより、判定部1210は、記憶部140にアクセスして学習済みモデルを用いることで、類似度算出サーバ20にアクセスせずに類似度を取得することができる。
【0078】
(出力部150)
出力部150は、制御部120からの入力に応じた出力を行う機能を有する。出力部150は、例えば、液晶パネルやタッチパネル等の表示装置や、スピーカ等の音声出力装置により実現される。
【0079】
例えば、出力部150は、制御部120から入力される多様な画像を表示し得る。例えば、出力部150は、画像取得部110から入力される文書画像を表示する。また、出力部150は、画像加工部1204から入力されるぼかし画像を表示する。また、出力部150は、区画設定部1206から入力される区画が設定されたぼかし画像を表示する。また、出力部150は、区画合成部1208から入力される区画枠が合成された文書画像を表示する。これにより、ユーザは、各種処理が施された画像を視認することができる。
また、出力部150は、制御部120から入力される音声を出力してもよい。
【0080】
<処理の流れ>
以上、画像解析装置10の構成例について説明した。続いて、本実施形態に係る画像解析装置10における処理の流れについて説明する。
図8は、本発明の実施形態に係る画像解析装置10における処理の流れを示すフローチャートである。
【0081】
まず、画像解析装置10の画像読込部1202は、画像取得部110が取得した文書画像をグレースケールで読み込む(S102)。
【0082】
次いで、画像加工部1204は、画像読込部1202が読み込んだ文書画像にぼかし処理を施し、ぼかし画像を生成する(S104)。ぼかし処理後、画像加工部1204は、ぼかし画像に対して2値変換処理を施す(S106)。
【0083】
次いで、区画設定部1206は、2値変換されたぼかし画像に対して、区画を設定する(S108)。区画の設定後、区画設定部1206は、区画が設定されたぼかし画像に対してラベリング処理を施す(S110)。
【0084】
次いで、区画合成部1208は、区画が設定されたぼかし画像に基づき、文書画像に対して区画を示す区画枠を合成する(S112)。区画枠が合成された文書画像は、例えば、出力部150にてユーザが視認可能に表示される。
【0085】
次いで、判定部1210は、判定処理を行う。まず、判定部1210は、区画が設定されたぼかし画像を類似度算出サーバ20へ送信し、類似度を取得する(S114)。類似度の取得後、判定部1210は、取得した類似度に対して閾値判定を行う(S116)。
【0086】
閾値以上の類似度が存在する場合(S116/YES)、判定部1210は、最大の類似度と対応する文書画像の種類を判定対象の文書画像の種類と判定する。そして、後処理部1212は、判定した文書画像の種類に応じた後処理を実行する(S118)。
【0087】
閾値以上の類似度が存在しない場合(S116/NO)、判定部1210が判定対象の文書画像の種類を判定できないため、制御部120は、画像加工部1204にぼかしの程度を変更させ(S120)、S104から処理を繰り返す。
【0088】
以上説明したように、本実施形態に係る画像解析装置10は、まず、文書画像に対するぼかし処理により、文書画像に含まれるオブジェクトが加工された加工オブジェクトを含むぼかし画像を生成する。次いで、画像解析装置10は、生成したぼかし画像に対して加工オブジェクトが1つ含まれる矩形の領域を示す区画を設定する。これにより、画像解析装置10は、加工オブジェクトごとに区画を設定するだけで、段落単位に区画を設定でき、文書画像における段落を分けることができる。よって、画像解析装置10は、文書画像における段落の設定を容易に行うことができる。
【0089】
さらに、画像解析装置10は、ぼかし画像に設定された区画に基づき、判定対象の文書画像の種類を判定する。具体的に、画像解析装置10は、まず、区画のレイアウトと文書画像の種類との関係を学習した学習済みモデルを用いて、ぼかし画像における区画のレイアウトと、学習済みモデルが学習に用いた区画のレイアウトとの類似度を取得する。類似度の算出時、学習済みモデルは、単純な形状である矩形の区画のレイアウトのみを比較するため、複雑な比較処理を行うことなく、容易にレイアウトの類似度を算出することができる。また、画像解析装置10は、学習済みモデルに文書画像を入力するだけで容易に類似度を取得することができる。
【0090】
次いで、画像解析装置10は、取得した類似度のうち、所定の閾値以上の類似度が存在する場合、所定の閾値以上の類似度のうち最大値の類似度と対応する文書画像の種類を、判定対象の文書画像の種類と判定する。このように、画像解析装置10は、容易に取得した類似度に対して閾値判定を行うことで、容易に文書画像の種類を判定することができる。また、画像解析装置10は、ぼかし画像に設定された区画のレイアウトから、文書画像のレイアウトを容易に判定することもできる。
【0091】
一方、取得した類似度のうち、所定の閾値以上の類似度が存在しない場合、画像解析装置10は、ぼかしの程度を変更して生成されたぼかし画像を用いて類似度を再取得する。次いで、画像解析装置10は、再取得した類似度に基づき、判定対象の文書画像の種類を判定する。このように、画像解析装置10は、取得した類似度による判定が困難な場合、ぼかしの程度を変更したぼかし画像を用いて類似度を再度取得し、判定処理を繰り返す。これにより、画像解析装置10は、文書画像の種類を判定できる確率を向上させるとともに、判定の精度も向上させることができる。
【0092】
また、画像解析装置10は、後処理にて、区画が設定されたぼかし画像又は区画枠が合成された文書画像を用いた処理を実行する。これにより、画像解析装置10は、後処理にて処理対象の検索等を行う際に、区画を検索対象とすることで各オブジェクトを検索対象とする時と比べて検索対象の数を削減することができる。よって、画像解析装置10は、区画が設定されたぼかし画像又は区画枠が合成された文書画像を用いた処理を実行することで、後処理における負担を軽減することができる。
【0093】
以上、本発明の実施形態について説明した。なお、上述した実施形態における画像解析装置10をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
【0094】
以上、図面を参照してこの発明の実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【符号の説明】
【0095】
1 画像解析システム
10 画像解析装置
20 類似度算出サーバ
30 ネットワーク
110 画像取得部
120 制御部
130 通信部
140 記憶部
150 出力部
1202 画像読込部
1204 画像加工部
1206 区画設定部
1208 区画合成部
1210 判定部
1212 後処理部