IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 凸版印刷株式会社の特許一覧

特許7676895画像解析装置、画像解析方法、及びプログラム
<>
  • 特許-画像解析装置、画像解析方法、及びプログラム 図1
  • 特許-画像解析装置、画像解析方法、及びプログラム 図2
  • 特許-画像解析装置、画像解析方法、及びプログラム 図3
  • 特許-画像解析装置、画像解析方法、及びプログラム 図4
  • 特許-画像解析装置、画像解析方法、及びプログラム 図5
  • 特許-画像解析装置、画像解析方法、及びプログラム 図6
  • 特許-画像解析装置、画像解析方法、及びプログラム 図7
  • 特許-画像解析装置、画像解析方法、及びプログラム 図8
  • 特許-画像解析装置、画像解析方法、及びプログラム 図9
  • 特許-画像解析装置、画像解析方法、及びプログラム 図10
  • 特許-画像解析装置、画像解析方法、及びプログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-05-07
(45)【発行日】2025-05-15
(54)【発明の名称】画像解析装置、画像解析方法、及びプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20250508BHJP
【FI】
G06T7/00 350B
【請求項の数】 11
(21)【出願番号】P 2021067218
(22)【出願日】2021-04-12
(65)【公開番号】P2022131986
(43)【公開日】2022-09-07
【審査請求日】2024-02-16
(31)【優先権主張番号】P 2021029856
(32)【優先日】2021-02-26
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000003193
【氏名又は名称】TOPPANホールディングス株式会社
(74)【代理人】
【識別番号】100149548
【弁理士】
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100139686
【弁理士】
【氏名又は名称】鈴木 史朗
(74)【代理人】
【識別番号】100169764
【弁理士】
【氏名又は名称】清水 雄一郎
(74)【代理人】
【識別番号】100147267
【弁理士】
【氏名又は名称】大槻 真紀子
(72)【発明者】
【氏名】鈴木 雅之
(72)【発明者】
【氏名】岡本 光輔
(72)【発明者】
【氏名】曹 妍
(72)【発明者】
【氏名】櫻井 佑孝
【審査官】秦野 孝一郎
(56)【参考文献】
【文献】特開2021-026450(JP,A)
【文献】特開2009-206658(JP,A)
【文献】特開平5-324906(JP,A)
【文献】特開2016-38732(JP,A)
【文献】特開2017-134598(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
文書画像に対するぼかし処理により、前記文書画像に含まれる第1のオブジェクトの大きさが加工前より大きくなるように加工された第2のオブジェクトを含むぼかし画像を生成する画像加工部と、
前記ぼかし画像の画像サイズを縮小した縮小ぼかし画像を生成する画像サイズ縮小部と、
学習用の前記縮小ぼかし画像に画像の種類を対応づけた学習データセットを用いて、画像の種類を推定する学習済モデルを生成する学習部と、
を備える、画像解析装置。
【請求項2】
文書画像に対するぼかし処理により、前記文書画像に含まれる第1のオブジェクトの大きさが加工前より大きくなるように加工された第2のオブジェクトを含むぼかし画像を生成する画像加工部と、
前記ぼかし画像の画像サイズを縮小した縮小ぼかし画像を生成する画像サイズ縮小部と、
判定対象とする前記縮小ぼかし画像を、画像の種類を推定する学習済モデルに入力して得られる出力に基づいて、前記縮小ぼかし画像の種類を判定する判定部と、
を備える、画像解析装置。
【請求項3】
前記画像加工部は、前記第1のオブジェクトの大きさが加工前より大きくなったことに応じて隣接するオブジェクトが結合される度会いに応じて、前記ぼかし処理によるぼかしの程度を設定する、
請求項1又は請求項2に記載の画像解析装置。
【請求項4】
前記画像加工部は、前記第1のオブジェクトの大きさが加工前より大きくなったことに応じて隣接するオブジェクトが結合される度会いに応じて、前記ぼかし処理によるぼかしの程度を設定し、最も弱いぼかしの程度を初期設定とし、初期設定のぼかしの程度で生成された画像に基づき前記判定部による判定処理が行われた結果、画像の種類が判定されなかった場合、ぼかしの程度を初期設定よりも強くし、
前記判定部は、ぼかしの程度を初期設定よりも強くした前記ぼかし画像の画像サイズを縮小した前記縮小ぼかし画像の種類を判定する、
請求項2に記載の画像解析装置。
【請求項5】
文書画像に対するぼかし処理により、前記文書画像に含まれる複数のオブジェクトが結合するように加工された加工オブジェクトを含むぼかし画像を生成する画像加工部と、
前記ぼかし画像の画像サイズを縮小した縮小ぼかし画像を生成する画像サイズ縮小部と、
前記加工のオブジェクトを囲む区画が設定された学習用の前記縮小ぼかし画像における前記区画のレイアウトに画像の種類を対応づけた学習データセットを用いて、前記区画のレイアウトに基づいて画像の種類を推定する学習済モデルを生成する学習部と、
を備える、画像解析装置。
【請求項6】
文書画像に対するぼかし処理により、前記文書画像に含まれる複数のオブジェクトが結合するように加工された加工オブジェクトを含むぼかし画像を生成する画像加工部と、
前記ぼかし画像の画像サイズを縮小した縮小ぼかし画像を生成する画像サイズ縮小部と、
前記加工のオブジェクトを囲む区画が設定された判定対象前記縮小ぼかし画像を、記区画のレイアウトに基づいて画像の種類を推定する学習済モデルに入力して得られる出力に基づいて、前記縮小ぼかし画像の種類を判定する判定部と、
を備える、画像解析装置。
【請求項7】
コンピュータにより実行される画像解析方法であって、
画像加工部が、文書画像に対するぼかし処理により、前記文書画像に含まれる第1のオブジェクトの大きさが加工前より大きくなるように加工された第2のオブジェクトを含むぼかし画像を生成し、
画像サイズ縮小部が、前記ぼかし画像の画像サイズを縮小した縮小ぼかし画像を生成し、
学習部が、学習用の前記縮小ぼかし画像に画像の種類を対応づけた学習データセットを用いて、画像の種類を推定する学習済モデルを生成する、
画像解析方法。
【請求項8】
コンピュータにより実行される画像解析方法であって、
画像加工部が、文書画像に対するぼかし処理により、前記文書画像に含まれる第1のオブジェクトの大きさが加工前より大きくなるように加工された第2のオブジェクトを含むぼかし画像を生成し、
画像サイズ縮小部が、前記ぼかし画像の画像サイズを縮小した縮小ぼかし画像を生成し、
判定部が、判定対象とする前記縮小ぼかし画像を画像の種類を推定する学習済モデルに入力して得られる出力に基づいて、前記縮小ぼかし画像の種類を判定する、
画像解析方法。
【請求項9】
コンピュータにより実行される画像解析方法であって、
画像加工部が、文書画像に対するぼかし処理により、前記文書画像に含まれる複数のオブジェクトが結合するように加工された加工オブジェクトを含むぼかし画像を生成し、
画像サイズ縮小部が、前記ぼかし画像の画像サイズを縮小した縮小ぼかし画像を生成し、
学習部が、前記加工のオブジェクトを囲む区画が設定された学習用の前記縮小ぼかし画像における前記区画のレイアウトに画像の種類を対応づけた学習データセットを用いて、画像の種類を推定する学習済モデルを生成する、
画像解析方法。
【請求項10】
コンピュータにより実行される画像解析方法であって、
画像加工部が、文書画像に対するぼかし処理により、前記文書画像に含まれる複数のオブジェクトが結合するように加工された加工オブジェクトを含むぼかし画像を生成し、
画像サイズ縮小部が、前記ぼかし画像の画像サイズを縮小した縮小ぼかし画像を生成し、
判定部が、前記加工のオブジェクトを囲む区画が設定された判定対象前記縮小ぼかし画像を、記区画のレイアウトに基づいて画像の種類を推定する学習済モデルに入力して得られる出力に基づいて、前記縮小ぼかし画像の種類を判定する、
画像解析方法。
【請求項11】
コンピュータを、請求項1請求項2、請求項5、請求項6のいずれか一項に記載の画像解析装置として動作させるためのプログラムであって、前記コンピュータを前記画像解析装置が備える各部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像解析装置、画像解析方法、及びプログラムに関する。
【背景技術】
【0002】
近年、文書画像に対する文字認識により、文書画像における文字の領域を認識する技術が各種提案されている。
【0003】
例えば、下記特許文献1には、文書画像における単語の領域を認識する技術が開示されている。当該技術では、文書画像にぼかしをかけて隣接する文字同士を結合させ、結合した部分を抽出することで単語の領域を認識する。
【先行技術文献】
【特許文献】
【0004】
【文献】特許第5522408号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1の技術を用いて文書画像にぼかしをかけた画像を、機械学習の学習データに用いることが考えられる。機械学習では、膨大な学習データを用いて繰り返し学習が実行されることが多いため、機械学習を実行する際の処理負荷の増大を抑制する仕組みが求められている。
【0006】
上述の課題を鑑み、本発明の目的は、処理負荷の増大を抑制することが可能な画像解析装置、画像解析方法、及びプログラムを提供することにある。
【課題を解決するための手段】
【0007】
上述の課題を解決するために、本発明の一態様に係る画像解析装置は、文書画像に対するぼかし処理により、前記文書画像に含まれる第1のオブジェクトの大きさが加工前より大きくなるように加工された第2のオブジェクトを含むぼかし画像を生成する画像加工部と、前記ぼかし画像の画像サイズを縮小した縮小ぼかし画像を生成する画像サイズ縮小部と、学習用の前記縮小ぼかし画像に画像の種類を対応づけた学習データセットを用いて、画像の種類を推定する学習済モデルを生成する学習部と、を備える。
【0008】
また、本発明の一態様に係る画像解析装置は、文書画像に対するぼかし処理により、前記文書画像に含まれる第1のオブジェクトの大きさが加工前より大きくなるように加工された第2のオブジェクトを含むぼかし画像を生成する画像加工部と、前記ぼかし画像の画像サイズを縮小した縮小ぼかし画像を生成する画像サイズ縮小部と、判定対象とする前記縮小ぼかし画像を、画像の種類を推定する学習済モデルに入力して得られる出力に基づいて、前記縮小ぼかし画像の種類を判定する判定部と、を備える。
【0009】
また、本発明の一態様に係る画像解析方法は、コンピュータにより実行される画像解析方法であって、画像加工部が、文書画像に対するぼかし処理により、前記文書画像に含まれる第1のオブジェクトの大きさが加工前より大きくなるように加工された第2のオブジェクトを含むぼかし画像を生成し、画像サイズ縮小部が、前記ぼかし画像の画像サイズを縮小した縮小ぼかし画像を生成し、学習部が、学習用の前記縮小ぼかし画像に画像の種類を対応づけた学習データセットを用いて、画像の種類を推定する学習済モデルを生成する、画像解析方法である。
【0010】
また、本発明の一態様に係る画像解析方法は、コンピュータにより実行される画像解析方法であって、画像加工部が、文書画像に対するぼかし処理により、前記文書画像に含まれる第1のオブジェクトの大きさが加工前より大きくなるように加工された第2のオブジェクトを含むぼかし画像を生成し、画像サイズ縮小部が、前記ぼかし画像の画像サイズを縮小した縮小ぼかし画像を生成し、判定部が、判定対象とする前記縮小ぼかし画像を画像の種類を推定する学習済モデルに入力して得られる出力に基づいて、前記縮小ぼかし画像の種類を判定する、画像解析方法である。
【0011】
本発明の一態様に係るプログラムは、コンピュータを、上記に記載の画像解析装置として動作させるためのプログラムであって、前記コンピュータを前記画像解析装置が備える各部として機能させるためのプログラムである。
【発明の効果】
【0012】
本発明によれば、処理負荷の増大を抑制することができる。
【図面の簡単な説明】
【0013】
図1】本発明の実施形態に係る画像解析システム1の構成例を示すブロック図である。
図2】同実施形態に係る文書画像40の例を示す図である。
図3】同実施形態に係るぼかし画像42の例を示す図である。
図4】同実施形態に係るぼかし画像42の例を示す図である。
図5】同実施形態に係る縮小ぼかし画像42Aの例を示す図である。
図6】同実施形態に係るぼかしの程度を強くした際のぼかし画像に対する区画の設定例を示す図である。
図7】同実施形態に係るぼかしの程度を弱くした際のぼかし画像に対する区画の設定例を示す図である。
図8】同実施形態に係る画像解析システム1における処理の流れを示すフローチャートである。
図9】同実施形態に係る画像解析システム1における処理の流れを示すフローチャートである。
図10】同実施形態の変形例に係る画像解析システム1における処理の流れを示すシーケンス図である。
図11】同実施形態の変形例に係る画像解析システム1における処理の流れを示すシーケンス図である。
【発明を実施するための形態】
【0014】
<画像解析システム1の構成>
図1は、本発明の実施形態に係る画像解析システム1の構成例を示すブロック図である。図1に示すように、画像解析システム1は、画像解析装置10、類似度算出サーバ20、及びネットワーク30で構成される。画像解析装置10と類似度算出サーバ20は、互いに情報の送受信が行えるようにネットワーク30により接続されている。
【0015】
画像解析装置10は、画像の種類を判定する処理(以下、「判定処理」とも称される)を行う装置である。画像解析装置10は、例えば、PC(Personal Computer)、タブレット端末、スマートフォンなどの端末により実現される。
【0016】
画像解析装置10は、例えば、文書画像の種類を判定する。判定対象となる文書画像は、文字、線、記号、図形、表、画像などのオブジェクト(「第1のオブジェクト」の一例)で構成される文書の画像である。文書は、段組みされた構成の文書であってもよい。文書画像の種類は、一例として、帳票、論文、雑誌、カタログ、新聞などが挙げられる。なお、文書画像の構成、文書の構成、及び文書画像の種類は、かかる例に限定されない。
【0017】
画像解析装置10は、文書画像に画像処理を行い、オブジェクトが加工された加工オブジェクトで構成された画像を生成する。加工オブジェクトは、「第2のオブジェクト」の一例であり、例えば、後述するぼかし処理を施されることにより、文字や画像がぼやけたオブジェクトや、文字や画像がぼやけたことにより複数のオブジェクトが結合して1つになったオブジェクトなどである。
【0018】
具体的には、画像解析装置10は、文書画像にぼかし処理を行い、オブジェクトにぼかしが施されたぼかし画像を生成する。画像解析装置10は、ネットワーク30を介して、ぼかし画像を類似度算出サーバ20へ送信する。画像解析装置10がぼかし画像を生成する具体的な方法については後で詳しく説明する。
【0019】
類似度算出サーバ20は、画像の類似度を算出する処理(以下、「類似度算出処理」とも称される)を行う装置である。類似度算出サーバ20は、例えば、サーバ装置等のコンピュータにより実現される。
【0020】
類似度算出サーバ20は、画像解析装置10から画像処理が行われた文書画像を受信する。類似度算出サーバ20は、画像解析装置10から受信した画像を学習済モデルに入力することにより、学習済モデルからの出力を取得する。学習済モデルからの出力は、入力された画像から推定される画像の種類と類似度を示す情報であり、例えば、「帳票との類似度が80%、論文との類似度が50%、雑誌との類似度が8%」など、画像の種類のそれぞれとの類似度を示す情報である。
【0021】
類似度算出サーバ20は、学習済モデルからの出力を画像解析装置10へ送信する。そして、画像解析装置10は、類似度算出サーバ20から受信した類似度を示す情報に基づき、判定対象の文書画像の種類を判定する。例えば、画像解析装置10は、最も高い類似度を示す文書画像の種類を、判定対象の文書画像の種類と判定する。類似度算出サーバ20が学習済モデルに学習をする方法、及び学習済モデルを用いて文書画像の種類を判定する方法については後で詳しく説明する。
【0022】
<画像解析装置10の構成>
ここで、画像解析装置10の構成について説明する。図1に示すように、画像解析装置10は、画像取得部110、制御部120、通信部130、記憶部140、及び出力部150を備える。
【0023】
(画像取得部110)
画像取得部110は、判定処理の対象となる画像を取得する機能を有する。例えば、画像取得部110は、判定処理の対象として文書画像を取得し、取得した文書画像を制御部120へ出力する。なお、画像取得部110は、取得した文書画像を出力部150へ出力してもよい。
【0024】
画像取得部110は、多様な手段により文書画像を取得し得る。例えば、画像取得部110は、記憶部140に記憶されている文書画像を取得する。また、画像解析装置10が撮像装置を有する場合、画像取得部110は、撮像装置が文書の印刷物等を撮像した画像を文書画像として取得してもよい。また、画像取得部110は、外部装置から文書画像を取得してもよい。一例として、スキャナ装置が外部装置として画像解析装置10に接続されている場合、画像取得部110は、スキャナ装置が文書の印刷物等をスキャンすることで生成される画像を文書画像として取得する。なお、外部装置は、画像解析装置10と有線又は無線のどちらで接続されていてもよい。また、画像取得部110は、ネットワーク30を介して、ウェブサービスなどから文書画像を取得してもよい。
【0025】
ここで、図2を参照して、文書画像の一例について説明する。図2は、本発明の実施形態に係る文書画像40の例を示す図である。この図に示す文書画像40は、「申請書」とのタイトルが記載された帳票の画像である。この例に示す帳票には、上から順に、フリガナ、氏名、性別、住所、電話番号、及び備考などの項目が記載された項目欄があり、各項目欄の右にそれぞれの項目に対応する内容を記載する記載欄が設けられている。
【0026】
また、項目欄の背景(符号400~403)は、白色ではない有色(例えば、グレー)にて着色されている。記載欄の背景色は、着色がなされていないために用紙の色(例えば、白色)となっている。なお、この図の例では、見易さのため、項目欄に記載された文字と文字との間の背景部分が有色(例えば、グレー)にて着色されてないが、これに限定されることはない。項目欄に記載された文字と文字との間の背景部分が有色(例えば、グレー)にて着色されているものが用いられてもよいのは勿論である。
【0027】
図1の説明に戻り、制御部120について説明する。以下では、図2に示した帳票の文書画像40が、判定処理の対象である例について説明する。
【0028】
(制御部120)
制御部120は、画像解析装置10の動作全般を制御する機能を有する。制御部120は、例えば、画像解析装置10がハードウェアとして備えるCPU(Central Processing Unit)にプログラムを実行させることによって実現される。当該機能を実現するために、制御部120は、画像読込部1202、画像加工部1204、画像縮小部1206、学習部1208、判定部1210、及び後処理部1212を備える。画像縮小部1206は、「画像サイズ縮小部」の一例である。
【0029】
(画像読込部1202)
画像読込部1202は、文書画像を読み込む機能を有する。例えば、画像読込部1202は、画像取得部110から入力される文書画像を読み込み、読み込んだ文書画像を画像加工部1204へ出力する。文書画像の読み込み時、画像読込部1202は、文書画像をグレースケールに変換する。なお、画像読込部1202は、文書画像をカラー画像として読み込んでもよい。
【0030】
(画像加工部1204)
画像加工部1204は、文書画像を加工する機能を有する。例えば、画像加工部1204は、画像読込部1202から入力される文書画像を加工し、加工した文書画像を画像縮小部1206へ出力する。ここでの文書画像への加工の一例として、画像加工部1204は、文書画像に対して、後述するぼかし処理と2値変換処理を施す。
【0031】
なお、画像加工部1204は、画像縮小部1206によって縮小された文書画像(後述する縮小ぼかし画像)を、加工するようにしてもよい出力部150へ出力してもよい。ここでの縮小ぼかし画像への加工の一例として、画像加工部1204は、縮小ぼかし画像に対して、後述する区画設定処理と区画合成処理を施す。
【0032】
まず、画像加工部1204は、文書画像に対してぼかし処理を施す。ぼかし処理は、処理対象にぼかしをかける処理である。画像加工部1204は、ぼかし処理により文書画像にぼかしをかけたぼかし画像を生成する。ぼかし処理は、例えば、平準化フィルターを用いて行われる。平準化フィルターは、例えば、ガウシアンフィルタである。ガウシアンフィルタは、画像の画素の内、注目した1つの画素(注目画素)を中心とした所定の領域内における画素の画素値を、注目画素からの距離に応じた重みをかけて平均化する。所定の領域の大きさは、例えば、3画素×3画素、5画素×5画素のように設定され得る。注目画素を中心とした所定の領域内における画素の画素値が平均化されることにより、所定の領域内の色の濃淡の変化がなめらかになるため、画像がぼやける。
【0033】
文書画像内のオブジェクトを示す画素とオブジェクト以外を示す画素との境界にて、オブジェクトを示す画素を注目画素としてガウシアンフィルタを適用すると、注目画素を中心とした所定の領域内における画素の画素値が平均化される。この時、所定の領域内に含まれていたオブジェクト以外を示す画素の画素値が、平均化によりオブジェクトを示す画素の画素値に近くなった場合、オブジェクトを示す画素の画素値に近い画素値である画素の数が増えるため、オブジェクトの大きさが大きくなる。これより、画像加工部1204は、文書画像に対してぼかし処理を施すと、文書画像内のオブジェクトの大きさをぼかし処理前の大きさよりも大きくすることができる。画像加工部1204がぼかし処理によってオブジェクトの大きさを大きくすることで、オブジェクトを示す画素から当該オブジェクトの外側に向かってオブジェクトが大きくなる。そのため、複数のオブジェクトが隣接して配置されている場合には、画像加工部1204は、隣接するオブジェクト同士をぼかし処理によって結合させることもできる。
【0034】
ぼかし処理により、文書画像中のオブジェクトが加工された多様な加工オブジェクトが生成され得る。例えば、文字列にぼかしがかけられると、隣接する文字が結合した加工オブジェクトが生成される。また、複数行の文章にぼかしがかけられると、隣接する行が結合した加工オブジェクトが生成される。また、表にぼかしがかけられると、表の枠線を示す罫線と表内の文字列が結合した加工オブジェクトが生成される。また、罫線にぼかしがかけられると、罫線がぼやけて太くなった加工オブジェクトが生成される。
【0035】
ぼかし処理では、ぼかしの強弱を示すぼかしの程度が調整可能に設定される。例えば、ぼかしの程度は、文書画像中の複数のオブジェクトが適切に結合するように設定されることが望ましい。ここでいう適切に結合することとは、各加工オブジェクトが意味を有するように、複数のオブジェクトが結合することである。例えば、文書画像が帳票である場合、ぼかしの程度は、帳票のタイトル、項目欄に記載された文字や文字列、及び記載欄に記載された文字や文字列などに対応する加工オブジェクトが生成されるように設定される。
【0036】
また、論文のように文章が含まれる文書画像である場合、文章間の距離に応じてぼかしの程度が設定されることで、加工オブジェクトを適切な文章のまとまりごとに分けることができる。ここでいう適切な文章のまとまりとは、例えば段落である。文章間の距離は、例えば、改行が1回されている場合と改行が2回されている場合とで異なる。
【0037】
例えば、複数の段落がそれぞれ分かれた加工オブジェクトが生成されることが望ましい場合、ぼかしの程度は、複数の段落間(段落の境目をはさむ2行の文章間)の距離に応じて、それぞれの加工オブジェクトが分かれるように設定される。例えば、段落間の距離が短い場合、ぼかしの程度が強すぎると複数の段落が結合する可能性がある。よって、ぼかしの程度は、2つの段落が結合しない程度の強さに設定される。一方、段落間の距離が長い場合、ぼかしの程度がある程度強くても複数の段落が結合しない可能性がある。よって、ぼかしの程度は、2つの段落が結合しない程度まで強く設定されてもよい。
【0038】
複数の段落が結合した加工オブジェクトが生成されることが望ましい場合、ぼかしの程度は、複数の段落間の距離に応じて、複数の段落が結合するように設定されてもよい。例えば、段落間の距離が短い場合、ぼかしの程度がある程度弱くても複数の段落が結合する可能性がある。よって、ぼかしの程度は、2つの段落が分かれない程度に弱く設定されてよい。一方、段落間の距離が長い場合、ぼかしの程度が弱すぎると複数の段落が結合しない可能性がある。よって、ぼかしの程度は、複数の段落が結合する程度に強く設定される。
【0039】
また、ぼかしの程度は、ぼかしをかけられた文字列の意味が認識されないように設定されることが望ましい。具体的に、ぼかしの程度は、ユーザがぼかし画像を見た際に、ぼかしをかけられた文字列が示す意味をユーザが理解できない程度に設定される。これにより、判定対象の文書画像が個人情報を含む文書画像であっても、個人情報は認識されない程度にぼかしをかけられる。このため、個人情報を保護することができる。
【0040】
また、ぼかし処理により個人情報が保護されるため、ぼかし画像を用いた処理に対してクラウドサービス等の外部サービスを利用しても、外部に個人情報が漏洩することを防ぐことができる。そのため、ユーザは、ぼかし画像を用いた処理に対して外部サービスを利用しやすくなる。
【0041】
なお、画像加工部1204は、最も弱いぼかしの程度を初期設定とする。ここでいう最も弱いぼかしの程度は、ぼかしをかけられた文字列の意味が認識されない程度である。ぼかしの程度を変更する場合、画像加工部1204は、初期設定から徐々に強くなるようにぼかしの程度を強める。例えば、初期設定のぼかしの程度で生成されたぼかし画像に基づき判定処理が行われた結果、文書画像の種類が判定されなかった場合、画像加工部1204は、ぼかしの程度を初期設定よりも強くする。
【0042】
また、画像加工部1204は、文書画像40において、ぼかしをかける部分を選択するようにしてもよい。画像加工部1204は、例えば、文書画像40における文字が記載された部分にぼかしをかけ、文書画像40における罫線が記載された部分にぼかしをかけないようにしてもよい。或いは、画像加工部1204は、文書画像40における文字が記載された部分、及び罫線が記載された部分共に、ぼかしをかけるようにしてもよい。
【0043】
ここで、図3を参照して、ぼかし画像の一例について説明する。図3は、本発明の実施形態に係るぼかし画像42の例を示す図である。図3に示すぼかし画像42は、図2に示した文書画像40にぼかし処理が施されて、ぼかしをかけられた画像である。また、ぼかしをかけられた表の枠線等の罫線は、ぼかし処理の前よりも太く示されている。
【0044】
図3に示すぼかし画像42では、図2に示した項目欄や記載欄に記載された文字列について、それぞれの文字がぼやけて太くなった加工オブジェクトになっている。また、項目欄や記載欄に記載された文字列のうち、文字同士の間隔が比較的小さい文字列について、それぞれの文字がぼやけて太くなった結果、複数の文字が結合して1つの加工オブジェクトになっている。
【0045】
また、ぼかし画像42における項目欄の背景(符号420~423)は、白色ではない有色(例えば、グレー)にて着色されたままとなっている。これは、有色の背景部分の画素値はほぼ同一の値であり、背景領域内における画素の画素値を平均化した値が、元の画素値とほぼ同じ値となるためである。
【0046】
ぼかし処理後、画像加工部1204は、ぼかし画像に対して2値変換処理を施す。2値変換処理は、処理対象の画像を白色と黒色の2階調に変換する処理である。例えば、画像加工部1204は、ぼかし画像の各画素の画素値に基づき、ぼかし画像を白色と黒色の2階調に変換する。具体的に、画像加工部1204は、画素値が所定の閾値以上である画素には黒色を示す値(例えば1)を設定し、画素値が所定の閾値未満である画素には白色を示す値(例えば0)を設定する。図3に示すぼかし画像42の場合、ぼかしがかけられて黒くなっている画素には1が設定され、それ以外の白色の画素には0が設定される。
【0047】
2値変換処理を行うことにより、画像が単純化され、学習済モデルにおける学習段階、或いは実行段階において、2値変換処理を行わない場合と比較して、処理を高速に実行することが可能となる。
【0048】
2値変換処理後、画像加工部1204は、2値変換処理後の画像(以下、2値変換画像という)の背景画像を加工する処理を施す。背景画像を加工する処理は、ぼかし画像42に2値変換処理を行った結果、黒色となった背景部分を、白色に加工する処理である。例えば、画像加工部1204は、2値変換画像の余白を取得する。ここでの余白とは、2値化処理によって白色となった部分である。画像加工部1204は、取得した余白を、黒色となった背景部分の上に重ねる。具体的には、画像加工部1204は、2値変換画像から黒色となった背景部分を抽出し、抽出した背景部分の画素値を、白色を示す値(例えば0)に変換する。
【0049】
背景部分を加工する処理を行うことによって、2値変換処理により背景部分の色が文字部分の黒色と同じ黒色に変換されてしまった場合であっても、背景部分と文字部分とが判別可能が画像に戻すことができる。したがって、学習済モデルにおける学習段階、或いは実行段階において、精度よく処理を実行することが可能となる。
【0050】
ここで、図4を参照して、背景画像を加工した後のぼかし画像について説明する。図4は、本発明の実施形態に係るぼかし画像42の例を示す図である。図4に示すぼかし画像42は、図3に示したぼかし画像42における有色の背景部分(符号420~423)の色が白色に変換された画像である。図4に示すぼかし画像42では、図3に示した有色の背景部分の色が白色に変換された加工オブジェクトになっている。
【0051】
(画像縮小部1206)
画像縮小部1206は、画像を縮小する機能を有する。例えば、画像縮小部1206は、ぼかし画像42のサイズが所定の大きさの範囲内となるように画像を縮小する。画像縮小部1206は、予め定められた所定のサイズ、例えば、300ピクセル×300ピクセル、などに画像を縮小する。所定のサイズは、文書画像40における縮小前のサイズ、記載された文字や画像などの密集度合、判定の対象とする種類の内容、学習済モデルを用いた処理を実行するコンピュータの性能などに応じて任意に設定されてよい。
【0052】
画像を縮小する処理を行うことによって、学習済モデルに学習させる学習データのデータ容量を小さくすることができる。学習データのデータ容量が大きいと学習段階における信号処理の負荷が増大し、学習が収束しないような事態が発生し得る。本実施形態では、画像を縮小する処理を行うことによって、このような学習の失敗を未然に防ぐことが可能となる。また、画像を縮小する処理を行うことによって、画像を縮小しない場合と比較して、コンピュータリソースの消費を低減させることが可能である。
【0053】
また、画像を縮小する処理を行うことによって、ぼかしに加えて、さらに記載されている文字の抽象化が行われる。このため、文書画像40に記載されていた文字の判読を困難とすることができ、個人情報が漏洩することを困難とすることが可能である。
【0054】
また、画像縮小部1206は画像を、所定のサイズに縮小することにより、画像サイズを正規化することができる。これにより、学習済モデルにおける学習段階、或いは実行段階において、学習済モデルに対して決まった条件で処理を実行させることができ、学習済モデルによる処理が実行しやすくなることによる処理精度の向上や処理負荷の低減を期待することができる。
【0055】
ここで、図5を参照して、縮小されたぼかし画像(以下、縮小ぼかし画像という)の一例について説明する。図5は、本発明の実施形態に係るぼかし画像に対する縮小の例を示す図である。
【0056】
図5に示す縮小ぼかし画像42Aでは、図4に示したぼかし画像42の画像サイズ(縦Y1、横X1)に対して、画像サイズが縮小されている。具体的に、縮小ぼかし画像42Aの画像サイズは、縦Y2、横X2であり、Y2はY1より小さい値であり、X2はX1より小さい値である。また、この図の例では、画像が縮小されたことにより、縮小ぼかし画像42Aに記載された文字と文字の間隔や、文字と罫線との間隔が狭まり、記載された文字を判読することがほぼ困難な状態となっている。
【0057】
(画像加工部1204による縮小ぼかし画像への加工について)
ここで、画像加工部1204が行う、縮小ぼかし画像への加工について説明する。例えば、画像加工部1204は、縮小ぼかし画像42Aに対して区画を設定する。ここでの区画とは、文書画像に含まれるオブジェクトが(ぼかし処理により)加工された加工オブジェクト(「第2のオブジェクト」の一例)が少なくとも1つ含まれる矩形の領域のことである。
【0058】
例えば、画像加工部1204は、画像縮小部1206によって生成された縮小ぼかし画像42Aに対して区画を設定する。具体的に、画像加工部1204は、縮小ぼかし画像42Aの各画素に設定されている画素値に基づき、縮小ぼかし画像42Aにおける加工オブジェクトを検出する。例えば、画像加工部1204は、画素値に1が設定されている画素(即ち黒色の画素)は加工オブジェクトを構成する画素であり、画素値に0が設定されている画素(即ち白色の画素)は加工オブジェクト以外を構成する画素である。画像加工部1204は、検出した加工オブジェクトに対して区画を設定する。
【0059】
区画の設定時、画像加工部1204は、区画を設定した加工オブジェクトごとに、オブジェクトの情報を示すオブジェクト情報を抽出する。オブジェクト情報は、例えば、ヘッダー、フッター、タイトル、見出し、本文、表、又は図形などの加工オブジェクトの種類を示す情報である。画像加工部1204は、例えば、区画の形状、サイズ、面積、位置情報などに基づき、オブジェクトの種類を判定し、オブジェクト情報を抽出する。
【0060】
また、画像加工部1204は、設定した区画に対してラベリング処理を行う。ラベリング処理は、設定した区画に対してラベリング情報を付与する処理である。ラベリング情報は、例えば、区画の番号、サイズ、面積、位置情報、抽出したオブジェクト情報などである。
【0061】
なお、本実施形態では、加工オブジェクトの形状に関わらず、単純な形状である矩形の区画が設定される。これは、加工オブジェクトの形状に応じた複雑な形状の区画を設定するようにした場合に、学習済モデルは、複雑な形状を考慮した処理を行わなければならず、処理負荷を増大させてしまう事態を回避するためである。これに対し、本実施形態において、縮小ぼかし画像42Aに設定する区画の形状を単純にすることによって、学習済モデルの処理負荷の増大を抑制することができる。
【0062】
画像加工部1204は、縮小ぼかし画像42Aに設定された区画を示す区画枠を、文書画像40に合成する機能を有する。例えば、画像加工部1204は、区画が設定された縮小ぼかし画像42Aに基づき、文書画像40に区画枠を合成し、合成後の文書画像40を出力部150へ出力する。これにより、縮小ぼかし画像42Aに設定された区画が、文書画像40において可視化され、ユーザが区画を視認することができるようになる。なお、画像加工部1204は、区画枠だけでなく、ラベリング情報やオブジェクト情報も文書画像40に合成するようにしてもよい。
【0063】
(学習部1208)
学習部1208は、学習モデルに学習させる機能を有する。具体的に、学習部1208は、学習モデルに学習させる学習データセットを生成する。学習データセットは、学習用の入力データに、正解ラベルが付されて組(セット)となった情報である。ここでの学習用の入力データは、学習モデルに入力するデータであり、学習用の文書画像40を用いて生成された縮小ぼかし画像42Aである。学習部1208は、学習用の文書画像40を用いて生成された縮小ぼかし画像42Aに、その文書画像40の種類(帳票、論文など)を付すことによって、学習データセットを生成する。学習部1208は、生成した学習データセットを、類似度算出サーバ20に送信する。類似度算出サーバ20は、学習部1208によって生成された学習データセットを用いた機械学習を実行することにより学習済モデルを生成する。学習済モデルは、画像と画像の種類との対応関係を学習したモデルであり、画像からその画像の種類を推定するモデルである。学習部1208は、類似度算出サーバ20によって生成された学習済モデルを示す情報を、類似度算出サーバ20から受信する。これにより、学習部1208は、学習済モデルを生成する。
【0064】
(判定部1210)
判定部1210は、文書画像40の種類を判定する機能を有する。判定部1210は、学習済モデルを用いて、縮小ぼかし画像42Aに設定された区画に基づいて文書画像40の種類を判定する。
【0065】
例えば、まず、判定部1210は、学習済モデルを用いて、縮小ぼかし画像42Aに設定された区画のレイアウトと、学習済モデルが学習に用いた学習用の縮小ぼかし画像42Aに設定された区画のレイアウトとの類似度を取得する。本実施形態では、学習済モデルは類似度算出サーバ20に保存されている。そのため、判定部1210は、学習済モデルを用いる際に、区画が設定された縮小ぼかし画像42Aを、通信部130を介して類似度算出サーバ20へ送信する。類似度算出サーバ20は、受信した画像(区画が設定された縮小ぼかし画像42A)を学習済モデルへ入力することで類似度を算出する。類似度算出サーバ20は、ネットワーク30を介して、算出した類似度を画像解析装置10へ送信する。判定部1210は、類似度算出サーバ20から受信した類似度を、通信部130を介して取得する。
【0066】
判定部1210は、類似度を取得した後、取得した類似度に基づき判定対象の文書画像40の種類を判定する。例えば、判定部1210は、取得した類似度に対する閾値判定を行う。具体的には、判定部1210は、取得した類似度のうち、所定の閾値以上の類似度が存在する場合、判定部1210は、所定の閾値以上の類似度のうち最大の類似度を示すものに対応する画像の種類を、判定対象とする文書画像40の種類と判定する。例えば、所定の閾値が50%であり、帳票との類似度が80%、論文との類似度が75%、雑誌との類似度が8%であったとする。この場合、判定部1210は、類似度が50%以上かつ最大値である帳票を、判定対象とする文書画像40の種類と判定する。
【0067】
一方、判定部1210は、取得した類似度のうち、所定の閾値以上となる類似度が存在しない場合、判定対象とする文書画像40について、ぼかしの程度を変更した縮小ぼかし画像42Aを再生成させ、再生成させた縮小ぼかし画像42Aを用いて、類似度を再判定する。
【0068】
例えば、所定の閾値が50%であり、論文との類似度が40%、雑誌との類似度が25%、新聞との類似度が8%であったとする。この場合、判定部1210は、判定対象の文書画像の種類が判定できなかったものとし、ぼかしの程度を変更したぼかし画像42を再生成するように、画像加工部1204に指示する。
【0069】
画像加工部1204は、ぼかしの程度を変更してぼかし画像を再生成する。具体的に、画像加工部1204は、変更後のぼかしの程度を、変更前のぼかしの程度よりも強くする。画像縮小部1206は、再生成されたぼかし画像42を縮小することによって、縮小ぼかし画像42Aを、再生成する。画像加工部1204は、再生成された縮小ぼかし画像42Aに区画を設定する。そして、判定部1210は、再生成された画像(区画が設定された縮小ぼかし画像42A)を用いて類似度を再取得し、再取得した類似度に基づき、判定対象とする文書画像40の種類を再判定する。
【0070】
ここで、判定部1210は、再判定によっても、判定対象の文書画像の種類を判定できなかった場合、ぼかしの程度を変更したぼかし画像42の生成をやり直す。このように、判定対象の文書画像40の種類を判定できるまで、ぼかしの程度を変更しながら判定処理を繰り返す。こうすることで、判定対象の文書画像の種類を判定できるようにする。なお、判定処理を所定の回数だけ繰り返した場合においても、なお判定対象の文書画像40の種類を判定できなかった場合、判定部1210は、エラーを返して判定処理を強制的に終了させるようにしてもよい。これにより、元々種類を判定することが困難な文書画像40について、判定部1210による判定処理を終了させることができ、無用な処理負荷の増大を抑制することが可能である。
【0071】
ここで、図6を参照して、ぼかしの程度を強くして区画が設定されたぼかし画像の一例について説明する。図6は、本発明の実施形態に係るぼかしの程度を強くした際のぼかし画像に対する区画の設定例を示す図である。図6の左側の図は、ぼかしの程度の変更前の区画の設定例を示す図である。図6の右側の図は、ぼかしの程度の変更後の区画の設定例を示す図である。
【0072】
ぼかしの程度の変更前は、図6の左側の図に示すように、見出しの区画51と、見出しの本文の2つの段落にそれぞれ区画52と区画53が設定されている。この状態で、区画52が設定された段落と、区画53が設定された段落とが結合する程度に、ぼかしの程度を強く変更する。ぼかしの程度が強くなると、オブジェクトがより大きくぼやけるようになるため、オブジェクトのぼやけ具合を示す黒丸の大きさも大きくなる。よって、ぼかしの程度を強く変更すると、図6の右側の図に示すように、見出しにはぼかしの程度の変更前よりも大きくなった区画54が設定されている。また、本文の2つの段落が結合する程度にぼかしの程度が強く変更されているため、図6の右側の図に示すように、結合した2つの段落には、2つの段落を含む大きさの1つの区画55が設定されている。
【0073】
(後処理部1212)
後処理部1212は、文書画像の種類の判定結果に応じた処理を実行する機能を有する。後処理部1212は、判定部1210から入力される判定結果に基づき、多様な処理を実行し得る。
【0074】
後処理部1212は、例えば、文書画像の種類と処理が対応付けられた処理リストを有する。判定部1210から判定結果を入力された際に、後処理部1212は、判定結果と処理リストを参照し、判定結果が示す文書画像の種類と対応する処理をリストから選択して実行する。例えば、文書画像の種類が帳票である場合には、帳票に関する処理が実行され、文書画像の種類が論文である場合は論文に関する処理が実行される。
【0075】
処理の一例として、後処理部1212は、OCR(Optical Character Recognition)処理を実行する。OCR処理は、区画枠が合成された文書画像40に対して行われ、区画枠内の文字が認識される。この時、後処理部1212は、区画枠ごとにOCR処理を実行する。これにより、後処理部1212は、オブジェクトごとにOCR処理を実行する場合と比較して処理対象数を削減することができる。このため、OCR処理にかかるコストを削減することができる。
【0076】
また、後処理部1212は、区画枠ごとにOCR処理を実行することで、文書画像内の文章の構成(例えば、書字方向、段組みなど)の影響を受けずにOCR処理を実行することができる。一例として、文書画像内の文章が2段組みの構成である場合を考える。この場合、後処理部1212は、区画ごとにOCR処理を実行することで、1段目の文章と2段目の文章とを分けて認識することができる。よって、後処理部1212は、処理結果に1段目の文章と2段目の文章とが部分的に混在することを防ぐことができる。また、後処理部1212は、1段目の文章を認識してから2段目の文章を認識することもできる。このため、1段目の文章と2段目の文章とを正しい順序で接続して認識することが可能となる。
【0077】
また、OCR処理が区画枠ごとに実行することにより、ぼかしの程度の変更に伴う区画枠内に含まれるオブジェクトの変更に応じて、OCR処理で認識させたい認識対象を変更することができる。
【0078】
ここで、図7を参照して、OCR処理にて表のセルごとに文字を認識させる場合の区画の設定の変更例について説明する。図7は、本発明の実施形態に係るぼかしの程度を弱くした際のぼかし画像に対する区画の設定例を示す図である。図7の左側の図は、ぼかしの程度の変更前の区画の設定例を示す図である。図7の右側の図は、ぼかしの程度の変更後の区画の設定例を示す図である。
【0079】
ぼかしの程度の変更前は、図7の左側の図に示すように、表のタイトルと表の枠線を示す罫線と表内の文字が結合した1つの加工オブジェクトに対して、1つの区画60が設定されている。この状態で、例えば、表内のセルごとに文字を認識できるようにするには、各セルの加工オブジェクトごとに区画が設定される必要がある。そこで、表の枠線を示す罫線と表内の文字とが分離する程度に、ぼかしの程度を弱く変更する。ぼかしの程度が弱くなると、オブジェクトがより小さくぼやけるようになるため、オブジェクトのぼやけ具合を示す黒丸の大きさも小さくなる。よって、表の枠線を示す罫線と表内の文字とが分離する程度にぼかしの程度を弱くすることで、図7の右側の図に示すように、表の各セル内の各加工オブジェクトに対して、それぞれ区画61~64を設定することができる。
【0080】
また、処理の一例として、後処理部1212は、文書画像内の文章の読み上げ処理を実行する。読み上げ時の音声は、例えば、出力部150から出力される。読み上げ処理では、例えば、後処理部1212がOCR処理にて認識した文字が読み上げられる。そのため、後処理部1212は、文書画像内の文章が段組みの構成であっても、適切な順序で文章を読み上げることができる。例えば、文書画像内の文章が2段組みの文章である場合、後処理部1212は、1段目の文章を読み上げ終えてから、2段目の文章を読み上げる。
【0081】
また、後処理部1212は、オブジェクト情報に基づく読み上げ処理を実行してもよい。例えば、後処理部1212は、区画に設定されたオブジェクト情報を参照し、加工オブジェクトの種類別に読み上げを行う。具体的に、後処理部1212は、先に見出しを全て読み上げてから、本文を読み上げる。また、加工オブジェクトの種類に応じて読み上げの有無が設定されてもよい。例えば、複数のページからなる文書画像のすべてのページに同一のヘッダーとフッターが設定されているとする。この場合、ヘッダーとフッターの読み上げの有無は、無しに設定されてよい。これにより、後処理部1212が同一のヘッダーとフッターの読み上げを毎ページで行うことを防ぐことができる。よって、加工オブジェクトの種類ごとに読み上げの有無が設定されることで、後処理部1212による冗長な読み上げを防ぐことができる。
【0082】
(通信部130)
通信部130は、外部装置と通信を行う機能を有する。通信部130は、制御部120から入力される情報を外部装置へ送信する。一例として、通信部130は、制御部120から入力される区画が設定されたぼかし画像を、ネットワーク30を介して類似度算出サーバ20へ送信する。通信部130は、外部装置から受信する情報を制御部120へ出力する。一例として、通信部130は、ネットワーク30を介して類似度算出サーバ20から受信した類似度を、制御部120へ出力する。
【0083】
(記憶部140)
記憶部140は、各種情報を記憶する機能を有する。記憶部140は、記憶媒体、例えば、HDD(Hard Disk Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、RAM(Random Access read/write Memory)、ROM(Read Only Memory)、又はこれらの記憶媒体の任意の組み合わせによって構成される。記憶部140は、例えば、不揮発性メモリを用いることができる。
【0084】
なお、記憶部140は、各種情報の一例として、学習済モデルを記憶してもよい。これにより、判定部1210は、記憶部140にアクセスして学習済モデルを用いることで、類似度算出サーバ20にアクセスせずに類似度を取得することができる。
【0085】
(出力部150)
出力部150は、制御部120からの入力に応じた出力を行う機能を有する。出力部150は、例えば、液晶パネルやタッチパネル等の表示装置や、スピーカ等の音声出力装置により実現される。
【0086】
例えば、出力部150は、制御部120により扱われる多様な画像を表示し得る。例えば、出力部150は、画像取得部110によって取得される文書画像40を表示する。また、出力部150は、画像加工部1204によって生成されるぼかし画像42を表示する。また、出力部150は、画像縮小部1206によって生成される縮小ぼかし画像42Aを表示する。また、出力部150は、画像加工部1204によって区画が設定された縮小ぼかし画像42Aを表示する。また、出力部150は、画像加工部1204によって区画枠が合成された文書画像40を表示する。これにより、ユーザは、各種処理が施された画像を視認することができる。また、出力部150は、制御部120による各種の処理に伴って発生したアラーム音等を出力するスピーカ機能を有していてもよい。この場合、例えば、出力部150は、判定部1210による判定ができなかった場合に出力されるエラーを示すアラーム音を出力する。
【0087】
<類似度算出サーバ20の構成>
ここで、類似度算出サーバ20の構成について、より詳細に説明する。図1に示すように、類似度算出サーバ20は、通信部21、記憶部22、制御部23を備える。通信部21は、ネットワーク30を介して、画像解析装置10と通信を行う。記憶部22は、各種情報を記憶する機能を有する。記憶部22は、記憶媒体、例えば、HDD、フラッシュメモリ、EEPROM、RAM、ROM、又はこれらの記憶媒体の任意の組み合わせによって構成される。記憶部22は、例えば、不揮発性メモリを用いることができる。記憶部22は、学習済モデル220を記憶する。学習済モデル220は、学習データセットを用いて、区画が設定された縮小ぼかし画像42Aと、その画像の種類との対応関係を学習したモデルであって、入力された画像から、その画像の種類を推定するモデルである。
【0088】
制御部23は、類似度算出サーバ20を統括的に制御する。制御部23の機能は、類似度算出サーバ20がハードウェアとして備えるCPUに、記憶部22に記憶されたプログラムを実行させることによって実現される。制御部23は、例えば、学習実行部230と、推定実行部231とを備える。
【0089】
学習実行部230は、画像解析装置10により生成された学習データセットを取得する。学習実行部230は、学習モデルに、学習データセットを用いた機械学習を実行する。ここでの機械学習の方法は、例えば、教師有り学習である。学習実行部230は、学習用のデータセットを用いて、CNN(Convolutional Neural Network)などの学習モデルを学習させることにより、学習済モデルを生成する。CNNは、入力層、隠れ層(中間層)、出力層の3つの階層により構成されるモデルである。入力層には、CNNに推定させたいデータ(入力データ)が入力される。出力層からは、CNNによって学習された結果を示すデータ(推定結果)が出力される。隠れ層は、学習の核となる処理を行う。例えば、隠れ層は、入力を活性化関数(伝達関数)と呼ばれる関数により表現される値に変換して出力する。例えば、活性化関数は、正規化線形関数や、シグモイド関数、ステップ関数などであるが、これに限定されず、任意の関数が用いられてよい。CNNでは、ある層のユニットから、より深い層のユニットにデータが出力される際に、ユニット同士を接続するノードの結合係数に応じた重みW、及びバイアス成分bが付与されたデータが出力される。学習モデルは、入力されたデータ(入力データ)に対し、各ユニット間の演算を行い、出力層から出力データを出力する。本実施形態における学習用のデータセットは、学習部1208によって生成されたデータセットであり、入力としての区画のレイアウトと、出力としての文書画像の種類とを対応付けた情報である。
【0090】
学習実行部230は、学習モデルの入力層に、学習用のデータセットの入力データを入力する。学習実行部230は、学習モデルの入力層に入力データを入力させた場合に学習モデルの出力層から出力されるデータ(出力データ)が、学習データセットの出力に近づくように、学習モデルのパラメータ(重みW及びバイアス成分b)を調整する。これにより、学習実行部230は、学習モデルに、区画のレイアウトと文書画像の種類との対応関係を学習させる。
【0091】
例えば、学習モデルのパラメータ(重みW、及びバイアス成分b)の調整には、誤差逆伝搬法が用いられる。誤差逆伝搬法では、学習モデルの出力層から出力されるデータと、学習データセットの出力との乖離度合いが、損失関数として導出される。ここでの乖離度合いには、任意の指標が用いられてよいが、例えば、誤差の二乗(二乗誤差)やクロスエントロピー等が用いられる。誤差逆伝搬法では、出力層から入力層側に至る方向に、損失関数が最小となるように、重みWとバイアス成分bの組み合わせを決定(更新)する。これにより学習モデルを学習させ、推定の精度を向上させる。
【0092】
なお、学習モデルは、CNNに限定されることはない。学習モデルとして、例えば、決定木、階層ベイズ、SVM(Support Vector Machine)などの手法が用いられてもよい。
【0093】
学習実行部230は、所定の終了条件を充足するまで繰り返し学習モデルを学習させる。ここでの終了条件は、例えば、学習モデルから出力されるデータ(出力データ)と、学習用のデータセットの出力との誤差が所定の範囲内となるなどの条件である。学習実行部230は、所定の終了条件を充足するまで学習させた学習モデルを、学習済モデルとする。学習実行部230は、このようにして生成した学習済モデルを示す情報を、記憶部22の学習済モデル220として記憶させる。
【0094】
推定実行部231は、画像解析装置10から判定対象とする画像(区画が設定された縮小ぼかし画像42A)を取得する。学習実行部230は、学習済モデルに、判定対象とする画像を入力することにより、画像の種類を推定する。具体的に、推定実行部231は、画像解析装置10から受信した画像を学習済モデルに入力することにより、学習済モデルからの出力(画像の種類と類似度)を取得することによって推定を実行する。推定実行部231は、学習済モデルから得られた出力を画像解析装置10へ送信する。
【0095】
なお、本実施形態に係る学習済モデルは、類似度算出サーバ20が備える記憶媒体に保存されているものとするが、かかる例に限定されない。例えば、学習済モデルは、画像解析装置10が備える記憶媒体に保存されていてもよい。これにより、画像解析装置10は、類似度算出サーバ20にアクセスすることなく、自装置の記憶媒体に保存された学習済モデルを用いて類似度を推定した結果を取得することができる。
【0096】
<処理の流れ>
ここで、本実施形態に係る画像解析装置10における処理の流れについて、図8及び図9を用いて説明する。図8は、本発明の実施形態に係る画像解析装置10における学習段階の処理の流れを示すフローチャートである。図9は、本発明の実施形態に係る画像解析装置10における実行段階の処理の流れを示すフローチャートである。
【0097】
まず、図8を用いて、学習段階の処理の流れを説明する。画像解析装置10は、画像取得部110が取得した文書画像40を読み込む(S1)。この場合において、画像解析装置10は、文書画像40がカラー画像である場合には、グレースケールで文書画像40を読込むようにする。次いで、画像解析装置10は、ステップS1で読み込んだ文書画像40にぼかし処理を施し、ぼかし画像42を生成し(S2)、生成したぼかし画像42に2値変換処理を施す(S3)。次いで、画像解析装置10は、ステップS3で生成した2値変換されたぼかし画像42に対して、黒色の背景部分を白色に変換する背景画像処理を行う(ステップS4)。画像解析装置10は、ステップS4で生成した背景画像処理が施されたぼかし画像42の画像サイズを縮小する画像縮小処理を行う(ステップS5)。画像解析装置10は、画像縮小処理によって生成された縮小ぼかし画像42Aに、区画を設定する。画像解析装置10は、区画が設定された縮小ぼかし画像42Aに、画像の種類を付与することによって学習データセットを生成する(ステップS6)。画像解析装置10は、ステップS6で生成した学習データセットを用いて、学習済モデルを生成する(ステップS7)。画像解析装置10は、学習データセットを類似度算出サーバ20に送信し、類似度算出サーバ20により、学習データセットを用いた学習モデルへの機械学習が実行されることにより、学習済モデルが生成される。
【0098】
次に、図9を用いて、実行段階の処理の流れを説明する。ここでの実行段階とは、学習段階に対する実行段階であり、画像の種類を推定する処理を、学習済モデルを用いて実行する段階のことである。図9におけるステップS102、S104、S106、S108のそれぞれの処理は、図8におけるステップS1~S5における処理と同様であるため、その説明を省略する。ただし、各処理の対象は、図8図9とで異なる。具体的には、図8の学習段階においては学習用の文書画像40に各処理が実行されるのに対し、図9の実行段階においては判定対象とする文書画像40に各処理が実行される点において異なる。
【0099】
画像解析装置10は、区画が設定された縮小ぼかし画像42Aに対してラベリング処理を施す(S110)。次いで、画像解析装置10は、判定処理を行う(ステップS114)。画像解析装置10は、区画が設定された縮小ぼかし画像42Aを類似度算出サーバ20へ送信し、類似度算出サーバ20からその画像における類似度を受信する。画像解析装置10は、ステップS114で取得した類似度が閾値以上であるか否かを判定する(S116)。
【0100】
画像解析装置10は、類似度が閾値以上である場合、最大の類似度と対応する文書画像の種類を判定対象の文書画像の種類と判定する。そして、画像解析装置10は、判定した文書画像の種類に応じた後処理を実行する(S118)。
【0101】
一方、画像解析装置10は、類似度が閾値未満である場合、最大の類似度と対応する文書画像の種類を判定対象の文書画像の種類と判定する。そして、画像解析装置10は、画像加工部1204にぼかしの程度を変更したぼかし画像42を生成させる指示を行い(S120)、S104から処理を繰り返す。
【0102】
なお、上記では、区画が設定された縮小ぼかし画像42Aを用いる場合を例示して説明が、これに限定されることはない。区画が設定されていない縮小ぼかし画像42Aを用いて、学習段階及び実行段階が実施されるようにしてもよい。この場合、画像解析装置10は、学習段階において、縮小ぼかし画像42Aに、その画像の種類を付すことによって、学習データセットを生成する。また、画像解析装置10は、実行段階において、縮小ぼかし画像42Aを、学習済モデルに入力することによって、その画像の種類を推定する。
【0103】
以上説明したように、本実施形態に係る画像解析装置10は、画像加工部1204と、画像縮小部1206と、学習部1208とを備える。画像加工部1204は、文書画像40に対するぼかし処理により、ぼかし画像42を生成する。画像縮小部1206は、ぼかし画像42の画像サイズを縮小した縮小ぼかし画像42Aを生成する。学習部1208は、学習用の縮小ぼかし画像42Aに画像の種類を対応づけた学習データセットを用いて、画像の種類を推定する学習済モデルを生成する。
【0104】
これにより、実施形態に係る画像解析装置10は、学習用の画像を縮小することによって、画像のデータ容量を小さくすることができる。このため、学習段階における処理負荷の増大を抑制することが可能である。しかも、ぼかし画像42を縮小することによって、文書画像40に記載された文字を判読困難とし個人情報の漏洩を抑制することができる。
【0105】
また、実施形態に係る画像解析装置10は、画像加工部1204と、画像縮小部1206と、判定部1210とを備える。判定部1210は、判定対象とする縮小ぼかし画像42Aを、画像の種類を推定する学習済モデルに入力して得られる出力に基づいて、縮小ぼかし画像42Aの種類を判定する。これにより、実施形態に係る画像解析装置10は、判定対象の画像を縮小することによって、画像のデータ容量を小さくすることができる。ため、実行段階における処理負荷の増大を抑制することが可能である。しかも、ぼかし画像42を縮小することによって、文書画像40に記載された文字を判読困難とし個人情報の漏洩を抑制することができる。
【0106】
<実施形態の変形例>
ここで本実施形態の変形例について説明する。本変形例では、画像解析装置10と類似度算出サーバ20とが連携して処理を実行する。図10及び図11は、同実施形態の変形例に係る画像解析システム1における処理の流れを示すシーケンス図である。
【0107】
図10には、本変形例における学習段階の処理の流れが示されている。画像解析装置10は、類似度算出サーバ20に対して認証API(Application Programming Interface)の呼び出しを行う(ステップS201)。類似度算出サーバ20は、画像解析装置10からの呼び出しに応じて、認証を行い。認証結果を通知する(ステップS202)。ここでの認証は、画像解析装置10が、確かに画像解析装置10であり正当な装置であるか否かを判定する処理である。認証の結果、画像解析装置10が正当な装置であると判定された場合にはステップS203に進み、画像解析装置10が正当な装置でないと判定された場合には処理が終了する。
【0108】
画像解析装置10は、作業ディレクトリを作成する(ステップS203)。この作業ディレクトリは、ぼかし画像を作成するため必要な作業が実行されるディレクトリとなる。画像解析装置10は、前処理を行う(ステップS204)。ここでの前処理は、学習データセットが作成しやすくなるように事前に行う処理であって、たとえば、PDFファイルをJPGファイルに変換したり、一つのファイルに複数ページの画像が含まれている場合にファイルを分割して一つのファイルに1ページの画像が対応するようにしたりする処理である。画像解析装置10は、画像にぼかし処理を施し(ステップS205)、生成したぼかし画像群を圧縮する(ステップS206)。学習段階においては、対象のぼかし画像を学習させることにより学習済モデルの推定精度を向上させることが期待できる。このため、学習用のぼかし画像が多数用意されることが望ましい。一方、データをアップロードする際にはアップロードするデータサイズの上限が設けられている場合が多い。このため、ステップS206では、多数のぼかし画像をアップロードするための準備として、データを圧縮している。
【0109】
画像解析装置10は、類似度算出サーバ20に対して有効期限付きURL(Uniform Resource Locator)作成APIの呼び出しを行う(ステップS207)。類似度算出サーバ20は、画像解析装置10からの呼び出しに応じて、有効期限付きURLを作成し、作成したURLを画像解析装置10に通知する(ステップS208)。
【0110】
画像解析装置10は、類似度算出サーバ20から通知されたURLにデータ(ぼかし画像群を圧縮したデータ)を、アップロードする(ステップS209)。画像解析装置10は、類似度算出サーバ20に対して、画像分類の学習済モデル作成APIの呼び出しを行う(ステップS210)。類似度算出サーバ20は、画像解析装置10からの呼び出しに応じて、学習済モデルを作成し、作成した学習済モデルを画像解析装置10に通知する(ステップS211)。
【0111】
なお、画像解析装置10は、必要に応じてステップS209を繰り返し実行し、学習に用いる全てのぼかし画像をアップロードした後に、ステップS210で学習済モデル作成APIの呼び出しを行う。これにより、学習用に作成した全てのぼかし画像を用いた学習を実行することが可能となる。
【0112】
図11には、本変形例における実行段階の処理の流れが示されている。図11におけるステップS301~S305に示す処理は、図10におけるステップS201~S205に示す処理と同様であるため、その説明を省略する。
【0113】
画像解析装置10は、類似度算出サーバ20に対して画像分類APIの呼び出しを行う(ステップS306)。類似度算出サーバ20は、画像解析装置10からの呼び出しに応じて、画像分類を実行し、実行結果を画像解析装置10に通知する(ステップS307)。ここでの画像分類は、ステップS305で生成されたぼかし画像を分類する処理であって、図10のステップS210~S211で生成された学習済モデルに、ステップS305で生成されたぼかし画像を入力することにより実行される。画像解析装置10は、類似度算出サーバ20から通知された分類結果をもとに画像を分類する(ステップS308)。
【0114】
以上、本発明の実施形態について説明した。なお、上述した実施形態における画像解析装置10をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
【0115】
以上、図面を参照してこの発明の実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【符号の説明】
【0116】
1 画像解析システム
10 画像解析装置
20 類似度算出サーバ
30 ネットワーク
40 文書画像
42 ぼかし画像
42A 縮小ぼかし画像
110 画像取得部
120 制御部
130 通信部
140 記憶部
150 出力部
1202 画像読込部
1204 画像加工部
1206 画像縮小部(画像サイズ縮小部)
1208 学習部
1210 判定部
1212 後処理部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11