IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 凸版印刷株式会社の特許一覧

特開2024-22550画像処理装置、画像処理方法、及びプログラム
<>
  • 特開-画像処理装置、画像処理方法、及びプログラム 図1
  • 特開-画像処理装置、画像処理方法、及びプログラム 図2
  • 特開-画像処理装置、画像処理方法、及びプログラム 図3
  • 特開-画像処理装置、画像処理方法、及びプログラム 図4
  • 特開-画像処理装置、画像処理方法、及びプログラム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024022550
(43)【公開日】2024-02-16
(54)【発明の名称】画像処理装置、画像処理方法、及びプログラム
(51)【国際特許分類】
   G09C 5/00 20060101AFI20240208BHJP
   G06V 30/412 20220101ALI20240208BHJP
   G06V 30/14 20220101ALI20240208BHJP
   G06V 30/194 20220101ALI20240208BHJP
   G06F 21/62 20130101ALI20240208BHJP
【FI】
G09C5/00
G06V30/412
G06V30/14 340J
G06V30/194
G06F21/62 345
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023126490
(22)【出願日】2023-08-02
(31)【優先権主張番号】P 2022123829
(32)【優先日】2022-08-03
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】000003193
【氏名又は名称】TOPPANホールディングス株式会社
(74)【代理人】
【識別番号】100149548
【弁理士】
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100139686
【弁理士】
【氏名又は名称】鈴木 史朗
(74)【代理人】
【識別番号】100169764
【弁理士】
【氏名又は名称】清水 雄一郎
(74)【代理人】
【識別番号】100147267
【弁理士】
【氏名又は名称】大槻 真紀子
(72)【発明者】
【氏名】新井 善浩
(72)【発明者】
【氏名】松尾 直史
(72)【発明者】
【氏名】伴 明彦
【テーマコード(参考)】
5B029
5B064
【Fターム(参考)】
5B029AA01
5B029BB02
5B029BB12
5B029BB17
5B029CC26
5B029EE12
5B064AA01
5B064AB03
5B064BA01
5B064CA08
5B064DA27
(57)【要約】
【課題】個人情報が漏洩するリスクを低減することが可能な画像処理装置、画像処理方法、及びプログラムを提供する。
【解決手段】文書の画像データを取得する取得部と、前記取得部によって取得された前記画像データに含まれる文字情報を認識する認識部と、前記認識部によって認識された前記文字情報のうち、加工対象となる前記文字情報を特定する特定部と、前記特定部によって前記加工対象として特定された前記文字情報を認識できないよう前記画像データを加工し、加工後の前記画像データを、加工された前記文字情報を示す加工画像データと加工されていない前記文字情報を示す非加工画像データとに分割する加工部と、前記加工部によって分割された前記加工画像データを記憶する第1の記憶部と、前記加工部によって分割された前記非加工画像データを記憶する第2の記憶部と、を備える画像処理装置。
【選択図】図2
【特許請求の範囲】
【請求項1】
文書の画像データを取得する取得部と、
前記取得部によって取得された前記画像データに含まれる文字情報を認識する認識部と、
前記認識部によって認識された前記文字情報のうち、加工対象となる前記文字情報を特定する特定部と、
前記特定部によって前記加工対象として特定された前記文字情報を認識できないよう前記画像データを加工し、加工後の前記画像データを、加工された前記文字情報を示す加工画像データと加工されていない前記文字情報を示す非加工画像データとに分割する加工部と、
前記加工部によって分割された前記加工画像データを記憶する第1の記憶部と、
前記加工部によって分割された前記非加工画像データを記憶する第2の記憶部と、
を備える画像処理装置。
【請求項2】
前記特定部は、認識された前記文字情報のうち、前記文字情報を用いる処理に不要な前記文字情報を前記加工対象として特定する、
請求項1に記載の画像処理装置。
【請求項3】
前記画像データが示す前記文書のフォーマットの種類を判定する解析部、
をさらに備え、
前記特定部は、前記解析部によって判定された前記フォーマットの種類に基づき、前記加工対象となる前記文字情報が含まれる領域を特定する、
請求項1又は請求項2に記載の画像処理装置。
【請求項4】
前記加工部は、前記加工対象となる前記文字情報を黒塗りにする、
請求項1に記載の画像処理装置。
【請求項5】
前記文書は、戸籍謄本であり、
前記加工対象は、個人情報である、
請求項1に記載の画像処理装置。
【請求項6】
取得部が、文書の画像データを取得する取得過程と、
認識部が、前記取得部によって取得された前記画像データに含まれる文字情報を認識する認識過程と、
特定部が、前記認識部によって認識された前記文字情報のうち、加工対象となる前記文字情報を特定する特定過程と、
加工部が、前記特定部によって前記加工対象として特定された前記文字情報を認識できないよう前記画像データを加工し、加工後の前記画像データを、加工された前記文字情報を示す加工画像データと加工されていない前記文字情報を示す非加工画像データとに分割する加工過程と、
第1の記憶部が、前記加工部によって分割された前記加工画像データを記憶する第1の記憶過程と、
第2の記憶部が、前記加工部によって分割された前記非加工画像データを記憶する第2の記憶過程と、
を含む画像処理方法。
【請求項7】
コンピュータを、
文書の画像データを取得する取得手段と、
前記取得手段によって取得された前記画像データに含まれる文字情報を認識する認識手段と、
前記認識手段によって認識された前記文字情報のうち、加工対象となる前記文字情報を特定する特定手段と、
前記特定手段によって前記加工対象として特定された前記文字情報を認識できないよう前記画像データを加工し、加工後の前記画像データを、加工された前記文字情報を示す加工画像データと加工されていない前記文字情報を示す非加工画像データとに分割する加工手段と、
前記加工手段によって分割された前記加工画像データを記憶する第1の記憶手段と、
前記加工手段によって分割された前記非加工画像データを記憶する第2の記憶手段と、
として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置、画像処理方法、及びプログラムに関する。
【背景技術】
【0002】
近年、AI(artificial intelligence)技術を活用したOCR(Optical Character Recognition)システムであるAI-OCRが開発されている。AI-OCRは、例えば手書き文字等の各種文字を予め機械学習した学習済みモデルを用いることで、一般的なOCRよりも高い認識精度で、手書き文字を認識することができる。手書き文字を高精度で認識するAI-OCRを開発するためには、様々な書き手による手書き文字を示す文書画像と、解読したテキストとのセットである学習データを大量に収集する必要がある。しかしながら、収集した学習データに書き手の個人情報が含まれている場合、学習データとして利用するために書き手の許諾が必要であり、個人情報保護の観点から様々な用途での利用や他との共用が困難であった。
【0003】
そこで、文書画像内の個人情報を認識できないようにする技術が各種提案されている。例えば、下記特許文献1には、対象となる文書画像において、ユーザによって設定された領域と重なる位置にある個人情報を含むオブジェクト(例えば文字又はイメージ)を、オブジェクトごとに設定されたレベルに応じて墨消しする技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2015-203919号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記特許文献1の技術では、墨消し処理後の文書画像の保存方法までは考慮されていない。このため、例えば墨消し処理後の文書画像が1枚の文書画像のまま保存される場合には、墨消しされた部分を墨消し前の状態に戻すことで個人を特定することができ、依然として個人情報が漏洩するリスクがあった。
【0006】
上述の課題を鑑み、本発明の目的は、個人情報が漏洩するリスクを低減することが可能な画像処理装置、画像処理方法、及びプログラムを提供することにある。
【課題を解決するための手段】
【0007】
上述の課題を解決するために、本発明の一態様に係る画像処理装置は、文書の画像データを取得する取得部と、前記取得部によって取得された前記画像データに含まれる文字情報を認識する認識部と、前記認識部によって認識された前記文字情報のうち、加工対象となる前記文字情報を特定する特定部と、前記特定部によって前記加工対象として特定された前記文字情報を認識できないよう前記画像データを加工し、加工後の前記画像データを、加工された前記文字情報を示す加工画像データと加工されていない前記文字情報を示す非加工画像データとに分割する加工部と、前記加工部によって分割された前記加工画像データを記憶する第1の記憶部と、前記加工部によって分割された前記非加工画像データを記憶する第2の記憶部と、を備える。
【0008】
本発明の一態様に係る画像処理方法は、取得部が、文書の画像データを取得する取得過程と、認識部が、前記取得部によって取得された前記画像データに含まれる文字情報を認識する認識過程と、特定部が、前記認識部によって認識された前記文字情報のうち、加工対象となる前記文字情報を特定する特定過程と、加工部が、前記特定部によって前記加工対象として特定された前記文字情報を認識できないよう前記画像データを加工し、加工後の前記画像データを、加工された前記文字情報を示す加工画像データと加工されていない前記文字情報を示す非加工画像データとに分割する加工過程と、第1の記憶部が、前記加工部によって分割された前記加工画像データを記憶する第1の記憶過程と、第2の記憶部が、前記加工部によって分割された前記非加工画像データを記憶する第2の記憶過程と、を含む。
【0009】
本発明の一態様に係るプログラムは、コンピュータを、文書の画像データを取得する取得手段と、前記取得手段によって取得された前記画像データに含まれる文字情報を認識する認識手段と、前記認識手段によって認識された前記文字情報のうち、加工対象となる前記文字情報を特定する特定手段と、前記特定手段によって前記加工対象として特定された前記文字情報を認識できないよう前記画像データを加工し、加工後の前記画像データを、加工された前記文字情報を示す加工画像データと加工されていない前記文字情報を示す非加工画像データとに分割する加工手段と、前記加工手段によって分割された前記加工画像データを記憶する第1の記憶手段と、前記加工手段によって分割された前記非加工画像データを記憶する第2の記憶手段と、として機能させる。
【発明の効果】
【0010】
本発明によれば、個人情報が漏洩するリスクを低減することができる。
【図面の簡単な説明】
【0011】
図1】本実施形態に係る画像処理システムの概略構成の一例を示すブロック図である。
図2】本実施形態に係る画像処理装置の機能構成の一例を示すブロック図である。
図3】本実施形態に係る戸籍謄本と文字情報の認識対象となる領域の一例を示す図である。
図4】本実施形態に係る加工対象の加工例を示す図である。
図5】本実施形態に係る画像処理装置における処理の流れの一例を示すフローチャートである。
【発明を実施するための形態】
【0012】
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
【0013】
<1.画像処理システムの概略構成>
まず、図1を参照して、本実施形態に係る画像処理システムの概略構成について説明する。図1は、本実施形態に係る画像処理システムの概略構成の一例を示すブロック図である。
【0014】
図1に示す画像処理システム1は、文書の画像データに加工を施し、加工後の画像データから個人を特定できないように加工後の画像データを保管するシステムである。画像処理システム1は、例えば、AI(artificial intelligence)技術を活用したOCR(Optical Character Recognition)システムの開発に利用することができる。AI-OCRは、手書き文字等の各種文字を予め機械学習した学習済みモデルを用いることで、一般的なOCRよりも高い認識精度で、手書き文字を認識することができる。手書き文字を高精度で認識するAI-OCRを開発するためには、様々な書き手による手書き文字を示す文書の画像データと、解読したテキストとのセットである学習データを大量に収集する必要がある。しかしながら、収集した学習データに書き手の個人情報が含まれている場合、学習データをそのまま用いては個人情報が漏洩するリスクがあった。
【0015】
画像処理システム1は、文書の画像データに含まれる不要な個人情報を認識できないように加工し、加工後の画像データを、加工された部分を示す画像データ(以下、「加工画像データ」とも称される)と加工されていない部分を示す画像データ(以下、「非加工画像データ」とも称される)とに分割して保管することができる。これにより、非加工画像データに一部の個人情報が残っていたとしても、その個人情報だけからでは個人を特定することができない。このため、AI-OCRの学習済みモデルを生成するための学習データとして非加工画像データを用いることで、AI-OCRの開発において個人情報が漏洩するリスクを低減することができる。
【0016】
また、AI-OCRシステムは、例えば、金融機関(例えば銀行)における相続に関する手続き(相続手続事務)に利用される。この相続手続事務では、相続人と被相続人との関係が明確に把握可能な戸籍謄本が用いられる。相続人と被相続人との関係を明確にするためには、複数の戸籍謄本が必要となる場合もある。相続人が高齢者である場合、その相続人の戸籍謄本は、明治や大正の頃に作成されたものもあり、その場合、記載には手書き文字が含まれている。銀行では、紙の戸籍謄本を用いて相続手続事務を行う場合には、手書き文字であっても記載内容を正確に読み解く必要があるが、手書き文字に独特な書体や旧字などが用いられている場合には、読み解くための知識や経験がより必要である。銀行の担当者のうち、このような手書き文字を読み解くための知識や経験を有する担当者はそれほど多くはないにもかかわらず、高齢化社会に伴って高齢の方が亡くなるケースが増大しており、手書き文字を読み解きつつ相続手続事務を行うケースが増大している。
【0017】
そこで、相続手続事務を効率化するためには、AI-OCRを用いて、手書き文字を含む戸籍謄本に記載された文字を認識し、認識した文字をテキストデータとして取り扱えるようにできるとよい。これにより、手書き文字を読み解くための知識や経験が浅い担当者であっても、戸籍謄本を読み解くことができるようになり、相続手続事務の効率を向上させることができる。
【0018】
以下では、画像処理システム1が、銀行の相続手続事務で利用されるAI-OCRの学習データに用いられる画像データを、戸籍謄本(文書の一例)から生成する例を一例として、本実施形態について説明する。
図1に示すように、画像処理システム1は、ユーザ端末10と、読取装置11と、画像処理装置20とを備える。
【0019】
(1)ユーザ端末10
ユーザ端末10は、ユーザが戸籍謄本の画像データを入力するために操作する端末である。ユーザ端末10は、例えば、PC(Personal Computer)である。
ユーザ端末10は、有線通信又は無線通信によって読取装置11と通信可能に接続される。読取装置11との通信において、ユーザ端末10は、例えば戸籍謄本の画像データを受信する。また、ユーザ端末10は、携帯電話網やインターネットなどのネットワークNWを介して、画像処理装置20と通信可能に接続される。画像処理装置20との通信において、ユーザ端末10は、例えば、読取装置11にて生成された戸籍謄本の画像データを送信する。
【0020】
(2)読取装置11
読取装置11は、紙の戸籍謄本を光学的に読み取り、戸籍謄本の画像データを生成する装置である。読取装置11は、例えば、スキャナである。
読取装置11は、有線通信又は無線通信によってユーザ端末10と通信可能に接続される。ユーザ端末10との通信において、読取装置11は、生成した戸籍謄本の画像データを送信する。
【0021】
(3)画像処理装置20
画像処理装置20は、戸籍謄本の画像データに加工を施し、加工後の画像データから個人を特定できないように加工後の画像データを保管する装置である。画像処理装置20は、例えば、1つ又は複数のサーバ装置(例えば、クラウドサーバ)で構成される。
画像処理装置20は、ネットワークNWを介して、ユーザ端末10と通信可能に接続される。ユーザ端末10との通信において、画像処理装置20は、例えば、読取装置11にて生成された戸籍謄本の画像データを受信する。
【0022】
<2.画像処理装置の機能構成>
以上、図1を参照して、本実施形態に係る画像処理システム1の概略構成について説明した。続いて、図2から図4を参照して、本実施形態に係る画像処理装置20の機能構成について説明する。図2は、本実施形態に係る画像処理装置20の機能構成の一例を示すブロック図である。
図2に示すように、画像処理装置20は、通信部210と、記憶部220と、制御部230とを備える。
【0023】
(1)通信部210
通信部210は、各種情報の送受信を行う機能を有する。例えば、通信部210は、ネットワークNWを介して、ユーザ端末10と通信を行い、戸籍謄本の画像データを受信する。
【0024】
(2)記憶部220
記憶部220は、各種情報を記憶する機能を有する。記憶部220は、画像処理装置20がハードウェアとして備える記憶媒体、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、RAM(Random Access read/write Memory)、ROM(Read Only Memory)、又はこれらの記憶媒体の任意の組み合わせによって構成される。
記憶部220は、例えば、ユーザ端末10から受信された戸籍謄本の画像データ、当該画像データから生成された画像データなどを記憶する。
図2に示すように、記憶部220は、加工画像データ記憶部221(第1の記憶部)と、非加工画像データ記憶部222(第2の記憶部)とを備える。
【0025】
(2-1)加工画像データ記憶部221
加工画像データ記憶部221は、加工画像データを記憶する機能を有する。加工画像データ記憶部221は、ユーザが加工画像データを後続の運用で利用できないようにするため、ユーザが加工画像データを参照できないように記憶する。これにより、加工画像データが外部に漏洩することを防ぎ、個人情報が漏洩するリスクを低減することができる。
後続の運用は、例えば、AI-OCRの学習済みモデルの生成である。
【0026】
(2-2)非加工画像データ記憶部222
非加工画像データ記憶部222は、非加工画像データを記憶する機能を有する。非加工画像データ記憶部222は、ユーザが非加工画像データを後続の運用で利用できるようにするため、ユーザが非加工画像データを参照できるように記憶する。これにより、ユーザは、後続の運用において必要な個人情報しか取り扱うことができないため、個人情報が漏洩するリスクを低減することができる。
【0027】
(3)制御部230
制御部230は、画像処理装置20の動作全般を制御する機能を有する。制御部230は、例えば、画像処理装置20がハードウェアとして備えるCPU(Central Processing Unit)にプログラムを実行させることによって実現される。
図2に示すように、制御部230は、取得部231と、解析部232と、認識部233と、特定部234と、加工部235と、出力部236とを備える。
【0028】
(3-1)取得部231
取得部231は、戸籍謄本の画像データを取得する機能を有する。具体的に、取得部231は、通信部210がネットワークNWを介してユーザ端末10から受信した戸籍謄本の画像データを取得する。
【0029】
(3-2)解析部232
解析部232は、戸籍謄本の画像データを解析する機能を有する。例えば、解析部232は、取得部231によって取得された画像データを解析し、当該画像データが示す戸籍謄本のフォーマットの種類を判定する。一例として、解析部232は、画像データに対するOMR(Optical Mark Recognition:光学式マーク認識)により、画像データを解析する。解析部232は、OMRによって画像データが示す戸籍謄本の罫線を読み取ることでフォーマットの形状を認識し、フォーマットの種類を判定する。
【0030】
戸籍謄本には、戸籍謄本に関する情報(以下、「戸籍謄本情報」とも称される)又は戸籍謄本に記載された戸籍を構成する人物に関する情報(以下、「構成員情報」とも称される)が記載されている。
戸籍謄本情報には、例えば、作成日、除籍日、本籍地自治体、本籍地、転籍先自治体、戸籍謄本作成事由、除籍種別などを示す情報が含まれる。
構成員情報には、例えば、氏名、生年月日、没年月日、直系の人物の氏名、直系の人物との続柄、婚姻日、離縁日、国籍、入籍日、除籍日、相続人廃除事由、戸籍謄本内有効期限などである。直系の人物は、例えば実父母であり、養子縁組されている場合には養父母も含まれる。構成員情報は、少なくとも筆頭者又は戸主について読み取られ、配偶者や子が存在する場合には、配偶者や子についても読み取られる。構成員情報のうち、戸籍謄本に記載された人物の関係性を示す情報は、以下では「関係性情報」とも称される。関係性情報は、例えば、直系の人物の氏名、直系の人物との続柄、婚姻日、離縁日、入籍日、除籍日などの情報である。
【0031】
戸籍謄本において戸籍謄本情報と構成員情報が記載されている領域の位置は、戸籍謄本のフォーマットの種類によって異なり得る。戸籍謄本のフォーマットの種類は、大きくは戦前戸籍(旧法戸籍)と現行戸籍の2種類に分類される。戦前戸籍は、戸主を中心として、戸主の親、妻、子、孫、兄弟姉妹、兄弟姉妹の家族など、複数の家族を含む単位(家督単位)で作成されている。現行戸籍は、1組の夫婦と氏が同じ未婚の子どもを1つの単位(核家族単位)で作成されている。
戦前戸籍は、さらに明治5年式戸籍、明治19年式戸籍、明治31年式戸籍、及び大正4年式戸籍の4種類に分類される。現行戸籍は、さらに昭和23年式戸籍、及び平成6年式戸籍の2種類に分類される。即ち、戸籍謄本のフォーマットの種類は、6種類に分類される。
【0032】
解析部232は、戸籍謄本のフォーマットの種類を判定することで、認識部233による文字情報の認識対象となる領域の位置を特定する。文字情報の認識対象となる領域は、例えば、戸籍事項欄、戸籍に記載されている者欄、及び身分事項欄である。
戸籍事項欄には、筆頭者の戸籍謄本情報が記載されている。戸籍に記載されている者欄には、構成員情報のうち、氏名、生年月日、直系の人物の氏名、直系の人物との続柄が記載されている。身分事項欄には、構成員情報のうち、没年月日、婚姻日、離縁日、国籍、入籍日、除籍日、相続人廃除事由などが記載されている。
【0033】
(3-3)認識部233
認識部233は、戸籍謄本の画像データに含まれる文字情報を認識し、認識した文字情報をテキストデータに変換する機能を有する。認識部233は、取得部231によって取得された画像データに対するOCRにより、当該画像データに含まれる文字情報を認識する。この時、認識部233は、画像データに含まれる文字情報のうち、解析部232によって判定されたフォーマットの種類に応じた位置にある領域から文字情報を認識する。
【0034】
ここで、図3を参照して、戸籍謄本と文字情報の認識対象となる領域について説明する。図3は、本実施形態に係る戸籍謄本と文字情報の認識対象となる領域の一例を示す図である。
【0035】
図3には、一例として、フォーマットが昭和23年式戸籍である戸籍謄本30の概略図が示されている。戸籍謄本30では、領域31と、領域32aと、領域32bと、領域32cと、領域33aと、領域33bと、領域33cとが文字情報の認識対象となる領域である。領域31は、戸籍事項欄に相当する。領域32aと領域32bと領域32cは、身分事項欄に相当する。領域33aと領域33bと領域33cは、戸籍に記載されている者欄に相当する。
図3に示す例の場合、認識部233は、領域31から筆頭者である夫の戸籍謄本情報を文字情報として認識する。また、認識部233は、領域32aと領域33aから夫の構成員情報を文字情報として認識する。また、認識部233は、領域32bと領域33bから妻の構成員情報を文字情報として認識する。なお、認識部233は、領域32cと領域33cには記載がないため、領域32cと領域33cから文字情報を認識しない。
【0036】
(3-4)特定部234
特定部234は、加工対象となる文字情報を特定する機能を有する。例えば、特定部234は、認識部233によって認識された文字情報(テキストデータ)のうち、加工対象となる文字情報を特定する。加工対象は、ユーザによって予め設定される。加工対象は、例えば、個人情報である。
【0037】
また、特定部234は、認識部233によって認識された文字情報のうち、文字情報を用いる処理に不要な文字情報を加工対象として特定してもよい。ユーザは、戸籍謄本に記載された個人情報のうち、特定の個人情報のみを加工対象として設定することもできる。特定の個人情報は、例えば、後続の運用で不要な個人情報である。
【0038】
特定部234は、解析部232によって判定されたフォーマットの種類又は認識部233によって認識された文字情報に基づき、加工対象となる文字情報の画像データにおける位置を特定する。
例えば、特定部234は、まず、解析部232によって判定されたフォーマットの種類に基づき、加工対象となる文字情報が含まれる領域を特定する。次いで、特定部234は、特定した領域内で加工対象となる文字情報を検索して、その位置を特定する。
また、特定部234は、認識部233が画像データから文字情報を認識した際に取得される文字情報の座標情報に基づき、加工対象となる文字情報の位置を特定してもよい。
【0039】
(3-5)加工部235
加工部235は、画像データを加工する機能を有する。例えば、加工部235は、特定部234によって加工対象として特定された文字情報を認識できないよう画像データを加工し、加工後の画像データを、加工画像データと非加工画像データとに分割する。加工部235は、例えば加工対象となる文字情報を黒塗りにすることで、認識できないようにする。加工後、加工部235は、加工画像データを加工画像データ記憶部221に記憶させ、非加工画像データを非加工画像データ記憶部222に記憶させる。各画像データの記憶完了後、加工部235は、加工前の画像データ(取得部231が取得した画像データ)を削除し、削除証跡を残す。
【0040】
ここで、図4を参照して、加工対象の加工例について説明する。図4は、本実施形態に係る加工対象の加工例を示す図である。
【0041】
図4に示す例では、後続の運用で不要な個人情報が住所であるものとして、加工対象となる文字情報が住所を示す文字情報である例を一例として説明する。図4に示す戸籍謄本30は、図3と同様にフォーマットが昭和23年式戸籍の戸籍謄本である。昭和23年式戸籍の戸籍謄本では、戸籍事項欄と身分事項欄に住所が記載されている場合がある。図4に示す戸籍謄本30では、戸籍事項欄である領域31と身分事項欄である領域32a及び領域32bに住所が記載されており、加工部235によってその部分が黒塗りにされている。
【0042】
加工部235は、図4に示すように、戸籍謄本30の画像データにおいて加工対象となる文字情報の部分を黒塗りにする。黒塗り後、加工部235は、当該画像データを、黒塗り部分ごとの画像データである加工画像データと黒塗り部分以外の文字情報を示す画像データである非加工画像データとに分割する。分割後、加工部235は、加工画像データを加工画像データ記憶部221に記憶させ、非加工画像データを非加工画像データ記憶部222に記憶させる。
【0043】
なお、加工画像データは、黒塗り部分ごとに生成される画像データである。また、非加工画像データは、戸籍謄本30の画像データから黒塗り部分を除去した1枚の画像データではなく、黒塗りにされていない文字情報の部分を任意の単位で区切り、区切った単位ごとに生成される画像データである。即ち、加工画像データと非加工画像データは、それぞれ複数生成され得る。
【0044】
(3-6)出力部236
出力部236は、各種情報を出力する機能を有する。例えば、出力部236は、ユーザが後続の運用にて非加工画像データを利用する際に、非加工画像データ記憶部222に記憶されている非加工画像データを当該運用にて利用する端末へ出力する。
【0045】
<3.処理の流れ>
以上、図2から図4を参照して、本実施形態に係る画像処理装置20の機能構成について説明した。続いて、図5を参照して、本実施形態に係る画像処理装置20における処理の流れについて説明する。図5は、本実施形態に係る画像処理装置20における処理の流れの一例を示すフローチャートである。
【0046】
図5に示すように、まず、取得部231は、戸籍謄本の画像データを取得する(ステップS101)。戸籍謄本の画像データは、ユーザが紙の戸籍謄本を読取装置11に読み取らせることで、読取装置11によって生成される。読取装置11によって生成された戸籍謄本の画像データは、読取装置11からユーザ端末10へ送信され、ユーザ端末10からネットワークNWを介して画像処理装置20へ送信される。取得部231は、通信部210がユーザ端末10から受信した戸籍謄本の画像データを取得する。
【0047】
次いで、解析部232は、戸籍謄本のフォーマットを解析する(ステップS102)。具体的に、解析部232は、取得部231によって取得された画像データに対するOMRによって画像データが示す戸籍謄本の罫線を読み取り、フォーマットの形状を認識することで、フォーマットの種類を判定する。
【0048】
次いで、認識部233は、画像データから文字情報を認識する(ステップS103)。具体的に、認識部233は、取得部231によって取得された画像データから文字情報を認識し、認識した文字情報をテキストデータに変換する。認識部233は、画像データにおいて、解析部232によって判定されたフォーマットの種類に応じた位置にある領域から、文字情報を認識する。
【0049】
次いで、特定部234は、加工対象を特定する(ステップS104)。具体的に、特定部234は、認識部233によって認識された文字情報のうち、加工対象となる文字情報(個人情報)を特定し、画像データにおける加工対象の位置を特定する。
【0050】
次いで、加工部235は、画像データを加工する(ステップS105)。具体的に、加工部235は、画像データにおいて、特定部234によって加工対象として特定された文字情報の部分を黒塗りにする。黒塗り後、加工部235は、当該画像データを、黒塗り部分ごとの画像データである加工画像データと黒塗り部分以外の文字情報を示す画像データである非加工画像データとに分割する。
【0051】
次いで、記憶部220は、各画像データを記憶する(ステップS106)。具体的に、加工画像データ記憶部221は、加工部235によって生成された加工画像データを記憶する。また、非加工画像データ記憶部222は、加工部235によって生成された非加工画像データを記憶する。
【0052】
以上説明したように、本実施形態に係る画像処理装置20は、文書の画像データを取得する取得部231と、取得部231によって取得された画像データに含まれる文字情報を認識する認識部233と、認識部233によって認識された文字情報のうち、加工対象となる文字情報を特定する特定部234と、特定部234によって加工対象として特定された文字情報を認識できないよう画像データを加工し、加工後の画像データを、加工された文字情報を示す加工画像データと加工されていない文字情報を示す非加工画像データとに分割する加工部235と、加工部235によって分割された加工画像データを記憶する加工画像データ記憶部221(第1の記憶部)と、加工部235によって分割された非加工画像データを記憶する非加工画像データ記憶部222(第2の記憶部)と、を備える。
【0053】
かかる構成により、画像処理装置20は、文書の画像データに含まれる不要な個人情報を認識できないように加工し、加工後の画像データを加工画像データと非加工画像データとに分割して保管することができる。これにより、非加工画像データに一部の個人情報が残っていたとしても、その個人情報だけからでは個人を特定することができない。また、加工画像データに施された加工を元に戻せたとしても、元に戻せた部分の個人情報だけからでは個人を特定することができない。
よって、本実施形態に係る画像処理装置20は、個人情報が漏洩するリスクを低減することを可能とする。
【0054】
<4.変形例>
続いて、本発明の実施形態の変形例について説明する。なお、以下に説明する変形例は、単独で本発明の実施形態に適用されてもよいし、組み合わせで本発明の実施形態に適用されてもよい。また、変形例は、本発明の実施形態で説明した構成に代えて適用されてもよいし、本発明の各実施形態で説明した構成に対して追加的に適用されてもよい。
【0055】
上述した実施形態では、画像処理システム1が銀行における相続手続事務に利用される例について説明したが、かかる例に限定されない。例えば、画像処理システム1は、銀行以外の金融機関における相続手続事務に利用されてもよい。
また、上述した実施形態では、画像処理システム1が戸籍謄本の解読が必要な相続手続事務に利用される例について説明したが、かかる例に限定されない。例えば、画像処理システム1は、相続手続事務以外の目的で戸籍謄本の解読が必要な業務に利用されてもよく、例えば法務局での業務に活用されてもよい。
また、上述した実施形態では、画像処理システム1が扱う文書が戸籍謄本である例について説明したが、かかる例に限定されない。例えば、画像処理システム1は、戸籍謄本以外の個人情報を含む文書(手書き文書を含む)を扱ってもよく、例えば登記簿謄本などを扱ってもよい。
【0056】
また、上述した実施形態では、ユーザ端末10がPCである例について説明したが、かかる例に限定されない。例えば、ユーザ端末10は、スマートフォンやタブレット端末などの携帯端末であってもよい。この場合、ユーザは、戸籍謄本の画像データを得るために読取装置11を用いなくてもよい。例えば、ユーザは、スマートフォンやタブレット端末に内蔵されたカメラを用いて戸籍謄本を撮影することで、戸籍謄本の画像データを得てもよい。ユーザ端末10は、ネットワークNWを介して、カメラで撮影した戸籍謄本の画像データを画像処理装置20へ送信する。
画像処理装置20は、ユーザ端末10のカメラで撮影された戸籍謄本の画像データから、上述した実施形態と同様にして加工画像データと非加工画像データを生成する。
【0057】
また、上述した実施形態では、読取装置11がユーザ端末10に接続されている例について説明したが、かかる例に限定されない。例えば、読取装置11は、ネットワークNWを介して、画像処理装置20と接続されてもよい。この場合、読取装置11は、ネットワークNWを介して、生成した戸籍謄本の画像データをユーザ端末10ではなく画像処理装置20へ送信する。これにより、画像処理装置20は、ユーザ端末10を介さずに読取装置11から戸籍謄本の画像データを取得できる。
【0058】
また、上述した実施形態では、ユーザ端末10と画像処理装置20とがネットワークNWを介して接続されている例について説明したが、かかる例に限定されない。例えば、画像処理システム1においてネットワークNWを用いずに、ローカルでユーザ端末10、読取装置11、及び画像処理装置20を接続してもよい。
【0059】
また、上述した実施形態では、画像処理システム1がユーザ端末10と、読取装置11と、画像処理装置20とを備える例について説明したが、かかる例に限定されない。例えば、画像処理装置20の機能を有するユーザ端末10と、読取装置11と、画像データを記憶するためのサーバとを備える画像処理システム1であってもよい。即ち、画像処理装置20がサーバ装置ではなくユーザ端末10によって実現される例である。この場合、ユーザ端末10には、画像処理装置20の機能を実現するためのアプリケーション(プログラム)がインストールされる。また、ユーザ端末10と読取装置11は、有線通信又は無線通信によって通信可能に接続される。
読取装置11は、上述した実施形態と同様に、紙の戸籍謄本を光学的に読み取って生成した戸籍謄本の画像データをユーザ端末10へ送信する。
ユーザ端末10は、インストールされたアプリケーションの機能によって、読取装置11から受信した戸籍謄本の画像データに加工を施し、加工後の画像データから個人を特定できないように加工後の画像データをサーバ(アプリケーション側のサーバ)へ保管する。ユーザ端末10は、上述した実施形態に係る画像処理装置20と同様に、戸籍謄本の画像データの取得、戸籍謄本の画像データの解析、文字情報の認識、加工対象となる文字情報の特定を行い、加工対象として特定された文字情報を認識できないよう画像データを加工する。加工後、ユーザ端末10は、加工によって得られた加工画像と非加工画像をそれぞれ分けて、サーバが備える記憶部に記憶する。
【0060】
また、上述した実施形態では、加工部235が画像データに対して加工対象を黒塗りにしてから加工画像データと非加工画像データとに分割する例について説明したが、かかる例に限定されない。例えば、加工部235は、画像データを加工画像データとなる部分と非加工画像データとなる部分に分割してから、加工画像データとなる部分に含まれる加工対象となる文字情報を黒塗りにしてもよい。
【0061】
また、上述した実施形態では、後続の運用がAI-OCRの学習済みモデルの生成であり、非加工画像データが当該学習済みモデルの生成に利用される例について説明したが、かかる例に限定されない。例えば、相続手続事務では、戸籍謄本から読み取った人物関係から家系図を作成して利用することがある。このため、非加工画像データ記憶部222に記憶された非加工画像データは、家系図の作成に利用されてもよい。
非加工画像データが家系図の作成に利用される場合、非加工画像データの他に、加工前の戸籍謄本の画像データが家系図の作成に利用されてもよい。
画像処理装置20の機能がユーザ端末10によって実現される場合も同様に、非加工画像がAI-OCRの学習済みモデルの作成や家系図の作成に利用されてもよいし、加工前の戸籍謄本の画像データが家系図の作成に利用されてもよい。
【0062】
以上、本発明の実施形態の変形例について説明した。なお、上述した実施形態における画像処理装置20の一部又は全部の機能をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
【0063】
以上、図面を参照してこの発明の実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【符号の説明】
【0064】
1…画像処理システム、10…ユーザ端末、11…読取装置、20…画像処理装置、30…戸籍謄本、210…通信部、220…記憶部、221…加工画像データ記憶部、222…非加工画像データ記憶部、230…制御部、231…取得部、232…解析部、233…認識部、234…特定部、235…加工部、236…出力部、NW…ネットワーク
図1
図2
図3
図4
図5