(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024067738
(43)【公開日】2024-05-17
(54)【発明の名称】情報処理装置、システム、方法およびプログラム
(51)【国際特許分類】
G06V 30/16 20220101AFI20240510BHJP
【FI】
G06V30/16
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022178049
(22)【出願日】2022-11-07
(71)【出願人】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100110607
【弁理士】
【氏名又は名称】間山 進也
(72)【発明者】
【氏名】中尾 謙太
【テーマコード(参考)】
5B029
【Fターム(参考)】
5B029CC21
5B029CC25
5B029EE08
(57)【要約】 (修正有)
【課題】OCRを行うのに適当な画像を出力する情報処理装置、システム、方法およびプログラムを提供すること。
【解決手段】MFP(Multi-function Peripheral)と、パソコン端末とが、インターネットやLANなどのネットワークを介して接続されたシステムにおいて、情報処理装置としてのMFP110は、画像に含まれる手書き部分と活字部分とを抽出する活字/手書き抽出部320と、活字/手書き抽出部320が抽出した手書き部分を画像から削除した手書き削除画像および手書き削除画像に含まれる活字を復元した活字復元画像を生成する画像生成部340と、画像、手書き削除画像、活字復元画像のうち、処理の対象とする画像を選択する画面を表示する表示部360と、を含む。
【選択図】
図3
【特許請求の範囲】
【請求項1】
画像に含まれる手書き部分と活字部分とを抽出する抽出手段と、
前記抽出手段が抽出した前記手書き部分を前記画像から削除した手書き削除画像、および、前記手書き削除画像に含まれる活字を復元した活字復元画像を生成する画像生成手段と、
前記画像、前記手書き削除画像、前記活字復元画像のうち、処理の対象とする画像を選択する画面を表示する表示手段と
を含む、情報処理装置。
【請求項2】
前記表示手段に表示された前記画面から選択された画像を編集する編集手段をさらに含む、請求項1に記載の情報処理装置。
【請求項3】
前記画像に含まれる重要度の高い情報が記載された領域を検出する検出手段をさらに含み、
前記編集手段は、前記領域を編集する、請求項2に記載の情報処理装置。
【請求項4】
前記抽出手段は、前記活字部分を矩形領域として抽出し、
前記画像生成手段は、前記矩形領域外の手書き部分を削除した手書き削除画像を生成する、
請求項2または3に記載の情報処理装置。
【請求項5】
画像に含まれる手書き部分と活字部分とを抽出する抽出手段と、
前記抽出手段が抽出した前記手書き部分を前記画像から削除した手書き削除画像、および、前記手書き削除画像に含まれる活字を復元した活字復元画像を生成する画像生成手段と、
前記画像、前記手書き削除画像、前記活字復元画像のうち、処理の対象とする画像を選択する画面を表示する表示手段と
を含む、システム。
【請求項6】
前記表示手段に表示された前記画面から選択された画像を編集する編集手段をさらに含む、請求項5に記載のシステム。
【請求項7】
前記画像に含まれる重要度の高い情報が記載された領域を検出する検出手段をさらに含み、
前記編集手段は、前記領域を編集する、請求項6に記載のシステム。
【請求項8】
前記抽出手段は、前記活字部分を矩形領域として抽出し、
前記画像生成手段は、前記矩形領域外の手書き部分を削除した手書き削除画像を生成する、
請求項6または7に記載のシステム。
【請求項9】
画像に含まれる手書き部分と活字部分とを抽出するステップと、
前記抽出するステップにおいて抽出した前記手書き部分を前記画像から削除した手書き削除画像、および、前記手書き削除画像に含まれる活字を復元した活字復元画像を生成するステップと、
前記画像、前記手書き削除画像、前記活字復元画像のうち、処理の対象とする画像を選択する画面を表示するステップと
を含む、方法。
【請求項10】
情報処理装置が実行するプログラムであって、前記情報処理装置を、
画像に含まれる手書き部分と活字部分とを抽出する抽出手段、
前記抽出手段が抽出した前記手書き部分を前記画像から削除した手書き削除画像、および、前記手書き削除画像に含まれる活字を復元した活字復元画像を生成する画像生成手段、
前記画像、前記手書き削除画像、前記活字復元画像のうち、処理の対象とする画像を選択する画面を表示する表示手段
として動作させる、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、OCR(Optical Character Recognition)の前処理を行う情報処理装置、システム、方法およびプログラムに関する。
【背景技術】
【0002】
いわゆるDX(デジタル・トランスフォーメーション)の普及に伴い、文書を電子化して保管するニーズが高まっている。文書を電子化する方法は、多岐にわたるが、OCRを用いてテキストデータとする方法が広く知られている。
【0003】
OCRによって読み取られる文書には、活字の他、手書き文字が含まれている場合がある。そこで、電子化したあとの利便性を向上するために、文書内の手書き文字について、強調する、色を変えるなどの編集を行う技術が知られている。例えば、特開2018-196106号公報(特許文献1)では、読み取った画像のCMYKの階調値に基づいて、手書き画像を検出し、編集する技術を開示している。
【0004】
ところで、OCRで読み取る文書には、文字に限らず、手書きの記号(例えば、チェックのためのレ点など)が含まれている場合があり、さらに、活字に重複して記入されている場合もある。このような文書に対してOCRをしてテキストデータを抽出すると、手書き部分に起因して適切に文字認識できない場合があるが、特許文献1をはじめとする従来技術では対処できなかった。
【0005】
そのため、OCRの前段階で、手書き箇所を適切に処理する技術が求められていた。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明は、上記従来技術における課題に鑑みてなされたものであり、OCRを行うのに適当な画像を出力する情報処理装置、システム、方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
すなわち、本発明によれば、
画像に含まれる手書き部分と活字部分とを抽出する抽出手段と、
前記抽出手段が抽出した前記手書き部分を前記画像から削除した手書き削除画像、および、前記手書き削除画像に含まれる活字を復元した活字復元画像を生成する画像生成手段と、
前記画像、前記手書き削除画像、前記活字復元画像のうち、処理の対象とする画像を選択する画面を表示する表示手段と
を含む、情報処理装置が提供される。
【発明の効果】
【0008】
本発明によれば、OCRを行うのに適当な画像を出力する情報処理装置、システム、方法およびプログラムが提供できる。
【図面の簡単な説明】
【0009】
【
図1】本実施形態におけるシステム全体のハードウェアの概略構成を示す図。
【
図2】本実施形態のMFPに含まれるハードウェア構成を示す図。
【
図3】本実施形態のMFPに含まれるソフトウェアブロック図。
【
図4】本実施形態において処理される書類の例を示す図。
【
図5】本実施形態における手書き文字に対する処理の例を説明する図。
【
図6】他の好ましい実施形態における手書き文字に対する処理の例を説明する図。
【
図7】本実施形態のMFPが実行する処理を示すフローチャート。
【
図8】本実施形態における画像選択画面の例を示す図。
【発明を実施するための形態】
【0010】
以下、本発明を、実施形態をもって説明するが、本発明は後述する実施形態に限定されるものではない。なお、以下に参照する各図においては、共通する要素について同じ符号を用い、適宜その説明を省略するものとする。
【0011】
図1は、本実施形態におけるシステム100全体のハードウェアの概略構成を示す図である。
図1では、例として、MFP(Multi-function Peripheral)110と、パソコン端末120とが、インターネットやLANなどのネットワークを介して接続されたシステム100を例示している。なお、MFP110やパソコン端末120の台数は、
図1に示したものに限らず、システム100に含まれる台数に制限はない。また、MFP110やパソコン端末120から、ネットワークへ接続する方法は、有線または無線のどちらでもよい。
【0012】
MFP110は、例えば、パソコン端末120などの他の情報処理装置から受信した印刷ジョブを実行し、印刷物を出力する情報処理装置である。また、MFP110は、書類をスキャンした電子データを出力し、他の情報処理装置に送信することができる。
【0013】
パソコン端末120は、各種データを処理し、出力する情報処理装置である。パソコン端末120は、例えば、MFP110に対して印刷ジョブを送信したり、MFP110がスキャンしたデータを受信したりできる。
【0014】
なお、以下では、一例としてMFP110が実施形態に係る処理を実行するものとして説明しているが、特に実施形態を限定するものではない。したがって、例えば、パソコン端末120が実施形態に係る処理を実行してもよい。また、MFP110およびパソコン端末120は、情報処理装置の一例であって、これら以外の情報処理装置を用いてもよい。その他の情報処理装置の例としては、スマートホン端末、タブレット端末、サーバコンピュータなどが挙げられる。さらに、実施形態に係る処理は、必ずしも1つの情報処理装置によって行われなくてもよく、例えば、複数の情報処理装置の協働によって実行されてもよい。
【0015】
次に、MFP110のハードウェア構成について説明する。
図2は、本実施形態のMFP110に含まれるハードウェア構成を示す図である。MFP110は、CPU210と、RAM220と、ROM230と、記憶装置240と、プリンタ装置250と、スキャナ装置260と、通信I/F270と、ディスプレイ280と、入力装置290とを含んで構成され、各ハードウェアはバスを介して接続されている。
【0016】
CPU210は、MFP110の動作を制御するプログラムを実行し、所定の処理を行う装置である。RAM220は、CPU210が実行するプログラムの実行空間を提供するための揮発性の記憶装置であり、プログラムやデータの格納用、展開用として使用される。ROM230は、CPU210が実行するプログラムやファームウェアなどを記憶するための不揮発性の記憶装置である。
【0017】
記憶装置240は、MFP110を機能させるOSや種々のソフトウェア、設定情報、各種データなどを記憶する、読み書き可能な不揮発性の記憶装置である。記憶装置240の一例としては、HDD(Hard Disk Drive)やSSD(Solid State Drive)などが挙げられる。
【0018】
プリンタ装置250は、レーザ方式やインクジェット方式などによって、用紙に画像を形成する構成の装置である。スキャナ装置260は、印刷物の画像を読み取り、データ化する構成の装置である。また、例えばMFP110は、スキャナ装置260とプリンタ装置250の協働により、印刷物のコピーを行うことができる。
【0019】
通信I/F270は、MFP110とネットワークとを接続し、ネットワークを介して他の情報処理装置との通信を可能にする。ネットワークを介した通信は、有線通信または無線通信のいずれであってもよく、TCP/IPなどの所定の通信プロトコルを使用し、各種データを送受信できる。
【0020】
ディスプレイ280は、各種データやMFP110の状態などを、ユーザに対して表示する装置であり、例として、LCD(Liquid Crystal Display)などが挙げられる。入力装置290は、ユーザがMFP110を操作するための装置であり、例として、操作ボタンなどが挙げられる。なお、ディスプレイ280と入力装置290は、それぞれ別個の装置であってもよいし、タッチパネルディスプレイのような両方の機能を備えるものであってもよい。
【0021】
以上、本実施形態のMFP110に含まれるハードウェア構成について説明した。次に、本実施形態における各ハードウェアによって実行される機能手段について、
図3を以て説明する。
図3は、本実施形態のMFP110に含まれるソフトウェアブロック図である。
【0022】
本実施形態のMFP110は、画像取得部310、活字/手書き抽出部320、重要情報検出部330、画像生成部340、画像編集部350、表示部360、操作部370、画像記憶部380を含む。以下では、各機能手段の詳細について説明する。
【0023】
画像取得部310は、処理対象とする画像(以下、「原画像」として参照する)を取得する手段である。原画像は、MFP110のスキャナ装置260によってスキャンすることで取得してもよいし、他の情報処理装置からネットワークを通じて取得してもよい。また、原画像は、カメラなどによって撮影されたものであってもよい。
【0024】
活字/手書き抽出部320は、取得した原画像に含まれる活字および手書きの部分を抽出する手段である。なお、説明する実施形態において「活字」とは、同一の字形で繰り返し表現することが可能な文字を指し、例えば、各種情報処理装置から出力されたテキストデータをプリントアウトした文字が挙げられる。また、説明する実施形態において「手書き」とは、筆記具を用いて記入されたものを指し、文字に限らず、記号、図形などを含み得る。
【0025】
重要情報検出部330は、原画像に含まれる重要度の高い記載内容を検出する手段である。本実施形態の重要情報検出部330は、活字/手書き抽出部320の抽出結果に基づいて、重要情報を検出することができる。重要情報の例としては、一例として金額などが挙げられるが、特に実施形態を限定するものではない。
【0026】
画像生成部340は、活字/手書き抽出部320が抽出した結果に基づいて、原画像を加工した画像を生成する手段である。本実施形態の画像生成部340は、原画像から手書き部分を削除した手書き削除画像を生成することができる。また、画像生成部340は、手書き削除画像に含まれる活字を復元して、活字復元画像を生成することができる。
【0027】
画像編集部350は、画像を編集する手段である。本実施形態の画像編集部350は、原画像、手書き削除画像、活字復元画像を編集することができる。本実施形態における編集処理は、例えば、線描の追加(いわゆる「ペン機能」)や、不要な描画の削除(いわゆる「消しゴム機能」)を行うことができる。これによって、過剰に手書き部分が削除された場合や、不要な手書き部分が残っている場合などに修正することができ、後のOCR処理における文字認識の精度を向上させることができる。
【0028】
表示部360は、ディスプレイ280を制御し、原画像、手書き削除画像、活字復元画像などの各種画像を表示する手段である。また、本実施形態の表示部360は、画像編集部350による画像編集処理の画面を表示することができる。
【0029】
操作部370は、入力装置290によって入力された操作を受け付ける手段である。本実施形態の操作部370は、表示部360に表示された各種画像の選択や、画像編集処理などの操作を行うことができる。
【0030】
画像記憶部380は、記憶装置240を制御し、原画像、手書き削除画像、活字復元画像などの各種画像を記憶する手段である。また、本実施形態の画像記憶部380は、画像編集部350によって編集された画像を記憶することができる。
【0031】
なお、上述したソフトウェアブロックは、CPU210が本実施形態のプログラムを実行することで、各ハードウェアを機能させることにより、実現される機能手段に相当する。また、各実施形態に示した機能手段は、全部がソフトウェア的に実現されても良いし、その一部または全部を同等の機能を提供するハードウェアとして実装することもできる。
【0032】
さらに、上述した各機能手段は、必ずしも全てが
図3に示すような構成で含まれていなくてもよい。例えば、他の好ましい実施形態では、各機能手段は、MFP110と、パソコン端末120との協働によって実現されてもよい。
【0033】
ここまで、本実施形態におけるMFP110のハードウェア構成およびソフトウェアブロックについて説明した。次に、電子データ化する書類の例について
図4を以て説明する。
図4は、本実施形態において処理される書類の例を示す図である。
【0034】
図4に例示する書類は、領収書であり、宛名と金額とが記載されている。
図4(a)は、活字のみで構成された領収書の原本を示している。ここで、
図4(a)に示したような領収書を事業者などが経理処理する場合、書類に誤記がないか確認する場合がある。この場合、
図4(b)に示すように、一文字ずつ確認しながらペンなどでチェック記号を入れていくことがある。しかしながら、
図4(b)に示す書類では、活字に手書きのチェック記号が重複して記入されているため、OCRによって適切に文字が認識できなくなる虞がある。
【0035】
そこで、本実施形態では、手書き削除画像と活字復元画像を生成し、OCRに適した画像を選択することができる。
図5は、本実施形態における手書き文字に対する処理の例を説明する図である。
図5(a)~(d)は、それぞれ異なる活字に対する処理を示しており、
図5(a)は活字「3」の例を、
図5(b)は活字「6」の例を、
図5(c)は活字「8」の例を、
図5(d)は活字「9」の例を示している。また、
図5は、左から、原画像の活字の例、手書きを追加した例、手書き部分を削除した例、活字を復元した例を示している。なお、手書きを追加した例では、色の薄い線描が手書き部分を示しているが、線描の色は、活字との区別を目的とした便宜的なものである点に留意されたい。
【0036】
例えば、
図5(a)に示すように、元の活字が「3」であって、手書きのチェックマークが書き加えられた場合、手書き部分を削除し、活字を復元しようとすると、「8」となってしまう場合がある。また別の例では、
図5(b)に示すように、元の活字が「6」であって、手書きのチェックマークが書き加えられた場合、手書き部分を削除し、活字を復元しようとすると、「5」となってしまう場合がある。また別の例では、
図5(c)に示すように、元の活字が「8」であって、手書きのチェックマークが書き加えられた場合、手書き部分を削除し、活字を復元しようとすると、「3」となってしまう場合がある。また別の例では、
図5(d)に示すように、元の活字が「9」であって、手書きのチェックマークが書き加えられた場合、手書き部分を削除し、活字を復元しようとすると、「0」となってしまう場合がある。
【0037】
このように、活字に手書きが書き加えられると、元の活字と異なる活字が復元される虞があり、OCRをすると適切でない文字が認識されたテキストデータが出力され得る。よって、本実施形態におけるユーザは、適切な画像を選択し、場合によっては、ペン機能や消しゴム機能によって編集することが好ましい。
【0038】
また、他の好ましい実施形態では、活字/手書き抽出部320が、活字の大きさを判定して、当該活字を囲む矩形領域を定義し、矩形領域外の手書き部分のみを削除した手書き削除画像を生成することとしてもよい。
【0039】
ここで、矩形領域外の手書き部分を削除する実施形態について、
図6を以て説明する。
図6は、他の好ましい実施形態における手書き文字に対する処理の例を説明する図である。
図6(a)~(d)は、それぞれ、
図5(a)~(d)に相当する活字および手書きのチェックマークの例を示している。また、
図6は、左から、原画像の活字の例、活字を囲う矩形領域を抽出した例、矩形領域外の手書き部分を削除した例、活字を復元した例を示している。
【0040】
元の活字や手書きの線描にもよるが、例えば、
図6(b)、(c)に示す例では、活字の矩形領域を抽出し、当該矩形領域外の手書き部分を削除することで、元の活字と同じ、「6」、「8」という活字を復元できる。また、
図6(a)、(d)に示す例では、
図5(a)、(d)と同様に、適切でない復元がなされる可能性があるものの、矩形領域外の手書き部分を削除したことで、編集による修正を容易に行うことができる。
【0041】
次に、MFP110が実行する処理について説明する。
図7は、本実施形態のMFP110が実行する処理を示すフローチャートである。本実施形態のMFP110は、ステップS1000から処理を開始する。
【0042】
ステップS1001において、画像取得部310は、処理対象となる原画像を取得する。原画像は、MF110がスキャンしてもよし、他の情報処理装置から受信してもよいし、あらかじめ画像記憶部380に記憶されていてもよい。
【0043】
その後、ステップS1002では、活字/手書き抽出部320が、原画像に含まれる活字部分と手書き部分を抽出する。なお、他の好ましい実施形態では、重要情報検出部330は、ステップS1002において抽出された結果に基づいて、重要度の高い情報を検出することができる。かかる実施形態では、重要情報であると判定された文字のみを編集対象とすることで、処理に係る負荷を軽減することができる。
【0044】
また、ステップS1002において活字/手書き抽出部320は、抽出した活字の大きさに基づいて、当該活字を囲う矩形を定義することができる。なお、矩形の定義の一例として、矩形の大きさや、画像における矩形の座標などを挙げることができる。
【0045】
ステップS1002で抽出処理をした後、ステップS1003では、手書き部分があるか否かによって処理を分岐する。手書き部分がない場合には(NO)、ステップS1013に進み、処理を終了する。手書き部分がある場合には(YES)、ステップS1004に進む。
【0046】
ステップS1004では、画像生成部340は、抽出結果に基づいて、手書き削除画像を生成する。ステップS1004で生成された手書き削除画像は、画像記憶部380に記憶することができる。なお、他の好ましい実施形態において画像生成部340は、活字/手書き抽出部320が定義した矩形外にある手書き部分を削除した手書き削除画像を生成することができる。
【0047】
その後、ステップS1005では、活字部分があるか否かによって処理を分岐する。活字部分がない場合には(NO)、ステップS1013に進み、処理を終了する。活字部分がある場合には(YES)、ステップS1006に進む。
【0048】
ステップS1006では、画像生成部340は、手書き削除画像および抽出結果に基づいて、活字復元画像を生成する。ステップS1006で生成された活字復元画像は、画像記憶部380に記憶することができる。
【0049】
その後、ステップS1007では、表示部360は、原画像、手書き削除画像、活字復元画像をディスプレイ280に表示し、ステップS1008において、画像の選択を受け付ける。ここで、ステップS1007、S1008で表示される画面の例を、
図8を以て説明する。
【0050】
図8は、本実施形態における画像選択画面の例を示す図である。本実施形態の画像選択画面は、
図8に示すように、原画像と、手書き削除画像と、活字復元画像とを並べて表示し、どの画像をOCRの処理対象とするかをユーザに選択させることができる。また、ユーザは、画像選択画面において画像を選択したうえで、「画像を編集」ボタンを押下することで、選択した画像を編集する画面に遷移することができる。
【0051】
説明を
図7に戻す。ステップS1008において、
図8に例示した画像選択画面で画像を選択した後、ステップS1009に進む。ステップS1009では、画像選択画面で「画像を編集」が選択されたか否かによって処理を分岐する。画像を編集しない場合(NO)、ステップS1012に進み、選択した画像をOCR処理の対象画像として出力する。その後、ステップS1013において処理を終了する。
【0052】
一方、ステップS1009において画像を編集する場合には(YES)、ステップS1010に進む。ステップS1010では、選択した画像を編集する。ここで、ステップS1010において表示される画面の例を、
図9を以て説明する。
【0053】
図9は、本実施形態における編集画面の例を示す図であり、
図9(a)は編集前の画面を、
図9(b)は編集後の画面をそれぞれ示している。
図9の例では、
図5(a)、(b)の手書き削除画像を編集する場合について説明する。この場合、
図5において説明した通り、手書き削除画像から活字を復元すると、元の活字が「3」、「6」であったものが、それぞれ、「8」、「5」として復元される虞がある。
【0054】
そこでユーザは、
図9(b)に示すように、ペン機能を用いて線描を追加することで、元の活字と同じ「6」となるような修正を行うことができる。また、ユーザは、消しゴム機能を用いて不要な手書きを削除することで、元の活字と同じ「3」となるような修正を行うことができる。
【0055】
再び説明を
図7に戻す。ステップS1010で、
図9に示した編集画面において画像を編集した後、ステップS1011に進む。ステップS1011では、編集した画像を画像記憶部380に記憶する。
【0056】
続くステップS1012では、選択され、編集された画像を、OCR処理の対象画像として出力する。その後、ステップS1013で処理を終了する。
【0057】
図7に示した処理によって、OCRに適した画像を出力でき、その後のOCRにおいて精度の高い文字認識を行うことができる。
【0058】
以上、説明した本発明の実施形態によれば、OCRを行うのに適当な画像を出力する情報処理装置、システム、方法およびプログラムを提供することができる。
【0059】
上述した本発明の実施形態の各機能は、C、C++、C#、Java(登録商標)等で記述された装置実行可能なプログラムにより実現でき、本実施形態のプログラムは、ハードディスク装置、CD-ROM、MO、DVD、フレキシブルディスク、EEPROM(登録商標)、EPROM等の装置可読な記録媒体に格納して頒布することができ、また他装置が可能な形式でネットワークを介して伝送することができる。
【0060】
以上、本発明について実施形態をもって説明してきたが、本発明は上述した実施形態に限定されるものではなく、当業者が推考しうる実施態様の範囲内において、本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
【符号の説明】
【0061】
100…システム、110…MFP、120…パソコン端末、210…CPU、220…RAM、230…ROM、240…記憶装置、250…プリンタ装置、260…スキャナ装置、270…通信I/F、280…ディスプレイ、290…入力装置、310…画像取得部、320…手書き抽出部、330…重要情報検出部、340…画像生成部、350…画像編集部、360…表示部、370…操作部、380…画像記憶部
【先行技術文献】
【特許文献】
【0062】