(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-29
(45)【発行日】2024-08-06
(54)【発明の名称】画像処理装置、方法およびプログラム
(51)【国際特許分類】
G06V 30/14 20220101AFI20240730BHJP
G06F 40/103 20200101ALI20240730BHJP
【FI】
G06V30/14 340Z
G06F40/103
(21)【出願番号】P 2020096954
(22)【出願日】2020-06-03
【審査請求日】2023-04-12
(73)【特許権者】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】110000420
【氏名又は名称】弁理士法人MIP
(74)【代理人】
【識別番号】100110607
【氏名又は名称】間山 進也
(72)【発明者】
【氏名】伊藤 真也
【審査官】▲広▼島 明芳
(56)【参考文献】
【文献】特開2000-293521(JP,A)
【文献】特開2013-254321(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/00 - 30/424
G06F 40/103
(57)【特許請求の範囲】
【請求項1】
画像から抽出された複数の文字列の位置関係に基づいて、前記複数の文字列の各々の配置方法を設定する設定手段と、
前記設定手段が設定した前記配置方法に基づいて、前記画像の文字列のテキストファイルを生成する生成手段と
を含
み、
前記設定手段は、文字列をテキストボックスとして配置するか、本文中に配置するかを設定するとともに、段組関係になく、かつ重層関係にない文字列を、本文中に配置する設定をする、画像処理装置。
【請求項2】
前記設定手段は、段組関係にある文字列または重層関係にある文字列を、テキストボックスに配置する設定をする、
請求項
1に記載の画像処理装置。
【請求項3】
OCR処理または像域分離処理によって、前記画像に含まれる文字列を抽出することを特徴とする、
請求項1
または2に記載の画像処理装置。
【請求項4】
原稿の画像を読み取る読取手段をさらに含み、
前記複数の文字列は、前記読取手段が読み取った画像から抽出されることを特徴とする、
請求項1~
3のいずれか1項に記載の画像処理装置。
【請求項5】
文字列を含む画像をテキストファイルに変換する
情報処理装置が実行する方法であって、
前記画像から抽出された複数の文字列の位置関係に基づいて、前記複数の文字列の各々の配置方法を設定するステップと、
前記設定するステップにおいて設定された前記配置方法に基づいて、前記画像の文字列のテキストファイルを生成するステップと
を含
み、
前記設定するステップは、文字列をテキストボックスとして配置するか、本文中に配置するかを設定するとともに、段組関係になく、かつ重層関係にない文字列を、本文中に配置する設定をする、方法。
【請求項6】
情報処理装置が実行するプログラムであって、前記情報処理装置を、
画像から抽出された複数の文字列の位置関係に基づいて、前記複数の文字列の各々の配置方法を設定する設定手段、
前記設定手段が設定した前記配置方法に基づいて、前記画像の文字列のテキストファイルを生成する生成手段
として機能させ
、
前記設定手段は、文字列をテキストボックスとして配置するか、本文中に配置するかを設定するとともに、段組関係になく、かつ重層関係にない文字列を、本文中に配置する設定をする、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像に含まれる文字列のテキストファイルを生成する画像処理装置、方法およびプログラムに関する。
【背景技術】
【0002】
文書が印刷された用紙をスキャンし、OCRなどの文字認識によって当該文書の内容をOffice Open XML Document形式のファイルに変換する処理が知られている。かかる処理によって、紙ベースの文書をテキストデータのファイルに変換できるため、パソコンなどによって文書の再編集を行うことができる。
【0003】
上述した処理において、文書内の文字列を認識する精度を向上する技術が開発されている。例えば特許第5538812号公報(特許文献1)には、スキャンした原稿の文字のフォントやサイズに基づいて文字認識結果を補正する技術が開示されている。
【0004】
ところで
図9に示すように、特許文献1を始めとする従来技術では、文書内の文字列の構成によっては適切にテキストファイルを生成できない場合がある。
図9は、従来技術において画像に含まれる文字列のテキストファイルを生成する例を示す図である。
図9(a)は、テキストファイルに変換する対象となる用紙の例を示している。
図9(a)では、一例として2つの段組から構成される文書が印刷された用紙を示している。
【0005】
ここで、
図9(a)に示す用紙をスキャンし、テキストファイルを生成すると、
図9(b)に示すようなテキストファイルが生成される場合がある。
図9(b)は、適切に文書を変換できなかったテキストファイルをワードプロセッサで展開した画面の例を示している。2段組構成の文書が適切に変換されない場合には、
図9(b)に示すように、それぞれの段組がつながってしまったような文書が出力されることがある。例えば、
図9のように、「新年あけまして」の後には「おめでとうございます」と続くべきところ、隣接する段組の「暑中お見舞い」という文字列が同一行の文字列として認識され、不適切な文書が出力され得る。このような再現性の低いテキストファイルが出力されると再編集に手間がかかるため、ユーザビリティを低下させることとなっていた。
【0006】
そのため、文書の構成を加味してテキストファイルを生成する技術が求められていた。
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明は、上記従来技術における課題に鑑みてなされたものであり、画像に含まれる文字列の再現性を向上してテキストファイルを生成する画像処理装置、方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
すなわち、本発明によれば、
画像から抽出された複数の文字列の位置関係に基づいて、前記複数の文字列の各々の配置方法を設定する設定手段と、
前記設定手段が設定した前記配置方法に基づいて、前記画像の文字列のテキストファイルを生成する生成手段と
を含む、画像処理装置が提供される。
【発明の効果】
【0009】
本発明によれば、画像に含まれる文字列の再現性を向上してテキストファイルを生成する画像処理装置、方法およびプログラムが提供できる。
【図面の簡単な説明】
【0010】
【
図1】本実施形態におけるシステム全体のハードウェアの概略構成を示す図。
【
図2】本実施形態のMFPに含まれるハードウェア構成を示す図。
【
図3】本実施形態のMFPに含まれるソフトウェアブロック図。
【
図5】本実施形態のMFPによるテキストファイル変換処理を示すフローチャート。
【
図6】本実施形態のテキストファイル変換処理によって段組関係にある文字列を含むテキストファイルを生成する例を説明する図。
【
図7】本実施形態のテキストファイル変換処理によって重層関係にある文字列を含むテキストファイルを生成する例を説明する図。
【
図8】本実施形態のテキストファイル変換処理によって段組関係になく、かつ、重層関係にない文字列を含むテキストファイルを生成する例を説明する図。
【
図9】従来技術において画像に含まれる文章のテキストファイルを生成する例を示す図。
【発明を実施するための形態】
【0011】
以下、本発明を、実施形態をもって説明するが、本発明は後述する実施形態に限定されるものではない。なお、以下に参照する各図においては、共通する要素について同じ符号を用い、適宜その説明を省略するものとする。
【0012】
図1は、本実施形態におけるシステム100全体のハードウェアの概略構成を示す図である。
図1では、例として、MFP(Multi-Function Peripheral)110と、パソコン端末120とが、インターネットやLANなどのネットワーク130を介して接続された環境を例示している。なお、MFP110やパソコン端末120から、ネットワーク130へ接続する方法は、有線または無線のどちらでもよい。
【0013】
MFP110は、本実施形態における画像処理装置であり、印刷ジョブに基づくプリント処理や、用紙を読み取ることによるスキャン処理などを行う。
【0014】
パソコン端末120は、本実施形態における情報処理装置であり、MFP110に印刷ジョブを送信するほか、MFP110がスキャンした画像やMFP110が出力したテキストファイルについて表示や編集などの処理を行うことができる。なお、他の実施形態ではパソコン端末120が画像処理装置として構成されてもよく、例えばMFP110がスキャンした画像をパソコン端末120が処理し、画像内の文字列をテキストファイルに変換することとしてもよい。
【0015】
次に、MFP110のハードウェア構成について説明する。
図2は、本実施形態のMFP110に含まれるハードウェア構成を示す図である。MFP110は、CPU210と、RAM220と、ROM230と、記憶装置240と、プリンタ装置250と、スキャナ装置260と、通信I/F270と、ディスプレイ280と、入力装置290とを含んで構成され、各ハードウェアはバスを介して接続されている。
【0016】
CPU210は、MFP110の動作を制御するプログラムを実行し、所定の処理を行う装置である。RAM220は、CPU210が実行するプログラムの実行空間を提供するための揮発性の記憶装置であり、プログラムやデータの格納用、展開用として使用される。ROM230は、CPU210が実行するプログラムやファームウェアなどを記憶するための不揮発性の記憶装置である。
【0017】
記憶装置240は、MFP110を機能させるOSや種々のソフトウェア、設定情報、各種データなどを記憶する、読み書き可能な不揮発性の記憶装置である。記憶装置240の一例としては、HDD(Hard Disk Drive)やSSD(Solid State Drive)などが挙げられる。
【0018】
プリンタ装置250は、レーザ方式やインクジェット方式などによって、用紙に画像を形成する構成の装置である。スキャナ装置260は、印刷物の画像を読み取り、データ化する構成の装置である。また、例えばMFP110は、スキャナ装置260とプリンタ装置250の協働により、印刷物のコピーを行うことができる。
【0019】
通信I/F270は、MFP110とネットワーク130とを接続し、ネットワーク130を介して他の装置との通信を可能にする。ネットワーク130を介した通信は、有線通信または無線通信のいずれであってもよく、TCP/IPなどの所定の通信プロトコルを使用し、各種データを送受信できる。
【0020】
ディスプレイ280は、各種データやMFP110の状態などを、ユーザに対して表示する装置であり、例として、LCD(Liquid Crystal Display)などが挙げられる。入力装置290は、ユーザがMFP110を操作するための装置であり、例として、キーボード、マウスなどが挙げられる。なお、ディスプレイ280と入力装置290は、それぞれ別個の装置であってもよいし、タッチパネルディスプレイのような両方の機能を備えるものであってもよい。
【0021】
以上、本実施形態のMFP110に含まれるハードウェア構成について説明した。次に、本実施形態における各ハードウェアによって実行される機能手段について、
図3を以て説明する。
【0022】
図3は、本実施形態のMFP110に含まれるソフトウェアブロック図である。本実施形態のFMP110は、画像読取部310、画像処理部320、印刷部330、ファイル変換部340、記憶部350の各モジュールを含む。
【0023】
画像読取部310は、スキャナ装置260を制御し、原稿を読み込んで画像データを出力する手段である。画像読取部310が読み取った原稿の画像データは、画像処理部320に出力される。
【0024】
画像処理部320は、画像データに対して種々の補正処理を行う手段であり、ガンマ補正部321、領域検出部322、データI/F部323、色処理/UCR部324、プリンタ補正部325を含んで構成される。画像処理部320が処理する画像データは、画像読取部310が出力したものでもよいし、記憶部350に記憶されているものでもよいし、パソコン端末120などから取得したものでもよい。
【0025】
ガンマ補正部321は、画像データ(A/D変換後のR,G,B各色8ビット)を、色ごとの諧調バランスを揃えるために各信号に一次元変換を施す手段である。ここでは説明のため、ガンマ補正部321による補正後の濃度リニア信号(RGB信号)は、領域検出部322と、データI/F部323へ出力される。
【0026】
領域検出部322は、画像データの注目画素または画素ブロックが文字領域であるか、非文字領域(すなわち絵柄)であるかを判定し、さらに有彩色であるか無彩色であるかを判定することで、当該画素の領域を検出する手段である。領域検出部322が検出した結果は、色処理/UCR部324に出力される。
【0027】
データI/F部323は、領域検出部322による検出結果およびガンマ補正部321が補正した画像データを記憶装置240へ一時保存する際のHDD管理インタフェースである。
【0028】
色処理/UCR部324は、画素領域または画素ブロックごとの判定結果に基づいて、処理対象の画像データに対して色処理やUCR(under color removal)処理を行う手段である。
【0029】
プリンタ補正部325は、色処理/UCR部324からのC,M,Y,Bkの画像信号を受け、プリンタ特性を考慮したガンマ補正処理とディザ処理を行う手段である。
【0030】
印刷部330は、画像処理部320によって処理された画像データに基づいてプリンタ装置250の動作を制御し、印刷ジョブを実行する手段である。
【0031】
ファイル変換部340は、画像データに含まれる文字列をテキストファイルに変換する手段である。変換元となる画像データは、画像読取部310が出力したものでもよいし、記憶部350に記憶されているものでもよいし、パソコン端末120などから取得したものでもよい。一例として、本実施形態のファイル変換部340は、Microsoft(登録商標) Wordなどのワープロソフトで採用されているOffice Open XML Document形式に変換する。但し、テキストファイルのフォーマットは上述されたものに限定されず、種々のフォーマットのテキストファイルとすることができる。以下では、本実施形態における変換処理を「テキストファイル変換」として参照する。
【0032】
ここで、ファイル変換部340の詳細について、
図4を以て説明する。
図4は、本実施形態のファイル変換部340を説明する図である。ファイル変換部340は、画像データをテキストファイル変換する手段であり、文字列抽出部341、文字列処理部342、ファイル生成部343から構成される。
【0033】
文字列抽出部341は、画像データに対してOCR(Optical Character Recognition)処理を行い、画像内の文字列を抽出する手段である。文字列抽出部341は、テキストファイル変換元となる画像データとともに、抽出した文字列のデータを文字列処理部342に出力する。なお、画像内の文字列を抽出する方法はOCRに限られず、これ以外の方法であってもよい。例えば他の実施形態では、像域分離などといった既知の類似する文字認識技術によって、画像内の文字列を抽出してもよい。
【0034】
文字列処理部342は、文字列抽出部341によって抽出された画像内の文字列について、テキストファイルにおける配置方法を選択する処理を行う手段である。ここで、テキストファイルにおける文字列の配置方法は、文字列をテキストボックスに配置する方法や、文字列をテキストファイルの本文に配置する方法などが挙げられる。以下に説明する実施形態では、テキストファイルの本文中に配置される文字列を「標準テキスト」として参照する。なお、画像データから複数の文字列が抽出された場合には、テキストボックスに配置される文字列と、標準テキストとして配置される文字列とが混在するテキストファイルが生成されてもよい。
【0035】
文字列処理部342は、
図4に示すように、行矩形領域抽出部342a、領域関係判定部342b、配置方法設定部342cから構成される。
【0036】
行矩形領域抽出部342aは、1行の文字列を囲う矩形領域(以下、「行矩形領域」として参照する)を抽出する手段である。画像から複数の文字列が抽出された場合には、行矩形領域抽出部342aは、それぞれの文字列に対して、行矩形領域を抽出する。
【0037】
領域関係判定部342bは、抽出された行矩形領域のそれぞれの位置関係を判定する手段である。領域関係判定部342bは、1の行矩形領域と、当該行矩形領域に近接する他の行矩形領域との位置関係に基づいて、文字列のレイアウトを判定する。例えば領域関係判定部342bは、1の行矩形領域が他の行矩形領域と段組関係にあるか、重層関係にあるか、または段組関係および重層関係のいずれでもないかを判定する。領域関係判定部342bは、各行矩形領域について、判定結果とともに配置方法設定部342cに出力する。
【0038】
配置方法設定部342cは、領域関係判定部342bの判定結果に基づいて、各判定結果に係る文字列の配置方法を設定する。配置方法設定部342cは、例えば、他の行矩形領域と段組関係にあるか、または重層関係にある文字列の配置方法を、テキストボックスに配置すると設定する。また、配置方法設定部342cは、他の行矩形領域との関係が段組関係および重層関係のいずれでもない文字列の配置方法を、標準テキストとして配置すると設定する。
【0039】
ファイル生成部343は、文字列処理部342によって各文字列の配置方法が設定された後、画像データ内の各文字列を各々の設定された配置方法で配置したOffice Open XML Document形式のテキストファイルを生成する手段である。ファイル生成部343が生成したテキストファイルは、記憶部350に記憶されたり、パソコン端末120に送信されたりして、テキストの再編集の用に供される。
【0040】
なお、上述したソフトウェアブロックは、CPU210が本実施形態のプログラムを実行することで、各ハードウェアを機能させることにより、実現される機能手段に相当する。また、各実施形態に示した機能手段は、全部がソフトウェア的に実現されても良いし、その一部または全部を同等の機能を提供するハードウェアとして実装することもできる。
【0041】
さらに、上述した各機能手段は、必ずしも全てが
図3および
図4に示すような構成でMFP110に含まれていなくてもよい。例えば、他の好ましい実施形態において、パソコン端末120が画像処理装置として構成さる場合には、パソコン端末120がファイル変換部340を備えてもよい。
【0042】
ここまで、本実施形態のMFP110のソフトウェアブロック構成について説明した。次に、MFP110が実行する処理について説明する。
図5は、本実施形態のMFP110によるテキストファイル変換処理を示すフローチャートである。
【0043】
MFP110は、ステップS1000からテキストファイル変換処理を開始し、ステップS1001においてテキストファイル変換の対象となる画像データを取得する。なお、テキストファイル変換処理を行う画像データは、画像読取部310が出力したものでもよいし、記憶部350に記憶されているものでもよいし、パソコン端末120などの他の装置から取得したものでもよい。
【0044】
次にステップS1002において、文字列抽出部341は、取得した画像データに含まれる文字列をOCR処理などによって抽出する。ここでは、画像内に複数の文字列が含まれているものとする。ステップS1002の後、文字列処理部342は、抽出された文字列のそれぞれに対して以下の処理を行う。
【0045】
ステップS1003では、行矩形領域抽出部342aは、ステップS1002で抽出された各文字列に対して、行矩形領域を抽出する。続くステップS1004では、領域関係判定部342bは、1の行矩形領域と、他の行矩形領域との関係を判定する。ステップS1005では、ステップS1004で判定した結果、他の行矩形領域と段組関係にあるか否かによって処理を分岐する。段組関係にある場合には(YES)、ステップS1007に進み、段組関係にない場合には(NO)、ステップS1006に進む。
【0046】
ステップS1006では、ステップS1004で判定した結果、他の行矩形領域と重層関係にあるか否かによって処理を分岐する。重層関係にある場合には(YES)、ステップS1007に進み、重層関係にない場合には(NO)、ステップS1008に進む。
【0047】
1の行矩形領域が他の行矩形領域と段組関係にあるか、または重層関係にある場合には、配置方法設定部342cはステップS1007において、当該1の行矩形領域に係る文字列の配置方法について、テキストボックスに配置する設定をする。一方で、1の行矩形領域と他の行矩形領域とが段組関係および重層関係のいずれでもない場合には、配置方法設定部342cはステップS1008において、当該1の行矩形領域に係る文字列の配置方法について、標準テキストとして配置する設定をする。
【0048】
ステップS1007またはステップS1008において、1の行矩形領域に係る文字列についてのテキストファイルでの配置方法を設定した後、ステップS1009では、全ての行矩形領域について配置方法を設定したか否かによって処理を分岐する。全ての行矩形領域について配置方法を設定していない場合(NO)、すなわち未設定の行矩形領域がある場合には、ステップS1004に戻り、別の行矩形領域に対して、上述した判定処理および配置方法の設定処理を繰り返す。全ての行矩形領域について配置方法を設定した場合には(YES)、ステップS1010に進む。
【0049】
ステップS1010では、ファイル生成部343は、それぞれに設定された配置方法によって各文字列を配置したテキストファイルを生成する。生成されたテキストファイルは、記憶部350に記憶されてもよいし、パソコン端末120に送信されてもよい。ステップS1010の後、ステップS1011においてMFP110は、本実施形態のテキストファイル変換処理を終了する。
【0050】
図5に示した処理によって、画像に含まれる文章のレイアウトを考量したテキストファイル変換を行うことができ、ユーザビリティを向上したテキストファイルを生成することができる。
【0051】
次に、本実施形態のテキストファイル変換のより具体的な例を
図6~
図8を参照して説明する。なお、
図6~
図8において示される引き出し線およびそれに付随する符号は、説明の便宜のためのものであり、本実施形態におけるテキストファイル変換処理とは無関係である点に留意されたい。
【0052】
まず
図6について説明する。
図6は、本実施形態のテキストファイル変換処理によって段組関係にある文字列を含むテキストファイルを生成する例を説明する図である。
【0053】
図6(a)は、テキストファイル変換の対象となる画像データから、OCR処理などによって文字列を抽出した例を示している。
図6(a)に示す例では、画像から「abcdefgh」(文字列t1)、「ijklmnop」(文字列t2)、「qrstuvwx」(文字列t3)、「yz123456」(文字列t4)という文字列が抽出されている。
【0054】
図6(b)は、
図6(a)の各文字列に対して行矩形領域を抽出した例を示している。
図6(b)に示す例では、文字列t1を囲う矩形が行矩形領域r1として抽出され、文字列t2を囲う矩形が行矩形領域r2として抽出され、文字列t3を囲う矩形が行矩形領域r3として抽出され、文字列t4を囲う矩形が行矩形領域r4として抽出されている。
【0055】
図6(c)は、抽出された各行矩形領域に対して、他の行矩形領域との関係を判定した例を示している。
図6(c)に示す例では、行矩形領域r1と行矩形領域r2とが近接していると判定されることから、両者が統合されて新たな行矩形領域R1とされている。また、行矩形領域r3と行矩形領域r4とが近接していると判定されることから、両者が統合されて新たな行矩形領域R2とされている。一方で、行矩形領域R1と行矩形領域R2とは、近接した位置関係にないことから、段組関係にある文字列であると判定される。したがって、配置方法設定部342cは、行矩形領域R1および行矩形領域R2の配置方法として、テキストボックスに配置する設定をする。
【0056】
図6(d)は、各文字列が設定された配置方法に基づいて配置されたテキストファイルの表示画面の例を示している。行矩形領域R1および行矩形領域R2はテキストボックスに配置する設定であることから、
図6(d)の例では、文字列t1および文字列t2が配置されたテキストボックスと、文字列t3および文字列t4が配置されたテキストボックスとを含むテキストファイルが生成される。
【0057】
次に
図7について説明する。
図7は、本実施形態のテキストファイル変換処理によって重層関係にある文字列を含むテキストファイルを生成する例を説明する図である。
【0058】
図7(a)は、テキストファイル変換の対象となる画像データから、OCR処理などによって文字列を抽出した例を示している。
図7(a)に示す例では、画像から「abcdefghi」(文字列t1)、「jklmn」(文字列t2)、「opqrstu」(文字列t3)という文字列が抽出されている。
【0059】
図7(b)は、
図7(a)の各文字列に対して行矩形領域を抽出した例を示している。
図7(b)に示す例では、文字列t1を囲う矩形が行矩形領域r1として抽出され、文字列t2を囲う矩形が行矩形領域r2として抽出され、文字列t3を囲う矩形が行矩形領域r3として抽出されている。
【0060】
図7(c)は、抽出された各行矩形領域に対して、他の行矩形領域との関係を判定した例を示している。
図7(c)に示す例では、行矩形領域r1と行矩形領域r2とが近接していると判定されることから、両者が統合されて新たな行矩形領域R1とされている。また、行矩形領域r3は、行矩形領域R1の一部と重複している。すなわち、行矩形領域R1と行矩形領域r3とは、重層関係にある文字列であると判定される。したがって、配置方法設定部342cは、行矩形領域R1および行矩形領域r3の配置方法として、テキストボックスに配置する設定をする。
【0061】
図7(d)は、各文字列が設定された配置方法に基づいて配置されたテキストファイルの表示画面の例を示している。行矩形領域R1および行矩形領域r3はテキストボックスに配置する設定であることから、
図7(d)の例では、文字列t1および文字列t2が配置されたテキストボックスと、文字列t3が配置されたテキストボックスとを含むテキストファイルが生成される。
【0062】
次に
図8について説明する。
図8は、本実施形態のテキストファイル変換処理によって段組関係になく、かつ、重層関係にない文字列を含むテキストファイルを生成する例を説明する図である。
【0063】
図8(a)は、テキストファイル変換の対象となる画像データから、OCR処理などによって文字列を抽出した例を示している。
図8(a)に示す例では、画像から「abcdefghi」(文字列t1)、「jklmn」(文字列t2)という文字列が抽出されている。
【0064】
図8(b)は、
図8(a)の各文字列に対して行矩形領域を抽出した例を示している。
図8(b)に示す例では、文字列t1を囲う矩形が行矩形領域r1として抽出され、文字列t2を囲う矩形が行矩形領域r2として抽出されている。
【0065】
図8(c)は、抽出された各行矩形領域に対して、他の行矩形領域との関係を判定した例を示している。
図8(c)に示す例では、行矩形領域r1と行矩形領域r2とが近接していると判定されることから、両者が統合されて新たな行矩形領域R1とされている。また、行矩形領域R1は、ほかに近接する行矩形領域がないことから、段組関係でなく、かつ、重層関係でない文字列であると判定される。したがって、配置方法設定部342cは、行矩形領域R1の配置方法として、テキストファイルの標準テキストとして配置する設定をする。
【0066】
図8(d)は、各文字列が設定された配置方法に基づいて配置されたテキストファイルの表示画面の例を示している。行矩形領域R1は標準テキストとして配置する設定であることから、
図8(d)の例では、文字列t1および文字列t2が本文中に配置されたテキストファイルが生成される。
【0067】
ここまで、本実施形態によるテキストファイル変換の具体例について説明した。なお、各行矩形領域に係る領域関係の判定処理は、近接する度合いなどを基準に行うことができる。しかしながら、特に実施形態を限定するものではなく、これ以外のパラメータを基準に判定処理が行われてもよい。また、判定処理における判定の基準は、機械学習の学習効果によって生成されたものでもよい。
【0068】
ここで機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり、コンピュータが、データ識別等の判断に必要なアルゴリズムを、事前に取り込まれる学習データから自律的に生成し、新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習、深層学習のいずれかの方法でもよく、さらに、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。
【0069】
以上、説明した本発明の実施形態によれば、画像に含まれる文字列の再現性を向上してテキストファイルを生成する画像処理装置、方法およびプログラムを提供することができる。
【0070】
上述した本発明の実施形態の各機能は、C、C++、C#、Java(登録商標)等で記述された装置実行可能なプログラムにより実現でき、本実施形態のプログラムは、ハードディスク装置、CD-ROM、MO、DVD、フレキシブルディスク、EEPROM(登録商標)、EPROM等の装置可読な記録媒体に格納して頒布することができ、また他装置が可能な形式でネットワークを介して伝送することができる。
【0071】
また上記で説明した実施形態の各機能は、1または複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュールなどのデバイスを含むものとする。
【0072】
以上、本発明について実施形態をもって説明してきたが、本発明は上述した実施形態に限定されるものではなく、当業者が推考しうる実施態様の範囲内において、本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
【符号の説明】
【0073】
100…システム、110…MFP、120…パソコン端末、130…ネットワーク、210…CPU、220…RAM、230…ROM、240…記憶装置、250…プリンタ装置、260…スキャナ装置、270…通信I/F、280…ディスプレイ、290…入力装置、310…画像読取部、320…画像処理部、321…ガンマ補正部、322…領域検出部、323…データI/F部、324…色処理/UCR部、325…プリンタ補正部、330…印刷部、340…ファイル変換部、341…文字列抽出部、342…文字列処理部、342a…行矩形領域抽出部、342b…領域関係判定部、342c…配置方法設定部、343…ファイル生成部、350…記憶部
【先行技術文献】
【特許文献】
【0074】