特許7528542 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リコーの特許一覧

特許7528542画像処理装置、方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-07-29

(45)【発行日】2024-08-06

(54)【発明の名称】画像処理装置、方法およびプログラム

(51)【国際特許分類】

G06V 30/14 20220101AFI20240730BHJP

G06F 40/103 20200101ALI20240730BHJP

【ＦＩ】

G06V30/14 340Z

G06F40/103

【請求項の数】 6

(21)【出願番号】P 2020096954

(22)【出願日】2020-06-03

(65)【公開番号】P2021189952

(43)【公開日】2021-12-13

【審査請求日】2023-04-12

(73)【特許権者】

【識別番号】000006747

【氏名又は名称】株式会社リコー

(74)【代理人】

【識別番号】110000420

【氏名又は名称】弁理士法人ＭＩＰ

(74)【代理人】

【識別番号】100110607

【弁理士】

【氏名又は名称】間山進也

(72)【発明者】

【氏名】伊藤真也

【審査官】▲広▼島明芳

(56)【参考文献】

【文献】特開２０００－２９３５２１（ＪＰ，Ａ）

【文献】特開２０１３－２５４３２１（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｖ３０／００－３０／４２４

Ｇ０６Ｆ４０／１０３

(57)【特許請求の範囲】

【請求項1】

画像から抽出された複数の文字列の位置関係に基づいて、前記複数の文字列の各々の配置方法を設定する設定手段と、
前記設定手段が設定した前記配置方法に基づいて、前記画像の文字列のテキストファイルを生成する生成手段と
を含み、
前記設定手段は、文字列をテキストボックスとして配置するか、本文中に配置するかを設定するとともに、段組関係になく、かつ重層関係にない文字列を、本文中に配置する設定をする、画像処理装置。

【請求項2】

前記設定手段は、段組関係にある文字列または重層関係にある文字列を、テキストボックスに配置する設定をする、
請求項１に記載の画像処理装置。

【請求項3】

ＯＣＲ処理または像域分離処理によって、前記画像に含まれる文字列を抽出することを特徴とする、
請求項１または２に記載の画像処理装置。

【請求項4】

原稿の画像を読み取る読取手段をさらに含み、
前記複数の文字列は、前記読取手段が読み取った画像から抽出されることを特徴とする、
請求項１～３のいずれか１項に記載の画像処理装置。

【請求項5】

文字列を含む画像をテキストファイルに変換する情報処理装置が実行する方法であって、
前記画像から抽出された複数の文字列の位置関係に基づいて、前記複数の文字列の各々の配置方法を設定するステップと、
前記設定するステップにおいて設定された前記配置方法に基づいて、前記画像の文字列のテキストファイルを生成するステップと
を含み、
前記設定するステップは、文字列をテキストボックスとして配置するか、本文中に配置するかを設定するとともに、段組関係になく、かつ重層関係にない文字列を、本文中に配置する設定をする、方法。

【請求項6】

情報処理装置が実行するプログラムであって、前記情報処理装置を、
画像から抽出された複数の文字列の位置関係に基づいて、前記複数の文字列の各々の配置方法を設定する設定手段、
前記設定手段が設定した前記配置方法に基づいて、前記画像の文字列のテキストファイルを生成する生成手段
として機能させ、
前記設定手段は、文字列をテキストボックスとして配置するか、本文中に配置するかを設定するとともに、段組関係になく、かつ重層関係にない文字列を、本文中に配置する設定をする、プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像に含まれる文字列のテキストファイルを生成する画像処理装置、方法およびプログラムに関する。

【背景技術】

【0002】

文書が印刷された用紙をスキャンし、ＯＣＲなどの文字認識によって当該文書の内容をＯｆｆｉｃｅＯｐｅｎＸＭＬＤｏｃｕｍｅｎｔ形式のファイルに変換する処理が知られている。かかる処理によって、紙ベースの文書をテキストデータのファイルに変換できるため、パソコンなどによって文書の再編集を行うことができる。

【0003】

上述した処理において、文書内の文字列を認識する精度を向上する技術が開発されている。例えば特許第５５３８８１２号公報（特許文献１）には、スキャンした原稿の文字のフォントやサイズに基づいて文字認識結果を補正する技術が開示されている。

【0004】

ところで図９に示すように、特許文献１を始めとする従来技術では、文書内の文字列の構成によっては適切にテキストファイルを生成できない場合がある。図９は、従来技術において画像に含まれる文字列のテキストファイルを生成する例を示す図である。図９（ａ）は、テキストファイルに変換する対象となる用紙の例を示している。図９（ａ）では、一例として２つの段組から構成される文書が印刷された用紙を示している。

【0005】

ここで、図９（ａ）に示す用紙をスキャンし、テキストファイルを生成すると、図９（ｂ）に示すようなテキストファイルが生成される場合がある。図９（ｂ）は、適切に文書を変換できなかったテキストファイルをワードプロセッサで展開した画面の例を示している。２段組構成の文書が適切に変換されない場合には、図９（ｂ）に示すように、それぞれの段組がつながってしまったような文書が出力されることがある。例えば、図９のように、「新年あけまして」の後には「おめでとうございます」と続くべきところ、隣接する段組の「暑中お見舞い」という文字列が同一行の文字列として認識され、不適切な文書が出力され得る。このような再現性の低いテキストファイルが出力されると再編集に手間がかかるため、ユーザビリティを低下させることとなっていた。

【0006】

そのため、文書の構成を加味してテキストファイルを生成する技術が求められていた。

【発明の概要】

【発明が解決しようとする課題】

【0007】

本発明は、上記従来技術における課題に鑑みてなされたものであり、画像に含まれる文字列の再現性を向上してテキストファイルを生成する画像処理装置、方法およびプログラムを提供することを目的とする。

【課題を解決するための手段】

【0008】

すなわち、本発明によれば、
画像から抽出された複数の文字列の位置関係に基づいて、前記複数の文字列の各々の配置方法を設定する設定手段と、
前記設定手段が設定した前記配置方法に基づいて、前記画像の文字列のテキストファイルを生成する生成手段と
を含む、画像処理装置が提供される。

【発明の効果】

【0009】

本発明によれば、画像に含まれる文字列の再現性を向上してテキストファイルを生成する画像処理装置、方法およびプログラムが提供できる。

【図面の簡単な説明】

【0010】

【図1】本実施形態におけるシステム全体のハードウェアの概略構成を示す図。

【図2】本実施形態のＭＦＰに含まれるハードウェア構成を示す図。

【図3】本実施形態のＭＦＰに含まれるソフトウェアブロック図。

【図4】本実施形態のファイル変換部を説明する図。

【図5】本実施形態のＭＦＰによるテキストファイル変換処理を示すフローチャート。

【図6】本実施形態のテキストファイル変換処理によって段組関係にある文字列を含むテキストファイルを生成する例を説明する図。

【図7】本実施形態のテキストファイル変換処理によって重層関係にある文字列を含むテキストファイルを生成する例を説明する図。

【図8】本実施形態のテキストファイル変換処理によって段組関係になく、かつ、重層関係にない文字列を含むテキストファイルを生成する例を説明する図。

【図9】従来技術において画像に含まれる文章のテキストファイルを生成する例を示す図。

【発明を実施するための形態】

【0011】

以下、本発明を、実施形態をもって説明するが、本発明は後述する実施形態に限定されるものではない。なお、以下に参照する各図においては、共通する要素について同じ符号を用い、適宜その説明を省略するものとする。

【0012】

図１は、本実施形態におけるシステム１００全体のハードウェアの概略構成を示す図である。図１では、例として、ＭＦＰ（Multi-Function Peripheral）１１０と、パソコン端末１２０とが、インターネットやＬＡＮなどのネットワーク１３０を介して接続された環境を例示している。なお、ＭＦＰ１１０やパソコン端末１２０から、ネットワーク１３０へ接続する方法は、有線または無線のどちらでもよい。

【0013】

ＭＦＰ１１０は、本実施形態における画像処理装置であり、印刷ジョブに基づくプリント処理や、用紙を読み取ることによるスキャン処理などを行う。

【0014】

パソコン端末１２０は、本実施形態における情報処理装置であり、ＭＦＰ１１０に印刷ジョブを送信するほか、ＭＦＰ１１０がスキャンした画像やＭＦＰ１１０が出力したテキストファイルについて表示や編集などの処理を行うことができる。なお、他の実施形態ではパソコン端末１２０が画像処理装置として構成されてもよく、例えばＭＦＰ１１０がスキャンした画像をパソコン端末１２０が処理し、画像内の文字列をテキストファイルに変換することとしてもよい。

【0015】

次に、ＭＦＰ１１０のハードウェア構成について説明する。図２は、本実施形態のＭＦＰ１１０に含まれるハードウェア構成を示す図である。ＭＦＰ１１０は、ＣＰＵ２１０と、ＲＡＭ２２０と、ＲＯＭ２３０と、記憶装置２４０と、プリンタ装置２５０と、スキャナ装置２６０と、通信Ｉ／Ｆ２７０と、ディスプレイ２８０と、入力装置２９０とを含んで構成され、各ハードウェアはバスを介して接続されている。

【0016】

ＣＰＵ２１０は、ＭＦＰ１１０の動作を制御するプログラムを実行し、所定の処理を行う装置である。ＲＡＭ２２０は、ＣＰＵ２１０が実行するプログラムの実行空間を提供するための揮発性の記憶装置であり、プログラムやデータの格納用、展開用として使用される。ＲＯＭ２３０は、ＣＰＵ２１０が実行するプログラムやファームウェアなどを記憶するための不揮発性の記憶装置である。

【0017】

記憶装置２４０は、ＭＦＰ１１０を機能させるＯＳや種々のソフトウェア、設定情報、各種データなどを記憶する、読み書き可能な不揮発性の記憶装置である。記憶装置２４０の一例としては、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）などが挙げられる。

【0018】

プリンタ装置２５０は、レーザ方式やインクジェット方式などによって、用紙に画像を形成する構成の装置である。スキャナ装置２６０は、印刷物の画像を読み取り、データ化する構成の装置である。また、例えばＭＦＰ１１０は、スキャナ装置２６０とプリンタ装置２５０の協働により、印刷物のコピーを行うことができる。

【0019】

通信Ｉ／Ｆ２７０は、ＭＦＰ１１０とネットワーク１３０とを接続し、ネットワーク１３０を介して他の装置との通信を可能にする。ネットワーク１３０を介した通信は、有線通信または無線通信のいずれであってもよく、ＴＣＰ／ＩＰなどの所定の通信プロトコルを使用し、各種データを送受信できる。

【0020】

ディスプレイ２８０は、各種データやＭＦＰ１１０の状態などを、ユーザに対して表示する装置であり、例として、ＬＣＤ（Liquid Crystal Display）などが挙げられる。入力装置２９０は、ユーザがＭＦＰ１１０を操作するための装置であり、例として、キーボード、マウスなどが挙げられる。なお、ディスプレイ２８０と入力装置２９０は、それぞれ別個の装置であってもよいし、タッチパネルディスプレイのような両方の機能を備えるものであってもよい。

【0021】

以上、本実施形態のＭＦＰ１１０に含まれるハードウェア構成について説明した。次に、本実施形態における各ハードウェアによって実行される機能手段について、図３を以て説明する。

【0022】

図３は、本実施形態のＭＦＰ１１０に含まれるソフトウェアブロック図である。本実施形態のＦＭＰ１１０は、画像読取部３１０、画像処理部３２０、印刷部３３０、ファイル変換部３４０、記憶部３５０の各モジュールを含む。

【0023】

画像読取部３１０は、スキャナ装置２６０を制御し、原稿を読み込んで画像データを出力する手段である。画像読取部３１０が読み取った原稿の画像データは、画像処理部３２０に出力される。

【0024】

画像処理部３２０は、画像データに対して種々の補正処理を行う手段であり、ガンマ補正部３２１、領域検出部３２２、データＩ／Ｆ部３２３、色処理／ＵＣＲ部３２４、プリンタ補正部３２５を含んで構成される。画像処理部３２０が処理する画像データは、画像読取部３１０が出力したものでもよいし、記憶部３５０に記憶されているものでもよいし、パソコン端末１２０などから取得したものでもよい。

【0025】

ガンマ補正部３２１は、画像データ（Ａ／Ｄ変換後のＲ，Ｇ，Ｂ各色８ビット）を、色ごとの諧調バランスを揃えるために各信号に一次元変換を施す手段である。ここでは説明のため、ガンマ補正部３２１による補正後の濃度リニア信号（ＲＧＢ信号）は、領域検出部３２２と、データＩ／Ｆ部３２３へ出力される。

【0026】

領域検出部３２２は、画像データの注目画素または画素ブロックが文字領域であるか、非文字領域（すなわち絵柄）であるかを判定し、さらに有彩色であるか無彩色であるかを判定することで、当該画素の領域を検出する手段である。領域検出部３２２が検出した結果は、色処理／ＵＣＲ部３２４に出力される。

【0027】

データＩ／Ｆ部３２３は、領域検出部３２２による検出結果およびガンマ補正部３２１が補正した画像データを記憶装置２４０へ一時保存する際のＨＤＤ管理インタフェースである。

【0028】

色処理／ＵＣＲ部３２４は、画素領域または画素ブロックごとの判定結果に基づいて、処理対象の画像データに対して色処理やＵＣＲ（under color removal）処理を行う手段である。

【0029】

プリンタ補正部３２５は、色処理／ＵＣＲ部３２４からのＣ，Ｍ，Ｙ，Ｂｋの画像信号を受け、プリンタ特性を考慮したガンマ補正処理とディザ処理を行う手段である。

【0030】

印刷部３３０は、画像処理部３２０によって処理された画像データに基づいてプリンタ装置２５０の動作を制御し、印刷ジョブを実行する手段である。

【0031】

ファイル変換部３４０は、画像データに含まれる文字列をテキストファイルに変換する手段である。変換元となる画像データは、画像読取部３１０が出力したものでもよいし、記憶部３５０に記憶されているものでもよいし、パソコン端末１２０などから取得したものでもよい。一例として、本実施形態のファイル変換部３４０は、Ｍｉｃｒｏｓｏｆｔ（登録商標）Ｗｏｒｄなどのワープロソフトで採用されているＯｆｆｉｃｅＯｐｅｎＸＭＬＤｏｃｕｍｅｎｔ形式に変換する。但し、テキストファイルのフォーマットは上述されたものに限定されず、種々のフォーマットのテキストファイルとすることができる。以下では、本実施形態における変換処理を「テキストファイル変換」として参照する。

【0032】

ここで、ファイル変換部３４０の詳細について、図４を以て説明する。図４は、本実施形態のファイル変換部３４０を説明する図である。ファイル変換部３４０は、画像データをテキストファイル変換する手段であり、文字列抽出部３４１、文字列処理部３４２、ファイル生成部３４３から構成される。

【0033】

文字列抽出部３４１は、画像データに対してＯＣＲ（Optical Character Recognition）処理を行い、画像内の文字列を抽出する手段である。文字列抽出部３４１は、テキストファイル変換元となる画像データとともに、抽出した文字列のデータを文字列処理部３４２に出力する。なお、画像内の文字列を抽出する方法はＯＣＲに限られず、これ以外の方法であってもよい。例えば他の実施形態では、像域分離などといった既知の類似する文字認識技術によって、画像内の文字列を抽出してもよい。

【0034】

文字列処理部３４２は、文字列抽出部３４１によって抽出された画像内の文字列について、テキストファイルにおける配置方法を選択する処理を行う手段である。ここで、テキストファイルにおける文字列の配置方法は、文字列をテキストボックスに配置する方法や、文字列をテキストファイルの本文に配置する方法などが挙げられる。以下に説明する実施形態では、テキストファイルの本文中に配置される文字列を「標準テキスト」として参照する。なお、画像データから複数の文字列が抽出された場合には、テキストボックスに配置される文字列と、標準テキストとして配置される文字列とが混在するテキストファイルが生成されてもよい。

【0035】

文字列処理部３４２は、図４に示すように、行矩形領域抽出部３４２ａ、領域関係判定部３４２ｂ、配置方法設定部３４２ｃから構成される。

【0036】

行矩形領域抽出部３４２ａは、１行の文字列を囲う矩形領域（以下、「行矩形領域」として参照する）を抽出する手段である。画像から複数の文字列が抽出された場合には、行矩形領域抽出部３４２ａは、それぞれの文字列に対して、行矩形領域を抽出する。

【0037】

領域関係判定部３４２ｂは、抽出された行矩形領域のそれぞれの位置関係を判定する手段である。領域関係判定部３４２ｂは、１の行矩形領域と、当該行矩形領域に近接する他の行矩形領域との位置関係に基づいて、文字列のレイアウトを判定する。例えば領域関係判定部３４２ｂは、１の行矩形領域が他の行矩形領域と段組関係にあるか、重層関係にあるか、または段組関係および重層関係のいずれでもないかを判定する。領域関係判定部３４２ｂは、各行矩形領域について、判定結果とともに配置方法設定部３４２ｃに出力する。

【0038】

配置方法設定部３４２ｃは、領域関係判定部３４２ｂの判定結果に基づいて、各判定結果に係る文字列の配置方法を設定する。配置方法設定部３４２ｃは、例えば、他の行矩形領域と段組関係にあるか、または重層関係にある文字列の配置方法を、テキストボックスに配置すると設定する。また、配置方法設定部３４２ｃは、他の行矩形領域との関係が段組関係および重層関係のいずれでもない文字列の配置方法を、標準テキストとして配置すると設定する。

【0039】

ファイル生成部３４３は、文字列処理部３４２によって各文字列の配置方法が設定された後、画像データ内の各文字列を各々の設定された配置方法で配置したＯｆｆｉｃｅＯｐｅｎＸＭＬＤｏｃｕｍｅｎｔ形式のテキストファイルを生成する手段である。ファイル生成部３４３が生成したテキストファイルは、記憶部３５０に記憶されたり、パソコン端末１２０に送信されたりして、テキストの再編集の用に供される。

【0040】

なお、上述したソフトウェアブロックは、ＣＰＵ２１０が本実施形態のプログラムを実行することで、各ハードウェアを機能させることにより、実現される機能手段に相当する。また、各実施形態に示した機能手段は、全部がソフトウェア的に実現されても良いし、その一部または全部を同等の機能を提供するハードウェアとして実装することもできる。

【0041】

さらに、上述した各機能手段は、必ずしも全てが図３および図４に示すような構成でＭＦＰ１１０に含まれていなくてもよい。例えば、他の好ましい実施形態において、パソコン端末１２０が画像処理装置として構成さる場合には、パソコン端末１２０がファイル変換部３４０を備えてもよい。

【0042】

ここまで、本実施形態のＭＦＰ１１０のソフトウェアブロック構成について説明した。次に、ＭＦＰ１１０が実行する処理について説明する。図５は、本実施形態のＭＦＰ１１０によるテキストファイル変換処理を示すフローチャートである。

【0043】

ＭＦＰ１１０は、ステップＳ１０００からテキストファイル変換処理を開始し、ステップＳ１００１においてテキストファイル変換の対象となる画像データを取得する。なお、テキストファイル変換処理を行う画像データは、画像読取部３１０が出力したものでもよいし、記憶部３５０に記憶されているものでもよいし、パソコン端末１２０などの他の装置から取得したものでもよい。

【0044】

次にステップＳ１００２において、文字列抽出部３４１は、取得した画像データに含まれる文字列をＯＣＲ処理などによって抽出する。ここでは、画像内に複数の文字列が含まれているものとする。ステップＳ１００２の後、文字列処理部３４２は、抽出された文字列のそれぞれに対して以下の処理を行う。

【0045】

ステップＳ１００３では、行矩形領域抽出部３４２ａは、ステップＳ１００２で抽出された各文字列に対して、行矩形領域を抽出する。続くステップＳ１００４では、領域関係判定部３４２ｂは、１の行矩形領域と、他の行矩形領域との関係を判定する。ステップＳ１００５では、ステップＳ１００４で判定した結果、他の行矩形領域と段組関係にあるか否かによって処理を分岐する。段組関係にある場合には（ＹＥＳ）、ステップＳ１００７に進み、段組関係にない場合には（ＮＯ）、ステップＳ１００６に進む。

【0046】

ステップＳ１００６では、ステップＳ１００４で判定した結果、他の行矩形領域と重層関係にあるか否かによって処理を分岐する。重層関係にある場合には（ＹＥＳ）、ステップＳ１００７に進み、重層関係にない場合には（ＮＯ）、ステップＳ１００８に進む。

【0047】

１の行矩形領域が他の行矩形領域と段組関係にあるか、または重層関係にある場合には、配置方法設定部３４２ｃはステップＳ１００７において、当該１の行矩形領域に係る文字列の配置方法について、テキストボックスに配置する設定をする。一方で、１の行矩形領域と他の行矩形領域とが段組関係および重層関係のいずれでもない場合には、配置方法設定部３４２ｃはステップＳ１００８において、当該１の行矩形領域に係る文字列の配置方法について、標準テキストとして配置する設定をする。

【0048】

ステップＳ１００７またはステップＳ１００８において、１の行矩形領域に係る文字列についてのテキストファイルでの配置方法を設定した後、ステップＳ１００９では、全ての行矩形領域について配置方法を設定したか否かによって処理を分岐する。全ての行矩形領域について配置方法を設定していない場合（ＮＯ）、すなわち未設定の行矩形領域がある場合には、ステップＳ１００４に戻り、別の行矩形領域に対して、上述した判定処理および配置方法の設定処理を繰り返す。全ての行矩形領域について配置方法を設定した場合には（ＹＥＳ）、ステップＳ１０１０に進む。

【0049】

ステップＳ１０１０では、ファイル生成部３４３は、それぞれに設定された配置方法によって各文字列を配置したテキストファイルを生成する。生成されたテキストファイルは、記憶部３５０に記憶されてもよいし、パソコン端末１２０に送信されてもよい。ステップＳ１０１０の後、ステップＳ１０１１においてＭＦＰ１１０は、本実施形態のテキストファイル変換処理を終了する。

【0050】

図５に示した処理によって、画像に含まれる文章のレイアウトを考量したテキストファイル変換を行うことができ、ユーザビリティを向上したテキストファイルを生成することができる。

【0051】

次に、本実施形態のテキストファイル変換のより具体的な例を図６～図８を参照して説明する。なお、図６～図８において示される引き出し線およびそれに付随する符号は、説明の便宜のためのものであり、本実施形態におけるテキストファイル変換処理とは無関係である点に留意されたい。

【0052】

まず図６について説明する。図６は、本実施形態のテキストファイル変換処理によって段組関係にある文字列を含むテキストファイルを生成する例を説明する図である。

【0053】

図６（ａ）は、テキストファイル変換の対象となる画像データから、ＯＣＲ処理などによって文字列を抽出した例を示している。図６（ａ）に示す例では、画像から「ａｂｃｄｅｆｇｈ」（文字列ｔ１）、「ｉｊｋｌｍｎｏｐ」（文字列ｔ２）、「ｑｒｓｔｕｖｗｘ」（文字列ｔ３）、「ｙｚ１２３４５６」（文字列ｔ４）という文字列が抽出されている。

【0054】

図６（ｂ）は、図６（ａ）の各文字列に対して行矩形領域を抽出した例を示している。図６（ｂ）に示す例では、文字列ｔ１を囲う矩形が行矩形領域ｒ１として抽出され、文字列ｔ２を囲う矩形が行矩形領域ｒ２として抽出され、文字列ｔ３を囲う矩形が行矩形領域ｒ３として抽出され、文字列ｔ４を囲う矩形が行矩形領域ｒ４として抽出されている。

【0055】

図６（ｃ）は、抽出された各行矩形領域に対して、他の行矩形領域との関係を判定した例を示している。図６（ｃ）に示す例では、行矩形領域ｒ１と行矩形領域ｒ２とが近接していると判定されることから、両者が統合されて新たな行矩形領域Ｒ１とされている。また、行矩形領域ｒ３と行矩形領域ｒ４とが近接していると判定されることから、両者が統合されて新たな行矩形領域Ｒ２とされている。一方で、行矩形領域Ｒ１と行矩形領域Ｒ２とは、近接した位置関係にないことから、段組関係にある文字列であると判定される。したがって、配置方法設定部３４２ｃは、行矩形領域Ｒ１および行矩形領域Ｒ２の配置方法として、テキストボックスに配置する設定をする。

【0056】

図６（ｄ）は、各文字列が設定された配置方法に基づいて配置されたテキストファイルの表示画面の例を示している。行矩形領域Ｒ１および行矩形領域Ｒ２はテキストボックスに配置する設定であることから、図６（ｄ）の例では、文字列ｔ１および文字列ｔ２が配置されたテキストボックスと、文字列ｔ３および文字列ｔ４が配置されたテキストボックスとを含むテキストファイルが生成される。

【0057】

次に図７について説明する。図７は、本実施形態のテキストファイル変換処理によって重層関係にある文字列を含むテキストファイルを生成する例を説明する図である。

【0058】

図７（ａ）は、テキストファイル変換の対象となる画像データから、ＯＣＲ処理などによって文字列を抽出した例を示している。図７（ａ）に示す例では、画像から「ａｂｃｄｅｆｇｈｉ」（文字列ｔ１）、「ｊｋｌｍｎ」（文字列ｔ２）、「ｏｐｑｒｓｔｕ」（文字列ｔ３）という文字列が抽出されている。

【0059】

図７（ｂ）は、図７（ａ）の各文字列に対して行矩形領域を抽出した例を示している。図７（ｂ）に示す例では、文字列ｔ１を囲う矩形が行矩形領域ｒ１として抽出され、文字列ｔ２を囲う矩形が行矩形領域ｒ２として抽出され、文字列ｔ３を囲う矩形が行矩形領域ｒ３として抽出されている。

【0060】

図７（ｃ）は、抽出された各行矩形領域に対して、他の行矩形領域との関係を判定した例を示している。図７（ｃ）に示す例では、行矩形領域ｒ１と行矩形領域ｒ２とが近接していると判定されることから、両者が統合されて新たな行矩形領域Ｒ１とされている。また、行矩形領域ｒ３は、行矩形領域Ｒ１の一部と重複している。すなわち、行矩形領域Ｒ１と行矩形領域ｒ３とは、重層関係にある文字列であると判定される。したがって、配置方法設定部３４２ｃは、行矩形領域Ｒ１および行矩形領域ｒ３の配置方法として、テキストボックスに配置する設定をする。

【0061】

図７（ｄ）は、各文字列が設定された配置方法に基づいて配置されたテキストファイルの表示画面の例を示している。行矩形領域Ｒ１および行矩形領域ｒ３はテキストボックスに配置する設定であることから、図７（ｄ）の例では、文字列ｔ１および文字列ｔ２が配置されたテキストボックスと、文字列ｔ３が配置されたテキストボックスとを含むテキストファイルが生成される。

【0062】

次に図８について説明する。図８は、本実施形態のテキストファイル変換処理によって段組関係になく、かつ、重層関係にない文字列を含むテキストファイルを生成する例を説明する図である。

【0063】

図８（ａ）は、テキストファイル変換の対象となる画像データから、ＯＣＲ処理などによって文字列を抽出した例を示している。図８（ａ）に示す例では、画像から「ａｂｃｄｅｆｇｈｉ」（文字列ｔ１）、「ｊｋｌｍｎ」（文字列ｔ２）という文字列が抽出されている。

【0064】

図８（ｂ）は、図８（ａ）の各文字列に対して行矩形領域を抽出した例を示している。図８（ｂ）に示す例では、文字列ｔ１を囲う矩形が行矩形領域ｒ１として抽出され、文字列ｔ２を囲う矩形が行矩形領域ｒ２として抽出されている。

【0065】

図８（ｃ）は、抽出された各行矩形領域に対して、他の行矩形領域との関係を判定した例を示している。図８（ｃ）に示す例では、行矩形領域ｒ１と行矩形領域ｒ２とが近接していると判定されることから、両者が統合されて新たな行矩形領域Ｒ１とされている。また、行矩形領域Ｒ１は、ほかに近接する行矩形領域がないことから、段組関係でなく、かつ、重層関係でない文字列であると判定される。したがって、配置方法設定部３４２ｃは、行矩形領域Ｒ１の配置方法として、テキストファイルの標準テキストとして配置する設定をする。

【0066】

図８（ｄ）は、各文字列が設定された配置方法に基づいて配置されたテキストファイルの表示画面の例を示している。行矩形領域Ｒ１は標準テキストとして配置する設定であることから、図８（ｄ）の例では、文字列ｔ１および文字列ｔ２が本文中に配置されたテキストファイルが生成される。

【0067】

ここまで、本実施形態によるテキストファイル変換の具体例について説明した。なお、各行矩形領域に係る領域関係の判定処理は、近接する度合いなどを基準に行うことができる。しかしながら、特に実施形態を限定するものではなく、これ以外のパラメータを基準に判定処理が行われてもよい。また、判定処理における判定の基準は、機械学習の学習効果によって生成されたものでもよい。

【0068】

ここで機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり、コンピュータが、データ識別等の判断に必要なアルゴリズムを、事前に取り込まれる学習データから自律的に生成し、新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習、深層学習のいずれかの方法でもよく、さらに、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。

【0069】

以上、説明した本発明の実施形態によれば、画像に含まれる文字列の再現性を向上してテキストファイルを生成する画像処理装置、方法およびプログラムを提供することができる。

【0070】

上述した本発明の実施形態の各機能は、Ｃ、Ｃ＋＋、Ｃ＃、Ｊａｖａ（登録商標）等で記述された装置実行可能なプログラムにより実現でき、本実施形態のプログラムは、ハードディスク装置、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ、フレキシブルディスク、ＥＥＰＲＯＭ（登録商標）、ＥＰＲＯＭ等の装置可読な記録媒体に格納して頒布することができ、また他装置が可能な形式でネットワークを介して伝送することができる。

【0071】

また上記で説明した実施形態の各機能は、１または複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC（Application Specific Integrated Circuit）、DSP（digital signal processor）、FPGA（field programmable gate array）や従来の回路モジュールなどのデバイスを含むものとする。

【0072】

以上、本発明について実施形態をもって説明してきたが、本発明は上述した実施形態に限定されるものではなく、当業者が推考しうる実施態様の範囲内において、本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。

【符号の説明】

【0073】

１００…システム、１１０…ＭＦＰ、１２０…パソコン端末、１３０…ネットワーク、２１０…ＣＰＵ、２２０…ＲＡＭ、２３０…ＲＯＭ、２４０…記憶装置、２５０…プリンタ装置、２６０…スキャナ装置、２７０…通信Ｉ／Ｆ、２８０…ディスプレイ、２９０…入力装置、３１０…画像読取部、３２０…画像処理部、３２１…ガンマ補正部、３２２…領域検出部、３２３…データＩ／Ｆ部、３２４…色処理／ＵＣＲ部、３２５…プリンタ補正部、３３０…印刷部、３４０…ファイル変換部、３４１…文字列抽出部、３４２…文字列処理部、３４２ａ…行矩形領域抽出部、３４２ｂ…領域関係判定部、３４２ｃ…配置方法設定部、３４３…ファイル生成部、３５０…記憶部

【先行技術文献】

【特許文献】

【0074】

【文献】特許第５５３８８１２号公報

【図1】