IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リコーの特許一覧

特許7497620文書データ生成装置、画像形成装置、及び文書データ生成プログラム
<>
  • 特許-文書データ生成装置、画像形成装置、及び文書データ生成プログラム 図1
  • 特許-文書データ生成装置、画像形成装置、及び文書データ生成プログラム 図2
  • 特許-文書データ生成装置、画像形成装置、及び文書データ生成プログラム 図3
  • 特許-文書データ生成装置、画像形成装置、及び文書データ生成プログラム 図4
  • 特許-文書データ生成装置、画像形成装置、及び文書データ生成プログラム 図5
  • 特許-文書データ生成装置、画像形成装置、及び文書データ生成プログラム 図6
  • 特許-文書データ生成装置、画像形成装置、及び文書データ生成プログラム 図7
  • 特許-文書データ生成装置、画像形成装置、及び文書データ生成プログラム 図8
  • 特許-文書データ生成装置、画像形成装置、及び文書データ生成プログラム 図9
  • 特許-文書データ生成装置、画像形成装置、及び文書データ生成プログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-03
(45)【発行日】2024-06-11
(54)【発明の名称】文書データ生成装置、画像形成装置、及び文書データ生成プログラム
(51)【国際特許分類】
   G06V 30/12 20220101AFI20240604BHJP
【FI】
G06V30/12
【請求項の数】 7
(21)【出願番号】P 2020095706
(22)【出願日】2020-06-01
(65)【公開番号】P2021189859
(43)【公開日】2021-12-13
【審査請求日】2023-04-12
(73)【特許権者】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】110000442
【氏名又は名称】弁理士法人武和国際特許事務所
(74)【代理人】
【識別番号】100186853
【弁理士】
【氏名又は名称】宗像 孝志
(72)【発明者】
【氏名】齋藤 貴之
【審査官】真木 健彦
(56)【参考文献】
【文献】特開2013-130997(JP,A)
【文献】特開平11-003401(JP,A)
【文献】特開平08-050631(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/12
G06V 30/00
(57)【特許請求の範囲】
【請求項1】
画像データから抽出した文字を含めた文書データを生成する文書データ生成装置であって、
文字認識処理によって、前記画像データから抽出した文字画像に対応する文字コードを特定すると共に、当該文字コードの確からしさを表す認識度を算出する文字認識部と、
前記文字認識部で算出した前記認識度に応じて、前記文字画像に対応する文字の態様を異ならせた前記文書データを生成する文書データ生成部とを備え
前記文書データは、
レイアウトが前記画像データで示される画像に対応するテキスト領域と、
前記テキスト領域と異なるコメント領域とを含み、
前記文字認識部は、1つの前記文字画像に対して、候補となる複数の前記文字コードを特定すると共に、複数の前記文字コードそれぞれに対応する複数の前記認識度を算出し、
前記文書データ生成部は、
前記文字認識部で算出した最大の前記認識度が第1閾値以上の場合に、前記文字認識部で特定した複数の前記文字コードのうち、前記最大の認識度に対応する前記文字コードのみを前記文書データに含め、
前記最大の認識度が前記第1閾値未満で且つ前記第1閾値より小さい第2閾値以上の場合に、
前記最大の認識度に対応する前記文字コードで表される第1候補テキストを、前記テキスト領域に配置し、
他の前記文字コードで表される代替候補テキストを、前記第1候補テキストに関連付けて前記コメント領域に配置することを特徴とする文書データ生成装置。
【請求項2】
前記文書データ生成部は、
前記文字認識部で特定した前記文字コードと、前記文字コードで表されるテキストの表示態様を示すフォント情報とを前記文書データに含め、
前記文字認識部で算出した前記認識度に応じて、前記フォント情報を異ならせることを特徴とする請求項1に記載の文書データ生成装置。
【請求項3】
前記フォント情報は、テキストの色、テキストの書体、斜体か否か、太字か否か、下線を付加するか否か、マーカを付加するか否か、文字色及び背景色を反転させるか否か、のうちの少なくとも1つ示すことを特徴とする請求項2に記載の文書データ生成装置。
【請求項4】
前記文書データ生成部は、前記最大の認識度が前記第1閾値未満で且つ前記第2閾値以上の場合に、前記画像データから抽出した前記文字画像を、前記第1候補テキストに関連付けて前記コメント領域に配置することを特徴とする請求項に記載の文書データ生成装置。
【請求項5】
前記文書データ生成部は、前記最大の認識度が前記第2閾値未満の場合に、
前記画像データから抽出した前記文字画像を、前記テキスト領域に配置し、
前記文字認識部で特定した前記文字コードのうち、前記第2閾値より小さい第3閾値以上の前記認識度に対応する前記文字コードで表される候補テキストを、前記文字画像に対応付けて前記コメント領域に配置することを特徴とする請求項1乃至4のいずれか1項に記載の文書データ生成装置。
【請求項6】
原稿を読み取って前記画像データを生成するスキャナ部と、
前記スキャナ部で生成された前記画像データから前記文書データを生成する請求項1乃至のいずれか1項に記載の文書データ生成装置とを備える画像形成装置。
【請求項7】
画像データから抽出した文字を含めた文書データを生成するコンピュータによって実行される文書データ生成プログラムであって、
文字認識処理によって、前記画像データから抽出した文字画像に対応する文字コードを特定すると共に、当該文字コードの確からしさを表す認識度を算出し、
算出した前記認識度に応じて、前記文字画像に対応する文字の態様を異ならせた前記文書データを生成する文書データ生成処理を、コンピュータに実行させ
前記文書データは、
レイアウトが前記画像データで示される画像に対応するテキスト領域と、
前記テキスト領域と異なるコメント領域とを含み、
前記文字認識処理では、1つの前記文字画像に対して、候補となる複数の前記文字コードを特定すると共に、複数の前記文字コードそれぞれに対応する複数の前記認識度を算出し、
前記文書データ生成処理では、
前記文字認識処理で算出した最大の前記認識度が第1閾値以上の場合に、前記文字認識処理で特定した複数の前記文字コードのうち、前記最大の認識度に対応する前記文字コードのみを前記文書データに含め、
前記最大の認識度が前記第1閾値未満で且つ前記第1閾値より小さい第2閾値以上の場合に、
前記最大の認識度に対応する前記文字コードで表される第1候補テキストを、前記テキスト領域に配置し、
他の前記文字コードで表される代替候補テキストを、前記第1候補テキストに関連付けて前記コメント領域に配置する文書データ生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書データ生成装置、画像形成装置、及び文書データ生成プログラムに関する。
【背景技術】
【0002】
文字や画像が記されている原稿をスキャナで読み取り、光学文字認識(OCR:Optical Character Recognition/Reader)の技術を用いて文書データを抽出することが、日常的に行われている。
【0003】
関連する技術として、検索精度を高める目的で、文字認識において複数の認識候補が得られた場合に、画像データの対応する所定区切り単位の位置または近傍に、候補となるデータを透明で生成する開示されている(例えば特許文献1)。
【発明の概要】
【発明が解決しようとする課題】
【0004】
OCRを活用した従来技術では、元の文字の痕跡が消去されてしまうため、誤認識が発生した場合、認識後の文書データのみでは元の文書に何が書いてあるかを判別することができなくなる。
【0005】
特許文献1の技術では、誤認識の可能性のある文字については、その他の候補文字を組み入れた文書データを生成することができる。しかしながら特許文献1の技術では、文字検索に活用するため、すなわち検索でヒットさせるために候補文字を組み入れることから、候補となる文字を不可視の状態で組み入れる。よって、認識後のデータを通常のやり方で表示させ、もしくは印刷した場合、従来技術と同様に元の文字を判別することができない。
【0006】
また特許文献1の技術では、編集困難なファイル形式で文字認識後のデータを出力するため、生成した文書データに誤認識があり、利用者がこれに気付いても、容易に修正するのができない。
【0007】
本発明は、OCRによる文字認識で誤認識があった場合でも、利用者に元の文字を推測するための手がかりを与える技術を提供することを目的とする。
【課題を解決するための手段】
【0008】
上記課題を解決するために、文書データ生成装置は、画像データから抽出した文字を含めた文書データを生成する文書データ生成装置であって、文字認識処理によって、前記画像データから抽出した文字画像に対応する文字コードを特定すると共に、当該文字コードの確からしさを表す認識度を算出する文字認識部と、前記文字認識部で算出した前記認識度に応じて、前記文字画像に対応する文字の態様を異ならせた前記文書データを生成する文書データ生成部とを備え、前記文書データは、レイアウトが前記画像データで示される画像に対応するテキスト領域と、前記テキスト領域と異なるコメント領域とを含み、前記文字認識部は、1つの前記文字画像に対して、候補となる複数の前記文字コードを特定すると共に、複数の前記文字コードそれぞれに対応する複数の前記認識度を算出し、前記文書データ生成部は、前記文字認識部で算出した最大の前記認識度が第1閾値以上の場合に、前記文字認識部で特定した複数の前記文字コードのうち、前記最大の認識度に対応する前記文字コードのみを前記文書データに含め、前記最大の認識度が前記第1閾値未満で且つ前記第1閾値より小さい第2閾値以上の場合に、前記最大の認識度に対応する前記文字コードで表される第1候補テキストを、前記テキスト領域に配置し、他の前記文字コードで表される代替候補テキストを、前記第1候補テキストに関連付けて前記コメント領域に配置することを特徴とする。
【発明の効果】
【0009】
本発明によれば、OCRによる文字認識で誤認識があった場合でも、利用者に元の文字を推測するための手がかりを与えることができる。
【図面の簡単な説明】
【0010】
図1】本実施形態のシステム構成を例示する図。
図2】画像形成装置のハードウェア構成図。
図3】PCのハードウェア構成を示した図。
図4】本実施形態の文書データ生成装置の構成例を示すブロック図。
図5図4に示す各機能部が生成するデータを例示する図。
図6】文書データ生成装置が実行する処理のフローチャート。
図7】文書データ生成処理のフローチャート。
図8】一文字出力処理のフローチャート。
図9】文字認識部が生成する文字コード及び認識度のリストの一例を示す図。
図10】文書データ生成部が生成した文書データの表示例を示す図。
【発明を実施するための形態】
【0011】
以下、本実施形態に係る文書データ生成装置、画像形成装置、及び文書データ生成プログラムについて、図面などを参照しながら説明する。
【0012】
<システム構成>
図1は、本実施形態のシステム構成を例示する図である。システム1は、画像形成装置110、ファイルサーバ120、2つのパーソナルコンピュータであるPC140、PC150を有し、これらが通信ネットワーク190を介して相互にデータの送受信を行う構成となっている。
【0013】
画像形成装置110は、原稿シートを読み取って画像データを生成するスキャナ部231、シート上に画像を形成するプリンタ部232、および通信機能などを備える。スキャナ部231は、ADF(Auto Document Feeder:自動原稿送り装置)が設けられている場合はADFにセットされた原稿シートを読み取る。画像形成装置110は、スキャナ部231、プリンタ部232を用いることで、コピー、プリンタ、スキャナ、ファクシミリの各機能を利用者に提供する。また操作パネル240を介して利用者から指示を受け付け、もしくは通信ネットワーク190を介してPC140、PC150から指示を受け付けることで、画像形成装置110はこれら機能を実行する。
【0014】
また、画像形成装置110は、光学文字認識(以下、必要に応じて単に「文字認識」、もしくは「OCR」と称する)の技術を用いて、スキャナ部231で生成された画像データから文字を抽出する機能も有している。
【0015】
PC140、PC150は、画像形成装置110を利用する一般ユーザが用いる端末(コンピュータ)である。
【0016】
ファイルサーバ120は、画像形成装置110の読取機能によって読み取られた画像データを蓄積するサーバ(コンピュータ)である。ファイルサーバ120には、利用者ごとに専用フォルダが設けられ、当該専用フォルダ内にファイルを格納して各種データを保持する。またファイルサーバ120は、画像形成装置110の文書データ生成機能により生成された文書データを格納する。
【0017】
<各装置のハードウェア構成>
図2は、画像形成装置110(MFP:Multifunction Peripheral/Product/Printer)のハードウェア構成図である。図2に示されているように、画像形成装置110は、コントローラ210、近距離通信回路220、エンジン制御部230、操作パネル240、ネットワークI/F250を備えている。
【0018】
これらのうち、コントローラ210は、コンピュータの主要部であるCPU201、システムメモリ(MEM-P)202、ノースブリッジ(NB)203、サウスブリッジ(SB)204、ASIC(Application Specific Integrated Circuit)206、記憶部であるローカルメモリ(MEM-C)207、HDDコントローラ208、及び、記憶部であるHD209を有し、NB203とASIC206との間をAGP(Accelerated Graphics Port)バス221で接続した構成となっている。
【0019】
これらのうち、CPU201は、画像形成装置110の全体制御を行う制御部である。NB203は、CPU201と、MEM-P202、SB204、及びAGPバス221とを接続するためのブリッジであり、MEM-P202に対する読み書きなどを制御するメモリコントローラと、PCI(Peripheral Component Interconnect)マスタ及びAGPターゲットとを有する。
【0020】
MEM-P202は、コントローラ210の各機能を実現させるプログラムやデータの格納用メモリであるROM202a、プログラムやデータの展開、及びメモリ印刷時の描画用メモリなどとして用いるRAM202bとからなる。なお、RAM202bに記憶されているプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM、CD-R、DVD等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。
【0021】
SB204は、NB203とPCIデバイス、周辺デバイスとを接続するためのブリッジである。ASIC206は、画像処理用のハードウェア要素を有する画像処理用途向けのIC(Integrated Circuit)であり、AGPバス221、PCIバス222、HDDコントローラ208およびMEM-C207をそれぞれ接続するブリッジの役割を有する。このASIC206は、PCIターゲットおよびAGPマスタ、ASIC206の中核をなすアービタ(ARB)、MEM-C207を制御するメモリコントローラ、ハードウェアロジックなどにより画像データの回転などを行う複数のDMAC(Direct Memory Access Controller)、並びに、スキャナ部231及びプリンタ部232との間でPCIバス222を介したデータ転送を行うPCIユニットとからなる。なお、ASIC206には、USB(Universal Serial Bus)のインターフェースや、IEEE1394(Institute of Electrical and Electronics Engineers 1394)のインターフェースを接続するようにしてもよい。
【0022】
MEM-C207は、コピー用画像バッファ及び符号バッファとして用いるローカルメモリである。HD209は、画像データの蓄積、印刷時に用いるフォントデータの蓄積、フォームの蓄積を行うためのストレージである。HD209は、CPU201の制御にしたがってHD209に対するデータの読出又は書込を制御する。AGPバス221は、グラフィック処理を高速化するために提案されたグラフィックスアクセラレータカード用のバスインタフェースであり、MEM-P202に高スループットで直接アクセスすることにより、グラフィックスアクセラレータカードを高速にすることができる。
【0023】
また、近距離通信回路220には、近距離通信回路220aが備わっている。近距離通信回路220は、NFC、Bluetooth(登録商標)等の通信回路である。
【0024】
更に、エンジン制御部230は、スキャナ部231及びプリンタ部232によって構成されている。また、操作パネル240は、現在の設定値や選択画面等を表示させ、操作者からの入力を受け付けるタッチパネル等のパネル表示部240a、並びに、濃度の設定条件などの画像形成に関する条件の設定値を受け付けるテンキー及びコピー開始指示を受け付けるスタートキー等からなる操作パネル240bを備えている。コントローラ210は、画像形成装置110全体の制御を行い、例えば、描画、通信、操作パネル240からの入力等を制御する。スキャナ部231又はプリンタ部232には、誤差拡散やガンマ変換などの画像処理部分が含まれている。
【0025】
なお、画像形成装置110は、操作パネル240のアプリケーション切り替えキーにより、ドキュメントボックス機能、コピー機能、プリンタ機能、およびファクシミリ機能を順次に切り替えて選択することが可能となる。ドキュメントボックス機能の選択時にはドキュメントボックスモードとなり、コピー機能の選択時にはコピーモードとなり、プリンタ機能の選択時にはプリンタモードとなり、ファクシミリモードの選択時にはファクシミリモードとなる。
【0026】
また、ネットワークI/F250は、通信ネットワーク100を利用してデータ通信をするためのインターフェースである。近距離通信回路220及びネットワークI/F250は、PCIバス222を介して、ASIC206に電気的に接続されている。
【0027】
図3は、PC140のハードウェア構成を示した図である。図3ではPC140を例にしているが、PC150やファイルサーバ120などのコンピュータについても同様構成となっている。
【0028】
PC140はコンピュータによって構築されており、CPU301、ROM302、RAM303、HD304、HDDコントローラ305、ディスプレイ306、外部機器接続I/F308、ネットワークI/F309、データバス310、キーボード311、ポインティングデバイス312、DVD-RW(Digital Versatile Disk Rewritable)ドライブ314、メディアI/F316を備えている。
【0029】
CPU301は、PC140の全体動作を制御する。ROM302は、IPL等のCPU301の駆動に用いられるプログラムを記憶する。RAM303は、CPU301のワークエリアとして使用される。HD304は、プログラム等の各種データを記憶する。HDDコントローラ305は、CPU301の制御にしたがってHD304に対する各種データの読み出しまたは書き込みを制御する。ディスプレイ306は、カーソル、メニュー、ウィンドウ、文字、または画像などの各種情報を表示する。外部機器接続I/F308は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、USB(Universal Serial Bus)メモリやプリンタ等である。ネットワークI/F309は、通信ネットワーク190を利用してデータ通信をするためのインターフェースである。データバス310は、図3に示されているCPU301等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
【0030】
キーボード311は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス312は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。DVD-RWドライブ314は、着脱可能な記録媒体の一例としてのDVD-RW313に対する各種データの読み出しまたは書き込みを制御する。尚、DVD-RWに限らず、DVD-R等、その他のメディアであってもよい。メディアI/F316は、フラッシュメモリ等の記録メディア315に対するデータの読み出しまたは書き込み(記憶)を制御する。
【0031】
<本実施形態の態様>
図4は、本実施形態の文書データ生成装置400の構成例を示すブロック図である。図5は、図4に示す各機能部が生成するデータを例示する図である。図6は、文書データ生成装置が実行する処理のフローチャートである。図7は、文書データ生成処理のフローチャートである。図8は、一文字出力処理のフローチャートである。図9は、文字認識部404が生成する文字コード及び認識度のリストの一例を示す図である。図10は、文書データ生成部406が生成した文書データの表示例を示す図である。
【0032】
本実施形態の文書データ生成装置400は、原稿を読み取って得られた画像データ(以下、「スキャン画像データ」と表記する。)から抽出した文字を含めた文書データを生成する装置である。文書データ生成装置400は画像形成装置110に組み込まれており、画像形成装置110の各種ハードウェアリソースを共用する構成となっている。また図2に示すコントローラ210が、文書データ生成装置400の主要部となっている。
【0033】
本明細書において、「画像データ」とは、各々が色や輝度の情報を持つ複数の画素(ドット)を縦横に配列したデータを指す。また、「画像」とは、画像データに含まれる色や輝度の情報をグラフィックメモリに展開することによって、ディスプレイ上で可視化された図柄を指す。すなわち、画像は、イラストだけでなく、文字を含むことがある。以下、画像データで表される文字を「文字画像」と表記する。
【0034】
一方、「文書データ」とは、少なくとも文字コードを含むデータであって、さらに画像を含むことがある。「文字コード」とは、例えば、ASCII、Unicode等のように、文字それぞれに割り当てられたコードの集合体である。以下、文字コードで表される文字を「テキスト」と表記する。
【0035】
すなわち、文書データ生成装置400は、同一の文字(Character)を、画像データ(すなわち、当該文字の外形を表すドットの集合)として扱うこともできるし、文字コードとして扱うこともできる。本明細書中において、単に「文字」と表記するときは、文字画像及びテキストの一方または両方を指すものとする。
【0036】
文書データ生成装置400は、上記のスキャナ部231を有する。また、文書データ生成装置400は、コントローラ210が動作することで実現される前処理部401、2値化部402、文字領域抽出部403、文字認識部404、文字消去部405、文書データ生成部406を有している。前処理部401、2値化部402、文字領域抽出部403、文字認識部404、文字消去部405、および文書データ生成部406は、コントローラ210内のCPU301が、HD209に記憶されている文書データ生成プログラムをRAM202bに展開し、演算実行することで実現される機能部である。
【0037】
スキャナ部231は、操作パネル240を通じて利用者から画像読取の命令を受けると、読み取り面に載置された原稿シートを読み取り、フルカラーの画像データ(以下、「スキャン画像データ」と表記する。)に変換して出力する(S601)。そして、スキャナ部231は、生成したスキャン画像データを前処理部401に引き渡す。スキャン画像データで示される画像(以下、「スキャン画像」と表記する。)の一例を図5(A)に示す。
【0038】
前処理部401は、スキャン画像から文字画像を抽出する上で前提となる前処理を画像データに対して行う(S602)。前処理部401は、例えば原稿の傾き補正、スキャナ部231の機種の差異を吸収した画像を得るための補正(シェーディング補正等)などを実施する。前処理部401によって前処理が行われた画像データを「前処理後画像データ」と表記し、前処理後画像データで示される画像を「前処理後画像」と表記する。
【0039】
前処理後画像データは、2値化部402および文字消去部405に引き渡され、2つのパスで処理される。2値化部402を通るパスは前処理後画像から文字画像を抽出する処理であり、文字消去部405を通るパスは前処理後画像から文字画像を消去する処理である。また、前処理後画像データは、他の機能部が参照できるように、HD209等に保存される。
【0040】
2値化部402は、前処理後画像データを2値化して、2値化画像データを生成する(S603)。2値化画像データで示される画像を「2値化画像」と表記する。一例として、2値化とは、スキャン画像を構成する各画素のうち、画素値(例えば、RGBの合計)が閾値以上の画素に画素値“1”を設定し、画素値が閾値未満の画素に画素値“0”を設定する処理を指す。画素値が閾値以上の画素は、文字画像を構成する画素に相当する。但し、2値化の具体的な処理内容は、前述の例に限定されない。2値化部402により生成される2値化画像データは、文字領域抽出部403に引き渡される。
【0041】
文字領域抽出部403は、文字画像を含む矩形領域を2値化画像から抽出する(S604)。文字領域抽出部403は、連続した文字画像(例えば画像内の1行分の文字列)を含む矩形領域を2値化画像から抽出し、この矩形領域の画像(「文字部2値画像」と表記する。)を示す文字部2値画像データと、2値化画像内における文字部2値画像の位置を示す位置情報とを、文字認識部404に引き渡す。
【0042】
より詳細には、文字領域抽出部403は、図5(A)の「使いやすさと、」、「優れた性能を両立」それぞれを囲む矩形の文字部2値画像を抽出する。また、文字領域抽出部403は、2値画像の左上隅を原点とする座標系において、抽出した文字部2値画像の左上隅及び右下隅の座標のセットを、位置情報として生成する。
【0043】
また、文字領域抽出部403は、文字画像を構成する画素の集合を2値化画像から抽出し、文字部領域情報として文字消去部405に引き渡す。文字部領域情報とは、2値化画像のうち、画素値“1”が設定された画素の集合を示す情報である。文字部領域情報は、例えば、画素値を縦横に配列した情報であってもよいし、スキャン画像内における位置を示す情報であってもよい。
【0044】
文字認識部404は、既存のOCR技術を用いて、文字部2値画像に含まれる文字認識処理を行う(S605)。文字認識処理とは、文字画像に対応する文字コードを特定すると共に、当該文字コードの認識度を算出する処理である。認識度とは、特定した文字コードが文字画像を表すものである確からしさを示す指標値である。
【0045】
文字認識部404には、例えば、周知のOCRエンジンを採用することができるが、例えば以下の手順で処理を行う。まず、文字認識部404は、文字画像を所定の大きさに正規化し、特徴(方向成分)を抽出する。次に、文字認識部404は、文字画像から抽出した特徴と、予め用意された標準パターンとをマッチングする。そして、文字認識部404は、特徴の一致度が高い標準パターンから順に、文字コードの候補として特定する。さらに、文字認識部404は、特徴の一致度を「認識度」として扱う。但し、文字認識部404の具体的な処理方法は、前述の例に限定されない。
【0046】
文字認識部404は、文字画像に対応する可能性のある複数の文字コードの候補を特定することがある。文字認識部404は、候補となる複数の文字コードを、対応する認識度が高い順に第1候補C(1)、第2候補C(2)、・・・として選定する。なお、第1候補C(1)の認識度P(1)は、同一の文字画像に対応する複数の認識度Pのうちの最大の認識度である。すなわち、第1候補C(1)は、候補となる複数の文字コードのうち、文字画像を表すものとして最も確からしいことになる。
【0047】
文字認識部404は、文字部2値画像に含まれる全ての文字画像に対して、前述の処理を行う。そして、文字認識部404は、文字コード及び認識度のリストと、文字領域抽出部403から取得した位置情報とを、文書データ生成部406に引き渡す。
【0048】
文字部2値画像「優れた性能を両立」に対する文字認識部404の処理結果の一例を図9に示す。図9に示すように、文字認識部404は、文字画像“れ”、“た”、“性”、“を”、“両”、“立”それぞれに対応する文字コードと、当該文字コードの認識度とを、1つずつ特定する。
【0049】
一方、文字認識部404は、文字画像“優”に対応する文字コードの候補として、文字コードC(1)=“優(=0xCDA5)”、文字コードC(2)=“憂(=0xCDAB)”、文字コードC(3)=“愛(=0xB0A6)”を特定し、特定した文字コードC(1)~(3)の認識度を、認識度P(1)=0.45、認識度P(2)=0.25、認識度P(3)=0.20と算出する。
【0050】
また、文字認識部404は、文字画像“能”に対応する文字コードの候補として、文字コードC(1)=“能(=0xC7BD)”、文字コードC(2)=“熊(=0xB7A7)”、文字コードC(3)=“態(=0xC2D6)”を特定し、特定した文字コードC(1)~(3)の認識度を、認識度P(1)=0.25、認識度P(2)=0.20、認識度P(3)=0.15と算出する。
【0051】
文字消去部405は、前処理部401から引き渡された前処理後画像データ、および文字領域抽出部403から引き渡された文字部領域情報を用いて、前処理後画像から文字画像を除外した文字抜き画像データを生成する(S606)。文字抜き画像データで示される画像(以下、「文字抜き画像」と表記する。)の一例を図5(B)に示す。
【0052】
より詳細には、文字消去部405は、文字部領域情報に示される部分を前処理後画像から除外して、文字抜き画像を生成する。また、文字消去部405は、除外した部分の各画素の値(画素値)に、周囲の画素の画素値から算出した補間値を割り当てるものとする。文字消去部405は、このようにして生成した文字抜き画像データを、文書データ生成部406に引き渡す。なお、文字抜き画像に関しては、画像領域ごとに分割し、領域ごとの画像、位置情報を付記する形式で保存することも想定される。
【0053】
文書データ生成部406は、文字認識部404から取得した文字コード、認識度、及び位置情報と、文字消去部405から取得した文字抜き画像データとに基づいて、文書データ生成処理を実行する(S607)。文書データ生成処理の詳細は、図7及び図8を参照して後述する。
【0054】
文書データは、既存のワードプロセッサ用ソフトウェアで閲覧や編集を行うことのできる形式のデータ(ファイル)である。また、文書データは、文字コードで表されるテキストを文字抜き画像に重畳させた形式のデータである。図5(A)のスキャン画像から生成された文書データの表示例として、全ての文字コードの認識度が第1閾値(Th_A)以上の場合を図5(C)に示し、一部の文字コードの認識度が第1閾値(Th_A)未満の場合を図10に示す。但し、図10の表示例では、文字抜き画像を省略している。
【0055】
本実施形態では、「Open XML」のファイルフォーマットで文書データを作成する。「Open XML」は、ISO/IEC 29500として標準化されたxmlベースのフォーマットであり、複数のファイルやフォルダから構成される。「Open XML」を構成する各ファイルの中には、例えばテキストのコンテンツを記述する「document.xml」、使用するフォントを規定する「fontTable.xml」、テキストのスタイルを規定する「styles.xml」などが含まれている。各ファイルはxml形式のテキストデータであるため、バイナリデータに比べて容易に視認することができ、且つこれら各ファイルを容易に編集することができる。文書データ生成部406は、「Open XML」を構成する各ファイルを圧縮して1つのファイルにまとめ、当該圧縮ファイルに「docx」の拡張子を付与して文書データを生成する。
【0056】
そして、文書データ生成部406は、文書データ生成処理で生成した文書データを、ファイルサーバ120などの利用者が指定した送信先に送信する(S608)。利用者は、PC140、150でワードプロセッサソフトウェアを起動し、ファイルサーバ120にアクセスすることで、生成された文書データを閲覧、編集する。
【0057】
なお、ここでは前処理後画像から文字画像から除去して文字抜き画像を生成して、文字抜き画像にテキストを重畳する例を示したが、例えば罫線や矢印などのオブジェクト(図形)を操作可能とするため、画像(ラスタデータ)からオブジェクトの領域を抽出してベクタライズしてもよい。
【0058】
次に、図7を参照して、文書データ生成処理(S607)の詳細を説明する。まず、文書データ生成部406は、文書データを新規に作成する(S701)。また、文書データ生成部406は、文書データを保存するためのファイルのオープンし、文書データ全体で用いられる共通コードを作成して保存する。
【0059】
次に、文書データ生成部406は、「ページ毎処理ループ」を実施する(S702A~S702B)。このループを抜ける条件は、「次ページが存在するか?」であり、文書データ生成部406は、入力された1ページないし複数ページの全ての処理が終わるまで、S702AからS702Bまでの各ステップを実行する。なお、文書データの1ページは、1枚のスキャン画像(すなわち、1枚の原稿)に対応する。
【0060】
文書データ生成部406は、ページ追加処理を行う(S703)。ここでは、1ページ毎に必要なコードを作成して保存する。次に、文書データ生成部406は、文字消去部504から取得した文字抜き画像データを、ステップS703で追加したページの背景画像として設定する(S704)。
【0061】
次に、文書データ生成部406は、「文字領域毎処理ループ」を実施する(S705A~S705B)。文字領域毎処理ループは、1ページ内の文字領域ごとに処理を行うものであり、当該ページで文字領域が無くなると、文書データ生成部406はこのループを抜ける。ここでの文字領域とは、文字領域抽出部403により抽出された連続した文字列(例えば画像内の1行分の文字列)を含めた矩形領域を意味する。すなわち、図5(A)の例では、文字領域“使いやすさと、”、“優れた性能を両立”それぞれに対して、文字領域毎処理ループを実行する。
【0062】
文書データ生成部406は、「文字領域毎処理ループ」内で「一文字毎処理ループ」を実施する(S706A~S706B)。ここでは、文字領域内の文字列を構成する一文字ごとの処理となり、文字領域内に処理対象の文字が無くなるまで、一文字出力処理(S707)が繰り返し行われる。
【0063】
一文字出力処理は、文字認識部404が生成したリスト(文字コードと認識度とを対応付けて認識度順としたリスト)に含まれる各文字(w=1、2、・・・)について、1つずつ順に処理するものである。以下、図9に示すリストに基づいて、一文字出力処理の詳細を説明する。なお、図9中の各符号は、以下を意味している。
【0064】
・“n”は、文字コードの候補の数(リスト内のレコード件数)
・“C(k)”は、k番目の候補の文字コード及び当該文字コードで示されるテキスト
・P(k)は、k番目の文字コードの認識度
さらに、P(k)については、以下の関係が成立しているものとする。
【数1】
【0065】
また、Th_xは、認識度P(k)と比較するための閾値であり、比較結果により各文字の態様が変化する。本実施形態では、Th_A>Th_B>Th_Cの関係を有するものとする。以下の説明では、第1閾値Th_A=0.50、第2閾値Th_B=0.40、第3閾値Th_C=0.20とする。
【0066】
まず、文書データ生成部406は、w=1の文字画像“優”について、認識度P(1)=0.45と、第1閾値Th_A(=0.50)及び第2閾値Th_B(=0.04)とを比較する(S801、S802)。そして、文書データ生成部406は、認識度P(1)が第1閾値未満で且つ第2閾値以上の場合に(S801:No&S802:Yes)、認識度P(1)に対応するテキストC(1)=“優”が図10のテキスト領域1001に配置されるように、文字コードC(1)=“0xCDA5”を文書データに設定する(S803)。テキストC(1)は、第1候補テキストの一例である。
【0067】
図10に示すように、ディスプレイに表示された文書データは、テキスト領域1001と、コメント領域1002とに区分される。テキスト領域1001及びコメント領域1002は、文書データをディスプレイに表示させたときに、ディスプレイ上において異なる領域である。図10に示すテキスト領域1001及びコメント領域1002は、境界線1003によって左右方向に隣接している。但し、テキスト領域1001及びコメント領域1002のレイアウトは、図10の例に限定されない。
【0068】
テキスト領域1001は、レイアウトがスキャン画像に対応する領域である。すなわち、テキスト領域1001内のテキストの配置は、スキャン画像内の文字画像の配置に対応する。文書データ生成部406は、ステップS803において、文字認識部404から取得した位置情報に基づいて、文字コードC(1)=“0xCDA5”の位置情報を文書データに設定する。文書データが「Open XML」の場合、例えば、文字コードC(1)及び位置情報が「document.xml」に組み入れられる。
【0069】
また、文書データ生成部406は、ステップS803において、認識度P(1)が第1閾値未満で且つ第2閾値以上のテキストC(1)=“優”に下線が付加されるように、文字コードC(1)=“0xCDA5”のフォント情報を文書データに設定する。文書データが「Open XML」の場合、例えば、フォント情報が「fontTable.xml」または「styles.xml」に組み入れられる。
【0070】
フォント情報は、対応する文字コードで表されるテキストの表示態様を示す情報である。フォント情報には、下線を付加するか否かの他に、テキストの色、テキストの書体、斜体か否か、太字か否か、マーカを付加するか否か、ネガ表示か否かなどを含んでもよい。
【0071】
次に、文書データ生成部406は、S804A~S804Bのループ処理を実行する。このループ処理S804A~S804Bでは、変数kを2~nに順次変更しながらステップS805~S806が実行される。
【0072】
k=2のループ処理において、文書データ生成部406は、認識度P(2)=0.25と第3閾値Th_C=0.20とを比較する(S805)。そして、文書データ生成部406は、P(2)が第3閾値Th_C以上の場合に(S805:Yes)、認識度P(2)に対応するテキストC(2)=“憂”が図10のコメント領域1002に配置されるように、文字コードC(2)=“0xCDAB”を文書データに設定する(S806)。
【0073】
コメント領域1002は、ディスプレイ上におけるテキスト領域1001と異なる領域である。より詳細には、コメント領域1002は、文字画像“優”に対応するテキストの候補のうち、テキスト領域1001に配置されるテキストC(1)に代わる候補テキスト(代替候補テキスト)を表示する領域である。文書データが「Open XML」の場合、例えば、文字コードC(2)が「comments.xml」に組み入れられる。
【0074】
文書データ生成部406は、例えば、ステップS803で設定した文字コードC(1)=“0xCDA5”と、ステップS806で設定した文字コードC(2)=“0xCDAB”とに、同一のIDを付与する(すなわち、関連付ける)。これにより、図10に示すように、文書データをディスプレイに表示させたときに、テキスト領域1001に配置されるテキストC(1)=“優”と、コメント領域1002に配置されるテキストC(2)=“憂”とが、リンク線1004によって関連付けられる。
【0075】
また、k=3のループ処理において、文書データ生成部406は、認識度P(3)=0.20が第3閾値Th_C以上だと判断して(S805:Yes)、認識度P(3)に対応するテキストC(3)=“愛”が図10のコメント領域1002に配置されるように、文字コードC(3)=“0xB0A6”を文書データに設定する(S806)。
【0076】
次に、文書データ生成部406は、w=2の文字画像“れ”について、認識度P(1)=0.90が第1閾値Th_A以上であると判断して(S801:Yes)、認識度P(1)に対応するテキストC(1)=“れ”が図10のテキスト領域1001に配置されるように、文字コードC(1)=“0xA4EC”、位置情報、及びフォント情報を文書データに設定する(S807)。
【0077】
なお、図10に示すように、認識度P(1)が第1閾値Th_A以上のテキスト(1)=“れ”には、下線が付加されない。すなわち、文書データ生成部406は、文字認識部404で算出した認識度Pに応じて、文字コードに対応付けて文書データに含めるフォント情報を異ならせる。換言すれば、文書データ生成部406は、文字認識部404で算出した認識度Pに応じて、テキスト領域1001に配置するテキストの表示態様を異ならせる。
【0078】
一方、フォント情報を異ならせる点を除いて、ステップS803、S808の処理は共通する。また、文書データ生成部406は、認識度P(1)が第1閾値Th_A以上の場合に、ループ処理S804A~S804Bを実行しない。すなわち、文書データ生成部406は、認識度P(1)が第1閾値Th_A以上の場合に、コメント領域1002に代替テキストを配置しない。また、w=3、4、6、7、8に対する処理は、w=2に対する処理と共通するので、再度の説明は省略する。
【0079】
次に、文書データ生成部406は、w=5の文字画像“能”について、認識度P(1)=0.25が第2閾値Th_B未満であると判断して(S801:No&S802:No)、認識度P(1)に対応する文字画像“能”が図10のテキスト領域1001に配置されるように、文字画像及び位置情報を文書データに設定する(S808)。
【0080】
より詳細には、文書データ生成部406は、文字認識部404から取得した位置情報に基づいてHD209に保存された前処理後画像データから、文字画像“能”を抽出する。そして、文書データが「Open XML」の場合、文書データ生成部406は、抽出した文字画像“能”を、「media」フォルダに格納する。
【0081】
次に、文書データ生成部406は、認識度P(1)=0.25と第3閾値Th_C=0.20とを比較する(S809)。そして、文書データ生成部406は、認識度P(1)が第3閾値Th_C以上の場合に(S809:Yes)、認識度P(1)に対応するテキストC(1)=“能”が図10のコメント領域1002に配置されるように、文字コードC(2)=“0xC7BD”を文書データに設定すると共に、文字画像“能”と文字コード“0xC7BD”とに同一のIDを割り当てる(S810)。
【0082】
次に、文書データ生成部406は、認識度P(1)が第3閾値Th_C以上の場合に(S809:Yes)、w=5に対するループ処理S804A~S804Bを実行する。一方、文書データ生成部406は、認識度P(1)が第3閾値Th_C未満の場合に(S809:No)、ステップS810及びループ処理S804A~S804Bをスキップする。
【0083】
w=5に対するループ処理S804A~S804Bにおいて、文書データ生成部406は、認識度P(2)が第3閾値Th_C以上だと判断して(S805:Yes)、認識度P(2)に対応するテキストC(2)=“熊”が図10のコメント領域1002に配置されるように、文字コードC(2)=“0xB7A7”を文書データに設定すると共に、文字画像“能”と同一のIDを割り当てる(S806)。一方、文書データ生成部406は、認識度P(3)が第3閾値Th_C以上だと判断して(S805:No)、認識度P(3)に対応するテキストC(3)=“態”を文書データに含めない。
【0084】
上記の実施形態によれば、例えば以下の作用効果を奏する。
【0085】
上記の実施形態によれば、認識度P(1)が第1閾値Th_A以上の場合に下線無しのテキストが、認識度P(1)が第1閾値Th_A未満で且つ第2閾値Th_B以上の場合に下線有りのテキストが、認識度P(1)が第2閾値Th_B未満の場合に文字画像が、それぞれテキスト領域に配置される。
【0086】
このように、文字認識部404で算出した認識度Pに応じて、文字画像に対応する文字の態様を異ならせることによって、OCRによる文字認識で誤認識があった場合でも、利用者に元の文字を推測するための手がかりを与えることができる。
【0087】
また、上記の実施形態によれば、認識度P(1)が第2閾値Th_B未満の場合に、コメント領域に代替候補テキストを配置するので、コメント領域に配置された第1候補テキストを修正する必要があるか否かについての判断材料を利用者に与えることができる。一方、認識度Pが第3閾値Th_C未満の場合には代替候補テキストにしないことによって、確からしさの低いテキストが利用者に提案されるのを防止できる。
【0088】
なお、上記の実施形態では、認識度P(1)が第1閾値Th_A以上のテキストに下線を付加せず、認識度P(1)が第1閾値Th_A未満のテキストに下線を付加した例を説明したが、表示態様の異ならせ方は上記の例に限定されない。
【0089】
他の例として、文書データ生成部406は、テキスト領域1001に配置するテキストの色を、認識度P(1)が高いほど濃くし、認識度P(1)が低いほど薄くしてもよい。他の例として、文書データ生成部406は、認識度P(1)が第1閾値Th_A以上のテキストにマーカを付加せず、認識度P(1)が第1閾値Th_A未満のテキストにマーカを付加してもよい。その他、文書データ生成部406は、認識度P(1)に応じて、テキストの書体、斜体か否か、太字か否か、ネガ・ポジ切替(文字色及び背景色の反転)か否か等を異ならせてもよい。
【0090】
さらに、フォント情報の変更は、テキスト領域1001に配置される第1候補テキストに限定されず、コメント領域1002に配置される代替候補テキストにも適用してもよい。これにより、代替候補テキストの確からしさを利用者に認識させることができる。
【0091】
また、コメント領域1002に配置するのは代替テキストに限定されず、文字画像であってもよい。すなわち、文書データ生成部406は、認識度P(1)が第1閾値Th_A未満で且つ第2閾値Th_B以上の場合に、前処理後画像データから抽出した文字画像を、第1候補テキストに関連付けてコメント領域1002に配置してもよい。
【0092】
また、上記の実施形態では、1文字ごとに処理を行い、1文字ごとに候補となる文字をコメント領域に配置する方法を記載しているが、単語(Word)・文節(Clause)レベル等の文字列ごとにひとまとめにして処理を行い、コメント領域に配置することも可能である。
【0093】
また本実施形態では、OCRによる文字認識の認識度に合わせて、「コメント機能」を用いて他の候補文字を表示、もしくはスキャン画像を添付することができる。これにより、利用者にもとの文字を推測するための手がかりを与えることができる。
【0094】
また誤認識があった場合の修正作業においても、コメント領域に配置されている候補のうちで正当な文字がある場合は、「コピー&ペースト」の操作を行うことで、利用者は容易に文字を置き換えることが可能となる。
【0095】
なお、図10などに示した表示形式は、あくまでも一例である。同じオフィス系のアプリケーションを用いても、閲覧モードやアウトラインモードなどの表示モードの切り替えによって表示形式が変化したり、バージョンの差異によっては見え方が変更されたりすることもあり得る。本実施形態では、第1候補テキストと、代替候補テキストとが紐付けられて表示される構成であればよい。換言すれば、本実施形態では、第1候補テキストと、代替候補テキストとが対応付けて表示されるような形式のデータを生成できればよい。このようなデータ形式として、本実施形態では「Open XML」を例示したが、他のデータ形式であっても構わない。
【0096】
本実施形態では、画像形成装置内に文書データ生成装置が組み入れられている態様について説明したが、上記で説明した文書データ生成装置の機能は、PC140やスマートフォンなどに組み入れられてもよい。また、スマートフォンなどのカメラ付き携帯端末で原稿シートを接写し、これをスキャン画像として用いてもよい。尚、カメラ機能によって原稿を接写することを含めて、原稿をスキャンして読み取る、と表現してもよい。また、「スキャン画像」は、本実施形態ではスキャン部により読み取られた画像そのままを指すものとして説明したが、読み取られた画像に対して画像処理(前処理や2値化処理など)を行った後の画像を、「スキャン画像」と称してもよい。
【0097】
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。
【0098】
明細書中の対応テーブル(表)は、機械学習の学習効果によって生成されたものでもよい。また、文字コードと認識度とを機械学習にて分類付けすることで、対応テーブルを使用しなくてもよい。ここで、機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり,コンピュータが,データ識別等の判断に必要なアルゴリズムを,事前に取り込まれる学習データから自律的に生成し,新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習、深層学習のいずれかの方法でもよく、さらに、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。
【0099】
なお、本発明は上述した実施形態に限定されるものではなく、その技術的要旨を逸脱しない範囲で種々の変形が可能であり、特許請求の範囲に記載された技術思想に含まれる技術的事項の全てが本発明の対象となる。上記実施形態は、好適な例を示したものであるが、当業者であれば、開示した内容から様々な変形例を実現することが可能である。そのような変形例も、特許請求の範囲に記載された技術的範囲に含まれる。
【符号の説明】
【0100】
1 :システム
100 :通信ネットワーク
110 :画像形成装置
120 :ファイルサーバ
190 :通信ネットワーク
201,301 :CPU
202a,302 :ROM
202b,303 :RAM
206 :ASIC
208,305 :HDDコントローラ
209,304 HD
210 :コントローラ
220 :近距離通信回路
220a :近距離通信回路
221 :AGPバス
222 :PCIバス
230 :エンジン制御部
231 :スキャナ部
232 :プリンタ部
240 :操作パネル
240a :パネル表示部
240b :操作パネル
250,309 :ネットワークI/F
306 :ディスプレイ
308 :外部機器接続I/F
310 :データバス
311 :キーボード
312 :ポインティングデバイス
314 :RWドライブ
315 :記録メディア
316 :メディアI/F
400 :文書データ生成装置
401 :前処理部
403 :文字領域抽出部
404 :文字認識部
405 :文字消去部
406 :文書データ生成部
504 :文字消去部
1001 :テキスト領域
1002 :コメント領域
1003 :境界線
1004 :リンク線
【先行技術文献】
【特許文献】
【0101】
【文献】特許第5353325号公報
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10