特許6821952 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 凸版印刷株式会社の特許一覧

特許6821952文書画像処理装置、方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6821952

(24)【登録日】2021年1月12日

(45)【発行日】2021年1月27日

(54)【発明の名称】文書画像処理装置、方法およびプログラム

(51)【国際特許分類】

G06K 9/20 20060101AFI20210114BHJP

G06K 9/03 20060101ALI20210114BHJP

G06F 40/166 20200101ALI20210114BHJP

G06F 40/169 20200101ALI20210114BHJP

【ＦＩ】

G06K9/20 340K

G06K9/03 Z

G06F40/166

G06F40/169

【請求項の数】3

【全頁数】15

(21)【出願番号】特願2016-107700(P2016-107700)

(22)【出願日】2016年5月30日

(65)【公開番号】特開2017-215683(P2017-215683A)

(43)【公開日】2017年12月7日

【審査請求日】2019年4月18日

(73)【特許権者】

【識別番号】000003193

【氏名又は名称】凸版印刷株式会社

(74)【代理人】

【識別番号】110001243

【氏名又は名称】特許業務法人谷・阿部特許事務所

(72)【発明者】

【氏名】大澤留次郎

【審査官】新井則和

(56)【参考文献】

【文献】特開平０９−００６９０６（ＪＰ，Ａ）

【文献】特開２００３−０３０５０１（ＪＰ，Ａ）

【文献】特開平０９−１９０４９２（ＪＰ，Ａ）

【文献】特開平０９−２１２５９０（ＪＰ，Ａ）

【文献】特許第３８３７１９３（ＪＰ，Ｂ２）

【文献】特開２０１２−２１２２９３（ＪＰ，Ａ）

【文献】特開平１１−１９１１０１（ＪＰ，Ａ）

【文献】特開昭６０−１５９９７４（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｋ９／００−９／８２

Ｇ０６Ｆ４０／１６６

Ｇ０６Ｆ４０／１６９

(57)【特許請求の範囲】

【請求項1】

ルビ付き文書画像から、親文字を含む本文文字として識別されるべき文字を含む領域を、ルビ文字として識別されるべき文字を含む領域と区別して、識別するための文書画像処理装置であって、
ルビ付き文書画像を解析して、各々が１つの親文字またはルビ文字を含む領域を識別する文字領域識別手段と、
親文字およびルビ文字を含む前記識別された１つの領域についての、１つの親文字を含む領域の幅または高さを設定する文字識別条件設定手段と、
を備え、
前記文字領域識別手段は、前記幅または高さを設定に基づいて、親文字およびルビ文字を含む前記識別された１つの領域を解析して１つの親文字を含む領域を識別するよう構成され、
前記文書画像処理装置は、
文字同定手段とルビ文字編集手段とをさらに備え、
前記文字同定手段は、前記識別された１つの親文字を含む領域について、親文字を同定するように構成され、
前記ルビ文字編集手段は、前記同定された親文字の選択および該選択された親文字に隣接する領域の指定を受信するためのユーザインターフェースを提供して、前記同定された親文字の選択および該選択された親文字に隣接する領域の指定を受信するよう構成され、
前記文字同定手段は、前記選択された親文字に隣接する前記指定された領域について、ルビ文字を同定するようさらに構成され、
前記ルビ文字編集手段は、前記同定された親文字および前記同定されたルビ文字を表示し、前記同定されたルビ文字を編集し、前記同定された親文字と前記同定されたルビ文字または前記編集されたルビ文字とを関連付けて記録するようさらに構成され、
前記文書画像処理装置。

【請求項2】

ルビ付き文書画像から、親文字を含む本文文字として識別されるべき文字を含む領域を、ルビ文字として識別されるべき文字を含む領域と区別して、識別するためのコンピュータにより実行される文書画像処理方法であって、
ルビ付き文書画像を解析して、各々が１つの親文字またはルビ文字を含む領域を識別することと、
親文字およびルビ文字を含む前記識別された１つの領域についての、１つの親文字を含む領域の幅または高さを設定することと、
前記幅または高さの設定に基づいて、親文字およびルビ文字を含む前記識別された１つの領域を解析して１つの親文字を含む領域を識別することと、
を含み、
前記文書画像処理方法は、
前記識別された１つの親文字を含む領域について、親文字を同定することと、
前記同定された親文字の選択および該選択された親文字に隣接する領域の指定を受信するためのユーザインターフェースを提供することと、
前記同定された親文字の選択および該選択された親文字に隣接する領域の指定を受信することと、
前記選択された親文字に隣接する前記指定された領域について、ルビ文字を同定することと、
前記同定された親文字および前記同定されたルビ文字を表示し、前記同定されたルビ文字を編集し、前記同定された親文字と前記同定されたルビ文字または前記編集されたルビ文字とを関連付けて記録することと
をさらに含む、前記文書画像処理方法。

【請求項3】

ルビ付き文書画像から、親文字を含む本文文字として識別されるべき文字を含む領域を、ルビ文字として識別されるべき文字を含む領域と区別して、識別する文書画像処理方法をコンピュータに実行させるためのプログラムであって、前記文書画像処理方法は、
ルビ付き文書画像を解析して、各々が１つの親文字またはルビ文字を含む領域を識別することと、
親文字およびルビ文字を含む前記識別された１つの領域についての、１つの親文字を含む領域の幅または高さを設定することと、
前記幅または高さの設定に基づいて、親文字およびルビ文字を含む前記識別された１つの領域を解析して１つの親文字を含む領域を識別することと、
を実行させることと、を含み、
前記文書画像処理方法は、
前記識別された１つの親文字を含む領域について、親文字を同定することと、
前記同定された親文字の選択および該選択された親文字に隣接する領域の指定を受信するためのユーザインターフェースを提供することと、
前記同定された親文字の選択および該選択された親文字に隣接する領域の指定を受信することと、
前記選択された親文字に隣接する前記指定された領域について、ルビ文字を同定することと、
前記同定された親文字および前記同定されたルビ文字を表示し、前記同定されたルビ文字を編集し、前記同定された親文字と前記同定されたルビ文字または前記編集されたルビ文字とを関連付けて記録することと
をさらに含む、前記プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、文書画像処理装置、方法およびプログラムに関し、より詳細には、ルビが記された文書を画像化した画像から、本文中の文字を識別して、識別された１つ以上の本文中の文字のうちのルビの文字が記された１つ以上の文字の選択を受け取り、選択された１つ以上の文字に記された１つ以上のルビの文字を識別し、選択された１つ以上の文字と識別された１つ以上のルビの文字とを関連付けるための文書画像処理装置、方法およびプログラムに関する。

【背景技術】

【0002】

従来、文書を画像化した画像（以下、文書画像ともいう）から文字を識別してテキストデータに変換する技術（以下、テキスト化技術ともいう）が知られている。テキスト化技術には、光学文字認識（ＯＣＲ：Optical character recognition）等がある。

【0003】

文書には種々の形態があり、本文を構成する文字（以下、本文文字ともいう）のうちの任意の１つ以上の本文文字に対して、読み方（ふりがな）、異なる読み方、意味、説明、および注釈といった役割の１つ以上のより小さな文字（以下、ルビ文字ともいう）を用いて、当該任意の１つ以上の本文文字の側（右側や上側）に記した文書もある。以下、ルビ文字が記された任意の１つ以上の本文文字を親文字ともいう。

【0004】

ルビが記された文書を画像化した画像（以下、ルビ付き文書画像という）に一般的なテキスト化技術を用いると、本文文字からなる行（以下、本文文字行ともいう）とルビ文字からなる行（以下、ルビ文字行ともいう）とが混在して識別される。

【0005】

図１は、文書画像に一般的なテキスト化技術により、本文文字行とルビ文字行とが混在して識別された結果を示す図である。図１には、９つの行が示され、１、３、５および７行目はルビ文字行である。２、４、６、８および９行目は本文文字行である。図１に示す例は、１から９行目まで順に、ルビ文字行、本文文字行、ルビ文字行、本文文字行、ルビ文字行、本文文字行、ルビ文字行、本文文字行、本文文字行が混在した状態を示す。このように、ルビ文字行と本文文字行とが混在した状態のテキストデータは利便性に欠ける。

【0006】

ルビ付き文書画像をテキスト化する際に、本文文字行とルビ文字行を判別して、本文文字中の親文字とルビ文字とを関連付ける技術が知られている（例えば、特許文献１参照）。

【先行技術文献】

【特許文献】

【0007】

【特許文献1】国際公開第２０１４／０５０４８１号

【発明の概要】

【発明が解決しようとする課題】

【0008】

本文文字行とルビ文字行とを判別する前提として、文書画像内の文字（本文文字およびルビ文字）が一つずつに区別されて識別されることが必要となる。

【0009】

しかしながら、本来は１つの文字を含む領域（本文文字（親文字）として識別されるべき文字を含む領域や、ルビ文字として識別されるべき文字を含む領域）が正しく識別されず、複数の文字（例えば、親文字とルビ文字）を含む領域が１つの文字を含む領域（以下、団子領域ともいう）として識別される場合がある。その結果、団子領域に含まれた複数の文字は本来意図した１つの文字と異なる１つ文字として同定（誤認識）される場合がある。したがって、１つの文字を含む領域を高精度に識別することが求められる。例えば、親文字を含む本文文字として識別されるべき文字を含む領域を、ルビ文字として識別されるべき文字を含む領域と高精度に区別して、識別することが求められる。

【0010】

図２は、図１のルビ付き文書画像をテキスト化する工程を説明する図であり、ルビ付き文書画像の先頭部分に位置する「か」、「ま」、「く」、「ら」、「じ」、「だ」、「い」、「鎌」、「倉」、「時」および「代」の１１文字についての領域を例示する図である。

【0011】

図２（ａ）は、図１のルビ付き文書画像の先頭部分に位置する「か」、「ま」および「鎌」の３文字を含む領域が１つの団子領域として誤識別され、他方、「く」、「ら」、「じ」、「だ」、「い」、「倉」、「時」および「代」の８文字の各領域が正しく識別された状態を示す図である。図２（ｂ）に示すように、領域が正しく識別された８文字はそれぞれ正しく同定（文字認識）され、「鎌」、「か」および「ま」の３文字を含む団子領域は、正しく同定されない（誤認識される）結果となる。

【0012】

また、ルビ文字の数ｍに対する親文字の数Ｍの比は、ｍ：Ｍ＝１：１に限らず、様々である。例えば、ルビ文字の数ｍが親文字の数Ｍよりも大きい（例えば、ｍ：Ｍ＝５：１）場合、５つのルビ文字の一部は、１つの親文字に隣接する別の文字（本文文字）の側に配置されるため、ルビ文字と親文字とを高精度に関連付ける技術が求められる。別の例として、複数の親文字の纏りに対して、ルビ文字が記されている場合には、これらの複数の親文字と対応するルビ文字とを高精度に関連付ける技術が求められる。

【0013】

図２（ｃ）は、ｍ：Ｍ＝７：４の例、すなわち、４つの親文字と、７つのルビ文字が正しく同定（文字認識）された状態を示す図である。図１のルビ付き文書画像の文脈から、４つの親文字「鎌」、「倉」、「時」および「代」は、歴史上の時代区分を示す「鎌倉時代」の構成文字であり、７つのルビ文字「か」、「ま」、「く」、「ら」、「じ」、「だ」および「い」は、「鎌倉時代」に対して記された読み方（ふりがな）である。したがって、図１のルビ付き文書画像の例では、図２（ｄ）に示すように本文文字「鎌倉時代」とルビ文字「かまくらじだい」とを関連付けることで、テキストデータの利便性が向上する（図２（ｅ）に示すように「鎌倉」と「時代」とに分離されたり、図２（ｆ）に示すように「鎌」と「倉時代」とに分離されたりすることがなくなる）。

【0014】

他方、図２（ｅ）に示すように「鎌倉」と「時代」とを分離することが望ましい文脈のルビ付き文字画像（図１のルビ付き文書画像の文脈と異なる）をテキスト化する場合には、本文文字「鎌倉」とルビ文字「かまくら」とを関連付け、また、本文文字「時代」とルビ文字「じだい」とを関連付けることで、テキストデータの利便性が向上する。

【0015】

さらに、ルビ文字は、本文文字や親文字に比べより小さい文字が用いられるため、誤って同定（誤認識）される可能性が高い。したがって、ルビ文字と親文字とを関連付ける再に、ルビ文字を編集（修正）できることが望ましい。

【0016】

本発明は、このような問題に鑑みてなされたもので、その目的とするところは、ルビ付き文書画像から、親文字を含む本文文字として識別されるべき文字を含む領域を、ルビ文字として識別されるべき文字を含む領域と高精度に区別して識別するための文書画像処理装置、方法およびプログラムを提供することにある。また、本発明の目的とするところは、識別された１つ以上の本文文字のうちの１つ以上の親文字を選択し、選択した１つ以上の親文字と関連付けられる１つ以上のルビ文字を指定するための文書画像処理装置、方法およびプログラムを提供することにある。

【課題を解決するための手段】

【0017】

このような目的を達成するために、本発明の一態様は、ルビ付き文書画像から、親文字を含む本文文字として識別されるべき文字を含む領域を、ルビ文字として識別されるべき文字を含む領域と区別して、識別するための文書画像処理装置である。文書画像処理装置は、ルビ付き文書画像を解析して、各々が１つの親文字またはルビ文字を含む領域を識別する文字領域識別手段と、親文字およびルビ文字を含む上記識別された１つの領域についての、１つの親文字を含む領域の幅または高さを設定する文字識別条件設定手段と、を備える。文書画像処理装置の文字領域識別手段は、１つの親文字を含む領域の幅または高さの設定に基づいて、親文字およびルビ文字を含む上記識別された１つの領域を解析して１つの親文字を含む領域を識別するよう構成されている。

【0018】

一実施形態では、文書画像処理装置は、文字同定手段とルビ文字編集手段とをさらに備える。文字同定手段は、上記識別された１つの親文字を含む領域について、親文字を同定するように構成され、ルビ文字編集手段は、同定された親文字の選択および該選択された親文字に隣接する領域の指定を受信するよう構成されている。さらに、文字同定手段は、上記指定された領域について、ルビ文字を同定するよう構成され、ルビ文字編集手段は、上記同定されたルビ文字を編集するよう構成されている。

【0019】

本発明の別の態様は、ルビ付き文書画像から、親文字を含む本文文字として識別されるべき文字を含む領域を、ルビ文字として識別されるべき文字を含む領域と区別して、識別するためのコンピュータにより実行される文書画像処理方法、および該文書画像処理方法をコンピュータに実行させるためのプログラムである。

【発明の効果】

【0020】

以上説明したように、本発明によれば、ルビ付き文書画像から、親文字を含む本文文字として識別されるべき文字を含む領域を、ルビ文字として識別されるべき文字を含む領域と高精度に区別して識別するための文書画像処理装置、方法およびプログラムを提供することができる。また、識別された１つ以上の本文文字のうちの１つ以上の親文字を選択し、選択した１つ以上の親文字と関連付けられる１つ以上のルビ文字を指定するための文書画像処理装置、方法およびプログラムを提供することができる。

【図面の簡単な説明】

【0021】

【図1】図１は、文書画像に一般的なテキスト化技術により、本文文字行とルビ文字行とが混在して識別された結果を示す図である。

【図2】図２は、図１のルビ付き文書画像をテキスト化する工程を説明する図である。

【図3】図３は、文書画像処理装置の概略構成図である。

【図4】図４は、文書画像処理装置の機能ブロック図である。

【図5】図５は、文書画像処理装置のユーザインターフェース提供部によって提供されるユーザインターフェースの例を示す図である。

【図6】図６は、図１のルビ付き文書画像をテキスト化する工程を説明する図であり、親文字を含む本文文字として識別されるべき文字を含む領域を、ルビ文字として識別されるべき文字を含む領域から区別して識別する方法を説明するための図である。

【図7】図７は、図１のルビ付き文書画像をテキスト化する工程を説明する図であり、親文字を含む本文文字として識別されるべき文字を含む領域が、ルビ文字として識別されるべき文字を含む領域から区別され識別された状態を示す図である。

【図8】図８はテキスト化の結果を示す図であって、（ａ）は、複数の文字を含む領域が１つの領域として誤識別された例を示す図であり、（ｂ）は、一実施形態により、親文字を含む本文文字として識別されるべき文字を含む領域が、ルビ文字として識別されるべき文字を含む領域から区別され正しく識別された例を示す図である。

【図9】図９は、識別された１つ以上の本文文字のうちの１つ以上の親文字を選択し、選択した１つ以上の親文字と関連付けられる１つ以上のルビ文字を指定する方法を説明するための図である。

【図10】図１０は、文書画像処理装置のユーザインターフェース提供部によって提供されるユーザインターフェースの例を示す図である。

【図11】図１１は、文書画像処理方法のフローを示す図である。

【発明を実施するための形態】

【0022】

以下、図面を参照しながら本発明の実施形態について詳細に説明する。

【0023】

図３は、本願発明の実施形態に係る文書画像処理装置の概略構成図である。文書画像処理装置は、コンピュータを用いて実装することができる。文書画像処理装置、すなわちコンピュータ３００は、プロセッサ３０２と、メモリ３０４と、ストレージデバイス３０６と、入力デバイス３０８と、ディスプレイデバイス３１０と、通信インターフェース（ＩＦ）３１２と、周辺機器ＩＦ３１４とを備える。図３には、コンピュータ３００とともに、該コンピュータと接続され文書画像データ（単に、文書画像とももいう）３２２を提供する、光学画像読取機器３１６と、他のコンピュータ３１８と、外部ストレージデバイス３２０とが示されている。

【0024】

コンピュータ３００は、デスクトップ型、ラップトップ型、タブレット型等、いずれのタイプでもよい。

【0025】

プロセッサ３０２は、ＣＰＵ（Central Processing Unit）の他、ＧＰＵ（Graphics Processing Unit）やコプロセッサ（co-processor）を含んでもよい。メモリ３０４は、ＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）などの半導体憶装置であり、プロセッサ３０２が、例えば、ストレージデバイス３０６に記録されたプログラムを実行することにより以下に説明する各種処理を実行する際に、ワークエリアを提供する。

【0026】

ストレージデバイス３０６、ＨＤＤ（hard disk drive）などの磁気ドライブ、ＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）やＢＤ（Blu-ray Disc）などの光学ドライブ及びＳＳＤ（Solid State Drive）などの半導体ドライブのいずれでもよい。ストレージデバイス３０６は、内蔵型である必要はなく、外部ストレージデバイス３２０のように外付型でもあってもよい。

【0027】

入力デバイス３０８、キーボード、コンピュータマウスを含むポインティングデバイス、タッチパッド及びマイクロフォン等の入力デバイスを含んでもよい。後述するユーザインターフェースを介して、入力デバイス３０８から各種条件（設定値）を受け取ることができる。

【0028】

ディスプレイデバイス３１０、タッチ式または非タッチ式等の表示装置であり、ユーザと対話するために、後述するユーザインターフェースを表示する。

【0029】

通信ＩＦ３１２は、有線通信ＩＦや無線通信ＩＦなどの通信ＩＦであり、外部の光学画像読取機器３１６、他のコンピュータ３１８および／または外部ストレージデバイス３２０と通信して文書画像データ３２２を通信することができる。

【0030】

周辺機器ＩＦ３１４は、シリアルバス、パラレルバス、ＵＳＢ（Universal Serial Bus）等の各種バスＩＦであり、外部の光学画像読取機器３１６、他のコンピュータ３１８および／または外部ストレージデバイス３２０を接続して、文書画像データ３２２を通信することができる。

【0031】

光学画像読取機器３１６は、スキャナ装置やデジタルカメラ等であり、文書画像を読み取って文書画像データを出力する装置である。他のコンピュータ３１８および外部ストレージデバイス３２０は、文書画像データを記憶する領域を有し、コンピュータ３００からの要求に応答して、文書画像データを読み出して提供する装置である。

【0032】

図４は、コンピュータ３００を用いて実装される文書画像処理装置の機能ブロック図である。各機能は、プロセッサ３０２がプログラムを実行することで実装される。文書画像処理装置は、文字識別部４００と、ユーザインターフェース提供４２０とを含む。

【0033】

ユーザインターフェース提供４２０は、１つの文字を含むとされ得る領域（文字領域識別範囲）の識別のための条件や、ルビ文字やルビ文字行を識別するための条件や、ルビ文字やルビ文字行の強調表示のオン／オフの切り替えを設定するためのユーザインターフェースを提供する機能を担う。また、ユーザインターフェース提供４２０は、１つ以上の親文字の選択や、選択された親文字と関連づけられるルビ文字を編集するためのユーザインターフェースを提供する機能を担う。

【0034】

文字識別部４００は、ユーザインターフェースを介して指定された条件または設定に基づいて、文書画像データを解析して、各々が１つの文字を含むとされ得る領域（文字領域識別範囲）を識別し、識別された各領域に含まれる文字を同定（文字認識）し、識別された文字データを出力する機能を担う。

【0035】

文字識別部４００は、文字領域識別部４０２と、文字同定部４０４と、辞書４０６とを含む。

【0036】

文字領域識別部４０２は、文書画像データを解析して、各々が１つの文字を含むとされ得る領域（文字領域識別範囲）を識別する。また、文字領域識別部４０２は、文書画像データのうちの、選択された親文字を含む領域に隣接する、指定された領域を解析して、各々が１つの文字を含むとされ得る領域（ルビ文字領域識別範囲）を識別する。文字領域識別部４０２は、識別した領域を示す情報を出力する。例えば、出力される情報は、識別された矩形の領域の頂点の座標（文書画像データ上の座標）とすることができる。

【0037】

理想的には、図２（ｃ）に示すように１つの本文文字を含む領域と１つのルビ文字を含む領域が正しく識別される。実際には、図２（ａ）および（ｂ）を参照して上述したように、複数の文字を含む団子領域が、１つのルビ文字を含むとされ得る領域として識別される場合がある。このように団子領域が識別された場合には、設定された条件、すなわち、１つの文字を含むとされ得る領域（文字領域識別範囲）の識別のための条件を調整することができる。

【0038】

図５（ｂ）は、親文字とルビ文字を含む団子領域からルビ文字を含む領域をカットして、１つの親文字を含むとされ得る領域を識別するための条件を設定するためのユーザインターフェースの例を示す図である。図５（ｂ）は縦書きの文書を想定している。このユーザインターフェースを使用して、団子領域に含まれる親文字の横方向の左端からの幅（例えば、５０ピクセル）を設定することができる。この例では、１つの親文字を含むとされ得る領域の横方向の幅が左端からの５０ピクセル以上の場合には、５０ピクセル以上を越えた部分の領域がルビ文字を含む領域であると判定されてカットされる。横書きの文書の場合には、１つの親文字を含むとされ得る領域の縦方向の下端からの高さを設定することで、縦書きの文書の場合と同様に、ルビ文字を含む領域をカットすることができる。

【0039】

図６（ａ）は、「か」、「ま」および「鎌」の３文字を含む領域が１つの団子領域として誤識別された状態を示す図である。親文字の幅Ｗ２を設定することで、図６（ｃ）に示すように、「鎌」の１文字を含む領域が、ルビ文字「か」および「ま」と区別され、識別される。

【0040】

図５（ａ）は、ルビ文字やルビ文字行の強調表示のオン／オフの切り替えを設定するためのユーザインターフェースの例を示す図である。このユーザインターフェースを使用して、ルビ文字の幅または高さ（例えば、ピクセル）を設定することで、１つの文字を含むとされ得ると識別された領域を、ルビ文字を含む領域と指定することができる。また、このユーザインターフェースを使用して、当該領域の強調表示のオン／オフを設定することができる。

【0041】

図６に示すように、識別された領域の幅を含む値Ｗ１を設定することで、設定された幅Ｗ１以下の領域に含まれた「か」、「ま」、「く」、「ら」、「じ」、「だ」および「い」の文字ルビ文字（ルビ文字行）と識別される。また、図６（ｂ）に示すように、ルビ文字を含むとされ得る領域の強調表示（例えば、後述するようなルビ文字を囲む矩形のオーバーレイ表示）をオンに設定したり、図６（ｃ）に示すように、ルビ文字を含むとされ得る領域の強調表示をオフに設定したりすることができる。

【0042】

文字同定部４０４は、辞書４０６を参照して、１つの親文字を含むとされ得る領域について同定（文字認識）処理を行う。文字同定部４０４は、同定した文字の情報（例えば、ＡＳＣＩＩコードのような文字コード）を出力する。

【0043】

ユーザインターフェース提供４２０は、文字識別条件設定部４２２と、親文字強調部４２４と、ルビ文字強調部４２６と、ルビ文字編集部４２８とを含む。

【0044】

図４を参照すると、文字識別条件設定部４２２は、ユーザインターフェースを介して設定される、１つの文字を含むとされ得る領域（文字領域識別範囲）の識別のための条件や、ルビ文字やルビ文字行を識別するための条件や、ルビ文字やルビ文字行の強調表示のオン／オフの切り替えを受け取る。

【0045】

親文字強調部４２４は、文字領域識別部４０２から出力された情報、すなわち、識別した領域（文字領域識別範囲）を示す情報に基づいて、識別した親文字または本文文字を含むとされ得る領域を強調表示する。例えば、識別された領域を示す矩形を処理中のルビ付き文書画像にオーバーレイ表示することができる。

【0046】

ルビ文字強調部４２６は、文字領域識別部４０２から出力された情報、すなわち、識別した領域（ルビ文字領域識別範囲）を示す情報に基づいて、識別したルビ文字を含むとされ得る領域を強調表示する。例えば、識別されたルビ文字を含むとされ得る領域を示す矩形を処理中のルビ付き文書画像にオーバーレイ表示することができる。

【0047】

図７は、本実施形態にしがたって区別された本文文字行およびルビ文字行のうち、本文文字行を強調表示した状態を示す。本文文字行に含まれる本文文字のみが矩形で強調教示されるとともに、１から４までの行番号を含む本文行の表示が表示されている。

【0048】

図８は、為永春水著、「花鳥風月 : お八重幸次郎」、国立国会図書館近代デジタルライブラリー［http://kindai.ndl.go.jp/info:ndljp/pid/1884901］の２１頁の一部を示す図である。図８（ａ）は、本発明の実施形態の拠らない文字領域識別処理を適用した結果を示す図である。図８（ａ）から解るように、本文文字行とルビ文字行とが混在して識別され、また団子領域として識別された領域が多数確認できる。図８（ｂ）は、本発明の実施形態の拠る文字領域識別処理を適用した結果を示す図である。図８（ｂ）から解るように、本発明の実施形態を適用することで、親文字を含む本文文字として識別されるべき文字を含む領域を、ルビ文字として識別されるべき文字を含む領域と高精度に区別して識別することができる。

【0049】

再び図４を参照すると、ルビ文字編集部４２８は、ユーザインターフェースを介して、文書画像データのうちの親文字を含む領域の選択、および当該選択した領域に隣接する領域の指定を受け取る。この選択および指定にしたがって、文字領域識別部４０２により、親文字を含む領域に隣接する指定された領域が解析されて各々が１つの文字を含むとされ得る領域（ルビ文字領域識別範囲）が識別され、さらに、ルビ文字編集部４２８により、識別されたルビ文字領域識別範囲について同定（文字認識）処理されて同定したルビ文字の情報（例えば、文字コード）が出力される。また、ルビ文字編集部４２８は、ユーザインターフェース内に選択された親文字と同定されたルビ文字を表示し、該ユーザインターフェースを介して同定されたルビ文字の編集を受け取る。

【0050】

図９（ａ）は、図１のルビ付き文書画像の先頭部分に位置する４つの親文字「鎌」、「倉」、「時」、「代」が正しく同定（文字認識）された状態を示す図である。図２（ｄ）を参照して上述したように本文文字「鎌倉時代」とルビ文字「かまくらじだい」とを関連付けることで、テキストデータの利便性が向上する。ルビ文字編集部４２８は、ユーザインターフェースを介して、４つの親文字「鎌」、「倉」、「時」、「代」の選択を受け取り、「鎌倉時代」の領域に隣接する隣接する領域の指定を受け取る。図９（ｂ）に示すように、例えば、隣接する領域は、ユーザインターフェースを介して、入力デバイスから幅Ｗ３および高さ（マージン）Ｗ４の入力を受け取ってもよく、ユーザインターフェース内でポインティングデバイスを用いて矩形を描くことで領域指定されてもよい。図９（ｃ）は、隣接する領域（Ｗ３×Ｗ４の慮域）を操作して同定されたルビ文字「かまくらじだい」が親文字「鎌倉時代」に隣接して強調表示された状態を示す。

【0051】

図１０は、ルビ文字編集部４２８が、文書画像データのうちの親文字を含む領域の選択、および当該選択した領域に隣接する領域の指定を受け取り、親文字と同定されたルビ文字を表示し、該ユーザインターフェースを介して同定されたルビ文字の編集を受け取るユーザインターフェースの例を示す図である。ユーザは、親文字を含む領域を選択し、隣接する領域を指定してからＯＣＲボタンを押すことで、文字同定部４０４に隣接する領域に対する同定（文字認識）処理を指示することができる。また、ユーザは、同定され表示されたルビ文字を確認し、誤りがある場合にはこれを編集することができる。

【0052】

図１１は、本発明の実施形態に係る文書画像処理方法のフローを示す図である。この方法は、上述したコンピュータのプロセッサ３０２が、メモリ３０４、ストレージデバイス３０６、他のコンピュータ３１８または外部ストレージデバイス３２０に臆されたプログラムを実行することで実施されることができる。この方法で処理されるルビ付き文書画像データは、上述したように光学画像読取機器３１６と、他のコンピュータ３１８と、外部ストレージデバイス３２０から提供されたものでもよく、予めメモリ３０４、ストレージデバイス３０６に記憶されたものでもよい。

【0053】

Ｓ１１０１で、ディスプレイデバイス３１０がユーザインターフェースを表示する。ユーザインターフェースはユーザインターフェース部４２０により提供される。コンピュータはルビ付き文書画像データを読み出し、ユーザインターフェース内に表示することができる。

【0054】

Ｓ１１０３で、文字領域識別部４０２が、ルビ付き文書画像データに対して文字領域の識別処理を実行する。

【0055】

Ｓ１１０５で、親文字強調部４２４およびルビ文字強調部４２６が、識別された文字領域（親文字を含む本文文字を含む領域およびルビ文字を含む領域）を強調表示する。ユーザインターフェース内には、図２（ａ）に示した団子領域が、他の部分のともに表示される。

【0056】

Ｓ１１０７で、文字識別条件設定部４２２がユーザインターフェース（図５（ｂ））を提供し、ディスプレイデバイス３１０がこれを表示する。文字識別条件設定部４２２が、ユーザインターフェースを解して、識別された文字領域の誤り部分に対する親文字領域識別範囲の設定（識別された文字領域の一部（ルビ文字を含む部分）をカットするための条件（幅の条件））を受け取る。受け取った条件にしたがって、文字領域識別部４０２が、ルビ付き文書画像データに対して文字領域の識別処理を再実行する。親文字強調部４２４およびルビ文字強調部４２６が、識別された文字領域（親文字を含む本文文字を含む領域およびルビ文字を含む領域）を強調表示する。ここで、文字識別条件設定部４２２が、ユーザインターフェース（図５（ａ））を提供し、ルビ文字領域のオン／オフの設定を受け取ってもよい。

【0057】

Ｓ１１０９で、文字同定部４０４が識別された文字領域（親文字領域および／またはルビ文字領域）の各部分に対する文字同定（文字認識）処理を実行する。

【0058】

Ｓ１１１１で、ルビ文字編集部４２８が、ユーザインターフェース（図１０）を提供し、ディスプレイデバイス３１０がこれを表示する。同定結果（親文字および／またはルビ文字）がユーザインターフェース内に表示される。

【0059】

Ｓ１１１３で、ルビ文字編集部４２８が、ユーザインターフェース（図１０）を介して、文書画像データのうちの親文字を含む領域の選択、および当該選択した領域に隣接する領域の指定を受け取る。ルビ文字編集部４２８が、ユーザインターフェースに、選択された親文字の領域についてＳ１１０９で同定された親文字を表示する。同定された親文字と一緒に、指定された隣接する領域についてＳ１１１１で同定されたルビ文字を表示してもよい。

【0060】

Ｓ１１１５で、文字同定部４０４が、識別されたルビ文字識別領域、すなわちＳ１１１３で指定された隣接する領域に対する文字同定（文字認識）処理を事項する。

【0061】

Ｓ１１１７で、ルビ文字編集部４２８が、ユーザインターフェース（図１０）に、Ｓ１１１１で選択された領域のＳ１１０９で同定された親文字およびＳ１１１５で同定されたルビ文字を表示する。

【0062】

Ｓ１１１９で、ユーザは同定結果（親文字および／またはルビ文字）を確認して編集する。ルビ文字編集部４２８が、ユーザインターフェース（図１０）を介して、編集結果を受け取る。

【0063】

Ｓ１１２１で、同定結果または編集結果を記録する（親文字およびルビ文字を関連付けて記録する）。

【0064】

【符号の説明】

【0065】

３００コンピュータ
３０２プロセッサ
３０４メモリ
３０６ストレージデバイス
３０８入力デバイス
３１０ディスプレイデバイス
３１２通信インターフェース（ＩＦ）
３１４周辺機器インターフェース（ＩＦ）
３１６光学画像読取機器
３１８他のコンピュータ
３２０外部ストレージデバイス
３２２文書画像データ
４００文字識別部
４０２文字領域識別部
４０４文字同定部
４０６辞書
４２０ユーザインターフェース提供部
４２２文字識別条件（文字領域識別範囲）設定部
４２４親文字強調部
４２６ルビ文字強調部
４２８ルビ文字編集部

【図1】