特許第6821952号(P6821952)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 凸版印刷株式会社の特許一覧

特許6821952文書画像処理装置、方法およびプログラム
<>
  • 特許6821952-文書画像処理装置、方法およびプログラム 図000002
  • 特許6821952-文書画像処理装置、方法およびプログラム 図000003
  • 特許6821952-文書画像処理装置、方法およびプログラム 図000004
  • 特許6821952-文書画像処理装置、方法およびプログラム 図000005
  • 特許6821952-文書画像処理装置、方法およびプログラム 図000006
  • 特許6821952-文書画像処理装置、方法およびプログラム 図000007
  • 特許6821952-文書画像処理装置、方法およびプログラム 図000008
  • 特許6821952-文書画像処理装置、方法およびプログラム 図000009
  • 特許6821952-文書画像処理装置、方法およびプログラム 図000010
  • 特許6821952-文書画像処理装置、方法およびプログラム 図000011
  • 特許6821952-文書画像処理装置、方法およびプログラム 図000012
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6821952
(24)【登録日】2021年1月12日
(45)【発行日】2021年1月27日
(54)【発明の名称】文書画像処理装置、方法およびプログラム
(51)【国際特許分類】
   G06K 9/20 20060101AFI20210114BHJP
   G06K 9/03 20060101ALI20210114BHJP
   G06F 40/166 20200101ALI20210114BHJP
   G06F 40/169 20200101ALI20210114BHJP
【FI】
   G06K9/20 340K
   G06K9/03 Z
   G06F40/166
   G06F40/169
【請求項の数】3
【全頁数】15
(21)【出願番号】特願2016-107700(P2016-107700)
(22)【出願日】2016年5月30日
(65)【公開番号】特開2017-215683(P2017-215683A)
(43)【公開日】2017年12月7日
【審査請求日】2019年4月18日
(73)【特許権者】
【識別番号】000003193
【氏名又は名称】凸版印刷株式会社
(74)【代理人】
【識別番号】110001243
【氏名又は名称】特許業務法人 谷・阿部特許事務所
(72)【発明者】
【氏名】大澤 留次郎
【審査官】 新井 則和
(56)【参考文献】
【文献】 特開平09−006906(JP,A)
【文献】 特開2003−030501(JP,A)
【文献】 特開平09−190492(JP,A)
【文献】 特開平09−212590(JP,A)
【文献】 特許第3837193(JP,B2)
【文献】 特開2012−212293(JP,A)
【文献】 特開平11−191101(JP,A)
【文献】 特開昭60−159974(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06K 9/00−9/82
G06F 40/166
G06F 40/169
(57)【特許請求の範囲】
【請求項1】
ルビ付き文書画像から、親文字を含む本文文字として識別されるべき文字を含む領域を、ルビ文字として識別されるべき文字を含む領域と区別して、識別するための文書画像処理装置であって、
ルビ付き文書画像を解析して、各々が1つの親文字またはルビ文字を含む領域を識別する文字領域識別手段と、
親文字およびルビ文字を含む前記識別された1つの領域についての、1つの親文字を含む領域の幅または高さを設定する文字識別条件設定手段と、
を備え、
前記文字領域識別手段は、前記幅または高さを設定に基づいて、親文字およびルビ文字を含む前記識別された1つの領域を解析して1つの親文字を含む領域を識別するよう構成され
前記文書画像処理装置は、
文字同定手段とルビ文字編集手段とをさらに備え、
前記文字同定手段は、前記識別された1つの親文字を含む領域について、親文字を同定するように構成され、
前記ルビ文字編集手段は、前記同定された親文字の選択および該選択された親文字に隣接する領域の指定を受信するためのユーザインターフェースを提供して、前記同定された親文字の選択および該選択された親文字に隣接する領域の指定を受信するよう構成され、
前記文字同定手段は、前記選択された親文字に隣接する前記指定された領域について、ルビ文字を同定するようさらに構成され、
前記ルビ文字編集手段は、前記同定された親文字および前記同定されたルビ文字を表示し、前記同定されたルビ文字を編集し、前記同定された親文字と前記同定されたルビ文字または前記編集されたルビ文字とを関連付けて記録するようさらに構成され、
前記文書画像処理装置
【請求項2】
ルビ付き文書画像から、親文字を含む本文文字として識別されるべき文字を含む領域を、ルビ文字として識別されるべき文字を含む領域と区別して、識別するためのコンピュータにより実行される文書画像処理方法であって、
ルビ付き文書画像を解析して、各々が1つの親文字またはルビ文字を含む領域を識別することと、
親文字およびルビ文字を含む前記識別された1つの領域についての、1つの親文字を含む領域の幅または高さを設定することと、
前記幅または高さの設定に基づいて、親文字およびルビ文字を含む前記識別された1つの領域を解析して1つの親文字を含む領域を識別することと、
を含み、
前記文書画像処理方法は、
前記識別された1つの親文字を含む領域について、親文字を同定することと、
前記同定された親文字の選択および該選択された親文字に隣接する領域の指定を受信するためのユーザインターフェースを提供することと、
前記同定された親文字の選択および該選択された親文字に隣接する領域の指定を受信することと、
前記選択された親文字に隣接する前記指定された領域について、ルビ文字を同定することと、
前記同定された親文字および前記同定されたルビ文字を表示し、前記同定されたルビ文字を編集し、前記同定された親文字と前記同定されたルビ文字または前記編集されたルビ文字とを関連付けて記録することと
をさらに含む、前記文書画像処理方法
【請求項3】
ルビ付き文書画像から、親文字を含む本文文字として識別されるべき文字を含む領域を、ルビ文字として識別されるべき文字を含む領域と区別して、識別する文書画像処理方法をコンピュータに実行させるためのプログラムであって、前記文書画像処理方法は、
ルビ付き文書画像を解析して、各々が1つの親文字またはルビ文字を含む領域を識別することと、
親文字およびルビ文字を含む前記識別された1つの領域についての、1つの親文字を含む領域の幅または高さを設定することと、
前記幅または高さの設定に基づいて、親文字およびルビ文字を含む前記識別された1つの領域を解析して1つの親文字を含む領域を識別することと、
を実行させることと、を含み、
前記文書画像処理方法は、
前記識別された1つの親文字を含む領域について、親文字を同定することと、
前記同定された親文字の選択および該選択された親文字に隣接する領域の指定を受信するためのユーザインターフェースを提供することと、
前記同定された親文字の選択および該選択された親文字に隣接する領域の指定を受信することと、
前記選択された親文字に隣接する前記指定された領域について、ルビ文字を同定することと、
前記同定された親文字および前記同定されたルビ文字を表示し、前記同定されたルビ文字を編集し、前記同定された親文字と前記同定されたルビ文字または前記編集されたルビ文字とを関連付けて記録することと
をさらに含む、前記プログラム
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書画像処理装置、方法およびプログラムに関し、より詳細には、ルビが記された文書を画像化した画像から、本文中の文字を識別して、識別された1つ以上の本文中の文字のうちのルビの文字が記された1つ以上の文字の選択を受け取り、選択された1つ以上の文字に記された1つ以上のルビの文字を識別し、選択された1つ以上の文字と識別された1つ以上のルビの文字とを関連付けるための文書画像処理装置、方法およびプログラムに関する。
【背景技術】
【0002】
従来、文書を画像化した画像(以下、文書画像ともいう)から文字を識別してテキストデータに変換する技術(以下、テキスト化技術ともいう)が知られている。テキスト化技術には、光学文字認識(OCR:Optical character recognition)等がある。
【0003】
文書には種々の形態があり、本文を構成する文字(以下、本文文字ともいう)のうちの任意の1つ以上の本文文字に対して、読み方(ふりがな)、異なる読み方、意味、説明、および注釈といった役割の1つ以上のより小さな文字(以下、ルビ文字ともいう)を用いて、当該任意の1つ以上の本文文字の側(右側や上側)に記した文書もある。以下、ルビ文字が記された任意の1つ以上の本文文字を親文字ともいう。
【0004】
ルビが記された文書を画像化した画像(以下、ルビ付き文書画像という)に一般的なテキスト化技術を用いると、本文文字からなる行(以下、本文文字行ともいう)とルビ文字からなる行(以下、ルビ文字行ともいう)とが混在して識別される。
【0005】
図1は、文書画像に一般的なテキスト化技術により、本文文字行とルビ文字行とが混在して識別された結果を示す図である。図1には、9つの行が示され、1、3、5および7行目はルビ文字行である。2、4、6、8および9行目は本文文字行である。図1に示す例は、1から9行目まで順に、ルビ文字行、本文文字行、ルビ文字行、本文文字行、ルビ文字行、本文文字行、ルビ文字行、本文文字行、本文文字行が混在した状態を示す。このように、ルビ文字行と本文文字行とが混在した状態のテキストデータは利便性に欠ける。
【0006】
ルビ付き文書画像をテキスト化する際に、本文文字行とルビ文字行を判別して、本文文字中の親文字とルビ文字とを関連付ける技術が知られている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】国際公開第2014/050481号
【発明の概要】
【発明が解決しようとする課題】
【0008】
本文文字行とルビ文字行とを判別する前提として、文書画像内の文字(本文文字およびルビ文字)が一つずつに区別されて識別されることが必要となる。
【0009】
しかしながら、本来は1つの文字を含む領域(本文文字(親文字)として識別されるべき文字を含む領域や、ルビ文字として識別されるべき文字を含む領域)が正しく識別されず、複数の文字(例えば、親文字とルビ文字)を含む領域が1つの文字を含む領域(以下、団子領域ともいう)として識別される場合がある。その結果、団子領域に含まれた複数の文字は本来意図した1つの文字と異なる1つ文字として同定(誤認識)される場合がある。したがって、1つの文字を含む領域を高精度に識別することが求められる。例えば、親文字を含む本文文字として識別されるべき文字を含む領域を、ルビ文字として識別されるべき文字を含む領域と高精度に区別して、識別することが求められる。
【0010】
図2は、図1のルビ付き文書画像をテキスト化する工程を説明する図であり、ルビ付き文書画像の先頭部分に位置する「か」、「ま」、「く」、「ら」、「じ」、「だ」、「い」、「鎌」、「倉」、「時」および「代」の11文字についての領域を例示する図である。
【0011】
図2(a)は、図1のルビ付き文書画像の先頭部分に位置する「か」、「ま」および「鎌」の3文字を含む領域が1つの団子領域として誤識別され、他方、「く」、「ら」、「じ」、「だ」、「い」、「倉」、「時」および「代」の8文字の各領域が正しく識別された状態を示す図である。図2(b)に示すように、領域が正しく識別された8文字はそれぞれ正しく同定(文字認識)され、「鎌」、「か」および「ま」の3文字を含む団子領域は、正しく同定されない(誤認識される)結果となる。
【0012】
また、ルビ文字の数mに対する親文字の数Mの比は、m:M=1:1に限らず、様々である。例えば、ルビ文字の数mが親文字の数Mよりも大きい(例えば、m:M=5:1)場合、5つのルビ文字の一部は、1つの親文字に隣接する別の文字(本文文字)の側に配置されるため、ルビ文字と親文字とを高精度に関連付ける技術が求められる。別の例として、複数の親文字の纏りに対して、ルビ文字が記されている場合には、これらの複数の親文字と対応するルビ文字とを高精度に関連付ける技術が求められる。
【0013】
図2(c)は、m:M=7:4の例、すなわち、4つの親文字と、7つのルビ文字が正しく同定(文字認識)された状態を示す図である。図1のルビ付き文書画像の文脈から、4つの親文字「鎌」、「倉」、「時」および「代」は、歴史上の時代区分を示す「鎌倉時代」の構成文字であり、7つのルビ文字「か」、「ま」、「く」、「ら」、「じ」、「だ」および「い」は、「鎌倉時代」に対して記された読み方(ふりがな)である。したがって、図1のルビ付き文書画像の例では、図2(d)に示すように本文文字「鎌倉時代」とルビ文字「かまくらじだい」とを関連付けることで、テキストデータの利便性が向上する(図2(e)に示すように「鎌倉」と「時代」とに分離されたり、図2(f)に示すように「鎌」と「倉時代」とに分離されたりすることがなくなる)。
【0014】
他方、図2(e)に示すように「鎌倉」と「時代」とを分離することが望ましい文脈のルビ付き文字画像(図1のルビ付き文書画像の文脈と異なる)をテキスト化する場合には、本文文字「鎌倉」とルビ文字「かまくら」とを関連付け、また、本文文字「時代」とルビ文字「じだい」とを関連付けることで、テキストデータの利便性が向上する。
【0015】
さらに、ルビ文字は、本文文字や親文字に比べより小さい文字が用いられるため、誤って同定(誤認識)される可能性が高い。したがって、ルビ文字と親文字とを関連付ける再に、ルビ文字を編集(修正)できることが望ましい。
【0016】
本発明は、このような問題に鑑みてなされたもので、その目的とするところは、ルビ付き文書画像から、親文字を含む本文文字として識別されるべき文字を含む領域を、ルビ文字として識別されるべき文字を含む領域と高精度に区別して識別するための文書画像処理装置、方法およびプログラムを提供することにある。また、本発明の目的とするところは、識別された1つ以上の本文文字のうちの1つ以上の親文字を選択し、選択した1つ以上の親文字と関連付けられる1つ以上のルビ文字を指定するための文書画像処理装置、方法およびプログラムを提供することにある。
【課題を解決するための手段】
【0017】
このような目的を達成するために、本発明の一態様は、ルビ付き文書画像から、親文字を含む本文文字として識別されるべき文字を含む領域を、ルビ文字として識別されるべき文字を含む領域と区別して、識別するための文書画像処理装置である。文書画像処理装置は、ルビ付き文書画像を解析して、各々が1つの親文字またはルビ文字を含む領域を識別する文字領域識別手段と、親文字およびルビ文字を含む上記識別された1つの領域についての、1つの親文字を含む領域の幅または高さを設定する文字識別条件設定手段と、を備える。文書画像処理装置の文字領域識別手段は、1つの親文字を含む領域の幅または高さの設定に基づいて、親文字およびルビ文字を含む上記識別された1つの領域を解析して1つの親文字を含む領域を識別するよう構成されている。
【0018】
一実施形態では、文書画像処理装置は、文字同定手段とルビ文字編集手段とをさらに備える。文字同定手段は、上記識別された1つの親文字を含む領域について、親文字を同定するように構成され、ルビ文字編集手段は、同定された親文字の選択および該選択された親文字に隣接する領域の指定を受信するよう構成されている。さらに、文字同定手段は、上記指定された領域について、ルビ文字を同定するよう構成され、ルビ文字編集手段は、上記同定されたルビ文字を編集するよう構成されている。
【0019】
本発明の別の態様は、ルビ付き文書画像から、親文字を含む本文文字として識別されるべき文字を含む領域を、ルビ文字として識別されるべき文字を含む領域と区別して、識別するためのコンピュータにより実行される文書画像処理方法、および該文書画像処理方法をコンピュータに実行させるためのプログラムである。
【発明の効果】
【0020】
以上説明したように、本発明によれば、ルビ付き文書画像から、親文字を含む本文文字として識別されるべき文字を含む領域を、ルビ文字として識別されるべき文字を含む領域と高精度に区別して識別するための文書画像処理装置、方法およびプログラムを提供することができる。また、識別された1つ以上の本文文字のうちの1つ以上の親文字を選択し、選択した1つ以上の親文字と関連付けられる1つ以上のルビ文字を指定するための文書画像処理装置、方法およびプログラムを提供することができる。
【図面の簡単な説明】
【0021】
図1図1は、文書画像に一般的なテキスト化技術により、本文文字行とルビ文字行とが混在して識別された結果を示す図である。
図2図2は、図1のルビ付き文書画像をテキスト化する工程を説明する図である。
図3図3は、文書画像処理装置の概略構成図である。
図4図4は、文書画像処理装置の機能ブロック図である。
図5図5は、文書画像処理装置のユーザインターフェース提供部によって提供されるユーザインターフェースの例を示す図である。
図6図6は、図1のルビ付き文書画像をテキスト化する工程を説明する図であり、親文字を含む本文文字として識別されるべき文字を含む領域を、ルビ文字として識別されるべき文字を含む領域から区別して識別する方法を説明するための図である。
図7図7は、図1のルビ付き文書画像をテキスト化する工程を説明する図であり、親文字を含む本文文字として識別されるべき文字を含む領域が、ルビ文字として識別されるべき文字を含む領域から区別され識別された状態を示す図である。
図8図8はテキスト化の結果を示す図であって、(a)は、複数の文字を含む領域が1つの領域として誤識別された例を示す図であり、(b)は、一実施形態により、親文字を含む本文文字として識別されるべき文字を含む領域が、ルビ文字として識別されるべき文字を含む領域から区別され正しく識別された例を示す図である。
図9図9は、識別された1つ以上の本文文字のうちの1つ以上の親文字を選択し、選択した1つ以上の親文字と関連付けられる1つ以上のルビ文字を指定する方法を説明するための図である。
図10図10は、文書画像処理装置のユーザインターフェース提供部によって提供されるユーザインターフェースの例を示す図である。
図11図11は、文書画像処理方法のフローを示す図である。
【発明を実施するための形態】
【0022】
以下、図面を参照しながら本発明の実施形態について詳細に説明する。
【0023】
図3は、本願発明の実施形態に係る文書画像処理装置の概略構成図である。文書画像処理装置は、コンピュータを用いて実装することができる。文書画像処理装置、すなわちコンピュータ300は、プロセッサ302と、メモリ304と、ストレージデバイス306と、入力デバイス308と、ディスプレイデバイス310と、通信インターフェース(IF)312と、周辺機器IF314とを備える。図3には、コンピュータ300とともに、該コンピュータと接続され文書画像データ(単に、文書画像とももいう)322を提供する、光学画像読取機器316と、他のコンピュータ318と、外部ストレージデバイス320とが示されている。
【0024】
コンピュータ300は、デスクトップ型、ラップトップ型、タブレット型等、いずれのタイプでもよい。
【0025】
プロセッサ302は、CPU(Central Processing Unit)の他、GPU(Graphics Processing Unit)やコプロセッサ(co-processor)を含んでもよい。メモリ304は、ROM(Read Only Memory)やRAM(Random Access Memory)などの半導体憶装置であり、プロセッサ302が、例えば、ストレージデバイス306に記録されたプログラムを実行することにより以下に説明する各種処理を実行する際に、ワークエリアを提供する。
【0026】
ストレージデバイス306、HDD(hard disk drive)などの磁気ドライブ、CD(Compact Disc)やDVD(Digital Versatile Disc)やBD(Blu-ray Disc)などの光学ドライブ及びSSD(Solid State Drive)などの半導体ドライブのいずれでもよい。ストレージデバイス306は、内蔵型である必要はなく、外部ストレージデバイス320のように外付型でもあってもよい。
【0027】
入力デバイス308、キーボード、コンピュータマウスを含むポインティングデバイス、タッチパッド及びマイクロフォン等の入力デバイスを含んでもよい。後述するユーザインターフェースを介して、入力デバイス308から各種条件(設定値)を受け取ることができる。
【0028】
ディスプレイデバイス310、タッチ式または非タッチ式等の表示装置であり、ユーザと対話するために、後述するユーザインターフェースを表示する。
【0029】
通信IF312は、有線通信IFや無線通信IFなどの通信IFであり、外部の光学画像読取機器316、他のコンピュータ318および/または外部ストレージデバイス320と通信して文書画像データ322を通信することができる。
【0030】
周辺機器IF314は、シリアルバス、パラレルバス、USB(Universal Serial Bus)等の各種バスIFであり、外部の光学画像読取機器316、他のコンピュータ318および/または外部ストレージデバイス320を接続して、文書画像データ322を通信することができる。
【0031】
光学画像読取機器316は、スキャナ装置やデジタルカメラ等であり、文書画像を読み取って文書画像データを出力する装置である。他のコンピュータ318および外部ストレージデバイス320は、文書画像データを記憶する領域を有し、コンピュータ300からの要求に応答して、文書画像データを読み出して提供する装置である。
【0032】
図4は、コンピュータ300を用いて実装される文書画像処理装置の機能ブロック図である。各機能は、プロセッサ302がプログラムを実行することで実装される。文書画像処理装置は、文字識別部400と、ユーザインターフェース提供420とを含む。
【0033】
ユーザインターフェース提供420は、1つの文字を含むとされ得る領域(文字領域識別範囲)の識別のための条件や、ルビ文字やルビ文字行を識別するための条件や、ルビ文字やルビ文字行の強調表示のオン/オフの切り替えを設定するためのユーザインターフェースを提供する機能を担う。また、ユーザインターフェース提供420は、1つ以上の親文字の選択や、選択された親文字と関連づけられるルビ文字を編集するためのユーザインターフェースを提供する機能を担う。
【0034】
文字識別部400は、ユーザインターフェースを介して指定された条件または設定に基づいて、文書画像データを解析して、各々が1つの文字を含むとされ得る領域(文字領域識別範囲)を識別し、識別された各領域に含まれる文字を同定(文字認識)し、識別された文字データを出力する機能を担う。
【0035】
文字識別部400は、文字領域識別部402と、文字同定部404と、辞書406とを含む。
【0036】
文字領域識別部402は、文書画像データを解析して、各々が1つの文字を含むとされ得る領域(文字領域識別範囲)を識別する。また、文字領域識別部402は、文書画像データのうちの、選択された親文字を含む領域に隣接する、指定された領域を解析して、各々が1つの文字を含むとされ得る領域(ルビ文字領域識別範囲)を識別する。文字領域識別部402は、識別した領域を示す情報を出力する。例えば、出力される情報は、識別された矩形の領域の頂点の座標(文書画像データ上の座標)とすることができる。
【0037】
理想的には、図2(c)に示すように1つの本文文字を含む領域と1つのルビ文字を含む領域が正しく識別される。実際には、図2(a)および(b)を参照して上述したように、複数の文字を含む団子領域が、1つのルビ文字を含むとされ得る領域として識別される場合がある。このように団子領域が識別された場合には、設定された条件、すなわち、1つの文字を含むとされ得る領域(文字領域識別範囲)の識別のための条件を調整することができる。
【0038】
図5(b)は、親文字とルビ文字を含む団子領域からルビ文字を含む領域をカットして、1つの親文字を含むとされ得る領域を識別するための条件を設定するためのユーザインターフェースの例を示す図である。図5(b)は縦書きの文書を想定している。このユーザインターフェースを使用して、団子領域に含まれる親文字の横方向の左端からの幅(例えば、50ピクセル)を設定することができる。この例では、1つの親文字を含むとされ得る領域の横方向の幅が左端からの50ピクセル以上の場合には、50ピクセル以上を越えた部分の領域がルビ文字を含む領域であると判定されてカットされる。横書きの文書の場合には、1つの親文字を含むとされ得る領域の縦方向の下端からの高さを設定することで、縦書きの文書の場合と同様に、ルビ文字を含む領域をカットすることができる。
【0039】
図6(a)は、「か」、「ま」および「鎌」の3文字を含む領域が1つの団子領域として誤識別された状態を示す図である。親文字の幅W2を設定することで、図6(c)に示すように、「鎌」の1文字を含む領域が、ルビ文字「か」および「ま」と区別され、識別される。
【0040】
図5(a)は、ルビ文字やルビ文字行の強調表示のオン/オフの切り替えを設定するためのユーザインターフェースの例を示す図である。このユーザインターフェースを使用して、ルビ文字の幅または高さ(例えば、ピクセル)を設定することで、1つの文字を含むとされ得ると識別された領域を、ルビ文字を含む領域と指定することができる。また、このユーザインターフェースを使用して、当該領域の強調表示のオン/オフを設定することができる。
【0041】
図6に示すように、識別された領域の幅を含む値W1を設定することで、設定された幅W1以下の領域に含まれた「か」、「ま」、「く」、「ら」、「じ」、「だ」および「い」の文字ルビ文字(ルビ文字行)と識別される。また、図6(b)に示すように、ルビ文字を含むとされ得る領域の強調表示(例えば、後述するようなルビ文字を囲む矩形のオーバーレイ表示)をオンに設定したり、図6(c)に示すように、ルビ文字を含むとされ得る領域の強調表示をオフに設定したりすることができる。
【0042】
文字同定部404は、辞書406を参照して、1つの親文字を含むとされ得る領域について同定(文字認識)処理を行う。文字同定部404は、同定した文字の情報(例えば、ASCIIコードのような文字コード)を出力する。
【0043】
ユーザインターフェース提供420は、文字識別条件設定部422と、親文字強調部424と、ルビ文字強調部426と、ルビ文字編集部428とを含む。
【0044】
図4を参照すると、文字識別条件設定部422は、ユーザインターフェースを介して設定される、1つの文字を含むとされ得る領域(文字領域識別範囲)の識別のための条件や、ルビ文字やルビ文字行を識別するための条件や、ルビ文字やルビ文字行の強調表示のオン/オフの切り替えを受け取る。
【0045】
親文字強調部424は、文字領域識別部402から出力された情報、すなわち、識別した領域(文字領域識別範囲)を示す情報に基づいて、識別した親文字または本文文字を含むとされ得る領域を強調表示する。例えば、識別された領域を示す矩形を処理中のルビ付き文書画像にオーバーレイ表示することができる。
【0046】
ルビ文字強調部426は、文字領域識別部402から出力された情報、すなわち、識別した領域(ルビ文字領域識別範囲)を示す情報に基づいて、識別したルビ文字を含むとされ得る領域を強調表示する。例えば、識別されたルビ文字を含むとされ得る領域を示す矩形を処理中のルビ付き文書画像にオーバーレイ表示することができる。
【0047】
図7は、本実施形態にしがたって区別された本文文字行およびルビ文字行のうち、本文文字行を強調表示した状態を示す。本文文字行に含まれる本文文字のみが矩形で強調教示されるとともに、1から4までの行番号を含む本文行の表示が表示されている。
【0048】
図8は、為永春水著、「花鳥風月 : お八重幸次郎」、国立国会図書館 近代デジタルライブラリー[http://kindai.ndl.go.jp/info:ndljp/pid/1884901]の21頁の一部を示す図である。図8(a)は、本発明の実施形態の拠らない文字領域識別処理を適用した結果を示す図である。図8(a)から解るように、本文文字行とルビ文字行とが混在して識別され、また団子領域として識別された領域が多数確認できる。図8(b)は、本発明の実施形態の拠る文字領域識別処理を適用した結果を示す図である。図8(b)から解るように、本発明の実施形態を適用することで、親文字を含む本文文字として識別されるべき文字を含む領域を、ルビ文字として識別されるべき文字を含む領域と高精度に区別して識別することができる。
【0049】
再び図4を参照すると、ルビ文字編集部428は、ユーザインターフェースを介して、文書画像データのうちの親文字を含む領域の選択、および当該選択した領域に隣接する領域の指定を受け取る。この選択および指定にしたがって、文字領域識別部402により、親文字を含む領域に隣接する指定された領域が解析されて各々が1つの文字を含むとされ得る領域(ルビ文字領域識別範囲)が識別され、さらに、ルビ文字編集部428により、識別されたルビ文字領域識別範囲について同定(文字認識)処理されて同定したルビ文字の情報(例えば、文字コード)が出力される。また、ルビ文字編集部428は、ユーザインターフェース内に選択された親文字と同定されたルビ文字を表示し、該ユーザインターフェースを介して同定されたルビ文字の編集を受け取る。
【0050】
図9(a)は、図1のルビ付き文書画像の先頭部分に位置する4つの親文字「鎌」、「倉」、「時」、「代」が正しく同定(文字認識)された状態を示す図である。図2(d)を参照して上述したように本文文字「鎌倉時代」とルビ文字「かまくらじだい」とを関連付けることで、テキストデータの利便性が向上する。ルビ文字編集部428は、ユーザインターフェースを介して、4つの親文字「鎌」、「倉」、「時」、「代」の選択を受け取り、「鎌倉時代」の領域に隣接する隣接する領域の指定を受け取る。図9(b)に示すように、例えば、隣接する領域は、ユーザインターフェースを介して、入力デバイスから幅W3および高さ(マージン)W4の入力を受け取ってもよく、ユーザインターフェース内でポインティングデバイスを用いて矩形を描くことで領域指定されてもよい。図9(c)は、隣接する領域(W3×W4の慮域)を操作して同定されたルビ文字「かまくらじだい」が親文字「鎌倉時代」に隣接して強調表示された状態を示す。
【0051】
図10は、ルビ文字編集部428が、文書画像データのうちの親文字を含む領域の選択、および当該選択した領域に隣接する領域の指定を受け取り、親文字と同定されたルビ文字を表示し、該ユーザインターフェースを介して同定されたルビ文字の編集を受け取るユーザインターフェースの例を示す図である。ユーザは、親文字を含む領域を選択し、隣接する領域を指定してからOCRボタンを押すことで、文字同定部404に隣接する領域に対する同定(文字認識)処理を指示することができる。また、ユーザは、同定され表示されたルビ文字を確認し、誤りがある場合にはこれを編集することができる。
【0052】
図11は、本発明の実施形態に係る文書画像処理方法のフローを示す図である。この方法は、上述したコンピュータのプロセッサ302が、メモリ304、ストレージデバイス306、他のコンピュータ318または外部ストレージデバイス320に臆されたプログラムを実行することで実施されることができる。この方法で処理されるルビ付き文書画像データは、上述したように光学画像読取機器316と、他のコンピュータ318と、外部ストレージデバイス320から提供されたものでもよく、予めメモリ304、ストレージデバイス306に記憶されたものでもよい。
【0053】
S1101で、ディスプレイデバイス310がユーザインターフェースを表示する。ユーザインターフェースはユーザインターフェース部420により提供される。コンピュータはルビ付き文書画像データを読み出し、ユーザインターフェース内に表示することができる。
【0054】
S1103で、文字領域識別部402が、ルビ付き文書画像データに対して文字領域の識別処理を実行する。
【0055】
S1105で、親文字強調部424およびルビ文字強調部426が、識別された文字領域(親文字を含む本文文字を含む領域およびルビ文字を含む領域)を強調表示する。ユーザインターフェース内には、図2(a)に示した団子領域が、他の部分のともに表示される。
【0056】
S1107で、文字識別条件設定部422がユーザインターフェース(図5(b))を提供し、ディスプレイデバイス310がこれを表示する。文字識別条件設定部422が、ユーザインターフェースを解して、識別された文字領域の誤り部分に対する親文字領域識別範囲の設定(識別された文字領域の一部(ルビ文字を含む部分)をカットするための条件(幅の条件))を受け取る。受け取った条件にしたがって、文字領域識別部402が、ルビ付き文書画像データに対して文字領域の識別処理を再実行する。親文字強調部424およびルビ文字強調部426が、識別された文字領域(親文字を含む本文文字を含む領域およびルビ文字を含む領域)を強調表示する。ここで、文字識別条件設定部422が、ユーザインターフェース(図5(a))を提供し、ルビ文字領域のオン/オフの設定を受け取ってもよい。
【0057】
S1109で、文字同定部404が識別された文字領域(親文字領域および/またはルビ文字領域)の各部分に対する文字同定(文字認識)処理を実行する。
【0058】
S1111で、ルビ文字編集部428が、ユーザインターフェース(図10)を提供し、ディスプレイデバイス310がこれを表示する。同定結果(親文字および/またはルビ文字)がユーザインターフェース内に表示される。
【0059】
S1113で、ルビ文字編集部428が、ユーザインターフェース(図10)を介して、文書画像データのうちの親文字を含む領域の選択、および当該選択した領域に隣接する領域の指定を受け取る。ルビ文字編集部428が、ユーザインターフェースに、選択された親文字の領域についてS1109で同定された親文字を表示する。同定された親文字と一緒に、指定された隣接する領域についてS1111で同定されたルビ文字を表示してもよい。
【0060】
S1115で、文字同定部404が、識別されたルビ文字識別領域、すなわちS1113で指定された隣接する領域に対する文字同定(文字認識)処理を事項する。
【0061】
S1117で、ルビ文字編集部428が、ユーザインターフェース(図10)に、S1111で選択された領域のS1109で同定された親文字およびS1115で同定されたルビ文字を表示する。
【0062】
S1119で、ユーザは同定結果(親文字および/またはルビ文字)を確認して編集する。ルビ文字編集部428が、ユーザインターフェース(図10)を介して、編集結果を受け取る。
【0063】
S1121で、同定結果または編集結果を記録する(親文字およびルビ文字を関連付けて記録する)。
【0064】
以上説明したように、本発明によれば、ルビ付き文書画像から、親文字を含む本文文字として識別されるべき文字を含む領域を、ルビ文字として識別されるべき文字を含む領域と高精度に区別して識別するための文書画像処理装置、方法およびプログラムを提供することができる。また、識別された1つ以上の本文文字のうちの1つ以上の親文字を選択し、選択した1つ以上の親文字と関連付けられる1つ以上のルビ文字を指定するための文書画像処理装置、方法およびプログラムを提供することができる。
【符号の説明】
【0065】
300 コンピュータ
302 プロセッサ
304 メモリ
306 ストレージデバイス
308 入力デバイス
310 ディスプレイデバイス
312 通信インターフェース(IF)
314 周辺機器インターフェース(IF)
316 光学画像読取機器
318 他のコンピュータ
320 外部ストレージデバイス
322 文書画像データ
400 文字識別部
402 文字領域識別部
404 文字同定部
406 辞書
420 ユーザインターフェース提供部
422 文字識別条件(文字領域識別範囲)設定部
424 親文字強調部
426 ルビ文字強調部
428 ルビ文字編集部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11