(58)【調査した分野】(Int.Cl.,DB名)
前記リンク情報付与部は、前記各ページに対してヘッダー領域及びフッター領域を検索し、前記ヘッダー領域又はフッター領域に文字データがあり、前記文字データが数字であればページ番号であると判断することを特徴とする請求項2に記載の文書処理装置。
【発明を実施するための最良の形態】
【0010】
以下、本発明の文書処理装置の一実施形態を、
図1〜
図6を参照しながら説明する。まず、
図1に示すように、文書処理装置10は、制御部11、操作部12、表示部13、スキャナー部14を備えている。
【0011】
制御部11は、図示しないROM内の制御プログラムなどに基づき、文書処理装置10の全体の動作を制御するものであり、操作受付部11a、文書読取部11b、文書構成理解部11c、リンク情報付与部11d、リンク実行部11e、メモリー11fを備えている。
【0012】
操作受付部11aは、操作部12による文書処理などに係わる操作を受け付ける。文書読取部11bは、スキャナー部14によって読み取られた紙文書のデータ化(二値化)を行い、データ化文書を生成する。なお、紙文書には、目次ページが含まれているものとする。
【0013】
文書構成理解部11cは、文書読取部11bによってデータ化(二値化)されたデータ化文書に対し、OCR(Optical Character Reader)変換を行い、文書データを生成する。すなわち、文書構成理解部11cは、まず、文書読取部11bによってデータ化(二値化)されたデータ化文書を文字パターンと照合して文字画像を特定し、特定された文字画像に対応する文字データを得る。次いで、文字構成理解部11cは、データ化文書の特定された文字画像上または文字画像周囲の特定の位置に、対応する(透明の)文字データを埋め込むことにより、文書データを生成する。このとき、文字構成理解部11cは、文字画像と同じサイズの文字データを埋め込むことができる。
【0014】
リンク情報付与部11dは、文書構成理解部11cによって生成された文書データから、リンク対象となる文字データを検索し、同一の文字データの間での移動を可能とするリンク情報をそれぞれの文字データに付与する。すなわち、リンク情報付与部11dは、文書構成理解部11cによって生成された文書データから目次ページを認識し、この目次ページの項目に対応するページ番号を判断する。また、リンク情報付与部11dは、この判断したページ番号をリンク付与番号候補とし、さらにそのリンク付与番号候補と各ページのページ番号とを照合する。そして、一致していればそれぞれ一致したリンク付与番号候補及び各ページのページ番号に対して双方向に移動できるリンク情報を付与する。
【0015】
ここで、たとえば
図2(a)に示すように、目次ページが、ページの左側に項目が付され、ページの右側にページ番号が付されている構成であるとする。この場合、リンク情報付与部11dは、ページ番号の位置、すなわちページの右側にページ番号が付されていることを判断する。この判断は、目次ページに対して文字データの数字を検索することにより行われる。また、それぞれの項目に対応するページ番号は、リンク付与番号候補とされる。
【0016】
また、たとえば1ページ目が
図2(b)のような構成となっているものとすると、右下に付されている数字がページ番号として判断される。この場合、リンク情報付与部11dは、たとえば1ページ目のヘッダー領域a及びフッター領域bの文字データの数字を検索する。これは、ページ番号がページの上部又は下部に付されていることが一般的なためである。そして、リンク情報付与部11dは、
図2(b)のように、ヘッダー領域aに文字データがなく、フッター領域bに文字データがあり、その文字データが数字であればページ番号であると判断する。
【0017】
また、リンク情報付与部11dは、ページ番号であると判断すると、このページ番号と上述したリンク付与番号候補とを照合して一致していれば、このページ番号とリンク付与番号候補に対し、双方向に移動させるためのリンク情報を付与する。
【0018】
ここで、双方向に移動できるようにするということは、たとえば
図2(a)に示す目次ページがディスプレイ上に表示されている状態で、目次ページのページ番号(たとえば数字の1)がマウスなどによってクリックされると、
図2(b)に示す1ページ目が表示されるようにすることである。また、1ページ目のページ番号(この場合、数字の1)が同様にクリックされると、
図2(a)に示す目次ページが表示されるようにすることである。
【0019】
なお、
図2(a)に示す目次ページの構成では、目次ページのページ番号がたとえば1、4、11、14、17、19、22となっている。そのため、それぞれのページ番号がクリックされることにより、それぞれのページ番号に対応したページが表示されることになる。また、それぞれのページ番号に対応したページが表示された後、それぞれのページのページ番号がクリックされることにより、目次ページが表示されることになる。このように、目次ページのページ番号又は各ページのページ番号をクリックすることで、目次ページと目次ページで指定されたページとの間での移動の繰り返しが可能となる。
【0020】
また、リンク情報付与部11dは、文書構成理解部11cによって生成された文書データから、図形又は表の画像領域の有無を判断し、いずれかの画像領域がある場合、後述のように、その画像領域を広げて画像番号である図番号又は表番号を検索し、これらの図番号又は表番号をリンク付与領域候補とする。ここで、画像領域を広げる程度は、画像領域に隣接する文字画像が含まれるまで、又は、特定の方向(例えば、上、下、右、及び左の少なくとも一部)へ一定の長さとすることができる。
【0021】
また、リンク情報付与部11dは、文書構成理解部11cによって生成された文書データから、リンク付与領域候補と同一の文字列を検索する。そして、リンク情報付与部11dは、リンク付与領域候補と同一の文字列に対して、リンク付与領域候補と同一の文字列との間での移動を可能とするリンク情報を付与する。
【0022】
すなわち、文書構成理解部11cによって生成された文書データの任意のページの構成がたとえば
図3に示すようになっているものとする。この場合、リンク情報付与部11dは、画像領域(表)c、画像領域(円グラフの図形)d、画像領域(棒グラフの図形)eがあることを判断する。なお、これらの画像領域c〜eは、画像と認識した範囲である。つまり、これらの画像領域c〜eは、文書構成理解部11cによるOCR変換によって得られた文字データのサイズより大きいサイズとなっている。
そのため、リンク情報付与部11dは、文書データにおいて文字データのサイズより大きいサイズの画像の領域を図形又は表の画像領域と判断することができる。具体的には、リンク情報付与部11dは、文書データにおいて文字データのサイズより大きいサイズの画像、文書データにおいて文字データのサイズより大きいサイズの画像を内接する矩形、または、文書データにおいて文字データのサイズより大きいサイズの画像とその周囲の余白部分の少なくとも一部とを合わせた領域を内接する矩形を図形又は表の画像領域と判断してもよい。
また、リンク情報付与部11dは、文書データにおいて文字画像ではない画像の領域を図形又は表の画像領域と判断してもよい。具体的には、リンク情報付与部11dは、文書データにおいて文字画像ではない画像、文書データにおいて文字画像ではない画像を内接する矩形、または、文書データにおいて文字画像ではない画像とその周囲の余白部分の少なくとも一部とを合わせた領域を内接する矩形を図形又は表の画像領域と判断してもよい。
【0023】
なお、画像領域の有無の判断だけでは、その画像領域が図であるのか表であるかの判断ができない。この場合、
図3に示すように、画像領域(表)cの画像番号である表番号は一般的に図の上部に付されていることが多い。また、画像領域(円グラフの図形)d、画像領域(棒グラフの図形)eの画像番号である図番号は、一般的に図の下部に付されていることが多い。よって、画像番号である表番号又は図番号が分かれば、その画像領域が図であるのか表であるかの判断が付けられる。
【0024】
そこで、リンク情報付与部11dは、
図4に示すように、たとえば画像領域(円グラフの図形)dを、点線矢印で示すように上下左右方向に広げ、画像領域(円グラフの図形)dの画像番号である図番号(たとえば
図1)を検索する。なお、上下左右方向に広げるということは、画像と認識した範囲を広げることを意味する。この場合、リンク情報付与部11dは、画像領域(円グラフの図形)dの下部に付されている画像番号である図番号(たとえば
図1)を検索する。また、同図のように、下部に付されている文字データがたとえば
図1であれば、リンク情報付与部11dは、その文字データが図番号あると判断する。
【0025】
また、リンク情報付与部11dは、画像領域(表)c及び画像領域(棒グラフの図形)eについても同様にそれぞれの画像領域c、eを上下左右方向に広げ、画像番号である図番号及び表番号を検索する。また、リンク情報付与部11dは、それぞれの画像領域c〜eの画像番号である図番号及び表番号を検索すると、図番号及び表番号をリンク付与領域候補とする。また、リンク情報付与部11dは、リンク付与領域候補と同一の文字列を検索して照合し、リンク付与領域候補と一致した文字列に対し、図又は表への一方向に移動させるためのリンク情報を付与する。具体的には、リンク情報付与部11dは、リンク付与領域候補と一致した文字列に対し、リンク付与領域候補への一方向に移動させるためのリンク情報を付与することができる。あるいは、リンク情報付与部11dは、リンク付与領域候補と一致した文字列に対し、図形又は表の画像領域への一方向に移動させるためのリンク情報を付与することができる。また、リンク情報付与部11dは、リンク付与領域候補と一致した文字列に対し、広げた画像領域への一方向に移動させるためのリンク情報を付与することができる。
なお、図形又は表の画像領域、または広げた画像領域に移動させるためのリンク情報を付与する場合、リンク情報付与部11dは、図形又は表の画像領域、または広げた画像領域と同じ大きさ及び形状の1つの(透明の)領域データを、対応する画像領域上に埋め込む。これにより、それぞれの画像領域が文書データから分離して認識されることが可能になるため、リンク情報によってリンク先の画像領域を指定することができる。
【0026】
リンク実行部11eは、リンク情報付与部11dによって付与されたリンク情報に基づき、目次ページから各ページへのページ移動や、図又は表への移動を実行する。すなわち、リンク実行部11eは、ディスプレイ上に表示された目次ページのページ番号又は各ページのページ番号がクリックされると、目次ページと目次ページで指定されたページとの間での移動の繰り返しを行わせる。また、画像番号である図番号又は表番号と同一の文字列がクリックされると、その文字列に対応する図又は表への移動を行わせる。
【0027】
メモリー11fは、文書読取部11bによってデータ化(二値化)された文書データ、文書構成理解部11cによってOCR変換された文字画像のデータ、リンク情報付与部11dによって付与されたリンク情報、文字の形状を示す文字パターンなどを記憶する。
【0028】
次に、
図6を参照し、文書処理について説明する。まず、スキャナー部14は、紙文書のスキャンを行う(ステップS1)。このとき、文書読取部11bは、スキャナー部14によってスキャンされた紙文書のデータ化(二値化)を行う(ステップS2)。次いで、文書構成理解部11cは、文書読取部11bによってデータ化(二値化)されたデータ化文書に対し、OCR変換を行う(ステップS3)。これにより、たとえば
図2及び
図3に示したような文書データが生成される。
【0029】
次いで、リンク情報付与部11dは、文書構成理解部11cが生成した文書データから目次ページを認識し、この目次ページの項目に対応するページ番号を判断する。また、リンク情報付与部11dは、この判断したページ番号をリンク付与番号候補とし、さらにそのリンク付与番号候補と各ページのページ番号とを照合する(ステップS4)。
【0030】
すなわち、
図2(a)に示したように、目次ページが、ページの左側に項目が付され、ページの右側にページ番号が付されている構成であるとすると、目次ページに対して文字データの数字が検索されることにより、ページ番号の判断が可能となる。また、各ページのページ番号については、
図2(b)に示したように、たとえば1ページ目のヘッダー領域a及びフッター領域bの文字データの数字が検索される。このとき、フッター領域bに文字データがあり、その文字データが数字であればページ番号であるとした判断が可能となる。
【0031】
リンク情報付与部11dは、ステップS4での照合の結果、リンク付与番号候補と各ページのページ番号とが一致すると、両者間で双方向に移動できるリンクを付与する(ステップS5)。
すなわち、
図2(a)に示した目次ページのリンク付与番号候補とされたページ番号のたとえば「1」と、
図2(b)に示した1ページ目の右下のページ番号の「1」とが一致すると、目次ページのリンク付与番号候補とされたページ番号の「1」と、1ページ目のページ番号の「1」に対し、双方向にジャンプさせるためのリンク情報が付与される。このようなリンク情報の付与は、目次ページの他のページ番号と、目次ページの他のページ番号に対応する各ページのページ番号についても、上記同様にして行われる。
【0032】
すなわち、
図2(a)に示した目次ページの構成のように、目次ページのページ番号がたとえば1、4、11、14、17、19、22となっている場合、それぞれのページ番号がリンク付与番号候補とされ、これらのリンク付与番号候補との照合により一致する各ページのページ番号が判断され、それぞれのリンク付与番号候補とそれぞれのページ番号に対し、双方向にジャンプさせるためのリンク情報が付与される。
【0033】
これにより、上述したように、目次ページのページ番号又は各ページのページ番号をクリックすることで、目次ページと、目次ページで指定されたページとの間での移動の繰り返しが可能となる。
【0034】
また、リンク情報付与部11dは、文書構成理解部11cによって生成された文書データから、図形又は表の画像領域の有無を判断する(ステップS6)。なお、画像領域は、上述したように、リンク情報付与部11dは、たとえば文書構成理解部11cによるOCR変換によって得られた文字データのサイズより大きいサイズの画像の領域を検索することで、判断することができる。あるいは、リンク情報付与部11dは、文字画像ではない画像の領域を検索することで、判断することができる。ここで、図形又は表の画像領域が無ければ(ステップS6:NO)、以降の処理が終了となる。
【0035】
これに対し、図形又は表の画像領域が有れば(ステップS6:YES)、リンク情報付与部11dは、それぞれの画像領域の画像番号である図番号又は表番号を検索し、これらの図番号又は表番号をリンク付与領域候補とし、このリンク付与領域候補と文字列とを照合する(ステップS7)。すなわち、リンク情報付与部11dは、画像領域が有ると判断した場合、
図4に示したように、たとえば画像領域(円グラフの図形)dを、点線矢印で示すように上下左右方向に広げ、画像領域(円グラフの図形)dの下部に付されている画像番号である図番号(たとえば
図1)を検索する。また、リンク情報付与部11dは、画像領域(表)c及び画像領域(棒グラフの図形)eについても同様にして画像番号である図番号及び表番号を検索する。
【0036】
そして、リンク情報付与部11dは、画像番号である表番号及び図番号の検索を終えると、それぞれの図番号及び表番号をリンク付与領域候補とする。また、リンク情報付与部11dは、リンク付与領域候補と同一の文字列を検索して照合し、リンク付与領域候補と一致した文字列に対し、図又は表への一方向に移動させるためのリンク情報を付与する。
【0037】
このように、本実施形態では、データ化文書生成部の一形態である文書読取部11bにより、スキャナー部14によって読み取られた紙文書のデータ化を行ってデータ化文書を生成し、文書データ生成部の一形態である文書構成理解部11cにより、データ化文書に対しOCR変換を行って文書データを生成し、リンク情報付与部の一形態であるリンク情報付与部11dにより、文書データからリンク対象となる文字データを検索し、それぞれの文字データの間での移動を可能とするリンク情報を付与するようにした。これにより、OCR変換を行った文書データに対してリンク情報が自動的に付与されることから、ユーザーへの作業負担を大幅に軽減させることができる。
【0038】
具体的には、リンク情報付与部11dにより、文書構成理解部11cによって生成された文書データから目次ページを認識して項目に対応するページ番号を判断し、前記判断したページ番号をリンク付与番号候補とし、さらに前記リンク付与番号候補と各ページのページ番号とを照合し、一致していればそれぞれ一致したリンク付与番号候補及び各ページのページ番号に対して双方向に移動できるリンク情報を付与するようにした。
【0039】
また、リンク情報付与部11dが、文書構成理解部11cによって生成された文書データから図形又は表の画像領域の有無を判断し、いずれかの画像領域がある場合、その画像領域を広げて画像番号である図番号又は表番号を検索し、前記検索した画像番号である図番号又は表番号をリンク付与領域候補とし、さらに、文書データからリンク付与領域候補と同一の文字列を検索し、前記文字列に対して図形又は表(例えば、リンク付与領域候補
、図形又は表の画像領域、又は広げた画像領域)に移動できるリンク情報を付与するようにした。
【0040】
なお、本実施形態では、目次ページのページ番号に対応するページが全て存在していることを前提として説明したが、場合によっては目次ページのページ番号に対応するページの一部が欠落していることもある。この場合は、目次ページのページ番号と、このページ番号と一致するページのページ番号のみにリンク情報が付与されるようにすることで、リンク情報の付与が確実に行われる。