IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ セイコーエプソン株式会社の特許一覧

特開2024-116816スキャンシステム、及び、情報処理プログラム
<>
  • 特開-スキャンシステム、及び、情報処理プログラム 図1
  • 特開-スキャンシステム、及び、情報処理プログラム 図2
  • 特開-スキャンシステム、及び、情報処理プログラム 図3
  • 特開-スキャンシステム、及び、情報処理プログラム 図4
  • 特開-スキャンシステム、及び、情報処理プログラム 図5
  • 特開-スキャンシステム、及び、情報処理プログラム 図6
  • 特開-スキャンシステム、及び、情報処理プログラム 図7
  • 特開-スキャンシステム、及び、情報処理プログラム 図8
  • 特開-スキャンシステム、及び、情報処理プログラム 図9
  • 特開-スキャンシステム、及び、情報処理プログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024116816
(43)【公開日】2024-08-28
(54)【発明の名称】スキャンシステム、及び、情報処理プログラム
(51)【国際特許分類】
   G06V 30/416 20220101AFI20240821BHJP
【FI】
G06V30/416
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023022623
(22)【出願日】2023-02-16
(71)【出願人】
【識別番号】000002369
【氏名又は名称】セイコーエプソン株式会社
(74)【代理人】
【識別番号】100096703
【弁理士】
【氏名又は名称】横井 俊之
(72)【発明者】
【氏名】押川 直樹
(72)【発明者】
【氏名】坂井 俊文
【テーマコード(参考)】
5B029
【Fターム(参考)】
5B029AA01
5B029BB02
(57)【要約】      (修正有)
【課題】原稿から読み取られた複数ページの画像データについてページ情報に生じる差異が解消された目次を有する画像データを出力する。
【解決手段】スキャンシステムSY1は、原稿OR1を読み取り、該原稿から読み取られた複数ページの画像データを生成する原稿読取部30と、複数ページの画像データに含まれる文字を認識する文字認識部52と、文字認識部による認識結果に基づいて、該認識結果から得られる第一のページ情報と、各画像データに対して順に割り当てられる第二のページ情報と、の差異を検出し、該差異が解消されたページ情報を含む目次情報を生成する差異解消部61と、目次情報を有する複数ページの画像データを出力する出力部62と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
原稿を読み取り、該原稿から読み取られた複数ページの画像データを生成する原稿読取部と、
前記複数ページの画像データに含まれる文字を認識する認識部と、
前記認識部による認識結果に基づいて、該認識結果から得られる第一のページ情報と、各前記画像データに対して順に割り当てられる第二のページ情報と、の差異を検出し、該差異が解消されたページ情報を含む目次情報を生成する差異解消部と、
前記目次情報を有する前記複数ページの画像データを出力する出力部と、
を備える、スキャンシステム。
【請求項2】
前記差異解消部は、前記第一のページ情報が表示される前記目次情報であって、前記複数ページの画像データのうち前記第二のページ情報に対応する画像データが表示されるリンクを含む前記目次情報を生成する、請求項1に記載のスキャンシステム。
【請求項3】
前記差異解消部は、前記第一のページ情報の開始となる見出しを前記認識結果から検索し、前記見出しが存在するページを開始とする前記第一のページ情報が栞として表示される前記目次情報を生成する、請求項2に記載のスキャンシステム。
【請求項4】
前記差異解消部は、前記第一のページ情報を含む目次が前記認識結果に含まれる場合、前記第一のページ情報が栞として表示される前記目次情報であって、前記複数ページの画像データのうち前記第二のページ情報に対応する画像データが表示されるリンクを含む前記目次情報を前記目次から生成する、請求項2に記載のスキャンシステム。
【請求項5】
前記差異解消部は、前記第二のページ情報が表示される前記目次情報を生成する、請求項1に記載のスキャンシステム。
【請求項6】
前記差異解消部は、前記複数ページの画像データに含まれる前記第一のページ情報の位置を前記認識結果に基づいて特定し、前記第一のページ情報の位置において前記複数ページの画像データに前記第二のページ情報を付与する、請求項5に記載のスキャンシステム。
【請求項7】
前記差異解消部は、前記複数ページの画像データの中で、本文の位置、及び、該本文に付された前記第一のページ情報の位置を前記認識結果に基づいて特定し、前記本文の位置に前記第二のページ情報を付与せず、前記第一のページ情報の位置において前記複数ページの画像データに前記第二のページ情報を付与する、請求項5に記載のスキャンシステム。
【請求項8】
前記差異解消部は、
前記複数ページの画像データに含まれるページ情報の位置を前記認識結果に基づいて特定し、
前記複数ページの画像データに含まれるページ情報が当該複数ページの画像データのページを示しているのか別の文献のページを示しているのかを前記認識結果に基づいて判別し、
前記複数ページの画像データに含まれるページ情報が前記別の文献のページを示している位置に前記第二のページ情報を付与せず、前記複数ページの画像データに含まれるページ情報が当該複数ページの画像データのページを示している位置において前記複数ページの画像データに前記第二のページ情報を付与する、請求項5に記載のスキャンシステム。
【請求項9】
前記出力部は、前記目次情報を有する前記複数ページの画像データをPDFファイルとして出力する、請求項1又は請求項2に記載のスキャンシステム。
【請求項10】
原稿から読み取られた複数ページの画像データに含まれる文字を認識する認識機能と、
前記認識機能による認識結果に基づいて、該認識結果から得られる第一のページ情報と、各前記画像データに対して順に割り当てられる第二のページ情報と、の差異を検出し、該差異が解消されたページ情報を含む目次情報を生成する差異解消機能と、
前記目次情報を有する前記複数ページの画像データを出力する出力機能と、
をコンピューターに実現させる、情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、スキャンシステム、及び、情報処理プログラムに関する。
【背景技術】
【0002】
複数ページの文書を読み取って複数ページの画像データを生成し、OCR(光学的文字読取)処理を行って文書中の文字を認識し、目次を抽出して栞情報を付加した電子文書を生成するスキャンシステムが知られている(例えば特許文献1参照)。生成された電子文書を見るユーザーは、栞情報の目次を参考にして本文の中から所望の箇所を探すことができる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2021-197616号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
複数ページの文書には、本文のページ番号が付されていない表紙や前書き等が含まれている場合がある。この場合、スキャンシステムにより各画像データに対して順に割り当てられるページ番号と、文書の本文に付されたページ番号と、に差異が生じる。このようなページ番号の差異は、本文の中から所望の箇所を探す際に不都合である。
【課題を解決するための手段】
【0005】
本発明のスキャンシステムは、
原稿を読み取り、該原稿から読み取られた複数ページの画像データを生成する原稿読取部と、
前記複数ページの画像データに含まれる文字を認識する認識部と、
前記認識部による認識結果に基づいて、該認識結果から得られる第一のページ情報と、各前記画像データに対して順に割り当てられる第二のページ情報と、の差異を検出し、該差異が解消されたページ情報を含む目次情報を生成する差異解消部と、
前記目次情報を有する前記複数ページの画像データを出力する出力部と、
を備える、態様を有する。
【0006】
また、本発明の情報処理プログラムは、
原稿から読み取られた複数ページの画像データに含まれる文字を認識する認識機能と、
前記認識機能による認識結果に基づいて、該認識結果から得られる第一のページ情報と、各前記画像データに対して順に割り当てられる第二のページ情報と、の差異を検出し、該差異が解消されたページ情報を含む目次情報を生成する差異解消機能と、
前記目次情報を有する前記複数ページの画像データを出力する出力機能と、
をコンピューターに実現させる、態様を有する。
【図面の簡単な説明】
【0007】
図1】スキャンシステムの構成例を模式的に示すブロック図。
図2】栞のページ情報の差異が解消された目次情報を複数ページの画像データに追加する例を模式的に示す図。
図3】リンクのページ情報の差異が解消された目次情報を複数ページの画像データに追加する例を模式的に示す図。
図4】ファイル生成処理の例を模式的に示すフローチャート。
図5】ファイル生成処理の例を模式的に示すフローチャート。
図6】画像データに含まれるページ情報の差異を解消する例を模式的に示す図。
図7】ファイル生成処理の別の例を模式的に示すフローチャート。
図8】本文のページ情報を修正せず、本文に付されたページ情報を修正する例を模式的に示す図。
図9】ファイル生成処理の別の例を模式的に示すフローチャート。
図10】別の文献のページ情報を修正しないで画像データのページ情報を修正する例を模式的に示す図。
【発明を実施するための形態】
【0008】
以下、本発明の実施形態を説明する。むろん、以下の実施形態は本発明を例示するものに過ぎず、実施形態に示す特徴の全てが発明の解決手段に必須になるとは限らない。
【0009】
(1)本発明に含まれる技術の概要:
まず、図1~10に示される例を参照して本発明に含まれる技術の概要を説明する。尚、本願の図は模式的に例を示す図であり、これらの図に示される各方向の拡大率は異なることがあり、各図は整合していないことがある。むろん、本技術の各要素は、符号で示される具体例に限定されない。「本発明に含まれる技術の概要」において、括弧内は直前の語の補足説明を意味する。
【0010】
[態様1]
図1等に例示するように、本技術の一態様に係るスキャンシステムSY1は、原稿読取部30、認識部(例えば文字認識部52)、差異解消部61、及び、出力部62を備える。図2~6等に例示するように、前記原稿読取部30は、原稿OR1を読み取り、該原稿OR1から読み取られた複数ページの画像データDA1を生成する。前記認識部(52)は、前記複数ページの画像データDA1に含まれる文字を認識する。前記差異解消部61は、前記認識部(52)による認識結果R1に基づいて、該認識結果R1から得られる第一のページ情報PA1と、各前記画像データに対して順に割り当てられる第二のページ情報PA2と、の差異(例えば図4に示すスキップページ数Ns)を検出する。当該差異解消部61は、前記差異(Ns)が解消されたページ情報を含む目次情報T1を生成する。前記差異(Ns)が解消されたページ情報は、例えば、図2に示す目次情報T1では第一のページ情報PA1であり、図6に示す目次情報T1では第二のページ情報PA2である。前記出力部62は、前記目次情報T1を有する前記複数ページの画像データDA2を出力する。
【0011】
出力部62により出力される複数ページの画像データDA2は、目次情報T1を有している。該目次情報T1は、原稿OR1から読み取られた複数ページの画像データDA1の認識結果R1から得られる第一のページ情報PA1と、各画像データに対して順に割り当てられる第二のページ情報PA2と、の差異(Ns)が解消されたページ情報を含んでいる。従って、上記態様は、原稿から読み取られた複数ページの画像データについてページ情報に生じる差異が解消された目次を有する画像データを出力するスキャンシステムを提供することができる。
【0012】
ここで、スキャンシステムは、複写機(複合機を含む。)等といった単体の装置でもよいし、画像読取装置とホスト装置等といった複数の装置で構成されてもよい。
目次情報は、原稿から読み取られた複数ページの画像データを本体データとして該本体データに追加される情報(例えば栞情報)でもよいし、本体データの中にある目次の位置に修正後のページ情報が埋め込まれた情報でもよい。
目次情報のページ情報は、第一のページ情報でもよいし、第二のページ情報でもよい。
本願における「第一」、「第二」、…は、類似点を有する複数の構成要素に含まれる各構成要素を識別するための用語であり、順番を意味しない。
出力部による複数ページの画像データの出力は、出力部外への出力であればよく、画像形成装置に接続されている外部装置への出力でもよいし、電子メールの宛先でもよいし、画像形成装置内の記憶部への出力でもよいし、画像データの印刷でもよいし、画像データの表示等でもよい。
尚、上述した付言は、以下の態様においても適用される。
【0013】
[態様2]
図2~5に例示するように、前記差異解消部61は、前記第一のページ情報PA1が表示される前記目次情報T1であって、前記複数ページの画像データDA2のうち前記第二のページ情報PA2に対応する画像データ(第二のページの画像データとする。)が表示されるリンクL1を含む前記目次情報T1を生成してもよい。
以上の場合、第二のページの画像データが表示されるリンクL1を含む目次情報T1において第一のページ情報PA1が表示される。従って、上記態様は、ページ情報に生じる差異が解消されたリンク付き目次を有する画像データを得ることができる。
尚、目次情報において第一のページ情報が表示されればよく、目次情報において第一のページ情報と第二のページ情報の両方が表示されてもよい。この付言は、以下の態様においても適用される。
【0014】
[態様3]
図2,4に例示するように、前記差異解消部61は、前記第一のページ情報PA1の開始となる見出しC1を前記認識結果R1から検索し、前記見出しC1が存在するページを開始とする前記第一のページ情報PA1が栞B2aとして表示される前記目次情報T1を生成してもよい。
以上の場合、文字の認識結果R1から検索される開始箇所の見出しC1が存在するページを開始とする第一のページ情報PA1が栞B2aとして表示され、栞B2aのリンクL1に従って第二のページの画像データが表示される。従って、上記態様は、ページ情報に生じる差異が解消されたリンク付き目次を有する画像データを得る好適な例を提供することができる。
【0015】
[態様4]
図3,5に例示するように、前記差異解消部61は、前記第一のページ情報PA1を含む目次T2が前記認識結果R1に含まれる場合、前記第一のページ情報PA1が栞B2aとして表示される前記目次情報T1であって、前記複数ページの画像データDA1のうち前記第二のページ情報PA2に対応する画像データが表示されるリンクL1を含む前記目次情報T1を前記目次T2から生成してもよい。
以上の場合、文字の認識結果R1に含まれる目次T2に含まれる第一のページ情報PA1が栞B2aとして表示され、栞B2aのリンクL1に従って第二のページの画像データが表示される。従って、上記態様も、ページ情報に生じる差異が解消されたリンク付き目次を有する画像データを得る好適な例を提供することができる。
【0016】
[態様5]
また、前記差異解消部61は、図6,7等に例示するように、前記第二のページ情報PA2が表示される前記目次情報T1を生成してもよい。本態様も、ページ情報に生じる差異が解消された目次を有する画像データを得る好適な例を提供することができる。
尚、目次情報において第二のページ情報が表示されればよく、目次情報において第一のページ情報と第二のページ情報の両方が表示されてもよい。この付言は、以下の態様においても適用される。
【0017】
[態様6]
図6,7に例示するように、前記差異解消部61は、前記複数ページの画像データDA1に含まれる前記第一のページ情報PA1の位置を前記認識結果R1に基づいて特定してもよい。当該差異解消部61は、前記第一のページ情報PA1の位置において前記複数ページの画像データDA1に前記第二のページ情報PA2を付与してもよい。
以上の場合、目次T2だけでなく、原稿OR1から読み取られた複数ページの画像データDA1に含まれるページ情報に生じる差異も解消される。従って、上記態様は、ページ情報に生じる差異が解消された画像データを得る好適な例を提供することができる。
【0018】
[態様7]
図6~8に例示するように、前記差異解消部61は、前記複数ページの画像データDA1の中で、本文TXTの位置、及び、該本文TXTに付された前記第一のページ情報PA1の位置を前記認識結果R1に基づいて特定してもよい。当該差異解消部61は、前記本文TXTの位置に前記第二のページ情報PA2を付与せず、前記第一のページ情報PA1の位置において前記複数ページの画像データDA1に前記第二のページ情報PA2を付与してもよい。
以上の場合、目次T2だけでなく、本文TXTに付されたページ情報に生じる差異も解消される。従って、上記態様も、ページ情報に生じる差異が解消された画像データを得る好適な例を提供することができる。
【0019】
[態様8]
前記差異解消部61は、前記複数ページの画像データDA1に含まれるページ情報の位置を前記認識結果R1に基づいて特定してもよい。当該差異解消部61は、図9に例示するように、前記複数ページの画像データDA1に含まれるページ情報が当該複数ページの画像データDA1のページを示しているのか別の文献のページを示しているのかを前記認識結果R1に基づいて判別してもよい。当該差異解消部61は、図9,10に例示するように、前記複数ページの画像データDA1に含まれるページ情報が前記別の文献のページを示している位置に前記第二のページ情報PA2を付与せず、前記複数ページの画像データDA1に含まれるページ情報が当該複数ページの画像データDA1のページを示している位置において前記複数ページの画像データDA1に前記第二のページ情報PA2を付与してもよい。
以上の場合、複数ページの画像データDA1に含まれるページ情報が別の文献のページを示している場合に第二のページ情報PA2が付与されず、複数ページの画像データDA1に含まれるページ情報が当該複数ページの画像データDA1のページを示している場合に第二のページ情報PA2が付与される。従って、上記態様は、ページ情報に生じる差異が解消された画像データを得る好適な例を提供することができる。
【0020】
[態様9]
前記出力部62は、前記目次情報T1を有する前記複数ページの画像データDA2をPDFファイルとして出力してもよい。本態様は、ページ情報に生じる差異が解消された目次を有する画像データを得る好適な例を提供することができる。
【0021】
[態様10]
ところで、本技術の一態様に係る情報処理プログラムPR0は、図1等に例示するように、認識部(52)に対応する認識機能FU1、差異解消部61に対応する差異解消機能FU2、及び、出力部62に対応する出力機能FU3をコンピューター(例えば複写機1)に実現させる。
上記態様は、原稿から読み取られた複数ページの画像データを取得し、取得した画像データについてページ情報に生じる差異が解消された目次を有する画像データを出力する情報処理プログラムを提供することができる。
【0022】
さらに、本技術は、上述したスキャンシステムに含まれる情報処理装置、上述したスキャンシステムを含む複合システム、スキャン方法、スキャンデータを生産する方法、前述のスキャン方法に含まれる情報処理方法、上述した情報処理プログラムを記録したコンピューター読み取り可能な媒体、情報処理を行う装置等に適用可能である。前述の情報処理装置は、分散した複数の部分で構成されてもよい。
【0023】
(2)スキャンシステムの第一具体例:
図1は、スキャンシステムSY1の構成を模式的に例示している。本具体例のスキャンシステムSY1は単体の複写機1(画像形成装置の例)であるものとするが、スキャンシステムSY1は画像形成装置と外部装置100との組合せでもよい。複写機1は、図1に示されていない追加要素を含んでいてもよい。図2は、栞B2aのページ情報の差異が解消された目次情報T1を複数ページの画像データDA1に追加する様子を模式的に例示している。
図1に示す複写機1は、制御部10、操作パネル20、原稿読取部30、メモリー40、ファイル出力部50、等を備える。
【0024】
制御部10は、プロセッサーであるCPU11、半導体メモリーであるROM12、半導体メモリーであるRAM13、記憶部14、I/F15、等を備え、操作パネル20、原稿読取部30、ファイル出力部50、等を制御する。ここで、CPUはCentral Processing Unitの略称であり、ROMはRead Only Memoryの略称であり、RAMはRandom Access Memoryの略称であり、I/Fはインターフェイスの略称である。記憶部14とROM12の少なくとも一方は、コンピューターを複写機1として機能させる情報処理プログラムPR0を記憶している。CPU11は、RAM13をワークエリアとして使用しながら情報処理プログラムPR0を実行することにより、操作パネル20の制御処理、原稿読取部30の制御処理、ファイル出力部50の制御処理、等といった各種処理を行う。記憶部14は、フラッシュメモリーといった半導体メモリーでもよいし、ハードディスクといった磁気記録媒体等でもよい。I/F15は、外部装置100が接続されると、外部装置100との間で所定の通信プロトコルに従ってデータを送受信する。外部装置100は、タブレット型端末を含むパーソナルコンピューターといったコンピューターでもよいし、スマートフォンといった携帯電話、メモリーカードといった記憶装置、等でもよい。
尚、制御部10を構成するプロセッサーは、一つのCPUに限定されず、複数のCPU、ASICといったハードウェア回路、CPUとハードウェア回路との組合せ、等でもよい。ここで、ASICは、Application Specific Integrated Circuitの略称である。
【0025】
操作パネル20は、画面を表示する表示部21、表示画面に対する操作を受け付ける入力部22、等を備える。操作パネル20は、専用のCPUを備えていてもよい。表示部21には、液晶パネルといった表示パネル等を用いることができる。入力部22には、表示部21の画面の表面に貼り付けられたタッチパネル、キーボードといったハードキー、ポインティングデバイス、等を用いることができる。
【0026】
原稿読取部30は、原稿OR1を搬送する原稿搬送部31、原稿OR1の読取部32、設定された画像処理を画像データDA1に行う画像処理部33、等を備える。原稿読取部30は、専用のCPUを備えていてもよい。原稿読取部30は、原稿OR1を読み取り、該原稿OR1から読み取られた複数ページの画像データDA1を生成する。原稿搬送部31は、例えば、給送トレイ、給紙ローラー対、原稿分離部、重送検知部、搬送ローラー対、排紙ローラー対、及び、排紙トレイを備える。複数枚の原稿OR1を連続して読取部32に送る原稿搬送部31は、ADFや自動給紙装置と呼ばれる。ここで、ADFは、Auto Document Feederの略称である。読取部32は、複数の原稿OR1を順次読み取ることにより、複数の原稿OR1に対応する複数ページの画像データDA1を生成し、メモリー40に格納する。読取部32は、CIS方式と略されるContact Image Sensor方式やCCD方式と略されるCharge Coupled Devices方式のイメージセンサー等でもよいし、CMOSイメージセンサー、CCDで構成されるラインセンサーやエリアセンサーといった固体撮像素子、デジタルカメラ、等でもよい。ここで、CMOSは、Complementary Metal-Oxide Semiconductorの略称である。画像処理部33は、メモリー40に格納されている複数ページの画像データDA1に対して色味等の画像設定に従って色味等を調整する画像処理を行う。メモリー40には、RAM、フラッシュメモリーといった不揮発性半導体メモリー、等を用いることができる。
【0027】
ファイル出力部50は、画像展開部51、文字認識部52、ファイル生成部53、印刷エンジン54、等を備える。ファイル出力部50は、専用のCPUを備えていてもよい。画像展開部51は、画像データDA1をメモリー40から文字認識部52に渡す。文字認識部52は、複数ページの画像データDA1に対して順次、OCR処理を行い、画像データDA1に含まれる文字を認識し、認識結果R1を生成する。ここで、OCRは、光学式文字読取の略称である。ファイル生成部53は、文字認識部52による認識結果R1に基づいてページ情報の差異が解消された目次情報T1(図2参照)を生成し、該目次情報T1を含めた複数ページの画像データDA2(図2参照)を有するファイルを生成する。ファイルは、PDFファイルでもよいし、ビットマップファイルといった形式のファイル等でもよい。印刷エンジン54は、メモリー40に格納されている画像データDA1、外部装置100から受信した印刷ジョブ、等に基づいて印刷媒体に印刷を実行する。例えば、操作パネル20が原稿OR1の複写を受け付けると、原稿読取部30が原稿OR1を読み取って画像データDA1を生成し、印刷エンジン54が画像データDA1に基づいて原稿画像を印刷媒体に印刷する。これにより、複写機能が実現される。また、I/F15が外部装置100から印刷ジョブを受信すると、制御部10が印刷ジョブに基づいて印刷用の画像データを生成して印刷エンジン54に渡し、印刷エンジン54が印刷用の画像データに基づいて画像を印刷媒体に印刷する。これにより、印刷機能が実現される。
【0028】
情報処理プログラムPR0は、認識機能FU1、差異解消機能FU2、出力機能FU3、等を複写機1に実現させる。認識機能FU1は、原稿OR1から読み取られた複数ページの画像データDA1に含まれる文字を認識する。認識機能FU1を複写機1に実現させる認識プログラムは、制御部10のCPU11により実行されてもよいし、ファイル出力部50のCPUにより実行されてもよいし、制御部10のCPU11とファイル出力部50のCPUの両方により実行されてもよい。認識プログラムを実行するファイル出力部50は、文字認識部52として機能する。差異解消機能FU2は、認識機能FU1による認識結果R1に基づいて、該認識結果R1から得られる第一のページ情報PA1と、各画像データDA1に対して順に割り当てられる第二のページ情報PA2と、の差異を検出する。当該差異解消機能FU2は、前述の差異が解消されたページ情報を含む目次情報T1を生成する。差異解消機能FU2を複写機1に実現させる差異解消プログラムは、制御部10のCPU11により実行されてもよいし、ファイル出力部50のCPUにより実行されてもよいし、制御部10のCPU11とファイル出力部50のCPUの両方により実行されてもよい。差異解消プログラムを実行する制御部10及びファイル出力部50は、差異解消部61として機能する。出力機能FU3は、目次情報T1を有する複数ページの画像データDA2を出力する。出力機能FU3を複写機1に実現させる出力プログラムは、制御部10のCPU11により実行されてもよいし、ファイル出力部50のCPUにより実行されてもよいし、制御部10のCPU11とファイル出力部50のCPUの両方により実行されてもよい。出力プログラムを実行する制御部10及びファイル出力部50は、出力部62として機能する。
【0029】
尚、情報処理プログラムPR0を記憶している記憶部14は、情報処理プログラムPR0を記録したコンピューター読み取り可能な媒体といえる。情報処理プログラムPR0が外部の記録媒体に記録されると、該記録媒体は情報処理プログラムPR0を記録したコンピューター読み取り可能な媒体といえる。
【0030】
本等、複数ページの原稿OR1には、図2に示すように、途中から本文のページが開始する原稿がある。これは、複数ページの原稿OR1に、表紙、まえがき、等といった、本文のページ番号付与の対象でない部分があるためである。ただ、原稿読取部30は、原稿OR1のページを最初から順番に把握する。このため、原稿OR1から認識される第一のページ情報PA1と、複数ページの画像データDA1に対して順に割り当てられる第二のページ情報PA2と、に差異が生じることがある。原稿OR1から読み取られた複数ページの画像データDA1を見て本文中の所望個所を探すユーザーは、ページ情報に差異があることにより、本文中の所望個所に辿り着くまで時間がかかることがある。
本具体例では、上述の不都合に対処するため、差異が解消されたページ情報を含む目次情報T1を有する複数ページの画像データDA2を認識結果R1に基づいて生成することにしている。
【0031】
図2に示す原稿OR1では、1枚目に表紙があり、2枚目にまえがきがあり、3~8枚目に第一のページ情報PA1が付された本文があり、3,4,7枚目に見出しC0がある。本具体例の見出しC0は、本文の中でフォントが大きい等といった目立つ部分であり、且つ、数字と他の文字の組合せとする。従って、「まえがき」は見出しC0ではなく、「1.AAA」が読み取り順において最初に現れる見出しC1である。原稿読取部30が原稿OR1を読み取ると、各画像データDA1に対して順に割り当てられる第二のページ情報PA2は、表紙が1ページ目であって最初の見出しC1を含む本文1ページ目が3ページ目であることから、原稿OR1通りに認識される第一のページ情報PA1とは異なる。
【0032】
差異解消部61は、まず、各見出しC0と1枚目起点の第二のページ情報PA2とを紐付けて栞情報B1を生成する。この栞情報B1は、1枚目起点の第二のページ情報PA2を栞B2aとなる部分、及び、リンクL1に含んでいる。表示される画像データDA2に含まれる第一のページ情報PA1とは異なる第二のページ情報PA2が栞B2aとなる部分にあるため、ユーザーは、原稿OR1通りの第一のページ情報PA1に従って画像データDA2の所望箇所を探す可能性がある。例えば、ユーザーは、見出し「AAA」から始まる本文を複数ページの画像データDA2から探すとき、画像データDA2の中から間違って原稿OR1通りのページ情報を探すと、本来探すべき3枚目とは異なる5枚目を探し出すことになる。
【0033】
そこで、差異解消部61は、栞情報B1の内、栞B2aとなる部分の第二のページ情報PA2を第一のページ情報PA1に置き換える。得られる栞情報B2は、原稿OR1通りの第一のページ情報PA1が栞B2aに表示される目次情報T1であり、1枚目起点の第二のページ情報PA2に対応する画像データDA2が表示されるリンクL1を含む目次情報T1である。栞情報B2は、リンク付き目次ともいえる。
【0034】
出力部62は、原稿OR1から読み取られた複数ページの画像データDA1を本体DA2aとして、該本体DA2aに栞情報B2を追加してファイル(複数ページの画像データDA2)を生成する。例えば、ユーザーは、見出し「AAA」から始まる本文を複数ページの画像データDA2から探すとき、画像データDA2の中から栞B2aに示される1ページ目を探すと、1枚目起点で正しい3枚目を探し出すことができる。
【0035】
図3に例示するように、原稿OR1に目次T2が含まれる場合、目次T2の認識結果に基づいて栞情報B2が生成されてもよい。図3は、リンクL1のページ情報の差異が解消された目次情報T1を複数ページの画像データDA1に追加する様子を模式的に例示している。
図2に示す原稿OR1では、1,3~8枚目は図2における1,3~8枚目と同じであり、2枚目に目次がある。
【0036】
差異解消部61は、認識された目次T2に基づいて栞情報B1を生成する。この栞情報B1は、原稿OR1通りの第一のページ情報PA1を栞B2aとなる部分、及び、リンクL1に含んでいる。1枚目起点の第二のページ情報PA2とは異なる第一のページ情報PA1がリンクL1にあるため、ユーザーは、表示される栞B2aの操作により複数ページの画像データDA2の中からリンクL1に従って所望箇所を探す可能性がある。例えば、ユーザーは、見出し「AAA」から始まる本文を複数ページの画像データDA2から探すとき、栞B2aに含まれる見出し「AAA」の操作により、本来探すべき3枚目とは異なる1枚目を探し出すことになる。
【0037】
そこで、差異解消部61は、リンクL1の第一のページ情報PA1を第二のページ情報PA2に置き換える。得られる栞情報B2は、原稿OR1通りの第一のページ情報PA1が栞B2aに表示される目次情報T1であり、1枚目起点の第二のページ情報PA2に対応する画像データDA2が表示されるリンクL1を含む目次情報T1である。
【0038】
出力部62は、原稿OR1から読み取られた複数ページの画像データDA1を本体DA2aとして、該本体DA2aに栞情報B2を追加してファイル(複数ページの画像データDA2)を生成する。例えば、ユーザーは、見出し「AAA」から始まる本文を複数ページの画像データDA2から探すとき、栞B2aに含まれる見出し「AAA」の操作により、1枚目起点で正しい3枚目を探し出すことができる。
【0039】
以下、図4,5を参照して、差異が解消されたページ情報を含む目次情報T1を有する複数ページの画像データDA2をファイルとして出力するファイル生成処理の例を説明する。ファイル生成処理は、制御部10が主体となって行う。制御部10は、操作パネル20又は外部装置100においてファイル生成の指示を受け付けると、ファイル生成処理を開始させる。ここで、制御部10は、原稿読取部30と協働してステップS102~S104の処理を行う。以下、「ステップ」の記載を省略する。制御部10は、文字認識部52と協働して、S106の処理を行う。従って、S106は、認識機能FU1に対応している。制御部10は、ファイル生成部53と協働して、S108~S116,S152~S154の処理を行う。従って、S108~S116,S152~S154は、差異解消部61及び差異解消機能FU2に対応している。制御部10は、ファイル生成部53と協働して、S118~S120,S156~S158の処理を行う。従って、S118~S120,S156~S158は、出力部62及び出力機能FU3に対応している。
ユーザーは、ファイル生成を指示する前に、ADFとしての原稿搬送部31に複数枚の原稿OR1をセットするものとする。
【0040】
ファイル生成処理が開始すると、原稿読取部30が原稿OR1を読み取って複数ページの画像データDA1を生成する(S102)。当該原稿読取部30は、原稿OR1から読み取られた複数ページの画像データDA1をメモリー40に格納する(S104)。
次いで、画像展開部51が画像データDA1をメモリー40から文字認識部52に渡し、文字認識部52が複数ページの画像データDA1に対して読み取り順にOCR処理を行って画像データDA1に含まれる文字を認識する文字認識処理を行う(S106)。
【0041】
次いで、ファイル生成部53が認識結果R1から各章の見出しC0を検索して各見出しC0の存在する画像データDA1のページ番号NP2を取得する(S108)。ページ番号NP2は、1枚目起点の第二のページ情報PA2を示す数値である。ファイル生成部53は、本文の中でフォントが大きい等といった目立つ部分であり、且つ、数字と他の文字の組合せを認識結果R1から検索することにより、各見出しC0が存在する画像データDA1のページ番号NP2を取得することができる。図2,3に示す例では、見出し「1.AAA」とNP2=3の組合せ、見出し「2.BBB」とNP2=4の組合せ、及び、見出し「3.CCC」とNP2=7の組合せが取得される。1以上の見出しC0の内、最初に検索される見出し、例えば、「1.AAA」は、原稿OR1通りの第一のページ情報PA1の開始となる見出しC1である。従って、ファイル生成部53は、第一のページ情報PA1の開始となる見出しC1を認識結果R1から検索することになる。
【0042】
次いで、ファイル生成部53は、最初の見出しC1が存在するページ番号NP2から1を差し引いてスキップページ数Nsを算出する(S110)。図2,3に示す例では、最初の見出し「1.AAA」が存在するページ番号NP2=3から1を引いた2がスキップページ数Nsとなる。
【0043】
次いで、ファイル生成部53は、原稿OR1通りのページ番号NP1を含む目次T2が認識結果R1に含まれるか否かに応じて処理を分岐させる(S112)。ファイル生成部53は、認識結果R1に「目次」が含まれるページがあり、且つ、該「目次」が他の部分よりもフォントが大きい等といった目立つ部分である場合、「目次」が含まれるページにおいて目次T2が認識結果R1に含まれると判断することができる。ファイル生成部53は、図3に示すように目次T2が認識結果R1に含まれる場合に処理をS152(図5参照)に進め、図2に示すように処理をS114に進める。
【0044】
目次T2が認識結果R1に含まれない場合、ファイル生成部53は、見出しC0毎に見出しC0と1枚目起点のページ番号NP2とを紐付けて栞情報B1(図2参照)を生成する(S114)。生成される栞情報B1のうち栞B2aとなる部分には、表示される画像データDA2に含まれるページ番号NP1(第一のページ情報PA1)とは異なるページ番号NP2(第二のページ情報PA2)がある。そこで、ファイル生成部53は、栞B2aとなる部分に含まれる各ページ番号NP2をスキップページ数Ns減らしたページ番号NP1に修正する(S116)。これにより、各見出しに紐付けられているページ番号NP1(第一のページ情報PA1)が栞B2aとして表示される栞情報B2が生成される。栞情報B2は、原稿OR1通りの第一のページ情報PA1が栞B2aに表示される目次情報T1であり、複数ページの画像データDA2のうち1枚目起点の第二のページ情報PA2に対応する画像データDA2が表示されるリンクL1を含む目次情報T1である。
以上のようにして、差異解消部61は、第一のページ情報PA1と第二のページ情報PA2との差異をスキップページ数Nsとして検出し、差異が解消されたページ情報を含む目次情報T1を生成する。尚、栞情報に第一のページ情報PA1を付与することは、第二のページ情報PA2を第一のページ情報PA1に修正することに限定されず、第一のページ情報PA1を第二のページ情報PA2に併記すること等でもよい。例えば、ページ番号NP2=3がページ番号NP1=1に対応している場合、差異解消部61は、第二のページ情報PA2の表示箇所「3」を「3(1)」、「1(3)」、等に置き換えてもよい。
【0045】
次いで、ファイル生成部53は、原稿OR1から読み取られた複数ページの画像データDA1を本体DA2aとして、該本体DA2aに栞情報B2を追加して電子ファイルを生成する(S118)。得られるファイルは、栞情報B2を目次情報T1として有する複数ページの画像データDA2である。ファイル生成部53は、例えば、本体DA2aと栞情報B2を含むPDFファイルを生成することができる。その後、制御部10が設定に従ってファイルを出力し(S120)、ファイル生成処理を終了させる。ファイルの出力先は、外部装置100でもよいし、電子メールの宛先でもよいし、複写機1に含まれる記憶部14でもよいし、本体DA2aの印刷を前提とした印刷エンジン54でもよいし、表示を前提とした表示部21等でもよい。例えば、ファイルが外部装置100又は表示部21に表示される場合、ユーザーは、画像データDA2の中から栞B2aに示される第一のページ情報PA1のページを探すと、正しいページを探し出すことができる。
【0046】
図3に示すように目次T2が認識結果R1に含まれる場合、ファイル生成部53は、「目次」が含まれるページにおいて認識結果R1に含まれる目次T2に基づいて栞情報B1を生成する(図5のS152)。この栞情報B1は、原稿OR1通りのページ番号NP1(第一のページ情報PA1)を栞B2aとなる部分、及び、リンクL1に含んでいる。従って、リンクL1が操作されると、複数ページの画像データDA2において、本来ジャンプされるべき1枚目起点のページ番号NP2(第二のページ情報PA2)ではなく、原稿OR1通りのページ番号NP1にジャンプされる。これにより、間違ったページの画像データDA2が表示されることになる。そこで、ファイル生成部53は、リンクL1に含まれる各ページ番号NP1をスキップページ数Ns増やしたページ番号NP2に修正する(S154)。これにより、複数ページの画像データDA2のうち1枚目起点のページ番号NP2に対応する画像データDA2が表示されるリンクL1を含む栞情報B2が生成される。栞情報B2は、原稿OR1通りの第一のページ情報PA1が栞B2aに表示される目次情報T1であり、複数ページの画像データDA2のうち1枚目起点の第二のページ情報PA2に対応する画像データDA2が表示されるリンクL1を含む目次情報T1である。
以上のようにして、差異解消部61は、第一のページ情報PA1と第二のページ情報PA2との差異をスキップページ数Nsとして検出し、差異が解消されたページ情報を含む目次情報T1を生成する。
【0047】
次いで、ファイル生成部53は、S118と同じく、原稿OR1から読み取られた複数ページの画像データDA1を本体DA2aとして、該本体DA2aに栞情報B2を追加して電子ファイル、例えば、PDFファイルを生成する(S156)。得られるファイルは、栞情報B2を目次情報T1として有する複数ページの画像データDA2である。その後、S120と同じく、制御部10が設定に従ってファイルを出力し(S158)、ファイル生成処理を終了させる。例えば、ファイルが外部装置100又は表示部21に表示される場合、ユーザーは、栞B2aに含まれる見出しの操作により、リンクL1に従って1枚目起点で正しいページを探し出すことができる。
【0048】
以上説明したように、出力される複数ページの画像データDA2に含まれる目次情報T1は、第一のページ情報PA1と第二のページ情報PA2との差異が解消されたページ情報を含んでいる。従って、本スキャンシステムSY1は、原稿OR1から読み取られた複数ページの画像データDA1についてページ情報に生じる差異が解消された目次を有する画像データを出力することができる。
【0049】
尚、スキャンシステムSY1は、図3に示すように目次T2が複数ページの画像データDA1に含まれていても、図2に示す栞情報B1を目次T2によらずに生成し、栞B2aとなる部分のページ情報を修正することにより、図2に示すような複数ページの画像データDA2を生成してもよい。この場合、スキャンシステムSY1は、図4,5に示すファイル生成処理のうちS112,S152~S158の処理を行わず、S102~S110,S114~S120を行ってもよい。
【0050】
(3)スキャンシステムの第二具体例:
図6は、第二具体例において複数ページの画像データDA1に含まれるページ情報の差異を解消する様子を模式的に例示している。第二具体例におけるスキャンシステムSY1の構成は図1で示した構成と同じであるので、詳細な説明は省略する。
図6に示す原稿OR1では、1枚目に表紙があり、10枚目に裏表紙があり、2,9枚目に空白ページがあり、3枚目に第一のページ情報PA1として「i」が付された前書きがあり、4枚目に第一のページ情報PA1として最初のページ番号「1」が付された目次T2があり、5~8枚目に第一のページ情報PA1としてページ番号「2」~「5」が付された本文があり、5,8枚目に見出しC0がある。原稿読取部30が原稿OR1を読み取ると、各画像データDA1に対して順に割り当てられる第二のページ情報PA2は、表紙が1ページ目であって最初のページ番号「1」が4ページ目であることから、原稿OR1通りに認識される第一のページ情報PA1とは異なる。
【0051】
複数ページの画像データDA1に含まれる目次T2に示される第一のページ情報PA1は1枚目起点の第二のページ情報PA2とは異なるため、ユーザーは、原稿OR1通りの第一のページ情報PA1に従って画像データDA2の所望箇所を探す可能性がある。例えば、ユーザーは、目次T2に含まれる見出し「AAA」から始まる本文を複数ページの画像データDA2から探すとき、画像データDA2の中から間違って原稿OR1通りのページ情報を探すと、本来探すべき5枚目とは異なる2枚目を探し出すことになる。
また、目次T2以外にも、複数ページの画像データDA1に含まれる第一のページ情報PA1は1枚目起点の第二のページ情報PA2とは異なるため、ユーザーは、原稿OR1通りの第一のページ情報PA1に従って画像データDA2の所望箇所を探す可能性がある。
【0052】
そこで、差異解消部61は、複数ページの画像データDA1に含まれる第一のページ情報PA1の位置を認識結果R1に基づいて特定し、第一のページ情報PA1の位置において複数ページの画像データDA1に第二のページ情報PA2を付与する。言い換えると、差異解消部61は、複数ページの画像データDA1に含まれる画像中のページ番号の記載を画像データDA1の実際のページの番号に書き換える。第二のページ情報PA2に対応するページ番号から第一のページ情報PA1に対応するページ番号を差し引いた値は、第一具体例におけるスキップページ数Nsに相当する。目次T2に基づいて得られる目次情報T1は、1枚目起点の第二のページ情報PA2が表示される情報である。出力部62は、ページ情報が置き換えられた複数ページの画像データDA2を含むファイルを生成する。例えば、ユーザーは、目次情報T1に含まれる見出し「AAA」から始まる本文を複数ページの画像データDA2から探すとき、画像データDA2の中から目次情報T1に示される5ページ目を探すと、1枚目起点で正しい5枚目を探し出すことができる。
【0053】
以下、図7,8を参照して、第二具体例において、差異が解消されたページ情報を含む目次情報T1を有する複数ページの画像データDA2をファイルとして出力するファイル生成処理の例を説明する。図7は前述のファイル生成処理を模式的に例示するフローチャートであり、図8は本文TXTのページ情報を修正せず本文TXTに付されたページ情報を修正する様子を模式的に例示している。
図8の上段には、図6に示す複数ページの画像データDA1における1枚目起点の8ページ目が示されている。この8ページ目の画像データDA1は、ページ情報PA12,PA13を含む本文TXT、及び、該本文TXTに付されたページ情報PA11を含んでいる。本文TXTに付されたページ情報PA11は、本文TXTのページを示す位置にあるので、原稿OR1通りの第一のページ情報PA1である。しかし、本文TXTに含まれるページ情報は、本文TXT自体のページを示すページ情報PA12もあれば、原稿OR1とは別の文献のページを示すページ情報PA13もある。むろん、差異解消部61は、ページ情報PA12であれページ情報PA13であれ本文TXTに含まれるページ情報を1枚目起点の第二のページ情報PA2に修正してもよい。しかし、別の文献のページを示すページ情報PA13が本文TXTに含まれることを考慮して、第二具体例の差異解消部61は、本文TXTの位置に1枚目起点の第二のページ情報PA2を付与しないことにしている。そのうえで、第二具体例の差異解消部61は、第一のページ情報PA1の位置において複数ページの画像データDA1に第二のページ情報PA2を付与することにしている。これにより、図8の下段に示すように、ページ情報PA12,PA13は第二のページ情報PA2に置き換えられず、ページ情報PA11が第二のページ情報PA2に置き換えられた画像データDA2が得られる。
【0054】
図7に示すファイル生成処理は、制御部10が主体となって行う。制御部10は、操作パネル20又は外部装置100においてファイル生成の指示を受け付けると、ファイル生成処理を開始させる。ここで、制御部10は、原稿読取部30と協働してS202~S204の処理を行う。制御部10は、文字認識部52と協働して、S206の処理を行う。従って、S206は、認識機能FU1に対応している。制御部10は、ファイル生成部53と協働して、S208~S214の処理を行う。従って、S208~S214は、差異解消部61及び差異解消機能FU2に対応している。制御部10は、ファイル生成部53と協働して、S216~S218の処理を行う。従って、S216~S218は、出力部62及び出力機能FU3に対応している。
【0055】
ファイル生成処理が開始すると、図4で示したS102と同じく、原稿読取部30が原稿OR1を読み取って複数ページの画像データDA1を生成する(S202)。当該原稿読取部30は、図4で示したS104と同じく、原稿OR1から読み取られた複数ページの画像データDA1をメモリー40に格納する(S204)。
次いで、図4で示したS106と同じく、画像展開部51が画像データDA1をメモリー40から文字認識部52に渡し、文字認識部52が複数ページの画像データDA1に対して読み取り順にOCR処理を行って画像データDA1に含まれる文字を認識する文字認識処理を行う(S206)。
【0056】
次いで、ファイル生成部53が複数ページの画像データDA1の中で目次T2のページを認識結果R1に基づいて特定し、目次T2のページに存在する第一のページ情報PA1の位置を全て特定する(S208)。ファイル生成部53は、認識結果R1に「目次」が含まれるページがあり、且つ、該「目次」が他の部分よりもフォントが大きい等といった目立つ部分である場合、「目次」が含まれるページにおいて目次T2が認識結果R1に含まれると判断することができる。例えば、図6に示す例では、目次T2のページが4ページ目であることが特定され、4ページ目に存在する第一のページ情報PA1の位置が全て特定される。
【0057】
次いで、ファイル生成部53は、複数ページの画像データDA1のうち目次T2のページよりも後のページにおいて、本文TXTの位置、及び、該本文TXTに付された第一のページ情報PA1の位置を認識結果R1に基づいて特定する(S210)。ファイル生成部53は、例えば、画像データDA1の中で下の中央位置や右上位置等、ページ情報と想定される位置にある情報を第一のページ情報PA1と判断することができ、当該第一のページ情報PA1の位置を記憶すればよい。また、ファイル生成部53は、例えば、画像データDA1の中でページ情報と想定されない位置にある情報を本文TXTと判断することができ、当該本文TXTの位置を記憶すればよい。
【0058】
次いで、ファイル生成部53は、目次T2のページにおいて原稿OR1通りの第一のページ情報PA1の位置に1枚目起点の第二のページ情報PA2を付与する(S212)。これにより、図6に示すように、目次T2のページにおける第一のページ情報PA1の各位置に第二のページ情報PA2が付与される。
以上のようにして、差異解消部61は、差異が解消されたページ情報として第二のページ情報PA2が表示される目次情報T1を生成する。尚、目次T2のページに第二のページ情報PA2を付与することは、第一のページ情報PA1を第二のページ情報PA2に修正することに限定されず、第二のページ情報PA2を第一のページ情報PA1に併記すること等でもよい。例えば、第二のページ情報PA2としてのページ番号「2」が第一のページ情報PA1としてのページ番号「5」に対応している場合、差異解消部61は、第一のページ情報PA1の表示箇所「2」を「2(5)」、「5(2)」、等に置き換えてもよい。
【0059】
次いで、ファイル生成部53は、本文TXTの位置に第二のページ情報PA2を付与せず、本文TXTに付された第一のページ情報PA1の位置において複数ページの画像データDA1に第二のページ情報PA2を付与する(S214)。これにより、図8に示すように、本文TXTの位置には第二のページ情報PA2が付与されず、本文TXTに付された第一のページ情報PA1の位置において複数ページの画像データDA1に第二のページ情報PA2が付与される。
むろん、第一のページ情報PA1の位置に第二のページ情報PA2を付与することは、第一のページ情報PA1を第二のページ情報PA2に修正することに限定されず、第二のページ情報PA2を第一のページ情報PA1に併記すること等でもよい。例えば、第二のページ情報PA2としてのページ番号「2」が第一のページ情報PA1としてのページ番号「5」に対応している場合、差異解消部61は、第一のページ情報PA1の表示箇所「2」を「2(5)」、「5(2)」、等に置き換えてもよい。
【0060】
次いで、ファイル生成部53は、得られた目次情報T1を有する複数ページの画像データDA2を含む電子ファイルを生成する(S216)。その後、制御部10が設定に従ってファイルを出力し(S218)、ファイル生成処理を終了させる。例えば、ファイルが外部装置100又は表示部21に表示される場合、ユーザーは、画像データDA2の中から目次T2のページに示される第二のページ情報PA2のページを探すと、正しいページを探し出すことができる。
【0061】
以上説明したように、出力される複数ページの画像データDA2に含まれる目次情報T1は、第一のページ情報PA1と第二のページ情報PA2との差異が解消されたページ情報を含んでいる。従って、第二具体例のスキャンシステムSY1も、原稿OR1から読み取られた複数ページの画像データDA1についてページ情報に生じる差異が解消された目次を有する画像データを出力することができる。
【0062】
(4)スキャンシステムの第三具体例:
図7,8に示す例では本文TXTに含まれるページ情報は修正されないが、本文TXT自体のページを示すページ情報PA12の位置には1枚目起点の第二のページ情報PA2が付与されると、好適である。そこで、図9,10を参照して、第三具体例において、差異が解消されたページ情報を含む複数ページの画像データDA2をファイルとして出力するファイル生成処理の例を説明する。第三具体例におけるスキャンシステムSY1の構成は図1で示した構成と同じであるので、詳細な説明は省略する。
第三具体例のファイル生成部53は、本文TXTに含まれるページ情報が本文TXT自体のページを示しているのか原稿OR1とは別の文献のページを示しているのかを判別するページ情報判別部を備えている。ページ情報判別部には、例えば、本文TXTに含まれるページ情報が本文TXT自体のページを示しているのか原稿OR1とは別の文献のページを示しているのかを判別するための機械学習により生成されたページ情報判別モデルを用いることができる。
【0063】
図9は、上述のファイル生成処理を模式的に例示するフローチャートである。図9に示すファイル生成処理は、図7に示すファイル生成処理にS252~S256の処理が追加されている。制御部10は、ファイル生成部53と協働して、S252~S256の処理を行う。従って、S252~S256は、差異解消部61及び差異解消機能FU2に対応している。図10は、別の文献のページ情報PA13を修正しないで画像データDA1のページ情報PA11,PA12を修正する様子を模式的に例示している。
図10の上段には、図6に示す複数ページの画像データDA1における1枚目起点の8ページ目が示されている。この8ページ目の本文TXTは、本文TXT自体のページを示すページ情報PA12、及び、原稿OR1とは別の文献のページを示すページ情報PA13を含んでいる。差異解消部61は、別の文献のページを示すページ情報PA13については修正せず、本文TXT自体のページを示すページ情報PA12の位置については第二のページ情報PA2を付与することにしている。これにより、図10の下段に示すように、別の文献のページを示すページ情報PA13は第二のページ情報PA2に置き換えられず、本文TXT自体のページを示すページ情報PA11,PA12が第二のページ情報PA2に置き換えられた画像データDA2が得られる。
【0064】
ファイル生成処理が開始すると、図7に示すS202~S214の処理が行われる。その後、ファイル生成部53が本文TXTに含まれるページ情報PA12,PA13の位置を認識結果R1に基づいて特定する(S252)。従って、差異解消部61は、図7に示すS210と図9に示すS252において、複数ページの画像データDA1に含まれるページ情報の位置を認識結果R1に基づいて特定することになる。
【0065】
次いで、ファイル生成部53は、本文TXTに含まれる各ページ情報が本文TXTのページを示しているのか別の文献のページを示しているのかを認識結果R1に基づいて判別する(S254)。従って、差異解消部61は、図7に示すS208~S210と図9に示すS254において、複数ページの画像データDA1に含まれるページ情報が当該複数ページの画像データDA1のページを示しているのか別の文献のページを示しているのかを認識結果R1に基づいて判別することになる。
【0066】
次いで、ファイル生成部53は、本文TXTのページを示しているページ情報PA12の位置において画像データDA1に1枚目起点の第二のページ情報PA2を付与する(S256)。従って、差異解消部61は、図7に示すS212~S214と図9に示すS256において、複数ページの画像データDA1に含まれるページ情報が別の文献のページを示している位置に第二のページ情報PA2を付与しない。そのうえで、差異解消部61は、複数ページの画像データDA1に含まれるページ情報が当該複数ページの画像データDA1のページを示している位置において複数ページの画像データDA1に第二のページ情報PA2を付与する。
むろん、第一のページ情報PA1の位置に第二のページ情報PA2を付与することは、第一のページ情報PA1を第二のページ情報PA2に修正することに限定されず、第二のページ情報PA2を第一のページ情報PA1に併記すること等でもよい。例えば、第二のページ情報PA2としてのページ番号「2」が第一のページ情報PA1としてのページ番号「5」に対応している場合、差異解消部61は、第一のページ情報PA1の表示箇所「2」を「2(5)」、「5(2)」、等に置き換えてもよい。
【0067】
次いで、ファイル生成部53は、画像データDA1のページを示している位置に第二のページ情報PA2が付与された複数ページの画像データDA2を含む電子ファイルを生成する(S216)。その後、制御部10が設定に従ってファイルを出力し(S218)、ファイル生成処理を終了させる。例えば、ファイルが外部装置100又は表示部21に表示される場合、ユーザーは、本文TXTの中から本文TXTのページを示しているページ情報PA12のページを探すと、正しいページを探し出すことができる。
【0068】
以上説明したように、画像データDA1に含まれるページ情報が別の文献のページを示している場合に第二のページ情報PA2が付与されず、画像データDA1に含まれるページ情報が当該画像データDA1のページを示している場合に第二のページ情報PA2が付与される。従って、第三具体例のスキャンシステムSY1は、原稿OR1から読み取られた複数ページの画像データDA1についてページ情報に生じる差異がより適切に解消された画像データを出力することができる。
【0069】
(5)変形例:
本発明は、種々の変形例が考えられる。
例えば、複写機1は、ファクシミリ通信機能等を備える複合機でもよい。また、スキャンシステムSY1には、複写機1の代わりにスキャナー専用機、デジタルカメラ、等が用いられてもよい。
上述した処理の一部は、外部装置100が行ってもよい。この場合、複写機1と外部装置100の組合せがスキャンシステムSY1の例となる。
上述した処理は、順番を入れ替える等、適宜、変更可能である。例えば、図9に示すファイル生成処理において、S252の処理は、図7に示すS212,S214のいずれの処理の前において行うことが可能である。
【0070】
(6)結び:
以上説明したように、本発明によると、種々の態様により、原稿から読み取られた複数ページの画像データについてページ情報に生じる差異が解消された目次を有する画像データを出力可能な技術等を提供することができる。むろん、独立請求項に係る構成要件のみからなる技術でも、上述した基本的な作用、効果が得られる。
また、上述した例の中で開示した各構成を相互に置換したり組み合わせを変更したりした構成、公知技術及び上述した例の中で開示した各構成を相互に置換したり組み合わせを変更したりした構成、等も実施可能である。本発明は、これらの構成等も含まれる。
【符号の説明】
【0071】
1…複写機、10…制御部、20…操作パネル、30…原稿読取部、40…メモリー、50…ファイル出力部、52…文字認識部、53…ファイル生成部、61…差異解消部、62…出力部、100…外部装置、B1,B2…栞情報、B2a…栞、C0,C1…見出し、DA1,DA2…複数ページの画像データ、DA2a…本体、FU1…認識機能、FU2…差異解消機能、FU3…出力機能、L1…リンク、NP1,NP2…ページ番号、Ns…スキップページ数、OR1…原稿、PA1…第一のページ情報、PA2…第二のページ情報、PR0…情報処理プログラム、R1…認識結果、SY1…スキャンシステム、T1…目次情報、T2…目次、TXT…本文。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10