(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-22
(45)【発行日】2024-07-30
(54)【発明の名称】文書処理装置、システム、文書処理方法及びコンピュータープログラム
(51)【国際特許分類】
G06T 1/00 20060101AFI20240723BHJP
H04N 1/387 20060101ALI20240723BHJP
【FI】
G06T1/00 200C
H04N1/387 200
(21)【出願番号】P 2020190103
(22)【出願日】2020-11-16
【審査請求日】2023-06-27
(73)【特許権者】
【識別番号】000001270
【氏名又は名称】コニカミノルタ株式会社
(74)【代理人】
【識別番号】110001900
【氏名又は名称】弁理士法人 ナカジマ知的財産綜合事務所
(72)【発明者】
【氏名】山中 智雄
【審査官】中田 剛史
(56)【参考文献】
【文献】特開2006-201935(JP,A)
【文献】特開2009-232450(JP,A)
【文献】国際公開第2008/107985(WO,A1)
【文献】特開2002-027228(JP,A)
【文献】特開平09-091450(JP,A)
【文献】特開2013-163291(JP,A)
【文献】特開2002-049638(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00
H04N 1/387
(57)【特許請求の範囲】
【請求項1】
文書データを処理する文書処理装置であって、
複数のページデータからなる文書データを取得する取得手段と、
前記文書データから、所定枚数以上のページデータに亘って、対応する位置に存在する共通のオブジェクトを特定する特定手段と、
共通のオブジェクトが特定された場合、特定された共通のオブジェクトを、前記複数のページデータの各々から除去する除去手段と
を備え、
前記複数のページデータの各々は、複数の画素が配列された画像から構成され、
前記特定手段は、
前記複数のページデータを、対応する画素毎に、重ね合わせた重畳画像を生成する重畳手段と、
前記重畳画像において所定範囲の階調値を有する画素の空間的密集度を参照して、前記重畳画像において前記共通のオブジェクトが存在する位置を決定する決定手段とを含み、
前記除去手段は、決定された前記位置において、前記共通のオブジェクトを除去し、
前記複数のページデータの各々は、複数の単位領域から構成され、各単位領域には、所定数の画素が配列され、
前記重畳手段は、前記複数のページデータ内の各画素の階調値を2値化し、前記複数のページデータ内において対応する位置に存在する画素の2値化された階調値同士にOR演算を施し、演算結果として得られた画像を前記重畳画像として生成し、
前記決定手段は、前記重畳画像における単位領域毎に、当該単位領域内に含まれるON画素の数を計数し、その計数値が第一閾値より大きく、第二閾値以下となる単位領域が存在する場合、当該単位領域が存在する位置を前記共通のオブジェクトが存在する位置として、決定する
ことを特徴とす
る文書処理装置。
【請求項2】
文書データを処理する文書処理装置であって、
複数のページデータからなる文書データを取得する取得手段と、
前記文書データから、所定枚数以上のページデータに亘って、対応する位置に存在する共通のオブジェクトを特定する特定手段と、
共通のオブジェクトが特定された場合、特定された共通のオブジェクトを、前記複数のページデータの各々から除去する除去手段と
を備え、
前記複数のページデータの各々は、複数の画素が配列された画像から構成され、
前記特定手段は、
前記複数のページデータを、対応する画素毎に、重ね合わせた重畳画像を生成する重畳手段と、
前記重畳画像において所定範囲の階調値を有する画素の空間的密集度を参照して、前記重畳画像において前記共通のオブジェクトが存在する位置を決定する決定手段とを含み、
前記除去手段は、決定された前記位置において、前記共通のオブジェクトを除去し、
前記複数のページデータの各々は、複数の単位領域から構成され、各単位領域には、所定数の画素が配列され、
前記重畳手段は、前記複数のページデータ内において、対応する位置に存在する画素の階調値を全て加算し、加算結果として得られた画像を前記重畳画像として生成し、
前記決定手段は、前記重畳画像において、閾値以上の階調値が含まれる単位領域が存在する場合、当該単位領域が存在する位置を前記共通のオブジェクトが存在する位置として、決定する
ことを特徴とす
る文書処理装置。
【請求項3】
前記重畳手段は、前記複数のページデータ内の各画素の階調値を2値化し、前記複数のページデータ内において対応する位置に存在する画素の2値化された階調値を全て加算し、加算結果として得られた画像を前記重畳画像として生成する
ことを特徴とする請求項
2に記載の文書処理装置。
【請求項4】
文書データを処理する文書処理装置であって、
複数のページデータからなる文書データを取得する取得手段と、
前記文書データから、所定枚数以上のページデータに亘って、対応する位置に存在する共通のオブジェクトを特定する特定手段と、
共通のオブジェクトが特定された場合、特定された共通のオブジェクトを、前記複数のページデータの各々から除去する除去手段と
を備え、
前記複数のページデータの各々は、複数の画素が配列された画像から構成され、
前記特定手段は、
前記複数のページデータを、対応する画素毎に、重ね合わせた重畳画像を生成する重畳手段と、
前記重畳画像において所定範囲の階調値を有する画素の空間的密集度を参照して、前記重畳画像において前記共通のオブジェクトが存在する位置を決定する決定手段とを含み、
前記除去手段は、決定された前記位置において、前記共通のオブジェクトを除去し、
前記複数のページデータの各々は、複数の単位領域から構成され、各単位領域には、所定数の画素が配列され、
前記重畳手段は、前記複数のページデータにおける画素と同じ配列の画素列からなり、各画素の階調値に初期値が設定された初期画像を生成し、前記初期画像内の個々の画素の階調値から、前記複数のページデータ内の対応する位置に存在する画素の階調値を全て減算し、その減算結果として得られた画像を前記重畳画像として生成し、
前記決定手段は、前記重畳画像において、閾値以下の階調値が含まれる単位領域が存在する場合、当該単位領域が存在する位置を前記共通のオブジェクトが存在する位置として、決定する
ことを特徴とす
る文書処理装置。
【請求項5】
前記重畳手段は、前記初期画像の各画素の階調値の初期値として、0の値を設定し、前記複数のページデータ内の各画素の階調値を2値化し、前記初期画像内の個々の画素の階調値から、前記複数のページデータ内の対応する位置に存在する画素の2値化された階調値を全て減算する
ことを特徴とする請求項
4に記載の文書処理装置。
【請求項6】
前記特定手段は、さらに、
前記文書データに含まれるページデータの枚数を計数する計数手段と、
前記複数のページデータ内の画素毎に、計数された前記枚数により、当該画素の階調値を正規化して正規化階調値を算出する正規化手段とを備え、
前記重畳手段は、階調値を加算する場合、又は、階調値を減算する場合に、前記正規化階調値を用いる
ことを特徴とする請求項
2又は
4の何れかに記載の文書処理装置。
【請求項7】
前記正規化手段は、前記複数のページデータ内の各画素の階調値を、前記枚数により除算することにより、前記正規化階調値を算出する
ことを特徴とする請求項
6に記載の文書処理装置。
【請求項8】
前記文書処理装置に、画像読取装置又はサーバー装置が接続され、
前記画像読取装置は、複数のページからなる原稿を読み取ることにより、前記文書データを生成し、前記取得手段は、前記画像読取装置から前記文書データを取得し、
前記サーバー装置は、前記文書データを記憶しており、前記取得手段は、前記サーバー装置から前記文書データを受信することにより、前記文書データを取得する
ことを特徴とする請求項1
~7のいずれか1項に記載の文書処理装置。
【請求項9】
前記文書データに含まれる各ページデータには、同一の定型のフォーマットが表され、当該フォーマット内に手書き文字が記載され、
前記特定手段は、前記文書データに含まれる複数のページデータから、前記共通のオブジェクトとして、前記定型のフォーマットの部分を特定し、
前記除去手段は、複数のページデータの各々から、手書き文字が記載された部分を残して、特定された前記定型のフォーマットの部分を除去する
ことを特徴とする請求項1
~7のいずれか1項に記載の文書処理装置。
【請求項10】
請求項1
~9のいずれか1項に記載の文書処理装置と検索装置とから構成されるシステムであって、
前記検索装置は、
前記文書処理装置から、前記複数のページデータの各々から前記共通のオブジェクトが除去された前記文書データを受信し、情報端末から、文書データを検索するための検索条件を受信する受信手段と、
受信した前記文書データを含む複数の文書データの中から、受信した前記検索条件に合致する文書データを検索する検索手段と、
前記検索手段による検索結果を、前記情報端末に送信する送信手段と
を備えることを特徴とするシステム。
【請求項11】
文書データを処理する文書処理装置で用いられる文書処理方法であって、
複数のページデータからなる文書データを取得する取得ステップと、
前記文書データから、所定枚数以上のページデータに亘って、対応する位置に存在する共通のオブジェクトを特定する特定ステップと、
共通のオブジェクトが特定された場合、特定された共通のオブジェクトを、前記複数のページデータの各々から除去する除去ステップと
を含
み、
前記複数のページデータの各々は、複数の画素が配列された画像から構成され、
前記特定ステップは、
前記複数のページデータを、対応する画素毎に、重ね合わせた重畳画像を生成する重畳ステップと、
前記重畳画像において所定範囲の階調値を有する画素の空間的密集度を参照して、前記重畳画像において前記共通のオブジェクトが存在する位置を決定する決定ステップとを含み、
前記除去ステップは、決定された前記位置において、前記共通のオブジェクトを除去し、
前記複数のページデータの各々は、複数の単位領域から構成され、各単位領域には、所定数の画素が配列され、
前記重畳ステップは、前記複数のページデータ内の各画素の階調値を2値化し、前記複数のページデータ内において対応する位置に存在する画素の2値化された階調値同士にOR演算を施し、演算結果として得られた画像を前記重畳画像として生成し、
前記決定ステップは、前記重畳画像における単位領域毎に、当該単位領域内に含まれるON画素の数を計数し、その計数値が第一閾値より大きく、第二閾値以下となる単位領域が存在する場合、当該単位領域が存在する位置を前記共通のオブジェクトが存在する位置として、決定する
ことを特徴とする文書処理方法。
【請求項12】
文書データを処理する文書処理装置で用いられる文書処理方法であって、
複数のページデータからなる文書データを取得する取得ステップと、
前記文書データから、所定枚数以上のページデータに亘って、対応する位置に存在する共通のオブジェクトを特定する特定ステップと、
共通のオブジェクトが特定された場合、特定された共通のオブジェクトを、前記複数のページデータの各々から除去する除去ステップと
を含み、
前記複数のページデータの各々は、複数の画素が配列された画像から構成され、
前記特定ステップは、
前記複数のページデータを、対応する画素毎に、重ね合わせた重畳画像を生成する重畳ステップと、
前記重畳画像において所定範囲の階調値を有する画素の空間的密集度を参照して、前記重畳画像において前記共通のオブジェクトが存在する位置を決定する決定ステップとを含み、
前記除去ステップは、決定された前記位置において、前記共通のオブジェクトを除去し、
前記複数のページデータの各々は、複数の単位領域から構成され、各単位領域には、所定数の画素が配列され、
前記重畳ステップは、前記複数のページデータ内において、対応する位置に存在する画素の階調値を全て加算し、加算結果として得られた画像を前記重畳画像として生成し、
前記決定ステップは、前記重畳画像において、閾値以上の階調値が含まれる単位領域が存在する場合、当該単位領域が存在する位置を前記共通のオブジェクトが存在する位置として、決定する
ことを特徴とする文書処理方法。
【請求項13】
文書データを処理する文書処理装置で用いられる文書処理方法であって、
複数のページデータからなる文書データを取得する取得ステップと、
前記文書データから、所定枚数以上のページデータに亘って、対応する位置に存在する共通のオブジェクトを特定する特定ステップと、
共通のオブジェクトが特定された場合、特定された共通のオブジェクトを、前記複数のページデータの各々から除去する除去ステップと
を含み、
前記複数のページデータの各々は、複数の画素が配列された画像から構成され、
前記特定ステップは、
前記複数のページデータを、対応する画素毎に、重ね合わせた重畳画像を生成する重畳ステップと、
前記重畳画像において所定範囲の階調値を有する画素の空間的密集度を参照して、前記重畳画像において前記共通のオブジェクトが存在する位置を決定する決定ステップとを含み、
前記除去ステップは、決定された前記位置において、前記共通のオブジェクトを除去し、
前記複数のページデータの各々は、複数の単位領域から構成され、各単位領域には、所定数の画素が配列され、
前記重畳ステップは、前記複数のページデータにおける画素と同じ配列の画素列からなり、各画素の階調値に初期値が設定された初期画像を生成し、前記初期画像内の個々の画素の階調値から、前記複数のページデータ内の対応する位置に存在する画素の階調値を全て減算し、その減算結果として得られた画像を前記重畳画像として生成し、
前記決定ステップは、前記重畳画像において、閾値以下の階調値が含まれる単位領域が存在する場合、当該単位領域が存在する位置を前記共通のオブジェクトが存在する位置として、決定する
ことを特徴とする文書処理方法。
【請求項14】
文書データを処理する文書処理装置で用いられ、文書処理を行うための、コンピューター読み取り可能な記憶媒体に記憶されているコンピュータープログラムであって、
コンピューターである前記文書処理装置に、
複数のページデータからなる文書データを取得する取得ステップと、
前記文書データから、所定枚数以上のページデータに亘って、対応する位置に存在する共通のオブジェクトを特定する特定ステップと、
共通のオブジェクトが特定された場合、特定された共通のオブジェクトを、前記複数のページデータの各々から除去する除去ステップと
を実行させるためのコンピュータープログラム
であり、
前記複数のページデータの各々は、複数の画素が配列された画像から構成され、
前記特定ステップは、
前記複数のページデータを、対応する画素毎に、重ね合わせた重畳画像を生成する重畳ステップと、
前記重畳画像において所定範囲の階調値を有する画素の空間的密集度を参照して、前記重畳画像において前記共通のオブジェクトが存在する位置を決定する決定ステップとを含み、
前記除去ステップは、決定された前記位置において、前記共通のオブジェクトを除去し、
前記複数のページデータの各々は、複数の単位領域から構成され、各単位領域には、所定数の画素が配列され、
前記重畳ステップは、前記複数のページデータ内の各画素の階調値を2値化し、前記複数のページデータ内において対応する位置に存在する画素の2値化された階調値同士にOR演算を施し、演算結果として得られた画像を前記重畳画像として生成し、
前記決定ステップは、前記重畳画像における単位領域毎に、当該単位領域内に含まれるON画素の数を計数し、その計数値が第一閾値より大きく、第二閾値以下となる単位領域が存在する場合、当該単位領域が存在する位置を前記共通のオブジェクトが存在する位置として、決定する
ことを特徴とするコンピュータープログラム。
【請求項15】
文書データを処理する文書処理装置で用いられ、文書処理を行うための、コンピューター読み取り可能な記憶媒体に記憶されているコンピュータープログラムであって、
コンピューターである前記文書処理装置に、
複数のページデータからなる文書データを取得する取得ステップと、
前記文書データから、所定枚数以上のページデータに亘って、対応する位置に存在する共通のオブジェクトを特定する特定ステップと、
共通のオブジェクトが特定された場合、特定された共通のオブジェクトを、前記複数のページデータの各々から除去する除去ステップと
を実行させるためのコンピュータープログラムであり、
前記複数のページデータの各々は、複数の画素が配列された画像から構成され、
前記特定ステップは、
前記複数のページデータを、対応する画素毎に、重ね合わせた重畳画像を生成する重畳ステップと、
前記重畳画像において所定範囲の階調値を有する画素の空間的密集度を参照して、前記重畳画像において前記共通のオブジェクトが存在する位置を決定する決定ステップとを含み、
前記除去ステップは、決定された前記位置において、前記共通のオブジェクトを除去し、
前記複数のページデータの各々は、複数の単位領域から構成され、各単位領域には、所定数の画素が配列され、
前記重畳ステップは、前記複数のページデータ内において、対応する位置に存在する画素の階調値を全て加算し、加算結果として得られた画像を前記重畳画像として生成し、
前記決定ステップは、前記重畳画像において、閾値以上の階調値が含まれる単位領域が存在する場合、当該単位領域が存在する位置を前記共通のオブジェクトが存在する位置として、決定する
ことを特徴とするコンピュータープログラム。
【請求項16】
文書データを処理する文書処理装置で用いられ、文書処理を行うための、コンピューター読み取り可能な記憶媒体に記憶されているコンピュータープログラムであって、
コンピューターである前記文書処理装置に、
複数のページデータからなる文書データを取得する取得ステップと、
前記文書データから、所定枚数以上のページデータに亘って、対応する位置に存在する共通のオブジェクトを特定する特定ステップと、
共通のオブジェクトが特定された場合、特定された共通のオブジェクトを、前記複数のページデータの各々から除去する除去ステップと
を実行させるためのコンピュータープログラムであり、
前記複数のページデータの各々は、複数の画素が配列された画像から構成され、
前記特定ステップは、
前記複数のページデータを、対応する画素毎に、重ね合わせた重畳画像を生成する重畳ステップと、
前記重畳画像において所定範囲の階調値を有する画素の空間的密集度を参照して、前記重畳画像において前記共通のオブジェクトが存在する位置を決定する決定ステップとを含み、
前記除去ステップは、決定された前記位置において、前記共通のオブジェクトを除去し、
前記複数のページデータの各々は、複数の単位領域から構成され、各単位領域には、所定数の画素が配列され、
前記重畳ステップは、前記複数のページデータにおける画素と同じ配列の画素列からなり、各画素の階調値に初期値が設定された初期画像を生成し、前記初期画像内の個々の画素の階調値から、前記複数のページデータ内の対応する位置に存在する画素の階調値を全て減算し、その減算結果として得られた画像を前記重畳画像として生成し、
前記決定ステップは、前記重畳画像において、閾値以下の階調値が含まれる単位領域が存在する場合、当該単位領域が存在する位置を前記共通のオブジェクトが存在する位置として、決定する
ことを特徴とするコンピュータープログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、文書データに処理を施す技術に関する。
【背景技術】
【0002】
従来、ファイルサーバー等に保管された文書を利用者が指定したキーワードによる検索条件に基づいて検索する文書検索システムが用いられる。
【0003】
さらに、検索性を向上する方法として、既存のキーワードによる検索に加え、文字以外のイメージオブジェクトの分類(例えば、写真、グラフ、表等)や文書内におけるその位置、色情報等の利用者の記憶を検索条件として指定して検索を行う検索システムが提案されている。このような、検索方法を、イメージ検索サービスと呼ぶ。イメージ検索サービスでは、「文書の右側に円グラフがある」、「文書の左側に売り上げに関する表がある」等、利用者の記憶を、そのままに、検索条件として指定できる。
【0004】
例えば、特許文献1には、原稿をスキャナーで読み取り電子化するときに、原稿のタイトルを自動的に抽出する技術が開示されている。原稿をスキャナーで読み取って得た画像データから、所要以上の余白が、上下左右の4方向のうちの少なくとも3方向に存在する画像部分を切り出し、当該画像部分に文字認識処理を施して文字列を生成し、当該文字列にタイトルの特徴がある場合、当該文字列をタイトルとして前記画像データのファイルに対応付けて、管理する。この技術を用いると、例えば、「タイトルとして、文字列「新規事業について」を含む文書」を検索条件として、文書の検索を行うことができる。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
ここで、一例として、
図3(a)に示すように、全てのページの上方に、文字列「Confidential」が表示されている文書を検索の対象とする場合、本来のタイトルは、
図3(a)のページデータ131内の「新規事業について」であるが、文字列「Confidential」が特許文献1により開示されたタイトルを特定する条件に合致するため、タイトルと認識される可能性がある。このため、「タイトルとして、文字列「新規事業について」を含む文書」を検索条件として、文書の検索を行った場合であっても、
図3(a)に示す文書がヒットしないという問題がある。
【0007】
また、文書内の全てのページの左端に、飾り枠が表示されている場合、「ページの左側に、図形が表示されている文書」を検索条件として、文書の検索を行った場合、当該、全てのページの左側に、飾り枠が表示されている文書がヒットする。この文書は、利用者の所望する文書ではない。
【0008】
この問題を解決するため、文書の中から、文字列「Confidential」や飾り枠等、不要な部分を除去しておきたいという要請がある。
【0009】
文書の中から、不要な部分を除去したいという要請は、この場合だけではない。
【0010】
例えば、定型のフォーマットにより予め印刷された各種の申請用紙(
図26参照)が存在し、その申請用紙には、申請者の住所、氏名、生年月日等を記載する欄が設けられている場合がある。これらの欄には、利用者により、手書きで、住所、氏名、生年月日等が記載される。このような定型のフォーマットによる申請用紙を用いる場合、一定量の申請用紙が溜まったら、申請用紙から、定型のフォーマット部分を除去して、手書き部分のみの情報を抽出したいという要請もある。
【0011】
本開示は、上記の要請に対処するため、文書データから除去すべき対象を特定して、除去することができる文書処理装置、文書処理方法、システム及びコンピュータープログラムを提供することを目的とする。
【課題を解決するための手段】
【0012】
上記目的を達成するため、本開示に係る態様は、文書データを処理する文書処理装置であって、複数のページデータからなる文書データを取得する取得手段と、前記文書データから、所定枚数以上のページデータに亘って、対応する位置に存在する共通のオブジェクトを特定する特定手段と、共通のオブジェクトが特定された場合、特定された共通のオブジェクトを、前記複数のページデータの各々から除去する除去手段とを備えることを特徴とする。
【0013】
ここで、前記複数のページデータの各々は、複数の画素が配列された画像から構成され、前記特定手段は、前記複数のページデータを、対応する画素毎に、重ね合わせた重畳画像を生成する重畳手段と、前記重畳画像において所定範囲の階調値を有する画素の空間的密集度を参照して、前記重畳画像において前記共通のオブジェクトが存在する位置を決定する決定手段とを含み、前記除去手段は、決定された前記位置において、前記共通のオブジェクトを除去してもよい。
【0014】
ここで、前記複数のページデータの各々は、複数の単位領域から構成され、各単位領域には、所定数の画素が配列され、前記重畳手段は、前記複数のページデータ内の各画素の階調値を2値化し、前記複数のページデータ内において対応する位置に存在する画素の2値化された階調値同士にOR演算を施し、演算結果として得られた画像を前記重畳画像として生成し、前記決定手段は、前記重畳画像における単位領域毎に、当該単位領域内に含まれるON画素の数を計数し、その計数値が第一閾値より大きく、第二閾値以下となる単位領域が存在する場合、当該単位領域が存在する位置を前記共通のオブジェクトが存在する位置として、決定してもよい。
【0015】
ここで、前記複数のページデータの各々は、複数の単位領域から構成され、各単位領域には、所定数の画素が配列され、前記重畳手段は、前記複数のページデータ内において、対応する位置に存在する画素の階調値を全て加算し、加算結果として得られた画像を前記重畳画像として生成し、前記決定手段は、前記重畳画像において、閾値以上の階調値が含まれる単位領域が存在する場合、当該単位領域が存在する位置を前記共通のオブジェクトが存在する位置として、決定してもよい。
【0016】
ここで、前記重畳手段は、前記複数のページデータ内の各画素の階調値を2値化し、前記複数のページデータ内において対応する位置に存在する画素の2値化された階調値を全て加算し、加算結果として得られた画像を前記重畳画像として生成してもよい。
【0017】
ここで、前記複数のページデータの各々は、複数の単位領域から構成され、各単位領域には、所定数の画素が配列され、前記重畳手段は、前記複数のページデータにおける画素と同じ配列の画素列からなり、各画素の階調値に初期値が設定された初期画像を生成し、前記初期画像内の個々の画素の階調値から、前記複数のページデータ内の対応する位置に存在する画素の階調値を全て減算し、その減算結果として得られた画像を前記重畳画像として生成し、前記決定手段は、前記重畳画像において、閾値以下の階調値が含まれる単位領域が存在する場合、当該単位領域が存在する位置を前記共通のオブジェクトが存在する位置として、決定してもよい。
【0018】
ここで、前記重畳手段は、前記初期画像の各画素の階調値の初期値として、0の値を設定し、前記複数のページデータ内の各画素の階調値を2値化し、前記初期画像内の個々の画素の階調値から、前記複数のページデータ内の対応する位置に存在する画素の2値化された階調値を全て減算してもよい。
【0019】
ここで、前記特定手段は、さらに、前記文書データに含まれるページデータの枚数を計数する計数手段と、前記複数のページデータ内の画素毎に、計数された前記枚数により、当該画素の階調値を正規化して正規化階調値を算出する正規化手段とを備え、前記重畳手段は、階調値を加算する場合、又は、階調値を減算する場合に、前記正規化階調値を用いてもよい。
【0020】
ここで、前記正規化手段は、前記複数のページデータ内の各画素の階調値を、前記枚数により除算することにより、前記正規化階調値を算出してもよい。
【0021】
ここで、前記複数のページデータの各々は、複数の単位領域から構成され、各単位領域には、所定数の画素が配列され、前記特定手段は、各ページデータ内の単位領域毎に、当該単位領域を特徴付けるラベルを付与する付与手段と、前記所定枚数以上のページデータに亘って、対応する単位領域に同じラベルが重複して付与されているか否かを判定する判定手段と、前記判定手段により重複すると判定された回数を用いて、当該単位領域が存在する位置を前記共通のオブジェクトが存在する位置として、決定する決定手段とを含み、前記除去手段は、決定された前記位置において、前記共通のオブジェクトを除去してもよい。
【0022】
ここで、前記複数のページデータの各々は、複数の画素が配列された画像から構成され、前記付与手段は、前記複数のページデータ内の単位領域毎に、当該単位領域に含まれる画素の階調値が所定の閾値以上であるか否かを判断し、少なくとも一の画素の階調値が閾値以上であれば、当該単位領域にON画素領域を示すラベルを付与し、当該単位領域に含まれる全ての画素の階調値が閾値未満であれば、当該単位領域に、OFF画素領域を示すラベルを付与してもよい。
【0023】
ここで、前記複数のページデータの各々は、複数の画素が配列されたカラーの画像から構成され、前記付与手段は、前記複数のページデータ内の単位領域毎に、当該単位領域に含まれる複数の画素の階調値を用いて、当該単位領域に含まれる複数の画素の色を代表する代表色を特定し、特定した前記代表色を、当該単位領域を特徴付けるラベルとして付与してもよい。
【0024】
ここで、前記判定手段は、単位領域毎にカウンターを有し、前記文書データ内の第1のページデータにおける一の単位領域に付されたラベルと、他のページデータにおいて対応する単位領域に付されたラベルとが重複しているか否かを判定し、重複していると判定する都度、当該単位領域のカウンターに所定値を加算し、又は、前記カウンターから所定値を減算し、前記決定手段は、全てのラベルについての重複判定が終了した後、単位領域のカウンターの値の絶対値が所定の閾値以上の場合、当該単位領域が存在する位置を前記共通のオブジェクトが存在する位置として、決定してもよい。
【0025】
ここで、前記複数のページデータの各々は、複数の単位領域から構成され、各単位領域には、所定数の画素が配列され、前記特定手段は、各ページデータの単位領域毎に当該単位領域における特徴を抽出し、同一の特徴が隣接する複数の単位領域に存在する場合、それら複数の単位領域を併合して、一つの拡大領域とし、当該拡大領域に、共通の特徴を示す一つのラベルを付与する付与手段と、前記所定枚数以上のページデータに亘って、対応する拡大領域に同じラベルが重複して付与されているか否かを判定する判定手段と、前記判定手段により重複すると判定された回数を用いて、当該拡大領域が存在する位置を前記共通のオブジェクトが存在する位置として、決定する決定手段とを含み、前記除去手段は、決定された前記位置において、前記共通のオブジェクトを除去してもよい。
【0026】
ここで、前記複数のページデータの各々は、複数の単位領域から構成され、各単位領域には、所定数の画素が配列され、前記特定手段は、前記複数のページデータ内の単位領域毎に、当該単位領域に含まれる画素の階調値が所定の閾値以上であるか否かを判断し、少なくとも一の画素の階調値が閾値以上であれば、当該単位領域をON画素領域とし、当該単位領域に他のON画素領域が隣接していれば、当該単位領域と隣接する他のON画素領域を併合し、併合した領域を囲む外接矩形からなる併合領域を生成し、生成した併合領域のサイズを取得し、当該併合領域に、当該領域を特徴付けるラベルとして、取得したサイズを付与する付与手段と、前記所定枚数以上のページデータに亘って、対応する併合領域に同じラベルが重複して付与されているか否かを判定する判定手段と、前記判定手段により重複すると判定された回数を用いて、当該併合領域が存在する位置を前記共通のオブジェクトが存在する位置として、決定する決定手段とを含み、前記除去手段は、決定された前記位置において、前記共通のオブジェクトを除去してもよい。
【0027】
ここで、前記複数のページデータの各々は、複数の画素が配列された画像から構成され、前記特定手段は、前記複数のページデータを、対応する画素毎に、重ね合わせた重畳画像を生成する重畳手段と、前記重畳画像に対してOCR処理を施して、前記重畳画像から文字列を抽出するOCR処理手段と、前記OCR処理手段により文字列が抽出された場合、抽出された前記文字列が特定の文字列が否かを判断する判断手段と、特定の文字列であると判断される場合、前記ページデータにおいて、前記文字列が存在する位置を前記共通のオブジェクトが存在する位置として、決定する決定手段とを含み、前記除去手段は、決定された前記位置において、前記共通のオブジェクトを除去してもよい。
【0028】
ここで、前記重畳手段は、前記複数のページデータ内の各画素の階調値を2値化し、前記複数のページデータ内の対応する位置に存在する画素の2値化された階調値同士にOR演算を施して、前記重畳画像を生成してもよい。
【0029】
ここで、さらに、特定された前記共通のオブジェクトが特定の形状を有するか否かを判断する判断手段と、特定の形状を有すると判断される場合、前記ページデータ内において、前記共通のオブジェクトから、所定の距離内に存在するオブジェクトを、前記共通のオブジェクトに併合する併合手段とを備えるとしてもよい。
【0030】
ここで、さらに、前記文書データに含まれるページデータの枚数を計数する計数手段と、計数された前記枚数が所定枚数未満の場合、前記特定手段による共通のオブジェクトの特定を抑制する抑制手段とを備えるとしてもよい。
【0031】
ここで、前記抑制手段は、計数された前記枚数が所定枚数未満の場合、共通のオブジェクトが存在しない旨を示す判断情報を出力してもよい。
【0032】
ここで、さらに、前記文書データに含まれるページデータの枚数を計数する計数手段を備え、計数された前記枚数が所定枚数未満の場合、前記取得手段は、さらに、複数のページデータからなる別の文書データを取得し、前記特定手段は、さらに、前記文書データ及び前記別の文書データの両方から、所定枚数以上のページデータに亘って、対応する位置に存在する共通のオブジェクトを特定してもよい。
【0033】
ここで、さらに、前記別の文書データを記憶している記憶手段を備え、前記取得手段は、前記記憶手段から前記別の文書データを読み出すことにより、取得してもよい。
【0034】
ここで、さらに、過去に、別の文書データにおいて、別の共通のオブジェクトが特定された別のページデータと、当該別の共通のオブジェクトとを記憶している記憶手段と、前記取得手段により取得された前記文書データに含まれるページの枚数を計数する計数手段と、計数された前記枚数が前記所定枚数未満の場合、取得された前記文書データに含まれるページデータの特徴と、前記記憶手段に記憶されている前記別のページデータの特徴とを比較する比較手段とを備え、取得された前記文書データに含まれるページデータの特徴と、前記記憶手段に記憶されている前記別のページデータの特徴とが一致する場合、前記特定手段は、前記記憶手段に記憶されている前記別の共通のオブジェクトを、前記共通のオブジェクトとして、特定してもよい。
【0035】
ここで、前記文書処理装置に、画像読取装置又はサーバー装置が接続され、前記画像読取装置は、複数のページからなる原稿を読み取ることにより、前記文書データを生成し、前記取得手段は、前記画像読取装置から前記文書データを取得し、前記サーバー装置は、前記文書データを記憶しており、前記取得手段は、前記サーバー装置から前記文書データを受信することにより、前記文書データを取得してもよい。
【0036】
ここで、前記文書データに含まれる各ページデータには、同一の定型のフォーマットが表され、当該フォーマット内に手書き文字が記載され、前記特定手段は、前記文書データに含まれる複数のページデータから、前記共通のオブジェクトとして、前記定型のフォーマットの部分を特定し、前記除去手段は、複数のページデータの各々から、手書き文字が記載された部分を残して、特定された前記定型のフォーマットの部分を除去してもよい。
【0037】
また、本開示に係る態様は、上記の文書処理装置と検索装置とから構成されるシステムであって、前記検索装置は、前記文書処理装置から、前記複数のページデータの各々から前記共通のオブジェクトが除去された前記文書データを受信し、情報端末から、文書データを検索するための検索条件を受信する受信手段と、受信した前記文書データを含む複数の文書データの中から、受信した前記検索条件に合致する文書データを検索する検索手段と、前記検索手段による検索結果を、前記情報端末に送信する送信手段とを備えることを特徴とする。
【0038】
また、本開示に係る態様は、文書データを処理する文書処理装置で用いられる文書処理方法であって、複数のページデータからなる文書データを取得する取得ステップと、前記文書データから、所定枚数以上のページデータに亘って、対応する位置に存在する共通のオブジェクトを特定する特定ステップと、共通のオブジェクトが特定された場合、特定された共通のオブジェクトを、前記複数のページデータの各々から除去する除去ステップとを含み、前記複数のページデータの各々は、複数の画素が配列された画像から構成され、前記特定ステップは、前記複数のページデータを、対応する画素毎に、重ね合わせた重畳画像を生成する重畳ステップと、前記重畳画像において所定範囲の階調値を有する画素の空間的密集度を参照して、前記重畳画像において前記共通のオブジェクトが存在する位置を決定する決定ステップとを含み、前記除去ステップは、決定された前記位置において、前記共通のオブジェクトを除去し、前記複数のページデータの各々は、複数の単位領域から構成され、各単位領域には、所定数の画素が配列され、前記重畳ステップは、前記複数のページデータ内の各画素の階調値を2値化し、前記複数のページデータ内において対応する位置に存在する画素の2値化された階調値同士にOR演算を施し、演算結果として得られた画像を前記重畳画像として生成し、前記決定ステップは、前記重畳画像における単位領域毎に、当該単位領域内に含まれるON画素の数を計数し、その計数値が第一閾値より大きく、第二閾値以下となる単位領域が存在する場合、当該単位領域が存在する位置を前記共通のオブジェクトが存在する位置として、決定することを特徴とする。
本開示に係る別の態様は、文書データを処理する文書処理装置で用いられる文書処理方法であって、複数のページデータからなる文書データを取得する取得ステップと、前記文書データから、所定枚数以上のページデータに亘って、対応する位置に存在する共通のオブジェクトを特定する特定ステップと、共通のオブジェクトが特定された場合、特定された共通のオブジェクトを、前記複数のページデータの各々から除去する除去ステップとを含み、前記複数のページデータの各々は、複数の画素が配列された画像から構成され、前記特定ステップは、前記複数のページデータを、対応する画素毎に、重ね合わせた重畳画像を生成する重畳ステップと、前記重畳画像において所定範囲の階調値を有する画素の空間的密集度を参照して、前記重畳画像において前記共通のオブジェクトが存在する位置を決定する決定ステップとを含み、前記除去ステップは、決定された前記位置において、前記共通のオブジェクトを除去し、前記複数のページデータの各々は、複数の単位領域から構成され、各単位領域には、所定数の画素が配列され、前記重畳ステップは、前記複数のページデータ内において、対応する位置に存在する画素の階調値を全て加算し、加算結果として得られた画像を前記重畳画像として生成し、前記決定ステップは、前記重畳画像において、閾値以上の階調値が含まれる単位領域が存在する場合、当該単位領域が存在する位置を前記共通のオブジェクトが存在する位置として、決定することを特徴とする。
本開示に係るさらに別の態様は、文書データを処理する文書処理装置で用いられる文書処理方法であって、複数のページデータからなる文書データを取得する取得ステップと、前記文書データから、所定枚数以上のページデータに亘って、対応する位置に存在する共通のオブジェクトを特定する特定ステップと、共通のオブジェクトが特定された場合、特定された共通のオブジェクトを、前記複数のページデータの各々から除去する除去ステップとを含み、前記複数のページデータの各々は、複数の画素が配列された画像から構成され、前記特定ステップは、前記複数のページデータを、対応する画素毎に、重ね合わせた重畳画像を生成する重畳ステップと、前記重畳画像において所定範囲の階調値を有する画素の空間的密集度を参照して、前記重畳画像において前記共通のオブジェクトが存在する位置を決定する決定ステップとを含み、前記除去ステップは、決定された前記位置において、前記共通のオブジェクトを除去し、前記複数のページデータの各々は、複数の単位領域から構成され、各単位領域には、所定数の画素が配列され、前記重畳ステップは、前記複数のページデータにおける画素と同じ配列の画素列からなり、各画素の階調値に初期値が設定された初期画像を生成し、前記初期画像内の個々の画素の階調値から、前記複数のページデータ内の対応する位置に存在する画素の階調値を全て減算し、その減算結果として得られた画像を前記重畳画像として生成し、前記決定ステップは、前記重畳画像において、閾値以下の階調値が含まれる単位領域が存在する場合、当該単位領域が存在する位置を前記共通のオブジェクトが存在する位置として、決定することを特徴とする。
【0039】
また、本開示に係る態様は、文書データを処理する文書処理装置で用いられ、文書処理を行うための、コンピューター読み取り可能な記憶媒体に記憶されているコンピュータープログラムであって、コンピューターである前記文書処理装置に、複数のページデータからなる文書データを取得する取得ステップと、前記文書データから、所定枚数以上のページデータに亘って、対応する位置に存在する共通のオブジェクトを特定する特定ステップと、共通のオブジェクトが特定された場合、特定された共通のオブジェクトを、前記複数のページデータの各々から除去する除去ステップとを実行させるためのコンピュータープログラムであり、前記複数のページデータの各々は、複数の画素が配列された画像から構成され、前記特定ステップは、前記複数のページデータを、対応する画素毎に、重ね合わせた重畳画像を生成する重畳ステップと、前記重畳画像において所定範囲の階調値を有する画素の空間的密集度を参照して、前記重畳画像において前記共通のオブジェクトが存在する位置を決定する決定ステップとを含み、前記除去ステップは、決定された前記位置において、前記共通のオブジェクトを除去し、前記複数のページデータの各々は、複数の単位領域から構成され、各単位領域には、所定数の画素が配列され、前記重畳ステップは、前記複数のページデータ内の各画素の階調値を2値化し、前記複数のページデータ内において対応する位置に存在する画素の2値化された階調値同士にOR演算を施し、演算結果として得られた画像を前記重畳画像として生成し、前記決定ステップは、前記重畳画像における単位領域毎に、当該単位領域内に含まれるON画素の数を計数し、その計数値が第一閾値より大きく、第二閾値以下となる単位領域が存在する場合、当該単位領域が存在する位置を前記共通のオブジェクトが存在する位置として、決定することを特徴とする。
本開示に係る別の態様は、文書データを処理する文書処理装置で用いられ、文書処理を行うための、コンピューター読み取り可能な記憶媒体に記憶されているコンピュータープログラムであって、コンピューターである前記文書処理装置に、複数のページデータからなる文書データを取得する取得ステップと、前記文書データから、所定枚数以上のページデータに亘って、対応する位置に存在する共通のオブジェクトを特定する特定ステップと、共通のオブジェクトが特定された場合、特定された共通のオブジェクトを、前記複数のページデータの各々から除去する除去ステップとを実行させるためのコンピュータープログラムであり、前記複数のページデータの各々は、複数の画素が配列された画像から構成され、前記特定ステップは、前記複数のページデータを、対応する画素毎に、重ね合わせた重畳画像を生成する重畳ステップと、前記重畳画像において所定範囲の階調値を有する画素の空間的密集度を参照して、前記重畳画像において前記共通のオブジェクトが存在する位置を決定する決定ステップとを含み、前記除去ステップは、決定された前記位置において、前記共通のオブジェクトを除去し、前記複数のページデータの各々は、複数の単位領域から構成され、各単位領域には、所定数の画素が配列され、前記重畳ステップは、前記複数のページデータ内において、対応する位置に存在する画素の階調値を全て加算し、加算結果として得られた画像を前記重畳画像として生成し、前記決定ステップは、前記重畳画像において、閾値以上の階調値が含まれる単位領域が存在する場合、当該単位領域が存在する位置を前記共通のオブジェクトが存在する位置として、決定することを特徴とする。
本開示に係るさらに別の態様は、文書データを処理する文書処理装置で用いられ、文書処理を行うための、コンピューター読み取り可能な記憶媒体に記憶されているコンピュータープログラムであって、コンピューターである前記文書処理装置に、複数のページデータからなる文書データを取得する取得ステップと、前記文書データから、所定枚数以上のページデータに亘って、対応する位置に存在する共通のオブジェクトを特定する特定ステップと、共通のオブジェクトが特定された場合、特定された共通のオブジェクトを、前記複数のページデータの各々から除去する除去ステップとを実行させるためのコンピュータープログラムであり、前記複数のページデータの各々は、複数の画素が配列された画像から構成され、前記特定ステップは、前記複数のページデータを、対応する画素毎に、重ね合わせた重畳画像を生成する重畳ステップと、前記重畳画像において所定範囲の階調値を有する画素の空間的密集度を参照して、前記重畳画像において前記共通のオブジェクトが存在する位置を決定する決定ステップとを含み、前記除去ステップは、決定された前記位置において、前記共通のオブジェクトを除去し、前記複数のページデータの各々は、複数の単位領域から構成され、各単位領域には、所定数の画素が配列され、前記重畳ステップは、前記複数のページデータにおける画素と同じ配列の画素列からなり、各画素の階調値に初期値が設定された初期画像を生成し、前記初期画像内の個々の画素の階調値から、前記複数のページデータ内の対応する位置に存在する画素の階調値を全て減算し、その減算結果として得られた画像を前記重畳画像として生成し、前記決定ステップは、前記重畳画像において、閾値以下の階調値が含まれる単位領域が存在する場合、当該単位領域が存在する位置を前記共通のオブジェクトが存在する位置として、決定することを特徴とする。
【発明の効果】
【0040】
上記の態様によると、文書データから除去すべき対象を特定して、除去することができる、という優れた効果を奏する。
【図面の簡単な説明】
【0041】
【
図1】実施の形態1の検索システム1の構成を示すシステム構成図である。
【
図2】文書処理装置100の構成を示すブロック図である。
【
図3】(a)文書データ130に含まれるページデータ131、132及び133を示す。(b)ページデータ134~136を重ね合わせて重畳画像137を生成する様子を示す。(c)重畳画像138から共通のオブジェクト139bを判定する様子を示す。(d)初期画像149aにおける各画素の階調値(初期値)から、ページデータ149b~149dにおける対応する画素の階調値を減算して、重畳画像149eを生成する様子を示す。(e)ページデータ148a~148cにおける対応する画素の階調値(2値)にOR演算を施して、重畳画像148dを生成する様子を示す。
【
図5】多階調の画像141における各画素の階調値を、2値化して、画像142を生成する様子を示す。
【
図6】ファイルサーバー装置20の構成を示すブロック図である。
【
図7】文書データの処理手順を示すフローチャートである。
【
図8】文書データの検索処理手順を示すフローチャートである。
【
図9】実施の形態1の変形例(1)の文書データの処理手順を示すフローチャートである。
【
図10】(a)実施の形態2の文書処理装置100aの構成を示すブロック図である。(b)ページデータ内の単位領域にラベルを付す様子を示す。
【
図11】文書データの処理手順を示すフローチャートである。
図12へ続く。
【
図12】文書データの処理手順を示すフローチャートである。
【
図13】(a)ページデータ341内の単位領域にON領域ラベル又はOFF領域ラベルを付す様子を示す。(b)ラベル付与の手順を示すフローチャートである。
【
図14】(a)単位領域171に隣接する単位領域を示す。(b)隣接する複数の単位領域181a~181eに外接する外接矩形182を示す。(c)文字を表した画像184に外接する外接矩形183を示す。
【
図15】外接矩形領域を生成する手順を示すフローチャートである。
【
図16】(a)ページデータ351内の単位領域に色のラベルを付す様子を示す。(b)色のラベルの付与の手順を示すフローチャートである。
【
図17】(a)実施の形態3の特定部191を示す。(b)OCR処理により得られた文字列を用いて、共通のオブジェクトを特定する様子を示す。
【
図18】OCR処理により得られた文字列を用いて、共通のオブジェクトを特定する手順を示すフローチャートである。
【
図19】(a)実施の形態4において、特定部113に含まれる判断部192a及び併合部192bを示す。(b)特別テーブル421のデータ構造を示す。(c)各ページデータにおけるページ番号表示422a、423a、424aを示す。(d)共通のオブジェクト425aと非共通領域425bとの併合の様子を示す。(e)共通のオブジェクト426aと非共通領域426bとの併合の様子を示す。(f)共通のオブジェクト427aと非共通領域427bとの併合の様子を示す。
【
図20】共通のオブジェクトとしてのページ番号図形と非共通領域との併合の手順を示すフローチャートである。
【
図21】(a)実施の形態5の抑制部195の構成を示す。(b)文書データのページ数が閾値未満の場合における手順を示すフローチャートである。
【
図22】実施の形態5の変形例(1)において、文書データのページ数が閾値未満の場合における手順を示すフローチャートである。
【
図23】(a)実施の形態5の変形例(2)の比較部172の構成を示す。(b)実施の形態5の変形例(2)において、文書データのページ数が閾値未満の場合における場合における手順を示すフローチャートである。
【
図24】(a)一つの単位領域(文字領域)と、別の単位領域(文字領域)との距離が所定閾値以下の場合の併合の様子を示す。(b)一つの単位領域(文字列領域)と、別の単位領域(文字列領域)との距離が所定閾値以下の場合の併合の様子を示す。
【
図25】実施の形態6における文書処理装置600の構成を示すブロック図である。
【発明を実施するための形態】
【0042】
1.実施の形態1
本開示に係る実施の形態1としての検索システム1について図面を参照しながら説明する。
【0043】
1.1 検索システム1
検索システム1は、
図1に示すように、文書処理装置100、情報端末10、ファイルサーバー装置20及び画像形成装置30から構成されている。
【0044】
文書処理装置100、情報端末10、ファイルサーバー装置20及び画像形成装置30は、ネットワーク5を介して、相互に接続されている。
【0045】
文書処理装置100は、ファイルサーバー装置20から、ネットワーク5を介して、複数のページデータからなる文書データを受信する。また、文書処理装置100は、画像形成装置30から、ネットワーク5を介して、複数のページデータからなる文書データ(スキャンにより得られた文書データ)を受信してもよい。
【0046】
文書処理装置100は、受信した文書データから、所定ページ数(所定枚数)以上のページデータに亘って、対応する位置に存する共通のオブジェクトを抽出し、共通のオブジェクトが抽出された場合、共通のオブジェクトを、複数のページデータの各々から除去する。文書処理装置100は、共通のオブジェクトを除去した文書データの各ページデータに、検索用のタグを付してもよい。文書処理装置100は、共通のオブジェクトを除去し、検索用のタグを付した文書データを、ネットワーク5を介して、ファイルサーバー装置20に対して、送信する。
【0047】
ファイルサーバー装置20は、共通のオブジェクトが除去され、検索用のタグが付された文書データを受信し、内部に記憶する。
【0048】
情報端末10は、利用者から、文書データの検索のための検索条件の入力を受け付ける。情報端末10は、入力を受け付けた検索条件を、ファイルサーバー装置20に対して、ネットワーク5を介して、送信する。
【0049】
ファイルサーバー装置20は、共通のオブジェクトが除去され、検索用のタグが付された文書データを含む複数の文書データから、情報端末10から受信した検索条件に合致する文書データを検索する。ファイルサーバー装置20は、検索条件に合致する文書データが存在する場合、当該文書データを、ネットワーク5を介して、情報端末10に対して、送信する。
【0050】
情報端末10は、ファイルサーバー装置20から、検索条件に合致する文書データを受信する。次に、情報端末10は、受信した文書データの内容を表示する。
【0051】
1.2 文書処理装置100
文書処理装置100は、
図2に示すように、CPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory )103、記憶回路104、ネットワーク通信回路105等から構成されている。
【0052】
CPU101、ROM102及びRAM103は、主制御部111を構成している。
【0053】
RAM103は、各種の制御変数等を一時記憶すると共に、CPU101によるプログラム実行時のワークエリアを提供する。
【0054】
ROM102には、文書処理装置100において実行される制御プログラム(コンピュータープログラム)などが格納されている。
【0055】
CPU101は、ROM102に記憶されている制御プログラムに従って動作する。
【0056】
CPU101が、制御プログラムに従って動作することにより、主制御部111は、記憶回路104、ネットワーク通信回路105等を統一的に制御する。
【0057】
このように、文書処理装置100は、マイクロプロセッサーとメモリとを備えたコンピューターシステムである。メモリは、コンピュータープログラムを記憶しており、マイクロプロセッサーは、コンピュータープログラムに従って動作する。ここで、コンピュータープログラムは、所定の機能を達成するために、コンピューターに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
【0058】
CPU101がROM102に記憶されている制御プログラムに従って動作することにより、主制御部111は、統括制御部112、特定部113、除去部114、付与部115を構成している。特定部113は、重畳部113a、決定部113b、計数部113d及び正規化部113eを構成している。
【0059】
統括制御部112、特定部113、除去部114、付与部115、重畳部113a、決定部113b、計数部113d及び正規化部113eについては、後述する。
【0060】
ネットワーク通信回路105(取得手段)は、ネットワーク5に接続されている。ネットワーク通信回路105は、ネットワーク5に接続された外部の装置、例えば、ファイルサーバー装置20又は画像形成装置30から文書データを受信することにより、取得し、取得した文書データを主制御部111の制御により、記憶回路104に書き込む。受信する文書データは、複数のページデータから構成されている。また、ネットワーク通信回路105は、主制御部111の制御により、記憶回路104から文書データを読み出し、読み出した文書データを、ネットワーク5に接続された外部の装置、例えば、ファイルサーバー装置20に対して、送信する。
【0061】
記憶回路104は、例えば、不揮発性の半導体メモリから構成されている。なお、記憶回路104は、ハードディスクユニットから構成されている、としてもよい。記憶回路104は、一例として、ファイルサーバー装置20又は画像形成装置30から受信した文書データを記憶する。
【0062】
一例として、
図3(a)に示すように、記憶回路104が記憶する文書データ130は、ページデータ131~133から構成されている。各ページデータは、複数の画素が配列されて構成される画像である。これらのページデータの上方の同じ位置に、同一の文字列「Confidential」が配されている。各ページの上方に配置された文字列「Confidential」の部分を除くと、それぞれのページデータの内容は、異なっている。
【0063】
1.3 主制御部111
上述したように、CPU101がROM102に記憶されている制御プログラムに従って動作することにより、主制御部111は、統括制御部112、特定部113、除去部114、付与部115を構成している。
【0064】
(1)統括制御部112
統括制御部112は、ネットワーク通信回路105、記憶回路104、特定部113、除去部114及び付与部115を統一的に制御する。
【0065】
(2)特定部113
特定部113(特定手段)は、ファイルサーバー装置20又は画像形成装置30から受信した文書データから、所定ページ数以上のページデータに亘って、対応する位置に存する共通のオブジェクトを特定する。
【0066】
特定部113は、
図2に示すように、重畳部113a、決定部113b、計数部113d及び正規化部113eから構成されている。次に、重畳部113a、決定部113b、計数部113d及び正規化部113eについて、説明する。
【0067】
(a)重畳部113a
重畳部113a(重畳手段)は、文書データに含まれる複数のページデータを、対応する画素毎に、重ね合わせて重畳画像を生成する。
【0068】
重畳部113aにより、複数のページデータを、対応する画素毎に、重ね合わせて重畳画像を生成する場合の例を、
図3(b)を用いて、説明する。
【0069】
この図において、ページデータ134、135、136は、それぞれ、
図3(a)に示すページデータ131、132、133に対応している。
【0070】
重畳部113aは、3枚のページデータ134、135、136を、対応する画素毎に、重ね合わせて重畳画像137を生成する。3枚のページデータ134、135、136の上方には、各ページデータの同じ位置において、同じ文字列「Confidential」が配されている。各ページデータの上方に配置された文字列「Confidential」を除くと、ページデータ画像134、135、136の内容は、それぞれ、異なっている。このため、3枚のページデータ134、135、136を重ね合わせると、重畳画像137に示すように、同じ位置に配された同じ文字列「Confidential」を、明確に読み取ることができる。一方、文字列「Confidential」を除くその他の部分については、ページデータ134、135、136の異なった内容が重なっているため、これらの重なった部分については、その内容を読み取ることは困難である。本開示は、この特性を利用する。
【0071】
(具体例1)
重畳部113aは、文書データの複数のページデータ内の各画素の階調値を2値化し、複数のページデータ内において対応する位置に存する画素の2値化された階調値同士にOR演算を施して、得られた演算結果を、重畳画像として、生成してもよい。
【0072】
図3(e)に示すように、ページデータ148a、148b、148cは、それぞれ、文書データのページデータ内の各画素の階調値を2値化して得られた画像である。
図3(e)において、最小の矩形は、画素に相当する。ページデータ148a、148b、148cに含まれる各画素の階調値は、「0」又は「1」である。
【0073】
重畳部113aは、2値化されたページデータ148a、148b、148c内において対応する位置に存する画素の2値化された階調値同士にOR演算を施して、重畳画像148dを生成する。このため、重畳画像148dに含まれる各画素の階調値は、「0」又は「1」である。
【0074】
(具体例2)
重畳部113aは、文書データの複数のページデータ内において、対応する位置に存する画素の階調値を全て加算して、重畳画像を生成してもよい。
図4に、一例として、こうして生成された重畳画像145を示す。ここで、文書データの複数のページデータの各画素の階調値は、一例として、0~255である。
【0075】
重畳画像145は、この図に示すように、行列状に、複数の画素153、154、・・・が配されて構成されている。各画素の階調値は、複数のページデータ内において、対応する位置に存する画素の階調値を全て加算して得られたものである。このため、上記の加算により重畳画像145の各画素の階調値は、256以上の値を取る場合がある。
【0076】
次に、重畳部113aは、重畳画像145(
図5に示す多階調の重畳画像141)に含まれる各画素の階調値を、2値化して、2値化された階調値を含む重畳画像142(
図5)を生成する。
【0077】
ここで、
図5に示す重畳画像142において、最小の矩形は、画素に相当する。
【0078】
(b)決定部113b
決定部113b(決定手段)は、重畳部113aにより生成された重畳画像内において所定範囲の階調値を有する画素の空間的密集度を参照して、重畳画像において、共通のオブジェクトが存在する位置を決定する。
【0079】
(具体例)
上述したように、重畳部113aにより、重畳画像が生成された際、決定部113bは、重畳画像における単位領域毎に、当該単位領域内に含まれるON画素の数を計数してもよい。その計数値が、第一閾値より大きく、第二閾値以下となる単位領域が存在する場合、決定部113bは、当該単位領域が存在する位置を共通のオブジェクトが存在する位置として、決定してもよい。
【0080】
ここで、複数のページデータの各々は、複数の単位領域から構成されている。また、各単位領域は、一例として、縦に8個、横に8個、合計で64個の画素が行列状に配されて、構成されている。なお、単位領域は、これには、限定されない。単位領域は、一例として、縦に4個、横に4個、合計で16個の画素が行列状に配されて、構成されてもよい。また、単位領域は、一例として、縦に8個、横に16個、合計で128個の画素が行列状に配されて、構成されてもよい。
【0081】
(c)計数部113d
計数部113d(計数手段)は、文書データに含まれるページデータのページ数(枚数)を計数してもよい。計数部113dは、計数して得られたページ数を、正規化部113eに対して、出力する。
【0082】
(d)正規化部113e
正規化部113eは、計数部113dから、文書データに含まれるページデータのページ数を受け取る。
【0083】
正規化部113e(正規化手段)は、文書データの複数のページデータ内の画素毎に、当該画素の階調値を、計数されたページ数により、正規化して正規化階調値を算出してもよい。
【0084】
具体的には、正規化部113eは、複数のページデータ内の各画素の階調値を、ページ数により除算することにより、正規化階調値を算出してもよい。
【0085】
正規化部113eは、算出した正規化階調値を重畳部113aに対して、出力してもよい。
【0086】
重畳部113aは、複数のページデータ内の画素毎に、正規化階調値を受け取る。重畳部113aは、複数のページデータ内の画素毎に、受け取った正規化階調値を用いて、重畳画像を生成してもよい。
【0087】
(3)除去部114
除去部114(除去手段)は、特定部113により、共通のオブジェクトが特定された場合、特定された共通のオブジェクトを、文書データの複数のページデータの各々から除去する。
【0088】
具体的には、除去部114は、文書データの複数のページデータの各々において、共通のオブジェクトが配されている領域を、空白に置き換える。
【0089】
(4)付与部115
付与部115は、文書データの各ページデータについて、文章が配されている領域、図形が配されている領域、グラフが配されている領域、写真が配されている領域を抽出する。次に、それぞれの領域を示す種別情報、つまり、文章、図形、グラフ、写真のいずれの領域であるかを示す種別情報と、その領域のページデータ内における位置を示す位置情報とを、各領域に対応付けて、文書データ内に書き込む。ここで、種別情報及び位置情報をタグと呼ぶ。
【0090】
1.4 ファイルサーバー装置20
ファイルサーバー装置20は、
図6に示すように、CPU201、ROM202、RAM203、記憶回路204、ネットワーク通信回路205等から構成されている。
【0091】
CPU201、ROM202及びRAM203は、主制御部211を構成している。
【0092】
RAM203は、各種の制御変数等を一時記憶すると共に、CPU201によるプログラム実行時のワークエリアを提供する。
【0093】
ROM202には、ファイルサーバー装置20において実行される制御プログラム(コンピュータープログラム)などが格納されている。
【0094】
CPU201は、ROM202に記憶されている制御プログラムに従って動作する。
【0095】
CPU201が、制御プログラムに従って動作することにより、主制御部211は、記憶回路204、ネットワーク通信回路205等を統一的に制御する。
【0096】
このように、ファイルサーバー装置20は、文書処理装置100と同様のマイクロプロセッサーとメモリとを備えたコンピューターシステムである。
【0097】
CPU201がROM202に記憶されている制御プログラムに従って動作することにより、主制御部211は、検索部212を構成している。
【0098】
ネットワーク通信回路205は、ネットワーク5に接続されている。
【0099】
ネットワーク通信回路205は、ネットワーク5に接続された外部の装置、例えば、文書処理装置100に対して、文書データを送信する。また、ネットワーク通信回路205は、ネットワーク5に接続された外部の装置、例えば、文書処理装置100から、処理された文書データを受信する。ネットワーク通信回路205は、受信した文書データを主制御部211の制御により、記憶回路204に書き込む。送信する文書データ及び受信する文書データは、複数のページデータから構成されている。
【0100】
また、ネットワーク通信回路205は、ネットワーク5に接続された外部の装置、例えば、情報端末10から、検索条件を受信する。ネットワーク通信回路205は、受信した検索条件を、検索部212に対して、出力する。
【0101】
また、ネットワーク通信回路205は、検索部212から、検索結果の文書データの指定(例えば、文書データを識別するファイル名)を受け付ける。ネットワーク通信回路205は、指定された文書データを記憶回路204から読み出し、読み出した文書データを、ネットワーク5を介して、情報端末10に送信する。
【0102】
記憶回路204は、例えば、不揮発性の半導体メモリから構成されている。なお、記憶回路204は、ハードディスクユニットから構成されている、としてもよい。記憶回路204は、予め、複数の文書データを記憶している。各文書データは、複数のページデータから構成されている。
【0103】
一例として、
図3(a)に示すように、記憶回路204が記憶する文書データ130は、ページデータ131~133から構成されている。
【0104】
検索部212は、情報端末10から、ネットワーク5及びネットワーク通信回路205を介して、検索条件を受信する。検索部212は、受信した検索条件に合致する文書データを記憶回路204から検索する。受信した検索条件に合致する文書データを記憶回路204から発見した場合、検索部212は、ネットワーク通信回路205に対して、発見した文書データを情報端末10に対して、送信するように、指示する。
【0105】
以上説明したように、ファイルサーバー装置20(検索装置)は、文書処理装置100から、複数のページデータの各々から共通のオブジェクトが除去された文書データを受信し、利用者の情報端末10から、文書データを検索するための検索条件を受信するネットワーク通信回路205(受信手段)と、受信した文書データを含む複数の文書データの中から、受信した検索条件に合致する文書データを検索する検索部212(検索手段)とを備え、ネットワーク通信回路205(送信手段)は、検索部212による検索結果を、情報端末10に送信する。
【0106】
1.5 画像形成装置30
画像形成装置30は、スキャナー、プリンター及びコピー機の機能を有するタンデム型のカラー複合機(MFP:MultiFunction Peripheral)である。
【0107】
画像形成装置30は、
図1に示すように、筐体下部に、シートを収容し、給送する給紙部13が設けられている。給紙部13の上方には、電子写真方式により画像を形成するプリントエンジン12が設けられている。プリントエンジン12のさらに上方に、原稿面を読み取って画像データを生成するスキャナー11及び操作画面を表示し、利用者から入力操作を受け付ける操作パネル19が設けられている。
【0108】
画像形成装置30は、ネットワーク5に接続されている。
【0109】
スキャナー11は、自動原稿搬送装置を備えている。自動原稿搬送装置は、原稿トレイにセットされた原稿を1枚ずつ原稿ガラス板へ搬送する。スキャナー11は、自動原稿搬送装置によって原稿ガラス板の所定位置に搬送された原稿の画像をスキャナーの移動によってスキャンし、レッド(R)、グリーン(G)、ブルー(B)の多値デジタル信号からなる画像データを得る。スキャナー11は、得られた画像データを画像メモリに書き込む。また、利用者の操作により、スキャナー11により得られた複数の画像データは、一つの文書データとして、ネットワーク5を介して、文書処理装置100に対して、送信される。
【0110】
スキャナー11で得られた各色成分の画像データは、制御回路14において各種のデータ処理を受け、更にイエロー(Y)、マゼンタ(M)、シアン(C)、ブラック(K)の各再現色の画像データに変換される。
【0111】
プリントエンジン12は、中間転写ベルト、中間転写ベルトを張架する駆動ローラー、従動ローラー、バックアップローラー、中間転写ベルトに対向して中間転写ベルトの走行方向Xに沿って所定間隔で配置された複数の作像部、定着部等からなる。
【0112】
各作像部は、像担持体である感光体ドラム、感光体ドラム表面を露光走査するためのLEDアレイ、帯電チャージャー、現像器、クリーナー及び一次転写ローラーなどからなる。
【0113】
給紙部13は、サイズの異なるシートを収容する複数の給紙カセット及び各給紙カセットからシートを搬送路に繰り出すためのピックアップローラー、並びに、シートを載置するための手差しトレイ及び手差しトレイからシートを搬送路に繰り出すためのピックアップローラーから構成されている。
【0114】
作像部のそれぞれにおいて、各感光体ドラムは、帯電チャージャーにより一様に帯電され、LEDアレイにより露光され、感光体ドラムの表面に静電潜像が形成される。各静電潜像は、それぞれ各色の現像器により現像され、各感光体ドラムの表面にY~K色のトナー像が形成され、トナー像は、中間転写ベルトの裏面側に配設された各一次転写ローラーの静電作用により、中間転写ベルトの表面上に順次転写される。
【0115】
一方、給紙部13のいずれかの給紙カセットから、各作像部による作像動作に合わせて、シートが給送され、二次転写ローラーとバックアップローラーとが中間転写ベルトを挟んで対向する二次転写位置へと搬送路上を搬送され、二次転写位置で、二次転写ローラーの静電的作用により、中間転写ベルト上のY~K色のトナー像がシートへ二次転写される。Y~K色のトナー像が二次転写されたシートは、さらに定着部まで搬送される。
【0116】
シートの表面のトナー像は、定着部の加熱ローラーとこれに圧接された加圧ローラーとの間に形成される定着ニップを通過する際に、加熱及び加圧により、シートの表面に融着して定着され、シートは、定着部を通過した後、排出トレイへ送出される。
【0117】
操作パネル19には、液晶表示板などで構成される表示面が設けられ、利用者によって設定された内容や各種のメッセージを表示する。
【0118】
1.6 検索システム1における動作
検索システム1における動作について、フローチャートを用いて、説明する。
【0119】
(1)文書データの処理手順
文書データの処理手順について、
図7に示すフローチャートを用いて、説明する。
【0120】
ファイルサーバー装置20の主制御部211は、記憶回路204に記憶されている複数の文書データの中から、複数のページデータからなる一つの文書データを選択する(ステップS101)。
【0121】
ネットワーク通信回路205は、選択された文書データを、ネットワーク5を介して、文書処理装置100に対して送信する。ネットワーク通信回路105は、文書データを受信し、受信した文書データを記憶回路104に書き込む(ステップS102)。
【0122】
重畳部113aは、受信して記憶回路104に書き込まれた文書データの複数のページデータを重ね合わせて重畳画像を生成する(ステップS103)。重畳部113aは、重畳画像の全ての画素の階調値を2値化する(ステップS104)。
【0123】
統括制御部112は、重畳画像内の全ての単位領域について、以下のステップS106~S108を繰り返す(ステップS105~S109)。
【0124】
決定部113bは、単位領域内のON画素の数をカウントする(ステップS106)。次に、決定部113bは、ON画素の数が、第一閾値より大きく、第二閾値以下であるか否かを判断する(ステップS107)。ON画素の数が、第一閾値より大きく、第二閾値以下であると判断される場合(ステップS107で「Yes」)、決定部113bは、当該単位領域に、共通のオブジェクトであることを示す共通符号を付与する(ステップS108)。
【0125】
ステップS106~S108の繰り返しが終了すると(ステップS109)、除去部114は、各ページデータから、共通符号が付与された単位領域の画像部分を除去する(ステップS110)。
【0126】
次に、付与部115は、各ページデータに対して、タグを付与する(ステップS111)。
【0127】
次に、ネットワーク通信回路105は、処理された文書データを、ネットワーク5を介して、ファイルサーバー装置20に対して送信する。ネットワーク通信回路205は、文書データを受信する(ステップS112)。ネットワーク通信回路205は、受信した文書データを記憶回路204に格納する(ステップS113)。
【0128】
以上により、文書データの処理手順についての説明を終了する。
【0129】
(2)文書データの検索処理手順
文書データの検索処理手順について、
図8に示すフローチャートを用いて、説明する。
【0130】
情報端末10は、利用者から、検索条件を受け付ける(ステップS141)。
【0131】
情報端末10は、受け付けた検索条件をファイルサーバー装置20に対して送信する。ネットワーク通信回路205は、検索条件を受信する(ステップS142)。
【0132】
検索部212は、受信した検索条件に合致する文書データを、文書データに付与されたタグを用いて、記憶回路204から検索する(ステップS143)。検索部212は、受信した検索条件に合致する文書データの文書名からなる文書リストを生成する(ステップS144)。
【0133】
ネットワーク通信回路205は、文書リストを情報端末10に対して送信する。情報端末10は、文書リストを受信する(ステップS145)。
【0134】
情報端末10は、文書リストを表示し(ステップS146)、文書リストから文書データの選択を受け付ける(ステップS147)。次に、情報端末10は、選択を受け付けた文書データの要求を生成し(ステップS148)、情報端末10は、生成した要求をファイルサーバー装置20に対して送信する。ネットワーク通信回路205は、要求を受信する(ステップS149)。検索部212は、要求された文書データを記憶回路204から読み出す(ステップS150)。ネットワーク通信回路205は、読み出された文書データを、情報端末10に対して送信する。情報端末10は、文書データを受信する(ステップS151)。情報端末10は、受信した文書データを表示する(ステップS152)。
【0135】
以上により、文書データの検索処理手順についての説明を終了する。
【0136】
1.7 変形例(1)
重畳部113aは、文書データの複数のページデータ内において、対応する位置に存する画素の階調値を全て加算し、加算結果として得られた画像を、重畳画像として生成してもよい。
【0137】
図4に、一例として、こうして生成された重畳画像145を示す。
【0138】
重畳画像145は、この図に示すように、行列状に、複数の画素153、154、・・・が配されて構成されている。各画素の画素の階調値は、複数のページデータ内において、対応する位置に存する画素の階調値を全て加算して得られたものである。
【0139】
決定部113bは、重畳部113aにより生成された重畳画像において、閾値以上の階調値が含まれる単位領域が存在する場合、当該単位領域が存在する位置を共通のオブジェクトが存在する位置として、決定してもよい。
【0140】
(変形例(1)における文書データの処理手順)
変形例(1)における文書データの処理手順について、
図9に示すフローチャートを用いて、説明する。
【0141】
ファイルサーバー装置20の主制御部211は、記憶回路204に記憶されている複数の文書データの中から、複数のページデータからなる一つの文書データを選択する(ステップS121)。
【0142】
ネットワーク通信回路205は、選択された文書データを、ネットワーク5を介して、文書処理装置100に対して送信する。ネットワーク通信回路105は、文書データを受信し、受信した文書データを記憶回路104に書き込む(ステップS122)。
【0143】
重畳部113aは、受信して記憶回路104に書き込まれた文書データの複数のページデータの階調値を加算して、重畳画像を生成する(ステップS123)。
【0144】
統括制御部112は、重畳画像内の全ての単位領域について、以下のステップS125~S126を繰り返す(ステップS124~S127)。
【0145】
決定部113bは、閾値≦階調値を満たす画素が存在するか否かを判断する(ステップS125)。閾値≦階調値を満たす画素が存在すると判断すると判断される場合(ステップS125で「Yes」)、決定部113bは、当該単位領域に、共通のオブジェクトであることを示す共通符号を付与する(ステップS126)。
【0146】
ステップS125~S126の繰り返しが終了すると(ステップS127)、除去部114は、各ページデータから、共通符号が付与された単位領域の画像部分を除去する(ステップS128)。
【0147】
次に、付与部115は、各ページデータに対して、タグを付与する(ステップS129)。
【0148】
次に、ネットワーク通信回路105は、処理された文書データを、ネットワーク5を介して、ファイルサーバー装置20に対して送信する。ネットワーク通信回路205は、文書データを受信する(ステップS130)。ネットワーク通信回路205は、受信した文書データを記憶回路204に格納する(ステップS131)。
【0149】
以上により、変形例(1)における文書データの処理手順についての説明を終了する。
【0150】
1.8 変形例(2)
重畳部113aは、文書データの複数のページデータ内の各画素の階調値を2値化し、複数のページデータ内において対応する位置に存する画素の2値化された階調値を全て加算し、加算結果として得られた画像を、重畳画像として生成してもよい。
【0151】
決定部113bは、重畳部113aにより生成された重畳画像において、閾値以上の階調値が含まれる単位領域が存在する場合、当該単位領域が存在する位置を共通のオブジェクトが存在する位置として、決定してもよい。
【0152】
1.9 変形例(3)
重畳部113aは、複数のページデータにおける画素と同じ配列の画素列からなり、各画素の階調値に初期値が設定された初期画像を生成してもよい。
【0153】
重畳部113aは、
図3(d)に示すように、初期画像149a内の対応する位置に存する画素の階調値から、複数のページデータ149b、149c、149d・・・内の対応する位置に存する画素の階調値を全て減算して、その減算の結果得られた画像を重畳画像149eとして生成してもよい。
【0154】
この図において、最小の矩形は、画素に相当する。
【0155】
ここで、例えば、複数のページデータ149b、149c、149d内のそれぞれの左上に、「Confidential」が存在し、そのうちの一部の対応する画素の階調値が「255」であると仮定し、初期画像の対応する画素の階調値が「0」であると仮定する。
【0156】
その対応する画素について、重畳部113aは、次の演算を行って、重畳画像の対応する画素の階調値として、例えば、負の値「-765」が算出される。
【0157】
0-255-255-255=-765
このように、階調値を加算することにより、重畳画像を生成するだけでなく、階調値を減算することによっても、重畳画像を生成することができる。
【0158】
ここで、重畳部113aは、初期画像149aが有する各画素の階調値の初期値として、0の値を設定してもよい。重畳部113aは、複数のページデータ内の各画素の階調値を2値化し、初期画像149aから、複数のページデータ内の対応する位置に存する画素の2値化された階調値を全て減算して、重畳画像を生成してもよい。
【0159】
一例として、初期画像149aが有する全ての画素の階調値には、初期値「0」が設定されている、としてもよい。
【0160】
決定部113bは、重畳部113aにより生成された重畳画像において、閾値以下の減算階調値が含まれる単位領域が存在する場合、当該単位領域が存在する位置を共通のオブジェクトが存在する位置として、決定してもよい。
【0161】
1.10 変形例(4)
重畳部113aは、上述したように、階調値を加算する場合、又は、階調値を減算する場合に、正規化部113eにより生成される正規化階調値を用いる、としてもよい。
【0162】
正規化部113eは、文書データに含まれるページのページ数により、複数のページデータ内の画素毎の階調値を正規化するので、決定部113bにおいて用いられる閾値は、文書データに含まれるページデータのページ数に相応した適正な値となっている。
【0163】
1.11 まとめ
以上説明したように、実施の形態1によると、文書データは、複数のページデータを含み、特定部113は、複数のページデータを、対応する画素毎に、重ね合わせて重畳画像を生成する重畳部113a、重畳画像内における所定範囲の階調値を有する画素の空間的密集度を用いて、重畳画像において共通のオブジェクトが存在する位置を決定する決定部113bを備える。
【0164】
この構成により、検索対象となる文書データの中から、検索のために不要な部分を特定して除去することができる。
【0165】
2.実施の形態2
本開示に係る実施の形態2としての検索システムについて説明する。
【0166】
実施の形態2の検索システムは、実施の形態1の検索システム1と同様の構成を有している。ここでは、実施の形態1との相違点を中心として説明する。
【0167】
実施の形態2の検索システムは、実施の形態1の文書処理装置100に代えて、文書処理装置100aを備えている。
【0168】
2.1 文書処理装置100a
文書処理装置100aは、実施の形態1の文書処理装置100の主制御部111に代えて、
図10(a)に示すように、主制御部161を備えている。
【0169】
実施の形態1の主制御部111と同様に、CPU101がROM102に記憶されている制御プログラムに従って動作することにより、主制御部161は、統括制御部162、特定部163、除去部164、付与部165を構成している。なお、除去部164及び付与部165は、それぞれ、実施の形態1の除去部114及び付与部115と同じ構成を有しているので、説明を省略する。
【0170】
(1)統括制御部162
統括制御部162は、ネットワーク通信回路105、記憶回路104、特定部163、除去部164及び付与部165を統一的に制御する。
【0171】
(2)特定部163
特定部163は、ファイルサーバー装置20又は画像形成装置30から受信した文書データから、所定ページ数以上のページデータに亘って、対応する位置に存する共通のオブジェクトを特定する。
【0172】
特定部163は、
図10(a)に示すように、付与部163a、判定部163b及び決定部163cから構成されている。次に、付与部163a、判定部163b及び決定部163cについて説明する。
【0173】
(a)付与部163a
付与部163aは、各ページデータ内の単位領域毎に、当該単位領域を特徴付けるラベルを付与する。
【0174】
付与部163aによりラベルを付与した結果の一例を、
図10(b)に示す。この図において、最小の矩形は、単位領域に相当する。
【0175】
この図に示すように、ページデータ301の単位領域311、312、313、314には、それぞれ、ラベルとして、「ラベルA」、「ラベルA」、「ラベルA」、「ラベルC」が付与されている。また、ページデータ302の単位領域321、322、323、324には、それぞれ、ラベルとして、「ラベルA」、「ラベルA」、「ラベルA」、「ラベルD」が付与されている。また、ページデータ303の単位領域331、332、333、334には、それぞれ、ラベルとして、「ラベルA」、「ラベルA」、「ラベルA」、「ラベルE」が付与されている。
【0176】
このように、ページデータ301~303内の同じ位置に配されている単位領域311、321、331には、それぞれ、同じ「ラベルA」が付与されている。また、ページデータ301~303内の同じ位置に配されている単位領域312、322、332にも、それぞれ、同じ「ラベルA」が付与されている。さらに、ページデータ301~303内の同じ位置に配されている単位領域313、323、333にも、それぞれ、同じ「ラベルA」が付与されている。
【0177】
一方、ページデータ301~303内の同じ位置に配されている単位領域314、324、334には、それぞれ、異なるラベルが付与されている。
【0178】
(a-1)ON領域ラベル及びOFF領域ラベルを付与する例
付与部163aは、以下に示すようにして、文書データの各ページデータ内の単位領域毎に、当該単位領域を特徴付けるラベルとして、ON領域ラベル又はOFF領域ラベルを付与してもよい(
図13(a)参照)。
【0179】
付与部163aは、文書データの各ページデータのページデータ内の単位領域毎に、以下の処理(i)及び(ii)を繰り返す。
【0180】
(i)当該単位領域内の何れか一つの画素について、付与部163aは、当該画素の階調値を抽出し、抽出した階調値が閾値より大きいか又は等しいかを判断する。抽出した階調値が閾値より大きいか又は等しいと判断する場合、付与部163aは、当該単位領域にON領域ラベルを付与する。
【0181】
(ii)当該単位領域内のどの画素についても、つまり、全ての画素について、抽出した階調値が閾値より小さい、つまり、閾値未満であると判断する場合、付与部163aは、当該単位領域にOFF領域ラベルを付与する。
【0182】
この結果、文書データの各ページデータ内の単位領域毎に、ON領域ラベル及びOFF領域ラベルの何れか一方が付与される。
【0183】
このようにして、ON領域ラベル及びOFF領域ラベルの何れか一方が付与された単位領域の例を
図13(a)に示す。なお、この図において、最小の矩形は、画素に相当し、参照符号342、343、344、345を付した矩形は、それぞれ、単位領域に相当する。
【0184】
この図に示すように、単位領域342、343、345には、ON領域ラベルが付与されている。一方、単位領域344には、OFF領域ラベルが付与されている。
【0185】
これは、単位領域342、343、345においては、その単位領域内の何れか一つの画素について、抽出した階調値が閾値より大きいか又は等しいからである。一方、単位領域344においては、その単位領域内のどの画素についても、抽出した階調値が閾値より小さいからである。
【0186】
なお、付与部163aは、文書データの各ページ内の単位領域毎に、各画素の階調値を2値化して、2値の階調値を生成してもよい。付与部163aは、2値の階調値が、ONかOFFかを判断してもよい。ここで、ONは、閾値「1」より大きい又は等しく、OFFは、閾値「1」より小さい。
【0187】
(a-2)外接矩形のサイズを付与する例
付与部163aは、上記のようにして、文書データの各ページデータ内の単位領域毎に、ON領域ラベル及びOFF領域ラベルの何れか一方を付与した後に、隣接する第1単位領域と第2単位領域の両方に、ON領域ラベルが付与されている場合、第1単位領域と第2単位領域とを併合してもよい。
【0188】
図14(a)に示すように、単位領域171の周辺には、単位領域171に隣接する単位領域172a、172b、・・・、172hが存在する。なお、ここでは、単位領域171と単位領域172aとの間の例のように、斜め方向に接する場合についても、隣接に含めるものとする。
【0189】
単位領域171及び単位領域172bの両方に、ON領域ラベルが付与されている場合、付与部163aは、単位領域171と単位領域172bとを併合する。このように、付与部163aは、ページデータ毎に、同一のラベルを付与した隣接する複数の単位領域を併合して、一つの拡大領域とする。
【0190】
付与部163aは、このような隣接する単位領域の併合を、文書データの各ページデータの全体について、実施する。この結果、
図14(b)又は(c)に示すように、複数の単位領域が併合される。
図14(b)においては、複数の単位領域181a、181b、・・・、181eが併合されている。また、
図14(c)においては、一つの文字を表した画像184は、併合された複数の単位領域から構成されている。
【0191】
次に、付与部163aは、併合された複数の単位領域を外接する矩形(以下、外接矩形と呼ぶ。)を生成し、生成した外接矩形のサイズ(縦方向の長さ及び横方向の長さ)を取得する。付与部163aは、当該外接矩形の領域に、ラベルとして、取得したサイズを付与する。
【0192】
図14(b)においては、併合された複数の単位領域181a、181b、・・・、181eに外接する外接矩形182が形成される。外接矩形182のサイズが、外接矩形182の領域に付与される。
【0193】
また、
図14(c)においては、併合された複数の単位領域から構成される文字の画像184に外接する外接矩形183が形成される。外接矩形183のサイズが外接矩形183の領域に付与される。
【0194】
また、上述したように、複数のページデータの各々は、複数の単位領域から構成され、各単位領域には、所定数の画素が配列されている。付与部163aは、各ページデータの単位領域毎に当該単位領域における特徴を抽出し、同一の特徴が隣接する複数の単位領域に存在する場合、それら複数の単位領域を併合して、一つの拡大領域としてもよい。付与部163aは、当該拡大領域に、共通の特徴を示す一つのラベルを付与する。判定部163bは、所定枚数以上のページデータに亘って、対応する拡大領域に同じラベルが重複して付与されているか否かを判定する。決定部163cは、判定部163bにより重複すると判定された回数を用いて、当該拡大領域が存在する位置を前記共通のオブジェクトが存在する位置として、決定する。除去部164は、決定された位置において、共通のオブジェクトを除去してもよい。
【0195】
また、上述したように、複数のページデータの各々は、複数の単位領域から構成され、各単位領域には、所定数の画素が配列されている。付与部163aは、複数のページデータ内の単位領域毎に、当該単位領域に含まれる画素の階調値が所定の閾値以上であるか否かを判断する。付与部163aは、少なくとも一の画素の階調値が閾値以上であれば、当該単位領域をON画素領域とする。付与部163aは、当該単位領域に他のON画素領域が隣接していれば、当該単位領域と隣接する他のON画素領域を併合する。付与部163aは、併合した領域を囲む外接矩形からなる併合領域(外接矩形領域)を生成し、生成した併合領域のサイズを取得する。付与部163aは、当該併合領域に、当該領域を特徴付けるラベルとして、取得したサイズを付与する。この場合、判定部163bは、所定枚数以上のページデータに亘って、対応する併合領域に同じラベルが重複して付与されているか否かを判定する。決定部163cは、判定部163bにより重複すると判定された回数を用いて、併合領域が存在する位置を共通のオブジェクトが存在する位置として、決定する。除去部164は、決定された位置において、共通のオブジェクトを除去する。
【0196】
(a-3)色を示すラベルを付与する例
付与部163aは、以下に示すようにして、文書データの各ページデータ内の単位領域毎に、当該単位領域を特徴付けるラベルとして、色を示すラベルを付与してもよい(
図16(a)参照)。
【0197】
ここで、文書データの各ページデータは、複数の画素が配列されたカラーの画像で構成されている。具体的には、各ページデータには、R、G、Bの多階調(256階調)の画素が配されている、とする。
【0198】
付与部163aは、文書データの各ページデータ内の単位領域毎に、以下の処理を繰り返す。
【0199】
当該単位領域内の左上の一つの画素について、付与部163aは、当該画素のRの階調値、Gの階調値及びBの階調値(R、G、B)を抽出する。次に、付与部163aは、Rの階調値、Gの階調値及びBの階調値(R、G、B)を、それぞれ、4値の階調値(R4 、G4 、B4 )に変換する。付与部163aは、当該単位領域に、ラベルとして、4値の階調値(R4 、G4 、B4 )を付与する。ここで、4値の階調値(R4 、G4 、B4 )は、当該単位領域の色を代表する代表色である。
【0200】
このようにして、付与部163aは、単位領域に含まれる複数の画素の階調値を用いて、当該単位領域に含まれる複数の画素の色を代表する代表色を特定して、特定した代表色を、当該単位領域を特徴付けるラベルとして付与する。
【0201】
一例として、
図16(a)に示すように、ページデータ351の単位領域352、353、354、355には、それぞれ、ラベルとして、「青」、「黄」、「赤」、「青」が付与されている。
【0202】
なお、単位領域から色を抽出する方法は、上記には、限定されない。
【0203】
付与部163aは、単位領域の全ての画素の階調値を抽出し、抽出した全ての階調値の平均値を算出し、得られた平均値により、代表色を決定してもよい。
【0204】
(b)判定部163b
判定部163bは、文書データ内の所定ページ数(枚数)以上のページデータに亘って、対応する単位領域に同じラベルが重複して付与されているか否かを判定する。
【0205】
また、判定部163bは、所定ページ数(枚数)以上のページデータに亘って、対応する外接矩形領域(又は、拡大領域)に同じラベルが重複して付与されているか否かを判定してもよい。
【0206】
また、判定部163bは、単位領域毎に、重複すると判定される回数を計数するためのカウンターを有している、としてもよい。判定部163bは、文書データ内の第1のページデータにおける一の単位領域に付されたラベルと、文書データの他のページデータにおいて対応する単位領域に付されたラベルとが重複しているか否かを判定する。判定部163bは、重複していると判定する都度、当該単位領域のカウンターに所定値(例えば、「1」)を加算し、又は、当該単位領域のカウンターから所定値(例えば、「1」)を減算してもよい。
【0207】
(c)決定部163c
決定部163cは、判定部163bにより重複すると判定された回数を用いて、各ページデータにおいて、単位領域が存在する位置を、共通のオブジェクトが存在位置として、決定してもよい。
【0208】
また、上記のように、判定部163bにより、当該単位領域のカウンターに所定値を加算する場合、決定部163cは、全てのラベルについての重複判定が終了した後、単位領域のカウンターの値が所定の閾値以上の場合、つまり、単位領域のカウンターの値の絶対値が所定の閾値以上の場合、当該単位領域が存在する位置を共通のオブジェクトが存在する位置として決定してもよい。なお、この場合、カウンターの値は、正の大きい値(例えば、+1200)を取るので、カウンターの値が所定の閾値以上の場合は、カウンターの値の絶対値が所定の閾値以上の場合に相当する。
【0209】
また、上記のように、判定部163bにより、当該単位領域のカウンターに所定値を減算する場合、決定部163cは、全てのラベルについての重複判定が終了した後、単位領域のカウンターの値が所定の閾値以下の場合、つまり、単位領域のカウンターの値の絶対値が所定の閾値以上の場合、当該単位領域の共通のオブジェクトを特定してもよい。なお、この場合、カウンターの値は、負の小さい値(例えば、-1200)を取るので、カウンターの値が所定の閾値以下の場合は、カウンターの値の絶対値が所定の閾値以上の場合に相当する。
【0210】
2.2 実施の形態2の検索システムにおける動作
実施の形態2の検索システムにおける動作について、フローチャートを用いて、説明する。
【0211】
(1)文書データの処理手順
文書データの処理手順について、
図11~
図12に示すフローチャートを用いて、説明する。
【0212】
ファイルサーバー装置20の主制御部211は、記憶回路204に記憶されている複数の文書データの中から、複数のページデータからなる一つの文書データを選択する(ステップS221)。
【0213】
ネットワーク通信回路205は、選択された文書データを、ネットワーク5を介して、文書処理装置100aに対して送信する。ネットワーク通信回路105は、文書データを受信し、受信した文書データを記憶回路104に書き込む(ステップS222)。
【0214】
統括制御部162は、受信した文書データの複数のページデータ毎に、以下のステップS224~S225)を繰り返す(ステップS223~S226)。
【0215】
ステップS224において、付与部163aは、当該ページデータを構成するページデータ内の画素毎に、その特徴量を抽出する。次に、ステップS225において、付与部163aは、画素毎に抽出された特徴量を用いて、当該ページデータ内の単位領域毎に、ラベルを付与する。
【0216】
ステップS223~S226における繰返しが終了すると、統括制御部162は、複数の単位領域毎に、以下のステップS228~S239を繰り返す(ステップS227~S240)。
【0217】
ステップS228において、統括制御部162は、当該単位領域のカウンターを初期化する。具体的には、カウンターに、初期値「0」を設定する。
【0218】
次に、ステップS229において、統括制御部162は、フラグを「0」に設定する。
【0219】
次に、ステップS230~S239において、統括制御部162は、ページデータ毎に、以下のステップS231~S238を繰り返す。
【0220】
統括制御部162は、フラグが「0」か「1」かを判断する(ステップS231)。
【0221】
フラグが「0」であると判断する場合(ステップS231で「=0」)、統括制御部162は、当該単位領域にラベルが付与されているか否かを判断する(ステップS232)。当該単位領域にラベルが付与されていると判断する場合(ステップS232で「有り」)、統括制御部162は、付与されたラベルを記憶する(ステップS233)。次に、統括制御部162は、当該単位領域のカウンターに値「1」を設定する(ステップS234)。次に、統括制御部162は、フラグに「1」を設定する(ステップS235)。
【0222】
当該単位領域にラベルが付与されていないと判断する場合(ステップS232で「無し」)、統括制御部162による処理は、存在しない。
【0223】
フラグが「1」であると判断する場合(ステップS231で「=1」)、統括制御部162は、当該単位領域にラベルが付与されているか否かを判断する(ステップS236)。当該単位領域にラベルが付与されていると判断する場合(ステップS236で「有り」)、統括制御部162は、記憶しているラベルと付与されたラベルとが一致するか否かを判断する(ステップS237)。記憶しているラベルと付与されたラベルとが一致すると判断する場合(ステップS237で「一致」)、統括制御部162は、当該単位領域のカウンターに値「1」を加算する(ステップS238)。記憶しているラベルと付与されたラベルとが一致しないと判断する場合(ステップS237で「不一致」)、統括制御部162による処理は、存在しない。
【0224】
ページデータ毎の繰返しが終了し(ステップS239)、単位領域毎の繰返しが終了すると(ステップS240)、統括制御部162は、単位領域毎に、ステップS252~S253を繰り返す(ステップS251~S254)。
【0225】
ステップS252において、決定部163cは、当該単位領域のカウンターの値が、閾値より大きいか否かを判断する。
【0226】
ステップS253において、単位領域のカウンターの値が、閾値より大きいと判断される場合(ステップS252で「Yes」)、決定部163cは、当該単位領域に、共通符号を付与する。
【0227】
単位領域のカウンターの値が、閾値より大きくないと判断される場合(ステップS252で「No」)、決定部163cは、当該単位領域に、共通符号を付与しない。
【0228】
単位領域毎の繰返しが終了すると(ステップS254)、除去部164は、各ページデータから、共通符号が付与された単位領域の画像部分を除去する(ステップS255)。
【0229】
次に、付与部165は、各ページデータに対して、タグを付与する(ステップS256)。
【0230】
次に、ネットワーク通信回路105は、処理された文書データを、ネットワーク5を介して、ファイルサーバー装置20に対して送信する。ネットワーク通信回路205は、文書データを受信する(ステップS257)、ネットワーク通信回路205は、受信した文書データを記憶回路204に格納する(ステップS258)。
【0231】
以上により、文書データの処理手順についての説明を終了する。
【0232】
(2)ON領域ラベル及びOFF領域ラベルの付与の手順
ON領域ラベル及びOFF領域ラベルの付与の手順について、
図13(b)に示すフローチャートを用いて説明する。
【0233】
付与部163aは、各ページデータ内のページデータの単位領域毎に、ステップS272~S277を繰り返す(ステップS271~S278)。
【0234】
ステップS272~S276において、付与部163aは、当該単位領域内の画素毎に、ステップS273~S274を繰り返す。
【0235】
ステップS273において、付与部163aは、当該画素の階調値を取得する。
【0236】
ステップS274において、付与部163aは、当該画素の階調値と閾値とを比較し、階調値が閾値より大きいか又は等しいかを判断する。
【0237】
階調値が閾値より大きいか又は等しいと判断する場合(ステップS274で「Yes」)、付与部163aは、当該単位領域にON領域ラベルを付与し(ステップS275)、次に、画素毎の繰返しを終了する。
【0238】
階調値が閾値より小さいと判断する場合(ステップS274で「No」)、付与部163aによる処理は存在しない。
【0239】
画素毎の繰返しが終了すると(ステップS276)、付与部163aは、当該単位領域にOFF領域ラベルを付与する(ステップS277)。
【0240】
単位領域毎の繰返しが終了すると(ステップS278)、ON領域ラベル及びOFF領域ラベルの付与の動作は、終了する。
【0241】
(3)外接矩形のサイズの付与の手順
外接矩形のサイズの付与の手順について、
図15に示すフローチャートを用いて、説明する。
【0242】
図13(b)に示すフローチャートにおいて、ステップS278が終了すると、付与部163aは、文書データの各ページデータ内の単位領域毎に、以下のステップS291~S293を繰り返す(ステップS290~S294)。
【0243】
付与部163aは、当該単位領域(第1単位領域と呼ぶ。)にON領域ラベルが付与されているか否かを判断する(ステップS291)。
【0244】
第1単位領域にON領域ラベルが付与されていると判断する場合(ステップS291で「Yes」)、付与部163aは、第1単位領域に隣接する単位領域(第2単位領域と呼ぶ。)にON領域ラベルが付与されているか否かを判断する(ステップS292)。
【0245】
第2単位領域にON領域ラベルが付与されていると判断する場合(ステップS292で「Yes」)、付与部163aは、第1単位領域と第2単位領域とを併合する(ステップS293)。
【0246】
第1単位領域にON領域ラベルが付与されていないと判断する場合(ステップS291で「No」)、又は、第2単位領域にON領域ラベルが付与されていないと判断する場合(ステップS292で「No」)、付与部163aによる処理は、存在しない。
【0247】
単位領域毎の繰返しが終了すると(ステップS294)、付与部163aは、併合した複数の単位領域に外接する外接矩形の外接領域(外接矩形領域)を生成する(ステップS295)。次に、付与部163aは、生成した外接領域のサイズを取得する(ステップS296)。次に、付与部163aは、外接矩形の領域に、ラベルとして、サイズを付与する(ステップS297)。
【0248】
以上により、外接矩形のサイズの付与の動作の説明を終了する。
【0249】
(4)色を示すラベルの付与の手順
色を示すラベルの付与の手順について、
図16(b)に示すフローチャートを用いて、説明する。
【0250】
付与部163aは、文書データの各ページデータのページデータ内の単位領域毎に、以下のステップS302~S304を繰り返す(ステップS301~S305)。
【0251】
付与部163aは、当該単位領域内の左上の一つの画素について、当該画素のRの階調値、Gの階調値及びBの階調値(R、G、B)を抽出する(ステップS302)。
【0252】
次に、付与部163aは、Rの階調値、Gの階調値及びBの階調値(R、G、B)を、それぞれ、4値の階調値(R4 、G4 、B4 )に変換する(ステップS303)。
【0253】
次に、付与部163aは、当該単位領域に、ラベルとして、4値の階調値(R4 、G4 、B4 )を付与する(ステップS304)。
【0254】
以上により、色を示すラベルの付与の動作の説明を終了する。
【0255】
3.実施の形態3
本開示に係る実施の形態3としての検索システムについて説明する。
【0256】
実施の形態3の検索システムは、実施の形態1の検索システム1と同様の構成を有している。ここでは、実施の形態1との相違点を中心として説明する。
【0257】
実施の形態3の文書処理装置100は、実施の形態1の文書処理装置100が有する特定部113に代えて、
図17(a)に示す特定部191を有している。また、実施の形態3の文書処理装置100の記憶回路104は、
図17(b)に示す候補文字列テーブル404を予め記憶している。
【0258】
3.1 候補文字列テーブル404
候補文字列テーブル404は、
図17(b)に示すように、複数の候補文字列を含んでいる。この図に示すように、候補文字列テーブル404は、一例として、候補文字列「ABCD株式会社」、「Top Secret」、「Confidential」、「秘密」、「社外秘」を含んでいる。
【0259】
これらの候補文字列は、後述するように、重畳画像に対して、OCR処理を施して得られた抽出文字列と比較される。
【0260】
3.2 特定部191
特定部191は、
図17(a)に示すように、重畳部191a、OCR処理部191b、判断部191c及び決定部191dから構成されている。
【0261】
(a)重畳部191a
重畳部191aは、文書データに含まれる複数のページデータを、対応する画素毎に、重ね合わせて重畳画像を生成する。
【0262】
複数のページデータを重ね合わせる際に、重畳部191aは、複数のページデータ内の各画素の階調値を2値化し、複数のページデータ内において対応する位置に存在する画素の2値化された階調値同士にOR演算を施して、重畳画像を生成する。
【0263】
また、複数のページデータを重ね合わせる際に、重畳部191aは、複数のページデータ内において、対応する位置に存在する画素の階調値を全て加算して、加算後の階調値からなる中間重畳画像を生成する。次に、生成した中間重畳画像の各画素の階調値を2値化して重畳画像を生成する。
【0264】
(b)OCR処理部191b
OCR処理部191bは、重畳部191aにより生成された重畳画像に対してOCR処理を施して、重畳画像から文字列の抽出を行う。
【0265】
複数のページデータ内において、同一の位置に、同一の文字列が表されている場合には、重畳画像においても、その文字列が表される。
【0266】
例えば、複数のページデータ内において、同一の位置に、同一の文字列「Confidential」が表されている場合には、
図17(b)に示すように、重畳画像401において、文字列「Confidential」が表される。このため、OCR処理により、重畳画像401から、文字列「Confidential」を抽出できる。
【0267】
一方、複数のページデータ内において、同一の位置に、異なる文字列が表されている場合には、重畳画像においては、異なる文字列が重なるため、重畳画像のその位置からは、文字列を抽出できない。
【0268】
図17(b)に示す例においては、OCR処理部191bは、文字列「Confidential」、「えおかきくけこさし」、「きくけこさし」、「ぷぺ」を含む文字列403が抽出される。
【0269】
OCR処理部191bは、抽出した文字列を判断部191cに出力する。
【0270】
(c)判断部191c
判断部191cは、OCR処理部191bにより、文字列が抽出された場合、抽出された文字列が特定の文字列が否かを判断する。
【0271】
具体的には、判断部191cは、抽出された文字列が候補文字列テーブル404に含まれているか否かを判断する。
【0272】
図17(b)に示す例の場合、判断部191cは、抽出された文字列「Confidential」と同一の文字列が候補文字列テーブル404に含まれていると判断する。
【0273】
判断部191cは、その判断結果と、候補文字列テーブル404に含まれていたその文字列とを決定部191dに対して出力する。
【0274】
(d)決定部191d
決定部191dは、抽出された文字列が、判断部191cにより、特定の文字列であると判断される場合、抽出し一致した文字列の画像部分に、共通のオブジェクトであることを示す共通符号を付与する。これにより、ページデータにおいて、抽出された文字列が存在する位置を、共通のオブジェクトが存在する位置として決定する。
【0275】
3.3 文書データの処理手順
実施の形態3における文書データの処理手順について、
図18に示すフローチャートを用いて、説明する。
【0276】
ファイルサーバー装置20の主制御部211は、記憶回路204に記憶されている複数の文書データの中から、複数のページデータからなる一つの文書データを選択する(ステップS501)。
【0277】
ネットワーク通信回路205は、選択された文書データを、ネットワーク5を介して、文書処理装置100に対して送信する。ネットワーク通信回路105は、文書データを受信し、受信した文書データを記憶回路104に書き込む(ステップS502)。
【0278】
重畳部191aは、受信して記憶回路104に書き込まれた文書データの複数のページデータを重ね合わせて重畳画像を生成する(ステップS503)。重畳部191aは、重畳画像の全ての画素の階調値を2値化する(ステップS504)。
【0279】
OCR処理部191bは、重畳画像にOCR処理を施す(ステップS505)。
【0280】
判断部191cは、抽出した文字列と候補文字列テーブル404に含まれる文字列とを比較する(ステップS506)。抽出した文字列と候補文字列テーブル404に含まれる文字列とが一致する場合(ステップS507で「Yes」)、決定部191dは、抽出し一致した文字列の画像部分に、共通のオブジェクトであることを示す共通符号を付与する(ステップS508)。
【0281】
除去部114は、各ページデータから、共通符号が付与された画像部分を除去する(ステップS509)。
【0282】
次に、付与部115は、各ページデータに対して、タグを付与する(ステップS510)。
【0283】
次に、ネットワーク通信回路105は、処理された文書データを、ネットワーク5を介して、ファイルサーバー装置20に対して送信する。ネットワーク通信回路205は、文書データを受信する(ステップS511)。ネットワーク通信回路205は、受信した文書データを記憶回路204に格納する(ステップS512)。
【0284】
以上により、実施の形態3の文書データの処理手順についての説明を終了する。
【0285】
3.4 まとめ
図17(b)に示すように、OCR処理部191bにより、抽出された文字列「Confidential」、「えおかきくけこさし」、「きくけこさし」、「ぷぺ」のうち、文字列「えおかきくけこさし」、「きくけこさし」、「ぷぺ」は、複数のぺージ画像のうちの、1枚のページデータのみの特定の位置に表される文字列であって、他のページデータ上の対応する特定の位置には、当該文字列が存在しない可能性が高い。このような文字列は、共通のオブジェクトとして抽出されるべきではない。
【0286】
実施の形態3によると、複数のぺージ画像のうちの、1枚のページデータのみの特定の位置に表される文字列であって、他のページデータ上の対応する特定の位置には、文字列が存在しない場合に、このような文字列を、複数のぺージ画像の同一位置に表示されている共通のオブジェクトと判断することを避けることができる。
【0287】
4.実施の形態4
本開示に係る実施の形態4としての検索システムについて説明する。
【0288】
実施の形態4の検索システムは、実施の形態1の検索システム1と同様の構成を有している。ここでは、実施の形態1との相違点を中心として説明する。
【0289】
実施の形態4の文書処理装置100が有する特定部113は、さらに、
図19(a)に示す判断部192a及び併合部192bを有している。また、実施の形態4の文書処理装置100の記憶回路104は、
図19(b)に示す特別テーブル421を予め記憶している。
【0290】
4.1 特別テーブル421
特別テーブル421は、
図19(b)に示すように、複数の文字列を含んでいる。この図に示すように、特別テーブル421は、一例として、文字列「P.」、「Page」、「Date」を含んでいる。なお、特別テーブル421は、図形として、「P.」、「Page」、「Date」を含んでいるとしてもよい。また、画像として、「P.」、「Page」、「Date」を含んでいるとしてもよい。
【0291】
後述するように、重畳画像内において、共通のオブジェクトとして、これらの文字列が検出された場合に、共通のオブジェクトから、所定の距離内に存在する領域が、共通のオブジェクトに併合される。
【0292】
4.2 判断部192a
判断部192aは、共通のオブジェクトが特定の形状を有するか否かを判断する。
【0293】
具体的には、判断部192aは、共通のオブジェクトにより表された内容が、特別テーブル421に含まれる文字列の何れか一致するか否かを判断する。
【0294】
図19(c)に示すように、ページデータ422、423、424は、それぞれの下部において、ページ番号を示すページ番号表示422a、423a、424aを含む。
【0295】
ページ番号表示422a、423a、424aは、それぞれ、「P.1」、「P.2」、「P.3」であって、第1ページ、第2ページ、第3ページを示している。
【0296】
ページ番号表示422a、423a、424aのうち、「P.」は、ページデータ422、423、424の同一の位置に表された同一の内容である。従って、実施の形態1において、説明したように、「P.」が共通のオブジェクトである判断される。
【0297】
ここで、「P.」は、特別テーブル421に含まれる文字列の一つと一致している。
【0298】
判断部192aは、その判断結果を併合部192bに対して出力する。
【0299】
4.3 併合部192b
併合部192bは、判断部192aにより、共通のオブジェクトが特定の形状を有すると判断される場合、ページデータ内において、共通のオブジェクトから、所定の距離内に存在するオブジェクトを、共通のオブジェクトに併合する。
【0300】
図19(d)、(e)、(f)は、それぞれ、
図19(c)に示すページ番号表示422a、423a、424aに対応している。
【0301】
図19(d)に示すページ番号表示425cは、共通のオブジェクト425aと、非共通領域425bからなる。共通のオブジェクト425aは、「P.」であり、ページ番号表示であることを示す符号(略記号)である。非共通領域425bは、ページ番号表示において、ページ番号を表している。ここで、共通のオブジェクト425aと非共通領域425bとは、所定の距離内に存在している。
【0302】
併合部192bは、共通のオブジェクト425aと非共通領域425bとが、所定の距離内に存在するので、共通のオブジェクト425aと非共通領域425bとを併合して、新たな共通のオブジェクトとする。
【0303】
図19(e)、(f)に示すページ番号表示426c及び427cについても、ページ番号表示425cと同様である。併合部192bは、共通のオブジェクト426aと非共通領域426bとを併合して、新たな共通のオブジェクトとする。また、併合部192bは、共通のオブジェクト427aと非共通領域427bとを併合して、新たな共通のオブジェクトとする。
【0304】
4.4 文書データの処理手順
実施の形態4における文書データの処理手順について、
図20に示すフローチャートを用いて、説明する。
【0305】
以下に説明する手順は、
図15に示すフローチャートのステップS295からの続きである。
【0306】
判断部192aは、共通のオブジェクトとして、外接矩形の内容を、特別テーブル421から検索する(ステップS531)。
【0307】
判断部192aにより、外接矩形の内容を、特別テーブル421内に存在すると判断される場合(ステップS532で「Yes」)、併合部192bは、ページデータ内において、共通のオブジェクトである外接矩形から、所定の距離内に存在する領域に存在するオブジェクトを、共通のオブジェクトである外接矩形に併合する(ステップS533)。
【0308】
以上により、実施の形態4における文書データの処理手順についての説明を終了する。
【0309】
4.5 まとめ
文書データの複数のページデータ内には、その後に続く番号等が、ページ番号や日付であることを示す符号や文字列(「P.」、「Page」、「Date」等)が表される場合が多い。これらの符号や文字列は、複数のページデータ内において、同一の位置に配される。このため、これらの符号や文字列は、実施の形態1において説明したように、共通のオブジェクトと判断される。
【0310】
一方、これらの符号や文字列に続いて、表示される番号等は、それぞれのページにおいて異なるため、共通のオブジェクトとは判断されない。
【0311】
しかし、これらの符号や文字列と、それに続いて表示される番号等は、一体として扱うことが望ましく、実施の形態4においては、共通のオブジェクトと判断される。この結果、除去部114により、これらの符号や文字列と、それに続いて表示される番号等は、一体として、ページデータから除去される。
【0312】
5.実施の形態5
本開示に係る実施の形態5としての検索システムについて説明する。
【0313】
実施の形態5の検索システムは、実施の形態1の検索システム1と同様の構成を有している。ここでは、実施の形態1との相違点を中心として説明する。
【0314】
実施の形態5の文書処理装置100が有する主制御部111は、さらに、
図21(a)に示す抑制部195を有している。
【0315】
抑制部195は、文書データに含まれるページデータのページ数が閾値(所定ページ数、所定枚数)未満の場合、特定部113による共通のオブジェクトの特定を抑制する。
【0316】
抑制部195は、文書データに含まれるページデータのページ数が閾値未満の場合、共通のオブジェクトが存在しない旨を示す判断情報を出力してもよい。
【0317】
ここで、ネットワーク通信回路105は、判断情報を、ファイルサーバー装置20に対して、送信してもよい。
【0318】
5.1 文書データの処理手順
文書データの処理手順について、
図21に示すフローチャートを用いて、説明する。
【0319】
ファイルサーバー装置20の主制御部211は、記憶回路204に記憶されている複数の文書データの中から、複数のページデータからなる一つの文書データを選択する(ステップS541)。
【0320】
ネットワーク通信回路205は、選択された文書データを、ネットワーク5を介して、文書処理装置100に対して送信する。ネットワーク通信回路105は、文書データを受信し、受信した文書データを記憶回路104に書き込む(ステップS542)。
【0321】
計数部113dは、受信して記憶回路104に書き込まれた文書データに含まれるページ数を計数する(ステップS543)。
【0322】
統括制御部112は、計数されたページ数と閾値とを比較して、ページ数が閾値未満であるか否かを判断する(ステップS544)。
【0323】
ページ数が閾値以上であると判断される場合(ステップS544で「No」)、統括制御部112は、
図7に示すフローチャートのステップS103に制御を移す。
【0324】
ページ数が閾値未満であると判断される場合(ステップS544で「Yes」)、抑制部195は、特定部113による共通のオブジェクトの特定を抑制して、共通のオブジェクトが存在しない旨の判断結果を生成する(ステップS545)。
【0325】
次に、付与部115は、各ページデータに対して、タグを付与する(ステップS546)。
【0326】
次に、ネットワーク通信回路105は、処理された文書データ及び判断結果を、ネットワーク5を介して、ファイルサーバー装置20に対して送信する。ネットワーク通信回路205は、文書データ及び判断結果を受信する(ステップS547)、ネットワーク通信回路205は、受信した文書データ及び判断結果を記憶回路204に格納する(ステップS548)。
【0327】
以上により、文書データの処理手順についての説明を終了する。
【0328】
5.2 まとめ
実施の形態5においては、文書データのページ数が閾値未満である場合、複数のページの同一の位置に共通のオブジェクトが存在する可能性が低いので、複数のページから共通のオブジェクトを特定することを抑制している。
【0329】
5.3 変形例(1)
ここでは、実施の形態5との相違点を中心として、実施の形態5の変形例(1)について、説明する。
【0330】
記憶回路104は、複数のページデータからなる別の文書データ(第2文書データ)を記憶している。
【0331】
(文書データの処理手順)
変形例(1)の文書データの処理手順について、
図22に示すフローチャートを用いて、説明する。
【0332】
ファイルサーバー装置20の主制御部211は、記憶回路204に記憶されている複数の文書データの中から、複数のページデータからなる一つの文書データ(第1文書データ)を選択する(ステップS561)。
【0333】
ネットワーク通信回路205は、選択された第1文書データを、ネットワーク5を介して、文書処理装置100に対して送信する。ネットワーク通信回路105は、第1文書データを受信し、受信した第1文書データを記憶回路104に書き込む(ステップS562)。
【0334】
計数部113dは、受信して記憶回路104に書き込まれた第1文書データに含まれるページ数を計数する(ステップS563)。
【0335】
統括制御部112は、第1文書データの計数されたページ数と閾値とを比較して、ページ数が閾値未満であるか否かを判断する(ステップS564)。
【0336】
ページ数が閾値以上であると判断される場合(ステップS564で「No」)、統括制御部112は、
図11に示すフローチャートのステップS223に制御を移す。
【0337】
ページ数が閾値未満であると判断される場合(ステップS564で「Yes」)、特定部113は、記憶回路104から、別の文書データ(第2文書データ)を読み出す(ステップS565)。次に、特定部113は、受信した第1文書データと、読み出した第2文書データとを統合して、一つの文書データとする(ステップS566)。次に、統括制御部112は、
図11に示すフローチャートのステップS223に制御を移す。
【0338】
(まとめ)
変形例(1)において、計数部113dは、文書データに含まれるページデータの枚数を計数する。
【0339】
ネットワーク通信回路105は、計数された枚数が前記所定枚数未満の場合、さらに、複数のページデータからなる別の文書データを、ファイルサーバー装置20(又は、画像形成装置30)から、取得してもよい。
【0340】
特定部113は、取得した文書データ及び新たに取得した別の文書データから、所定枚数以上のページデータに亘って、対応する位置に存在する共通のオブジェクトを特定してもよい。
【0341】
記憶回路104は、予め、別の文書データを記憶していてもよい。主制御部111(取得手段)は、記憶回路104から別の文書データを読み出すことにより、取得してもよい。
【0342】
以上説明したように、変形例(1)においては、第1文書データのページ数が閾値未満である場合、第1文書データと別の文書データ(第2文書データ)とを統合して、一つの文書データ(第3文書データ)を生成する。第3文書データのページ数は、閾値以上である可能性が高く、第3文書データから共通のオブジェクトの抽出を可能としている。
【0343】
5.4 変形例(2)
ここでは、実施の形態5との相違点を中心として、実施の形態5の変形例(2)について、説明する。
【0344】
記憶回路104は、過去に、別の文書データ(第2文書データ)において、別の共通のオブジェクトが抽出された別のページデータと、当該別の共通のオブジェクトとを記憶している。
【0345】
計数部113dは、文書データに含まれるページデータの枚数を計数する。
【0346】
変形例(2)の文書処理装置100が有する主制御部111は、さらに、
図23(a)に示す比較部172を有している。
【0347】
比較部172は、文書データ(第1文書データ)に含まれるページデータのページ数が閾値(所定ページ数)未満の場合、第1文書データに含まれるページデータの特徴と、記憶回路104に記憶されている第2文書データの別のページデータの特徴とを比較する。
【0348】
特定部113は、第1文書データに含まれるページデータの特徴と、記憶回路104に記憶されている第2文書データの別のページデータの特徴とが一致する場合、記憶回路104に記憶されている別の共通のオブジェクトを特定する。
【0349】
(文書データの処理手順)
文書データの処理手順について、
図23(b)に示すフローチャートを用いて、説明する。
【0350】
ファイルサーバー装置20の主制御部211は、記憶回路204に記憶されている複数の文書データの中から、複数のページデータからなる一つの文書データ(第1文書データ)を選択する(ステップS581)。
【0351】
ネットワーク通信回路205は、選択された第1文書データを、ネットワーク5を介して、文書処理装置100に対して送信する。ネットワーク通信回路105は、第1文書データを受信し、受信した第1文書データを記憶回路104に書き込む(ステップS582)。
【0352】
計数部113dは、受信して記憶回路104に書き込まれた第1文書データに含まれるページ数を計数する(ステップS583)。
【0353】
第1文書データのページ数が閾値未満であると判断される場合(ステップS584で「Yes」)、比較部172は、記憶回路104から別の文書データ(第2文書データ)のページデータ(判断画像)を読み出す(ステップS585)。次に、比較部172は、受信した第1文書データのページデータの特徴と、読み出した第2文書データの別のページデータ(判断画像)の特徴とを比較する(ステップS586)。
【0354】
第1文書データに含まれるページデータの特徴と、読み出した第2文書データの別のページデータの特徴とが一致(類似)する場合(ステップS587で「Yes」)、除去部114は、記憶回路104から第2文書データの共通のオブジェクトを読み出し、第1文書データの各ページデータから、読み出した共通のオブジェクトに対応する領域の画像部分を除去する(ステップS588)。
【0355】
次に、付与部115は、第1文書データの各ページデータに対して、タグを付与する(ステップS589)。
【0356】
次に、ネットワーク通信回路105は、処理された第1文書データを、ネットワーク5を介して、ファイルサーバー装置20に対して送信する。ネットワーク通信回路205は、第1文書データを受信する(ステップS560)。ネットワーク通信回路205は、受信した第1文書データを記憶回路204に格納する(ステップS561)。
【0357】
以上により、文書データの処理手順についての説明を終了する。
【0358】
(まとめ)
変形例(2)においては、第1文書データのページ数が閾値未満である場合、第1文書データのページデータの特徴と一致する(類似する)特徴を有する第2文書データの共通のオブジェクトを、第1文書データの各ページデータから除去する。これにより、第1文書データのページ数が少ない場合であっても、第1文書データから共通のオブジェクトを除去することができる。
【0359】
6.実施の形態1~5のその他の変形例
実施の形態1~5のその他の変形例として、次のようにしてもよい。
【0360】
ここで、
図24(a)に示すように、領域450、451、452、453、454について、それぞれ、共通のオブジェクトであると判断されているものとする。領域450、451、452、453、454は、それぞれ、文字又は文字の一部を含む。
【0361】
また、領域450と領域451との距離464は、所定閾値以内であるとし、領域451と領域452との距離465は、所定閾値以内であるとする。また、領域452と領域454との距離466は、所定閾値以内であるとし、領域454と領域453との距離467は、所定閾値以内であるとする。
【0362】
この場合、領域450、451、452、453、454を併合して、領域450、451、452、453、454を外接する矩形の領域460を設定し、領域460が一つの共通のオブジェクトであるとしてもよい。
【0363】
さらに、領域460から、所定の距離(距離461、462、463、468)だけ外側に領域455を設定し、領域455が一つの共通のオブジェクトであるとしてもよい。
【0364】
さらに、
図24(b)に示すように、領域471と領域472とがそれぞれ、共通のオブジェクトであるとされる場合、領域471と領域472との距離473が所定閾値以内である場合、さらに、この図に示すように、領域471と領域472とを併合して、外接矩形の領域474を設定し、領域474が一つの共通のオブジェクトであるとしてもよい。
【0365】
7.実施の形態6
実施の形態6の文書データ処理システムについて、説明する。
【0366】
文書データ処理システムは、
図25に示す文書処理装置600と、画像形成装置とが接続されて構成されている。
【0367】
実施の形態6の画像形成装置は、実施の形態1の画像形成装置30と同一の構成を有している。
【0368】
画像形成装置は、利用者の操作により、一例として、
図26に示す複数枚の定型フォーマットのシート(申請用紙)を読み取り、シートのページ数と同数のページデータを生成し、生成した複数枚のページデータを、文書処理装置600に対して、送信する。
【0369】
文書処理装置600は、
図25に示すように、CPU601、ROM602、RAM603、記憶回路604、入力部605等から構成されている。
【0370】
CPU601、ROM602及びRAM603は、主制御部611を構成している。
【0371】
RAM603は、各種の制御変数等を一時記憶すると共に、CPU601によるプログラム実行時のワークエリアを提供する。
【0372】
ROM602には、文書処理装置600において実行される制御プログラム(コンピュータープログラム)などが格納されている。
【0373】
CPU601は、ROM602に記憶されている制御プログラムに従って動作する。
【0374】
CPU601が、制御プログラムに従って動作することにより、主制御部611は、記憶回路604、入力部605等を統一的に制御する。
【0375】
このように、文書処理装置600は、文書処理装置100と同様に、マイクロプロセッサーとメモリとを備えたコンピューターシステムである。
【0376】
CPU601がROM602に記憶されている制御プログラムに従って動作することにより、主制御部611は、統括制御部612、特定部613、除去部614、文字解析部616を構成している。特定部613及び除去部614は、それぞれ、実施の形態1の特定部113及び除去部114と同様の構成を有している。
【0377】
入力部605は、画像形成装置に接続されている。入力部605は、画像形成装置から、複数のページデータを受け取る。
【0378】
記憶回路604は、予め、
図26に示す申請用紙内の手書きにより記載する項目を示す項目テーブル621を記憶している。項目テーブル621は、例えば、住所、氏名、生年月日、電話番号を含む。住所、氏名、生年月日、電話番号は、それぞれ、申請用紙の申請者の住所、氏名、生年月日、電話番号に対応する。
【0379】
特定部613は、複数のページデータから、共通のオブジェクトを抽出する。
【0380】
ここで、共通のオブジェクトは、一例として、
図26に示す申請用紙の場合には、当該申請用紙に活字及び罫線が印刷された画像部分(手書き部分を除く)である。
【0381】
除去部614は、複数のページデータから、抽出された共通のオブジェクトを除去する。
【0382】
ここで、除去部614により、複数のページデータから、抽出された共通のオブジェクトが除去されると、
図26に示す申請用紙の場合には、当該申請用紙に印刷された活字及び罫線を除く、手書きの文字部分のみが複数のページデータ上に残る。
【0383】
文字解析部616は、複数のページデータから、共通のオブジェクトが除去された残りの手書きの画像部分について、手書き文字の画像を解析して、対応する文字コードを生成する。この際、手書き文字の画像を解析して、申請者の住所、氏名、生年月日、電話番号等に分離して、それぞれの文字コードを生成する。文字解析部616は、生成した文字コードを、申請者の住所、氏名、生年月日、電話番号等毎に、記憶回路604の項目テーブル621内の各項目に対応付けて、項目テーブル621内に書き込む。
【0384】
以上説明したように、文書データに含まれる各ページデータには、同一の定型のフォーマットが表され、この定型のフォーマット内に手書き文字が記載されている。特定部613(特定手段)は、文書データに含まれる複数のページデータから、共通のオブジェクトとして、定型のフォーマットの部分を特定する。除去部614(除去手段)は、複数のページデータの各々から、手書き文字が記載された部分を残して、特定された定型のフォーマットの部分を除去する。
【0385】
実施の形態6によると、定型のフォーマットの申請用紙等に記載された手書き文字を、定型のフォーマット部分から分離して抽出することができる。
【0386】
8.その他の変形例
(1)上記の各実施の形態及び各変形例には、画像形成装置が含まれる、としている。しかし、これには、限定されない。
【0387】
上記の各実施の形態及び各変形例において、画像形成装置に代えて、複数のページからなる原稿を読み取り、画像データ(文書データ)を生成する画像読取装置が含まれるとしてもよい。ネットワーク通信回路105(取得手段)は、画像読取装置から画像データを取得する。
【0388】
(2)上記の各実施の形態及び各変形例において、文書処理装置において、検索用のタグを生成して付与している。しかし、これには、限定されない。
【0389】
上記の各実施の形態及び各変形例において、ファイルサーバー装置20において、検索用のタグを生成して付与してもよい。
【産業上の利用可能性】
【0390】
本開示にかかる文書処理装置は、文書データから除去すべき対象を特定し除去することができ、文書データに処理を施す技術として有用である。
【符号の説明】
【0391】
1 検索システム
5 ネットワーク
10 情報端末
20 ファイルサーバー装置
30 画像形成装置
100 文書処理装置
100a 文書処理装置
101 CPU
102 ROM
103 RAM
104 記憶回路
105 ネットワーク通信回路
111 主制御部
112 統括制御部
113 特定部
113a 重畳部
113b 決定部
113d 計数部
113e 正規化部
114 除去部
115 付与部
161 主制御部
162 統括制御部
163 特定部
163a 付与部
163b 判定部
163c 決定部
164 除去部
165 付与部
191 特定部
191a 重畳部
191b OCR処理部
191c 判断部
191d 決定部
192a 判断部
192b 併合部
195 抑制部
201 CPU
202 ROM
203 RAM
204 記憶回路
205 ネットワーク通信回路
211 主制御部
212 検索部
600 文書処理装置
601 CPU
602 ROM
603 RAM
604 記憶回路
605 入力部
611 主制御部
612 統括制御部
613 特定部
614 除去部
616 文字解析部