【解決手段】装置は、文書画像の各画素について、下地領域の色情報と当該画素の色情報との間の距離を求め、この距離を当該画素の濃度信号として算出する。装置は、画素毎の濃度信号に基づき、文書画像の横または縦方向の少なくとも一方向についてその方向に並ぶ全画素の射影濃度を算出する。装置は、少なくとも一方向の射影濃度から、その少なくとも一方向の濃度分布統計量を算出する。装置は、濃度分布統計量に基づき、文書画像を複数の領域に分割する分割線を決定する。装置は、分割線で文書画像を分割して得られる各画像領域内の濃度情報から文書画像の濃度比率特徴量を求める。
前記領域濃度検出手段は、前記分割線の近傍に帯状の中間領域を設け、この中間領域の濃度についてはこの中間領域を挟む2つの領域の濃度総和の計算に入れ込むことを特徴とする請求項3記載の文書画像の特徴量検出装置。
【発明を実施するための形態】
【0010】
以下、文書画像検索装置及びこの検索装置に用いられる文書画像の特徴量検出装置の実施形態について、図面を用いて説明する。
【0011】
[文書画像検索装置の構成]
図1は、文書画像検索装置1の概略構成を示すブロック図である。文書画像検索装置1は、文書データベース11と検索処理部12とを備える。文書データベース11は、文書画像の元となる電子化された文書画像のデータを格納してなるデータファイル2(
図2を参照)を多数保存する。
【0012】
データファイル2のデータ構造を
図2に示す。
図2に示すように、データファイル2は、文書ファイル21に、頁別のサムネール画像22と、同じく頁別の特徴量データ23とを付加させた構造となっている。文書ファイル21は、電子化された文書画像のデータを格納する電子データファイルである。データのファイル形式は任意である。例えばワード、PDF、JPEG,パワーポイント等、文書画像のデータに適合した形式のファイルであればよい。
【0013】
サムネール画像22は、文書ファイル21に格納されるデータにより再現される文書画像を、例えば50dpi(dot per inch)程度の粗い画素密度で表現したビットマップデータである。文書画像のデータが複数頁に跨る場合には、頁毎にサムネール画像22が生成され、文書ファイル21に付加される。
【0014】
特徴量データ23は、文書ファイル21に格納されるデータにより再現される文書画像の特徴量を示すデータである。例えば、濃度比率特徴量、濃度分布統計量、規格化濃度画像等が特徴量データ23として活用される。これらの特徴量データ23の詳細については後述する。文書画像のデータが複数頁に跨る場合には、頁毎に特徴量データ23が生成され、文書ファイル21に付加される。
【0015】
検索処理部12は、問合せ画像の入力セクション121、候補画像の検索セクション122、候補画像の出力セクション123、候補画像選択入力の受付セクション124及び確定画像の送信セクション125を含む。検索処理部12は、LAN(Local Area Network)、インターネット等のネットワークを介して、ユーザ端末3とデータ通信を行うことができる。ユーザ端末3は、例えば画像読取手段であるスキャナを接続した情報処理端末である。ユーザ端末3は、例えば撮影手段であるカメラを備えた携帯型の通信端末であってもよい。
【0016】
入力セクション121は、ユーザ端末3から問合せ画像を入力する(画像取込手段)。問合せ画像は、ユーザ端末3において、紙等の印刷媒体に印刷された文書画像を撮影またはスキャンして得られるデータである。問合せ画像は、ユーザ端末3からネットワークを経由して文書画像検索装置1に送られてくる。USBメモリ等の可搬型記憶媒体に格納された問合せ画像のデータを、記憶媒体インターフェースを介して入力セクション121が取り込んでもよい。入力セクション121は、入力された問合せ画像のデータを、所定のメモリ領域に書き込む。
【0017】
検索セクション122は、問合せ画像の元となる電子化された文書画像のデータを格納してなるデータファイル2を、文書データベース11から検索する。検索の手順については後述する。検索セクション122は、問合せ画像に類似する文書画像のデータを格納してなるデータファイル2を2以上検索する場合もある。
【0018】
出力セクション123は、検索セクション122において複数のデータファイル2が検索された場合、各データファイル2から頁別サムネール画像22を抽出する。出力セクション123は、ネットワークを経由してユーザ端末3に頁別サムネール画像22のデータを送信する。
【0019】
ユーザ端末3は、少なくとも入力デバイスと表示デバイスとを備える。ユーザ端末3は、頁別サムネール画像22のデータを受信すると、そのサムネール画像(候補画像)の一覧を表示デバイスに表示する。ユーザは、複数のサムネール画像の中から問合せ画像の元となる文書画像に対応したサムネール画像を選択する。ユーザは、入力デバイスを用いてどのサムネール画像を選択したのかを入力する。
【0020】
受付セクション124は、ユーザ端末3においてサムネール画像が選択されるのを待機する。サムネール画像が選択された場合、受付セクション124は、そのサムネール画像が格納されるデータファイル2を、問合せ画像の元となる文書画像のデータを格納してなるデータファイル2として確定する。
【0021】
送信セクション125は、問合せ画像の元となる文書画像のデータを格納してなるデータファイル2から文書ファイル21を抽出する。検索セクション122において唯一のデータファイル2が特定された場合、送信セクション125は、そのデータファイル2から文書ファイル21を抽出する。検索セクション122において複数のデータファイル2が検索された場合、送信セクション125は、受付セクション124において確定されたデータファイル2から文書ファイル21を抽出する。送信セクション125は、ネットワークを経由して文書ファイル21をユーザ端末3に送信する。
【0022】
ユーザ端末3は、文書画像検索装置1から文書ファイル21を受信すると、その文書ファイル21に格納されているデータから再現される文書画像を表示デバイスに表示する。ユーザ端末3は、表示デバイスに表示した文書画像をプリントアウトする機能を有していてもよい。またユーザ端末3は、表示デバイスに表示した文書画像をネットワークを通じて他の端末に送信出力してもよい。
【0023】
なお、文書画像検索装置1によっては検索機能を使用するためにユーザ認証や課金のアカウントなどの情報の入力が必要な場合も考えられる。しかし、この点については本実施形態と関係しないので、ここでの説明は省略する。
【0024】
図3は、文書画像検索装置1のハードウェア構成を示すブロック図である。文書画像検索装置1は、CPU(Central Processing Unit)41、ROM(Read Only Memory)42、RAM(Random Access Memory)43、補助記憶デバイス44、コンソール45、スキャナ46及び通信インターフェース47を備え、これらをシステムバス48で接続する。
【0025】
CPU41は、コンピュータの中枢部分に相当する。CPU41は、オペレーティングシステムやアプリケーションプログラムに従って、文書画像検索装置1としての各種の機能を実現するべく各部を制御する。
【0026】
ROM42は、上記コンピュータの主記憶部分に相当する。ROM42は、上記のオペレーティングシステムやアプリケーションプログラムを記憶する。ROM42は、CPU41が各部を制御するための処理を実行する上で必要なデータを記憶する場合もある。
【0027】
RAM43は、上記コンピュータの主記憶部分に相当する。RAM43は、CPU41が処理を実行する上で必要なデータを記憶する。またRAM43は、CPU41によって情報が適宜書き換えられるワークエリアとしても利用される。
【0028】
補助記憶デバイス44は、上記コンピュータの補助記憶部分に相当する。補助記憶デバイス44は、例えばEEPROM(Electric Erasable Programmable Read-Only Memory)、HDD(Hard Disc Drive)、あるいはSSD(Solid State Drive)などである。補助記憶デバイス44は、CPU41が各種の処理を行う上で使用するデータや、CPU41での処理によって生成されたデータを保存する。補助記憶デバイス44は、上記のアプリケーションプログラムを記憶する場合もある。
【0029】
補助記憶デバイス44は、文書画像検索装置1に内蔵されていてもよいし、外付けされていてもよい。補助記憶デバイス44は、文書データベース11として機能する。
【0030】
コンソール45は、コンピュータに指示を与える入力デバイスと、情報を表示する表示デバイスとを有する。コンソール45は、図示しない信号入出力回路を介してシステムバス48に接続される。
【0031】
スキャナ46は、紙などの印刷媒体に印刷された文書画像をスキャンして電子的に読み取る。スキャナ46は、図示しない信号入出力回路を介してシステムバス48に接続される。
【0032】
通信インターフェース47は、所定のネットワークを介して接続されたユーザ端末3との間で行われるデータ通信をコントロールする。
【0033】
[文書画像検索装置の機能説明]
文書画像検索装置1は、文書データベース11にデータファイル2を登録する機能を有する。データファイル2の登録方法は、特に限定されない。例えば、コンソール45の操作により電子的に作成された文書画像から文書画像検索装置1がデータファイル2を生成し、文書データベース11に登録してもよい。スキャナ46で光学的に読み取られた文書画像から文書画像検索装置1がデータファイル2を生成し、文書データベース11に登録してもよい。外部のユーザ端末で作成された文書画像から文書画像検索装置1がデータファイル2を生成し、文書データベース11に登録してもよい。この場合、文書画像は、外部のユーザ端末からネットワークを介して文書画像検索装置1にダウンロードされてもよいし、メモリカードなどの記憶媒体から文書画像検索装置1に読み込まれてもよい。
【0034】
文書画像検索装置1は、文書画像の頁毎に、サムネール画像22と特徴量データ23とを生成する。そして文書画像検索装置1は、文書画像を格納した文書ファイル21にサムネール画像22と特徴量データ23とを付加してデータファイル2を生成し、文書データベース11に登録する。
【0035】
なお、本実施形態では、文書データベース11が補助記憶デバイス44上で構成されるものとして説明を続けるが、これに限るものではない。例えば通信インターフェース47を介してアクセスできるネットワーク上の記憶装置に文書データベース11を構成してもよい。また、サムネール画像22と特徴量データ23とは補助記憶デバイス44が記憶し、文書ファイル21はネットワーク上の記憶装置が記憶するというように、データファイル2を分けて記憶してもよい。
【0036】
文書画像検索装置1は、ユーザ端末3から、紙等の印刷媒体に印刷された文書画像を撮影またはスキャンして得られる問合せ画像を受信すると、文書データベース2を検索して、その問合せ画像の元となる文書画像のデータが格納されたデータファイル2を特定し、そのデータファイル2のデータをユーザ端末3に送信する機能を有する。データファイル2のデータは、文書ファイル21のデータだけでもよい。データファイル2そのものをユーザ端末3に送信してもよい。この機能は、入力セクション121、検索セクション122及び送信セクション125によって実現される。
【0037】
文書データベース2を検索した結果、問合せ画像の元となる文書画像に類似した画像のデータファイル2を複数検出した場合、文書画像検索装置1は、この類似画像を候補画像としてユーザに選択を促す。そしてユーザによって選択された候補画像のデータファイル2を、問合せ画像の元となる文書画像のデータが格納されたデータファイル2として特定し、そのデータファイル2のデータをユーザ端末3に送信する機能を有する。データファイル2のデータは、文書ファイル21のデータだけでもよい。データファイル2そのものをユーザ端末3に送信してもよい。この機能は、出力セクション123、受付セクション124及び送信セクション125によって実現される。
【0038】
[検索セクション122の詳細説明]
図4は、検索セクション122の具体的な処理手順を示す流れ図である。この処理は、CPU41が、ROM42または補助記憶デバイス44に格納されるアプリケーションプログラムの1つである特徴量検出プログラムにしたがって実行する。なお、
図4に示すとともに以下に説明する処理の内容は一例であって、同様な結果を得ることが可能な様々な処理を適宜に利用できる。
【0039】
・Act1.歪補正処理
特徴量検出プログラムは、入力セクション121を介して問合せ画像50(
図5を参照)が入力されると起動する。問合せ画像50の一例を
図5に示す。問合せ画像50は、文書画像の所望の頁をカメラで撮影した画像若しくはスキャナでスキャンした画像である。以下では、この問合せ画像50を用いた場合について説明する。
【0040】
特徴量検出プログラムが起動すると、CPU21は、Act1として、問合せ画像50に対して歪補正処理を行う。この処理は、問合せ画像50の縦および横の方向を元の文書と同じ方向に合わせるための処理である。印刷物をスキャナで読取る場合、印刷物を原稿台へ斜めに置いたり、印刷物を搬送する際の機械的なずれにより、斜めに傾いて読み取られたりする可能性がある。また、デジタルカメラなどで印刷物を撮影する場合、カメラの光軸と印刷物の向きやその距離に応じてさらに高次の歪みが発生する。この歪は一般に射影変換で表され、印刷物上の長方形が一般的な四角形に変換される。このように歪んだ問合せ画像を元の画像と同じ向きになるように補正する。文書画像は縦、横方向の直線成分を多くもっているので、これらの直線成分を検出して、これが縦横の直線に戻るように逆射影変換を行うことによって補正する。
【0041】
本実施形態では、歪補正処理で処理された問合せ画像50の信号をP(x,y)と表す。x及びyは、それぞれ横方向(x軸方向)及び縦方向(y軸方向)の座標位置である。文書画像検索装置1は、すべてデジタル画像信号を取り扱う。したがって、x及びyは、それぞれ整数である。
【0042】
・Act2.濃度信号への変換
歪補正処理が終了すると、CPU41は、Act2として、歪補正された問合せ画像50を濃度信号D(x,y)に変換する。濃度信号D(x,y)は、下地部分すなわち何も印刷されていない紙の部分で“0”となり、インクが濃い部分ほど大きな値をとる信号である。
【0043】
先ずCPU41は、カラー画像のRGB信号をモノクロ画像の信号に変換する。本実施形態では、明度Yを用いてRGB信号をモノクロ画像の信号に変換する。RGB値から明度Yを算出する演算式は、(1)式となる。
【数1】
【0044】
CPU41は、問合せ画像50の全画素(x,y)について(1)式を演算して、画素毎に明度Y(x,y)を算出する。画素毎に明度Y(x,y)を算出したならば、CPU41は、明度Y(x,y)のヒストグラムを作成する。
【0045】
ヒストグラム60の一例を
図6に示す。ヒストグラム60は、問合せ画像50の画素毎の明度Y(x,y)の分布を示す。
図6に示すように、ヒストグラム60には、頻度が高い部分(ピーク値)が少なくとも1か所存在する。CPU41は、この頻度が高いピーク値のなかで、明度Y(x,y)が最も高いピーク値を下地領域の色情報、すなわち明度値Y0とする(下地色検出手段)。またCPU41は、このヒストグラム60において、明度Y(x,y)が最も小さい値を最小明度値Yminとする。
【0046】
CPU41は、問合せ画像の画素毎に、明度値Y0と最小明度値Yminとを用いて、(2)式により濃度信号D(x,y)を計算する。なお、(2)式において、Y(x,y)は、画素(x,y)の色情報(明度値)である。すなわち(2)式は、下地領域の色情報[明度値Y0]と当該画素(x,y)の色情報[明度値Y(x,y)]との間の距離[Y0−Y(x,y)]を求め、この距離を当該画素(x,y)の濃度信号D(x,y)として算出する演算式である(濃度演算手段)。
【数2】
【0047】
この計算により、明度Y(x,y)が下地部分と同じまたは高い画素(x,y)は0となり、明度Y(x,y)が画像内で最小の画素(x,y)は1となるように、濃度信号D(x,y)が規格化される。
【0048】
ところで、印刷物の文書画像をカメラで撮影する場合には、照明やカメラの光学系に起因する照度ムラを生じる可能性がある。照度ムラの程度によっては照度ムラの補正を行う必要がある。この補正も、Act2の処理で行う。
【0049】
照度ムラの補正方法としては、以下の方法がある。例えば、文書画像を撮影する前に一様な色の物を文書画像と同じ位置において撮影し、得られた画像データを用いて補正する方法がある。あるいは、撮影画像をメッシュ状の領域に分割し、領域毎に下地部分の有無を判定する。そして、下地部分がある領域については下地部分の明度値Y0を用い、下地部分がない領域については周辺の領域の下地部分を用いて補正する方法がある。
【0050】
・Act3.濃度分布統計量の計算
問合せ画像50の信号P(x,y)を濃度信号D(x,y)に変換し終えると、CPU41は、Act3として問合せ画像50の濃度分布統計量を計算する。濃度分布統計量は、問合せ画像50の特徴量を示すデータであり、具体的には、問合せ画像50の横方向(x方向)における濃度分布の重心位置μx及び標準偏差σxと、縦方向(y方向)における濃度分布の重心位置μy及び標準偏差σyである。
【0051】
先ずCPU41は、問合せ画像50の濃度信号D(x,y)について、それぞれ横方向に並ぶ全画素の濃度値を加算した射影濃度と縦方向に並ぶ全画素の濃度値を加算した射影濃度とを求める。本実施形態では、横方向に並ぶ全画素の射影濃度をf(y)とし、縦方向に並ぶ全画素の射影濃度をg(x)とする。CPU41は、(3)式により射影濃度f(y)と射影濃度g(x)とを算出する(射影演算手段)。
【数3】
【0052】
次にCPU41は、横方向における射影濃度f(y)の分布と、縦方向における射影濃度g(x)の分布とから、(4)式により横方向の射影濃度f(y)の分布に対する重心位置μx及び標準偏差σxと、縦方向の射影濃度f(y)の分布に対する重心位置μy及び標準偏差σyとを算出する(統計量演算手段)。
【数4】
【0053】
(4)式により算出される横方向の重心位置μx及び標準偏差σxと、縦方向の重心位置μy及び標準偏差σyとが、濃度信号D(x,y)の横方向及び縦方向における射影濃度の分布を表す統計量である。問合せ画像50に対する横方向及び縦方向における射影濃度の分布と、各濃度分布統計量(μx,σx,μy,σy)の算出結果の一例とを
図7に示す。
【0054】
・Act4.画像の分割
横方向及び縦方向の濃度分布統計量(μx,σx,μy,σy)を算出し終えると、CPU41は、Act4として問合せ画像50を複数の領域に分割する。本実施形態では、
図8に示すように、縦、横それぞれの方向に2本ずつの分割線(図中一点鎖線)で、問合せ画像50をマトリクス状に九つの領域A1,A2,A3,…,A9に分割する。分割線の位置Thx1、Thx2、Thy1,Thy2は、重心位置μx,μyを中心に標準偏差σx,σyの0.8倍をプラスマイナスした値である。以後、分割線の位置を分割閾値Thx1、Thx2、Thy1,Thy2と称する。分割閾値Thx1、Thx2、Thy1,Thy2は、(5)式で算出される(決定手段)。
【数5】
【0055】
ここで、濃度分布統計量(μx,σx,μy,σy)を用いて分割閾値Thx1、Thx2、Thy1,Thy2を決定する理由について説明する。文書画像を分割する場合、単純には、文書画像全体の外形の位置を基準に分割閾値を決める方法が考えられる。しかし、このような方法で分割閾値を決めるためには、文書画像の縁の位置が分かっていることが前提となる。例えば、定型の用紙に印刷された文書画像をフラットベッドスキャナでスキャニングする場合には、文書画像の縁の位置が一義的に定まるので問題はない。
【0056】
しかし、例えば紙送り式のスキャナで文書画像を読み取る際に読取スキューが発生した場合、スキュー補正しても文書画像の縁の位置は必ずしも一致しない。また、文書画像をデジタルカメラ等で撮影する場合には、カメラから被写体である文書画像までの距離や相対位置のずれ等の撮影条件によって、撮影画像に含まれる文書画像の倍率やポジションが変化する。このため、文書画像の縁の位置は不明である。したがって、文書画像全体の外形の位置を基準に分割閾値を決める方法は適用できない。
【0057】
本実施形態は、問合せ画像50の下地部分における濃度信号を0に正規化する。このため、どのような撮影条件で文書画像を撮影しても、射影濃度分布の重心位置μx,μyは相対的に等しくなる。また、撮影倍率が変わっても、射影濃度分布の標準偏差σx,σyは相対的に同じである。したがって、濃度分布統計量(μx,σx,μy,σy)を用いることで、撮影条件の変動等に関わらず分割閾値Thx1、Thx2、Thy1,Thy2を文書画像に対して相対的に決まった位置に設定できる。
【0058】
・Act5.濃度比率特徴量の計算
問合せ画像50を複数(本実施形態では九つ)の領域A1,A2,A3,…,A9に分割したならば、CPU41は、Act5として濃度比率特徴量Qを計算する。濃度比率特徴量Qは、問合せ画像50の特徴量を示すデータである。
【0059】
先ずCPU41は、分割領域A1,A2,A3,…,A9毎に、濃度信号D(x,y)の総和S1,S2,S3,….S9を計算する。総和S1は、分割領域A1に存在する各画素の濃度信号D(x,y)の総和であり、総和S2は、分割領域A2に存在する各画素の濃度信号D(x,y)の総和である。他の総和S3,….S9についても同様である(領域濃度検出手段)。
【0060】
分割領域A1,A2,A3,…,A9毎に、濃度信号D(x,y)の総和S1,S2,S3,….S9を算出したならば、CPU41は、(6)式の上段の演算式のように、総和S1,S2,S3,….S9を合算して、総和合算値Sallを計算する(総濃度検出手段)。そしてCPU41は、(6)式の下段の演算式のように、分割領域A1,A2,A3,…,A9毎に、その領域の濃度信号の総和S1,S2,S3,….S9を総和合算値Sallで除算して、濃度比率特徴量Q1,Q2,Q3,….Q9を算出する(特徴量検出手段)。
【数6】
【0061】
濃度比率特徴量Q1,Q2,Q3,….Q9は、各分割領域A1,A2,A3,…,A9における濃度信号の総和S1,S2,S3,….S9の比率である。本実施形態では、濃度比率特徴量Q1,Q2,Q3,….Q9を総称する場合に濃度比率特徴量Qと表す。つまり、濃度比率特徴量Qは、{Qi:1≦i≦9}を意味する。濃度比率特徴量Qは、濃度が高い領域ほど値が大きくなる。
【0062】
問合せ画像50を分割閾値Thx1、Thx2、Thy1,Thy2で9分割した際の分割領域A1,A2,A3,…,A9毎の濃度比率特徴量Q1,Q2,Q3,….Q9を
図9に示す。すなわち、分割領域A1の濃度比率特徴量Q1は0.09であり、分割領域A2の濃度比率特徴量Q2は0.11である。他の分割領域A3,…,A9の濃度比率特徴量Q3,….Q9も、図示のとおりである。
【0063】
濃度比率特徴量Qの分布は、文書画像の全体的な濃度の分布を表す。すなわち濃度比率特徴量Qは、文書画像に応じた値となる。このため、類似した文書画像同士は、濃度比率特徴量Qが近似する。ただし、濃度の分布だけを見ているので、濃度比率特徴量Qが近いからといって文書画像同士が必ずしも類似しているとは限らない。それでも、この濃度比率特徴量Qを用いることで、2つの文書画像が類似していないということは判断できる。つまり、問合せ画像50に対して類似していない文書画像のデータファイル2を検索対象から排除することができる。
【0064】
上述したように濃度比率特徴量Qは、文書画像の射影計算、重心・標準偏差等の統計計算、及び領域内濃度信号の総和の計算といったきわめて簡易な計算で求めることができる。したがって、濃度比率特徴量Qを用いた文書画像同士の類似性判断処理は、高速に処理できる。また、濃度比率特徴量Qは、問合せ画像50のサイズや傾きなどによらず一定である。このため、濃度比率特徴量Qを用いた文書画像同士の類似性判断処理は、信頼性が高い。
【0065】
・Act6.粗候補画像の選定
問合せ画像50の濃度比率特徴量Qを算出したならば、CPU41は、Act6としてこの濃度比率特徴量Qを用いて問合せ画像50に類似した候補画像の選定を行う(検索手段)。
【0066】
先ずCPU41は、問合せ画像50の濃度比率特徴量Q(Qi:1≦i≦9)と、文書データベース11に登録されているすべてのデータファイル2の濃度比率特徴量QD(QDi:1≦i≦9)との距離Lを(7)式により計算する。すなわちCPU41は、分割領域A1,A2,A3,…,A9毎の濃度比率特徴量Q1,Q2,Q3,….Q9と濃度比率特徴量QD1,QD2,QD3,….QD9との差の二乗和の平方根を距離Lとして算出する。
【数7】
【0067】
濃度比率特徴量Qと濃度比率特徴量QDとの距離Lを算出したならば、CPU41は、この距離Lを所定の閾値Lthと比較する。そして、距離Lが閾値Lth以下であればCPU41は、その濃度比率特徴量QDを有するデータファイル2に格納される文書画像のデータは、問合せ画像50に類似する候補画像のデータとして抽出する。
【0068】
同一文書画像のデータでも、印刷の汚れや書込み、撮影時のノイズ、歪補正の補正誤差、歪補正の補正誤差に起因する重心位置計算誤差等の要因により、濃度比率特徴量Qは変動する。問合せ画像50の濃度比率特徴量Qが変動したことによって、候補画像として抽出されるべきデータファイル2の文書画像が候補から外れてしまうことがある。このような不具合を解消するために、距離Lに対してしきい値Lthを設定する必要がある。
【0069】
本願発明者は、濃度比率特徴量Qの変動量を実験的に測定したところ、最大で0.04程度であった。そこで本実施形態では、最大変動量の2倍のマージンを取り、しきい値Lthを0.08とする。このように、濃度比率特徴量Qの最大変動量に対して2倍の値をしきい値Lthとして設定することにより、濃度比率特徴量Qの変動が候補画像の選定に影響を及ぼさなくなる。
【0070】
また本願発明者は、多数の文書画像についてそれぞれ濃度比率特徴量Qを算出し、さらに異なる画像間の濃度比率特徴量Qの距離Lを算出して、距離Lの頻度を求めた。
図10は、距離Lの頻度を示すグラフである。このグラフからは、約98%の異なる画像の組み合わせにおいて、濃度比率特徴量Qの距離Lが0.1以上となることがわかる。したがって、しきい値Lthを0.1よりも小さい0.08に設定することによって、約98%の画像の組み合わせを除外できるので、文書データベース11に登録されている文書画像の中の約2%に候補画像を絞り込むことができる。
【0071】
・Act7.精細比較
Act6の処理では、問合せ画像50と文書データベースに登録されている各文書画像との濃度比率特徴量間の距離Lのみによって候補画像を選定する。このため、全く類似していない文書画像も候補画像として選定される可能性がある。そこでCPU41は、Act7として問合せ画像50と各候補画像とについて画素同士の比較を直接行い、候補画像が類似画像であるか否かを判定する。
【0072】
具体的には、CPU41は、問合せ画像50と候補画像とについて画素毎に濃度信号同士を比較する。先ずCPU41は、問合せ画像50の濃度信号と候補画像の濃度信号とについて座標系を、それぞれ重心位置μが中央、重心位置μに標準偏差σの定数k倍を加減算した値が縁となるような座標系に変換する。すなわち、座標系変換前の濃度信号をPq(x,y)、そのx軸方向及びy軸方向の重心位置と標準偏差をそれぞれμx,σx、μy,σy、座標系変換後の濃度信号をNq(x´,y´)とすると、CPU41は、(8)式により問合せ画像50及び候補画像の濃度信号の座標系を変換する。
【数8】
【0073】
ここで定数xw、ywは変換後画像の縦、横の画素数である。また、定数kは、画像の比較範囲を決める定数であり、1.75から2.5程度の値とする。定数kを1.75とすると、正規分布の画像であれば92%がこの定数kにより定まる比較範囲に入り、一様分布の画像であれば100%が定数kにより定まる比較範囲に入る。文書画像の場合、正規分布よりも一様分布に近いと考えられるので、kを1.75以上に設定すれば、文書画像のほぼ全域が比較範囲に入る。
【0074】
次にCPU41は、(9)式により最大類似度Amaxを計算する。(9)式において、Nq(x´,y´)は、問合せ画像50の座標系変換後の濃度信号であり、Nc(x´,y´)は、候補画像の座標系変換後の濃度信号である。
【数9】
【0075】
類似度Aは、2つの画像NqとNcとがNq=a・Ncの比例関係(aは比例定数)にある場合に最大値1をとり、類似度が低下するなるほど値が小さくなる。本来は、重心と標準偏差とによる規格化で2つの画像Nq、Ncの位置は合っているはずである。しかし、問合せ画像の汚れ、問合せ画像に対する書込み、問合せ画像撮影時のノイズなどによって、2つの画像には若干の誤差を生じる。このため、この誤差分のマージンを取る必要がある。本実施形態では、最大類似度Amaxのxd,ydを(10)式の範囲に設定して25通りの類似度を計算し、その中の最大値を最大類似度Amaxとする。
【数10】
【0076】
最大類似度Amaxを算出したならば、最大類似度Amaxをしきい値THaと比較する。そして最大類似度Amaxがしきい値THa以上であれば、その候補画像は元の画像と類似していると判断できる。すなわち候補画像は、類似画像として検索される。しきい値THaは、実験的に0.8程度の値をとることがよい。また、最大類似度Amaxがしきい値THaよりも高い確定しきい値以上の場合には、その候補画像は問合せ画像の元となる電子化された文書画像として確定される。
以上で、特徴量検索プログラムが終了する。
【0077】
[特徴量データの計算]
最後に、データファイル2に文書ファイル21とともに格納される特徴量データ23の計算方法について説明する。
【0078】
先ずCPU41は、データファイル2の文書ファイル21に格納された文書画像を頁毎にビットマップ画像に展開する。このとき、文書画像がカラー画像の場合にはCMYK信号に展開し、モノクロ画像の場合にはグレー画像信号に展開する。
【0079】
次に、CPU41は、ビットマップ画像の信号(CMYK信号またはグレー画像信号)を濃度信号Dに変換する。具体的には、CMYK信号の場合には、(11)式で変換する。ただし、濃度信号Dの算出値が1より大きくなった場合には、濃度信号Dの値を1とする。
【0080】
D=K+(C+M+Y)/3 …(11)
グレー画像信号の場合には、このグレー画像信号をそのまま濃度信号Dとする。このとき濃度信号Dは、黒が1の値をとり、白が0の値をとる。
【0081】
次にCPU41は、検索セクション122のAct3〜Act5のステップで説明した処理と同様の処理を実行する。すなわちCPU41は、先ず、濃度分布統計量を算出する(Act3)。次にCPU41は、濃度分布統計量を基に分割閾値を決めて、文書画像を複数の領域に分割する(Act4)。そしてCPU41は、領域毎に濃度比率を算出して、濃度比率特徴量Qkを求める(Act5)。
【0082】
最後にCPU41は、検索セクション122のAct7のステップで説明した処理と同様にして、濃度比率特徴量Qkから規格化画像N(x´,y´)を求める。
CPU41は、以上の処理結果として得られた濃度分布統計量(μx,σx,μy,σy)、濃度比率特徴量Qk、規格化濃度画像N(x´,y´)を、特徴量データとして文書画像の頁毎にデータファイル2に格納する。
【0083】
[実施形態の効果]
上述したように文書画像検索装置1は、問合せ画像に類似する文書画像を文書データベース11から検索する際に、先ず、濃度比率特徴量Qを計算して絞り込みを行う。濃度比率特徴量Qは、極めて少ない計算量で算出できる。このため、文書データベース11上の文書画像が多量であっても、高速に候補画像を絞り込むことができる。したがって、高速な検索が可能となる。
【0084】
また文書画像検索装置1は、濃度比率特徴量Qを計算する際に先ず、濃度分布統計量を求める。そして文書画像検索装置1は、この濃度分布統計量を基準に文書画像の分割位置を決めて、濃度比率特徴量Qを計算する。したがって、問合せ画像50のデジタルカメラで撮影する際の条件や、問合せ画像をスキャナでスキャンする際の条件に係らず、同じ画像に対してはいつも同じ位置で画像領域を分割できる。したがって、デジタルカメラ等で撮影した文書画像についても、その元である電子化された文書画像を高精度で検索することができる。
【0085】
[他の実施形態]
なお本発明は、前記実施形態に限定されるものではない。
例えば前記実施形態では、文書画像を9つの領域に分割したが、領域の分割数は9つに限定されるものではない。例えば4×4の16領域に分割してもよいし、5×5の25領域に分割してもよい。また、分割数は縦と横を同数にする必要もなく,例えば縦方向が4分割で子方向が3分割の計12領域に分割してもよい。また、縦方向のみ若しくは横方向のみで文書画像を複数の領域に分割してもよい。
【0086】
分割数を増やすことによって、特徴量の次数が増加する。このため、視覚的には類似していないが特徴量が近い値をなす画像を候補画像として検出する確率が低くなる。その結果、絞り込みのステップでの候補画像をさらに減らすことができ、検索処理のより一層の高速化を図ることができる。
【0087】
また、
図4のAct5のステップで説明した分割領域内の濃度総和の計算方法については、次のような変形例が考えられる。この変形例については、
図11を用いて説明する。
図11において、[A]は、射影濃度分布と分割線Rとの一例を示す。[A]に示すように、本変形例では、分割線Rを挟んで両側に帯状の中間領域Wを設ける。そしてこの中間領域W内の画素の濃度値については、この中間領域Wを挟む両側の画像領域の濃度和に算入させる。ただし、それぞれ2つの比例定数b1,b2を乗算する。比例定数b1,b2は、その和(b1+b2)が常に1になるように設定される任意の定数である。比例定数b1,b2は、中間領域W内で一定の値、例えばb1+b2=1/2でもよいし、分割線からの距離に応じて値を変えてもよい。
【0088】
図11の[B]は、前記実施形態における分割線R周辺での濃度積分関数を示し、[C]は本変形例における分割線R周辺での濃度積分関数を示す。[B]に示すように、前記実施形態では、分割線Rを境に濃度積分関数が切り替わる。このため、分割線Rの位置計算に誤差が生じると、その誤差が、濃度比率特徴量Qに影響を及ぼす。例えば画像の濃度分布が分割線Rの近辺で高いピークを持っている場合を考える。この場合、計算誤差によって分割閾値がピークの右側から左側に移ることがある。分割閾値が移ると、濃度総和の値が大きく変動することになる。
【0089】
そこで本変形例のように、中間領域Wを設ける。そして、中間領域Wの濃度信号は、これを挟む両分割領域の濃度総和の計算に入れ込む。そうすることにより、分割閾値の変動による濃度総和の変動への影響が小さくなる。その結果、濃度比率特徴量の精度を高めることができる。
【0090】
また、前記実施形態では、
図4のAct1〜Act7の処理ステップを特徴量検索プログラムにしたがってCPU41が実行する処理の範囲として説明したが、特徴量検索プログラムにしたがってCPU41が実行する処理の範囲はこれに限定されるものではない。例えばAct1〜Act5の処理ステップを特徴量検索プログラムにしたがってCPU41が実行する処理の範囲としてもよい。あるいはAct2〜Act5の処理ステップを特徴量検索プログラムにしたがってCPU41が実行する処理の範囲としてもよい。
【0091】
この他、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。