特許第6693887号(P6693887)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ イー・エル・イー・エスの特許一覧

<>
  • 特許6693887-ライン・セグメント化方法 図000009
  • 特許6693887-ライン・セグメント化方法 図000010
  • 特許6693887-ライン・セグメント化方法 図000011
  • 特許6693887-ライン・セグメント化方法 図000012
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6693887
(24)【登録日】2020年4月20日
(45)【発行日】2020年5月13日
(54)【発明の名称】ライン・セグメント化方法
(51)【国際特許分類】
   G06K 9/34 20060101AFI20200427BHJP
   G06K 9/62 20060101ALI20200427BHJP
【FI】
   G06K9/34
   G06K9/62 610D
【請求項の数】11
【全頁数】14
(21)【出願番号】特願2016-562596(P2016-562596)
(86)(22)【出願日】2015年4月15日
(65)【公表番号】特表2017-515222(P2017-515222A)
(43)【公表日】2017年6月8日
(86)【国際出願番号】EP2015058181
(87)【国際公開番号】WO2015158781
(87)【国際公開日】20151022
【審査請求日】2018年4月13日
(31)【優先権主張番号】14/254,096
(32)【優先日】2014年4月16日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】509305365
【氏名又は名称】イー・エル・イー・エス
【氏名又は名称原語表記】I.R.I.S.
(74)【代理人】
【識別番号】110000855
【氏名又は名称】特許業務法人浅村特許事務所
(72)【発明者】
【氏名】コレット、フレデリク
(72)【発明者】
【氏名】オート、ジョルディ
(72)【発明者】
【氏名】ドウ、ミシェル
(72)【発明者】
【氏名】デ ミューレナエーレ、ピエール
(72)【発明者】
【氏名】デュポン、オリヴィエール
(72)【発明者】
【氏名】ヘンスゲス、ギュンター
【審査官】 片岡 利延
(56)【参考文献】
【文献】 特開2007−058803(JP,A)
【文献】 特開2001−195544(JP,A)
【文献】 特開平05−128307(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06K 9/34
G06K 9/62
(57)【特許請求の範囲】
【請求項1】
文字ストリング画像の中の文字をセグメント化するための方法であって、
a)出発ポイント座標の空のリストを生成するステップと、
b)背景と対照を成すピクセルの第1の出発ポイント座標を決定し、出発ポイント座標の前記リストにこの出発ポイント座標を追加するステップと、
c)最大文字幅と、前記最大文字幅に対応する前記文字ストリング画像の部分の特性とに応じた、可能性のある文字幅のリストを生成するステップと、
d)前記第1の出発ポイント座標と、可能性のある文字幅の前記リストの第1の幅とに対応する前記文字ストリング画像の第2の部分を決定するステップと、
e)前記文字ストリング画像の前記第2の部分に対して分類方法を適用して、前記第1の幅についてのエラーの可能性と、候補文字とを提供するステップと、
f)速度と正確さとの間のトレードオフによって決定される第1のしきい値と、エラーの前記可能性を比較するステップと、
g)前記第1の幅に対応するエラーの前記可能性が、前記第1のしきい値の値よりも低い場合に、前記第1の幅に対応する前記文字として前記候補文字を選択するステップと、
h)前記第1の幅に対応するエラーの前記可能性が、第2のしきい値の値よりも低い場合に、次の文字についての出発ポイントを算出するステップと、
i)前記次の文字の前記算出された出発ポイントを出発ポイント座標の前記リストに追加することによって、前記次の文字の前記算出された出発ポイントをメモリに保持するステップと、
j)前記第1のしきい値の値よりも高い第2のしきい値の値とエラーの前記可能性を比較するステップであって、ステップf)は、エラーの前記可能性が、前記第2のしきい値の値よりも低い場合にだけ実行される、ステップと
を含み、
k)前記方法は、更に、可能性のある文字幅の前記リストの前記第1の幅に対応するエラーの前記可能性が、前記第1のしきい値の値よりも高い場合に、
1)前記出発ポイント座標に対応し、且つ可能性のある文字幅の前記リストの上の次の幅に対応する前記文字ストリング画像の第2の部分を決定するステップと、
2)前記文字ストリング画像の前記第2の部分に対して分類方法を適用して、この次の幅についてのエラーの可能性と、次の候補文字とを提供するステップと、
3)前記第1のしきい値の値と前記次の幅についてのエラーの前記可能性を比較するステップと、
4)幅に対応するエラーの前記可能性が、前記第1のしきい値の値よりも低くなるまで、或いは、可能性のある文字幅の前記リストの中に含まれるすべての前記幅が処理されてしまうまで、ステップ1)、2)、及び3)を反復するステップと、
5)前記幅に対応するエラーの前記可能性が、前記第1のしきい値の値よりも低い場合に、前記幅に対応する前記文字として前記候補文字を選択するステップと
を含み、
l)出発ポイント座標の前記リストのすべての出発ポイント座標が処理されてしまうまで、ステップb)〜k)を反復するステップ
を含む方法。
【請求項2】
幅に対応するエラーの前記可能性が、前記第1のしきい値の値よりも低い場合に、データベースに含まれる文字統計値をアップデートするステップ
をさらに含む、請求項1に記載の方法。
【請求項3】
可能性のある文字幅の前記リストは、最も可能性の高いものから、より可能性の低いものへとソートされ、
前記最も可能性の高い幅は、文字についての推定された最大幅よりも大きくない、最大数の接続された構成部分を含む最も広い幅であるような幅である、請求項1に記載の方法。
【請求項4】
可能性のある文字幅の前記リストのうちの2つのより可能性の低い幅は、平均グローバル幅と、前記平均グローバル幅の2分の1とであり、前記平均グローバル幅は、前記文字ストリング画像の中の第1の文字についての前記文字ストリング画像の高さであり、或いは、前記平均グローバル幅は、前記文字ストリング画像の中の後続の文字についての以前の平均グローバル幅と平均文字幅とに基づいて、算出される、請求項3に記載の方法。
【請求項5】
前記文字ストリング画像は、縦方向の文字ストリング画像であり、すべての幅は、高さである、請求項1に記載の方法。
【請求項6】
成功した反復時に前記平均グローバル幅の値で文字統計データベースをアップデートするステップをさらに含む、請求項4に記載の方法。
【請求項7】
可能性のある文字幅のリストを生成するステップは、与えられたポイント・サイズと、最大の参照文字の幅と、前記参照文字の平均幅と、前記参照文字の間の平均間隔のサイズとについて、前記参照文字を含むデータベースから取り出されるデータに基づいている、請求項1に記載の方法。
【請求項8】
前記データベースは、前記文字の統計値についての推定値をさらに含む、請求項7に記載の方法。
【請求項9】
前記データベースは、成功した反復時にアップデートされる、請求項8に記載の方法。
【請求項10】
前記最大文字幅は、アジア文字についての最大文字幅である、請求項1に記載の方法。
【請求項11】
コンピューティング・デバイスに、請求項1に記載の方法を使用することによって、入力画像の中の文字ストリング画像をセグメント化させるための制御ロジックを記憶しているコンピュータ使用可能媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ライン・セグメント化方法に関し、より詳細には、OCRシステム内で使用されるライン・セグメント化方法に関する。
【背景技術】
【0002】
光学式文字認識(OCR:Optical Character Recognition)システムが、知られている。これらのシステムは、紙の文書を検索可能なテキスト文書へと自動的に変換する。OCRシステムは、一般的に、3つの主要なステップから、すなわち、ライン・セグメント化と、特徴抽出と、文字分類とから構成される。しかし、図1に示されるように、特徴抽出は、多くの場合、文字分類の一部分として提示される。そのようにして、文字ストリングの画像から出発して、知られている光学式文字認識システムは、個別の文字の画像になるようにライン・セグメント化を最初に適用し、その後に、文字分類ステップが実行されて、文字を識別する。文字分類技法は、ここ数年で非常に堅固になっているのに対し、ライン・セグメント化は、とりわけアジア・テキストの場合には、依然としてOCRの決定的に重要なステップのままである。
【0003】
ライン・セグメント化についての種々のアプローチが、存在している(多くの場合に文字セグメント化とも呼ばれている)。テキスト・ラインを表す画像は、文字画像を構成する個別の部分画像へと分解される。種々の方法を使用して、ラインをセグメント化することができる。知られているライン・セグメント化方法は、個別の文字を分離するやり方として文字間の切断部、又は単語の切断部(ラテン文字に適合される)を検出するものである。これは、例えば、WO2011128777及びWO201126755に記載される。
【0004】
例えば、WO2011142977に記載される、別の知られているライン・セグメント化方法は、文字を分離するラインを識別するために後で処理されるチョップ・ラインを使用している。例えば、EP0138445B1におけるさらに他の方法は、文字の間の一定のピッチを仮定している。
【0005】
上記で説明されるライン・セグメント化方法は、ダイセクション方法(dissection methods)として知られている。このタイプの方法は、アジア・テキストと、ラテン・テキストと組み合わされたアジア・テキストとの場合には、あまり効率の良いものではない。その理由は、そのタイプのテキストにおいては、多くの場合に文字の間に明確な切断部又はピッチが存在しておらず、またアジア文字は、単一の接続された構成部分から作られておらず、ほとんどの場合はいくつかの接続された構成部分(例えば、漢字の部首)から作られているためである。
【0006】
ライン・セグメント化の別のタイプの方法は、特定のアルファベットにおけるクラスにマッチする画像の中の構成部分の認識に基づいている。そのような方法は、しかしながら、長い計算時間を必要とする。
【0007】
第3のタイプのセグメント化技法は、最初の2つの組合せを使用しており、「オーバーセグメント化」方法として、知られている。画像は、図2に示されるように異なるダイセクション方法を用いて、オーバーセグメント化される。いくつかの妥当と思われるセグメント化の問題解決手法が、同じ、又は異なる文字分類方法によって分析され、次いで最良のセグメント化の問題解決手法が選択される。例えば、アジア文字の場合におけるように、セグメント化が困難になるときには、多数の可能性のあるセグメント化の問題解決手法が評価され、その結果、入力ストリング画像を分析するために非常に長い計算時間がかかる。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】WO2011128777
【特許文献2】WO201126755
【特許文献3】WO2011142977
【特許文献4】EP0138445B1
【発明の概要】
【発明が解決しようとする課題】
【0009】
ラインの高速且つ正確なセグメント化を提供する、文字ストリング画像の中の文字をセグメント化するための方法を提供することが、本発明の目的である。
【課題を解決するための手段】
【0010】
これらの目的は、第1の独立請求項の技術的特性を示す、文字ストリング画像の中の文字をセグメント化するための方法を用いた本発明に従って達成される。本発明による文字ストリング画像の中の文字をセグメント化する方法は、
a)背景と対照を成すピクセルの第1の出発ポイント座標を決定するステップと、
b)最大文字幅と、最大文字幅に対応する文字ストリング画像の部分の特性とに応じた、可能性のある文字幅のリストを生成するステップと、
c)第1の出発ポイント座標と、第1の幅とに対応する文字ストリング画像の第2の部分を決定するステップと、
d)文字ストリング画像の第2の部分に対して分類方法を適用して、第1の幅についてのエラーの可能性(likelihood of error)と、候補文字とを提供するステップと、
e)速度と正確さとの間のトレードオフによって決定される第1のしきい値と、エラーの可能性を比較するステップと、
f)第1の幅に対応するエラーの可能性が、しきい値の値よりも低い場合に、第1の幅に対応する文字として候補文字を選択するステップと
を含んでいる。
この方法の利点は、ライン・セグメント化と、文字分類とが、文字ごとに組み合わされたプロセスにされることである。文字ストリング画像のライン・セグメント化と、文字分類とを実行するステップの必要とされる数が、著しく低減されるので、これは、低減された算出時間の形の大きな利点を生み出す。その結果は、本方法の速度と、正確さとの増大である。
【0011】
本発明による他の実施例においては、本方法は、第1のしきい値の値よりも高い第2のしきい値の値とエラーの可能性を比較するステップをさらに含んでおり、第1のしきい値の値とエラーの可能性を比較するステップは、エラーの可能性が、第2のしきい値の値よりも低い場合にだけ実行される。
【0012】
第2のしきい値の値は、肯定的な結果をもたらす機会を有していない候補についての高速なフィルタリングを可能にするという利点を有する。
【0013】
本発明による別の実施例においては、本方法は、第1の幅に対応するエラーの可能性が、第2のしきい値の値よりも低い場合に、次の文字についての出発ポイントを算出するステップと、次の文字の算出された出発ポイントをメモリに保持するステップとをさらに含む。
【0014】
本発明による別の実施例においては、本方法は、第1の幅に対応するエラーの可能性が、第1のしきい値の値よりも低い場合に、データベースに含まれる文字統計値をアップデートするステップをさらに含んでいる。
【0015】
このデータベースは、テキストの中の文字と、参照文字とについての最大サイズと平均サイズとについての情報を含んでいる。これらの値は、可能性のある文字幅のリストの生成における文字の幅を推定するときに、本方法の速度と正確さとを改善するために使用される。
【0016】
本発明による別の実施例においては、可能性のある文字幅のリストは、最も可能性の高いものから、より可能性の低いものへとソートされ、最も可能性の高い幅は、データベースに記憶される文字についての推定された最大幅よりも大きくない、最大数の接続された構成部分を含む最も広い幅であるような幅である。
【0017】
本発明による別の実施例においては、可能性のある文字幅のリストのうちの2つのより可能性の低い幅は、平均グローバル幅と、平均グローバル幅の2分の1とであり、平均グローバル幅は、文字ストリング画像の中の第1の文字についての文字ストリング画像の高さであり、また平均グローバル幅は、文字ストリング画像の中の後続の文字についての、データベースに記憶される以前の平均グローバル幅と平均文字幅とに基づいて、算出される。
【0018】
これの利点は、アジア文字のサイズが、ラテン文字のサイズのおおよそ2倍であるため、平均グローバル幅は、アジア文字を識別するのに対し、平均グローバル幅の2分の1は、ラテン文字を識別し、それゆえに、この手段により、ライン・セグメント化方法を、ラテン文字と、アジア文字と、それらの組合せとに適用できることである。
【0019】
本発明による別の実施例においては、可能性のある文字幅のリストの以前の幅に対応するエラーの可能性が、第2のしきい値の値よりも高い場合に、本方法は、
a)出発ポイント座標に対応し、且つリストの次の幅に対応する文字ストリング画像の第2の部分を決定するステップと、
b)文字ストリング画像の第2の部分に分類方法を適用して、この幅についてのエラーの可能性を提供と、候補文字とを提供するステップと、
c)データベースに記憶されるしきい値の値とエラーの可能性を比較するステップと、
d)この幅に対応するエラーの可能性が、しきい値の値よりも低くなるまで、又は可能性のある文字幅のリストの中に含まれるすべての幅が処理されてしまうまで、ステップa)と、ステップb)と、ステップc)とを反復するステップと、
e)幅に対応するエラーの可能性が、第1のしきい値の値よりも低い場合に、幅に対応する文字として文字候補を選択するステップと
をさらに含む。
【0020】
問題解決手法が見出されていない限り、また問題解決手法が見出されるまで、ライン・セグメント化と、文字分類とが、次々に、組み合わされ、実行される。これは、そのような方法を実行するために必要とされるステップの数を低減させることを可能にしており、また本方法の正確さを改善させもする。
【0021】
本発明による別の実施例においては、文字ストリング画像は、縦方向の文字ストリング画像であり、すべての幅は、高さである。
【0022】
アジア文字は、ラインに沿って書かれるが、列に沿って書かれる可能性もある。本方法は、確かにラインだけには限定されず、また文字の幅を高さに変更することだけにより、ラインに簡単に適合される可能性があり、また逆の場合も同様である。
【0023】
別の実施例においては、本方法は、成功した反復時に平均グローバル幅値で文字統計データベースをアップデートするステップをさらに含んでいる。
【0024】
本発明による別の実施例においては、可能性のある文字幅のリストを生成するステップは、与えられたポイント・サイズと、最大の参照文字の幅と、参照文字の平均幅と、参照文字の間の平均間隔のサイズとについて、参照文字を含むデータベースから取り出されるデータに基づいている。
【0025】
本発明の別の実施例においては、データベースは、それらの文字の統計値についての推定値をさらに含んでおり、データベースは、成功した反復のたびにアップデートされる。
【0026】
本発明の別の実施例においては、最大の文字幅は、アジア文字についての最大文字幅である。
【0027】
本発明の別の実施例においては、コンピュータ・プログラム製品は、コンピューティング・デバイスに、入力画像の中の文字ストリング画像をセグメント化させるための制御ロジックを記憶しているコンピュータ使用可能媒体を備えており、その制御ロジックは、
a)背景と対照を成すピクセルの第1の出発ポイント座標を決定するための第1の制御読取り可能プログラム・コード手段と、
b)最大文字幅と、最大文字幅に対応する文字ストリング画像の部分の特性とに応じた、可能性のある文字幅のリストを生成するための第2の制御読取り可能プログラム・コード手段と、
c)可能性のある文字幅のリストの上の第1の出発ポイント座標と第1の幅とに対応する文字ストリング画像の第2の部分を決定するための第3の制御読取り可能プログラム・コード手段と、
d)文字ストリング画像の第2の部分に対して分類方法を適用して、第1の幅についてのエラーの可能性と、候補文字とを提供するための第4の制御読取り可能プログラム・コード手段と、
e)速度と正確さとの間のトレードオフによって決定される第1のしきい値とエラーの可能性を比較するための第5の制御読取り可能プログラム・コード手段と、
f)第1の幅に対応するエラーの可能性が、しきい値の値よりも低い場合に、第1の幅に対応する文字として候補文字を選択するための第6の制御読取り可能プログラム・コード手段と
を備えている。
【0028】
本発明は、さらに、以下の説明と、添付の図面とを用いて、明らかにされる。
【図面の簡単な説明】
【0029】
図1】先行技術による光学式文字認識プロセスにおける種々のステップを示す図である。
図2】オーバーセグメント化として知られている最先端技術におけるライン・セグメント化のタイプを示す図である。
図3】本発明の一実施例によるライン・セグメント化方法を示す図である。
図4】文字統計データベースを有するライン・セグメント化方法を示す図である。
【発明を実施するための形態】
【0030】
本発明は、特定の実施例に関して、ある図面を参照して説明されることになるが、本発明は、それに限定されず、特許請求の範囲だけによって限定される。説明される図面は、概略的なものにすぎず、また非限定的である。それらの図面においては、要素のいくつかのサイズは、誇張されることもあり、また例示の目的のために縮尺して描かれてはいない。それらの寸法と、相対的な寸法とは、必ずしも、本発明の実践に合わせた実際の縮小に対応しているとは限らない。
【0031】
さらに、本説明及び特許請求の範囲における第1の、第2の、及び第3の、などの用語は、類似した要素を区別するために使用され、また必ずしも逐次的順序又は時間的順序を説明するために使用されるとは限らない。それらの用語は、適切な状況の下で交換可能であり、また本発明の実施例は、本明細書において説明又は例示される以外の他の順番でも動作することができる。
【0032】
さらに、本説明及び特許請求の範囲における最上部、最低部、上の、及び下の、などの用語は、説明の目的のために使用され、必ずしも相対的な位置を説明するために使用されるとは限らない。そのように使用される用語は、適切な状況の下で交換可能であり、また本明細書において説明される本発明の実施例は、本明細書において説明又は例示される以外の他の向きにおいても動作することができる。
【0033】
さらに、様々な実施例は、「好ましい」と称されるが、本発明の範囲を限定するものとしてではなく、本発明が実装され得る例示的なやり方として解釈されるべきである。
【0034】
特許請求の範囲において使用される用語「含んでいる/備えている(comprising)」は、それ以降にリストアップされる要素又はステップだけに限定されるように解釈されるべきではなく、その用語は、他の要素又はステップを除外しない。用語「含んでいる/備えている」は、述べられた特徴、整数、ステップ、又はコンポーネントの存在を言及されるように指定するように解釈される必要があるが、1つ又は複数の他の特徴、整数、ステップ又はコンポーネント、或いはそのグループの存在又は追加を除外することはしない。それゆえに、表現「AとBとを備えているデバイス」の範囲は、コンポーネントAとBとだけから構成されるデバイスだけに限定されるべきではなく、本発明に関して言えば、デバイスの列挙されたコンポーネントが、AとBとだけであり、またさらに、請求項は、これらのコンポーネントの均等物を含むように解釈されるべきである。
【0035】
図3を参照すると、図3は、本発明の一実施例による光学式文字認識(OCR)方法の流れ図を示すものである。本方法の入力は、文字ストリング画像110である。第1のステップにおいて、ライン・セグメント化120が、文字ストリング画像110に実行される。分析される文字の可能性のある幅についての予備情報が、算出される。文字の可能性のある幅についてのこの予備情報は、OCR方法の速度を改善する、ステップの新しい順番を可能にする。オーバーセグメント化が、依然として使用されるが、必ずしもすべての可能性のある問題解決手法(210、220、230)が、OCR方法によって体系的に分析される必要があるとは限らない。可能性のある問題解決手法は、候補文字幅のリストを用いて生成され(310)、最も可能性の高いものから、より可能性の低いものへとソートされる。OCR方法は、最初に最も可能性の高い見込みのある問題解決手法210を分析する。測定エラーに対する条件が満たされる(320)場合、文字は分類され(150)、その他の可能性のある問題解決手法は、切り捨てられ、次の文字が分析される。測定エラーに対する条件が満たされない(330)場合、次の最も可能性の高い可能性のある問題解決手法が分析される(220)。このプロセスは、分類に成功した文字がない限り、又はすべての可能性のある問題解決手法が評価されてしまうまで、繰り返し反復される。
【0036】
本方法は、ここで説明されるように、テキストのラインをセグメント化するために適用される。しかしながら、同じ方法を使用して、アジア・テキストの場合にしばしばそうであるように、テキストの列をセグメント化することができる。
【0037】
上記で説明したように、最も可能性の高いものから、より可能性の低いものへと発生するように順序付けられる候補文字幅のリストが、文字画像の分析の前に、生成される(310)。候補文字幅のこのリストの生成は、本出願において後で説明する。リストは、N+2個の候補幅を含んでおり、ここで、最初のN個の幅は、切断が、文字を抽出するために文字ストリング画像110において実行されるべきでない幅であり、また最後の2つの幅は、切断が、文字ストリング画像110において文字を分離させ、また抽出するために実行される必要がある幅である。
【0038】
出発ポイントは、分析すべき新しい文字画像の位置を規定するx座標である。初期の出発ポイントのリストが、アルゴリズムの最初に作成され、ここでは、リストの最初の初期出発ポイントは、画像の左側の第1の黒色ピクセルに対応する。他の所定の出発ポイントは、ラインの端部、又は最も右側のピクセルに対応する。他の出発ポイントが、OCRプロセス中に、出発ポイントのリストに追加される。本方法は、リストの中に存在するすべての出発ポイントが処理されることを保証する。
【0039】
文字画像は、接続された構成部分のリストに関連づけられる出発ポイント座標と幅とによって完全に規定される。ラインの高さは、すべての文字について同じである。OCRプロセスの終わりに、文字が分類される。
【0040】
可能性のある問題解決手法が作成されると、文字分類方法140が、可能性のある問題解決手法に適用されて、文字が、この可能性のある問題解決手法について、分類され得るかどうかを決定する。本発明の一実施例においては、文字分類方法140は、ガボール(Gabor)関数に基づいたものである。
【0041】
文字分類方法140は、本発明の一実施例によれば、2つの入力、すなわち、
− 文字nの出発ポイント座標SPであって、出発ポイント座標は、分析すべき文字の左下の文字の第1のピクセルの(x)座標である、出発ポイント座標SPと、
− 文字nについての候補文字幅のリストから取られる候補幅w
を必要とする。
【0042】
出力は、文字Cを計算するために使用されるエラーの可能性Perrである。エラーの可能性Perrは、2つのしきい値パラメータ、すなわち、エラーの低い可能性を有するしきい値Tlerrと、エラーの高い可能性を有するしきい値Therrと比較される。Tlerrと、Therrとの値は、速度対正確さの要件に応じて、調整することができる。本発明の好ましい一実施例においては、TlerrとTherrとの値は、Tlerr=20%とTherr=99.9%とに設定される。エラーの低い可能性を有するしきい値Tlerrは、分類が成功した文字を有する条件を規定する。
【0043】
本発明の一実施例によるライン・セグメント化方法は、図4に示されるように文字統計データベース400を使用している。次にそのデータベースの要素をリストアップする。どのようにして要素のうちのそれぞれが使用されるかについてのより詳細な説明が、本出願において、さらに続く。データベースは、
− メモリに記憶される、アジア文字とラテン文字とについての、また選択されたポイント・サイズについての基準サイズ(高さ及び幅)のライブラリと、
− メモリに記憶される、選択されたポイント・サイズについてのアジア文字とラテン文字とについての基準最大サイズ、それぞれ、wMax,A,r、及びwMax,L,rと、
− 選択されたポイント・サイズについての、アジア・テキストとラテン・テキストとについて同じである基準平均文字間間隔、Sと、
− 分析されているテキストの中のアジア文字とラテン文字との推定最大幅、それぞれ、wMax,A,t、及びwMax,L,tと、
− 分析されているテキストの中のアジア文字とラテン文字とについての平均文字間間隔、sと、
− 分類済みの文字だけについて算出される、対応する参照文字の幅を表す、アジア文字及びラテン文字nの幅のローカル推定値、それぞれLn,A及びLn,Lであって、文字nの実際の幅と値とを使用して計算される文字のポイント・サイズの測定値である、アジア文字及びラテン文字nの幅のローカル推定値、それぞれLn,A及びLn,Lと、
− 分類済みの文字だけについて算出される、対応する参照文字の幅を表す、文字の幅のグローバル推定値、G
を含む。Gの値は、以前に測定されたローカル推定値Lの移動平均であり、それゆえに、平均文字ポイント・サイズのより正確な測定値である。この値は、間違って分類された文字に対してより許容性があるので、より信頼できるものである。
【0044】
図4を参照すると、図4は、本発明の一実施例によるライン・セグメント化プロセスの流れ図を示すものである。プロセスは、文字Cのセグメント化について例示される。文字CについてのすべてのN+2個の候補文字幅のリスト310が生成され、第1の候補文字幅wが、候補文字幅のリストから取られる。これらの2つの値、SPとwとは、ステップ420における文字分類方法140のための入力410である。ステップ420の出力は、エラーの可能性Perrである。
【0045】
errの値に応じて、2つのオプションが可能である。エラーの可能性Perrが、エラーの高い可能性を有するエラーについてのしきい値Therrよりも低い(421)場合は、文字Cが、可能性のある問題解決手法である。第1の候補幅wに対応する文字Cは、次いで、メモリに保持され、次の文字の出発ポイントが算出され、必要に応じて処理されるように出発ポイントのリストに追加され、すなわち、SPn+1=SP+w+sA,tとなる(425)。さらに、エラーの可能性Perrがまた、エラーの低い可能性を有するエラーについてのしきい値Tlerrよりも低い(422)場合、文字Cは、分類が成功したと考えることができ、本説明において後で説明されるように文字統計データベースがアップデートされる(400)。本方法は、次の出発ポイントSPn+1へと移動(405)して、現在の出発ポイントSPについて他の幅を処理することなしに、次の文字Cn+1を決定することができる。エラーの可能性Perrが、エラーの低い可能性を有するエラーについてのしきい値Tlerrよりも高い(423)場合、文字分類方法は、以下で説明されるように、次の候補幅i,wを用いて実行される(430)。
【0046】
しかしながら、エラーの可能性Perrが、エラーの高い可能性を有するエラーについてのしきい値Therrよりも高い(424)場合には、候補幅1,wに対応する文字Cは、メモリに保持されず、新しい出発ポイントは、算出されない。
【0047】
文字分類方法は、次の候補幅i,wを用いて実行される(430)。この場合にも、Perrの値に応じて、2つのオプションが存在している。PerrがTherrよりも低い(431)場合、文字Cは、幅wとともに記憶され、次の文字の出発ポイントが算出され、必要に応じて処理されるべき出発ポイント(405)のリストに追加され、また、PerrがまたTlerrよりも低い(432)場合は、文字統計データベースがアップデートされる(400)。しかしながら、PerrがTlerr及び/又はTherrよりも高い(435、433)場合、文字分類方法は、リストのすべての幅が処理されてしまう(i=N)まで、或いは文字の分類が成功する(Perr<Tlerr)まで、次の候補幅i+1,wi+1を用いて、実行される。
【0048】
i=N+1では、同じプロセスが反復されるが、今や幅wN+1は、第1の切断が、幅の値wN+1=wMax,A,tについて実行されるような幅になっている(440)。文字が、i=N+1についてエラーの低い可能性Perr<Tlerrを用いて分類されていない(443又は445)場合、そのときにはプロセスは、i=N+2について反復され、ここでwN+2=wMax,L,t(450)であり、この場合にも、452を伴う451や453又は454を伴う451など、異なる経路が可能である。
【0049】
オーバーセグメント化の必ずしもすべての問題解決手法は分析しないようにするために、文字n(C)についてのすべてのN+2個の候補幅{w}のリストは、以下のように生成され、すなわち、候補幅は、最も可能性の高いものから、より可能性の低いものへとソートされ、また候補幅の数は、接続された構成部分の数を用いて測定される可能性のある文字の形状に応じて、文字ごとに変化する。観察に基づいて、アジア文字の幅は、そのときにより小さな幅を有する数少ない文字を除いて、ほとんどの文字に共通であると仮定される。本発明の一実施例によれば、最も可能性の高い幅は、より広いアジア文字の推定幅(wMax,A,t)に文字間の推定平均間隔(s)を加えたものよりも広くない、接続された構成部分の最大の組を含む幅に対応する。
【0050】
文字は、非接触形(non-touching)、又は接触形(touching)である可能性がある。非接触形文字は、より高い発生確率を有しており、それゆえに、最初に考慮されるべきである。
【0051】
非接触形文字では、(切断は必要でなく)、ピクセル単位で算出されるインデックスiを有する候補幅(w)は、最も幅の広いアジア文字(wMax,A,t)よりも小さいp(p≧0)個の接続された構成部分の組に文字の間の平均推定間隔(s)を加えたものを有するi番目の最大の幅となる。幅wは、p個の接続された構成部分を有しており、幅wi+1は、p個又はそれより少ない接続された構成部分を有しており、またwi+1≦wとなる。
【0052】
最も幅の広いアジア文字(wMax,A,t)と、文字の間の推定間隔(s)とは、文字統計データベースにおいて評価される。N個の可能性のある非接触形文字が、存在している。
【0053】
2つの隣接する文字が、接触形である場合に、切断が実行される必要があり、それらの文字は、文字Cについての以前の反復(n−1)時にアップデートされた文字統計データベースにおいて見出され得る文字の平均グローバル幅Gn−1から算出される、最も可能性の高い場所において切断される。インデックスN+1を有する幅wN+1は、アジア文字の平均グローバル幅Gn−1と、平均間隔sとの合計に対応する。インデックスN+2を有する幅wN+2は、ラテン文字の平均幅Gn−1/2と、平均間隔sとの合計に対応する。ラテン文字の幅は、アジア文字の幅の2分の1であることが、仮定される。
【0054】
要約すると、反復ごとに、文字nの入力候補幅のリストは、
=p個の接続された構成部分のi番目に大きい組の幅(w=wMax+s,i=1,...,N;N≧0)
N+1=Gn−1+s
N+2=Gn−1/2+s
によって与えられ、式中で、wMax,A,t、Gn−1、s、sは、文字が分類された(すなわちPerr<Tlerr)たびにアップデートされる文字統計データベースに由来する値である。
【0055】
データベースは、参照文字のライン及びライブラリから抽出される文字情報、並びにこれらの文字についての統計値を記憶するデータ構造を含んでいる。単一のデータ構造が、プロセスの最初に作成され、その構造は、そのときには空である。メモリに記憶されるデータ構造は、反復ごとにアップデートされ、またその構造は、グラフに類似している。
【0056】
データベースのすべてのパラメータは、以下の表、すなわち、
【表1】

に要約され、またデータベースの種々のパラメータの評価が、次に説明される。
【0057】
最大のアジア文字とラテン文字との幅は、
【数1】

【数2】

のように評価され、ここで、比例比率は、テキストの中の文字のポイント・サイズに対するライブラリの中の文字のポイント・サイズの変換を表している。
【0058】
同じことが、アジア文字とラテン文字との平均サイズについて行われ、それぞれ、
【数3】

【数4】

となる。この値は、文字nの幅のローカル推定値を表しており、この値をさらに使用して、ステップnにおいて文字の幅のグローバル推定値を評価する。
【0059】
ステップnにおける文字の幅のグローバル推定値Gは、以下の式、
【数5】

を使用して算出され、式中で、Gn−1は、ステップn−1においてアップデートされる文字の平均幅のグローバル推定値であり、Lは、ステップnにおける文字の平均サイズのローカル推定値であり、nは、本方法の現在のステップのインデックスであり、またGは、ラインの高さである(アジア文字は正方形と仮定される)。この式は、アジア文字とラテン文字とについて有効である。ラテン文字では、幅のグローバル推定値は、アジア文字のグローバル推定値の2分の1であると仮定される。
【0060】
最後に、同じ比例関係が、テキストの中の文字間間隔sを推定するために適用され、テキストのポイント・サイズが、参照文字のポイント・サイズとは異なるときには、すなわち、
【数6】

となる。
【0061】
この実施例は、ライン・セグメント化方法の場合を示しているが、本方法は、ラインに限定されない。アジア・テキストはまた、列の中に書かれる可能性もあり、同じ方法が使用されることが可能である。その場合には、文字の幅は、文字の高さに置き換えられる必要があり、また出発ポイント座標は、文字ストリング画像の最上部における文字の第1のピクセルの(y)座標になる。
図1
図2
図3
図4