特開2016-4335(P2016-4335A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

<>
  • 2016004335-文字認識処理方法 図000003
  • 2016004335-文字認識処理方法 図000004
  • 2016004335-文字認識処理方法 図000005
  • 2016004335-文字認識処理方法 図000006
  • 2016004335-文字認識処理方法 図000007
  • 2016004335-文字認識処理方法 図000008
  • 2016004335-文字認識処理方法 図000009
  • 2016004335-文字認識処理方法 図000010
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2016-4335(P2016-4335A)
(43)【公開日】2016年1月12日
(54)【発明の名称】文字認識処理方法
(51)【国際特許分類】
   G06K 9/68 20060101AFI20151208BHJP
【FI】
   G06K9/68 B
   G06K9/68 G
【審査請求】未請求
【請求項の数】5
【出願形態】OL
【全頁数】11
(21)【出願番号】特願2014-122929(P2014-122929)
(22)【出願日】2014年6月14日
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り ウェブサイトの掲載日:平成26年3月6日 ウェブサイトのアドレス:https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=99217 開催日:平成26年3月14日 研究集会名:一般社団法人情報処理学会 第157回ヒューマンコンピュータインタラクション研究会 開催場所:東京都中野区中野4−21−1 明治大学中野キャンパス
(71)【出願人】
【識別番号】304024430
【氏名又は名称】国立大学法人北陸先端科学技術大学院大学
(74)【代理人】
【識別番号】100154966
【弁理士】
【氏名又は名称】海野 徹
(72)【発明者】
【氏名】吉高 淳夫
【テーマコード(参考)】
5B064
【Fターム(参考)】
5B064AA01
5B064AB02
5B064AB03
5B064BA02
5B064DA14
5B064DA31
5B064DA32
(57)【要約】
【課題】 カメラを用いた文書撮影による文字認識に対して、適切な撮影を教示しつつ文字認識の精度を文字単位、単語単位で向上させる。
【解決手段】 撮影対象やその位置を指示する情報を確認画面等に重畳して適切な画像撮影を教示し、その画像に撮影された情報の種類や位置に関する情報を関連付ける。続く文字認識処理においては撮影した画像とそれに対して関連付けられた情報、文字色、字体に応じて、文字認識を行うために参照する辞書あるいは認識対象文字制約を適宜切り替えることによる、誤認識を低減させる処理を行う。さらに、上記処理により得られた結果が単語単位、数値単位で適正なものとなるよう認識処理を行い、単語、数値単位での認識率を向上させる。
【選択図】図1
【特許請求の範囲】
【請求項1】
撮影対象や撮影対象の位置決めのための指示情報を撮影時に確認画面あるいはそれに類するものに重畳して適切な画像撮影を促すための撮影補助処理と、その結果撮影された画像に撮影対象や撮影対象の位置や領域に関する情報を付与する処理方法。
【請求項2】
文書情報を含む画像の文字認識処理において、請求項1に記載の処理方法で撮影した画像とそれに対して付与された情報に応じて、文字、記号などを含む画像情報に対する文字認識を行うために参照する文字認識辞書を複数用意し、これら文字認識辞書を適切に切り替えて文字認識を行う処理方法。
【請求項3】
文書情報を含む画像の文字認識処理において、請求項1に記載の処理方法で撮影した画像とそれに対して付与された情報に応じて、文字、記号などを含む画像情報に対する文字認識を行うために認識候補とする文字集合に関する制約記述を複数用意し、これらの制約記述を適切に切り替えて文字認識を行う処理方法。
【請求項4】
請求項2あるいは請求項3に記載の処理方法において、文字認識処理の対象となる画像中の特定の領域内の文字の色、文字の大きさ、字体の種類、あるいはこれらに領域の位置あるいは請求項1に記載の処理方法により付与された撮影対象、撮影位置に関する情報を加えたもののうちの組み合わせに応じて、請求項2に記載の処理方法おける文字認識辞書の切り替え、あるいは請求項3に記載の処理方法における制約記述の切り替えを行う処理方法。
【請求項5】
請求項2〜請求項4のいずれか一項に記載の処理方法よる文字認識処理により得られた認識結果を単語辞書、数値辞書、領域と領域内の位置情報、空白あるいは区切れを示す文字や記号、あるいはこれらの組み合わせにより単語や数値の区切れを検出し、単語辞書、数値辞書、あるいは認識された文字列の位置情報を組み合わせた情報から上記区切れ検出により得られた単語や数値が単語辞書あるいは数値辞書に無いものである場合に、認識された単語あるいは数値を単語あるいは数値辞書の中のもっとも類似したものに置き換えて出力する、あるいは単語辞書あるいは数値辞書に無いものであることを出力する処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、表や文書など文字情報を含むものをカメラにより適切な位置、範囲、大きさ、角度等で撮影することを助け、その画像から文字を認識する精度を向上させる技術であり、その光学式文字認識処理において文字、数字、単語、あるいは数値単位での認識精度を向上させる。
【背景技術】
【0002】
紙等に印刷、印字された日本語、英数字などの文字を画像処理により認識する技術としては光学式文字認識処理(OCR;Optical Character Recognition)が知られている。光学式文字認識処理では、日本語文書、あるいは英語文書など、認識対象の文書等の言語種別に応じて、日本語文字を認識するための日本語辞書、英語文書を認識するための英語辞書を用意し、認識処理の実行前に認識対象の文書の言語種別にあわせて上記辞書を選択して文字認識処理を実行するものであった。上記辞書とは、個々の文字の形状に関する特徴を表現したものの集合であり、認識対象の文字画像と辞書内の文字特徴との照合により、類似性が最も高いと判断された文字を認識結果と判定するために参照するものである。
しかし、上記のように、認識対象の文書等の言語種別にあわせて辞書を選択し、文字認識処理を行う場合は、類似した他の文字を出力としてしまう誤認識の問題があり、文字認識精度をより向上させるための技術がこれまでにいくつか発明されてきた。
文字認識処理における認識精度を向上させることを目的として、以下の発明がこれまでになされてきた。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2006−92138号公報
【特許文献2】特開2012−58869号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1は複数の字種全てを認識対象とする汎用辞書と字種として日本語、英語など認識対象の言語別に辞書を用意し、ある文字に対して認識結果が不読であった場合に別の言語の辞書に切り替える技術である。従って、認識対象の言語と異なる言語の辞書が認識処理の際に参照された場合に適切な言語の辞書に切り替えるという点では認識精度の向上が期待できるが認識対象の言語と認識処理で参照される辞書の言語が対応している場合の誤認識を提言させる技術では無い。従って、ある言語の文字認識のために参照する辞書が適切である場合に、類似した文字に誤認識してしまうという問題を解決するものでは無い。また、特許文献2は帳票に印字された文字や数字の認識を想定し、帳票中の特定の位置には住所や氏名、金額などの特定の項目に生起しうる文字の集合中のいずれかの文字が印字されていることを利用して日本語文字の認識精度を特許文献1による技術よりもさらに高めることを目的としたものである。しかしながら、特許文献2による技術では住所や氏名などとして生起しうる文字を辞書として文字認識を行うものであるため、たとえば住所としては使用されない文字への誤認識は避けられるが、同じ辞書中の異なった文字へ誤認識される可能性があり、その場合、第1の問題として誤認識文字を含む適切な意味を成さない単語となる可能性がある。それに加え、特許文献1ならびに特許文献2では認識する言語や種類別の辞書を生成し、それにより文字認識処理を実行しているため、第2の問題として認識させようとする言語や語彙の種類ごとに辞書を用意、あるいは生成する必要がある。さらには第3に問題として、特許文献1ならびに特許文献2は文書中の文字の種別(いわゆるフォントの種類)や字体(太字、イタリックなど)、文字の色の違いにより出現する文字の範囲が異なる場合に、辞書切り替えあるいは本発明として後述する認識対象文字指定法による文字認識精度向上については考慮されていない。また、第4の問題として、文字認識のための画像をカメラなどの撮影装置を用いて人が撮影する場合、撮影者に撮影条件(どの位置を、どのような大きさになるように、どのような角度で撮影するか等といった条件)が十分理解されていない場合が多く、文書中のどの位置をどのように(位置、大きさ、角度など)撮影すれば対象文書の文字認識のために適切なものになるのかを撮影時に教示し、その結果として文字認識精度の向上を図る技術はこれまでに実現されていない。
【課題を解決するための手段】
【0005】
本発明では、上記第1の問題に関して、文字認識対象の文書の種類やその文書中の位置に応じて文字認識のための辞書を適宜切り替えあるいは後述する認識文字制限動作記述による文字認識に加えて単語単位での認識処理を用いることにより、同問題を解決した。
さらに、本発明では上記第2の問題に関して、文字認識対象の文書の種類やその文書中の位置に応じて文字認識処理時の認識文字制限動作記述を動的に切り替えることにより、複数の辞書を用意することなく辞書切り替え処理と同等な文字認識処理を行った。
上記第3の問題に対しては、文字の種別や文字の色の違いにより、文字認識辞書の切り替えあるいは本発明である認識文字制限動作記述の動的切り替えにより、文字の種類や文字の色の違いにより出現する文字に違いがある場合の文字認識精度の向上を図ることができた。
さらに上記第4の問題に対しては、文書撮影時に撮影対象、範囲、位置、大きさなどを教示する情報を撮影確認画面に重畳表示することにより適切な撮影が可能となる仕組みの導入により解決した。
【0006】
すなわち本発明は、以下のものである。
第1の発明は、撮影対象や撮影対象の位置決めのための指示情報を撮影時に確認画面あるいはそれに類するものに重畳して適切な画像撮影を促すための撮影補助処理とその結果撮影された画像に撮影対象や撮影対象の位置に関する情報を付与する処理方法である。
第2の発明は、文書情報を含む画像の文字認識処理において、第1の発明による方法で撮影した画像とそれに対して付与された情報に応じて、文字、記号などを含む画像情報に対する文字認識を行うために参照する文字パターンの辞書を複数用意し、文字認識処理中でこれらを適切に切り替えることにより、不適切な文字への認識を低減させる処理方法である。
第3の発明は、文書情報を含む画像の文字認識処理において、第1の発明による方法で撮影した画像とそれに対して付与された情報に応じて、文字、記号などを含む画像情報に対する文字認識を行うために認識候補とする文字集合に関する制約記述を複数用意し、文字認識処理においてこれらの制約記述を適切に切り替えることにより、不適切な文字への認識を低減させる処理方法である。
第4の発明は、第2の発明あるいは第3の発明による文字認識処理において、文字認識処理の対象となる画像中の特定の領域内の文字の色、文字の大きさ、字体の種類、あるいはこれらに領域の位置あるいは第1の発明による処理により付与された撮影対象、撮影位置に関する情報を加えたもののうちの組み合わせに応じて、第2の発明による文字パターン辞書の切り替え、あるいは第3の発明による制約記述の切り替えを行う処理方法ある。
第5の発明は、第2、第3、第4の発明による文字認識処理により得られた認識結果を単語辞書、数値辞書、領域と領域内の位置情報、空白あるいは区切れを示す文字や記号、あるいはこれらの組み合わせにより単語や数値の区切れを検出し、単語辞書、数値辞書、あるいは認識された文字列の位置情報を組み合わせた情報から上記区切れ検出により得られた単語や数値が単語辞書あるいは数値辞書に無いものである場合に、認識された単語あるいは数値を単語あるいは数値辞書の中のもっとも類似したものに置き換えて出力する、あるいは単語辞書あるいは数値辞書に無いものであることを出力する処理方法である。
【0007】
本発明における第1の発明である、文字認識対象の文書等画像撮影時の撮影補助処理について、以下に説明する。ここでは一例として、紙面に印字された健康診断結果の表を撮影し、その画像に対して文字認識処理を行い、印字情報を電子データ化する処理手順について説明する。ここでは使用機器環境の一例としてタッチパネルとカメラモジュールを備えたタブレット型計算機の使用を想定した説明を行う。
撮影に先立ち、撮影対象とする健康診断表の種類を選択する。この操作は一覧表示されたものから選択しても良いし、たとえばバーコード(1次元、2次元など)やそれに類するものを読み取って自動的に撮影対象とする表の種類を選択しても良い。システムは撮影対象の健康診断表のフォーマットに沿ったガイド枠データを読み出す。ガイド枠データは表のフォーマットに従った測定項目大分類やそこに属する測定項目や測定値が表示される領域、その位置に印字される項目名や測定値のデータ型に関する情報が関連付けられている。撮影時にはタブレット型計算機のカメラから撮影された画像に上記ガイド枠データより表の構造を示す矩形や大分類項目名などを重畳表示させて、どの部分を画面のどの位置に、どのような大きさで、さらには健康診断表の紙面に対してカメラの光軸がどの程度垂直になっているか、つまり画像のゆがみがないかを容易に判断できるようにする。なお、このガイド枠データは撮影対象の紙面全体を網羅するような構成でも良いし、撮影対象の紙面を複数に分割した複数のガイド枠データとして用意し、それら複数データをひとまとまりの紙面とする構成としても良い。
タブレット端末のカメラモジュールを用いて健康診断結果等の印字紙面を撮影する際には、上記撮影対象毎に用意されたガイド枠データを読み出し、撮影対象となるフォームの適切な領域を撮影するためのガイド枠を撮影中の確認画面にカメラからの画像と共に重畳表示する。ユーザはガイド枠に合わせてタブレット端末を適切な位置に移動させ、ガイド枠と撮影対象の表領域が重なるようにした上で撮影ボタンを押す。撮影された画像は項目名等の文字領域と測定値等の数値・記号領域に分割され、また、その領域の文字の出現範囲に関する情報と共に文字認識処理部に渡される。
【0008】
次に本発明の第2の発明に関する、撮影した画像の位置や領域に付与された情報に応じて文字認識のための辞書を適応的に切り替えることにより不適切な文字への認識を低減させる技術について以下に説明する。前述のようにして撮影された画像の項目名や測定値の印字されている領域ごとにどのような単語や数値が出現し得るかに関する情報が定義されている。文字認識処理においては上記領域ごとにOCR処理部にて認識処理を行い、その際に領域ごとに定義されている出現し得る単語あるいは数値から文字認識のための辞書を構成し、文字認識を行う領域ごとにその辞書を切り替えて文字認識を行う。
たとえば、ある領域に対して定義されている、出現し得る単語が、{身長,体重,腹囲}である場合、認識対象とする文字集合は{身,長,体,重,腹,囲}となり、その場合、認識される文字は「身」、「長」、「体」、「重」、「腹」、「囲」のいずれかとなる。なお、文字認識処理部の画像中の文字と辞書との照合処理において辞書中の文字集合要素のいずれとも一致度がある基準より低い場合は「該当文字なし」と判断することもできる。なお、この文字認識処理部の照合処理方法は既存のものと同様である。
【0009】
第3の発明に関する、撮影した画像の位置や領域に付与された情報に応じて文字認識の制約記述を切り替えることにより不適切な文字への認識を低減させる技術について説明する。この技術の目的は上記第2の発明と同じ目的であるが、異なる方法で文字認識の精度向上に関して同等の効果を実現するものである。文字認識処理部の実行時に、認識対象とする文字集合を認識動作制約として指示できるものとする。日本語の文字認識で使用される辞書には、日本語文書中に出現しうる全てのひらがな、カタカナ、漢字が定義されているとする。例えば、ある領域に対して定義されている、出現し得る単語集合が、{身長、体重、腹囲}である場合、文字認識処理が参照する辞書のうち、参照する文字集合を辞書中の全てのひらがな、カタカナ、漢字ではなく、文字集合{身,長,体,重,腹,囲}のみに限定した照合処理を行うように照合処理動作の制約を文字認識処理部に指示する。その場合、認識される文字は「身」、「長」、「体」、「重」、「腹」、「囲」のいずれかとなる。なお、文字認識処理部の画像中の文字と辞書との照合処理において上記限定された文字集合要素のいずれとも一致度がある基準より低い場合は「該当文字なし」と判断することもできる。なお、この文字認識処理部の処理方法に関しては既存のものと同様である。
【0010】
第4の発明である、文字の色、文字の大きさ、字体の種類、あるいはこれらに領域の位置あるいは第1の発明よる方法により付与された撮影対象、撮影位置に関する情報を加えたもののうちの組み合わせに応じて、第2の発明よる方法における文字パターン辞書の切り替え、あるいは第3の発明よる方法における制約記述の切り替えを行う処理はについて説明する。ここで、字体の種類とは、標準体や太字体、下線付き文字などの文字の視覚的差異を意味する。この処理では、文書画像をカラーカメラにより取得し、文字の色、大きさ、字体の種類、あるいはこれらに加えて撮影画像中の位置情報の中から複数を組み合わせた条件により、第2の発明よる方法あるいは第3の発明よる方法と同様に認識辞書の切り替えあるいは認識処理部に対して限定した文字集合での照合処理をするよう動作指示を適用して文字照合処理をおこなう。
【0011】
第5の発明である、文字認識の結果得られた文字列あるいは数値が単語辞書あるいは数値辞書に無いものである場合に、これら辞書中の最も近いものに置き換えて出力する処理は、1文字単位の文字認識の結果、単語単位、あるいは数値単位でその結果を見た場合に意味を成さない、あるいは異常な状態であるものを排除する処理である。健康診断表の診断結果印字部分のような測定項目を表す単語、あるいは測定値は一定以上の空白の存在、あるいは罫線、特定の記号などの区切り表現に使用されるものあるいは字色や背景色の変化検出により単語あるいは数値単位に分けることができる。このようにして検出した単語や数値に対して当該文字や数値の検出位置に対応する単語辞書内の単語と比較し、単語辞書内の単語のいずれとも一致しない場合には類似度が最も高い単語に置き換える処理を行う。上記の例では、単語辞書は{身長、体重、腹囲}であり、文字認識の結果得られた単語が「身重」である場合、これと「身長」、「体重」、「腹囲」との類似度を計算し、例えば、その値がそれぞれ90、70、10であり、数値がより高いほど類似性が高いことを意味するときに、文字単位の認識結果得られた単語「身重」を「身長」とする処理である。なお、単語間の類似度は比較する文字同士の線の重なり割合の総和による算出法や、誤認識確率に基づき判定する方法などを適用可能である。
【発明の効果】
【0012】
本発明により、例えばイメージスキャナのような装置を使わずに、例えばカメラ付きタブレット計算機のような装置による撮影操作によって印字文書の画像を取得し、その画像に対して文字認識処理をした場合に、より精度の高い文字認識結果を出力することが可能となる。その要因として、まず、文書撮影時に撮影対象、範囲、位置、大きさなどを教示する情報を撮影確認画面に重畳表示することにより適切な範囲や画像条件による撮影が可能となり、さらに、文字認識対象の文書の種類やその文書中の位置に応じて文字認識のための辞書を適宜切り替えあるいは認識文字制限動作記述による文字認識に加えて単語単位での認識処理を適用することにより、単語単位での文字認識精度向上が可能となった。なお、同様な認識精度向上は文字の種別や文字の色の違いに基づいて、文字認識辞書の切り替えあるいは認識文字制限動作記述の動的切り替えを行うことによっても可能となった。この技術は特定の表形式の情報を撮影し、その画像から表中の情報を認識して電子情報に変換する際の文字、あるいは単語の認識精度向上に有用である。予備的な実験を実施し、ある健康診断結果表に対して、1文字あたりの画像解像度が低めな条件で撮影画像に対する文字認識精度を、最適化・切り替え処理の無い単一日本語辞書による認識精度と比較したところ、日本語文字の認識精度を52%から79%へと向上させることができた。また、同様に、数値に対して、最適化・切り替えの無い英数字辞書使用時との認識精度比較をしたところ、認識精度を82%から91%へと向上させることができた。
【図面の簡単な説明】
【0013】
図1】撮影教示機能と辞書切り替えによる文字認識装置のハードウェア、ソフトウェア構成図
図2】撮影教示機能と対象文字制約切り替えによる文字認識装置のハードウェア、ソフトウェア構成図
図3】文字色、字体別の辞書切り替えによる文字認識装置のハードウェア、ソフトウェア構成図
図4】文字色、字体別の対象文字制約切り替えによる文字認識装置のハードウェア、ソフトウェア構成図
図5】フォーム構造データの構成を示す図
図6】撮影教示に使用する枠データの例
図7】フォーム構造の例
図8】フォーム構造データ例
【発明を実施するための形態】
【0014】
本発明は、タッチパネルディスプレイとカメラを備えたタブレット型計算機により、健康診断結果通知を例とした、定型的な表形式の印字情報を撮影することにより電子情報化する計算機ソフトウェアとしての実施形態、あるいはそれに類似した形態が考えられる。表を撮影・画像取得時は、カメラからの映像に撮影すべき表領域の一部あるいは全体を示す枠や大分類項目などの文字を重畳表示し、撮影領域や大きさが適切であるかどうかを確認しながら撮影することが可能である。そのようにして取得された画像は、上記文字認識処理、単語単位での認識処理により、一般的な文字認識処理を適用した場合に生じる文字認識誤りを低減させ、認識結果を出力することが可能となる。本発明の具体的な運用例としては、先に例として挙げたような、表の形式で印刷された健康診断結果表を撮影して診断項目とその測定値等を文字認識処理により電子情報化し、それを健康情報を蓄積するサーバーへ送信して格納するためのタブレット計算機上の計算機ソフトウェアとしての運用が考えられる。
【0015】
本発明に係る画像処理による文字認識装置は、第2の発明、第3の発明、第4の発明の組み合わせにより4通りの構成が考えられる。上記4通りの実施形態を図1から図4に示す。まず、図1に示す実施形態について詳細に説明する。
【0016】
図1に示す実施形態では、撮影支援処理部101は、計算機内蔵のカメラ103と、タッチパネルを備えた表示画面104とに接続されており、画像取得処理部105、領域切り出し部106、スーパーインポーズ処理部107、フォーム構造データ108より構成される。文字認識処理部102は、文字・数字辞書109、単語・数地辞書112、文字認識処理部110、単語・数値認識処理部111で構成され、最終的な認識結果データ113として出力される。
【0017】
印刷された文書中の表などの情報を認識する場合、まず撮影対象とする表の形式や種類、あるいは発行者などと関連付けられたフォーム構造をフォーム構造データ108から読み出す。この読み出しは撮影対象とする表の形式や種類、あるいは発行者に関する情報を参照して直接的に選択しても良いし、バーコードなどにより識別番号に置き換えておいたものをバーコード読取装置により読み取って特定のフォーム構造データに対応付けて読み出しても良い。例えば図5に示すように、フォーム構造データベース501は個々のフォームごとの情報502の集合から構成されており、個々のフォーム、例えばフォームAのフォーム構造データは撮影補助枠画像503、ならびに項目領域位置情報504、単語・数値辞書505、文字・数字辞書506の組が1つあるいは複数定義されたものとして構成される。
【0018】
撮影補助枠画像は例えば図6、601に示すようなもので、撮影対象の表などの撮影位置決めに有用な領域枠や「身体計測」などの大分類項目名といった文字、記号などの情報から構成される。この例では「身体計測」、「尿検査」、「血液検査」といった個々の大分類項目名の下に定義された矩形内に個々の測定項目名や測定値が印刷されているものとする。個々の矩形ごとにその座標が項目名領域位置情報504として定義され、その矩形の位置に出現し得る単語や数値が単語、数値辞書505に、その矩形の位置に出現し得る文字や数字が、文字、数字辞書506にそれぞれ定義されている。なお、ここでは単語とは1つあるいは複数の文字で構成される意味を持った文字列をさし、数値は1あるいは複数桁からなり、小数点を含むこともある一定の量を表す文字列ものとする。また、個々では文字とは上記単語を1文字単位に分解したもの、数字とは上記数値を1桁ごとの数字に分解したものを示す。なお、通常は数字辞書は0から9全ての数字、その値の範囲や表示されている形式によっては小数点やカンマを含むものとして、数字の出現に一定の偏りがある場合は出現しうる数字のみを含むものとして構成される。補助枠画像503、項目領域位置情報504、単語、数値辞書505、文字、数字辞書506の例を示したものが図8におけるフォーム構造データ例801である。
【0019】
撮影対象となるフォームの種類が選択されると、フォーム構造データベース501の中からそのフォームに対応したフォーム構造データ503が呼び出され、さらにその構成要素である撮影補助枠画像503が読み出され、カメラからの画像が画像取得処理部105を経由してスーパーインポーズ処理部107に渡され、そこで撮影補助枠画像503がカメラからの画像に重畳処理された後、カメラ画像確認画面であるタッチパネル付き表示装置104に表示される。上記処理の結果タッチパネル付き表示装置104に表示される画像の例が図7における表撮影時に重畳用画像を重畳表示した実例701である。
【0020】
利用者がカメラ画像確認画面であるタッチパネル付き表示装置104の表示画像を確認しながら表示された枠にあわせて装置を移動させ、撮影する表の位置や大きさ、傾きが適正で撮影補助枠と重なったときに、使用者はシャッターボタンを押す。すると、その瞬間のカメラからの画像が画像取得処理部105により保持され、さらにフォーム構造データ503にある項目領域位置情報に従ってカメラからの画像が領域切り出し部106によって切り出され、その画像が文字認識処理部110に送られる。
【0021】
上記処理と共に、対応するフォーム構造データ108中にある文字、数字辞書506が取り出されて文字認識処理部102中の文字・数字辞書109となり、上記辞書を参照して文字認識処理部109が文字認識処理を行う。その結果は単語・数値認識処理部に送られ、単語や数値の切れ目を表す空白や線、記号などにより単語単位、数値単位の情報として保持される。そこでフォーム構造データ108中にある単語、数値辞書505が取り出されて文字認識処理部102中の単語・数値辞書112となり、上記単語単位、数値単位の情報として保持された文字認識結果が、単語、数値辞書112に定義された単語あるいは数値と比較され、相違がある場合は上記辞書中の最も近いものとして認識される。そのようにして単語、あるいは数値の単位で単語、数値辞書112に記述された範囲の単語あるいは数値として認識結果データ113が出力される。そのため、1文字単位で認識誤りがおきた場合に生じる意味の通じない単語や生じ得ない数値として認識結果が出力されることを防ぐものである。
【0022】
上記処理に対して、文字認識処理部210、単語・数値認識処理部211に対して辞書ではなく、認識対象範囲の文字を制約記述として与えて同等な動作をさせる実施形態を示したものが図2である。制約記述とは認識結果として出力される可能性のある文字、数字を記述してそれを文字認識処理部210に与えることにより文字認識時認識動作制限を行う形態である。単語、数値に対しても同様に認識結果として出力される可能性のある単語、数値を記述してそれを単語・数値認識処理部211の単語、数値認識動作制限を行う形態である。
【0023】
図3図4は上記の処理方法に加えて文字色や自体の違いに応じて上述の文字・数字辞書、ならびに単語・数値辞書の切り替えによる処理、あるいは文字・数字制約や単語・数値制約の切り替えによる処理を行う。文字色、自体の種類ごとの領域分割は図3の実施形態では領域切り出し・文字色・字体クラスタリング処理306、図4の形態では領域切り出し・文字色・字体クラスタリング処理406で行う。この処理では項目領域位置情報504で定義される領域をさらに文字色、字体別に領域分割し、それぞれごとに定義された単語・数値辞書、文字・数字辞書あるいは単語・数値制約、文字・数字制約をそれぞれ文字認識、単語・数値認識において適用し、処理を実行する。
【産業上の利用可能性】
【0024】
本発明は、人による文書情報の撮影操作により、従来の文字認識技術よりもより高い精度で文字、ならびに単語の認識をする技術であり、特に表構造を持つ情報を人手による撮影操作を前提とし、その文字認識精度を向上させるために有効な技術である。従って、本発明は先に例示した健康診断表の撮影による電子情報化だけでなくその他の定型的な表構造により表示、提供される情報の電子化に応用可能な技術である。製品の形態としては、タブレット型計算機に本技術を実現する計算機ソフトウェアとして導入するものに加え、カメラ付きスマートフォン(多機能携帯電話)、カメラ付き携帯電話、ディジタルカメラに同機能あるいはその一部を組み込む形態が考えられ、その他、撮像素子ならびに画像表示素子を備える電子機器へのソフトウェア、ファームウェアとしての導入が考えられる。
【符号の説明】
【0025】
101,201,301,401 ・・・撮影支援処理部
102,202,302,402 ・・・文字認識処理部
103,203,303,403 ・・・カメラ装置
104,204,304,404 ・・・タッチパネル付き表示装置
105,205,305,405 ・・・画像取得処理部
106,206 ・・・画像部分領域切り出し部
306,406 ・・・領域切り出し・文字色・字体クラスタリング処理部
107,207,307,407 ・・・スーパーインポーズ処理部
108,208,308,408 ・・・フォーム構造データベース
109,309 ・・・文字・数字辞書
209,409 ・・・文字・数字制約生成
110,210,310,410 ・・・文字認識処理部
111,211,311,411 ・・・単語・数値認識処理部
112,312 ・・・単語・数値辞書
212,412 ・・・単語・数値制約生成
113,213,313,413 ・・・認識結果データ
501 ・・・フォーム構造データベース
502 ・・・フォームA
503 ・・・項目領域位置情報2
504 ・・・単語、数値辞書2
505 ・・・文字、数字辞書2
601 ・・・撮影支援重畳用画像
701 ・・・表撮影時に重畳用画像を重畳表示した実例
801 ・・・フォーム構造データの例
図1
図2
図3
図4
図5
図6
図7
図8