(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-02-14
(45)【発行日】2022-02-22
(54)【発明の名称】構造形式情報再利用システム
(51)【国際特許分類】
G06V 30/413 20220101AFI20220215BHJP
G06V 30/146 20220101ALI20220215BHJP
G06T 1/00 20060101ALI20220215BHJP
【FI】
G06K9/20 340L
G06K9/32
G06T1/00 200C
(21)【出願番号】P 2017106166
(22)【出願日】2017-05-30
【審査請求日】2020-05-15
(73)【特許権者】
【識別番号】000152228
【氏名又は名称】株式会社内田洋行
(73)【特許権者】
【識別番号】505073370
【氏名又は名称】株式会社ドリームクラフト
(74)【代理人】
【識別番号】100119585
【氏名又は名称】東田 潔
(72)【発明者】
【氏名】津田 元紀
(72)【発明者】
【氏名】藤原 茂雄
(72)【発明者】
【氏名】千葉 保明
(72)【発明者】
【氏名】鶴留 久士
【審査官】新井 則和
(56)【参考文献】
【文献】特開2007-310501(JP,A)
【文献】特開2012-022575(JP,A)
【文献】特開平08-069505(JP,A)
【文献】特開2009-223509(JP,A)
【文献】特開平10-091766(JP,A)
【文献】特開2009-301335(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/00-30/424
G06T 1/00
(57)【特許請求の範囲】
【請求項1】
矩形の記載領域を有する黒板又は発表ボードに、少なくとも、一つ又は複数の異なる非テキスト情報と所定の取り決めによって前記非テキスト情報との関係で記載された複数の異なるテキスト情報とを構成要素として有し、
記載方法がルール化された所定のフレームワークに従って非デジタル手段によって生成された構造形式情報を再利用可能とする構造形式情報再利用システムであって、
前記構造形式情報を撮影して、前記非テキスト情報から生成される非テキストデータと前記テキスト情報から生成されるテキスト画像データとを構成要素とするデジタル画像データを生成する生成手段と、
前記生成されたデジタル画像データから、前記テキスト画像データ及び非テキストデータを抽出し、抽出されたテキスト画像データ及び非テキストデータの領域及び属性を個々に判定する判定手段と、
前記判定されたテキスト画像データを光学的に読み取ってテキストデータを生成する読取手段と、
前記テキストデータ及び非テキストデータに対して前記判定された位置及び属性からメタデータを自動付与するメタデータ付与手段と、
前記付与されたメタデータとともに、前記非テキストデータと前記テキストデータとを対応させて
パーツ化した構造形式データとして保存する保存手段と、
前記メタデータによって検索することにより、前記保存された構造形式データを読み出して、閲覧可能にする表示手段と、
前記デジタル画像データを前記検索された構造形式データによって加工する加工手段と、を有し、
前記加工手段は、前記構造形式データを前記デジタル画像データから分離し、非テキストデータのみ及びテキスト画像データのみのデータとし、少なくとも、いずれか一方のデータを加工したうえで、加工前の前記デジタル画像データの非テキストデータ及びテキスト画像データの位置に重畳させ、前記加工されたデジタル画像データを前記表示手段によって表示可能とすることを特徴とする構造形式情報再利用システム。
【請求項2】
前記生成手段は、前記撮影されたデジタル画像データの歪みを補正する補正手段を有することを特徴とする請求項1記載の構造形式情報再利用システム。
【請求項3】
前記判定手段は、少なくとも、色、図形、記号のいずれかの画像認識及びデジタル画像データ上の座標位置によって前記非テキストデータを抽出するとともに、所定の情報密度によって前記テキスト画像データを抽出し、前記抽出された非テキストデータ及びテキスト画像データの単一又は組み合わせによってテキスト画像データの領域及び属性を判定することを特徴とする請求項1又は請求項2に記載の構造形式情報再利用システム。。
【請求項4】
前記判定手段は、前記非テキストデータを構成する個々の色、図形、記号を画像認識し、画像認識された個々の色、図形、記号によって前記領域及び属性を判定するとともに、前記抽出された複数の図形、記号、又は前記テキスト画像データの間を連接する図形又は記号については、前記複数の図形、記号、又は前記テキスト画像データの関係性を示す属性が判定されることを特徴とする請求項3記載の構造形式情報再利用システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、所定のフレームワークに従って、手書きの図形及び文字等、非デジタル手段によって生成された構造形式情報を再利用可能とする構造形式情報再利用システムに関するものである。
【背景技術】
【0002】
近年、学校の授業、会議における板書、発表ボード上の記載等、所定のフレームワークに従って記載される構造形式の成果物をデジタルカメラで撮影してデジタルデータ化し、後日、再利用に供されることが多い。再利用に際して、検索の容易化を図るため、前記デジタル画像データに、撮影日時、撮影場所、撮影者名等の属性に基づいてデータ(メタデータ)が付与され、かかるメタデータと前記デジタル画像データとを対応付けて保存することが行われている(たとえば、特許文献1参照。)。
【0003】
しかし、再利用のために前記保存されたデジタル画像データを検索する場合、前記属性によるメタデータは、前記成果物(コンテンツ)の内容を直接的に表示するデータではないため、前記コンテンツの内容を手掛かりに検索することができず、検索が非効率的であり、再利用の作業に支障をきたすおそれがあった。また、仮に検索がスムーズにできたとしても、読み出されたデジタル画像データは、オリジナルの画像がそのまま読み出されるにすぎず、記載内容の部分的な利用、加工などの作業を直ちに行うことはできないため、再利用時の分析等の作業に対して拡張性に欠けるものしか提供できなかった。
【0004】
そこで、従来、たとえば、入力画像の中でユーザが関心を持つことが推察される対象を、応答性よく、理解しやすいかたちでユーザに提示できる画像表示装置、画像表示方法が提案されていた(たとえば、特許文献2参照。)。すなわち、特許文献2にかかる先行技術は、入力画像から注目領域を検出し、検出された注目領域の画像に対して、視認性を向上させる補正を施してサブ画像を生成し、生成されたサブ画像を、注目領域との対応関係を示す画面表現を伴う形式で入力画像とともに表示器に表示させることを可能とするものである。
【0005】
また、入力画像中に存在する重要な文字列を文書領域と関連付けて検索等に再利用することを可能とする画像処理方法が提案されていた(たとえば、特許文献3参照。)。すなわち、特許文献3にかかる先行技術は、入力された画像の中央に位置し、所定の大きさを有する文字領域を代表文字列領域とし、前記代表文字列領域の外にある文字領域を非代表文字列領域として各々抽出し、前記非代表文字列領域を前記代表文字列領域との消失点の位置関係に基づいて、前記代表文字列領域に関連付け、前記関連付けられた代表文字列領域と非代表文字列領域の情報を保持することにより、撮影した画像中に存在する代表文字列領域と代表文字列領域以外の文字列を適切に関連付けて、情報の欠落を防止し、文字情報の再利用性を向上させるというものである。
【先行技術文献】
【特許文献】
【0006】
【文献】特開2014-127079号公報
【文献】特開2015-88046号公報
【文献】特許第5511554号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
ところで、前記板書など、構造形式で記載された成果物は、通常、テキスト情報のほか、図形、記号、色などが多用され、これらの非テキスト情報によって、児童、生徒、学生など、前記成果物を見る者が、テキスト情報の内容を直感的に理解できるように視覚化されている。また、前記再利用をする場合、前記非テキスト情報及びこれに関連付けられたテキスト情報を単位要素として抽出し、分析等のために、再利用する需要がある。
【0008】
しかし、前記抽出、分析の対象となる単位要素は、ユーザが関心を持つことが推察される対象となる注目領域(特許文献1)、画像の中心に位置し、所定の大きさを有する代表文字列領域(特許文献2)に限定されるものではない。前記注目領域又は代表文字列領域以外の領域であっても、前記抽出、分析の対象となることがあり、このような対象については、前記従来技術では、依然として検索性が悪く、再利用に不向きであった。
【0009】
本発明は、上記課題を解消させるためのものであり、手書きの図形及び文字等、非デジタル手段によって生成された構造形式情報を個々の図形、文字群別に抽出し、効率的かつ的確に再利用可能とする構造形式情報再利用システムを提供することを目的とする。
【課題を解決するための手段】
【0010】
上記目的を達成させるために、本発明にかかる構造形式情報再利用システムは、一定の記載領域内で、手書きの文字及び図形等が所定のフレームワークに従って記載された構造形式情報を撮影してデジタル画像データを生成し、前記デジタル画像データからテキスト画像データと非テキストデータを画像認識によって抽出し、各々の記載領域と属性を判定するとともに、テキスト画像データを光学的に文字認識させてテキストデータとし、前記記載領域と属性からメタデータを自動付与し、メタデータが付与されたテキストデータと前記非テキストデータとを対応させて構造形式データとして保存し、これを前記メタデータによって検索することにより、前記構造形式データを読み出して表示させることを最も主要な特徴とする。
【0011】
すなわち、矩形の記載領域を有する黒板又は発表ボードに、少なくとも、一つ又は複数の異なる非テキスト情報と所定の取り決めによって前記非テキスト情報との関係で記載された複数の異なるテキスト情報とを構成要素として有し、記載方法がルール化された所定のフレームワークに従って非デジタル手段によって生成された構造形式情報を再利用可能とする構造形式情報再利用システムであって、
前記構造形式情報を撮影して、前記非テキスト情報から生成される非テキストデータと前記テキスト情報から生成されるテキスト画像データとを構成要素とするデジタル画像データを生成する生成手段と、
前記生成されたデジタル画像データから、前記テキスト画像データ及び非テキストデータを抽出し、抽出されたテキスト画像データ及び非テキストデータの領域及び属性を個々に判定する判定手段と、
前記判定されたテキスト画像データを光学的に読み取ってテキストデータを生成する読取手段と、
前記テキストデータ及び非テキストデータに対して前記判定された位置及び属性からメタデータを自動付与するメタデータ付与手段と、
前記付与されたメタデータとともに、前記非テキストデータと前記テキストデータとを対応させてパーツ化した構造形式データとして保存する保存手段と、
前記メタデータによって検索することにより、前記保存された構造形式データを読み出して、閲覧可能にする表示手段と、
前記デジタル画像データを前記検索された構造形式データによって加工する加工手段と、を有し、
前記加工手段は、前記構造形式データを前記デジタル画像データから分離し、非テキストデータのみ及びテキスト画像データのみのデータとし、少なくとも、いずれか一方のデータを加工したうえで、加工前の前記デジタル画像データの非テキストデータ及びテキスト画像データの位置に重畳させ、前記加工されたデジタル画像データを前記表示手段によって表示可能とする
ことを特徴とする。
【0012】
この構成によれば、手書きの図形及び文字群等から構成された構造形式情報を、個々の図形、文字群別のデータとして表示させて再利用することが可能となる。さらに、前記デジタル画像データの各構成要素を構造形式データとしてパーツ化し、加工可能とすることができる。
【0013】
なお、前記判定手段は、少なくとも、色、図形、記号のいずれかの画像認識及びデジタル画像データ上の座標位置によって前記非テキストデータを抽出するとともに、所定の情報密度によって前記テキスト画像データを抽出し、前記抽出された非テキストデータ及びテキスト画像データの単一又は組み合わせによってテキスト画像データの領域及び属性を判定するようにしてもよい。
【0014】
この構成によれば、非テキストデータとテキスト画像データとをより的確に区別して抽出することできる。
【0015】
また、前記判定手段は、前記非テキストデータを構成する個々の色、図形、記号を画像認識し、画像認識された個々の色、図形、記号によって前記領域及び属性を判定するとともに、前記抽出された複数の図形、記号、又は前記テキスト画像データの間を連接する図形又は記号については、前記複数の図形、記号、又は前記テキスト画像データの関係性を示す属性が判定されるようにしてもよい。
【0016】
この構成によれば、複数の図形等の関係に関する属性も判定可能になり、前記再利用に際して、より詳細な構造形式データを得ることができる。
【発明の効果】
【0017】
本発明にかかる構造形式情報再利用システムによれば、構造形式情報を対応関係にある非テキストデータとテキストデータを容易に読み出して表示し、閲覧可能とすることができるため、効率的かつ的確に前記再利用が可能になるという効果を奏する。
【図面の簡単な説明】
【0018】
【
図1】
図1は、本発明にかかる構造形式情報再利用システムのブロック構成図である。
【
図2】
図2は、構造形式情報の記載例を示した図である。
【
図3】
図3は、判定部で判定するオブジェクトのパターン例を示した図であり、(a)は、特定色で記載された文字、図形、(b)は、図形の中に記載された文字、(c)は、図形の近傍に記載された文字、(d)は、特定色を使用せず、かつ、図形と位置的な関係にない文字であって記号が混在するもの、(e)は、特定色を使用せず、かつ、図形と位置的な関係にない文字であって絵が混在するもの、を示した図である。
【
図4】
図4は、加工例を示した図であり、(a)は、撮影画像からテキスト画像データ以外の構成要素を抽出した図、(b)は、テキスト画像データのみを抽出した図、(c)は、加工した構成要素をデジタル画像データに重畳させた図である。を示した説明図である。
【
図5】
図5は、本発明にかかる構造形式情報再利用システムにかかる処理フロー例を示した図である。
【発明を実施するための形態】
【0019】
図1を参照して、1は、本発明にかかる構造形式情報再利用システムである。ここで、構造形式情報とは、典型的には、学校の授業における板書、発表ボードによるプレゼンテーションの記載など、所定領域内で、複数の図形や記号など、複数の異なる非テキスト情報と、所定の取り決めによって、前記非テキスト情報との関係で記載された手書きの文字など、複数の異なるテキスト情報を構成要素とし、所定のフレームワークに従って生成されたひとまとまりの情報をいう。すなわち、構造形式情報は、非デジタル手段によって生成された情報である。以下、本実施の形態では、前記板書を構造形式情報の例として説明するが、前記した通り、板書に限定する趣旨ではない。
【0020】
図1では、構造形式情報再利用システム1は、生成部11と、判定部12と、読取部13と、メタデータ付与部14と、保存部15と、表示部16と、加工処理部17とを構成要素として有するが、たとえば、加工
処理部17は、選択的な別機能としてもよい。また、構造形式情報再利用システム1は、
図1の構成をスタンドアローン式に備えた形態のほか、一部の構成をインターネット等の通信回線で接続し、分散した形態であってもよい(図示せず)。たとえば、後述するように、生成部11の一部とその他の構成要素を前記通信回線で接続する形態、保存部15を前記通信回線で接続する形態、等であるが、本発明の機能を損なわない限り、前記通信回線によって分散処理する構成要素は特定のものに限定する趣旨ではない。
【0021】
構造形式情報再利用システム1は、前記各構成要素の諸機能を発揮させる専用処理装置であってもよいが、中央処理装置(CPU)、メインメモリ、磁気ディスク、ディスプレイ、その他の周辺機器から構成されるパーソナルコンピュータをハードウェア構成の主体とすることが好適である。前記CPUは、主として前記各構成要素の動作を制御する。前記メインメモリは、前記CPUが実行する制御プログラムを格納し、CPUによるプログラム実行時の作業領域を提供する。前記磁気ディスクは、オペレーティングシステム、周辺機器のデバイスドライブ、本発明にかかる各種処理を行うプログラム(前記各構成要素の諸機能を具体的に実行するプログラム)を含む各種アプリケーションを格納する。なお、前記CPUの負荷を分散させるため、一部の構成要素は、当該構成要素の機能を専用的に制御するCPUを前記CPUとは別に有するようにしてもよい。
図1は、本発明にかかる構造形式情報再利用システム1の機能を説明するために、便宜上、特徴的な機能を有する構成要素のみを記載したものであり、前記CPU等の記載は省略している。
【0022】
生成部11は、前記構造形式情報を撮影して、前記非テキスト情報から生成される非テキストデータと前記テキスト情報から生成されるテキスト画像データとを構成要素とするデジタル画像データを生成する。ここで、テキスト画像データとは、いわゆるアナログ形式の前記テキスト情報をデジタル形式に変換したバイナリデータであるが、テキストとしては認識していない状態のものをいう。テキスト画像データは、後述する通り、読取部13によって文字認識され、テキストデータに変換される。
【0023】
生成部11の前記撮影は、デジタルカメラ等、前記構造形式情報を撮影してデジタル画像データを生成するものであればよい。デジタルカメラであれば、たとえば、前記パーソナルコンピュータの周辺機器として接続し、パーソナルコンピュータ本体に撮影したデジタル画像データを転送すればよい。また、いわゆるスマートフォンなど、デジタルカメラ機能と通信機能を併せ持つ機器であれば、撮影したがデジタル画像データを、前記通信回線を介して遠隔のパーソナルコンピュータに送信するようにしてもよい。
【0024】
生成部11は、デジタルカメラ等で撮影する場合、撮影する位置(角度)によって、前記デジタル画像データに歪みが生じる可能性があるため、撮影されたデジタル画像データの歪みを補正する補正部を併せて有する構成としてもよい(図示せず)。歪み補正は、公知の矩形補正によって行えばよい。すなわち、矩形(黒板)の4点の位置情報であるマーカを用い、撮影されたデジタル画像データから前記マーカを検出し、マーカをもとに、囲まれた矩形を幾何学変換すればよい。また、生成部11は、デジタル画像データに、黒板より外側の背景画像が含まれている場合、後述する判定部12の処理に支障を来すおそれがあるため、不要な背景部分を自動判別し、判別されたエリアを自動設定して切り抜くトリミング機能を併せ持つものであってもよい。
【0025】
なお、前記撮影の被写体となる構造形式情報の例を
図2に示す。
図2は、矩形(長方形)の記載領域を有する黒板に記載された板書Dを示したものである。教師が学校の授業で使用する黒板の記載手法は概ねルール化(構造化)されている。たとえば、1時間の授業は1枚の板書にまとめる、授業名、単元名、課題、まとめなどのヘッダが記載されている、チョークなど記載事項は目的に応じて色の使い分けがなされている(明度の高いものは注目させる事項に使用する、等)、生徒の意見は吹き出しなどの図形で囲む、矢印により、方向、順序、比較、関係、思考の流れを表現する、などである。
【0026】
板書Dは、ヘッダH1及びH2が、上部に貼付されている。ヘッダH1は、「課」の文字が記載されおり、授業の「課題」が記載されていることを示している。一方、ヘッダH2は、「ま」の文字が記載されており、授業の「まとめ」が記載されていることを示している。これらのヘッダH1、H2は、黒板に貼付できるシールなどから成り、授業に際し、予め準備されている。
【0027】
ヘッダH1に隣接する長方形の囲みE1は、課題を記載するために特定された色で記載されている(
図2では、図面の都合上、色に代えて一点鎖線で記載している)。また、ヘッダH2に隣接する長方形の囲みE2は、授業のまとめを記載するために特定された色で記載されている(前記同様、図面の都合上、色に代えて破線で記載している)。
【0028】
ヘッダH1、H2の下方には、相互の交差する横方向のラインL1、L2と縦方向のラインL3、L4によって、エリアA1、A2、A3、A4、A5及びA6が形成されている。エリアA1乃至A6には、ヘッダH1に記載された「課題」からヘッダH2に記載された「まとめ」に至るプロセスを所定のブロックに分けてテキスト情報が記載される。なお、テキスト情報のほか、A4、A5及びA6には、各々、テキスト情報を内包する吹き出し図形B1、B2及びB3が最下段に記載されている。たとえば、生徒の発言などを吹き出し図形B1、B2及びB3で特定する。さらに、エリアA4には絵F、エリアA5には写真P及び写真Pを黒板に止着させるマグネットM、エリアA6には、雲形図形C及び記号Qが記載され、エリアA5とエリアA6との間には、吹き出し図形B2と雲形図形Cとの関係を示す矢印Yが記載されている。
【0029】
図1に戻り、生成部11で生成されたデジタル画像データは、判定部12で、前記テキスト画像データ及び非テキストデータを抽出し、抽出されたテキスト画像データ及び非テキストデータの領域及び属性を個々に判定される。
【0030】
判定部12による前記抽出は、非テキストデータについては、少なくとも色、図形、記号のいずれかに対する画像認識及びデジタル画像データの座標位置によって抽出を行うようにすればよい。一方、テキスト画像データについては、情報密度を計測して位置を特定し、抽出すればよい。そして、前記抽出された非テキストデータ及びテキスト画像データの単一又は組み合わせによってテキスト画像データの領域及び属性を判定すればよい。
【0031】
具体的には、色については、たとえば、光の周波数のヒストグラムなどを取ることにより、使われている色数を推定し、それぞれの色のフィルターを通すことによって分類すればよい。また、図形については、オブジェクト(非テキストデータ)の輪郭を抽出し、背景から分離してパターン認識を行えばよい。すなわち、対象となる図形を表す数式を認識アルゴリズムの中に組み込み、入力した非テキストデータを特徴量データに変換し、前記認識アルゴリズムによって当該非テキストデータを判別するようにすればよい。なお、手書き図形の場合、形状にばらつきが生じるが、この場合は、前記認識アルゴリズムで特定される図形との特徴量の距離を計算して所望の結果を得るようにすればよい。さらに、テキスト画像データについては、たとえば、局所的に画素密度が高い箇所が、情報密度の高い箇所と認識させ、テキスト画像データが存在する箇所として特定し、抽出すればよい。
【0032】
以下、
図3により、判定部12で抽出するパターン例を説明する。
図3(a)は、特定色で記載された文字、図形である。文字、図形が、特定の色で記載されている場合には、特定色付文字、図形という属性を判定する。
図3(b)は、図形の中に記載された文字である。この場合は、図形の画像認識と前記座標位置により、抽出されたテキスト画像データの位置を算出し、文字を内包する図形という属性を判定する。
図3(c)は、図形の近傍に記載された文字である。この場合は、図形の画像認識と前記座標位置と、前記情報密度により、図形に近接した文字という属性を判定する。
図3(d)は、特定色を使用せず、かつ、図形と位置的な関係にない文字であって記号が混在するものである。この場合は、前記情報密度により、記号を含む文字という属性を判定する。
図3(e)は、特定色を使用せず、かつ、図形と位置的な関係にない文字であって絵が混在するものである。この場合も、前記情報密度により、絵を含む文字という属性を判定する。(なお、
図2で示すように、黒板に記載されたもののほか、写真Pなど、貼付されたものの画像データも取り込まれるが、これは前記絵として判別するようにすればよい。)
【0033】
なお、
図2の矢印Yのように、複数の前記抽出された複数の図形、記号、又は前記テキスト画像データの間を連接する図形又は記号については、前記複数の図形、記号、又は前記テキスト画像データの関係性を示す属性(「理由と結論」などの方向、順序)が判定される。
【0034】
図1に戻り、読取部13にて前記判定されたテキスト画像データを光学的に読み取ってテキストデータを生成する。具体的には、OCR(Optical Character Recognition)によってテキスト画像データから、文字切り出し、正規化、特徴抽出、マッチング等の処理を行ってテキストデータを生成すればよい。
【0035】
読取部13で生成されたテキストデータに対して、判定部12で判定された前記各属性から、メタデータ付与部14で関連する非テキストデータとともに、メタデータが自動的に付与される。
【0036】
メタデータ付与部14でメタデータを自動付与されたテキストデータ及び非テキストデータは対応付けられて構造形式データとして保存部15で保存される。
【0037】
保存部15で保存された構造形式データは、前記メタデータによって検索することにより、読み出され、表示部16で閲覧可能に表示される。
【0038】
さらに、加工処理部17によって、構造形式データを加工できるようにしてもよい。加工されたデジタル画像データは表示部16によって表示し、再利用に供される。すなわち、デジタル画像データの各構成要素を構造形式データとしてパーツ化し、加工可能としたものである。
【0039】
図4は、
図2の板書例をもとに、前記加工処理の例を示したものである。
図4(a)の板書D1は、
図2の板書Dから、構造形式データ(テキスト画像データ)を分離し、非テキストデータのみを残したものを示したものである。一方、
図4(b)は、
図4(a)とは逆に、構造形式データ(非テキストデータ)を分離し、テキスト画像データのみを残したものである。ここで、
図2の吹き出し図形B1乃至B3に着目すると、
図4(a)では、非テキストデータのみを残した吹き出し図形B11乃至B13となり、
図4(b)では、テキスト画像データのみを残した文字B21乃至B23になっている。そして、
図4(c)では、
図4(a)及び(b)で分離した構造形式データを加工したうえで、前記デジタル画像データに重畳させたものである。すなわち、吹き出し図形B31乃至B33は、図形内の文字部分を活字体のテキストデータとし、吹き出し図形B32については、テキストデータを「WXYZ」から「FGHIJ」に加工し、吹き出し図形B31及びB32については、図形部分も成形加工したものになっている。なお、本実施形態では、
図4(b)で示す通り、読取部13でテキストデータに生成前のテキスト画像データのままで前記分離しているが、前記説明の通り、先行して読取部13でテキスト画像データをテキストデータに変換してから、加工処理を行うようにしてもよい。
【0040】
このように、デジタル画像データを構造形式データ単位でパーツ化し、加工自在としたことで、構造形式情報の再利用の自由度が各段に拡張し、効果的な分析等の作業が可能となる。
【0041】
図5は、本発明にかかる構造形式情報再利用システムにかかる処理フロー例を示した図である。
【0042】
学校の授業において、板書等、非テキスト情報と前記非テキスト情報との関係で記載されたテキスト情報を構成要素とする構造形式情報の記載が終了すると(S1)、デジタルカメラ等、生成部11で前記構造形式情報を撮影する(S2)。撮影された画像の矩形補正等、補正の要否を判断し(S3)、必要な場合(S3のN)、前記矩形補正を施し(S4)、図形等の非テキストデータとテキスト画像データとを構成要素とするデジタル画像データを生成する(S5)。(前記補正が不要な場合(S3のY)は、そのままデジタル画像データを生成すればよい。)
【0043】
生成されたデジタル画像データから、判定部12で、デジタル画像データ及び非テキストデータを抽出し(S6)、抽出されたデジタル画像データ及び非テキストデータの記載されている領域及び属性を判定する(S7)。ここで、前記領域は、前記板書の記載領域を座標化して主に非テキストデータの位置を数値範囲で特定するものであり、前記属性は、テキスト画像データを色付きの文字、図形に内包されている文字など、所定の非テキストデータとの関係を示したものである。なお、色については、たとえば色センサを使用して特定し、図形については画像認識処理(パターン認識処理)によって特定するとともに、テキスト画像データは、情報密度によって特定すればよい。これらの特定手段を単独、又は組み合わせて前記属性を判定する。
【0044】
前記判定されたデータがテキスト画像データの場合(S8のN)、読取部13によってテキストデータ化の処理を行う。具体的には、OCRによる読取処理が行われる(S9)。
【0045】
前記判定された非テキストデータ(S8のY)及び前記読取処理後のテキストデータに対して、前記属性から、メタデータ付与部14によってメタデータが付与され(S10)、前記非テキストデータ及びテキストデータは、メタデータととともに、構造形式データとして保存部15に保存される(S11)。保存された構造形式データを前記メタデータによって検索し(S12)、表示部16に閲覧可能に表示させる(S13)。
【0046】
表示させた構造形式データについて、前記デジタル画像データの再利用にあたり、加工処理の要否を判断し、加工処理部17によって加工処理を要する場合(S14のN)、加工処理後(S15)、分析等再利用を行う。加工処理不要の場合は(S14のY)、前記表示されたものをそのまま分析等再利用すればよい。
【符号の説明】
【0047】
1 構造形式情報再利用システム
11 生成部
12 判定部
13 読取部
14 メタデータ付与部
15 保存部
16 表示部
17 加工処理部