IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧 ▶ 東芝エネルギーシステムズ株式会社の特許一覧

特開2024-130333図面文字処理システム、方法及びプログラム
<>
  • 特開-図面文字処理システム、方法及びプログラム 図1
  • 特開-図面文字処理システム、方法及びプログラム 図2
  • 特開-図面文字処理システム、方法及びプログラム 図3
  • 特開-図面文字処理システム、方法及びプログラム 図4
  • 特開-図面文字処理システム、方法及びプログラム 図5
  • 特開-図面文字処理システム、方法及びプログラム 図6
  • 特開-図面文字処理システム、方法及びプログラム 図7
  • 特開-図面文字処理システム、方法及びプログラム 図8
  • 特開-図面文字処理システム、方法及びプログラム 図9
  • 特開-図面文字処理システム、方法及びプログラム 図10
  • 特開-図面文字処理システム、方法及びプログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024130333
(43)【公開日】2024-09-30
(54)【発明の名称】図面文字処理システム、方法及びプログラム
(51)【国際特許分類】
   G06V 30/26 20220101AFI20240920BHJP
【FI】
G06V30/264
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2023039997
(22)【出願日】2023-03-14
(71)【出願人】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(71)【出願人】
【識別番号】317015294
【氏名又は名称】東芝エネルギーシステムズ株式会社
(74)【代理人】
【識別番号】110001380
【氏名又は名称】弁理士法人東京国際特許事務所
(72)【発明者】
【氏名】笹川 剛
(72)【発明者】
【氏名】高倉 啓
(72)【発明者】
【氏名】西村 達仁
【テーマコード(参考)】
5B064
【Fターム(参考)】
5B064AA10
5B064DA27
5B064EA27
5B064FA05
(57)【要約】
【課題】画像データからテキストとして抽出された文字列の誤変換を削減するとともに、そのような誤変換を的確に修正する図面文字処理技術を提供する。
【解決手段】図面文字処理システム10において、図面15の画像データ17から文字列18を認識しテキストデータ21に変換する認識部11と、テキストデータ21に基づいて文字列18の属性23を判定する判定部25と、属性23に基づき指摘されたテキストデータ21の誤変換を修正させる修正部27と、を備えている。
【選択図】図1
【特許請求の範囲】
【請求項1】
図面の画像データから文字列を認識しテキストデータに変換する認識部と、
前記テキストデータに基づいて前記文字列の属性を判定する判定部と、
前記属性に基づき指摘された前記テキストデータの誤変換を修正させる修正部と、を備える図面文字処理システム。
【請求項2】
請求項1に記載の図面文字処理システムにおいて、
前記テキストデータには、対応する前記文字列における前記図面の第1位置情報が付随しており、
前記画像データから前記図面の特徴要素を前記図面の第2位置情報とともに識別する識別部を有し、
前記判定部は、前記テキストデータに加え、さらに前記第1位置情報、前記特徴要素及び前記第2位置情報にも基づいて前記属性を判定し、
各々の前記属性につき別々に設定され、前記誤変換の修正に適用する表現パターンを保持する保持部を有する図面文字処理システム。
【請求項3】
請求項2に記載の図面文字処理システムにおいて、
前記テキストデータと前記属性との関係を機械学習した学習モデルを前記表現パターンとして生成する機械学習部を備える図面文字処理システム。
【請求項4】
請求項1から請求項3のいずれか1項に記載の図面文字処理システムにおいて、
的確に変換された前記テキストデータ及び前記誤変換を修正した前記テキストデータを対応する前記画像データに関連付けして登録する登録部を備える図面文字処理システム。
【請求項5】
請求項1から請求項3のいずれか1項に記載の図面文字処理システムにおいて、
前記テキストデータを、前記図面の対応する前記文字列の位置に埋め込んで表示する表示部を備える図面文字処理システム。
【請求項6】
請求項1から請求項3のいずれか1項に記載の図面文字処理システムにおいて、
正常変換された前記テキストデータ及び前記誤変換を修正した前記テキストデータと前記画像データの前記文字列との整合性を確認する確認部を備える図面文字処理システム。
【請求項7】
図面の画像データから文字列を認識しテキストデータに変換するステップと、
前記テキストデータに基づいて前記文字列の属性を判定するステップと、
前記属性に基づき指摘された前記テキストデータの誤変換を修正させるステップと、を含む図面文字処理方法。
【請求項8】
コンピュータに、
図面の画像データから文字列を認識しテキストデータに変換するステップ、
前記テキストデータに基づいて前記文字列の属性を判定するステップ、
前記属性に基づき指摘された前記テキストデータの誤変換を修正させるステップ、を実行させる図面文字処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、画像データの文字列をテキスト化し抽出する図面文字処理技術に関する。
【背景技術】
【0002】
近年、プラントや製造、建設分野で用いられている図面のデジタル化が進められている。図面中に記載されている設計情報をデータベースに登録することによって、機器や詳細スペック等の情報の検索や、過去のデータの参照等が容易になる。さらに、保全活動や設計業務への活用が期待されている。
【0003】
ところで、過去に作成された図面の多くは、紙や画像データ形式で保存されている。このため紙や画像データ形式の図面中に記載されている設計情報をデジタル化するためには、光学文字認識(以下、OCR(Optical Character Recognition)という)処理を行って画像データの文字列をテキストデータに変換し抽出する必要がある。
【0004】
OCR処理による紙の文書の文字認識の精度は近年向上している。しかし、図面の場合は文字の記載位置が不定で、また専門の用語や型番等の単語が含まれているため、図面の文字認識精度には課題が残されている。そのため、ユーザによって、OCR処理された文字の認識結果と図面に記入された文字の画像データとを目視で確認し、誤読があった場合、OCR処理された文字を正しく修正することが必要である。
【0005】
さらに図面の場合は、前述したデータ活用の観点で、文字を読み取るだけではなく読み取った文字に対して属性を付与しておく必要がある。例えば回路図面中の文字”XY-111”に対しては“コンデンサ型番”といった属性を付与する必要がある。従来はユーザが読み取った文字を確認して手動で属性を付与しており、作業負荷の軽減が課題であった。
【0006】
文字読み取り結果の修正に関する公知技術として以下のような技術がある。すなわち、文字読み取り結果の確認作業および補正作業の処理時間を低減することを目的として、データベース内に用意した真値の文字パターンや誤変換候補の文字パターンを文字認識結果と照合することによって、文字認識結果の誤りを修正する技術がある。また、文書データの単語の特徴から文書のカテゴリを推定し、カテゴリに応じた辞書(真値の文字パターン群)を適用することで、文書データ中の単語の誤りを高精度に修正する技術がある。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2021-022261号公報
【特許文献2】特開2008-225695号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
上述の公知技術では、データベース内に用意した真値の文字パターンや誤変換候補の文字パターンと文字認識結果とを照合することで、文字の誤りを効果的に修正する。また、他の公知技術では、文書データのカテゴリに応じて辞書を変更することで、認識した文字の誤りを高精度に修正する。
【0009】
しかし、上述の公知技術において、例えば図面上に記載された機器番号などの1文字だけ異なる似通った英数字に対しては、文字パターンとの照合のみでは誤りの修正が困難な場合がある。また、上述の他の公知技術においては、文書データ中の単語の特徴から文書データのカテゴリを推定するが、図面上の文字は文書ではないことが多く、図面上の文字に対するカテゴリ推定は困難である。その結果、図面の文字認識結果の誤りをうまく修正することができない。
【0010】
本発明の実施形態はこのような事情を考慮してなされたもので、画像データからテキストとして抽出された文字列の誤変換を削減するとともに、そのような誤変換を的確に修正する図面文字処理技術を提供することを目的とする。
【課題を解決するための手段】
【0011】
実施形態に係る図面文字処理システムにおいて、図面の画像データから文字列を認識しテキストデータに変換する認識部と、前記テキストデータに基づいて前記文字列の属性を判定する判定部と、前記属性に基づき指摘された前記テキストデータの誤変換を修正させる修正部と、を備える。
【発明の効果】
【0012】
本発明の実施形態により、画像データからテキストとして抽出された文字列の誤変換を削減するとともに、そのような誤変換を的確に修正する図面文字処理技術が提供される。
【図面の簡単な説明】
【0013】
図1】本発明の第1実施形態に係る図面文字処理システムの構成を示すブロック図。
図2】(A)各実施形態に適用される図面の画像データを示す電気回路図、(B)画像データにおいて認識された文字列の領域を示す図。
図3】第1実施形態における属性の判定部及びテキストデータの修正部の内部処理を説明するテーブル。
図4】各実施形態における修正部及び表示部の説明図。
図5】第2実施形態に係る図面文字処理システムの構成を示すブロック図。
図6】第2実施形態において画像データで認識された特徴要素の領域を示す図。
図7】第2実施形態における属性の判定部及びテキストデータの修正部の内部処理を説明するテーブル。
図8】(A)第2実施形態に適用される図面の画像データを示す電気回路図、(B)画像データにおいて認識された文字列の領域を示す図、(C)画像データにおいて認識された特徴要素の領域を示す図。
図9】第3実施形態に係る図面文字処理システムの構成を示すブロック図。
図10】第3実施形態における属性の判定部及びテキストデータの修正部の内部処理を説明するテーブル。
図11】各実施形態に係る図面文字処理方法の工程及び図面文字処理プログラムのアルゴリズムを説明するフローチャート。
【発明を実施するための形態】
【0014】
(第1実施形態)
以下、本発明の実施形態を添付図面に基づいて説明する。図1は本発明の第1実施形態に係る図面文字処理システム10A(10)の構成を示すブロック図である。図2(A)は各実施形態に適用される図面15の画像データ17a(17)を示す電気回路図である。図2(B)は画像データ17において認識された文字列18(18a~18f)の領域(破線部)を示す図である。
【0015】
このように図面文字処理システム10Aは、図面15の画像データ17から文字列18(18a~18f)を認識しテキストデータ21に変換する認識部11と、テキストデータ21に基づいて文字列18の属性23を判定する判定部25と、属性23に基づき指摘されたテキストデータ21の誤変換を修正させる修正部27と、を備えている。
【0016】
図面15は紙形式のものであれば、予めイメージスキャナ16等で画像データ17に変換される。認識部11は、この画像データ17に記載されている設計情報をデジタル化するために、光学文字認識(OCR)処理により認識した文字列18(18a~18f)をテキストデータ21に変換する。なおOCR処理により変換されたテキストデータ21は、図面15に記載されている文字列18が不鮮明であったりすると、部分的に文字が誤変換される場合がある。
【0017】
画像データ17(図面15)に記載されている文字列18は、電気仕様、機器・盤番号、接点・コイル名称、系統名称等のように設計情報を分類した属性23のいずれかに属している。そして文字列18の表現パターンは、そのような設計情報の属性毎に定型化されているのが一般的である。
【0018】
このため、判定部25は、部分的な誤変換の有無にかかわらず、テキストデータ21の表現パターンに基づいて文字列18の属性23を判定できる。さらに修正部27は、属性23に固有の表現パターンに基づいて、誤変換されたテキストデータ21を修正できる。
【0019】
図3は第1実施形態における属性23の判定部25及びテキストデータ21の修正部27の内部処理を説明するテーブルである。本実施形態において図面15は、例えば図2(A)に示すように、電気回路の情報が記された回路図面を想定している。図面15上の文字は、電気回路の電気仕様「100V HV」、回路図の機器・盤番号「A000-B11-C」、回路記号の接点・コイル名称「S1、S2、LL2」、機器の系統名称「排気放射線モニタ」などが記載されている。
【0020】
この図面15にOCR処理を適用すると、図2(B)に示すように、文字列18がテキストデータ21に変換され、画像データ17の座標領域とともに抽出される。ところで変換後のテキストデータ21は、図3に示すように例えば「100V HV」を「10oV HV」のように誤変換して抽出するなど、部分的に誤字が含まれている場合がある。
【0021】
図4は各実施形態におけるテキストデータ21の修正部27及び表示部28の説明図である(適宜、図1参照)。図1の修正部27では、誤変換したテキストデータ21の修正手段としてマニュアルによる入力手段26を利用するが、後述する表現パターン35を利用してもよい。
【0022】
表示部28は、適格に変換又は修正されたテキストデータ21を、図面15の対応する文字列18の位置に埋め込んで表示する。修正部27において修正されたテキストデータ21は、表示部28において画像データ17とともに表示され、ユーザが整合性をチェックする。図4の右列のセル29には、文字列18を変換したテキストデータ21が表示結果として示されている。
【0023】
なお、このセル29においてテキストデータ21を入力することで文字列18を修正することができる。また、画像データ17とともに表示されるセル29には、図示されるテキストデータ21の表示結果だけでなく、その属性23を表示させることもできる。さらに表示部28に表示される図面15に記載されている文字列18と変換されたテキストデータ21との対応関係を容易にユーザが視認できるように、字体を太文字にしたり色を変えたり枠で囲んだりする等なされる。また表示される属性23に関し、文字判定の精度(信頼度)が低い結果については強調表示するようにしてもよい。
【0024】
第1実施形態によれば、図面15の文字列18に基づいて関連する特徴要素22(図6)の属性23を自動判定することとした。これにより、文字列18からテキストデータ21を誤変換した場合であっても、その修正を的確に実施できる。
【0025】
(第2実施形態)
次に図5から図8を参照して本発明における第2実施形態について説明する。図5は第2実施形態に係る図面文字処理システム10B(10)の構成を示すブロック図である。図6は第2実施形態において画像データ17で認識された特徴要素22(22a~22e)の領域を示す図である。
【0026】
第2実施形態の図面文字処理システム10B(図5)は、上述した第1実施形態の図面文字処理システム10A(図1)の構成に特徴要素22の識別部12をさらに追加した構成をとる。なお、図3において図1と共通の構成又は機能を有する部分は、同一符号で示し、重複する説明を省略する。
【0027】
第2実施形態の図面文字処理システム10Bにおいて、テキストデータ21には、対応する文字列18における図面15の第1位置情報31が付随している。そして、画像データ17から図面15の特徴要素22(22a~22e)を図面15の第2位置情報32とともに識別する識別部12を有している。さらに判定部25は、テキストデータ21に加えてさらに第1位置情報31、特徴要素22及び第2位置情報32にも基づいてテキストデータ21の属性23を判定する。そして、各々の属性23につき別々に設定され、誤変換の修正に適用する表現パターン35を保持する保持部を有している。
【0028】
図8(A)は第2実施形態に適用される図面15の画像データ17b(17)を示す電気回路図である。図8(B)は画像データ17bにおいて認識された文字列18(18g~18i)の領域を示す図である。図8(C)は画像データ17bにおいて認識された特徴要素22(22f~22i)の領域を示す図である。
【0029】
図5に戻って説明を続ける。第2実施形態の認識部11は、文字列18を変換したテキストデータ21に第1位置情報31を付随させて出力する。ここで第1位置情報31とは、図面15において認識された文字列18の領域に対応する画像データ17の座標領域である。
【0030】
第2実施形態の識別部12は、画像データ17から図面15の特徴要素22を図面15における第2位置情報32とともに識別する。ここで第2位置情報32とは、図面15において認識された特徴要素22の領域に対応する画像データ17の座標領域である。
【0031】
図6及び図8に示すように、図面15(画像データ17)の特徴要素22は、回路記号や配線、配管等が挙げられ、スカラー表記されている場合であっても、ベクトルで表記されている場合であってもよい。
【0032】
第2実施形態の判定部25(図5)は、第1実施形態におけるテキストデータ21に加え、さらに第1位置情報31、特徴要素22及び第2位置情報32にも基づいて属性23を判定する。そして第2実施形態の修正部27は、第1実施形態における属性23に加え、さらに属性23に固有の表現パターン35にも基づきテキストデータ21の誤変換を修正する。
【0033】
ここで表現パターン35は、特徴要素22を識別する文字列18に使用する文字の種類や配列を、属性23の各々に対し固有に規定したものである。表現パターン35は、それぞれの属性23について保持部(図示略)に保持されている。これにより第2実施形態では、テキストデータ21の誤変換を高精度で認識し、さらに正確に修正することが可能になる。
【0034】
図7は第2実施形態における属性23の判定部25及びテキストデータ21の修正部27の内部処理を説明するテーブルである。第2実施形態では、例えば図8(A)に示すように、配管回路の情報が記された回路図面を想定している。図8(B)に示すように、図面15上の文字列18(18g,18h,18i,18j)は、配管回路のポンプ仕様「XYZポンプ」、機器名称「AA電動ポンプ」、配管仕様「100A」などが記載されている。そして図8(C)に示すように、図面15上の特徴要素22(22f,22g,22h,22i)などが記載されている。
【0035】
第2実施形態の図面文字処理システム10Bは、適格に変換されたテキストデータ21及び誤変換を修正したテキストデータ21を対応する画像データ17に関連付けして登録する登録部36を備えている。この登録部36には、図7に示すように図面15上の文字列18、変換後のテキストデータ21、その属性23及び修正後のテキストデータ21が互いに関連付けられデータベースとして保存されている。
【0036】
このように登録部36では、テキストデータ21及びその属性23が、図面15の画像データ17に関連付けてデータベース化されている。これによりテキストデータ21及び属性23をキーとしてデータベースで図面15の探索や管理が行えるようになり利便性が向上する。なお本実施形態では図面15について、電気回路や配管回路を説明したが、これ以外にも建設図面や装置や構造物の設計図など任意の図面について適用できる。
【0037】
(第3実施形態)
次に図9から図10を参照して本発明における第3実施形態について説明する。図9は第3実施形態に係る図面文字処理システム10Cの構成を示すブロック図である。図10は第3実施形態における属性23の判定部25及びテキストデータ21の修正部27の内部処理を説明するテーブルである。第3実施形態の図面文字処理システム10Cは、上述した第1実施形態又は第2実施形態の構成に機械学習部45及び/又は確認部46をさらに追加した構成をとる。なお、図9において図1又は図5と共通の構成又は機能を有する部分は、同一符号で示し、重複する説明を省略する。
【0038】
図10に示すように、第3実施形態における表現パターン35は、属性23のそれぞれに対応させて、機械学習、正規表現パターン、誤変換パターン、用語辞書等が割り当てられる。つまり、判定部25における属性23の結果に応じて、最適な表現パターン35が適用され、テキストデータ21が的確に変換されたか誤変換されたかが判断される。これにより、文字列18の誤変換と修正を効果的に行うことができる。
【0039】
正規表現パターンによる誤変換の検出は、文字の表記形態にパターン性がある場合に有効である。例えば機器・盤番号を示す文字列18である「A000-B11-C」を誤って「A000-B11-0」とテキストデータ21に変換したとする。機器・盤番号の文字の規則性として末尾の1文字は必ず英字となる場合、該当する正規表現パターンを適用することで末尾文字の数字「0」を誤変換と判断できる。
【0040】
誤変換パターンによる誤変換の検出は、過去に同一の文字を誤って変換した場合に有効である。例えば過去にOCR処理によって「S1」を誤って「SI」と変換したことがある場合、誤変換「SI」と真値の文字「S1」とを紐づける。そして、両者を誤変換パターンとして保存することで、誤変換「SI」を真値「S1」に置換し、誤変換「I」を「1」に修正できる。
【0041】
用語辞書による誤変換の検出は、図面上の文字が単語として表現されている場合に有効である。例えば機器名称を示す「放射線モニタ」を誤って「放射線モヨタ」と認識し抽出した場合、誤った箇所は同じ片仮名表記である。このため、正規表現パターンによってこの文字列の誤変換を検出することは困難といえる。しかし、用語辞書で予め「放射線モニタ」を用意し、文字列18の「放射線モヨタ」を照合することでに修正し、誤変換「ヨ」を「ニ」の修正できる。なお、用語辞書と文字列18の照合には、例えば1文字ごとに挿入、削除、置換の処理を行い、その処理回数によって両者の類似度を判定する編集距離を用いてもよい。
【0042】
機械学習部45は、テキストデータ21と属性23との関係を機械学習した学習モデルを表現パターン35として生成することができる。深層学習では、学習画像上における物体のクラス分類と物体の位置検出を行う物体検出手法等の各種手法を適用する。予め回路図面15上の文字列18の領域に対して属性23(例えば、電気仕様、機器・盤番号、接点・コイル名称、系統名称などの種類)を与える。そして、これらと画像データ17の特徴との対応関係を学習させた学習済みの物体検出モデル(学習モデル)を準備する。この学習モデルに対し、画像データ17を入力すると、実質的に認識部11、識別部12、判定部及び修正部27の機能が実行され、的確に変換されたテキストデータ21及び属性23が登録部36に登録される。
【0043】
なお、機械学習部45による処理方法では、例えば図面15の文字が2文字以上の場合、予め文字同士の関係性を学習した言語処理モデルを用いることで、誤変換の特定と修正を行える。言語処理モデルは例えば、BERT(Bidirectional Encoder Representations from Transformers)やRoBERTa、ELECTRAなどトランスフォーマ及び同種のネットワークを基本として構成されている言語表現モデルがあり、また他の言語処理モデルを用いても良い。
【0044】
BERTの場合、テキストデータ21の一部をマスクし、マスクした文字と前後関係にある文字の情報からマスクした文字を予測する機構を備えている。1字ごとにマスクすることによって、予測した文字候補の上位n個に誤りが含まれているかどうかを判定することによって、誤変換の特定と修正が可能である。例えば、電気仕様を示す「100V HV」を「10o HV」と誤変換した場合、「1」「0」「o」「H」「V」の文字同士の関係性に基づいて、「o」が誤変換であることを判定することが可能であり、「o」に当てはまる文字を「0」を予測することで誤変換の修正が可能である。なお、いくつかの処理方法を例示したが、これらに限定されるものではなく、任意の言語処理に係る処理方法を利用してテキストデータ21の誤変換の修正を行ってもよい。
【0045】
確認部46は、的確に変換されたテキストデータ21及び誤変換を修正したテキストデータ21と画像データ17の文字列18との整合性を確認する。修正部27でテキストデータ21を修正後、確認部46において画像データ17を参照し抽出した文字列18との整合性をユーザが入力手段26を介してチェックする。
【0046】
具体的には、表示部(図示略)の画面上に、画像データ17とテキストデータ21を表示し、認識結果を目視で確認し、誤り箇所がある場合は修正する。なお画面上の画像データ17に記載されている文字列18と、認識したテキストデータ21との対応関係をユーザが容易に視認できるように、図面上に記載されている文字は太文字や色変え、枠で囲む等の表示がなされている。また表示される認識結果についても、修正部27にて修正された箇所は赤文字等で強調表示される。またOCR処理の精度(信頼度)が低い文字認識結果についても青文字で強調される。
【0047】
確認部46で改めて修正されたテキストデータ21は、画像データ17の文字列18に紐付けられ登録部36のデータベースに登録される。例えば、図2に示す回路図面15は、「100V HV」、「A000-B11-C」、「S1」、「S2」、「LL2」、「放射線モニタ」を紐づけることで、図面15の回路情報を定義し、データベース内で参照できる。また図面15の文字列18の領域にテキストデータ21を埋め込んで画像データ17を出力することもできる。なお本実施形態では図面15について、電気回路や配管回路を説明したが、これ以外にも建設図面や装置や構造物の設計図など任意の図面について適用できる。
【0048】
図11のフローチャートに基づいて各実施形態に係る図面文字処理方法の工程及び図面文字処理プログラムのアルゴリズムを説明する(適宜、図1図5図9参照)。まず、図面15が紙図面等であれば、イメージスキャナ16等を利用して、画像データ17を取得する(S11)。
【0049】
次に画像データ17から文字列18の領域を認識する(S12)。そして認識した文字列18の領域をテキストデータ21に変換する(S13)。そして、必要に応じて図面15における文字列18の第1位置情報31もテキストデータ21に付随させる(S14)。さらに必要に応じて、画像データ17から図面15の特徴要素22を識別する(S15)。そして図面15における特徴要素22の第2位置情報32も識別する(S16)。なお(S14)~(S15)をジャンプして省略することもできる(第1実施形態)。
【0050】
次に、少なくともテキストデータ21、必要に応じて第1位置情報31、特徴要素22及び第2位置情報32にも基づいて文字列18の属性23を判定する(S17)。そして、この属性23に基づきテキストデータ21の変換妥当性を確認する(S18)。
【0051】
次に、テキストデータ21の誤変換が指摘された場合は(S19 Yes)、属性23に基づいて、必要に応じて表現パターン35を参照して、この誤変換を修正する(S20)。そして、テキストデータ21の誤変換が指摘されなくなった場合は(S19 No)、必要に応じてユーザ確認を実施し(S21)、テキストデータ21及び属性23を画像データ17に紐付けて登録する(S22、END)。
【0052】
以上述べた少なくともひとつの実施形態の図面文字処理システムによれば、図面の画像データから認識される文字列を変換したテキストデータに基づいてこの文字列の属性を判定する。そしてこの属性に基づいてテキストデータの誤変換を修正することにより、画像データの文字列の誤変換を削減するとともにそのような誤変換を的確に修正することができる。
【0053】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更、組み合わせを行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【0054】
以上説明した図面文字処理システムは、専用のチップ、FPGA(Field Programmable Gate Array)、GPU(Graphics Processing Unit)、又はCPU(Central Processing Unit)などのプロセッサを高集積化させた制御装置と、ROM(Read Only Memory)やRAM(Random Access Memory)などの記憶装置と、HDD(Hard Disk Drive)やSSD(Solid State Drive)などの外部記憶装置と、ディスプレイなどの表示装置と、マウスやキーボードなどの入力装置と、通信I/Fとを、備えており、通常のコンピュータを利用したハードウェア構成で実現できる。このため図面文字処理システムの構成要素は、コンピュータのプロセッサで実現することも可能であり、図面文字処理プログラムにより動作させることが可能である
【0055】
また図面文字処理プログラムは、ROM等に予め組み込んで提供される。もしくは、このプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM、CD-R、メモリカード、DVD、フレキシブルディスク(FD)等のコンピュータで読み取り可能な記憶媒体に記憶されて提供するようにしてもよい。
【0056】
また、本実施形態に係る図面文字処理プログラムは、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせて提供するようにしてもよい。また、図面文字処理システムは、構成要素の各機能を独立して発揮する別々のモジュールを、ネットワーク又は専用線で相互に接続し、組み合わせて構成することもできる。
【符号の説明】
【0057】
10(10A,10B,10C)…図面文字処理システム、11…認識部、12…識別部、15…図面、16…イメージスキャナ、17(17a,17b)…画像データ、18(18a,18b,18c,18d,18e,18f,18g,18h,18i,18j)…文字列、21…テキストデータ、22(22a,22b,22c,22d,22e,22f,22g,22h,22i)…特徴要素、23…属性、25…判定部、26…入力手段、27…修正部、28…表示部、29…セル、31…第1位置情報、32…第2位置情報、35…表現パターン、36…登録部、45…機械学習部、46…確認部。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11