IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 三菱電機株式会社の特許一覧

特許7634735文字欠け特定装置、文字欠け特定方法及び文字欠け特定プログラム
<>
  • 特許-文字欠け特定装置、文字欠け特定方法及び文字欠け特定プログラム 図1
  • 特許-文字欠け特定装置、文字欠け特定方法及び文字欠け特定プログラム 図2
  • 特許-文字欠け特定装置、文字欠け特定方法及び文字欠け特定プログラム 図3
  • 特許-文字欠け特定装置、文字欠け特定方法及び文字欠け特定プログラム 図4
  • 特許-文字欠け特定装置、文字欠け特定方法及び文字欠け特定プログラム 図5
  • 特許-文字欠け特定装置、文字欠け特定方法及び文字欠け特定プログラム 図6
  • 特許-文字欠け特定装置、文字欠け特定方法及び文字欠け特定プログラム 図7
  • 特許-文字欠け特定装置、文字欠け特定方法及び文字欠け特定プログラム 図8
  • 特許-文字欠け特定装置、文字欠け特定方法及び文字欠け特定プログラム 図9
  • 特許-文字欠け特定装置、文字欠け特定方法及び文字欠け特定プログラム 図10
  • 特許-文字欠け特定装置、文字欠け特定方法及び文字欠け特定プログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2025-02-13
(45)【発行日】2025-02-21
(54)【発明の名称】文字欠け特定装置、文字欠け特定方法及び文字欠け特定プログラム
(51)【国際特許分類】
   G06V 30/14 20220101AFI20250214BHJP
   G06F 3/0481 20220101ALI20250214BHJP
【FI】
G06V30/14
G06F3/0481
【請求項の数】 10
(21)【出願番号】P 2024005735
(22)【出願日】2024-01-18
【審査請求日】2024-01-18
(73)【特許権者】
【識別番号】000006013
【氏名又は名称】三菱電機株式会社
(74)【代理人】
【識別番号】110002491
【氏名又は名称】弁理士法人クロスボーダー特許事務所
(72)【発明者】
【氏名】福嶋 雅仁
【審査官】橋爪 正樹
(56)【参考文献】
【文献】特開平09-185726(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/00 -30/424
G06T 11/60 -11/80
G06F 3/048- 3/04895
(57)【特許請求の範囲】
【請求項1】
入力表データにおける文字が入力されたセルの罫線に第1色を設定し、前記文字に前記第1色とは異なる第2色を設定して色付表データを生成する色設定部と、
前記色設定部によって生成された前記色付表データを形式変換した変換データにおいて、前記第1色の画素と前記第2色の画素との距離に基づいて前記文字が欠ける可能性がある欠損箇所を特定する欠損特定部と
を備える文字欠け特定装置。
【請求項2】
前記欠損特定部は、前記第1色の画素と前記第2色の画素と間に基準画素以内の数の素を挟んで隣接する隣接部分を、前記欠損箇所として特定する
請求項1に記載の文字欠け特定装置。
【請求項3】
前記文字欠け特定装置は、さらに、
前記変換データにおける前記文字のエッジ部分であって、前記第2色と背景色との間の中間色で平滑化されたエッジ部分を、前記背景色に補正する色補正部
を備え、
前記欠損特定部は、前記色補正部によって補正された前記変換データにおいて、前記欠損箇所を特定する
請求項1に記載の文字欠け特定装置。
【請求項4】
前記文字欠け特定装置は、さらに、
前記変換データにおいて、横方向又は縦方向に前記第1色の画素が基準数以上連続する部分を前記罫線として特定する罫線特定部
を備え、
前記欠損特定部は、前記罫線特定部によって特定された前記罫線を表す前記第1色の画素と前記第2色の画素と間に基準画素以内の数の素を挟んで隣接する隣接部分を、前記欠損箇所として特定する
請求項1に記載の文字欠け特定装置。
【請求項5】
前記文字欠け特定装置は、さらに、
前記欠損特定部によって特定された前記欠損箇所を前記変換データに示して表示する表示制御部
を備える請求項1に記載の文字欠け特定装置。
【請求項6】
前記文字欠け特定装置は、さらに、
前記変換データに含まれる文字である印字文字を取得する印字文字取得部と、
前記入力表データに含まれる文字である表文字を取得する表文字取得部と、
前記印字文字取得部によって取得された前記印字文字と、前記表文字取得部によって取得された前記表文字との間の差異を特定する差異特定部と
を備える請求項1に記載の文字欠け特定装置。
【請求項7】
前記差異特定部は、前記表文字にあって前記印字文字にない欠落文字を特定し、前記入力表データにおいて前記欠落文字が含まれるセルを特定する
請求項6に記載の文字欠け特定装置。
【請求項8】
前記差異特定部は、前記差異が特定された場合には、前記入力表データにおける文字が入力された各セルを対象のセルとして、前記対象のセルの文字を文章解析モデルに入力して、前記対象のセルの文字が文章として成立しているか否かを判定する
請求項6に記載の文字欠け特定装置。
【請求項9】
コンピュータが、入力表データにおける文字が入力されたセルの罫線に第1色を設定し、前記文字に前記第1色とは異なる第2色を設定して色付表データを生成し、
コンピュータが、前記色付表データを形式変換した変換データにおいて、前記第1色の画素と前記第2色の画素との距離に基づいて前記文字が欠ける可能性がある欠損箇所を特定する文字欠け特定方法。
【請求項10】
入力表データにおける文字が入力されたセルの罫線に第1色を設定し、前記文字に前記第1色とは異なる第2色を設定して色付表データを生成する色設定処理と、
前記色設定処理によって生成された前記色付表データを形式変換した変換データにおいて、前記第1色の画素と前記第2色の画素との距離に基づいて前記文字が欠ける可能性がある欠損箇所を特定する欠損特定処理と
を行う文字欠け特定装置としてコンピュータを機能させる文字欠け特定プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、表データを印字イメージデータ等に形式変換した場合に欠けてしまう可能性がある文字を特定する技術に関する。
【背景技術】
【0002】
表計算ソフトウェア等で作成された表データは、印字イメージデータ形式と画面表示形式といった形式に形式変換すると、セル内に入力された文字が欠けてしまうことがある。文字の欠けを人手で特定するのは手間がかかる。
【0003】
特許文献1には、UI部品に表示する文字列の表示領域がUI部品の表示領域を超えてしまい表示が崩れることがないか検証する技術が記載されている。UIは、User Interfaceの略である。特許文献1では、(1)(2)のいずれかである場合に、表示が崩れると判定している。(1)文字列の表示領域とUI部品の表示領域のエッジ部分とが交差する。(2)UIの設計データにおける文字列と実際に表示された文字列とが一致しない。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2019-105910号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1の方法では、文字の一部が欠けてしまうことを特定することができない可能性がある。
例えば、セルの高さが不足しており、一部の文字の上側又は下側が少し欠けてしまう場合がある。このような場合には、特許文献1の(1)(2)を行っても表示が崩れるとは判定されない可能性がある。具体的には、(1)については、セルをUI部品の表示領域と仮定すると、文字の表示領域はセルの内部だけであり、文字の表示領域とUI部品の表示領域のエッジ部分とは交差しないと判定される。(2)については、文字の一部が欠けていても文字認識が正しくされてしまうと、UIの設計データにおける文字列と実際に表示された文字列とが一致すると判定されてしまう。
【0006】
本開示は、形式変換した場合に文字の一部が欠けてしまう可能性がある個所を特定可能にすることを目的とする。
【課題を解決するための手段】
【0007】
本開示に係る文字欠け特定装置は、
入力表データにおける文字が入力されたセルの罫線に第1色を設定し、前記文字に前記第1色とは異なる第2色を設定して色付表データを生成する色設定部と、
前記色設定部によって生成された前記色付表データを形式変換した変換データにおいて、前記第1色の画素と前記第2色の画素との距離に基づいて前記文字が欠ける可能性がある欠損箇所を特定する欠損特定部と
を備える。
【発明の効果】
【0008】
本開示では、セルの罫線と文字とに異なる色を付けておき、これらの色の画素の距離に基づいて文字が欠ける可能性がある欠損箇所を特定する。これにより、文字の一部が欠けてしまう可能性がある個所を特定可能である。
【図面の簡単な説明】
【0009】
図1】実施の形態1に係る文字欠け特定装置10の構成図。
図2】実施の形態1に係る文字欠け特定装置10の処理のフローチャート。
図3】実施の形態1に係る文字欠け特定装置10の処理の説明図。
図4】実施の形態1に係る色補正処理の説明図。
図5】実施の形態1に係る罫線特定処理の説明図。
図6】実施の形態1に係る欠損特定処理の説明図。
図7】実施の形態1に係る表示制御処理の説明図。
図8】実施の形態2に係る文字欠け特定装置10の構成図。
図9】実施の形態2に係る文字欠け特定装置10の処理のフローチャート。
図10】実施の形態2に係る文字欠け特定装置10の処理の説明図。
図11】実施の形態2に係る欠落文字38の説明図。
【発明を実施するための形態】
【0010】
実施の形態1.
***構成の説明***
図1を参照して、実施の形態1に係る文字欠け特定装置10の構成を説明する。
文字欠け特定装置10は、コンピュータである。
文字欠け特定装置10は、プロセッサ11と、メモリ12と、ストレージ13と、通信インタフェース14とのハードウェアを備える。プロセッサ11は、信号線を介して他のハードウェアと接続され、これら他のハードウェアを制御する。
【0011】
プロセッサ11は、プロセッシングを行うICである。ICはIntegrated Circuitの略である。プロセッサ11は、具体例としては、CPU、DSP、GPUである。CPUは、Central Processing Unitの略である。DSPは、Digital Signal Processorの略である。GPUは、Graphics Processing Unitの略である。
【0012】
メモリ12は、データを一時的に記憶する記憶装置である。メモリ12は、具体例としては、SRAM、DRAMである。SRAMは、Static Random Access Memoryの略である。DRAMは、Dynamic Random Access Memoryの略である。
【0013】
ストレージ13は、データを保管する記憶装置である。ストレージ13は、具体例としては、HDDである。HDDは、Hard Disk Driveの略である。また、ストレージ13は、SD(登録商標)メモリカード、CompactFlash(登録商標)、NANDフラッシュ、フレキシブルディスク、光ディスク、コンパクトディスク、Blu-ray(登録商標)ディスク、DVDといった可搬記録媒体であってもよい。SDは、Secure Digitalの略である。DVDは、Digital Versatile Diskの略である。
【0014】
通信インタフェース14は、外部の装置と通信するためのインタフェースである。通信インタフェース14は、具体例としては、Ethernet(登録商標)、USB、HDMI(登録商標)のポートである。USBは、Universal Serial Busの略である。HDMIは、High-Definition Multimedia Interfaceの略である。
【0015】
文字欠け特定装置10は、機能構成要素として、色設定部21と、形式変換部22と、色補正部23と、罫線特定部24と、欠損特定部25と、表示制御部26とを備える。文字欠け特定装置10の各機能構成要素の機能はソフトウェアにより実現される。
ストレージ13には、文字欠け特定装置10の各機能構成要素の機能を実現するプログラムが格納されている。このプログラムは、プロセッサ11によりメモリ12に読み込まれ、プロセッサ11によって実行される。これにより、文字欠け特定装置10の各機能構成要素の機能が実現される。
【0016】
図1では、プロセッサ11は、1つだけ示されていた。しかし、プロセッサ11は、複数であってもよく、複数のプロセッサ11が、各機能を実現するプログラムを連携して実行してもよい。
【0017】
***動作の説明***
図2から図7を参照して、実施の形態1に係る文字欠け特定装置10の動作を説明する。
実施の形態1に係る文字欠け特定装置10の動作手順は、実施の形態1に係る文字欠け特定方法に相当する。また、実施の形態1に係る文字欠け特定装置10の動作を実現するプログラムは、実施の形態1に係る文字欠け特定プログラムに相当する。
【0018】
図2及び図3を参照して、実施の形態1に係る文字欠け特定装置10の処理の流れを説明する。
(ステップS11:色設定処理)
色設定部21は、入力表データ31における色の設定を行い、色付表データ32を生成する。入力表データ31は、Excel(登録商標)等の表計算ソフトウェアによって生成された表データである。
具体的には、色設定部21は、文字が入力されたセルの罫線に第1色を設定する。色設定部21は、文字に第1色とは異なる第2色を設定する。色設定部21は、背景色に、第1色及び第2色とは異なる第3色を設定する。これにより、色設定部21は、色付表データ32を生成する。例えば、第1色を黒、第2色を赤、第3色を白とする。
【0019】
(ステップS12:形式変換処理)
形式変換部22は、ステップS11で生成された色付表データ32を形式変換して変換データ33を生成する。
具体的には、形式変換部22は、印字イメージデータ形式と画面表示形式といった表計算ソフトウェアの形式とは異なる形式に色付表データ32を変換して、変換データ33を生成する。例えば、形式変換部22は、色付表データ32をPDF形式に変換し、PDF形式からイメージデータであるPNG形式に変換する。これにより、PNG形式の変換データ33が得られる。PDFは、Portable Document Formatの略である。PNGは、Portable Network Graphicsの略である。表データをPDF形式に変換する技術と、PDF形式をPNG形式に変換する技術とは、既存技術である。
なお、入力表データ31において印刷領域が設定されている場合には、形式変換部22は、変換データ33から印刷領域部分だけを切り出してもよい。
【0020】
(ステップS13:色補正処理)
色補正部23は、変換データ33における文字のエッジ部分であって、第2色と背景色との間の中間色で平滑化されたエッジ部分を、背景色に補正する。
図4を参照して具体的に説明する。図4では、変換データ33における各画素の画素値を反転させた状態を表している。つまり、画素値0の黒(第1色)は、画素値255となり、画素値255の白(第3色)は画素値0となっている。黒と白の中間の赤(第2色)については、色が濃いほど大きい値を示している。
図4の(A)に示すように、文字のエッジ部分は、文字の色である赤と背景色である白との中間色で平滑化されている。正確には、文字のエッジ部分は、外側ほど背景色である白に近づくように薄い赤になっている。ここでは、平滑化された部分については、文字欠け判定の対象外とする。そのため、図4の(B)に示すように、色補正部23は、平滑化された部分については、背景色である白に補正する。
【0021】
(ステップS14:罫線特定処理)
罫線特定部24は、入力表データ31のセルの罫線34を、ステップS13で補正された後の変換データ33から特定する。
具体的には、罫線特定部24は、変換データ33における第1色のみを抽出したデータを生成する。そして、罫線特定部24は、生成されたデータを、縦方向を強調させるエッジフィルタと、横方向を強調させるエッジフィルタとを通過させることにより、罫線を強調したデータを生成する。ここで用いるエッジフィルタは、例えば、3×3ピクセルのフィルタである。そして、図5に示すように、罫線特定部24は、罫線が強調されたデータを用いて、変換データ33において、横方向又は縦方向に第1色の画素が基準数以上連続する部分を罫線34として特定する。なお、横方向は、画面上の水平方向である。縦方向は、横方向に対して垂直な方向である。変換データ33は、表データを形式変換したデータであり、セルの罫線34は必ず横方向及び縦方向に引かれている。そのため、横方向又は縦方向に第1色の画素が基準数以上連続する部分だけがセルの罫線34を構成する。
罫線34は矩形を構成している。そのため、罫線特定部24は、矩形を構成していることに基づき、一部途切れてしまっている箇所等を補間してもよい。
【0022】
(ステップS15:欠損特定処理)
欠損特定部25は、ステップS13で補正された後の変換データ33において、ステップS14で特定されたセルの罫線34を表す第1色の画素と第2色の画素との距離に基づいて文字が欠ける可能性がある欠損箇所35を特定する。具体的には、欠損特定部25は、第1色の画素と第2色の画素とが間に基準画素以内の画素だけを挟んで隣接する隣接部分を欠損箇所35として特定する。
基準画素は判定閾値であり、事前に定められた画素数である。図6に示すように、罫線34の付近に文字がある場合には、罫線34を表す第1色の画素と第2色の画素とが近い位置になる。このとき、必ずしも罫線34を表す第1色の画素と第2色の画素とが隣り合っているわけではなく、ステップS13での補正により背景色になった画素と、表計算ソフトウェア等の仕様により入ってしまう背景色の画素と等が第1色の画素と第2色の画素との間に入る可能性がある。そこで、欠損特定部25は、第1色の画素と第2色の画素とが間に基準画素以内の画素だけを挟んで隣接する隣接部分を、欠損箇所35として特定する。なお、表計算ソフトウェア等の仕様によって第1色の画素と第2色の画素とが間に入ってしまう画素数が変化する可能性がある。そのため、表計算ソフトウェア等の仕様に応じて基準画素数も変化する。
なお、欠損特定部25は、横方向の罫線34と縦方向の罫線34との両方を対象の罫線34として、対象の罫線34を表す第1色の画素と第2色の画素との隣接部分を、欠損箇所35として特定する。つまり、欠損特定部25は、セルの高さが足らずに上又は下が欠ける可能性がある欠損箇所35と、セルの幅が足らずに右又は左が欠ける可能性がある欠損箇所35とを特定する。
【0023】
(ステップS16:表示制御処理)
表示制御部26は、ステップS15で特定された欠損箇所35を変換データ33に示して、通信インタフェース14を介して接続された表示装置に表示する。具体的には、図7に示すように、表示制御部26は、変換データ33における欠損箇所35に丸等の印を付して表示する。
この際、表示制御部26は、欠損箇所35を示す欠損情報をストレージ13に記憶する。欠損情報は、変換データ33における欠損箇所35がある位置を示す。ここでいう位置は、何ページ目であるかだけを示すものであってもよいし、何ページ目のどの位置であるかまで示すものであってもよい。
【0024】
***実施の形態1の効果***
以上のように、実施の形態1に係る文字欠け特定装置10は、セルの罫線と文字とに異なる色を付けておき、これらの色の画素が基準画素数以内で隣接している場合に文字が欠ける可能性がある欠損箇所として特定する。これにより、文字の一部が欠けてしまう可能性がある欠損箇所35を特定可能である。
【0025】
実施の形態1に係る文字欠け特定装置10は、変換データ33に欠損箇所35を示して表示する。これにより、どの文字のどの部分が欠けてしまう可能性があるかを容易に識別可能である。そのため、目視により文字が欠けているかを確認することが容易である。
【0026】
これにより、手間をかけずに欠損箇所35を特定できる。例えば、夜間等の作業を行わない時間帯に、図2に示す処理を実行するようにしておくことで、負担なく欠損箇所35を特定することができる。そのため、作業時間を節約しながら高品質な資料の作成が可能になる。
【0027】
***他の構成***
<変形例1>
実施の形態1では、各機能構成要素がソフトウェアで実現された。しかし、変形例1として、各機能構成要素はハードウェアで実現されてもよい。この変形例1について、実施の形態1と異なる点を説明する。
【0028】
各機能構成要素がハードウェアで実現される場合には、文字欠け特定装置10は、プロセッサ11とメモリ12とストレージ13とに代えて、電子回路15を備える。電子回路15は、各機能構成要素と、メモリ12と、ストレージ13との機能とを実現する専用の回路である。
【0029】
電子回路15としては、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ロジックIC、GA、ASIC、FPGAが想定される。GAは、Gate Arrayの略である。ASICは、Application Specific Integrated Circuitの略である。FPGAは、Field-Programmable Gate Arrayの略である。
各機能構成要素を1つの電子回路15で実現してもよいし、各機能構成要素を複数の電子回路15に分散させて実現してもよい。
【0030】
<変形例2>
変形例2として、一部の各機能構成要素がハードウェアで実現され、他の各機能構成要素がソフトウェアで実現されてもよい。
【0031】
プロセッサ11とメモリ12とストレージ13と電子回路15とを処理回路という。つまり、各機能構成要素の機能は、処理回路により実現される。
【0032】
また、以上の説明における「部」を、「回路」、「工程」、「手順」、「処理」又は「処理回路」に読み替えてもよい。
【0033】
実施の形態2.
実施の形態2は、形式変換した場合に文字全体が欠落してしまったことを検出する点が実施の形態1と異なる。実施の形態2では、この異なる点を説明し、同一の点については説明を省略する。
【0034】
***構成の説明***
図8を参照して、実施の形態2に係る文字欠け特定装置10の構成を説明する。
文字欠け特定装置10は、機能構成要素として、印字文字取得部27と、表文字取得部28と、差異特定部29とを備える点が図1に示す文字欠け特定装置10と異なる。印字文字取得部27と表文字取得部28と差異特定部29との機能は、他の機能構成要素と同様に、ソフトウェア又はハードウェアによって実現される。
【0035】
***動作の説明***
図9から図11を参照して、実施の形態2に係る文字欠け特定装置10の動作を説明する。
実施の形態2に係る文字欠け特定装置10の動作手順は、実施の形態2に係る文字欠け特定方法に相当する。また、実施の形態2に係る文字欠け特定装置10の動作を実現するプログラムは、実施の形態2に係る文字欠け特定プログラムに相当する。
【0036】
図9及び図10を参照して、実施の形態2に係る文字欠け特定装置10の処理の流れを説明する。
ステップS21からステップS26は、図2のステップS11からステップS16と同じである。
【0037】
(ステップS27:印字文字取得処理)
印字文字取得部27は、変換データ33に含まれる文字である印字文字36を取得する。
具体的に説明する。色付表データ32がPDF形式に変換され、PDF形式からイメージデータであるPNG形式に変換されて、PNG形式の変換データ33が生成されたとする。この場合には、印字文字取得部27は、色付表データ32が変換されたPDF形式のデータから、PNG形式の変換データ33に含まれる印字文字36を取得する。ここでは、印字文字取得部27は、変換データ33のページ毎に印字文字36を取得してもよいし、変換データ33全体の印字文字36をまとめて取得してもよい。
なお、印字文字取得部27は、変換データ33を入力として文字認識処理を行うことにより、印字文字36を取得してもよい。
【0038】
(ステップS28:表文字取得処理)
表文字取得部28は、入力表データ31に含まれる文字である表文字37を取得する。
具体的には、表文字取得部28は、入力表データ31の各セルに入力された文字を読み出すことにより、表文字37を取得する。ここでは、表文字取得部28は、印字文字36を取得方法と合わせて、表文字37を取得する。つまり、ページ毎に印字文字36が取得された場合には、表文字取得部28はページ毎に表文字37を取得する。また、変換データ33全体の印字文字36がまとめて取得された場合には、表文字取得部28は入力表データ31全体の表文字37をまとめて取得する。
【0039】
(ステップS29:差異特定処理)
差異特定部29は、ステップS27で取得された印字文字36と、ステップS28で取得された表文字37との間の差異を特定する。具体的には、差異特定部29は、表文字37にあって印字文字36にない文字を特定する。差異特定部29は、表文字37にあって印字文字36にない文字が特定された場合には、特定された文字を、形式変換した際に文字全体が欠落した欠落文字38として特定する。
なお、ページ毎に印字文字36及び表文字37が取得されている場合には、差異特定部29はページ毎に印字文字36にあって表文字37にない文字を欠落文字38として特定する。
【0040】
図11に示すように、表計算ソフトウェアにおいてセルからはみ出して文字が入力されている場合には、形式変換すると文字全体が欠落してしまうことがある。図11では、セル内に入力された文字のうち一部だけが表計算ソフトウェアで表示されており、セルをクリックする等してセルを広げるとセル内に入力された全ての文字が表示される状態である。図11では、「文言がセル内に入っていない」という文字列がセル内に入力されているが、セルを広げる前には「いない」という部分が表示されていない。そのため、セルを広げずに形式変換すると、「いない」という部分の文字が欠落してしまうことがある。
なお、表計算ソフトウェアにおいてセルからはみ出していない場合であっても、形式変換すると文字全体が欠落してしまうこともある。
【0041】
(ステップS30:第2表示制御処理)
表示制御部26は、ステップS29での判定結果を、通信インタフェース14を介して接続された表示装置に表示する。具体的には、表示制御部26は、欠落文字38が有無と、欠落文字38がある場合には欠落した文字とを示す判定結果を表示する。
なお、ページ毎に印字文字36及び表文字37が取得されている場合には、表示制御部26は、ページ毎の判定結果を表示する。
【0042】
***実施の形態2の効果***
以上のように、実施の形態2に係る文字欠け特定装置10は、形式変換した場合に文字全体が欠落してしまったことを検出する。これにより、文字の欠けだけでなく、文字の欠落の有無も検出することができる。
【0043】
***他の構成***
<変形例3>
実施の形態2では、差異特定部29は欠落文字38を特定した。差異特定部29は、さらに、欠落文字38がどのセルに存在する可能性があるかまで特定してもよい。欠落文字38がどのセルに存在する可能性があるかまで特定する具体的な方法としては以下の2つが考えられる。
【0044】
(方法1)
ステップS29で差異特定部29は、入力表データ31において欠落文字38が含まれるセルを特定する。例えば、差異特定部29は、欠落文字38をキーワードとする検索処理を、入力表データ31に対して実行することにより、欠落文字38が含まれるセルを特定する。ステップS30で表示制御部26は、欠落文字38毎に特定されたセルも表示する。
欠落文字38が含まれるセルが複数特定される可能性があるが、特定されたセルのうちいずれかのセルで欠落文字38が欠落していることが分かる。
【0045】
(方法2)
差異特定部29は、入力表データ31における文字が入力された各セルを対象のセルとして、対象のセルの文字を文章解析モデルに入力して、対象のセルの文字が文章として成立しているか否かを判定してもよい。そして、差異特定部29は、文章として成立していないセルで欠落文字38が欠落している可能性があると特定してもよい。文章解析モデルは、文章の構成及び文法の使い方等に問題がないかをチェックする、いわゆる文章校正を行うプログラムである。
【0046】
なお、差異特定部29は、方法1と方法2との両方を実行して、両方で共通して特定されたセルを、欠落文字38が含まれるセルとして特定してもよい。
【0047】
以下、本開示の諸態様を付記としてまとめて記載する。
(付記1)
入力表データにおける文字が入力されたセルの罫線に第1色を設定し、前記文字に前記第1色とは異なる第2色を設定して色付表データを生成する色設定部と、
前記色設定部によって生成された前記色付表データを形式変換した変換データにおいて、前記第1色の画素と前記第2色の画素との距離に基づいて前記文字が欠ける可能性がある欠損箇所を特定する欠損特定部と
を備える文字欠け特定装置。
(付記2)
前記欠損特定部は、前記第1色の画素と前記第2色の画素とが間に基準画素以内の画素だけを挟んで隣接する隣接部分を、前記欠損箇所として特定する
付記1に記載の文字欠け特定装置。
(付記3)
前記文字欠け特定装置は、さらに、
前記変換データにおける前記文字のエッジ部分であって、前記第2色と背景色との間の中間色で平滑化されたエッジ部分を、前記背景色に補正する色補正部
を備え、
前記欠損特定部は、前記色補正部によって補正された前記変換データにおいて、前記欠損箇所を特定する
付記1又は2に記載の文字欠け特定装置。
(付記4)
前記文字欠け特定装置は、さらに、
前記変換データにおいて、横方向又は縦方向に前記第1色の画素が基準数以上連続する部分を前記罫線として特定する罫線特定部
を備え、
前記欠損特定部は、前記罫線特定部によって特定された前記罫線を表す前記第1色の画素と前記第2色の画素とが間に基準画素以内の画素だけを挟んで隣接する隣接部分を、前記欠損箇所として特定する
付記1から3までのいずれか1項に記載の文字欠け特定装置。
(付記5)
前記文字欠け特定装置は、さらに、
前記欠損特定部によって特定された前記欠損箇所を前記変換データに示して表示する表示制御部
を備える付記1から4までのいずれか1項に記載の文字欠け特定装置。
(付記6)
前記文字欠け特定装置は、さらに、
前記変換データに含まれる文字である印字文字を取得する印字文字取得部と、
前記入力表データに含まれる文字である表文字を取得する表文字取得部と、
前記印字文字取得部によって取得された前記印字文字と、前記表文字取得部によって取得された前記表文字との間の差異を特定する差異特定部と
を備える付記1から5までのいずれか1項に記載の文字欠け特定装置。
(付記7)
前記差異特定部は、前記表文字にあって前記印字文字にない欠落文字を特定し、前記入力表データにおいて前記欠落文字が含まれるセルを特定する
付記6に記載の文字欠け特定装置。
(付記8)
前記差異特定部は、前記差異が特定された場合には、前記入力表データにおける文字が入力された各セルを対象のセルとして、前記対象のセルの文字を文章解析モデルに入力して、前記対象のセルの文字が文章として成立しているか否かを判定する
付記6に記載の文字欠け特定装置。
(付記9)
コンピュータが、入力表データにおける文字が入力されたセルの罫線に第1色を設定し、前記文字に前記第1色とは異なる第2色を設定して色付表データを生成し、
コンピュータが、前記色付表データを形式変換した変換データにおいて、前記第1色の画素と前記第2色の画素との距離に基づいて前記文字が欠ける可能性がある欠損箇所を特定する文字欠け特定方法。
(付記10)
入力表データにおける文字が入力されたセルの罫線に第1色を設定し、前記文字に前記第1色とは異なる第2色を設定して色付表データを生成する色設定処理と、
前記色設定処理によって生成された前記色付表データを形式変換した変換データにおいて、前記第1色の画素と前記第2色の画素との距離に基づいて前記文字が欠ける可能性がある欠損箇所を特定する欠損特定処理とを行う文字欠け特定装置としてコンピュータを機能させる文字欠け特定プログラム。
【0048】
以上、本開示の実施の形態及び変形例について説明した。これらの実施の形態及び変形例のうち、いくつかを組み合わせて実施してもよい。また、いずれか1つ又はいくつかを部分的に実施してもよい。なお、本開示は、以上の実施の形態及び変形例に限定されるものではなく、必要に応じて種々の変更が可能である。
【符号の説明】
【0049】
10 文字欠け特定装置、11 プロセッサ、12 メモリ、13 ストレージ、14 通信インタフェース、21 色設定部、22 形式変換部、23 色補正部、24 罫線特定部、25 欠損特定部、26 表示制御部、27 印字文字取得部、28 表文字取得部、29 差異特定部、31 入力表データ、32 色付表データ、33 変換データ、34 罫線、35 欠損箇所、36 印字文字、37 表文字、38 欠落文字。
【要約】
【課題】形式変換した場合に文字の一部が欠けてしまう可能性がある個所を特定可能にする。
【解決手段】色設定部21は、入力表データにおける文字が入力されたセルの罫線に第1色を設定し、文字に第1色とは異なる色を設定して色付表データを生成する。欠損特定部25は、色設定部21によって生成された色付表データを形式変換した変換データにおいて、第1色の画素と第2色の画素との距離に基づいて文字が欠ける可能性がある欠損箇所を特定する。
【選択図】図1
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11