IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 藤田 美智雄の特許一覧 ▶ 株式会社バリューHRの特許一覧

<>
  • 特開-プログラム及び情報処理システム 図1
  • 特開-プログラム及び情報処理システム 図2
  • 特開-プログラム及び情報処理システム 図3
  • 特開-プログラム及び情報処理システム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022164545
(43)【公開日】2022-10-27
(54)【発明の名称】プログラム及び情報処理システム
(51)【国際特許分類】
   G06Q 10/10 20120101AFI20221020BHJP
【FI】
G06Q10/10
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2021198170
(22)【出願日】2021-12-07
(31)【優先権主張番号】P 2021068746
(32)【優先日】2021-04-15
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】501080619
【氏名又は名称】藤田 美智雄
(71)【出願人】
【識別番号】503378958
【氏名又は名称】株式会社バリューHR
(74)【代理人】
【識別番号】110002022
【氏名又は名称】弁理士法人コスモ国際特許事務所
(72)【発明者】
【氏名】藤田 美智雄
【テーマコード(参考)】
5L049
【Fターム(参考)】
5L049AA11
5L049EE01
(57)【要約】
【課題】項目の表現が異なる帳票について人工知能を用いたOCR処理を行って得たデータを、統一した任意のフォーマットに容易に入力することができるプログラム及び情報処理システムを提供する。
【解決手段】情報処理システム100は、項目の表現が異なる複数の帳票を画像化する読取装置15と、読取装置15によって読み取られた帳票の画像データ51に対して、人工知能53を用いて文字認識部52により画像文字認識を行う第1情報処理装置10と、予め設定した特定データを記憶して、第1情報処理装置10からの出力データ中の特定データに対して変換処理を行う第2情報処理装置20のコンバータ部54と、を有する。
【選択図】 図2
【特許請求の範囲】
【請求項1】
コンピュータに、
項目の表現が異なる複数の帳票について人工知能を用いたOCR処理を行うことで得られたデータ中における、予め設定した特定データについて変換処理を行うことを特徴とするプログラム。
【請求項2】
前記帳票は、健康診断結果表であることを特徴とする請求項1に記載のプログラム。
【請求項3】
前記変換処理は、所定データの抜出及び単位変換を含むことを特徴とする請求項1又は請求項2に記載のプログラム。
【請求項4】
前記変換処理により得られたデータを、
(1)所定の閾値の範囲内か否かのチェック、
(2)所定の前記項目間の相関関係に基づくチェック、
(3)蓄積データと対比するチェック、
の何れか又は複数行うことを特徴とする請求項1乃至請求項3の何れか記載のプログラム。
【請求項5】
項目の表現が異なる複数の帳票を画像化する読取装置と、
前記読取装置によって読み取られた前記帳票の画像データに対して、人工知能を用いたOCR処理を行う第1情報処理装置と、
予め設定した特定データを記憶して、前記第1情報処理装置からの出力データ中の前記特定データに対して変換処理を行う第2情報処理装置と、
を有することを特徴とする情報処理システム。
【請求項6】
前記第2情報処理装置は、前記変換処理により得られたデータを、
(1)所定の閾値の範囲内か否かのチェック、
(2)所定の前記項目間の相関関係に基づくチェック、
(3)蓄積データと対比するチェック、
の何れか又は複数の処理を行うことを特徴とする請求項7に記載の情報処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人工知能を利用して画像文字認識を行って出力されたデータに対して変換処理を行うプログラム及び情報処理システムに関する。
【背景技術】
【0002】
近年、人工知能(AI)技術の発達に伴って、画像データに含まれる文字情報をテキストデータ化するOCR(Optical Character Recognition)処理においても人工知能が活用されている。例えば、特許文献1には、OCR処理を施すことで生成されるテキスト情報に対してニューラルネットワークモデルに基づいて処理を行う画像処理システムが開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2020-102166号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
人工知能を用いたOCR処理により、文字識字率を向上させることができる。しかしながら、種々の種類の帳票についてOCR処理を行って、統一した別の任意のフォーマットに対して、OCR処理で認識した文字を入力する処理においては、該フォーマットにおける1つの項目に対して、各種の帳票においては表現が多種多様に亘る場合がある。このような場合に、該フォーマットの項目に適した表現とするよう人工知能に学習をさせていくことは時間が掛かり、また、コストの面からも現実的ではない場合がある。
【0005】
本発明は、項目の表現が異なる帳票について人工知能を用いたOCR処理を行って得たデータを、統一した任意のフォーマットに容易に入力することができるプログラム及び情報処理システムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明に係るプログラムは、コンピュータに、項目の表現が異なる複数の帳票について人工知能を用いたOCR処理を行うことで得られたデータ中における、予め設定した特定データについて変換処理を行うことを特徴とする。
【0007】
本発明に係る情報処理システムは、項目の表現が異なる複数の帳票を画像化する読取装置と、前記読取装置によって読み取られた前記帳票の画像データに対して、人工知能を用いたOCR処理を行う第1情報処理装置と、予め設定した特定データを記憶して、前記第1情報処理装置からの出力データ中の前記特定データに対して変換処理を行う第2情報処理装置と、を有することを特徴とする。
【発明の効果】
【0008】
本発明によれば、項目の表現が異なる帳票について人工知能を用いたOCR処理を行って得たデータを、統一した任意のフォーマットに容易に入力することができるプログラム及び情報処理システムを提供することができる。
【図面の簡単な説明】
【0009】
図1】本発明の第1実施形態に係る情報処理システムの構成図である。
図2】本発明の第1実施形態に係る情報処理システムのブロック図である。
図3】本発明の第1実施形態に係る情報処理システムで処理する帳票の例を示す模式図である。
図4】本発明の第2実施形態に係る情報処理システムのブロック図である。
【発明を実施するための形態】
【0010】
(第1実施形態)
以下、本発明の第1実施形態を説明する。図1に示すように、情報処理システム100は、読取装置15が接続される第1情報処理装置10と、第1情報処理装置10と接続される第2情報処理装置20とを有する。なお、ここでいう「接続」とは、データのやり取りができる状態をいい、有線、無線、記憶媒体の脱着(例えばUSBメモリ)等の手段を含む。
【0011】
読取装置15は、スキャナ機能を有し、読み取った紙の書類を画像化することができる。なお、読取装置15は、カメラ機能を有して書類を撮像することにより画像化するよう構成してもよい。画像化により生成される画像データのデータ形式は、後述のOCR処理を行うことができれば、適宜選択することができる。
【0012】
第1情報処理装置10及び第2情報処理装置20は、それぞれPC(パーソナルコンピュータ)により形成され、PCが通常備えるプロセッサ(コンピュータ)、ROM・RAM等の記憶装置、入力装置、表示装置等を有する。第1情報処理装置10及び第2情報処理装置20は、記憶装置に記憶されるプログラムが実行されることにより、各処理部の処理が行われる。なお、第1情報処理装置10及び第2情報処理装置20は、それぞれ別の2台のPCとしてもよいし、1台のPCにおいて仮想的に形成されていてもよい。
【0013】
図2には、情報処理システム100のブロック図を示す。読取装置15により読み取られた書類(帳票)の画像データ51は、第1情報処理装置10に入力されて、文字認識部52により、人工知能(AI)53を用いたOCR処理(画像文字認識の処理)が行われる。
【0014】
人工知能53は、予め、画像文字認識の精度を高めるための機械学習が行われる。人工知能53の機械学習は、例えば、ニューラルネットワークを用いるディープラーニング等の公知の機械学習を用いることができる。文字認識部52は、入力された画像データ51にOCR処理を施してテキストデータを生成する。そして、この生成されたテキストデータに対して人工知能53の機械学習の結果を用いた補正を行って、その結果を出力する。文字認識部52により出力されるデータは、その用途に応じて、テキストデータやCSVフォーマット等の各種のデータ形式を適宜選択することができる。
【0015】
文字認識部52から出力されたデータは、第2情報処理装置20に入力される。第2情報処理装置20では、コンバータ部54により、入力されたデータ中における、予め設定した特定データについて変換処理が行われる。コンバータ部54は、この変換処理を施したデータを出力する。
【0016】
コンバータ部54により出力されたデータは、帳票入力部55に入力される。帳票入力部55は、入力されたデータを、任意の統一フォーマットの帳票の各項目に入力する。
【0017】
読取装置15は、項目の表現が異なる複数の帳票を読み取らせることができる。項目の表現が異なる帳票は、例えば、健康診断結果表が挙げられる。健康診断結果表は、単位等が異なるため、同一の結果であっても表現が異なっている場合がある。例えば、図3に示すように、「A健診センター」の健康診断結果表71では、白血球数が「42」と表示されているが、「B健診センター」の健康診断結果表72では、白血球数が「4200」と表示されている。
【0018】
特定データの設定は、読取装置15で読み込む書類(帳票)に応じて設定することができる。図3の健康診断結果表の例では、『項目名「白血球数」の数値』を特定データとして設定することができる。そして、コンバータ部54では、統一フォーマットの帳票70に入力できるように統一した形式(表現)となるように特定データを変換処理する。
【0019】
変換処理の例を以下に示す。
所定データの抜き出し;特定の文字を削除して、所定データのみを抜き出す。例えば、数値と、四則演算記号や括弧とが組み合わされている場合には、所定データを数値として、四則演算記号や括弧を削除して、所定データである数値部分のみを抜き出すことができる。
単位変換;単位を変換して統一することができる。上記例のように、白血球数が「42」と記載される場合には、「4200」とすることができる。
エラー出力;数値が入るべき項目に数値以外が入力されている場合には、エラーを出力する。例えば、「12.1」と読み込まれるべき項目に「12.I」が入力されている場合には、エラー出力とすることができる。
特定変換;検査機関毎に「はい」「Yes」「いいえ」「No」と表示されている項目について、統一した表現(例えば「1」「0」など)とすることができる。
【0020】
また、特定データの変換処理には、所定条件に従った変換内容等の処理を定義しておくことができる。例えば、特定の検査項目では明らかにレンジから外れた数値が読み取られた場合には、当該数値を例えば100倍する等の処理内容を定義しておくことができる。
【0021】
また、変換処理には、通常のテキストデータに対して行うことができる処理(例えば、スペースの削除や置換など)を適宜設定することができる。
【0022】
コンバータ部54からの出力は、帳票入力部55により、任意のフォーマットの帳票70に入力することができる。帳票70は、各人毎のデータベースとすることができる。また、統一したフォーマットの帳票70にデータが蓄積されるので、例えば全体的な平均値や、病気の予測等のためのデータとして活用することができる。
【0023】
このように、本発明の本実施形態に係るプログラム及び情報処理システム100によれば、異なる機関の健康診断結果表71,72を読取装置15で読み取って、自動的に所望の統一したフォーマットの帳票70に入力することができるので、異なる健康診断実施機関の結果を統一したフォーマットでデータとして蓄積し、過去の健康診断結果を有効に活用して健康維持活動に貢献することができる。
【0024】
また、本発明に係るプログラム及び情報処理システム100は、人工知能53を用いて画像文字認識の処理を行っているので、例えば健康診断の実施機関名や検査項目の名称や健診結果の数値等を精度よく読み取ることができる。そして、文字認識部52からの出力データに対してコンバータ部54により変換処理を行うことで、各検査項目に対応する健診結果の数値等の表現が健診実施機関毎に異なっていても、帳票入力部55において統一したフォーマットの帳票70に健診結果を入力することができる。
【0025】
すなわち、第1情報処理装置10は、人工知能53を用いた文字認識部53による画像文字認識の処理により忠実に文字等を読み取る役割を担い、第2情報処理装置20は、コンバータ部54により、忠実に読み取られた結果を統一フォーマットに落とし込む役割を担う。
【0026】
以上、本発明の実施形態を説明したが、本発明は本実施形態によって限定されることはなく、種々の変更を加えて実施することができる。例えば、読取装置15で読み取る帳票は、健康診断結果表に限られず、各種の帳票とすることができる。
【0027】
(第2実施形態)
図4に基づいて、本発明の第2実施形態を説明する。第2実施形態に係る情報処理システム100の第2情報処理装置20には、コンバータ部54により出力されるデータ、すなわち、変換処理により得られたデータがオートチェック部56に入力され、オートチェック部56によりデータチェックが行われた後、帳票入力部55により統一したフォーマットの帳票に入力される。
【0028】
データチェックは、第1実施形態で説明した健康診断結果表を例とすると、以下のように行われる。
【0029】
(1)所定の閾値の範囲内か否かのチェック
例えば、白血球数の項目では、小数点が入っている場合に異常値である旨の通知(ワーニング)を行うことができる。また、血液一般の項目として、血小板、ヘマトクリット、ヘモグロビンや、尿検査の項目として、尿比重については、小数点が入っていない場合にはワーニングが出現される。さらに、病状(所見)を記入する自覚症状・他覚症状の項目が空欄の場合にはエラーが出現される。また、業務歴の項目が空欄の場合にはワーニングが出現される。所定の閾値は、マスタ化することができる。
【0030】
ここで、ワーニングやエラーの通知は、PCが接続される表示装置(ディプレイ)により表示することができる。なお、ワーニングとは、修正しなくても帳票への入力は可能な項目の値とされ、エラーは修正しないと帳票への入力ができない項目の値とされる。
【0031】
(2)所定の前記項目間の相関関係に基づくチェック
例えば、判定の結果が記入されるべき項目に結果記入が無く、検査値が記入されるべき項目や所見が記入されるべき項目に判定結果が記入されている場合には、ワーニングが出現される。また、腫瘍マーカー(PSA)に関する項目では、性別項目が女性であるのに前立腺に関する項目が入力されている場合にはワーニングが出現される。また、白血球像の項目については、好塩基球・好酸球・好中球・リンパ球・単球が合計で100にならない場合にはワーニングが出現される。肝機能に関する項目については、Ch-E(U/I)とCh-E(IU/I)のどちらにも検査値が入力されている場合にはワーニングが出現される。また、アミラーゼ・梅毒その他・PSAの項目間では、どちらかしか入力されていない場合にはワーニングが出現される。項目間の相関関係はマスタ化することができる。
【0032】
(3)蓄積データと対比するチェック
例えば、各個人ごとに蓄積した健康診断結果表のデータ(例えば5年分)のデータを参照して、各項目における入力値の妥当性をチェックすることができる。例えば、血液検査等の数値系の検査値においては、過去のデータの平均値(又は前年の検査値)から±20%以上の変化がある場合には、ワーニングを出現させることができる。また、胸部X線検査等の画像系所見においては、過去の判定より2ランク以上の乖離がある場合には、ワーニングを出現させることができる。
【0033】
このように、コンバータ部54による変換処理のデータに対して、上記(1)~(3)のチェックを行うことで、より精度の高い帳票の自動入力を行うことができる。
【符号の説明】
【0034】
10 第1情報処理装置
15 読取装置
20 第2情報処理装置
51 画像データ
52 文字認識部
53 人工知能
54 コンバータ部
55 帳票入力部
56 オートチェック部
70 帳票
71,72 健康診断結果表
100 情報処理システム
図1
図2
図3
図4