(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023124085
(43)【公開日】2023-09-06
(54)【発明の名称】推論装置、推論システム、推論方法、およびプログラム
(51)【国際特許分類】
G06V 30/194 20220101AFI20230830BHJP
G06V 30/412 20220101ALI20230830BHJP
【FI】
G06V30/194
G06V30/412
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022027665
(22)【出願日】2022-02-25
(71)【出願人】
【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
(74)【代理人】
【識別番号】100140958
【弁理士】
【氏名又は名称】伊藤 学
(74)【代理人】
【識別番号】100137888
【弁理士】
【氏名又は名称】大山 夏子
(74)【代理人】
【識別番号】100190942
【弁理士】
【氏名又は名称】風間 竜司
(72)【発明者】
【氏名】芳賀 俊昭
【テーマコード(参考)】
5B029
5B064
【Fターム(参考)】
5B029AA01
5B029CC27
5B064AA01
5B064CA08
5B064DA27
5B064EA02
5B064EA10
5B064FA01
(57)【要約】
【課題】より容易に学習用データを確保し、文字推論精度を向上させる。
【解決手段】非定型帳票を撮影した全体画像から切り抜かれた項目画像に含まれる対象文字の推論を行う推論部、を備え、前記推論部は、前記対象文字の推論結果の正誤に係るオペレータの確認結果に基づく教師あり学習により更新される推論器を用いて、前記対象文字の推論を行う、推論装置が提供される。
【選択図】
図3
【特許請求の範囲】
【請求項1】
非定型帳票を撮影した全体画像から切り抜かれた項目画像に含まれる対象文字の推論を行う推論部、
を備え、
前記推論部は、前記対象文字の推論結果の正誤に係るオペレータの確認結果に基づく教師あり学習により更新される推論器を用いて、前記対象文字の推論を行う、
推論装置。
【請求項2】
前記確認結果は、前記推論部による前記対象文字の推論結果が誤っていた場合に前記オペレータが生成する修正結果を含み、
前記推論部は、対応する前記項目画像と前記修正結果とのセットを教師データとする前記教師あり学習により更新される前記推論器を用いて、前記対象文字の推論を行う、
請求項1に記載の推論装置。
【請求項3】
前記推論部は、前記教師あり学習の結果に基づいて前記推論器を更新する、
請求項1または2に記載の推論装置。
【請求項4】
前記全体画像に基づいて前記項目画像を生成する画像解析部、
をさらに備える、
請求項1~3のいずれかに記載の推論装置。
【請求項5】
前記非定型帳票は、フォーマットにおける項目の位置が変化し得る帳票である、
請求項1~4のいずれかに記載の推論装置。
【請求項6】
非定型帳票を撮影した全体画像から切り抜かれた項目画像に含まれる対象文字の推論を行う推論装置と、
前記対象文字の推論結果の正誤に係るオペレータの確認結果に基づく教師あり学習を行う学習装置と、
を備え、
前記推論装置は、前記学習装置による前記教師あり学習により更新される推論器を用いて、前記対象文字の推論を行う、
推論システム。
【請求項7】
非定型帳票を撮影した全体画像から切り抜かれた項目画像に含まれる対象文字の推論を行うこと、
を含み、
前記推論を行うことは、前記対象文字の推論結果の正誤に係るオペレータの確認結果に基づく教師あり学習により更新される推論器を用いて、前記対象文字の推論を行うこと、
をさらに含む、
推論方法。
【請求項8】
コンピュータを、
非定型帳票を撮影した全体画像から切り抜かれた項目画像に含まれる対象文字の推論を行う推論部、
を備え、
前記推論部は、前記対象文字の推論結果の正誤に係るオペレータの確認結果に基づく教師あり学習により更新される推論器を用いて、前記対象文字の推論を行う、
推論装置、
として機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、推論装置、推論システム、推論方法、およびプログラムに関する。
【背景技術】
【0002】
帳票等に記載される文字をOCR(Optical Character Recognition)技術を用いて認識する技術が普及している。また、近年においては、機械学習技術を用いて文字認識(推論)の精度を上げる試みが行われている。例えば、特許文献1には、機械学習技術を用いた文字推論において、特定の文字を特定のフォントで表現した画像を用意し、当該画像を、正しく認識された特定の文字を含む画像が有する特徴と類似する特徴(例えば、滲み方)を有するように変換し、変換後の画像を学習に用いる技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、特許文献1に開示される技術は、文字ごとフォントごとに学習用画像を生成することが求められるため、学習用データの生成コスト、学習のコスト(演算量、学習時間)が膨大となる。また、特許文献1に開示される技術では、手書き文字の推論精度を向上させることが困難である。
【0005】
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、より容易に学習用データを確保し、文字推論精度を向上させることが可能な、新規かつ改良された推論装置、推論システム、推論方法、およびプログラムを提供することにある。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本発明のある観点によれば、非定型帳票を撮影した全体画像から切り抜かれた項目画像に含まれる対象文字の推論を行う推論部、を備え、前記推論部は、前記対象文字の推論結果の正誤に係るオペレータの確認結果に基づく教師あり学習により更新される推論器を用いて、前記対象文字の推論を行う、推論装置が提供される。
【0007】
また、前記確認結果は、前記推論部による前記対象文字の推論結果が誤っていた場合に前記オペレータが生成する修正結果を含み、前記推論部は、対応する前記項目画像と前記修正結果とのセットを教師データとする前記教師あり学習により更新される前記推論器を用いて、前記対象文字の推論を行ってもよい。
【0008】
また、前記推論部は、前記教師あり学習の結果に基づいて前記推論器を更新してもよい。
【0009】
また、前記推論装置は、前記全体画像に基づいて前記項目画像を生成する画像解析部、をさらに備えてもよい。
【0010】
また、前記非定型帳票は、フォーマットにおける項目の位置が変化し得る帳票であってもよい。
【0011】
また、上記課題を解決するために、本発明の別の観点によれば、非定型帳票を撮影した全体画像から切り抜かれた項目画像に含まれる対象文字の推論を行う推論装置と、前記対象文字の推論結果の正誤に係るオペレータの確認結果に基づく教師あり学習を行う学習装置と、を備え、前記推論装置は、前記学習装置による前記教師あり学習により更新される推論器を用いて、前記対象文字の推論を行う、推論システムが提供される。
【0012】
また、上記課題を解決するために、本発明の別の観点によれば、非定型帳票を撮影した全体画像から切り抜かれた項目画像に含まれる対象文字の推論を行うこと、を含み、前記推論を行うことは、前記対象文字の推論結果の正誤に係るオペレータの確認結果に基づく教師あり学習により更新される推論器を用いて、前記対象文字の推論を行うこと、をさらに含む、推論方法が提供される。
【0013】
また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、非定型帳票を撮影した全体画像から切り抜かれた項目画像に含まれる対象文字の推論を行う推論部、を備え、前記推論部は、前記対象文字の推論結果の正誤に係るオペレータの確認結果に基づく教師あり学習により更新される推論器を用いて、前記対象文字の推論を行う、推論装置、として機能させるプログラムが提供される。
【発明の効果】
【0014】
以上説明したように本発明によれば、より容易に学習用データを確保し、文字推論精度を向上させることが可能となる。
【図面の簡単な説明】
【0015】
【
図1】本発明の一実施系形態に係る非定型帳票の全体画像510の一例を示す図である。
【
図2】同実施形態に係る非定型帳票における文字量に基づく項目領域の変化について説明するための図である。
【
図3】同実施形態に係る推論システム1の構成例を示す図である。
【
図4】同実施形態に係る項目画像520の一例を示す図である。
【
図5】同実施形態に係る推論システム1を用いて実施される処理の流れの一例を示すフローチャートである。
【
図6】同実施形態に係る推論部140を備える推論装置の例としての情報処理装置900のハードウェア構成を示す図である。
【発明を実施するための形態】
【0016】
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0017】
<1.実施形態>
<<1.1.概要>>
上述したように、近年、機械学習技術を用いて文字推論を行う技術が開発されている。機械学習技術を用いた文字推論の精度を向上させるためには、質の良い学習用データを用いて学習を行うことが求められる。しかし、例えば、文字推論の対象となる帳票の特性によっては、学習用データの確保が課題となる場合がある。
【0018】
例えば、帳票において用いられる文字種が限定されている場合(数字のみ、数字および英語アルファベットのみ、等)、学習用データの確保は比較的容易となる。
【0019】
また、例えば、帳票に手書きされた文字の推論を行う場合、手書きの文字はバリエーションが膨大となるため、プリンタ等を用いて印字された文字の推論を行う場合と比較して、学習用データの量も多く要求される。
【0020】
また、学習用データは、機械学習に関する知識を有する技術者が作成を行う場合が多く、学習用データ生成のための人的コストの増大も懸念される。
【0021】
本発明は上記のような点に着目して発想されたものであり、通常の業務を行いながら効率的かつ容易に学習用データを蓄積すること、および蓄積された学習用データを用いた学習により文字推論精度を向上させることを可能とするものである。
【0022】
また、帳票に記載される文字の推論においては、帳票が定型帳票であるか非定型帳票であるか、も重要な要素となる。
【0023】
ここで、本実施形態に係る定型帳票とは、フォーマットにおける項目の位置が変化しない帳票を指す。例えば、定型帳票が項目「氏名」を含む場合、フォーマットにおいて項目「氏名」の位置は変化しない。このため、定型帳票の全体を撮影した全体画像から項目「氏名」に相当する領域を切り取った画像を生成する場合、予め定められた項目「氏名」の位置に基づくトリミング等を行えばよいため、処理が比較的容易である。
【0024】
一方、本実施形態に係る非定型帳票は、フォーマットにおける項目の位置が変化し得る帳票を指す。
【0025】
図1は、本実施形態に係る非定型帳票の全体画像510の一例を示す図である。
図1には、保険医療機関により発行される診療報酬明細書に係る非定型帳票の全体画像510が例示される。
【0026】
図1に示す一例の場合、診療報酬明細書に係る非定型帳票のフォーマットには、項目「傷病名」、項目「診療開始日」、項目「初診」、項目「再診」などが含まれる。
【0027】
ここで、項目「傷病名」、項目「診療開始日」等は、記載される文字量により領域の大きさが変化する項目であってよい。
【0028】
図2は、本実施形態に係る非定型帳票における文字量に基づく項目領域の変化について説明するための図である。
【0029】
図中左側に示す例では、項目「傷病名」に「(1)高血圧性心疾患」の記載のみが行われている。一方、図中右側に示す例では、項目「傷病名」の記載が、下記のように増加している。
【0030】
「(1)高血圧性心疾患
(2)狭心症 高脂血症
(3)心不全
(4)十二指腸潰瘍 不眠症」
【0031】
このため、図中右側に示す例では、項目「初診」および項目「再診」の位置が図中左と比較して下方に移動している。
【0032】
このように、項目に記載される文字量に応じて項目の領域の大きさが変化する場合、フォーマットにおける項目の位置が変化し得る。
【0033】
また、非定型帳票のフォーマットにおける項目の位置変化は、
図2を用いて説明した例に限定されるものではない。上記位置変化の他の例としては、一部の項目を省略または追加可能である場合、罫線の線種、太さが規定されていない(あるいは規定に反している)場合、帳票印刷時の縮尺が規定されていない(あるいは規定に反している)場合などが挙げられる。
【0034】
以上説明したように、非定型帳票は、様々な要因によりフォーマットにおける項目の位置が変化し得ることから、項目画像(ある項目に対応する領域を切り抜いた画像)の生成難度が高くなる。
【0035】
そこで、以下では、非定型帳票に記載される文字推論にも適用可能なシステム構成について詳細に説明する。
【0036】
<<1.2.推論システム1の構成例>>
図3は、本実施形態に係る推論システム1の構成例を示す図である。
図3に示すように、本実施形態に係る推論システム1が含む各構成は、拠点11、エントリセンタ21、AIセンタ31に分散的に配置されてもよい。
【0037】
(拠点11)
本実施形態に係る拠点11は、例えば、非定型帳票の撮影(全体画像510の生成)、項目画像520の生成、項目画像520に基づく文字推論が実施される場であってもよい。なお、拠点11は、複数あってもよい。
【0038】
この場合、拠点11には、画像撮影部110、画像保存部120、画像解析部130、推論部140、および推論結果保存部150が配置されてもよい。
【0039】
(画像撮影部110)
本実施形態に係る画像撮影部110は、非定型帳票の全体を撮影した全体画像510を生成する。このため、本実施形態に係る画像撮影部110は、例えばスキャナ、カメラなどの撮影機能を有する装置により実現される。画像撮影部110により生成された全体画像510は、画像保存部120に保存される。
【0040】
(画像保存部120)
本実施形態に係る画像保存部120は、全体画像510および項目画像520を保存する。
【0041】
なお、
図3においては、可読性の向上を目的として明示的に示してはいないが、画像保存部120は、エントリセンタ21に設置されるデータ入力部およびAIセンタ31に設置される学習用データ登録部310とそれぞれネットワークで接続されてよい。
【0042】
(画像解析部130)
本実施形態に係る画像解析部130は、画像保存部120から取得した全体画像510から文字推論の対象となる項目を探索し、当該項目に対応する領域を切り抜いた項目画像520を生成する。画像解析部130により生成された項目画像520は、画像保存部120に保存される。
【0043】
図4は、本実施形態に係る項目画像520の一例を示す図である。
図4には、
図1に示す全体画像510から切り抜かれた、項目「記号・番号」に係る項目画像520の例が示される。
【0044】
(推論部140)
本実施形態に係る推論部140は、非定型帳票を撮影した全体画像510から切り抜かれた項目画像520に含まれる対象文字の推論を行う。
【0045】
ここで、上記対象文字(列)とは、項目画像520において、予め記載された項目名称を除く文字(列)を指す。例えば、
図4に例示する項目画像520の場合、項目名称は「記号・番号」であり、対象文字は、「90・23211816」である。
【0046】
また、本実施形態に係る推論部140は、対象文字の推論結果530の正誤に係るオペレータの確認結果550に基づく教師あり学習により更新される推論器を用いて、対象文字の推論を行うことを特徴の一つとする。
【0047】
推論部140による対象文字の推論結果530は、推論結果保存部150に保存される。
【0048】
(推論結果保存部150)
本実施形態に係る推論結果保存部150は、推論部140による対象文字の推論結果530を保存する。
【0049】
なお、
図3においては、可読性の向上を目的として明示的に示してはいないが、推論結果保存部150は、エントリセンタ21に設置されるデータ入力部およびAIセンタ31に設置される学習用データ登録部310とそれぞれネットワークで接続されてよい。
【0050】
(エントリセンタ21)
本実施形態に係るエントリセンタ21では、オペレータにより、推論部140による対象文字の推論結果530の正誤確認が行われ、当該正誤確認の結果に基づくホスト220へのデータ登録処理などが実施される場である。
【0051】
本実施形態に係るエントリセンタ21には、複数のデータ入力部210、およびホスト220が設置されてもよい。
【0052】
(データ入力部210)
本実施形態に係るデータ入力部210は、エントリセンタ21に所属するオペレータにより用いられるPCなどであってもよい。
【0053】
エントリセンタ21に所属するオペレータは、データ入力部210を用いて、推論結果530の正誤確認を行う。推論結果530が正しい場合、オペレータは、推論結果530をホスト登録用データ540としてホスト220へのデータ登録処理を行う。
【0054】
一方、推論結果530が誤っている場合、オペレータは、推論結果530を正しい内容に修正したホスト登録用データ540を生成し、ホスト220へのデータ登録処理を行う。
【0055】
また、推論結果530の正誤に係るオペレータの確認結果は、AIセンタに設置される学習用データ登録部310に送信される。
【0056】
(ホスト220)
本実施形態に係るホスト220は、データ入力部210から入力されたホスト登録用データ540を保持し、またホスト登録用データ540に基づく計算処理を行う。
【0057】
(AIセンタ31)
本実施形態に係るAIセンタ31は、学習用データの登録・管理、および当該学習用データに基づく機械学習が実施される場である。
【0058】
本実施形態に係るAIセンタ31には、学習用データ登録部310および学習部320が設置される。
【0059】
(学習用データ登録部310)
本実施形態に係る学習用データ登録部310は、AIセンタ31に所属するオペレータにより用いられるPCなどであってもよい。
【0060】
AIセンタ31に所属するオペレータは、学習用データ登録部310を用いて、項目画像520および確認結果550を確認し、項目画像520および確認結果550の学習用データ(教師データ)としての適性を判断する。
【0061】
オペレータは、項目画像520および確認結果550が教師データとして適切であると判定した場合、学習用データ登録部を用いて項目画像520と確認結果550とのセットを教師データとして学習部320に登録する。
【0062】
なお、上記教師データの一部として用いられる確認結果550は、特に修正結果555であってもよい。本実施形態に係る修正結果555については別途詳細に説明する。
【0063】
一方、オペレータは、項目画像520および確認結果550が教師データとして適切ではないと判断した場合、項目画像520および確認結果550を破棄してもよい。
【0064】
(学習部320)
本実施形態に係る学習部320は、推論結果530の正誤に係るオペレータの確認結果550に基づく教師あり学習を行う。
【0065】
本実施形態に係る学習部320は、例えば、項目画像520と修正結果555とのセットを教師データとする教師あり学習を行ってもよい。
【0066】
本実施形態に係る学習部320による学習結果560は推論部140に送信され、推論部140は学習結果560に基づき推論器を更新する。
【0067】
以上、本実施形態に係る推論システム1の構成例について述べた。なお、
図3を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る推論システム1の構成はかかる例に限定されない。
【0068】
例えば、画像保存部120、推論結果保存部150等は、必ずしも拠点11に設置されなくてもよい。また、例えば、ホスト220は、必ずしもエントリセンタ21に設置されなくてもよい。
【0069】
推論システム1が備える各構成は、処理に必要な情報を他の構成からネットワークを介して取得可能であれば、設置場所は任意である。
【0070】
また、上記で述べた構成の一部は、単一の装置により実現されてもよい。例えば、画像解析部130および推論部140は、単一の情報処理装置(推論装置)に具備されてもよい。また、例えば、画像保存部120および推論結果保存部150は、単一のサーバにより実現されてもよい。
【0071】
本実施形態に係る推論システム1の構成は、仕様、運用等に応じて柔軟に変形可能である。
【0072】
<<1.3.処理の流れ>>
次に、本実施形態に係る推論システム1を用いて実施される処理の流れに着目して詳細に説明する。
図5は、本実施形態に係る推論システム1を用いて実施される処理の流れの一例を示すフローチャートである。
【0073】
まず、画像入力処理が行われる(S102)。
【0074】
ステップS102においては、まず、拠点11に所属するオペレータによる操作に基づき、画像撮影部110が非定型帳票の全体を撮影して全体画像510を生成する。画像撮影部110により生成された全体画像510は、画像保存部120に保存される。
【0075】
次に、画像解析部130による画像解析処理が行われる(S104)。
【0076】
ステップS104において、画像解析部130は、画像保存部120から取得した全体画像510から項目画像520を生成し、生成した項目画像520を画像保存部120に保存する。なお、推論の対象となる項目が複数存在する場合、画像解析部130は、1つの全体画像510から複数の項目画像520を生成してよい。
【0077】
画像解析部130は、例えば、全体画像510から検出した罫線と予め登録されている非定型帳票のフォーマットのレイアウト情報とを照合することで、項目画像520の切り出しを行ってもよい。
【0078】
この場合、画像解析部130は、例えば、全体画像510を白と黒とで2値化し、黒ピクセルが所定の長さ以上直線的に連続する領域を罫線として検出することができる。また、画像解析部130は、検出した罫線と、上記レイアウト情報に含まれる罫線および項目の位置とを照合することで、全体画像510における対象項目の位置を特定可能である。
【0079】
一方、上記の処理はあくまで一例であり、画像解析部130による項目画像520の生成手法はかかる例に限定されない。
【0080】
例えば、
図4に例示したように、項目名称の右隣りに対象文字が配置されるレイアウトである場合、画像解析部130は、全体画像510から対象となる項目名称の位置をOCR技術を用いて特定し、特定した位置の右側において黒ピクセルの密度が所定値以上である領域をトリミングすることで項目画像520を生成してもよい。この場合、罫線に関する情報がなくても項目画像520の生成が可能である。
【0081】
次に、推論部140による推論処理が実施される(S106)。
【0082】
ステップS106において、推論部140は、画像保存部120から取得した項目画像520を学習部320による教師あり学習により生成・更新される推論器に入力し、推論結果530を出力する。
【0083】
次に、エントリセンタ21においてデータ入力処理が実施される(S108)。
【0084】
ステップS108において、エントリセンタ21に所属するオペレータは、データ入力部210に接続されるディスプレイに、正誤確認がまだ完了していない推論結果530と、当該推論結果530の推論に用いられた項目画像520とを表示させる。また、オペレータは、必要に応じて全体画像510をディスプレイにさらに表示させてもよい。
【0085】
なお、全体画像510および項目画像520は画像保存部120から、推論結果530は推論結果保存部150から、それぞれネットワークを介して取得される。
【0086】
オペレータは、ディスプレイに表示される項目画像520および推論結果530を目視により比較することで推論結果530が正しいかまたは誤っているかを判断する。
【0087】
オペレータは、推論結果530が正しいと判断した場合、推論結果530をホスト登録用データ540としてホスト220へのデータ登録処理を行う。
【0088】
また、オペレータが推論結果530が正しいと判断した場合、推論結果530が正しいと確認されたことを示す確認結果550が学習用データ登録部310に送信される。
【0089】
上記の場合における確認結果550は、例えば、推論結果530、推論結果530の識別子、推論結果530が正しいことを示す符号またはテキストなどを含んでもよい。
【0090】
一方、オペレータは、推論結果530が誤っていると判断した場合、項目画像520に基づき推論結果530を修正したデータ(修正結果555)を生成し、修正結果555をホスト登録用データ540としてホスト220へのデータ登録処理を行う。
【0091】
また、オペレータが推論結果530が誤っていると判断した場合、推論結果530が誤っていると確認されたことを示す確認結果550が学習用データ登録部310に送信される。
【0092】
上記の場合における確認結果550は、例えば、推論結果530、推論結果530の識別子、修正結果555、推論結果530が誤っていることを示す符号またはテキストなどを含んでもよい。
【0093】
次に、AIセンタ31において教師データ登録処理が実施される(S110)。
【0094】
ステップS110において、AIセンタ31に所属するオペレータは、学習用データ登録部310に接続されるディスプレイに、未処理の確認結果550と当該確認結果550に紐づけられた項目画像520を表示させる。
【0095】
項目画像520は画像保存部120からネットワークを介して取得される。また、確認結果550に推論結果530が含まれていない場合、確認結果550に含まれる識別子をキーとして推論結果530が推論結果保存部150から取得される。
【0096】
オペレータは、推論結果530または修正結果555と、項目画像520とを目視により確認し、教師データとしての適性を判断する。
【0097】
例えば、項目画像520に対象文字以外の余分な情報(抹消線など)が含まれている場合、オペレータは、推論結果530または修正結果555と項目画像520とのセットが教師データとして適切ではないと判断し、当該データを破棄してもよい。
【0098】
一方、オペレータは、推論結果530または修正結果555と項目画像520とのセットが教師データとして適切であると判断した場合、当該セットを教師データとして学習部320に登録する。
【0099】
特に、推論結果530が誤っていた場合に生成される修正結果555と項目画像520のセットは、推論のロバスト性を高める教師データとして非常に有用である。
【0100】
上記のようなセットを教師データとして学習を行うことにより、手書き文字等、様々なバリエーションの対象文字に係る推論精度が効果的に向上することが期待される。
【0101】
なお、推論結果530が正しい場合における当該推論結果530と項目画像520のセットもまた教師データとして有用であるが、推論精度が上がるほど数が膨大になることが予測される。
【0102】
このため、オペレータは、修正結果555と項目画像520のセットのみを教師データとして登録してもよいし、教師データの数が不足する場合に推論結果530と項目画像520のセットを教師データとして登録してもよい。
【0103】
次に、学習部320による再学習処理が行われる(S112)。
【0104】
ステップS112において、学習部320は、ステップS110において登録された教師データを用いた再学習を行う。
【0105】
学習部320は、再学習が完了した場合、ネットワークを介して学習結果560を推論部140に送信する。
【0106】
学習結果560は、再学習により更新された各種のパラメータに関する情報を含んでもよい。上記パラメータの例としては、推論器を構成するニューラルネットワークにおいて用いられる重み、活性化関数のパラメータ等が挙げられる。
【0107】
次に、推論部140による学習結果反映処理が実施される(S114)。
【0108】
ステップS114において、推論部140は、学習部320から受信した学習結果560に基づいて推論器を更新する。
【0109】
以上、本実施形態に係る推論システム1を用いて実施される処理の流れについて、一例を挙げて説明した。
【0110】
なお、ステップS102における画像入力処理~S108におけるデータ入力処理は、非定型帳票のデータ化するための業務として即時的に行われることを想定する。一方、ステップS110における教師データ登録処理~ステップS114における学習結果反映処理は、週次または月次で行われてもよい。または、ステップS112における再学習処理は教師データが十分な量登録された場合に実施されてもよい。
【0111】
以上説明したような処理によれば、日々のデータ化作業で教師データを蓄積し、業務を積み重ねることにより推論部140による推論精度を向上させる仕組みが実現される。
【0112】
また、以上説明したような処理によれば、外部からの情報取得に頼らずに学習用データを確保することが可能である。このため、ローカルネットワーク内でクローズすることができ、セキリティ要件が強い業務においても導入できる。
【0113】
<2.ハードウェア構成>
続いて、本発明の一実施形態に係る推論部140を備える推論装置のハードウェア構成例について説明する。以下では、本発明の一実施形態に係る推論部140を備える推論装置のハードウェア構成例として、情報処理装置900のハードウェア構成例について説明する。
【0114】
なお、以下に説明する情報処理装置900のハードウェア構成例は、一例に過ぎない。したがって、推論部140を備える推論装置のハードウェア構成は、以下に説明する情報処理装置900のハードウェア構成から不要な構成が削除されてもよいし、新たな構成が追加されてもよい。
【0115】
図6は、本発明の一実施形態に係る推論部140を備える推論装置の例としての情報処理装置900のハードウェア構成を示す図である。情報処理装置900は、プロセッサ901と、ROM(Read Only Memory)902と、RAM(Random Access Memory)903と、ホストバス904と、ブリッジ905と、外部バス906と、インタフェース907と、入力装置908と、出力装置909と、ストレージ装置910と、通信装置911と、を備える。
【0116】
プロセッサCPU901は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置900内の動作全般を制御する。ROM902は、プロセッサCPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、プロセッサCPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバス等から構成されるホストバス904により相互に接続されている。
【0117】
ホストバス904は、ブリッジ905を介して、PCI(Peripheral Component Interconnect/Interface)バス等の外部バス906に接続されている。なお、必ずしもホストバス904、ブリッジ905および外部バス906を分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
【0118】
入力装置908は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバー等ユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、プロセッサCPU901に出力する入力制御回路等から構成されている。情報処理装置900を操作するユーザは、この入力装置908を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。
【0119】
出力装置909は、例えば、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Diode)装置、ランプ等の表示装置およびスピーカ等の音声出力装置を含む。
【0120】
ストレージ装置910は、データ格納用の装置である。ストレージ装置910は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含んでもよい。ストレージ装置910は、例えば、HDD(Hard Disk Drive)で構成される。このストレージ装置910は、ハードディスクを駆動し、プロセッサCPU901が実行するプログラムや各種データを格納する。
【0121】
通信装置911は、例えば、ネットワークに接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置911は、無線通信または有線通信のどちらに対応してもよい。
【0122】
以上、本発明の一実施形態に係る推論部140を備える推論装置の例としての情報処理装置900のハードウェア構成例について説明した。
【0123】
<3.むすび>
以上説明したように、本発明の一実施形態に係る推論装置は、非定型帳票を撮影した全体画像510から切り抜かれた項目画像520に含まれる対象文字の推論を行う推論部140を備える。また、本発明の一実施形態に係る推論部140は、上記対象文字の推論結果の正誤に係るオペレータの確認結果550に基づく教師あり学習により更新される推論器を用いて、上記対象文字の推論を行うことを特徴の一つとする。
【0124】
上記のような構成によれば、より容易に学習用データを確保し、文字推論精度を向上させることが可能となる。
【0125】
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
【0126】
また、本明細書において説明した処理に係る各ステップは、必ずしもフローチャートやシーケンス図に記載された順序に沿って時系列に処理される必要はない。例えば、各装置の処理に係る各ステップは、記載された順序と異なる順序で処理されても、並列的に処理されてもよい。
【0127】
また、本明細書において説明した各装置による一連の処理は、コンピュータにより読み取り可能な非一過性の記憶媒体(non-transitory computer readable storage medium)に格納されるプログラムにより実現されてもよい。各プログラムは、例えば、コンピュータによる実行時にRAMに読み込まれ、CPUなどのプロセッサにより実行される。上記記憶媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のプログラムは、記憶媒体を用いずに、例えばネットワークを介して配信されてもよい。
【符号の説明】
【0128】
1 推論システム
110 画像撮影部
120 画像保存部
130 画像解析部
140 推論部
150 推論結果保存部
210 データ入力部
220 ホスト
310 学習用データ登録部
320 学習部
510 全体画像
520 項目画像
530 推論結果
540 ホスト登録用データ
550 確認結果
555 修正結果
560 学習結果