IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7512764学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラム
<>
  • 特許-学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラム 図1
  • 特許-学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラム 図2
  • 特許-学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラム 図3
  • 特許-学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラム 図4
  • 特許-学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラム 図5
  • 特許-学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラム 図6
  • 特許-学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラム 図7
  • 特許-学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラム 図8
  • 特許-学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラム 図9
  • 特許-学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-01
(45)【発行日】2024-07-09
(54)【発明の名称】学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラム
(51)【国際特許分類】
   G06N 20/00 20190101AFI20240702BHJP
【FI】
G06N20/00
【請求項の数】 11
(21)【出願番号】P 2020140203
(22)【出願日】2020-08-21
(65)【公開番号】P2022035703
(43)【公開日】2022-03-04
【審査請求日】2023-05-11
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】遠藤 進
(72)【発明者】
【氏名】前田 一穂
【審査官】北川 純次
(56)【参考文献】
【文献】中国特許出願公開第110852065(CN,A)
【文献】中国特許出願公開第111444706(CN,A)
【文献】特開2020-71608(JP,A)
【文献】特開2019-191654(JP,A)
【文献】特開2012-208664(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00
G06N 3/02
G06Q 50/00
(57)【特許請求の範囲】
【請求項1】
書類の修正履歴を含む複数の事例の学習用データをもとに、前記事例ごとに、当該事例の書類に含まれる項目を含む説明変数を生成し、
前記学習用データをもとに、前記事例ごとに、当該事例の書類に含まれる項目それぞれに対して所定の演算を行った結果が前記修正履歴と一致するか否かを含む目的変数を生成し、
生成した前記説明変数および前記目的変数に基づいて前記各事例の機械学習を行い、モデルを生成する、
処理を制御部が実行することを特徴とする学習装置。
【請求項2】
前記目的変数を生成する処理は、前記事例の複数の書類に含まれる共通の項目に対して前記所定の演算を行った結果が前記修正履歴と一致するか否かを含む前記目的変数を生成する、
ことを特徴とする請求項1に記載の学習装置。
【請求項3】
前記所定の演算は、前記共通の項目における最大値、2番目の値または総和のいずれかを求める、
ことを特徴とする請求項2に記載の学習装置。
【請求項4】
前記説明変数を生成する処理は、前記項目それぞれに対して所定の演算を行った結果を前記説明変数に含める、
ことを特徴とする請求項1乃至3のいずれか一項に記載の学習装置。
【請求項5】
書類の修正履歴を含む複数の事例の学習用データをもとに、前記事例ごとに、当該事例の書類に含まれる項目を説明変数とし、前記事例の書類に含まれる項目それぞれに対して所定の演算を行った結果が前記修正履歴と一致するか否かを目的変数として機械学習したモデルに対して、判定対象の書類に含まれる各項目を入力し、
前記モデルからの出力に基づいて、前記判定対象の書類に含まれる項目それぞれにおいて一致すると判定した演算の内容を出力する、
処理を制御部が実行することを特徴とする判定装置。
【請求項6】
前記出力する処理は、前記判定対象の書類に含まれる項目それぞれにおいて一致すると判定した演算による演算結果を含める、
ことを特徴とする請求項5に記載の判定装置。
【請求項7】
前記出力する処理は、前記一致すると判定した演算の内容における、前記モデルからの出力に基づく確度を含める、
ことを特徴とする請求項5または6に記載の判定装置。
【請求項8】
書類の修正履歴を含む複数の事例の学習用データをもとに、前記事例ごとに、当該事例の書類に含まれる項目を含む説明変数を生成し、
前記学習用データをもとに、前記事例ごとに、当該事例の書類に含まれる項目それぞれに対して所定の演算を行った結果が前記修正履歴と一致するか否かを含む目的変数を生成し、
生成した前記説明変数および前記目的変数に基づいて前記各事例の機械学習を行い、モデルを生成する、
処理をコンピュータが実行することを特徴とする学習方法。
【請求項9】
書類の修正履歴を含む複数の事例の学習用データをもとに、前記事例ごとに、当該事例の書類に含まれる項目を説明変数とし、前記事例の書類に含まれる項目それぞれに対して所定の演算を行った結果が前記修正履歴と一致するか否かを目的変数として機械学習したモデルに対して、判定対象の書類に含まれる各項目を入力し、
前記モデルからの出力に基づいて、前記判定対象の書類に含まれる項目それぞれにおいて一致すると判定した演算の内容を出力する、
処理をコンピュータが実行することを特徴とする判定方法。
【請求項10】
書類の修正履歴を含む複数の事例の学習用データをもとに、前記事例ごとに、当該事例の書類に含まれる項目を含む説明変数を生成し、
前記学習用データをもとに、前記事例ごとに、当該事例の書類に含まれる項目それぞれに対して所定の演算を行った結果が前記修正履歴と一致するか否かを含む目的変数を生成し、
生成した前記説明変数および前記目的変数に基づいて前記各事例の機械学習を行い、モデルを生成する、
処理をコンピュータに実行させることを特徴とする学習プログラム。
【請求項11】
書類の修正履歴を含む複数の事例の学習用データをもとに、前記事例ごとに、当該事例の書類に含まれる項目を説明変数とし、前記事例の書類に含まれる項目それぞれに対して所定の演算を行った結果が前記修正履歴と一致するか否かを目的変数として機械学習したモデルに対して、判定対象の書類に含まれる各項目を入力し、
前記モデルからの出力に基づいて、前記判定対象の書類に含まれる項目それぞれにおいて一致すると判定した演算の内容を出力する、
処理をコンピュータに実行させることを特徴とする判定プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラムに関する。
【背景技術】
【0002】
従来、窓口等で提出された種々の書類については、書類間の整合性をチェックし、不整合のある項目を職員が修正している。例えば、税業務の窓口では、毎年、多くの申告書類が提出されている。提出された書類は、職員が、住民の基本情報や雇用元の提出書類と突き合わせて、間違いが無いかをチェックしている。
【0003】
図10は、書類不備の修正の一例を説明する説明図である。図10に示すように、住民H1は、確定申告書D1および住民税申告書D2を市役所に提出する。また、住民H1の勤務先K1、K2は、住民H1に関する給与支払報告書D3、D4を提出する。また、年金機構K3は、住民H1に関する年金支払報告書D5を提出する。市役所の職員H2は、提出された確定申告書D1、住民税申告書D2、給与支払報告書D3、D4および年金支払報告書D5の各項目の記載を比較する。そして、職員H2は、不整合のある項目を検出し、その項目のデータを修正する。
【0004】
このような、書類間の不備のチェック作業をサポートする従来技術としては、請求審査サーバが、請求書と明細書の記載内訳に対する点検を通過した請求書と明細書に対し、報価、薬価、診療報価のような基準単価適用、請求金額の計算、給与請求項目および診療コードのような事項に錯誤があるかどうかを自動的に点検するものが知られている。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2007-241986号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上記の従来技術では、書類から不備のある事項を容易に把握できるが、その不備をどのように修正するかについては、書類の内容を確認した職員の判断を要することとなる。このように、従来技術では、請求審査サーバが点検して得られた不備のある事項を修正するためには、職員が書類間の突き合わせなどを行って修正方法を求める作業を要するという問題がある。
【0007】
1つの側面では、書類の修正作業を支援できる学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
1つの案では、学習装置は、説明変数を生成する処理と、目的変数を生成する処理と、モデルを生成する処理とを制御部が実行する。説明変数を生成する処理は、書類の修正履歴を含む複数の事例の学習用データをもとに、事例ごとに、当該事例の書類に含まれる項目を含む説明変数を生成する。目的変数を生成する処理は、学習用データをもとに、事例ごとに、当該事例の書類に含まれる項目それぞれに対して所定の演算を行った結果が修正履歴と一致するか否かを含む目的変数を生成する。モデルを生成する処理は、生成した説明変数および目的変数に基づいて各事例の機械学習を行い、モデルを生成する。
【発明の効果】
【0009】
書類の修正作業を支援できる。
【図面の簡単な説明】
【0010】
図1図1は、実施形態にかかる情報処理装置の機能構成例を示すブロック図である。
図2図2は、実施形態にかかる情報処理装置の学習時の動作例を示すフローチャートである。
図3図3は、目的変数の生成を説明する説明図である。
図4図4は、目的変数生成処理の一例を示すフローチャートである。
図5図5は、学習モデル生成を説明する説明図である。
図6図6は、実施形態にかかる情報処理装置の識別時の動作例を示すフローチャートである。
図7図7は、学習モデルを用いた識別を説明する説明図である。
図8図8は、表示画面例を説明する説明図である。
図9図9は、コンピュータ構成の一例を示すブロック図である。
図10図10は、書類不備の修正の一例を説明する説明図である。
【発明を実施するための形態】
【0011】
以下、図面を参照して、実施形態にかかる学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラムを説明する。実施形態において同一の機能を有する構成には同一の符号を付し、重複する説明は省略する。なお、以下の実施形態で説明する学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラムは、一例を示すに過ぎず、実施形態を限定するものではない。また、以下の各実施形態は、矛盾しない範囲内で適宜組みあわせてもよい。
【0012】
図1は、実施形態にかかる情報処理装置の機能構成例を示すブロック図である。図1に示すように、情報処理装置1は、情報取得部10、演算取得部11、修正項目抽出部12、対応資料抽出部13、目的変数生成部14、説明変数生成部15、学習部16、モデル保存部17、入力部18、識別部19、候補値生成部20および出力部21を有する。
【0013】
この情報処理装置1は、学習装置および判定装置の一例である。なお、学習装置および判定装置は一つの情報処理装置1で実現してもよいが、分割して実現してもよい。例えば、情報処理装置1は、情報取得部10、演算取得部11、修正項目抽出部12、対応資料抽出部13、目的変数生成部14、説明変数生成部15、学習部16およびモデル保存部17を有する学習装置であってもよい。また、情報処理装置1は、入力部18、識別部19、候補値生成部20および出力部21を有する判定装置であってもよい。
【0014】
情報取得部10は、提出書類から不備のある事項を判別するための学習モデルM1の学習用に予め用意された、書類の修正履歴を含む各事例の学習用データ30を取得する。情報取得部10は、取得した学習用データ30を演算取得部11、修正項目抽出部12および説明変数生成部15へ出力する。
【0015】
例えば、学習用データ30は、各事例について、書類の内容(例えば各項目における記入値)と、不備のある事項を修正した修正履歴(例えば不備のある項目と、その項目における修正値)とを含むデータである。
【0016】
演算取得部11は、復元演算情報31を参照し、学習用データ30の各事例において、書類に含まれる項目それぞれに対し、復元演算情報31に定義された演算を行う処理部である。
【0017】
ここで、復元演算情報31には、書類に含まれる項目それぞれについて、不備がある場合に、職員H2が行う典型的な修正を復元する演算(復元演算と呼ぶ)が定義されている。
【0018】
例えば、提出書類における不備として、ある資料(資料)の項目のおける値が、他の資料に既に含まれている場合がある。一例として、給与支払報告書D3、D4など給与資料において、給与支払報告書D4の給料の項目には、給与支払報告書D3の給料の項目を加算した値が含まれている場合がある(図10参照)。このような場合、復元演算として、2つの値の最大値を用いれば、給料の合計を計算できる。
【0019】
同様に、提出書類における不備として、他の資料には含まれておらず、別々に計上されている場合がある。一例として、給与支払報告書D3、D4など給与資料において、給与支払報告書D3の給料の項目には、勤務先K1の給料が計上されており、給与支払報告書D4の給料の項目には勤務先K2の給料が計上されている場合がある(図10参照)。このような場合、復元演算として、2つの値の最大値を用いれば、給料の合計を計算できる。また、すでに別の項目に加算済みの項目を間違えて加算してしまった場合には、復元演算として、減算することで、正しい値を復元できる。
【0020】
このように、復元演算情報31には、書類に含まれる項目それぞれにおいて職員H2が行う典型的な修正内容に対応する復元演算が定義されている。この復元演算としては、書類で共通する項目同士の総和(加算と呼ぶ)、最大値への置き換え(最大値と呼ぶ)、2番目の値への置き換え(2番目と呼ぶ)などがある。復元演算情報31には、確定申告書D1、住民税申告書D2、給与支払報告書D3、D4、年金支払報告書D5等の各書類およびその書類に含まれる項目ごとの、典型的な修正内容に対応する復元演算(例えば、最大値、2番目、加算)が定義される。
【0021】
なお、本実施形態では復元演算として、最大値、2番目、加算を例示するが、他にも項目に関して所定の控除額を算出する復元演算や、項目同士を積算する復元演算などを復元演算情報31の定義に含めてもよい。
【0022】
演算取得部11は、学習用データ30の各事例において、書類に含まれる項目それぞれに対し、復元演算情報31に定義された復元演算を一通り実施して得られた演算結果を目的変数生成部14および説明変数生成部15へ出力する。
【0023】
修正項目抽出部12は、学習用データ30に含まれる修正履歴に基づき、学習用データ30の各事例において、書類の中で修正のあった項目(修正項目と呼ぶ)を抽出する処理部である。修正項目抽出部12は、抽出した修正項目を対応資料抽出部13へ出力する。
【0024】
対応資料抽出部13は、学習用データ30に含まれる修正履歴に基づき、修正項目抽出部12が抽出した修正項目に対応する書類(対応資料と呼ぶ)を抽出する処理部である。対応資料抽出部13は、抽出した対応資料および修正項目を目的変数生成部14へ出力する。
【0025】
目的変数生成部14は、学習用データ30の各事例について、学習モデルM1の学習に用いる目的変数を生成する処理部である。具体的には、目的変数生成部14は、学習用データ30の事例の書類に含まれる項目それぞれに対して復元演算を行った結果が学習用データ30に含まれる修正履歴と一致するか否かを含む目的変数を生成する。
【0026】
例えば、目的変数生成部14は、演算取得部11による各項目の復元演算の結果について、修正項目抽出部12および対応資料抽出部13により抽出した対応資料および修正項目における、学習用データ30の修正履歴に含まれる修正値と一致するか否かを比較する。次いで、目的変数生成部14は、一致する場合は、一致することを示す1を目的変数とする。なお、一致しない項目および修正項目に該当しない他の項目については不一致を示す0を目的変数とする。
【0027】
このように、目的変数生成部14は、学習用データ30の事例の書類に含まれる項目それぞれについて、所定の復元演算が修正履歴と一致する(1)または一致しない(0)を含む目的変数を生成する。一例として、目的変数生成部14は、書類別(例えば給与資料)×項目別(例えば給与所得)×復元演算別(例えば最大値、2番目、加算)で、修正履歴と一致する(1)または一致しない(0)を示す配列を目的変数として生成する。
【0028】
説明変数生成部15は、学習用データ30の各事例について、学習モデルM1の学習に用いるための、各事例の特徴を示す説明変数を生成する処理部である。具体的には、説明変数生成部15は、学習用データ30の各事例の書類に含まれる各項目(年齢、家族関係、給与所得…)の値を含む説明変数を生成する。また、説明変数生成部15は、学習用データ30の各事例について、演算取得部11が算出した各項目における復元演算の結果を説明変数に含めてもよい。
【0029】
学習部16は、学習用データ30の各事例について、説明変数生成部15が生成した説明変数と、目的変数生成部14が生成した目的変数とをもとに、公知の機械学習処理を行うことで学習モデルM1を生成する処理部である。学習部16が行う機械学習処理としては、決定木、ランダムフォレスト、ディープラーニング等がある。例えば、ディープラーニングの場合、学習部16は、説明変数生成部15が生成した説明変数を入力した場合に、目的変数生成部14が生成した目的変数に対応する出力を行うように隠れ層のパラメータを求めることで、学習モデルM1を生成する。
【0030】
また、学習部16は、目的変数における書類別(例えば給与資料)×項目別(例えば給与所得)×復元演算別(例えば最大値、2番目、加算)で説明変数に対する学習を実施し、項目×書類(資料)×復元演算別で学習モデルM1を生成してもよい。
【0031】
モデル保存部17は、学習部16が作成した学習モデルM1をストレージ(図示しない)などに保存する処理部である。具体的には、モデル保存部17は、学習部16が生成した学習モデルM1に関する各種パラメータを保存する。
【0032】
入力部18は、判定対象の事例に関する識別用データ32の入力を受け付ける処理部である。具体的には、識別用データ32には、判定対象の事例において、住民H1が提出した判定対象の書類に含まれる各項目の値が含まれる。入力部18は、受け付けた識別用データ32より、判定対象の書類に含まれる各項目の値を説明変数として識別部19へ出力する。
【0033】
なお、入力部18は、復元演算情報31を参照し、判定対象の書類に含まれる項目それぞれに対し、復元演算情報31に定義された復元演算を一通り実施して得られた演算結果を説明変数に含めてもよい。
【0034】
識別部19は、判定対象の事例に関する説明変数を学習モデルM1に入力して、判定対象の事例の判別結果を取得する処理部である。具体的には、識別部19は、モデル保存部17が保存した学習モデルM1のパラメータを読み出して学習モデルM1を構築する。次いで、識別部19は、学習モデルM1に対して入力部18からの説明変数、すなわち判定対象の書類に含まれる各項目の値を入力する。次いで、識別部19は、学習モデルM1の出力より、判定対象の書類に含まれる項目それぞれにおいて、所定の復元演算による修正の有無を示す確度(評価値)を得る。
【0035】
次いで、識別部19は、評価値が所定の閾値(例えば確度0.5)以上である項目を一致するもの(修正要)と判定し、その項目と、項目における復元演算を判別結果として出力する。例えば、識別部19は、書類別(例えば給与資料)×項目別(例えば給与所得)×復元演算別(例えば最大値、2番目、加算)で確度0.5以上の出力が得られたものを、判別結果として出力する。
【0036】
候補値生成部20は、識別部19が出力した判定結果をもとに、修正後の候補値を生成する処理部である。具体的には、候補値生成部20は、判定対象の書類において、判別結果に含まれる項目に対して判別した復元演算を行うことで修正後の候補値を生成する。
【0037】
例えば、候補値生成部20は、書類別(例えば給与資料)×項目別(例えば給与所得)×復元演算別(例えば最大値、2番目、加算)で確度0.5以上の出力が得られたものについて、復元演算情報31を参照して演算内容を取得する。次いで、候補値生成部20は、判定対象の書類に含まれる項目の中の、判別結果に含まれる項目の値を取得し、復元演算情報31より取得した演算内容での演算を行うことで、修正後の候補値を得る。
【0038】
出力部21は、判定対象の事例に関する識別部19の判別結果および候補値生成部20が生成した候補値を、ディスプレイへの表示やファイル出力などでユーザに対して出力する処理部である。
【0039】
具体的には、出力部21は、判定対象の事例の書類において修正要と判定した項目(例えば給与所得など)と、その項目における復元演算の内容(例えば最大値など)をディスプレイなどに表示する。これにより、ユーザは、判定対象の書類に含まれる各項目から、修正要の項目と、修正内容に対応する演算の内容とを容易に特定することができる。
【0040】
また、出力部21は、修正要と判定した項目について、修正後の候補値を合わせて出力してもよい。これにより、ユーザは、修正要の項目について、修正後の値を容易に特定することができる。
【0041】
また、出力部21は、修正要と判定した項目について、学習モデルM1の出力により得られた修正の有無を示す確度(評価値)を合わせて出力してもよい。これにより、ユーザは、修正要の項目について、どの程度の確度で修正要と判断されたかを容易に知ることができる。
【0042】
図2は、実施形態にかかる情報処理装置1の学習時の動作例を示すフローチャートである。図2に示すように、処理が開始されると、情報取得部10は、学習用データ30を取得する(S1)。次いで、目的変数生成部14は、学習用データ30の各事例について、学習モデルM1の学習に用いる目的変数を生成する(S2)。
【0043】
図3は、目的変数の生成を説明する説明図である。図3に示すように、学習用データ30については、書類の内容(例えば各項目における記入値)を示す資料情報30aと、不備のある事項を修正した修正履歴30bとが含まれる。
【0044】
図3では、ユーザU1の事例に関する資料情報30aおよび修正履歴30bを例示している。ここで、資料情報30aにおいて、給与資料(1)は、甲種給与所得の項目が「30」であり、退職所得の項目が「100」である。また、給与資料(2)は、甲種給与所得、退職所得ともに項目は「0」である。また、給与資料(3)は、甲種給与所得の項目が「0」であり、退職所得の項目が「80」である。また、修正履歴30bにおいて、「甲種給与所得」は「0」から「30」に修正し、「退職所得」は「80」から「100」に修正する。
【0045】
演算取得部11は、資料情報30aの資料(書類)に含まれる項目それぞれに対し、復元演算情報31に定義された復元演算(最大値、2番目、加算)を行い、演算結果30cを得る。
【0046】
目的変数生成部14は、各項目の演算結果30cについて、修正履歴30bの修正後の値(甲種給与所得における「30」および退職所得における「100」)と値が一致するか否かを比較する。ここで、目的変数生成部14は、一致する場合は1、不一致ならば0とすることで、目的変数30dを得る。
【0047】
図4は、目的変数生成処理の一例を示すフローチャートである。図4に示すように、処理が開始されると、情報取得部10は、学習用データ30より、変更前/変更後のデータ(修正履歴30b)を取得する(S10)。次いで、情報取得部10は、処理対象のユーザ(事例)と、そのユーザの資料情報30aを学習用データ30より取得する(S11)。取得した情報について、情報取得部10は、演算取得部11、修正項目抽出部12および説明変数生成部15へ出力する。
【0048】
次いで、修正項目抽出部12は、修正履歴30bから変更された項目を取得する(S13)。次いで、演算取得部11は、資料種別の値のリストを取得する(S14)。
【0049】
次いで、演算取得部11は、資料情報30aの資料(書類)に含まれる項目それぞれに対して復元演算を行い、演算結果30c(最大値、2番目、加算)を求める(S15)。
【0050】
次いで、目的変数生成部14は、演算結果30cの値の一つを取得し(S16)、演算結果30cの値に修正履歴30bにおける変更後の値が一致するか否かを判定する(S17)。
【0051】
一致する場合(S17:Yes)、目的変数生成部14は、項目×資料種別×演算の対応する部分を1にセットする(S18)。一致しない場合(S17:No)、目的変数生成部14は、1へのセットを行うことなくS19へ処理を進める。
【0052】
次いで、目的変数生成部14は、すべての演算結果30cを処理したか否かを判定する(S19)。全ての演算結果30cを処理していない場合(S19:No)、目的変数生成部14は、次の演算結果30cの値を取得し(S20)、S16へ処理を戻す。
【0053】
すべての演算結果30cを処理した場合(S19:Yes)、目的変数生成部14は、すべての資料(書類)の値をチェックしたか否かを判定する(S21)。すべての資料(書類)の値をチェックしていない場合(S21:No)、演算取得部11は、次の資料種別の値のリストを取得し(S20)、S15へ処理を戻す。
【0054】
すべての資料(書類)の値をチェックした場合(S21:Yes)、目的変数生成部14は、すべての変更された項目をチェックしたか否かを判定する(S23)。すべての変更された項目をチェックしていない場合(S23:No)、目的変数生成部14は、次の変更された項目を取得し(S24)、S14へ処理を戻す。
【0055】
すべての変更された項目をチェックした場合(S23:Yes)、目的変数生成部14は、学習用データ30に含まれるすべてのユーザ(事例)を処理したか否かを判定する(S25)。すべてのユーザ(事例)を処理していない場合(S25:No)、情報取得部10は、次のユーザと資料情報30aを学習用データ30より取得し(S26)、S13へ処理を戻す。
【0056】
すべてのユーザ(事例)を処理した場合(S25:Yes)、目的変数生成部14は、項目×資料×演算で、1となっている部分以外を0とした行列を目的変数として作成し(S27)、処理を終了する。
【0057】
図2に戻り、S2に次いで、学習部16は、学習用データ30の各事例について、説明変数生成部15が生成した説明変数と、目的変数生成部14が生成した目的変数とをもとに、項目×資料×演算別で機械学習を実施する(S3)。次いで、モデル保存部17は、機械学習により生成された学習モデルM1をストレージ等に保存する(S3)。
【0058】
図5は、学習モデル生成を説明する説明図である。図5に示すように、説明変数生成部15は、学習用データ30の各事例の書類に含まれる各項目(年齢、家族関係、給与所得…)の値を含む資料情報30aと、演算取得部11が算出した各項目における演算結果30cとを合わせて説明変数30eを生成する。学習部16は、目的変数における項目×資料×演算別で説明変数に対する学習を実施し、項目×資料×演算別の学習モデルM1を生成する。
【0059】
図6は、実施形態にかかる情報処理装置1の識別時の動作例を示すフローチャートである。図6に示すように、処理が開始されると、入力部18は、識別用データ32を取得する(S30)。
【0060】
次いで、識別部19は、識別用データ32により判定対象の書類に含まれる項目を取得する(S31)。次いで、識別部19は、モデル保存部17の保存した学習モデルM1から、取得した項目で対応する学習モデルM1を取得する(S32)。
【0061】
次いで、識別部19は、取得したモデルに項目の値を入力することで、項目に関する識別を行い、評価値が高いモデルを選択する(S33)。次いで、候補値生成部20は、モデルに対応する資料の値を識別用データ32より取得し、復元演算を行うことで修正後の候補値を抽出する(S34)。
【0062】
次いで、出力部21は、ディスプレイへの表示などにより、識別用データ32の判別対象の事例に関する識別部19の判別結果および候補値生成部20が生成した候補値の結果出力を行い(S35)、処理を終了する。
【0063】
図7は、学習モデルを用いた識別を説明する説明図である。図7に示すように、学習モデルM1の学習については、ユーザU1、U2、U3…の各事例の特徴を説明変数30eとする。また、各事例の書類に含まれる項目それぞれに対して復元演算を行った結果が修正履歴30bと一致するか否かを示す行列を修正履歴30bとしている。これにより、項目別(例えば給与所得)×書類別(例えば給与資料)×復元演算別(例えば最大値、2番目、加算)の学習モデルM1が生成される。
【0064】
情報処理装置1では、判別対象の事例(ユーザX1、X2、X3…)の識別用データ32より、説明変数に対応する値を設定して生成した学習モデルM1での判別を行う。これにより、判別対象の事例(ユーザX1、X2、X3…)について、項目別(例えば給与所得)×書類別(例えば給与資料)×復元演算別(例えば最大値、2番目、加算)の評価値(確度)を得ることができる。この評価値を所定の閾値(例えば0.5)で評価することで、情報処理装置1では、修正要とする書類別の項目と、その項目における復元演算の内容を判別できる。
【0065】
例えば、判別用の閾値を0.5とする場合、ユーザX1の事例については、評価値が0.6である甲種給与所得×給与資料×加算を、修正要とする書類別の項目と、その項目における復元演算の内容と判別できる。
【0066】
情報処理装置1では、上記の判別内容を出力結果32bとしてディスプレイなどに表示して出力する。これにより、ユーザは、修正要とする書類別の項目と、修正内容に対応する演算の内容とを容易に特定することができる。
【0067】
図8は、表示画面例を説明する説明図である。図8に示すように、出力部21は、ディスプレイへの表示画面G1において、識別用データ32に含まれる判別対象の事例の書類内容(確定申告書、給与支払報告書、年金支払報告書)を表示する。また、出力部21は、表示画面G1において、判別対象の事例に関する出力結果32bに基づくメッセージM01、M02を表示する。
【0068】
例えば、メッセージM01については、「「特定扶養」は併合時に確定申告書の「1人」を採用しましたが、90%の確率で修正が必要です。修正候補は、確率の高い順に、給与支払い申告書の「2人」、年金支払報告書の「0人」です。」などである。
【0069】
また、メッセージM02については、「「給与収入」は併合時に確定申告書記載の「37万円」を採用しましたが、80%の確率で修正が必要です。修正候補は、確率の高い順に、給与支払い申告書の最大値である「39万円」、給与支払い申告書のその他収入を引いた値である「35万円」です。」などである。
【0070】
これにより、ユーザは、判別対象の事例の書類内容を見比べながら、メッセージM01、M02における修正要とする書類別の項目、修正内容に対応する演算の内容、修正後の値、修正要と判断された確度を確認することができる。
【0071】
(効果)
以上のように、情報処理装置1は、書類の修正履歴を含む複数の事例の学習用データ30をもとに、事例ごとに、事例の書類に含まれる各項目を含む説明変数を生成する。また、情報処理装置1は、学習用データ30をもとに、事例ごとに、事例の書類に含まれる項目それぞれに対して所定の演算を行った結果が修正履歴と一致するか否かを含む目的変数を生成する。また、情報処理装置1は、生成した説明変数および目的変数に基づいて各事例の機械学習を行い、学習モデルM1を生成する。
【0072】
このように生成した学習モデルM1では、判定対象の事例の書類に含まれる各項目を含む説明変数を入力することで、学習モデルM1の出力から修正すべき項目と、その項目において修正内容に対応する演算とを推定できる。すなわち、学習モデルM1を用いることで、判定対象の事例の書類の項目における修正方法を推定して提示できるようになり、書類の修正作業を支援できる。
【0073】
また、情報処理装置1の目的変数を生成する処理は、事例の複数の書類に含まれる共通の項目に対して所定の演算を行った結果が修正履歴と一致するか否かを含む目的変数を生成する。これにより、生成した学習モデルM1では、複数の書類に含まれる共通の項目について、正すべき項目と、その項目において修正内容に対応する演算とを推定できる。例えば、判定対象の事例の給与支払報告書D3、D4において共通する項目(例えば給与所得、退職所得…)から、修正すべき項目(例えば給与所得)と、その項目において修正内容に対応する演算(例えば加算)とを推定できる。
【0074】
また、所定の演算は、共通の項目における最大値、2番目の値または総和のいずれかを求めるものである。これにより、共通の項目における最大値、2番目の値または総和のいずれかの演算(修正内容)を推定することができる。
【0075】
また、情報処理装置1の説明変数を生成する処理は、項目それぞれに対して所定の演算を行った結果を説明変数に含める。このように、項目それぞれに対して所定の演算を行った結果も説明変数として加えて学習モデルM1を生成することで、学習モデルM1の判定精度を向上させることができる。
【0076】
また、情報処理装置1は、上記の学習モデルM1に対して、識別用データ32が示す判定対象の書類に含まれる各項目を入力する。ついで、情報処理装置1は、学習モデルM1からの出力に基づいて、判定対象の書類に含まれる項目それぞれにおいて一致すると判定した演算の内容を出力する。これにより、ユーザは、判定対象の書類に含まれる各項目から、修正内容に対応する演算の内容と、その演算にかかる項目(修正すべき項目)とを容易に特定することができる。
【0077】
また、情報処理装置1は、出力において、判定対象の書類に含まれる項目それぞれにおいて一致すると判定した演算による演算結果を含める。これにより、ユーザは、修正内容に対応する演算による演算結果、すなわち修正後の値を容易に特定することができる。
【0078】
また、情報処理装置1は、出力において、一致すると判定した演算の内容における、学習モデルM1からの出力に基づく確度を含める。これにより、ユーザは、学習モデルM1に基づいて判定した修正内容が、どの程度の確度であるかを容易に知ることができる。
【0079】
(その他)
なお、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、情報処理装置1については、学習モデルM1を生成する構成と、生成した学習モデルM1をもとに判定する構成とを分散してもよい。
【0080】
また、情報処理装置1の各種処理機能(情報取得部10、演算取得部11、修正項目抽出部12、対応資料抽出部13、目的変数生成部14、説明変数生成部15、学習部16、モデル保存部17、入力部18、識別部19、候補値生成部20および出力部21)は、CPU(またはMPU、MCU(Micro Controller Unit)等のマイクロ・コンピュータ)上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、CPU(またはMPU、MCU等のマイクロ・コンピュータ)で解析実行されるプログラム上、またはワイヤードロジックによるハードウエア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。また、情報処理装置1で行われる各種処理機能は、クラウドコンピューティングにより、複数のコンピュータが協働して実行してもよい。
【0081】
(コンピュータ構成例)
ところで、上記の実施形態で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施形態と同様の機能を有するプログラムを実行するコンピュータ構成(ハードウエア)の一例を説明する。図9は、コンピュータ構成の一例を示すブロック図である。
【0082】
図9に示すように、コンピュータ200は、各種演算処理を実行するCPU201と、データ入力を受け付ける入力装置202と、モニタ203と、スピーカー204とを有する。また、コンピュータ200は、記憶媒体からプログラム等を読み取る媒体読取装置205と、各種装置と接続するためのインタフェース装置206と、有線または無線により外部機器と通信接続するための通信装置207とを有する。また、情報処理装置1は、各種情報を一時記憶するRAM208と、ハードディスク装置209とを有する。また、コンピュータ200内の各部(201~209)は、バス210に接続される。
【0083】
ハードディスク装置209には、上記の実施形態で説明した機能構成(例えば情報取得部10、演算取得部11、修正項目抽出部12、対応資料抽出部13、目的変数生成部14、説明変数生成部15、学習部16、モデル保存部17、入力部18、識別部19、候補値生成部20および出力部21)における各種の処理を実行するためのプログラム211が記憶される。また、ハードディスク装置209には、プログラム211が参照する各種データ212が記憶される。入力装置202は、例えば、操作者から操作情報の入力を受け付ける。モニタ203は、例えば、操作者が操作する各種画面を表示する。インタフェース装置206は、例えば印刷装置等が接続される。通信装置207は、LAN(Local Area Network)等の通信ネットワークと接続され、通信ネットワークを介した外部機器との間で各種情報をやりとりする。
【0084】
CPU201は、ハードディスク装置209に記憶されたプログラム211を読み出して、RAM208に展開して実行することで、上記の機能構成(例えば情報取得部10、演算取得部11、修正項目抽出部12、対応資料抽出部13、目的変数生成部14、説明変数生成部15、学習部16、モデル保存部17、入力部18、識別部19、候補値生成部20および出力部21)に関する各種の処理を行う。なお、プログラム211は、ハードディスク装置209に記憶されていなくてもよい。例えば、コンピュータ200が読み取り可能な記憶媒体に記憶されたプログラム211を読み出して実行するようにしてもよい。コンピュータ200が読み取り可能な記憶媒体は、例えば、CD-ROMやDVDディスク、USB(Universal Serial Bus)メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、LAN等に接続された装置にこのプログラム211を記憶させておき、コンピュータ200がこれらからプログラム211を読み出して実行するようにしてもよい。
【0085】
以上の実施形態に関し、さらに以下の付記を開示する。
【0086】
(付記1)書類の修正履歴を含む複数の事例の学習用データをもとに、前記事例ごとに、当該事例の書類に含まれる項目を含む説明変数を生成し、
前記学習用データをもとに、前記事例ごとに、当該事例の書類に含まれる項目それぞれに対して所定の演算を行った結果が前記修正履歴と一致するか否かを含む目的変数を生成し、
生成した前記説明変数および前記目的変数に基づいて前記各事例の機械学習を行い、モデルを生成する、
処理を制御部が実行することを特徴とする学習装置。
【0087】
(付記2)前記目的変数を生成する処理は、前記事例の複数の書類に含まれる共通の項目に対して前記所定の演算を行った結果が前記修正履歴と一致するか否かを含む前記目的変数を生成する、
ことを特徴とする付記1に記載の学習装置。
【0088】
(付記3)前記所定の演算は、前記共通の項目における最大値、2番目の値または総和のいずれかを求める、
ことを特徴とする付記2に記載の学習装置。
【0089】
(付記4)前記説明変数を生成する処理は、前記項目それぞれに対して所定の演算を行った結果を前記説明変数に含める、
ことを特徴とする付記1乃至3のいずれか一に記載の学習装置。
【0090】
(付記5)書類の修正履歴を含む複数の事例の学習用データをもとに、前記事例ごとに、当該事例の書類に含まれる項目を説明変数とし、前記事例の書類に含まれる項目それぞれに対して所定の演算を行った結果が前記修正履歴と一致するか否かを目的変数として機械学習したモデルに対して、判定対象の書類に含まれる各項目を入力し、
前記モデルからの出力に基づいて、前記判定対象の書類に含まれる項目それぞれにおいて一致すると判定した演算の内容を出力する、
処理を制御部が実行することを特徴とする判定装置。
【0091】
(付記6)前記出力する処理は、前記判定対象の書類に含まれる項目それぞれにおいて一致すると判定した演算による演算結果を含める、
ことを特徴とする付記5に記載の判定装置。
【0092】
(付記7)前記出力する処理は、前記一致すると判定した演算の内容における、前記モデルからの出力に基づく確度を含める、
ことを特徴とする付記5または6に記載の判定装置。
【0093】
(付記8)書類の修正履歴を含む複数の事例の学習用データをもとに、前記事例ごとに、当該事例の書類に含まれる各項目を含む説明変数を生成し、
前記学習用データをもとに、前記事例ごとに、当該事例の書類に含まれる項目それぞれに対して所定の演算を行った結果が前記修正履歴と一致するか否かを含む目的変数を生成し、
生成した前記説明変数および前記目的変数に基づいて前記各事例の機械学習を行い、モデルを生成する、
処理をコンピュータが実行することを特徴とする学習方法。
【0094】
(付記9)前記目的変数を生成する処理は、前記事例の複数の書類に含まれる共通の項目に対して前記所定の演算を行った結果が前記修正履歴と一致するか否かを含む前記目的変数を生成する、
ことを特徴とする付記8に記載の学習方法。
【0095】
(付記10)前記所定の演算は、前記共通の項目における最大値、2番目の値または総和のいずれかを求める、
ことを特徴とする付記9に記載の学習方法。
【0096】
(付記11)前記説明変数を生成する処理は、前記項目それぞれに対して所定の演算を行った結果を前記説明変数に含める、
ことを特徴とする付記8乃至10のいずれか一に記載の学習方法。
【0097】
(付記12)書類の修正履歴を含む複数の事例の学習用データをもとに、前記事例ごとに、当該事例の書類に含まれる項目を説明変数とし、前記事例の書類に含まれる項目それぞれに対して所定の演算を行った結果が前記修正履歴と一致するか否かを目的変数として機械学習したモデルに対して、判定対象の書類に含まれる各項目を入力し、
前記モデルからの出力に基づいて、前記判定対象の書類に含まれる項目それぞれにおいて一致すると判定した演算の内容を出力する、
処理をコンピュータが実行することを特徴とする判定方法。
【0098】
(付記13)前記出力する処理は、前記判定対象の書類に含まれる項目それぞれにおいて一致すると判定した演算による演算結果を含める、
ことを特徴とする付記12に記載の判定方法。
【0099】
(付記14)前記出力する処理は、前記一致すると判定した演算の内容における、前記モデルからの出力に基づく確度を含める、
ことを特徴とする付記12または13に記載の判定方法。
【0100】
(付記15)書類の修正履歴を含む複数の事例の学習用データをもとに、前記事例ごとに、当該事例の書類に含まれる項目を含む説明変数を生成し、
前記学習用データをもとに、前記事例ごとに、当該事例の書類に含まれる項目それぞれに対して所定の演算を行った結果が前記修正履歴と一致するか否かを含む目的変数を生成し、
生成した前記説明変数および前記目的変数に基づいて前記各事例の機械学習を行い、モデルを生成する、
処理をコンピュータに実行させることを特徴とする学習プログラム。
【0101】
(付記16)前記目的変数を生成する処理は、前記事例の複数の書類に含まれる共通の項目に対して前記所定の演算を行った結果が前記修正履歴と一致するか否かを含む前記目的変数を生成する、
ことを特徴とする付記15に記載の学習プログラム。
【0102】
(付記17)前記所定の演算は、前記共通の項目における最大値、2番目の値または総和のいずれかを求める、
ことを特徴とする付記16に記載の学習プログラム。
【0103】
(付記18)前記説明変数を生成する処理は、前記項目それぞれに対して所定の演算を行った結果を前記説明変数に含める、
ことを特徴とする付記15乃至17のいずれか一に記載の学習プログラム。
【0104】
(付記19)書類の修正履歴を含む複数の事例の学習用データをもとに、前記事例ごとに、当該事例の書類に含まれる項目を説明変数とし、前記事例の書類に含まれる項目それぞれに対して所定の演算を行った結果が前記修正履歴と一致するか否かを目的変数として機械学習したモデルに対して、判定対象の書類に含まれる各項目を入力し、
前記モデルからの出力に基づいて、前記判定対象の書類に含まれる項目それぞれにおいて一致すると判定した演算の内容を出力する、
処理をコンピュータに実行させることを特徴とする判定プログラム。
【0105】
(付記20)前記出力する処理は、前記判定対象の書類に含まれる項目それぞれにおいて一致すると判定した演算による演算結果を含める、
ことを特徴とする付記19に記載の判定プログラム。
【0106】
(付記21)前記出力する処理は、前記一致すると判定した演算の内容における、前記モデルからの出力に基づく確度を含める、
ことを特徴とする付記19または20に記載の判定プログラム。
【符号の説明】
【0107】
1…情報処理装置
10…情報取得部
11…演算取得部
12…修正項目抽出部
13…対応資料抽出部
14…目的変数生成部
15…説明変数生成部
16…学習部
17…モデル保存部
18…入力部
19…識別部
20…候補値生成部
21…出力部
30…学習用データ
30a…資料情報
30b…修正履歴
30c…演算結果
30d…目的変数
30e…説明変数
31…復元演算情報
32…識別用データ
32a…評価値
32b…出力結果
200…コンピュータ
201…CPU
202…入力装置
203…モニタ
204…スピーカー
205…媒体読取装置
206…インタフェース装置
207…通信装置
208…RAM
209…ハードディスク装置
210…バス
211…プログラム
212…各種データ
D1…確定申告書
D2…住民税申告書
D3、D4…給与支払報告書
D5…年金支払報告書
G1…表示画面
H1…住民
H2…職員
K1、K2…勤務先
K3…年金機構
M1…学習モデル
M01、M02…メッセージ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10