IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 有限責任あずさ監査法人の特許一覧

<>
  • 特許-情報処理装置及び情報処理方法 図1
  • 特許-情報処理装置及び情報処理方法 図2
  • 特許-情報処理装置及び情報処理方法 図3
  • 特許-情報処理装置及び情報処理方法 図4
  • 特許-情報処理装置及び情報処理方法 図5
  • 特許-情報処理装置及び情報処理方法 図6
  • 特許-情報処理装置及び情報処理方法 図7
  • 特許-情報処理装置及び情報処理方法 図8
  • 特許-情報処理装置及び情報処理方法 図9
  • 特許-情報処理装置及び情報処理方法 図10
  • 特許-情報処理装置及び情報処理方法 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2025-03-12
(45)【発行日】2025-03-21
(54)【発明の名称】情報処理装置及び情報処理方法
(51)【国際特許分類】
   G06N 20/00 20190101AFI20250313BHJP
【FI】
G06N20/00
【請求項の数】 6
(21)【出願番号】P 2024147264
(22)【出願日】2024-08-29
【審査請求日】2024-08-30
【早期審査対象出願】
(73)【特許権者】
【識別番号】503093062
【氏名又は名称】有限責任あずさ監査法人
(74)【代理人】
【識別番号】240000327
【弁護士】
【氏名又は名称】弁護士法人クレオ国際法律特許事務所
(72)【発明者】
【氏名】白木 研吾
(72)【発明者】
【氏名】杉本 夏実
(72)【発明者】
【氏名】宇宿 哲平
【審査官】福西 章人
(56)【参考文献】
【文献】佐藤 夏輝 ほか,財務指標とローデータを利用した不正会計検知モデルの精度比較,日本経営システム学会誌,日本,日本経営システム学会,2023年03月15日,第39巻 第3号 ,pp.115-121
【文献】LOU, Yin et al.,Accurate Intelligible Models with Pairwise Interactions,KDD '13: Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining,2013年08月11日,pp.623-631,[検索日 2024.10.31]、インターネット:<URL:https://dl.acm.org/doi/10.1145/2487575.2487579>、DOI:<https://doi.org/10.1145/2487575.2487579z>
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
G06F 18/00-18/40
G06Q 40/00-40/12
(57)【特許請求の範囲】
【請求項1】
会計関連データから検出可能なリスクを機械学習モデルを使用して検出する情報処理装置であって、
前記会計関連データの中から選択された複数の説明変数と目的変数とを組み合わせた複数の訓練レコードを使用して、それぞれの前記説明変数と前記目的変数との関係を示す形状関数を機械学習モデルとして生成する学習モデル生成部と、
前記学習モデル生成部によって生成された前記説明変数ごとの前記形状関数が記憶された学習モデル記憶部と、
リスク検出対象となる新規レコードに対して、前記学習モデル記憶部に記憶された前記形状関数によって前記説明変数ごとの解釈指標を算出するとともに、複数の前記解釈指標からリスクスコアを算出するリスク算出部とを備え
前記形状関数の生成に使用される前記説明変数には、影響を受ける前記リスクの内容が共通する前記会計関連データの項目同士をグループ化した変数グループが含まれるものであって、
前記学習モデル生成部では、前記変数グループについては変数グループ単位で形状関数を生成し、
前記リスク算出部では、前記変数グループについては前記変数グループ単位で解釈指標を算出することを特徴とする情報処理装置。
【請求項2】
前記リスクスコアは、前記機械学習モデルの生成時に設定された切片の値と前記説明変数ごとの前記解釈指標の値とに基づいて求められることを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記変数グループ単位の解釈指標の値が最も大きくなった前記変数グループを構成する前記会計関連データの項目を説明変数として、さらに形状関数の生成、解釈指標の算出及びリスクスコアの算出を行うことを特徴とする請求項1又は2に記載の情報処理装置。
【請求項4】
前記会計関連データは財務データであって、検出するリスクは会計不正であることを特徴とする請求項1又は2に記載の情報処理装置。
【請求項5】
コンピュータ処理によって、会計関連データから検出可能なリスクを機械学習モデルを使用して検出する情報処理方法であって、
前記会計関連データの中から複数の説明変数を選択して目的変数と組み合わせた複数の訓練レコードを使用して、それぞれの前記説明変数と前記目的変数との関係を示す形状関数を機械学習させることで生成するステップと、
リスク検出対象となる新規レコードに対して、生成された前記形状関数によって前記説明変数ごとの解釈指標を算出するステップと、
算出された複数の前記解釈指標に基づいてリスクスコアを算出するステップとを備え
前記形状関数の生成に使用される前記説明変数には、影響を受ける前記リスクの内容が共通する前記会計関連データの項目同士をグループ化した変数グループが含まれるものであって、
前記変数グループについては、変数グループ単位で形状関数を生成するとともに、前記変数グループ単位で解釈指標を算出することを特徴とする情報処理方法。
【請求項6】
前記変数グループ単位の解釈指標の値が最も大きくなった前記変数グループを構成する前記会計関連データの項目を説明変数として、さらに形状関数の生成、解釈指標の算出及びリスクスコアの算出を行うことを特徴とする請求項5に記載の情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、会計関連データから検出可能な会計不正などのリスクを機械学習モデルを使用して検出する情報処理装置及び情報処理方法に関するものである。
【背景技術】
【0002】
内部監査や外部監査などの会計監査業務においては、財務諸表などの会計書類に記載された内容に対して、架空取引など不正な取引が存在していないかなどの分析を行い、チェックをすることが行われる(特許文献1,2など参照)。
【0003】
また、特許文献3に開示されているように、機械学習による成果を利用して、コンピュータ処理によって会計不正のリスクを評価させようという試みもある。ここで、機械学習の学習過程で行われる計算は複雑化しており、高い精度での評価を実現できるメリットはあるが、その評価の判断根拠を人間が容易に理解することは困難であることが多い。
【0004】
そこで特許文献3の情報処理装置では、機械学習モデルによって出力された評価に対して、機械学習に利用した説明変数となる勘定科目のうち、どの勘定科目が異常となっているかを、SHAP値を算出することで特定できるようにしている。
【先行技術文献】
【特許文献】
【0005】
【文献】特許第7052135号公報
【文献】特開2019-179531号公報
【文献】特許第7216854号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献3に記載された情報処理装置では、複数の弱学習器からの出力をバギングして不適切性を示す指標(リスクスコア)を算出する処理とは別に、どの勘定科目が異常となっているかの解釈をするためのSHAP値を算出する処理が必要になる。そして、このSHAP値の理論値の計算量は、説明変数の数に応じて指数関数的に増加するため、実務上は近似計算をすることになる。
【0007】
そこで本発明は、リスクスコアを算出する過程において説明変数ごとの解釈指標を算出することができて演算負荷を抑えることが可能になる情報処理装置及び情報処理方法を提供することを目的としている。
【課題を解決するための手段】
【0008】
前記目的を達成するために、本発明の情報処理装置は、会計関連データから検出可能なリスクを機械学習モデルを使用して検出する情報処理装置であって、前記会計関連データの中から選択された複数の説明変数と目的変数とを組み合わせた複数の訓練レコードを使用して、それぞれの前記説明変数と前記目的変数との関係を示す形状関数を機械学習モデルとして生成する学習モデル生成部と、前記学習モデル生成部によって生成された前記説明変数ごとの前記形状関数が記憶された学習モデル記憶部と、リスク検出対象となる新規レコードに対して、前記学習モデル記憶部に記憶された前記形状関数によって前記説明変数ごとの解釈指標を算出するとともに、複数の前記解釈指標からリスクスコアを算出するリスク算出部とを備えたことを特徴とする。
【0009】
ここで、前記リスクスコアは、前記機械学習モデルの生成時に設定された切片の値と前記説明変数ごとの前記解釈指標の値とに基づいて求めることができる。また、前記形状関数の生成に使用される前記説明変数には、前記リスクの内容によって影響を受ける前記会計関連データの項目同士をグループ化したものが含まれていてもよい。そして、前記会計関連データは財務データであって、検出するリスクは会計不正とすることができる。
【0010】
また、情報処理方法の発明は、コンピュータ処理によって、会計関連データから検出可能なリスクを機械学習モデルを使用して検出する情報処理方法であって、前記会計関連データの中から複数の説明変数を選択して目的変数と組み合わせた複数の訓練レコードを使用して、それぞれの前記説明変数と前記目的変数との関係を示す形状関数を機械学習させることで生成するステップと、リスク検出対象となる新規レコードに対して、生成された前記形状関数によって前記説明変数ごとの解釈指標を算出するステップと、算出された複数の前記解釈指標に基づいてリスクスコアを算出するステップとを備えたことを特徴とする。
【発明の効果】
【0011】
このように構成された本発明の情報処理装置及び情報処理方法は、会計関連データの中から選択された複数の説明変数と目的変数とを組み合わせた複数の訓練レコードを使用して、説明変数ごとの形状関数で示される機械学習モデルを生成する。そして、リスク検出対象となる新規レコードに対しては、形状関数によって説明変数ごとの解釈指標を算出して、その複数の解釈指標の値からリスクスコアを算出する。
【0012】
このように、リスクスコアを算出する過程において説明変数ごとの解釈指標を算出するので、リスクスコア算出後に別途、演算を行う必要がなく、演算負荷を抑えることができる。
【図面の簡単な説明】
【0013】
図1】本実施の形態の会計監査支援装置の構成を説明するブロック図である。
図2】本実施の形態の会計監査支援方法の処理の流れを説明するフローチャートである。
図3】EBMモデルの概要を説明する図であって、(a)はスコアの算出までの流れを模式的に示した説明図、(b)は形状関数を例示した説明図である。
図4】訓練レコードのデータセットを例示した説明図である。
図5】機械学習に使用する訓練レコードの説明変数を例示した説明図である。
図6】形状関数を説明する図であって、(a)は説明変数x1の形状関数及び出力の説明図、(b)は説明変数x2の形状関数及び出力の説明図、(c)は説明変数x3の形状関数及び出力の説明図である。
図7】新規レコードの解釈指標の算出結果を例示した説明図である。
図8】解釈指標からリスクスコアを算出する処理を例示した説明図である。
図9】実施例1のグループ化した訓練レコードのデータセットを例示した説明図である。
図10】実施例1の新規レコードの解釈指標及びリスクスコアの算出結果を例示した説明図である。
図11】着目する変数グループ内の解釈指標の確認処理を説明する図であって、(a)は変数グループに含まれる説明変数を例示した説明図、(b)は各説明変数の解釈指標の算出結果を例示した説明図である。
【発明を実施するための形態】
【0014】
以下、本発明の実施の形態について図面を参照して説明する。
図1は、本実施の形態の情報処理装置となる会計監査支援装置1の構成を説明するブロック図である。また、図2は、本実施の形態の情報処理方法となる会計監査支援方法の処理の流れを説明するフローチャートである。
【0015】
本実施の形態の会計監査支援装置1は、内部監査や外部監査などの会計監査の監査対象となる会社の新規レコード(例えば決算年月単位)に対して、会計不正のリスクを機械学習モデルを使用して検出するための情報処理装置である。ここで、会計不正のリスクの検出には、現時点での不正検知と、将来の不正予測との両方の意味が含まれる。
【0016】
本実施の形態の会計監査支援装置1では、図1に示すように、入力装置2や記憶部4などから入力されたデータに基づいて演算処理部3でコンピュータによる処理を行い、表示装置5などに検出結果などを表示させる。
【0017】
会計監査支援装置1の演算処理部3は、機械学習に使用する訓練データを設定する訓練データ設定部31と、訓練データに含まれる訓練レコードを用いて機械学習モデルを生成する学習モデル生成部32と、新規レコードに対する解釈指標を算出する解釈指標算出部33と、解釈指標からリスクスコアを算出するリスクスコア算出部34と、表示装置5への表示内容などを制御する表示制御部35とによって、主に構成される。ここで、解釈指標算出部33とリスクスコア算出部34とが、リスク算出部に該当する。
【0018】
各種データの入力を行うための入力装置2は、パーソナルコンピュータ(PC)、ノートパソコン、タブレット端末、ウェアラブル端末、スマートフォンなどに接続又は装備されたデータ入力手段である。入力装置2には、例えば、キーボード、マウス、タッチパネル、タッチパッド、スキャナ、音声入力用のマイク、カメラなどが該当する。
【0019】
一方、表示装置5には、液晶ディスプレイ、有機EL(Electro- Luminescence)ディスプレイ、プリンタなどが使用できる。
【0020】
さらに、記憶部4は、演算処理部3における処理に使用する訓練データや、演算処理によって生成されたデータなどを記録させる記憶媒体で、ハードディスク、ソリッドステートドライブ(SSD)、フラッシュメモリ(SDメモリーカードなど)、磁気ディスク、光ディスクなどが該当する。また、ネットワークで接続されるサーバなどの外部のオンラインストレージ(クラウドストレージ)を、記憶部4として使用することもできる。以下では、学習モデル生成部32によって生成された機械学習モデルを記憶させる記憶媒体の領域を、学習モデル記憶部41という符号を付けて区別して説明する。
【0021】
演算処理部3は、コンピュータのハードウェアとしては、CPU(Central Processing Unit)、MPU(Micro-processing unit)、GPU(Graphics Processing Unit)などによって構成され、RAM(Random Access Memory)やROM(Read Only Memory)などのメモリを備えている。
【0022】
演算処理部3は、コンピュータにインストールされたアプリケーション(プログラム)によって各種機能を実行させることができる。また、インターネットなどのネットワークを介して接続されたサーバなどに、演算処理部3の一部又は全部を実行させることもできる。ネットワークは、インターネット、WAN(Wide Area Network)、有線LAN(Local Area Network)、無線LAN(Wi-Fi)、プロバイダ装置、無線基地局、専用回線などの一部又は全部によって構成される。
【0023】
上述したように、機械学習の学習過程で行われる計算は複雑化しており、機械学習モデルを使用して検出されたリスクの評価値(スコア)などの結果について、その判断根拠を人間が容易に理解することが困難になることが多い。そこで本実施の形態の会計監査支援装置1及び会計監査支援方法では、説明変数ごとの解釈指標を算出することで、各説明変数がスコアに与える影響が分かるようにして、ビジネス上の意思決定にも利用できるようにする。
【0024】
具体的には、Explainable Boosting Machine(EBM)と呼ばれる手法を適用する。この手法では、まずEBMモデルと呼ばれる推定モデルを機械学習によって生成し、そのEBMモデルを使用して、各説明変数の解釈指標及びスコア(リスクスコア)を算出する。図3は、EBMモデルの概要を説明する図である。
【0025】
EBMモデルを作成するには、図3(a)の左側に示したように、目的変数の予測に使用する複数の説明変数(x1,x2,x3)を選択し、選択された説明変数と目的変数とを組み合わせた複数の訓練レコードを使用して、それぞれの説明変数と目的変数との関係を示す形状関数を機械学習モデルとして生成する。具体的には、後述する切片(β0)になる値と、各説明変数の形状関数(shape関数)を推定する。図3(b)は、説明変数x1に対して推定された形状関数f1(x1)を例示した説明図である。
【0026】
形状関数は、非線形で説明変数ごとに生成され、該当する1つの説明変数のみを使用する浅い決定木を組み合わせたモデル(f1(x1)、f2(x2)、f3(x3))になる。なお、形状関数は、説明変数同士の交互作用項を組み込んだモデルを作成することも可能である。例えば2つの説明変数による交互作用項を使用する場合は、該当する2つの説明変数のみを使用する浅い決定木を組み合わせたモデル(f1,2(x1,x2))になる。
【0027】
EBMモデルが作成できれば、それを使用してリスク検出対象となる新規レコードの解釈指標及びリスクスコアを算出することができるようになる。例えば、新規レコード(a)の各説明変数に該当するデータ(x1 (a),x2 (a),x3 (a))をEBMモデルに入力することで、解釈指標(f1(x1 (a))、f2(x2 (a))、f3(x3 (a)))を算出することできる。リスクスコアは、切片(β0)と、各説明変数の形状関数の出力(解釈指標(f1(x1 (a))、f2(x2 (a))、f3(x3 (a))))との和を、例えばロジスティック変換することで求めることができる。
【0028】
EBMモデルを使用して出力される結果の解釈方法としては、レコードごとに、各説明変数の形状関数の出力がされるので、その出力を、当該レコードの当該説明変数の解釈指標とみなす。解釈指標は、当該説明変数がスコア(不正確率)の対数オッズ(ロジット)をどの程度増減させるかの観点で与えられる。そして、上述したように、交差項を考慮した複数の説明変数による解釈指標(f1,2(x1,x2))も計算することができる。
【0029】
EBM手法の特徴としては、スコア計算の過程で解釈指標を予め計算しているので、解釈指標の計算のための追加の開発コスト及び保守コストはかからない。また、解釈指標を計算するためだけの追加の計算時間も不要である。さらに、説明変数の値がスコアに与える影響は、非線形な形状関数で与えられるので、モデルの柔軟性が高い。そして、説明変数の値が0のときのスコアに与える影響は、形状関数に基づいた固有の影響(例えばf1(x1 (a)=0))であり、影響が0になるわけではない。
【0030】
またEBM手法では、説明変数の中に外れ値が存在していても、モデルの作成時やスコア計算時に外れ値による悪影響を受けることがない。また、カテゴリ変数(経営者の住所、学歴等)の未知(Unknown)データ(モデル学習時に存在しない新しいカテゴリ値など)に対しては、当該説明変数の出力値を0(例えばf1(x1=U)=0)にすることで、当該説明変数がスコアに与える影響を排除することもできる。さらに、数値変数の欠損データに対しては、当該説明変数の出力値を0(例えばf1(x1=NA)=0)にすることで、当該説明変数がスコアに与える影響を排除することもできる。
【0031】
こうしたEBM手法を適用するために、演算処理部3の訓練データ設定部31では、機械学習に使用可能な記憶部4に記憶された会計関連データ(レコード)の中から、複数の説明変数と目的変数とを組み合わせた複数の訓練レコードを抽出して使用する。例えば会計関連データが財務データである場合は、財務諸表に記載されている項目のいくつかを説明変数として選択する。そして、選択した説明変数と目的変数とが組み合わされたレコードを、機械学習モデルを生成するために使用する訓練レコードとして設定する。
【0032】
図4は、訓練レコードのデータセットを例示した説明図である。1つの会社のレコードであっても、決算年月が異なれば、別の訓練レコードとして利用することができる。訓練レコードは、財務諸表の項目の中から選ばれた説明変数(x1-x3)の値と、その訓練レコードに付与された不正ラベルyとの組み合わせになっている。要するに、説明変数(x1-x3)の値を入力した場合の解が不正ラベルyになるという教師データである。ここでは、会計不正があったレコードに付与する不正ラベルyを1とし、会計不正がなかったレコードには不正ラベルyとして0を付与している。
【0033】
図5には、会計不正リスクを検出する際に、機械学習に使用する訓練レコードの説明変数として有効と考えられる項目を例示している。図5では、財務諸表に記載されている説明変数となりうる項目に対して、以下の観点でグループ化をしている。
【0034】
まずグループ作成にあたっては、財務指標レベルの説明変数のうち、共通の不正内容によって影響を受ける説明変数同士をグループ化する観点でグループを選択することとした。
【0035】
具体的には、棚卸資産関連の不正が生じた場合、棚卸資産回転期間、棚卸資産純資産比率、棚卸資産総資産比率がともに影響を受けるため、これらの説明変数を1つのグループにまとめ、「棚卸資産評価」というグループにした。
【0036】
また、「売上過大計上評価」のグループには、売上債権増減率、売上高成長率、売上債権増減率を売上高成長率で除した比率などの項目を、まとめて入れた。さらに、「のれん評価」のグループには、のれん純資産割合、営業利益を超えるのれん残高などの項目を、まとめて入れた。
【0037】
これらの財務諸表に記載されている各項目は、それぞれが説明変数として利用できるうえに、後述するように上記グループ単位でも、説明変数として選択することができる。
【0038】
訓練データ設定部31では、記憶部4に記憶された会計関連データであるレコードの中から、選択された説明変数と目的変数が含まれるレコードを、機械学習に使用する訓練レコードとして設定することができる。例えば、使用可能な全体のレコード(データセット)の中から、訓練に使用するデータセットをサンプリングによって設定する。サンプリング方法として、ブートストラップサンプリングなどが適用できる。
【0039】
学習モデル生成部32では、サンプリングによって設定された訓練レコードを使用して、EBMモデルの作成を行う。以下の説明では、選択された3つの説明変数X(x1,x2,x3)と目的変数(不正ラベルy)とを組み合わせデータセット(図4参照)を例に説明する。
【0040】
まず、サンプリングされた訓練レコードとなるデータセットを使用して、説明変数X(x1,x2,x3)と目的変数(不正ラベルy)の関係をモデル化F(X)するために、ベースとなるモデルF(X)=βを作成する。このβは、EBMモデルの切片になる。βの例としては、回帰モデルの場合は目的変数の平均値、分類モデルの場合は目的変数の対数オッズなどが挙げられる。
【0041】
そして、切片βをベースにしたモデルF(X)を、各説明変数の情報(訓練レコード)を基に更新していく。詳細には、説明変数ごとに、以下の(a)から(c)の作業を順に実施する。
【0042】
(a)x1の決定木の作成
説明変数と目的変数を以下のように設定して、x1の決定木を作成する。
説明変数:x1のみ
目的変数:実際の目的変数yとモデルの予測結果F(X)との残差y - F(X)
この決定木は、説明変数x1と目的変数yとの関係性を表現するモデルである。作成した決定木に任意の学習率を乗じたものをh1(x1)とし、もとのモデルF(X)にh1(x1)を足してF(X)を更新する。
F(X) := F(X) + h1(x1)
【0043】
(b)x2の決定木の作成
説明変数をx2、目的変数を残差y - F(X)に設定して作成した決定木に任意の学習率を乗じたものをh2(x2)とし、h2(x2)をもとのモデルF(X)に足してF(X)を更新する。
F(X) := F(X) + h2(x2)
【0044】
(c)x3の決定木の作成
説明変数をx3、目的変数を残差y - F(X)に設定して作成した決定木に任意の学習率を乗じたものをh3(x3)とし、h3(x3)をもとのモデルF(X)に足してF(X)を更新する。
F(X) := F(X) + h3(x3)
【0045】
モデルの予測結果F(X)と目的変数yとの間の損失関数の値が収束するまで、上記した(a)から(c)の作業を繰り返す。ここで、損失関数の例として、回帰モデルの場合は平均二乗誤差、分類モデルの場合は交差エントロピーなどが挙げられる。こうして、繰り返しの回数分だけ、各説明変数の決定木モデルhn(xn)が作成される。ここでは、n=1,2,3である。
【0046】
そこで、説明変数ごとに、決定木モデルhn(xn)を統合する。統合方法としては、作成した全決定木を平均するなどの方法がある。そして、統合したものが、複数の訓練レコードを使用して生成された各説明変数の形状関数(shape関数)となる。
【0047】
上述したサンプリングによる訓練レコードの設定と、その訓練レコードから形状関数を生成する作業は、M回繰り返す。その結果、各説明変数ごとに、M個のshape関数hn(xn)が作成されることになる。
【0048】
そこで、説明変数ごとに作成されたM個のshape関数hn(xn)を統合して、統合shape関数fn(xn)とする。ここの統合方法にも、作成した全決定木を平均する方法が利用できる。統合された形状関数(統合shape関数fn(xn))は、説明変数ごとに目的変数との関係を表現したものと言える(図6参照)。
【0049】
以上のようにして学習モデル生成部32によって生成された学習済みの機械学習モデルとなる形状関数(統合shape関数fn(xn))は、学習モデル記憶部41に記憶される。そして、後述する解釈指標算出部33などの演算時に読み込まれて利用される。
【0050】
解釈指標算出部33では、監査対象となる新規レコードに対して、学習モデル記憶部41に記憶された形状関数(統合shape関数fn(xn))を用いて、説明変数ごとの解釈指標を算出する。図6は、説明変数X(x1,x2,x3)の統合shape関数fn(xn)を例示して説明する図である。
【0051】
図6(a)は、説明変数x1の形状関数f1(x1)と、新規レコードに対して出力された値0.3を例示した説明図である。また、図6(b)は、説明変数x2の形状関数f2(x2)と、新規レコードに対して出力された値-0.2を例示した説明図である。そして、図6(c)は、説明変数x3の形状関数f3(x3)と、新規レコードに対して出力された値0.1を例示した説明図である。
【0052】
これらの説明変数ごとの形状関数によって出力される値が、各説明変数の解釈指標の値となる。図7は、新規レコードの解釈指標の算出結果を例示した説明図である。このようにして説明変数ごとに解釈指標が算出されると、それぞれの説明変数の影響の度合いを把握することができるようになる。
【0053】
リスクスコア算出部34では、解釈指標算出部33によって算出された各説明変数の解釈指標と切片(β0図7参照)の値とに基づいて、リスクスコアを算出する。図8は、解釈指標からリスクスコアを算出する処理を例示した説明図である。リスクスコアとなる不正スコアは、例えばロジスティック関数を使用したロジスティック変換によって求めることができる。
【0054】
例えば、次のロジスティック関数σ(z)を利用して変換を行うことができる。
σ(z) = 1 / (1+exp(-z))
不正スコアのリスク= 1 / (1+exp(-(-0.5+0.3-0.2+0.1)) = 0.426
【0055】
表示制御部35では、解釈指標算出部33によって算出された解釈指標及びリスクスコア算出部34によって算出された不正スコア(リスクスコア)などについて、表示装置5への出力形式(図8参照)などの制御を行う。
【0056】
以下、本実施の形態の会計監査支援方法の処理の流れについて、図2に示したフローチャートを参照しながら説明する。
【0057】
まずステップS1では、財務データである財務諸表に記載されている項目の中から、いくつかの項目を説明変数として選択する。そして、選択した説明変数と目的変数とが組み合わされたレコードを、機械学習モデルを生成するために使用する訓練レコードとして設定する(ステップS2)。
【0058】
訓練レコードの設定は、具体的には、記憶部4に記憶されたデータの中から機械学習に使用可能なすべてのデータセットを読み込み、サンプリングによって訓練レコードの設定を行う。
【0059】
続くステップS3では、サンプリングによって設定された訓練レコードを使用して、EBMモデルの作成を行う。上述したように、ステップS2のサンプリングによる訓練レコードの設定と、ステップS3のEBMモデルの生成は、予め設定された回数(上記ではM回)だけ繰り返される。
【0060】
そしてステップS4では、監査対象となる新規レコードの説明変数ごとの各解釈指標を算出する。図7の例では、監査対象となる新規レコードが、z社の決算年月2023年3月の財務諸表から抜き出された財務データであること示している。
【0061】
そして、新規レコードに対しては、説明変数x1の形状関数f1(x1)から出力される解釈指標の値が0.3、説明変数x2の形状関数f2(x2)から出力される解釈指標の値が-0.2、説明変数x3の形状関数f3(x3)から出力される解釈指標の値が0.1と算出された。また、切片β0の値は、-0.5になった。
【0062】
そこで、ステップS5では、こうして算出された各説明変数の解釈指標の値と切片の値とに基づいて、リスクスコアを算出する。図8に例示したように、不正スコア(リスクスコア)は、ロジスティック変換によって、0.426と算出された。図8に例示したようなコンピュータ処理によって得られた分析結果は、表示装置5に表示される。
【0063】
この不正スコアは、会計不正がある場合を1としたときの会計不正のリスクの評価結果と言えるが、この数値だけでは、どのよう不正手口による会計不正が行われている可能性があるかといった、具体的な検討を行うことは難しい。
【0064】
そこで、会計監査業務を行う者は、不正スコアを算出する過程において算出された各説明変数の解釈指標を参照しながら、財務データのどの項目に着目すべきかを把握することで、新規レコードに対する具体的な監査のアクションにつなげることができるようになる。
【0065】
次に、本実施の形態の会計監査支援装置1及び会計監査支援方法の作用について説明する。
このように構成された本実施の形態の会計監査支援装置1及び会計監査支援方法は、会計関連データの中から選択された複数の説明変数と目的変数とを組み合わせた複数の訓練レコードを使用して、説明変数ごとの形状関数で示される機械学習モデルを、学習モデル生成部32で生成する。
【0066】
そして、リスク検出対象となる新規レコードに対しては、形状関数によって説明変数ごとの解釈指標を解釈指標算出部33で算出して、その複数の解釈指標の値と切片の値からリスクスコア算出部34でリスクスコアを算出する。
【0067】
このように、リスクスコアを算出する過程において説明変数ごとの解釈指標を算出するので、リスクスコア算出後に別途、演算を行う必要がなく、演算負荷を抑えることができる。
【0068】
そして、不正スコア(リスクスコアの値)だけでは、予測の判断根拠を会計監査業務を行う者が容易に理解することができない場合でも、解釈指標の値から説明変数となった財務データの項目の影響度が把握できるので、ビジネス上の意思決定にも利用することができるようになる。
【0069】
また、本実施の形態の会計監査支援装置1及び会計監査支援方法であれば、演算負荷が抑えられるので、多くの変数を利用した機械学習モデルを作成してモデルの精度を高めたうえで、不正スコアに大きく効いた変数を即座に特定し、監査手続きの効率化を図ることができるようになる。
【0070】
さらに、EBM手法を適用することで、訓練レコードに外れ値があっても悪影響を抑えられるので、ごく一部の超大企業の財務数値に影響を受けることなく、モデルの作成及び不正スコアの計算を行うことができる。また、除算指標(回転期間など)の極端な外れ値の影響も受けることがない。
【実施例1】
【0071】
以下、前記した実施の形態の会計監査支援装置1による別の実施形態について、図9図11を参照しながら説明する。なお、前記実施の形態で説明した内容と同一乃至均等な部分の説明については、同一用語又は同一符号を付して説明する。
【0072】
前記実施の形態では、1つの説明変数を財務データの1つの項目に対応させて説明を行った。これに対して、前記実施の形態でも述べたように、財務データの複数の項目をグループ化して、1つの変数グループを1つの説明変数として取り扱うこともできる。
【0073】
前記実施の形態で図5を参照しながら行った説明では、財務指標レベルの説明変数のうち、共通の不正内容によって影響を受ける説明変数同士をグループ化する観点で作成した変数グループを例示した。
【0074】
図9は、実施例1のグループ化した訓練レコードのデータセットを例示した説明図である。この図9のグループ(a,b,c)には、図5に例示したような「棚卸資産評価」、「売上過大計上評価」、「のれん評価」などのグループが該当し、説明変数(x1-x6)には、それぞれのグループに属する財務データの項目が該当することになる。
【0075】
こうした変数グループ単位でEBMモデルを作成して、解釈指標などを計算する場合の処理については、基本的には上述した項目単位での処理と同じになる。すなわち、複数の財務データの項目をまとめて変数グループにグループ化し、変数グループ単位でEBMモデルを作成する。そして、変数グループごとに形状関数による解釈指標の算出を行う。
【0076】
こうしたグループ化をすることで、ある不正が起きた際に、不正に関連する説明変数同士で重要性が分散して、本来着目すべきグループの重要性が低下することを回避できるようになる。すなわち、類似する特徴量(財務指標)同士を、一方を除外することなく、多重共線性を排除して、変数グループ間で説明変数の情報が重複することなく、EBMモデルを作成して解釈することが可能になる。
【0077】
図10は、実施例1の新規レコードの解釈指標及びリスクスコアの算出結果を例示した説明図である。すなわち、監査対象となるz社の決算年月2023年3月の新規レコードに対して、各変数グループの形状関数の出力となる解釈指標及び不正スコアを示している。この結果から分かるように、解釈指標は変数グループ単位で出力されており、不正スコアに与える影響を変数グループ単位で把握することができる。
【0078】
こうして変数グループ単位で解釈指標を求めた場合、さらに着目する変数グループを指定して、グループ内の個々の変数単位でEBMモデルの作成及び計算を行うこともできる。図11は、着目する変数グループ内の解釈指標の確認処理を説明する図である。図11(a)は、着目したグループbに含まれる説明変数(x3,x4,x5)の訓練レコードのデータセットを例示した説明図である。また、図11(b)は、グループbに含まれる各説明変数の形状関数によって出力された解釈指標の算出結果を例示した説明図である。
【0079】
このようにグループ化を行った場合は、変数グループの形状関数による出力に基づいて着目すべき変数グループを特定することができるようになり、さらに着目した変数グループを構成する項目のみを使用したEBMモデルの作成及び解釈指標等の算出を行うこともできるようになる。
【0080】
具体的には、棚卸資産関連の不正が生じた場合、棚卸資産回転期間、棚卸資産純資産比率及び棚卸資産総資産比率をまとめた棚卸資産評価のグループの重要性を評価することができるうえに、さらに棚卸資産回転期間、棚卸資産純資産比率及び棚卸資産総資産比率の解釈指標もそれぞれ算出することができる。
【0081】
なお、他の構成及び作用効果については、前記実施の形態と略同様であるので説明を省略する。
【0082】
以上、図面を参照して、本発明の実施の形態を詳述してきたが、具体的な構成は、この実施の形態及び実施例に限らず、本発明の要旨を逸脱しない程度の設計的変更は、本発明に含まれる。
【0083】
例えば、前記実施の形態では、会計関連データとして財務データを利用して会計不正のリスクを検出させる場合について説明したが、これに限定されるものではない。会計関連データには、財務データの他に企業ガバナンスデータ、銀行口座取引履歴、クレジットカード取引履歴などが該当し、これらのデータから検出可能なリスクとしては、マネーロンダリング、カード不正利用、業績悪化(倒産、デフォルト等)などが挙げられる。
【0084】
また、前記実施の形態では、説明変数として財務諸表に記載されている項目を例に説明したが、これに限定されるものではなく、各種の会計書類に記載されるような様々なデータの項目やグループを説明変数にすることができる。
【0085】
さらに、前記実施の形態では、切片と各説明変数の解釈指標との和を一般的なロジスティック変換をすることでリスクスコアを求める手法について説明したが、これに限定されるものではなく、ロジスティック変換をさらに調整する手法など、任意の手法を適用して複数の解釈指標からリスクスコアを算出することができる。
【符号の説明】
【0086】
1 :会計監査支援装置(情報処理装置)
32 :学習モデル生成部
33 :解釈指標算出部
34 :リスクスコア算出部
41 :学習モデル記憶部
【要約】
【課題】リスクスコアを算出する過程において説明変数ごとの解釈指標を算出することができて演算負荷を抑えることが可能になる情報処理装置を提供する。
【解決手段】会計関連データから検出可能なリスクを機械学習モデルを使用して検出する会計監査支援装置1である。
そして、財務データの中から選択された複数の説明変数と目的変数とを組み合わせた複数の訓練レコードを使用して、それぞれの説明変数と目的変数との関係を示す形状関数を機械学習モデルとして生成する学習モデル生成部32と、学習モデル生成部によって生成された説明変数ごとの形状関数が記憶された学習モデル記憶部41と、リスク検出対象となる新規レコードに対して、形状関数によって説明変数ごとの解釈指標を算出するとともに、複数の解釈指標からリスクスコアを算出するリスク算出部34とを備えている。
【選択図】図1
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11