(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-09-06
(45)【発行日】2024-09-17
(54)【発明の名称】訓練レコード特定装置及び訓練レコード特定方法
(51)【国際特許分類】
G06N 20/00 20190101AFI20240909BHJP
G06N 20/20 20190101ALI20240909BHJP
G06F 18/214 20230101ALI20240909BHJP
【FI】
G06N20/00
G06N20/20
G06F18/214
(21)【出願番号】P 2023135881
(22)【出願日】2023-08-23
【審査請求日】2024-02-02
(73)【特許権者】
【識別番号】503093062
【氏名又は名称】有限責任あずさ監査法人
(74)【代理人】
【識別番号】240000327
【氏名又は名称】弁護士法人クレオ国際法律特許事務所
(72)【発明者】
【氏名】白木 研吾
【審査官】新井 則和
(56)【参考文献】
【文献】特許第7216854(JP,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00
G06N 20/20
G06F 18/214
(57)【特許請求の範囲】
【請求項1】
機械学習に使用された複数の訓練レコードの中から評価対象の新規レコードに類似する訓練レコードを特定するための訓練レコード特定装置であって、
機械学習に使用可能な複数の訓練レコードを用いて機械学習モデルを生成する学習モデル生成部と、
複数の訓練レコードの中から機械学習モデルの生成に使用するレコードをサンプリングした訓練データを設定する訓練データ設定部と、
前記訓練データを用いて前記学習モデル生成部によって生成された弱学習モデルが複数記憶された学習モデル記憶部と、
前記学習モデル記憶部に記憶された複数の弱学習モデルを、少なくとも1つの訓練レコードに基づいて2つのグループに分割するグループ生成部と、
評価対象となる新規レコードに対して、前記グループ生成部によって生成された第1グループに属する前記弱学習モデルによる前記新規レコードの出力と、第2グループに属する前記弱学習モデルによる前記新規レコードの出力と、を比較した影響度を算出する影響度算出部と、
前記影響度に基づいて前記新規レコードに類似する訓練レコードを特定する類似データ特定部とを備えたことを特徴とする訓練レコード特定装置。
【請求項2】
前記第1グループは、グループの分割に使用された前記訓練レコードを含む前記訓練データにより生成された前記弱学習モデルによって構成され、
前記第2グループは、グループの分割に使用された前記訓練レコードを含まない前記訓練データにより生成された前記弱学習モデルによって構成されることを特徴とする請求項1に記載の訓練レコード特定装置。
【請求項3】
前記影響度算出部によって算出された影響度の有意性を評価する有意性評価部を備え、
前記類似データ特定部では、前記影響度及び前記有意性評価部の評価結果に基づいて前記新規レコードに類似する訓練レコードを特定することを特徴とする請求項1又は2に記載の訓練レコード特定装置。
【請求項4】
前記影響度は、前記グループ生成部によって生成された2つのグループに属するそれぞれの前記弱学習モデルによる出力の差分であって、
前記有意性評価部では、前記差分の有意性検定を行うことを特徴とする請求項3に記載の訓練レコード特定装置。
【請求項5】
機械学習に使用された複数の訓練レコードの中から評価対象の新規レコードに類似する訓練レコードを特定するための訓練レコード特定方法であって、
複数の訓練レコードからサンプリングした訓練データを用いて機械学習させることで弱学習モデルを生成することを、所望する回数にわたって行うステップと、
複数の弱学習モデルを、少なくとも1つの訓練レコードに基づいて2つのグループに分割するステップと、
評価対象となる新規レコードに対して、2つのグループに属するそれぞれの前記弱学習モデルによる出力の差分を算出するステップと、
前記差分が最も大きくなるグループの分割に使用された前記訓練レコードを、前記新規レコードに最も類似するとして特定するステップとを備えたことを特徴とする訓練レコード特定方法。
【請求項6】
前記差分の有意性を評価するステップを備えたことを特徴とする請求項5に記載の訓練レコード特定方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習に使用された複数の訓練レコードの中から評価対象の新規レコードに類似する訓練レコードを特定するための訓練レコード特定装置及び訓練レコード特定方法に関するものである。
【背景技術】
【0002】
例えば内部監査や外部監査などの会計監査業務においては、財務諸表などの会計書類に記載された内容に対して、架空取引など不正な取引が存在していないかなどの分析を行い、チェックをすることが行われる(特許文献1,2など参照)。
【0003】
また、特許文献3に開示されているように、機械学習による成果を利用して、コンピュータ処理によって会計不正のリスクを評価させようという試みもある。ここで、機械学習の学習過程で行われる計算は複雑化しており、高い精度での評価を実現できるメリットはあるが、その評価の判断根拠を人間が容易に理解することは困難であることが多い。
【0004】
そこで特許文献3では、機械学習モデルによって出力された評価に対して、機械学習に利用した説明変数となる勘定科目のうち、どの勘定科目が異常となっているかを、SHAP値を算出することで特定できるようにしている。
【先行技術文献】
【特許文献】
【0005】
【文献】特許第7052135号公報
【文献】特開2019-179531号公報
【文献】特許第7216854号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、評価結果に与えた影響が大きい勘定科目が特定されただけでは、架空取引などの会計不正の具体的な状況が把握しにくく、結局は会計監査業務に精通した経験豊富な会計士が、特定された勘定科目の数値に基づいて会計不正の詳細を解明していく必要がある。一方、監査対象に類似する過去の事例が特定できれば、公表された過去の不正手口を参照しやすく、監査手続きの深化につながる。
【0007】
そこで本発明は、機械学習に使用された複数の訓練レコードの中から類似する事例を容易に特定することが可能になる訓練レコード特定装置及び訓練レコード特定方法を提供することを目的としている。
【課題を解決するための手段】
【0008】
前記目的を達成するために、本発明の訓練レコード特定装置は、機械学習に使用された複数の訓練レコードの中から評価対象の新規レコードに類似する訓練レコードを特定するための訓練レコード特定装置であって、機械学習に使用可能な複数の訓練レコードを用いて機械学習モデルを生成する学習モデル生成部と、複数の訓練レコードの中から機械学習モデルの生成に使用するレコードをサンプリングした訓練データを設定する訓練データ設定部と、前記訓練データを用いて前記学習モデル生成部によって生成された弱学習モデルが複数記憶された学習モデル記憶部と、前記学習モデル記憶部に記憶された複数の弱学習モデルを、少なくとも1つの訓練レコードに基づいて2つのグループに分割するグループ生成部と、評価対象となる新規レコードに対して、前記グループ生成部によって生成された第1グループに属する前記弱学習モデルによる前記新規レコードの出力と、第2グループに属する前記弱学習モデルによる前記新規レコードの出力と、を比較した影響度を算出する影響度算出部と、前記影響度に基づいて前記新規レコードに類似する訓練レコードを特定する類似データ特定部とを備えたことを特徴とする。
【0009】
ここで、前記第1グループは、グループの分割に使用された前記訓練レコードを含む前記訓練データにより生成された前記弱学習モデルによって構成され、前記第2グループは、グループの分割に使用された前記訓練レコードを含まない前記訓練データにより生成された前記弱学習モデルによって構成される。
【0010】
また、前記影響度算出部によって算出された影響度の有意性を評価する有意性評価部を備え、前記類似データ特定部では、前記影響度及び前記有意性評価部の評価結果に基づいて前記新規レコードに類似する訓練レコードを特定する構成とすることができる。
【0011】
さらに、前記影響度は、前記グループ生成部によって生成された2つのグループに属するそれぞれの前記弱学習モデルによる出力の差分であって、前記有意性評価部では、前記差分の有意性検定を行う構成とすることができる。
【0012】
また、訓練レコード特定方法の発明は、機械学習に使用された複数の訓練レコードの中から評価対象の新規レコードに類似する訓練レコードを特定するための訓練レコード特定方法であって、複数の訓練レコードからサンプリングした訓練データを用いて機械学習させることで弱学習モデルを生成することを、所望する回数にわたって行うステップと、複数の弱学習モデルを、少なくとも1つの訓練レコードに基づいて2つのグループに分割するステップと、評価対象となる新規レコードに対して、2つのグループに属するそれぞれの前記弱学習モデルによる出力の差分を算出するステップと、前記差分が最も大きくなるグループの分割に使用された前記訓練レコードを、前記新規レコードに最も類似するとして特定するステップとを備えたことを特徴とする。ここで、前記差分の有意性を評価するステップを備えた構成とすることもできる。
【発明の効果】
【0013】
このように構成された本発明の訓練レコード特定装置及び訓練レコード特定方法は、機械学習に使用した複数の訓練レコードの中から、評価対象となる新規レコードに類似する訓練レコードを特定することができる。
【0014】
このため、例えば会計監査業務において、監査対象に類似する過去の事例を容易に特定することができるようになる。要するに、個々の訓練レコードの中から、会計不正のリスクの評価結果に与える影響が大きい訓練レコードが特定できれば、過去の不正事例などを参照することができるようになる。類似するとして特定された事例は、過去の不正手口などが公表されているので、それを参照することで監査手続きの深化につなげることができる。
【図面の簡単な説明】
【0015】
【
図1】本実施の形態の訓練レコード特定装置の構成を説明するブロック図である。
【
図2】本実施の形態の訓練レコード特定方法の処理の流れを説明するフローチャートである。
【
図3】本実施の形態の訓練レコード特定方法の概要を示した説明図である。
【
図4】弱学習モデルが搭載された弱学習器を例示した説明図である。
【
図5】サンプリングと訓練データと弱学習器との関係を例示した説明図である。
【
図6】単一の訓練レコードによって複数の弱学習器を2つのグループに分割する方法の概要を示した説明図である。
【
図7】訓練データと弱学習器との関係を例示した説明図である。
【
図8】分割された2つのグループを例示した説明図である。
【
図9】2つのグループに属する弱学習器によって構成されるモデルを例示した説明図である。
【
図10】影響度となるスコア差分を例示した説明図である。
【
図11】スコア差分の有意性を評価する方法を例示した説明図である。
【
図12】影響度の有意差検定方法を例示した説明図である。
【
図13】複数の訓練レコードによって複数の弱学習器を2つのグループに分割する方法を例示した説明図である。
【
図14】新規レコードを使って訓練レコード特定方法を実施した結果を例示した説明図である。
【発明を実施するための形態】
【0016】
以下、本発明の実施の形態について図面を参照して説明する。
図1は、本実施の形態の訓練レコード特定装置1の構成を説明するブロック図である。また、
図2は、本実施の形態の訓練レコード特定方法の処理の流れを説明するフローチャートである。
【0017】
本実施の形態では、内部監査や外部監査などの会計監査の監査対象となる会社の新規レコード(例えば決算年月単位)に対して、会計不正のリスクを機械学習モデルを使用して評価する例について説明するが、後述するように訓練レコード特定装置1は、様々な分野で適用できる。会計監査においては、会計不正のリスクの評価には、現時点での不正検知と、将来の不正予測との両方の意味が含まれる。
【0018】
本実施の形態の訓練レコード特定装置1では、
図1に示すように、入力装置2や記憶部4などから入力されたデータに基づいて演算処理部3で処理を行い、表示装置5などに評価結果などを表示させる。
【0019】
訓練レコード特定装置1の演算処理部3は、機械学習に使用する訓練データを設定する訓練データ設定部31と、訓練データに含まれる訓練レコードを用いて機械学習モデルを生成する学習モデル生成部32と、生成された複数の機械学習モデルをグループ分けするグループ生成部33と、新規レコードに対する訓練レコードの影響度を算出する影響度算出部34と、影響度の有意性を評価する有意性評価部35と、新規レコードに類似する訓練レコードを特定する類似データ特定部36と、表示装置5への表示内容などを制御する表示制御部37とによって、主に構成される。
【0020】
各種データの入力を行うための入力装置2は、パーソナルコンピュータ(PC)、ノートパソコン、タブレット端末、ウェアラブル端末、スマートフォンなどに接続又は装備されたデータ入力手段である。入力装置2には、例えば、キーボード、マウス、タッチパネル、タッチパッド、スキャナ、音声入力用のマイク、カメラなどが該当する。
【0021】
一方、表示装置5には、液晶ディスプレイ、有機EL(Electro- Luminescence)ディスプレイ、プリンタなどが使用できる。
【0022】
さらに、記憶部4は、演算処理部3における処理に使用する訓練データや、演算処理によって生成されたデータなどを記録させる記憶媒体で、ハードディスク、ソリッドステートドライブ(SSD)、フラッシュメモリ(SDメモリーカードなど)、磁気ディスク、光ディスクなどが該当する。また、ネットワークで接続されるサーバなどの外部のオンラインストレージ(クラウドストレージ)を、記憶部4として使用することもできる。ここで、学習モデル生成部32によって生成された機械学習モデルを記憶させる記憶媒体の領域を、学習モデル記憶部41という符号を付けて区別して説明する。
【0023】
演算処理部3は、ハードウェアとしては、CPU(Central Processing Unit)、MPU(Micro-processing unit)、GPU(Graphics Processing Unit)などによって構成され、RAM(Random Access Memory)やROM(Read Only Memory)などのメモリを備えている。
【0024】
演算処理部3は、コンピュータにインストールされたアプリケーションによって各種機能を実行させることができる。また、インターネットなどのネットワークを介して接続されたサーバなどに、演算処理部3の一部又は全部を実行させることもできる。ネットワークは、インターネット、WAN(Wide Area Network)、有線LAN(Local Area Network)、無線LAN(Wi-Fi)、プロバイダ装置、無線基地局、専用回線などの一部又は全部によって構成される。
【0025】
演算処理部3の訓練データ設定部31では、機械学習に使用可能な記憶部4に記憶された複数の訓練レコードの中から、機械学習モデルを生成するために使用する訓練レコードを任意に設定することができる。
【0026】
本実施の形態の訓練レコード特定装置1では、複数の訓練レコードの中から機械学習モデルの生成に使用するレコードをサンプリングすることで、訓練データとして設定する。サンプリングの手法は、特に限定されるものではなく、例えばブートストラップ法が使用できる。
【0027】
そして、学習モデル生成部32では、訓練データ設定部31でサンプリングによって設定された訓練データ(データセット)を用いて機械学習させることで、弱学習モデルを生成する。機械学習は、どのような手法であってもよく、決定木など任意の手法が適用できる。そして、所望する回数のサンプリングを繰り返して、その都度設定された訓練データによって、弱学習モデルをそれぞれ生成させる。
【0028】
ここで、
図3は、本実施の形態の訓練レコード特定方法の概要を示した説明図である。アンサンブルモデルは、複数の弱学習器の学習結果を統合することにより、高精度な評価を行うモデルを構築するための手法であり、バギング、ランダムフォレストなどが知られている。
【0029】
ランダムフォレストは、与えられたデータセットからブートストラップ法によるサンプリングで複数の訓練レコードを抽出してデータセット(訓練データ)を作成し、それら複数の訓練データから生成された複数の弱学習器を統合したアンサンブルモデルにより、最終的な評価結果を導き出す。
【0030】
図4は、弱学習モデルが搭載された弱学習器を例示した説明図である。この図に示したように、ID(識別子)が1からNまでのN個の訓練レコードが、記憶部4に記憶されていたとする。なお、記憶部4には、別の訓練レコードが記憶されていてもよい。
【0031】
そして、訓練データ設定部31では、N個の訓練レコード(Nレコード)を、機械学習に使用するすべての訓練レコード(全訓練レコード)として読み込み、全訓練レコードの中からサンプリングを行う。
【0032】
学習モデル生成部32では、全訓練レコードからサンプリングされた訓練データを用いて機械学習させることで、弱学習モデルとなる弱学習器を生成する。
図4には、訓練データテーブルにz列を追加し、サンプリングされた対象レコード(訓練レコード)にはz=1を付し、対象外レコードにはz=0を付した1からMの訓練データを示している。
【0033】
このように全訓練レコード(Nレコード)からサンプリングによって設定された訓練データ(データセット)によって機械学習をさせれば、その訓練データに対応する機械学習ごとの弱学習モデルが生成されることになる。要するに、サンプリングと機械学習をM回繰り返すことで、M個の弱学習器(f[1],f[2],f[3],・・・,f[M-1],f[M])が生成される。
【0034】
以上のようにして学習モデル生成部32によって生成された学習済みの機械学習モデル(弱学習モデル)は、学習モデル記憶部41に記憶される。そして、後述するグループ生成部33などの演算時に読み込まれて利用される。
【0035】
グループ生成部33では、学習モデル記憶部41に記憶された複数の弱学習モデル(弱学習器)を、少なくとも1つの訓練レコードに基づいて2つのグループに分割する。要するに、評価対象の新規レコードXへの特定の訓練レコードYの影響を見るために、多数の弱学習器を作成したものを、「(1)特定の訓練レコードYが用いられている弱学習器の第1グループ」と、「(2)特定の訓練レコードYが用いられていない弱学習器の第2グループ」とに分ける。
【0036】
そして、第1グループに属する弱学習器を束ねて作成した学習器による新規レコードXのスコアと、第2グループに属する弱学習器を束ねて作成した学習器による新規レコードXのスコアとの差分から、特定の訓練レコードYの評価対象(新規レコードX)への影響を測定する。
【0037】
この特定の訓練レコードYについては、単一の訓練レコード(単一レコード)であってもよいし、複数の訓練レコードの組み合わせ(複数レコード)であってもよい。そして、その利用の仕方は、
図3に示したように複数通り考えられる。
【0038】
例えば、アンサンブルモデルを作成した後に、単一レコードの影響度のみを算出して、影響度の高い訓練レコードを関連レコードとして特定することができる(
図3の(1)→(2)→(3))。また、複数レコードの組み合わせの仕方を予め定義しておき、最初から複数レコードの影響度を算出して、関連レコードとして特定することができる(
図3の(1)→(4)→(5))。さらに、最初に単一レコードの影響度を算出し、単一レコードで影響度が大きくなったレコード同士の組で複数レコードの影響度を算出して、関連レコードとして特定することもできる(
図3の(1)→(2)→(3)→(4)→(5))。
【0039】
まずは、説明を簡単にするために、
図5及び
図6を参照しながら、単一レコードによって2つのグループに分割する方法について説明する。
図5は、サンプリングと訓練データと弱学習器との関係を例示した説明図である。
【0040】
図5に示すように、弱学習器には、あるレコード(n)がサンプリングされた弱学習器と、レコード(n)がサンプリングされていない弱学習器とが存在する。そこで、各訓練データのz
(n)[m]を、レコード(n)がサンプリングされた弱学習器[m]は1とし、レコード(n)がサンプリングされていない弱学習器[m]は0とする。こうしておけば、単一レコードが特定されれば、弱学習器(f
[1],f
[2],f
[3],・・・,f
[M-1],f
[M])がどちらのグループに分けられるかという処理を行うことができる。
【0041】
図6は、単一の訓練レコードによって複数の弱学習器を2つのグループに分割する方法の概要を示した説明図である。例えば、作成したM個の弱学習器(f
[1],f
[2],f
[3],・・・,f
[M-1],f
[M])を、レコード(1)がサンプリングされた弱学習器([1],[3],・・・,[M])のグループAと、レコード(1)がサンプリングされていない弱学習器([2],・・・,[M-1])のグループBとに分割する。そして、グループAとグループBとのそれぞれで新規レコードのスコアを算出し、そこから影響度を算出する。
【0042】
具体的には影響度算出部34では、監査対象となる新規レコードに対して、グループA(第1グループ)で構成されるモデルで会計不正のリスクの評価結果となるリスクスコア(以下、単に「スコア」ということもある。)を出力するとともに、グループB(第2グループ)で構成されるモデルでもリスクを出力する。
【0043】
各グループA,Bのモデルを用いて出力されるスコアは、新規レコードの会計不正リスクを示す値ではあるが、この値を見ただけでは、どのような手口で会計不正が行われているのかがはっきりとせず、具体的な監査のアクションにはつながりにくい。
【0044】
そこで、本実施の形態の訓練レコード特定装置1では、グループを分割するために特定された訓練レコードの影響度を、影響度算出部34によって算出する。ここで、改めて訓練データと弱学習器との関係を
図7に示す。ある訓練レコード(n)が、監査対象となる会社のある決算年月(s)の新規レコード(s)のスコアに及ぼす影響度I
(n→s)は、以下のように定式化することができる。
【0045】
まず訓練レコード(n)を選択すると、
図7に示したM個の弱学習器(f
[1],f
[2],f
[3],・・・,f
[M-1],f
[M])は、
図8に示すように、グループA
(n)とグループB
(n)の2つのグループに分割される。ここで、それぞれのグループ内の弱学習器の数は、|A
(n)|と|B
(n)|によって示される。
【0046】
そして、
図9に示すように、グループA
(n)に属する弱学習器を統合したモデルのスコアh
[A(n)](x)をg({f
[k](x)|k∈A
(n)})と定義し、グループB
(n)に属する弱学習器を統合したモデルのスコアh
[B(n)](x)をg({f
[k](x)|k∈A
(n)})と定義する。ここで、関数gは、特に限定されるものではなく、平均値や中央値等どのような関数であってもよい。
【0047】
こうして定義された各グループのモデルのスコア(h
[A(n)](x),h
[B(n)](x))から、訓練レコード(n)が新規レコード(s)のスコアに及ぼす影響度I
(n→s)は、
図10に示すように、各訓練レコード(1,2,・・・,N)について求めることができる。例えば、訓練レコード(1)が新規レコード(s)のスコアに及ぼす影響度I
(1→s)は、h
[A(1)](x
(s)) - h
[B(1)](x
(s))というスコア差分で表すことができる。
【0048】
このように、影響度算出部34で2つのグループA,B間のスコア差分を影響度として算出することにより、グループ分けに使用された訓練レコードのリスクスコアに対する影響度を把握することができるようになる。
【0049】
有意性評価部35では、こうして算出された影響度の有意性を評価する。上述したようにして算出された影響度I(n→s)は、2つのグループA(n),B(n)間のスコア差分(h[A(n)](x(s))-h[B(n)](x(s)))であるが、その数値の大きさに意味があるかどうかを有意差検定により評価する。
【0050】
図11は、スコア差分の有意性を評価する方法を例示した説明図である。この図に示すように、それぞれの影響度I
(n→s)のp値(有意確率)を算出し、訓練レコード(1,2,・・・,N)の指標列を追加する。影響度I
(n→s)のp値となるp1
(n)(x
(s))は、各グループA
(n),B
(n)の弱学習器の数(|A
(n)|,|B
(n)|)及び各グループA
(n),B
(n)のスコア(h
[A(n)](x
(s)),h
[B(n)](x
(s)))を用いて算出することができる。
【0051】
続いて、
図12に示すように、訓練レコード(1,2,・・・,N)のデータ列を影響度I
(n→s)をキーにして降順にソートし、影響度I
(n→s)がn番目に大きいレコードのIDを(rn)とする。こうすることで、レコード(r1)の影響度I
(r1→s)と、レコード(rn)の影響度I
(rn→s)との差分を検定することが可能になり、このp値(p2
(r1,rn)(x
(s)))を指標列に追加する。ここで、p2
(r1,rn)(x
(s))は、レコード(r1)の影響度I
(r1→s)と、レコード(rn)の影響度I
(rn→s)との差分(=I
(r1→s) - I
(rn→s))の有意差検定のp値である。
【0052】
訓練データの中で、レコード(r1)が最も影響が大きい単一の関連レコードであると判断するには、以下を必要条件とする。
<条件1>レコード(r1)の影響度I(r1→s)が、充分に大きい。
要するに、すべての訓練レコードの中で最も大きい影響度I(r1→s)が、単なるサンプリング誤差でないことが必要になる。
【0053】
<条件2>レコード(r1)の影響度I(r1→s)が、他のレコード(rn)の影響度I(rn→s)よりも充分に大きい。
要するに、すべての訓練レコードの中で最も大きい影響度I(r1→s)が、2番目以降のレコードI(r2→s)の影響度よりも有意に大きいことが必要になる。
【0054】
類似データ特定部36では、影響度算出部34によって算出された影響度に基づいて、新規レコードに類似する訓練レコードを特定する。要するに、2つのグループA(n),B(n)間のスコア差分(h[A(n)](x(s))-h[B(n)](x(s)))である影響度I(n→s)を算出し、有意性評価部35で有意性が評価されたレコード(r1)を、新規レコードに最も類似する訓練レコードとして特定する。
【0055】
表示制御部37では、影響度算出部34によって算出された影響度や、有意性評価部35による有意差検定の結果や、類似データ特定部36によって特定された訓練レコードなどについて、表示装置5への出力形式などの制御を行う。
【0056】
以下、本実施の形態の訓練レコード特定方法の処理の流れについて、
図2に示したフローチャートを参照しながら説明する。
【0057】
まずステップS1では、記憶部4に記憶されたデータの中から機械学習に使用可能なすべての訓練レコードを読み込む。続いてステップS2では、訓練データ設定部31において訓練データの設定を行う。
【0058】
訓練データの設定は、機械学習に使用可能なN個の訓練レコードを読み込んだ場合に、全訓練レコード(Nレコード)に対してサンプリングすることで、続く機械学習モデルの生成のための訓練データとして設定する。
【0059】
N個の訓練レコードにはそれぞれ識別子(ID)が付されており、説明変数xと不正ラベルyというタグの組み合わせになっている(
図4参照)。例えば、会計不正リスクを評価する際に、機械学習に使用する訓練レコードの説明変数xとして有効と考えられる項目を以下に例示する。
【0060】
例えば、財務諸表に記載されている、棚卸資産回転期間、棚卸資産純資産比率、棚卸資産総資産比率、売上債権増減率、売上高成長率、売上債権増減率を売上高成長率で除した比率、売上債権増減額、売上債権回転期間、売上債権回転期間増減率、有形固定資産残高、のれん純資産割合、繰延税金資産の利益剰余金割合、海外売上高比率、売上高営業利益率、営業外損益、売上高営業外損益率、営業利益営業活動によるキャッシュフロー率、有形固定資産比率などの項目が、説明変数として利用できる。
【0061】
1つの会社のレコードであっても、決算年月が異なれば、別の訓練レコードとして利用することができる。訓練レコードは、上記した説明変数の項目の中から選ばれた説明変数の値と、その訓練レコードに付与された不正ラベルyとの組み合わせになっている。要するに、説明変数の値を入力した場合の解が不正ラベルyになるという教師データである。
【0062】
図4の左端に例示した訓練データ[1]を参照しながら説明すると、z列は、各訓練レコード(1,2,・・・,N)がサンプリングされた(z=1)か、否(z=0)かを示している。このように全訓練レコードからサンプリングされた訓練データを、機械学習のデータセットとして設定する。
【0063】
そしてステップS3では、訓練データ[1]を用いて学習モデル生成部32によって機械学習を行うことで1つ目の弱学習モデルを生成し、弱学習器として学習モデル記憶部41に記憶させる。
【0064】
ステップS4では、異なる訓練データによって別の弱学習モデルを生成するか否かの判定を行う。通常は、複数の弱学習モデルを生成するので、最初のステップS4の通過時には、「YES」に進むことになる。
図4に示すようにM個の弱学習器を生成するためには、ステップS2,S3をM回、実行することになる。こうして生成されたM個の弱学習器は、学習モデル記憶部41に記憶される。
【0065】
ステップS4で「NO」に進んだ後には、ステップS5において、M個の弱学習器を2つのグループに分割するグループ分けが行われる。グループ生成部33では、全訓練レコード(1,2,・・・,N)の中から、1つ又は複数の訓練レコードを分割用の訓練レコードとして設定する。
【0066】
単一レコードを分割用の訓練レコードとして設定する場合については既に説明したので、ここでは、
図13を参照しながら、複数の訓練レコードによって複数の弱学習器を2つのグループに分割する方法について説明する。
【0067】
以降の説明では、2レコードの組み合わせを例に説明するが、3レコード以上の組み合わせも同様に説明することができる。影響度を算出するために対象となる訓練レコードの組は、以下の観点で決めることができる。
【0068】
<組1>全ての訓練レコードの組み合わせ
単純に組み合わせを作ることができるが、組み合わせの数がNC2となり、全訓練レコードの数Nが大きいと、組み合わせの爆発を起こすことがある。
【0069】
<組2>実務上意義のある組み合わせ
例えば、不正を起こした企業の不正期間すべてを組み合わせるなど、ドメイン知識に基づいて適切な組み合わせを選択する。
【0070】
<組3>単一レコードの影響度を導出する過程で算出したp値(p1,p2)が小さいレコードの組み合わせ
要するに、単一レコードの影響度がそれなりに大きいレコードのみにスコープを絞り、影響度が大きい組を効率的に探索する。
【0071】
そこで、
図13に示すように、訓練レコードの組(n1,n2)を選択し、M個の弱学習器を、グループA
(n1,n2)とグループB
(n1,n2)の2つのグループに分割する。ここで、グループA
(n1,n2)は訓練レコードの組(n1,n2)がともにサンプリングされた弱学習器のグループで、グループB
(n1,n2)は訓練レコードの組(n1,n2)がともにサンプリングされなかった弱学習器のグループである。
【0072】
単一レコード又は複数レコードによって分割された2つのグループA,Bについては、それぞれグループA(A
(n),A
(n1,n2)),B(B
(n1,n2),B
(n1,n2))に属する弱学習器が定義され、それぞれのグループA,B内の弱学習器の数(|A
(n)|,|A
(n1,n2)|),(|B
(n)|,|B
(n1,n2)|)が算出される(
図8、
図13)。
【0073】
ステップS6では、監査対象となる新規レコードの2グループA,B間のスコア差分を算出する。例えば、監査対象となる会社のある決算年月の財務諸表から抜き出された新規レコードを各グループA,Bのモデルに入力し、スコアを算出する。例えば
図9に示すように、グループA
(n)で構成されるモデルのスコア(h
[A(n)](x))と、グループB
(n)で構成されるモデルのスコアh
[B(n)](x)とが算出される。
【0074】
そして、2つのグループA(n),B(n)間のスコア差分(h[A(n)](x)-h[B(n)](x))を影響度として算出する。続くステップS7では、異なる訓練レコードによって異なるグループ分割を行うか否かの判定を行う。通常は、複数回にわたってグループ分割を行うので、最初のステップS7の通過時には、「YES」に進むことになる。
【0075】
例えば、単一レコードを設定してグループ分割を行う場合には、少なくとも過去に不正事例があった訓練レコードについてはすべて分割の基準にするので、その数に応じてステップS5,S6が繰り返される。
【0076】
そして、ステップS7で「NO」に進んだ後には、グループ分割を行った数だけ算出されたスコア差分(影響度)について、その値の有意性を有意性評価部35で評価する(ステップS8)。
【0077】
ステップS6で大きなスコア差分(影響度)が算出され、ステップS8でそのスコア差分の有意性が評価された訓練レコードについては、ステップS9において、監査対象となる新規レコードに最も類似する訓練レコードとして特定される。
【0078】
会計監査業務を行う者は、このようにして特定された過去の不正事例を検討することで、新規レコードに対する具体的な監査のアクションにつなげることができるようになる。
図14は、ある会社のある年度の財務データを新規レコードとして訓練レコード特定方法を実施した結果を例示した説明図である。
【0079】
この一覧表には、監査対象となる新規レコードに最も類似する訓練レコードとして、a社の決算年月2006年9月の訓練レコードが差分順位1位として表示されている。ここには、各グループA,Bによる新規レコードのスコア及びスコア差分(A-B)だけでなく、上述したようにして算出されたp値を使ったt検定の結果も表示されている。
【0080】
ここで、差分t値Iは、対象となる差分順位のグループAのスコアと、同一の差分順位のグループBのスコアとの差分の有意性検定のt値を示している。また、差分t値IIは、対象となる差分順位(2位以降)のスコア差分と、差分順位1位のスコア差分との差分の有意性検定のt値を示している。
【0081】
このように類似データ特定部36によって差分順位を付けて、
図14に例示したように示された一覧表の出力は、スコア差分という影響度及び有意性の評価結果(差分t値I、差分t値II)に基づいて、新規レコードに最も類似する訓練レコードを特定していることになる。
【0082】
こうした新規レコードに類似する訓練レコードの特定においては、最も影響が大きい単一レコードを特定することができない場合がある。そうした場合は、
図3を参照しながら上述したように、複数の訓練レコードを組み合わせた複数レコードが与える影響度として算出することができる。例えば、複数期間に渡って不正を犯した企業において、単年の有報では影響度が小さいが、不正期間のすべての有報の組み合わせから求められた影響度は大きくなることがある。
【0083】
次に、本実施の形態の訓練レコード特定装置1及び訓練レコード特定方法の作用について説明する。
このように構成された本実施の形態の訓練レコード特定装置1及び訓練レコード特定方法は、機械学習に使用した複数の訓練レコードの中から、監査対象となる新規レコードに類似する訓練レコードを特定する類似データ特定部36を備えている。
【0084】
このため、監査対象に類似する過去の事例を容易に特定することができる。要するに、個々の訓練レコードの中から、新規レコードの評価結果に与える影響が大きい訓練レコードが特定できれば、過去の不正事例を参照することができるようになる。
【0085】
類似するとして特定された過去事例は、過去の不正手口が公表されているので、それを参照することで監査手続きの深化につなげることができる。会計上の不正リスクの解釈にあたっては、一般に会計不正は、その手口等が調査報告書等において外部に公表されているケースも多く、類似と判定された過去事例の会計データの関連性に納得できることが多いことから、有効であると考えられる。
【0086】
そして、予め複数の弱学習器を生成しておいて、2つのグループに分割し、それぞれのグループを構成する弱学習器を統合したアンサンブルモデルによって評価を行う手法であれば、その都度、機械学習モデルを作成する場合と比べて、モデル作成時間を増大させることがない。また、機械学習モデルを管理する手間やファイル容量を、評価する毎に増大させることもない。
【0087】
また、複数レコードの影響を検討する際も、新たな機械学習モデルを作成する必要がなく、生成済みの複数の弱学習器のグループ分割を新たに行うだけで、容易に複数レコードの影響を算出することができる。
【0088】
また、グループの分割に使用された訓練レコードを含むグループA(第1グループ)と、含まないグループB(第2グループ)の弱学習器の数を算出しているため、有意差検定の実施が可能となり、算出されたスコア差分(影響度)の有意性の判断ができるようになる。
【0089】
さらに、影響関数を適用して影響度を算出する場合は微分不可能なモデルに対しては適用することができないが、アンサンブルモデルを適用するのであれば、微分可能か否かといったモデル制約が存在せず、適用範囲を広げることができる。
【0090】
以上、図面を参照して、本発明の実施の形態を詳述してきたが、具体的な構成は、この実施の形態に限らず、本発明の要旨を逸脱しない程度の設計的変更は、本発明に含まれる。
【0091】
例えば、前記実施の形態では、主に会計監査業務にける会計不正のリスクの評価に本実施の形態の訓練レコード特定装置1及び訓練レコード特定方法を適用する場合について説明したが、これに限定されるものではない。
【0092】
例えば金融の分野において、銀行等が行う貸出先の信用力評価を行う際にも、本実施の形態の訓練レコード特定装置1及び訓練レコード特定方法を適用することができる。例えば、1社の1年度の財務諸表の財務指標を評価対象の新規レコードとして、貸倒れの有無のリスクを評価する際に、類似の貸倒れ事例を特定し、経営支援の内容を検討するときの参考にできるようにする。
【0093】
また、製造の分野において、製造機器の故障リスクの評価を行う際にも、本実施の形態の訓練レコード特定装置1及び訓練レコード特定方法を適用することができる。例えば、1台の機器情報において、機器の稼働ログ、使用年数、気象情報などを説明変数とした新規レコードに対し、故障の有無を評価する際に、類似の故障事例を特定し、事前に適切なメンテナンスを実施し、生産ラインの停止を防止できるようにする。
【0094】
さらに、マーケティングの分野において、個人の購買傾向の評価を行う際にも、本実施の形態の訓練レコード特定装置1及び訓練レコード特定方法を適用することができる。例えば、1人の購買活動において、性別、年齢、居住地域、所得、職業、家族構成などのデモグラフィックデータを説明変数とした新規レコードに対し、購買傾向を評価する際に、類似の購買傾向を示した個人を特定し、傾向に沿った販促活動を実施することで、販促効果を向上できるようにする。
【0095】
また、医療の分野において、画像を用いた病気の診断を行う際にも、本実施の形態の訓練レコード特定装置1及び訓練レコード特定方法を適用することができる。例えば、1人の患者情報について、CT画像、健康状態、病歴などを説明変数とした新規レコードに対し、腫瘍の有無を評価する際に、類似の患者の症例を特定し、診断及び処置検討の指針の参考にできるようにする。
【符号の説明】
【0096】
1 :訓練レコード特定装置
31 :訓練データ設定部
32 :学習モデル生成部
33 :グループ生成部
34 :影響度算出部
35 :有意性評価部
36 :類似データ特定部
41 :学習モデル記憶部
【要約】
【課題】機械学習に使用された複数の訓練レコードの中から類似する事例を容易に特定することが可能になる訓練レコード特定装置を提供する。
【解決手段】機械学習モデルを生成する学習モデル生成部32と、複数の訓練レコードの中から機械学習モデルの生成に使用するレコードをサンプリングした訓練データを設定する訓練データ設定部31と、生成された弱学習モデルが複数記憶された学習モデル記憶部41と、複数の弱学習モデルを、少なくとも1つの訓練レコードに基づいて2つのグループに分割するグループ生成部33と、評価対象となる新規レコードに対して、第1グループに属する弱学習モデルによる新規レコードの出力と、第2グループに属する弱学習モデルによる新規レコードの出力と、を比較した影響度を算出する影響度算出部34と、影響度に基づいて新規レコードに類似する訓練レコードを特定する類似データ特定部36とを備えている。
【選択図】
図1