(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-17
(45)【発行日】2024-01-25
(54)【発明の名称】情報処理装置、予測値に対する寄与値の集計方法、及び、そのプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20240118BHJP
G06N 20/00 20190101ALI20240118BHJP
【FI】
G06T7/00 350B
G06N20/00 130
(21)【出願番号】P 2020028521
(22)【出願日】2020-02-21
【審査請求日】2022-11-16
(73)【特許権者】
【識別番号】000153443
【氏名又は名称】株式会社 日立産業制御ソリューションズ
(74)【代理人】
【識別番号】110001689
【氏名又は名称】青稜弁理士法人
(72)【発明者】
【氏名】浜 直史
(72)【発明者】
【氏名】恵木 正史
(72)【発明者】
【氏名】森 靖英
【審査官】佐藤 実
(56)【参考文献】
【文献】久保田智規 他3名,CNNを用いた物体認識における誤認識の原因を可視化する一手法,電子情報通信学会技術研究報告 ,一般社団法人電子情報通信学会,2019年08月28日,第119巻 第193号,第99-104頁
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
記憶装置と、該記憶装置に格納されるプログラムに従って処理を実行するプロセッサを有する情報処理装置であって、
前記記憶装置は非構造データである入力データを保持し、
前記プロセッサは、
前記入力データに対する処理を実行し予測値を出力する予測処理と、
前記入力データに含まれる各特徴量の値に対する前記予測値の寄与値を算出する寄与値算出処理と、
前記寄与値の摘出容易度に基づき前記入力データから基準画像を抽出する基準画像抽出処理と、
パーツパターン定義設定情報を受付けるパーツパターン定義設定情報受付処理と、
前記基準画像から前記パーツパターン定義設定情報を基にパーツパターンを抽出し、パーツパターン情報として前記記憶装置に格納するパーツパターン定義処理と、
前記入力データと前記パーツパターン情報とをマッチングして
、前記パーツパターンに対応した識別IDと、該パーツパターンが前記入力データに対して該当した該当データ数と、該パーツパターン上に分布する寄与値の統計量の組合せである集計情報
であって、前記該当データ数と前記寄与値の統計量は、正答と誤答の別ごとに集計されている前記集計情報を作成する寄与値集計処理と、
前記集計情報を寄与値集計結果として表示する寄与値集計結果表示処理を有することを特徴とする情報処理装置。
【請求項2】
請求項1に記載の情報処理装置であって、
前記プロセッサは、
前記基準画像抽出処理において、前記寄与値の摘出容易度として該寄与値の局在度を基準として寄与値摘出容易度算出処理を行い、寄与値摘出容易度順に前記寄与値を並び替え、前記入力データから基準画像を抽出することを特徴とする情報処理装置。
【請求項3】
請求項1に記載の情報処理装置であって、
前記基準画像と該基準画像から抽出したパーツパターンとは、1対複数の関係であることを特徴とする情報処理装置。
【請求項4】
請求項1に記載の情報処理装置であって、
前記プロセッサは、
前記パーツパターン定義処理において、前記パーツパターンの形状を抽象化して、該抽象化したパーツパターンをパーツパターン情報として前記記憶装置に格納することを特徴とする情報処理装置。
【請求項5】
請求項1に記載の情報処理装置であって、
前記パーツパターン定義設定情報受付処理で受け付けたパーツパターン定義設定情報はパーツパターン名であることを特徴とする情報処理装置。
【請求項6】
請求項1に記載の情報処理装置であって、
前記パーツパターン情報は、識別IDとパーツパターン名とパーツパターンの組合せであることを特徴とする情報処理装置。
【請求項7】
請求項1に記載の情報処理装置であって、
前記パーツパターン定義設定情報受付処理で受け付けたパーツパターン定義設定情報はパーツパターンに対応する元画像の色情報であることを特徴とする情報処理装置。
【請求項8】
請求項4に記載の情報処理装置であって、
前記パーツパターン定義設定情報受付処理で受け付けたパーツパターン定義設定情報は、
前記抽象化の際に補正する補正幅の情報であることを特徴とする情報処理装置。
【請求項9】
請求項1に記載の情報処理装置であって、
前記パーツパターン定義設定情報受付処理で受け付けたパーツパターン定義設定情報は、
前記マッチングの際の許容範囲の情報であることを特徴とする情報処理装置。
【請求項10】
請求項1に記載の情報処理装置であって、
前記寄与値集計結果は、パーツパターンごとの寄与値集計結果と、トピック欄と、リコメンド欄を有することを特徴とする情報処理装置。
【請求項11】
情報処理装置が実行する、入力データに対して行われた予測値に対する寄与値の集計方法であって、
前記情報処理装置は、記憶装置と、該記憶装置に格納されるプログラムにしたがって処理を実行するプロセッサを有し、
前記プロセッサが、
対象の事象を予測するためのモデルに基づいて、前記入力データに対する処理を実行し予測値を出力する予測処理ステップと、
前記予測値をもとに、前記入力データに含まれる各特徴量の値について特徴量の値の予測値への寄与の大きさを表す寄与値を算出する寄与値処理ステップと、
前記寄与値の摘出容易度に基づき前記入力データから基準画像を抽出する基準画像抽出処理ステップと、
パーツパターン定義設定情報を受け付けるパーツパターン定義設定情報受付処理ステップと、
前記基準画像から、前記パーツパターン定義設定情報を基にパーツパターンを抽出し、パーツパターン情報として前記記憶装置に格納するパーツパターン定義処理ステップと、
前記入力データと前記予測値と前記寄与値を入手し、前記パーツパターン情報とマッチングして
、前記パーツパターンに対応した識別IDと、該パーツパターンが前記入力データに対して該当した該当データ数と、該パーツパターン上に分布する寄与値の統計量の組合せである集計情報
であって、前記該当データ数と前記寄与値の統計量は、正答と誤答の別ごとに集計されている前記集計情報を作成する寄与値集計処理ステップを有することを特徴とする予測値に対する寄与値の集計方法。
【請求項12】
入力データに対して行われた予測値に対する寄与値の集計をするためのプログラムであって、プロセッサに、
対象の事象を予測するためのモデルに基づいて、前記入力データに対する処理を実行し予測値を出力する予測処理ステップと、
前記予測値をもとに、前記入力データに含まれる各特徴量の値について特徴量の値の予測値への寄与の大きさを表す寄与値を算出する寄与値処理ステップと、
前記寄与値の摘出容易度に基づき前記入力データから基準画像を抽出する基準画像抽出処理ステップと、
パーツパターン定義設定情報を受け付けるパーツパターン定義設定情報受付処理ステップと、
前記基準画像から、前記パーツパターン定義設定情報を基にパーツパターンを抽出し、パーツパターン情報として記憶装置に格納するパーツパターン定義処理ステップと、
前記入力データと前記予測値と前記寄与値を入手し、前記パーツパターン情報とマッチングして
、前記パーツパターンに対応した識別IDと、該パーツパターンが前記入力データに対して該当した該当データ数と、該パーツパターン上に分布する寄与値の統計量の組合せである集計情報
であって、前記該当データ数と前記寄与値の統計量は、正答と誤答の別ごとに集計されている前記集計情報を作成する寄与値集計処理ステップと、を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習によって構築されたモデルに基づき予測を行うAI(Artificial Intelligence)の予測値の根拠を解釈するために有用な、予測値に対する寄与値を提示する情報処理装置及びその集計方法に関する。
【背景技術】
【0002】
近年、セキュリティや、医療、金融等の様々な分野でAIを活用した支援システムが提供されている。例えば、医療分野では、AIを活用して、病気の発症率の予測や症状の特定等が行われる。
【0003】
一方で、これらのAIが出力する予測値の精度向上を目的とした技術開発の進展によって、AIのモデル(アルゴリズム)のブラックボックス化が加速している。そのため、AIを利用するユーザが、AIの予測値(予測結果)を信頼することができないという課題が生じていた。この課題を解決すべく、AIを活用したシステムの開発者や運用者に対して、AIの予測結果の根拠を説明する手法(以降XAI(Explainable Artificial Intelligence)と称する)が開発されている。
【0004】
本技術分野における先行技術文献として特許文献1がある。特許文献1には、入力された画像が所定のクラスのいずれに属するかを推論する推論装置であって、入力部と、推論過程において頻出する頻出特徴量をクラスごとに記憶した頻出特徴量データベースと、入力された画像がどのクラスに属するかを推論する推論部と、推論部における推論過程で現れた特徴量を抽出し、特徴量の中で所定の条件を満たす特徴量を代表特徴量として抽出する代表特徴量抽出部と、頻出特徴量と代表特徴量とに基づいて根拠特徴量を抽出する根拠特徴量抽出部と、推論されたクラスと共に根拠特徴量を出力する出力部とを備える構成が開示されている。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1記載の手法は、クラスごとの代表特徴量を教師データ全体から作り、それと根拠特徴量が一致していればそれを表示するものであり、あくまでも、1つのテストデータに対する判断根拠を表示するものであって、それを集計しているわけではない。
【0007】
このように、AIの出力結果に対する各説明変数の寄与の大きさを”出力根拠”として算出することで、各テストデータに対する判断根拠は、XAIの発展により理解できることが多くなった。一方で、画像のような非構造データでは、XAIによって出力根拠を算出してもデータセット全体のXAI結果を集計するための集計基準を作成するのが困難であった。よって、テストデータセット全体でそれらの判断根拠を集計し、実際に教師データの見直しやパラメータチューニングなど精度改善のための施策立案に繋げることは、現状ではAI開発者による試行錯誤となっていた。
【0008】
本発明は、画像等の非構造データを対象とするAIについて、出力された予測値に対する寄与値の結果に基づきユーザが当該AIに係る精度改善施策の立案を行なえるような形で寄与値を集計するための基準の半自動的作成を行うことが可能な情報処理装置、予測値に対する寄与値の集計方法、及び、そのプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明は、その一例を挙げるならば、記憶装置に格納されるプログラムに従って処理を実行するプロセッサを有する情報処理装置であって、記憶装置は非構造データである入力データを保持し、プロセッサは、入力データに対する処理を実行し予測値を出力する予測処理と、入力データに含まれる各特徴量の値に対する予測値の寄与値を算出する寄与値算出処理と、寄与値の摘出容易度に基づき入力データから基準画像を抽出する基準画像抽出処理と、パーツパターン定義設定情報を受け付けるパーツパターン定義設定情報受付処理と、基準画像からパーツパターン定義設定情報を基にパーツパターンを抽出し、パーツパターン情報として記憶装置に格納するパーツパターン定義処理と、入力データとパーツパターン情報とをマッチングして集計情報を作成する寄与値集計処理と、集計情報を寄与値集計結果として表示する寄与値集計結果表示処理を有する。
【発明の効果】
【0010】
本発明によれば、AIの予測値に対する寄与値を集計し提示する情報処理装置、及びその集計方法、及び、そのプログラムを提供することが出来る。
【図面の簡単な説明】
【0011】
【
図1】実施例1における情報処理装置システムの機能構成ブロック図である。
【
図2】実施例1における情報処理装置のハードウェア構成図である。
【
図3】実施例1における予測器及び寄与値算出部の具体例を示す図である。
【
図4】実施例1におけるパーツパターン基準画像抽出部の説明図である。
【
図5】実施例1におけるパーツパターン定義部の処理フロー図である。
【
図6】実施例1におけるパーツパターン定義設定情報の設定画面例である。
【
図7】実施例1におけるパーツパターン情報のデータ構造である。
【
図8】実施例1における寄与値集計部の処理フロー図である。
【
図9】実施例1における寄与値集計情報のデータ構造である。
【
図10】実施例2におけるパーツパターン情報のデータ構造である。
【
図11】実施例2におけるパーツパターン定義設定情報の設定画面例である。
【
図12】実施例2におけるパーツパターン定義部の処理フロー図である。
【
図13】実施例2における寄与値集計部の処理フロー図である。
【
図14】実施例2における寄与値集計情報のデータ構造である。
【
図15】実施例3におけるパーツパターン定義設定情報の設定画面例である。
【
図16】実施例3におけるパーツパターン情報のデータ構造である。
【発明を実施するための形態】
【0012】
以下、図面を参照して、本発明の実施例を説明する。
【実施例1】
【0013】
図1は、本実施例における情報処理装置システムの機能構成ブロック図である。
図1において、情報処理装置システムは、情報処理装置100及び端末101から構成される。情報処理装置100及び端末101は、ネットワーク102を介して互いに接続される。ネットワーク102は、例えば、WAN(Wide Area Network)及びLAN(Local Area Network)である。ネットワーク102の接続方式は有線及び無線のいずれでもよい。なお、情報処理装置100は、処理の負荷分散を考慮して、例えば、複数の情報処理装置100-1、100-2、100-3、100-4で構成されてもよい。
【0014】
端末101は、ユーザが操作する情報処理装置である。端末101は、例えば、パーソナルコンピュータ、スマートフォン、及びタブレット端末等である。端末101は、ユーザの操作に基づいて、AIによる対象の事象の予測に必要な入力データ等を入力する。入力データは複数の特徴量の値から構成される。
【0015】
なお、端末101は、プロセッサ、メモリ、ネットワークインタフェース、入力装置、及び出力装置を備える。入力装置は、キーボード、マウス、及びタッチパネル等の装置であり、出力装置は、タッチパネル及びディスプレイ等の装置である。
【0016】
以下、各機能構成ブロックの概略について説明するが、その詳細は後述する。
【0017】
予測器110は、既存のAIであって、対象の事象を予測するためのモデル(アルゴリズム)に基づいて、テストデータ(入力データ)111に対する処理を実行し、予測値(予測結果)を出力する。出力される予測値は、例えば、テストデータの分類結果及び任意のリスクの発生確率等である。
【0018】
寄与値算出部120は、既存のXAIであって、予測器110から出力される予測値をもとに、テストデータに含まれる各特徴量の値について、特徴量の値の予測値への寄与の大きさ(影響の大きさ)を表す寄与値を算出する。
【0019】
パーツパターン基準画像抽出部130は、寄与値算出部120から出力される寄与値を元にXAI結果の局在度などを基準に「XAI結果が分かりやすい」画像を抽出する。そして、パーツパターン定義部131で、パーツパターン定義設定情報受付部133で受け付けたパーツパターン定義設定情報を基に、XAIパーツパターンを抽出し、パーツパターン情報132として格納する。
【0020】
寄与値集計部140は、テストデータ111からテストデータを受け取って、予測器110および寄与値算出部120により算出した予測結果および寄与値を入手し、パーツパターン情報132とマッチングして集計情報を作成し、寄与値集計結果表示部141で表示する。
【0021】
図2は、本実施例における情報処理装置のハードウェア構成図である。
図2に示すように、情報処理装置100は、プロセッサ201、主記憶装置202、副記憶装置203、ネットワークインタフェース204、入力装置205、及び出力装置206を有する。各ハードウェアは内部バスを介して互いに接続される。なお、情報処理装置100は、副記憶装置203、入力装置205、及び出力装置206のいずれかを有さなくてもよい。
【0022】
プロセッサ201は、主記憶装置202に格納されるプログラムにしたがって処理を実行することによって、寄与値算出部120等、特定の機能を実現する機能部(モジュール)として動作する。
【0023】
主記憶装置202は、プロセッサ201が実行するプログラム及び当該プログラムが使用する情報を格納する。また、主記憶装置202は、プログラムが一時的に使用するワークエリアを含む。
【0024】
副記憶装置203は、HDD(Hard Disk Drive)及びSSD(Solid State Drive)等であり、データを永続的に格納する。
【0025】
なお、情報処理装置100が、複数の情報処理装置100-1、100-2、100-3、100-4で構成されている場合は、それぞれの情報処理装置100-1、100-2、100-3、100-4が、
図2に示すハードウェア構成を有し、それぞれのプロセッサ201がそれぞれの主記憶装置202に格納されるプログラムにしたがって処理を実行することによって、それぞれの機能を実現する。
【0026】
次に、
図1における各機能構成ブロックの詳細について説明する。
【0027】
図3は、本実施例における予測器110及び寄与値算出部120の具体例を示す図である。
図3において、上段は、テストデータ111-1として画像301-1を入力した場合、下段はテストデータ111-2として波形301-2を入力した場合を示している。上段の画像301-1を入力した場合、予測器110として、車齢予測器110-1と、車種予測器110-2を有する場合、それぞれ予測器の出力される予測値は、302-1、302-2のようになる。そして、それぞれの予測値に対する寄与値算出部120-1、120-2の算出する寄与値は、それぞれ303-1、303-2のようになる。すなわち、寄与値303-1では、点線で囲んだフロントボディー部分が予測結果302-1の推定車齢13年とした判断根拠として示される。また、寄与値303-1では、線で囲んだ部分が予測値結果302-2の推定車種、予測スコア:0.89とした判断根拠として示される。
【0028】
また、下段の波形301-2を入力した場合、予測器110として、異常予測器110-3と、音素分類予測器110-4を有する場合、それぞれ予測器の出力される予測値は、302-3、302-4のようになる。そして、それぞれの予測値に対する寄与値算出部120-3、120-4の算出する寄与値は、それぞれ303-3、303-4のようになる。すなわち、寄与値303-3では、点線で囲んだ波形部分が予測結果302-3の異常度0.36とした判断根拠として示される。また、寄与値303-4では、点線で囲んだ波形部分が予測値結果302-4の推定音素:“a”、推定スコア:0.97とした判断根拠として示される。
【0029】
なお、本実施例ではテストデータとして画像や波形を用いて説明しているが、非構造データ一般でもよく、例えば、動画やテキスト、さらには、非構造データと構造データを組み合わせて入力データとするものであってもよい。
【0030】
また、予測器110は、連続するデータの予測を行う回帰や、回帰とは異なり具体的な数字を出すのではなく与えられたクラスに分ける分類等の区別を問わず限定されるものではなく、少なくとも、画像における物体矩形抽出モデルなども含まれる。
【0031】
また、303-1から4の寄与値の表示方法として元のデータの上に射影して表示しているが、入力データのどの部分が寄与するかを表せられれば、重ね書きする必要はない。例えば、表データでもよい。また、寄与値の算出単位を〇や矩形で囲っているが、ピクセル単位や、意味のある部分単位での大きさ及び形状の情報を持つ単位で算出してもよい。
【0032】
図4は、本実施例におけるパーツパターン基準画像抽出部130の説明図である。
図4において、303-A-1から303-A-Nは、寄与値算出部120から出力された寄与値の具体例である。それらに対して、寄与値摘出容易度算出部401で、例えば、寄与値の入力データ内における局在度などで定義された寄与値摘出容易度を算出する。そして、寄与値摘出容易度ソート部402で、寄与値摘出容易度順に並び替えを行い、403-1から403-Mのように、当該寄与値摘出容易度を基準にパーツパターン基準候補画像を抽出する。そして、404-1から404-Mのように、パーツパターン候補を抽出し、パーツパターン情報132として格納する。
【0033】
なお、パーツパターン基準画像抽出部130では、計算時間や全体枚数との兼ね合いで全ての画像を必ずしも調べなくてもよい。また、摘出容易度の一例として、局在度やクラスタリングなどの一般的な異常値検知に使われる手法を用いることができる。特に寄与値の外れ値を基準とする場合には、当該外れ値の定義域を正負いずれにも設定することができる。
【0034】
また、パーツパターン候補は、前出の寄与値の算出単位、もしくはそれらを組み合わせた単位、または、画像もしくは寄与値分布などから算出された重心などとの組み合わせで複数個のパーツからなってもよい。また、パーツパターン基準候補画像403とパーツパターン候補404は1対1でなくてもよい。また、404-3のようにパーツ同士が重なるような関係、包含関係や階層関係にあってもよい。特に、寄与値算出部120を1回の実行で算出し、上記の場合になることがありえるとともに、寄与値算出部120の、例えば、寄与値算出の単位に関する設定を変えながら複数回実行した結果を組み合わせて、そのようなパーツパターン候補を作成してもよい。
【0035】
図5は、本実施例におけるパーツパターン定義部131の処理フロー図である。
図5において、ステップS1201で、パーツパターン基準画像抽出部130が抽出したパーツパターン候補404およびパーツパターン基準候補画像403を読み込む。次に、S502からS508の間で、全てのパーツパターン候補404に対して、S503からS507の処理を実行する。すなわち、S503において、パーツパターン候補404を形状などの抽象化、すなわち丸めるなどの変形や、拡大、縮小等の変換を行なう。そして、S504において、パーツパターン定義設定情報受付部133が受け付けるパーツパターン定義設定情報を読み込み、S505において、パーツパターン定義設定情報に当該パーツパターンの採用要求を含むか否かを判定する。含むと判定した場合、S506において、パーツパターン名を付与し、パーツパターン情報132にパーツパターンを格納しS507に進む。含まないと判定した場合、S507に進み、パーツパターン定義設定情報に変換すべき他のパーツパターン候補があるかを判断し、あれば、S503に戻る。なければ、処理を終了する。
【0036】
図6は、本実施例における、パーツパターン定義設定情報受付部133が作成し、送信して、端末101に表示されるパーツパターン定義設定情報の設定画面例である。ユーザは、
図6に示す設定画面を介して設定情報を入力する。
図6において、設定画面600は、パーツパターン候補404を、抽象パーツパターン候補601に変換して表示する。ここで、寄与値の重心などパーツパターン基準候補画像403から算出される特徴的な座標をパーツパターンの定義に加えるかを選択する選択欄602及び加入ボタン603を有する。また、パーツパターンを命名するためのパーツパターン名設定欄604、及び、設定画面600での設定値を採用するかの決定ボタン605、または、破棄する破棄ボタン606を有する。なお、抽象パーツパターン候補601の表示において、どれぐらい抽象化するかをユーザが設定画面600で設定してもよい。また、本画面は一例であって、これらの一部を含まない形態で実現することや、類似の機能を他形態で実現することがあってもよい。
【0037】
図7は、本実施例におけるパーツパターン情報132に格納されているパーツパターン情報のデータ構造700の例である。
図7において、701はパーツパターンの個別識別番号であるID、702はパーツパターン名設定欄604で設定したパーツパターン名、703はパーツパターンのパーツに係る形状やそれらの位置関係に関する情報、704は、パーツパターンの対応クラスもしくは予測器が出力する算出値であり、例えば、車種や車齢等である。705は、各パーツパターン内のパーツがどれだけ寄与しているかを示している寄与値値域であり、“+”がプラスに寄与していた場合を示し、“-”がマイナスに寄与していた場合を示している。なお、各パーツパターン内のパーツは複数の場合も想定しており、本例ではパーツ1からパーツKで構成される場合の例を示している。また、寄与値値域705は、各パーツパターン上にある寄与値から自動的に算出してもよいし、後述するように、パーツパターン定義設定情報の設定画面でユーザが設定してもよい。
【0038】
図8は、本実施例における寄与値集計部140の処理フロー図である。
図8において、ステップS801で、集計対象データをテストデータ111から読み込む。次に、S802からS808の間で、全てのテストデータに対して、S803からS807の処理を実行する。すなわち、S803において、予測器110および寄与値算出部120により算出された予測結果および寄与値を取得し、S804からS807の間で、パーツパターン情報132から読み込まれた全てのパーツパターンに対して、S805からS806の処理を実行する。S805では、算出した寄与値分布の中にパーツパターンと適合するものはあるかを判断し、なければS807へ進み、あればS806で、寄与値集計情報の該当パーツパターン欄に当該集計対象データの内容を反映し、S807へ進む。そして、S809で、全てのテストデータに対して、パーツパターン情報132から読み込まれた全てのパーツパターンとマッチングして作成した寄与値集計情報を寄与値集計結果表示部141へ送信する。
【0039】
図9は、本実施例における寄与値集計情報のデータ構造900の例である。
図9において、901は、
図7のパーツパターンの個別識別番号IDに対応したパーツパターンのID、902は、パーツパターン毎の、対象とする全てのテストデータに対して該当した該当データ数である。また、903は、パーツパターン毎の、パーツ上に分布する寄与値の平均値である。また、904は、パーツパターン毎の、マッチング時の抽象化に伴うパーツサイズ平均拡大率である。なお、データ構造900には、寄与値の平均値以外に標準偏差など他の統計量を格納してもよい。また、パーツサイズ平均拡大率の他にパーツの回転角などを追加してもよく、同様に、標準偏差などの他の統計量ならびにパーツの総面積あたりの寄与値の平均値等を用いてもよい。
【0040】
なお、
図9のように、902、903および904などをその全体数と、予測器110が正答もしくは誤答したテストデータの別で集計していてもよいし、回帰問題における正解値と予測器110の出力値との差の大きさの範囲の別に応じて集計するなどしてもよい。これにより、後述するように、寄与値集計結果表示部141が送信して端末101に表示する分析結果においてパーツパターンごとにその集計結果を表示する際に、例えば、正誤の差が大きいところをハイライトしたり、このような改善の余地のあるパーツパターンのみを出力したりすることで、予測器110の精度を改善するための施策を立案する際に有用な情報を提供することができる。
【0041】
このように、本実施例は、画像等の非構造データを入力とするAIの予測値に対する寄与値の集計基準を半自動的に作成するフレームワークを提供するものであって、予測値に対する寄与値の局在度などを基準に、各入力データの予測値に対する寄与値の摘出容易度を定義し、当該定義における寄与値の摘出容易なものとして集計基準であるパーツパターンを採用し、当該パーツパターンが他の入力データにもないかというマッチングに基づく集計を行ない、特に、予測値に対し正負いずれの値も取りうる寄与値が局在するパーツパターンを入力データ内に複数抽出し、それらの位置関係を含めてパーツパターンとして採用することで、相対的な大きさや回転角度を補正可能なパーツパターン集計を行える。また、予測値に対して寄与するパーツパターンの採用には、パーツごとに算出される寄与値における相互作用を基にした値を基準にした関係も採用可能であり、また、予測値に対する寄与値の局在している箇所が1箇所の場合でも、画像の寄与値の重心などパーツパターン基準候補画像403から算出される特徴的な座標等との相対位置関係を含めパーツパターンとして採用することで上記効果を得ることも可能である。
【0042】
以上のように、本実施例によれば、画像等の非構造データを対象とするAIについて、出力された各データに対する予測値の根拠を解釈するために有用な予測値に対する寄与値の提示において、精度改善施策を行なえるような形で寄与値を集計するための、パーツパターン候補の抽象化の設定やパーツパターンの命名等のユーザによる設定処理を含む基準の半自動的作成を行うことが可能な情報処理装置及びその集計方法を提供できる。
【実施例2】
【0043】
本実施例は、パーツパターン情報132に元画像の情報も含む場合の例について説明する。
【0044】
図10は、本実施例におけるパーツパターン情報132に格納されているパーツパターン情報のデータ構造の一例である。
図10において、
図7と同じ構成は同じ符号を付し、その説明は省略する。
図10において、
図7と異なる点は、パーツパターン対応元データ1000と、対応元データ値域1001、パーツごとの名称1002を追加した点である。
【0045】
図10において、パーツパターン対応元データ1000は、パーツパターン毎の、元画像の色情報などを格納する元データ情報である。また、1001は、対応元データ値域であり、対応元データの色情報としての値が取りうる範囲を示している。なお、各パーツパターン内のパーツは複数の場合も想定しており、本例ではパーツ1からパーツKで構成される場合の例を示している。また、パーツごとの名称1002は、各パーツパターン内の複数のパーツそれぞれの名称を示す。なお、1001および1002の一部または全てを必ずしも格納していなくてもよい。
【0046】
また、703は各パーツパターンにおける対応箇所として非構造データの一部を格納しているが、対応するデータへの参照ポインタなどの別の形態で情報を保持してもよい。
【0047】
また、対応元データ値域1001は、最大値と最小値で値域情報を表現してもよい。また、対応元データ値域1001は、例えば、同一の命名をされた一または複数のパーツパターンに係る色情報や、後述する統合した他のパーツパターンの色情報から自動的に算出してもよい。
【0048】
図11は、本実施例における、パーツパターン定義設定情報受付部133が作成し、送信して、端末101に表示されるパーツパターン定義設定情報の設定画面例である。
図11において、
図6と同じ構成は同じ符号を付し、その説明は省略する。
図11において、
図6と異なる主な点は、設定画面600に対応元画像色情報1110の表示を備える点である。
【0049】
また、
図11のように有用な情報を他に追加することもできる。すなわち、パーツパターン基準画像設定ウインドウ1155において、パーツパターン基準候補画像403を、抽象パーツパターン基準候補画像1101に変換して表示することができる。また、その際、局在度1102、データセット内順位1103、モデル出力結果1104など、抽象パーツパターン基準候補画像1101をパーツパターンとして採用するかどうかの判断に有用な情報を表示することができる。また、予測器110が分類問題に係るものであり、対応する寄与値が当該予測器の出力する分類クラスごとに算出される場合には、当該対象クラスを変更する対象クラス変更ボタン1105を有することもできる。
【0050】
また、パーツパターン設定ウインドウ1115では、抽象パーツパターン候補601が、全てのテストデータに対して該当した該当画像数(うち正答画像数)1111、及び、テストデータセットに対する現在の画像網羅率1112、既に採用を確定しているパーツパターンに該当しておらず現在表示しているパーツパターン候補601にのみ該当しているユニーク該当数(うち正答画像数)1113、及び、データセット内の他画像での該当例の表示1114などの情報を有することができる。
【0051】
また、採用済パーツパターン比較ウインドウ1125では、採用済のパーツパターン1120と現在の抽象パーツパターン候補601との比較を行い、採用済のパーツパターン1120の該当画像数(うち正答画像数)1122、採用済のパーツパターン1120と抽象パーツパターン候補601が重複して該当する重複画像数1123と、採用済のパーツパターン1120と抽象パーツパターン候補601を統合するかを決定する統合ボタン1124の一部または全てを有することができる。なお、採用済のパーツパターン1120は、チェック欄1121-1、1121-2で選択できる。
【0052】
さらに、パーツパターン内の複数のパーツそれぞれに名称を付けるためパーツ名設定欄607を有する。
【0053】
図12は、本実施例におけるパーツパターン定義部131の処理フロー図である。
図12において、
図5と同じステップは同じ符号を付し、その説明は省略する。
図12において、
図5と異なる点は、ステップS1203であって、S1203において、パーツパターン候補404を抽象化する変換を行う際にパーツパターン基準候補画像403も当該変換の対象とする点である。
【0054】
図13は、本実施例における寄与値集計部140の処理フロー図である。
図13において、
図8と同じステップは同じ符号を付し、その説明は省略する。
図13において、
図8と異なる点は、ステップS1305であって、S1305において、算出した寄与値分布および元データの中にパーツパターンと適合するものはあるかを判定する際、パーツパターン基準候補画像403に関する情報も参照することで判定精度を上げている。
【0055】
図14は、本実施例における寄与値集計情報のデータ構造の例である。
図14において、
図9と同じ構成は同じ符号を付し、その説明は省略する。
図14において、
図9と異なる点は、マッチング時の元データ色距離標準偏差1400を追加した点である。すなわち、マッチング時の元データ色距離標準偏差1400は、マッチング時の元データの抽象化に伴う色距離の値に係る標準偏差であって、予測器110が正答したか誤答したかの別に応じて集計している。もしくは回帰問題における正解値と予測器110の出力値との差の大きさの範囲の別に応じて集計するなどしてもよい。なお、元データ色距離標準偏差1400以外にも、当該色距離の平均値などパーツパターン基準候補画像403に基づく他の統計量を格納していてもよい。
【0056】
このように、本実施例では、パーツパターン情報132に元画像の情報も含むことで、パーツパターンに基づく集計時におけるマッチング精度の向上が図れる。
【実施例3】
【0057】
本実施例は、パーツパターン定義設定情報の設定画面の他の例について説明する。
【0058】
図15は、本実施例における、パーツパターン定義設定情報受付部133が作成し、送信して、端末101に表示されるパーツパターン定義設定情報の設定画面例である。
図15において、
図11と同じ構成は同じ符号を付し、その説明は省略する。
図15において、
図11と異なる点は、設定画面600に補正範囲設定ウインドウ1515を備える点である。
【0059】
すなわち、
図15において、補正範囲設定ウインドウ1515は、例えば、形状の抽象化の度合い、すなわち変形の許容する度合いなどを設定する形状許容幅1501の設定、パーツパターンを用いて集計する際に適合しているか否かを判定する際に参照する寄与値許容幅1503の設定、色距離許容値1504の設定、さらに、パーツパターンの回転許容角度範囲1505の設定などの一部または全てを入力できるようにしてもよい。また、形状許容幅1501について、より詳細な設定の入力を受け付けるためのパレットなどを起動させるためのパレット調整ボタン1502を有することもできる。
【0060】
このように、マッチングの精度を改善するために、形状抽象化の設定や許容可能な回転角や寄与値の幅を入力できるようにしており、これらの入力に応じて該当画像数(うち正答画像数)1111などの情報がダイナミックに更新されて、また、それを参照しながらパーツパターンの採用可否や値の調整、パーツパターンへの命名などを行うことが出来る。
【0061】
図16は、本実施例におけるパーツパターン情報132に格納されているパーツパターン情報のデータ構造の例である。
図16において、
図10と同じ構成は同じ符号を付し、その説明は省略する。
図16において、
図10と異なる点は、回転許容角度幅1601を追加した点である。
【0062】
すなわち、
図16において、回転許容角度幅1601は、
図15の回転許容角度範囲1505で設定した、パーツパターン毎の回転許容角度幅の情報である。また、寄与値値域705、対応元データ値域1001は、それぞれ、
図15の寄与値許容幅1503、色距離許容値1504で設定した値を反映することができる。また、パーツパターン情報としては他にも、パーツパターン定義設定情報の設定画面で入力された情報の一部または全てを含むことができる。
【実施例4】
【0063】
本実施例は、寄与値集計部140で作成した集計情報をもとに寄与値集計結果表示部141で表示する集計結果の出力画面例について説明する。
【0064】
図17は、本実施例における結果出力画面例である。
図17において、結果出力画面1700は、パーツパターンごとの集計結果1710と、トピック欄1720、リコメンド欄1730の一部または全てを含むことができる。
図17の集計結果1710においては、実施例2における
図10のID1のパーツパターンについての集計結果が表示されている。すなわち、該当データ数等の値として、
図14に示す寄与値集計情報のID1に対応する値が表示されている。なお、チェック欄1221-1、1221-2で、他のパーツパターンが選択でき、選択したパーツパターンに対する集計結果が表示されるなどの形態も考えられる。トピック欄1720では、集計結果1710の内容の一部または全てを参照し自然文などの形式で表現された情報が表示され、パーツパターン単位での予測値に対する寄与値の傾向を提示する。また、リコメンド欄1730では、集計結果1710の内容の一部または全てを参照し予測精度改善への施策に係る提案が自然文などの形式で表示される。
【0065】
なお、集計結果をトピックやリコメンドに翻訳する手法としては、例えば、ルールベースによる翻訳などがある。
【0066】
このように、本実施例では、テストデータセットの一部または全てについて、それらの予測値に対する寄与値を集計し、実際に教師データの見直しやパラメータチューニングなど予測精度を改善する施策を立案するのに必要な情報を半自動的に作成することができる。
【0067】
以上、実施例について説明したが、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。
【0068】
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、実施例の機能を実現するソフトウェアのプログラムを、ネットワークを介して配信することによって、それを情報処理装置のハードディスクやメモリ等の記憶手段に格納し、情報処理装置が備えるプロセッサが当該記憶手段に格納されたプログラムを読み出して実行するようにしてもよい。
【符号の説明】
【0069】
100:情報処理装置、101:端末、102:ネットワーク、110:予測器、111:テストデータ(入力データ)、120:寄与値算出部、130:パーツパターン基準画像抽出部、131:パーツパターン定義部、132:パーツパターン情報、133:パーツパターン定義設定情報受付部、140:寄与値集計部、141:寄与値集計結果表示部、201:プロセッサ、202:主記憶装置、203:副記憶装置、204:ネットワークインタフェース、205:入力装置、206:出力装置、302:予測値(予測結果)、303:寄与値、401:寄与値摘出容易度算出部、402:寄与値摘出容易度ソート部、403:パーツパターン基準候補画像、404:パーツパターン候補、600:設定画面、601:抽象パーツパターン候補、700:パーツパターン情報のデータ構造、701:ID、702:パーツパターン名、703:パーツパターン、704:対応クラス、705:寄与値値域、900:寄与値集計情報のデータ構造、901:ID、902:該当データ数、903:パーツ上に分布する寄与値の平均値、904:マッチング時のパーツサイズ平均拡大率、1000:パーツパターン対応元データ、1001:対応元データ値域、1002:パーツごとの名称、1101:抽象パーツパターン基準候補画像、1110:対応元画像色情報、1115:パーツパターン設定ウインドウ、1125:採用済パーツパターン比較ウインドウ、1155:パーツパターン基準画像設定ウインドウ、1400:マッチング時の元データ色距離標準偏差、1515:補正範囲設定ウインドウ、1700:結果出力画面、1710:集計結果、1720:トピック欄、1730:リコメンド欄。