(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-25
(45)【発行日】2024-01-09
(54)【発明の名称】リスク評価装置、リスク評価方法およびプログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20231226BHJP
【FI】
G06N20/00
(21)【出願番号】P 2022512935
(86)(22)【出願日】2020-03-30
(86)【国際出願番号】 JP2020014663
(87)【国際公開番号】W WO2021199201
(87)【国際公開日】2021-10-07
【審査請求日】2022-09-29
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100080816
【氏名又は名称】加藤 朝道
(74)【代理人】
【識別番号】100098648
【氏名又は名称】内田 潔人
(72)【発明者】
【氏名】岡田 好大
【審査官】土谷 慎吾
(56)【参考文献】
【文献】米国特許出願公開第2019/0147371(US,A1)
【文献】特開2019-197245(JP,A)
【文献】国際公開第2017/168458(WO,A1)
【文献】神嶌 敏弘,公正・差別配慮型マイニングのサーベイ,情報処理学会研究報告 研究報告 コンピュータビジョンとイメージメディア(CVIM),日本,一般社団法人情報処理学会,2012年10月15日,No.183,第4節
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
一以上の説明可能な予測モデルを取得するモデル取得部と、
前記一以上のモデルと、倫理的リスク要因となる情報である倫理的リスク要因情報と、に基づいて前記一以上のモデルのリスクを判定するリスク判定部と、
判定されたリスクの判定結果に基づいてモデルを選択するモデル選択部と、
選択されたモデルを出力するモデル出力部と、
を有
し、
前記リスク判定部は、
前記一以上のモデルの要素間の関係に基づいて、前記一以上のモデル毎にモデルを言語で記述した文を生成し、
前記文及び前記文の要素の少なくとも一方と、前記倫理的リスク要因情報と、を用いて前記一以上のモデルのリスクを判定する、
リスク評価装置。
【請求項2】
前記リスク判定部は、
前記一以上のモデルと、前記倫理的リスク要因情報と、に基づいて前記一以上のモデルが有するリスクをスコアリングしたリスク判定スコアを算出し、
前記モデル選択部は、
前記リスク判定スコアに基づいてモデルを選択する、
請求項1に記載のリスク評価装置。
【請求項3】
前記リスク判定部は、
前記文及び前記文の要素の少なくとも一方と、前記倫理的リスク要因情報と、を用いて前記一以上のモデルが有するリスクをスコアリングしたリスク判定スコアを算出し、
前記モデル選択部は、
前記リスク判定スコアに基づいてモデルを選択する、
請求項
1に記載のリスク評価装置。
【請求項4】
前記リスク判定部は、前記文及び前記文の要素の少なくとも一方と、前記倫理的リスク要因情報と、の間の関係を示す統計値を算出することによりリスク判定スコアを算出する、
請求項
3に記載のリスク評価装置。
【請求項5】
前記倫理的リスク要因情報を保持する倫理的リスク要因情報保持部を、さらに有し、
前記リスク判定部は、
前記一以上のモデルと、保持されている前記倫理的リスク要因情報と、に基づいて前記一以上のモデルのリスクを判定する、
請求項1から請求項
4のいずれか一に記載のリスク評価装置。
【請求項6】
前記一以上のモデルよりモデルを選択するためのルールであるモデル選択ルールを保持するモデル選択ルール保持部を、さらに有し、
前記モデル選択部は、
前記リスク判定スコアと、前記モデル選択ルールに基づいて、前記一以上のモデルの内からモデルの選択をする、
請求項
2から請求項
4のいずれか一に記載のリスク評価装置。
【請求項7】
前記モデル選択ルールは、算出されたリスク判定スコアが所定の値を超えた場合にそのリスク判定スコアに係るモデルは選択しないとするルールである、請求項
6に記載のリスク評価装置。
【請求項8】
以下の各動作をコンピュータが実行するリスク評価方法であって、
一以上の説明可能な予測モデルを取得し、
前記一以上のモデルの要素間の関係に基づいて、前記一以上のモデル毎にモデルを言語で記述した文を生成し、
前記文及び前記文の要素の少なくとも一方と、倫理的リスク要因となる情報である倫理的リスク要因情報と、を用いて前記一以上のモデルのリスクを判定し、
リスクの判定結果に基づいてモデルを選択し、
選択されたモデルを出力する、
リスク評価方法。
【請求項9】
一以上の説明可能な予測モデルを取得する処理と、
前記一以上のモデルの要素間の関係に基づいて、前記一以上のモデル毎にモデルを言語で記述した文を生成する処理と、
前記文及び前記文の要素の少なくとも一方と、倫理的リスク要因となる情報である倫理的リスク要因情報と、を用いて前記一以上のモデルのリスクを判定する処理と、
リスクの判定結果に基づいてモデルを選択する処理と、
選択されたモデルを出力する処理と、
をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、説明可能な予測モデル等における倫理的リスクを評価する装置、またその倫理的リスクを評価する方法およびプログラムに関する。
【背景技術】
【0002】
従来のAIシステムやその分析エンジンが生成する予測モデル等は、モデルの構造や判断根拠が見えないブラックボックス型であった。このため、人間によるモデルの採用判断が難しく、結果として企業等においてもモデルを利活用する難しさという課題に直面することとなっていた。しかし、最近では予測モデルの構造や判断根拠を人間が解釈可能な形態で出力が可能なホワイトボックス型のAIシステムやその分析エンジンが登場してきており、上記課題を解決可能としつつある。
【0003】
特許文献1には、予測モデルにおける特徴量(説明変数の候補)および特徴量を生成する特徴量生成関数についての説明文を自然言語で生成することが可能な情報処理システムが開示されている。具体的には、受付けた説明変数と目的変数を含んだ表中の値を所定のテンプレートに代入することにより特徴量生成関数を生成し、前記表に同関数を適用して特徴量を算出する。特徴量生成関数と算出された特徴量とは別のテンプレートに代入して説明文を生成する。
【先行技術文献】
【特許文献】
【0004】
【文献】国際公開第2018/180970号
【文献】特開2019-125240号公報
【文献】特開2005-071062号公報
【文献】特開2003-006221号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記の特許文献1-4の各開示の全記載内容を、本明細書に引用をもって繰り込むものとする。
【0006】
以下の分析は、本発明の発明者によってなされたものである。
【0007】
ホワイトボックス型のAIシステムやその分析エンジンに適用されるモデルは説明可能であるが故に、採用された説明変数そのものの特性や、説明変数の組み合わせによって、そのモデルが倫理に反したり、個人や社会に悪影響を及ぼしたりするものに基づくものであるという事が明るみとなる。そうすると、このことが問題として取り上げられ、モデルが適用されている企業システムやAIを利活用した装置に対する信頼性が損なわれるというリスクが存在する。近年ではAI倫理に関する議論や対策の検討も活発化しており、一度そのように信頼性が損なわれるというリスクが発動する事態が生ずると、企業活動を継続することができなくなってしまう可能性がある。さらに、国や言語圏により倫理観は多様であり、その影響についても国や言語圏により異なることが多いため、モデルの適用には多方面にわたるリスクが存在し、これに対する対応を迫られるといったこととなる。
【0008】
上記のようなリスクを回避するためにモデルがシステムに適用される前に、リスクの大きさについて評価するプロセスを導入すれば、そのモデルが倫理的観点からリスクを有しているか否か、またそのリスクの大きさを事前に察知しリスクが高いモデルについては採用の対象外とすることが可能である。しかしながら、AIフレームワークで生成される、説明変数をはじめとするモデルの構成要素は多岐にわたる場合が多く、これらを組み合わせて生成される評価されるべきモデルの数は多数となる。さらに同一のモデルであっても上記のように適用される国や言語が異なると評価の枠組みが異なるため、評価すべきモデルの数は膨大な数となる。
【0009】
このような背景から、本発明の目的の1つは、ホワイトボックス型のAIシステムや分析エンジンに搭載されるモデルのリスク評価を効率的かつ高い信頼性をもって行うのに寄与しうる評価装置や評価方法、プログラムなどを提供することである。
【課題を解決するための手段】
【0010】
本開示の第1の視点によれば、一以上の説明可能な予測モデルを取得するモデル取得部と、前記一以上のモデルと、倫理的リスク要因となる情報である倫理的リスク要因情報と、に基づいて前記一以上のモデルのリスクを判定するリスク判定部と、判定されたリスクの判定結果に基づいてモデルを選択するモデル選択部と、選択されたモデルを出力するモデル出力部と、を有するリスク評価装置が提供される。
【0011】
本開示の第2の視点によれば、一以上の説明可能な予測モデルを取得し、取得されたモデルと、倫理的リスク要因となる情報である倫理的リスク要因情報と、に基づいて前記一以上のモデルのリスクを判定し、リスクの判定結果に基づいてモデルを選択し、選択されたモデルを出力する、リスク評価方法が提供される。
【0012】
本開示の第3の視点によれば、一以上の説明可能な予測モデルを取得する処理と、取得されたモデルと、倫理的リスク要因となる情報である倫理的リスク要因情報と、に基づいて前記一以上のモデルのリスクを判定する処理と、リスクの判定結果に基づいてモデルを選択する処理と、選択されたモデルを出力する処理と、をコンピュータに実行させるプログラムが提供される。該プログラムは記録媒体に記憶して提供することができる。
【発明の効果】
【0013】
本開示によれば、ホワイトボックス型のAIシステムや分析エンジンに搭載されるモデルのリスク評価を効率的かつ高い信頼性をもって行うことに寄与することができる。本発明のさらに他の特徴及び利点は、本発明を実施することが企図されている実施の形態ないし実施例により、本発明の実施形態のみを図示及び説明した添付の図面と併せて以下の詳細な説明から当業者には容易に明らかになるであろう。理解されるように、本発明は、他の異なる実施形態が可能であり、そのいくつかの詳細は、本発明から逸脱することなく、様々な明白な点において変更可能である。従って、図面及び説明は、本質的に例示的であるとみなされるべきであり、限定的ではないとみなされるべきである。
【図面の簡単な説明】
【0014】
【
図1】本開示の一実施形態によるリスク評価装置の機能ブロックの一例を示す図である。
【
図2】実施形態1によるリスク評価装置の構成を示す図である。
【
図3】上記実施形態によるリスク評価装置の動作を示すフローチャートである。
【
図4】上記実施形態によるリスク評価装置のハードウエア構成の概略を示す図である。
【
図5】実施形態2によるリスク評価装置の構成を示す図である。
【
図6】上記実施形態のモデル選択ルール保持部に格納されているモデル選択ルールの一例を示すための図である。
【
図7】上記実施形態によるリスク評価装置の動作を示すフローチャートである。
【発明を実施するための形態】
【0015】
初めに、一実施形態の概要について説明する。なお、この概要に付記した図面参照符号は、理解を助けるための一例として各要素に便宜上付記したものであり、この概要の記載は何らの限定を意図するものではない。
【0016】
図1は一実施形態におけるリスク評価装置のブロック図の一例を示す。一実施形態に係るリスク評価装置100は、一以上の説明可能な予測モデルを取得するモデル取得部101と、取得されたモデルと、倫理的リスク要因となる情報である倫理的リスク要因情報と、に基づいて前記一以上のモデルのリスクを判定するリスク判定部102と、判定されたリスクの判定結果に基づいてモデルを選択するモデル選択部103と、選択されたモデルを出力するモデル出力部104と、を有する。
【0017】
上記一実施形態に係るリスク評価装置では、一以上の説明可能な予測モデルのそれぞれに対して倫理的観点からのリスクの大きさを判定し、その判定結果に応じてモデルを選択して出力することが可能である。従って、効率的かつ信頼性の高いモデルの提供が可能となる。
【0018】
以下に具体的な実施の形態について、図面を参照してさらに詳しく説明する。なお、各実施形態において同一構成要素には同一の符号を付し、その説明を省略する。
【0019】
[第1の実施形態]
第1の実施形態に係るリスク評価装置等について、図面を用いてより詳細に説明する。
【0020】
[モデル取得部]
図2は本実施形態におけるリスク評価装置のブロック図の一例を示す。モデル取得部101は、一以上の説明可能な予測モデルを取得する。本開示において、「予測モデル」とは何らかの入力に対して、学習結果に応じた値を予測して出力することが可能なモデルを指す。本開示において、「説明可能」とは、予測モデルによりある値が出力されるに至った根拠を提示可能であることを指すものとする。例えば、モデル中に出現する要素である説明変数間の関係、および説明変数と目的変数の関係、等を把握可能とすることを意味する。例えば、人材採用に関するモデルであって、その人材を採用するか否かを予測(判定)するモデルを考えると、一例としてy=ax
1+bx
2+cx
3(y:採用判定値、x
1:研究テーマ、x
2:年齢、x
3:試験得点)というモデルが考えられる。係数a、b、cについては学習により決定される。yの値が所定の値以上の場合には採用し、所定の値未満の場合には不採用とされる。
【0021】
本開示において、「モデルを取得」とは、モデル生成や学習処理を実行するシステムやモジュールから、モデルを表した情報を入力として受け取ることを意味する。取得されたモデルは記憶域に格納される。上記例では、変数y、x1、x2、x3と係数a、b、cが格納される。これらに加えて各変数(x1、x2、x3)はその説明内容を示す変数の項目名(「研究テーマ」、「年齢」、「試験得点」、等)を関連付けて格納するものとする。
【0022】
本開示によれば、上記記憶域に採用される記録媒体としては、半導体ストレージ(例えばROM(Read Only Memory)、RAM(Random Access Memory)、EEPROM(Electrically Erasable Programmable Read-Only Memory))、HDD(Hard Disk Drive)、 CD(Compact Disc)又はDVD(Digital Versatile Disc)などの非一時的なコンピュータ読み出し可能な記録媒体を用いることができ、上述の本開示の第3の視点によるプログラムを記憶保存することができる。
【0023】
予測モデルは、上記のような顕在する観測変数(x1、x2、x3)によって構成されるモデルであってもよいし、因子分析モデルのような、潜在変数モデル(例えば就職に対する動機づけの強さ等を変数とする)であってもよい。また線形モデルに限定されず、非線形モデルも本開示に適用可能である。
【0024】
なお、モデル取得部101では、入力として受け取ったモデルをリスク判定部102にてスコアを算出する前に、所定の手法にて評価を行い、評価の結果、所定の値を充足している場合にのみモデルを取得し、リスク判定部102に対してモデルを出力するといった処理が介在していてもよい。例えば生成されたモデルをAIC(Akaike’s Information Criterion)等の情報量基準で評価を行い所定値より低いもののみを採用するといった処理である。
【0025】
[リスク判定部]
リスク判定部102は、モデル取得部101にて取得された一以上のモデルと、倫理的リスク要因となる情報である倫理的リスク要因情報と、に基づいて前記一以上のモデルのリスクを判定する。「判定」とは、何らかの指標を用いてリスクの度合いをリスクの判定結果として示すことである。リスクの判定結果は、例えば所定の方法で算出された、数値によるスコアであったり、リスクを何段階かの評価で示したものであったり、種々の手法で示される。
【0026】
倫理的リスク要因情報とは、その取扱いについて一定の配慮が必要となる情報であり、その情報を表す変数を説明変数としてモデルに適用した場合にその変数の特性や、その変数の組み合わせが倫理的に反したり、個人や社会に悪影響を及ぼしたりするリスクを含んだ情報である。上記リスクには企業活動に悪影響を及ぼすものが含まれる。すなわち、このようなリスクを抱えた予測モデル等がシステムに組み込まれたとすると、リリース後に、倫理上の問題があるシステムやサービスであるとしてメディア等で広く知られるようになる可能性がある。そうするとシステムやサービスの停止を余儀なくされる等の事態を招き、利用者からの信頼を損ねるばかりでなく、莫大な賠償を請求される等の損害が生じる可能性がある。倫理的リスク要因情報の一例としては、人種、性別、国籍、年齢、雇用形態、出身地、居住地、ジェンダーマイノリティであるか否か、宗教、身体的・知的障がい、思想等などに関する情報が挙げられる。なお、上記はあくまで例示であり、当該情報が上記に限られることを示すものではない。
【0027】
倫理的リスク要因情報は、言語データや数値データで提供される。これらのデータは装置内部のデータベースに蓄積する構成でもよい。この場合は倫理的リスク要因情報を保持する倫理的リスク要因情報保持部105を有する構成であって良い。また倫理的リスク要因情報がインターネット上に存在する外部のデータベースに保持されていてもよく、検索エンジンにより同情報を取得する態様であってもよい。データは文書の形式で保持されていてもよいし、辞書のようにリスト形式で保持されていてもよい。また文書や単語、フレーズ等の言語データを複数の次元の数値で表現した特徴量で保持されていてもよい。
【0028】
リスクの判定結果は、上記に記載されているように、スコアリングにより得られるものであってもよい。モデル取得部101で取得されたモデルを入力として受け取り、その構成要素と倫理的リスク要因情報を用いてスコアリングする処理を実行する。取得されたモデルは変数とその項目名称が関連付けられており、項目名称を用いて倫理的リスク要因情報を保持しているデータベースを検索することで検索ヒット数や検索ヒット率等の値を得ることができる。これらをリスク判定スコアとしてモデル選択部103へ出力することでモデルの選択をすることが可能である。
【0029】
リスク判定部102は、取得された一以上のモデルの要素間の関係に基づいて、前記一以上のモデル毎にモデルを言語で記述した文を生成し、前記文及び前記文の要素の少なくとも一方と、倫理的リスク要因情報と、を用いて前記一以上のモデルをスコアリングしたリスク判定スコアを算出するといった機能を有していてもよい。
【0030】
具体的には、取得された前記一以上のモデルの要素間の関係に基づいて、前記一以上のモデル毎にモデルを言語で記述した文を生成する。例えば上記で述べたモデルy=ax1+bx2+cx3では、(y:採用判定値、x1:研究テーマ、x2:年齢、x3:試験得点)との項目名称が関連付けられており、yと、xについての一次式とが等号で結ばれているので目的変数がy、説明変数がxであると認識できる。そうすると、「目的変数」を「説明変数」で判定(予測)する、という自然言語によるフレーズのテンプレートが選択でき、「採用判定値を研究テーマと、年齢と、試験得点と、で判別(予測)する」、といった文が生成できる。
【0031】
このように、説明変数と目的変数の関係を自然言語の文として生成することで、一目してモデルの特徴を把握することが可能である。本開示では、さらにこの文と、倫理的リスク要因情報とを用いてリスク判定スコアを算出するように構成してもよい。
【0032】
なお上記例ではリスク判定部102が自然言語の文を生成した例を述べているが、必ずしも自然言語に限らない。リスク判定部102は、例えば計算機が処理可能なプログラミング言語やXMLデータ等の人工言語の文を生成してもよい。また、生成する文は日本語に限らず英語その他の言語であってもよい。他の言語のうちどの言語を生成するか否かは、作成されたモデルのロケール情報を取得することで認識可能であり、リスク判定部102もそのように構成することが可能である。
【0033】
上記の通り文が生成されると、リスク判定部102は、生成された文および生成された文の要素の少なくとも一方と、倫理的リスク要因情報と、を用いてリスク判定結果を得ることが可能である。
【0034】
例えば、上記で取り上げた「採用判定値を研究テーマと、年齢と、試験得点で判別(予測)する」といった文が生成されると、その文の特徴と、倫理的リスク要因情報の特徴とで、類似性をとり、所定の類似性を有するものの頻度によりリスク判定スコアを算出することができる。
【0035】
上記のように、リスク判定部102は、生成された文および生成された文の要素の少なくとも一方と、保持されている倫理的リスク要因情報と、の間の関係を示す統計値を算出することによりリスク判定スコアを算出する。「統計値」は種々のものが考えられる。生成文と同情報内の文書との関係では、次のように構成することができる。例えば、1.生成された文の特徴ベクトルと、同情報内の文書の特徴ベクトルとの内積の値に基づく類似度の総和や所定値以上の類似度を持つ文書の頻度、2.生成された文の特徴ベクトルと同情報内の文書の特徴ベクトル間の類似性(距離)を求め、その類似性(距離)に基づいて、所定のアルゴリズム(階層的クラスタリング法、k-means法等)で文書をクラスタリングし、その文が属するクラスタにおける文書の頻度、3.あらかじめ設けられた複数のカテゴリに分類するための所定の分類方法(判別分析や決定木、ニューラルネットワークの学習済みモデル等)に生成された文の特徴ベクトルを適用することにより文書がどのカテゴリに属するかを判別し、その文が分類されたカテゴリ内の文書の頻度、などが上記「統計値」にあたる。ここで、上記文書の特徴量に関しては、単に単語の出現頻度を示したものやtf-idf法を用いた値を示したもの等種々の特徴量を適用し得る。
【0036】
生成された文の要素と倫理的リスク要因情報との関係では、生成文の要素である単語により倫理的リスク要因情報内を検索し、ヒットした頻度や、ヒット率を算出して「統計値」とし、これに基づいてスコアを算出する方法や、生成文の単語を特徴量で分散表現して、同様に特徴量で示した同情報内の単語との類似性などをとることによる算出方法、さらに生成された単語の特徴量を合成して、同情報内の単語や文書との類似性をとることによる算出方法、等が考えられる。
【0037】
上記統計値の算出およびスコア算出の手法については上記に限定されず、種々の手法を取り得る。
【0038】
[モデル選択部・モデル出力部]
モデル選択部103は判定されたリスクの判定結果に基づいてモデルを選択する。リスク判定部102で判定された一以上のモデルの判定結果を受け取り、所定の基準にて、モデルを採用するか否かの判断を実行することにより選択する。選択されたモデルはモデル出力部104により外部に出力される。
【0039】
[処理の流れ]
図3は本実施形態のリスク評価装置における処理の流れを示すフローチャートである。この図にあるように、まず、モデル取得部101が、一以上の説明可能な予測モデルを取得する(ステップS11)。次に、リスク判定部102が、取得されたモデルと、保持されている倫理的リスク要因情報と、に基づいて前記一以上のモデルのリスクを判定する(ステップS12)。次に、モデル選択部103が判定された判定結果に基づいてモデルを選択する(ステップS13)。最後にモデル出力部104が選択されたモデルを出力する(ステップS14)。
【0040】
[ハードウエア構成]
次に、第1の実施形態に係るリスク評価装置を構成するハードウエア構成を説明する。
図4は、第1の実施形態に係るリスク評価装置のハードウエア構成の一例を示すブロック図である。
【0041】
リスク評価装置100は、情報処理装置(コンピュータ)200により構成可能であり、
図4に例示する構成を備える。例えば、リスク評価装置100は、内部バス205により相互に接続される、CPU(Central Processing Unit)201、メモリ202、入出力インタフェース203及び通信手段であるNIC(Network Interface Card)204等を備える。リスク評価装置100は、典型的には、NICを介してネットワークと通信可能なインタフェースを備える。
【0042】
但し、
図4に示す構成は、リスク評価装置100のハードウエア構成を限定する趣旨ではない。リスク評価装置100は、図示しないハードウエアや機能要素を含んでもよい。また、リスク評価装置100に含まれるCPU等の数も
図4の例示に限定する趣旨ではなく、例えば、複数のCPUがリスク評価装置100に含まれていてもよい。
【0043】
メモリ202は、RAM(Random Access Memory)、ROM(Read Only Memory)、補助記憶装置(ハードディスク等)である。
【0044】
入出力インタフェース203は、図示しない表示装置や入力装置のインタフェースとなる手段である。表示装置は、例えば、液晶ディスプレイ等である。入力装置は、例えば、キーボードやマウス等のユーザ操作を受け付ける装置である。
【0045】
最初に、モデル取得プログラムがメモリ202から呼び出されCPU201で実行される。同プログラムは、他の装置において生成された1以上のモデルを受け取り、メモリ202に格納する。なおメモリ202上ではモデルのために一例として、アドレス1とアドレス2とを先頭としてメモリ空間が関連付けられて確保されており、アドレス1を先頭とする空間にはモデルの数式情報、アドレス2を先頭とする空間には当該モデルを説明可能とするための情報、例えばモデルの説明文や変数の項目ラベルなどが格納されている。
【0046】
次にリスク判定スコア算出プログラムがCPU201において実行状態となる。同プログラムは、アドレス2に格納されている当該モデルを説明可能とするための情報にアクセスし、例えば、変数の項目ラベルを取得する。変数の項目ラベルとして記載された情報、例えば上記の採用判定モデルの場合では、単語「採用判定値」、「研究テーマ」、「年齢」、「試験得点」の情報を取得する。同プログラムは、関連付けられているアドレス1を先頭とする空間に格納されているモデルの数式情報を参照する。参照の結果、一次式を成す変数と別の変数とを=で結んだ予測モデルであると認識され、線形の一次式を成す変数「研究テーマ」、「年齢」、「試験得点」が説明変数であり「採用判定値」が目的変数であると認識される。すると、同プログラムはメモリ202に格納されている「{$説明変数}により{$目的変数}を予測する。」といった文書テンプレートを呼び出し、これに説明変数である変数の項目ラベルの単語「研究テーマ」、「年齢」、「試験得点」と、目的変数である「採用判定値」と、を組み込んで「研究テーマと、年齢と、試験得点と、により採用判定値を予測する。」という文を生成する。
【0047】
次に同プログラムは生成された文を含めてメモリ202に格納されている倫理的リスク要因情報データベース内のクラスタリング処理をCPU201の演算処理により実行する。次いで、一例として、その結果生成された文が属するクラスタ内の文書頻度を元にリスク判定スコアRを算出する。倫理的リスク要因情報は、予め入手可能な情報を収集して、データベースに保存してスタートするが、これ自体、運用開始後はさらに、補充蓄積されるものである。
【0048】
次にCPU201においてモデル選択プログラムが実行状態となる。算出されたRはモデル選択の基準値R0と比較演算される。RがR0より小さい場合においては、当該モデルは採用となるので、同プログラムはアドレス1およびアドレス2を先頭とする空間に保持されている当該モデルの情報をモデル出力プログラムに渡す。同プログラムは入出力インタフェース203を介して選択されたモデルの情報を出力する。
【0049】
[効果の説明]
本実施形態のリスク評価装置等によれば、機械学習等で生成された説明可能な予測モデルが抱える可能性のある倫理的リスクをリスク判定部102が倫理的リスク要因情報を用いて判定し、判定結果に基づいてモデル選択部103がモデルの選択を行うことが可能である。これにより、大量の倫理的リスク要因情報を用いてモデルのリスク判定が可能であるため高い信頼性でリスクを評価することが可能である。本実施形態のリスク評価装置により、生成されたモデルが有するリスクを倫理的側面から評価して、リスクの高いモデルについては導入の候補から除去することで、生成されたモデルがサービスやシステムに導入された後に倫理的問題からサービスやシステムを停止せざるを得ないといった事態に陥ることを未然に防ぐことが可能となる。
【0050】
[第2の実施形態]
第2の実施形態に係るリスク評価装置等について、図面を用いてより詳細に説明する。
【0051】
図5は第2の実施形態におけるリスク評価装置のブロック図の一例を示したものである。この図にあるように、本実施形態のリスク評価装置100はモデル取得部101と、リスク判定部102と、モデル選択部103と、モデル出力部104と、を有する。これらについては上記にて説明済みであるので記載は省略する。本実施形態では新たにモデル選択ルール保持部106を有する。
【0052】
モデル選択ルール保持部106は、前記一以上のモデルよりモデルを選択するためのルールであるモデル選択ルールを保持する。
【0053】
モデル選択ルールは、例えば、単純なものでは、算出されたリスク判定スコアが所定の値を超えた場合にそのリスク判定スコアに係るモデルは選択しないとするルールが考えられる。
【0054】
また、特定の倫理的リスク要因に関する情報を列挙したリストを記憶域に設け、設けられたリストにより特定された倫理的リスク要因情報について、その情報がモデル内に含まれている場合にはリスク判定スコアに関わらず、そのリスク判定スコアに係るモデルは選択しないとするルールが考えられる。すなわち、その情報(単語等)がモデル内に存在するだけで著しくモデルの信頼性を毀損する可能性が高い情報については、リスク判定スコアの算出を行わずにモデルを選択せず、出力候補から除去するといったルールである。
【0055】
さらに、算出されたリスク判定スコアと、前記一以上のモデルの予測式における説明変数の係数とに基づいて、モデルを選択するルールも採用することができる。
【0056】
図6は本実施形態のモデル選択ルール保持部106に格納されているモデル選択ルールの一例を示すための図である。ここで、例1ないし例3のモデルが生成されモデル取得部101により取得されているとする。まず、リスク判定部102において算出されたリスク判定スコアは、モデルの構成要素である変数の項目ラベルにより倫理的リスク要因情報保持部105を検索した結果である検索ヒット率であるとする。枠内に項目ごとに検索ヒット率をしめす。すなわち単語「研究テーマ」について0.1、「試験得点」について0.2、「年齢」について0.6、「性別」について0.7、「出身大学」について0.8のスコアとなっている。モデルには各項目(変数)について学習により係数が付与されている。
【0057】
ここで、検索ヒット率に基づくリスク判定スコアとモデルの変数についての係数の値の積和の値をモデル選択ルールとしてみる。
図6で示すように、積和の値は例1のモデルでは0.23、例2のモデルでは0.5、例3のモデルでは1.13となっている。従って、リスク評価についてはリスクの高い順に、例3>例2>例1となっていると考えることができる。どのモデルを選択(採用)するか否かは所定の基準値を設定することで決定することが可能である。所定の基準値は、本装置ないしシステムの実際の稼働(ないし試行)によって、実際に合うよう定めることもできる。
【0058】
[処理の流れ]
図7は本実施形態におけるリスク評価装置等の処理の流れを示している。この図にあるように、まずモデル取得部101が一以上のモデルを取得する(ステップS201)。次に各モデルについてモデル取得部101が処理を行うためにモデル選択ループ(ステップS202~ステップS214)に入る。次に、選択された説明変数ごとにモデル取得部101が処理を行う説明変数選択ループ(ステップS203~ステップS213)に入る。まず、モデル取得部101が、選定された説明変数を受付ける(ステップS204)。次にモデル取得部101が、受け付けた説明変数によるモデルを各種情報量基準などで評価を行う(ステップS205)。評価の結果、モデル取得部101が、モデルの評価値が選定により改善したか否かの判断を行う(ステップS206)。評価値が改善した場合には、リスク判定部102がモデルから検索文/用語を生成する(ステップS207)。評価値が改善しない場合には、次の繰り返しに入ってモデル取得部101が別の説明変数を受付ける。次に、リスク判定部102が、生成された検索文/用語にて倫理的リスク要因情報内を検索する(ステップS208)。検索結果に基づいてリスク判定部102が、リスク判定スコアを算出する(ステップS209)。次に、そのスコアに対してモデル選択部103が、モデル選択ルールを適用する(ステップS210)。適用した結果、モデル選択部103は、ルールにて記述されたリスク評価基準に達しているか否かの判断を行い(ステップS211)、評価基準に達していない場合にはモデルは採用され、モデル出力部104がモデルを出力して(ステップS212)次の変数選択の繰り返しに入る。反対に評価基準に達している場合には、モデルは採用されず次の繰り返しに入る。変数選択ループを全て実行すると、次のモデル選択ループにはいり、別のモデルにて、モデル取得部101が変数の選定を受付けながらモデルの選択を繰り返す。
【0059】
[効果の説明]
本実施形態のリスク評価装置によれば、上記処理の流れにあるように、モデル取得部101が説明変数を選定する繰り返しループの中にリスク判定部102によるリスク判定スコア算出処理とモデル選択処理とが含まれており、説明変数選定と、リスク評価とを同時に行うことが可能な態様となっている。モデル取得部101による説明変数選定と、リスク判定部102によるリスク評価とを同じ繰り返しループの中で行うことで説明変数選定による評価のフィードバックが即時に行われるため、しらみつぶしに説明変数を選択しながらリスク評価する必要がなく、説明変数の数が増えたとしても説明変数選定とリスク評価を効率的にすすめられるといった効果がある。
【0060】
[ハードウエア構成]
次に、第2の実施形態に係るリスク評価装置を構成するハードウエア構成を説明する。本実施形態におけるリスク評価装置のハードウエア構成は第1の実施形態のハードウエア構成と同様である。従って、図示は省略し、
図4を参照しながらハードウエアの動作の概略について説明する。
【0061】
最初に、モデル取得プログラムがメモリ202から呼び出されCPU201で実行される。同プログラムは、他の装置において生成された1以上のモデルを受け取り、メモリ202に格納する。なおメモリ202上ではモデルのために一例として、アドレス1とアドレス2とを先頭としてメモリ空間が関連付けられて確保されており、アドレス1を先頭とする空間にはモデルの数式情報、アドレス2を先頭とする空間には当該モデルを説明可能とするための情報、例えばモデルの説明文や変数の項目ラベルなどが格納されている。ここで入出力インタフェース203等により選定が行われた説明変数が受付けられ上記アドレスに格納される。
【0062】
ここで同プログラムは、モデルの事前評価を行ってもよい。受け付けられた説明変数によるモデルを各種の情報量基準により評価を行い、評価値を算出する。その評価値が所定の水準に達しているか否かの判断を行い水準に達している場合にのみ次のリスク判定スコアの算出処理に移るといった処理を行ってもよい。
【0063】
次にリスク判定プログラムがCPU201において実行状態となる。同プログラムは、アドレス2に格納されている当該モデルを説明可能とするための情報にアクセスし、例えば、変数の項目ラベルを取得する。変数の項目ラベルとして記載された情報、例えば上記の採用判定モデルの場合では、単語「採用判定値」、「研究テーマ」、「年齢」、「試験得点」の情報を取得する。同プログラムは、関連付けられているアドレス1を先頭とする空間に格納されているモデルの数式情報を参照する。参照の結果、一次式を成す変数と別の変数とを=で結んだ予測モデルであると認識され、線形の一次式を成す変数「研究テーマ」、「年齢」、「試験得点」が説明変数であり「採用判定値」が目的変数であると認識される。
【0064】
同プログラムは、説明変数の項目ラベルである「研究テーマ」、「年齢」、「試験得点」を検索クエリとして、メモリ202上に保持されている倫理的リスク要因情報データを検索する。検索の結果検索ヒット率が算出され、変数ごとにこれをメモリ202に格納する。
【0065】
次にモデル選択プログラムがCPU201において実行状態となり、メモリ202に保持されているモデル選択ルールを読み込む。ここで、モデル選択ルールは一例として、モデルの各説明変数の係数と各説明変数の検索ヒット率との積和をCPU201による演算処理により算出し、その値が基準値に達するか否かでモデルの選択を行う、とされており、この演算を実行し、算出された値が基準値に達しているか否かを大小比較により判断する。その結果基準値に達していなければモデルは選択(採用)され、入出力インタフェース203にて出力される。反対に算出された値が基準値に達している場合には、出力はされず、次の繰り返し処理に入り再び説明変数を受付ける処理に戻る。
【0066】
上記の実施形態の一部又は全部は、以下のようにも記載され得るが、以下には限られない。
[形態1]
上述の第1の視点に係る装置のとおりである。
[形態2]
形態1におけるリスク判定部は、形態1における一以上のモデルの要素間の関係に基づいて、前記一以上のモデル毎にモデルを言語で記述した文を生成し、前記文及び前記文の要素の少なくとも一方と、前記倫理的リスク要因情報と、を用いて前記一以上のモデルのリスクを判定する、好ましくは形態1に記載のリスク評価装置。
[形態3]
前記リスク判定部は、前記一以上のモデルと、前記倫理的リスク要因情報と、に基づいて前記一以上のモデルが有するリスクをスコアリングしたリスク判定スコアを算出し、前記モデル選択部は、前記リスク判定スコアに基づいてモデルを選択する、好ましくは形態1に記載のリスク評価装置。
[形態4]
前記リスク判定部は、前記文及び前記文の要素の少なくとも一方と、前記倫理的リスク要因情報と、を用いて前記一以上のモデルが有するリスクをスコアリングしたリスク判定スコアを算出し、前記モデル選択部は、前記リスク判定スコアに基づいてモデルを選択する、好ましくは形態2に記載のリスク評価装置。
[形態5]
前記リスク判定部は、前記文及び前記文の要素の少なくとも一方と、前記倫理的リスク要因情報と、の間の関係を示す統計値を算出することによりリスク判定スコアを算出する、好ましくは形態4に記載のリスク評価装置。
[形態6]
前記倫理的リスク要因情報を保持する倫理的リスク要因情報保持部を、
さらに有し、前記リスク判定部は、前記一以上のモデルと、保持されている前記倫理的リスク要因情報と、に基づいて前記一以上のモデルのリスクを判定する、好ましくは形態1から形態5のいずれか一に記載のリスク評価装置。
[形態7]
前記一以上のモデルよりモデルを選択するためのルールであるモデル選択ルールを保持するモデル選択ルール保持部と、前記モデル選択部は、前記リスク判定スコアと、前記モデル選択ルールに基づいて、前記一以上のモデルの内からモデルの選択をする、好ましくは形態3から形態5のいずれか一に記載のリスク評価装置。
[形態8]
前記モデル選択ルールは、前記リスク判定スコアと、前記一以上のモデルの予測式における説明変数の係数とに基づいて、モデルを選択するルールである、好ましくは形態7に記載のリスク評価装置。
[形態9]
前記モデル選択ルールは、算出されたリスク判定スコアが所定の値を超えた場合にそのリスク判定スコアに係るモデルは選択しないとするルールである、好ましくは形態7又は形態8に記載のリスク評価装置。
[形態10]
前記モデル選択ルールは特定の倫理的リスク要因に関する情報を列挙したリストを含み、当該リストにより特定された倫理的リスク要因情報について、そのリスト内の情報がモデル内に含まれている場合にはリスク判定スコアに関わらず、そのリスク判定スコアに係るモデルは選択しないとするルールである、好ましくは形態7から形態9のいずれか一に記載のリスク評価装置。
[形態11]
上記第2の視点に係るリスク評価方法のとおりである。
[形態12]
上記第3の視点に係るプログラムの通りである。
[形態13]
形態12のプログラムを記憶した記録媒体である。
【0067】
なお、上記特許文献の各開示を、本書に引用をもって繰り込むものとする。本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素(各付記の各要素、各実施例の各要素、各図面の各要素等を含む)の多様な組み合わせ乃至選択(非選択も含む)が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。
【符号の説明】
【0068】
100 リスク評価装置
101 モデル取得部
102 リスク判定部
103 モデル選択部
104 モデル出力部
105 倫理的リスク要因情報保持部
106 モデル選択ルール保持部
200 情報処理装置(コンピュータ)
201 CPU
202 メモリ
203 入出力インタフェース
204 NIC
205 内部バス