IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

<>
  • 特許-推定装置 図1
  • 特許-推定装置 図2
  • 特許-推定装置 図3
  • 特許-推定装置 図4
  • 特許-推定装置 図5
  • 特許-推定装置 図6
  • 特許-推定装置 図7
  • 特許-推定装置 図8
  • 特許-推定装置 図9
  • 特許-推定装置 図10
  • 特許-推定装置 図11
  • 特許-推定装置 図12
  • 特許-推定装置 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-05-26
(45)【発行日】2025-06-03
(54)【発明の名称】推定装置
(51)【国際特許分類】
   G06N 20/00 20190101AFI20250527BHJP
   G06F 18/241 20230101ALI20250527BHJP
【FI】
G06N20/00
G06F18/241
【請求項の数】 10
(21)【出願番号】P 2024504048
(86)(22)【出願日】2022-03-01
(86)【国際出願番号】 JP2022008618
(87)【国際公開番号】W WO2023166565
(87)【国際公開日】2023-09-07
【審査請求日】2024-08-02
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100124811
【弁理士】
【氏名又は名称】馬場 資博
(74)【代理人】
【識別番号】100088959
【弁理士】
【氏名又は名称】境 廣巳
(74)【代理人】
【識別番号】100097157
【弁理士】
【氏名又は名称】桂木 雄二
(74)【代理人】
【識別番号】100187724
【弁理士】
【氏名又は名称】唐鎌 睦
(72)【発明者】
【氏名】伊東 邦大
【審査官】新井 則和
(56)【参考文献】
【文献】中村 和晃,第141回 知っておきたいキーワード Model Inversion Attack,映像情報メディア学会誌,一般社団法人映像情報メディア学会,2021年05月01日,第75巻 、第3号,pp.384-386
【文献】樋口 裕二 ほか,分類モデルに対するVAEを用いた教師データ推定攻撃,2020年 暗号と情報セキュリティシンポジウム予稿集,電子情報通信学会情報セキュリティ(ISEC)研究会,2020年01月21日,pp.1-8
【文献】宇根 正志,機械学習システムのセキュリティに関する研究動向と課題,金融研究,株式会社国際文献社,2019年01月22日, 第38巻、第1号,pp.97-123
【文献】矢嶋 純 ほか,機械学習システムに潜むAIセキュリティ脆弱性の分析手法に関する一考察,2021年 暗号と情報セキュリティシンポジウム予稿集,電子情報通信学会情報セキュリティ(ISEC)研究会,2021年01月19日,pp.1-8
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00
G06F 18/241
(57)【特許請求の範囲】
【請求項1】
未知の属性候補を示す情報と既知の属性についての情報とに基づいて所定の重みを算出する重み算出部と、
決定木の情報に基づいて、一部の属性の値が既知である条件下における未知属性の条件付周辺分布に応じた値を算出する条件付周辺分布算出部と、
前記重み算出部が算出した前記重みと、前記条件付周辺分布算出部が算出した前記条件付周辺分布に応じた値と、に基づいて、未知の属性の値を推定する推定部と、
を有する
推定装置。
【請求項2】
請求項1に記載の推定装置であって
前記条件付周辺分布算出部は、未知属性をある候補とした際に落ちる葉ノードに対して落ちる訓練データの数を算出することで前記条件付周辺分布に応じた値を算出する
推定装置。
【請求項3】
請求項2に記載の推定装置であって、
前記条件付周辺分布算出部は、未知属性をある候補とした際に落ちる葉ノードに対して落ちる訓練データの数を、未知属性を各候補とした際にそれぞれ落ちる葉ノードに対してそれぞれ落ちる訓練データの数の和で割ることで、前記条件付周辺分布に応じた値を算出する
推定装置。
【請求項4】
請求項2または請求項3に記載の推定装置であって、
前記条件付周辺分布算出部は、未知属性をある候補とした際に落ちる葉ノードに対して落ちる訓練データの数に対して所定の補正処理を行うことで、前記条件付周辺分布に応じた値を算出する
推定装置。
【請求項5】
請求項4に記載の推定装置であって、
前記条件付周辺分布算出部は、未知属性をある候補とした際に落ちる葉ノードに対して落ちる訓練データの数を特徴量空間における単位面積あたりの数に補正する補正処理を行うことで、前記条件付周辺分布に応じた値を算出する
推定装置。
【請求項6】
請求項5に記載の推定装置であって、
葉ノードに振り分けられる訓練データにおいて属性が取りうる値の個数または範囲に基づいて面積を算出する
推定装置。
【請求項7】
請求項1から請求項6までのうちのいずれか1項に記載の推定装置であって、
前記重み算出部は、未知の属性候補を示す情報と既知の属性についての情報とに基づいて推測される推測ラベルと、真のラベルと、の間のずれを所定のエラー関数を用いて算出することで前記重みを算出し、
前記推定部は、前記重み算出部が前記重みとして算出した前記ずれと、前記条件付周辺分布算出部が算出した前記条件付周辺分布に応じた値と、に基づいて、未知の属性の値を推定する
推定装置。
【請求項8】
請求項1から請求項6までのうちのいずれか1項に記載の推定装置であって、
前記重み算出部は、未知の属性候補を示す情報と既知の属性についての情報とに基づいて所定の比率を算出することで前記重みを算出し、
前記推定部は、前記重み算出部が前記重みとして算出した前記比率と、前記条件付周辺分布算出部が算出した前記条件付周辺分布に応じた値と、に基づいて、未知の属性の値を推定する
推定装置。
【請求項9】
情報処理装置が、
未知の属性候補を示す情報と既知の属性についての情報とに基づいて所定の重みを算出し、
決定木の情報に基づいて条件付周辺分布に応じた値を算出し、
算出した前記重みと、算出した前記条件付周辺分布に応じた値と、に基づいて、未知の属性の値を推定する
推定方法。
【請求項10】
情報処理装置に、
未知の属性候補を示す情報と既知の属性についての情報とに基づいて所定の重みを算出し、
決定木の情報に基づいて条件付周辺分布に応じた値を算出し、
算出した前記重みと、算出した前記条件付周辺分布に応じた値と、に基づいて、未知の属性の値を推定する
処理を実現するためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、推定装置、推定方法、記録媒体に関する。
【背景技術】
【0002】
機会学習などを用いて学習された学習モデルのリスク評価などを目的として、学習モデルからの出力に基づいて学習時に用いられたデータを推定する技術が知られている。
【0003】
例えば、非特許文献1には、標的データの既知属性と真のラベルを入力として、所定の処理を実行することで尤もらしい属性値を出力する方法が記載されている。例えば、非特許文献1によると、推定対象の未知属性をある値で固定して、決定木の出力する推定ラベルを計算する。その後、仮定したエラー関数を用いて真のラベルと推定ラベルの間のずれを算出し、算出したずれを重みとして周辺確率を評価する。非特許文献1によると、例えば、上記のような処理の結果として、尤もらしい属性値を特定する。
【0004】
また、関連する文献として、非特許文献2がある。非特許文献2では、エラー関数を用いてずれを算出する代わりに、決定木の訓練データのうち標的データと同じ分割領域に割り当てられる比率を計算して、計算した比率を重みとして周辺確率を評価している。
【0005】
また、機械学習について記載された文献として、例えば、特許文献1のようなものがある。例えば、特許文献1には、取得されたデータを学習済み機械学習モデルに与えて、学習済み機械学習モデルで所定の推論を実行させ、その結果として、データに対する推論結果を取得することが記載されている。
【先行技術文献】
【特許文献】
【0006】
【文献】国際公開2021/014878号公報
【非特許文献】
【0007】
【文献】Matthew Fredrikson et al., Privacy in pharmacogenetics: An end-to-end case study of personalized warfarin dosing,Aug 2014
【文献】Matthew Fredrikson et al., Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures, October 2015
【発明の概要】
【発明が解決しようとする課題】
【0008】
非特許文献1や非特許文献2に記載の技術の場合、周辺確率として条件なしの、つまり、平均の周辺確率を使っている。そのため、必ずしも推定対象に対する正確な周辺分布を表しているとはいえず、その結果として、的確にデータを推定できないおそれがある、という課題が生じていた。
【0009】
そこで、本発明の目的は、上述した課題を解決することが可能な推定装置、推定方法、記録媒体を提供することにある。
【課題を解決するための手段】
【0010】
かかる目的を達成するため本開示の一形態である推定装置は、
未知の属性候補を示す情報と既知の属性についての情報とに基づいて所定の重みを算出する重み算出部と、
決定木の情報に基づいて、一部の属性の値が既知である条件下における未知属性の条件付周辺分布に応じた値を算出する条件付周辺分布算出部と、
前記重み算出部が算出した前記重みと、前記条件付周辺分布算出部が算出した前記条件付周辺分布に応じた値と、に基づいて、未知の属性の値を推定する推定部と、
を有する
という構成をとる。
【0011】
また、本開示の他の形態である推定方法は、
情報処理装置が、
未知の属性候補を示す情報と既知の属性についての情報とに基づいて所定の重みを算出し、
決定木の情報に基づいて、一部の属性の値が既知である条件下における未知属性の条件付周辺分布に応じた値を算出し、
算出した前記重みと、算出した前記条件付周辺分布に応じた値と、に基づいて、未知の属性の値を推定する
という構成をとる。
【0012】
また、本開示の他の形態である記録媒体は、
情報処理装置に、
未知の属性候補を示す情報と既知の属性についての情報とに基づいて所定の重みを算出し、
決定木の情報に基づいて、一部の属性の値が既知である条件下における未知属性の条件付周辺分布に応じた値を算出し、
算出した前記重みと、算出した前記条件付周辺分布に応じた値と、に基づいて、未知の属性の値を推定する
処理を実現するためのプログラムを記録した、コンピュータが読み取り可能な記録媒体である。
【発明の効果】
【0013】
上述したような各構成によると、より的確にデータを推定可能な推定装置、推定方法、記録媒体を提供することができる。
【図面の簡単な説明】
【0014】
図1】本開示の概要を説明するための図である。
図2】本開示の第1の実施形態におけるリスク評価システムの構成例を示す図である。
図3】モデル格納装置の構成例を示すブロック図である。
図4】モデル格納装置に格納されたモデルの一例を示す図である。
図5】リスク評価装置の構成例を示すブロック図である。
図6】事前情報の一例を示す図である。
図7】条件付周辺分布算出部の処理例を説明するための図である。
図8】条件付周辺分布算出部の処理例を説明するための図である。
図9】属性推定時のリスク評価装置の動作例を示すフローチャートである。
図10】リスク評価時のリスク評価装置の動作例を示すフローチャートである。
図11】事前情報の他の一例を示す図である。
図12】本開示の第2の実施形態における推定装置のハードウェア構成例を示す図である。
図13】推定装置の構成例を示すブロック図である。
【発明を実施するための形態】
【0015】
[第1の実施形態]
本開示の第1の実施形態について、図1から図11までを参照して説明する。図1は、本開示の概要を説明するための図である。図2は、本開示の第1の実施形態におけるリスク評価システム100の構成例を示す図である。図3は、モデル格納装置200の構成例を示すブロック図である。図4は、モデル格納装置200に格納されたモデルの一例を示す図である。図5は、リスク評価装置300の構成例を示すブロック図である。図6は、事前情報341の一例を示す図である。図7図8は、条件付周辺分布算出部356の処理例を説明するための図である。図9は、属性推定時のリスク評価装置300の動作例を示すフローチャートである。図10は、リスク評価時のリスク評価装置300の動作例を示すフローチャートである。図11は、事前情報341の他の一例を示す図である。
【0016】
本開示の第1の実施形態においては、学習モデル241の訓練時に用いた訓練データを構成する属性のうち一部が秘匿されているなどの理由により一部欠損している場合に、既知の属性を用いて欠損している属性の値を推定するリスク評価システム100について説明する。本開示の場合、リスク評価システム100は、訓練データを構成する属性(x、x2、…、x)のうちの一部の属性の値(x2、…、x)を知っているとともに、未知の属性xがk個の値(v11、…、v1k)のうちのいずれかを取ることができることを知っている。例えば、リスク評価システム100は、既知属性についての知識と未知属性についての知識を用いて、所定の重みを算出する。また、リスク評価システム100は、学習モデル241である決定木についての情報である決定木情報343に基づいて、訓練データを構成する属性(x、x2、…、x)のうちの一部の属性の値(x2、…、x)が既知である条件下における未知属性の条件付周辺分布に応じた値を算出する。そして、リスク評価システム100は、算出した重みと条件付周辺分布に応じた値とを用いて、未知の属性を推定する。このように、本実施形態において説明するリスク評価システム100は、決定木情報343を用いることで、既知属性の下で未知属性の値がどのくらいの確率で生じるかを示す条件付周辺分布に応じた値を算出する。そして、リスク評価システム100は、算出結果に基づいて、未知の属性値を推定する。また、リスク評価システム100は、属性値の推定結果に基づいて、訓練データが漏えいするおそれなどに応じたリスク評価を行うことができる。
【0017】
例えば、図1は、zとzという2つの値によって値yが推測されるデータセットにおいて、山が高いほどデータセットに含まれるデータの数が多いことを示している。また、図1において、zが未知属性でありzが既知属性であるとする。このような状況下で、例えば、非特許文献1や非特許文献2に記載されているような条件なしの周辺確率P(z=v)を用いた場合、条件なしの周辺確率が平均的な分布を表現するため、例えばzの周辺分布は、zがv(1)である場合とzがv(2)である場合の中間程度のなだらかな山となる。一方、既知属性であるzについての知識を用いると、例えば、zの値がv(0)である場合、zの周辺分布はなだらかな山ではなくより平坦になることが分かる。また、例えば、zの値がv(3)である場合、zの周辺分布はより大きな山になることが分かる。このように、条件付きの周辺分布の方が、条件なしの周辺分布よりもより適切な周辺分布を表すことができる。ただし、条件付の周辺分布をいつも得られるとは限らない。そこで、本実施形態においては、決定木情報343を用いることで条件付き周辺分布に応じた値を経験的に算出して、算出結果に基づく推定を行う。
【0018】
なお、本実施形態において、学習モデル241は、複数の訓練データを用いた教師あり学習により生成されているものとする。例えば、学習モデル241は、性別、年齢、身長、体重、…、などの複数の属性の入力に応じて、病気か否かなどを示すラベルを出力するように、複数の属性とラベルとを含む訓練データを複数用いて学習されている。なお、属性やラベルの具体例は、上記例示した場合に限られず任意に設定してよい。また、本実施形態において、訓練データを用いて訓練するモデルは、決定木である。決定木とは、入力データに対して、その属性の条件分岐によりラベルの説明性能が十分によくなるまで二分木で振り分ける作業を複数回行い、訓練するモデルのことをいう。なお、属性は、説明変数、または、特徴量などとも呼ばれうる。また、ラベルは、目的変数などとも呼ばれうる。
【0019】
また、本実施形態において説明するリスク評価システム100は、例えば、学習モデル241がホワイトボックス設定である場合において、未知属性の推定を行う。例えば、機械学習で生成するモデルは、入力に対する出力だけがユーザに公開されるブラックボックス設定のほか、モデルの構造や分岐条件などのモデル情報も公開するホワイトボックス設定がとられることがある。後述するように、本実施形態におけるリスク評価システム100は、ホワイトボックス設定により公開される情報である決定木情報343を用いて、条件付周辺分布に応じた値を算出する。ホワイトボックス設定は、例えば、クライアント間で情報を交換しながらモデル訓練を行う連合学習を実施する際などに設定される。
【0020】
図2は、本実施形態におけるリスク評価システム100の構成例を示している。図2を参照すると、リスク評価システム100は、例えば、リスク評価装置300と、モデル格納装置200と、を有している。図2で示すように、リスク評価装置300とモデル格納装置200とは、例えば、ネットワークなどを介して互いに通信可能なよう接続されている。
【0021】
モデル格納装置200は、訓練データを用いて学習された学習モデル241が格納されている情報処理装置である。図3は、モデル格納装置200の構成例を示している。例えば、図3を参照すると、モデル格納装置200は、学習モデル241が格納された記憶部240を有するとともに、受信部210と、推論部220と、出力部230と、を有している。例えば、モデル格納装置200は、CPU(Central Processing Unit)などの演算装置と記憶装置とを有している。モデル格納装置200は、記憶装置に格納されたプログラムを演算装置が実行することで、上記各処理部を実現することができる。
【0022】
なお、図3で示すように、記憶部240に格納されている学習モデル241は、複数の属性とラベルとを含む訓練データを複数用いて予め学習されている。学習モデル241は、モデル格納装置200内で学習されていてもよいし、モデル格納装置200外で学習されていてもよい。また、図4で示すように、学習モデル241は、決定木である。決定木である学習モデル241において、推論は、例えば、入力データに対して説明変数である属性で振り分けられた1つの葉ノードの持つ値(ラベル)を出力することでなされる。
【0023】
受信部210は、リスク評価装置300から後述する候補データを受信する。例えば、受信部210は、“v11、x2、…、x”や“v12、x2、…、x”など、リスク評価装置300にとって既知の属性の値を含むとともに、未知の属性の候補を含む訓練データを受信する。一例として、受信部210は、リスク評価装置300にとっての未知の属性候補の数に応じた数の候補データをリスク評価装置300から受信する。受信部210は、候補データとともに識別情報など上記例示した以外の情報を受信してもよい。
【0024】
推論部220は、受信部210が受信した各候補データを学習モデル241に入力する。また、上記入力の結果として、推論部220は、各候補データに対応する推論結果である推論ラベルを取得する。
【0025】
出力部230は、推論部220が取得した推論ラベルをリスク評価装置300に対して送信する。例えば、出力部230は、推論ラベルがどの候補データに基づいて推論した結果であるのかを判別可能なように、候補データの識別情報などとともに推論ラベルをリスク評価装置300に対して送信してよい。
【0026】
また、出力部230は、学習モデル241についての情報をリスク評価装置300に対して送信することができる。例えば、出力部230は、二分木の分割構造などのモデル構造、属性が閾値より大きい、または、小さいなどを示すモデルの分岐条件、各葉ノードに割り振られる訓練データの数、などの情報を学習モデル241についての情報としてリスク評価装置300に対して送信する。出力部230は、上記例示した以外の学習モデル241についての情報をリスク評価装置300に対して送信してもよい。なお、例えば、出力部230は、リスク評価装置300に対して推論ラベルを送信する際やリスク評価装置300から学習モデル241についての情報を送信する旨の指示を受けた際など、任意のタイミングで学習モデル241についての情報をリスク評価装置300に対して送信してよい。
【0027】
例えば、以上のように、モデル格納装置200は、訓練データを用いて学習された学習モデル241を有している。また、モデル格納装置200は、リスク評価装置300から候補データを受信すると、受信した候補データに基づいて学習モデル241を用いた推論を行うことで、候補データに対応する推論ラベルを取得する。そして、モデル格納装置200は、取得した推論ラベルをリスク評価装置300に対して送信する。また、モデル格納装置200は、学習モデル241についての情報をリスク評価装置300に対して送信する。
【0028】
リスク評価装置300は、既知の属性についての情報や学習モデル241についての情報などを用いて秘匿されている属性の値を推定する情報処理装置である。また、リスク評価装置300は、推定結果に基づくリスク評価を行うことができる。
【0029】
図5は、リスク評価装置300の構成例を示している。図5を参照すると、リスク評価装置300は、主な構成要素として、例えば、操作入力部310と、画面表示部320と、通信I/F部330と、記憶部340と、演算処理部350と、を有している。
【0030】
なお、図5では、1台の情報処理装置を用いてリスク評価装置300としての機能を実現する場合について例示している。しかしながら、リスク評価装置300は、例えば、クラウド上に実現されるなど、複数台の情報処理装置を用いて実現されてもよい。例えば、リスク評価装置300としての機能は、候補データ作成部351と候補データ送信部352と推論結果取得部353と決定木情報受取部354と重み算出部355と条件付周辺分布算出部356と推定部357としての機能を有する推定装置と、評価部358と出力部359としての機能を有する評価装置と、の2台の情報処理装置により実現されてもよい。また、リスク評価装置300は、操作入力部や画面表示部を有さないなど上記例示した構成の一部を含まなくてもよいし、上記例示した以外の構成を有してもよい。
【0031】
操作入力部310は、キーボード、マウスなどの操作入力装置からなる。操作入力部310は、リスク評価装置300を操作する操作者の操作を検出して演算処理部350に出力する。
【0032】
画面表示部320は、LCD(Liquid Crystal Display、液晶ディスプレイ)などの画面表示装置からなる。画面表示部320は、演算処理部350からの指示に応じて、記憶部340に格納されている各種情報などを画面表示することができる。
【0033】
通信I/F部330は、データ通信回路などからなる。通信I/F部330は、通信回線を介して接続されたモデル格納装置200などの外部装置との間でデータ通信を行う。
【0034】
記憶部340は、ハードディスクやメモリなどの記憶装置である。記憶部340は、演算処理部350における各種処理に必要な処理情報やプログラム346を記憶する。プログラム346は、演算処理部350に読み込まれて実行されることにより各種処理部を実現する。プログラム346は、通信I/F部330などのデータ入出力機能を介して外部装置や記録媒体から予め読み込まれ、記憶部340に保存されている。記憶部340で記憶される主な情報としては、例えば、事前情報341、推論結果情報342、決定木情報343、重み情報344、推定情報345などがある。記憶部340には、推論結果情報342が格納されないなど、上記例示したうちの一部の情報のみが格納されていてもよい。
【0035】
事前情報341は、モデル格納装置200に格納された学習モデル241の訓練時に用いた訓練データについて予め知っている情報を含んでいる。例えば、事前情報341は、通信I/F部330を介して外部装置から取得する、操作入力部310を用いて入力する、などの方法を用いて予め取得されており、記憶部340に格納されている。
【0036】
図6は、事前情報341の一例を示している。図6を参照すると、事前情報341には、部分訓練データ情報と、欠損属性情報と、が含まれている。例えば、図6で示すように、事前情報341には、部分訓練データ情報と欠損属性情報とが関連付けられた情報が複数含まれている。
【0037】
ここで、部分訓練データ情報は、学習モデル241を学習する際に用いた訓練データのうち一部の属性が秘匿(欠損)された状態における既知の属性の値と対応するラベルとを示している。例えば、図6では、属性(x、…、x)とラベルyとが既知であり、属性xが欠損している場合について例示されている。また、欠損属性情報は、欠損している属性の値についての情報を示している。例えば、図6では、欠損した属性xがk個の値(v11、…、v1k)のうちのいずれかをとることを示している。なお、本実施形態において、欠損した属性は、例えば、カテゴリカル変数(離散変数)である。なお、事前情報341には、上記例示した以外の情報が含まれてもよい。
【0038】
推論結果情報342は、後述する候補データ作成部351が事前情報341に基づいて作成する候補データを学習モデル241に入力することで取得される推論ラベルを示す情報を含んでいる。例えば、推論結果情報342には、欠損した属性における候補の数に応じた推論ラベルを示す情報が含まれうる。例えば、推論結果情報342は、後述する推論結果取得部353が推論ラベルをモデル格納装置200から取得することに応じて、生成、更新される。
【0039】
決定木情報343は、モデル格納装置200から取得した学習モデル241についての情報を含んでいる。換言すると、決定木情報343には、決定木についての情報が含まれている。例えば、決定木情報343には、モデル構造、モデルの分岐条件、各葉ノードに割り振られる訓練データの数、などの学習モデル241についての情報が含まれる。決定木情報343は、例えば、決定木情報受取部354が学習モデル241についての情報をモデル格納装置200から受け取ることに応じて更新される。
【0040】
重み情報344は、後述する重み算出部355が算出した重みを示す情報を含んでいる。例えば、重み情報344には、欠損した属性における候補の数に応じた重みを示す情報が含まれうる。例えば、重み情報344は、重み算出部355が重みを算出することに応じて、生成、更新される。
【0041】
推定情報345は、重み情報344と条件付周辺分布算出部356による算出結果とに基づいて後述する推定部357が推定した結果を示す情報を含んでいる。例えば、推定情報345には、未知の属性候補のうち推定部357が推定した属性の値を示す情報などが含まれうる。例えば、推定情報345は、推定部357が重みを用いて条件付周辺確率を評価した結果などに応じて、生成、更新される。
【0042】
演算処理部350は、CPUなどの演算装置とその周辺回路を有する。演算処理部350は、記憶部340からプログラム346を読み込んで実行することにより、上記ハードウェアとプログラム346とを協働させて各種処理部を実現する。演算処理部350で実現される主な処理部としては、例えば、候補データ作成部351、候補データ送信部352、推論結果取得部353、決定木情報受取部354、重み算出部355、条件付周辺分布算出部356、推定部357、評価部358、出力部359などがある。
【0043】
なお、リスク評価装置300は、上記例示した構成のうち、重み算出部355が重みを算出するために必要となる構成のみを有してよい。例えば、後述するように、重み算出部355は、非特許文献1に記載されている方法や非特許文献2に記載されているような方法で重みを算出することができる。ここで、非特許文献2に記載されている方法の場合、推論ラベルは必ずしも必要ではない。そのため、リスク評価装置300は、重み算出部355による重み算出方法などによっては、候補データ送信部352や推論結果取得部353などの構成を有さなくてもよい。
【0044】
候補データ作成部351は、事前情報341に基づいて候補データを作成する。例えば、候補データ作成部351は、欠損属性情報が示す候補の数に応じた候補データを作成する。候補データ作成部351は、任意のタイミングで候補データを作成してよい。
【0045】
具体的に、例えば、事前情報341として、部分訓練データ情報(x、…、x、y)が格納されており、欠損属性情報として未知の属性xが(v11、…、v1k)のいずれかの値である旨が格納されているとする。この場合、候補データ作成部351は、未知の属性xが(v11、…、v1k)のうちのいずれかの値をとるとして、(v11、…、v1k)それぞれに対応する候補データを作成する。つまり、候補データ作成部351は、(v11、x、…、x)、…、(v1k、x、…、x)という候補データを作成する。
【0046】
なお、上述したように、事前情報341には、部分訓練データ情報と欠損属性情報とを対応付けた情報を複数含むことができる。候補データ作成部351は、上記対応付けた情報ごとに、上述した方法を用いて候補データを作成してよい。
【0047】
候補データ送信部352は、候補データ作成部351が作成した候補データをモデル格納装置200に対して送信する。候補データ送信部352は、候補データ作成時に用いた部分訓練データ情報などに応じた候補データの識別情報などを候補データとともに送信してもよい。
【0048】
推論結果取得部353は、モデル格納装置200から候補データに基づく推論の結果として、推論ラベルを受信、取得する。例えば、推論結果取得部353は、推論対象となった候補データが判別可能なように、識別情報などとともにモデル格納装置200から推論ラベルを取得する。また、推論結果取得部353は、受信した推論ラベルを推論結果情報342として記憶部340に格納する。推論結果取得部353は、対応する候補データの識別情報などともに、推論ラベルを記憶部340に格納してもよい。
【0049】
決定木情報受取部354は、モデル格納装置200から学習モデル241についての情報を受け取る。例えば、決定木情報受取部354は、モデル格納装置200から、モデル構造、モデルの分岐条件、各葉ノードに割り振られる訓練データの数、などの学習モデル241についての情報を受け取る。また、決定木情報受取部354は、受け取った学習モデル241についての情報を決定木情報343として記憶部340に格納する。
【0050】
なお、決定木情報受取部354は、任意のタイミングで学習モデル241についての情報を送信するようモデル格納装置200に対して指示してもよい。例えば、決定木情報受取部354は、上記指示に応じて送信された学習モデル241についての情報を受け取るよう構成してもよい。
【0051】
重み算出部355は、既知属性についての情報と未知属性についての情報を用いて、所定の重みを算出する。また、重み算出部355は、算出した重みを重み情報344として記憶部340に格納する。重み算出部355は、対応する候補データの識別情報などともに、算出結果を記憶部340に格納してもよい。
【0052】
例えば、重み算出部355は、非特許文献1に記載されている方法と同様の方法を用いて重みを算出する。具体的に、例えば、重み算出部355は、数1で示すように、事前情報341と推論結果情報342に基づいて、所定のエラー関数err()を用いることで、推論ラベルと推論対象となった候補データの作成元になった部分訓練データ情報に含まれるラベルとの間のずれを算出する。つまり、重み算出部355は、既知属性についての情報と未知属性についての情報とに基づいて推論される推論ラベルと、ラベルと、の間のずれを算出することで重みを算出する。
【数1】
なお、yがラベルであり、f(x’)が推測ラベルである。
【0053】
また、例えば、重み算出部355は、上記方法の代わりに、非特許文献2に記載されているような方法で比率を算出して、算出した比率を重みとして用いるよう構成してもよい。例えば、重み算出部355は、数2で示すような式を解くことで比率を算出することができる。
【数2】
なお、非特許文献2で示すように、φi()は、欠損した属性の値候補vに関する所定の指示関数である。また、訓練データ総数Nに対してpi = ni/Nとなる。なお、niは葉ノードiに振り分けられる訓練データの数を示す。また、S = (si)i=1,…,m=(φi ,ni )i=1,…,mであり、決定木のすべての経路集合を示す。また、s1,…,smkは既知属性がzkであるデータがひとつは通る経路を示す。
【0054】
また、重み算出部355は、上記例示した以外の方法で重みを算出してもよい。例えば、重み算出部355は、任意の方法で決定された重み初期値を既知属性の値で調整することなどにより重みを算出してもよい。
【0055】
例えば、以上説明したように、重み算出部355は、既知属性についての情報と未知属性についての情報を用いて、所定の重みを算出する。なお、重み算出部355は、上記例示したうちのいずれかの方法を用いて重みを算出するよう構成してもよい。
【0056】
条件付周辺分布算出部356は、決定木情報343を用いて対象となる葉ノードに落ちる訓練データの数を算出することなどにより条件付周辺分布に応じた値を算出する。例えば、条件付周辺分布算出部356は、未知属性の候補ごとに条件付周辺分布を算出することができる。
【0057】
例えば、図7は、特徴量の空間を長方形に分割する決定木において、二分木によって分割された後の領域の一例を示している。また、図7において、例えば、zが既知属性でありzが未知属性であるとする。この場合、決定木情報343を用いて決定木のある領域に割り当てられているデータ量をみることで、図7で例示するように間接的に真の条件付周辺分布に応じた値を算出できる。この値は、真の分布とは異なっているものの、平均を用いるよりは良くなる可能性を期待することができる。
【0058】
具体的に、例えば、条件付周辺分布算出部356は、下記数3で示すような式を解くことで、経験的に条件付周辺分布に応じた値を算出する。
【数3】
【0059】
換言すると、例えば、条件付周辺分布算出部356は、決定木情報343を参照して、未知属性をある候補とした際に落ちる葉ノードを特定する。そして、条件付周辺分布算出部356は、訓練データ全体Dのうち特定した葉ノードに対して落ちる訓練データの数を算出することで、第1の値を算出する。また、条件付周辺分布算出部356は、未知属性を各候補とした際にそれぞれ落ちる葉ノードを特定する。そして、条件付周辺分布算出部356は、訓練データ全体Dのうち、特定した各葉ノードに対して落ちる訓練データの数の和を算出することで、第2の値を算出する。その後、条件付周辺分布算出部356は、第1の値を第2の値で割ることで、条件付周辺分布に応じた値を算出する。
【0060】
なお、決定木では、すべての特徴量の値に対応するように特徴量空間を分割するわけではない。そのため、実際には、図8に示すように、分割領域の粒度は図7で例示するよりも荒くなる可能性が高い。その結果、例えば、図7図8を比較すると、粒度が荒くなった結果として、図7で示す場合よりも葉ノード(分割領域)に落ちる訓練データの数が多くなったり、頻度の中心がずれるおそれがあったりすることが分かる。そこで、条件付周辺分布算出部356は、下記数4で示すように葉ノードに対して落ちる訓練データの数を単位面積あたりに補正するよう構成することができる。一般に、特徴量空間において近傍では分布はほぼ不変である。そのため、上記のような補正を行うことで、性能改善を見込むことができる。
【数4】
【0061】
上述したように、数4で示す式では、数3の式における分子を特徴量空間上で占める面積で割ることで、上述した補正処理を行っている。ここで、上記面積は、例えば、下記のようにして算出することができる。
【0062】
例えば、属性z(j=1、…、d)に対してzが離散値の場合、条件付周辺分布算出部356は、zがとりうる値の個数を数えることでNを算出する。例えば、属性zが{A,B,C}の3値を取りうるならば、Nは3となる。また、条件付周辺分布算出部356は、葉ノードiに振り分けられる訓練データにおいてzが取りうる値の個数を数えることで、nj,iを算出する。例えば、葉ノードiに至る経路で{A,C}の2値が許容される場合、nj,iは2となる。そして、条件付周辺分布算出部356は、nj,iをNで割ることで幅wを算出する。例えば、上記のようにして幅wを算出した後、条件付周辺分布算出部356は、下記数5で示す式を解くことで面積を算出することができる。
【数5】
【0063】
なお、上記処理では、nj,iをNで割ることで正規化を行っている。例えば、身長という属性がcmであり距離という属性がmであるなど、属性ごとにスケーリングが異なっている場合がある。そのため、単にnj,iを用いるのではなくNで割っておくことで、より適切な値を算出することができる。正規化の必要がないことが予め分かっている場合などにおいて、Nで割る処理を省略してもよい。
【0064】
また、例えば、属性z(j=1、…、d)に対してzが連続値の場合、条件付周辺分布算出部356は、zがとりうる値の範囲の差を算出することでNを算出する。例えば、属性zが1から10までの値を取りうる場合、Nは10-1より9となる。また、条件付周辺分布算出部356は、葉ノードiに振り分けられる訓練データにおいてzが取りうる値の範囲の差を算出することでnj,iを算出する。例えば、葉ノードiに至る経路で2から5までの値が許容される場合、nj,iは5-2より3となる。そして、条件付周辺分布算出部356は、nj,iをNで割ることで幅wを算出する。その後、条件付周辺分布算出部356は、上述した数5で示す式を解くことで面積を算出することができる。なお、属性が離散値である場合と同様に、属性が連続値である場合も、正規化する処理を省略してもよい。
【0065】
例えば、以上のように、条件付周辺分布算出部356は、葉ノードiに振り分けられる訓練データにおいてzが取りうる値の個数または範囲に基づいて算出される特徴量空間上の面積を用いて、葉ノードに対して落ちる訓練データの数を補正するよう構成してもよい。
【0066】
なお、後述するように、条件付周辺分布算出部356が算出した条件付周辺分布に応じた値は、推定部357が推定を行う際に比較される対象となる。また、数3や数4で示す式のうち分母の部分は、未知属性の各候補で同一の値となる。そのため、条件付周辺分布算出部356は、条件付周辺分布に応じた値として、数3や数4で示す式の分子の部分のみを算出するよう構成してもよい。換言すると、条件付周辺分布算出部356は、条件付周辺分布に応じた値として、訓練データ全体Dのうち特定した葉ノードに対して落ちる訓練データの数や、当該数を面積で補正した値などを算出するよう構成してもよい。
【0067】
推定部357は、重み情報344と条件付周辺分布算出部356が算出した条件付周辺分布に応じた値とに基づいて、候補のうち未知の属性として尤もらしい属性の値を推定する。また、推定部357は、推定した結果を推定情報345として記憶部340に格納する。
【0068】
例えば、推定部357は、下記数6で示すように、重みと条件付周辺分布に応じた値との積が最大化するiを特定することで、i’を特定する。そして、尤もらしい属性の値として、特定したi’に応じたv1i’を出力する。なお、i’は、1からkまでのうちのいずれかの値をとる。
【数6】
【0069】
なお、数6は、重み算出部355が非特許文献1に記載の方法で重みを算出した場合の推定部357の処理例を例示している。例えば、数6では、非特許文献1における推定方法のうち条件なしの周辺分布を用いる部分を条件付きの周辺分布に応じた値に置き換えている。このように、推定部357は、重み算出部355による重みの算出方法に応じた方法で推定処理を行ってよい。例えば、重み算出部355が非特許文献2に記載の方法で重みを算出する場合、推定部357は、非特許文献2における推定方法のうち条件なしの周辺分布を用いる部分を条件付きの周辺分布に応じた値に置き換えて推定処理を行うよう構成してよい。
【0070】
評価部358は、推定情報345に基づく評価を行う。換言すると、評価部358は、推定部357による推定の結果に基づいて、リスク評価を行う。
【0071】
例えば、評価部358は、事前情報341が示す未知の属性が実際にはどのような値であったかを示す情報である正解情報を有している。例えば、図6で例示する場合、評価部358は、xが(v11、…、v1k)のうちのいずれの値であるかを示す正解情報を有している。評価部358は、推定部357による推定の結果と、正解情報が示す実際の値と、を比較して、比較した結果に基づいてリスクの評価を行うことができる。例えば、評価部358は、推定部357による推定の結果と、正解情報が示す実際の値と、が一致している場合にリスクが高い、と評価することができる。一方、推定部357による推定の結果と、正解情報が示す実際の値と、が一致していない場合、評価部358は、リスクが低い、と評価することができる。
【0072】
なお、上述したように、事前情報341には、部分訓練データ情報と欠損属性情報とを対応付けた情報が複数含まれている。そのため、推定部357は、上記対応付けた情報ごとに候補の推定を行うことができる。そこで、例えば、評価部358は、推定部357による複数の推定の結果と、各推定に応じた正解情報と、の比較結果に基づいて、リスクの評価を行ってもよい。具体的に、例えば、評価部358は、複数の比較の結果に応じて、推定の結果と正解情報とが一致した割合を示す正答率を算出する。そして、評価部358は、リスクを示す情報として、例えば、算出した正答率を出力することができる。評価部358は、算出した正答率が予め定められた閾値を超えているか否かなどに応じてリスクを評価して、評価した結果を出力するよう構成してもよい。
【0073】
出力部359は、推定部357が推定した候補を示す情報や、評価部358による評価結果を示す情報などを出力する。例えば、出力部359は、上記各情報を画面表示部320上に表示させたり、通信I/F部330を介して外部装置に対して送信したりする。
【0074】
以上が、リスク評価装置300の構成例である。続いて、図9図10を参照してリスク評価装置300の動作例について説明する。
【0075】
まず、図9を参照して、未知の属性を推定する際のリスク評価装置300の動作例について説明する。図9は、非特許文献1に記載の方法で重みを算出する場合における、未知の属性推定時のリスク評価装置300の動作例を示すフローチャートである。図9を参照すると、候補データ作成部351は、事前情報341に基づいて候補データを作成する(ステップS101)。例えば、候補データ作成部351は、欠損属性情報が示す候補の数に応じた候補データを作成する。
【0076】
候補データ送信部352は、候補データ作成部351が作成した各候補データをモデル格納装置200に対して送信する(ステップS102)。
【0077】
推論結果取得部353は、モデル格納装置200から候補データに基づく推論の結果として、候補データごとに推論ラベルを取得する(ステップS103)。
【0078】
決定木情報受取部354は、学習モデル241についての情報をモデル格納装置200から受け取る(ステップS104)。ステップS103とステップS104の処理は、どちらが先に行われてもよいし、並列で行われてもよい。
【0079】
重み算出部355は、既知属性についての知識と未知属性についての知識を用いて、重みを算出する(ステップS105)。例えば、重み算出部355は、事前情報341と推論結果情報342に基づいて、所定のエラー関数を用いることで、推論ラベルと推論対象となった候補データの作成元になった部分訓練データ情報に含まれるラベルとの間のずれを重みとして算出する。
【0080】
条件付周辺分布算出部356は、決定木情報343を用いて条件付周辺分布に応じた値を算出する(ステップS106)。例えば、条件付周辺分布算出部356は、訓練データ全体Dのうち、特定した葉ノードに対して落ちる訓練データの数を算出することなどにより、条件付周辺分布に応じた値を算出する。
【0081】
推定部357は、重み情報344と条件付周辺分布算出部356が算出した条件付周辺分布に応じた値とに基づいて、候補のうち未知の属性として尤もらしい属性の値を推定する(ステップS107)。例えば、推定部357は、重みと条件付周辺分布に応じた値との積が最大化するiを特定することなどにより、未知の属性値を推定する。
【0082】
以上が、属性推定時のリスク評価装置300の構成例である。なお、非特許文献1に記載方法を用いて重みを算出する代わりに非特許文献2に記載の方法を用いて重みを算出する場合、リスク評価装置300は、ステップS101からステップS103までの処理を省略してもよい。この場合、リスク評価装置300は、ステップS105の処理において、決定木情報343などを用いて重みを算出してよい。
【0083】
続いて、図10を参照してリスク評価時のリスク評価装置300の動作例について説明する。図10は、リスク評価時におけるリスク評価装置300の動作例を示すフローチャートである。図10を参照すると、リスク評価装置300は、図9を参照して説明した未知の属性について推定する処理を行う(ステップS201)。
【0084】
推定対象が事前情報341に残っている場合(ステップS202、No)、リスク評価装置300は、ステップS201の処理に戻って推定処理を行う。一方、事前情報341内に推定対象がなくなった場合(ステップS202、Yes)、リスク評価装置300は、各推定の結果に応じたリスク評価を行う(ステップS203)。例えば、リスク評価装置300は、各推定の結果と、各推定に応じた正解情報と、の比較結果に基づいて正答率を算出して、算出した正答率に応じた出力を行うことができる。
【0085】
以上が、リスク評価時におけるリスク評価装置300の動作例である。なお、ステップS203の処理は、ステップS201、S202の処理の後に必ずしも連続的に行われなくてもよい。例えば、ステップS203の処理は、ステップS201、S202の処理の後、任意のタイミングで行ってよい。
【0086】
このように、リスク評価装置300は、重み算出部355と、条件付周辺分布算出部356と、推定部357と、を有している。このような構成によると、推定部357は、重み算出部355が算出した重みと条件付周辺分布算出部356が算出した条件付周辺分布に応じた値とに基づいて、候補のうち未知の属性として尤もらしい属性の値を推定することができる。その結果、より的確にデータを推定できる。
【0087】
なお、本実施形態においては、未知の属性がx1つである場合について例示した。しかしながら、本発明は、未知の属性が複数ある場合であっても問題なく適用することができる。
【0088】
例えば、図11は、未知の属性がxからxまで複数ある場合における事前情報341の一例を示している。例えば、図11では、属性(xn+1、…、x)とラベルyとが既知であり、属性(x、…、x)が欠損している場合について例示している。この場合、欠損属性情報は、欠損している各属性の値についての情報を示すことになる。このように、未知属性が複数ある場合であっても、本発明は問題なく適用できる。
【0089】
なお、本実施形態においては、リスク評価システム100がモデル格納装置200とリスク評価装置300とを有する場合について例示した。しかしながら、リスク評価システム100は、例えば、本実施形態で説明したモデル格納装置200とリスク評価装置300としての機能を有する1台の情報処理装置から構成されてもよい。リスク評価システム100は、その他既知の変形例を採用してもよい。
【0090】
[第2の実施形態]
次に、本開示の第2の実施形態について、図12図13を参照して説明する。図12は、推定装置400のハードウェア構成例を示す図である。図13は、推定装置400の構成例を示すブロック図である。
【0091】
本開示の第2の実施形態においては、既知の属性についての情報などに基づいて未知の属性値を推定する情報処理装置である推定装置400の構成例について説明する。図12は、推定装置400のハードウェア構成例を示している。図12を参照すると、推定装置400は、一例として、以下のようなハードウェア構成を有している。
・CPU(Central Processing Unit)401(演算装置)
・ROM(Read Only Memory)402(記憶装置)
・RAM(Random Access Memory)403(記憶装置)
・RAM403にロードされるプログラム群404
・プログラム群404を格納する記憶装置405
・情報処理装置外部の記録媒体410の読み書きを行うドライブ装置406
・情報処理装置外部の通信ネットワーク411と接続する通信インタフェース407
・データの入出力を行う入出力インタフェース408
・各構成要素を接続するバス409
【0092】
また、推定装置400は、プログラム群404をCPU401が取得して当該CPU401が実行することで、図13に示す重み算出部421、条件付周辺分布算出部422、推定部423としての機能を実現することができる。なお、プログラム群404は、例えば、予め記憶装置405やROM402に格納されており、必要に応じてCPU401がRAM403などにロードして実行する。また、プログラム群404は、通信ネットワーク411を介してCPU401に供給されてもよいし、予め記録媒体410に格納されており、ドライブ装置406が該プログラムを読み出してCPU401に供給してもよい。
【0093】
なお、図12は、推定装置400のハードウェア構成例を示している。推定装置400のハードウェア構成は上述した場合に限定されない。例えば、推定装置400は、ドライブ装置406を有さないなど、上述した構成の一部から構成されてもよい。
【0094】
重み算出部421は、未知の属性候補を示す情報と既知の属性についての情報とに基づいて、所定の重みを算出する。例えば、重み算出部421は、非特許文献1や非特許文献2に記載されている方法を用いて重みを算出することができる。
【0095】
条件付周辺分布算出部422は、決定木の情報に基づいて、一部の属性の値が既知である条件下における未知属性の条件付周辺分布に応じた値を算出する。例えば、条件付周辺分布算出部422は、未知属性をある候補とした際に落ちる葉ノードに対して落ちる訓練データの数を算出することで前記条件付周辺分布に応じた値を算出する。
【0096】
推定部423は、重み算出部421が算出した重みと、条件付周辺分布算出部422が算出した条件付周辺分布に応じた値と、に基づいて、未知の属性の値を推定する。
【0097】
このように推定装置400は、重み算出部421と、条件付周辺分布算出部422と、推定部423と、を有している。このような構成によると、推定部423は、重み算出部421が算出した重みと、条件付周辺分布算出部422が算出した条件付周辺分布に応じた値と、に基づいて、未知の属性の値を推定することができる。その結果、より正確な周辺分布であることが期待できる条件付周辺分布に応じた値に基づく推定を行うことができ、これにより、より的確な推定を行うことができる。
【0098】
なお、上述した推定装置400は、当該推定装置400などの情報処理装置に所定のプログラムが組み込まれることで実現できる。具体的に、本発明の他の形態であるプログラムは、推定装置400などの情報処理装置に、未知の属性候補を示す情報と既知の属性についての情報とに基づいて所定の重みを算出し、決定木の情報に基づいて条件付周辺分布に応じた値を算出し、算出した重みと、算出した条件付周辺分布に応じた値と、に基づいて、未知の属性の値を推定する、処理を実現するためのプログラムである。
【0099】
また、上述した推定装置400などの情報処理装置により実行される推定方法は、推定装置400などの情報処理装置が、未知の属性候補を示す情報と既知の属性についての情報とに基づいて所定の重みを算出し、決定木の情報に基づいて条件付周辺分布に応じた値を算出し、算出した重みと、算出した条件付周辺分布に応じた値と、に基づいて、未知の属性の値を推定する、という方法である。
【0100】
上述した構成を有する、プログラム、又は、プログラムを記録したコンピュータが読み取り可能な記録媒体、又は、推定方法、の発明であっても、上述した推定装置400と同様の作用・効果を奏するために、上述した本開示の目的を達成することができる。
【0101】
<付記>
上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本発明における推定装置などの概略を説明する。但し、本発明は、以下の構成に限定されない。
【0102】
(付記1)
未知の属性候補を示す情報と既知の属性についての情報とに基づいて所定の重みを算出する重み算出部と、
決定木の情報に基づいて、一部の属性の値が既知である条件下における未知属性の条件付周辺分布に応じた値を算出する条件付周辺分布算出部と、
前記重み算出部が算出した前記重みと、前記条件付周辺分布算出部が算出した前記条件付周辺分布に応じた値と、に基づいて、未知の属性の値を推定する推定部と、
を有する
推定装置。
(付記2)
付記1に記載の推定装置であって
前記条件付周辺分布算出部は、未知属性をある候補とした際に落ちる葉ノードに対して落ちる訓練データの数を算出することで前記条件付周辺分布に応じた値を算出する
推定装置。
(付記3)
付記2に記載の推定装置であって、
前記条件付周辺分布算出部は、未知属性をある候補とした際に落ちる葉ノードに対して落ちる訓練データの数を、未知属性を各候補とした際にそれぞれ落ちる葉ノードに対してそれぞれ落ちる訓練データの数の和で割ることで、前記条件付周辺分布に応じた値を算出する
推定装置。
(付記4)
付記2または付記3に記載の推定装置であって、
前記条件付周辺分布算出部は、未知属性をある候補とした際に落ちる葉ノードに対して落ちる訓練データの数に対して所定の補正処理を行うことで、前記条件付周辺分布に応じた値を算出する
推定装置。
(付記5)
付記4に記載の推定装置であって、
前記条件付周辺分布算出部は、未知属性をある候補とした際に落ちる葉ノードに対して落ちる訓練データの数を特徴量空間における単位面積あたりの数に補正する補正処理を行うことで、前記条件付周辺分布に応じた値を算出する
推定装置。
(付記6)
付記5に記載の推定装置であって、
葉ノードに振り分けられる訓練データにおいて属性が取りうる値の個数または範囲に基づいて面積を算出する
推定装置。
(付記7)
付記1から付記6までのうちのいずれか1項に記載の推定装置であって、
前記重み算出部は、未知の属性候補を示す情報と既知の属性についての情報とに基づいて推測される推測ラベルと、真のラベルと、の間のずれを所定のエラー関数を用いて算出することで前記重みを算出し、
前記推定部は、前記重み算出部が前記重みとして算出した前記ずれと、前記条件付周辺分布算出部が算出した前記条件付周辺分布に応じた値と、に基づいて、未知の属性の値を推定する
推定装置。
(付記8)
付記1から付記6までのうちのいずれか1項に記載の推定装置であって、
前記重み算出部は、未知の属性候補を示す情報と既知の属性についての情報とに基づいて所定の比率を算出することで前記重みを算出し、
前記推定部は、前記重み算出部が前記重みとして算出した前記比率と、前記条件付周辺分布算出部が算出した前記条件付周辺分布に応じた値と、に基づいて、未知の属性の値を推定する
推定装置。
(付記9)
情報処理装置が、
未知の属性候補を示す情報と既知の属性についての情報とに基づいて所定の重みを算出し、
決定木の情報に基づいて条件付周辺分布に応じた値を算出し、
算出した前記重みと、算出した前記条件付周辺分布に応じた値と、に基づいて、未知の属性の値を推定する
推定方法。
(付記10)
情報処理装置に、
未知の属性候補を示す情報と既知の属性についての情報とに基づいて所定の重みを算出し、
決定木の情報に基づいて条件付周辺分布に応じた値を算出し、
算出した前記重みと、算出した前記条件付周辺分布に応じた値と、に基づいて、未知の属性の値を推定する
処理を実現するためのプログラムを記録した、コンピュータが読み取り可能な記録媒体。
【0103】
以上、上記各実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の範囲内で当業者が理解しうる様々な変更をすることができる。
【符号の説明】
【0104】
100 リスク評価システム
200 モデル格納装置
210 受信部
220 推論部
230 出力部
240 記憶部
241 学習モデル
300 リスク評価装置
310 操作入力部
320 画面表示部
330 通信I/F部
340 記憶部
341 事前情報
342 推論結果情報
343 決定木情報
344 重み情報
345 推定情報
346 プログラム
350 演算処理部
351 候補データ作成部
352 候補データ送信部
353 推論結果取得部
354 決定木情報受取部
355 重み算出部
356 条件付周辺分布算出部
357 推定部
358 評価部
359 出力部
400 推定装置
401 CPU
402 ROM
403 RAM
404 プログラム群
405 記憶装置
406 ドライブ装置
407 通信インタフェース
408 入出力インタフェース
409 バス
410 記録媒体
411 通信ネットワーク
421 重み算出部
422 条件付周辺分布算出部
423 推定部

図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13