(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-01-20
(45)【発行日】2022-01-28
(54)【発明の名称】情報処理装置及び情報処理方法
(51)【国際特許分類】
G06N 20/00 20190101AFI20220121BHJP
G06Q 10/10 20120101ALI20220121BHJP
【FI】
G06N20/00
G06Q10/10 322
(21)【出願番号】P 2019191665
(22)【出願日】2019-10-21
(62)【分割の表示】P 2017134796の分割
【原出願日】2017-07-10
【審査請求日】2020-07-08
(73)【特許権者】
【識別番号】591115475
【氏名又は名称】株式会社三菱総合研究所
(74)【代理人】
【識別番号】230104019
【氏名又は名称】大野 聖二
(74)【代理人】
【識別番号】230117802
【氏名又は名称】大野 浩之
(72)【発明者】
【氏名】山野 高将
(72)【発明者】
【氏名】甲谷 優
【審査官】多賀 実
(56)【参考文献】
【文献】特開2015-087973(JP,A)
【文献】国際公開第2016/004075(WO,A1)
【文献】特開2004-062440(JP,A)
【文献】特許第6130977(JP,B1)
【文献】国際公開第2017/094207(WO,A1)
【文献】特表2017-504883(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
G06Q 10/00-10/10
(57)【特許請求の範囲】
【請求項1】
訓練データに基づいて学習を行って学習済みモデルを生成する学習部と、
前記学習済みモデルに対して入力される修正情報に基づいて前記学習済みモデルを修正して修正後モデルを生成する修正部と、
前記訓練データとは異なる評価データを用いて前記修正後モデルに対して評価を行う評価部と、
前記評価部による前記修正後モデルに対する評価結果を出力する出力部と、
を備え、
前記修正情報として、ユーザ操作部からの入力によって前記学習済みモデルで利用されている項目の少なくとも1つを利用しないように修正できる、情報処理装置。
【請求項2】
前記学習済みモデルで利用されている項目に対する重みを調整可能となる、請求項1に記載の情報処理装置。
【請求項3】
ユーザ操作部からの入力によって、前記修正後モデルに用いられている項目の定義を修正可能となる、請求項1又は2に記載の情報処理装置。
【請求項4】
前記学習部は、学習済みモデルで利用される項目として応募者の選考に関する項目を用いる、請求項1乃至3のいずれか1項に記載の情報処理装置。
【請求項5】
利用されるべきではない情報が利用されていることを検知する異常検知部をさらに備えた、請求項1乃至4のいずれか1項に記載の情報処理装置。
【請求項6】
前記評価部での前記修正後モデルを評価した際の精度を見ながら繰り返し前記修正部による修正を可能となる、請求項1乃至5のいずれか1項に記載の情報処理装置。
【請求項7】
前記学習部は、
応募者が作成した文書に基づき第一評価情報を生成する第一学習部と、
応募者に関する応募者情報及び前記第一評価情報に基づいて、応募者の第二評価情報を生成する第二学習部と、
を有する、請求項1乃至6のいずれか1項に記載の情報処理装置。
【請求項8】
学習部によって、訓練データに基づいて学習を行って学習済みモデルを生成する工程と、
修正部によって、前記学習済みモデルに対して入力される修正情報に基づいて前記学習済みモデルを修正して修正後モデルを生成する工程と、
評価部によって、前記訓練データとは異なる評価データを用いて前記修正後モデルに対して評価を行う工程と、
出力部によって、前記評価部による前記修正後モデルに対する評価結果を出力する工程と、
を備え、
前記修正情報として、ユーザ操作部からの入力によって前記学習済みモデルで利用されている項目の少なくとも1つを利用しないように修正できる、情報処理方法。
【請求項9】
情報処理装置にインストールされるためのプログラムであって、
前記プロ
グラムがインストールされた情報処理装置が、
訓練データに基づいて学習を行って学習済みモデルを生成する学習機能と、
前記学習済みモデルに対して入力される修正情報に基づいて前記学習済みモデルを修正して修正後モデルを生成する修正機能と、
前記訓練データとは異なる評価データを用いて前記修正後モデルに対して評価を行う評価機能と、
前記評価
機能による前記修正後モデルに対する評価結果を出力する出力機能と、
を備え、
前記修正情報として、ユーザ操作部からの入力によって前記学習済みモデルで利用されている項目の少なくとも1つを利用しないように修正できる、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数のデータに基づいて学習を行って学習済みモデルを生成する情報処理装置及び情報処理方法に関する。
【背景技術】
【0002】
従来から、人工知能(AI)の活用が試みられており、研究分野も多岐に及んでいる(特許文献1参照)。自動運転をはじめ、マーケティング領域でのターゲティング、金融分野での与信、人事領域等を含めて、人工知能の活用が試みられている。現状の人工知能(AI)の多くは、実際のドメイン知識を有する利用者(例えば企業の担当者)に対してはブラックボックス型で提供される事が多く、AI利用者が「AIがどのように判断したのか」を直接理解するのは難しい。
【0003】
人工知能を活用した製品を提供した場合において、利用者が人工知能による結論について疑問を持ったり結論を出した過程を知りたいと考えたりすることがある。この場合には、AI開発者が、生成されたモデルをプログラム上から分析を行なった上で、利用者に対して整理して説明又は提示するということが多かった。なお、利用者は人工知能についての知識やスキルに乏しいことも多く、利用者自身がモデルの分析を行うことは一般的には困難である。
【0004】
また、AI開発者による上記のような分析は、AI開発者と利用者が近い距離でなければ実現できず、全てのケースで分析可能になるとも限らず、企業向けではなく消費者向けのサービスでは現実的でもない。また、AI開発者が利用者とコミュニケーションを適切に取って分析を行うことには多大な時間が必要になることもある。
【0005】
また、人工知能によって生成されたモデルを利用者に開示したときに、利用者の方で、モデルの成分に違和感があり、改善したいということもある。他方、この違和感を解消しようとすると、従前であればデータ又はプログラムを直接改変することを行うのが一般的であり、スキル、時間(工数)、コストが非常にかかってしまう。
【先行技術文献】
【特許文献】
【0006】
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明は、利用者にとって違和感の少ないモデル又は違和感の少ない結論を、利用者自らの操作で得ることができる情報処理装置及び情報処理方法を提供する。
【課題を解決するための手段】
【0008】
本発明による情報処理装置は、
複数のデータに基づいて学習を行って学習済みモデルを生成する学習部と、
前記学習済みモデルを出力する出力部と、
前記出力部で出力された前記学習済みモデルに対して入力される修正情報に基づいて前記学習済みモデルを修正して修正後モデルを生成する修正部と、
を備えてもよい。
【0009】
本発明による情報処理装置は、
前記修正後モデルに対して、過去の実績データを用いて評価を行う評価部をさらに備え、
前記出力部が、前記評価部による評価結果を出力してもよい。
【0010】
本発明による情報処理装置において、
前記評価部は、前記修正情報が入力されるとリアルタイムで前記修正後モデルに対する評価を行ってもよい。
【0011】
本発明による情報処理装置は、
複数の前記データを分割するデータ分割部をさらに備え、
前記データ分割部で分割されたデータの一部を前記学習部での学習に用い、
前記データ分割部で分割されたデータの残部を前記評価部での評価に用いてもよい。
【0012】
本発明による情報処理装置において、
前記学習部は、複数の採用変数と、各採用変数に対する係数を用いて前記学習モデルを生成し、
前記修正部によって、前記係数の大きさが修正可能となってもよい。
【0013】
本発明による情報処理装置において、
前記学習部は、複数の採用変数と、各採用変数に対する係数を用いて前記学習モデルを生成し、
前記修正部によって、採用変数の利用の有無が修正可能となってもよい。
【0014】
本発明による情報処理装置は、
複数の前記データの標準化を行う標準化部をさらに備え、
前記学習部が、標準化されたデータを用いて、前記係数を算出してもよい。
【0015】
本発明による情報処理装置は、
前記学習済みモデル又は前記修正後モデルを生成する際に、利用されるべきではない情報が利用されていることを検知する異常検知部をさらに備えてもよい。
【0016】
本発明による情報処理方法は、
複数のデータに対する機械学習を行って学習済みモデルを生成する工程と、
前記学習済みモデルを出力する工程と、
前記出力部で出力された前記学習済みモデルに対する修正情報が入力される工程と、
入力された前記修正情報に基づいて前記学習済みモデルを修正して修正後モデルを生成する工程と、
を備えてもよい。
【発明の効果】
【0017】
本発明の一態様によれば、学習部によって生成された学習済みモデルが出力され、出力された学習済みモデルに対する修正情報が入力されることで、修正後モデルが生成される。このため、利用者にとって違和感の少ないモデル又は違和感の少ない結論を、利用者自らの操作で得ることができる。
【図面の簡単な説明】
【0018】
【
図1】
図1は、本発明の実施の形態による情報処理装置を含むシステム概要を説明するためのブロック図である。
【
図2】
図2は、本発明の実施の形態で利用され得る情報処理装置において学習済みモデルを生成する態様を示した図である。
【
図3】
図3は、本発明の実施の形態で利用され得る予想部に入力される情報及び予想部から出力される情報の関係を示すための図である。
【
図4】
図4は、本発明の実施の形態で利用され得る情報処理装置における情報処理の工程を説明するための図である。
【
図5】
図5は、本発明の実施の形態で利用され得る表示画面における表示態様を示した図である。
【発明を実施するための形態】
【0019】
実施の形態
《構成》
本実施の形態では、以下では、ある企業、官庁等への入社を希望する応募者に対する採用で人工知能を利用する態様を用いて説明するが、これに限られることはなく、本願による発明は、マーケティング領域でのターゲティング、金融分野での与信等の様々な分野で利用できる。
【0020】
本実施の形態では情報処理装置1が採用支援機関とは異なる外部機関に設置される態様を用いて説明するが、これに限られることはない。例えば、情報処理装置は採用支援機関内に設置されてもよく、この場合には、採用支援機関が当該情報処理装置を所有又は管理してもよい。また、利用者が所有又は管理するパソコン、タブレット、スマートフォン等のユーザ装置100が情報処理装置を構成してもよい。本実施の形態の情報処理装置は、一つの装置から構成されてもよいし複数の装置から構成されてもよい。また、複数の装置から情報処理装置が構成される場合には、各装置が同じ部屋等の同じ空間に設けられる必要はなく、異なる部屋、異なる建物、異なる地域等に設けられてもよい。また、複数の装置から情報処理装置が構成される場合には、その一部を採用支援機関が所有及び/又は管理し、残りを外部機関が所有及び/又は管理してもよい。本実施の形態では「及び/又は」を用いて説明することもあるが、「又は」という文言は「及び」の意味も含んでいる。つまり、A又はBという文言は、A単独、B単独、並びに、A及びBを含んだ概念である。
【0021】
図1に示すように、情報処理装置1は、様々な情報を記憶する装置記憶部40と、様々な制御を行う装置制御部30と、様々な情報を出力する装置出力部45とを有してもよい。装置制御部30は、後述する学習部10、評価部20、異常検知部21等を有してもよい。装置制御部30には装置出力部45が接続されてもよく、様々な情報が電子データ、紙媒体等の形式で装置出力部45から出力されてもよい。装置出力部45で出力される情報は、ユーザ装置100及び採用支援機関に設置された機関装置50に出力されてもよい。
【0022】
過去データは、過去の応募者に対する応募者情報と、当該過去の応募者に対する第一評価情報(後述する)と、当該過去の応募者に対する選考結果を含んでもよい。なお、過去データは、複数の応募者に対するものである。過去データとしては昨年度の選考結果を用いてもよいが、これに限られることはなく過去数年の選考結果を過去データとして利用してもよい。選考結果は、書類選考試験、一次選考試験、二次選考試験、・・・、n次選考試験(「n」は整数である。)、最終選考試験等の各選考試験の結果を含んでもよい。
【0023】
過去データは、例えば、応募者が入社を希望する対象会社におけるデータを含んでもよい。また、過去データは、対象会社におけるデータに加えて又は対象会社におけるデータの代わりに対象会社以外の会社(例えば同業種の会社)におけるデータを含んでもよい。
【0024】
採用支援機関に設けられた機関装置50は、様々な情報を記憶する機関記憶部70と、様々な制御を行う機関制御部60と、様々な情報を出力する機関出力部75を有してもよ
い。機関装置50と情報処理装置1とはインターネット等を通じて情報のやりとりが可能となっており(
図1参照)、機関記憶部70に記憶された情報を用いて装置制御部30が情報処理を行ってもよいし、装置出力部45から出力された情報を機関制御部60が受け取って、機関出力部75で出力してもよい。機関記憶部70には、各応募者が採用支援機関に有しているログインID、当該ログインIDに紐づけられたパスワード、ログインIDに紐づけられた応募者情報(後述する)等が記憶されてもよい。応募者には、学生等の新卒応募者の他、中途応募者も含まれてもよい。また、機関記憶部70には、過去の実績データ等を含む過去データと、結論が出ていない例えば今年度の応募データ等を含む予想データが記憶されてもよい。なお、本実施の形態の出力部には、装置出力部45及び機関出力部75が含まれており、出力部によって出力された電子データは、利用者の所有又は管理するパソコン、タブレット、スマートフォン等のユーザ装置100の表示画面110等で表示されてもよい。本実施の形態では、以下、装置出力部45が出力を行って表示画面110での表示が行われる態様を用いて説明するが、これに限られることはなく、機関出力部75が出力を行って表示画面110での表示が行われてもよい。
【0025】
本実施の形態の情報処理装置1は、人工知能機能を有し、複数のデータに基づいて学習を行って学習済みモデルを生成する学習部10と、学習済みモデルを出力する装置出力部45と、装置出力部45で出力された学習済みモデルに対して入力される修正情報に基づいて学習済みモデルを修正して修正後モデルを生成する修正部15と、を有してもよい。
【0026】
ユーザ装置100は、前述した表示画面110の他に、修正情報を入力できる入力部を構成するユーザ操作部120と、過去の実績データ等を含む過去データと、結論が出ていない例えば今年度の応募データ等を含む予想データが記憶されているユーザ記憶部130とを有してもよい。
【0027】
情報処理装置1は、修正後モデルに対して、過去データを用いて評価を行う評価部20を有してもよい。また、装置出力部45は、評価部20による評価結果を出力してもよい。評価部20による評価結果を受けた利用者は、ユーザ操作部120からさらに修正情報を入力してもよく、この場合には修正部15によって新たな修正後モデルが生成されてもよい。このような修正は評価部20での評価結果を見ながら繰り返し行われてもよい。
【0028】
情報処理装置1は、複数のデータを分割するデータ分割部5を有してもよい。このようデータ分割部5が設けられた場合には、データ分割部5で分割されたデータの一部を学習部10での学習に用い、データ分割部5で分割されたデータの残部を評価部20での評価に用いてもよい。一例としては、複数のデータのうちの50%~90%、より具体的には60%~80%(例えば70%)を学習部10での学習で用いる訓練データとして利用し、複数のデータのうちの50%~10%、より具体的には40%~20%(例えば30%)を評価部20での評価に用いる評価データとして利用してもよい(
図4参照)。訓練データの母数を増やすことによって学習部10で生成される学習済みモデルの精度を高めることができる点で有益である。
【0029】
評価部20は学習済みモデル及び修正後モデルを利用した場合の精度の高さを評価してもよい。学習部10によって生成された学習済みモデルに対して評価データを適用し、また修正部15によって生成された1つ以上の修正後モデルに対して評価データを適用し、これらのモデルがどの程度の正確性を持っているかが評価されてもよい。一例として、正確性の尺度として、AUC(Area Under the Curve)が利用されてもよい(
図5参照)。
【0030】
装置出力部45は、選択されたモデルに対する正確性を出力し、利用者が当該正確性を認識できるようになってもよい。また、複数の閾値を設けておき、正確性に関して、極めて高い、高い、普通、低い、極めて低い等のように分類して出力されるようにしてもよい
。なお、
図5に示す態様では、正確性の尺度としてAUCが用いられており、その数値が0.855となり「極めて高い」数値であることが示されている。
【0031】
学習部10は、複数の採用変数と、各採用変数に対する係数を用いて学習モデルを生成してもよい。採用変数は、言語能力、インターンシップへの参加の有無、対人接触能力、集団統率、文系・理系の区分、志願理由と専門性のつながり、エントリーシートにおける学業以外の記載内容の豊富さ等の情報から決定されてもよい。
【0032】
学習部10は、機械学習技術として、様々なモデルを採用することができ、例えば、ロジスティクス回帰モデル、ランダムフォレストモデル、ツリーモデル等を採用することができる。なお、ロジスティクス回帰モデルを採用した場合、応募者毎の合格率Pは、P=
exp(t)/(1+exp(t))(但し、t=a0×x0+a1×x1+a2×x2+・・・an×xn+b)で算出されることになる。学習部10では、a0、a1、・・・、anの係
数を、訓練データを使用し最尤法により推定してもよい。ちなみに、x0、x1、・・・、xnは応募者の各々に設定される固有の値であり、a0、a1、・・・、anの係数が応募者共通の値になる。
【0033】
装置出力部45で出力される場合には、係数に対応する概念として例えば「重み」が用いられ、採用変数に対応する概念として例えば「項目」が用いられてもよい(
図5参照)。本実施の形態では、項目と採用変数は全く同じ情報(変数)である態様を用いて説明するが、これに限られることはなく、項目と採用変数は異なる情報であってもよい。このように項目と採用変数が異なる場合には、項目に関する係数の値を修正した場合には、複数の採用変数に対する係数が修正されることになる。他方、本実施の形態では、係数と重みは異なる前提で説明するが、これに限られることはなく、係数と重みは全く同じ情報(大きさ)であってもよい。係数と重みが異なる概念である態様を採用する場合には、重みを「1」変更することで、係数が異なる値で変更されてもよい。
【0034】
なお、項目と採用変数が同じである場合には、1つの項目に関する重みの値を修正した場合に計算式(例えば、前述のロジスティクス回帰モデル)における1つの採用変数に関する係数が修正されるだけであるので、計算式の修正を容易に行うことができる点で有益である。
【0035】
前述したように、本実施の形態では、項目と採用変数は全く同じ情報(変数)であることを前提とするので、本実施の形態では、以下において、項目及び採用変数を総称する用語として主として「項目」を用いて説明する。
【0036】
ユーザ操作部120によって係数に関する情報が修正可能となってもよい。一例としては、
図5に示すように、重みの大きさを大きくしたり小さくしたりユーザ操作部120によって変更できるようになってもよい。重みの大きさは、模式的に例えば「調整量」として表示画面110等に出力され、当該調整量をユーザ操作部120で変更できるようになってもよい。
【0037】
ユーザ操作部120によって、項目の利用の有無が修正可能となってもよい。一例としては、
図5に示すように、項目の採用の有無をチェックボックスで選択できるようになり、チェックボックスでチェックされていない項目はモデル作成時に利用されないことになってもよい。なお、このようにモデル作成時に利用されない項目に対する重みは「0」になる。
【0038】
図1に示すように、データの標準化を行う標準化部4が設けられてもよい。標準化部4では、各項目に対する係数の大きさを平均化されることになる。例えば、a
0、a
1、・・
・、a
nの重みを変数間でオーダーを合わせてもよい。直感的に分かり易くするため、訓
練データ及び評価データを含む過去データ並びに予測データは平均0及び分散1となるよう、標準化されてもよい。学習部10は、標準化されたデータを用いて、項目に対する係数を算出してもよい。例えば「TOEIC(登録商標)」が990点満点の数値で示され、「決断力」が10点満点の数値で示される場合には、これらの数値を評価値に換算して標準化し、項目(要素)に対する係数の算出に利用してもよい。このような標準化部4を採用する場合には、各項目に対する重みの変化量と係数の変化量が対応する関係になってもよい。つまり、重みを「1」だけ変更した場合には、どの項目に関するものであろうと同じ値(例えば「0.15」等)だけ係数が変更することになってもよい。このような態様を採用することで、修正後モデルを容易に生成できる点で有益であるし、利用者から見た場合に各項目に対する重み「1」の変化を同程度のインパクトで捉えることができる点でも有益である。
【0039】
図1に示すように、過去の実際のデータではなく、結論が出ていないデータを用いて予想を行う予想部25が設けられてもよい。採用情報についていえば、例えば今年度の新卒者に対するデータに対して、予想部25が学習済みモデル又は修正後モデルを用いることで予想結果を予想し、装置出力部45によって当該予想結果が出力されてもよい。この場合には、複数の応募者の各々に対して、予想結果が出力されることになる。
【0040】
学習済みモデルを又は修正後モデルを生成する際に、利用されるべきではない情報が利用されていることを検知する異常検知部21が設けられてもよい。ユーザ記憶部130又は機関記憶部70に記憶されている過去データで用いるべき項目については利用者が行うことがあり、利用者が本来利用されるべきではない情報を訓練データとして用いてしまうことがある。この場合には、異常に大きな重みをもって特定の項目が採用されることが起こり得ある。異常検知部21では、異常値となっている項目を検知することで、本来利用されるべきではない情報が用いられている可能性を検知されてもよい。この検知結果は、装置出力部45によって出力され、利用者が認識できるようになってもよい。
【0041】
一例としては、本来、プロセスA(例えば書類選考)の結果を予測するために利用できる項目はプロセスAよりも時系列において前のプロセスのデータのみである。しかしながら、訓練データを用いる際に入力データを定義しない場合又は誤って入力データを定義した場合には、プロセスAよりも時系列において後のプロセス(例えば面接情報)のデータが用いられて学習済みモデル又は修正後モデルが生成されることがある。このような場合には、本来知りえない情報を用いてモデルが生成されてしまい、モデルの正確性が下がってしまう。先ほど挙げた例でいうと、面接のスコアが入っている応募者は、書類選考通過した応募者を意味することになり、当該項目についての係数又は重みが極めて高くなってしまう。この点、異常検知部21によれば、明らかな異常値を検知することで、利用されるべきではない情報が利用されている可能性が高いことを検知できることになる。なお、明らかな異常値が検知された場合には、当該情報が強調されるようにして装置出力部45によって出力されてもよい。一例としては、異常値の原因となっている可能性の高い項目が表示画面110で強調表示されてもよい。また閾値を設定しておき、閾値以上の値に係数又は重みがなっているときに異常値であると装置制御部30で判断してもよい。
図5に示す態様では、「以下の警告を確認してください。」という表示がなされ、「学習の結果、赤字の変数の重みが非常に高い値となっております。選考の結果に応じて変化する変数や、選考後にのみ得られる変数でないか確認し、必要に応じてチェックを外し「使用しない」よう変更してください。」という表示が表示画面110でなされている。
【0042】
次に、学習済みモデルを生成する際に利用される構成について、より具体的に例を挙げて説明する。
【0043】
図1に示すように、学習部10は、応募者が作成した文書に基づき、予め定まった各ファクタに対する第一評価情報を生成する第一学習部11と、応募者に関する応募者情報及び第一学習部11からの第一評価情報に基づいて、応募者の第二評価情報を生成する第二学習部12と、を有してもよい。
【0044】
モデルを生成する際に利用される訓練データ及び評価データとしては、一定期間(例えば5年)よりも古い実績データは削除されてもよい。このように一定期間内(例えば5年以内)の実績データのみに基づいて学習済みモデルを生成する場合には、比較的新しい実績データを用いて正確性の高い学習済みモデルを生成できる点で有益である。
【0045】
第一評価情報で利用される「ファクタ」としては様々なものを挙げることができ、例えば、コミュニケーション能力、熱意、論理性、専門性、リーダーシップ、堅実性等の様々なファクタを挙げることができる(
図3の「第一評価情報」参照)。このファクタの内容は適宜変更できるようになってもよいし、ファクタの数も適宜変更できるようになってもよい。ファクタの内容は、例えば、情報処理装置1に設けられた装置操作部35からの入力によってその内容が変更されてもよい。
【0046】
応募者が作成した文書は、例えば、応募者が作成したエントリーシートであってもよい。このエントリーシートはWEB上で作成され、サーバー等の機関記憶部70で記憶されてもよい。第二評価情報は、応募者に対する選考が優先される可能性を示す情報(選考優先情報)であってもよい(
図3参照)。この選考優先情報は、応募者が書類選考試験、一次選考試験、二次選考試験、・・・、n次選考試験、最終選考試験等の選考試験を通過する可能性に関する情報を含んでもよい。
【0047】
第一学習部11は、エントリーシート等の文書で用いられている単語と、予め定められたファクタを用いて、各ファクタに対する第一評価情報を生成してもよい。
【0048】
第一学習部11は、エントリーシート等文書内で用いられている単語の使用頻度と、当該単語とファクタとの類似度とを用いて、各ファクタに対する第一評価情報を生成してもよい。
【0049】
第一学習部11が人工知能機能を有し、大量のテキストデータで用いられている単語間(例えばWEB上で用いられている単語間)の近さから各ファクタに対応する特徴ベクトルを作成してもよい。そして、第一学習部11は、当該特徴ベクトルを用いて、エントリーシート等の文書内で用いられている単語と各ファクタとの類似度を算出してもよい。また、第一学習部11は、各ファクタと単語との近さを記憶した及び/又は各ファクタに対応する特徴ベクトルを記憶したAI辞書を作成してもよい。単語の近さは、第一学習部11の人工知能機能によって、例えばWEB上のサイト(SNSサイト等も含む。)での単語の用いられ方(単語の前後関係等)から推測されて決定され(学習され)、随時又は適宜、アップデートされてもよい。単語の近さに関する情報は、装置記憶部40及び/又は機関記憶部70に記憶されてもよい。
【0050】
第一学習部11は、WEB上で用いられている単語間の近さをマイニングしてもよい。第一学習部11は、ビッグテキストデータ(Big Text Data)から、各ファクタに関連し
た複数の単語をピックアップする(分類語彙表を作成する)とともに、各ファクタとピックアップされた単語との間の近さから、各ファクタに関連した特徴ベクトルを作成してもよい。一例としては、「熱意」というファクタを採用した場合には、「熱意」に近い単語として、バイタリティ、向上心、熱心、やる気、懸命等の単語をインターネットを介してピックアップし(分類語彙表を作成し)、「熱意」と、これらバイタリティ、向上心、熱心、やる気、懸命等の単語との間の近さから、「熱意」に関連した特徴ベクトルを作成し
てもよい。
【0051】
そして、第一学習部11は、このようにして作成された特徴ベクトルを用いて、エントリーシート等の文書内で用いられている単語と各ファクタとの類似度を生成してもよい。この際、エントリーシート等の文書内で用いられている単語の使用頻度から、文書内における当該単語の重要度を生成し、その結果も踏まえて、各ファクタに対する第一評価情報を生成してもよい。重要度を決定する際には、単語が一般的に使われる単語かどうかも考慮し、「助詞」や「私」といった単語については重要度を低くし(例えば「0」とし)、あまり使用されない単語については重要度を高くしてもよい。
【0052】
重要度を決定する際には、対象会社に採用されることを希望する他の応募者のエントリーシート等の文書も考慮してもよい。例えば、対象会社に採用されることを希望する他の応募者のエントリーシート等の文書で使用頻度が高い単語については重要度を低くし、あまり使用されない単語については重要度を高くしてもよい。このような態様を採用することで、応募者間での相対的な比較を行える点で有益である。
【0053】
前述した過去データは、過去の応募者に対する応募者情報と、当該過去の応募者に対する第一評価情報と、当該過去の応募者の採用辞退情報又は早期退職情報を含んでもよい。採用辞退情報とは、選考試験には合格したが応募者自らの申出によって採用を辞退したという情報である。早期退職情報とは、応募者が対象会社に入社したが、1年~3年以内といった所定の期間内に対象会社を退職してしまったという情報である。この「所定の期間」は装置操作部35から適宜変更できるようになってもよい。
【0054】
応募者情報は、応募者の学歴を含む基礎情報、応募者の行動情報、応募者が受けた試験の結果を含む検査情報、応募者の保有する資格に関する情報を含む属性情報、及び、応募者の志望動機を含む文章情報のいずれか1つ以上を含んでもよい(
図2参照)。応募者情報は、これら基礎情報、行動情報、検査情報、属性情報及び文章情報の全てを含んでもよい。
【0055】
基礎情報は、応募者の学歴の他に、専攻、ゼミに関する情報等を含んでもよい。行動情報は、(対象会社の)説明会参加の回数、ログイン回数、併願先に関する情報等を含んでもよい。検査情報は、WEBテストの結果、適正検査の結果等を含んでもよい。属性情報は、応募者が有している資格、スキル等を含んでもよい。文章情報は、志望動機の他に、学外活動に関する情報等を含んでもよい。
【0056】
対象となっている応募者に関して高い精度の第二評価情報を生成するように、第二学習部12は「学習」を行う。ここで「学習」とは、過去の実績データに合致するような項目(採用変数)と、その係数を自動的な試行錯誤によって定めることを意味する。つまり、第二学習部12では、過去データに基づく応募者情報、第一評価情報、第二評価情報等の情報が集約され、パラメータを変化させながら、過去の実績データとの間の差が最も小さくなるよう繰り返し学習が行われ、適用する項目と係数が定められる。
【0057】
このように定まった項目と係数を利用して学習済みモデルが生成されることになるが、この学習済みモデルを利用者が修正することで生成されるものが修正後モデルである。過去の実績からすると学習済みモデルが最も客観的な事実に合致しているはずではあるが、たまたま訓練データに偏りがある場合や過去とは異なる傾向の採用を行いたい場合等には、修正後モデルを採用することが有益になる。また、このような態様を採用することで、過去の実績データを考慮しつつ、将来的に利用する修正後モデルを生成できることで有益である。
【0058】
なお、学習済みモデルを生成する場合には、採用後の人事評価も考慮し、採用後の人事評価の高い人物についての学習済みモデルを生成してもよい。このような学習済みモデルを生成した場合には、入社した後での活躍を見据えて採用活動を行うことができる点で有益である。
【0059】
訓練データと評価データは、基本的には同じ期間におけるデータであり、母集団を例えば7:3でランダムに分けることで生成されるが、これに限られることはない。場合によっては異なる期間のデータを用いることも考えられる。
【0060】
予想部25によって予想を行う場合には、装置操作部35から対象となる選考試験を選択することで、当該選考試験にける第二評価情報が装置出力部45又は機関出力部75から出力されてもよい。また、ユーザ操作部120から対象となる選考試験を選択することで、当該選考試験にける第二評価情報が表示画面110で表示されてもよい。
図3に示す態様では、一例として、星の数で第二評価情報である選考優先情報を示しており、星の数が多いほど所定の選考試験を通過する可能性が高いことを示している。
【0061】
なお、本実施の形態では、本実施の形態の情報処理装置1を提供するためのプログラム、すなわちインストールすることで本実施の形態の情報処理装置1が製造(生成)されるプログラムと、当該プログラムをインストールした記憶媒体も提供される。
【0062】
《方法》
次に、本実施の形態の情報処理方法の一例について、
図4を用いて説明する。なお、上記と重複することになるので簡単に説明するに留めるが、上記「構成」で述べた全ての態様及び下記「作用・効果」で述べる全ての態様を「方法」において適用することができる。
【0063】
まず、過去データが標準化部4によって標準化される(標準化工程)。
【0064】
次に、標準化されたデータがデータ分割部5によって一定の割合(例えば7:3)で訓練データと評価データに分割される。
【0065】
次に、訓練データに含まれる複数のデータに対する機械学習を行って学習済みモデルが生成される(学習済みモデル生成工程)。
【0066】
このように学習済みモデルが生成されると、当該学習済みモデルが装置出力部45で出力され、ユーザ装置100の表示画面110で学習済みモデルが出力される。この際、評価部20において、学習済みモデルを用いて評価データを評価した際の精度(例えばAUC)も出力されてもよい(
図5参照)。
【0067】
次に、利用者がユーザ装置100のユーザ操作部120を操作することで、学習済みモデルに対する修正情報が入力される。
【0068】
このように修正情報が入力されると、修正部15によって入力された修正情報に基づいて学習済みモデルを修正して修正後モデルが生成される(修正後モデル生成工程)。例えば、ユーザ操作部120によって調整量を調整することで係数(重み)に関する情報を修正してもよいし、ユーザ操作部120によって項目の採用の有無を決定することで項目(要素)に関する情報を修正してもよい。
【0069】
次に、評価部20によって修正後モデルを用いて評価データが評価され、評価データに対する精度(例えばAUC)が算出される。
【0070】
修正後モデルに対する精度が算出されると、その結果が装置出力部45で出力されて、ユーザ装置100の表示画面110で当該精度が表示される。
【0071】
利用者は、表示画面110で表示された内容を見て修正情報を入力してもよいし、修正情報の更なる入力は行なわずに、修正後モデルを確定させてもよい。
【0072】
学習済みモデル及び修正後モデルの各々に対して、異常検知部21によって、利用されるべきではない情報が利用されているかどうかが判断されてもよい。異常検知部21によって利用されるべきではない情報が利用されていることが検知された場合には、その旨が装置出力部45で出力され、表示画面110で表示されてもよい(
図5参照)。
【0073】
このような表示がなされた場合には、利用者は当該学習済みモデル又は修正後モデルを見直し、ユーザ操作部120によって当該学習済みモデル又は修正後モデルに用いられている項目を削除したり定義を修正したりしてもよい。
【0074】
今年度の採用情報のように結論が出ていないデータに対する予想を予想部25で行ってもよい。この場合には、学習済みモデル又は修正後モデルを用いることで複数の応募者の各々に対する予想結果が予想されてもよい。予想結果は装置出力部45によって出力され、表示画面110で表示されてもよい(
図3参照)。
【0075】
《作用・効果》
次に、上述した構成からなる本実施の形態による作用・効果であって、未だ説明していないものを中心に説明する。
【0076】
本実施の形態において、学習部10によって生成された学習済みモデルが出力され、出力された学習済みモデルに対する修正情報が入力されることで、修正後モデルが生成される態様を採用した場合には、利用者にとって違和感の少ないモデル又は違和感の少ない結論を、利用者自らの操作で得ることができる。理論上は学習済みモデルが最も精度の高いモデルになる。しかしながら、利用者の理解や主観評価、既存知見に必ずしも整合しないモデルが生成されることもある。この点、本態様を採用することで、利用者の理解や主観評価も整合したモデルである修正後モデルを生成できる点で有益である。
【0077】
また、このように修正後モデルを利用する場合には、例えば過去とは異なる傾向の採用を行いたいと考えた場合にも有益である。この場合には重要視したい項目に対する重み又は係数を大きくすることで、希望するモデルに近い修正後モデルを採用して、個々の応募者に対する予想を行うことができる点でも有益である。
【0078】
学習済みモデルを利用した場合の精度の高さを評価部20で評価する場合には、学習済みモデルがどの程度の精度を有しているかを認識できる点で有益である。また、修正後モデルを利用した場合の精度の高さを評価部20で評価する場合にも、修正後モデルがどの程度の精度を有しているかを認識できる点で有益である。このように精度を評価できるようにすることで、学習済みモデル及び各修正後モデルに対して評価部20による評価結果を得ることができるようになる。このため、実際の予想(例えば今年度の採用情報に対する予想)に当該修正後モデルを利用するかどうかを決める指標を示すことができ、利用者が容易に判断できる点で有益である。
【0079】
評価部20での評価が即座(リアルタイム)に行われる態様を採用した場合には、評価部20の評価結果を見ながら重みや項目を修正できる点で有益である。つまり、ユーザ操作部120等から修正情報が入力されると評価部20が即座(リアルタイム)で修正後モ
デルに対する評価を行う態様を採用した場合には、評価部20での評価結果を見ながら利用者の感覚に基づきつつ修正後モデルを効率よく生成できる点で有益である。
【0080】
データ分割部5によって複数のデータを分割して訓練データ及び評価データを生成する態様を採用する場合には(
図4参照)、元々同じ集合体にあったデータをランダムに分割して、訓練データ及び評価データとして利用できることになる。このため、恣意性が入らず客観的なデータを用いて学習済みモデルを生成できる点で有益である。なお、ある傾向を分析したい場合等、何らかの理由で訓練データと評価データとを異なる母集団としたい場合には、例えばユーザ操作部120から入力された条件に沿ってデータ分割部5で訓練データと評価データに分割するようにしてもよい。
【0081】
ユーザ操作部120によって重み又は係数に関する情報が修正可能となる態様を採用した場合には(
図5参照)、利用者が重視したい項目に対する係数の大きさを大きくしたり軽視したい項目に対する係数の大きさを小さくしたりして調整するだけでよく、利用者が希望する修正後モデルを比較的細かな設定をしながら比較的簡易な操作で生成できる点で有益である。
【0082】
ユーザ操作部120によって項目(採用変数)の利用の有無が修正可能となる態様を採用した場合にも(
図5参照)、利用者が項目の利用の有無を選択するだけでよいことから、利用者が希望する修正後モデルを比較的簡易な操作で生成できる点で有益である。
【0083】
標準化部4によってデータの標準化を行う態様を採用することで、各項目に対する係数の大きさを平均化することができる。このため、考慮すべき要素について偏重なく考慮でき、効率よく機械学習を行える点で有益である。また、重みを変更する際のインパクトを均一化することができる点でも有益である。
【0084】
異常検知部21を採用した場合には、利用されるべきではない情報が利用されて修正後モデルが生成されることを防止できる。このため、例えば利用者が誤った項目の利用を選択することで、誤った項目を利用した修正後モデルが生成されることを防止できる点で有益である。
【0085】
上述した実施の形態の記載及び図面の開示は、特許請求の範囲に記載された発明を説明するための一例に過ぎず、上述した実施の形態の記載又は図面の開示によって特許請求の範囲に記載された発明が限定されることはない。また、出願当初の特許請求の範囲の記載は出願時での権利要求範囲に過ぎず、適宜変更できる点では留意が必要である。
【符号の説明】
【0086】
1 情報処理装置
4 標準化部
5 データ分割部
10 学習部
11 第一学習部
12 第二学習部
15 修正部
20 評価部
21 異常検知部
30 装置制御部
35 装置操作部
40 装置記憶部
45 装置出力部(出力部)
110 表示画面
120 ユーザ操作部