(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-01-17
(45)【発行日】2022-01-26
(54)【発明の名称】リスク対策解析システム、リスク対策解析方法およびリスク対策解析用プログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20220119BHJP
G06Q 10/06 20120101ALI20220119BHJP
G16H 50/30 20180101ALI20220119BHJP
【FI】
G06N20/00 130
G06Q10/06 326
G16H50/30
(21)【出願番号】P 2019073961
(22)【出願日】2019-04-09
【審査請求日】2021-06-24
【早期審査対象出願】
(73)【特許権者】
【識別番号】316014906
【氏名又は名称】株式会社FRONTEO
(74)【代理人】
【識別番号】100105784
【氏名又は名称】橘 和之
(72)【発明者】
【氏名】西川 久仁子
(72)【発明者】
【氏名】豊柴 博義
(72)【発明者】
【氏名】内山 秀文
【審査官】三坂 敏夫
(56)【参考文献】
【文献】特表2013-508859(JP,A)
【文献】特開2018-019611(JP,A)
【文献】国際公開第2016/035336(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00- 3/12
10/00-20/20
G16H 50/30
(57)【特許請求の範囲】
【請求項1】
解析対象データを解析し、解析対象の特徴を表す特徴ベクトルを算出する特徴ベクトル算出部と、
上記特徴ベクトル算出部により算出された特徴ベクトルを、学習済みのリスク予測モデルに入力し、予測対象物に関するリスクレベルを予測するリスク予測部と、
上記特徴ベクトル算出部により算出された特徴ベクトルと探索用ベクトルとを用いて所定の演算を行った結果として得られる演算後ベクトルを上記リスク予測モデルに対して入力し、その結果得られるリスクレベルが、上記特徴ベクトルを上記リスク予測モデルに入力した場合に得られるリスクレベルよりも小さくなるという条件を満たす探索用ベクトルを探索し、上記条件を満たす探索用ベクトルと上記特徴ベクトルとに基づいて演算されるベクトルをリスク低減ベクトルとして特定するリスク低減ベクトル特定部と、
複数の上記解析対象データについて上記特徴ベクトル算出部により算出される複数の特徴ベクトルの中から、上記リスク低減ベクトルと同一
の特徴ベクトルおよび近似する特徴ベクトルを特定し、特定した特徴ベクトルに対応する解析対象データを用いて、
当該解析対象データまたは当該解析対象データに含まれる文章または単語をリスク対策に関する情報
として生成する対策情報生成部とを備え、
上記リスク予測モデルは、上記特徴ベクトルが入力された際に上記予測対象物に関するリスクレベルを出力するように、教師データを用いた機械学習処理により生成されている
ことを特徴とするリスク対策解析システム。
【請求項2】
上記リスク低減ベクトル特定部は、上記特徴ベクトル算出部により算出された特徴ベクトルと探索トピックとを学習済みの対策予測モデルに入力し、上記特徴ベクトルと上記探索トピックとに基づき特定される探索範囲に含まれる上記探索用ベクトルを用いて上記リスク低減ベクトルの探索を行い、
上記対策予測モデルは、上記探索トピックと上記特徴ベクトルとが入力された際にそれらに応じた探索範囲を出力するように、教師データを用いた機械学習処理により生成されている
ことを特徴とする請求項1に記載のリスク対策解析システム。
【請求項3】
ユーザからの上記探索トピックに関する指定を受け付ける探索トピック指定部を更に備え、
上記リスク低減ベクトル特定部は、上記特徴ベクトル算出部により算出された特徴ベクトルと、上記探索トピック指定部により受け付けられた探索トピックとを上記学習済みの対策予測モデルに入力する
ことを特徴とする請求項2に記載のリスク対策解析システム。
【請求項4】
上記解析対象データを解析することによって上記探索トピックを特定する探索トピック特定部を更に備え、
上記リスク低減ベクトル特定部は、上記特徴ベクトル算出部により算出された特徴ベクトルと、上記探索トピック特定部により特定された探索トピックとを上記学習済みの対策予測モデルに入力する
ことを特徴とする請求項2に記載のリスク対策解析システム。
【請求項5】
上記解析対象データを解析することによって上記探索トピックを特定する探索トピック特定部を更に備え、
上記リスク低減ベクトル特定部は、上記特徴ベクトル算出部により算出された特徴ベクトルと、上記探索トピック特定部により特定された探索トピックとは異なる探索トピックとを上記学習済みの対策予測モデルに入力する
ことを特徴とする請求項2に記載のリスク対策解析システム。
【請求項6】
上記リスク低減ベクトル特定部は、複数の探索トピックごとに上記対策予測モデルにより特定される探索範囲に含まれる上記探索用ベクトルと、上記特徴ベクトル算出部により算出された特徴ベクトルとを用いて、上記複数の探索トピックごとに探索を行い、上記複数の探索トピックについてそれぞれ探索された探索用ベクトルと、上記特徴ベクトル算出部により算出された特徴ベクトルとを用いて、所定の重み付け加算を行うことによって算出されるベクトルをリスク低減ベクトルとして特定する
ことを特徴とする請求項2に記載のリスク対策解析システム。
【請求項7】
上記リスク低減ベクトル特定部は、
特定の探索トピックが入力された場合、当該入力された探索トピックと上記特徴ベクトル算出部により算出された特徴ベクトルとを学習済みの対策予測モデルに入力し、上記対策予測モデルにより特定される探索範囲に含まれる上記探索用ベクトルと上記特徴ベクトル算出部により算出された特徴ベクトルとを用いて上記リスク低減ベクトルを特定し、
上記特定の探索トピックが入力されていない場合、上記複数の探索トピックごとに上記対策予測モデルにより特定される探索範囲に含まれる上記探索用ベクトルと、上記特徴ベクトル算出部により算出された特徴ベクトルとを用いて、上記複数の探索トピックごとに探索を行い、上記複数の探索トピックについてそれぞれ探索された探索用ベクトルと、上記特徴ベクトルとに基づいて演算されるベクトルとを用いて所定の重み付け加算を行うことによってリスク低減ベクトルを特定する
ことを特徴とする請求項6に記載のリスク対策解析システム。
【請求項8】
上記リスク予測部は、上記特徴ベクトル算出部により算出された特徴ベクトルと予測トピックとを学習済みのリスク予測モデルに入力し、上記予測対象物に関して上記予測トピックに応じたリスクレベルを予測し、
上記リスク予測モデルは、上記特徴ベクトルと上記予測トピックとが入力された際にそれらに応じたリスクレベルを出力するように、教師データを用いた機械学習処理により生成されている
ことを特徴とする請求項2に記載のリスク対策解析システム。
【請求項9】
解析対象データを解析することによって得られる解析対象の特徴を表す特徴ベクトルを入力して予測対象物に関するリスクレベルを出力するように学習済みのリスク予測モデルに適用された特徴ベクトル、および、リスク予測モデルから出力されたリスクレベルを取得するリスク情報取得部と、
上記リスク情報取得部により取得された特徴ベクトルと探索用ベクトルとを用いて所定の演算を行った結果として得られる演算後ベクトルを上記リスク予測モデルに対して入力し、その結果得られるリスクレベルが、上記リスク情報取得部により取得されたリスクレベルよりも小さくなるという条件を満たす探索用ベクトルを探索し、上記条件を満たす探索用ベクトルと上記特徴ベクトルとに基づいて演算されるベクトルをリスク低減ベクトルとして特定するリスク低減ベクトル特定部と、
複数の上記解析対象データを解析することによって得られる複数の特徴ベクトルの中から、上記リスク低減ベクトルと同一
の特徴ベクトルおよび近似する特徴ベクトルを特定し、特定した特徴ベクトルに対応する解析対象データを用いて、
当該解析対象データまたは当該解析対象データに含まれる文章または単語をリスク対策に関する情報
として生成する対策情報生成部とを備えた
ことを特徴とするリスク対策解析システム。
【請求項10】
予測対象物について起こり得るリスクとそれに対する対策とをコンピュータによって解析する方法であって、
上記コンピュータの特徴ベクトル算出部が、解析対象データを解析し、解析対象の特徴を表す特徴ベクトルを算出する第1のステップと、
上記コンピュータのリスク予測部が、上記特徴ベクトル算出部により算出された特徴ベクトルを、上記特徴ベクトルが入力された際に上記予測対象物に関するリスクレベルを出力するように教師データを用いて機械学習済みのリスク予測モデルに入力し、上記予測対象物に関するリスクレベルを予測する第2のステップと、
上記コンピュータのリスク低減ベクトル特定部が、上記特徴ベクトル算出部により算出された特徴ベクトルと探索用ベクトルとを用いて所定の演算を行った結果として得られる演算後ベクトルを上記リスク予測モデルに対して入力し、その結果得られるリスクレベルが、上記特徴ベクトルを上記リスク予測モデルに入力した場合に得られるリスクレベルよりも小さくという条件を満たす探索用ベクトルを探索し、上記条件を満たす探索用ベクトルと上記特徴ベクトルとに基づいて演算されるベクトルをリスク低減ベクトルとして特定する第3のステップと、
上記コンピュータの対策情報生成部が、複数の上記解析対象データについて上記特徴ベクトル算出部により算出される複数の特徴ベクトルの中から、上記リスク低減ベクトルと同一
の特徴ベクトルおよび近似する特徴ベクトルを特定し、特定した特徴ベクトルに対応する解析対象データを用いて、
当該解析対象データまたは当該解析対象データに含まれる文章または単語をリスク対策に関する情報
として生成する第4のステップとを有することを特徴とするリスク対策解析方法。
【請求項11】
予測対象物について起こり得るリスクとそれに対する対策とを解析するようにコンピュータを機能させるためのプログラムであって、
解析対象データを解析し、解析対象の特徴を表す特徴ベクトルを算出する特徴ベクトル算出手段、
上記特徴ベクトル算出手段により算出された特徴ベクトルを、上記特徴ベクトルが入力された際に上記予測対象物に関するリスクレベルを出力するように教師データを用いて機械学習済みのリスク予測モデルに入力し、上記予測対象物に関するリスクレベルを予測するリスク予測手段、
上記特徴ベクトル算出手段により算出された特徴ベクトルと探索用ベクトルとを用いて所定の演算を行った結果として得られる演算後ベクトルを上記リスク予測モデルに対して入力し、その結果得られるリスクレベルが、上記特徴ベクトルを上記リスク予測モデルに入力した場合に得られるリスクレベルよりも小さくなるという条件を満たす探索用ベクトルを探索し、上記条件を満たす探索用ベクトルと上記特徴ベクトルとに基づいて演算されるベクトルをリスク低減ベクトルとして特定するリスク低減ベクトル特定手段、および
複数の上記解析対象データについて上記特徴ベクトル算出手段により算出される複数の特徴ベクトルの中から、上記リスク低減ベクトルと同一
の特徴ベクトルおよび近似する特徴ベクトルを特定し、特定した特徴ベクトルに対応する解析対象データを用いて、
当該解析対象データまたは当該解析対象データに含まれる文章または単語を、上記リスク予測手段により予測されたリスクに対する対策に関する情報
として生成する対策情報生成手段、
として上記コンピュータを機能させるためのリスク対策解析用プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、リスク対策解析システム、リスク対策解析方法およびリスク対策解析用プログラムに関し、特に、人や企業、環境、物などの対象物について起こり得るリスクとそれに対する対策とを解析するシステムに関するものである。
【背景技術】
【0002】
一般に、様々な産業分野においてリスク管理が行われている。リスク管理とは、予想されるリスクを特定(発見または認識)し、そのリスクが受容可能か否かを決定し、受容できない場合にリスク軽減またはリスク回避の対策を講じるという一連のプロセスをいう。また、リスクとは、人や企業、環境、物など(以下、これらをまとめて「対象物」という)に対して与える可能性のある悪い影響を意味する。
【0003】
従来、ある特定の事象に関してどのようなリスクが起こり得るかの予測をコンピュータによって行うシステムや、ある特定のリスクに対してどのような対策が有効であるかの予測をコンピュータによって行うシステムが知られている(例えば、特許文献1,2参照)。特許文献1には、患者が危険行動を起こすリスクを予測する技術が開示されている。特許文献2には、ベクトル演算によってリスクに対する対策案を立案する技術が開示されている。
【0004】
特許文献1に記載の行動予測装置では、患者の危険行動に関するインシデントレポートと紐付けられることによって危険行動が特定されたカルテ情報である既判断カルテ情報からあらかじめ抽出された、当該危険行動に関連する医療情報を記憶部に格納する。関係性評価部は、インシデントレポートが紐付けられていない未判断カルテ情報を取得して、記憶部に格納された危険行動に関連する医療情報をもとに、未判断カルテ情報と当該未判断カルテ情報に対応する患者が取り得る危険行動との関係性を評価する。予測部は、関係性評価部の評価結果に応じて、未判断カルテ情報に対応する患者の危険行動を予測する。
【0005】
特許文献2に記載の対策案立案支援システムでは、業務の状態を表す複数の指標を含む一般的業務指標ベクトルfと、一般的業務指標ベクトルfにおける解決すべき場合における対処方法を示す対策案を複数含む一般的対策案ベクトルxと、課題を示す課題指標ベクトルf’とに基づいて、課題指標ベクトルf’と対策案ベクトルx’との対応関係を規定する課題指標-対策案マトリクスMm’を作成する。そして、一般的対策案ベクトルxから、マトリクスMm’の列に存在する対策案を抜粋して、候補対策案ベクトルx’を選択する。
【0006】
近年、起こり得るリスクの予測や、リスクに対する有効な対策の解析を人工知能(AI)によって行うシステムの研究開発が盛んである。人工知能の1つとして機械学習がある。機械学習は、人間が行っている学習と同様の機能をコンピュータで実現しようとする技術のことである。最も広く普及している教師あり学習は、正解付きの多数の教師データを用いて学習を行うことにより分類モデルを生成し、生成した分類モデルをもとに予測対象のデータを分類するというものである。何を教師データとして用いるかは多様であるが、文書データを教師データとして用いて機械学習を行うシステムが古くから知られている。
【先行技術文献】
【特許文献】
【0007】
【文献】特許第5977898号公報
【文献】特開2007-242063号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
機械学習を用いた従来のリスク予測システムは、ある特定の事象に関して実際に発生した問題や不具合、事故、障害、疾病などについて記述した複数のレポート情報を解析することによって予測モデルを生成し、特定の対象物について起こり得るリスクを予測モデルにより予測するものが殆どである。また、機械学習を用いた従来のリスク対策解析システムは、ある特定のリスクに関して実際に行われた対策とその結果について記述した複数のレポート情報を解析することによって予測モデルを生成し、ある特定のリスクに対してどのような対策が有効であるかを予測モデルにより予測するものが殆どである。
【0009】
しかしながら、従来のリスク予測システムでは、特定の対象物についてリスクを予測することはできても、予測されたリスクに対してどのような対策が有効であるかまでは予測することができないという問題があった。また、従来のリスク対策解析システムでは、特定のリスクに対してある程度の有効な対策を予測することはできるものの、そのリスクが特定の対象物との関係で実際に発生する可能性については考慮されていないため、予測された対策が特定の対象物にとって実際に有効なものとは限らないという問題があった。
【0010】
本発明は、このような問題を解決するために成されたものであり、特定の対象物に関して発生する可能性があると予測されたリスクについて、そのリスク対応として実際に有効である可能性のある対策を予測して提供することができるようにすることを目的とする。
【課題を解決するための手段】
【0011】
上記した課題を解決するために、本発明では、解析対象データを解析することにより、解析対象の特徴を表す特徴ベクトルを算出し、当該算出された特徴ベクトルを学習済みのリスク予測モデルに入力し、予測対象物に関するリスクレベルを予測する。さらに、本発明では、リスクレベルを予測する際に算出された特徴ベクトルと探索用ベクトルとを用いて所定の演算を行った結果として得られる演算後ベクトルをリスク予測モデルに対して入力し、その結果得られるリスクレベルが、特徴ベクトルから予測されたリスクレベルよりも小さくなるという条件を満たす探索用ベクトルを探索し、当該条件を満たす探索用ベクトルと特徴ベクトルとに基づいて演算されるベクトルをリスク低減ベクトルとして特定する。そして、複数の解析対象データについて算出される複数の特徴ベクトルの中から、リスク低減ベクトルと同一の特徴ベクトルおよび近似する特徴ベクトルを特定し、特定した特徴ベクトルに対応する解析対象データを用いて、当該解析対象データまたは当該解析対象データに含まれる文章または単語をリスク対策に関する情報として生成するようにしている。
【発明の効果】
【0012】
上記のように構成した本発明によれば、解析対象データを解析することによって得られる特徴ベクトルからリスクレベルが予測され、さらに、その特徴ベクトルと共に所定の演算を行ったときにリスクレベルが低減するような探索用ベクトルが探索されて、当該探索用ベクトルと特徴ベクトルとに基づいて演算されるリスク低減ベクトルと同一または近似する特徴ベクトルに対応する解析対象データを用いて、リスク対策に関する情報が生成される。このため、予測対象物についてリスクレベルを予測するだけでなく、そのリスクレベルを低減し得る対策まで予測することができる。本発明によれば、特定の予測対象物について実際にリスクレベルが予測されたリスクについて、リスクレベルが低減するような対策が予測されるので、予測された対策が特定の予測対象物にとって実際に有効なものである可能性が高くなる。以上により、本発明によれば、特定の対象物に関して発生する可能性があると予測されたリスクについて、そのリスク対応として実際に有効である可能性のある対策を予測し、対策に関する情報として提供することができる。
【図面の簡単な説明】
【0013】
【
図1】第1の実施形態によるリスク対策解析システムの機能構成例を示すブロック図である。
【
図2】第1の実施形態によるリスク低減ベクトル特定部の処理内容を説明するための図である。
【
図3】リスク予測モデルを生成する予測モデル生成装置の機能構成例を示すブロック図である。
【
図4】文章指標値群から成る特徴ベクトルを説明するための図である。
【
図5】第1の実施形態による特徴ベクトル算出部の具体的な機能構成例を示すブロック図である。
【
図6】第1の実施形態によるリスク対策解析システムの動作例を示すフローチャートである。
【
図7】第2の実施形態によるリスク対策解析システムの機能構成例を示すブロック図である。
【
図8】探索トピックに応じて特定される探索範囲内の探索用ベクトルおよびリスク低減ベクトルを模式的に示す図である。
【
図9】第2の実施形態によるリスク対策解析システムの他の機能構成例を示すブロック図である。
【
図10】第2の実施形態によるリスク対策解析システムの他の機能構成例を示すブロック図である。
【発明を実施するための形態】
【0014】
(第1の実施形態)
以下、本発明の第1の実施形態を図面に基づいて説明する。
図1は、第1の実施形態によるリスク対策解析システムの機能構成例を示すブロック図である。
図1に示すように、第1の実施形態によるリスク対策解析システムは、その機能構成として、特徴ベクトル算出部11、リスク予測部12、リスク低減ベクトル特定部13および対策情報生成部14を備えている。また、第1の実施形態によるリスク対策解析システムは、記憶媒体として、リスク予測モデル記憶部21および解析対象データ記憶部22を備えている。
【0015】
上記各機能ブロック11~14は、ハードウェア、DSP(Digital Signal Processor)、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック11~14は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記憶媒体に記憶されたプログラムが動作することによって実現される。
【0016】
上記各機能ブロック11~14および各記憶媒体21~22は、これらの全てを1つの装置が備える構成としてもよいし、複数の装置に分散して設ける構成としてもよい。例えば、各機能ブロック11~14を1つの演算装置が備えるとともに、各記憶媒体21~22を当該演算装置とは異なるサーバ装置またはストレージ装置が備え、演算装置とサーバ装置またはストレージ装置とを通信ネットワークを介して接続する構成とすることが可能である。また、特徴ベクトル算出部11およびリスク予測部12を第1の演算装置が備え、リスク低減ベクトル特定部13および対策情報生成部14を第2の演算装置が備える構成としてもよい。
【0017】
第1の演算装置と第2の演算装置とに分ける場合、第2の演算装置は、第1の演算装置で算出された特徴ベクトル(後述する学習済みのリスク予測モデルに適用された特徴ベクトル)と、その特徴ベクトルを入力したリスク予測モデルから出力されたリスクレベルとを取得するリスク情報取得部を備える。そして、第2の演算装置のリスク低減ベクトル特定部13および対策情報生成部14は、リスク情報取得部により取得された特徴ベクトルとリスクレベルとを用いて後述する処理を実行する。
【0018】
特徴ベクトル算出部11は、解析対象データを解析し、解析対象の特徴を表す特徴ベクトルを算出する。解析対象データは、複数の特徴量から成る特徴ベクトル(特徴行列と言ってもよい)を算出可能なデータであればよく、例えば文書データ、画像データ、音声データなどである。本実施形態のリスク対策解析システムは、人や企業、環境、物などの対象物について起こり得るリスクとそれに対する対策とを解析するものであるので、解析対象データとしては、何らかのリスクに関連する内容を有するものを用いる。
【0019】
例えば、人が特定の病気にかかるリスク(疾病罹患リスク)、患者が特定の危険行動をするリスク(危険行動リスク)などを解析する場合に、電子カルテやインシデントレポート、アンケート回答などの文書データを解析対象データとして用いることが可能である。また、同様に疾病罹患リスクまたは危険行動リスクなどを解析する場合に、身体の外部または内部を撮影した画像データ、患者と医師との対話を録音した音声データ、位置測定装置などで検出される入院患者の移動軌跡を表した移動軌跡データ、人の日時の行動内容をレポート形式等で記録した行動履歴データなどを解析対象データとして用いることが可能である。また、システム障害の発生可能性の有無を解析する場合に、システムの監視または検査の結果を記述したレポートに関する文書データなどを解析対象データとして用いることが可能である。
【0020】
また、企業が行う事業に潜むリスクを解析する際に、事業計画書や事業報告書などの文書データ、企業の財務諸表および市場の株価や円相場などの値動きを表す数値データ、労働人口や技術動向、特許取得動向などを表す各種統計データなどを解析対象データとして用いることも可能である。さらに、特定の工事を行う際に発生し得る事故や怪我などのリスクを解析する際に、工事計画書や工事報告書などの文書データ、工事対象物を撮影した画像データ、工事現場で録音した音声データ、工事対象物に設置したセンサにより検出される測定データなどを解析対象データとして用いることも可能である。ここに挙げたものは一例であり、これ以外のデータを解析対象データとして用いることも可能である。
【0021】
以下では一例として、電子カルテやインシデントレポートなどの文書データを解析対象データとして用いて、人が特定の病気にかかるリスク(疾病罹患リスク)を解析する場合について説明する。解析対象データとして文書データを用いる場合、解析対象の特徴とは、文書の特徴を意味する。文書の特徴とは、例えば、その文書内に含まれる文章の特徴や、その文書内に含まれる単語の特徴である。特徴ベクトル算出部11は、一例として、文章および単語の少なくとも一方に関して複数の特徴要素を解析対象の文書データから算出することにより、それら複数の特徴要素を含む特徴ベクトルを算出する。なお、この特徴ベクトルの具体的な算出例については後述する。
【0022】
リスク予測部12は、特徴ベクトル算出部11により算出された特徴ベクトルを、学習済みのリスク予測モデルに入力し、予測対象物に関するリスクレベルを予測する。リスク予測モデルは、リスクが実際に発生(顕在化)したか否かの正解ラベルを有する複数の解析対象データを教師データとして用いて機械学習を行うことによってあらかじめ生成されたものであり、リスク予測モデル記憶部21に記憶されている。このリスク予測モデルは、特徴ベクトルが入力された際に、予測対象物に関するリスクレベルを出力するように、教師データを用いた機械学習処理により生成されている。リスクレベルとは、リスクが発生する可能性(ここでは、特定の病気にかかる可能性)の程度を表す値であり、例えば0以上1以下のスコア値である。
【0023】
ここで、リスクレベルが所定の閾値より大きい場合は疾病罹患の「可能性あり」、リスクレベルが閾値以下の場合は疾病罹患の「可能性なし」などと2つのタイプに分類することが可能である。また、リスクレベルが第1の閾値より大きい場合は疾病罹患の「可能性大」、リスクレベルが第1の閾値以下かつ第2の閾値より大きい場合は疾病罹患の「可能性中」、リスクレベルが第2の閾値以下の場合は疾病罹患の「可能性小」などと3つのタイプに分類することも可能である。もちろん、疾病罹患の可能性について4つ以上のタイプに分類することも可能である。なお、リスク予測モデルの具体的な生成例については後述する。
【0024】
リスク低減ベクトル特定部13は、特徴ベクトル算出部11により算出された特徴ベクトルと探索用ベクトルとを用いて所定の演算を行った結果として得られる演算後ベクトルをリスク予測モデルに対して入力し、その結果得られるリスクレベルが、特徴ベクトルをリスク予測モデルに入力した場合に得られるリスクレベル(すなわち、リスク予測部12により予測されたリスクレベル)よりも小さくなるという条件を満たす探索用ベクトルを探索する。そして、探索された探索用ベクトル(条件を満たす探索用ベクトル)と特徴ベクトルとに基づいて演算されるベクトルをリスク低減ベクトルとして特定する。
【0025】
図2は、このリスク低減ベクトル特定部13の処理内容を説明するための図であり、特徴ベクトルVf、探索用ベクトルVs、リスク低減ベクトルVr-を模式的に示している。リスク低減ベクトル特定部13は、探索用ベクトルVsをランダムに生成し、特徴ベクトル算出部11により算出された特徴ベクトルVfに対して探索用ベクトルVsを加算する(V=Vf+Vs)。次いで、リスク低減ベクトル特定部13は、この加算(所定の演算に相当)を行った結果として得られる演算後ベクトルV(=Vf+Vs)を、リスク予測モデル記憶部21に記憶されているリスク予測モデルに対して入力することにより、リスクレベル(以下、これを「探索リスクレベル」という)を算出する。
【0026】
そして、リスク低減ベクトル特定部13は、以上のようにして演算後ベクトルVから算出した探索リスクレベルが、特徴ベクトルVfをリスク予測モデルに入力した場合に得られるリスクレベル(リスク予測部12から出力されるリスクレベル。以下、これを「予測リスクレベルという)よりも小さくなるか否かを判定する。ここで、探索リスクレベルが予測リスクレベルより小さくならないと判定した場合は、探索用ベクトルVsの内容を変えて以上と同様の処理を行う。一方、探索リスクレベルが予測リスクレベルより小さくなる場合は、そのときの演算後ベクトルVをリスク低減ベクトルVr-とする(
図2(a)の例)。
【0027】
なお、探索リスクレベルが予測リスクレベルより小さくなるという条件を満たす探索用ベクトルVsは、1つのみとは限らない。そこで、リスク低減ベクトル特定部13は、ある探索用ベクトルVsについて算出した探索リスクレベルが予測リスクレベルより小さくなる場合でも、探索用ベクトルVsの内容を変えて探索リスクレベルを算出する。そして、予測リスクレベルより小さくなる探索リスクレベルの中で最小のものを特定し、当該最小の探索リスクレベルが算出されたときの演算後ベクトルVをリスク低減ベクトルVr-とするようにしてよい。
【0028】
探索リスクレベルが最小となる探索用ベクトルVsを探索する際に、公知の確率的勾配降下法などを適用することにより、探索リスクレベルが小さくなると予想される範囲に限定して探索を行うようにしてもよい。あるいは、所定の収束条件を設定し、収束条件を満たすまで探索用ベクトルVsを変えて探索リスクレベルを順次算出し、収束条件を満たして探索を終了した時点で最小の探索リスクレベルが算出されたときの演算後ベクトルVをリスク低減ベクトルVr-とするようにしてもよい。
【0029】
リスク低減ベクトル特定部13は、上記の条件を満たす探索用ベクトルVs(探索リスクレベルが最小となるもの)と特徴ベクトルVfとに基づいて以下のように演算されるベクトルV’をリスク低減ベクトルVr-とするようにしてもよい(
図2(b)の例)。
V’=Vf+(1-T)*Vs (Tは0≦T<1の任意の値)
ここで、パラメータTの値は、コンピュータがランダムに1つを選択するようにしてもよいし、ランダムに複数を選択するようにしてもよい。あるいは、ユーザが任意にパラメータTの値を指定できるようにしてもよい。
【0030】
リスク低減ベクトル特定部13は、例えば、疾病罹患の「可能性あり」または「可能性大」と分類された特徴ベクトルVfについて、以上のような演算によってリスク低減ベクトルVr-を算出する。なお、
図2(b)のようにリスク低減ベクトルVr-を算出する場合において、Tの値を大きくすると、ベクトルV’は、「リスクあり」と予測された特徴ベクトルVfに近いものとなる。従って、Tの値を大きくし過ぎないようにするのが好ましい。例えば、Tの値は0≦T≦0.5とするようにしてもよい。
【0031】
対策情報生成部14は、複数の解析対象データについて特徴ベクトル算出部11により算出される複数の特徴ベクトルの中から、リスク低減ベクトルVr-と同一または近似する特徴ベクトルVf’を特定し、特定した特徴ベクトルVf’に対応する解析対象データを用いて、リスク対策に関する情報を生成する。複数の解析対象データ(文書データ)と、当該複数の文書データについて特徴ベクトル算出部11により算出された複数の特徴ベクトルとが紐付けられて、解析対象データ記憶部22にあらかじめ記憶されている。対策情報生成部14は、この解析対象データ記憶部22に記憶されているデータを用いて、リスク対策に関する情報を生成する。
【0032】
ここで、リスク低減ベクトルVr-と近似する特徴ベクトルVf’は、任意に定義することが可能である。例えば、リスク低減ベクトルVr-との内積値が所定値以上となる特徴ベクトルを、リスク低減ベクトルVr-と近似する特徴ベクトルVf’とすることが可能である。このような定義に該当する特徴ベクトルが複数ある場合に、それらの全てを特徴ベクトルVf’として特定するようにしてもよいし、その中でリスク低減ベクトルVr-に最も近いもの(内積値が最も大きいもの)だけ、または、リスク低減ベクトルVr-に最も近い方から順に所定個を特徴ベクトルVf’として特定するようにしてもよい。
【0033】
リスク対策に関する情報は、例えば、特定した特徴ベクトルVf’に紐付けられた文書データに含まれている文章または単語である。あるいは、特定した特徴ベクトルVf’に紐付けられた文書データそのものをリスク対策に関する情報としてもよい。リスク低減ベクトルVr-と同一または近似する特徴ベクトルVf’は、疾病罹患の「可能性あり」または「可能性大」と分類された特徴ベクトルVfについて、リスクレベルを低減する方向性を示すものと言える。そして、特徴ベクトルVf’に紐付けられた文書データには、リスクレベルを低減する方向性に関連する情報(文章や単語)が含まれていて、それが特徴ベクトルVf’の算出に寄与している可能性があると言える。従って、特徴ベクトルVf’に紐付けられた文書データに含まれている文章または単語は、リスク対策に関する情報として有用なものである可能性があると言える。
【0034】
なお、解析対象データが画像データ、音声データ、数値データ、統計データなどの場合についても、対策情報生成部14は、複数の解析対象データについて算出された複数の特徴ベクトルのうち、リスク低減ベクトルVr-と同一または近似する特徴ベクトルVf’に対応する解析対象データを用いて、リスク対策に関する情報を生成する。これらの場合は、例えば、解析対象データそのものをリスク対策に関する情報としてもよい。この情報を得たユーザは、リスクの予測に使用した解析対象データと、対策情報生成部14により対策に関する情報として生成された解析対象データとを比較して差異を把握するなどにより、対策情報生成部14により生成された解析対象データに近づけるために有効な対策を講じるためのヒントを得ることも可能である。
【0035】
図3は、リスク予測モデル記憶部21に記憶させるリスク予測モデルを生成する予測モデル生成装置の機能構成例を示すブロック図である。
図3に示す予測モデル生成装置は、その機能構成として、単語抽出部101、ベクトル算出部102および指標値算出部103を含む特徴ベクトル算出部100と、リスク予測モデル生成部104とを備えて構成されている。ベクトル算出部102は、より具体的な機能構成として、文章ベクトル算出部102Aおよび単語ベクトル算出部102Bを備えている。この予測モデル生成装置は、本実施形態のリスク対策解析システムが備えてもよいし、他の装置として備えるようにしてもよい。
【0036】
上記各機能ブロック101~104は、ハードウェア、DSP、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック101~104は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記憶媒体に記憶されたプログラムが動作することによって実現される。
【0037】
特徴ベクトル算出部100は、予測する対象期間内においてリスクが実際に発生したか否か(実際に病気にかかったか否か)の正解ラベルを有する複数の文書データ(例えば、複数の患者に関する電子カルテ)を教師データとして入力する。なお、1つの文書データは、1つの文章(句点によって区切られる単位)から成るものであってもよいし、複数の文章を含むものであってもよい。
【0038】
単語抽出部101は、複数の文書データに含まれるm個(mは2以上の任意の整数)の文章を解析し、当該m個の文章からn個(nは2以上の任意の整数)の単語を抽出する。文章の解析方法としては、例えば、公知の形態素解析を用いることが可能である。ここで、単語抽出部101は、形態素解析によって分割される全ての品詞の形態素を単語として抽出するようにしてもよいし、特定の品詞の形態素のみを単語として抽出するようにしてもよい。
【0039】
なお、1つの文書データの中に複数の文章が含まれている場合に、その中の全部の文章を解析対象としてもよいし、一部の文章を解析対象としてもよい。1つの文書データに含まれる一部の文章を教師データとして使用する場合、特徴ベクトル算出部100は、文書データの中のどの部分の文章を教師データとして使用するのかを設定した状態で、文書データを入力する。例えば、複数の記載項目が存在する電子カルテの中で、特定の記載項目に関する文章を教師データとして使用するように設定することが考えられる。この設定は、ユーザによる操作を通じて行うことが可能である。
【0040】
なお、m個の文章の中には、同じ単語が複数含まれていることがある。この場合、単語抽出部101は、同じ単語を複数個抽出することはせず、1つのみ抽出する。すなわち、単語抽出部101が抽出するn個の単語とは、n種類の単語という意味である。ここで、単語抽出部101は、m個の文章から同じ単語が抽出される頻度を計測し、出現頻度が大きい方からn個(n種類)の単語、あるいは出現頻度が閾値以上であるn個(n種類)の単語を抽出するようにしてもよい。
【0041】
ベクトル算出部102は、m個の文章およびn個の単語から、m個の文章ベクトルおよびn個の単語ベクトルを算出する。ここで、文章ベクトル算出部102Aは、単語抽出部101による解析対象とされたm個の文章をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個(qは2以上の任意の整数)の軸成分から成るm個の文章ベクトルを算出する。また、単語ベクトル算出部102Bは、単語抽出部101により抽出されたn個の単語をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るn個の単語ベクトルを算出する。
【0042】
ベクトル算出部102は、一例として、以下のようにして文章ベクトルおよび単語ベクトルを算出する。今、m個の文章とn個の単語とから成る集合S=<d∈D,w∈W>を考える。ここで、各文章di(i=1,2,・・・,m)および各単語wj(j=1,2,・・・,n)に対してそれぞれ文章ベクトルdi→および単語ベクトルwj→(以下では、記号“→”はベクトルであることを指すものとする)を関連付ける。そして、任意の単語wjと任意の文章diに対して、次の式(1)に示す確率P(wj|di)を計算する。
【0043】
【0044】
この確率P(wj|di)は、例えば、文章や文書をパラグラフ・ベクトルにより評価することについて記述した論文「“Distributed Representations of Sentences and Documents”by Quoc Le and Tomas Mikolov, Google Inc, Proceedings of the 31st International Conference on Machine Learning Held in Bejing, China on 22-24 June 2014」に開示されている確率pに倣って算出することが可能な値である。この論文には、例えば、“the”、“cat”、“sat”という3つの単語があるときに、4つ目の単語として“on”を予測するとあり、その予測確率pの算出式が掲載されている。当該論文に記載されている確率p(wt|wt-k,・・・,wt+k)は、複数の単語wt-k,・・・,wt+kから別の1つの単語wtを予測したときの正解確率である。
【0045】
これに対し、本実施形態で用いる式(1)に示される確率P(wj|di)は、m個の文章のうち一の文章diから、n個の単語のうち一の単語wjが予想される正解確率を表している。1つの文章diから1つの単語wjを予測するというのは、具体的には、ある文章diが出現したときに、その中に単語wjが含まれる可能性を予測するということである。
【0046】
式(1)では、eを底とし、単語ベクトルw→と文章ベクトルd→との内積値を指数とする指数関数値を用いる。そして、予測対象とする文章diと単語wjとの組み合わせから計算される指数関数値と、文章diとn個の単語wk(k=1,2,・・・,n)との各組み合わせから計算されるn個の指数関数値の合計値との比率を、一の文章diから一の単語wjが予想される正解確率として計算している。
【0047】
ここで、単語ベクトルwj→と文章ベクトルdi→との内積値は、単語ベクトルwj→を文章ベクトルdi→の方向に投影した場合のスカラ値、つまり、単語ベクトルwj→が有している文章ベクトルdi→の方向の成分値とも言える。これは、単語wjが文章diに寄与している程度を表していると考えることができる。したがって、このような内積を利用して計算される指数関数値を用いて、n個の単語wk(k=1,2,・・・,n)について計算される指数関数値の合計に対する、1つの単語wjについて計算される指数関数値の比率を求めることは、1つの文章diからn個の単語のうち1つの単語wjが予想される正解確率を求めることに相当する。
【0048】
式(1)はdiとwjについて対称なので、n個の単語のうち一の単語wjから、m個の文章のうち一の文章diが予想される確率P(di|wj)を計算してもよい。1つの単語wjから1つの文章diを予測するというのは、ある単語wjが出現したときに、それが文章diの中に含まれる可能性を予測するということである。この場合、文章ベクトルdi→と単語ベクトルwj→との内積値は、文章ベクトルdi→を単語ベクトルwj→の方向に投影した場合のスカラ値、つまり、文章ベクトルdi→が有している単語ベクトルwj→の方向の成分値とも言える。これは、文章diが単語wjに寄与している程度を表していると考えることができる。
【0049】
なお、ここでは、単語ベクトルw→と文章ベクトルd→との内積値を指数とする指数関数値を用いる計算例を示したが、指数関数値を用いることを必須とするものではない。単語ベクトルw→と文章ベクトルd→との内積値を利用した計算式であればよく、例えば、内積値そのものの比率により確率を求めるようにしてもよい。
【0050】
次に、ベクトル算出部102は、次の式(2)に示すように、上記式(1)により算出される確率P(wj|di)を全ての集合Sについて合計した値Lを最大化するような文章ベクトルdi→および単語ベクトルwj→を算出する。すなわち、文章ベクトル算出部102Aおよび単語ベクトル算出部102Bは、上記式(1)により算出される確率P(wj|di)を、m個の文章とn個の単語との全ての組み合わせについて算出し、それらを合計した値を目標変数Lとして、当該目標変数Lを最大化する文章ベクトルdi→および単語ベクトルwj→を算出する。
【0051】
【0052】
m個の文章とn個の単語との全ての組み合わせについて算出した確率P(wj|di)の合計値Lを最大化するというのは、ある文章di(i=1,2,・・・,m)からある単語wj(j=1,2,・・・,n)が予想される正解確率を最大化するということである。つまり、ベクトル算出部102は、この正解確率が最大化するような文章ベクトルdi→および単語ベクトルwj→を算出するものと言える。
【0053】
上述したように、ベクトル算出部102は、m個の文章diをそれぞれq次元にベクトル化することにより、q個の軸成分から成るm個の文章ベクトルdi→を算出するとともに、n個の単語をそれぞれq次元にベクトル化することにより、q個の軸成分から成るn個の単語ベクトルwj→を算出する。これは、q個の軸方向を可変として、上述の目標変数Lが最大化するような文章ベクトルdi→および単語ベクトルwj→を算出することに相当する。
【0054】
指標値算出部103は、ベクトル算出部102により算出されたm個の文章ベクトルdi→とn個の単語ベクトルwj→との内積をそれぞれとることにより、m個の文章diおよびn個の単語wj間の関係性を反映したm×n個の類似性指標値を算出する。本実施形態では、指標値算出部103は、次の式(3)に示すように、m個の文章ベクトルdi→の各q個の軸成分(d11~dmq)を各要素とする文章行列Dと、n個の単語ベクトルwj→の各q個の軸成分(w11~wnq)を各要素とする単語行列Wとの積をとることにより、m×n個の類似性指標値を各要素とする指標値行列DWを算出する。ここで、Wtは単語行列の転置行列である。
【0055】
【0056】
このようにして算出された指標値行列DWの各要素は、どの単語がどの文章に対してどの程度寄与しているのかを表したものと言える。例えば、1行2列の要素dw12は、単語w2が文章d1に対してどの程度寄与しているのかを表した値である。これにより、指標値行列DWの各行は文章の類似性を評価するものとして用いることが可能であり、各列は単語の類似性を評価するものとして用いることが可能である。
【0057】
指標値算出部103は、以上のように算出したm×n個の類似性指標値を用いて、1つの文章d
i(i=1,2,・・・,m)についてn個の類似性指標値dw
j(j=1,2,・・・,n)から成る文章指標値群を、文章d
iの特徴ベクトルVf
iとして特定する。
図4は、文章指標値群から成る特徴ベクトルVfを説明するための図である。
図4に示すように、文章指標値群とは、例えば1つ目の文章d
1の場合、指標値行列DWの1行目に含まれるn個の類似性指標値dw
11~dw
1nがこれに該当する。同様に、2つ目の文章d
2の場合、指標値行列DWの2行目に含まれるn個の類似性指標値dw
21~dw
2nがこれに該当する。以下、m個目の文章d
mに関する文章指標値群(n個の類似性指標値dw
m1~dw
mn)まで同様である。このように、特徴ベクトル算出部100は、複数の文書データから抽出したm個の文章d
iについて、m個の特徴ベクトルVf
iを算出する。
【0058】
なお、指標値算出部103は、以上のようにして算出したm×n個の類似性指標値を用いて、所定の次元圧縮処理を行うことにより、m×k個(kは1≦k<nを満たす任意の整数)の類似性指標値を算出し、1つの文章di(i=1,2,・・・,m)についてk個の類似性指標値dwj(j=1,2,・・・,k)から成る文章指標値群を、文章diの特徴ベクトルVfiとして特定するようにしてもよい。次元圧縮処理は、例えば、行列を分解する方法として公知の特異値分解(singular value decomposition:SVD)を用いることが可能である。
【0059】
すなわち、指標値算出部103は、上記式(3)のようにして算出された指標値行列DWを、3つの行列U,S,Vに分解する。ここで、行列Uはm×k次元の左特異行列で、各列はDW*DWtの固有ベクトルである(DWtは指標値行列DWの転置行列を示す)。行列Sはk×k次元の正方行列で、対角行列成分が指標値行列DWの特異値を示し、それ以外の値が全て0となっている。行列Vはk×n次元の右特異行列で、各行はDWt*DWの固有ベクトルである。なお、圧縮後の次元kは、あらかじめ定めた固定の値としてもよいし、任意の値を指定可能としてもよい。
【0060】
指標値算出部103は、以上のようにして分解した3つの行列のうち、右特異行列Vの転置行列Vtによって指標値行列DWを変換することにより、指標値行列DWの次元を圧縮する。すなわち、m×n次元の指標値行列DWと、n×k次元の右特異転置行列Vtとの内積を計算することにより、m×n次元の指標値行列DWをm×k次元の指標値行列DWSVDに次元圧縮する(DWSVD=DW*Vt)。なお、DWSVDは指標値行列DWをSVDにより次元圧縮した行列を示しており、DW≒U*S*V=DWSVD*Vの関係が成り立つ。
【0061】
このように、SVDの手法を用いて指標値行列DWの次元を圧縮することにより、指標値行列DWで表現される特徴を可能な限り損ねること無く指標値行列DWを低ランク近似することができる。なお、ここでは右特異行列Vの転置行列Vtによって指標値行列DWを変換する例について説明したが、mの値とnの値が一致する場合には、左特異行列Uによって指標値行列DWを変換するようにしてもよい(DWSVD=DW*U)。
【0062】
リスク予測モデル生成部104は、特徴ベクトル算出部100により算出されたm個の特徴ベクトルVfiをもとに、特徴ベクトルVfから予測対象物に関するリスクレベルを算出するためのリスク予測モデルを生成する。すなわち、リスク予測モデル生成部104は、病気にかかったことが既知である患者の文書データ(例えば、「リスクあり」の正解ラベルが付与された文書データ)から抽出された文章をもとに算出される特徴ベクトルVfi(iは1~mの何れか)が入力された場合にはリスクレベルが所定の閾値より大きくなり、病気にかからなかったことが既知である患者の文書データ(例えば、「リスクなし」の正解ラベルが付与された文書データ)から抽出された文章をもとに算出される特徴ベクトルVfi(iは1~mの何れか)が入力された場合にはリスクレベルが閾値以下となるように調整されたリスク予測モデルを生成する。そして、リスク予測モデル生成部104は、生成したリスク予測モデルをリスク予測モデル記憶部21に記憶させる。
【0063】
リスク予測モデル生成部104は、例えば、各文章diの特徴ベクトルVfiを構成している文章指標値群についてそれぞれ特徴量を算出し、当該算出した特徴量の値に応じて、マルコフ連鎖モンテカルロ法による複数群分離の最適化を行うことにより、特徴ベクトルVfが「リスクあり」に分類される可能性の高さを示す値をリスクレベルとして算出するためのリスク予測モデルを生成する。すなわち、リスク予測モデル生成部104が生成するリスク予測モデルは、特徴ベクトルVfを入力として、「リスクあり」に該当する可能性を確率として出力する学習モデルである。なお、ここに挙げたリスク予測モデルの生成法は一例であり、これに限定されるものではない。また、学習モデルの形態は任意である。
【0064】
例えば、リスク予測モデル生成部104が生成するリスク予測モデルの形態は、回帰モデル(線形回帰、ロジスティック回帰、サポートベクターマシーンなどをベースとする学習モデル)、木モデル(決定木、回帰木、ランダムフォレスト、勾配ブースティング木などをベースとする学習モデル)、ニューラルネットワークモデル(パーセプトロン、畳み込みニューラルネットワーク、再起型ニューラルネットワーク、残差ネットワーク、RBFネットワーク、確率的ニューラルネットワーク、スパイキングニューラルネットワーク、複素ニューラルネットワークなどをベースとする学習モデル)、ベイズモデル(ベイズ推論などをベースとする学習モデル)、クラスタリングモデル(k近傍法、階層型クラスタリング、非階層型クラスタリング、トピックモデルなどをベースとする学習モデル)などのうち何れかとすることが可能である。なお、ここに挙げた分類モデルは一例に過ぎず、これに限定されるものではない。
【0065】
図5は、
図1に示した特徴ベクトル算出部11の具体的な機能構成例を示すブロック図である。
図5に示すように、特徴ベクトル算出部11は、その具体的な機能構成として、単語抽出部111、ベクトル算出部112および指標値算出部113を備えている。ベクトル算出部112は、より具体的な機能構成として、文章ベクトル算出部112Aおよび単語ベクトル算出部112Bを備えている。特徴ベクトル算出部11の動作は、
図3に示した特徴ベクトル算出部100の動作と基本的には同様である。
【0066】
特徴ベクトル算出部11は、解析対象とする1つ以上の文章を含む文書データを予測用データとして入力する。特徴ベクトル算出部11が入力する文書データは、例えば、特定の病気に現時点ではかかっていない患者で、将来の所定期間以内に特定の病気になるリスクがあるか否かを予測したい患者の電子カルテ(文書データ)である。ここで、特徴ベクトル算出部11は、文書データの中のどの部分の文章を解析対象として使用するのかを設定した状態で、文書データを入力してよい。なお、特徴ベクトル算出部11は、文書データの中から指定された文章に関する文章データのみを入力するようにしてもよい。
【0067】
特徴ベクトル算出部11が解析対象とする文章の数m’は、特徴ベクトル算出部100が解析対象とした文章の数mと必ずしも同数でなくてもよい。特徴ベクトル算出部11が解析対象とする文章は、1つであってもよいし、複数であってもよい。ただし、指標値算出部113が文章から算出する類似性指標値は、どの単語がどの文章に対してどの程度寄与しているのか、どの文章がどの単語に対してどの程度寄与しているのかを表したものであるため、特徴ベクトル算出部11が解析対象とする文章についても複数とするのが好ましい。例えば、m’人の患者の電子カルテから1つずつ文章を抽出することが考えられる。あるいは、1人の患者のカルテから複数の文章を抽出して解析対象とするようにしてもよい。この場合は、1人の患者について複数の文章から複数の特徴ベクトルVfが特徴ベクトル算出部11により算出され、それぞれの特徴ベクトルVfについてリスクレベルがリスク予測部12により算出されることになる。
【0068】
特徴ベクトル算出部11は、m’個の文章データが予測用データとして入力された場合、そのm’個の文章データについて単語抽出部111、ベクトル算出部112および指標値算出部113の処理(それぞれの処理は、
図3の単語抽出部101、ベクトル算出部102および指標値算出部103の処理と同様)を実行することにより、m’個の文章指標値群(特徴ベクトルVf)を得る。リスク予測部12は、特徴ベクトル算出部11により算出されたm’個の特徴ベクトルVfを1つずつリスク予測モデル記憶部21のリスク予測モデルに入力することにより、m’個の文章のそれぞれについてリスクレベルを算出する。
【0069】
ここで、単語抽出部111は、
図3の単語抽出部101がm個の教師データから抽出したn個の単語と同じ単語をm’個の予測用データから抽出するのが好ましい。予測用データから抽出されるn個の単語から成る文章指標値群が、教師データから抽出されたn個の単語から成る文章指標値群と同じ単語を要素とするものとなるので、リスク予測モデル記憶部21に記憶されたリスク予測モデルに対する適合度が高くなるからである。ただし、学習時と同じn個の単語を予測時にも抽出することを必須とするものではない。
【0070】
図6は、以上のように構成した第1の実施形態によるリスク対策解析システムの動作例を示すフローチャートである。まず、特徴ベクトル算出部11は、1人以上の患者に関する電子カルテの中からm’個の文章を予測用データとして入力する(ステップS1)。特徴ベクトル算出部11の単語抽出部111は、入力されたm’個の文章を解析し、当該m’個の文章からn個の単語を抽出する(ステップS2)。次いで、ベクトル算出部112は、入力されたm’個の文章および単語抽出部111により抽出されたn個の単語から、m’個の文章ベクトルd
i→およびn個の単語ベクトルw
j→を算出する(ステップS3)。
【0071】
そして、指標値算出部113は、m’個の文章ベクトルdi→とn個の単語ベクトルwj→との内積をそれぞれとることにより、m’個の文章diおよびn個の単語wj間の関係性を反映したm’×n個の類似性指標値(m’×n個の類似性指標値を各要素とする指標値行列DW)を算出する(ステップS4)。さらに、指標値算出部113は、以上のように算出したm’×n個の類似性指標値を用いて、1つの文章di(i=1,2,・・・,m’)についてn個の類似性指標値dwj(j=1,2,・・・,n)から成る文章指標値群を、文章diの特徴ベクトルVfiとして特定する(ステップS5)。
【0072】
次いで、リスク予測部12は、特徴ベクトル算出部11により算出されたm’個の特徴ベクトルVfiを1つずつリスク予測モデル記憶部21のリスク予測モデルに入力することにより、m’個の文章のそれぞれについてリスクレベルを算出する(ステップS6)。そして、リスク低減ベクトル特定部13は、例えば、リスク予測部12により算出されたリスクレベルの中に所定の閾値より大きいもの(疾病罹患の「可能性あり」と分類されるもの)があるか否かを判定する(ステップS7)。
【0073】
ここで、所定の閾値より大きいリスクレベルが1つも存在しない場合、
図6に示すフローチャートの処理は終了する。一方、所定の閾値より大きいリスクレベルが少なくとも1つ存在する場合、リスク低減ベクトル特定部13は、その閾値より大きいリスクレベルが算出された特徴ベクトルVfについて、探索用ベクトルVsを用いてリスク低減ベクトルVr-を算出する(ステップS8)。ここで、リスクレベルが所定の閾値より大きくなる特徴ベクトルVfが複数存在する場合は、そのそれぞれについてリスク低減ベクトルVr-を算出する。
【0074】
次いで、対策情報生成部14は、解析対象データ記憶部22に記憶されている複数の特徴ベクトルの中から、リスク低減ベクトルVr-と同一または近似する特徴ベクトルVf’を特定し、特定した特徴ベクトルVf’に対応する解析対象データを用いて、リスク対策に関する情報を生成する(ステップS9)。そして、対策情報生成部14は、生成したリスク対策に関する情報を、例えばディスプレイ(図示せず)に表示することによってユーザに提示する(ステップS10)。ここで、どの文章に対するリスク対策であるか、またはどの患者に対するリスク対策であるかを明示した状態で情報をユーザに提示するようにしてもよい。これにより、
図6に示すフローチャートの処理が終了する。
【0075】
以上詳しく説明したように、第1の実施形態によれば、解析対象データ(例えば、電子カルテ等の文書データ)を解析することによって得られる特徴ベクトルVfからリスクレベルが予測される。さらに、その特徴ベクトルVfと共に所定の演算を行ったときにリスクレベルが低減するような探索用ベクトルVsが探索されて、当該探索用ベクトルVsと特徴ベクトルVfとに基づいて演算されるリスク低減ベクトルVr-が特定され、それと同一または近似する特徴ベクトルVf’に対応する解析対象データを用いて、リスク対策に関する情報が生成される。このため、予測対象物についてリスクレベルを予測するだけでなく、そのリスクレベルを低減し得る対策まで予測することができる。
【0076】
また、第1の実施形態によれば、特定の予測対象物(上記の例では患者)について実際にリスクレベルが予測された疾病罹患のリスクについて、リスクレベルが低減するような対策が予測されるので、予測された対策が特定の予測対象物にとって実際に有効なものである可能性が高くなる。以上により、第1の実施形態によれば、特定の対象物に関して発生する可能性があると予測されたリスクについて、そのリスク対応として実際に有効である可能性のある対策を予測し、対策に関する情報として提供することができる。
【0077】
(第2の実施形態)
次に、本発明の第2の実施形態を図面に基づいて説明する。
図7は、第2の実施形態によるリスク対策解析システムの機能構成例を示すブロック図である。なお、この
図7において、
図1に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。
【0078】
図7に示すように、第2の実施形態によるリスク対策解析システムは、その機能構成として、リスク低減ベクトル特定部13に代えてリスク低減ベクトル特定部13’を備えるとともに、探索トピック指定部15を更に備えている。また、記憶媒体として、対策予測モデル記憶部23を更に備えている。
【0079】
リスク低減ベクトル特定部13’は、特徴ベクトル算出部11により算出された特徴ベクトルと、探索トピック指定部15により指定された探索トピックとを学習済みの対策予測モデルに入力し、特徴ベクトルと探索トピックとに基づき特定される探索範囲に含まれる探索用ベクトルを用いてリスク低減ベクトルの探索を行う。すなわち、第2の実施形態では、リスク低減ベクトルを算出する際に使用する探索用ベクトルを、特徴ベクトルと探索トピックとに基づいて特定される探索範囲に含まれるものに限定する。探索範囲を限定することによって処理効率を上げると同時に、探索トピックに応じた適切なリスク低減ベクトルを算出できるようにすることが目的である。
【0080】
探索トピックは、予測されるリスクに対して採るべき対策の大まかなテーマを示すものであり、リスク低減ベクトルの探索条件とも言えるものである。例えば、特定の病気にかかるリスク(疾病罹患リスク)を予測してその対策に関する情報を提供するリスク対策解析システムを構成する場合において、探索トピックは、例えば運動関連の改善などを内容とする「活動量」、例えば食事関連の改善などを内容とする「食生活」、例えば睡眠関連の改善などを内容とする「生活習慣」などとすることが可能である。
【0081】
対策予測モデルは、どの探索トピックに該当するかが既知である複数の解析対象データから算出された複数の特徴ベクトルを教師データとして用いて機械学習を行うことによってあらかじめ生成されたものであり、対策予測モデル記憶部23に記憶されている。探索トピックが既知であるというのは、解析対象データ(例えば、電子カルテ等の文書データ)の内容がどの探索トピックに関連するものであるかが既知であるということである。解析対象データと探索トピックとの関連付けは、人間が行ってもよいし、コンピュータが解析対象データの内容を解析して行ってもよい。例えば、解析対象データが文書データである場合、文書データ内に含まれる単語を解析し、多く含まれる単語がどの探索トピックに該当するものであるかによって、文書データに対応する探索トピックを自動的に特定するようにすることが可能である。
【0082】
対策予測モデル記憶部23に記憶される対策予測モデルは、探索トピックと特徴ベクトルとが入力された際にそれらに応じた探索範囲を出力するように、教師データを用いた機械学習処理によって生成されている。すなわち、対策予測モデルは、探索トピックと特徴ベクトルとの組み合わせごとに、その特徴ベクトルからリスク予測モデルに基づいて予測されるリスクレベルを低減させることができる複数のリスク低減ベクトルを特定する際に用いた複数の探索用ベクトルが含まれる範囲を探索範囲として出力するように学習されたものである。
【0083】
ここで、対策予測モデルが出力する探索範囲は、例えば、探索リスクレベルが予測リスクレベルより小さくなるような探索用ベクトルのうち、探索リスクレベルが最小の方から順に所定個の探索用ベクトルが含まれる範囲として定義することが可能である。また、探索リスクレベルが予測リスクレベルより小さくなるような探索用ベクトルのうち、探索リスクレベルが最小となる探索用ベクトルとの内積値が所定値以上となるような探索用ベクトルが含まれる範囲を探索範囲とするようにしてもよい。
【0084】
なお、対策予測モデルは、探索トピックと特徴ベクトルとの組み合わせごとに、1つの探索用ベクトルを探索範囲として出力するものとしてもよい。例えば、リスクレベルを最も小さくできるリスク低減ベクトルを特定する際に用いた探索用ベクトルを探索範囲として出力するものとしてもよい。あるいは、上述した複数の探索用ベクトルを平均加算した1つのベクトルを探索範囲として出力するものとしてもよい。
【0085】
図8は、探索トピックに応じて特定される探索範囲内の探索用ベクトルVs1~Vs3およびリスク低減ベクトルVr-1~Vr-3を模式的に示す図である。
図8では、1つの特徴ベクトルVfに対して3つの探索トピック(活動量、食生活、生活習慣)ごとに特定される探索範囲を示したものであり、1つの探索用ベクトルを探索範囲とする例を示している。対策予測モデル記憶部23に記憶される対策予測モデルは、例えば、
図8に示す特徴ベクトルVfと、探索トピック「活動量」を示す情報とが入力された際に、探索範囲として1つの探索用ベクトルVs1を出力するように学習されている。
【0086】
なお、対策予測モデルに入力される特徴ベクトルが、
図8に示す特徴ベクトルVfと完全に一致するものであるとは限らない。対策予測モデルは、このような場合でも適切に探索範囲を出力できるように学習されている。すなわち、対策予測モデルは、
図8に示す特徴ベクトルVfに近似する特徴ベクトル(例えば、内積値が所定値以上の特徴ベクトル)と、探索トピック「活動量」を示す情報とが入力された場合には、特徴ベクトルVfが与えられた場合と同じ1つの探索用ベクトルVs1を探索範囲として出力するように学習されている。
【0087】
図7に示す例において、探索範囲を特定するために使用する探索トピックは、探索トピック指定部15により指定される。探索トピック指定部15は、ユーザからの探索トピックに関する指定を受け付けて、探索トピックを指定する。例えば、リスク予測部12により算出されたリスクレベルが所定値以上となって疾病罹患のリスクがあると予測された場合において、患者または医師が特定のトピックについて対策を講じたいと考えた場合などに、患者または医師が希望する探索トピックを指定することが可能である。
【0088】
リスク低減ベクトル特定部13’は、探索トピック指定部15により受け付けられた探索トピックと、特徴ベクトル算出部11により算出された特徴ベクトルとを、対策予測モデル記憶部23に記憶された学習済みの対策予測モデルに入力することにより、探索範囲を特定する。そして、特定した探索範囲に含まれる探索用ベクトルと、特徴ベクトル算出部11により算出された特徴ベクトルとを用いて、第1の実施形態で説明したリスク低減ベクトル特定部13と同様の処理によってリスク低減ベクトルを特定する。
【0089】
以上詳しく説明したように、第2の実施形態によれば、トピックによって変わる可能性のある最適なリスク低減ベクトルを、探索トピックを指定することによって、あらかじめ学習済みの対策予測モデルから予測される適切な探索範囲内から特定することができる。これにより、指定した探索トピックに応じて有効な対策に関する情報を得ることができる。また、探索用ベクトルの探索範囲を限定することにより、リスク低減ベクトルを特定する際の処理負荷を軽減し、処理時間の短縮を図ることができるというメリットも有する。
【0090】
なお、上記第2の実施形態では、探索トピックをユーザが指定する例について説明したが、本発明はこれに限定されない。例えば、
図9に示すように、探索トピック指定部15に代えて探索トピック特定部16を備えるようにしてもよい。探索トピック特定部16は、解析対象データを解析することによって探索トピックを特定する。例えば、解析対象データが文書データである場合、探索トピック特定部16は、文書データ内に含まれる単語を解析し、多く含まれる単語がどの探索トピックに該当するものであるかによって、文書データに対応する探索トピックを特定する。なお、単語と探索トピックとをあらかじめ関連付けたテーブル情報などを用意し、探索トピック特定部16はこのテーブル情報を参照することによって、文書データに対応する探索トピックを特定する。
【0091】
なお、ここに示した解析内容は一例であり、これに限定されるものではない。例えば、トピックが既知である複数の文書データまたはこれから算出される特徴ベクトルを教師データとして用いた機械学習によってトピック予測モデルを生成しておき、解析対象の文書データまたはこれから算出される特徴ベクトルをこのトピック予測モデルに入力することにより、探索トピックの特定を行うようにしてもよい。
【0092】
リスク低減ベクトル特定部13’は、探索トピック特定部16により特定された探索トピックと、特徴ベクトル算出部11により算出された特徴ベクトルとを、対策予測モデル記憶部23に記憶された学習済みの対策予測モデルに入力することにより、探索範囲を特定する。そして、特定した探索範囲に含まれる探索用ベクトルと、特徴ベクトル算出部11により算出された特徴ベクトルとを用いて、第1の実施形態で説明したリスク低減ベクトル特定部13と同様の処理によってリスク低減ベクトルを特定する。
【0093】
このように構成した場合、解析対象データから特徴ベクトル算出部11およびリスク予測部12により算出されたリスクレベルが所定値以上となって疾病罹患のリスクがあると予測された場合において、その解析対象データ自体から特定されるトピックについてリスク低減ベクトルを算出し、当該リスク低減ベクトルをもとに対策に関する情報を得ることができる。このため、特定のトピックに関連する解析対象データから予測されたリスクに対して、当該特定のトピックに関連する対策に関する情報を得ることができるため、リスクに対して親和性の高い、有効な対策情報を得ることができる。
【0094】
なお、リスク低減ベクトル特定部13’は、探索トピック特定部16により特定された探索トピックとは異なる探索トピックを学習済みの対策予測モデルに入力するようにしてもよい。このように構成した場合、解析対象データ自体から特定されるトピックとは異なるトピックについてリスク低減ベクトルを算出し、当該リスク低減ベクトルをもとに対策に関する情報を得ることができる。このため、特定のトピックに関連する解析対象データから予測されたリスクに対して、当該特定のトピック以外のトピックに関連する対策に関する情報を得ることができるため、既存の知見や経験則などから人間の判断では得にくい新たな対策情報を得ることが期待できる。
【0095】
また、上記第2の実施形態では、探索トピック指定部15により指定された探索トピックまたは探索トピック特定部16により特定された探索トピックについて特定される探索範囲の探索用ベクトルのみを用いてリスク低減ベクトルを算出するようにしたが、本発明はこれに限定されない。すなわち、探索トピックの指定および特定はせずに、複数の探索トピックに関連する探索範囲の探索用ベクトルを用いてリスク低減ベクトルを算出するようにしてもよい。
【0096】
一例として、リスク低減ベクトル特定部13’は、複数の探索トピックごとに対策予測モデルにより特定される探索範囲に含まれる探索用ベクトルと、特徴ベクトル算出部11により算出された特徴ベクトルとを用いて、複数の探索トピックごとに探索を行う。そして、複数の探索トピックについてそれぞれ探索された探索用ベクトルを重み付け加算したベクトルと、特徴ベクトル算出部11により算出された特徴ベクトルとに基づいて演算されるベクトルをリスク低減ベクトルとして特定する。
【0097】
これを
図8の例で説明する。ここでは、探索用ベクトルVs1~Vs3は、複数の探索トピック(活動量、食生活、生活習慣)ごとに特定される探索範囲の中から、リスクレベルを低減することができるものとして探索された結果のベクトルであるものとする。リスク低減ベクトル特定部13’は、これらの探索用ベクトルVs1~Vs3を重み付け加算し、その加算結果のベクトルと、特徴ベクトル算出部11により算出された特徴ベクトルVfとを加算することによってリスク低減ベクトルVr-を特定する。
【0098】
ここで、各探索用ベクトルVs1~Vs3に対する重み付けをどのようにして行うかについては、任意に定めることが可能である。例えば、特徴ベクトルVfと探索用ベクトルVs1~Vs3との内積値をそれぞれ算出し、その内積値を利用して重みを設定する。この場合、各探索用ベクトルVs1~Vs3に対する重みをw1,w2,w3とすると、リスク低減ベクトルVr-は次に示す演算により算出することが可能である。
w1=exp(Vf,Vs1)/{exp(Vf,Vs1)+exp(Vf,Vs2)+exp(Vf,Vs3)}
w2=exp(Vf,Vs2)/{exp(Vf,Vs1)+exp(Vf,Vs2)+exp(Vf,Vs3)}
w3=exp(Vf,Vs3)/{exp(Vf,Vs1)+exp(Vf,Vs2)+exp(Vf,Vs3)}
Vr-=Vf+{(w1・Vs1)+(w2・Vs2)+(w3・Vs3)}
【0099】
なお、ここでは各探索用ベクトルVs1~Vs3を重み付け加算する例を示したが、各リスク低減ベクトルVr-1~Vr-3を重み付け加算するようにしてもよい。これを
図8の例で説明すると、リスク低減ベクトル特定部13’は、3つの探索用ベクトルVs1~Vs3と特徴ベクトルVfとをそれぞれ加算することによって3つのリスク低減ベクトルVr-1~Vr-3を算出し、これらのリスク低減ベクトルVr-1~Vr-3を重み付け加算することにより、リスク低減ベクトルVr-を特定する。
【0100】
この場合における演算は次の通りである。
Vr-1=Vf+Vs1
Vr-2=Vf+Vs2
Vr-3=Vf+Vs3
Vr-=(w1・Vr-1)+(w2・Vr-2)+(w3・Vr-3)
【0101】
なお、リスク低減ベクトルVr-1~Vr-3を用いることに代えて、以下に示すリスク低減ベクトルVr-1’~Vr-3’を用いるようにしてもよい。
Vr-1’=Vf+(1-T)*Vs1 (Tは0≦T≦1の任意の値)
Vr-2’=Vf+(1-T)*Vs2 (Tは0≦T≦1の任意の値)
Vr-3’=Vf+(1-T)*Vs3 (Tは0≦T≦1の任意の値)
【0102】
また、上記第2の実施形態において、リスク低減ベクトル特定部13’は、特定の探索トピックが入力された場合(探索トピック指定部15により探索トピックが指定された場合、または探索トピック特定部16により探索トピックが特定された場合)には、当該入力された探索トピックを学習済みの対策予測モデルに入力して特定される探索範囲に含まれる探索用ベクトルのみを用いてリスク低減ベクトルを特定する一方、特定の探索トピックが入力されていない場合には、複数の探索トピックごとに特定される探索範囲に含まれる探索用ベクトルを用いた重み付け加算によってリスク低減ベクトルを特定するようにしてもよい。
【0103】
また、上記第2の実施形態において、所定の予測トピック(探索トピック指定部15と同様にユーザにより指定されるもの、探索トピック特定部16と同様に解析対象データの解析により特定されるものの何れでもよい)をリスク予測部12に入力し、予測トピックを考慮してリスクレベルの予測を行うようにしてもよい。
図10は、この場合の構成例を示す図である。
【0104】
図10(a)において、予測トピック指定部17は、ユーザからの予測トピックに関する指定を受け付けて、予測トピックを指定する。そして、指定した予測トピックをリスク予測部12’に供給する。また、
図10(b)において、予測トピック特定部18は、解析対象データを解析することによって予測トピックを特定する。そして、特定した予測トピックをリスク予測部12’に供給する。
【0105】
リスク予測部12’は、特徴ベクトル算出部11により算出された特徴ベクトルと、予測トピック指定部17により指定された予測トピックまたは予測トピック特定部18により特定された予測トピックとを、リスク予測モデル記憶部21’に記憶された学習済みのリスク予測モデルに入力し、予測対象物に関して予測トピックに応じたリスクレベルを予測する。リスク予測モデル記憶部21’に記憶されるリスク予測モデルは、特徴ベクトルと予測トピックとが入力された際に、予測対象物に関して特徴ベクトルおよび予測トピックに応じたリスクレベルを出力するように、教師データを用いた機械学習処理により生成されている。
【0106】
なお、リスク予測部12’に入力する予測トピックと、リスク低減ベクトル特定部13’に入力する探索トピックとを同じものとすることにより、予測されるリスクと、そのリスクについて予測される対策に関する情報とが特定のトピックについて関連付けられたものとなるので、より有効な対策情報を得ることができる可能性が高まる。
【0107】
上記第1および第2の実施形態では、m×n個の類似性指標値のうち、1つの文章di(i=1,2,・・・,m)についてn個の類似性指標値dwj(j=1,2,・・・,n)から成る文章指標値群を特徴ベクトルVfiとして特定する例について説明したが、本発明はこれに限定されない。例えば、1つの単語wj(j=1,2,・・・,n)についてm個の類似性指標値dwi(i=1,2,・・・,m)から成る単語指標値群を特徴ベクトルVfjとして特定するようにしてもよい。
【0108】
また、上記第1および第2の実施形態では、対策情報生成部14がリスクに対する対策に関する情報を生成する際に、そのリスクに関連する内容を有する解析対象データ(特徴ベクトルと共に解析対象データ記憶部22にあらかじめ記憶されている)を用いる例について説明した。例えば、特定の病気にかかる可能性に係る疾病罹患リスクへの対策に関する情報を生成する際に、患者の電子カルテやインシデントレポートなどの文書データを用いて対策に関する情報を生成することとした。この場合における電子カルテ等は、予測した特定の病気とはいっけん無関係と思われる内容の電子カルテ等であってもよい。また、電子カルテ等の医療に関する文書データとは異なる種類の文書データを用いるようにしてもよい。このようにすれば、既存の知見や経験則などから人間の判断では得ることが難しい、固定観念や制約などに捕らわれない新たな有効な対策情報を得ることが期待できる。
【0109】
その他、上記第1および第2の実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
【符号の説明】
【0110】
11 特徴ベクトル算出部
12 リスク予測部
13,13’ リスク低減ベクトル特定部
14 対策情報生成部
15 探索トピック指定部
16 探索トピック特定部
17 予測トピック指定部
18 予測トピック特定部
21 リスク予測モデル記憶部
22 解析対象データ記憶部
23 対策予測モデル記憶部