(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-05-14
(45)【発行日】2025-05-22
(54)【発明の名称】AIによる事象クラスの判別方法及び判別システム
(51)【国際特許分類】
G06N 20/00 20190101AFI20250515BHJP
G16H 50/20 20180101ALI20250515BHJP
【FI】
G06N20/00 130
G16H50/20
(21)【出願番号】P 2022510691
(86)(22)【出願日】2021-03-25
(86)【国際出願番号】 JP2021012705
(87)【国際公開番号】W WO2021193864
(87)【国際公開日】2021-09-30
【審査請求日】2024-03-22
(31)【優先権主張番号】P 2020054986
(32)【優先日】2020-03-25
(33)【優先権主張国・地域又は機関】JP
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成29年度及び30年度、国立研究開発法人日本医療研究開発機構、AIを活用した保健指導システム研究推進事業委託事業、産業技術力強化法第19条の適用を受ける特許出願
(73)【特許権者】
【識別番号】504136568
【氏名又は名称】国立大学法人広島大学
(73)【特許権者】
【識別番号】517003417
【氏名又は名称】CMIC Trust株式会社
(73)【特許権者】
【識別番号】899000057
【氏名又は名称】学校法人日本大学
(73)【特許権者】
【識別番号】300044779
【氏名又は名称】株式会社データ ホライゾン
(74)【代理人】
【識別番号】110000855
【氏名又は名称】弁理士法人浅村特許事務所
(72)【発明者】
【氏名】木原 康樹
(72)【発明者】
【氏名】森山 美知子
(72)【発明者】
【氏名】加澤 佳奈
(72)【発明者】
【氏名】渡邉 拡人
(72)【発明者】
【氏名】中村 高歩
(72)【発明者】
【氏名】吉開 範章
(72)【発明者】
【氏名】永久 晴拡
【審査官】福西 章人
(56)【参考文献】
【文献】米国特許出願公開第2019/0362072(US,A1)
【文献】特開2013-148996(JP,A)
【文献】特開2005-284348(JP,A)
【文献】特開2005-209211(JP,A)
【文献】特開2018-155522(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
G06F 18/00-18/40
G16H 50/20
(57)【特許請求の範囲】
【請求項1】
識別コードにより特定される対象の事象をクラス分けしたAI(Artificial Intelligence)学習用の教師データと、事象のクラス判断が求められる対象に関するデータをAI処理し、AI処理によって求められたクラス判断データを受信するためのシステムであって、
前記学習用の教師データを複数のAI処理に各々ランダムに入力して学習させ、前記対象に関するデータを前記複数のAI処理に各々に入力して各学習に応じたクラス判断データを各々のAI処理から受信
し、
前記複数のAI処理に入力された学習用の教師データと、前記複数のAI処理から得られたクラス判断データとを比較して、前記複数のAI処理に基づくクラスの分散または偏差が所定値以下である前記複数のAI処理の学習用教師データから、前記教師データに基づくクラスと前記複数のAI処理に基づくクラスとの不一致数が所定値以上である教師データを削除する、ように構成された、システム。
【請求項2】
前記対象の事象のクラスは、時期的な期間の経過に応じて変化する事象のクラスであり、AI処理により求められる事象のクラス判断も時期的な期間の経過後に予想される事象のクラスである、請求項1に記載のシステム。
【請求項3】
前記識別コードにより特定される対象の事象のクラスの決定は、各々のAI処理から得られた複数のクラス判断データが最も多く属するクラスとする、請求項
1に記載のシステム。
【請求項4】
前記対象は人であり、前記事象は当該人の重症度である、請求項1に記載のシステム。
【請求項5】
記憶装置に格納された識別コードにより特定される対象の事象をクラス分けしたAI学習用の教師データを
、情報処理装置によって複数のAI処理に各々ランダムに入力して学習させ、
さらに前記情報処理装置によって事象のクラス判断が求められる対象に関するデータを前記複数のAI処理に各々に入力して各学習に応じたクラス判断データを各々のAI処理から受信する、方法であって、
前記方法はさらに、前記複数のAI処理に入力された学習用の教師データと、前記複数のAI処理から得られたクラス判断データとを比較し、前記複数のAI処理に基づくクラスの分散または偏差が所定値以下である前記複数のAI処理の学習用教師データから、前記教師データに基づくクラスと前記複数のAI処理に基づくクラスとの不一致数が所定値以上である教師データを削除する、ことを特徴とする、方法。
【請求項6】
前記対象の事象のクラスは、時期的な期間の経過に応じて変化する事象のクラスであり、AI処理により求められる事象のクラス判断も時期的な期間の経過後に予想される事象のクラスである、請求項
5に記載の方法。
【請求項7】
前記識別コードにより特定される対象の事象のクラスの決定は、各々のAI処理から得られた複数のクラス判断データが最も多く属するクラスとする、請求項
5に記載の方法。
【請求項8】
前記対象は人であり、前記事象は当該人の重症度である、請求項
5に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、個人や物、あるいは情報に関するデータから、その個人や物、あるいは情報に基づき分類されるべき事象のクラス分けを行うための方法、装置に関する。
【背景技術】
【0002】
個々の個人や、物、あるいは情報等の対象に関する様々なデータから、その個人や、物、あるいは情報に関するランク、等級、危険性、重要度、といったある種の事象のクラス分けを行うことが少なくない。
【0003】
そのクラス分けは、一般に多数のデータに基づいて判定されるものであり、個人や、物、あるいは情報等の対象の事象に関連するデータの種類の専門家の判断によることで、そのクラス分けの信用度も増大する。
【0004】
例えば、医療関係でいえば、対象となる各個人の医療データに基づき、各個人が事象として有する病気の重さや重篤度が、その専門家である医師等の医療従事者によって総合的に判断されることで、その正確度が向上する。
【0005】
加えて、個人や、物、あるいは情報等の対象の事象は、時間とともに変化するものであり、その事象の変化に応じて、分類されるクラスも変化する。
【0006】
したがって、現在や過去のデータに基づいた将来的な事象の変化をクラスの変化として推測することができれば、事前のリスク回避や将来的な準備など、より良い社会的な活動に貢献することができる。
【0007】
一方、今年のAI技術の向上により、様々なデータに基づいて予測判定の制度の向上が図られている。
【0008】
しかし、そのAIは、結果出力のための推論と結果との因果関係が明確でないために、因果関係の明確化を求められる分野にとって、その利用の妨げとなっている。
【0009】
したがって、少なくとも、専門家が判断を行うための視点に沿った判断がされたAI処理が求められている。
【0010】
さらに、専門家の判断にもエラーやその時々の環境に応じて微妙に変化する揺らぎが存在する。しかも、あるクラス分けを行う場合には、その判断が専門家間で微妙に異なり、それが各専門家の個性ともなって、個性に基づいた回答結果であるリスク分けにも違いを生じる。その個性は尊重すべき点もあるが、その個性によって特異なクラス分けがされると却って予測の精度が低下することともなる。
【0011】
一方、AIの判断においても、ビッグデータと呼ばれる大量のデータと比較すると、専門家が判断するデータは比較して少数であり、AI自体の回答の精度もそれ故、幅を有することとなる。
【0012】
したがって、専門家の判断の個性を維持しつつ、専門家の回答の正確性と、AIによる判断の正確性との相互を調整する新たな手法が求められていた。
【先行技術文献】
【特許文献】
【0013】
【文献】特開2018-173814号公報
【文献】特開2019-212146号公報
【文献】特開2016-206950号公報
【発明の概要】
【発明が解決しようとする課題】
【0014】
本発明は、かかる観点から新たな判断手法およびそのシステムを提供するものであり、専門家が判断を行うための視点に沿った判断がされたAI処理を可能とし、さらに、専門家の回答の誤差とAIの回答の誤差の相互を調整して少ない学習データであっても、有効な回答が可能な新たな判断手法、及びシステムを提供するものである。
【課題を解決するための手段】
【0015】
本発明によると、識別コードにより特定される対象の事象をクラス分けしたAI(Artificial Intelligence)学習用の教師データと、事象のクラス判断が求められる対象に関するデータをAI処理して、AI処理によって求められたクラス判断データを受信するように構成されたシステムが提供される。
【0016】
そのシステムは、学習用の教師データを複数のAI処理に各々ランダムに入力して学習させ、対象に関するデータを複数のAI処理に各々に入力して各学習に応じたクラス判断データを各々のAI処理から受信するように構成され、これにより、各識別コードに対応する各々のクラス判断データに基づき、当該識別コードにより特定される対象の事象のクラスが決定される。
【0017】
ここで、上記対象は人とすることができ、事象は当該人の健康に関する重症度であり、重症度を複数のクラスとして分類する。
【0018】
さらに、識別コードにより特定される対象の事象のクラスの決定は、各々のAI処理から得られた複数のクラス判断データが最も多く属するクラスとすることができる。
【0019】
さらに、各々のAI処理から得られた複数のクラス判断データが所定の条件に該当するかどうかを判断し、その所定の条件に該当する複数のクラス判断データに対応する教師データを全体の教師データから削除してAIの学習用の教師データとする。
【0020】
上記所定の条件は、少なくとも、各々のAI処理から得られた複数のクラス判断データ同士の分散に基づいてもよく、例えば、各々のAI処理から得られた複数のクラス判断データ同士の分散が所定の度合い以下であることを条件としてもよい。
【0021】
さらには、上記所定の条件に、教師データの示すクラスと、当該教師データに対応する複数のAI処理によるクラス判断データの示すクラスとの間の不一致の数が所定以上の場合であることを条件として加えてもよい。
【0022】
ここで、上記対象の事象のクラスは、時期的な期間の経過に応じて変化する事象のクラスであり、AI処理により求められる事象のクラス判断も時期的な期間の経過後に予想される事象のクラスとすることができる。例えば、医療でいえば、年度ごとに変化する重症度のクラスを予想するのに利用可能である。
【0023】
さらに、本発明は方法を提供し、その方法は、記憶装置に格納された識別コードにより特定される対象の事象をクラス分けしたAI学習用の教師データを、複数のAI処理に各々ランダムに入力して学習させ、事象のクラス判断が求められる対象に関するデータを情報処理装置によって前記複数のAI処理に各々に入力して各学習に応じたクラス判断データを各々のAI処理から受信し、各識別コードに対応する各々のクラス判断データに基づき、当該識別コードにより特定される対象の事象のクラスを決定する、ステップを有する。
【図面の簡単な説明】
【0024】
【
図1】本発明の一実施形態である情報処理装置が、ネットワークに接続された構成を示す図である。
【
図2】
図1の情報処理装置のハードウェア構成を示す図である。
【
図3】
図1の情報処理装置の各機能構成部を示すブロック図である。
【
図4】
図1の情報処理装置の記憶部に格納されるデータの一例を示す。
【
図5】
図1の情報処理装置が実行する処理フローの一部を示す概念図である。
【
図6】
図5の処理フローに引き続く処理フローの一部を示す概念図である。
【
図7】
図6の処理フローに引き続く処理フローの一部を示す概念図である。
【
図8】
図7の処理フローに引き続く処理フローの一部を示す概念図である。
【
図9】
図8の処理フローに引き続く処理フローの一部を示す概念図である。
【
図10】本発明を医療分野に適用する際に考察した医療比構成の現状を示す概念図である。
【
図11】各医療機関より取得した医療データの対象年度を示す。
【
図12】AIによる判断の有効性を検証するための処理フローの例を示す。
【
図13】49項目の主要因子に基づいたAIによる判断結果の一例を示す。
【
図14】医療の専門家予測判定と複数AI判定により教師データから異常と判断された所定の専門家予測判定データを削除する例を示す。
【
図15】調整後の教師データによるAI予想判定の例を示す。
【発明を実施するための形態】
【0025】
図1は、本発明の一実施形態に従ったシステム1を示す。一実施形態として情報処理装置100はネットワーク20に接続されている。ユーザは、情報端末30を介して情報処理装置100にアクセスし、情報処理装置100が提供するサービスを受けることができる。アクセスは、インターネット、専用回線、屋内回線等の有線、または無線ネットワーク20を介してなされる。アクセス可能な情報端末の数に特に制限はなく、利用する目的に応じて適宜利用可能である。情報処理装置100は、情報端末30からの入力データをネットワーク20を介して受け付け、対応したサービスを提供するように構成されている。
【0026】
提供元データサーバ10は、ネットワーク20を介して、情報処理装置100のサービス内容に応じて必要なデータを情報処理装置100に提供するように構成されている。必要であれば、情報処理装置100、提供元データサーバ、そして情報端末30との間で、相互認証や、データの扱いに対する同意形成が予め行われるようにしてもよい。
【0027】
AIサーバ又はサーバエンジン200は、CPU、複数のプロセッサコアを実装したマルチ・プロセッサ、GPU(Graphics Processing Units)、DSP(Digital Signal Processors)、FPGA(Field-Programmable Gate Arrays)等のハードウェアを組み合わせることによって構成可能であり、機械学習機能や、言語解析機能、さらには、音声認識機能、などを実現するアルゴリズム又は学習済モデルなどで構成され得る。量子プロセッサを組み合わせることも可能であり、機械学習機能は、例えば、深層学習(ディープラーニング)を含むニューラルネットワーク又は強化学習などによって達成され得る。尚、サーバは、1つ又は複数のサーバで構成することも可能であり、AIエンジン部と記憶部等、各構成要素を分散配置するようにしてもよい。
【0028】
次に、
図2を参照して、情報処理装置100のハードウェア構成を説明する。
【0029】
本実施形態の一例に応じた情報処理装置100は、CPU(Centr al Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、記憶部、ネットワークI/F(Interface)を含む通信部、表示部、入力部等を有する。必要に応じて、他のハードウェア構成を含み得る。
【0030】
CPUは、ROMや記憶部等に記憶されたプログラムやデータを読み出し、必要なデータをRAM上に格納しながら、処理を実行することにより、情報処理装置100の制御や機能を実現する演算装置である。
【0031】
記憶部は、OS(Operating System)や、各種のアプリケーシ ョンプログラム等を記憶するための、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)等のストレージ装置である。
【0032】
通信部は、情報処理装置100とネットワーク20とのインタフェースを提供し、ネットワーク20に結ばれた情報端末30、提供元データサーバ10、AIサーバ200等の外部装置との情報通信を行うための通信インタフェース機能を有する。
【0033】
表示部は、ディスプレイ等の表示装置であり、情報処理装置100による処理結果をユーザに表示する。入力部は、例えばキーボード、マウス、カメラ、マイク等の入力装置とすることができる。
【0034】
バスは、情報処理装置100内の各構成部を接続するために、アドレス信号、データ信号、及び各種の制御信号等を伝達する。
【0035】
なお、情報処理装置100は、上記構成に限らず、別々のコンピュータにより分散して実現されてもよければ、情報処理装置100の各構成要素が分散して一体的に機能してもよく、また、情報処理装置100を構成する各要素も、単一でもあるいは複数の組み合わせからなってもよい。さらに、求められるサービス内容により、情報端末30と情報処理装置100との間で必要なアプリケーションが分散されて、協働してサービスが実現されるようにしてもよい。
【0036】
また、システムは、本実施形態で示されたハードウェア構成に限定されず、本発明を実施できるものであれば、どのような形態であってもよい。また、民間等が提供する外部のAI処理機能を利用してもよい。
【0037】
図3は、情報処理装置100が有する機能の一例を示す。
図4は、情報処理装置100の記憶部に格納される各種データを示す、
図5乃至
図9は、本発明の実施形態に基づく一連の主要な処理フローを示す。
【0038】
データ収集部110は、対象事象のクラス判定を行う上で必要となるデータを収集し(
図5のステップS110)して、識別データ(ID)で管理可能なID別データD110として記憶する。
【0039】
主要因子選別部120は、本発明の方法、システムを利用するユーザがクラス判定を行う上で利用される因子を選択できるようにしている。ユーザの代わりに、システム1が自動に判断して有効な因子を選択できるようにしてもよい。
主要因子データ抽出部130は、主要因子選別部120によって選択された因子から、その因子に関連するID毎のデータ(以下、「ID別因子データ」または単に「因子データ」ともいう)を、データ収集部110で収集したデータから抽出してID別因子データD120として記憶する(ステップS120)。
【0040】
尚、因子は予め選択され、その選択された因子に基づき、必要となる因子データを提供元データサーバ10から収集できるようにしてもよい。
【0041】
識別データは、個人や会社、物、情報等の対象を一意に識別できるデータであり、収集されたデータや抽出されたID別因子データD110は、その識別データに対して紐づけできる各種データを含む。
【0042】
例えば、識別データは、個人で言えば、氏名自体であったり、あるいは、その氏名を特定可能な識別コード(例えば、病院に通院した際に患者IDや、銀行取引の際のアカウント番号、ネットワーク通販等で商品等を購入する際に使用するID等)である。もちろん、その個人や会社等を特定できるものであれば、多数のIDやアカウント等でよく、それらに紐付けされたデータを全体的に収集、統合できるようにしてもよい。
【0043】
その識別データに対して紐づけできる各種データには、それらのデータから、個人や会社、物、情報等の対象に関するある種の事象をクラス分けすることに利用できるものであれば、その種類は問わない。
【0044】
例えば、対象を会社として、事象を各会社の健全性としてクラス分けすることができ、各種データは、会社の健全性に関連するいかなる情報であってもよい。
【0045】
クラス分け教師判定部140は、ID別データD110から抽出したID別因子データD120の一部のID別因子データをクラスの判別として使用する(ステップS130)。代わりに、ID別データD110から直接ID別因子データを抽出してクラスの判別として使用するようにしてもよい。信頼できるクラスの判別を可能とするために、判別はそのデータに関連する実務に精通する専門家や知識人等(以下、単に「専門家」ともいう)が行うことが好ましい。
【0046】
実務の専門家は、情報端末30を介して、情報処理装置100にクラスの判別結果を入力するようにしてもよい。そのために、情報処理装置100は、抽出した因子データを情報端末30を介して専門家に情報表示し、専門家は、その表示されたデータに基づき、自らの経験や知識に基づいて、クラスの判別結果を情報端末30に入力して、情報処理装置100へと記憶することができる。
【0047】
クラスの判別を行う専門家は、複数人であることが好ましく、情報処理装置100は、各複数人によるクラスの判別結果を、情報処理装置100に記憶する。
【0048】
したがって、クラス分け教師判定部140によって行われるステップS130は、専門家がクラスの判別ができるように情報処理装置100から情報端末30に因子データを提供し、情報端末30から情報処理装置100へと判別データを提供できるような、簡単なインタフェースアプリケーションとして実現されてもよく、あるいは、専門家が判別データを情報処理装置100に入力可能な単純なアプリケーションとして実現されてもよい。クラスの判別は、異なる専門家が同一の識別コードに基づいた同一の情報に基づき重複して独自に行ってもよい。
【0049】
このクラスの判別結果は、AIに入力して、学習用のデータとして使用するために、ここでは、一般化した名称として、教師判定データD130と呼ぶことができる。
【0050】
教師判定データD130は、因子データに基づいた現在のクラスの判別のほか、将来予想できるクラスの判別データであってもよい。将来の予測とは、翌年度の予測や、次月度の予測等を含み、その将来の期間をどのようにするかは、特に限定するものではない。また、収集するデータが属する期間に応じて、その将来の期間を適宜設定するようにしてもよい。
【0051】
教師判定データノイズ除去部150は、学習用として入力される教師判定データのうちから特異なデータやあるいは異常なデータ等、クラスの判別結果が異常として扱われるデータを、例えばノイズを有するデータであるとして、全体の教師判定データから排除する。
【0052】
教師判定データノイズ除去部150が行うこの排除方法の一実施形態を
図6及び
図7を参照して説明する。
【0053】
まず、教師判定データD130が、AIサーバ200等のAI処理に入力されて教師判定データD130の内容に従った学習が行われる。加えて、ID別因子データD120が、クラス予想の対象でとしてAI処理に入力され、学習に応じたクラス判別を伴ったAI判定データD140として情報処理装置100に出力される(ステップS140)。
【0054】
ここで、教師判定データD130として専門家の判別に使われるID別因子データは、
図5に示したように、上記ID別因子データD120から一部が抽出されたものが利用可能であるが、主要因子データ抽出部130は、ID別因子データD120と専門家の判別に使われるID別因子データとを別々に外部サーバから収集してもよい。つまり、AIによって判定のために使用されるID別因子データD120と、学習用にAIに投入されるID別因子データは、いつどのような経路で取得し用意するかは、特に限定されない。
【0055】
AI判定データD140は、個別の識別コード(ID)毎に教師判定によるクラス、すなわち、専門家が判別したクラスと、AIによって判別したクラスとを伴うことができる。
【0056】
このAIへの学習とAIのよる判別は、複数のAI処理で行われることが好ましい。また、複数のAIへのデータの入力は、ランダムに行うことが好ましい。ランダムに入力された教師判定データD150とID別因子データD120は、複数のAIにより個別に処理され(ステップS140)、個別のAI判定データがAI毎の出力として情報処理装置100に受信され記憶される。そして、それらのAI判定データから、識別コード別の複数AI判定データD140が作成される。
【0057】
次に、各識別コードごとに、教師判定によるクラス分けと、各AIによるクラス分けのデータから、異常値として判断される教師判定データを削除する。
図7は、その判定から、IDが0002に対してクラスが1として判定した教師判定データを削除する(
図7のステップS150)例を示している。
【0058】
異常値の判断は、例えば、AI判定によるクラスと教師判定によるクラスとの間に所定の差や距離が生じた場合に、その教師判定データはノイズとして処理して、全体の教師判定データから除去する(ステップS150)。
【0059】
例えば、クラスを1~4に分けて番号付けを行った場合に、AI判定によるクラスと教師判定によるクラスとの間で所定の値、例えば、3以上の差を有した場合には、異常値として判断することができる。もちろん、異常なクラス判定とする手法は、これに限定されず、他の適切な判断手法を適用できることは言うまでもない。このように、クラスを番号として管理することで、情報処理装置100は、数学的な演算処理として実行することが可能となる。
【0060】
複数のAIによる予想を行う場合には、集合知定理を利用してもよい。集合知定理は、次の式で表すことができる。
集団誤差=平均個人誤差-分散値
【0061】
集団誤差は、ある集団のメンバーで推定した値の平均と正解との差である。平均個人誤差は、各メンバーの誤差の平均値、そして分散値は、各メンバーの推定値のばらつきである。
数学的には、
メンバーiの推定値をXi(i=1,2,…,N)
集団推定値をA, 真値をRとした時
集団誤差=(A-R)2
A= { X(1)+X(2)+・・・+X(N)}/ N
平均個人誤差= { (X(1)-R)2+(X(2)-R)2+・・+(X(N)-R)2}/ N
ばらつき(分散値)= { (X(1)-A)2+(X(2)-A)2+・・+(X(N)-A)2}/ N
で表すことができる。
【0062】
この集合知定理が示すところは、集団における個人の推測誤差(第1項)は、多様性(第2項)によって相殺され、集団として正解に近い推測ができる、というものである。
【0063】
本発明について適用すると、AIサーバまたはAIエンジンであるAI(1)~AI(n)(nは整数)を各メンバーとし、各メンバーが予想判定したランクを推定値としたとき、複数のAIの判定結果は、正解を中心にした分布を示すはずであり、この集合知定理によると、各メンバーの判定結果の分散値が大きい方が、集団の平均で示す解は、個々のAIの判定結果に比べて、正解になる精度が上がることを意味する。
【0064】
教師データの中の異常なクラス判定のデータを削除し、全体の誤差を小さくするためには、この集合知定理に基づいて、AIの誤差が小さく、分散値が大きい事が条件とすることができるため、削除するデータは、誤差が大きく、分散値又は標準偏差が小さいデータに渋ることができる。
【0065】
したがって、本実施形態では、AIの判定したランクの分散が所定の範囲内にあり、例えばその標準偏差がある閾値以下の場合を一つの条件として、その該当するAI判定に対応する教師データを全体の教師データから削除する。または、若しくはその条件に加えて、複数のAIのクラス予想と教師データのクラスとの間で、所定以上の数のAIが教師データのクラスと違いが生じている場合を条件とし、その教師データは異常値であるとして、その教師データを全体の教師データから削除するようにしてもよい。
【0066】
例えば、AIの数を10として、AI同士の判定の標準偏差が0.5以下であって、AIの判断と教師データとの不一致となっているAI数が7以上あった場合には、その教師データは無視できないゆらぎ又はブレによる異常値を有するとして、除去するようにしてもよい。
【0067】
なお、ここで使用されている「異常」または「異常値」の用語は、特定の条件の教師判定データを除去するために便宜的に使われているものであり、「異常」という用語は、広くAI処理にふさわしくないと判断される教師データを排除する対象を示すためのものであることを理解すべきである。
【0068】
図7に示すように、異常であると判断された教師判定データが除去された教師判定データは調整済み教師判定データD150として記憶される。
【0069】
図8を参照すると、除去後データクラス判定部160は、複数の識別コードに関連する複数の因子データを含み異常データが除去された調整後の教師判定データD150を学習用データとして利用するために前述のAIサーバ200に入力する。さらに、クラス分けしたい1つ又は複数の識別コードに関連する一群のID別因子データD120もAIサーバ200に入力するし。AI処理により、その一群のID別因子データに基づき、各識別コードに対応するクラス分けのAI判別が実行される(ステップS160)。除去後データクラス判定部160は、AIによるその判別結果を受信し、AI判定データD160として記憶する。
【0070】
このとき、調整後の教師判定データD150とID別因子データD120も、複数のAI(1)~AI(n)に入力して予想判別することが好ましい。また、複数のAIへのデータの入力は、ランダムに行うことが好ましい。ランダムに入力された調整後の教師判定データD150とID別因子データD120は、複数のAIにより個別に処理され、調整後の個別AI判定データがAI毎の出力として情報処理装置100に記憶される。そして、それらのAI判定データから、識別コード別の最終クラスAI判定データD160が作成される。
【0071】
図9に示したように、最終クラス判定部170によって最終的なクラス判定が行われる(ステップS170)。最終クラスAI判定データD160に列記された識別コードごとのAI(1)~AI(n)のクラス判定から最終の判別クラスデータD170が作成される。このクラス判定基準は、AI(1)~AI(n)の予想したクラスの中央平均から決定してもよければ、最も多いクラスを最終的なクラスとして決定してもよく、あるいは他の適切な決定方法であってもよい。
【0072】
次に、本発明を医療分野に適用した実施例を説明する。
【実施例1】
【0073】
(AIの有効性の事前確認 その1)
本発明を行う上で、本発明の基本的な思想によるAI利用方法が有効であるかどうかの事前確認を行った。
【0074】
図10は、健康診断を受診した人の状態を、クラスとして4つの層に分け、各層の人数構成と、医療費との関係の概要を示している。
【0075】
下の層から、クラス1、クラス2、クラス3、そしてクラス4とクラス番号付けを行い、クラス1は、今後も健康増進を期待するもの、クラス2は軽度のもの、クラス3は中度のもの、そしてクラス4を重度のもの、としている。
【0076】
この4つの層は、人への病気の危険度を図る上でも利用可能あり、重症化のレベルとしても把握でき、最上位は重症化レベルが最大であり、最下層は、重症化レベルとしてはほぼ無いとも判断できる。したがって、このクラス分けはリスク分けでもあり、本発明は、リスク管理として利用することができる。
【0077】
このクラス分けを行った場合に、その分け方にも依存するが、全体の人数に占める各層の人数の割合は、下から、50%、30%、15%、5%といった略ピラミッド状を形成する。一方、全体の医療費の占める各層の医療費は、最上位層のクラス4で、40%を占め、その下に行くにしたがって、35%、20%、5%の逆ピラミッドの分布を形成する。
【0078】
したがって、人数構成が5%や15%となるクラス4やクラス3の発生を予想し、その予防ができれば、重度となる可能性のある人へのより適切なケアを可能とし、全体の医療費の削減も可能となる。
【0079】
そこで、まずは、事前に本発明の有効性を検証するために、医療機関から250人の健診や医療データ(以下、単に「医療データ」という)を取得し、2014年の医療データを医療に従事する医師やその他の専門家(単に「専門家」ともいう)に目視してもらい、翌年度の2015年時点での各人の重症化のリスクレベルを予想してもらった。
【0080】
そして、そのリスク番号を1~4の番号に振り分けてもらい、リスク番号1~4を伴った各人の医療データを学習用データとしてAIに入力した。さらに、その学習したAIに対して、250人の中から2014年の50人の医療データを入力して、2015年の重症化リスクとして予想した。
【0081】
その結果、50人のうち、専門家による2015年度の予測とAIによる2015年度の予測との間で、8件(人)が相違した。
【0082】
さらに、50人の2015年の医療データからその年の重症度を専門家によって判断してもらい、その実際の結果を専門家とAIの両予測データと比較したところ、相違する8件のうち、AIが予想した2件の重症度と実際の結果とが一致した。
【0083】
このことから、小規模なデータではあるが、AIの有効性の可能性が確認された。
【実施例2】
【0084】
(AIの有効性の事前確認 その2)
医療機関から得られるデータは多岐の種類にわたるが、個別保健指導で得ることのできる各疾患に影響する因子であって、レセプトデータや健診データから取得可能な項目を一定数に絞り、主要な因子として洗い出しができれば、広く一般の被医療者にも予測が可能となり、利用範囲が広がるとともに、予測精度の向上も図れる。
【0085】
かかる観点から、ここではその過程を詳述しないが、49項目の因子データを用いることとした。
【0086】
まず、情報処理装置100は、各種医療機関のデータサーバ10(
図1)から、「診療情報明細書」、「介護給付明細書」、「特定健診結果」及び「被保険者マスタ」のデータを収集してID別データD110を構成し、選択した49項目の2014年度の因子データを有する2699件のID別因子データD120を作成して記憶した。
【0087】
尚、
図11は、各医療機関から収集したデータの該当年度を示している。
【0088】
つぎに、情報処理装置100に格納された2699件のID別因子データD120を読み出し、25人の専門家により、利用する情報端末30を介してそれらのID別因子データD120の内容を表示し、2014年度の49項目各データに基づいた専門家による臨床推論を行った。
【0089】
臨床推論により得られた2015年度のリスク予測は、情報端末30に入力され、リスク予測を有する2699件の各IDごとの教師判定データD130として情報処理装置100に記憶した。
【0090】
さらに、
図13に示すように、情報処理装置100は、この2699件の教師判定データD130をAI学習用データとしてAIに入力して学習させた。
【0091】
また、2015年年度のリスク予想に使用されるデータとして、情報処理装置100が収集して抽出した2014年度実データである6707件のID別因子データD120をAIサーバ200に入力した。
【0092】
その結果として、情報処理装置100は、AIサーバ200が予測した6707件の予測データ(2015年度のクラス予測データ)をAIサーバ200から受信した。
【0093】
AIサーバ200が予測した結果の正確性を確認するために、専門家により、2015年度の6707件の実データに基づいた臨床推論によりリスク分けを行い、その結果(2015年実データに基づく教師クラス実判定)とAI予測(2015年クラス予測)とを比較した。
【0094】
結果は、クラスの一致する割合が58.90%であり、各クラスの割合は、
図13に示す通りであった。
【0095】
以上から、ある年度のデータから翌年度の重症度の予測の可能性があることが理解できたが、より高い精度での予測も望まれた。
【実施例3】
【0096】
(複数AI判定による不必要なゆらぎやブレの排除と、予測の向上)
【0097】
教師データの内容を調査した結果、専門家によっては、重症度予測にばらつきがあったり、他とかけ離れた重症度予測となっており、それが教師データの揺らぎとして、AI予測の精度にも影響を与えていることが分かった。
【0098】
したがって、
図6~
図9のフローで説明したように、複数のAIによる複数のAI予測結果を利用し、専門家予測との間での比較を行い、比較により異常と判別された重症度予測を排除したデータに基づく再度のAI予測から最終的な重症度予測を行うこととした。
【0099】
実施例2で説明した、2699件のID別因子データD120からの教師判定データD130と、情報処理装置100が収集して抽出した6707件のID別因子データD120とを利用し、複数のAIに対して、教師判定データD130内のデータの順をランダムに情報処理装置100より複数のAIに入力して、AI予測を行った。その結果得られた複数のAIによる重症度を、ID別にその対応する専門家の予測重症度と比較した。
【0100】
比較は、専門家判定データと、AI(1)~AI(n)各判定データとの比較に加え、AI(1)~AI(n)同士間の判定も行い、
図14のリストとして示したように、すでに説明した集合知定理に基づき、専門家判定データがAI判定データと一致しない数が7以上の場合であって、AI同士間の判定のブレが標準偏差で0.5未満である、専門家判定データを削除することとした。
【0101】
なお、ここで示した数字は例示であって、任意の値によって異常値として判定し得る。
【0102】
このように、
図7で示したステップに従い、2699件の全体の教師データから異常値を有するとして判断された教師データを削除して、2228件の新たな教師データD150を作成した。
【0103】
その新たな教師データD150と2014年度の6707件のID別因子データから、
図8で示すステップのように、情報処理装置100は、複数のAIに対してランダムに学習させてAIサーバから予測した判定結果を受信した。
【0104】
図15に示すように、AIサーバから出力された6707件の2015年度クラス予測データと、2015年度の実データに基づく専門家によるクラス実判定とを比較した結果、すべてのAI(1)~AI(n)(n=10)について、83%以上の著しい向上が見られた。
【0105】
このことは、一般の医療従事者の目線にあったAI予測が可能であることを示しており、広く医療範囲に適用可能となる根拠を示すものである。
【0106】
また、説明した4つの層は、人への病気の危険度を図る上でも利用可能あるために、このクラス分けはリスク分けにも相当し、各層はリスク層としても認識できる。よって、本発明によるクラス分けに基づくAI予想は、リスク管理にも有効であると理解できるだろう。
【0107】
以上のように本発明の実施態様について説明したが、上述の説明に基づいて当業者にとって種々の代替例、修正又は変形が可能であり、本発明はその趣旨を逸脱しない範囲で前述の種々の代替例、修正又は変形を包含するものである。
【符号の説明】
【0108】
10 提供元データサーバ10
20 ネットワーク
30 情報端末
100 情報処理装置
200 AIサーバ又はサーバエンジン