IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

<>
  • 特許-情報処理システムおよび情報処理方法 図1
  • 特許-情報処理システムおよび情報処理方法 図2
  • 特許-情報処理システムおよび情報処理方法 図3
  • 特許-情報処理システムおよび情報処理方法 図4
  • 特許-情報処理システムおよび情報処理方法 図5
  • 特許-情報処理システムおよび情報処理方法 図6
  • 特許-情報処理システムおよび情報処理方法 図7
  • 特許-情報処理システムおよび情報処理方法 図8
  • 特許-情報処理システムおよび情報処理方法 図9
  • 特許-情報処理システムおよび情報処理方法 図10
  • 特許-情報処理システムおよび情報処理方法 図11
  • 特許-情報処理システムおよび情報処理方法 図12
  • 特許-情報処理システムおよび情報処理方法 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-03
(45)【発行日】2024-09-11
(54)【発明の名称】情報処理システムおよび情報処理方法
(51)【国際特許分類】
   G06N 20/00 20190101AFI20240904BHJP
【FI】
G06N20/00
【請求項の数】 7
(21)【出願番号】P 2020186712
(22)【出願日】2020-11-09
(65)【公開番号】P2022076345
(43)【公開日】2022-05-19
【審査請求日】2023-06-12
(73)【特許権者】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110000279
【氏名又は名称】弁理士法人ウィルフォート国際特許事務所
(72)【発明者】
【氏名】宮永 瑞紀
(72)【発明者】
【氏名】恵木 正史
(72)【発明者】
【氏名】船矢 祐介
【審査官】山本 俊介
(56)【参考文献】
【文献】特開2020-144493(JP,A)
【文献】特開2016-109495(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
(57)【特許請求の範囲】
【請求項1】
情報処理システムであって、
対象データを判定可能な機械学習モデルと前記対象データとに基づいて、前記機械学習モデルによる前記対象データの判定に寄与する特徴量である寄与特徴量を検出する寄与特徴量検出部と、
前記機械学習モデルにより使用される学習データであるデータ群から、前記寄与特徴量に類似する特徴量を持つデータである類似データを抽出する類似データ抽出部と、
前記類似データに含まれる各パラメータのうち少なくとも一つの所定のパラメータを修正可能な学習データ修正部と、
前記修正された類似データを含む前記データ群に基づいて前記機械学習モデルを更新する機械学習部を備える
情報処理システム。
【請求項2】
請求項に記載の情報処理システムであって、
前記類似データの重要度に基づいて前記対象データの重要度を算出する重要度算出部と、
前記算出された対象データの重要度と前記対象データとを対応付けて前記データ群に追加するデータ追加部と、
前記追加されたデータを含むデータ群に基づいて前記機械学習モデルを更新する機械学習部とをさらに備える
情報処理システム。
【請求項3】
請求項1に記載の情報処理システムであって、
前記寄与特徴量検出部は、前記寄与特徴量が前記機械学習モデルによる判定に寄与する度合を示す寄与度を算出するものであり、
前記類似データ抽出部は、前記算出された寄与度に基づいて、前記類似データが前記対象データに類似する度合を示す類似度を算出する
情報処理システム。
【請求項4】
請求項1に記載の情報処理システムであって、
少なくとも一つのプロセッサを備えており、
前記プロセッサは、少なくとも前記寄与特徴量検出部と前記類似データ抽出部とを実現する
情報処理システム。
【請求項5】
少なくとも一つの計算機により実行される情報処理方法であって、
対象データを判定可能な機械学習モデルと前記対象データとに基づいて、前記機械学習モデルによる前記対象データの判定に寄与する特徴量である寄与特徴量を検出する寄与特徴量検出ステップと、
前記機械学習モデルにより使用される学習データであるデータ群から、前記寄与特徴量に類似する特徴量を持つデータである類似データを抽出する類似データ抽出ステップと、
前記類似データに含まれる各パラメータのうち少なくとも一つの所定のパラメータを修正可能な学習データ修正ステップと、
前記修正された類似データを含む前記データ群に基づいて前記機械学習モデルを更新する機械学習ステップを実行する
情報処理方法。
【請求項6】
請求項に記載の情報処理方法であって、
前記類似データの重要度に基づいて前記対象データの重要度を算出する重要度算出ステップと、
前記算出された対象データの重要度と前記対象データとを対応付けて前記データ群に追加するデータ追加ステップと、
前記追加されたデータを含むデータ群に基づいて前記機械学習モデルを更新する機械学習ステップとをさらに実行する
情報処理方法。
【請求項7】
請求項に記載の情報処理方法であって、
前記寄与特徴量検出ステップは、前記寄与特徴量が前記機械学習モデルによる判定に寄与する度合を示す寄与度を算出するものであり、
前記類似データ抽出ステップは、前記算出された寄与度に基づいて、前記類似データが前記対象データに類似する度合を示す類似度を算出する
情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システムおよび情報処理方法に関する。
【背景技術】
【0002】
近年、人材採用やローン審査などの審査・判定業務において、過去の判定事例から機械学習モデルを作成し、そのモデルを用いて判定を実施したり、あるいは補助したりする事例が増加している。機械学習モデルによる判定の過程や結果に疑義が生じた場合などに、その判定に影響を与えている過去の判定事例を検索する手法が開示されている(非特許文献1)。
【0003】
ところで、希少な事例は学習されづらく、機械学習モデルが判定を誤りやすい。そのような希少な事例や機械学習モデルが誤りやすい事例を重要な事例として、次回の機械学習モデルの作成時に反映させる技術も知られている(特許文献1)。
【先行技術文献】
【特許文献】
【0004】
【文献】国際公開第2019/150813号
【非特許文献】
【0005】
【文献】Scott M Lundberg,Su-In Lee,“A Unified Approach to Interpreting Model Predictions”,Advances in Neural Information Processing Systems 30,2017年12月,PP.4765-4774
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、従来技術では、学習データに追加する事例に対し機械学習モデルにとって類似する事例を抽出することができない。したがって、従来技術では、学習データに新たに追加する事例の重要度を、類似する既存の事例の重要度を考慮して決定することはできない。
【0007】
本発明は、上記課題に鑑みてなされたものであって、機械学習モデルによる対象データの判定に寄与する特徴量を持つデータを抽出することのできるようにした情報処理システムおよび情報処理方法を提供することにある。
【課題を解決するための手段】
【0008】
上記課題を解決すべく、本発明の一つの観点に従う情報処理システムは、対象データを判定可能な機械学習モデルと対象データとに基づいて、機械学習モデルによる対象データの判定に寄与する特徴量である寄与特徴量を検出する寄与特徴量検出部と、機械学習モデルにより使用されるデータ群から、寄与特徴量に類似する特徴量を持つデータである類似データを抽出する類似データ抽出部と、を備える。
【発明の効果】
【0009】
本発明によれば、機械学習モデルによる対象データの判定に寄与する特徴量を持つデータを抽出することができる。
【図面の簡単な説明】
【0010】
図1】情報処理システムのシステム構成を説明する図である。
図2】データ群のデータ構造の一例を示す図である。
図3】検索対象データのデータ構造の一例を示す図である。
図4】寄与特徴量のデータ構造の一例を示す図である。
図5】類似する特徴を持つ類似データのデータ構造の一例を示す図である。
図6】検索対象のデータと検索対象データの判定に使用する機械学習モデルを指定するGUI(Graphical User Interface)の一例を示す図である。
図7】実施例2の情報処理システムのシステム構成を説明する図である。
図8】学習データ修正部によって提示されるGUIの一例を示す図である。
図9】実施例3の情報処理システムのシステム構成を説明する図である。
図10】追加学習データのデータ構造の一例を示す図である。
図11】実施例4の情報処理システムのシステム構成を説明する図である。
図12】類似データ抽出部によって提示されるGUIの一例を示す図である。
図13】実施例5の情報処理システムの使用例を示す説明図である。
【発明を実施するための形態】
【0011】
以下、図面に基づいて、本発明の実施の形態を説明する。本実施形態では、以下に詳述するように、機械学習モデルによる対象データの判定に寄与した学習データ(教師データとも呼ぶ。以下同じ。)を検索して出力することができる。そして、本実施形態では、対象データの判定に寄与した学習データとバランスが取れるように、対象データの重み(重要度)を決定することができる。さらに、本実施形態では、対象データの重みを既存の類似データの重みを考慮して決定し、学習データとして登録するため、既存の学習データを修正しなくても機械学習モデルを改善することができる。
【0012】
したがって、本実施形態によれば、例えば、対象データについて機械学習モデルによる判定と人間による判定とが異なる場合に、機械学習モデルによる判定に影響を与えた類似データを抽出することができる。そして、本実施形態によれば、類似データのパラメータを修正したり、対象データの重要度を類似データの重要度に基づいて決定したりすることができる。これにより本実施形態によれば、機械学習モデルを効率的に改善することができ、機械学習モデルを使用するユーザにとっての使い勝手が向上する。
【0013】
同一の対象データについて人間の判定と機械学習モデルによる判定とが異なる場合としては、例えば、学習データの持つ各パラメータのうちいずれか一つまたは複数のパラメータの値が間違って登録されていた場合や、学習データとして登録した時点では正しい判定結果であったが、その後の法改正または運用変更などにより、現時点では不正解となってしまう場合がある。
【0014】
さらに本実施形態では、例えば、重要度を算出する事例である対象データを、機械学習モデルに基づいて判定する際に寄与する特徴量である寄与特徴量を算出する寄与特徴量検出部と、過去の事例から寄与特徴量に類似する特徴量を持つ類似データを検索する類似データ抽出部と、検索された過去の事例に付与されている重要度に基づいて対象データに付与する重要度を決定する重要度算出部と、対象データと重要度算出部で算出された重要度とを学習データに追加する学習データ追加部と、追加された学習データをもとに機械学習モデルを更新する機械学習部と、を備えることができる。
【0015】
以下、本発明の実施例を、図面を用いて説明する。ただし、本発明は以下に示す実施例の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。
【0016】
以下に説明する発明の構成において、同一又は類似する構成又は機能には同一の符号を付し、重複する説明は省略する。
【0017】
本明細書等における「第1」、「第2」、「第3」等の表記は、構成要素を識別するために付するものであり、必ずしも、数又は順序を限定するものではない。
【実施例1】
【0018】
図1図6を用いて第1実施例を説明する。図1は、本実施例の情報処理システム1のシステム構成を説明する図である。図1では、処理要素10,11,12,15、データ要素13,14,16,17を適宜線で結んでいるが、明示された線に限らない。図示された各要素は、本実施例が動作するように関連付けられている。
【0019】
情報処理システム1は、例えば判定業務実施者の使用する作業端末、データ分析用のパーソナルコンピュータ、クラウドサーバなどのコンピュータに実装することができる。本実施例では、患者に対する医療行為の事例の可否を判定する業務実施者の作業端末として、情報処理システム1を実装した場合の例を示す。
【0020】
情報処理システム1は、例えばプロセッサ2、メモリ3、入力装置4、出力装置5、及び記憶装置6を有する。各ハードウェアはバス等を介して互いに接続される。なお、情報処理システム1は、通信ネットワークインタフェースを有してもよい。
【0021】
プロセッサ2は、メモリ3に格納されるコンピュータプログラムを実行する。プロセッサ2がコンピュータプログラムにしたがって処理を実行することによって、特定の機能を実現する機能部(モジュール)として動作する。以下、機能部を主語に処理を説明する場合、プロセッサ2が当該機能部を実現するプログラムを実行していることを示す。なお、プロセッサ2は、マイクロプロセッサに限らず、コンピュータプログラムを処理可能な電子回路であればよい。
【0022】
メモリ3は、プロセッサ2が実行するコンピュータプログラムとコンピュータプログラムが使用するデータとを格納する。メモリ3は、コンピュータプログラムが一時的に使用するワークエリアを含む。メモリ3に格納されるコンピュータプログラム及びデータについては後述する。
【0023】
入力装置4は、情報処理システム1にデータ及び指示を入力するための装置である。入力装置4は、例えば、キーボード、マウス、及びタッチパネル等である。出力装置5は、情報処理システム1がデータを出力するための装置である。出力装置5は、例えば、ディスプレイ及びプリンタ等である。
【0024】
記憶装置6は、不揮発性の記憶媒体を含んで構成される。記憶装置6に記憶された対象データのうち指定された対象データ14は、メモリ3へ転送される。記憶装置6に記憶されたデータ群のうち指定された機械学習モデル15で使用されるデータ群は、メモリ3へ転送される。メモリ3上で更新されたデータ13,14,17は、メモリ3から記憶装置6へ転送されて元データを上書きする。上書きする前の元データを別ファイルに保存してもよい。
【0025】
メモリ3に格納されるコンピュータプログラム及びデータについて説明する。メモリ3は、例えば検索対象入力部10、寄与特徴量検出部11、及び類似データ抽出部12を実現するコンピュータプログラムを格納する。メモリ3は、例えばデータ群13、検索対象データ14(以下、対象データ14)、機械学習モデル15、寄与する特徴量16(寄与特徴量16)、及び対象データ14の判定に寄与した特徴量に類似する特徴を持つデータ17(類似データ17)を格納する。
【0026】
データ群13は、事例データの特徴量と、その判定結果とを管理するためのデータベースである。以下、事例データを事例と略記する場合がある。データ群13に格納される判定結果は、機械学習モデルに15よらず人間が判定を行った結果でもよいし、機械学習モデル15によって判定された結果でもよいし、または未判定であることをしめす情報でもよい。データ群13のデータ構造については図2を用いて説明する。
【0027】
対象データ14は、検索対象の事例の特徴量を格納するデータベースである。対象データ14に格納される事例の特徴量は、データ群13に含まれる事例の特徴量であってもよいし、データ群13に含まれない事例の特徴量であってもよい。対象データ14のデータ構造については図3を用いて説明する。
【0028】
機械学習モデル15は、対象データ14のエントリの一つを入力として、一つの判定結果を得られるモデルである。
【0029】
寄与特徴量16は、寄与特徴量検出部11によって検出されるデータである。寄与特徴量検出部11は、対象データ14と機械学習モデル15とから寄与特徴量16を検出する。寄与特徴量16のデータ構造については図4を用いて説明する。
【0030】
類似データ17は、機械学習モデル15による対象データ14の判定に寄与した特徴量と類似する特徴量を持つデータである。類似データ17は、類似データ抽出部12によって、データ群13と寄与特徴量16とに基づいて抽出されるデータである。類似データ17のデータ構造については図5を用いて説明する。
【0031】
検索対象入力部10は、対象データ14の内容と機械学習モデル15の内容とを情報処理システム1へ入力するための機能である。対象データ14及び機械学習モデル15の内容は、情報処理システム1のユーザが入力装置4を用いて直接入力してもよいし、あるいはメモリ3、記憶装置6、並びに通信ネットワーク上のデータを特定するファイル名または識別子によって指定されてもよい。検索対象入力部10は、対象データ取得部10と呼ぶこともできる。
【0032】
寄与特徴量検出部11は、対象データ14の持つ各特徴量のうち、機械学習モデル15に基づいて対象データ14を判定する際に寄与する特徴量16を検出する。寄与特徴量検出部11は、対象データ14の各特徴量のうち、機械学習モデル15による判定に寄与した度合を寄与度として算出し、算出された寄与度から寄与特徴量16を求める。寄与特徴量検出部11は、検出された寄与徴量を類似データ17へ格納する。
【0033】
類似データ抽出部12は、寄与特徴量16に基づいてデータ群13から、対象データ14の事例に類似する事例を検索し、検索結果を類似データ17へ格納する。ここで類似データ17は、機械学習モデル15による対象データ14(対象事例)の判定に寄与した特徴量に類似する特徴量を有するデータ(類似の既存事例)である。類似データ抽出部12は、類似データ検索部12と呼ぶこともできる。
【0034】
情報処理システム1は、コンピュータが読み取り可能であって、コンピュータプログラムまたはデータを長時間保持可能な記憶媒体MMに接続することができる。記憶媒体MMは、例えば、半導体メモリ、ハードディスク、光ディスク、光磁気ディスク、磁気テープなどのように構成される。図示せぬ他の情報処理システムに内蔵されたメモリを記憶媒体MMとして用いることもできる。記憶媒体MMに記憶されたコンピュータプログラムまたはデータを情報処理システム1へ転送したり、情報処理システム1に記憶されたコンピュータプログラムまたはデータを記憶媒体MMへ転送したりすることができる。記憶媒体MMに代えて、通信ネットワークのような通信媒体を用いてコンピュータプログラムまたはデータを情報処理システム1の外部へ転送することもできる。
【0035】
図1で述べた情報処理システム1の有する各機能部については、複数の機能部を一つの機能部にまとめてもよいし、一つの機能部を機能毎に複数の機能部に分けてもよい。例えば、後述の機械学習部19に寄与特徴量検出部11の機能を含めてもよい。
【0036】
情報処理システム1を複数の計算機から構成してもよい。この場合、複数の計算機のうちのいずれか一つまたは複数の計算機に、上述した各機能部を分散配置してもよい。複数の計算機のうちのいずれか一つまたは複数の計算機に、上述したデータを分散配置してもよい。
【0037】
図2は、本実施例のデータ群13のデータ構造の一例を示す図である。データ群13は、事例ID(identification)131、性別132、年齢133、肺がんの疑い134、CT(Computed Tomography)撮影205、判定結果206、及び重み207から構成されるエントリを格納する。一つの事例に対して一つのエントリが存在する。
【0038】
事例ID131は、事例の識別情報を格納するフィールドである。性別132、年齢133、肺がんの疑い134、及びCT撮影135は、事例ID131に対応する事例における、患者の情報と患者への医療行為の実施情報とを格納するフィードである。性別132、年齢133、肺がんの疑い134、及びCT撮影135は、事例の判定において考慮されうる情報の一例であってこれに限定されない(以下同様)。肺がんの疑い134は、患者に肺がんの疑いがあるか否かを示すフラグである。CT撮影135は、患者をCT撮影した回数である。
【0039】
判定結果136は、事例ID131に対応する事例における判定結果を格納するフィードである。重み137は、事例の重要度wtを格納するフィールドである。
【0040】
図3は、実施例1の対象データ14のデータ構造の一例を示す図である。対象データ14は、検索事例ID141、性別142、年齢143、肺がんの疑い144、CT撮影145、及び判定結果146から構成されるエントリを格納する。一つの事例に対して一つのエントリが存在する。
【0041】
検索事例ID141は、検索対象の事例の識別情報を格納するフィールドである。性別142、年齢143、肺がんの疑い144、及びCT撮影145は、検索事例ID141に対応する事例における患者の情報と患者への医療行為の実施情報とを格納するフィードである。判定結果146は、検索事例ID141に対応する事例における判定結果を格納するフィードである。
【0042】
図4は、本実施例の寄与特徴量16のデータ構造の一例を示す図である。寄与特徴量16は、検索事例ID161、特徴量162、及び寄与度163から構成されるエントリを格納する。事例の判定に寄与する特徴量の一つに対して一つのエントリが存在する。
【0043】
検索事例ID161は、判定に寄与する特徴量を算出した事例の識別情報を格納するフィールドである。検索事例ID161に設定される識別情報は、検索事例ID141に設定される識別情報と同一である。
【0044】
特徴量162は、検索事例ID161に対応する事例を機械学習モデル15によって判定する場合に寄与する特徴量を格納するフィールドである。特徴量162は、対象データ14を構成するフィールドと、その値または値の範囲とを格納する。
【0045】
寄与度163は、特徴量162の寄与の度合いを格納するフィールドである。本実施例の寄与度163は、0以上の実数値を持ち、値が大きいほど特徴量162の寄与の度合いが強い。寄与度163は、寄与の度合いの一例であってこれに限定されない。
【0046】
図5は、本実施例の類似データ17のデータ構造の一例を示す図である。類似データ17は、検索事例ID171、事例ID172、性別173、年齢174、肺がんの疑い175、CT撮影176、判定結果177、及び重み178から構成されるエントリを格納する。検索対象の事例に寄与した事例の一つに対して一つのエントリが存在する。
【0047】
検索事例ID171は、検索対象の事例の識別情報を格納するフィールドである。検索事例ID171に設定される識別情報は、検索事例ID141に設定される識別情報と同一である。
【0048】
事例ID172、性別173、年齢174、肺がんの疑い175、CT撮影176、判定結果177、及び重み178は、検索事例ID171に対応する事例に類似する事例の検索結果の情報を格納するフィールドである。事例ID172、性別173、年齢174、肺がんの疑い175、CT撮影176、判定結果177、及び重み178に設定される情報は、それぞれ事例ID131、性別132、年齢133、肺がんの疑い134、CT撮影135、判定結果136、及び重み137に設定される識別情報と同一である。
【0049】
次に、情報処理システム1が実行する処理について説明する。検索対象入力部10は、画面G1を出力装置5へ表示させる。検索対象入力部10は、画面G1へのユーザの入力に基づいて、対象データ14及び機械学習モデル15を選択する。
【0050】
図6は、本実施例の検索対象入力部10によって提示される画面G1の一例を示す図である。画面G1は、例えば対象データ指定部GP11、機械学習モデル指定部GP12、及び類似検索ボタンGP13といった表示要素を含む。
【0051】
対象データ指定部GP11及び機械学習モデル指定部GP12は、記憶装置6内の対象データ14のファイルまたは機械学習モデル15のファイルを示すファイル名を入力するテキストボックスである。
【0052】
類似検索ボタンGP13は、対象データ指定部GP11及び機械学習モデル指定部GP12に入力された情報をもとに、類似データを検索する処理を開始させるためのボタンである。
【0053】
類似検索ボタンGP13がユーザにより操作されると、検索対象入力部10は、対象データ指定部GP11に入力されたファイル名によって識別される対象データのファイルを記憶装置6から読み込み、対象データ14に格納する。同様に、検索対象入力部10は、機械学習モデル指定部GP12に入力されたファイル名によって識別される機械学習モデルのファイルを記憶装置6から読み込み、機械学習モデル15へ格納する。
【0054】
寄与特徴量検出部11は、対象データ14のそれぞれのエントリについて、既知のアルゴリズムを適用することによって、機械学習モデル15に格納されているモデルを用いて判定を行った際に重視される特徴量のフィールドとその値とを算出する。寄与特徴量検出部11は、対象データ14のそれぞれのエントリの検索事例ID141と、算出した重視される特徴量との組一つを一つのエントリとして、寄与特徴量16に格納する。
【0055】
類似データ抽出部12は、寄与特徴量16に格納されている検索事例ID161のそれぞれの値について、同じ値を持つ寄与特徴量16のエントリの特徴量162の全てまたは一部を検索条件として、データ群13からエントリを検索する。検索条件の結合方式は論理積であってもよいし、論理和であってもよいし、それ以外のアルゴリズムであってもよい。類似データ抽出部12は、検索により該当したデータ群13のエントリのそれぞれについて、検索条件とした特徴量162に対応する検索事例ID161の値と、データ群13のエントリの各フィードの情報とを組として、類似データ17に格納する。
【0056】
このように構成される本実施例によれば、情報処理システム1は、ユーザが指定した対象データをユーザの指定した機械学習モデルに基づいて判定する際に寄与する特徴量が類似している事例を、類似データ17として抽出することができる。
【0057】
これによって、ユーザは、機械学習モデル15の判定根拠に基づいた類似事例を得ることができる。特に、データ群13に格納されているデータが、機械学習モデル15の学習データ(教師データ)である場合、ユーザは、対象データ14の判定に寄与した学習データを得ることができる。ユーザは、機械学習モデル15が対象データ14を判定した際に影響を与えた学習データを把握することができ、それらの学習データの修正などを行うことができる。
【実施例2】
【0058】
図7および図8を用いて実施例2を説明する。本実施例を含む以下の各実施例では、実施例1との相違を中心に述べる。本実施例では、データ群13に含まれるデータのうち類似データ17に対応するデータの内容を修正することにより、機械学習モデル15を更新する。
【0059】
図7は、本実施例の情報処理システム1Aのシステム構成を説明する図である。本実施例の情報処理システム1Aのハードウェア構成は、実施例1の情報処理システム1と同一である。本実施例の情報処理システム1Aのソフトウェア構成は、実施例1の情報処理システム1と一部異なる。本実施例の情報処理システム1Aは、学習データ修正部18及び機械学習部19を含む。
【0060】
学習データ修正部18については後述する。機械学習部19は、データ群13に格納されている過去の事例の特徴量とその判定結果とを入力として学習することにより、任意の事例の特徴量からその判定結果を算出する機械学習モデルを生成する。機械学習部19は、作成された機械学習モデルを機械学習モデル15へ格納する。
【0061】
次に、情報処理システム1Aが実行する処理について説明する。本実施例の機械学習部19、寄与特徴量検出部11、及び類似データ抽出部12が実行する処理は、実施例1と同一である。
【0062】
本実施例の機械学習モデル指定部GP12に指定する情報は、実施例1と異なる。本実施例では、機械学習モデル指定部GP12において、データ群13のデータを学習データとして学習した機械学習モデルのファイル名を指定する。学習データ修正部18は、類似データ17の内容を出力装置5を介してユーザへ提示する。
【0063】
図8は、本実施例の学習データ修正部18によって提示される画面G2の一例を示す図である。
【0064】
画面G2は、類似データの一覧を表示する類似データ一覧表示部GP21、及び修正適用ボタンGP22を含む。
【0065】
類似データ一覧表示部GP21は、類似データ17に格納されている情報をユーザへ提示する。ユーザは、類似データ一覧表示部GP21を用いることにより、類似データ17の情報に対応するデータ群13の情報を編集することができる。
【0066】
類似データ一覧表示部GP21は、検索事例ID GP211、事例ID GP212、性別GP213、年齢GP214、肺がんの疑いGP215、CT撮影GP216、判定結果GP217、重みGP218、及び削除GP219から構成されるエントリを含む。一つの検索結果事例に対して一つのエントリが存在する。
【0067】
検索事例ID GP211、事例ID GP212、性別GP213、年齢GP214、肺がんの疑いGP215、CT撮影GP216、判定結果GP217、及び重みGP218は、それぞれ検索事例ID171、事例ID172、性別173、年齢174、肺がんの疑い175、CT撮影176、判定結果177、及び重み178の内容を示すフィールドである。
【0068】
ユーザは、性別GP213、年齢GP214、肺がんの疑いGP215、CT撮影GP216、判定結果GP217、及び重みGP218について、そこに記載された内容を編集することができる。
【0069】
事例ID GP212に同じ値を持つエントリが複数ある場合、そのうちの一つに対してユーザがその内容を編集した際、事例ID GP212に同じ値を持つ他の全てのエントリに対して、ユーザによる編集内容は即座に適用される。
【0070】
削除GP219は、類似データ一覧表示部GP21のエントリに対応するデータ群13のエントリを削除するためのフィールドである。削除GP219は、一つのエントリにつき一つのチェックボックスを持つ。ユーザは、削除GP219のチェックボックスに対するチェックの有無を変更可能である。
【0071】
修正適用ボタンGP22は、類似データ一覧表示部GP21に入力されたエントリの修正及び削除を、データ群13に適用するための操作ボタンである。
【0072】
ユーザによって修正適用ボタンGP22が操作されると、学習データ修正部18は、類似データ一覧表示部GP21の内容に基づいて、データ群13の内容を修正する。さらに、学習データ修正部18は、削除GP219にチェックを持つエントリのそれぞれについて、事例ID GP212と同じ値を事例ID131に持つデータ群13のエントリを削除する。
【0073】
機械学習部19は、データ群13の性別132、年齢133、肺がんの疑い134、及びCT撮影135を説明変数とし、判定結果136を目的変数として、勾配ブースト木などの既存の学習アルゴリズムを適用することにより、機械学習モデルを作成する。その際、機械学習部19は、重み(重要度wt)に基づいてエントリの重要度を学習アルゴリズムへ入力してもよいし、重みに基づいてエントリを複製してもよい。本実施例は、特定のアルゴリズムに限定されない。機械学習部19は、作成したモデルを機械学習モデル15へ格納する。
【0074】
このように構成される本実施例も実施例1と同様の作用効果を奏する。さらに本実施例によれば、ユーザは類似データとして抽出された学習データを手動修正することができるため、学習に用いられた事例のデータの誤りを正すことができる。
【実施例3】
【0075】
図9および図10を用いて実施例3を説明する。本実施例では、学習データに新たに追加する事例の重要度wtを、類似する事例の重要度に基づいて決定する。
【0076】
図9は、本実施例の情報処理システム1Bのシステム構成を説明する図である。本実施例の情報処理システム1Bのハードウェア構成は、実施例1と同一である。本実施例の情報処理システム1Bのソフトウェア構成は、実施例1と一部異なる。本実施例の情報処理システム1Bは、機械学習部19、重要度算出部20、追加学習データ21、及び学習データ追加部22を含む。
【0077】
本実施例の機械学習モデル指定部GP12に指定する情報は、実施例2の機械学習モデル指定部GP12に指定する情報と同一である。
【0078】
追加学習データ21は、データ群13に追加するデータを格納するためのデータベースである。追加学習データ21のデータ構造は、図10を用いて後述する。
【0079】
重要度算出部20は、類似データ17と対象データ14とに基づいて、データ群13に追加するデータとその重要度を決定する。学習データ追加部22は、追加学習データ21の内容を、データ群13へ追加する。
【0080】
図10は、追加学習データ21のデータ構造の一例を示す図である。追加学習データ21は、検索事例ID211、性別212、年齢213、肺がんの疑い214、CT撮影215、判定結果216、及び重み217から構成されるエントリを格納する。一つの事例に対して一つのエントリが存在する。
【0081】
検索事例ID211は、検索対象の事例の識別情報を格納するフィールドである。検索事例ID211に設定される識別情報は、検索事例ID141に設定される識別情報と同一である。
【0082】
性別212、年齢213、肺がんの疑い214、CT撮影215、及び判定結果216は、検索事例ID211と同じ値を検索事例ID141に持つ対象データ14のエントリを格納するフィードである。重み217は、事例の重要度wtを格納するフィールドである。
【0083】
次に、情報処理システム1Bが実行する処理について説明する。本実施例の重要度算出部20は、対象データ14のエントリのそれぞれについて、検索事例ID141に格納されている値と同じ値を検索事例ID171に持つ類似データ17のエントリの、重み178の値に基づいて、対象データ14のエントリに付与する重みを算出する。算出アルゴリズムには、例えば、重み178の値の合計などを用いる。重要度算出部20は、対象データ14のエントリの値と上述のように算出された重みとの組を、追加学習データ21へ格納する。
【0084】
学習データ追加部22は、追加学習データ21に格納されているそれぞれのエントリについて、データ群13の事例ID131のいずれの値とも重複しない一意の値を事例ID131として付与し、データ群13へ追加する。学習データ追加部22は、追加学習データ21の内容を空にする。
【0085】
このように構成される本実施例も実施例1と同様の作用効果を奏する。さらに本実施例によれば、学習データに新規に追加する事例の重要度を、既存の学習データにおける類似事例の重要度に応じて自動的に決定できる。
【0086】
したがって、本実施例によれば、既存の学習データから生成された機械学習モデルによる新規追加事例の判定結果が誤っていた場合でも、既存の学習データに変更を加えずに、機械学習モデルを改善することができる。本実施例では、上述の通り、新規に追加する事例の重要度を既存の類似事例の重要度から決定することができ、これにより更新される機械学習モデルにより、類似事例の判定結果を変えることができる。
【実施例4】
【0087】
図11および図12を用いて実施例4を説明する。本実施例では、検索結果の類似事例が検索対象事例に類似する度合いを示す類似度を、検索対象事例の特徴量寄与度に基づいて決定する。
【0088】
図11は、本実施例の情報処理システム1Cのシステム構成図である。本実施例の情報処理システム1Cでは、類似データ抽出部12Cが実行する処理は一部が異なる。
【0089】
類似データ抽出部12Cは、実施例1で述べた類似データ抽出部12と同一処理を実行した後に、さらに以下の処理を実行する。類似データ抽出部12Cは、類似データ17に格納したエントリのそれぞれについて、検索条件として使用した特徴量162に対応する寄与度163の値に基づいて寄与度を算出する。寄与度の算出アルゴリズムは、例えば、類似データ17に格納したエントリの各フィールドについて、検索条件として使用した特徴量162のそれぞれの範囲のうち合致するものに対応する寄与度163の値の合計値とする。類似データ抽出部12は、類似データ17に格納したエントリと、上記の処理で算出された寄与度とをユーザへ提示する。
【0090】
図12は、本実施例の類似データ抽出部12によって提示される画面G3の一例を示す図である。
【0091】
画面G3は、類似データ一覧表示部GP31を含む。類似データ一覧表示部GP31は、類似データ17に格納された情報と、類似データ抽出部12Cにより算出された寄与度とを表示する欄である。類似データ一覧表示部GP31は、検索事例ID GP311、事例IDGP312、性別GP313、年齢GP314、肺がんの疑いGP315、CT撮影GP316、判定結果GP317、重みGP318、及び類似度GP319から構成されるエントリを含む。一つの検索結果事例に対して一つのエントリが存在する。
【0092】
検索事例ID GP311、事例IDGP312、性別GP313、年齢GP314、肺がんの疑いGP315、CT撮影GP316、判定結果GP317、及び重みGP318は、それぞれ検索事例ID171、事例ID172、性別173、年齢174、肺がんの疑い175、CT撮影176、判定結果177、及び重み178と同一の内容を格納するフィールドである。
【0093】
類似度GP319は、類似データ抽出部12Cにより算出された類似度を格納するフィールドである。
【0094】
このように構成される本実施例も実施例1と同様の作用効果を奏する。さらに本実施例によれば、類似事例の検索結果だけでなく、検索対象事例の特徴量寄与度に基づいた類似度も得ることができる。すなわち、本実施例によれば、単純な特徴量全ての類似度によらず、機械学習モデルによる事例の判定の仕方に応じた類似事例とその類似度とを得ることができる。
【0095】
したがって、本実施例によれば、ユーザの指定した閾値以上の類似度を持つ類似事例(類似データ17)だけを検索して、類似データ一覧表示部GP31に表示させることができる。類似データ抽出部12Cは、ユーザの指定した閾値以下の類似度を持つ類似データ17を検索してもよいし、あるいは、ユーザの指定した上限値と下限値の範囲内の類似データを検索してもよい。ユーザは、類似度の閾値を指定することにより、画面G3に表示させる類似データの件数を調整することができる。画面G3に表示される類似データの件数が所定数となるように、検索に使用する類似度を自動的に設定することもできる。
【実施例5】
【0096】
図13を用いて実施例5を説明する。本実施例の情報処理システム1Dは、いわゆるクラウドサーバとして設けられており、通信ネットワークCNを介して、複数の作業端末PCと複数の携帯情報端末PDA(図13では1つのみ図示)とに双方向通信可能に接続されている。携帯情報端末PDAは、例えばスマートフォン、タブレット端末、ウェアラブル端末のように構成され、無線通信により情報処理システム1Dと接続される。
【0097】
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。
【0098】
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD-ROM、DVD-ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD-R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
【0099】
また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Python、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
【0100】
さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。
【0101】
上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。
【0102】
上述した実施例は、以下に記載するようなコンピュータプログラムまたはコンピュータプログラムを記憶した記憶媒体が含まれる。
【0103】
「計算機を情報処理システムとして機能させるコンピュータプログラム(またはコンピュータプログラムを記憶する記憶媒体)であって、対象データを判定可能な機械学習モデルと前記対象データとに基づいて、前記機械学習モデルによる前記対象データの判定に寄与する特徴量である寄与特徴量を検出する寄与特徴量検出部と、前記機械学習モデルにより使用されるデータ群から、前記寄与特徴量に類似する特徴量を持つデータである類似データを抽出する類似データ抽出部と、を前記計算機に実現させるコンピュータプログラム(またはコンピュータプログラムを記憶する記憶媒体)」
【符号の説明】
【0104】
1,1A,1B,1C,1D:情報処理システム、10:検索対象入力部、11:寄与特徴量検出部、12,12C:類似データ抽出部、13:データ群、14:対象データ、15:機械学習モデル、16:寄与特徴量、17:類似データ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13