(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-02
(45)【発行日】2024-05-14
(54)【発明の名称】教師データの作成システム
(51)【国際特許分類】
G06N 20/00 20190101AFI20240507BHJP
【FI】
G06N20/00 130
(21)【出願番号】P 2021569658
(86)(22)【出願日】2020-01-09
(86)【国際出願番号】 JP2020000424
(87)【国際公開番号】W WO2021140604
(87)【国際公開日】2021-07-15
【審査請求日】2022-12-13
(73)【特許権者】
【識別番号】504205521
【氏名又は名称】国立大学法人 長崎大学
(74)【代理人】
【識別番号】100090033
【氏名又は名称】荒船 博司
(74)【代理人】
【識別番号】100093045
【氏名又は名称】荒船 良男
(72)【発明者】
【氏名】福岡 順也
【審査官】漆原 孝治
(56)【参考文献】
【文献】特開2018-106662(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
教師データの作成者の選定に用いる正解が既知のデータ、教師データの候補となる正解が未知のデータ、各データに対する判断結果、及び、正解が既知のデータに対する判断結果の正否に関するデータを取得する情報取得装置と、
教師データの作成者の選定に用いる正解が既知のデータ、教師データの候補となる正解が未知のデータ、各データに対する判断結果、及び、正解が既知のデータに対する判断結果の正否に関するデータを記憶する記憶装置と、
教師データの作成者の選定に用いる正解が既知のデータに対する教師データの作成者の候補者による判断結果と正解が既知のデータに対する判断結果の正否に関するデータから教師データの作成者を選定すると共に、教師データの作成者の選定に用いた正解が既知のデータの中から第1の教師データを選定し、教師データの候補となる正解が未知のデータの中から教師データ作成者の判断結果に基づいて第2の教師データを選定する制御装置を備えた
ことを特徴とする教師データの作成システム。
【請求項2】
前記制御装置は、正解が既知のデータに対する教師データの作成者の候補者による判断結果と、判断結果の正否に関するデータから、正解率に基づき教師データの作成者を選定すると共に、
教師データの作成者の選定で用いた正解が既知のデータとそれに対応する判断結果の正否に関するデータのセットを第1の教師データとして選定し、
正解が未知のデータに対する複数の教師データの作成者間での判断結果の一致率の高いデータとそれに対応する教師データの作成者の判断結果のセットを第2の教師データとして選定する
ことを特徴とする請求項1に記載の教師データの作成システム。
【請求項3】
前記制御装置は、正解が既知のデータに対する教師データの作成者の候補者による判断結果と、判断結果の正否に関するデータから、正解率に基づき教師データの作成者を選定すると共に、
教師データの作成者の選定で用いた正解が既知のデータの中から、判断結果の正解率及び複数の教師データの作成者間での判断結果の一致率の高いデータとそれに対応する教師データの作成者の判断結果のセットを第1の教師データとして選定し、
正解が未知のデータに対する複数の教師データの作成者間での判断結果の一致率の高いデータとそれに対応する教師データの作成者の判断結果のセットを第2の教師データとして選定する
ことを特徴とする請求項1に記載の教師データの作成システム。
【請求項4】
教師データの作成者の選定に用いる正解が既知のデータは、予後が既知の病理画像であり、
前記制御装置は、予後が既知の病理画像に対する教師データの作成者の候補者による診断結果と、予後情報との一致率に基づき教師データの作成者を選定すると共に、
教師データの作成者の選定で用いた予後が既知の病理画像とそれに対応する予後情報のセットを第1の教師データとして選定し、
教師データの候補となる正解が未知のデータは、予後が未知の病理画像であり、
前記制御装置は、予後が未知の病理画像に対する複数の教師データの作成者間での診断結果の一致率の高い病理画像とそれに対応する診断結果のセットを第2の教師データとして選定する
ことを特徴とする請求項2に記載の教師データの作成システム。
【請求項5】
教師データの作成者の選定に用いる正解が既知のデータは、予後が既知の病理画像であり、
前記制御装置は、予後が既知の病理画像に対する教師データの作成者の候補者による診断結果と、予後情報との一致率に基づき教師データの作成者を選定すると共に、
教師データの作成者の選定で用いた予後が既知の病理画像の中から、診断結果と予後情報の一致率及び複数の教師データの作成者間での診断結果の一致率の高い病理画像とそれに対応する診断結果のセットを第1の教師データとして選定し、
教師データの候補となる正解が未知のデータは、予後が未知の病理画像であり、
前記制御装置は、予後が未知の病理画像に対する複数の教師データの作成者間での診断結果の一致率の高い病理画像とそれに対応する診断結果のセットを第2の教師データとして選定する
ことを特徴とする請求項3に記載の教師データの作成システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ディープラーニング等における人工知能(AI)で使用される教師データの作成システムに関する。
【背景技術】
【0002】
医療画像に対してコンピュータで診断支援を行う技術が提案されている(例えば、特許文献1参照)。コンピュータでの病変検出や自動診断を行う場合、過去の症例を教師データとした機械学習を用いるのが一般的であり、近年、人工知能(AI)による診断支援が提案されている。
【0003】
人工知能による診断支援のための判断には教師データが重要となるが、一概に教師データといっても、中には何を「正解」として良いか不明瞭なものもある。
【0004】
例えば、病理画像の診断における「正解」の判定には、予後の情報を得るための時間が必要であり、少なくとも殆どリアルタイムで「正解」を判断/選択し、それを教師データとして取得することは不可能である。
【0005】
また、正解のデータを生成できる人的能力にも限界が生じる。例えば、間質性肺炎(UIP)は、5年生存率が20%程度と、がんに匹敵する予後の悪い疾患であるが、その分類は極めて困難である。実際に、間質性肺炎の診断を行った病理医の間での診断結果の一致率が極めて低いことが示されており、予後不良を有意に分別できるという統計学的証明が必要と考えられていた。
【先行技術文献】
【特許文献】
【0006】
【発明の概要】
【発明が解決しようとする課題】
【0007】
従来、医療分野においては、その分野における世界的権威や施設のブランド名等のステータスにより、人工知能で用いる教師データを統一してきた。
【0008】
しかし、間質性肺炎等のように病理医の間での診断結果の一致率が低い分野では、教師データが正解であるか否かの不明瞭さが否めず、正解率が高い教師データを用いた人工知能の学習が難しかった。
【0009】
本発明の目的は、正解率が高い教師データの取得を可能とした教師データの作成システムを提供することである。
【課題を解決するための手段】
【0010】
上述した課題を解決するため、本発明は、教師データの作成者の選定に用いる正解が既知のデータ、教師データの候補となる正解が未知のデータ、各データに対する判断結果、及び、正解が既知のデータに対する判断結果の正否に関するデータを取得する情報取得装置と、教師データの作成者の選定に用いる正解が既知のデータ、教師データの候補となる正解が未知のデータ、各データに対する判断結果、及び、正解が既知のデータに対する判断結果の正否に関するデータを記憶する記憶装置と、教師データの作成者の選定に用いる正解が既知のデータに対する教師データの作成者の候補者による判断結果と正解が既知のデータに対する判断結果の正否に関するデータから教師データの作成者を選定すると共に、教師データの作成者の選定に用いた正解が既知のデータの中から第1の教師データを選定し、教師データの候補となる正解が未知のデータの中から教師データ作成者の判断結果に基づいて第2の教師データを選定する制御装置を備えた教師データの作成システムである。
【発明の効果】
【0012】
正解が既知で、正否の判断結果が正しいか否かを判断可能なデータを、教師データの作成者の選定に用いるデータとすることで、教師データの作成者の候補者による当該データの判断結果に基づき、教師データの作成者の候補者をグループ分けし、正解率の最も高い最良グループを抽出することができる。
【0013】
教師データの作成者の選定に用いたデータの中で、最良グループによる判断結果の正解率の高いデータを教師データに選定することで、この教師データは、人工知能学習用の教師データとして適したものとなる。
【0014】
また、正解が未知のデータと、最良グループによる当該データに対する判断結果を集積し、実際の判断結果の正解率が高いことが期待されるデータを教師データとすることで、この教師データも、人工知能学習用の教師データとして適したものとなる。
【0015】
従って、正解率が高い教師データを用いて人工知能の学習が可能となると共に、人工知能の学習に用いる正解率が高い教師データの数を増加させることができる。
【図面の簡単な説明】
【0016】
【
図1】本実施の形態の教師データの作成システムの一例を示す機能ブロック図である。
【
図2】本実施の形態の教師データの作成方法の一例を示すフローチャートである。
【
図3】本実施の形態の教師データの作成方法の別の一例を示すフローチャートである。
【発明を実施するための形態】
【0017】
以下、図面を参照して、本発明の教師データの作成システム及び教師データの作成方法の実施の形態について説明する。
【0018】
<本実施の形態の教師データの作成システムの構成例>
図1は、本実施の形態の教師データの作成システムの一例を示す機能ブロック図である。
【0019】
本実施の形態の教師データの作成システム1Aは、教師データの作成者の選定に用いるデータ、教師データの候補となるデータ、各データに対する判断結果及び各データに対する判断結果の正否に関するデータ等を取得する情報取得装置2と、教師データの作成者の選定に用いるデータ、教師データの候補となるデータ、各データに対する判断結果及び各データに対する判断結果の正否に関するデータ等を表示する表示装置3と、教師データの作成者の選定に用いるデータ、教師データの候補となるデータ、各データに対する判断結果及び各データに対する判断結果の正否に関するデータ等を記憶する記憶装置4を備える。
【0020】
また、教師データの作成システム1Aは、教師データの作成者及び教師データを選定する制御装置5を備える。制御装置5は、教師データの作成者の選定に用いるデータと、教師データの作成者の選定に用いるデータに対する判断結果及び判断結果の正否に関するデータ等から教師データの作成者を選定する。また、制御装置5は、教師データの作成者の選定に用いるデータ、教師データの作成者の選定に用いるデータに対する判断結果及び判断結果の正否に関するデータ等から教師データを選定する。更に、制御装置5は、教師データの候補となるデータと、教師データの候補となるデータに対する判断結果等から追加の教師データを選定する。
【0021】
情報取得装置2は、キーボード、マウス、ペン型タブレット等を用いた操作者の操作により各データが入力されるものでもよく、通信回線、記録媒体等を介して各データが入力されるものでもよい。記憶装置4は、病院等に設置されるデータベース、通信回線を介して接続可能な外部のデータベースであっても良い。制御装置5は、パーソナルコンピュータ等の情報処置装置でよい。
【0022】
教師データの作成システム1Aは、教師データの作成者の選定に用いるデータとして、正解が既知で、教師データの作成者の候補者による判断結果が正しいか否かを判断可能な画像等を情報取得装置2で取得し、記憶装置4に記憶する。
【0023】
また、教師データの作成システム1Aは、教師データの作成者の選定に用いるデータに対する教師データの作成者の候補者による判断結果と、判断結果の正否を決めるデータを情報取得装置2で取得し、記憶装置4に記憶する。
【0024】
制御装置5は、クラスター分析等により、教師データの作成者の候補者の中から互いに似た判断結果を持つものを集める。
【0025】
例えば、教師データの作成者の選定に用いるデータに対して複数の判断項目を設定し、各項目に対する判断結果と、判断結果の正否を決めるデータとの項目ごとの一致率等に基づき、教師データの作成者の候補者をグループ分けする。
【0026】
そして、教師データの作成者の候補者が属するグループの中で、判断結果の正否を決めるデータとの一致率が最も良いかあるいは所定の閾値以上の判断結果を出したグループを最良グループとし、この最良グループを教師データの作成者とする。
【0027】
制御装置5は、最良グループに属する教師データの作成者の選定に用いたデータとそれに対応する判断結果の正否に関するデータのセットを人工知能学習用の教師データAとして選定する。教師データAは、正解が既知であるため、判断結果の正確さが担保されたものとなる。
【0028】
また、制御装置5は、最良グループに属する教師データの作成者の選定に用いたデータの中から、最良グループに属する複数の教師データの作成者による判断結果が、判断結果の正否を決めるデータと所定の閾値以上の一致率を持ち、最良グループに属する複数の教師データの作成者間で高い一致率を示すデータとそれに対応する教師データの作成者による判断結果のセットを、人工知能学習用の教師データAに選定してもよい。この場合は、教師データAは、判断結果の正確さが担保されると共に、教師データの作成者に近い判断結果をもたらす教師データとなる。
【0029】
最良グループに属する複数の教師データの作成者間で高い一致率を示すデータであるものの、判断結果の正否を決めるデータとの一致率が所定の閾値を下回るもの、すなわち判断結果が不正解であるものについては、当該最良グループに属する全ての教師データの作成者に対して、当該データは誤謬を招きやすいという認識を共有してもらうことにする。これにより最良グループに属する教師データの作成者の質がより向上する。
【0030】
また、教師データの作成システム1Aは、教師データの候補となるデータとして、正解が未知で、判断結果の正否が未確定のデータを情報取得装置2で取得し、記憶部4に記憶する。更に、教師データの作成システム1Aは、最良グループに属する教師データの作成者による当該データに対する判断結果を情報取得装置2で取得し、記憶部4に記憶する。
【0031】
制御装置5は、最良グループに属する教師データの作成者による判断結果が、この最良グループに属する複数の教師データの作成者間で高い一致率を示すデータとそれに対応する教師データの作成者による判断結果のセットを、人工知能学習用の教師データBに選定する。教師データBについても、判断結果の正確さが期待されたものとなる。
【0032】
本実施の形態の教師データの作成システム1Aにおいて、病理画像から教師データを取得する例について説明する。
【0033】
教師データの作成システム1Aは、教師データの作成者の選定に用いるデータとして、予後が既知で診断結果が正解か否か判断可能な症例の複数の病理画像を情報取得装置2で取得し、記憶装置4に記憶する。
【0034】
また、教師データの作成システム1Aは、教師データの作成者の候補者として多数の病理医を指定し、この多数の病理医による各病理画像に対応する診断結果と、診断結果の正否を決めるデータである予後情報を情報取得装置2で取得し、記憶装置4に記憶する。
【0035】
制御装置5は、クラスター分析の手法を用い、病理画像に対して設定された複数の診断項目に対する診断結果と、予後情報との項目ごとの一致率等に基づき、病理医をグループ分けする。
【0036】
そして、病理医が属するグループの中で、予後情報との一致率が最も良いかあるいは所定の閾値以上の診断結果を出したグループを最良グループとし、この最良グループを教師データの作成者とする。
【0037】
制御装置5は、教師データの作成者の選定に用いた病理画像とそれに対応する予後情報のセットを人工知能学習用の教師データAとする。教師データAは、正解が既知であるため、診断結果の正確さが担保されたものとなる。
【0038】
また、制御装置5は、教師データの作成者の選定に用いた病理画像の中から、最良グループに属する病理医による診断結果が、予後情報と所定の閾値以上の一致率を持ち、最良グループに属する複数の病理医間で高い一致率を示す病理画像とそれに対応する病理医による診断結果のセットを、人工知能学習用の教師データAに選定してもよい。この場合は、教師データAは、診断結果の正確さが担保されると共に実際の病理医に近い診断結果をもたらす教師データとなる。
【0039】
また、教師データの作成システム1Aは、予後未知あるいは予後情報が含まれず、診断結果の正否が未確定の病理画像を情報取得装置2で取得し、記憶装置4に記憶する。更に、教師データの作成システム1Aは、最良グループに属する病理医による当該病理画像に対する診断結果を情報取得装置2で取得し、記憶部4に記憶する。
【0040】
制御装置5は、最良グループに属する病理医による診断結果が、この最良グループに属する複数の病理医間で高い一致率を示す病理画像とそれに対応する病理医による診断結果のセットを、人工知能学習用の教師データBに選定する。教師データBについても、診断結果の正確さが期待されたものとなる。
【0041】
<本実施の形態の教師データの作成方法の一例>
図2は、本実施の形態の教師データの作成方法の一例を示すフローチャートであり、病理画像から教師データを選定する例について説明する。
【0042】
教師データの作成者の選定に用いるデータとして、正解が既知で、教師データの作成者の候補者による判断結果が正しいか否かを判断可能なデータが選定される。本例では、予後が既知で診断結果が正解か否か判断可能な症例の複数の病理画像を取得する。また、これら病理画像に対する多数の病理医による診断結果、及び、既知の予後情報を取得する(ステップSA1)。
【0043】
病理医ごとの診断結果に基づき、クラスター分析の手法等を用い、複数の診断項目に対する診断結果と予後情報の一致率等から病理医をグループ分けする(ステップSA2)。診断結果と予後情報の一致率が他のグループより高い等、各グループの中で最も予後と相関する分別が可能だったグループを最良グループとして抽出し、最良グループに属する病理医を教師データの作成者に選定する(ステップSA3)。
【0044】
教師データの作成者の選定に用いた病理画像とそれに対応する予後情報のセットを、人工知能学習用の教師データAとして選定する(ステップSA4)。
【0045】
教師データの候補となるデータとして。予後が未知で予後情報が含まれず、診断結果の正否が未確定の病理画像を取得する(ステップSA5)。
【0046】
予後が未知の病理画像に対する最良グループに属する複数の病理医による診断結果を取得する(ステップSA6)。
【0047】
最良グループに属する病理医による診断結果が、この最良グループに属する複数の病理医間で高い一致率を示す病理画像とそれに対応する病理医による診断結果のセットを、人工知能学習用の教師データBとして選定する(ステップSA7)。
【0048】
図3は、本実施の形態の教師データの作成方法の別の一例を示すフローチャートであり、病理画像から教師データを選定する例について説明する。
【0049】
図3において、ステップSB1、ステップSB2及びステップSB3では、
図2のステップSA1、ステップSA2及びステップSA3と同様の処理で最良グループを抽出し、最良グループに属する病理医を教師データの作成者に選定する。
【0050】
教師データの作成者の選定に用いた病理画像の中で、最良グループに属する病理医間で高い一致率を示す症例の病理画像とそれに対応する病理医による診断結果のセットを、人工知能学習用の教師データAとして選定する(ステップSB4)。この教師データAは、更に、判断結果と予後情報の一致率が所定の閾値以上のものに限定することが望ましい。
【0051】
図3において、ステップSB5、ステップSB6及びステップSB7では、
図2のステップSA5、ステップSA6及びステップSA7と同様の処理で、教師データの候補となる予後が未知の病理画像の中から、最良グループに属する複数の病理医間で診断結果が高い一致率を示す病理画像と、それに対応する病理医による診断結果のセットを教師データBとして選定する。
【0052】
<本実施の形態の教師データの作成システム及び作成方法の作用効果例>
予後が既知の病理画像に対する診断結果と予後情報の一致率が高い、すなわち、正解率の高いグループに属する病理医が、予後が未知の病理画像に対する診断を行うと、診断結果と実際の予後情報の一致率はやはり高くなることが期待される。
【0053】
そこで、本実施の形態の教師データの作成システム及び作成方法では、予後が既知の病理画像等、正解が既知で、正否の判断結果が正しいか否かを判断可能な画像等のデータを、教師データの作成者の選定に用いるデータとする。
【0054】
教師データの作成者の候補者による当該データの判断結果の正否は、コンピュータを用いて行うことができ、教師データの作成者の候補者による当該データの判断結果に基づき、教師データの作成者の候補者をグループ分けし、正解率の最も高い最良グループを抽出することができる。
【0055】
教師データの作成者の選定に用いたデータ及び教師データの作成者の選定に用いたデータの中で、最良グループによる判断結果の正解率の高いデータである上述した教師データAは、人工知能学習用の教師データとして適したものとなる。
【0056】
また、最良グループによる正解が未知のデータに対する判断結果は、他のグループによる判断結果と比較して正解率が高くなる考えられることから、正解が未知のデータと、最良グループによる当該データに対する判断結果を集積した教師データBも、人工知能学習用の教師データとして適したものとなる。
【0057】
このように、上記システム、方法で最良グループを選定して教師データを取得することで、正解が既知の教師データAあるいは教師データの作成者による正解率が所定の閾値以上の教師データAに加えて、正解は未知であるが正解率が高いことが期待できる多数の教師データBを追加することができる。
【0058】
従って、正解率が高い教師データを用いて人工知能の学習が可能となると共に、人工知能の学習に用いる正解率が高い教師データの数を増加させることができる。
【0059】
例えば、教師データの作成者の選定及び最初の教師データAの取得後、医療機関との連携で病理画像を取得し、当該病理画像に対して最良グループに属する病理医(=教師データの作成者)が診断を行い、その診断結果を取得することで、教師データBを集積することが可能である。
【0060】
また、医療分野のみならず、食品の質判定を人工知能で行う分野において、その教師データの選定に適用することも可能である。
【符号の説明】
【0061】
1A・・・教師データの作成システム、2・・・情報取得装置、3・・・表示装置、4・・・記憶装置、5・・・制御装置