(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022182806
(43)【公開日】2022-12-08
(54)【発明の名称】分類システム
(51)【国際特許分類】
G06N 20/00 20190101AFI20221201BHJP
【FI】
G06N20/00 130
【審査請求】有
【請求項の数】4
【出願形態】OL
(21)【出願番号】P 2021090541
(22)【出願日】2021-05-28
(11)【特許番号】
(45)【特許公報発行日】2022-07-15
(71)【出願人】
【識別番号】502351659
【氏名又は名称】株式会社医療情報技術研究所
(74)【代理人】
【識別番号】100196760
【弁理士】
【氏名又は名称】大野 浩司
(72)【発明者】
【氏名】姫野 信吉
(57)【要約】 (修正有)
【課題】分類対象材料の分類結果と相関指標行列固有ベクトルごと因子得点を併せて出力し、当該分類結果の妥当性を検討可能とする分類システムを提供する。
【解決手段】分類システムは、分類学習材料を構成する要素間の組合せごとの相関指標を求め行列形式とする相関指標行列作成手段、相関指標行列の固有ベクトルを求める相関指標行列固有ベクトル計算手段を備え、得られた学習済分類手段に対して分類対象材料取得手段から新たに分類対象材料の入力を行う。学習済分類手段が備える分類結果出力手段は、分類対象材料の分類結果と相関指標行列固有ベクトル毎に因子得点を併せて出力し、当該分類結果の妥当性を検討できる。
【選択図】
図1(a)
【特許請求の範囲】
【請求項1】
分類の学習材料を得る分類学習材料管理手段と、
前記分類の学習材料ごとに分類正解を設定する分類学習材料ごと分類正解設定手段と、
前記分類の学習材料を入力し、分類を行う分類手段と分類結果を出力する分類結果出力手段と、前記分類結果と前記分類学習材料ごと分類正解設定手段で予め設定された前記分類正解を比較して誤差をフィードバックし、前記分類手段の学習を行う分類学習手段を備えた分類システムにおいて、
(i)前記分類学習材料を構成する要素間の組合せごとの相関指標を求め行列形式とする相関指標行列作成手段、(ii)前記相関指標行列の固有ベクトルを求める相関指標行列固有ベクトル計算手段を備え、
得られた学習済分類手段に対して分類対象材料取得手段から新たに分類対象材料の入力を行い、前記学習済分類手段が備える前記分類結果出力手段は、前記分類対象材料の分類結果と相関指標行列固有ベクトルごと因子得点を併せて出力し、当該分類結果の妥当性を検討可能としたことを特徴とする分類システム。
【請求項2】
前記相関指標行列固有ベクトル計算手段において、前記分類学習材料を構成する要素と前記相関指標行列固有ベクトルの各々の関係が容易に理解できるように、前記相関指標行列固有ベクトルの座標軸変換を行う相関指標行列固有ベクトル座標軸変換手段を備えたことを特徴とする請求項1記載の分類システム。
【請求項3】
前記相関指標行列作成手段において、前記相関指標は、相関係数、共分散、共出現頻度のいずれかであり、それぞれ相関係数計算手段、共分散計算手段、共出現頻度計算手段を備えたことを特徴とする請求項1ないし2いずれか記載の分類システム。
【請求項4】
前記共出現頻度計算手段は、注目する二つの前記分類学習材料を構成する要素について、(i)両要素が陽性、(ii)両要素が陰性、(iii)一方の要素は陽性で他方が陰性(排他的論理和)、(iv)前記(i)から(iii)の任意の組合せのいずれかを共出現頻度に計上する汎用共出現頻度計算を備えたことを特徴とする請求項3記載の分類システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、大量の画像や観察データなど(いわゆるビッグデータ)を用いて、得られた画像や観察データがどの分類に属するかを判定する分類システムに関する。
【背景技術】
【0002】
インターネットの発達、普及、さらにクラウドと呼ばれる大容量の記録や並列計算技術の発達に伴い、従来は不可能であった大量のデータ処理が可能となってきている。画像や観察データなどと、その正しい分類(教師データ)の組み合わせを大量に処理(学習)して分類器を構成し、新たに得られた画像や観察データから、そのデータがどの分類に属するかを推定する分類システムが、とりわけ深層学習と呼ばれる手法を契機として開発が急速に進んでいる。
【0003】
画像認識の領域では、人の顔の映像から誰であるかを識別したり、怒りや悲しみなどの感情を読み取ったりするなどの技術が進んでいる。物体認識では、画像に写っている物の種類を推定する技術が進んでいる。医療分野では、レントゲン写真やCT、顕微鏡画像などの医療画像から、癌などの存在を識別する研究も盛んである。
【0004】
同様に、大量の財務データや経済データを用いて深層学習を行い、企業の信用度を判定したり、株価の上昇や下落を予測したりする研究も盛んである。医療分野では、多数の患者の訴える症状や検査所見の大量データを用いて、ある症状や所見を有する患者の疾患名を予測したり、有効な治療法を推定したりする研究も進んでいる。
この出願に関連する先行技術文献としては次のものがある。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2018-175226号公報
【特許文献2】特開2019-3396号公報
【特許文献3】特開2019-106090号公報
【特許文献4】特開2019-82883号公報(周知技術を示す文献)
【特許文献5】国際公開第2017/168865号公報(周知技術を示す文献)
【特許文献6】特開2013-77127号公報
【特許文献7】国際公開第2020/179764号公報
【特許文献8】特許6792751号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
深層学習等では、多数の層からなるニューラルネットワークが使用される。認識結果が出ても、なぜその認識となったのかを人間が理解することが困難である。
認識精度が上がったとはいえ、100%ではないので、必ず誤認識が発生するが、その責任は、その認識結果を利用した人間が負うしかない。
その際に、なぜ当該認識に至ったかを第三者に説明できなければ、利用する人間に損害賠償などのリスクが生じてしまい、実用性には限界がある。
【0007】
また、ビッグデータを解析すれば全ての問題は解決するかのような幻想があった。
しかし、それぞれの分野で長い時間をかけて形成されてきた思考の枠組みの有用性は強固である。いかに大量とはいえ、事前に内部論理構造を一切仮定せずに、全てのデータをフラットにして解析しても、既に知られているありきたりの知見の再確認や、意味がつけにくい相互関係の指摘に留まることが少なくない。
【0008】
特開2019-106090号公報では、複数種類の対象物(ワーク)の瑕疵の有無を判別する際に、先ずワークの種類を特定する学習をさせ、次に特定された種類のワークに特化した瑕疵の有無の判別学習を行うことで、複数のワークが混在する作業環境でも瑕疵の有無に関する高い判別率を得ようとするものである。
特開2019-82883号公報では、深層学習を用いて対象物がどのクラスに属するかを学習させ、クラスごとの代表特徴量と、当該クラスでよく観察される頻出特徴量を記録しておく。或る対象物のクラス分類に際しては、得られた特徴量と、予め記録されているクラスごとの代表特徴量と頻出特徴量を比較し、最も近似したクラスを推定クラスとするとともに、合致した頻出特徴量に対応する対象物の属性も併せて当該クラス推論の根拠とするものである。
国際公開第2017/168865号公報では、入力および出力(正解)の組合せからなる第1のデータセットで深層学習を行い、推論機構を構築する。前記第1のデータセットの入力の一部のみが異なる第2のデータセットを別に用意しておき、前記学習済み推論機構に第2のデータセットを適用する。前記一部のみが異なる入力が出力にどのように影響するかを調べ、グラフなどで表示し、これにより入力と出力の対応関係を明らかにして出力の意味づけや説明を行おうとするものである。
【0009】
深層学習により、推論や判別の精度が、従来に比較して飛躍的に向上している。
しかしながら、推論は確率過程であるため、100%の正解率はあり得ず、必ず一定の割合で誤推論が発生する。
その際に、なぜその推論を行ったかという推論の根拠が示せないと、抗弁が困難であり、すべて利用者の責任となる。
また誤推論が発生した理由が不明では、精度の改善が困難である。
しかし、深層学習は、多数の層からなる神経要素を用いているため、原理的に因果関係の推定が困難であるという問題があった。
【0010】
上記の問題を解決するため、何とか推論結果の根拠を併せて得られるような試みがなされてきている。
例えば特開2019-82883号公報では、頻出特徴量と属性を関連付けることで、代表特徴量で推定されるクラス分類の属性を列挙し、説明根拠を得ようとしている。
しかし、頻出特徴量に対応して発火している中間ニューロンから入力層に対応させて推定された属性は、直接的に証明されたものでなく、さらに各々の頻出特徴量とクラス分類の属性の関係が不明ないし解釈困難な場合も少なくない。
また国際公開第2017/168865号公報では、入力要素群の一部のみが異なるデータセットを学習済推論器にかけ、異なる入力要素で出力がどのように変化するかで、当該異なる入力要素の出力への影響を推測するものですが、前記「入力要素群の一部のみが異なるデータセット」を得るのは、時に容易ではない。
【0011】
いずれの引例も、推論器の学習に当たっては、入力のパターンに対する教師データとして、当該パターンのクラス分類や、家賃の実測値といった一つの要素のみを使用している。推論後に、学習済みの推論器の出力付近で発火している中間ニューロンの影響範囲から、得られたクラス分類の属性を推測したり、入力パターンの一部のみを変化させ、出力の変化から変化させた入力要素の意味や属性を推測したりしているものである。
このように、従来技術では、学習における入力パターンに対する教師データとして、クラス分類値や家賃など、入力パターンごとに各々一個の実測値のみを用いて学習を行い、推論実行後に、後付けで属性を推定していた。
【0012】
また、特許6792751号公報では、学習の際に分類の正解のみならず、当該分類の属性の正解に関しても教師データを与えて学習させることにより、或る画像などを提示した際、当該画像の分類のみならず属性の推定も出力させ、分類の根拠を推定する分類システムを提供することすることとしている。
また、分類ごとの属性データベースを構築しておき(分類ごと属性リスト管理手段)、得られた属性リストに対して、当該分類の属性に適合するかどうかの突合を行う検証手段(属性リストによる分類正解推定手段)を設けることで、当該分類の妥当性を検証するとともに、分類の根拠を系統的に説明可能にしている。
ここでは、クラス分類のみならず当該クラス分類の既知の属性も、並列して入力パターンに対する教師データとして学習を行い、学習済みの推論器に入力パターンを与えた際は、クラスの分類のみならず、併せて属性の推定値も同時に直接出力され、クラスの分類とその根拠となる属性が同時かつ直接得られる。
しかしながら、推論器の学習の際に教師データとして分類の正解と属性の正解リストの両方を与える必要があり、教師データの作成に手間と費用が掛かる難点があった。
【0013】
本発明は、上記の問題を解決するためになされたもので、分類学習材料を構成する要素間の組合せごとの相関指標を求め行列形式とする相関指標行列作成手段、(ii)前記相関指標行列の固有ベクトルを求める相関指標行列固有ベクトル計算手段を備え、得られた学習済分類手段に対して分類対象材料取得手段から新たに分類対象材料の入力を行い、前記学習済分類手段が備える前記分類結果出力手段は、前記分類対象材料の分類結果と相関指標行列固有ベクトルごと因子得点を併せて出力し、当該分類結果の妥当性を検討可能としたことで、学習の際に必要であった属性の正解リストの作成を不要とした。
これにより、本発明の推論器の利用者は、入力された分類対象材料に対して、クラス分類推論値を、根拠となる因子得点付きで得られるので、確信をもって利用できるとともに、もし、分類推論値が誤っていたとしても、推論の根拠となる因子得点が併せてあるため、不可抗力の抗弁が可能となる。さらに、因子得点から、可能性のある別のクラス分類を推定することも可能となる。
【課題を解決するための手段】
【0014】
前記目的を達成するための手段として、請求項1記載の分類システムでは、分類の学習材料を得る分類学習材料管理手段と、前記分類の学習材料ごとに分類正解を設定する分類学習材料ごと分類正解設定手段と、前記分類の学習材料を入力し分類を行う分類手段と分類結果を出力する分類結果出力手段と、前記分類結果と前記分類学習材料ごと分類正解設定手段で予め設定された前記分類正解を比較して誤差をフィードバックし、前記分類手段の学習を行う分類学習手段を備えた分類システムにおいて、(i)前記分類学習材料を構成する要素間の組合せごとの相関指標を求め行列形式とする相関指標行列作成手段、(ii)前記相関指標行列の固有ベクトルを求める相関指標行列固有ベクトル計算手段を備え、得られた学習済分類手段に対して分類対象材料取得手段から新たに分類対象材料の入力を行い、前記学習済分類手段が備える前記分類結果出力手段は、前記分類対象材料の分類結果と相関指標行列固有ベクトルごと因子得点を併せて出力し、当該分類結果の妥当性を検討可能としたことを特徴とする。
【0015】
請求項2記載の分類システムでは、請求項1記載の分類システムにおいて、前記相関指標行列固有ベクトル計算手段において、前記分類学習材料を構成する要素と前記相関指標行列固有ベクトルの各々の関係が容易に理解できるように、前記相関指標行列固有ベクトルの座標軸変換を行う相関指標行列固有ベクトル座標軸変換手段を備えたことを特徴とする。
【0016】
請求項3記載の分類システムでは、請求項1ないし2いずれか記載の分類システムにおいて、前記相関指標行列作成手段において、前記相関指標は、相関係数、共分散、共出現頻度のいずれかであり、それぞれ相関係数計算手段、共分散計算手段、共出現頻度計算手段を備えたことを特徴とする。
【0017】
請求項4記載の分類システムでは、請求項3記載の分類システムにおいて、前記共出現頻度計算手段は、注目する二つの前記分類学習材料を構成する要素について、(i)両要素が陽性、(ii)両要素が陰性、(iii)一方の要素は陽性で他方が陰性(排他的論理和)、(iv)前記(i)から(iii)の任意の組合せのいずれかを共出現頻度に計上する汎用共出現頻度計算を備えたことを特徴とする。
【発明の効果】
【0018】
請求項1記載の分類システムでは、相関指標行列作成手段を備えるので、分類学習材料を構成する要素間の組合せごとの相関指標を求め行列形式とする。
相関指標行列固有ベクトル計算手段を備えるので、相関指標行列の固有ベクトルを求める。
分類結果出力手段を備えるので、分類対象材料の分類結果と相関指標行列固有ベクトルごと因子得点を併せて出力し、当該分類結果の妥当性を検討可能である。
【0019】
請求項2記載の分類システムでは、相関指標行列固有ベクトル座標軸変換手段を備えるので、分類学習材料を構成する要素と前記相関指標行列固有ベクトルの各々の関係が容易に理解できるように、前記相関指標行列固有ベクトルの座標軸変換を行う。
【0020】
請求項3記載の分類システムでは、相関指標は、相関係数、共分散、共出現頻度のいずれかであり、それぞれ相関係数計算手段、共分散計算手段、共出現頻度計算手段を備えている。
【0021】
請求項4記載の分類システムでは、共出現頻度計算手段は、注目する二つの前記分類学習材料を構成する要素について、(i)両要素が陽性、(ii)両要素が陰性、(iii)一方の要素は陽性で他方が陰性(排他的論理和)、(iv)前記(i)から(iii)の任意の組合せのいずれかを共出現頻度に計上する汎用共出現頻度計算を備えている。
【図面の簡単な説明】
【0022】
【
図1(a)】本発明の分類システムの概要図である。分類学習時を示す。
【
図1(b)】本発明の分類システムの概要図である。分類実行時を示す。
【
図2】相関指標行列固有ベクトルの座標軸を、因子の属性がより明確になるように変換することの説明図である。
【
図3】共出現頻度計算手段において、注目する2要素の陽性/陰性に対して共出現頻度の扱いを説明した図である。
【発明を実施するための形態】
【0023】
図1は、本発明の分類システムの概要図である。 (a)分類学習時、(b)分類実行時を示す。
(a)分類学習材料管理手段において、分類の材料となる患者ごとの症状や所見のデータが管理されている。
それぞれの患者データごとに、分類正解設定手段で、正解である疾患名が付与されている。
これらのデータを、分類学習材料入力手段を介して分類手段に提供する。
分類材料の取得の仕方は、電子カルテの記載や、任意の観測データ、時系列データのファイル読み込み等、いずれでもよい。
【0024】
分類手段の入力層に分類学習材料である前記症状や所見を入力する(分類学習材料入力手段)。
分類手段では、ニューロンを模した神経素子を含む多数の隠れ層を重み付きリンクで連結し、入力層から順次重み付きリンクの計算を行う。
或る神経素子の前段階のリンクの発火の有無と重みから当該神経素子への刺激量を合計し、あらかじめ設定してある域値を越えたなら、当該神経素子は発火し、次の隠れ層の神経素子群へ重み付きの出力を行う。
分類手段の最後の層が分類結果出力を担い、当該出力層の個々の神経素子の発火が、個々の分類結果出力に該当する。
分類学習材料ごと正解設定手段で設定された疾患名の分類の正解と比較して、一致しない場合は、その誤差を誤差逆伝播法などの手法で分類手段にフィードバックし、出力が分類正解に近づくよう、リンクの重みを調整する。誤差が、予め設定された基準以下となれば、分類手段の学習終了とする(学習済み分類手段)。
【0025】
本発明では、前記症状や所見などの要素間の相関指標を計算し、行列の形に整理する(相関指標行列作成手段)。
相関指標として、図では相関係数を用いている。
作成された相関指標行列から、固有ベクトルを計算する(相関指標行列固有ベクトル計算手段)。
固有値の大きい順に第1因子、第2などとし、因子ごとの、それぞれの症状や所見の相関係数(因子負荷量)を求める。
因子ごとに、どのような症状や所見の因子負荷量が大きいかを見れば、感染、呼吸器疾患、免疫など等といった当該因子の属性が推定できる。
【0026】
図1(b)は、分類実行時の説明である。
分類の実行に当たっては、分類対象材料管理手段に管理されている分類対象材料である症状や所見を、分類対象材料入力手段を用いて学習済み分類手段に入力する。
分類結果出力手段で発火した個々の神経素子が分類結果に対応する。
本発明では、さらに、前記分類対象材料である症状や所見の有無と、前記因子ごと因子負荷量の積和から、それぞれの分類対象ごとの各因子得点を計算する。前述のように、感染、呼吸器疾患、免疫など等といった当該因子の属性は推定されているので、当該因子の因子得点が高ければ、その因子の属性が大きいことを示す。このようにして、分類対象材料の分類結果と相関指標行列固有ベクトルごと因子得点を併せて出力し、当該分類結果の妥当性を検討可能となる。
【0027】
従来法では、分類結果しか示されないので、なぜ当該分類結果となったかの理由が不明であった。これに対して、本発明では、分類結果だけでなく、相関指標行列固有ベクトルごと因子得点を併せて出力し、両者の比較から当該分類結果の妥当性を検討可能としている。
【0028】
図2は、相関指標行列固有ベクトルの座標軸(因子軸)を、因子の属性がより明確になるように変換することの説明図である。
固有ベクトルは、互いが無関係(相関係数=0)な直交座標系となる。因子軸は絶対的なものでなく、構成する要素の組合せ、バランスで変動するため、時に意味づけ(本発明では「因子の属性」)が曖昧となる。
このため、因子軸を変換させ、より当該因子の属性が明確になるようにすることが有用になる場合がある。因子軸間の直交関係が壊れても、因子軸の属性が明確になるメリットは大きい。
【0029】
相関指標としては、相関係数、共分散、共出現頻度のいずれかを例として用いている。
相関係数および共分散については、一般的な統計学と同一なので説明は不要であろう。
共出現頻度は、注目する二つの要素(本例では症状や所見)が同時に観測されている頻度を計算する(共出現頻度計算手段)。
通常は(i)両要素とも陽性のみを計算するが、疾患名によっては、(ii)両要素とも陰性であることに意味があることもある。
さらには、(iii)どちらか一方のみ陽性ないし陰性(排他的論理和)であることに意味があることもある。
正の相関係数に当たるのは(i)と(ii)の組合せであり、負の相関係数に当たるのは(ii)である。適宜組み合わせてよい。
なお、症状や所見の要素の種類は数千に及ぶので、実際のデータでは、陰性ないし記載なしが多数に上る。
両要素とも陰性が極端に多い場合もある。
このような場合は、一方が陽性である場合の他方の陰性のみ計算する、同一要素内に一定の割合で陽性が見られるもののみ計算するなどの絞り込み操作を行うとよい。
【0030】
以上、実施例を説明したが、本発明の具体的な構成は前記実施例に限定されるものではなく、発明の要旨を逸脱しない範囲の設計変更等があっても本発明に含まれる。
例えば、図では説明を容易にするために症状や所見を+-で表現しているが、実際は数値であって構わない。医療での疾患名の分類を例として用いているが、貸し倒れのリスク評価や収穫予測、良品の判別などに用いても良い。
分類手段としては、現在急速に普及が進んでいる深層学習を例にとっているが、これに限られず、旧来の、あるいは今後出現するニューラルネットワークを用いた分類手段、サポートベクターマシンなどの様々な機械学習、頻度分布を活用したもの等、状況に応じて適切な分類器を用いても、同様の本発明の実施が可能である。