IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人山口大学の特許一覧 ▶ 一般社団法人山口総合健診センターの特許一覧

特許7446586情報処理装置と情報処理プログラムと情報処理方法
<>
  • 特許-情報処理装置と情報処理プログラムと情報処理方法 図1
  • 特許-情報処理装置と情報処理プログラムと情報処理方法 図2
  • 特許-情報処理装置と情報処理プログラムと情報処理方法 図3
  • 特許-情報処理装置と情報処理プログラムと情報処理方法 図4
  • 特許-情報処理装置と情報処理プログラムと情報処理方法 図5
  • 特許-情報処理装置と情報処理プログラムと情報処理方法 図6
  • 特許-情報処理装置と情報処理プログラムと情報処理方法 図7
  • 特許-情報処理装置と情報処理プログラムと情報処理方法 図8
  • 特許-情報処理装置と情報処理プログラムと情報処理方法 図9
  • 特許-情報処理装置と情報処理プログラムと情報処理方法 図10
  • 特許-情報処理装置と情報処理プログラムと情報処理方法 図11
  • 特許-情報処理装置と情報処理プログラムと情報処理方法 図12
  • 特許-情報処理装置と情報処理プログラムと情報処理方法 図13
  • 特許-情報処理装置と情報処理プログラムと情報処理方法 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-01
(45)【発行日】2024-03-11
(54)【発明の名称】情報処理装置と情報処理プログラムと情報処理方法
(51)【国際特許分類】
   G16H 50/00 20180101AFI20240304BHJP
【FI】
G16H50/00
【請求項の数】 15
(21)【出願番号】P 2020179466
(22)【出願日】2020-10-27
(65)【公開番号】P2022070413
(43)【公開日】2022-05-13
【審査請求日】2023-03-27
(73)【特許権者】
【識別番号】304020177
【氏名又は名称】国立大学法人山口大学
(73)【特許権者】
【識別番号】520225831
【氏名又は名称】一般社団法人山口総合健診センター
(74)【代理人】
【識別番号】100141173
【弁理士】
【氏名又は名称】西村 啓一
(72)【発明者】
【氏名】浜本 義彦
(72)【発明者】
【氏名】荻原 宏是
(72)【発明者】
【氏名】飯塚 徳男
【審査官】木村 慎太郎
(56)【参考文献】
【文献】特開2006-107511(JP,A)
【文献】特開2013-174951(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G16H 10/00-80/00
(57)【特許請求の範囲】
【請求項1】
複数の検査項目それぞれの検査データに基づいて、前記検査項目の検査を受けた1の第1対象者と、前記検査項目の前記検査を受けた1または複数の第2対象者と、の間の類似度を算出する情報処理装置であって、
前記第1対象者の前記検査項目ごとの前記検査データと、前記第2対象者の前記検査項目ごとのヒストグラムと、を記憶する記憶部と、
前記第1対象者の前記検査項目ごとの前記検査データと、前記第2対象者の前記検査項目ごとの前記ヒストグラムと、に基づいて、前記類似度を算出する類似度算出部と、
を有してなり、
前記検査データは、定量的データと、定性的データと、を含み、
前記ヒストグラムは、
前記第2対象者の前記検査項目ごとの前記検査データが属する複数の区間、を有すると共に、
前記検査データが前記定量的データのとき、前記第2対象者の前記定量的データが取り得る値の範囲が互いに重ならないように区分けされた複数の前記区間それぞれに属する前記第2対象者の存在確率を有し、
前記検査データが前記定性的データのとき、前記第2対象者の前記定性的データが取り得る各状態に対応する複数の前記区間それぞれに属する前記第2対象者の存在確率を有する、
ことを特徴とする情報処理装置。
【請求項2】
前記類似度算出部は、
前記検査項目ごとに、前記第1対象者の前記検査データが属する前記区間を処理区間として特定し、
前記検査項目ごとに、前記処理区間に属する前記第2対象者の前記存在確率を処理存在確率として特定し、
特定された全ての前記処理存在確率に基づいて、前記類似度を算出する、
請求項1記載の情報処理装置。
【請求項3】
前記類似度算出部は、
前記検査項目ごとに特定された前記処理存在確率に基づいて、前記第1対象者と、前記第2対象者と、の間の前記検査項目ごとの検査項目別類似度を算出し、
前記検査項目別類似度に基づいて、前記類似度を算出する、
請求項2記載の情報処理装置。
【請求項4】
前記類似度は、1の前記第1対象者と、1の前記第2対象者と、の間の類似度であり、
前記検査データが非名義尺度データであり、かつ、前記ヒストグラムが3以上の前記区間を有するとき、前記類似度算出部は、
前記第1対象者が属する前記処理区間と、前記第2対象者が属する前記区間と、の間の位置関係に基づいて、前記検査項目別類似度を補正し、
補正された前記検査項目別類似度に基づいて、前記類似度を算出する、
請求項3記載の情報処理装置。
【請求項5】
前記ヒストグラムを生成するヒストグラム生成部と、
前記検査項目ごとに、前記第2対象者それぞれの前記検査データを取得する取得部と、
を有してなり、
前記ヒストグラム生成部は、複数の前記区間と、前記取得部により取得された前記検査データと、に基づいて、前記ヒストグラムを生成する、
請求項1記載の情報処理装置。
【請求項6】
前記ヒストグラム生成部は、前記検査データが前記定量的データであるとき、前記定量的データに基づいて前記区間を設定する、
請求項5記載の情報処理装置。
【請求項7】
前記ヒストグラム生成部は、前記検査データが前記定性的データであるとき、前記定性的データの取り得る前記第2対象者の状態に基づいて、前記区間を設定する、
請求項5記載の情報処理装置。
【請求項8】
前記記憶部は、前記第2対象者ごとの検索対象者情報、を記憶し、
前記第2対象者ごとの前記検索対象者情報を表示する表示部と、
前記表示部の動作を制御する制御部と、
を有してなり、
前記制御部は、前記類似度算出部により算出された前記類似度に基づいて、前記表示部に表示される前記検索対象者情報を決定する、
請求項1記載の情報処理装置。
【請求項9】
前記第2対象者は、
特定クラスに属する前記第2対象者である特定第2対象者と、
前記特定クラスと異なる非特定クラスに属する前記第2対象者である非特定第2対象者と、
を含み、
前記ヒストグラムは、
前記特定第2対象者の前記検査項目ごとの特定ヒストグラムと、
前記非特定第2対象者の前記検査項目ごとの非特定ヒストグラムと、
を含み、
前記第1対象者の前記検査項目ごとの前記検査データと、前記検査項目ごとの前記特定ヒストグラムと、前記検査項目ごとの前記非特定ヒストグラムと、に基づいて、前記第1対象者を前記特定クラスと前記非特定クラスとのいずれか一方に識別する識別部、
を有してなる、
請求項1記載の情報処理装置。
【請求項10】
前記類似度算出部は、
前記第1対象者の前記検査項目ごとの前記検査データと前記特定ヒストグラムとに基づいて、前記第1対象者と前記特定第2対象者との間の前記類似度を算出し、
前記第1対象者の前記検査項目ごとの前記検査データと前記非特定ヒストグラムとに基づいて、前記第1対象者と前記非特定第2対象者との間の前記類似度を算出し、
前記識別部は、前記第1対象者と前記特定第2対象者との間の前記類似度と、前記第1対象者と前記非特定第2対象者との間の前記類似度と、に基づいて、前記第1対象者を前記特定クラスと前記非特定クラスとのいずれか一方に識別する、
請求項9記載の情報処理装置。
【請求項11】
複数の検査項目それぞれの検査データに基づいて、前記検査項目の検査を受けた複数の対象者により構成される第1集団と、前記検査項目の前記検査を受けた複数の他の対象者により構成される第2集団と、の間の類似度を算出する情報処理装置であって、
前記第1集団の前記検査項目ごとの第1ヒストグラムと、前記第2集団の前記検査項目ごとの第2ヒストグラムと、を記憶する記憶部と、
前記第1ヒストグラムと前記第2ヒストグラムとに基づいて、前記類似度を算出する類似度算出部と、
を有してなり、
前記第1ヒストグラムと前記第2ヒストグラムそれぞれは、互いに共通する複数の共通区間、を有し、
前記共通区間それぞれには、前記第1集団を構成する複数の前記対象者の前記検査データと、前記第2集団を構成する複数の前記他の対象者の前記検査データと、の少なくとも一方が属する、
ことを特徴とする情報処理装置。
【請求項12】
前記検査データは、定量的データと、定性的データと、を含み、
前記検査項目ごとに、前記第1ヒストグラムは、
前記検査データが前記定量的データのとき、前記第1集団の前記定量的データが取り得る値の範囲が互いに重ならないように区分けされた、複数の前記共通区間それぞれに属する前記第1集団を構成する複数の前記対象者の存在確率を有し、
前記検査データが前記定性的データのとき、前記第1集団の前記定性的データが取り得る各状態に対応し、複数の前記共通区間それぞれに属する前記第1集団を構成する複数の前記対象者の存在確率を有し、
前記検査項目ごとに、前記第2ヒストグラムは、
前記検査データが前記定量的データのとき、前記第2集団の前記定量的データが取り得る値の範囲が互いに重ならないように区分けされた、複数の前記共通区間それぞれに属する前記第2集団を構成する複数の前記他の対象者の存在確率を有し、
前記検査データが前記定性的データのとき、前記第2集団の前記定性的データが取り得る各状態に対応し、複数の前記共通区間それぞれに属する前記第2集団を構成する複数の前記他の対象者の存在確率を有する、
請求項11記載の情報処理装置。
【請求項13】
前記類似度算出部は、
前記検査項目ごとに、前記共通区間ごとに、前記第1集団を構成する複数の前記対象者の前記存在確率と、前記第2集団を構成する複数の前記他の対象者の前記存在確率と、の差分量の絶対値を算出し、
前記検査項目ごとに、前記共通区間ごとの前記絶対値の総和に基づいて、前記検査項目ごとの検査項目別類似度を算出し、
前記検査項目別類似度に基づいて、前記類似度を算出する、
請求項12記載の情報処理装置。
【請求項14】
コンピュータを請求項1記載の情報処理装置として機能させる、
ことを特徴とする情報処理プログラム。
【請求項15】
複数の検査項目それぞれの検査データに基づいて、前記検査項目の検査を受けた第1対象者と、前記検査項目の前記検査を受けた第2対象者と、の間の類似度を算出する情報処理装置により実行される情報処理方法であって、
前記情報処理装置は、
前記第1対象者の前記検査項目ごとの前記検査データと、前記第2対象者の前記検査項目ごとのヒストグラムと、を記憶する記憶部、
を備え、
前記検査データは、定量的データと、定性的データと、を含み、
前記検査項目ごとに、前記ヒストグラムは、
前記第2対象者の前記検査データが属する複数の区間、を有すると共に、
前記検査データが前記定量的データのとき、前記第2対象者の前記定量的データが取り得る値の範囲が互いに重ならないように区分けされた複数の前記区間それぞれに属する前記第2対象者の存在確率を有し、
前記検査データが前記定性的データのとき、前記第2対象者の前記定性的データが取り得る各状態に対応する複数の前記区間それぞれに属する前記第2対象者の存在確率を有し、
前記情報処理装置が、前記第1対象者の前記検査項目ごとの前記検査データと、前記第2対象者の前記検査項目ごとの前記ヒストグラムと、を取得する取得ステップと、
前記検査データと前記ヒストグラムに基づいて、前記類似度を算出する類似度算出ステップと、
を有してなる、
ことを特徴とする情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置と情報処理プログラムと情報処理方法とに関する。
【背景技術】
【0002】
医療分野において、健康診断を受ける者(受診者)や医師の診察を受ける患者から得られる検査データは、受診者と患者それぞれの本人のために用いられるだけでなく、将来の受診者や患者のためにも用いられることが望まれている。そのため、データベースに蓄積された膨大な量の検査データの利活用方法が、重要である。しかしながら、現状において、利活用される検査データは、データベースに蓄積されている検査データではなく、医師それぞれに記憶されている経験と知識とに留まっている。すなわち、検査データは、医師の記憶に依存した「暗黙知」として、個々の医師に利活用されているに過ぎない。
【0003】
データベースに蓄積されている検査データの利活用の代表的な例として、例えば、特定の受診者や患者の症例と類似した症例(類似症例)の検索が、ある。特に、CT画像や内視鏡画像、X線透視画像などの画像データを対象とした類似画像の検索は、広く提案されている(例えば、特許文献1,2参照)。
【0004】
ここで、検査データは、定量的なデータ(例えば、血液検査の値などの数値で表し得る数値データ:以下「定量的データ」ともいう。)だけでなく、定性的なデータ(例えば、癌の術後再発・転移の有無や、遺伝子変異の有無・種類などの数値で表し得ない状態を示す記号データ:以下「定性的データ」ともいう。)をも含む。そのため、画像データを除く血液検査などの一般検査項目の検査データを対象とした類似症例の検索は、難しく、あまり提案されていない。
【0005】
これまでにも、定量的データと定性的データとを活用して類似症例を検索する技術が提案されている(例えば、特許文献3参照)。
【0006】
特許文献3に開示された技術は、定量的データは数値データのまま(個体間の)類似度の算出に用い、定性的データは数値化してから類似度の算出に用いることにより、類似症例を検索する。しかしながら、定性的データの中には、単なる記号としての意味のみを有する名義尺度データがあり、同技術は、名義尺度データが大小関係や差、さらには平均値など、数値計算に全く意味を有さないにも関わらず、名義尺度データをも数値化している。そのため、同技術は、医学分野の検査データにおいて重要な役割を果たす名義尺度データ(例えば、遺伝子変異の有無)を有効に活用できない。したがって、同技術は、定量的データと定性的データとが混在する検査データを十分に利活用できていない。
【先行技術文献】
【特許文献】
【0007】
【文献】特開2019-212296号公報
【文献】特開2018-151791号公報
【文献】特開2016-218954号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明は、定量的データと定性的データとを含む検査データに基づいて、検査を受けた第1対象者と、検査を受けた第2対象者と、の間の類似度を算出可能な情報処理装置と情報処理プログラムと情報処理方法とを提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明に係る情報処理装置は、複数の検査項目それぞれの検査データに基づいて、検査項目の検査を受けた1の第1対象者と、検査項目の検査を受けた1または複数の第2対象者と、の間の類似度を算出する情報処理装置であって、第1対象者の検査項目ごとの検査データと、第2対象者の検査項目ごとのヒストグラムと、を記憶する記憶部と、第1対象者の検査項目ごとの検査データと、第2対象者の検査項目ごとのヒストグラムと、に基づいて、類似度を算出する類似度算出部と、を有してなり、検査データは、定量的データと、定性的データと、を含み、ヒストグラムは、第2対象者の検査項目ごとの検査データが属する複数の区間、を有すると共に、検査データが定量的データのとき、第2対象者の定量的データが取り得る値の範囲が互いに重ならないように区分けされた複数の区間それぞれに属する第2対象者の存在確率を有し、検査データが定性的データのとき、第2対象者の定性的データが取り得る各状態に対応する複数の区間それぞれに属する第2対象者の存在確率を有する、ことを特徴とする。
【発明の効果】
【0010】
本発明によれば、定量的データと定性的データとを含む検査データに基づいて、検査を受けた第1対象者と、検査を受けた第2対象者と、の間の類似度を算出することができる。
【図面の簡単な説明】
【0011】
図1】本発明に係る情報処理装置の実施の形態を示すシステム構成図である。
図2図1の情報処理装置に接続される情報記憶サーバに記憶されている情報の例を示す模式図である。
図3図2の情報記憶サーバに記憶されている情報の別の例を示す模式図である。
図4図1の情報処理装置の機能ブロック図である。
図5】本発明に係る情報処理方法の実施の形態を示すフローチャートである。
図6図5の情報処理方法に含まれるヒストグラム生成処理のフローチャートである。
図7図6のヒストグラム生成処理で生成されるヒストグラムの例を示す模式図である。
図8図6のヒストグラム生成処理で生成されるヒストグラムの別の例を示す模式図である。
図9図5の情報処理方法に含まれる類似度算出処理のフローチャートである。
図10図9の類似度算出処理に含まれる第1類似度算出処理のフローチャートである。
図11】第1類似度算出処理の定量的データが得られる検査項目におけるヒストグラムの例を示す模式図である。
図12図9の類似度算出処理に含まれる第2類似度算出処理のフローチャートである。
図13図9の類似度算出処理に含まれる第3類似度算出処理のフローチャートである。
図14図5の情報処理方法に含まれる識別処理のフローチャートである。
【発明を実施するための形態】
【0012】
本発明に係る情報処理装置と情報処理プログラムと情報処理方法とは、以下の実施の形態と、図面と、により説明される。
【0013】
本発明は、複数の検査項目それぞれの検査データに基づいて、各検査項目の検査を受けた第1対象者と、各検査項目の検査を受けた第2対象者と、の間の類似度を算出するものである。また、本発明は、複数の検査項目それぞれの検査データに基づいて、各検査項目の検査を受けた複数の対象者から構成される集団と、各検査項目の検査を受けた複数の他の対象者から構成される集団と、の間の類似度を算出するものでもある。
【0014】
「検査項目」は、例えば、健康診断センターにおける健康診断や病院における病気の診断、対象者が受けた検査の項目である。すなわち、例えば、検査項目は、血液検査や尿検査、便検査などの検査ごとの項目である。
【0015】
「検査データ」は、検査項目ごとに対象者から得られる医学データである。検査データは、定量的データと定性的データとを含む。本実施の形態において、1の対象者が受けた検査項目それぞれからは、1の検査データが得られるものとする。つまり、各検査項目において、検査の対象者の数は、検査データの数と一致する。
【0016】
「定量的データ」は、例えば、体重、癌の数、腫瘍マーカー値、血中コレステロール値などの検査項目ごとに対象者から得られた値を示す、数値で表し得る数値データである。ここで、定量的データは、絶対零点が存在することを特徴とする比尺度データと、絶対零点が存在しないことを特徴とする間隔尺度データと、を含む。
【0017】
「定性的データ」は、例えば、性別、癌の有無、転移の有無、遺伝子の変異、癌のステージなどの検査項目ごとに対象者から得られた状態を示す、数値で表し得ない記号データである。ここで、定性的データは、順位などの順序に意味があることを特徴とする序数尺度データと、記号そのものに意味があることを特徴とする名義尺度データと、を含む。また、定性的データは、画像データに基づいて生成される情報を含み得る。すなわち、例えば、本発明において、医師が画像を読影して得られた所見は、記号化されることにより、医学的に価値のある記号データとして取り扱われ得る。具体的には、病変の有無、病変のタイプ・位置などが多岐選択肢として構成されることにより、その回答は、記号データとなる。
【0018】
「第1対象者」は、本発明において1または複数の第2対象者との間の類似度が算出される者である。本実施の形態において、第1対象者は、例えば、本発明に係る情報処理装置(以下「本装置」という。)に検査データが入力され、後述される情報処理方法の対象となる者(以下「入力対象者」という。)である。入力対象者は、例えば、健康診断センターまたは病院で検査を受けた者である。
【0019】
「第2対象者」は、本発明において第1対象者との間の類似度が算出される者である。本実施の形態において、第2対象者は、例えば、第1対象者の検査データに基づいて、第1対象者との間の類似度が算出されて、検索される対象となる1または複数の者(以下「検索対象者」という。)である。検索対象者は、例えば、健康診断センターまたは病院で過去に検査項目の検査を受けた者である。
【0020】
なお、入力対象者は、疾病の確定診断を受けた者でもよく、確定診断を受けていない者でもよい。検索対象者は、後述される識別に用いられる場合には確定診断を受けた者に限られ、後述される検索に用いられる場合には確定診断を受けた者である方が望ましい。
【0021】
「類似度」は、第1対象者(入力対象者)と第2対象者(検索対象者)との間の類似の度合を示す。
【0022】
●情報処理装置●
図1は、本装置の実施の形態を示すシステム構成図である。
【0023】
同図は、本装置1と情報記憶サーバ2と外部装置3とが通信ネットワークNを介して接続されていることを示す。
【0024】
本装置1は、複数の検査項目それぞれの検査データに基づいて、各検査項目の検査を受けた第1対象者(入力対象者)と、各検査項目の検査を受けた第2対象者(検索対象者)と、の間の類似度を算出する。本装置1の具体的な構成と動作とは、後述される。
【0025】
情報記憶サーバ2は、入力対象者と検索対象者それぞれが受けた検査項目ごとの検査データを記憶する。情報記憶サーバ2は、例えば、パーソナルコンピュータで構成されるファイルサーバである。情報記憶サーバ2は、例えば、本装置1とは物理的に離れた場所(例えば、情報銀行などの情報センター)に設置される。
【0026】
なお、情報記憶サーバは、情報を記憶可能であればパーソナルコンピュータに限定されない。すなわち、例えば、情報記憶サーバは、クラウドサーバやNAS(Network Attached Storage)でもよい。
【0027】
図2は、情報記憶サーバ2に記憶されている情報の例を示す模式図である。
「検査項目ID」は、検査項目ごとに付与される検査項目固有の識別情報である。「対象者ID」は、対象者ごと、すなわち、入力対象者ごと、検索対象者ごと、に付与される対象者固有の識別情報である。同図は、検査項目ID「X001」の検査項目に対して、対象者ID「A001」と、検査結果「x011」と、が関連付けられて、情報記憶サーバ2に記憶されていることを示す。
【0028】
図3は、情報記憶サーバ2に記憶されている情報の別の例を示す模式図である。
「クラスID」は、クラスごとに付与されるクラス固有の識別情報である。「検索対象者情報ID」は、検索対象者情報ごとに付与される検索対象者情報固有の識別情報である。検索対象者情報とクラスとは、後述される。同図は、対象者ID「A001」の検索対象者に対して、検索対象者情報「B001」と、クラスID「Z001」と、が関連付けられて、情報記憶サーバ2に記憶されていることを示す。また、同図は、対象者ID「A002」の検索対象者に対して、クラスIDが関連付けられていない(同検索対象者が特定の疾病に罹患しているか否かの確定診断を受けていない者である)ことを示す。
【0029】
「検索対象者情報」は、例えば、検索対象者の過去の検査データなどの検索対象者ごとに定まる情報である。検索対象者情報は、例えば、対象者IDに関連付けられて、情報記憶サーバ2に記憶されている。
【0030】
なお、検索対象者情報は、例えば、検索対象者の生活習慣、治療内容、その経過などの情報を含んでもよい。
【0031】
「クラス」は、確定診断を受けた検索対象者が属するグループ(概念)である。
【0032】
図1に戻る。
外部装置3は、通信ネットワークNを介して、本装置1に接続され、検索結果、識別結果を出力する(表示する)装置である。外部装置3は、例えば、タブレットなどの携帯情報端末である。
【0033】
なお、外部装置は、本装置に直接的に接続されるモニタやプリンタでもよい。
【0034】
●情報処理装置の構成
図4は、本装置1の機能ブロック図である。
同図は、説明の便宜上、通信ネットワークNと情報記憶サーバ2とを破線で示す。
【0035】
本装置1は、例えば、PC(Personal Computer)である。本装置1は、通信部11と記憶部12と制御部13と操作部14と表示部15とを有してなる。
【0036】
本装置1では、本発明に係る情報処理プログラム(以下「本プログラム」という。)が動作して、本プログラムが本装置1のハードウェア資源と協働して、後述する本方法を実現する。
【0037】
ここで、図示しないコンピュータに本プログラムを実行させることで、本プログラムは、同コンピュータを本装置1と同様に機能させて、同コンピュータに本方法を実行させ得る。
【0038】
通信部11は、通信ネットワークNを介して、情報記憶サーバ2と外部装置3との間で通信する。通信部11は、例えば、通信モジュールやアンテナなど(不図示)により構成される。通信部11は、本発明における出力部としても機能する。通信部11の具体的な動作は、後述される。
【0039】
記憶部12は、本装置1が本方法を実行するために必要な情報(例えば、後述されるヒストグラムなどの情報)を記憶する。記憶部12に記憶される情報は、後述される。記憶部12は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)などの記録装置および/またはRAM(Random Access Memory)、フラッシュメモリなどの半導体メモリ素子、などにより構成される。
【0040】
制御部13は、後述する本方法を実行すると共に、本装置1全体の動作を制御する。制御部13は、例えば、CPU(Central Processing Unit)やDSP(Digital Signal Processor)などのプロセッサと、RAMやROM(Read Only Memory)などの半導体メモリと、により構成される。制御部13は、取得部131と、ヒストグラム生成部132と、類似度算出部133と、識別部134と、を備える。これらの各部は、例えば、制御部13で実行されるプログラムにより実現される機能モジュールである。
【0041】
取得部131は、通信部11を介して、情報記憶サーバ2から対象者(入力対象者・検索対象者)の検査項目ごとの検査データを取得する。取得部131の具体的な動作は、後述される。
【0042】
ヒストグラム生成部132は、検索対象者それぞれの検査項目ごとの検査データに基づいて、検査項目ごとの検索対象者の検査データの分布をノンパラメトリック的に示すヒストグラムを生成する。ヒストグラム生成部132の具体的な動作は、後述される。
【0043】
ヒストグラムは、検査項目ごとに生成される。ヒストグラムにおいて、検査データそれぞれは、互いに重ならない複数の区間のいずれかに属する。ここで、検査データが属さない区間は、存在しない。すなわち、各区間には、少なくとも1つの検査データが含まれる。
【0044】
「区間」は、検査データが分類される階級(数値の範囲または状態)である。区間は、検査データが定量的データのとき、検査データが取り得る値の範囲(例えば、最大値から最小値までの範囲)が互いに重ならないように、1または複数の閾値で区分けされることにより定められる。一方、区間は、検査データが定性的データのとき、検査データが取り得る状態それぞれに対応するように定められる。
【0045】
類似度算出部133は、入力対象者の検査項目ごとの検査データと、検査項目ごとのヒストグラムと、に基づいて、入力対象者と検索対象者との間の類似度を算出する。類似度算出部133の具体的な動作は、後述される。
【0046】
識別部134は、特定クラスと非特定クラスとにより構成される2クラス問題において、識別される対象である入力対象者の検査項目ごとの検査データと、特定クラスに属する検索対象者(特定第2対象者)の検査項目ごとの特定ヒストグラムと、非特定クラスに属する検索対象者(非特定第2対象者)の検査項目ごとの非特定ヒストグラムと、に基づいて、入力対象者を特定クラスと非特定クラスとのいずれか一方に識別する。識別部134の具体的な動作は、後述される。
【0047】
「2クラス問題」は、識別対象となる入力対象者が特定クラスまたは非特定クラス(2つのクラス)のいずれに属するかを識別する問題である。
【0048】
「特定クラス」は、2クラス問題を構成する一方のクラスとして、本装置1の使用者(例えば、医師)により設定されるクラスである。本実施の形態において、特定クラスは、例えば、ある疾患に罹患しているという確定診断を受けた検索対象者が属するクラスである。一方、「非特定クラス」は、2クラス問題を構成する他方のクラスとして、特定クラスに対応して使用者により設定されるクラスである。本実施の形態において、非特定クラスは、例えば、ある疾患に罹患していないという確定診断を受けた検索対象者が属するクラスである。非特定クラスは、特定クラスに対応して一意的に定まる。すなわち、例えば、使用者により設定された2クラス問題が「癌の術後再発診断問題」であるとき、特定クラスは癌の術後再発有クラスであり、非特定クラスは癌の術後再発無クラスである。このように、特定クラスと非特定クラスとは、背反する関係にあり、識別される入力対象者が必ずいずれかに属するクラスである 。
【0049】
操作部14は、本装置1の使用者(例えば、医師)からの操作(情報の入力や選択など)を受ける機器である。
【0050】
表示部15は、後述する本方法の実施において必要な情報(情報の選択画面や入力画面、識別結果など)を表示する。操作部14と表示部15とは、例えば、タッチパネル式ディスプレイである。
【0051】
なお、本発明における操作部はマウスやキーボードなどの入力機器でもよく、本発明における表示部は、本装置に接続されるモニタやディスプレイでもよい。
【0052】
●情報処理方法●
次に、本装置1が実行する本方法について説明する。
【0053】
以下の本方法の説明において、入力対象者は健康診断センターにおいて健康診断を新たに、または過去に受けた者とし、検索対象者は健康診断センターにおいて過去に健康診断を受けた者とし、検査項目は健康診断センターにおける健康診断の検査項目とする。
【0054】
図5は、本方法の実施の形態を示すフローチャートである。
【0055】
本方法は、ヒストグラム生成処理(S1)と、類似度算出処理(S2)と、識別処理(S6)と、を含む。すなわち、本装置1は、ヒストグラム生成処理(S1)と、類似度算出処理(S2)と、識別処理(S6)と、を実行する。
【0056】
●ヒストグラム生成処理
図6は、ヒストグラム生成処理(S1)のフローチャートである。
【0057】
「ヒストグラム生成処理(S1)」は、検査項目ごとに、検索対象者の検査データに基づいて、ヒストグラムを生成する処理、すなわち、検索対象者の検査データに基づいて、ヒストグラムを定める区間情報(検査データが定量的データであれば区間の数と幅、検査データが定性的データであれば状態と状態の数、および、検索対象者の存在確率)を求める処理である。ヒストグラム生成処理(S1)は、類似度算出処理(S2)と識別処理(S6)とよりも前に実行される。
【0058】
先ず、本装置1の制御部13は、ヒストグラムを生成する検査項目を決定する(S101)。制御部13は、例えば、表示部15に検査項目の選択画面を表示させ、本装置1の使用者(例えば、医師)が操作部14を用いて選択した検査項目を、ヒストグラムを生成する検査項目として決定する。
【0059】
なお、本発明における制御部は、使用者による手動ではなく、自動的に検査項目を決定してもよい。すなわち、例えば、本発明における制御部は、所定の間隔(例えば、1月)ごとに検査項目IDの順に検査項目を決定してもよい。
【0060】
次いで、取得部131は、通信部11を介して、情報記憶サーバ2からヒストグラムを生成する検査項目の検索対象者の検査データを取得する(S102)。取得された検査データは、記憶部12に記憶される。
【0061】
次いで、ヒストグラム生成部132は、検査データが定量的データまたは定性的データのいずれに該当するかを判定する(S103)。
【0062】
検査データが定量的データのとき(S103の「定量的データ」)、ヒストグラム生成部132は、検査項目に対応する区間情報のうち、区間の数と幅とを特定する(S104)。区間の数と幅は、ヒストグラムを定めるために必要な情報である。各区間は、互いに重ならないように設定される。このように、数値、すなわち、連続値である定量的データが互いに重ならない複数の区間のいずれかに属することを定量的データの離散化という。
【0063】
一方、検査データが定性的データのとき(S103の「定性的データ」)、ヒストグラム生成部132は、検査項目に対応する区間情報のうち、検索対象者の検査データが取り得る状態と状態の数とを取得する(S105)。具体的には、ヒストグラム生成部132は、検査項目に対応する区間情報のうち、状態と状態の数とを記憶部12から取得する。検査データが取り得る状態と状態の数は、ヒストグラムを定めるために必要な情報である。すなわち、例えば、検査項目が「尿蛋白」のとき、検査データが取り得る状態は「-」「±」「1+」「2+」「3+」「4+」であり、状態の数は「6」である。ここで、検査データが取り得る状態それぞれは区間に対応し、状態の数は区間の数に対応する。
【0064】
このように、区間情報の内、区間の数と幅との求め方は、検査データが定量的データか、定性的データか、により異なる。
【0065】
本実施の形態において、検査項目は、健康診断の検査項目である。そのため、検査データが定量的データのとき、検査項目ごとに検査データが取り得る値の範囲は医学的に既知である。そのため、ヒストグラム生成部132は、この医学的に既知な範囲を参照することも可能である(例えば、最高血圧の範囲は、約90mmHg~200mmHg程度である)。また、検査データが定性的データのとき、検査項目ごとに入力対象者の検査データが取り得る状態は医学的に既知である(例えば、便潜血反応の状態は、「+」「-」である。)。したがって、本実施の形態において、健康診断の検査項目に対応する区間情報は、例えば、予め検査項目ごとに設定され、記憶部12に記憶されている。すなわち、例えば、検査項目が最高血圧(定量的データ)のとき、区間は、119mmHg以下、120mmHg~129mmHg、130mmHg~139mmHg、140mmHg~159mmHg、160mmHg~179mmHg、180mmHg以上、と設定される。このとき、区間の数は「6」であり、区間の幅は正常値の幅で「10」であり、高血圧の幅で「20」である。このように、区間の数と幅は、検査項目の検査データの取り得る範囲や、医学的に正常・異常の境界となる値などに応じて定められる。ヒストグラム生成部132は、例えば、予め検査項目ごとに設定されている区間情報を記憶部12から読み出し、読み出された区間情報を、検査項目に対応する区間情報として特定する。
【0066】
なお、区間情報は、検査項目ごとに設定される。すなわち、例えば、区間の数は、検査項目ごとに同じでもよく、あるいは、異なってもよい。また、区間情報は、予め検査項目ごとに設定されておらず、記憶部12に記憶されていなくてもよい。
【0067】
すなわち、例えば、本発明におけるヒストグラム生成部は、検査データが定量的データのとき、検査データの最大値と最小値とを特定し、両者の差分を検査項目ごとに定められた区間の数で除算することにより、区間の幅(区間それぞれの範囲)を特定してもよい。この場合、本発明におけるヒストグラム生成部は、外れ値を除いて、区間の幅(区間それぞれの範囲)を算出してもよい。さらに、例えば、本発明におけるヒストグラム生成部は、検査データが定性的データのとき、検査データが取り得る入力対象者の状態を抽出し、同状態それぞれを区間として特定してもよい。また、1の検査項目における区間の幅は、等間隔でもよく、あるいは、等間隔でなくてもよい。
【0068】
また、例えば、本発明におけるヒストグラム生成部は、検査データが定性的データのとき、検査データが取り得る状態と状態の数とを抽出し、同状態それぞれを区間として特定し、同状態の数を区間の数として特定してもよい。
【0069】
次いで、ヒストグラム生成部132は、検索対象者の検査データと、区間情報(検査データが定量的データであれば区間の数と幅、検査データが定性的データであれば状態と状態の数)とに基づいて、区間ごとの存在確率を算出する(S106)。すなわち、例えば、ヒストグラム生成部132は、検査項目における区間ごとに属する検査データの数、つまり、検索対象者の数を特定する(本実施の形態において、検索対象者の数は、検査データの数と一致する)。次いで、ヒストグラム生成部132は、検査項目における全ての検索対象者(検査データ)の数に対する、各区間に属する検索対象者(検査データ)の数の比として、検査項目の区間ごとの検索対象者の存在確率を算出する。
【0070】
「存在確率」は、各区間それぞれに属する検索対象者が存在する確率である。存在確率は、例えば、後述される式(2)により算出される。
【0071】
このように、定量的データにおいては区間情報である区間の数と幅とが特定され、定性的データにおいては区間情報である状態(区間)と状態の数とが取得され、次いで、区間情報である各区間の存在確率が算出される。ここで、ヒストグラムは、区間の数、幅(定量的データのみ)および各区間の存在確率により定まり、例えば、棒グラフで表現される。すなわち、区間と区間の数および各区間の存在確率が求められたことにより、複数の区間と、区間それぞれに属する検索対象者の存在確率と、を有するヒストグラムが生成される。換言すれば、本発明において、「ヒストグラムの作成」は、区間情報として、定量的データでは区間の数と幅および各区間の存在確率、定性的データでは状態の数と状態および各区間の存在確率、を求めること、を意味する。生成されたヒストグラムは、対応する検査項目に関連付けられて、記憶部12に記憶される。
【0072】
なお、ヒストグラムの区間情報は、情報記憶サーバに記憶されてもよい。
【0073】
図7は、検査データが定量的データのときのヒストグラムの例を示す模式図である。
同図の「a」「b」「c」「d」それぞれは、各区間を定める閾値を示す。同図は、連続値である検査データが、4つの閾値「a-d」により5つの区間(a以下、a以上b未満、b以上c未満、c以上d未満、d以上)に離散化されていることを示す。同図の数値は、区間ごとの検索対象者の存在確率を示す。
【0074】
図8は、検査データが定性的データのときのヒストグラムの例を示す模式図である。
同図の「x」「y」「z」それぞれは、各区間に対応する検索対象者の状態を示す。同図は、検査データが示す状態そのものが区間として特定されていることを示す。同図の数値は、区間ごとの検索対象者の存在確率を示す。
【0075】
●類似度算出処理
図9は、類似度算出処理(S2)のフローチャートである。
【0076】
「類似度算出処理(S2)」は、基本的に、入力対象者の検査項目ごとの検査データと、1または複数の検索対象者の検査項目ごとのヒストグラムと、に基づいて、入力対象者と1または複数の検索対象者との間の類似度を算出する処理である。本実施の形態において、類似度は、1の入力対象者と、複数の検索対象者により構成される集団と、の間の類似度(以下「第1類似度」という。)と、1の入力対象者と、1の検索対象者と、の間の類似度(以下「第2類似度」という。)と、を含む。また、類似度は、集団間の類似度として、複数の対象者により構成される集団間の類似度(以下「第3類似度」という。)をも含む。類似度算出処理(S2)は、本発明における類似度算出ステップの例である。
【0077】
先ず、本装置1の制御部13は、表示部15に算出される類似度の種類(第1-第3類似度)が選択される選択画面を表示させ、使用者(医師)が操作部14を用いて選択した類似度を類似度算出処理(S2)により算出される類似度として特定する(S201)。
【0078】
制御部13に特定された類似度が第1類似度のとき(S201の「第1類似度」)、本装置1は、第1類似度算出処理(S3)を実行する。制御部13に特定された類似度が第2類似度のとき(S201の「第2類似度」)、本装置1は、第2類似度算出処理(S4)を実行する。制御部13に特定された類似度が第3類似度のとき(S201の「第3類似度」)、本装置1は、第3類似度算出処理(S5)を実行する。
【0079】
ここで、各類似度算出処理(S3-S5)において、類似度算出部133は、検査項目ごとに検査項目別類似度を算出し、検査項目別類似度に基づいて2つの対象間の類似度を算出する。
【0080】
「検査項目別類似度」は、入力対象者と複数の検索対象者から構成される集団との間、入力対象者と1の検索対象者との間、または複数の対象者からなる2つの集団間、における検査項目ごとの類似度である。検査項目別類似度は、第1類似度算出処理(S3)における検査項目別類似度、第2類似度算出処理(S4)における検査項目別類似度、第3類似度算出処理(S5)における検査項目別類似度、の3種類ある。
【0081】
●第1類似度算出処理
図10は、第1類似度算出処理(S3)のフローチャートである。
【0082】
「第1類似度算出処理(S3)」は、第1類似度を算出する処理である。すなわち、第1類似度算出処理(S3)は、1の入力対象者と、複数の検索対象者により構成される集団(群)と、の間の類似度を算出する処理である。以下の説明において、入力対象者は「i」と表記されることもある。
【0083】
先ず、制御部13は、類似度を算出する入力対象者と、類似度の算出に用いられる検査項目と、を決定する(S301)。すなわち、例えば、制御部13は、表示部15に入力対象者を入力する入力画面を表示させ、使用者(医師)が操作部14を用いて入力した(選択した)入力対象者を、第1類似度を算出する入力対象者として決定する。また、本実施の形態において、検査項目は健康診断の検査項目である。そのため、制御部13は、例えば、一般健康診断において採用されている検査項目を、類似度の算出に用いられる検査項目として決定する。検査項目は、予め記憶部12に記憶されている。
【0084】
なお、本発明における制御部は、使用者(医師)が選択した検査項目を、類似度の算出に用いられる検査項目として決定してもよい。また、本発明における制御部は、予め複数の検査項目の組合せである検査項目群を、類似度の算出に用いられる検査項目として決定してもよい。この場合、検査項目群は、予め使用者(医師)などにより設定されて、記憶部に記憶されている。
【0085】
次いで、取得部131は、通信部11を介して、情報記憶サーバ2から、入力対象者が受けた検査項目のうち、決定された検査項目ごとの入力対象者の検査データを取得する(S302)。このとき、取得部131は、例えば、入力対象者IDに関連付けられている対象者情報も取得する。検査データは、例えば、対応する対象者情報に関連付けられて記憶部12に記憶される。
【0086】
次いで、類似度算出部133は、決定された検査項目のうち、1の検査項目を処理検査項目として選択する(S303)。すなわち、例えば、類似度算出部133は、検査項目に対応する検査項目IDの番号のうち、最も小さい検査項目IDに対応する検査項目を処理検査項目として選択する。
【0087】
次いで、取得部131は、処理検査項目に対応する、検索対象者から生成されたヒストグラム(すなわち、区間情報(区間の数、幅(定量的データのみ)、存在確率))と、処理検査項目に対応する入力対象者の検査データと、を記憶部12から読み出す(S304)。すなわち、取得部131は、処理検査項目に対応するヒストグラムと検査データとを記憶部12から取得する。
【0088】
ここで、以下の説明において、
処理検査項目の数は「L」(Lは0を除く自然数)
処理検査項目の識別番号は「j」(jは1~Lの自然数)
処理検査項目「j」の区間数は「m」(mは2以上の自然数)
処理検査項目「j」において、入力対象者「i」の検査データが属する左からk番目の区間は処理区間「Rij(k)」(k=1~m
と表記される。
【0089】
また、以下の説明において、全ての検索対象者、つまり全ての検査データの数が「n」と表記されるとき、
処理検査項目「j」において入力対象者「i」の検査データが属するk番目の区間「Rij(k)」に属する検索対象者の数は「n(k)」で表記され、
処理検査項目「j」におけるk番目の区間「Rij(k)」内の検索対象者の存在確率は「p(k)」と表記される。すなわち、以下の式(1)(2)(3)が成立する。
【0090】
式(1):n=n(1)+n(2)+・・・+n(m
式(2):p(k)=n(k)/n k=1~m
式(3):p(1)+p(2)+・・・+p(m)=1
【0091】
次いで、類似度算出部133は、入力対象者の検査データと区間情報とに基づいて、処理検査項目「j」のヒストグラムにおいて入力対象者の検査データが属するk番目の区間「Rij(k)」(kは1~m)を処理区間として特定する(S305)。
【0092】
「処理区間」は、複数の区間の内、入力対象者の検査データが属する区間である。
【0093】
次いで、類似度算出部133は、記憶部12から処理区間「Rij(k)」内の検索対象者の存在確率「p(k)」を処理存在確率として読み出し、同処理存在確率「p(k)」を検査項目別類似度「sij」として特定する(S306)。
【0094】
「p(k)」は、処理検査項目「j」において入力対象者「i」の検査データが属するk番目の区間(特定区間)内に検索対象者が存在する確率である。そのため、「p(k)」は、処理検査項目「j」における入力対象者「i」と検索対象者の集団との間の検査項目別類似度「sij」となる 。すなわち、検索対象者の存在確率の高い区間に入力対象者の検査データが属すれば、入力対象者と検索対象者の集団との間の類似度は、高い。
【0095】
図11は、定量的データが得られる検査項目におけるヒストグラムの例を示す模式図である。
同図の「a」「b」「c」それぞれは、各区間を定める閾値を示す。同図は、区間「a未満」では検索対象者の存在確率が「0.30」であり、区間「a以上b未満」では検索対象者の存在確率が「0.40」であり、区間「b以上c未満」では検索対象者の存在確率が「0.15」であり、区間「c以上」では検索対象者の存在確率が「0.15」であることを示す。同図において、例えば、区間「a以上b未満」が処理区間であるとき、検索対象者の処理存在確率は「0.40」であり、処理検査項目「j」において、入力対象者「i」と検索対象者の集団との間には、「0.40」の類似性が有る、という解釈が成立する。
【0096】
図10に戻る。
次いで、類似度算出部133は、未処理の検査項目の有無を判定する(S307)。未処理の検査項目が有るとき(S307の「Y」)、類似度算出部133は、未処理の検査項目に対して、処理(S303-S306)を繰り返す。一方、未処理の検査項目が無いとき(S307の「N」)、類似度算出部133は、全ての処理検査項目「j」における入力対象者「i」と検索対象者の集団との間の検査項目別類似度「sij」の平均値「S」を、入力対象者「i」と検索対象者の集団との間の第1類似度として算出する(S308)。ここで、第1類似度「S」は、以下の式(4)により算出される。算出された第1類似度「S」は、例えば、入力対象者「i」と検索対象者の集団とに関連付けられて、記憶部12に記憶される。
【0097】
式(4):S=(si1+si2+・・・siL)/L
【0098】
ここで、検査項目別類似度「sij」の取り得る範囲は、0≦sij≦1である。そのため、第1類似度「S」の取り得る範囲は、0≦S≦1となる。すなわち、第1類似度「S」が「1」に近づくほど入力対象者と検索対象者の集団との間の類似度は高くなり、第1類似度「S」が「0」に近づくほど入力対象者と検索対象者の集団との間の類似度は低くなる。この関係は、後述される第2類似度と第3類似度とに対しても同様に成立する。
【0099】
●第2類似度算出処理
図12は、第2類似度算出処理(S4)のフローチャートである。
【0100】
「第2類似度算出処理(S4)」は、第2類似度を算出する処理である。すなわち、第2類似度算出処理(S4)は、1の入力対象者と、1の検索対象者と、の間の類似度を算出する処理である。
【0101】
第2類似度算出処理(S4)の基本的なフローは、第1類似度算出処理(S3)と共通する。すなわち、第2類似度算出処理(S4)において、本装置1は、入力対象者と検査項目とを決定し(S401)、入力対象者と検索対象者それぞれの検査データを取得し(S402)、処理検査項目を選択し(S403)、処理検査項目に対応するヒストグラム(区間情報)と入力対象者の検査データとを取得し(S404)、入力対象者の検査データが属する処理区間を特定する(S405)。
【0102】
第2類似度算出処理(S4)において、第1類似度算出処理(S3)とは異なる処理については、以下に説明される。
【0103】
処理(S405)に次いで、類似度算出部133は、検索対象者の検査データと区間情報とに基づいて、検索対象者の属する区間を特定する(S406)。
【0104】
前述のとおり、第2類似度算出処理(S4)において、検索対象者の数は、「1」である。そのため、ヒストグラムでは、検索対象者の検査データが属する区間は1つであり、他の区間には検索対象者の検査データが属していない。すなわち、検査データの属する区間の検索対象者の存在確率は常に「1」であり、他の区間の検索対象者の存在確率は常に「0」である。その結果、各検査項目において、1の入力対象者と1の検索対象者との間の検査項目別類似度「sij」は、「1」または「0」のいずれかになる。そのため、第2類似度では、入力対象者と検索対象者それぞれの検査データが属する処理区間と区間との位置関係が重要である。
【0105】
ここで、前述のとおり、ヒストグラムにおいて、定量的データの属する範囲は、複数の区間に区分けされる。そして、各区間の間には順序が存在するため、各区間の間の相違は数値で表現可能である。一方、前述のとおり、定性的データは、序数尺度データと名義尺度データとを含む。中でも、序数尺度データは、順序を伴う定性的データである。そのため、この順序に基づいて、1の入力対象者と1の検索対象者それぞれの検査データが属する区間に応じて、検査項目別類似度は、両者の属する区間が異なれば「0」、両者の属する区間が一致すれば「1」という極端な表現だけでなく、「0」から「1」までの範囲の数値により柔軟に表現可能である。つまり、本発明において、検査データは、順序を伴わない名義尺度データと、定量的データおよび順序を伴う序数尺度データの両方を併せた非名義尺度データと、に分けられる。非名義尺度データでは、以下に示されるように、細かく設定可能な検査項目別類似度が考えられる。
【0106】
非名義尺度データは、データ間の順序(大小)に意味があることを特徴とする。そのため、検査データが非名義尺度データであり、かつ、ヒストグラムが「3以上」の区間を有するとき(区間の数が「3以上」のヒストグラムであるとき)、同ヒストグラムにおいて検索対象者の検査データが属する区間と、入力対象者の検査データが属する処理区間と、の間の位置関係は、検査項目別類似度の補正に利用可能である。一方、ヒストグラムが「2」の区間を有するとき(区間の数が「2」のヒストグラムであるとき)、非名義尺度データであっても名義尺度データと同様に、検査項目別類似度は、「0」または「1」とする。
【0107】
次いで、類似度算出部133は、検査項目別類似度「sij」が算出された処理検査項目「j」が、非名義尺度データが得られる検査項目か、名義尺度データが得られる検査項目か、を判定する(S407)。
【0108】
処理検査項目「j」が、非名義尺度データが得られる検査項目のとき(S407の「非名義尺度データ」)、処理検査項目「j」の区間の数を確認する(S408)。
【0109】
区間の数が「3」以上のとき(S408の「3以上」)、類似度算出部133は、非名義尺度データが得られる処理検査項目「j」において、入力対象者「i」の検査データが属する処理区間と、検索対象者の検査データが属する区間と、の間の位置関係を特定する(S409)。
【0110】
次いで、類似度算出部133は、処理区間と区間との位置関係に基づいて、補正検査項目別類似度「csij」を適用する(S410)。すなわち、類似度算出部133は、検査データが非名義尺度データであり、かつ、区間の数が「3以上」のとき、つまり、区間の数が「3以上」の非名義尺度データに対して、補正計算項目別類似度「csij」を適用する。
【0111】
「補正検査項目別類似度「csij」」は、区間の数が「3以上」の非名義尺度データに対して適用される、補正された検査項目別類似度「sij」である。検査項目別類似度「sij」が「0」または「1」の値であるのに対し、「補正検査項目別類似度「csij」」は「0」から「1」までの範囲の数値である。補正検査項目別類似度「csij」は、区間の数が「3以上」の非名義尺度データが得られる処理検査項目「j」においてのみ適用される。入力対象者の検査データが属する処理区間と検索対象者の検査データが属する区間との位置関係と補正検査項目別類似度との関係は、例えば、使用者により予め設定され、記憶部12に記憶されている。
【0112】
例えば、区間の数が「3」の場合において、補正検査項目別類似度「csij」は、処理区間と区間とが一致するとき「1」、両区間が隣り合うとき「0.25」、これら以外のとき「0」、に設定される。また、例えば、区間の数が「10」の場合において、補正検査項目別類似度「csij」は、両区間が一致するとき「1」、両区間が隣り合うとき「0.5」、両区間の間に1の区間が有るとき「0.25」、これら以外のとき「0」、に設定される。これに対して、両区間が一致しないとき、検査項目別類似度「sij」は「0」である。このように、補正検査項目別類似度「csij」は、区間の数に応じて、細かく設定可能である。
【0113】
一方、処理検査項目「j」が、名義尺度データが得られる検査項目のとき(S407の「名義尺度データ」)、または、区間の数が「2」のとき(S408の「2」)、類似度算出部133は、補正検査項目別類似度「csij」の代わりに検査項目別類似度「sij」を適用(算出)する(S411)。
【0114】
次いで、類似度算出部133は、未処理の検査項目の有無を判定する(S412)。未処理の検査項目が有るとき(S412の「Y」)、類似度算出部133は、未処理の検査項目に対して、処理(S403-S411)を繰り返す。一方、未処理の検査項目が無いとき(S412の「N」)、類似度算出部133は、全ての処理検査項目「j」における1の入力対象者「i」と1の検索対象者との間の検査項目別類似度「sij」と補正検査項目別類似度「csij」との総和を算出し、総和を全ての処理検査項目の数「L」で除算して、1の入力対象者「i」と1の検索対象者との間の類似度「S」を第2類似度として算出する(S413)。算出された第2類似度「S」は、例えば、入力対象者「i」と検索対象者とに関連付けられて、記憶部12に記憶される。
【0115】
なお、本発明における記憶部は、算出された第2類似度のうち、特に大きな値の第2類似度のみを記憶してもよい。この場合、第2類似度の記憶に必要な記憶容量は、抑制される。
【0116】
●第3類似度算出処理
図13は、第3類似度算出処理(S5)のフローチャートである。
【0117】
「第3類似度算出処理(S5)」は、第3類似度を算出する処理である。すなわち、第3類似度算出処理(S5)は、複数の対象者により構成される2つの集団の間の類似度を算出する処理である。以下の説明において、2つの集団それぞれは、第1集団と第2集団とする。本実施の形態において、特定クラスに属する対象者から構成される集団が2つに分割され、それぞれが第1集団および第2集団として扱われる場合がある。
【0118】
先ず、制御部13は、類似度を算出する2つの集団と、類似度の算出に用いられる検査項目と、を決定する(S501)。すなわち、例えば、制御部13は、表示部15に2つの集団が入力される入力画面を表示させ、使用者(医師)が操作部14を用いて入力した(選択した)2つの集団を決定する。
【0119】
次いで、類似度算出部133は、決定された検査項目のうち、1の検査項目を処理検査項目として選択する(S502)。すなわち、例えば、類似度算出部133は、検査項目に対応する検査項目IDの番号のうち、最も小さい検査項目IDに対応する検査項目を処理検査項目として選択する。
【0120】
次いで、取得部131は、2つの集団を構成する全対象者の処理検査項目に対応する検査データを記憶部12から読み出す(S503)。すなわち、取得部131は、処理検査項目に対応する検査データを記憶部12から取得する。
【0121】
次いで、ヒストグラム生成部132は、2つの集団それぞれのヒストグラムに共通する区間を定めるため、処理検査項目の区間情報を取得する(S504)。具体的には、ヒストグラム生成部132は、検査データが定量的データのとき処理検査項目の区間の数と幅とを特定し、検査データが定性的データのとき処理検査項目の状態と状態の数とを取得する。以下の説明において、この共通する区間それぞれは、共通区間と表記される。各共通区間には、2つの集団のいずれかに属する対象者の検査データが少なくとも1つ属する。
【0122】
次いでヒストグラム生成部132は、各共通区間において、2つの集団それぞれを構成する対象者の存在確率を算出する(S505)。すなわち、ヒストグラム生成部132は、互いに共通する区間(共通区間)を有する、第1集団のヒストグラム(第1ヒストグラム)と第2集団のヒストグラム(第2ヒストグラム)とを生成する。つまり、第1ヒストグラムと第2ヒストグラムとは、検査データが定量的データのとき互いに区間の数と幅とが共通する共通区間を有し、検査データが定性的データのとき互いに状態と状態の数(区間の数)とが共通する共通区間を有する。第1ヒストグラムは、第1集団を構成する対象者が属する複数の共通区間と、共通区間それぞれに属する対象者の存在確率と、を有し、対応する検査項目に関連付けられて、記憶部12に記憶される。第2ヒストグラムは、第2集団を構成する対象者が属する複数の共通区間と、共通区間それぞれに属する対象者の存在確率と、を有し、対応する検査項目に関連付けられて、記憶部12に記憶される。
【0123】
次いで、類似度算出部133は、第1ヒストグラムと第2ヒストグラムそれぞれの各共通区間において、第1集団を構成する対象者の存在確率と、第2集団を構成する対象者の存在確率と、の差分量の絶対値を算出し、共通区間ごとの絶対値の総和「t」を算出する(S506)。
【0124】
前述のとおり、両ヒストグラムの各共通区間の対象者の存在確率の総和は「1」である。そのため、両ヒストグラムが重ねられたとき、両者が完全に重複するとき(一致するとき)、総和「t」は最小値「0」となり、両者が全く重複しないとき(完全に不一致のとき)、総和「t」は最大値「2」となる。
【0125】
次いで、類似度算出部133は、次式(5)を用いて、処理検査項目「j」に対する検査項目別類似度「st」を算出する(S507)。
【0126】
式(5):st=(2-t)/2
【0127】
検査項目別類似度「st」は、両ヒストグラムが完全に重複するとき「1」であり、両ヒストグラムが全く重複しないとき「0」である。つまり、検査項目別類似度「st」は、2つの集団の間の類似度の値が最大のとき「1」であり、同類似度の値が最小のとき「0」となる。
【0128】
次いで、類似度算出部133は、未処理の検査項目の有無を判定する(S508)。未処理の検査項目が有るとき(S508の「Y」)、類似度算出部133は、未処理の検査項目に対して、処理(S502-S507)を繰り返す。一方、未処理の検査項目が無いとき(S508の「N」)、類似度算出部133は、全ての処理検査項目「j」における2つの集団間の検査項目別類似度「st」の平均値である「S」を第3類似度として算出する(S509)。具体的には、第3類似度「S」は、以下の式(6)により算出される。算出された第3類似度「S」は、例えば、2つの集団に関連付けられて記憶部12に記憶される。
【0129】
式(6):S=(st+st+・・・+st)/L
【0130】
ここで、検査項目別類似度「st」の取り得る範囲は、0≦st≦1である。そのため、第3類似度「S」の取り得る範囲は、0≦S≦1となる。
【0131】
●識別処理
図14は、識別処理(S6)のフローチャートである。
【0132】
「識別処理(S6)」は、識別される対象である入力対象者が特定クラスまたは非特定クラスのいずれに属するか(2クラス問題)を識別する処理である。識別処理(S6)は、検索対象者を訓練サンプルとして用いる教師有り学習の識別処理である。
【0133】
本実施の形態において、検索対象者の一部または全部は、所属するクラスが既知な2つの集団(例えば、同じ確定診断を受けた複数の検索対象者から構成される集団)を形成する。本実施の形態において、識別処理(S6)は、第2類似度に基づいて、識別を実行する。
【0134】
先ず、本装置1の制御部13は、複数の2クラス問題の中から、入力対象者を識別すべき、特定クラスと非特定クラスとにより構成される2クラス問題を設定する(S601)。ここで、2クラス問題は、例えば、癌の転移の有無、抗癌剤の効果の有無、抗癌剤の副作用の有無、などである。この場合、例えば、「有」のクラスは特定クラス、「無」のクラスは非特定クラスとする。制御部13は、例えば、表示部15に2クラス問題を選択する選択画面を表示させ、使用者(医師)が操作部14を用いて選択した2クラス問題を、入力対象者が識別される2クラス問題として設定する。複数の2クラス問題は、例えば、予め記憶部12に記憶されている。
【0135】
次いで、制御部13は、設定された2クラス問題に対応する1または複数の検査項目を特定する(S602)。2クラス問題に対応する検査項目は、例えば、2クラス問題に関連付けられて、予め記憶部12に記憶されている。
【0136】
次いで、取得部131は、通信部11を介して、情報記憶サーバ2から、識別処理(S6)の対象である入力対象者の対象者情報を取得すると共に、特定された検査項目ごとの検査データを取得する(S603)。
【0137】
次いで、識別部134は、特定された検査項目のうち、1の検査項目を処理検査項目として選択する(S604)。すなわち、例えば、識別部134は、検査項目に対応する検査項目IDの番号のうち、最も小さい検査項目IDに対応する検査項目を処理検査項目として選択する。
【0138】
次いで、識別部134は、処理検査項目に対応する特定クラスに属する検索対象者の検査データと、処理検査項目に対応する非特定クラスに属する検索対象者の検査データと、処理検査項目に対応する入力対象者の検査データと、を記憶部12から読み出す(取得する)(S605)。ここで、特定クラスに属する検索対象者は、本発明における特定第2対象者の例であり、非特定クラスに属する検索対象者は、本発明における非特定第2対象者の例である。
【0139】
次いで、類似度算出部133は、処理検査項目に対応する特定クラスに属する検索対象者の検査データと、処理検査項目に対応する入力対象者の検査データと、に基づいて、入力対象者と、特定クラスに属する検索対象者それぞれと、の間の検査項目別類似度または補正検査項目別類似度を算出する(S606)。
【0140】
次いで、類似度算出部133は、処理検査項目に対応する非特定クラスに属する検索対象者の検査データと、処理検査項目に対応する入力対象者の検査データと、に基づいて、入力対象者と、非特定クラスに属する検索対象者それぞれと、の間の検査項目別類似度または補正検査項目別類似度を算出する(S607)。
【0141】
次いで、識別部134は、未処理の検査項目の有無を判定する(S608)。未処理の検査項目が有るとき(S608の「Y」)、識別部134は、処理(S604-S607)を繰り返す。
【0142】
一方、未処理の検査項目が無いとき(S608の「N」)、類似度算出部133は、検査項目別類似度または補正検査項目別類似度に基づいて、入力対象者と特定クラスに属する検索対象者それぞれとの間の第2類似度を算出し、入力対象者と非特定クラスに属する検索対象者それぞれとの間の第2類似度を算出する(S609)。
【0143】
次いで、識別部134は、処理(S609)で算出された全ての第2類似度に基づいて、入力対象者を、入力対象者との間の第2類似度の値が最も大きい検索対象者(入力対象者と最も類似している検索対象者)が属するクラスに識別する(S610)。この処理は、離散化された検査データが用いられた統計的パターン認識における「最近傍識別則」の離散版である。識別結果は、例えば、第2類似度に関連付けられて、記憶部12に記憶される。
【0144】
なお、本装置は、全検索対象者の中から、入力対象者に近い(第2類似度の値が大きい)順に検索対象者を「k」人(「k」は通常「3」か「5」の奇数)抽出し、入力対象者を近傍となる「k」人の検索対象者の中で多数となるクラスへ識別してもよい。この処理は、統計的パターン認識の「k最近傍識別則」の離散版である。
【0145】
また、本装置は、入力対象者と、特定クラスに属する複数の検索対象者から構成される集団と非特定クラスに属する複数の検索対象者から構成される集団それぞれと、の間の類似度(第1類似度)を算出し、入力対象者を、入力対象者との間の第1類似度の値が大きいクラスへ識別してもよい。
【0146】
●実施例●
本装置1の実施例は、以下の各実施例と、図5と、により、説明される。本発明は、定量的データと定性的データとが混在しても、全てを定性的データに統一して、検索、識別、クラスタ分析、標的マーカー探索を行うことができる。
【0147】
●実施例(1)「検索」
前述のとおり、本装置1は、検査項目ごとに入力対象者と検索対象者との間の類似度(第2類似度)を算出する。その結果、本装置1は、例えば、データベースに蓄積された膨大な量の健康診断の検査データを受診者の健康寿命延伸に活用できる。すなわち、例えば、使用者(医師)は、本装置1を用いて、ある受診者(入力対象者)の健康診断の検査データに基づいて、同受診者との第2類似度の値が大きい検索対象者を1または複数検索して特定し、他の既受診者の検査データの推移、疾病への罹患の有無、その他の問診で得られる生活行動情報などの検索対象者情報に基づいて、受診者へ医学的に根拠のある適切な指導を実行できる。この場合、検査項目は健康診断の種別により固定されているため、情報記憶サーバ2に記憶されるデータベースの構造は、標準化される。したがって、本利活用に関連するソフトウェアによる適用範囲は、拡張される。
【0148】
また、本装置1は、例えば、治療を要する患者の類似症例を検索して患者の治療戦略を策定することに活用できる。すなわち、例えば、使用者(医師)は、確定診断を受けている患者(検索対象者)の中から、疾病の治療を受ける患者(入力対象者)との間の第2類似度の値が大きい上位の検索対象者を検索・抽出する。次いで、使用者(医師)は、本装置1を用いて、所定の検査項目(例えば、同疾病で必須の検査項目)において、入力対象者(患者)との類似度の値が大きい検索対象者(患者)の集団を特定し、検索対象者情報(治療履歴とその結果など)を取得する(外部装置3に出力する、表示部15に表示する)。その結果、同使用者(医師)は、例えば、入力対象者の状態や事情を鑑みながら、最適な治療戦略を策定できる。
【0149】
●実施例(2)「検索」
本装置1は、例えば、背景因子(例えば、早期癌の進行度、性別、年齢、既往歴、基礎疾患の有無などの検査項目)の揃った患者集団の検索・抽出に活用できる。ここで、患者集団の背景因子を揃えるという行為は、医学問題として重要な、標的マーカー(検査項目)の探索問題、病態の解明問題や新治療薬の効果などの診断・予測問題を解決するために必須である。すなわち、例えば、新治療薬の効果を調べるため、背景因子が揃えられた患者集団は、2つの患者集団に分けられ、一方の患者集団にのみ新治療薬が投与され、他方の患者集団には新治療薬が投与されない代わりにプラセボ(偽薬)が投与される。この場合、両方の患者集団が比較されることにより、診治療薬の効果は、投与前に判定できる。ここで、背景因子が揃えられた患者集団は、例えば、処理(S507)で算出される検査項目別類似度の値が大きい検査項目が特定されることにより、得られる。
【0150】
また、例えば、使用者(医師)は、注目の患者集団の中から、第2類似度を用いて背景因子が類似した複数の患者を検索して抽出することにより、背景因子の揃った患者集団を抽出できる。
【0151】
●実施例(3)「識別」
本装置1は、例えば、ある患者(入力対象者)の癌の転移の有無などの病態の解明に活用できる。すなわち、例えば、使用者(医師)は、同一種の癌患者の中から、例えば、実施例(2)のように背景因子(例えば、早期癌)が揃えられた患者集団を予め抽出し、転移の検査データに基づいて同患者集団を転移有の患者集団と転移無の患者集団とに分け、早期癌で転移有の特定クラスと、早期癌で転移無の非特定クラスとを構成する。次いで、使用者(医師)は、本装置1を用いて、患者(入力対象者)と特定クラスに属する患者(検索対象者)および非特定クラスに属する患者(検索対象者)との間の第2類似度を算出し、第2類似度に基づくk最近傍識別則の離散版を用いて、患者(入力対象者)を2クラスのいずれかに識別できる。あるいは、使用者(医師)は、本装置1を用いて、患者(入力対象者)と特定クラスに属する患者(検索対象者)集団および非特定クラスに属する患者(検索対象者)集団との間の第1類似度を算出して、患者(入力対象者)を2クラスのいずれかに識別することもできる。その結果、使用者は、患者(入力対象者)が早期癌でありながら転移する可能性が高いという結果を、早期の段階で得ることができる。
【0152】
●実施例(4)「識別」
本装置1は、例えば、新抗癌剤の投与前における効果の有無の判定に活用できる。すなわち、例えば、使用者(医師)は、同一疾病に罹患した患者集団の中から、実施例(2)のように背景因子が揃えられた患者集団を抽出し、新抗癌剤の効果に関する検査データに基づいて同患者群を特定の新抗癌剤が効いた患者集団と、同抗癌剤が効かない患者集団と、に分け、新抗癌剤の効果有の特定クラスと同抗癌剤の効果無の非特定クラスとを構成する。次いで、使用者(医師)は、本装置1を用いて、患者(入力対象者)と特定クラスに属する患者(検索対象者)および非特定クラスに属する患者(検索対象者)との間の第2類似度を算出し、第2類似度に基づく最近傍識別則の離散版を用いて、投与前の患者(入力対象者)を2クラスのいずれかに識別する。あるいは、使用者(医師)は、本装置1を用いて、患者(入力対象者)と特定クラスに属する患者(検索対象者)の集団および非特定クラスに属する患者(検索対象者)の集団との間の第1類似度を算出して、投与前の患者(入力対象者)を2クラスのいずれかに識別することもできる。その結果、使用者(医師)は、患者(入力対象者)に対して、同抗癌剤の効果の有無を、投与前に判定できる。
【0153】
●実施例(5)「クラスタ分析」
本装置1は、定量的データと定性的データとが混在する検査データに基づくクラスタ分析に活用できる。すなわち、例えば、使用者(医師)は、本装置1を用いた階層的クラスタリング法を実行して、患者集団のクラスタ分析を実行できる。具体的には、使用者(医師)は、最初に、患者間(個体間)それぞれの第2類似度を算出し、第2類似度の値が最も大きい患者同士をマージ(グループ化)する。次いで、使用者(医師)は、残っている患者間には第2類似度を算出し、患者とグループとの間には第1類似度を算出し、グループ間には第3類似度を算出して、類似度の値の最も大きい患者同士、患者とグループ、または、グループ同士のマージを繰り返すことにより、最終的に全患者を1つのグループにまとめる。その結果、使用者(医師)は、マージの過程をデンドログラムとして可視化し、デンドログラムからクラスタを目視で検出できる。このように、クラスタ分析に本装置1が活用されることにより、使用者(医師)は、類似度を用いて関心のある患者から構成される集団の内部構造を解析してクラスタを抽出し、クラスタ間の類似性を調べることができる。その結果、使用者(医師)は、例えば、抗癌剤に感受性のある(効果のある)集団の中で特徴的なクラスタ(例えば、ある遺伝子多型における変異の組合せを有するなどのクラスタ)を特定できる。
【0154】
●実施例(6)「標的マーカー(検査項目)の探索」
本装置1は、例えば、患者の予後予測や新薬開発のための患者層別化において極めて重要な標的マーカー(検査項目)の探索に活用できる。すなわち、例えば、使用者(解析者)は、本装置1を用いて、特定クラスに属する対象者(患者)と非特定クラスに属する対象者(患者)とを抽出する。ここで特定クラス、非特定クラスには、前述の癌の転移の有無、治療薬の投与前における効果の有無がある。一般的に、検査項目の中には患者の特定クラスと非特定クラスとのいずれかへの識別に有用なものとそうでないものとが混在している。識別精度を高めるためには有用な検査項目の組合せ、すなわち標的マーカー(検査項目)群の特定が必要となる。そこで、使用者(解析者)は、例えば、処理(S507)で算出される検査項目別類似度を両クラス間で算出し、検査項目別類似度を検査項目の評価量とする。評価量である検査項目別類似度の値が小さくなるほど、両クラス間の相違は大きくなる、つまり識別が容易になる。そのため、使用者(解析者)は、検査項目別類似度の値の大きな検査項目を特定する、あるいは、複数の検査項目に対して第3類似度を評価量として用いてもよい。そこで、使用者(解析者)は、検査項目の組合せを変えて第3類似度の値が最小となる検査項目群を特定し、それを標的マーカー(検査項目)群とすることができる。
【0155】
なお、本実施例において、本発明における類似度算出部は、検査項目ごとの類似度である検査項目別類似度も算出し、本発明における表示部は、検査項目別類似度を表示してもよい(または、本装置は、検査項目別類似度を外部装置に出力してもよい)。この構成によれば、使用者(医師)は、ある疾病を想定して決定した検査項目の検査項目別類似度の値が小さければ、使用者(医師)が想定した診断が誤りである可能性があること、を確認できる。
【0156】
●まとめ
以上説明した実施の形態によれば、本装置1は、入力対象者(第1対象者)の検査項目ごとの検査データと、検索対象者(第2対象者)の検査項目ごとのヒストグラムと、を記憶する記憶部12と、検査項目ごとの検査データとヒストグラムとに基づいて類似度を算出する類似度算出部133と、を有してなる。ヒストグラムは、検索対象者の検査データが属する複数の区間を有すると共に、検査データが定量的データのとき、定量的データが取り得る値の範囲が互いに重ならないように区分けされた複数の区間それぞれに属する検索対象者の存在確率を有し、一方、ヒストグラムは、検査データが定性的データのとき、定性的データが取り得る各状態に対応する複数の区間それぞれに属する検索対象者の存在確率を有する。この構成によれば、本装置1は、各ヒストグラムにおいて、検査データのうち、定量的データを離散化して医学的に意味のある定性的データとして用い、定性的データをそのまま用いることにより、1つの数学的枠組みで定量的データと定性的データとを一括して処理できる。その結果、本装置1は、定量的データと定性的データとを含む検査データに基づいて、検査を受けた1の入力対象者と、検査を受けた1または複数の検索対象者と、の間の類似度(第1類似度、第2類似度)を算出できる。
【0157】
このように、本装置1は、定量的データを定性的データに変換して、定性的データに基づいて類似度を算出する。その結果、本装置1は、定量的データをそのまま用いるよりも小さい処理負荷で、類似度を算出できる。また、検査データは個人由来のデータであるため、特に数値データである定量的データでは個人が特定され易く、検査データの取り扱いには注意が必要である。しかしながら、本発明では、定量的データが離散化されることにより、個人の特定は、難しくなる。さらに、区間を定める閾値が公開されなければ、個人の特定の難易度は一段と高まる。さらにまた、オプトアウトにおいて、個人から検査データの削除が要請されたとき、区間内に属する対象者の数が削除されるだけで、大規模な再学習は必要とされず、同要請への対応が迅速に可能となる。このように、本発明は、個人情報保護の観点からも有用である。
【0158】
また、以上説明した実施の形態によれば、類似度算出部133は、検査項目ごとに、入力対象者の検査データが属する区間を処理区間として特定し、処理区間に属する検索対象者の存在確率を処理存在確率として特定する。次いで、類似度算出部133は、処理存在確率に基づいて、入力対象者と検索対象者との間の検査項目ごとの検査項目別類似度を算出する。次いで、類似度算出部133は、特定された全ての処理存在確率に基づいて、類似度を算出する。この構成によれば、本装置1は、処理存在確率、すなわち、入力対象者の検査データが属する区間における検索対象者の存在確率を考慮した類似度(第1類似度、第2類似度)を算出できる。
【0159】
さらに、以上説明した実施の形態によれば、類似度算出部133は、検査データが区間の数が「3以上」の非名義尺度データであるとき、入力対象者の検査データが属する処理区間と、1の検索対象者の検査データが属する区間と、の間の位置関係に基づいて検査項目別類似度を補正し、補正された検査項目別類似度に基づいて類似度(第2類似度)を算出する。この構成によれば、1の入力対象者と、1の検索対象者と、の間の検査項目別類似度に、「0」「1」以外の中間値(0から1の間の値)を設定できる。その結果、1の入力対象者と、1の検索対象者と、の間の類似度の表現の自由度は、向上する。
【0160】
さらにまた、以上説明した実施の形態によれば、本装置1は、取得部131により取得された検査データに基づいて、ヒストグラムを生成するヒストグラム生成部132を有してなる。ヒストグラム生成部132は、検査データが定量的データであるとき、定量的データに基づいて区間を設定し、検査データが定性的データであるとき、定性的データの取り得る状態に基づいて、区間を設定する。この構成によれば、本装置1は、全ての検査データを定性的データ(記号データ)に統一して、第1対象者と第2対象者との間の類似度を算出できる。この構成によれば、本装置1は、定量的データと定性的データとを含む検査データにおいて、定量的データを離散化して医学的に意味のある定性的データとして用い、定性的データをそのまま用いることにより、全ての検査データを定性的データに統一して、入力対象者と1または複数の検出対象者との間の類似度(第1類似度、第2類似度)を算出できる。
【0161】
さらにまた、以上説明した実施の形態によれば本装置1は、検索対象者ごとの検索対象者情報を表示する表示部15と、表示部15の動作を制御する制御部13と、を有してなる。制御部13は、類似度算出部133により算出された類似度に基づいて、表示部15に表示される検索対象者情報を決定する(例えば、制御部13は、類似度の高い検索対象者の検索対象者情報を表示部15に表示させる)。この構成によれば、使用者(医師)は、表示部15に表示された検索対象者情報に基づいて、入力対象者の類似症例を探索(検索)できる。
【0162】
さらにまた、以上説明した実施の形態によれば、識別部134は、入力対象者の検査データと、特定クラスに属する検索対象者の特定ヒストグラムと、非特定クラスに属する検索対象者の非特定ヒストグラムと、に基づいて、入力対象者を特定クラスと非特定クラスとのいずれか一方に識別する。この構成によれば、本装置1は、定量的データと定性的データとを含む検査データに基づいて生成された特定ヒストグラムと非特定ヒストグラムとに基づいて、2クラス問題において入力対象者を識別できる。
【0163】
さらにまた、以上説明した実施の形態によれば、類似度算出部133は、入力対象者の検査データと特定ヒストグラムとに基づいて入力対象者と特定クラスに属する検索対象者の集団との間の類似度(第1類似度)を算出し、同検査データと非特定ヒストグラムとに基づいて入力対象者と非特定クラスに属する検索対象者の集団との間の定類似度(第1類似度)を算出する。識別部134は、算出された全ての類似度に基づいて、入力対象者を特定クラスと非特定クラスとのいずれか一方に識別する。すなわち、例えば、識別部134は、入力対象者と特定クラスに属する検索対象者の集団との間の類似度と、入力対象者と非特定クラスに属する検索対象者の集団との間の類似度と、を比較して、入力対象者を類似度の値の大きい集団のクラスに識別する。この構成によれば、本装置1は、特定クラスに属する検索対象者と、非特定クラスに属する検索対象者と、のうち、いずれか類似度が高い側のクラスに入力対象者を識別できる。すなわち、本装置1は、定量的データと定性的データを含む検査データに基づいて算出される類似度に基づいて、入力対象者を特定クラスと非特定クラスとのいずれか一方に識別できる。
【0164】
さらにまた、以上説明した実施の形態によれば、類似度算出部133は、定量的データと定性的データとを含む検査データを用いて生成されるヒストグラムに基づいて、ある複数の対象者により構成される第1集団と、複数の他の対象者により構成される第2集団と、の間の類似度を算出する。この構成によれば、本装置1は、第1集団を構成する対象者の検査データから生成されるヒストグラムと、第2集団を構成する他の対象者の検査データから生成されるヒストグラムと、を用いて、第1集団と第2集団との間の類似度(第3類似度)を算出できる 。
【0165】
なお、本発明における類似度は、第1類似度、第2類似度、第3類似度いずれの値も取り得る範囲がゼロから1である。そのため、この性質を利用して「1-類似度」が距離として定義されてもよい。このとき、距離の範囲はゼロから1となる。
【0166】
また、以上説明した実施の形態では、本装置1は、ヒストグラム生成部132を備えていた。これに代えて、本装置は、ヒストグラム生成部を備えなくてもよい。換言すれば、本方法は、ヒストグラム生成処理を含まなくてもよい。この構成によれば、ヒストグラムは、本装置とは異なる装置で検索、識別が実行される前に生成され、例えば、情報記憶サーバに記憶される。本発明における取得部は、情報記憶サーバからヒストグラムを取得する。
【0167】
さらに、以上説明した実施の形態では、本装置1は、識別部134を備えていた。これに代えて、本装置は、識別部を備えなくてもよい。換言すれば、本方法は、識別処理を含まなくてもよい。
【0168】
さらにまた、本発明における類似度算出部は、第1類似度、第2類似度、第3類似度のうち、いずれか1つのみを算出してもよく、あるいは、いずれか2つのみを算出してもよい。すなわち、例えば、本装置は、第1類似度算出処理、第2類似度算出処理、第3類似度算出処理のうち、いずれか1の処理のみを実行してもよい。
【0169】
さらにまた、第3類似度の算出に必要な2つのヒストグラムとは、例えば、本願発明者らの先出願(特願2020-106723号)に記載の検査項目の評価量の算出に用いられる2つの集団に対するヒストグラムの作成方法と同様の方法により生成されてもよい。すなわち、例えば、本発明におけるヒストグラム生成部は、2つの集団を構成する対象者の全検査データにおいて、検査データが定量的データのとき、全検査データの中から最大値と最小値とを特定し、最大値から最小値までの範囲を2つの集団で共通する区間(共通区間)に区分けする。また、検査データが定性的データのとき、本発明におけるヒストグラム生成部は、対象者それぞれの取り得る状態を共通区間として取得する。ここで、本発明におけるヒストグラム生成部は、両集団いずれもの検査データが属さない共通区間がないように、かつ、各共通区間が互いに重ならないように、複数の共通区間を特定する。次いで、本発明におけるヒストグラム生成部は、複数の共通区間と、各共通区間内に属する検査データと、に基づいて、共通区間ごとに各集団における対象者それぞれの存在確率を算出して、2つのヒストグラムを生成する。
【0170】
さらにまた、以上説明した実施の形態において、本装置1は、情報記憶サーバ2と別体で構成されていた。これに代えて、本装置は、情報記憶サーバと一体に構成されてもよい。すなわち、例えば、情報記憶サーバが本装置の機能を兼ねてもよく、本装置が情報記憶サーバの機能を兼ねてもよい。
【0171】
さらにまた、以上説明した実施の形態によれば、本装置1は、1つのコンピュータにより構成されていた。これに代えて、本装置は、複数のコンピュータにより構成されてもよい。すなわち、例えば、本装置は、本装置として機能する複数のコンピュータ群で構成されてもよい。具体的には、例えば、本装置(コンピュータ群)は、記憶部を備えるコンピュータと、本方法を実行する制御部を備えるコンピュータと、により構成されてもよい。また、例えば、複数のコンピュータが、取得部、ヒストグラム生成部、類似度算出部、識別部それぞれの機能を分散して備えてもよい。この場合、複数のコンピュータは、通信回線を通じて情報の送受信をしてもよく、あるいは、可搬記憶媒体を用いて情報の譲受をしてもよい。
【0172】
さらにまた、本装置が実行する本方法は、以上説明した実施の形態に限定されない。すなわち、例えば、本方法は、必ずしも識別処理を実行しなくてもよく、あるいは、類似度算出処理において、いずれかの類似度(第1類似度、第2類似度、第3類似度)を算出しなくてもよい。
【符号の説明】
【0173】
1 情報処理装置
12 記憶部
131 取得部
132 ヒストグラム生成部
133 類似度算出部
134 識別部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14