特許7446586 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人山口大学の特許一覧 ▶ 一般社団法人山口総合健診センターの特許一覧

特許7446586情報処理装置と情報処理プログラムと情報処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-03-01

(45)【発行日】2024-03-11

(54)【発明の名称】情報処理装置と情報処理プログラムと情報処理方法

(51)【国際特許分類】

G16H 50/00 20180101AFI20240304BHJP

【ＦＩ】

G16H50/00

【請求項の数】 15

(21)【出願番号】P 2020179466

(22)【出願日】2020-10-27

(65)【公開番号】P2022070413

(43)【公開日】2022-05-13

【審査請求日】2023-03-27

(73)【特許権者】

【識別番号】304020177

【氏名又は名称】国立大学法人山口大学

(73)【特許権者】

【識別番号】520225831

【氏名又は名称】一般社団法人山口総合健診センター

(74)【代理人】

【識別番号】100141173

【弁理士】

【氏名又は名称】西村啓一

(72)【発明者】

【氏名】浜本義彦

(72)【発明者】

【氏名】荻原宏是

(72)【発明者】

【氏名】飯塚徳男

【審査官】木村慎太郎

(56)【参考文献】

【文献】特開２００６－１０７５１１（ＪＰ，Ａ）

【文献】特開２０１３－１７４９５１（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１６Ｈ１０／００－８０／００

(57)【特許請求の範囲】

【請求項1】

複数の検査項目それぞれの検査データに基づいて、前記検査項目の検査を受けた１の第１対象者と、前記検査項目の前記検査を受けた１または複数の第２対象者と、の間の類似度を算出する情報処理装置であって、
前記第１対象者の前記検査項目ごとの前記検査データと、前記第２対象者の前記検査項目ごとのヒストグラムと、を記憶する記憶部と、
前記第１対象者の前記検査項目ごとの前記検査データと、前記第２対象者の前記検査項目ごとの前記ヒストグラムと、に基づいて、前記類似度を算出する類似度算出部と、
を有してなり、
前記検査データは、定量的データと、定性的データと、を含み、
前記ヒストグラムは、
前記第２対象者の前記検査項目ごとの前記検査データが属する複数の区間、を有すると共に、
前記検査データが前記定量的データのとき、前記第２対象者の前記定量的データが取り得る値の範囲が互いに重ならないように区分けされた複数の前記区間それぞれに属する前記第２対象者の存在確率を有し、
前記検査データが前記定性的データのとき、前記第２対象者の前記定性的データが取り得る各状態に対応する複数の前記区間それぞれに属する前記第２対象者の存在確率を有する、
ことを特徴とする情報処理装置。

【請求項2】

前記類似度算出部は、
前記検査項目ごとに、前記第１対象者の前記検査データが属する前記区間を処理区間として特定し、
前記検査項目ごとに、前記処理区間に属する前記第２対象者の前記存在確率を処理存在確率として特定し、
特定された全ての前記処理存在確率に基づいて、前記類似度を算出する、
請求項１記載の情報処理装置。

【請求項3】

前記類似度算出部は、
前記検査項目ごとに特定された前記処理存在確率に基づいて、前記第１対象者と、前記第２対象者と、の間の前記検査項目ごとの検査項目別類似度を算出し、
前記検査項目別類似度に基づいて、前記類似度を算出する、
請求項２記載の情報処理装置。

【請求項4】

前記類似度は、１の前記第１対象者と、１の前記第２対象者と、の間の類似度であり、
前記検査データが非名義尺度データであり、かつ、前記ヒストグラムが３以上の前記区間を有するとき、前記類似度算出部は、
前記第１対象者が属する前記処理区間と、前記第２対象者が属する前記区間と、の間の位置関係に基づいて、前記検査項目別類似度を補正し、
補正された前記検査項目別類似度に基づいて、前記類似度を算出する、
請求項３記載の情報処理装置。

【請求項5】

前記ヒストグラムを生成するヒストグラム生成部と、
前記検査項目ごとに、前記第２対象者それぞれの前記検査データを取得する取得部と、
を有してなり、
前記ヒストグラム生成部は、複数の前記区間と、前記取得部により取得された前記検査データと、に基づいて、前記ヒストグラムを生成する、
請求項１記載の情報処理装置。

【請求項6】

前記ヒストグラム生成部は、前記検査データが前記定量的データであるとき、前記定量的データに基づいて前記区間を設定する、
請求項５記載の情報処理装置。

【請求項7】

前記ヒストグラム生成部は、前記検査データが前記定性的データであるとき、前記定性的データの取り得る前記第２対象者の状態に基づいて、前記区間を設定する、
請求項５記載の情報処理装置。

【請求項8】

前記記憶部は、前記第２対象者ごとの検索対象者情報、を記憶し、
前記第２対象者ごとの前記検索対象者情報を表示する表示部と、
前記表示部の動作を制御する制御部と、
を有してなり、
前記制御部は、前記類似度算出部により算出された前記類似度に基づいて、前記表示部に表示される前記検索対象者情報を決定する、
請求項１記載の情報処理装置。

【請求項9】

前記第２対象者は、
特定クラスに属する前記第２対象者である特定第２対象者と、
前記特定クラスと異なる非特定クラスに属する前記第２対象者である非特定第２対象者と、
を含み、
前記ヒストグラムは、
前記特定第２対象者の前記検査項目ごとの特定ヒストグラムと、
前記非特定第２対象者の前記検査項目ごとの非特定ヒストグラムと、
を含み、
前記第１対象者の前記検査項目ごとの前記検査データと、前記検査項目ごとの前記特定ヒストグラムと、前記検査項目ごとの前記非特定ヒストグラムと、に基づいて、前記第１対象者を前記特定クラスと前記非特定クラスとのいずれか一方に識別する識別部、
を有してなる、
請求項１記載の情報処理装置。

【請求項10】

前記類似度算出部は、
前記第１対象者の前記検査項目ごとの前記検査データと前記特定ヒストグラムとに基づいて、前記第１対象者と前記特定第２対象者との間の前記類似度を算出し、
前記第１対象者の前記検査項目ごとの前記検査データと前記非特定ヒストグラムとに基づいて、前記第１対象者と前記非特定第２対象者との間の前記類似度を算出し、
前記識別部は、前記第１対象者と前記特定第２対象者との間の前記類似度と、前記第１対象者と前記非特定第２対象者との間の前記類似度と、に基づいて、前記第１対象者を前記特定クラスと前記非特定クラスとのいずれか一方に識別する、
請求項９記載の情報処理装置。

【請求項11】

複数の検査項目それぞれの検査データに基づいて、前記検査項目の検査を受けた複数の対象者により構成される第１集団と、前記検査項目の前記検査を受けた複数の他の対象者により構成される第２集団と、の間の類似度を算出する情報処理装置であって、
前記第１集団の前記検査項目ごとの第１ヒストグラムと、前記第２集団の前記検査項目ごとの第２ヒストグラムと、を記憶する記憶部と、
前記第１ヒストグラムと前記第２ヒストグラムとに基づいて、前記類似度を算出する類似度算出部と、
を有してなり、
前記第１ヒストグラムと前記第２ヒストグラムそれぞれは、互いに共通する複数の共通区間、を有し、
前記共通区間それぞれには、前記第１集団を構成する複数の前記対象者の前記検査データと、前記第２集団を構成する複数の前記他の対象者の前記検査データと、の少なくとも一方が属する、
ことを特徴とする情報処理装置。

【請求項12】

前記検査データは、定量的データと、定性的データと、を含み、
前記検査項目ごとに、前記第１ヒストグラムは、
前記検査データが前記定量的データのとき、前記第１集団の前記定量的データが取り得る値の範囲が互いに重ならないように区分けされた、複数の前記共通区間それぞれに属する前記第１集団を構成する複数の前記対象者の存在確率を有し、
前記検査データが前記定性的データのとき、前記第１集団の前記定性的データが取り得る各状態に対応し、複数の前記共通区間それぞれに属する前記第１集団を構成する複数の前記対象者の存在確率を有し、
前記検査項目ごとに、前記第２ヒストグラムは、
前記検査データが前記定量的データのとき、前記第２集団の前記定量的データが取り得る値の範囲が互いに重ならないように区分けされた、複数の前記共通区間それぞれに属する前記第２集団を構成する複数の前記他の対象者の存在確率を有し、
前記検査データが前記定性的データのとき、前記第２集団の前記定性的データが取り得る各状態に対応し、複数の前記共通区間それぞれに属する前記第２集団を構成する複数の前記他の対象者の存在確率を有する、
請求項１１記載の情報処理装置。

【請求項13】

前記類似度算出部は、
前記検査項目ごとに、前記共通区間ごとに、前記第１集団を構成する複数の前記対象者の前記存在確率と、前記第２集団を構成する複数の前記他の対象者の前記存在確率と、の差分量の絶対値を算出し、
前記検査項目ごとに、前記共通区間ごとの前記絶対値の総和に基づいて、前記検査項目ごとの検査項目別類似度を算出し、
前記検査項目別類似度に基づいて、前記類似度を算出する、
請求項１２記載の情報処理装置。

【請求項14】

コンピュータを請求項１記載の情報処理装置として機能させる、
ことを特徴とする情報処理プログラム。

【請求項15】

複数の検査項目それぞれの検査データに基づいて、前記検査項目の検査を受けた第１対象者と、前記検査項目の前記検査を受けた第２対象者と、の間の類似度を算出する情報処理装置により実行される情報処理方法であって、
前記情報処理装置は、
前記第１対象者の前記検査項目ごとの前記検査データと、前記第２対象者の前記検査項目ごとのヒストグラムと、を記憶する記憶部、
を備え、
前記検査データは、定量的データと、定性的データと、を含み、
前記検査項目ごとに、前記ヒストグラムは、
前記第２対象者の前記検査データが属する複数の区間、を有すると共に、
前記検査データが前記定量的データのとき、前記第２対象者の前記定量的データが取り得る値の範囲が互いに重ならないように区分けされた複数の前記区間それぞれに属する前記第２対象者の存在確率を有し、
前記検査データが前記定性的データのとき、前記第２対象者の前記定性的データが取り得る各状態に対応する複数の前記区間それぞれに属する前記第２対象者の存在確率を有し、
前記情報処理装置が、前記第１対象者の前記検査項目ごとの前記検査データと、前記第２対象者の前記検査項目ごとの前記ヒストグラムと、を取得する取得ステップと、
前記検査データと前記ヒストグラムに基づいて、前記類似度を算出する類似度算出ステップと、
を有してなる、
ことを特徴とする情報処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置と情報処理プログラムと情報処理方法とに関する。

【背景技術】

【0002】

医療分野において、健康診断を受ける者（受診者）や医師の診察を受ける患者から得られる検査データは、受診者と患者それぞれの本人のために用いられるだけでなく、将来の受診者や患者のためにも用いられることが望まれている。そのため、データベースに蓄積された膨大な量の検査データの利活用方法が、重要である。しかしながら、現状において、利活用される検査データは、データベースに蓄積されている検査データではなく、医師それぞれに記憶されている経験と知識とに留まっている。すなわち、検査データは、医師の記憶に依存した「暗黙知」として、個々の医師に利活用されているに過ぎない。

【0003】

データベースに蓄積されている検査データの利活用の代表的な例として、例えば、特定の受診者や患者の症例と類似した症例（類似症例）の検索が、ある。特に、ＣＴ画像や内視鏡画像、Ｘ線透視画像などの画像データを対象とした類似画像の検索は、広く提案されている（例えば、特許文献１，２参照）。

【0004】

ここで、検査データは、定量的なデータ（例えば、血液検査の値などの数値で表し得る数値データ：以下「定量的データ」ともいう。）だけでなく、定性的なデータ（例えば、癌の術後再発・転移の有無や、遺伝子変異の有無・種類などの数値で表し得ない状態を示す記号データ：以下「定性的データ」ともいう。）をも含む。そのため、画像データを除く血液検査などの一般検査項目の検査データを対象とした類似症例の検索は、難しく、あまり提案されていない。

【0005】

これまでにも、定量的データと定性的データとを活用して類似症例を検索する技術が提案されている（例えば、特許文献３参照）。

【0006】

特許文献３に開示された技術は、定量的データは数値データのまま（個体間の）類似度の算出に用い、定性的データは数値化してから類似度の算出に用いることにより、類似症例を検索する。しかしながら、定性的データの中には、単なる記号としての意味のみを有する名義尺度データがあり、同技術は、名義尺度データが大小関係や差、さらには平均値など、数値計算に全く意味を有さないにも関わらず、名義尺度データをも数値化している。そのため、同技術は、医学分野の検査データにおいて重要な役割を果たす名義尺度データ（例えば、遺伝子変異の有無）を有効に活用できない。したがって、同技術は、定量的データと定性的データとが混在する検査データを十分に利活用できていない。

【先行技術文献】

【特許文献】

【0007】

【文献】特開２０１９－２１２２９６号公報

【文献】特開２０１８－１５１７９１号公報

【文献】特開２０１６－２１８９５４号公報

【発明の概要】

【発明が解決しようとする課題】

【0008】

本発明は、定量的データと定性的データとを含む検査データに基づいて、検査を受けた第１対象者と、検査を受けた第２対象者と、の間の類似度を算出可能な情報処理装置と情報処理プログラムと情報処理方法とを提供することを目的とする。

【課題を解決するための手段】

【0009】

本発明に係る情報処理装置は、複数の検査項目それぞれの検査データに基づいて、検査項目の検査を受けた１の第１対象者と、検査項目の検査を受けた１または複数の第２対象者と、の間の類似度を算出する情報処理装置であって、第１対象者の検査項目ごとの検査データと、第２対象者の検査項目ごとのヒストグラムと、を記憶する記憶部と、第１対象者の検査項目ごとの検査データと、第２対象者の検査項目ごとのヒストグラムと、に基づいて、類似度を算出する類似度算出部と、を有してなり、検査データは、定量的データと、定性的データと、を含み、ヒストグラムは、第２対象者の検査項目ごとの検査データが属する複数の区間、を有すると共に、検査データが定量的データのとき、第２対象者の定量的データが取り得る値の範囲が互いに重ならないように区分けされた複数の区間それぞれに属する第２対象者の存在確率を有し、検査データが定性的データのとき、第２対象者の定性的データが取り得る各状態に対応する複数の区間それぞれに属する第２対象者の存在確率を有する、ことを特徴とする。

【発明の効果】

【0010】

本発明によれば、定量的データと定性的データとを含む検査データに基づいて、検査を受けた第１対象者と、検査を受けた第２対象者と、の間の類似度を算出することができる。

【図面の簡単な説明】

【0011】

【図1】本発明に係る情報処理装置の実施の形態を示すシステム構成図である。

【図2】図１の情報処理装置に接続される情報記憶サーバに記憶されている情報の例を示す模式図である。

【図3】図２の情報記憶サーバに記憶されている情報の別の例を示す模式図である。

【図4】図１の情報処理装置の機能ブロック図である。

【図5】本発明に係る情報処理方法の実施の形態を示すフローチャートである。

【図6】図５の情報処理方法に含まれるヒストグラム生成処理のフローチャートである。

【図7】図６のヒストグラム生成処理で生成されるヒストグラムの例を示す模式図である。

【図8】図６のヒストグラム生成処理で生成されるヒストグラムの別の例を示す模式図である。

【図9】図５の情報処理方法に含まれる類似度算出処理のフローチャートである。

【図10】図９の類似度算出処理に含まれる第１類似度算出処理のフローチャートである。

【図11】第１類似度算出処理の定量的データが得られる検査項目におけるヒストグラムの例を示す模式図である。

【図12】図９の類似度算出処理に含まれる第２類似度算出処理のフローチャートである。

【図13】図９の類似度算出処理に含まれる第３類似度算出処理のフローチャートである。

【図14】図５の情報処理方法に含まれる識別処理のフローチャートである。

【発明を実施するための形態】

【0012】

本発明に係る情報処理装置と情報処理プログラムと情報処理方法とは、以下の実施の形態と、図面と、により説明される。

【0013】

本発明は、複数の検査項目それぞれの検査データに基づいて、各検査項目の検査を受けた第１対象者と、各検査項目の検査を受けた第２対象者と、の間の類似度を算出するものである。また、本発明は、複数の検査項目それぞれの検査データに基づいて、各検査項目の検査を受けた複数の対象者から構成される集団と、各検査項目の検査を受けた複数の他の対象者から構成される集団と、の間の類似度を算出するものでもある。

【0014】

「検査項目」は、例えば、健康診断センターにおける健康診断や病院における病気の診断、対象者が受けた検査の項目である。すなわち、例えば、検査項目は、血液検査や尿検査、便検査などの検査ごとの項目である。

【0015】

「検査データ」は、検査項目ごとに対象者から得られる医学データである。検査データは、定量的データと定性的データとを含む。本実施の形態において、１の対象者が受けた検査項目それぞれからは、１の検査データが得られるものとする。つまり、各検査項目において、検査の対象者の数は、検査データの数と一致する。

【0016】

「定量的データ」は、例えば、体重、癌の数、腫瘍マーカー値、血中コレステロール値などの検査項目ごとに対象者から得られた値を示す、数値で表し得る数値データである。ここで、定量的データは、絶対零点が存在することを特徴とする比尺度データと、絶対零点が存在しないことを特徴とする間隔尺度データと、を含む。

【0017】

「定性的データ」は、例えば、性別、癌の有無、転移の有無、遺伝子の変異、癌のステージなどの検査項目ごとに対象者から得られた状態を示す、数値で表し得ない記号データである。ここで、定性的データは、順位などの順序に意味があることを特徴とする序数尺度データと、記号そのものに意味があることを特徴とする名義尺度データと、を含む。また、定性的データは、画像データに基づいて生成される情報を含み得る。すなわち、例えば、本発明において、医師が画像を読影して得られた所見は、記号化されることにより、医学的に価値のある記号データとして取り扱われ得る。具体的には、病変の有無、病変のタイプ・位置などが多岐選択肢として構成されることにより、その回答は、記号データとなる。

【0018】

「第１対象者」は、本発明において１または複数の第２対象者との間の類似度が算出される者である。本実施の形態において、第１対象者は、例えば、本発明に係る情報処理装置（以下「本装置」という。）に検査データが入力され、後述される情報処理方法の対象となる者（以下「入力対象者」という。）である。入力対象者は、例えば、健康診断センターまたは病院で検査を受けた者である。

【0019】

「第２対象者」は、本発明において第１対象者との間の類似度が算出される者である。本実施の形態において、第２対象者は、例えば、第１対象者の検査データに基づいて、第１対象者との間の類似度が算出されて、検索される対象となる１または複数の者（以下「検索対象者」という。）である。検索対象者は、例えば、健康診断センターまたは病院で過去に検査項目の検査を受けた者である。

【0020】

なお、入力対象者は、疾病の確定診断を受けた者でもよく、確定診断を受けていない者でもよい。検索対象者は、後述される識別に用いられる場合には確定診断を受けた者に限られ、後述される検索に用いられる場合には確定診断を受けた者である方が望ましい。

【0021】

「類似度」は、第１対象者（入力対象者）と第２対象者（検索対象者）との間の類似の度合を示す。

【0022】

●情報処理装置●
図１は、本装置の実施の形態を示すシステム構成図である。

【0023】

同図は、本装置１と情報記憶サーバ２と外部装置３とが通信ネットワークＮを介して接続されていることを示す。

【0024】

本装置１は、複数の検査項目それぞれの検査データに基づいて、各検査項目の検査を受けた第１対象者（入力対象者）と、各検査項目の検査を受けた第２対象者（検索対象者）と、の間の類似度を算出する。本装置１の具体的な構成と動作とは、後述される。

【0025】

情報記憶サーバ２は、入力対象者と検索対象者それぞれが受けた検査項目ごとの検査データを記憶する。情報記憶サーバ２は、例えば、パーソナルコンピュータで構成されるファイルサーバである。情報記憶サーバ２は、例えば、本装置１とは物理的に離れた場所（例えば、情報銀行などの情報センター）に設置される。

【0026】

なお、情報記憶サーバは、情報を記憶可能であればパーソナルコンピュータに限定されない。すなわち、例えば、情報記憶サーバは、クラウドサーバやＮＡＳ（Network Attached Storage）でもよい。

【0027】

図２は、情報記憶サーバ２に記憶されている情報の例を示す模式図である。
「検査項目ＩＤ」は、検査項目ごとに付与される検査項目固有の識別情報である。「対象者ＩＤ」は、対象者ごと、すなわち、入力対象者ごと、検索対象者ごと、に付与される対象者固有の識別情報である。同図は、検査項目ＩＤ「Ｘ００１」の検査項目に対して、対象者ＩＤ「Ａ００１」と、検査結果「ｘ０１１」と、が関連付けられて、情報記憶サーバ２に記憶されていることを示す。

【0028】

図３は、情報記憶サーバ２に記憶されている情報の別の例を示す模式図である。
「クラスＩＤ」は、クラスごとに付与されるクラス固有の識別情報である。「検索対象者情報ＩＤ」は、検索対象者情報ごとに付与される検索対象者情報固有の識別情報である。検索対象者情報とクラスとは、後述される。同図は、対象者ＩＤ「Ａ００１」の検索対象者に対して、検索対象者情報「Ｂ００１」と、クラスＩＤ「Ｚ００１」と、が関連付けられて、情報記憶サーバ２に記憶されていることを示す。また、同図は、対象者ＩＤ「Ａ００２」の検索対象者に対して、クラスＩＤが関連付けられていない（同検索対象者が特定の疾病に罹患しているか否かの確定診断を受けていない者である）ことを示す。

【0029】

「検索対象者情報」は、例えば、検索対象者の過去の検査データなどの検索対象者ごとに定まる情報である。検索対象者情報は、例えば、対象者ＩＤに関連付けられて、情報記憶サーバ２に記憶されている。

【0030】

なお、検索対象者情報は、例えば、検索対象者の生活習慣、治療内容、その経過などの情報を含んでもよい。

【0031】

「クラス」は、確定診断を受けた検索対象者が属するグループ（概念）である。

【0032】

図１に戻る。
外部装置３は、通信ネットワークＮを介して、本装置１に接続され、検索結果、識別結果を出力する（表示する）装置である。外部装置３は、例えば、タブレットなどの携帯情報端末である。

【0033】

なお、外部装置は、本装置に直接的に接続されるモニタやプリンタでもよい。

【0034】

●情報処理装置の構成
図４は、本装置１の機能ブロック図である。
同図は、説明の便宜上、通信ネットワークＮと情報記憶サーバ２とを破線で示す。

【0035】

本装置１は、例えば、ＰＣ（Personal Computer）である。本装置１は、通信部１１と記憶部１２と制御部１３と操作部１４と表示部１５とを有してなる。

【0036】

本装置１では、本発明に係る情報処理プログラム（以下「本プログラム」という。）が動作して、本プログラムが本装置１のハードウェア資源と協働して、後述する本方法を実現する。

【0037】

ここで、図示しないコンピュータに本プログラムを実行させることで、本プログラムは、同コンピュータを本装置１と同様に機能させて、同コンピュータに本方法を実行させ得る。

【0038】

通信部１１は、通信ネットワークＮを介して、情報記憶サーバ２と外部装置３との間で通信する。通信部１１は、例えば、通信モジュールやアンテナなど（不図示）により構成される。通信部１１は、本発明における出力部としても機能する。通信部１１の具体的な動作は、後述される。

【0039】

記憶部１２は、本装置１が本方法を実行するために必要な情報（例えば、後述されるヒストグラムなどの情報）を記憶する。記憶部１２に記憶される情報は、後述される。記憶部１２は、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）などの記録装置および／またはＲＡＭ（Random Access Memory）、フラッシュメモリなどの半導体メモリ素子、などにより構成される。

【0040】

制御部１３は、後述する本方法を実行すると共に、本装置１全体の動作を制御する。制御部１３は、例えば、ＣＰＵ（Central Processing Unit）やＤＳＰ（Digital Signal Processor）などのプロセッサと、ＲＡＭやＲＯＭ（Read Only Memory）などの半導体メモリと、により構成される。制御部１３は、取得部１３１と、ヒストグラム生成部１３２と、類似度算出部１３３と、識別部１３４と、を備える。これらの各部は、例えば、制御部１３で実行されるプログラムにより実現される機能モジュールである。

【0041】

取得部１３１は、通信部１１を介して、情報記憶サーバ２から対象者（入力対象者・検索対象者）の検査項目ごとの検査データを取得する。取得部１３１の具体的な動作は、後述される。

【0042】

ヒストグラム生成部１３２は、検索対象者それぞれの検査項目ごとの検査データに基づいて、検査項目ごとの検索対象者の検査データの分布をノンパラメトリック的に示すヒストグラムを生成する。ヒストグラム生成部１３２の具体的な動作は、後述される。

【0043】

ヒストグラムは、検査項目ごとに生成される。ヒストグラムにおいて、検査データそれぞれは、互いに重ならない複数の区間のいずれかに属する。ここで、検査データが属さない区間は、存在しない。すなわち、各区間には、少なくとも１つの検査データが含まれる。

【0044】

「区間」は、検査データが分類される階級（数値の範囲または状態）である。区間は、検査データが定量的データのとき、検査データが取り得る値の範囲（例えば、最大値から最小値までの範囲）が互いに重ならないように、１または複数の閾値で区分けされることにより定められる。一方、区間は、検査データが定性的データのとき、検査データが取り得る状態それぞれに対応するように定められる。

【0045】

類似度算出部１３３は、入力対象者の検査項目ごとの検査データと、検査項目ごとのヒストグラムと、に基づいて、入力対象者と検索対象者との間の類似度を算出する。類似度算出部１３３の具体的な動作は、後述される。

【0046】

識別部１３４は、特定クラスと非特定クラスとにより構成される２クラス問題において、識別される対象である入力対象者の検査項目ごとの検査データと、特定クラスに属する検索対象者（特定第２対象者）の検査項目ごとの特定ヒストグラムと、非特定クラスに属する検索対象者（非特定第２対象者）の検査項目ごとの非特定ヒストグラムと、に基づいて、入力対象者を特定クラスと非特定クラスとのいずれか一方に識別する。識別部１３４の具体的な動作は、後述される。

【0047】

「２クラス問題」は、識別対象となる入力対象者が特定クラスまたは非特定クラス（２つのクラス）のいずれに属するかを識別する問題である。

【0048】

「特定クラス」は、２クラス問題を構成する一方のクラスとして、本装置１の使用者（例えば、医師）により設定されるクラスである。本実施の形態において、特定クラスは、例えば、ある疾患に罹患しているという確定診断を受けた検索対象者が属するクラスである。一方、「非特定クラス」は、２クラス問題を構成する他方のクラスとして、特定クラスに対応して使用者により設定されるクラスである。本実施の形態において、非特定クラスは、例えば、ある疾患に罹患していないという確定診断を受けた検索対象者が属するクラスである。非特定クラスは、特定クラスに対応して一意的に定まる。すなわち、例えば、使用者により設定された２クラス問題が「癌の術後再発診断問題」であるとき、特定クラスは癌の術後再発有クラスであり、非特定クラスは癌の術後再発無クラスである。このように、特定クラスと非特定クラスとは、背反する関係にあり、識別される入力対象者が必ずいずれかに属するクラスである。

【0049】

操作部１４は、本装置１の使用者（例えば、医師）からの操作（情報の入力や選択など）を受ける機器である。

【0050】

表示部１５は、後述する本方法の実施において必要な情報（情報の選択画面や入力画面、識別結果など）を表示する。操作部１４と表示部１５とは、例えば、タッチパネル式ディスプレイである。

【0051】

なお、本発明における操作部はマウスやキーボードなどの入力機器でもよく、本発明における表示部は、本装置に接続されるモニタやディスプレイでもよい。

【0052】

●情報処理方法●
次に、本装置１が実行する本方法について説明する。

【0053】

以下の本方法の説明において、入力対象者は健康診断センターにおいて健康診断を新たに、または過去に受けた者とし、検索対象者は健康診断センターにおいて過去に健康診断を受けた者とし、検査項目は健康診断センターにおける健康診断の検査項目とする。

【0054】

図５は、本方法の実施の形態を示すフローチャートである。

【0055】

本方法は、ヒストグラム生成処理（Ｓ１）と、類似度算出処理（Ｓ２）と、識別処理（Ｓ６）と、を含む。すなわち、本装置１は、ヒストグラム生成処理（Ｓ１）と、類似度算出処理（Ｓ２）と、識別処理（Ｓ６）と、を実行する。

【0056】

●ヒストグラム生成処理
図６は、ヒストグラム生成処理（Ｓ１）のフローチャートである。

【0057】

「ヒストグラム生成処理（Ｓ１）」は、検査項目ごとに、検索対象者の検査データに基づいて、ヒストグラムを生成する処理、すなわち、検索対象者の検査データに基づいて、ヒストグラムを定める区間情報（検査データが定量的データであれば区間の数と幅、検査データが定性的データであれば状態と状態の数、および、検索対象者の存在確率）を求める処理である。ヒストグラム生成処理（Ｓ１）は、類似度算出処理（Ｓ２）と識別処理（Ｓ６）とよりも前に実行される。

【0058】

先ず、本装置１の制御部１３は、ヒストグラムを生成する検査項目を決定する（Ｓ１０１）。制御部１３は、例えば、表示部１５に検査項目の選択画面を表示させ、本装置１の使用者（例えば、医師）が操作部１４を用いて選択した検査項目を、ヒストグラムを生成する検査項目として決定する。

【0059】

なお、本発明における制御部は、使用者による手動ではなく、自動的に検査項目を決定してもよい。すなわち、例えば、本発明における制御部は、所定の間隔（例えば、１月）ごとに検査項目ＩＤの順に検査項目を決定してもよい。

【0060】

次いで、取得部１３１は、通信部１１を介して、情報記憶サーバ２からヒストグラムを生成する検査項目の検索対象者の検査データを取得する（Ｓ１０２）。取得された検査データは、記憶部１２に記憶される。

【0061】

次いで、ヒストグラム生成部１３２は、検査データが定量的データまたは定性的データのいずれに該当するかを判定する（Ｓ１０３）。

【0062】

検査データが定量的データのとき（Ｓ１０３の「定量的データ」）、ヒストグラム生成部１３２は、検査項目に対応する区間情報のうち、区間の数と幅とを特定する（Ｓ１０４）。区間の数と幅は、ヒストグラムを定めるために必要な情報である。各区間は、互いに重ならないように設定される。このように、数値、すなわち、連続値である定量的データが互いに重ならない複数の区間のいずれかに属することを定量的データの離散化という。

【0063】

一方、検査データが定性的データのとき（Ｓ１０３の「定性的データ」）、ヒストグラム生成部１３２は、検査項目に対応する区間情報のうち、検索対象者の検査データが取り得る状態と状態の数とを取得する（Ｓ１０５）。具体的には、ヒストグラム生成部１３２は、検査項目に対応する区間情報のうち、状態と状態の数とを記憶部１２から取得する。検査データが取り得る状態と状態の数は、ヒストグラムを定めるために必要な情報である。すなわち、例えば、検査項目が「尿蛋白」のとき、検査データが取り得る状態は「－」「±」「１＋」「２＋」「３＋」「４＋」であり、状態の数は「６」である。ここで、検査データが取り得る状態それぞれは区間に対応し、状態の数は区間の数に対応する。

【0064】

このように、区間情報の内、区間の数と幅との求め方は、検査データが定量的データか、定性的データか、により異なる。

【0065】

本実施の形態において、検査項目は、健康診断の検査項目である。そのため、検査データが定量的データのとき、検査項目ごとに検査データが取り得る値の範囲は医学的に既知である。そのため、ヒストグラム生成部１３２は、この医学的に既知な範囲を参照することも可能である（例えば、最高血圧の範囲は、約９０ｍｍＨｇ～２００ｍｍＨｇ程度である）。また、検査データが定性的データのとき、検査項目ごとに入力対象者の検査データが取り得る状態は医学的に既知である（例えば、便潜血反応の状態は、「＋」「－」である。）。したがって、本実施の形態において、健康診断の検査項目に対応する区間情報は、例えば、予め検査項目ごとに設定され、記憶部１２に記憶されている。すなわち、例えば、検査項目が最高血圧（定量的データ）のとき、区間は、１１９ｍｍＨｇ以下、１２０ｍｍＨｇ～１２９ｍｍＨｇ、１３０ｍｍＨｇ～１３９ｍｍＨｇ、１４０ｍｍＨｇ～１５９ｍｍＨｇ、１６０ｍｍＨｇ～１７９ｍｍＨｇ、１８０ｍｍＨｇ以上、と設定される。このとき、区間の数は「６」であり、区間の幅は正常値の幅で「１０」であり、高血圧の幅で「２０」である。このように、区間の数と幅は、検査項目の検査データの取り得る範囲や、医学的に正常・異常の境界となる値などに応じて定められる。ヒストグラム生成部１３２は、例えば、予め検査項目ごとに設定されている区間情報を記憶部１２から読み出し、読み出された区間情報を、検査項目に対応する区間情報として特定する。

【0066】

なお、区間情報は、検査項目ごとに設定される。すなわち、例えば、区間の数は、検査項目ごとに同じでもよく、あるいは、異なってもよい。また、区間情報は、予め検査項目ごとに設定されておらず、記憶部１２に記憶されていなくてもよい。

【0067】

すなわち、例えば、本発明におけるヒストグラム生成部は、検査データが定量的データのとき、検査データの最大値と最小値とを特定し、両者の差分を検査項目ごとに定められた区間の数で除算することにより、区間の幅（区間それぞれの範囲）を特定してもよい。この場合、本発明におけるヒストグラム生成部は、外れ値を除いて、区間の幅（区間それぞれの範囲）を算出してもよい。さらに、例えば、本発明におけるヒストグラム生成部は、検査データが定性的データのとき、検査データが取り得る入力対象者の状態を抽出し、同状態それぞれを区間として特定してもよい。また、１の検査項目における区間の幅は、等間隔でもよく、あるいは、等間隔でなくてもよい。

【0068】

また、例えば、本発明におけるヒストグラム生成部は、検査データが定性的データのとき、検査データが取り得る状態と状態の数とを抽出し、同状態それぞれを区間として特定し、同状態の数を区間の数として特定してもよい。

【0069】

次いで、ヒストグラム生成部１３２は、検索対象者の検査データと、区間情報（検査データが定量的データであれば区間の数と幅、検査データが定性的データであれば状態と状態の数）とに基づいて、区間ごとの存在確率を算出する（Ｓ１０６）。すなわち、例えば、ヒストグラム生成部１３２は、検査項目における区間ごとに属する検査データの数、つまり、検索対象者の数を特定する（本実施の形態において、検索対象者の数は、検査データの数と一致する）。次いで、ヒストグラム生成部１３２は、検査項目における全ての検索対象者（検査データ）の数に対する、各区間に属する検索対象者（検査データ）の数の比として、検査項目の区間ごとの検索対象者の存在確率を算出する。

【0070】

「存在確率」は、各区間それぞれに属する検索対象者が存在する確率である。存在確率は、例えば、後述される式（２）により算出される。

【0071】

このように、定量的データにおいては区間情報である区間の数と幅とが特定され、定性的データにおいては区間情報である状態（区間）と状態の数とが取得され、次いで、区間情報である各区間の存在確率が算出される。ここで、ヒストグラムは、区間の数、幅（定量的データのみ）および各区間の存在確率により定まり、例えば、棒グラフで表現される。すなわち、区間と区間の数および各区間の存在確率が求められたことにより、複数の区間と、区間それぞれに属する検索対象者の存在確率と、を有するヒストグラムが生成される。換言すれば、本発明において、「ヒストグラムの作成」は、区間情報として、定量的データでは区間の数と幅および各区間の存在確率、定性的データでは状態の数と状態および各区間の存在確率、を求めること、を意味する。生成されたヒストグラムは、対応する検査項目に関連付けられて、記憶部１２に記憶される。

【0072】

なお、ヒストグラムの区間情報は、情報記憶サーバに記憶されてもよい。

【0073】

図７は、検査データが定量的データのときのヒストグラムの例を示す模式図である。
同図の「ａ」「ｂ」「ｃ」「ｄ」それぞれは、各区間を定める閾値を示す。同図は、連続値である検査データが、４つの閾値「ａ－ｄ」により５つの区間（ａ以下、ａ以上ｂ未満、ｂ以上ｃ未満、ｃ以上ｄ未満、ｄ以上）に離散化されていることを示す。同図の数値は、区間ごとの検索対象者の存在確率を示す。

【0074】

図８は、検査データが定性的データのときのヒストグラムの例を示す模式図である。
同図の「ｘ」「ｙ」「ｚ」それぞれは、各区間に対応する検索対象者の状態を示す。同図は、検査データが示す状態そのものが区間として特定されていることを示す。同図の数値は、区間ごとの検索対象者の存在確率を示す。

【0075】

●類似度算出処理
図９は、類似度算出処理（Ｓ２）のフローチャートである。

【0076】

「類似度算出処理（Ｓ２）」は、基本的に、入力対象者の検査項目ごとの検査データと、１または複数の検索対象者の検査項目ごとのヒストグラムと、に基づいて、入力対象者と１または複数の検索対象者との間の類似度を算出する処理である。本実施の形態において、類似度は、１の入力対象者と、複数の検索対象者により構成される集団と、の間の類似度（以下「第１類似度」という。）と、１の入力対象者と、１の検索対象者と、の間の類似度（以下「第２類似度」という。）と、を含む。また、類似度は、集団間の類似度として、複数の対象者により構成される集団間の類似度（以下「第３類似度」という。）をも含む。類似度算出処理（Ｓ２）は、本発明における類似度算出ステップの例である。

【0077】

先ず、本装置１の制御部１３は、表示部１５に算出される類似度の種類（第１－第３類似度）が選択される選択画面を表示させ、使用者（医師）が操作部１４を用いて選択した類似度を類似度算出処理（Ｓ２）により算出される類似度として特定する（Ｓ２０１）。

【0078】

制御部１３に特定された類似度が第１類似度のとき（Ｓ２０１の「第１類似度」）、本装置１は、第１類似度算出処理（Ｓ３）を実行する。制御部１３に特定された類似度が第２類似度のとき（Ｓ２０１の「第２類似度」）、本装置１は、第２類似度算出処理（Ｓ４）を実行する。制御部１３に特定された類似度が第３類似度のとき（Ｓ２０１の「第３類似度」）、本装置１は、第３類似度算出処理（Ｓ５）を実行する。

【0079】

ここで、各類似度算出処理（Ｓ３－Ｓ５）において、類似度算出部１３３は、検査項目ごとに検査項目別類似度を算出し、検査項目別類似度に基づいて２つの対象間の類似度を算出する。

【0080】

「検査項目別類似度」は、入力対象者と複数の検索対象者から構成される集団との間、入力対象者と１の検索対象者との間、または複数の対象者からなる２つの集団間、における検査項目ごとの類似度である。検査項目別類似度は、第１類似度算出処理（Ｓ３）における検査項目別類似度、第２類似度算出処理（Ｓ４）における検査項目別類似度、第３類似度算出処理（Ｓ５）における検査項目別類似度、の３種類ある。

【0081】

●第１類似度算出処理
図１０は、第１類似度算出処理（Ｓ３）のフローチャートである。

【0082】

「第１類似度算出処理（Ｓ３）」は、第１類似度を算出する処理である。すなわち、第１類似度算出処理（Ｓ３）は、１の入力対象者と、複数の検索対象者により構成される集団（群）と、の間の類似度を算出する処理である。以下の説明において、入力対象者は「ｉ」と表記されることもある。

【0083】

先ず、制御部１３は、類似度を算出する入力対象者と、類似度の算出に用いられる検査項目と、を決定する（Ｓ３０１）。すなわち、例えば、制御部１３は、表示部１５に入力対象者を入力する入力画面を表示させ、使用者（医師）が操作部１４を用いて入力した（選択した）入力対象者を、第１類似度を算出する入力対象者として決定する。また、本実施の形態において、検査項目は健康診断の検査項目である。そのため、制御部１３は、例えば、一般健康診断において採用されている検査項目を、類似度の算出に用いられる検査項目として決定する。検査項目は、予め記憶部１２に記憶されている。

【0084】

なお、本発明における制御部は、使用者（医師）が選択した検査項目を、類似度の算出に用いられる検査項目として決定してもよい。また、本発明における制御部は、予め複数の検査項目の組合せである検査項目群を、類似度の算出に用いられる検査項目として決定してもよい。この場合、検査項目群は、予め使用者（医師）などにより設定されて、記憶部に記憶されている。

【0085】

次いで、取得部１３１は、通信部１１を介して、情報記憶サーバ２から、入力対象者が受けた検査項目のうち、決定された検査項目ごとの入力対象者の検査データを取得する（Ｓ３０２）。このとき、取得部１３１は、例えば、入力対象者ＩＤに関連付けられている対象者情報も取得する。検査データは、例えば、対応する対象者情報に関連付けられて記憶部１２に記憶される。

【0086】

次いで、類似度算出部１３３は、決定された検査項目のうち、１の検査項目を処理検査項目として選択する（Ｓ３０３）。すなわち、例えば、類似度算出部１３３は、検査項目に対応する検査項目ＩＤの番号のうち、最も小さい検査項目ＩＤに対応する検査項目を処理検査項目として選択する。

【0087】

次いで、取得部１３１は、処理検査項目に対応する、検索対象者から生成されたヒストグラム（すなわち、区間情報（区間の数、幅（定量的データのみ）、存在確率））と、処理検査項目に対応する入力対象者の検査データと、を記憶部１２から読み出す（Ｓ３０４）。すなわち、取得部１３１は、処理検査項目に対応するヒストグラムと検査データとを記憶部１２から取得する。

【0088】

ここで、以下の説明において、
処理検査項目の数は「Ｌ」（Ｌは０を除く自然数）
処理検査項目の識別番号は「ｊ」（ｊは１～Ｌの自然数）
処理検査項目「ｊ」の区間数は「ｍ_ｊ」（ｍ_ｊは２以上の自然数）
処理検査項目「ｊ」において、入力対象者「ｉ」の検査データが属する左からｋ番目の区間は処理区間「Ｒ_ｉｊ（ｋ）」（ｋ＝１～ｍ_ｊ）
と表記される。

【0089】

また、以下の説明において、全ての検索対象者、つまり全ての検査データの数が「ｎ」と表記されるとき、
処理検査項目「ｊ」において入力対象者「ｉ」の検査データが属するｋ番目の区間「Ｒ_ｉｊ（ｋ）」に属する検索対象者の数は「ｎ_ｊ（ｋ）」で表記され、
処理検査項目「ｊ」におけるｋ番目の区間「Ｒ_ｉｊ（ｋ）」内の検索対象者の存在確率は「ｐ_ｊ（ｋ）」と表記される。すなわち、以下の式（１）（２）（３）が成立する。

【0090】

式（１）：ｎ＝ｎ_ｊ（１）＋ｎ_ｊ（２）＋・・・＋ｎ_ｊ（ｍ_ｊ）
式（２）：ｐ_ｊ（ｋ）＝ｎ_ｊ（ｋ）／ｎｋ＝１～ｍ_ｊ
式（３）：ｐ_ｊ（１）＋ｐ_ｊ（２）＋・・・＋ｐ_ｊ（ｍ_ｊ）＝１

【0091】

次いで、類似度算出部１３３は、入力対象者の検査データと区間情報とに基づいて、処理検査項目「ｊ」のヒストグラムにおいて入力対象者の検査データが属するｋ番目の区間「Ｒ_ｉｊ（ｋ）」（ｋは１～ｍ_ｊ）を処理区間として特定する（Ｓ３０５）。

【0092】

「処理区間」は、複数の区間の内、入力対象者の検査データが属する区間である。

【0093】

次いで、類似度算出部１３３は、記憶部１２から処理区間「Ｒ_ｉｊ（ｋ）」内の検索対象者の存在確率「ｐ_ｊ（ｋ）」を処理存在確率として読み出し、同処理存在確率「ｐ_ｊ（ｋ）」を検査項目別類似度「ｓ_ｉｊ」として特定する（Ｓ３０６）。

【0094】

「ｐ_ｊ（ｋ）」は、処理検査項目「ｊ」において入力対象者「ｉ」の検査データが属するｋ番目の区間（特定区間）内に検索対象者が存在する確率である。そのため、「ｐ_ｊ（ｋ）」は、処理検査項目「ｊ」における入力対象者「ｉ」と検索対象者の集団との間の検査項目別類似度「ｓ_ｉｊ」となる。すなわち、検索対象者の存在確率の高い区間に入力対象者の検査データが属すれば、入力対象者と検索対象者の集団との間の類似度は、高い。

【0095】

図１１は、定量的データが得られる検査項目におけるヒストグラムの例を示す模式図である。
同図の「ａ」「ｂ」「ｃ」それぞれは、各区間を定める閾値を示す。同図は、区間「ａ未満」では検索対象者の存在確率が「０．３０」であり、区間「ａ以上ｂ未満」では検索対象者の存在確率が「０．４０」であり、区間「ｂ以上ｃ未満」では検索対象者の存在確率が「０．１５」であり、区間「ｃ以上」では検索対象者の存在確率が「０．１５」であることを示す。同図において、例えば、区間「ａ以上ｂ未満」が処理区間であるとき、検索対象者の処理存在確率は「０．４０」であり、処理検査項目「ｊ」において、入力対象者「ｉ」と検索対象者の集団との間には、「０．４０」の類似性が有る、という解釈が成立する。

【0096】

図１０に戻る。
次いで、類似度算出部１３３は、未処理の検査項目の有無を判定する（Ｓ３０７）。未処理の検査項目が有るとき（Ｓ３０７の「Ｙ」）、類似度算出部１３３は、未処理の検査項目に対して、処理（Ｓ３０３－Ｓ３０６）を繰り返す。一方、未処理の検査項目が無いとき（Ｓ３０７の「Ｎ」）、類似度算出部１３３は、全ての処理検査項目「ｊ」における入力対象者「ｉ」と検索対象者の集団との間の検査項目別類似度「ｓ_ｉｊ」の平均値「Ｓ_ｉ」を、入力対象者「ｉ」と検索対象者の集団との間の第１類似度として算出する（Ｓ３０８）。ここで、第１類似度「Ｓ_ｉ」は、以下の式（４）により算出される。算出された第１類似度「Ｓ_ｉ」は、例えば、入力対象者「ｉ」と検索対象者の集団とに関連付けられて、記憶部１２に記憶される。

【0097】

式（４）：Ｓ_ｉ＝（ｓ_ｉ１＋ｓ_ｉ２＋・・・ｓ_ｉＬ）／Ｌ

【0098】

ここで、検査項目別類似度「ｓ_ｉｊ」の取り得る範囲は、０≦ｓ_ｉｊ≦１である。そのため、第１類似度「Ｓ_ｉ」の取り得る範囲は、０≦Ｓ_ｉ≦１となる。すなわち、第１類似度「Ｓ_ｉ」が「１」に近づくほど入力対象者と検索対象者の集団との間の類似度は高くなり、第１類似度「Ｓ_ｉ」が「０」に近づくほど入力対象者と検索対象者の集団との間の類似度は低くなる。この関係は、後述される第２類似度と第３類似度とに対しても同様に成立する。

【0099】

●第２類似度算出処理
図１２は、第２類似度算出処理（Ｓ４）のフローチャートである。

【0100】

「第２類似度算出処理（Ｓ４）」は、第２類似度を算出する処理である。すなわち、第２類似度算出処理（Ｓ４）は、１の入力対象者と、１の検索対象者と、の間の類似度を算出する処理である。

【0101】

第２類似度算出処理（Ｓ４）の基本的なフローは、第１類似度算出処理（Ｓ３）と共通する。すなわち、第２類似度算出処理（Ｓ４）において、本装置１は、入力対象者と検査項目とを決定し（Ｓ４０１）、入力対象者と検索対象者それぞれの検査データを取得し（Ｓ４０２）、処理検査項目を選択し（Ｓ４０３）、処理検査項目に対応するヒストグラム（区間情報）と入力対象者の検査データとを取得し（Ｓ４０４）、入力対象者の検査データが属する処理区間を特定する（Ｓ４０５）。

【0102】

第２類似度算出処理（Ｓ４）において、第１類似度算出処理（Ｓ３）とは異なる処理については、以下に説明される。

【0103】

処理（Ｓ４０５）に次いで、類似度算出部１３３は、検索対象者の検査データと区間情報とに基づいて、検索対象者の属する区間を特定する（Ｓ４０６）。

【0104】

前述のとおり、第２類似度算出処理（Ｓ４）において、検索対象者の数は、「１」である。そのため、ヒストグラムでは、検索対象者の検査データが属する区間は１つであり、他の区間には検索対象者の検査データが属していない。すなわち、検査データの属する区間の検索対象者の存在確率は常に「１」であり、他の区間の検索対象者の存在確率は常に「０」である。その結果、各検査項目において、１の入力対象者と１の検索対象者との間の検査項目別類似度「ｓ_ｉｊ」は、「１」または「０」のいずれかになる。そのため、第２類似度では、入力対象者と検索対象者それぞれの検査データが属する処理区間と区間との位置関係が重要である。

【0105】

ここで、前述のとおり、ヒストグラムにおいて、定量的データの属する範囲は、複数の区間に区分けされる。そして、各区間の間には順序が存在するため、各区間の間の相違は数値で表現可能である。一方、前述のとおり、定性的データは、序数尺度データと名義尺度データとを含む。中でも、序数尺度データは、順序を伴う定性的データである。そのため、この順序に基づいて、１の入力対象者と１の検索対象者それぞれの検査データが属する区間に応じて、検査項目別類似度は、両者の属する区間が異なれば「０」、両者の属する区間が一致すれば「１」という極端な表現だけでなく、「０」から「１」までの範囲の数値により柔軟に表現可能である。つまり、本発明において、検査データは、順序を伴わない名義尺度データと、定量的データおよび順序を伴う序数尺度データの両方を併せた非名義尺度データと、に分けられる。非名義尺度データでは、以下に示されるように、細かく設定可能な検査項目別類似度が考えられる。

【0106】

非名義尺度データは、データ間の順序（大小）に意味があることを特徴とする。そのため、検査データが非名義尺度データであり、かつ、ヒストグラムが「３以上」の区間を有するとき（区間の数が「３以上」のヒストグラムであるとき）、同ヒストグラムにおいて検索対象者の検査データが属する区間と、入力対象者の検査データが属する処理区間と、の間の位置関係は、検査項目別類似度の補正に利用可能である。一方、ヒストグラムが「２」の区間を有するとき（区間の数が「２」のヒストグラムであるとき）、非名義尺度データであっても名義尺度データと同様に、検査項目別類似度は、「０」または「１」とする。

【0107】

次いで、類似度算出部１３３は、検査項目別類似度「ｓ_ｉｊ」が算出された処理検査項目「ｊ」が、非名義尺度データが得られる検査項目か、名義尺度データが得られる検査項目か、を判定する（Ｓ４０７）。

【0108】

処理検査項目「ｊ」が、非名義尺度データが得られる検査項目のとき（Ｓ４０７の「非名義尺度データ」）、処理検査項目「ｊ」の区間の数を確認する（Ｓ４０８）。

【0109】

区間の数が「３」以上のとき（Ｓ４０８の「３以上」）、類似度算出部１３３は、非名義尺度データが得られる処理検査項目「ｊ」において、入力対象者「ｉ」の検査データが属する処理区間と、検索対象者の検査データが属する区間と、の間の位置関係を特定する（Ｓ４０９）。

【0110】

次いで、類似度算出部１３３は、処理区間と区間との位置関係に基づいて、補正検査項目別類似度「ｃｓ_ｉｊ」を適用する（Ｓ４１０）。すなわち、類似度算出部１３３は、検査データが非名義尺度データであり、かつ、区間の数が「３以上」のとき、つまり、区間の数が「３以上」の非名義尺度データに対して、補正計算項目別類似度「ｃｓ_ｉｊ」を適用する。

【0111】

「補正検査項目別類似度「ｃｓ_ｉｊ」」は、区間の数が「３以上」の非名義尺度データに対して適用される、補正された検査項目別類似度「ｓ_ｉｊ」である。検査項目別類似度「ｓ_ｉｊ」が「０」または「１」の値であるのに対し、「補正検査項目別類似度「ｃｓ_ｉｊ」」は「０」から「１」までの範囲の数値である。補正検査項目別類似度「ｃｓ_ｉｊ」は、区間の数が「３以上」の非名義尺度データが得られる処理検査項目「ｊ」においてのみ適用される。入力対象者の検査データが属する処理区間と検索対象者の検査データが属する区間との位置関係と補正検査項目別類似度との関係は、例えば、使用者により予め設定され、記憶部１２に記憶されている。

【0112】

例えば、区間の数が「３」の場合において、補正検査項目別類似度「ｃｓ_ｉｊ」は、処理区間と区間とが一致するとき「１」、両区間が隣り合うとき「０．２５」、これら以外のとき「０」、に設定される。また、例えば、区間の数が「１０」の場合において、補正検査項目別類似度「ｃｓ_ｉｊ」は、両区間が一致するとき「１」、両区間が隣り合うとき「０．５」、両区間の間に１の区間が有るとき「０．２５」、これら以外のとき「０」、に設定される。これに対して、両区間が一致しないとき、検査項目別類似度「ｓ_ｉｊ」は「０」である。このように、補正検査項目別類似度「ｃｓ_ｉｊ」は、区間の数に応じて、細かく設定可能である。

【0113】

一方、処理検査項目「ｊ」が、名義尺度データが得られる検査項目のとき（Ｓ４０７の「名義尺度データ」）、または、区間の数が「２」のとき（Ｓ４０８の「２」）、類似度算出部１３３は、補正検査項目別類似度「ｃｓ_ｉｊ」の代わりに検査項目別類似度「ｓ_ｉｊ」を適用（算出）する（Ｓ４１１）。

【0114】

次いで、類似度算出部１３３は、未処理の検査項目の有無を判定する（Ｓ４１２）。未処理の検査項目が有るとき（Ｓ４１２の「Ｙ」）、類似度算出部１３３は、未処理の検査項目に対して、処理（Ｓ４０３－Ｓ４１１）を繰り返す。一方、未処理の検査項目が無いとき（Ｓ４１２の「Ｎ」）、類似度算出部１３３は、全ての処理検査項目「ｊ」における１の入力対象者「ｉ」と１の検索対象者との間の検査項目別類似度「ｓ_ｉｊ」と補正検査項目別類似度「ｃｓ_ｉｊ」との総和を算出し、総和を全ての処理検査項目の数「Ｌ」で除算して、１の入力対象者「ｉ」と１の検索対象者との間の類似度「Ｓ_ｉ」を第２類似度として算出する（Ｓ４１３）。算出された第２類似度「Ｓ_ｉ」は、例えば、入力対象者「ｉ」と検索対象者とに関連付けられて、記憶部１２に記憶される。

【0115】

なお、本発明における記憶部は、算出された第２類似度のうち、特に大きな値の第２類似度のみを記憶してもよい。この場合、第２類似度の記憶に必要な記憶容量は、抑制される。

【0116】

●第３類似度算出処理
図１３は、第３類似度算出処理（Ｓ５）のフローチャートである。

【0117】

「第３類似度算出処理（Ｓ５）」は、第３類似度を算出する処理である。すなわち、第３類似度算出処理（Ｓ５）は、複数の対象者により構成される２つの集団の間の類似度を算出する処理である。以下の説明において、２つの集団それぞれは、第１集団と第２集団とする。本実施の形態において、特定クラスに属する対象者から構成される集団が２つに分割され、それぞれが第１集団および第２集団として扱われる場合がある。

【0118】

先ず、制御部１３は、類似度を算出する２つの集団と、類似度の算出に用いられる検査項目と、を決定する（Ｓ５０１）。すなわち、例えば、制御部１３は、表示部１５に２つの集団が入力される入力画面を表示させ、使用者（医師）が操作部１４を用いて入力した（選択した）２つの集団を決定する。

【0119】

次いで、類似度算出部１３３は、決定された検査項目のうち、１の検査項目を処理検査項目として選択する（Ｓ５０２）。すなわち、例えば、類似度算出部１３３は、検査項目に対応する検査項目ＩＤの番号のうち、最も小さい検査項目ＩＤに対応する検査項目を処理検査項目として選択する。

【0120】

次いで、取得部１３１は、２つの集団を構成する全対象者の処理検査項目に対応する検査データを記憶部１２から読み出す（Ｓ５０３）。すなわち、取得部１３１は、処理検査項目に対応する検査データを記憶部１２から取得する。

【0121】

次いで、ヒストグラム生成部１３２は、２つの集団それぞれのヒストグラムに共通する区間を定めるため、処理検査項目の区間情報を取得する（Ｓ５０４）。具体的には、ヒストグラム生成部１３２は、検査データが定量的データのとき処理検査項目の区間の数と幅とを特定し、検査データが定性的データのとき処理検査項目の状態と状態の数とを取得する。以下の説明において、この共通する区間それぞれは、共通区間と表記される。各共通区間には、２つの集団のいずれかに属する対象者の検査データが少なくとも１つ属する。

【0122】

次いでヒストグラム生成部１３２は、各共通区間において、２つの集団それぞれを構成する対象者の存在確率を算出する（Ｓ５０５）。すなわち、ヒストグラム生成部１３２は、互いに共通する区間（共通区間）を有する、第１集団のヒストグラム（第１ヒストグラム）と第２集団のヒストグラム（第２ヒストグラム）とを生成する。つまり、第１ヒストグラムと第２ヒストグラムとは、検査データが定量的データのとき互いに区間の数と幅とが共通する共通区間を有し、検査データが定性的データのとき互いに状態と状態の数（区間の数）とが共通する共通区間を有する。第１ヒストグラムは、第１集団を構成する対象者が属する複数の共通区間と、共通区間それぞれに属する対象者の存在確率と、を有し、対応する検査項目に関連付けられて、記憶部１２に記憶される。第２ヒストグラムは、第２集団を構成する対象者が属する複数の共通区間と、共通区間それぞれに属する対象者の存在確率と、を有し、対応する検査項目に関連付けられて、記憶部１２に記憶される。

【0123】

次いで、類似度算出部１３３は、第１ヒストグラムと第２ヒストグラムそれぞれの各共通区間において、第１集団を構成する対象者の存在確率と、第２集団を構成する対象者の存在確率と、の差分量の絶対値を算出し、共通区間ごとの絶対値の総和「ｔ_ｊ」を算出する（Ｓ５０６）。

【0124】

前述のとおり、両ヒストグラムの各共通区間の対象者の存在確率の総和は「１」である。そのため、両ヒストグラムが重ねられたとき、両者が完全に重複するとき（一致するとき）、総和「ｔ_ｊ」は最小値「０」となり、両者が全く重複しないとき（完全に不一致のとき）、総和「ｔ_ｊ」は最大値「２」となる。

【0125】

次いで、類似度算出部１３３は、次式（５）を用いて、処理検査項目「ｊ」に対する検査項目別類似度「ｓｔ_ｊ」を算出する（Ｓ５０７）。

【0126】

式（５）：ｓｔ_ｊ＝（２－ｔ_ｊ）/２

【0127】

検査項目別類似度「ｓｔ_ｉ」は、両ヒストグラムが完全に重複するとき「１」であり、両ヒストグラムが全く重複しないとき「０」である。つまり、検査項目別類似度「ｓｔ_ｉ」は、２つの集団の間の類似度の値が最大のとき「１」であり、同類似度の値が最小のとき「０」となる。

【0128】

次いで、類似度算出部１３３は、未処理の検査項目の有無を判定する（Ｓ５０８）。未処理の検査項目が有るとき（Ｓ５０８の「Ｙ」）、類似度算出部１３３は、未処理の検査項目に対して、処理（Ｓ５０２－Ｓ５０７）を繰り返す。一方、未処理の検査項目が無いとき（Ｓ５０８の「Ｎ」）、類似度算出部１３３は、全ての処理検査項目「ｊ」における２つの集団間の検査項目別類似度「ｓｔ_ｊ」の平均値である「Ｓ」を第３類似度として算出する（Ｓ５０９）。具体的には、第３類似度「Ｓ」は、以下の式（６）により算出される。算出された第３類似度「Ｓ」は、例えば、２つの集団に関連付けられて記憶部１２に記憶される。

【0129】

式（６）：Ｓ＝（ｓｔ_１＋ｓｔ_２＋・・・＋ｓｔ_Ｌ）／Ｌ

【0130】

ここで、検査項目別類似度「ｓｔ_ｊ」の取り得る範囲は、０≦ｓｔ_ｊ≦１である。そのため、第３類似度「Ｓ」の取り得る範囲は、０≦Ｓ≦１となる。

【0131】

●識別処理
図１４は、識別処理（Ｓ６）のフローチャートである。

【0132】

「識別処理（Ｓ６）」は、識別される対象である入力対象者が特定クラスまたは非特定クラスのいずれに属するか（２クラス問題）を識別する処理である。識別処理（Ｓ６）は、検索対象者を訓練サンプルとして用いる教師有り学習の識別処理である。

【0133】

本実施の形態において、検索対象者の一部または全部は、所属するクラスが既知な２つの集団（例えば、同じ確定診断を受けた複数の検索対象者から構成される集団）を形成する。本実施の形態において、識別処理（Ｓ６）は、第２類似度に基づいて、識別を実行する。

【0134】

先ず、本装置１の制御部１３は、複数の２クラス問題の中から、入力対象者を識別すべき、特定クラスと非特定クラスとにより構成される２クラス問題を設定する（Ｓ６０１）。ここで、２クラス問題は、例えば、癌の転移の有無、抗癌剤の効果の有無、抗癌剤の副作用の有無、などである。この場合、例えば、「有」のクラスは特定クラス、「無」のクラスは非特定クラスとする。制御部１３は、例えば、表示部１５に２クラス問題を選択する選択画面を表示させ、使用者（医師）が操作部１４を用いて選択した２クラス問題を、入力対象者が識別される２クラス問題として設定する。複数の２クラス問題は、例えば、予め記憶部１２に記憶されている。

【0135】

次いで、制御部１３は、設定された２クラス問題に対応する１または複数の検査項目を特定する（Ｓ６０２）。２クラス問題に対応する検査項目は、例えば、２クラス問題に関連付けられて、予め記憶部１２に記憶されている。

【0136】

次いで、取得部１３１は、通信部１１を介して、情報記憶サーバ２から、識別処理（Ｓ６）の対象である入力対象者の対象者情報を取得すると共に、特定された検査項目ごとの検査データを取得する（Ｓ６０３）。

【0137】

次いで、識別部１３４は、特定された検査項目のうち、１の検査項目を処理検査項目として選択する（Ｓ６０４）。すなわち、例えば、識別部１３４は、検査項目に対応する検査項目ＩＤの番号のうち、最も小さい検査項目ＩＤに対応する検査項目を処理検査項目として選択する。

【0138】

次いで、識別部１３４は、処理検査項目に対応する特定クラスに属する検索対象者の検査データと、処理検査項目に対応する非特定クラスに属する検索対象者の検査データと、処理検査項目に対応する入力対象者の検査データと、を記憶部１２から読み出す（取得する）（Ｓ６０５）。ここで、特定クラスに属する検索対象者は、本発明における特定第２対象者の例であり、非特定クラスに属する検索対象者は、本発明における非特定第２対象者の例である。

【0139】

次いで、類似度算出部１３３は、処理検査項目に対応する特定クラスに属する検索対象者の検査データと、処理検査項目に対応する入力対象者の検査データと、に基づいて、入力対象者と、特定クラスに属する検索対象者それぞれと、の間の検査項目別類似度または補正検査項目別類似度を算出する（Ｓ６０６）。

【0140】

次いで、類似度算出部１３３は、処理検査項目に対応する非特定クラスに属する検索対象者の検査データと、処理検査項目に対応する入力対象者の検査データと、に基づいて、入力対象者と、非特定クラスに属する検索対象者それぞれと、の間の検査項目別類似度または補正検査項目別類似度を算出する（Ｓ６０７）。

【0141】

次いで、識別部１３４は、未処理の検査項目の有無を判定する（Ｓ６０８）。未処理の検査項目が有るとき（Ｓ６０８の「Ｙ」）、識別部１３４は、処理（Ｓ６０４－Ｓ６０７）を繰り返す。

【0142】

一方、未処理の検査項目が無いとき（Ｓ６０８の「Ｎ」）、類似度算出部１３３は、検査項目別類似度または補正検査項目別類似度に基づいて、入力対象者と特定クラスに属する検索対象者それぞれとの間の第２類似度を算出し、入力対象者と非特定クラスに属する検索対象者それぞれとの間の第２類似度を算出する（Ｓ６０９）。

【0143】

次いで、識別部１３４は、処理（Ｓ６０９）で算出された全ての第２類似度に基づいて、入力対象者を、入力対象者との間の第２類似度の値が最も大きい検索対象者（入力対象者と最も類似している検索対象者）が属するクラスに識別する（Ｓ６１０）。この処理は、離散化された検査データが用いられた統計的パターン認識における「最近傍識別則」の離散版である。識別結果は、例えば、第２類似度に関連付けられて、記憶部１２に記憶される。

【0144】

なお、本装置は、全検索対象者の中から、入力対象者に近い（第２類似度の値が大きい）順に検索対象者を「ｋ」人（「ｋ」は通常「３」か「５」の奇数）抽出し、入力対象者を近傍となる「ｋ」人の検索対象者の中で多数となるクラスへ識別してもよい。この処理は、統計的パターン認識の「ｋ最近傍識別則」の離散版である。

【0145】

また、本装置は、入力対象者と、特定クラスに属する複数の検索対象者から構成される集団と非特定クラスに属する複数の検索対象者から構成される集団それぞれと、の間の類似度（第１類似度）を算出し、入力対象者を、入力対象者との間の第１類似度の値が大きいクラスへ識別してもよい。

【0146】

●実施例●
本装置１の実施例は、以下の各実施例と、図５と、により、説明される。本発明は、定量的データと定性的データとが混在しても、全てを定性的データに統一して、検索、識別、クラスタ分析、標的マーカー探索を行うことができる。

【0147】

●実施例（１）「検索」
前述のとおり、本装置１は、検査項目ごとに入力対象者と検索対象者との間の類似度（第２類似度）を算出する。その結果、本装置１は、例えば、データベースに蓄積された膨大な量の健康診断の検査データを受診者の健康寿命延伸に活用できる。すなわち、例えば、使用者（医師）は、本装置１を用いて、ある受診者（入力対象者）の健康診断の検査データに基づいて、同受診者との第２類似度の値が大きい検索対象者を１または複数検索して特定し、他の既受診者の検査データの推移、疾病への罹患の有無、その他の問診で得られる生活行動情報などの検索対象者情報に基づいて、受診者へ医学的に根拠のある適切な指導を実行できる。この場合、検査項目は健康診断の種別により固定されているため、情報記憶サーバ２に記憶されるデータベースの構造は、標準化される。したがって、本利活用に関連するソフトウェアによる適用範囲は、拡張される。

【0148】

また、本装置１は、例えば、治療を要する患者の類似症例を検索して患者の治療戦略を策定することに活用できる。すなわち、例えば、使用者（医師）は、確定診断を受けている患者（検索対象者）の中から、疾病の治療を受ける患者（入力対象者）との間の第２類似度の値が大きい上位の検索対象者を検索・抽出する。次いで、使用者（医師）は、本装置１を用いて、所定の検査項目（例えば、同疾病で必須の検査項目）において、入力対象者（患者）との類似度の値が大きい検索対象者（患者）の集団を特定し、検索対象者情報（治療履歴とその結果など）を取得する（外部装置３に出力する、表示部１５に表示する）。その結果、同使用者（医師）は、例えば、入力対象者の状態や事情を鑑みながら、最適な治療戦略を策定できる。

【0149】

●実施例（２）「検索」
本装置１は、例えば、背景因子（例えば、早期癌の進行度、性別、年齢、既往歴、基礎疾患の有無などの検査項目）の揃った患者集団の検索・抽出に活用できる。ここで、患者集団の背景因子を揃えるという行為は、医学問題として重要な、標的マーカー（検査項目）の探索問題、病態の解明問題や新治療薬の効果などの診断・予測問題を解決するために必須である。すなわち、例えば、新治療薬の効果を調べるため、背景因子が揃えられた患者集団は、２つの患者集団に分けられ、一方の患者集団にのみ新治療薬が投与され、他方の患者集団には新治療薬が投与されない代わりにプラセボ（偽薬）が投与される。この場合、両方の患者集団が比較されることにより、診治療薬の効果は、投与前に判定できる。ここで、背景因子が揃えられた患者集団は、例えば、処理（Ｓ５０７）で算出される検査項目別類似度の値が大きい検査項目が特定されることにより、得られる。

【0150】

また、例えば、使用者（医師）は、注目の患者集団の中から、第２類似度を用いて背景因子が類似した複数の患者を検索して抽出することにより、背景因子の揃った患者集団を抽出できる。

【0151】

●実施例（３）「識別」
本装置１は、例えば、ある患者（入力対象者）の癌の転移の有無などの病態の解明に活用できる。すなわち、例えば、使用者（医師）は、同一種の癌患者の中から、例えば、実施例（２）のように背景因子（例えば、早期癌）が揃えられた患者集団を予め抽出し、転移の検査データに基づいて同患者集団を転移有の患者集団と転移無の患者集団とに分け、早期癌で転移有の特定クラスと、早期癌で転移無の非特定クラスとを構成する。次いで、使用者（医師）は、本装置１を用いて、患者（入力対象者）と特定クラスに属する患者（検索対象者）および非特定クラスに属する患者（検索対象者）との間の第２類似度を算出し、第２類似度に基づくｋ最近傍識別則の離散版を用いて、患者（入力対象者）を２クラスのいずれかに識別できる。あるいは、使用者（医師）は、本装置１を用いて、患者（入力対象者）と特定クラスに属する患者（検索対象者）集団および非特定クラスに属する患者（検索対象者）集団との間の第１類似度を算出して、患者（入力対象者）を２クラスのいずれかに識別することもできる。その結果、使用者は、患者（入力対象者）が早期癌でありながら転移する可能性が高いという結果を、早期の段階で得ることができる。

【0152】

●実施例（４）「識別」
本装置１は、例えば、新抗癌剤の投与前における効果の有無の判定に活用できる。すなわち、例えば、使用者（医師）は、同一疾病に罹患した患者集団の中から、実施例（２）のように背景因子が揃えられた患者集団を抽出し、新抗癌剤の効果に関する検査データに基づいて同患者群を特定の新抗癌剤が効いた患者集団と、同抗癌剤が効かない患者集団と、に分け、新抗癌剤の効果有の特定クラスと同抗癌剤の効果無の非特定クラスとを構成する。次いで、使用者（医師）は、本装置１を用いて、患者（入力対象者）と特定クラスに属する患者（検索対象者）および非特定クラスに属する患者（検索対象者）との間の第２類似度を算出し、第２類似度に基づく最近傍識別則の離散版を用いて、投与前の患者（入力対象者）を２クラスのいずれかに識別する。あるいは、使用者（医師）は、本装置１を用いて、患者（入力対象者）と特定クラスに属する患者（検索対象者）の集団および非特定クラスに属する患者（検索対象者）の集団との間の第１類似度を算出して、投与前の患者（入力対象者）を２クラスのいずれかに識別することもできる。その結果、使用者（医師）は、患者（入力対象者）に対して、同抗癌剤の効果の有無を、投与前に判定できる。

【0153】

●実施例（５）「クラスタ分析」
本装置１は、定量的データと定性的データとが混在する検査データに基づくクラスタ分析に活用できる。すなわち、例えば、使用者（医師）は、本装置１を用いた階層的クラスタリング法を実行して、患者集団のクラスタ分析を実行できる。具体的には、使用者（医師）は、最初に、患者間（個体間）それぞれの第２類似度を算出し、第２類似度の値が最も大きい患者同士をマージ（グループ化）する。次いで、使用者（医師）は、残っている患者間には第２類似度を算出し、患者とグループとの間には第１類似度を算出し、グループ間には第３類似度を算出して、類似度の値の最も大きい患者同士、患者とグループ、または、グループ同士のマージを繰り返すことにより、最終的に全患者を１つのグループにまとめる。その結果、使用者（医師）は、マージの過程をデンドログラムとして可視化し、デンドログラムからクラスタを目視で検出できる。このように、クラスタ分析に本装置１が活用されることにより、使用者（医師）は、類似度を用いて関心のある患者から構成される集団の内部構造を解析してクラスタを抽出し、クラスタ間の類似性を調べることができる。その結果、使用者（医師）は、例えば、抗癌剤に感受性のある（効果のある）集団の中で特徴的なクラスタ（例えば、ある遺伝子多型における変異の組合せを有するなどのクラスタ）を特定できる。

【0154】

●実施例（６）「標的マーカー（検査項目）の探索」
本装置１は、例えば、患者の予後予測や新薬開発のための患者層別化において極めて重要な標的マーカー（検査項目）の探索に活用できる。すなわち、例えば、使用者（解析者）は、本装置１を用いて、特定クラスに属する対象者（患者）と非特定クラスに属する対象者（患者）とを抽出する。ここで特定クラス、非特定クラスには、前述の癌の転移の有無、治療薬の投与前における効果の有無がある。一般的に、検査項目の中には患者の特定クラスと非特定クラスとのいずれかへの識別に有用なものとそうでないものとが混在している。識別精度を高めるためには有用な検査項目の組合せ、すなわち標的マーカー（検査項目）群の特定が必要となる。そこで、使用者（解析者）は、例えば、処理（Ｓ５０７）で算出される検査項目別類似度を両クラス間で算出し、検査項目別類似度を検査項目の評価量とする。評価量である検査項目別類似度の値が小さくなるほど、両クラス間の相違は大きくなる、つまり識別が容易になる。そのため、使用者（解析者）は、検査項目別類似度の値の大きな検査項目を特定する、あるいは、複数の検査項目に対して第３類似度を評価量として用いてもよい。そこで、使用者（解析者）は、検査項目の組合せを変えて第３類似度の値が最小となる検査項目群を特定し、それを標的マーカー（検査項目）群とすることができる。

【0155】

なお、本実施例において、本発明における類似度算出部は、検査項目ごとの類似度である検査項目別類似度も算出し、本発明における表示部は、検査項目別類似度を表示してもよい（または、本装置は、検査項目別類似度を外部装置に出力してもよい）。この構成によれば、使用者（医師）は、ある疾病を想定して決定した検査項目の検査項目別類似度の値が小さければ、使用者（医師）が想定した診断が誤りである可能性があること、を確認できる。

【0156】

●まとめ
以上説明した実施の形態によれば、本装置１は、入力対象者（第１対象者）の検査項目ごとの検査データと、検索対象者（第２対象者）の検査項目ごとのヒストグラムと、を記憶する記憶部１２と、検査項目ごとの検査データとヒストグラムとに基づいて類似度を算出する類似度算出部１３３と、を有してなる。ヒストグラムは、検索対象者の検査データが属する複数の区間を有すると共に、検査データが定量的データのとき、定量的データが取り得る値の範囲が互いに重ならないように区分けされた複数の区間それぞれに属する検索対象者の存在確率を有し、一方、ヒストグラムは、検査データが定性的データのとき、定性的データが取り得る各状態に対応する複数の区間それぞれに属する検索対象者の存在確率を有する。この構成によれば、本装置１は、各ヒストグラムにおいて、検査データのうち、定量的データを離散化して医学的に意味のある定性的データとして用い、定性的データをそのまま用いることにより、１つの数学的枠組みで定量的データと定性的データとを一括して処理できる。その結果、本装置１は、定量的データと定性的データとを含む検査データに基づいて、検査を受けた１の入力対象者と、検査を受けた１または複数の検索対象者と、の間の類似度（第１類似度、第２類似度）を算出できる。

【0157】

このように、本装置１は、定量的データを定性的データに変換して、定性的データに基づいて類似度を算出する。その結果、本装置１は、定量的データをそのまま用いるよりも小さい処理負荷で、類似度を算出できる。また、検査データは個人由来のデータであるため、特に数値データである定量的データでは個人が特定され易く、検査データの取り扱いには注意が必要である。しかしながら、本発明では、定量的データが離散化されることにより、個人の特定は、難しくなる。さらに、区間を定める閾値が公開されなければ、個人の特定の難易度は一段と高まる。さらにまた、オプトアウトにおいて、個人から検査データの削除が要請されたとき、区間内に属する対象者の数が削除されるだけで、大規模な再学習は必要とされず、同要請への対応が迅速に可能となる。このように、本発明は、個人情報保護の観点からも有用である。

【0158】

また、以上説明した実施の形態によれば、類似度算出部１３３は、検査項目ごとに、入力対象者の検査データが属する区間を処理区間として特定し、処理区間に属する検索対象者の存在確率を処理存在確率として特定する。次いで、類似度算出部１３３は、処理存在確率に基づいて、入力対象者と検索対象者との間の検査項目ごとの検査項目別類似度を算出する。次いで、類似度算出部１３３は、特定された全ての処理存在確率に基づいて、類似度を算出する。この構成によれば、本装置１は、処理存在確率、すなわち、入力対象者の検査データが属する区間における検索対象者の存在確率を考慮した類似度（第１類似度、第２類似度）を算出できる。

【0159】

さらに、以上説明した実施の形態によれば、類似度算出部１３３は、検査データが区間の数が「３以上」の非名義尺度データであるとき、入力対象者の検査データが属する処理区間と、１の検索対象者の検査データが属する区間と、の間の位置関係に基づいて検査項目別類似度を補正し、補正された検査項目別類似度に基づいて類似度（第２類似度）を算出する。この構成によれば、１の入力対象者と、１の検索対象者と、の間の検査項目別類似度に、「０」「１」以外の中間値（０から１の間の値）を設定できる。その結果、１の入力対象者と、１の検索対象者と、の間の類似度の表現の自由度は、向上する。

【0160】

さらにまた、以上説明した実施の形態によれば、本装置１は、取得部１３１により取得された検査データに基づいて、ヒストグラムを生成するヒストグラム生成部１３２を有してなる。ヒストグラム生成部１３２は、検査データが定量的データであるとき、定量的データに基づいて区間を設定し、検査データが定性的データであるとき、定性的データの取り得る状態に基づいて、区間を設定する。この構成によれば、本装置１は、全ての検査データを定性的データ（記号データ）に統一して、第１対象者と第２対象者との間の類似度を算出できる。この構成によれば、本装置１は、定量的データと定性的データとを含む検査データにおいて、定量的データを離散化して医学的に意味のある定性的データとして用い、定性的データをそのまま用いることにより、全ての検査データを定性的データに統一して、入力対象者と１または複数の検出対象者との間の類似度（第１類似度、第２類似度）を算出できる。

【0161】

さらにまた、以上説明した実施の形態によれば本装置１は、検索対象者ごとの検索対象者情報を表示する表示部１５と、表示部１５の動作を制御する制御部１３と、を有してなる。制御部１３は、類似度算出部１３３により算出された類似度に基づいて、表示部１５に表示される検索対象者情報を決定する（例えば、制御部１３は、類似度の高い検索対象者の検索対象者情報を表示部１５に表示させる）。この構成によれば、使用者（医師）は、表示部１５に表示された検索対象者情報に基づいて、入力対象者の類似症例を探索（検索）できる。

【0162】

さらにまた、以上説明した実施の形態によれば、識別部１３４は、入力対象者の検査データと、特定クラスに属する検索対象者の特定ヒストグラムと、非特定クラスに属する検索対象者の非特定ヒストグラムと、に基づいて、入力対象者を特定クラスと非特定クラスとのいずれか一方に識別する。この構成によれば、本装置１は、定量的データと定性的データとを含む検査データに基づいて生成された特定ヒストグラムと非特定ヒストグラムとに基づいて、２クラス問題において入力対象者を識別できる。

【0163】

さらにまた、以上説明した実施の形態によれば、類似度算出部１３３は、入力対象者の検査データと特定ヒストグラムとに基づいて入力対象者と特定クラスに属する検索対象者の集団との間の類似度（第１類似度）を算出し、同検査データと非特定ヒストグラムとに基づいて入力対象者と非特定クラスに属する検索対象者の集団との間の定類似度（第１類似度）を算出する。識別部１３４は、算出された全ての類似度に基づいて、入力対象者を特定クラスと非特定クラスとのいずれか一方に識別する。すなわち、例えば、識別部１３４は、入力対象者と特定クラスに属する検索対象者の集団との間の類似度と、入力対象者と非特定クラスに属する検索対象者の集団との間の類似度と、を比較して、入力対象者を類似度の値の大きい集団のクラスに識別する。この構成によれば、本装置１は、特定クラスに属する検索対象者と、非特定クラスに属する検索対象者と、のうち、いずれか類似度が高い側のクラスに入力対象者を識別できる。すなわち、本装置１は、定量的データと定性的データを含む検査データに基づいて算出される類似度に基づいて、入力対象者を特定クラスと非特定クラスとのいずれか一方に識別できる。

【0164】

さらにまた、以上説明した実施の形態によれば、類似度算出部１３３は、定量的データと定性的データとを含む検査データを用いて生成されるヒストグラムに基づいて、ある複数の対象者により構成される第１集団と、複数の他の対象者により構成される第２集団と、の間の類似度を算出する。この構成によれば、本装置１は、第１集団を構成する対象者の検査データから生成されるヒストグラムと、第２集団を構成する他の対象者の検査データから生成されるヒストグラムと、を用いて、第１集団と第２集団との間の類似度（第３類似度）を算出できる。

【0165】

なお、本発明における類似度は、第１類似度、第２類似度、第３類似度いずれの値も取り得る範囲がゼロから１である。そのため、この性質を利用して「１－類似度」が距離として定義されてもよい。このとき、距離の範囲はゼロから１となる。

【0166】

また、以上説明した実施の形態では、本装置１は、ヒストグラム生成部１３２を備えていた。これに代えて、本装置は、ヒストグラム生成部を備えなくてもよい。換言すれば、本方法は、ヒストグラム生成処理を含まなくてもよい。この構成によれば、ヒストグラムは、本装置とは異なる装置で検索、識別が実行される前に生成され、例えば、情報記憶サーバに記憶される。本発明における取得部は、情報記憶サーバからヒストグラムを取得する。

【0167】

さらに、以上説明した実施の形態では、本装置１は、識別部１３４を備えていた。これに代えて、本装置は、識別部を備えなくてもよい。換言すれば、本方法は、識別処理を含まなくてもよい。

【0168】

さらにまた、本発明における類似度算出部は、第１類似度、第２類似度、第３類似度のうち、いずれか１つのみを算出してもよく、あるいは、いずれか２つのみを算出してもよい。すなわち、例えば、本装置は、第１類似度算出処理、第２類似度算出処理、第３類似度算出処理のうち、いずれか１の処理のみを実行してもよい。

【0169】

さらにまた、第３類似度の算出に必要な２つのヒストグラムとは、例えば、本願発明者らの先出願（特願２０２０－１０６７２３号）に記載の検査項目の評価量の算出に用いられる２つの集団に対するヒストグラムの作成方法と同様の方法により生成されてもよい。すなわち、例えば、本発明におけるヒストグラム生成部は、２つの集団を構成する対象者の全検査データにおいて、検査データが定量的データのとき、全検査データの中から最大値と最小値とを特定し、最大値から最小値までの範囲を２つの集団で共通する区間（共通区間）に区分けする。また、検査データが定性的データのとき、本発明におけるヒストグラム生成部は、対象者それぞれの取り得る状態を共通区間として取得する。ここで、本発明におけるヒストグラム生成部は、両集団いずれもの検査データが属さない共通区間がないように、かつ、各共通区間が互いに重ならないように、複数の共通区間を特定する。次いで、本発明におけるヒストグラム生成部は、複数の共通区間と、各共通区間内に属する検査データと、に基づいて、共通区間ごとに各集団における対象者それぞれの存在確率を算出して、２つのヒストグラムを生成する。

【0170】

さらにまた、以上説明した実施の形態において、本装置１は、情報記憶サーバ２と別体で構成されていた。これに代えて、本装置は、情報記憶サーバと一体に構成されてもよい。すなわち、例えば、情報記憶サーバが本装置の機能を兼ねてもよく、本装置が情報記憶サーバの機能を兼ねてもよい。

【0171】

さらにまた、以上説明した実施の形態によれば、本装置１は、１つのコンピュータにより構成されていた。これに代えて、本装置は、複数のコンピュータにより構成されてもよい。すなわち、例えば、本装置は、本装置として機能する複数のコンピュータ群で構成されてもよい。具体的には、例えば、本装置（コンピュータ群）は、記憶部を備えるコンピュータと、本方法を実行する制御部を備えるコンピュータと、により構成されてもよい。また、例えば、複数のコンピュータが、取得部、ヒストグラム生成部、類似度算出部、識別部それぞれの機能を分散して備えてもよい。この場合、複数のコンピュータは、通信回線を通じて情報の送受信をしてもよく、あるいは、可搬記憶媒体を用いて情報の譲受をしてもよい。

【0172】

さらにまた、本装置が実行する本方法は、以上説明した実施の形態に限定されない。すなわち、例えば、本方法は、必ずしも識別処理を実行しなくてもよく、あるいは、類似度算出処理において、いずれかの類似度（第１類似度、第２類似度、第３類似度）を算出しなくてもよい。

【符号の説明】

【0173】

１情報処理装置
１２記憶部
１３１取得部
１３２ヒストグラム生成部
１３３類似度算出部
１３４識別部

【図1】