IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人山口大学の特許一覧 ▶ 一般社団法人山口総合健診センターの特許一覧

特許7454814情報処理装置と情報処理プログラムと情報処理システムと情報処理方法
<>
  • 特許-情報処理装置と情報処理プログラムと情報処理システムと情報処理方法 図1
  • 特許-情報処理装置と情報処理プログラムと情報処理システムと情報処理方法 図2
  • 特許-情報処理装置と情報処理プログラムと情報処理システムと情報処理方法 図3
  • 特許-情報処理装置と情報処理プログラムと情報処理システムと情報処理方法 図4
  • 特許-情報処理装置と情報処理プログラムと情報処理システムと情報処理方法 図5
  • 特許-情報処理装置と情報処理プログラムと情報処理システムと情報処理方法 図6
  • 特許-情報処理装置と情報処理プログラムと情報処理システムと情報処理方法 図7
  • 特許-情報処理装置と情報処理プログラムと情報処理システムと情報処理方法 図8
  • 特許-情報処理装置と情報処理プログラムと情報処理システムと情報処理方法 図9
  • 特許-情報処理装置と情報処理プログラムと情報処理システムと情報処理方法 図10
  • 特許-情報処理装置と情報処理プログラムと情報処理システムと情報処理方法 図11
  • 特許-情報処理装置と情報処理プログラムと情報処理システムと情報処理方法 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-14
(45)【発行日】2024-03-25
(54)【発明の名称】情報処理装置と情報処理プログラムと情報処理システムと情報処理方法
(51)【国際特許分類】
   G06F 17/18 20060101AFI20240315BHJP
   C12M 1/00 20060101ALI20240315BHJP
【FI】
G06F17/18 D
C12M1/00 A
【請求項の数】 13
(21)【出願番号】P 2020106723
(22)【出願日】2020-06-22
(65)【公開番号】P2022002017
(43)【公開日】2022-01-06
【審査請求日】2023-03-27
(73)【特許権者】
【識別番号】304020177
【氏名又は名称】国立大学法人山口大学
(73)【特許権者】
【識別番号】520225831
【氏名又は名称】一般社団法人山口総合健診センター
(74)【代理人】
【識別番号】100141173
【弁理士】
【氏名又は名称】西村 啓一
(72)【発明者】
【氏名】浜本 義彦
(72)【発明者】
【氏名】荻原 宏是
(72)【発明者】
【氏名】飯塚 徳男
【審査官】坂東 博司
(56)【参考文献】
【文献】特開2004-173505(JP,A)
【文献】特開2005-032117(JP,A)
【文献】国際公開第2019/159602(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/18
C12M 1/00
(57)【特許請求の範囲】
【請求項1】
属するクラスが既知である複数の個体それぞれからマーカーごとに観測された観測データに基づいて、特定クラスと非特定クラスとにより構成される2クラス問題における前記マーカーそれぞれの有用性を示す前記マーカーごとの評価量を算出する情報処理装置であって、
複数の前記マーカーの中から1のマーカーを処理マーカーとして取得する取得部と、
前記処理マーカーに関する複数の前記個体それぞれからの前記観測データに基づいて、前記処理マーカーにおける前記特定クラスのヒストグラムを特定ヒストグラムとして生成し、前記処理マーカーにおける前記非特定クラスのヒストグラムを非特定ヒストグラムとして生成するヒストグラム生成部と、
前記特定ヒストグラムと前記非特定ヒストグラムとに基づいて、前記処理マーカーの前記評価量を算出する評価量算出部と、
を有してなる、
ことを特徴とする情報処理装置。
【請求項2】
複数の前記マーカーそれぞれは、
複数の共通区間、
を含み、
前記評価量算出部は、前記共通区間ごとに、前記特定ヒストグラムにおける前記共通区間内の前記特定クラスに属する前記個体の頻度と、前記非特定ヒストグラムにおける前記共通区間内の前記非特定クラスに属する前記個体の頻度と、の差分量の絶対値を算出し、前記共通区間ごとの前記絶対値の総和を前記評価量として算出する、
請求項1記載の情報処理装置。
【請求項3】
前記観測データが定量的データであるとき、前記定量的データに基づいて、複数の前記共通区間を特定する区間特定部、
を有してなり、
前記区間特定部は、複数の前記共通区間が前記特定クラスと前記非特定クラスそれぞれに共通するように複数の前記共通区間を特定する、
請求項2記載の情報処理装置。
【請求項4】
複数の前記共通区間それぞれには、前記特定クラスと前記非特定クラスそれぞれに属する前記個体のうち、少なくとも一方の前記個体の一部が属する、
請求項3記載の情報処理装置。
【請求項5】
前記区間特定部は、前記マーカーごとに定まる閾値情報に基づいて、複数の前記共通区間を特定する、
請求項3記載の情報処理装置。
【請求項6】
前記観測データが定性的データであるとき、前記区間特定部は、前記定性的データの取り得る前記個体の状態に基づいて、複数の前記共通区間を特定する、
請求項3記載の情報書誌装置。
【請求項7】
複数の前記マーカーは、
前記2クラス問題に対して有用性が期待される前記マーカーの候補となる複数の候補マーカー、
を含み、
前記評価量を、前記処理マーカーと、前記2クラス問題と、に関連付けて記憶する記憶部と、
前記評価量に基づいて、複数の前記マーカーの中から少なくとも1の前記マーカーを前記候補マーカーとして選択する選択部と、
を有してなる、
請求項1記載の情報処理装置。
【請求項8】
前記選択部は、前記評価量の大きさに基づいて、前記マーカーを選択する、
請求項7記載の情報処理装置。
【請求項9】
前記選択部に前記候補マーカーとして選択された前記マーカーを、選択された前記マーカーに対応する前記評価量と関連付けた状態で出力する出力部、
を有してなる、
請求項7記載の情報処理装置。
【請求項10】
前記特定クラスと前記非特定クラスとに関する2クラス問題を受け取る受取部、
を有してなり、
前記選択部は、前記2クラス問題に基づいて、前記2クラス問題に対応する前記マーカーを選択する、
請求項7記載の情報処理装置。
【請求項11】
コンピュータを請求項1記載の情報処理装置として機能させる、
ことを特徴とする情報処理プログラム。
【請求項12】
属するクラスが既知である複数の個体それぞれからマーカーごとに観測された観測データに基づいて、複数のクラスの中の特定クラスと、前記特定クラス以外の非特定クラスと、から構成される2クラス問題における前記マーカーそれぞれの有用性を示す前記マーカーごとの評価量を算出する情報処理システムであって、
複数の前記マーカーの中から1のマーカーを処理マーカーとして取得する取得部と、
前記処理マーカーに関する複数の前記個体それぞれからの前記観測データに基づいて、前記処理マーカーにおける前記特定クラスのヒストグラムを特定ヒストグラムとして生成し、前記処理マーカーにおける前記非特定クラスのヒストグラムを非特定ヒストグラムとして生成するヒストグラム生成部と、
前記特定ヒストグラムと前記非特定ヒストグラムとに基づいて、前記処理マーカーの前記評価量を算出する評価量算出部と、
前記評価量を、前記処理マーカーと、前記クラスと、に関連付けて記憶する記憶部と、
を有してなる、
ことを特徴とする情報処理システム。
【請求項13】
属するクラスが既知である複数の個体それぞれからマーカーごとに観測された観測データに基づいて、複数のクラスの中の特定クラスと、前記特定クラス以外の非特定クラスと、から構成される2クラス問題における前記マーカーそれぞれの有用性を示す前記マーカーごとの評価量を算出する情報処理装置に実行される情報処理方法であって、
前記情報処理装置が、複数の前記マーカーの中から1のマーカーを処理マーカーとして取得する取得処理と、
前記情報処理装置が、前記処理マーカーに関する複数の前記個体それぞれからの前記観測データに基づいて、前記処理マーカーにおける前記特定クラスのヒストグラムを特定ヒストグラムとして生成し、前記処理マーカーにおける前記非特定クラスのヒストグラムを非特定ヒストグラムとして生成するヒストグラム生成処理と、
前記情報処理装置が、前記特定ヒストグラムと前記非特定ヒストグラムとに基づいて、前記評価量を算出する評価量算出処理と、
を有してなる、
ことを特徴とする情報処理方法。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置と、情報処理プログラムと、情報処理システムと、情報処理方法と、に関する。
【背景技術】
【0002】
医療分野において、検査項目であるマーカーの中でも、医師が患者の疾患を診断する上で有用性の高いマーカーは、特に、標的マーカーと称される。標的マーカーは、創薬、疾患の診断・予測に必須の情報を提供する。特に、近年、ゲノム解析において、癌に特異的な遺伝子変異などの標的マーカーが注目されている。したがって、このような標的マーカーの同定(以下「特徴選択」ともいう。)は、急務となっている。
【0003】
しかしながら、一般的に、標的マーカーの候補となるマーカー(以下「候補マーカー」という。)の数は多く、特に、マーカーとなる遺伝子変異の数は膨大である。統計的パターン認識によれば、標的マーカーの重要性は、その組合せにある(例えば、非特許文献1参照)。そのため、極めて多数のマーカーに対して、その組合せの有用性を直接評価して、標的マーカーの組合せ(以下「標的マーカー群」という。)を選択するための計算量は、膨大となる。したがって、既存の解析方法では、計算は不可能である。
【0004】
そのため、これまでにも、2段階特徴選択の方法を用いて、膨大な数のマーカーの中から標的マーカー群を選択する方法が提案されている(例えば、非特許文献2参照)。
【0005】
非特許文献2に開示された2段階特徴選択の方法では、先ず、第1段階として、個々のマーカーの有用性が、2クラス間の分離性を評価するFisher比によりマーカー単独で評価される。その結果、識別情報の乏しいマーカーが削除され、残ったマーカーの中から候補マーカーが選択される。「識別情報」は、識別対象が相互に背反する2つのクラスのいずれに属するかを識別する問題(2クラス問題)に有用な情報である。次いで、第2段階として、候補マーカーの組合せの有用性が評価される。その結果、膨大なマーカーの中から標的マーカー群が、選択される。
【0006】
一般に、医療データは、定量的なデータ(例えば、腫瘍マーカーの数値や、血中のコレステロール値などの数値で表し得る数値データ:以下「定量的データ」ともいう。)だけでなく、定性的なデータ(例えば、癌の再発・転移の有無や、遺伝子変異の有無・種類などの数値で表し得ない記号データ:以下「定性的データ」ともいう。)をも含む。しかしながら、前述のFisher比は、数値データには適用できるが、記号データには適用できない。また、記号データは、多くの機械学習において処理できない。
【0007】
本発明の発明者らは、少数(例えば、数十から数百レベル)のマーカーに対して、記号データを含めて標的マーカー群を探索する技術を確立している(例えば、特許文献1参照)。しかしながら、記号データを扱うマーカーも含む膨大(例えば、数万から数百万レベル)な数のマーカーに対して、数値データしか扱えないFisher比に代わる、記号データも扱えるマーカーの絞り込み方法は、知られていない。つまり、記号データを含む医療データにおける膨大な数のマーカーに対して、非特許文献1に開示された技術は、直接適用できない。
【先行技術文献】
【特許文献】
【0008】
【文献】特開2016-035605号公報
【0009】
【文献】IEEE Trans. on Systems, Man, and Cybernetics, SMC-4, pp.116-117(1974)
【文献】The Lancet, 361(9361), pp.923-929(2003)
【発明の概要】
【発明が解決しようとする課題】
【0010】
本発明は、記号データを扱うマーカーおよび/または数値データを取り扱うマーカーを含む膨大な数のマーカーの中から、2クラス問題において有用性が期待されるマーカーである標的マーカーの候補となるマーカーを絞り込むことを目的とする。
【課題を解決するための手段】
【0011】
本発明にかかる情報処理装置は、属するクラスが既知である複数の個体それぞれからマーカーごとに観測された観測データに基づいて、特定クラスと非特定クラスとにより構成される2クラス問題におけるマーカーそれぞれの有用性を示すマーカーごとの評価量を算出する情報処理装置であって、複数のマーカーの中から1のマーカーを処理マーカーとして取得する取得部と、処理マーカーに関する複数の個体それぞれからの観測データに基づいて、処理マーカーにおける特定クラスのヒストグラムを特定ヒストグラムとして生成し、処理マーカーにおける非特定クラスのヒストグラムを非特定ヒストグラムとして生成するヒストグラム生成部と、特定ヒストグラムと非特定ヒストグラムとに基づいて、処理マーカーの評価量を算出する評価量算出部と、を有してなることを特徴とする。
【発明の効果】
【0012】
本発明によれば、記号データを扱うマーカーおよび/または数値データを取り扱うマーカーを含む膨大な数のマーカーの中から、2クラス問題において有用性が期待されるマーカーである標的マーカーの候補となるマーカーを絞り込むことができる。
【図面の簡単な説明】
【0013】
図1】本発明にかかる情報処理システムの実施の形態を示すネットワーク構成図である。
図2図1の情報処理システムが備える情報記憶サーバの機能ブロック図である。
図3図1の情報処理システムに接続される操作端末の機能ブロック図である。
図4】本発明にかかる情報処理装置の実施の形態を示す機能ブロック図である。
図5】本発明にかかる情報処理方法の実施の形態を示すフローチャートである。
図6図5の情報処理方法に含まれる評価量算出処理のフローチャートである。
図7図6の評価量算出処理で生成されるヒストグラムの例を示す模式図である。
図8図6の評価量算出処理で生成されるヒストグラムの別の例を示す模式図である。
図9図6の評価量算出処理で算出される差分量の絶対値の例を示す模式図である。
図10図4の情報処理装置が備える記憶部に記憶されている情報の例を示す模式図である。
図11図5の情報処理方法に含まれるマーカー選択処理のフローチャートである。
図12図3の操作端末が備える表示部に表示される情報の例を示す模式図である。
【発明を実施するための形態】
【0014】
以下、図面を参照しながら、本発明にかかる情報処理装置と、情報処理プログラムと、情報処理システムと、情報処理方法と、の実施の形態について説明する。
【0015】
本発明は、属するクラスが既知である複数の個体それぞれからマーカーごとに観測された観測データに基づいて、特定クラスと非特定クラスとにより構成される2クラス問題における各マーカーの有用性を示すマーカーごとの評価量を算出するものである。
【0016】
以下に説明する実施の形態は、患者に対する健康診断や精密検査により取得されたマーカーごとの観測データに基づいて、特定クラスに属する患者と、非特定クラスに属する患者と、の2クラス問題における各マーカーの有用性を示すマーカーごとの評価量を算出する場合を例に、本発明の説明をする。また、以下に説明する実施の形態は、評価量に基づいて、医師の診断を受ける患者が、特定クラスに属しているか、非特定クラスに属しているか、の識別に有用なマーカーである標的マーカーの候補マーカーを選択する場合を例に、本発明の説明をする。
【0017】
「マーカー」は、例えば、患者の状態を特定するための検査項目である。マーカーごとに、個体(患者)に対して観測(検査)される観測データ(検査データ)が得られる。本実施の形態では、マーカーは、例えば、臨床検査における、尿・便などの一般検査項目や血液検査項目などの基本的項目や、癌の数、癌の大きさ、腫瘍マーカー値などの疾患特異的な専門的項目などの検査項目である。各マーカーには、複数の個体(患者)それぞれから得られる観測データが関連付けられている。一方、各患者は、複数のマーカーごとの観測データに関連付けられている。
【0018】
なお、検査項目であるマーカーは、複数の種類の観測データを提供してもよい。すなわち、例えば、検査項目が「遺伝子変異」の場合、マーカーは、単一の観測データ(例えば、特定の遺伝子変異Aの有無)を提供してもよく、複数の観測データ(例えば、遺伝子変異A,B,Cそれぞれの有無の組合せ)を提供してもよい。また、例えば、マーカーは、異なる種類の観測データとして後述する定量的データと定性的データとを提供してもよい。すなわち、例えば、マーカーは、「性別」と「血圧」とを提供してもよい。
【0019】
「観測データ」は、マーカーごとに患者から観測されるデータである。本実施の形態では、観測データは、検査項目ごとの検査データである。観測データは、定量的データと定性的データとのうち、いずれかを含む。
【0020】
「定量的データ」は、例えば、体重、癌の数、腫瘍マーカー値、血中コレステロール値などのマーカーごとに個体から観測される測定値を示す、数値で表し得る数値データである。ここで、定量的データは、絶対零点が存在することを特徴とする比尺度データと、絶対零点が存在しないことを特徴とする間隔尺度データと、を含む。
【0021】
「定性的データ」は、例えば、性別、癌の有無、転移の有無、遺伝子の変異、癌のステージなどのマーカーごとに個体から観測される状態を示す、数値で表し得ない記号データである。ここで、定性的データは、順序に意味があることを特徴とする序数尺度データと、記号そのものに意味があることを特徴とする名義尺度データと、を含む。
【0022】
「個体」は、本実施の形態において、医師により診断される対象の患者であって、観測データが観測される対象である。すなわち、個体は、一般に健康診断や精密検査などの検査を受ける人である。個体は、健康な人と、ある疾患に罹患している人の中で、軽症な人と重症な人や、ある疾患に罹患する可能性が高い人(罹患予備軍)などの疾患の重症度の異なる人と、を含む。
【0023】
「特定クラス」は、2クラス問題を構成する一方のクラスとして、識別主体者(本実施の形態では、医師あるいは解析者)により設定されるクラスである。一方、「非特定クラス」は、2クラス問題を構成する他方のクラスとして、特定クラスに対応して識別主体者により設定されるクラスである。非特定クラスは、特定クラスに対応して一意的に定まる。すなわち、例えば、識別主体者により設定された2クラス問題が「癌の再発診断問題」であるとき、特定クラスは癌の再発有クラスであり、非特定クラスは癌の再発無クラスである。また、例えば、識別主体者により設定された2クラス問題が「癌の転移診断問題」であるとき、特定クラスは癌の転移有クラスであり、非特定クラスは癌の転移無クラスである。このように、特定クラスと非特定クラスとは、背反する関係にあり、識別対象である個体が必ずいずれかに属するクラスである。
【0024】
「2クラス問題」は、識別対象となる個体が特定クラスまたは非特定クラス(2つのクラス)のいずれに属するかを識別する問題である。本実施の形態において、2クラス問題は、個体と特定クラスと非特定クラスとにより構成される。前述のとおり、2クラス問題は、例えば、識別主体者により設定される。「クラス」は、識別主体者により設定される、個体の属するグループ(概念)である。クラス名は、例えば、医師が患者を癌であると判断したとき、医学的に定められた癌患者の属するグループ名、つまり「癌」である。
【0025】
「評価量」は、後述のとおり、特定クラスと非特定クラスとにより構成される2クラス問題において、個体が特定クラスまたは非特定クラスのいずれに属するかの識別にどの程度有用であるかの評価に用いられる、マーカーごとの有用性を示す情報でもある。すなわち、評価量が大きいマーカーは、個体を特定クラスまたは非特定クラスのいずれかに識別するために有用なマーカーである標的マーカーの候補マーカーとなり得る。
【0026】
●情報処理システム●
●情報処理システムの構成
先ず、図面を参照しながら、本発明にかかる情報処理システム(以下「本システム」という。)の実施の形態について説明する。
【0027】
図1は、本システムの実施の形態を示すネットワーク構成図である。
同図は、本発明にかかる情報処理装置(以下「本装置1」という)が、有線通信方式または無線通信方式を利用するネットワーク(通信回線)Nを介して、情報記憶サーバ2と操作端末3とに接続されていることを示す。
【0028】
本システムSは、複数の個体それぞれからマーカーごとに観測された観測データに基づいて、特定クラスと非特定クラスとにより構成される2クラス問題におけるマーカーそれぞれの有用性を示すマーカーごとの評価量を算出する。本システムSは、本装置1と、情報記憶サーバ2と、を有してなる。
【0029】
本装置1は、複数の個体それぞれからマーカーごとに観測された観測データに基づいて、2クラス問題におけるマーカーごとの評価量を算出する。本装置1の具体的な構成は、後述する。
【0030】
図2は、情報記憶サーバ2の機能ブロック図である。
同図は、説明の便宜上、ネットワークNと本装置1とを破線で示す。
【0031】
情報記憶サーバ2は、複数の個体それぞれからマーカーごとに観測された観測データを記憶する。情報記憶サーバ2は、例えば、パーソナルコンピュータで構成されるファイルサーバである。情報記憶サーバ2は、例えば、本装置1とは物理的に離れた場所(例えば、情報銀行などの情報センター)に設置される。情報記憶サーバ2は、通信部21と記憶部22と制御部23とを備える。
【0032】
なお、情報記憶サーバは、情報を記憶可能であればパーソナルコンピュータに限定されない。すなわち、例えば、情報記憶サーバは、クラウドサーバやNAS(Network Attached Storage)でもよい。
【0033】
通信部21は、ネットワークNを介して、本装置1と通信する。通信部21は、例えば、通信モジュールやアンテナなど(不図示)により構成される。通信部21の具体的な動作は、後述する。
【0034】
なお、通信部は、ネットワークを介して、例えば、医療機関などに設置された情報処理端末(不図示)との間で通信し、マーカーごとの観測データを受信してもよい。
【0035】
記憶部22は、本装置1(本システムS)が本発明にかかる情報処理方法(以下「本方法」という)を実行するために必要な情報(例えば、複数の個体それぞれに対して、マーカーごとに観測された観測データなど)を記憶する。記憶部22は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)などの記録装置および/またはRAM(Random Access Memory)、フラッシュメモリなどの半導体メモリ素子、などにより構成される。
【0036】
制御部23は、情報記憶サーバ2全体の動作を制御する。制御部23は、例えば、CPU(Central Processing Unit)やDSP(Digital Signal Processor)などのプロセッサと、RAMやROM(Read Only Memory)などの半導体メモリと、により構成される。
【0037】
図3は、操作端末3の機能ブロック図である。
同図は、説明の便宜上、ネットワークNと本装置1とを破線で示す。
【0038】
操作端末3は、例えば、医師などの本システムSを利用する解析者が、本システムSにより算出された評価量に基づいて、マーカー(後述する候補マーカー)を閲覧(選択)するために操作する端末である。操作端末3は、例えば、パーソナルコンピュータ、携帯電話(例えば、スマートホン)、タブレットPC(Personal Computer)、PDA(Personal Digital Assistant)である。操作端末3は、例えば、本システムSと物理的に離れた場所(例えば、病院など)に配置される。操作端末3は、通信部31と、記憶部32と、制御部33と、操作部34と、表示部35と、を備える。
【0039】
通信部31は、ネットワークNを介して、本装置1と通信する。通信部31は、例えば、2クラス問題を送信し、2クラス問題に対応するマーカー(後述する候補マーカー)と、同マーカーに関連付けられた評価量と、を受信する。通信部31は、通信モジュールやアンテナなど(不図示)により構成される。
【0040】
記憶部32は、通信部31が受信したマーカーと、評価量と、を関連付けて記憶する。記憶部32は、例えば、HDD、SSDなどの記録装置および/またはRAM、フラッシュメモリなどの半導体メモリ素子、などにより構成される。
【0041】
制御部33は、操作端末3全体の動作を制御する。制御部23は、例えば、CPUやDSPなどのプロセッサと、RAMやROMなどの半導体メモリと、により構成される。
【0042】
操作部34は、本装置1が解答すべき2クラス問題などの必要な情報を識別主体者が入力するために操作するインターフェイスである。操作部34は、例えば、キーボードやマウス、タッチパネルディスプレイである。
【0043】
表示部35は、例えば、後述する候補マーカーとその評価量とを利用者に向けて表示する。表示部35は、例えば、LCD(Liquid Crystal Display)、タッチパネル式のディスプレイである。
【0044】
●情報処理装置●
●情報処理装置の構成
次に、図面を参照しながら、本装置1について説明する。
【0045】
図4は、本装置1の実施の形態を示す機能ブロック図である。
同図は、説明の便宜上、ネットワークNと情報記憶サーバ2とを破線で示す。
【0046】
本装置1は、通信部11と記憶部12と制御部13とを備える。
【0047】
本装置1では、本発明にかかる情報処理プログラム(以下「本プログラム」という。)が動作して、本プログラムが本装置1のハードウェア資源と協働して、後述する本方法を実現する。
【0048】
ここで、図示しないコンピュータに本プログラムを実行させることで、本プログラムは、同コンピュータを本装置1と同様に機能させて、同コンピュータに本方法を実行させ得る。
【0049】
通信部11は、ネットワークNを介して、情報記憶サーバ2と操作端末3それぞれとの間で通信する。通信部11は、例えば、通信モジュールやアンテナなど(不図示)により構成される。通信部11は、本発明における受付部と出力部との例である。通信部11の具体的な動作は、後述する。
【0050】
記憶部12は、本装置1(本システムS)が本方法を実行するために必要な情報を記憶する。記憶部12に記憶される情報については、後述する。記憶部12は、本発明における記憶部の例である。記憶部12は、例えば、HDD、SSDなどの記録装置および/またはRAM、フラッシュメモリなどの半導体メモリ素子、などにより構成される。
【0051】
制御部13は、後述する本方法を実行すると共に、本装置1全体の動作を制御する。制御部13は、例えば、CPUやDSPなどのプロセッサと、RAMやROMなどの半導体メモリと、により構成される。制御部13は、取得部131と、選定部132と、区間特定部133と、ヒストグラム生成部134と、評価量算出部135と、選択部136と、を備える。これらの各部は、例えば、制御部13で実行されるプログラムにより実現される機能モジュールである。
【0052】
なお、制御部と取得部と選定部と区間特定部とヒストグラム生成部と評価量算出部と選択部とは、複数のプロセッサとメモリとにより構成されてもよい。
【0053】
取得部131は、複数のマーカーの中から1のマーカーを処理マーカーとして取得する。取得部131の具体的な動作は、後述する。
【0054】
「処理マーカー」は、複数のマーカーのうち、本装置1が後述する本方法を実行して、評価量を算出する対象となるマーカーである。
【0055】
選定部132は、処理マーカーに関する個体からの観測データが定量的データまたは定性的データのいずれに該当するかにより、区間特定部133の処理を選定する。選定部132の具体的な動作は、後述する。
【0056】
区間特定部133は、処理マーカーに関する個体からの観測データに基づいて、複数の共通区間を特定する。区間特定部133の具体的な動作は、後述する。
【0057】
「共通区間」は、後述する特定ヒストグラムと非特定ヒストグラムそれぞれにおいて、共通して観測データが区分けされる階級(数値の範囲または状態)である。
【0058】
ヒストグラム生成部134は、処理マーカーに関する個体からの観測データに基づいて、特定ヒストグラムと非特定ヒストグラムとを生成する。ヒストグラム生成部134の具体的な動作は、後述する。
【0059】
「特定ヒストグラム」は、特定クラスに属する複数の個体それぞれに対して、処理マーカーにおける観測データを用いて生成されるヒストグラムである。
【0060】
「非特定ヒストグラム」は、非特定クラスに属する複数の個体それぞれに対して、処理マーカーにおける観測データを用いて生成されるヒストグラムである。
【0061】
評価量算出部135は、特定ヒストグラムと前記非特定ヒストグラムとに基づいて、処理マーカーの評価量を算出する。評価量算出部135の具体的な動作は、後述する。
【0062】
選択部136は、評価量に基づいて、複数のマーカーの中から少なくとも1のマーカーを候補マーカーとして選択する。選択部136の具体的な動作は、後述する。
【0063】
「候補マーカー」は、標的マーカーの候補となるマーカーである。「標的マーカー」は、マーカーの中でも、医師が患者の疾患を診断する上で有用性の高いマーカーである。本実施の形態において、候補マーカーは、選択部136が評価量に基づいて選択したマーカーである。
【0064】
●情報処理方法●
次に、図2図4も参照しながら、本システムS(主に、本装置1)が実行する本方法について説明する。
【0065】
以下の説明において、情報記憶サーバ2は、予め、複数のマーカー(検査項目)ごとに複数の個体(患者)から観測された観測データ(検査データ)を記憶部22に記憶しているものとする。
【0066】
図5は、本方法の実施の形態を示すフローチャートである。
【0067】
本方法は、評価量算出処理(S100)と、候補マーカー選択処理(S200)と、を実行する。
【0068】
●評価量算出処理
図6は、評価量算出処理(S100)のフローチャートである。
【0069】
「評価量算出処理(S100)」は、本装置1が情報記憶サーバ2からマーカーごとの観測データを取得して、観測データに基づいて、マーカーごとの評価量を算出する処理である。評価量算出処理(S100)は、例えば、新しいマーカーが追加されたとき、あるいは、新しい個体の観測データが追加されたとき、などのタイミングで実行される。すなわち、評価量は、新しいマーカーが追加されたとき、あるいは、新しい個体の観測データが追加されたとき、などのタイミングで更新され得る。評価量算出処理(S100)は、図4に示される制御部13のうち、主として、取得部131と、選定部132と、区間特定部133と、ヒストグラム生成部134と、評価量算出部135と、により実行される。
【0070】
先ず、取得部131は、複数の2クラス問題の中から、評価量を算出すべき、特定クラスと非特定クラスとにより構成される2クラス問題を設定する(S101)。ここで、2クラス問題は、例えば、癌の転移の有無、抗癌剤の効果の有無、抗癌剤の副作用の有無、などである。評価量算出処理(S100)が実行される2クラス問題は、例えば、解析者(医師)により設定される。複数の2クラス問題は、例えば、予め記憶部12に記憶されている。
【0071】
なお、取得部は、新しいマーカーや個体に関連する任意の2クラス問題を設定してもよい。
【0072】
次いで、取得部131は、通信部11を介して、情報記憶サーバ2の記憶部22に記憶されたマーカーの中から、設定された2クラス問題に関する複数のマーカーを取得する(S102)。取得された複数のマーカーは、記憶部12に記憶される。次いで、取得部131は、取得した複数のマーカーの中から1のマーカーを処理マーカーとして取得する(S103)。
【0073】
なお、取得部は、全てのマーカーの中から1のマーカーを処理マーカーとして取得してもよい。
【0074】
また、取得部は、設定された2クラス問題に関する複数のマーカーのうち、識別主体者により選択されたマーカーを処理マーカーとして取得してもよい。この場合、識別主体者が複数のマーカーを選択したとき、取得部は、選択された複数のマーカーそれぞれを処理マーカーとして順次取得してもよい。
【0075】
次いで、選定部132は、処理マーカーに関する観測データが定量的データまたは定性的データのいずれに該当するかにより、区間特定部133の処理を選定する(S104)。
【0076】
観測データが定量的データであるとき(S104の「定量的データ」)、区間特定部133は、2クラス(特定クラス、非特定クラス)に属する全ての個体から得られる、処理マーカーに関する全ての観測データの中から最大値と最小値とを特定する(S105)。
【0077】
なお、区間特定部は、個体から得られる観測データが分布から大きく外れる外れ値を含むとき、外れ値を除外して、最大値と最小値とを特定してもよい。
【0078】
次いで、区間特定部133は、例えば、次式(1)を用いて、各共通区間の幅を算出する(S106)。
【0079】
共通区間の幅=(最大値-最小値)/共通区間の数 (1)
【0080】
ここで、共通区間の数は、処理マーカーに関する全ての個体の数に基づいて、例えば、経験則により「10~20」の中から特定される。個体の数と、特定される共通区間の数と、の関係は、例えば、予め記憶部12に記憶されている。
【0081】
なお、後述のとおり共通区間の幅は、等間隔に限定されない。
【0082】
次いで、区間特定部133は、最大値から最小値までの範囲を共通区間の幅により区分けする複数の共通区間を特定する(S107)。このとき、区間特定部133は、特定クラスに属する個体の観測データと、非特定クラスに属する個体の観測データとを用いて、特定クラスと非特定クラスそれぞれに共通するように複数の共通区間を特定する。すなわち、区間特定部133は、各共通区間に特定クラスと非特定クラスそれぞれに属する個体の観測データのうち、少なくとも一方のクラスに属する個体の一部が属するように、複数の共通区間を特定する。つまり、特定クラスと非特定クラスそれぞれの個体のいずれもが属さない共通区間は、存在しない。
【0083】
各共通区間に属する個体は、例えば、各共通区間の数と幅とに関連付けられて、記憶部12に記憶される。
【0084】
一方、観測データが定性的データであるとき(S104の「定性的データ」)、個体に対して処理マーカーの取り得る状態が定性的データとなり、区間特定部133は、定性的データに基づいて、複数の共通区間を特定する(S108)。すなわち、例えば、処理マーカーが「性別」であるとき、個体に対して処理マーカーの取り得る状態は「男性」「女性」のいずれかであり、区間特定部133は、定性的データ(個体に対して処理マーカーの取り得る状態)に基づいて、2つの共通区間を特定する。また、例えば、処理マーカーが「癌の有無」であるとき、区間特定部133は、個体に対して処理マーカーが取り得る状態(癌有、癌無)である定性的データに基づいて、2つの共通区間を特定する。さらに、例えば、処理マーカーが「癌のステージ」であるとき、区間特定部133は、個体に対して処理マーカーが取り得る状態(ステージI-IV)である定性的データに基づいて、4つの共通区間を特定する。さらにまた、処理マーカーが「複数の遺伝子変異」であるとき、区間特定部133は、個体に対して処理マーカーが取り得る状態(例えば、取得部131が抽出した遺伝子変異それぞれの有無の組合せ)である定性的データに基づいて、8つの共通区間を特定する。
【0085】
例えば、処理マーカーが「遺伝子変異A,B,C」であるとき、遺伝子変異A,B,Cそれぞれの有無という状態の取り得る組合せは、8通りである。すなわち、遺伝子変異の組合せを(ABC)と表記し、変異有の状態を「1」と表記し、変異無の状態を「0」と表記する場合、遺伝子変異A,B,Cの組合せの取り得る状態は、(000)(100)(010)(001)(110)(101)(011)(111)である。区間特定部133は、この8つの状態を共通区間として特定する。
【0086】
このように、定量的データで記述された個体を複数の共通区間に区分けすることで、連続量である観測データは、離散量へと変換される。すなわち、観測データは、記号化される。一方、定性的データ、すなわち、記号化された情報である観測データは、変換されること無く、そのまま複数の共通区間に区分けされる。換言すれば、本方法では、数値データ(定量的データ)は、医学的に意味のある記号データ(定性的データ)に変換されて用いられる。一方、記号データ(定性的データ)は、そのまま用いられる。
【0087】
次いで、ヒストグラム生成部134は、区間特定部133が特定した複数の共通区間と、各共通区間内に属する個体と、に基づいて、共通区間ごとに各クラス(特定クラス、非特定クラス)に属する個体の頻度(度数)を算出して、特定ヒストグラムと非特定ヒストグラムとを生成する(S109)。このとき、ヒストグラム生成部134は、例えば、次式(2)を用いて、共通区間ごとの個体の頻度を算出する。
【0088】
共通区間内の個体の頻度=クラスごとの共通区間内の個体の数/クラス内の個体の数 (2)
【0089】
特定ヒストグラムと非特定ヒストグラムとは、例えば、2クラス問題と処理マーカーとに関連付けられて、記憶部12に記憶される。
【0090】
「特定ヒストグラム」は、処理マーカーに関する、特定クラスに属する個体からの観測データにおいて、特定クラスに関するヒストグラムである。すなわち、特定ヒストグラムは、処理マーカーにおける特定クラスのヒストグラムである。
【0091】
「非特定ヒストグラム」は、処理マーカーに関する、非特定クラスに属する個体からの観測データにおいて、非特定クラスに関するヒストグラムである。すなわち、非特定ヒストグラムは、処理マーカーにおける非特定クラスのヒストグラムである。
【0092】
図7は、定量的データに対してヒストグラム生成部134により生成された特定ヒストグラムと非特定ヒストグラムそれぞれの例を示す模式図である。
【0093】
同図は、定量的データを提供する処理マーカーにおける特定ヒストグラムと非特定ヒストグラムとを示す。同図において、縦軸は個体の頻度を示し、横軸は共通区間を示す。同図において、上段は特定ヒストグラムを示し、下段は非特定ヒストグラムを示す。同図の数値は、各共通区間内の両ヒストグラムにおける個体の頻度を示す。
【0094】
同図は、両ヒストグラムに特定された共通区間の数が「10」であることを示す。また、同図は、共通区間ごとに、特定ヒストグラムにおける共通区間内の個体と、非特定ヒストグラムにおける共通区間内の個体と、のうち、少なくとも一方が属していることを示す。すなわち、同図は、特定ヒストグラムにおける共通区間内の個体の頻度が「0」であり、かつ、非特定ヒストグラムにおける共通区間内の個体の頻度が「0」である、共通区間は存在しないこと、を示す。つまり、本発明において、意味の無い共通区間は、存在しない。
【0095】
図8は、定性的データに対してヒストグラム生成部134により生成された特定ヒストグラムと非特定ヒストグラムそれぞれの別の例を示す模式図である。
【0096】
同図は、定性的データを提供する処理マーカーにおける特定ヒストグラムと非特定ヒストグラムとを示す。同図において、縦軸は個体の頻度を示し、横軸は共通区間を示す。同図において、上段は特定ヒストグラムを示し、下段は非特定ヒストグラムを示す。同図の数値は、各共通区間内の両ヒストグラムにおける個体の頻度を示す。同図は、両ヒストグラムに特定された共通区間がマーカーの状態「a」「b」の数である「2」であることを示す。このように、ヒストグラム生成部134は、観測データが定性的データであるとき、定性的データにより定まる区間をそのまま共通区間として用いて、両ヒストグラムを生成する。
【0097】
なお、ヒストグラム生成部は、処理マーカーの性質に基づいて、処理マーカーの取り得る状態を変更してもよい。
【0098】
図6に戻る。
次いで、評価量算出部135は、特定ヒストグラムと非特定ヒストグラムとに基づいて、処理マーカーの評価量を算出する(S110)。具体的には、評価量算出部135は、共通区間ごとに、特定ヒストグラムにおける共通区間内の特定クラスに属する個体の頻度と、非特定ヒストグラムにおける共通区間内の非特定クラスに属する個体の頻度と、の差分量の絶対値を算出し、共通区間ごとの絶対値の総和を評価量として算出する。評価量は、例えば、処理マーカーとして取得されたマーカーと、2クラス問題と、に関連付けられて、記憶部12に記憶される。
【0099】
図9は、評価量算出部135が算出する差分量の絶対値の例を示す模式図である。
同図は、図7に示される特定ヒストグラムと非特定ヒストグラムとに基づいて、処理マーカーにおける差分量の絶対値を算出する場合を示す。同図において、縦軸は差分量の絶対値を示し、横軸は共通区間を示す。同図は、各共通区間内の頻度の差分量の絶対値の総和(評価量)が「1.06」であることを示す。
【0100】
ここで、定量的データの例を示す図7と定性的データを示す図8とにおいて、特定ヒストグラムと非特定ヒストグラムそれぞれにおける共通区間の頻度の総和は、それぞれ「1」である。そのため、図7を例として対応する図9において、評価量は、「0」から「2」までの値を取り得る。すなわち、例えば、特定ヒストグラムと非特定ヒストグラムとを重ねたとき、両者が完全に重複するとき、評価量は最小値「0」であり、両者が全く重複しないとき、評価量は最大値「2」である。評価量は、図8を例としても同様である。
【0101】
図10は、記憶部12に記憶されている情報の例を示す模式図である。
「クラスID」は、2クラス問題固有の識別情報である。「マーカーID」は、処理マーカーとして取得された各マーカー固有の識別情報である。記憶部12には、クラスIDとマーカーIDと評価量とが関連付けて記憶される。本装置1は、例えば、クラスID「C1」を用いて記憶部12を参照することで、クラスID「C1」に関連するマーカー「M1」と、その評価量「1.20」と、を読み出すことができる。
【0102】
このように、本装置1は、複数のマーカーの中から1のマーカーを処理マーカーとして取得する取得処理(S103)と、複数の個体それぞれに対して処理マーカーに関する観測データに基づいて複数の共通区間を特定する区間特定処理(S104-S108)と、複数の個体それぞれに対して処理マーカーに関する個体からの観測データに基づいて特定ヒストグラムと非特定ヒストグラムとを生成するヒストグラム生成処理(S109)と、特定ヒストグラムと非特定ヒストグラムとに基づいて処理マーカーに関する評価量を算出する評価量算出処理(S110)と、を実行する。
【0103】
また、前述のとおり、本方法は、各マーカーに対するクラスごとの個体の分布(パターン分布)をヒストグラムで捉えることにより、分布を仮定することなく(ノンパラメトリックの立場で)評価量を算出する。その結果、本方法は、平均値や分散などが求められない記号データに対しても、数値データと同様に適用できる。
【0104】
●評価量
ここで、評価量の有する意味は、以下に説明するように、理論的に誤識別率が最小となるBayes識別則から説明される。
【0105】
周知のとおり、Bayes識別則は、2クラス問題において、対象(本実施の形態では個体)を事後確率が最大のクラスに識別する。すなわち、事後確率間の差異が大きいほど、個体の識別は、容易となる。そのため、事後確率間の差異が大きいマーカーは、2クラス問題において有用性の高いマーカーである。しかしながら、事後確率は、直接求めることはできない。そのため、通常、数値データにおける事後確率は、Bayesの定理に基づいて、事前確率とクラス条件付き確率密度関数とを用いて求められることになる。以下、実際のパターン認識の場面で用いられる数値データを例に説明すると、クラス条件付き確率密度関数は、個体からの観測データ(患者からの検査データ)を用いて推定できる。
【0106】
ところで、特開2016-035605号(特許第604331号)に開示されている、2つのクラスは対等であるとみなされることから「2つのクラスの事前確率は等しい」という仮定をおくと、Bayes識別則の事前確率の項は、消去できる。その結果、事前確率の項を含まない簡略化されたBayes識別則では、一方のクラス条件付き確率密度関数(第1確率密度関数)の値が他方のクラス条件付き確率密度関数(第2確率密度関数)の値以上であれば、個体は一方のクラスへ識別され、第1確率密度関数の値が第2確率密度関数の値未満であれば、個体は他方のクラスへ識別される。つまり、2つのクラスそれぞれのクラス条件付き確率密度関数の値の間の差異(差分量)が大きいマーカーは、2クラス問題において有用性が期待されるマーカーである。
【0107】
ここで、図7に示される特定ヒストグラムでは、特定クラスに属する個体の観測データが複数の共通区間のうち、いずれの共通区間に属するかが決められ、同共通区間内の特定クラスに属する個体の頻度(確率密度)が示される。すなわち、特定クラスのクラス条件付き確率密度関数は、特定ヒストグラムにより推定できる。同様に、非特定クラスのクラス条件付き確率密度関数は、図7に示される非特定ヒストグラムにより推定できる。したがって、2クラス問題において、特定ヒストグラムと非特定ヒストグラムとの差異が大きいマーカーの有用性は高く、同マーカーは候補マーカーとなり得る。
【0108】
前述のとおり、評価量は、共通区間ごとの、特定ヒストグラムにおける共通区間内の個体の頻度と、非特定ヒストグラムにおける共通区間内の個体の頻度と、の差分量の絶対値の総和である。すなわち、特定ヒストグラムと非特定ヒストグラムとの差異が大きいほど、評価量は大きくなり、同差異が小さいほど、評価量は小さくなる。つまり、評価量は、特定クラスと非特定クラスとにより構成される2クラス問題において、各マーカーの有用性を示す情報である。したがって、2クラス問題において、評価量が大きい(「2」に近い)マーカーは有用性が期待されるマーカーであり、候補マーカーとなり得る。一方、評価量が小さい(「0」に近い)マーカーは、有用性が期待されないマーカーであり、候補マーカーとはなり得ない。
【0109】
一例として、前述の処理マーカー「癌のステージ」において、取り得る状態(すなわち、共通区間)は4つ(ステージ「I」-「IV」)である。特定クラスを「癌の再発有」とし、非特定クラスを「癌の再発無」としたとき、4つの共通区間それぞれにおいて、特定クラスと非特定クラスそれぞれに属する個体(患者)の頻度が求められる。その結果、ステージ「I」という共通区間内において、特定クラスに属する個体の頻度は、非特定クラスに属する個体の頻度よりも遥かに低い。ステージ「II」という共通区間内において、特定クラスに属する個体の頻度は、非特定クラスに属する個体の頻度よりも低い。一方、ステージ「III」という共通区間内においては、特定クラスに属する個体の頻度は、非特定クラスに属する個体の頻度よりも高い。そして、ステージ「IV」という共通区間内において、特定クラスに属する個体の頻度は、非特定クラスに属する個体の頻度よりもはるかに高い。その結果、癌のステージという処理マーカーにおいて、特定ヒストグラムは非特定ヒストグラムとあまり重複せず(両ヒストグラムの差異が大きく)、両者の差異、すなわち、評価量は大きい。したがって、癌の再発の診断において、癌のステージは、有望なマーカーであり、臨床の現場で用いられている。
【0110】
●候補マーカー選択処理
図11は、候補マーカー選択処理(S200)のフローチャートである。
【0111】
「候補マーカー選択処理(S200)」は、評価量に基づいて、本装置1が複数のマーカーの中から少なくとも1のマーカーを候補マーカーとして選択する処理である。候補マーカー選択処理(S200)は、図4に示される制御部13のうち、主として選択部136により実行される。
【0112】
以下の説明において、患者を診断した医師から情報を得た解析者が、操作端末3の操作部34を用いて、候補マーカーという解答を得たい2クラス問題を操作端末3に入力するものとする。入力された2クラス問題は、操作端末3の通信部31から本装置1に送信される。
【0113】
本装置1の通信部11は、本装置1が解答すべき2クラス問題を受信する(S201)。すなわち、通信部11は、操作端末3から2クラス問題を受け取る、本発明における受取部として機能する。
【0114】
次いで、選択部136は、2クラス問題に関連付けて記憶されている複数のマーカーと、各マーカーに関連付けて記憶されている評価量と、を読み出す(S202)。
【0115】
次いで、選択部136は、評価量に基づいて、読み出した複数のマーカーの中から、少なくとも1のマーカーを候補マーカーとして選択する(S203)。このとき、選択部136は、例えば、評価量の大きさに基づいて、マーカーをランキングして、マーカーを選択する。すなわち、例えば、選択部136は、2クラス問題に対して有用性が期待されないマーカー(例えば、評価量が「0」のマーカー)を除いたマーカーを候補マーカーとして選択する。選択されたマーカー(候補マーカー)は、同マーカーに対応する評価量と、2クラス問題と、に関連付けられて記憶部12に記憶される。
【0116】
なお、選択部は、所定の閾値よりも大きい評価量が関連付けられているマーカーのみを候補マーカーとして選択してもよく、あるいは、読み出したマーカーの全てを候補マーカーとして選択してもよい。この場合、閾値は、例えば、予め本装置の記憶部に記憶されている。
【0117】
次いで、通信部11は、候補マーカーとして選択されたマーカーを、同マーカーに対応する評価量と関連付けられた状態で、操作端末3に送信する(S204)。すなわち、通信部11は、操作端末3へ候補マーカーとして選択されたマーカーと、同マーカーに対応する評価量と、を出力する、本発明における出力部として機能する。
【0118】
このようにして送信されたマーカー(候補マーカー)は、同マーカーに対応する評価量と、2クラス問題と、に関連付けられて操作端末3の記憶部32に記憶され、表示部35に表示される。
【0119】
図12は、操作端末3の表示部35に表示される情報の例を示す模式図である。
同図は、2クラス問題に対して、複数のマーカー(候補マーカー)と、同マーカーに対応する評価量と、が表示部35に表示されていることを示す。また、同図は、各候補マーカーが評価量の大きい順に表示されていることを示す。このように、候補マーカーと評価量とが表示部35に表示されることにより、解析者は、評価量を参考にしつつ、表示されている候補マーカーの中から、解析者が入力した2クラス(特定クラスと非特定クラス)問題において有用性が期待される候補マーカーを絞り込める。
【0120】
なお、表示部は、予め定められた数の候補マーカーと、同候補マーカーに対応する評価量と、を表示してもよい。すなわち、例えば、表示部は、評価量の上位20位以内の候補マーカーと、同候補マーカーに対応する評価量と、のみを表示してもよい。
【0121】
また、表示部は、候補マーカーのみを表示してもよい。
【0122】
●まとめ
以上説明した実施の形態によれば、本装置1は、ヒストグラム生成部134と評価量算出部135とを備える。ヒストグラム生成部134は、処理マーカーにおける観測データに基づいて、処理マーカーにおける特定クラスのヒストグラムを特定ヒストグラムとして生成し、処理マーカーにおける非特定クラスのヒストグラムを非特定ヒストグラムとして生成する。評価量算出部135は、特定ヒストグラムと非特定ヒストグラムとに基づいて、処理マーカーの評価量を算出する。この構成によれば、本装置1は、特定ヒストグラムと非特定ヒストグラムとにより、特定クラスと非特定クラスそれぞれのクラス条件付き確率(密度)関数をヒストグラムの形式により推定し、得られた特定ヒストグラムと非特定ヒストグラムとの差異を求めることにより、各マーカーを単独で評価できる。その結果、本装置1は、特定クラスと非特定クラスとの2クラス問題において有用性が期待されるマーカーである候補マーカーを絞り込むことができる。
【0123】
また、ヒストグラム生成部134が観測データに基づいて特定ヒストグラムと非特定ヒストグラムとを生成することにより、定量的データは医学的に意味のある定性的データに変換されて評価量の算出に用いられ、定性的データはそのまま評価量の算出に用いられる。その結果、本装置1は、ヒストグラムの生成とヒストグラムに基づく評価量の算出という処理負荷の小さい処理により、定性的データ(記号データ)を扱うマーカーも含む膨大なマーカーの中から各マーカーを単独で評価できる。その結果、本装置1は、処理負荷の小さい処理により、2クラス問題において有用性が期待されるマーカーである候補マーカーを高速に絞り込むことができる。
【0124】
さらに、以上説明した実施の形態によれば、評価量算出部135は、共通区間ごとに、特定ヒストグラムにおける共通区間内の特定クラスに属する個体の頻度と、非特定ヒストグラムにおける共通区間内の非特定クラスに属する個体の頻度と、の差分量の絶対値を算出し、共通区間ごとの絶対値の総和を評価量として算出する。この構成によれば、本装置1は、特定ヒストグラムと非特定ヒストグラムとの間の差異の程度を、評価量の大小により特定し、2クラス問題において有用性が期待されるマーカーである候補マーカーを高速に絞り込むことができる。
【0125】
さらにまた、以上説明した実施の形態によれば、本装置1は、定量的データに基づいて、複数の共通区間を特定する区間特定部133を備える。この構成によれば、区間特定部133は、定量的データである観測データの入る範囲を複数の共通区間に区分けすることで、連続量である観測データを、離散量へと変換する。すなわち、本装置1は、定量的データを定性的データに変換して、定性的データから評価量を算出する。その結果、本装置1は、定量的データをそのまま用いてマーカーを評価するよりも小さい処理負荷で、マーカーの評価量を算出できる。したがって、本装置1は、定性的データを扱うマーカーも含む膨大なマーカーの中から、2クラス問題において有用性が期待されるマーカーである候補マーカーを高速に絞り込むことができる。また、医学的なデータは、個人由来のデータである。そのため、特に、数値データである定量的データでは、個人が特定され易く、その取り扱いには注意が必要である。しかし、本発明では、定量的データが離散化されることにより、個人の特定は、難しくなる。さらに、共通区間を区分けする閾値が公開されなければ、個人の特定の難易度は、一段と高まる。さらにまた、オプトアウトにおいて、観測データの削除が要請されたとき、共通区間内に属する個体の数を削除するだけで、同要請への迅速な対応が可能となる。このように、本発明は、個人情報保護の観点からも有用である。
【0126】
さらにまた、以上説明した実施の形態によれば、区間特定部133は、定性的データに関わるマーカーの状態に基づいて、複数の共通区間を特定する。すなわち、本装置1は、定性的データをそのまま評価量の算出に用いる。その結果、本装置1は、定量的データから評価量を算出する処理よりも小さい処理負荷で、定性的データから評価量を算出できる。つまり、本装置1は、定性的データを扱うマーカーも含む膨大なマーカーの中から、2クラス問題において有用性が期待されるマーカーである候補マーカーを高速に絞り込むことができる。
【0127】
さらにまた、以上説明した実施の形態によれば、本装置1は、評価量に基づいて、複数のマーカーの中から少なくとも1のマーカーを候補マーカーとして選択する選択部136を備える。この構成によれば、本装置1は、予め評価量を算出することにより、定性的データに関わるマーカーを扱うマーカーも含む膨大なマーカーの中から、2クラス問題において有用性が期待されるマーカーである候補マーカーを高速に絞り込むことができる。
【0128】
さらにまた、以上説明した実施の形態によれば、本装置1は、選択部に選択されたマーカー(候補マーカー)を、同マーカーに対応する評価量と関連付けた状態で出力する出力部(通信部11)を備える。この構成によれば、本装置1は、例えば、外部の端末(操作端末3)から受け取った2クラス問題に基づいて、候補マーカーと、候補マーカーに対応する評価量と、を外部の端末(操作端末3)に出力できる。その結果、本装置1の利用者(解析者:医師)は、極めて容易に、2クラス問題において有用性が期待されるマーカーである候補マーカーを取得でき、絞り込むことができる。
【0129】
なお、情報記憶サーバの記憶部は、マーカーごとに2クラス問題(例えば、正常異常、高血圧の有無、糖尿病の有無、胃癌の有無、大腸癌の有無など)を関連付けて記憶してもよい。また、同記憶部は、個体ID(個体、つまり患者固有の識別情報)ごとに、複数のマーカーそれぞれと、その観測データと、2クラス問題と、を関連付けて記憶してもよい。さらに、同記憶部に記憶される情報(個体ID、マーカーID、観測データ、2クラス問題など)の態様は、本方法が実行可能な態様であればよく、本実施の形態に限定されない。
【0130】
また、本方法に必要な情報(マーカーID、観測データ、2クラス問題など)は、本装置の記憶部に記憶されてもよい。
【0131】
ここで、現在の医学において、癌の診断の精度は100%ではなく、完全な癌の診断はできていない。その主要な原因の1つは、不十分な識別情報しか提供できないマーカーにある。このようなマーカーを利用する状況下では、共通区間は、マーカーの取り得る範囲をさらに細分する、あるいは、区間の幅を等間隔としない、ことにより特定されてもよい。すなわち、例えば、区間特定部は、マーカーごとに定まる閾値情報(定量的データの正常範囲の上限値などの数値、または、定性的データである良性/悪性などの状態)に基づいて、複数の共通区間を特定してもよい。すなわち、例えば、医学的に正常と異常との閾値(例えば、腫瘍マーカーの数値など)が医学的に規定されているマーカーにおいて、区間特定部は、同閾値を基準(中心)として新たな共通区間を特定してもよい。この場合において、区間特定部は、閾値に隣接する共通区間の幅を、他の共通区間の幅よりも狭くして、共通区間を特定してもよい。一方、定性的データについては、例えば、医学的に非癌と癌とを区分けする状態(例えば、良性の腫瘍と悪性の腫瘍など)や、癌の進行度合を区分けする状態(例えば、癌のステージなど)が医学的に規定されているマーカーにおいても、区間特定部は、さらに細かく状態を分けてもよい。すなわち、例えば、区間特定部は、確度の高い正常、確度の低い正常、確度の低い異常、確度の高い異常、のように、さらに細かく共通区間を特定してもよい。
【0132】
さらにまた、以上説明した実施の形態において、本装置1は、情報記憶サーバ2と別体で構成されていた。これに代えて、本装置は、情報記憶サーバと一体に構成されてもよい。すなわち、例えば、情報記憶サーバが本装置の機能を兼ねてもよく、本装置が情報記憶サーバの機能を兼ねてもよい。
【0133】
さらにまた、以上説明した実施の形態によれば、本システムSは、本装置1と情報記憶サーバ2とを備えていた。これに代えて、本システムは、本装置と情報記憶サーバと操作端末とを備えてもよい。この場合、操作端末は、選択部と、候補マーカーとその評価量とを表示部に出力する出力部と、を備えてもよい。
【0134】
さらにまた、本発明の適用範囲は、疾患の診断に限定されない。すなわち、例えば、本発明は、創薬においても適用できる。具体的には、本装置の利用者は、評価量に基づいて、開発された新薬が特定の疾患の治療や予防に有効か否かを判定するための候補マーカーを治験のための患者層別化マーカーや体外診断薬として選択できる。また、創薬において、本装置の利用者は、例えば、候補マーカーの評価量の増減により、薬を構成する物質の作用機序を分析できる。
【0135】
さらにまた、本発明の適用範囲は、医療分野に限定されない。すなわち、例えば、本発明は、道路の路面状態の診断や建築物の診断、製造工程における品質管理のための診断にも適用可能である。
【0136】
さらにまた、以上説明した実施の形態によれば、評価量は、処理マーカーとして取得されたマーカーと、特定クラスと非特定クラスとで定まる2クラス問題と、に関連付けられて、記憶部12に記憶されていた。これに代えて、評価量は、マーカーと2クラス問題とに関連付けられて、情報記憶サーバの記憶部に記憶されてもよい。この場合、情報記憶サーバの記憶部は、本発明における記憶部として機能する。
【0137】
さらにまた、本方法は、本システム全体で実行されてもよい。
【0138】
さらにまた、以上説明した実施の形態によれば、本装置1は、1つのコンピュータにより構成されていた。これに代えて、本装置は、複数のコンピュータにより構成されてもよい。すなわち、例えば、本装置は、本装置として機能する複数のコンピュータ群で構成されてもよい。具体的には、例えば、本装置(コンピュータ群)は、記憶部を備えるコンピュータと、本方法を実行する制御部を備えるコンピュータと、により構成されてもよい。また、例えば、複数のコンピュータが、取得部、判定部、区間特定部、ヒストグラム生成部、評価量算出部、選択部それぞれの機能を分散して備えてもよい。この場合、複数のコンピュータは、通信回線を通じて情報の送受信をしてもよく、あるいは、可搬記憶媒体を用いて情報の譲受をしてもよい。
【符号の説明】
【0139】
S 情報処理システム
1 情報処理装置
11 通信部(受取部、出力部)
12 記憶部
131 取得部
133 区間生成部
134 ヒストグラム生成部
135 評価量算出部
136 選択部

図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12