IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ キユーピー株式会社の特許一覧

特許7498144データ変換装置、データ変換方法およびプログラム
<>
  • 特許-データ変換装置、データ変換方法およびプログラム 図1
  • 特許-データ変換装置、データ変換方法およびプログラム 図2
  • 特許-データ変換装置、データ変換方法およびプログラム 図3
  • 特許-データ変換装置、データ変換方法およびプログラム 図4
  • 特許-データ変換装置、データ変換方法およびプログラム 図5
  • 特許-データ変換装置、データ変換方法およびプログラム 図6
  • 特許-データ変換装置、データ変換方法およびプログラム 図7
  • 特許-データ変換装置、データ変換方法およびプログラム 図8
  • 特許-データ変換装置、データ変換方法およびプログラム 図9
  • 特許-データ変換装置、データ変換方法およびプログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-03
(45)【発行日】2024-06-11
(54)【発明の名称】データ変換装置、データ変換方法およびプログラム
(51)【国際特許分類】
   G16B 45/00 20190101AFI20240604BHJP
【FI】
G16B45/00
【請求項の数】 5
(21)【出願番号】P 2021071453
(22)【出願日】2021-04-20
(62)【分割の表示】P 2020075691の分割
【原出願日】2020-04-21
(65)【公開番号】P2021174551
(43)【公開日】2021-11-01
【審査請求日】2023-03-24
【国等の委託研究の成果に係る記載事項】(出願人による申告)令和1年度、国立研究開発法人新エネルギー・産業技術総合開発機構「次世代人工知能・ロボット中核技術開発/人工知能の信頼性に関する技術開発/生体データを用いて発がんリスクを説明できる“高信頼性進化的機械学習”の研究開発」委託研究、産業技術力強化法第17条の適用を受ける特許出願
(73)【特許権者】
【識別番号】000001421
【氏名又は名称】キユーピー株式会社
(74)【代理人】
【識別番号】100149548
【弁理士】
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100152272
【弁理士】
【氏名又は名称】川越 雄一郎
(74)【代理人】
【識別番号】100175824
【弁理士】
【氏名又は名称】小林 淳一
(72)【発明者】
【氏名】長尾 智晴
(72)【発明者】
【氏名】白川 真一
(72)【発明者】
【氏名】有井 栞
(72)【発明者】
【氏名】河野 純範
(72)【発明者】
【氏名】大塚 蔵嵩
(72)【発明者】
【氏名】栗城 大輔
【審査官】橋沼 和樹
(56)【参考文献】
【文献】米国特許出願公開第2014/0113978(US,A1)
【文献】特開2019-204484(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
(57)【特許請求の範囲】
【請求項1】
マイクロRNAの種類毎の発現量を示すデータを、2次元以上の行列で示され、前記マイクロRNAの種類に応じた指標値間に規定される距離が小さい種類ほど、前記行列における近くの要素に割り当てられるデータである画像表現データに変換する画像化部
を備えるデータ変換装置。
【請求項2】
前記画像化部は、前記マイクロRNAの種類をその種類のマイクロRNAの5’末端の9塩基から選択される5乃至9塩基の配列に基づいて前記画像表現データにおける行列の要素に割り当てる割当方法を用いて、前記画像表現データにおける行列の要素の値を、その要素に割り当てられる種類のマイクロRNAの発現量に基づいて算出する、
請求項1に記載のデータ変換装置。
【請求項3】
前記画像化部は、前記割当方法として、前記マイクロRNAの5’末端の9塩基から選択される5乃至9塩基の配列に関するレーベンシュタイン距離に基づいて、前記マイクロRNAの種類を前記要素に割り当てる割当方法を用いる、
請求項2に記載のデータ変換装置。
【請求項4】
マイクロRNAの種類毎の発現量を示すデータを、2次元以上の行列で示され、前記マイクロRNAの種類に応じた指標値間に規定される距離が小さい種類ほど、前記行列における近くの要素に割り当てられるデータである画像表現データに変換する工程
を含むデータ変換方法。
【請求項5】
コンピュータに、
マイクロRNAの種類毎の発現量を示すデータを、2次元以上の行列で示され、前記マイクロRNAの種類に応じた指標値間に規定される距離が小さい種類ほど、前記行列における近くの要素に割り当てられるデータである画像表現データに変換する工程
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ変換装置、データ変換方法およびプログラムに関する。
【背景技術】
【0002】
マイクロRNAの発現量に基づいて、罹患の有無を判定する技術が提案されている。
例えば、特許文献1に記載の疾患の罹患判定装置は、マイクロRNAを含むバイオマーカそれぞれの発現量を含むサンプルデータを取得する。また、罹患判定装置は、複数の疾患のそれぞれについて罹患の有無を判定するための学習済モデルを備える。そして、罹患判定装置は、サンプルデータと学習済みモデルとを用いて複数の疾患について罹患しているか否かを判定する。
【先行技術文献】
【特許文献】
【0003】
【文献】国際公開第2018/079840号
【発明の概要】
【発明が解決しようとする課題】
【0004】
マイクロRNAなどのバイオマーカに基づいて罹患の有無など健康状態を判定するだけでなく、判定の根拠を示すことが好ましい。
【課題を解決するための手段】
【0005】
本発明の第1の態様によれば、データ変換装置は、マイクロRNAの種類毎の発現量を示すデータを、2次元以上の行列で示され、前記マイクロRNAの種類に応じた指標値間に規定される距離が小さい種類ほど、前記行列における近くの要素に割り当てられるデータである画像表現データに変換する画像化部を備える。
【0006】
前記画像化部は、前記マイクロRNAの種類をその種類のマイクロRNAの5’末端の9塩基から選択される5乃至9塩基の配列に基づいて前記画像表現データにおける行列の要素に割り当てる割当方法を用いて、前記画像表現データにおける行列の要素の値を、その要素に割り当てられる種類のマイクロRNAの発現量に基づいて算出するようにしてもよい。
【0007】
前記画像化部は、前記割当方法として、前記マイクロRNAの5’末端の9塩基から選択される5乃至9塩基の配列に関するレーベンシュタイン距離に基づいて、前記マイクロRNAの種類を前記要素に割り当てる割当方法を用いるようにしてもよい。
【0008】
本発明の第2の態様によれば、データ変換方法は、マイクロRNAの種類毎の発現量を示すデータを、2次元以上の行列で示され、前記マイクロRNAの種類に応じた指標値間に規定される距離が小さい種類ほど、前記行列における近くの要素に割り当てられるデータである画像表現データに変換する工程を含む。
【0009】
本発明の第3の態様によれば、プログラムは、コンピュータに、マイクロRNAの種類毎の発現量を示すデータを、2次元以上の行列で示され、前記マイクロRNAの種類に応じた指標値間に規定される距離が小さい種類ほど、前記行列における近くの要素に割り当てられるデータである画像表現データに変換する工程を実行させるためのプログラムである。
【発明の効果】
【0010】
上記したデータ変換装置、データ変換方法およびプログラムによれば、マイクロRNAなどのバイオマーカに基づく判定の根拠を示すことができる。
【図面の簡単な説明】
【0011】
図1】実施形態に係る画像生成装置の機能構成例を示す概略ブロック図である。
図2】実施形態に係る画像化部による発現量データの2次元画像化の処理の例を示す図である。
図3】実施形態に係る視覚化部の各部の構成例を示す図である。
図4】実施形態に係る表示部によるヒートマップの表示の第1例を示す図である。
図5】実施形態に係る表示部によるヒートマップの表示の第2例を示す図である。
図6】実施形態に係る画像生成装置が行う処理の手順の例を示すフローチャートである。
図7】実施形態に係る視覚化部が行う処理の手順の例を示すフローチャートである。
図8】実施形態に係る表示装置の構成の第一例を示す図である。
図9】実施形態に係る表示装置の構成の第二例を示す図である。
図10】少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
【発明を実施するための形態】
【0012】
以下、本発明の実施形態を説明するが、以下の実施形態は請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、実施形態に係る画像生成装置の機能構成例を示す概略ブロック図である。図1に示す構成で、画像生成装置100は、通信部110と、表示部120と、操作入力部130と、記憶部170と、制御部180とを備える。制御部180は、発現量データ取得部181と、画像化部182と、視覚化部190と、機械学習制御部195とを備える。視覚化部190は、特徴量抽出部191と、重み計算部192と、寄与度提示画像生成部193と、クラス分類部194とを備える。
【0013】
画像生成装置100は、マイクロRNA(miRNA)の発現量データに基づくクラス分類の根拠を視覚化する。具体的には、画像生成装置100は、マイクロRNAの種類毎の発現量データから特徴量を抽出し、抽出された特徴量に基づいて、マイクロRNAの被採取者の健康状態を、例えば健常クラス、膀胱がんのクラス、前立腺がんのクラスなど、予め設定されたクラスの何れかに分類する。そして、画像生成装置100は、クラス分類におけるマイクロRNAの種類毎の発現量の寄与度を示すヒートマップを生成する。このヒートマップは、マイクロRNAの種類毎の発現量のうちどの発現量に基づいてクラス分類されたかを示す点で、クラス分類の根拠を示すヒートマップである。
マイクロRNAの被採取者を、単に被採取者とも称する。
【0014】
ただし、画像生成装置100が扱う対象は、マイクロRNAに限定されない。例えば、各種RNAまたはDNA、あるいはタンパク質など、要素の配列によって特徴付けられ、かつ、配列毎の量(例えば濃度)を測定可能ないろいろな対象を扱うことができる。RNAまたはDNAの場合、塩基が要素に該当する。タンパク質の場合、アミノ酸が要素に該当する。
画像生成装置100は、例えばパソコン(Personal Computer;PC)またはワークステーション(Workstation)等のコンピュータを用いて構成される。
【0015】
ここでいうマイクロRNAの発現量データは、マイクロRNAの種類毎に発現量を示すデータである。例えば、ヒトのマイクロRNAの種類は約2500種類以上あるといわれており、2500種類のマイクロRNAについて発現量を解析した場合、マイクロRNAの発現量データは、2500次元ベクトルのデータで表される。マイクロRNAの発現量データの取得には、公知のシーケンシング(Sequencing)手法を用いることができる。
マイクロRNAの発現量データを、単に発現量データとも称する。
【0016】
通信部110は、他の装置と通信を行う。例えば、通信部110は、マイクロRNA発現量解析装置と通信を行って、マイクロRNAの発現量データを受信する。
表示部120は、例えば液晶パネルまたはLED(Light Emitting Diode、発光ダイオード)パネル等の表示画面を備え、各種画像を表示する。例えば、表示部120は、画像生成装置100によるクラス分類結果、および、クラス分類の根拠を示すヒートマップを表示する。
操作入力部130は、例えばキーボードおよびマウス等の入力デバイスを備え、ユーザ操作を受け付ける。例えば、操作入力部130は、解析開始を指示するユーザ操作を受け付ける。
【0017】
記憶部170は、各種データを記憶する。記憶部170は、画像生成装置100が備える記憶デバイスを用いて構成される。
制御部180は、画像生成装置100の各部を制御して各種処理を行う。制御部180の機能は、例えば、画像生成装置100が備えるCPU(Central Processing Unit、中央処理装置)が記憶部170からプログラムを読み出して実行することで実行される。
【0018】
発現量データ取得部181は、マイクロRNAの発現量データを取得する。具体的には、発現量データ取得部181は、通信部110によるマイクロRNA発現量解析装置からの受信データから、マイクロRNAの発現量データを抽出する。あるいは、発現量データ取得部181が、記憶部170から発現量データを読み出すなど、既にある発現量データを取得するようにしてもよい。
【0019】
画像化部182は、マイクロRNAの発現量データを2次元画像化する。
図2は、画像化部182による発現量データの2次元画像化の処理の例を示す図である。画像化部182は、発現量データに示されるマイクロRNAの種類の各々を、図2に例示されるような2次元行列の要素に割り当て(マッピングし)、割当に従って行列の要素に発現量を入力する。
【0020】
ここでの行列の大きさは、任意の大きさとすることができる。行列の要素数がおおよそ発現量データの次元数と同じになるようにしてもよい。例えば、発現量データの次元数が2500次元である場合、50行×50列、あるいは、48行×48列程度の行列を用いるようにしてもよい。
【0021】
画像化部182は、マイクロRNAの5’末端の9塩基から選択される5乃至9塩基の配列に基づいて、マイクロRNAの種類の、行列の要素への割当を決定する。
例えば5’末端の7塩基に設定した場合、画像化部182は、具体的には、マイクロRNAの5’末端の7塩基の配列と、アデニン(Adenine)7個の並びとのレーベンシュタイン距離(Levenshtein Distance)を算出する。同様に、画像化部182は、マイクロRNAの5’末端の7塩基の配列と、グアニン(Guanine)7個の並び、シトシン(Cytosine)7個の並び、ウラシル(Uracil)7個の並びのそれぞれとのレーベンシュタイン距離を算出する。
【0022】
例えば、塩基の名称の頭文字を用いて「GAAUCAU」と表される塩基配列と、「AAAAAAA」(アデニン7個の並び)との距離について考える。この場合、塩基配列の左から1番目の「G」、4番目の「U」、5番目の「C」、および、7番目の「U」をそれぞれ「A」に置換することで、「GAAUCAU」を「AAAAAAA」に変換でき、レーベンシュタイン距離は4と算出される。
【0023】
また、行数と列数とが同じ2次元行列を用いて(すなわち、正方行列を用いて)、図2に示されるように、4隅の要素に「AAAAAAA」、「GGGGGGG」、「CCCCCCC」、「UUUUUUU」を割り当てる。
画像化部182は、2次元行列における4隅のそれぞれからの距離の比が、算出したレーベンシュタイン距離の比に対応付けられるように、マイクロRNAの種類を、行列の要素に割り当てる。画像化部182は、この割当によって発現量データを画像表現データに変換する。
【0024】
ここでいう画像表現データは、画像を表現可能なデータであり、2次元以上の行列を示すデータとして構成される。画像表現データは画像データであってもよいが、これに限定されない。例えば、画像表現データは、特定の画像データ形式に規定されるヘッダおよびフッタを備えていなくてもよいなど、特定のデータ形式の規定に従っていなくてもよい。
画像表現データにおける行列の次元数は、表現対象の画像の次元数と同じにすることができる。例えば、表現対象の画像が2次元の画像である場合、画像表現データが2次元の行列の形式に構成されていてもよい。あるいは、表現対象の画像が3次元の画像である場合、画像表現データが3次元の行列の形式に構成されていてもよい。
【0025】
画像表現データにおける行列の要素は、表現対象の画像の画素値に紐付けられる。例えば、表現対象の画像が、縦n画素×横n画素の画像である場合、画像表現データが、n行n列の2次元行列の形式のデータとなっていてもよい。画像化部182は、画像表現データにおける行列の要素の値として、その要素に割り当てられた種類のマイクロRNAの発現量を書き込む。
以下では、画像表現データとして画像データを用いる場合を例に説明し、画像表現データにおける行列の要素を、画像データの画素と表記する。
【0026】
画像化部182が、4隅のうち3隅のみからの距離の比に基づいて、マイクロRNAの種類の画素への割当を決定するようにしてもよい。例えば、図2の例で、画像化部182が、「AAAAAAA」、「GGGGGGG」、「CCCCCCC」が割り当てられた3隅のそれぞれからの距離の比が、レーベンシュタイン距離の比に対応付けられるように、マイクロRNAの種類を画素に割り当てるようにしてもよい。
3点からの距離の比を用いることで、三角測量の要領で、2次元画像における位置を決定することができる。
【0027】
あるいは、画像化部182は、4隅それぞれからの距離を全て用いて、マイクロRNAの種類の画素への割当を決定するようにしてもよい。例えば、図2の例で、画像化部182が、「AAAAAAA」が割り当てられた隅と「UUUUUUU」が割り当てられた隅とを通る第一座標と、「GGGGGGG」が割り当てられた隅と「CCCCCCC」が割当られた隅とを通る第二座標とによる直交座標系を用いるようにしてもよい。そして、画像化部182が、変換対象の塩基配列を「AAAAAAA」に変換する場合のレーベンシュタイン距離と、「UUUUUUU」に変換する場合のレーベンシュタイン距離との比に基づいて、第一座標の座標値を算出するようにしてもよい。同様に、画像化部182が、変換対象の塩基配列を「GGGGGGG」に変換する場合のレーベンシュタイン距離と、「CCCCCCC」に変換する場合のレーベンシュタイン距離との比に基づいて、第二座標の座標値を算出するようにしてもよい。第一座標、第二座標それぞれの座標値を決定することで、2次元画像における位置を決定することができる。
【0028】
ここで、マイクロRNAの特性を見るにあたって20個の前後のマイクロRNAの塩基のうち5’末端の9塩基の配列が重要である。画像化部182がマイクロRNAの5’末端の9塩基から選択される5乃至9塩基の配列のレーベンシュタイン距離に基づいてマイクロRNAの種類を画素に割り当てることで、得られる2次元画像において特性が似ているマイクロRNAの種類が近くの画素に位置することが期待される。
【0029】
ただし、画像化部182がマイクロRNAの種類を画素に割り当てる際に参照する塩基配列は、5’末端の7塩基を選択することが好ましいが、5’末端から9塩基のうち5乃至9塩基の配列であれば、これに限定されない。例えば、画像化部182が、バイオマーカとして用いられるマイクロRNAの種類に応じて、5’末端の2個目から7個目までの6塩基を選択してマイクロRNAの種類と画素とのマッピングを決定するようにしてもよい。
また、画像化部182が用いる、マイクロRNAの種類の画素への割当方法は、上記の方法に限定されない。例えば、画像化部182が、上述したレーベンシュタイン距離に代えてジャロ・ウインクラー距離(Jaro-Winkler Distance)に基づく割当方法を用いて、マイクロRNAの種類毎の発現量に基づいて画素値を算出するようにしてもよい。
【0030】
なお、1つの画素に複数のマイクロRNAの種類が割り当てられてもよい。この場合、画像化部182は、同じ画素に割り当てられた複数の種類についてマイクロRNAの発現量を足し合わせて画素に割り当てる。
また、マイクロRNAの種類が割り当てられない画素があってもよい。例えば、この画素の値を0にしてもよい。
【0031】
なお、発現量がマイナスの値をとってもよい。ある種類のマイクロRNAが抑制的に作用する場合、その種類の発現量がマイナスの値で示されていてもよい。これに対し、生成対象の2次元画像の画素値が0または正の値と定められている場合など、発現量データにおける発現量が画素値の範囲を逸脱する可能性がある場合は、画像化部182は、発現量を画素値の範囲内の値に変換する規格化を行う。
画像化部182が生成する2次元画像(2次元画像化された発現量データ)を、発現量データ画像とも称する。
【0032】
視覚化部190は、発現量データ画像から特徴量を抽出し、抽出された特徴量を用いてクラス分類を行う。このクラス分類により、視覚化部190は、上述したような被採取者の健康状態をクラス分類する。
また、視覚化部190は、クラス分類の根拠を示すヒートマップを生成する。
【0033】
特徴量抽出部191は、発現量データ画像から特徴量を抽出する。
重み計算部192は、クラス毎に、そのクラスへの分類に関して発現量データ画像の各画素の寄与度を示す重みを算出する。
寄与度提示画像生成部193は、クラス分類の根拠を示すヒートマップを生成する。寄与度提示画像生成部193は、重み計算部192が算出する重みで発現量データ画像の各画素の画素値を重み付けすることで、ヒートマップを生成する。このヒートマップは、クラス分類の根拠として、クラス分類における発現量データ画像の部分(各画素)の寄与度を示す。入力画像のクラス分類における入力画像の部分の寄与度を示す画像を、寄与度提示画像とも称する。
【0034】
以下では、寄与度提示画像生成部193が、寄与度提示画像としてヒートマップを生成する場合を例に説明する。ただし、寄与度提示画像生成部193が生成する寄与度提示画像は、入力画像のクラス分類における入力画像の部分の寄与度を示す画像であればよく、ヒートマップに限定されない。
【0035】
クラス分類部194は、特徴量抽出部191が抽出した特徴量に基づいて発現量データ画像をクラス分類する。このクラス分類は、発現量データが示すマイクロRNAの種類に基づいて被採取者の健康状態をクラス分類することに該当する。
機械学習制御部195は、視覚化部190の学習を制御する。例えば、特徴量抽出部191および重み計算部192がニューラルネットワークなどの計算モデルを用いて構成されていてもよい。そして、機械学習制御部195への教師有り学習データの入力を受けて、機械学習制御部195が、特徴量抽出部191および重み計算部192に学習を行わせて計算モデルのパラメータ値を決定するようにしてもよい。
視覚化部190が行う処理、および、視覚化部190の学習は、例えばGCM(Generative Contribution Mappings)またはGrad-CAMなど、画像分類における画像の各部の寄与度を視覚化する公知の技術を用いて実行可能である。
【0036】
図3は、視覚化部190の各部の構成例を示す図である。図3は、GCMを用いて視覚化部190の機能を実行する場合の例を示している。
図3の構成で、視覚化部190は、エンコーダ211と、第1クラスデコーダ212-1から第Nクラスデコーダ212-Nと、第1乗算器213-1から第N乗算器213-Nと、第1平均演算部214-1から第N平均演算部214-Nと、Argmax演算部215とを備える。ここでのNは、クラス分類におけるクラスの個数を示す正の整数である。
第1クラスデコーダ212-1から第Nクラスデコーダ212-Nを総称してデコーダ212と表記する。第1乗算器213-1から第N乗算器213-Nを総称して乗算器213と表記する。第1平均演算部214-1から第N平均演算部214-Nを総称して平均演算部214と表記する。
【0037】
エンコーダ211は、画像の入力を受けて、入力された画像の特徴量を抽出する。画像生成装置100の例では、エンコーダ211は、発現量データ画像の入力を受けて特徴量を抽出する。
エンコーダ211は、特徴量抽出部191の例に該当する。
デコーダ212はクラス毎に設けられ、エンコーダ211が算出した特徴量を入力画像と同じ画素数を持つマップに再構成する。このマップは入力画像の各部(各画素)が注目クラスに関してどの程度そのクラスらしいかを示す重みのマップである。デコーダ212が算出するマップをCWM(Class Weight Map)とも称する。
第1クラスデコーダ212-1から第Nクラスデコーダ212-Nの組み合わせは、重み計算部192の例に該当する。
【0038】
乗算器213は、クラス毎に設けられ、デコーダ212がクラス毎に算出したCMWを、入力画像に画素毎に乗算する。これにより、入力画像の各画素をクラス分類への寄与度に応じて重み付けしたヒートマップを得られる。乗算器213が算出するヒートマップをCCM(Class Contribution Map)とも称する。
第1乗算器213-1から第N乗算器213-Nの組み合わせは、寄与度提示画像生成部193の例に該当する。
【0039】
平均演算部214は、クラス毎に設けられ、クラス毎に、乗算器213が算出したCCMの画素値の平均を算出する。平均演算部214が算出する平均値は、クラス分類における評価値(クラススコア)として用いられる。
Argmax演算部215は、平均演算部214がクラス毎に算出するクラススコアを比較し、クラススコアが最も大きいクラスを判定する。これによりArgmax演算部215は、入力画像をクラスに分類する。
第1平均演算部214-1から第N平均演算部214-NおよびArgmax演算部215の組み合わせは、クラス分類部194例に該当する。
【0040】
図4は、表示部120によるヒートマップの表示の第1例を示す図である。図4は、健常クラスへの分類についてのヒートマップの例を示している。表示部120は、寄与度提示画像生成部193が生成したヒートマップを、例えば視覚化部190の制御に従って表示する。
上述したように、寄与度提示画像生成部193は、発現量データ画像の画素毎に、クラス分類への寄与度に応じた重み付けをしてヒートマップ(CCM)を算出する。
【0041】
画像化部182が、マイクロRNAの5’末端の9塩基から選択される5乃至9塩基の配列に基づいて、特性が似ているマイクロRNAの種類が近くの画素に位置するように発現量データ画像を生成することで、デコーダ212が算出するCWMにおいても、隣合う画素の重みの大きさがおおよそ同様になる。これにより、発現量データ画像に対して重み付けを行って得られる画像では、隣合う画素で画素値の変化が比較的緩やかになり、ヒートマップの様式の画像を得られる。
【0042】
なお、発現量データ画像で発現量が割り当てられない画素がある等により、ヒートマップに画素の抜けが生じている場合、画像化部182が、ヒートマップに対して画素を補間する、あるいは、画像をぼかす等の処理を行って、ヒートマップを見易くするようにしてもよい。この場合、画像化部182が膨張フィルタおよび収縮フィルタを用いる、あるいは、平均化フィルタを用いるなど、画像ノイズ除去に用いられるいろいろな技術を適用することができる。
【0043】
図5は、表示部120によるヒートマップの表示の第2例を示す図である。図5は、あるがん(がんAと称する)のクラスへの分類についてのヒートマップの例を示している。
図5のヒートマップは、図4のヒートマップと画素値の分布の形状および密度が異なっており、図5のヒートマップのほうが、図4のヒートマップよりも画素値の平均が大きい。表示部120が、図4のヒートマップと図5のヒートマップとを表示することで、被採取者などヒートマップを見る者は、これらのヒートマップを比較して、クラス分類が行われた根拠(そのクラス分類になった根拠)を知ることができる。
【0044】
表示部120がヒートマップを表示する態様は、その目的または用途に応じていろいろな態様とすることができる。
クラス分類の根拠をヒートマップで示す場合、表示部120が、全てのクラスのヒートマップを表示するなど複数クラスのヒートマップを表示して、クラス毎のヒートマップを比較できるようにしてもよい。
【0045】
表示部120が、被採取者のヒートマップ(被採取者について得られたヒートマップ)と、個々のクラスにおけるヒートマップの典型例として用意されたヒートマップとを表示するようにしてもよい。これにより、被採取者などヒートマップを見る者は、被採取者のヒートマップと典型例との一致度(類似度)を判定することができる。
【0046】
表示部120が、クラス分類部194が発現量データ画像をクラス分類する全てのクラスについてヒートマップを表示するようにしてもよい。あるいは、表示部120が、複数のクラスのうち代表的なクラスとして予め定められたクラスのヒートマップのみを表示するなど、一部のクラスについてのみヒートマップを表示するようにしてもよい。
【0047】
被採取者のヒートマップと典型例との一致度が高いほど、クラス分類の精度が高いと考えられる。また、被採取者の健康状態が病気のクラスに分類された場合、被採取者のヒートマップと典型例との一致度が高いほど、病気が進行している、あるいは病状が重いと推定してもよい。
【0048】
色を用いてヒートマップを表示する場合、クラス分類への寄与度が高い部分を赤い色で示し、寄与度が低い部分を青い色で表示するようにしてもよい。これにより、病気が進行している程、あるいは病状が重い程、ヒートマップが赤く表示されると期待され、ヒートマップを見る者に注意喚起することができる。
【0049】
一方、被採取者の健康状態が健常クラスに分類される場合、ヒートマップの一部が赤く表示されると病気であるかのような誤解を与える可能性がある。そこで、被採取者の健康状態が健常クラスに分類される場合、表示部120が、赤い色を含まない画像を表示するようにしてもよい。
【0050】
例えば、記憶部170が、全面が青の均一な画像のデータを記憶しておくようにしてもよい。そして、クラス分類部194が被採取者の健康状態が健常クラスに分類した場合、視覚化部190が、記憶部170からデータを読み出して、表示部120に全面が青の均一な画像を表示させるようにしてもよい。
あるいは、寄与度提示画像生成部193が、健常クラスにおけるヒートマップについては、青の濃淡でヒートマップを生成するなど、赤い色を用いずにヒートマップを生成するようにしてもよい。
【0051】
また、表示部120が、未病状態についても表示を行うようにしてもよい。ここで未病状態とは、特定の疾病に関して、罹患はしていないが、何らかの自覚症状があるか、検査をすれば異常値を示す状態のことを指し、疾病の罹患リスクが高い状態をいう。例えば、脂肪肝は、脂肪肝という疾病に関しては罹患状態だが、肝臓がんという疾病に関しては未病状態に該当する。
例えば、クラス分類部194が、被採取者の健康状態を健常クラスおよび幾つかの病気のクラスのうち何れかのクラスに分類する場合、選ばれなかったクラスのうち、評価値(クラススコア)が所定の閾値以上の病気のクラスについて、未病と判定するようにしてもよい。
【0052】
この場合、表示部120が、被採取者のヒートマップと未病と判定されたクラスの典型的なヒートマップ(ヒートマップの典型例)とを表示するようにしてもよい。これにより上記のように、被採取者などヒートマップを見る者は、被採取者のヒートマップと典型例との一致度(類似度)を判定することができる。
【0053】
また、健常クラスおよび病気のクラスに加えて、未病のクラスが設定されていてもよい。例えば、病気毎のクラスのうち少なくとも1つのクラスに応じて、その病気の未病のクラスが設けられていてもよい。そして、クラス分類部194が被採取の健康状態を未病のクラスに分類した場合、表示部120が、被採取者のヒートマップと未病のクラスの典型的なヒートマップとを表示するようにしてもよい。被採取者などヒートマップを見る者は、ヒートマップを参照して、未病の判定の確からしさを判断することができる。
【0054】
さらに、表示部120が、未病と判定された病気についての、病気のクラスの典型的なヒートマップ、または、健常クラスの典型的なヒートマップのいずれか、または両方を表示するようにしてもよい。被採取者などヒートマップを見る者は、被採取者のヒートマップが、病気のクラスのヒートマップ、および、健常クラスのヒートマップのうち何れにより近いかを判定することで、未病の状態でも比較的病気の状態に近いか比較的健常な状態に近いかを推定することができる。
【0055】
また、記憶部170が、同じ被採取者についてヒートマップの履歴(複数の時点でのヒートマップ)を記憶しておき、表示部120が、視覚化部190の制御に従って、ヒートマップの経時変化を把握可能に表示するようにしてもよい。
例えば、表示部120が、複数の時点でのヒートマップを並べて表示するようにしてもよい。あるいは、表示部120が、ヒートマップを動画像のように表示する、あるいは、ヒートマップをコマ送りで表示する(一定時間ごとに画像を切り替えて順に表示する)など、ヒートマップを経時的に表示するようにしてもよい。
被採取者などヒートマップを見る者は、例えば、ヒートマップの赤い部分(クラス分類への寄与度が高い部分)が増大しているが減少しているかを把握して、病気が進行しているか回復に向かっているかを推定することができる。
【0056】
さらに、表示部120が、被採取者のヒートマップと典型的なヒートマップとを並べて表示する、あるいは透過的に重ねて表示するなど、被採取者のヒートマップの経時変化と典型的なヒートマップとを比較可能に表示するようにしてもよい。
被採取者などヒートマップを見る者は、被採取者のヒートマップと典型的なヒートマップとが次第に類似しているか、異なるようになっているかを把握して、病気が進行しているか回復に向かっているかを推定することができる。
【0057】
未病の状態についても、表示部120が、ヒートマップの履歴を表示するようにしてもよい。
被採取者などヒートマップを見る者は、ヒートマップの経時変化を参照して、病気に至るリスクを把握し、必要に応じて対策を講じることができる。
【0058】
次に、画像生成装置100の動作について説明する。
図6は、画像生成装置100が行う処理の手順の例を示すフローチャートである。
図6の処理で、発現量データ取得部181は、発現量データを取得する(ステップS11)。
次に、画像化部182は、マイクロRNAの発現量データを2次元画像化する(ステップS12)。
【0059】
次に視覚化部190は、被採取者の健康状態を何れかのクラスに分類し、また、分類の根拠を示すヒートマップを生成する(ステップS13)。
そして、表示部120が、視覚化部190の制御に従って、クラスの分類結果、および、ヒートマップを表示する(ステップS14)。
ステップS14の後、画像生成装置100は、図6の処理を終了する。
【0060】
図7は、視覚化部190が行う処理の手順の例を示すフローチャートである。視覚化部190は、図6のステップS13で、図7の処理を行う。
図7の処理で、特徴量抽出部191は、発現量データ画像から特徴量を抽出する(ステップS21)。
次に、重み計算部192は、クラス毎に、そのクラスへの分類に関して発現量データ画像の各画素の寄与度を示す重みを算出する(ステップS22)。
【0061】
そして、寄与度提示画像生成部193は、重み計算部192が算出した重みで発現量データ画像の各画素の画素値を重み付けすることで、クラス毎にヒートマップを生成する(ステップS23)。
また、クラス分類部194は、特徴量抽出部191が抽出した特徴量に基づいて、クラス毎の評価値(クラススコア)を算出する(ステップS24)。
そして、クラス分類部194は、算出したクラススコアに基づいて、被採取者の健康状態を分類するクラスを決定する(ステップS25)。
ステップS25の後、視覚化部190は、図7の処理を終了する。
【0062】
以上のように、画像化部182は、マイクロRNAの種類毎の発現量を示すデータを画像表現データに変換する。画像表現データは、2次元以上の行列を示すデータである。クラス分類部194は、画像表現データをクラス分類する。寄与度提示画像生成部193は、クラス分類における画像表現データの部分の寄与度を示す寄与度提示画像を生成する。
画像生成装置100は、寄与度提示画像によって、マイクロRNAに基づく判定(クラス分類)の根拠を示すことができる。被採取者など寄与度提示画像を見る者は、クラス分類の確からしさを判断することができる。例えば、被採取者の健康状態がある病気のクラスに分類されている場合、クラス分類の確からしさを判断することで、病気の進行の程度、あるいは、病気の重さを推定することができる。
【0063】
クラス分類の確からしさの判断は、入力画像(例えば、発現量データ画像)の全体におけるクラス分類に寄与する部分の大きさ(面積割合)、および、その部分の寄与度の大きさ(寄与の程度)に基づいて行うことができる。例えば、寄与度提示画像が、クラス分類に寄与する部分ほど赤いヒートマップで示される場合、ヒートマップがどの程度赤いかを判断することで、クラス分類の確からしさを判断することができる。
あるいは、クラス分類の確からしさの判断は、寄与度提示画像が、その病気のクラスの寄与度提示画像の典型例にどの程度類似しているかを判断することで行うことができる。
【0064】
また、画像化部182は、マイクロRNAの種類をその種類のマイクロRNAの5’末端の9塩基から選択される5乃至9塩基の配列に基づいて画像表現データにおける行列の要素に割り当てる割当方法を用いて、画像表現データにおける行列の要素の値を、その要素に割り当てられる種類のマイクロRNAの発現量に基づいて算出するようにしてもよい。
マイクロRNAの性質について、特に5’末端の5乃至9塩基の配列(例えば、7塩基の配列)の影響が大きい。画像化部182が上記の割当方法を用いることで、発現量データ画像において特性が似ているマイクロRNAの種類を、行列における近くの要素に割り当てることが可能になる。さらには、寄与度提示画像生成部193が生成する画像がヒートマップの態様の画像となり、画像が示すクラス分類の根拠(あるいはクラス分類における入力画像の部分の寄与度)を視覚的に把握し易い。
【0065】
また、画像化部182は、上記の割当方法として、マイクロRNAの5’末端の9塩基から選択される5乃至9塩基の配列に関するレーベンシュタイン距離に基づいて、マイクロRNAの種類を画素に割り当てる割当方法を用いるようにしてもよい。
これにより、発現量データ画像において特性が似ているマイクロRNAの種類が近くの画素に位置することが期待される。
【0066】
また、表示部120は、寄与度提示画像生成部193が生成した寄与度提示画像と、画像表現データが分類されたクラスにおける典型の寄与度提示画像とされる画像とを表示するようにしてもよい。
被採取者など寄与度提示画像を見る者は、寄与度提示画像生成部193が生成した寄与度提示画像と、画像表現データが分類されたクラスにおける典型の寄与度提示画像とされる画像とがどの程度類似しているかを判断することで、例えば、病気の進行の程度、あるいは、病気の重さを推定することができる。
【0067】
また、クラス分類部194は、画像表現データ(例えば、発現量データ画像)を、健常クラス、病気毎のクラス、および、病気毎のクラスのうち少なくとも1つのクラスに応じて設けられた、その病気の未病のクラスの何れかに分類するようにしてもよい。
これにより、画像生成装置100は、健常および病気と未病とを区別して提示することができる。
【0068】
図1の画像生成装置100が、寄与度提示画像を生成して表示するのに対し、寄与度提示画像を提供する装置と、寄与度提示画像を表示する装置とが別々の装置として構成されていてもよい。
図8は、実施形態に係る表示装置の構成の第一例を示す図である。図8に示す構成で、表示システム310は、画像提供装置311と、表示装置312とを備える。表示装置312は、画像取得部313と、表示部314とを備える。
【0069】
かかる構成で、画像提供装置311は、寄与度提示画像を表示装置312に送信する。上述したように、寄与度提示画像は、マイクロRNAの種類毎の発現量を示すデータが変換された画像表現データのクラス分類における、その画像表現データの部分の寄与度を示す画像である。画像提供装置311が、画像生成装置100と同様の方法で寄与度提示画像を生成するようにしてもよい。あるいは、画像提供装置311が、既に生成されている寄与度提示画像を記憶しておき、記憶している寄与度提示画像を表示装置312へ送信するようにしてもよい。
【0070】
表示装置312では、画像取得部313が画像提供装置311から寄与度提示画像を取得する。具体的には、画像取得部313は、画像提供装置311からのデータを受信し、受信データから寄与度提示画像を抽出する。
表示部314は、画像取得部313が取得した寄与度提示画像を表示する。
画像提供装置311と表示装置312とが別々の国に設けられていてもよい。
【0071】
図1の画像生成装置100が備える画像化部182は、必須ではない。
図9は、実施形態に係る表示装置の構成の第二例を示す図である。図9に示す構成で、表示装置320は、クラス分類部321と、根拠提示画像生成部322と、表示部323とを備える。
かかる構成で、クラス分類部321は、発現量データをクラス分類する。上述したように、発現量データは、マイクロRNAの種類毎の発現量を示すデータである。
【0072】
根拠提示画像生成部322は、根拠提示画像を生成する。根拠提示画像は、クラス分類部321によるクラス分類の根拠を2次元画像で提示するための画像である。例えば、根拠提示画像生成部322が、発現量データから抽出される特徴量とクラス分類部321によるクラス分類の基準との差異を2次元画像化した画像を根拠提示画像として生成するようにしてもよい。
表示部323は、根拠提示画像生成部322が生成した根拠提示画像を表示する。
【0073】
図10は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。図10に示す構成で、コンピュータ700は、CPU(Central Processing Unit)710と、主記憶装置720と、補助記憶装置730と、インタフェース740とを備える。
【0074】
上記の画像生成装置100、表示装置312、および、表示装置320のうち何れか1つ以上が、コンピュータ700に実装されてもよい。その場合、上述した各処理部の動作は、プログラムの形式で補助記憶装置730に記憶されている。CPU710は、プログラムを補助記憶装置730から読み出して主記憶装置720に展開し、当該プログラムに従って上記処理を実行する。また、CPU710は、プログラムに従って、上述した各記憶部に対応する記憶領域を主記憶装置720に確保する。補助記憶装置730は、たとえば、CDC(Compact Disc)や、DVD(digital versatile disc)等の不揮発性(non-transitory)記録媒体である。
【0075】
画像生成装置100がコンピュータ700に実装される場合、制御部180およびその各部の動作は、プログラムの形式で補助記憶装置730に記憶されている。CPU710は、プログラムを補助記憶装置730から読み出して主記憶装置720に展開し、当該プログラムに従って上記処理を実行する。
また、CPU710は、プログラムに従って記憶部170対応する記憶領域を主記憶装置720に確保する。
通信部110が行う他の装置との通信は、インタフェース740が通信機能を有し、CPU710の制御に従って通信を行うことで実行される。表示部120の機能は、インタフェース740が表示装置を備え、CPU710の制御に従って画像を表示することで実行される。操作入力部130の機能は、インタフェース740が入力デバイスを備えてユーザ操作を受け付け、受け付けたユーザ操作を示す信号をCPU710に出力することで実行される。
【0076】
表示装置312がコンピュータ700に実装される場合、画像取得部313の機能は、例えばインタフェース740による通信機能を、CPU710がプログラムに従って制御することで実行される。表示部314の機能は、インタフェースが備える表示画面をCPU710がプログラムに従ってすることで実行される。
【0077】
表示装置320がコンピュータ700に実装される場合、クラス分類部321および根拠提示画像生成部322の動作は、プログラムの形式で補助記憶装置730に記憶されている。CPU710は、プログラムを補助記憶装置730から読み出して主記憶装置720に展開し、当該プログラムに従って上記処理を実行する。表示部323の機能は、インタフェースが備える表示画面をCPU710がプログラムに従ってすることで実行される。
【0078】
なお、制御部180、表示装置312、および、表示装置320の全部または一部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することで各部の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OS(Operating System)や周辺機器等のハードウェアを含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM(Read Only Memory)、CD-ROM(Compact Disc Read Only Memory)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0079】
以上、本発明の実施形態を図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。
【符号の説明】
【0080】
100 画像生成装置
110 通信部
120、314、323 表示部
130 操作入力部
170 記憶部
180 制御部
181 発現量データ取得部
182 画像化部
190 視覚化部
191 特徴量抽出部
192 重み計算部
193 寄与度提示画像生成部
194、321 クラス分類部
195 機械学習制御部
211 エンコーダ
212 デコーダ
213 乗算器
214 平均演算部
215 Argmax演算部
310 表示システム
311 画像提供装置
312、320 表示装置
313 画像取得部
322 根拠提示画像生成部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10