(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024018993
(43)【公開日】2024-02-08
(54)【発明の名称】医用画像からのゲノムバイオマーカー予測
(51)【国際特許分類】
G06T 7/00 20170101AFI20240201BHJP
G06V 10/82 20220101ALI20240201BHJP
G16H 50/20 20180101ALI20240201BHJP
【FI】
G06T7/00 350C
G06T7/00 612
G06V10/82
G16H50/20
【審査請求】有
【請求項の数】20
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023106400
(22)【出願日】2023-06-28
(31)【優先権主張番号】17/876,713
(32)【優先日】2022-07-29
(33)【優先権主張国・地域又は機関】US
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.SMALLTALK
(71)【出願人】
【識別番号】399037405
【氏名又は名称】楽天グループ株式会社
(74)【代理人】
【識別番号】110000154
【氏名又は名称】弁理士法人はるか国際特許事務所
(72)【発明者】
【氏名】シュレヤ シャルマ
(72)【発明者】
【氏名】スリカンス ラゴサマン
(72)【発明者】
【氏名】シャンタヌ マジュムダル
【テーマコード(参考)】
5L096
5L099
【Fターム(参考)】
5L096AA06
5L096BA06
5L096BA13
5L096DA02
5L096EA39
5L096FA02
5L096FA32
5L096GA51
5L096HA11
5L096JA03
5L096KA04
5L099AA04
(57)【要約】 (修正有)
【課題】ゲノムバイオマーカースコアを予測する医用画像の画像処理を行う方法、装置及び非一時的コンピューター可読媒体を提供する。
【解決手段】画像処理及びゲノムバイオマーカー予測方法は、1つ以上の医用画像を受け取り、組織領域を、1つ以上の医用画像のそれぞれにおいて特定し、それぞれの特定した組織領域に関連したパッチを生成し、分布スムーザー及び重み付き損失関数を使用してトレーニングされるニューラルネットワークモデルに基づいてパッチのそれぞれのパッチ腫瘍量(TMB)スコアを予測し、1つ以上の医用画像のそれぞれの腫瘍量スコアを、1つ以上の医用画像のそれぞれの医用画像におけるそれぞれの特定した組織領域に関連したパッチのパッチ腫瘍量スコアに基づいて生成する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
1つ以上のプロセッサによって実行可能な、医用画像の画像処理を行うニューラルネットワークベースの方法であって、
1つ以上の医用画像を受け取ることと、
前記1つ以上の医用画像のそれぞれにおける組織領域を特定することと、
前記それぞれの特定された組織領域に関連したパッチを生成することと、
分布スムーザー及び重み付き損失関数を使用してトレーニングされるニューラルネットワークモデルに基づいて前記パッチのそれぞれのパッチ腫瘍量スコアを予測することと、
前記1つ以上の医用画像のそれぞれの医用画像における前記それぞれの特定された組織領域に関連した前記パッチの前記パッチ腫瘍量スコアに基づいて、前記1つ以上の医用画像のそれぞれの腫瘍量スコアを生成することと、
を含む方法。
【請求項2】
前記分布スムーザーを使用して前記ニューラルネットワークモデルをトレーニングすることは、
近傍のラベルにおけるデータサンプルの情報の類似度に基づいて、腫瘍量スコアラベルの平滑密度を推定することと、
前記腫瘍量スコアラベルの前記平滑密度に基づいて、前記各腫瘍量スコアラベルの重みを計算することと、
損失関数及び前記計算された重みに基づいて、前記各腫瘍量スコアラベルのモデル重みを生成することと、
を含む、請求項1に記載の方法。
【請求項3】
前記腫瘍量スコアラベルの前記平滑密度に基づく前記各腫瘍量スコアラベルの前記計算された重みは、当該それぞれの腫瘍量スコアラベルに属するサンプルの数に反比例する、請求項2に記載の方法。
【請求項4】
前記方法は、前記パッチのそれぞれの前記腫瘍量スコアを予測する前に、ニューラルネットワークベースの特徴抽出器を使用して、前記それぞれの特定された組織領域に関連した前記パッチに基づいて特徴ベクトルを生成することを含み、前記特徴ベクトルは、前記ニューラルネットワークモデルへの入力として使用される、請求項1に記載の方法。
【請求項5】
前記ニューラルネットワークベースの特徴抽出器及び前記ニューラルネットワークモデルは同時にトレーニングされる、請求項4に記載の方法。
【請求項6】
前記方法は、所定の閾値に基づいて前記パッチ腫瘍量スコアを分類することを更に含む、請求項1に記載の方法。
【請求項7】
前記腫瘍量スコアを前記生成することは、前記1つ以上の医用画像のそれぞれの医用画像における前記それぞれの特定された組織領域に関連した所定の数のパッチの前記パッチ腫瘍量スコアの平均に基づいている、請求項1に記載の方法。
【請求項8】
医用画像の画像処理を行うニューラルネットワークベースのフレームワークの装置であって、
命令を記憶するメモリと、
少なくとも1つのプロセッサであって、前記命令を実行して、
1つ以上の医用画像を受信することと、
前記1つ以上の医用画像のそれぞれにおける組織領域を受け取ることと、
前記それぞれの特定された組織領域に関連したパッチを生成することと、
分布スムーザー及び重み付き損失関数を使用してトレーニングされるニューラルネットワークモデルに基づいて前記パッチのそれぞれのパッチ腫瘍量スコアを予測することと、
前記1つ以上の医用画像のそれぞれの医用画像における前記それぞれの特定された組織領域に関連した前記パッチの前記パッチ腫瘍量スコアに基づいて、前記1つ以上の医用画像のそれぞれの腫瘍量スコアを生成することと、
を行うように構成される、少なくとも1つのプロセッサと、
を備える、装置。
【請求項9】
前記少なくとも1つのプロセッサは、前記分布スムーザーを使用して前記ニューラルネットワークベースのフレームワークをトレーニングする命令、すなわち、
近傍のラベルにおけるデータサンプルの情報の類似度に基づいて、腫瘍量スコアラベルの平滑密度を推定する命令と、
前記腫瘍量スコアラベルの前記平滑密度に基づいて、前記各腫瘍量スコアラベルの重みを計算する命令と、
損失関数及び前記計算された重みに基づいて、前記各腫瘍量スコアラベルのモデル重みを生成する命令と、
を実行するように更に構成される、請求項8に記載の装置。
【請求項10】
前記腫瘍量スコアラベルの前記平滑密度に基づく前記各腫瘍量スコアラベルの前記計算された重みは、当該それぞれの腫瘍量スコアラベルに属するサンプルの数に反比例する、請求項9に記載の装置。
【請求項11】
前記少なくとも1つのプロセッサは、前記パッチのそれぞれの前記腫瘍量スコアを予測する前に、ニューラルネットワークベースの特徴抽出器を使用して、前記それぞれの特定された組織領域に関連した前記パッチに基づいて特徴ベクトルを生成する命令を実行するように更に構成され、前記特徴ベクトルは、前記ニューラルネットワークモデルへの入力として使用される、請求項8に記載の装置。
【請求項12】
前記ニューラルネットワークベースの特徴抽出器及び前記ニューラルネットワークモデルは同時にトレーニングされる、請求項11に記載の装置。
【請求項13】
前記パッチ腫瘍量スコアは所定の閾値に基づいている、請求項8に記載の装置。
【請求項14】
前記腫瘍量スコアを前記生成することは、前記1つ以上の医用画像のそれぞれの医用画像における前記それぞれの特定された組織領域に関連した所定の数のパッチの前記パッチ腫瘍量スコアの平均に基づいている、請求項8に記載の装置。
【請求項15】
医用画像の画像処理を行うニューラルネットワークベースの方法の命令を記憶する非一時的コンピューター可読媒体であって、前記命令は、1つ以上のプロセッサによって実行されると、
1つ以上の医用画像を受け取ることと、
前記1つ以上の医用画像のそれぞれにおける組織領域を特定することと、
前記それぞれの特定された組織領域に関連したパッチを生成することと、
分布スムーザー及び重み付き損失関数を使用してトレーニングされるニューラルネットワークモデルに基づいて前記パッチのそれぞれのパッチ腫瘍量スコアを予測することと、
前記1つ以上の医用画像のそれぞれの医用画像における前記それぞれの特定された組織領域に関連した前記パッチの前記パッチ腫瘍量スコアに基づいて、前記1つ以上の医用画像のそれぞれの腫瘍量スコアを生成することと、
を前記1つ以上のプロセッサに行わせる1つ以上の命令を含む、非一時的コンピューター可読媒体。
【請求項16】
前記分布スムーザーを使用して前記ニューラルネットワークベースのフレームワークをトレーニングする命令を更に含み、
前記トレーニングする命令は、前記1つ以上のプロセッサによって実行されると、
近傍のラベルにおけるデータサンプルの情報の類似度に基づいて、腫瘍量スコアラベルの平滑密度を推定することと、
前記腫瘍量スコアラベルの前記平滑密度に基づいて、前記各腫瘍量スコアラベルの重みを計算することと、
損失関数及び前記計算された重みに基づいて、前記各腫瘍量スコアラベルのモデル重みを生成することと、
を前記1つ以上のプロセッサに行わせる、請求項15に記載の非一時的コンピューター可読記録媒体。
【請求項17】
前記腫瘍量スコアラベルの前記平滑密度に基づく前記各腫瘍量スコアラベルの前記計算された重みは、前記それぞれの腫瘍量スコアラベルに属するサンプルの数に反比例する、請求項16に記載の非一時的コンピューター可読記録媒体。
【請求項18】
前記パッチのそれぞれの前記腫瘍量スコアを予測する前に、前記1つ以上の命令は、前記1つ以上のプロセッサによって実行されると、ニューラルネットワークベースの特徴抽出器を使用して、前記それぞれの特定された組織領域に関連した前記パッチに基づいて特徴ベクトルを前記1つ以上のプロセッサに生成させ、前記特徴ベクトルは、前記ニューラルネットワークモデルへの入力として使用される、請求項15に記載の非一時的コンピューター可読記録媒体。
【請求項19】
前記ニューラルネットワークベースの特徴抽出器及び前記ニューラルネットワークモデルは同時にトレーニングされる、請求項18に記載の非一時的コンピューター可読記録媒体。
【請求項20】
前記パッチ腫瘍量スコアは所定の閾値に基づいている、請求項15に記載の非一時的コンピューター可読記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、画像処理に関する。より詳細には、本開示は、機械学習を使用する画像処理に関する。
【背景技術】
【0002】
遺伝子マーカー又はゲノムバイオマーカーは、癌免疫療法を行う間、ますます多く使用されている。一例として、腫瘍遺伝子変異量(TMB:Tumor Mutational Burden)が、癌免疫療法において使用される主要なゲノムバイオマーカーである。ゲノムバイオマーカーに関連したより高い値又はより低い値は、或る特定の癌に対して、また、応答患者と非応答患者とを分離するためのより良好な免疫療法応答に関連している。例えば、高いTMB値は、肺癌だけでなく他の固形腫瘍においても、より良好な免疫療法応答に関連している。加えて、TMBは、多くの臨床試験において応答患者と非応答患者とを分離する予測力を示してきた。その結果、腫瘍専門医は、免疫療法の処方を決定する際にゲノムバイオマーカーを検討することがますます多くなっている。しかしながら、全エクソームシークエンシング(WES:whole-exome sequencing)及びゲノムデータ処理に基づいてゲノムバイオマーカーを測定する従来の方法は、非常に多くの時間、リソース、及びコストを要し、これによって、多くの患者へのゲノムバイオマーカーの利用が制限される。
【発明の概要】
【発明が解決しようとする課題】
【0003】
したがって、広く利用可能なリソースと、よりアクセス可能な技術とを活用する、ゲノムバイオマーカー値を求める方法が必要とされている。
【課題を解決するための手段】
【0004】
実施の形態は、ゲノムバイオマーカースコアを予測する医用画像の画像処理の方法、システム、及びコンピューター可読媒体に関する。
【0005】
1つの態様によれば、医用画像の画像処理を行うニューラルネットワークベースの方法が提供される。該方法は、1つ以上のプロセッサによって実行されてよく、1つ以上の医用画像を受け取ることと、前記1つ以上の医用画像のそれぞれにおける組織領域を特定することと、前記それぞれの特定された組織領域に関連したパッチを生成することと、分布スムーザー及び重み付き損失関数を使用してトレーニングされるニューラルネットワークモデルに基づいて前記パッチのそれぞれのパッチ腫瘍量スコアを予測することと、前記1つ以上の医用画像のそれぞれの医用画像における前記それぞれの特定された組織領域に関連した前記パッチの前記パッチ腫瘍量スコアに基づいて、前記1つ以上の医用画像のそれぞれの腫瘍量スコアを生成することとを含んでよい。
【0006】
別の態様によれば、医用画像の画像処理を行うニューラルネットワークベースのフレームワークの装置が提供されてよい。該装置は、命令を記憶するメモリと、前記命令を実行するように構成される少なくとも1つのプロセッサとを備えてよい。前記命令は、1つ以上の医用画像を受け取ることと、前記1つ以上の医用画像のそれぞれにおける組織領域を特定することと、前記それぞれの特定された組織領域に関連したパッチを生成することと、分布スムーザー及び重み付き損失関数を使用してトレーニングされるニューラルネットワークモデルに基づいて前記パッチのそれぞれのパッチ腫瘍量スコアを予測することと、前記1つ以上の医用画像のそれぞれの医用画像における前記それぞれの特定された組織領域に関連した前記パッチの前記パッチ腫瘍量スコアに基づいて、前記1つ以上の医用画像のそれぞれの腫瘍量スコアを生成することとを含んでよい。
【0007】
更に別の態様によれば、医用画像の画像処理を行うニューラルネットワークベースの方法の命令を記憶する非一時的コンピューター可読媒体が提供されてよい。前記命令は、1つ以上のプロセッサによって実行されると、1つ以上の医用画像を受け取ることと、前記1つ以上の医用画像のそれぞれにおける組織領域を特定することと、前記それぞれの特定された組織領域に関連したパッチを生成することと、分布スムーザー及び重み付き損失関数を使用してトレーニングされるニューラルネットワークモデルに基づいて前記パッチのそれぞれのパッチ腫瘍量スコアを予測することと、前記1つ以上の医用画像のそれぞれの医用画像における前記それぞれの特定された組織領域に関連した前記パッチの前記パッチ腫瘍量スコアに基づいて、前記1つ以上の医用画像のそれぞれの腫瘍量スコアを生成することとを前記1つ以上のプロセッサに行わせる1つ以上の命令を含んでよい。
【0008】
これらの目的、特徴及び利点並びに他の目的、特徴及び利点は、添付図面とともに読まれるべき例示の実施形態の以下の詳細な説明から明らかになる。図面の様々な特徴部は正確な縮尺でない。それらの説明図は、詳細な説明に関する当業者の理解を容易にするときに明瞭にするためのものであるからである。
【図面の簡単な説明】
【0009】
【
図1】一実施形態によるネットワークコンピューター環境を示す図である。
【
図2】一実施形態による、画像処理及びゲノムバイオマーカー予測のディープラーニングシステムのブロック図である。
【
図3】一実施形態による、画像処理及びゲノムバイオマーカー予測を示す一例示的なフローチャートである。
【
図4】一実施形態による
図1に示すコンピューター及びサーバーの内部構成要素及び外部構成要素のブロック図である。
【発明を実施するための形態】
【0010】
請求項に記載の構成及び方法の詳細な実施形態が本明細書に開示されるが、開示される実施形態は、様々な形態で具現化することができる請求項に記載の構成及び方法の単なる例示にすぎないことを理解することができる。しかしながら、それらの構成及び方法は、多くの異なる形態で具現化することができ、本明細書において説明する例示的な実施形態に限定されるものと解釈されるべきでない。むしろ、これらの例示的な実施形態は、本開示が十分且つ完全なものとなり、その範囲が当業者に十分伝わるように提供される。本明細書において、既知の特徴及び技法の詳細は、提示される実施形態を不必要に分かりにくくすることを回避するために省略される場合がある。
【0011】
本開示の実施形態は、全般的には画像処理に関し、より詳細には機械学習に関する。以下に記載の例示的な実施形態は、とりわけ、画像データをセグメンテーションするとともに画像データから特徴を抽出するシステム、方法及びコンピュータープログラムを提供する。したがって、いくつかの実施形態は、病理組織画像等の医用画像において、腫瘍遺伝子変異量(TMB)値を選択的に突き止めて求めることを使用できるようにすることによって計算の分野を改良する能力を有する。実施形態によれば、本明細書の全体を通して、病理組織画像が、使用されてよい医用画像の非限定の例として使用される。任意の適した医用画像が使用されてもよい。
【0012】
関連技術において、病理組織画像を処理することは、専ら、腫瘍がTMB高であるのか又はTMB低であるのかを予測する分類タスクである。そのような分類は、病理学者にとって、適切な閾値自体を選択し、患者を3つ以上のカテゴリーに階層分けするための柔軟性が限られているので、実用性が低い。一方、TMB閾値が癌のタイプによって変化することから標準的なTMB閾値は存在しないので、分類が単なるTMB高又はTMB低であることは、関連技術の大きな欠点である。さらに、連続的なTMBスコアを予測するために回帰タスクに適用される関連技術の方法は、或る特定のTMBスコアが大幅に少なく観測される場合に、目標値の非常に大きなデータ不均衡に起因して低い性能を一貫して有する。一例として、モデルは、不均衡な分布に起因してマーカーの低い値に向けてバイアスされることがあり、これによって、正確度は低くなる。
【0013】
したがって、容易に入手可能な病理組織画像を処理し、ディープラーニング回帰モデルを使用してゲノムマーカーを直接予測するシステム、方法、及びコンピュータープログラムが本明細書において提供される。本開示の一態様によれば、分布スムーザーが、モデルトレーニング中に、ラベルの連続性に基づいてトレーニングラベルの予想分布を推定してデータ不均衡を補償するために用いられてよい。推定された分布は、サンプルの重みを導出し、重み付き損失関数を用いてモデルをトレーニングするのに使用されてよい。その結果、モデルは、多数及び少数の頻度のサンプルの両方から効果的にトレーニングされてよく、TMBスコア範囲全体にわたって一般化されてよい。
【0014】
本開示の実施形態によれば、離散的なクラスの代わりに連続的なTMBスコアを予測することは、診療所においてより実用的な用途を有し、適切な閾値を自身で選択する柔軟性を病理学者に提供する。さらに、本明細書に開示されるモデルは、分布スムーザー及び重み付き損失関数の使用に基づいて、不均衡な設定において連続的なTMBスコア範囲にわたって一般化されてよい。本明細書に開示される一般化されたゲノムバイオマーカー予測フレームワークは、他の癌のタイプ、及び、マイクロサテライト不安定性(MSI:Microsatellite Instability)バイオマーカー/ミスマッチ修復機能欠損(dMMR:deficiency Mismatch Repair)、染色体不安定性(CIN:Chromosomal Instability)バイオマーカー等の他のバイオマーカーに拡張されてよい。医用画像からゲノムバイオマーカーを直接予測することは、ゲノムテストのコストを節減し、治療結果を改善し、ゲノムデータセットを豊富にする。
【0015】
以下に記載の例示的な実施形態は、分布スムーザー及び重み付き損失関数を使用することによって、不均衡な設定において連続的なTMBスコア範囲を予測する一般化されたプロセスを提供する。本明細書における例示的な実施形態は、病病理組織画像から連続的なTMBスコア範囲を予測することに関して説明されるが、本開示は、これに限定されるものではなく、他の癌のタイプ及びこれらの癌のタイプにおける他のバイオマーカーの任意のゲノムバイオマーカー予測に適用可能であってもよいことがわかる。
【0016】
次に
図1を参照すると、ネットワークコンピューター環境の機能ブロック図は、病理組織画像からTMBスコアの予測を行う画像処理システム100(以下「システム」)を示している。
図1は、1つの実施態様の例示に提供しているにすぎず、異なる実施形態が実施されてよい環境に関して何らの限定も暗示するものでないことが理解されるべきである。図示した環境に対して、設計及び実施の要件に基づいて多くの変更が行われてもよい。
【0017】
システム100は、コンピューター102とサーバーコンピューター114とを含んでよい。コンピューター102は、通信ネットワーク110(以下「ネットワーク」)を介してサーバーコンピューター114と通信してよい。コンピューター102は、プロセッサ104と、データ記憶デバイス106に記憶され、ユーザーとのインターフェース及びサーバーコンピューター114との通信に使用可能なソフトウェアプログラム108とを含んでよい。
図4を参照して以下で論述するように、コンピューター102は、内部構成要素800A及び外部構成要素900Aをそれぞれ含んでよく、サーバーコンピューター114は、内部構成要素800B及び外部構成要素900Bをそれぞれ含んでよい。コンピューター102は、例えば、モバイルデバイス、電話、パーソナルデジタルアシスタント、ネットブック、ラップトップコンピューター、タブレットコンピューター、デスクトップコンピューター、又はプログラムの実行、ネットワークへのアクセス、及びデータベースへのアクセスが可能な任意のタイプのコンピューティングデバイスであってよい。
【0018】
ゲノムバイオマーカー予測に使用されうるサーバーコンピューター114は、データベース112とインタラクトしうるゲノムバイオマーカー予測プログラム116(以下「プログラム」)を実行することが可能である。ゲノムバイオマーカー予測プログラム方法は、本明細書においてより詳細に説明される。1つの実施形態において、コンピューター102は、ユーザーインターフェースを含む入力デバイスとして動作してよく、プログラム116は、主としてサーバーコンピューター114上で実行してよい。代替の実施形態において、プログラム116は、主として1つ以上のコンピューター102上で実行してもよく、サーバーコンピューター114は、プログラム116によって使用されるデータの処理及び記憶に使用されてよい。プログラム116は、スタンドアローンプログラムであってもよいし、ゲノムバイオマーカー予測プログラム内に統合されてもよいことに留意されたい。
【0019】
一方、プログラム116の処理は、場合によっては、コンピューター102とサーバーコンピューター114との間で任意の比率で共有されてよいことに留意されたい。別の実施形態において、プログラム116は、2つ以上のコンピューター、サーバーコンピューター、又はコンピューター及びサーバーコンピューターの或る組み合わせ上で動作してよく、例えば、ネットワーク110により単一のサーバーコンピューター114と通信する複数のコンピューター102上で動作してよい。別の実施形態において、例えば、プログラム116は、ネットワーク110により複数のクライアントコンピューターと通信する複数のサーバーコンピューター114上で動作してよい。或いは、プログラムは、ネットワークによりサーバー及び複数のクライアントコンピューターと通信するネットワークサーバー上で動作してもよい。
【0020】
ネットワーク110は、有線接続、無線接続、光ファイバ接続、又はそれらのいくつかの組み合わせを含んでよい。一般に、ネットワーク110は、コンピューター102とサーバーコンピューター114との間の通信をサポートする接続及びプロトコルの任意の組み合わせとすることができる。ネットワーク110は、例えば、ローカルエリアネットワーク(LAN:local area network)、インターネット等のワイドエリアネットワーク(WAN:wide area network)、公衆交換電話ネットワーク(PSTN:Public Switched Telephone Network)等の電気通信ネットワーク、無線ネットワーク、公衆交換ネットワーク、衛星ネットワーク、セルラネットワーク(例えば、第5世代(5G)ネットワーク、ロングタームエボリューション(LTE:long-term evolution)ネットワーク、第3世代(3G)ネットワーク、符号分割多元接続(CDMA:code division multiple access)ネットワーク等)、公衆陸上モバイルネットワーク(PLMN:public land mobile network)、メトロポリタンエリアネットワーク(MAN:metropolitan area network)、プライベートネットワーク、アドホックネットワーク、イントラネット、光ファイバベースのネットワーク等、及び/又はこれらのタイプ若しくは他のタイプのネットワークの組み合わせ等の様々なタイプのネットワークを含んでよい。
【0021】
図1に示すデバイス及びネットワークの数及び配置は一例として提供されている。実際には、
図1に示すものに対して追加のデバイス及び/又はネットワーク、より少ないデバイス及び/又はネットワーク、異なるデバイス及び/又はネットワーク、又は異なる配置のデバイス及び/又はネットワークが存在してもよい。さらに、
図1に示す2つ以上のデバイスを単一のデバイス内に実装してもよく、
図1に示す単一のデバイスを複数の分散デバイスとして実装してもよい。これに加えて又は替えて、システム100のデバイス(例えば、1つ以上のデバイス)のセットが、システム100のデバイスの別のセットによって実行されるものとして説明される1つ以上の機能を実行してもよい。
【0022】
図2は、病理組織画像に基づいてTMBスコアを予測するゲノムバイオマーカー予測方法400のブロック図である。ゲノムバイオマーカー予測方法400は、プリプロセッサ202、パッチ抽出器204、特徴抽出器206、回帰モデル208、重み付き損失関数210、及び分布スムーザー212を含んでよい。
【0023】
本開示の実施形態は、特定の癌に関連したTMBスコアを検出するために、特定のデータセット、特定の技法を使用して説明されてよい。これらの例示的な実施形態は、単なる一例として使用されているにすぎず、限定を意図するものではない。
【0024】
本開示の一態様によれば、癌の病理組織画像のデータセットの全エクソームシークエンシング(WES)から計算されるTMBスコアが正解(ground truth)として使用されてよい。一例として、頭頸部扁平上皮癌(HNSC:head and neck squamous cell carcinoma)の癌ゲノムアトラス(TCGA:the Cancer Genome Atlas)からの公に利用可能なデータセットが使用されてよい。必要に応じて当該技術において知られているような他の利用可能なデータセットが使用されてもよい。ホールスライド画像(WSI:whole-slide image)及びWESデータの双方が利用可能である主な腫瘍サンプルがデータセットから選択され、正解を求めるのに使用されてよい。一例として、方法400は、WESデータが利用可能であるヘマトキシリンエオジンホールスライド画像(H&E WSI:Hematoxylin and Eosin whole-slide image)を使用してもよい。プリプロセッサ202は、大津の閾値処理若しくは他の任意の適した技法等の従来の方法、又は高度なニューラルネットワークベースの方法を使用して、このプロセスにおける組織領域のみを選択し、背景領域を除去してもよい。いくつかの実施形態において、パッチ抽出器204が、所定のサイズのパッチを抽出してもよい。一例として、パッチ抽出器204は、選択及び/又は前処理された各領域からサイズ224×224(112ミクロン×112ミクロン)のパッチを抽出し、特徴抽出及び回帰のために画像ごとに8000個のパッチをサンプリングしてもよい。いくつかの実施形態において、パッチ抽出器204は使用されなくてもよく、ホール(whole)医用画像が使用されてもよい。一例として、十分な計算能力及びメモリを有するデバイスが使用されるとき、パッチを抽出することなくホール医用画像が使用されてもよい。
【0025】
実施形態によれば、パッチ抽出器を使用したパッチの生成に続いて、ニューラルネットワークベース(例えば、CNNベース、DNNベース)の特徴抽出器206が、パッチから特徴を抽出してよく、1つ以上の回帰モデルのうちの回帰モデル208が、抽出された特徴からTMBスコアを予測してよい。回帰モデル208は、各パッチのTMBスコアを予測してもよく、全てのパッチの予測が、ホールスライド画像レベル(WSI)TMBスコアを取得するために平均されてもよい。いくつかの実施形態において、回帰モデル208は、各パッチのTMBスコアを予測してもよく、予測された最も高いTMBスコアが、ホールスライド画像レベル(WSI)TMBスコアを取得するために使用されてもよい。いくつかの実施形態において、回帰モデル208は、各パッチのTMBスコアを予測してもよく、最も高い所定の数のパッチの予測が、ホールスライド画像レベル(WSI)TMBスコアを取得するために平均されてもよい。
【0026】
TMBスコアは、1つ以上の事前にトレーニングされたモデル又はエンドツーエンドモデルを使用して求められてもよい。1つ以上の事前にトレーニングされたモデルが使用される場合には、事前にトレーニングされたニューラルネットワークが、特徴抽出に使用されてよく、トレーニングされたn層の多層パーセプトロンモデルが、TMBスコアを求めるのに使用されてよい。一例として、事前にトレーニングされたResNet50ニューラルネットワークが、特徴抽出に使用されてよく、トレーニングされた2層の多層パーセプトロンが、TMBを求めるのに使用されてよい。エンドツーエンドモデルが使用される場合には、特徴抽出器206及び回帰モデル208の双方が同時にトレーニングされてよい。他のモデルと比較してより少ないパラメーターでより高い性能を有しうるのでエンドツーエンドモデルが使用されてよく、したがって、小さなデータセットによりトレーニングするのがより容易であり得る。
【0027】
分布スムーザー212が、連続的なTMBスコア予測における不均衡の影響を削減するのに使用されてよい。ラベル分布平滑化(LDS:Label distribution smoothing)が、TMBスコアラベルの平滑化密度を推定するのに使用されてよい。LDS方法では、カーネル密度推定が、対称的なカーネルをTMBラベル密度とともに畳み込み、TMBラベルのカーネル平滑化分布を生成するのに使用されてよい。この畳み込み演算は、近傍のラベルにおけるデータサンプルの情報の類似度を考慮し、その結果、元のラベル分布と比較してスパース性が低い平滑化ラベル分布をもたらし、欠落しているTMBラベルを補償する。一例として、ガウシアンカーネル及びラプラシアンカーネルが使用されてよい。いくつかの実施形態において、特徴分布平滑化(FDS:feature distribution smoothing)が、特徴抽出器206によって学習された特徴に基づいて平滑化特徴空間を推定するのに使用されてもよい。いくつかの実施形態において、LDS及びFDSの組み合わせが使用されてもよい。
【0028】
推定された平滑化分布に基づいて、LDS推定された平滑化ラベル密度の逆数又は平方根逆数を取ることによって各TMBラベルの重みが計算されてよい。これは、より少ない数のサンプルを有するTMBラベルには、より多くの数のサンプルを有するTMBラベルと比較してより大きな重みがモデルトレーニング中に与えられることを確保し、このモデルが目標範囲全体にわたって良好に一般化されることを可能にする。これらの重みは、以下の式を使用して特徴抽出及び回帰モデルをトレーニングする回帰損失関数において乗算されてよく、この回帰損失関数には、平均二乗誤差(MSE:mean-squared error)、二乗平均平方根誤差、フーバー(Huber)損失、平均絶対損失が含まれるが、これらに限定されるものではない。
【0029】
【0030】
ここで、iは、総数N個のトレーニング画像の中からの第iの画像を示し、wiは、第iの画像の重みを示し、ytrue
iは、正解を示し、ypred
iは、第iのトレーニング画像の予測されたTMBスコアを示す。
【0031】
本開示の一態様によれば、所定の数のサンプルは、データセットから選択されてよく、トレーニングと、検証と、重複しない患者とに分割されてよい。サンプリングは、使用されるデータセットに依存するものであってもよい。トレーニングセットは、ディープラーニング回帰モデルをトレーニングするのに使用されてよく、検証セットは、ハイパーパラメーターのチューニングに使用されてよく、テストセットは、ベースラインに対する性能の評価に使用されてよい。
【0032】
図3は、ニューラルネットワークベースの方法を使用してゲノムバイオマーカーを予測する病理組織画像の画像処理の一例示的なプロセス300を示す図である。
【0033】
動作302において、1つ以上の医用画像が受信されてよい。いくつかの実施形態において、1つ以上の病理組織画像が受信されてよい。
【0034】
動作304において、1つ以上の医用画像のそれぞれにおける組織領域が特定されてよい。いくつかの実施形態において、1つ以上の病理組織画像のそれぞれにおける組織領域が特定されてもよい。一例として、プリプロセッサ202が、1つ以上の病理組織画像のそれぞれにおける組織領域を特定してよい。
【0035】
動作306において、それぞれの特定された組織領域に関連したパッチが生成されてよい。一例として、パッチ抽出器204が生成されてよく、パッチは、それぞれの特定された組織領域に関連付けられてよい。
【0036】
動作308において、パッチのそれぞれのパッチ腫瘍量スコアが、ニューラルネットワークモデルに基づいて予測されてよく、このニューラルネットワークモデルは、分布スムーザー及び重み付き損失関数を使用してトレーニングされる。いくつかの実施形態において、分布スムーザーを使用してニューラルネットワークモデルをトレーニングすることは、近傍のラベルにおけるデータサンプルの情報の類似度に基づいて腫瘍量スコアラベルの平滑密度を推定することと、各腫瘍量スコアラベルの重みをその腫瘍量スコアラベルの平滑密度に基づいて計算することと、損失関数及び計算された重みに基づいて各腫瘍量スコアラベルのモデル重みを生成することとを含んでよい。一例として、回帰モデル208は、パッチのそれぞれのパッチ腫瘍量スコアを予測してもよい。一例として、分布スムーザー212及び重み付き損失関数210は、回帰モデル208をトレーニングするのに使用されてもよい。トレーニングは、正解のTMBスコアを使用することを含んでもよい。いくつかの実施形態において、ニューラルネットワークベースの特徴抽出器及びニューラルネットワークモデルは、同時にトレーニングされてよい。ニューラルネットワークモデルは回帰モデルであってもよい。
【0037】
いくつかの実施形態において、腫瘍量スコアラベルの平滑密度に基づいて計算された各腫瘍量スコアラベルの重みは、それぞれの腫瘍量スコアラベルに属するサンプルの数に反比例してよい。
【0038】
いくつかの実施形態において、動作308は、パッチのそれぞれの腫瘍量スコアを予測する前に、ニューラルネットワークベースの特徴抽出器を使用して、それぞれの特定された組織領域に関連したパッチに基づいて特徴ベクトルを生成することを含んでもよく、これらの特徴ベクトルは、ニューラルネットワークモデルへの入力として使用される。
【0039】
動作310において、1つ以上の病理組織画像のそれぞれの腫瘍量スコアが、その1つ以上の病理組織画像のそれぞれの病理組織画像における、それぞれの特定された組織領域に関連したパッチのパッチ腫瘍量スコアの平均に基づいて生成されてよい。いくつかの実施形態において、パッチ腫瘍量スコアは、所定の閾値に基づいて分類されてもよい。
【0040】
図4は、一例示の実施形態による
図1に示すコンピューターの内部構成要素及び外部構成要素のブロック
図400である。
図4は、1つの実施態様の例示を提供しているにすぎず、種々の実施形態が実施されてよい環境に関して何らの限定も暗示するものでないことが理解されるべきである。設計及び実施の要件に基づいて、図示した環境に対して多くの変更が行われてもよい。
【0041】
コンピューター102(
図1)及びサーバーコンピューター114(
図1)は、内部構成要素800A、800B及び外部構成要素900A、900Bのそれぞれのセットを含んでよい。内部構成要素800のセットのそれぞれは、1つ以上のバス826上にある、1つ以上のプロセッサ820、1つ以上のコンピューター可読RAM822及び1つ以上のコンピューター可読ROM824と、1つ以上のオペレーティングシステム828と、1つ以上のコンピューター可読有形記憶デバイス830とを含む。
【0042】
プロセッサ820は、ハードウェア、ファームウェア、又はハードウェア及びソフトウェアの組み合わせで実施される。プロセッサ820は、CPU(central processing unit)、GPU(graphics processing unit)、APU(accelerated processing unit)、マイクロプロセッサ、マイクロコントローラ、DSP(digital signal processor)、FPGA(field-programmable gate array)、特定用途向け集積回路(ASIC:application-specific integrated circuit)、又は別のタイプの処理構成要素である。いくつかの実施態様では、プロセッサ820は、機能を実行するようにプログラミングすることが可能な1つ以上のプロセッサを含む。バス826は、内部構成要素800A、800Bの間の通信を可能にする構成要素を含む。
【0043】
1つ以上のオペレーティングシステム828、ソフトウェアプログラム108(
図1)及びサーバーコンピューター114(
図1)上のゲノムバイオマーカー予測プログラム116(
図1)は、それぞれのコンピューター可読有形記憶デバイス830のうちの1つ以上に記憶され、それぞれのRAM822(通常はキャッシュメモリを含む)のうちの1つ以上を介してそれぞれのプロセッサ820のうちの1つ以上によって実行される。
図4に示す実施形態において、コンピューター可読有形記憶デバイス830のそれぞれは、内部ハードドライブの磁気ディスク記憶デバイスである。或いは、コンピューター可読有形記憶デバイス830のそれぞれは、ROM824、EPROM、フラッシュメモリ等の半導体記憶デバイス、光ディスク、光磁気ディスク、ソリッドステートディスク、コンパクトディスク(CD:compact disc)、デジタル多用途ディスク(DVD:digital versatile disc)、フロッピディスク、カートリッジ、磁気テープ、及び/又はコンピュータープログラム及びデジタル情報を記憶することができる別のタイプの非一時的コンピューター可読有形記憶デバイスである。
【0044】
内部構成要素800A、800Bの各セットは、CD-ROM、DVD、メモリスティック、磁気テープ、磁気ディスク、光ディスク又は半導体記憶デバイス等の1つ以上のポータブルなコンピューター可読有形記憶デバイス936に対して読み出し及び書き込みを行うR/Wドライブ又はR/Wインターフェース832も含む。ソフトウェアプログラム108(
図1)及びゲノムバイオマーカー予測プログラム116(
図1)等のソフトウェアプログラムは、それぞれのポータブルなコンピューター可読有形記憶デバイス936のうちの1つ以上に記憶することができ、それぞれのR/Wドライブ又はR/Wインターフェース832を介して読み出すことができ、それぞれのハードドライブ830内にロードすることができる。
【0045】
内部構成要素800A、800Bの各セットは、TCP/IPアダプターカード、無線Wi-Fiインターフェースカード、3G、4G、若しくは5G無線インターフェースカード、又は他の有線通信リンク若しくは無線通信リンク等の、ネットワークアダプター又はネットワークインターフェース836も含む。ソフトウェアプログラム108(
図1)及びサーバーコンピューター114(
図1)上のゲノムバイオマーカー予測プログラム116(
図1)は、外部コンピューターからネットワーク(例えば、インターネット、ローカルエリアネットワーク等、ワイドエリアネットワーク)及びそれぞれのネットワークアダプター又はネットワークインターフェース836を介してコンピューター102(
図1)及びサーバーコンピューター114にダウンロードすることができる。ネットワークアダプター又はネットワークインターフェース836から、ソフトウェアプログラム108及びサーバーコンピューター114上のゲノムバイオマーカー予測プログラム116は、それぞれのハードドライブ830内にロードされる。ネットワークは、銅線、光ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピューター及び/又はエッジサーバーを含むことができる。
【0046】
外部構成要素900A、900Bのセットのそれぞれは、コンピューターディスプレイモニタ920、キーボード930、及びコンピューターマウス934を含みうる。外部構成要素900A、900Bは、タッチスクリーン、仮想キーボード、タッチパッド、ポインティングデバイス、及び他のヒューマンインターフェースデバイスも含むことができる。内部構成要素800A、800Bのセットのそれぞれは、コンピューターディスプレイモニタ920、キーボード930及びコンピューターマウス934にインターフェースするデバイスドライバー840も含む。デバイスドライバー840、R/Wドライブ又はR/Wインターフェース832及びネットワークアダプター又はネットワークインターフェース836は、ハードウェア及びソフトウェア(記憶デバイス830及び/又はROM824に記憶される)を備える。
【0047】
いくつかの実施形態は、任意の可能な技術的詳細統合レベルにおけるシステム、方法、及び/又はコンピューター可読媒体に関するものであってよい。コンピューター可読媒体は、プロセッサに動作を実行させるコンピューター可読プログラム命令を有するコンピューター可読非一時的記憶媒体(又は複数の媒体)を含んでよい。
【0048】
コンピューター可読記憶媒体は、命令実行デバイスによって使用される命令を保持及び記憶することができる有形デバイスとすることができる。コンピューター可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、又はこれらの任意の適した組み合わせとしてもよいが、これらに限定されるものではない。コンピューター可読記憶媒体のより具体的な例の非網羅的なリストは、次のもの、すなわち、ポータブルコンピューターディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピディスク、パンチカード又は命令が記録された溝内の突起構造といった機械的に符号化されたデバイス、及びそれらの任意の適した組み合わせを含む。本明細書において使用される場合、コンピューター可読記憶媒体は、電波若しくは他の自由に伝播する電磁波、導波路若しくは他の伝送媒体内を伝播する電磁波(例えば、光ファイバケーブルを通る光パルス)、又はワイヤ内を伝送される電気信号等の一時的な信号自体と解釈されるべきではない。
【0049】
本明細書に記載のコンピューター可読プログラム命令は、コンピューター可読記憶媒体からそれぞれのコンピューティング/処理デバイスに、又は、ネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び/又は無線ネットワークを介して外部コンピューター若しくは外部記憶デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送体、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピューター及び/又はエッジサーバーを含んでよい。各コンピューティング/処理デバイスにおけるネットワークアダプターカード又はネットワークインターフェースが、ネットワークからコンピューター可読プログラム命令を受信し、それぞれのコンピューティング/処理デバイス内のコンピューター可読記憶媒体に記憶するためにこれらのコンピューター可読プログラム命令を転送する。
【0050】
動作を実行するコンピューター可読プログラムコード/命令は、アセンブラ命令、命令セットアーキテクチャ(ISA:instruction-set-architecture)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路の構成データ、又は1つ以上のプログラミング言語の任意の組み合わせで記述されたソースコード若しくはオブジェクトコードのいずれかであってよい。プログラミング言語は、Smalltalk、C++等のオブジェクト指向型プログラミング言語、及び「C」プログラミング言語又は同様のプログラミング言語等の手続型プログラミング言語を含む。コンピューター可読プログラム命令は、スタンドアローンソフトウェアパッケージとしてユーザーのコンピューター上で全体又は一部を実行してもよいし、ユーザーのコンピューター上で一部を実行するとともにリモートコンピューター上で一部を実行してもよいし、リモートコンピューター又はサーバー上で全体を実行してもよい。後者のシナリオでは、リモートコンピューターは、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含む任意のタイプのネットワークを通じてユーザーのコンピューターに接続されてもよいし、この接続は、(例えば、インターネットサービスプロバイダを使用してインターネットを通じて)外部コンピューターに対して行ってもよい。いくつかの実施形態において、例えば、プログラマブルロジック回路部、フィールドプログラマブルゲートアレイ(FPGA)、又はプログラマブルロジックアレイ(PLA)を含む電子回路部が、態様又は動作を実行するために、コンピューター可読プログラム命令の状態情報を利用して電子回路部をパーソナライズすることによってコンピューター可読プログラム命令を実行してもよい。
【0051】
これらのコンピューター可読プログラム命令は、汎用コンピューター、専用コンピューター、又は他のプログラマブルデータ処理装置のプロセッサに提供されて、コンピューター又は他のプログラマブルデータ処理装置のプロセッサによって実行される命令が、フローチャート及び/又はブロック図の単数又は複数のブロックで指定される機能/行為を実装する手段を作成するようなマシンを生成してよい。これらのコンピューター可読プログラム命令は、コンピューター、プログラマブルデータ処理装置、及び/又は他のデバイスに特定の方法で機能するように指示することができるコンピューター可読記憶媒体に記憶されてよく、命令が記憶されたコンピューター可読記憶媒体は、フローチャート及び/又はブロック図の単数又は複数のブロックにおいて指定された機能/動作の態様を実施する命令を含む製造品を含むものである。
【0052】
コンピューター可読プログラム命令は、コンピューター、他のプログラマブルデータ処理装置、又は他のデバイス上にロードされてもよく、一連の動作ステップを、それらのコンピューター、他のプログラマブル装置、又は他のデバイス上で実行させ、それらのコンピューター、他のプログラマブル装置、又は他のデバイス上で実行される命令が、フローチャート及び/又はブロック図の単数又は複数のブロックにおいて指定された機能/動作を実施するように、コンピューターによって実施されるプロセスを生成することができる。
【0053】
図におけるフローチャート及びブロック図は、様々な実施形態によるシステム、方法、及びコンピューター可読媒体の可能な実施態様のアーキテクチャ、機能、及び動作を示している。この点に関して、フローチャート又はブロック図における各ブロックは、指定された論理機能(複数の場合もある)を実施する1つ以上の実行可能命令を含む命令のモジュール、セグメント、又は部分を表してよい。これらの方法、コンピューターシステム、及びコンピューター可読媒体は、図に示すものに対して追加のブロック、より少ないブロック、異なるブロック、又は異なる配置のブロックを含んでよい。いくつかの代替の実施態様では、ブロックに示す機能は、図に示す順序通りに実行されなくてよい。例えば、連続した示された2つのブロックは、関与する機能に応じて、実際には、同時に又はほぼ同時に実行される場合もあるし、これらのブロックは、時に、逆の順序で実行される場合もある。ブロック図及び/又はフローチャート説明図の各ブロック、並びに、ブロック図及び/又はフローチャート説明図におけるブロックの組み合わせは、指定された機能若しくは動作を実行するか又は専用ハードウェア及びコンピューター命令の組み合わせを実行する専用ハードウェアベースのシステムによって実施することができることにも留意されたい。
【0054】
本明細書において説明したシステム及び/又は方法は、異なる形態のハードウェア、ファームウェア、又はハードウェア及びソフトウェアの組み合わせで実施してよいことが明らかである。これらのシステム及び/又は方法を実装するために使用される実際の専用の制御ハードウェア又はソフトウェアコードは、実装を限定するものではない。したがって、システム及び/又は方法の動作及び挙動は、具体的なソフトウェアコードを参照することなく本明細書に説明されている。すなわち、ソフトウェア及びハードウェアは、本明細書の説明に基づいてシステム及び/又は方法を実装するように設計してよいことが理解される。
【0055】
本明細書において使用されるいずれの要素、動作、又は命令も、明示的な記載がない限り、不可欠なもの又は必須のものと解釈されるべきでない。また、本明細書において使用される場合、冠詞「一つ(“a” and “an”)」は、1つ以上の事項を含むことが意図され、「1つ以上の~」と区別なく使用される場合がある。さらに、本明細書において使用される場合、用語「セット(set)」は、1つ以上の事項(例えば、関連した事項、関連のない事項、関連した事項と関連のない事項との組み合わせ等)を含むことが意図され、「1つ以上の~」と区別なく使用される場合がある。1つの事項しか意図されていない場合には、用語「1つ」又は同様の文言が使用される。また、本明細書において使用される場合、用語「~を有する」等は、オープンエンドの用語であることが意図されている。さらに、文言「~に基づいて/基づく」は、別段の明示の記載がない限り、「~に少なくとも部分的に基づいて/基づく」を意味することが意図されている。
【0056】
様々な態様及び実施形態の説明は、例示を目的として提示されており、網羅的であることも、開示される実施形態を限定することも意図していない。特徴の組み合わせが、請求項に列挙され及び/又は本明細書に開示されているが、これらの組み合わせは、可能な実施態様の開示を限定することを意図したものではない。実際、これらの特徴の多くは、請求項に具体的に列挙されていない及び/又は本明細書に具体的に開示されていない方法で組み合わせてよい。下に列挙する各従属請求項は、1つの請求項にしか直接従属しない場合があるが、可能な実施態様の開示は、各従属請求項が請求項の集合における他のあらゆる請求項と組み合わさったものを含む。説明された実施形態の範囲から逸脱することなく、多くの変更形態及び変形形態が当業者に明らかである。本明細書において使用される術語は、実施形態の原理、実際の応用若しくは市場に見られる技術を越える技術的改良を最も良く説明するために、又は、他の当業者が本明細書に開示された実施形態を理解することを可能にするために選ばれたものである。
【外国語明細書】