IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士ゼロックス株式会社の特許一覧

<>
  • 特許-方法及びプログラム 図1
  • 特許-方法及びプログラム 図2
  • 特許-方法及びプログラム 図3
  • 特許-方法及びプログラム 図4
  • 特許-方法及びプログラム 図5
  • 特許-方法及びプログラム 図6
  • 特許-方法及びプログラム 図7
  • 特許-方法及びプログラム 図8
  • 特許-方法及びプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-09
(45)【発行日】2024-12-17
(54)【発明の名称】方法及びプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20241210BHJP
   G06T 7/11 20170101ALI20241210BHJP
【FI】
G06T7/00 350C
G06T7/00 614
G06T7/11
【請求項の数】 20
(21)【出願番号】P 2020153253
(22)【出願日】2020-09-11
(65)【公開番号】P2021144675
(43)【公開日】2021-09-24
【審査請求日】2023-08-30
(31)【優先権主張番号】16/817394
(32)【優先日】2020-03-12
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】000005496
【氏名又は名称】富士フイルムビジネスイノベーション株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】ヂァン チェン
(72)【発明者】
【氏名】フランシーン チェン
(72)【発明者】
【氏名】チェン インイン
【審査官】伊知地 和之
(56)【参考文献】
【文献】特開2019-083002(JP,A)
【文献】米国特許出願公開第2019/0286652(US,A1)
【文献】中国特許出願公開第110728263(CN,A)
【文献】米国特許出願公開第2020/0019617(US,A1)
【文献】深層学習を用いた指紋認証に関する基礎的検討,電子情報通信学会技術研究報告 Vol.119 No.214,2019年09月26日
【文献】Diagnose like a Radiologist: Attention Guided Convolutional Neural Network for Thorax Disease Classification,arXiv,2018年01月30日,https://arxiv.org/pdf/1801.09927.pdf
【文献】Convolutional Neural Networksによる距離学習を用いた動画像人物再同定,第23回 画像センシングシンポジウム SSII2017,2017年12月31日
(58)【調査した分野】(Int.Cl.,DB名)
A61B 5/00 - 5/01
A61B 6/00 - 6/14
G01N 33/48 - 33/98
G06T 7/00 - 7/90
G06V 10/00 - 20/90
G06V 30/418
G06V 40/16
G06V 40/20
CSDB(日本国特許庁)
(57)【特許請求の範囲】
【請求項1】
ニューラルネットワークを使用して画像特徴を分類する方法であって、
トリプレット損失プロセスを使用して前記ニューラルネットワークをトレーニングするステップと、トレーニング済みニューラルネットワークを使用して、関連するラベル付けされた特徴を有していないテストデータ画像の画像特徴を分類するステップとを含み、
前記ニューラルネットワークをトレーニングするステップが、
前記ニューラルネットワークをトレーニングするために使用されるアンカー画像及び前記アンカー画像に関連付けられた画像ラベルを取得すること、
前記アンカー画像と少なくとも1つの画像ラベルを共有するポジティブ画像及び前記ポジティブ画像に関連付けられた画像ラベルを選択すること、
前記アンカー画像と画像ラベルを共有していないネガティブ画像及び前記ネガティブ画像に関連付けられた画像ラベルを選択すること、
画像特徴埋め込みネットワークを使用して、前記アンカー画像、前記ポジティブ画像、及び前記ネガティブ画像の各々に関連付けられた画像埋め込みを生成すること、
前記ニューラルネットワークによって、前記アンカー画像の前記画像埋め込みに基づいて前記アンカー画像から抽出された画像特徴を分類すること、
及び、前記アンカー画像、前記ポジティブ画像、及び前記ネガティブ画像の各々に関連付けられた前記画像埋め込みに基づいてトリプレット損失を計算して、前記画像特徴の分類重み付けを決定することを含み、
前記画像特徴の分類が、医用画像における疾患分類であり、
前記画像埋め込みが、疾患位置情報の埋め込みである、
方法。
【請求項2】
前記ニューラルネットワークをトレーニングするステップが、
前記画像埋め込みに関連付けられた前記アンカー画像から抽出された分類済みの前記画像特徴と、前記アンカー画像に関連付けられた前記画像ラベルとに基づいてマルチラベル損失を計算すること、
及び、損失の加重合計を使用して、前記マルチラベル損失を計算された前記トリプレット損失と結合することをさらに含む、請求項1に記載の方法。
【請求項3】
前記ニューラルネットワークをトレーニングするステップが、
空間変換ネットワークを使用して、拡大縮小、回転、及び切り取りを行うことにより、前記アンカー画像、前記ポジティブ画像、及び前記ネガティブ画像の各々を変換し、共通のビューの向きを確立することをさらに含む、
請求項2に記載の方法。
【請求項4】
前記ニューラルネットワークをトレーニングするステップが、
前記分類済みの前記画像特徴に関連付けられた画像ラベル位置を決定すること、
決定された前記画像ラベル位置に関連付けられた特徴を抽出すること、
前記ニューラルネットワークを使用して、決定された前記画像ラベル位置に関連付けられた前記特徴を分類すること、
決定された前記画像ラベル位置に関連付けられた前記特徴に関連付けられた局所画像分類損失を決定すること、
及び、損失の加重合計を使用して、前記マルチラベル損失を前記局所画像分類損失及び前記トリプレット損失と結合することをさらに含む、
請求項2に記載の方法。
【請求項5】
前記トレーニング済みニューラルネットワークを使用して、前記テストデータ画像上の画像ラベル位置を特定するステップをさらに含む、請求項4に記載の方法。
【請求項6】
前記ニューラルネットワークをトレーニングするステップが、
決定された前記画像ラベル位置に関連付けられた前記特徴であって抽出された前記特徴に基づいて、前記アンカー画像の新しい画像埋め込みを生成すること、
及び、前記ニューラルネットワークによって、前記新しい画像埋め込みに基づいて、前記アンカー画像から抽出された前記特徴を分類することをさらに含む、
請求項4に記載の方法。
【請求項7】
前記アンカー画像、前記ポジティブ画像、及び前記ネガティブ画像の各々は、1又は複数の疾患に関連付けられた医療診断画像である、請求項4に記載の方法。
【請求項8】
ニューラルネットワークを使用して画像特徴を分類する方法であって、
トリプレット損失プロセスを使用して前記ニューラルネットワークをトレーニングするステップと、トレーニング済みニューラルネットワークを使用して、関連するラベル付けされた特徴を有していないテストデータ画像の画像特徴を分類するステップとを含み、
前記ニューラルネットワークをトレーニングするステップが、
前記ニューラルネットワークをトレーニングするために使用されるアンカー画像及び前記アンカー画像に関連付けられた画像ラベルを取得すること、
画像特徴埋め込みネットワークを使用して、前記アンカー画像に関連付けられた画像埋め込みを生成すること、
前記ニューラルネットワークによって、前記アンカー画像の前記画像埋め込みに基づいて前記アンカー画像から抽出された画像特徴を分類すること、
分類済みの前記画像特徴に関連付けられた画像ラベル位置を決定すること、
決定された前記画像ラベル位置に関連付けられた特徴を抽出すること、
前記ニューラルネットワークを使用して、決定された前記画像ラベル位置に関連付けられた前記特徴を分類すること、
及び、決定された前記画像ラベル位置に関連付けられた前記特徴に関連付けられた局所画像分類損失を決定することを含み、
前記画像特徴の分類が、医用画像における疾患分類であり、
前記画像埋め込みが、疾患位置情報の埋め込みである、
方法。
【請求項9】
前記ニューラルネットワークをトレーニングするステップが、
前記画像埋め込みに関連付けられた前記アンカー画像から抽出された分類済みの前記画像特徴と、前記アンカー画像に関連付けられた前記画像ラベルとに基づいてマルチラベル損失を計算すること、
及び、損失の加重合計を使用して、前記マルチラベル損失を前記局所画像分類損失と結合することをさらに含む、
請求項8に記載の方法。
【請求項10】
前記トレーニング済みニューラルネットワークを使用して、前記テストデータ画像上の画像ラベル位置を特定するステップをさらに含む、請求項8に記載の方法。
【請求項11】
前記ニューラルネットワークをトレーニングするステップが、
決定された前記画像ラベル位置に関連付けられた前記特徴であって抽出された前記特徴に基づいて、前記アンカー画像の新しい画像埋め込みを生成すること、
及び、前記ニューラルネットワークによって、前記新しい画像埋め込みに基づいて、前記アンカー画像から抽出された前記特徴を分類することをさらに含む、
請求項9に記載の方法。
【請求項12】
前記ニューラルネットワークをトレーニングするステップが、
前記アンカー画像と少なくとも1つの画像ラベルを共有するポジティブ画像及び前記ポジティブ画像に関連付けられた画像ラベルを選択すること、
前記アンカー画像と画像ラベルを共有していないネガティブ画像及び前記ネガティブ画像に関連付けられた画像ラベルを選択すること、
前記アンカー画像、前記ポジティブ画像、及び前記ネガティブ画像の各々に関連付けられた前記画像埋め込みに基づいてトリプレット損失を計算して、前記画像特徴の分類重み付けを決定すること、
及び、損失の加重合計を使用して、前記マルチラベル損失を前記局所画像分類損失及び前記トリプレット損失と結合することをさらに含み、
前記画像特徴埋め込みネットワークを使用して前記画像埋め込みを生成することが、前記画像特徴埋め込みネットワークを使用して、前記アンカー画像、前記ポジティブ画像、及び前記ネガティブ画像の各々に関連付けられた画像埋め込みを生成することを含む、
請求項9に記載の方法。
【請求項13】
前記ニューラルネットワークをトレーニングするステップが、
空間変換ネットワークを使用して、拡大縮小、回転、及び切り取りを行うことにより、前記アンカー画像、前記ポジティブ画像、及び前記ネガティブ画像の各々を変換し、共通のビューの向きを確立するステップをさらに含む、
請求項12に記載の方法。
【請求項14】
前記アンカー画像、前記ポジティブ画像、及び前記ネガティブ画像の各々は、1又は複数の疾患に関連付けられた医療診断画像である、請求項12に記載の方法。
【請求項15】
コンピュータに、
トリプレット損失プロセスを使用してニューラルネットワークをトレーニングするステップと、
トレーニング済みニューラルネットワークを使用して、関連するラベル付けされた特徴を有していないテストデータ画像の画像特徴を分類するステップと、
を実行させるためのプログラムであって、
前記ニューラルネットワークをトレーニングするステップが、
前記ニューラルネットワークをトレーニングするために使用されるアンカー画像及び前記アンカー画像に関連付けられた画像ラベルを取得すること、
前記アンカー画像と少なくとも1つの画像ラベルを共有するポジティブ画像及び前記ポジティブ画像に関連付けられた画像ラベルを選択すること、
前記アンカー画像と画像ラベルを共有していないネガティブ画像及び前記ネガティブ画像に関連付けられた画像ラベルを選択すること、
画像特徴埋め込みネットワークを使用して、前記アンカー画像、前記ポジティブ画像、及び前記ネガティブ画像の各々に関連付けられた画像埋め込みを生成すること、
前記ニューラルネットワークによって、前記アンカー画像の前記画像埋め込みに基づいて前記アンカー画像から抽出された画像特徴を分類すること、
分類済みの前記画像特徴に関連付けられた画像ラベル位置を決定すること、
決定された前記画像ラベル位置に関連付けられた特徴を抽出すること、
前記ニューラルネットワークを使用して、決定された前記画像ラベル位置に関連付けられた前記特徴を分類すること、
決定された前記画像ラベル位置に関連付けられた前記特徴に関連付けられた局所画像分類損失を決定すること、
前記アンカー画像、前記ポジティブ画像、及び前記ネガティブ画像の各々に関連付けられた前記画像埋め込みに基づいてトリプレット損失を計算して、前記画像特徴の分類重み付けを決定すること、
及び、損失の加重合計を使用して、前記局所画像分類損失及び前記トリプレット損失を結合することを含む、
プログラム。
【請求項16】
前記ニューラルネットワークをトレーニングするステップが、
前記画像埋め込みに関連付けられた前記アンカー画像から抽出された分類済みの前記画像特徴と、前記アンカー画像に関連付けられた前記画像ラベルとに基づいてマルチラベル損失を計算すること、
及び、損失の加重合計を使用して、前記マルチラベル損失を前記局所画像分類損失及び前記トリプレット損失と結合することをさらに含む、
請求項15に記載のプログラム。
【請求項17】
前記ニューラルネットワークをトレーニングするステップが、
空間変換ネットワークを使用して、拡大縮小、回転、及び切り取りを行うことにより、前記アンカー画像、前記ポジティブ画像、及び前記ネガティブ画像の各々を変換し、共通のビューの向きを確立するステップをさらに含む、
請求項16に記載のプログラム。
【請求項18】
前記トレーニング済みニューラルネットワークを使用して、前記テストデータ画像上の画像ラベル位置を特定するステップをさらに含む、請求項16に記載のプログラム。
【請求項19】
前記ニューラルネットワークをトレーニングするステップが、
決定された前記画像ラベル位置に関連付けられた前記特徴であって抽出された前記特徴に基づいて、前記アンカー画像の新しい画像埋め込みを生成すること、
及び、前記ニューラルネットワークによって、前記新しい画像埋め込みに基づいて、前記アンカー画像から抽出された前記特徴を分類することをさらに含む、
請求項18に記載のプログラム。
【請求項20】
前記アンカー画像、前記ポジティブ画像、及び前記ネガティブ画像の各々は、1又は複数の疾患に関連付けられた医療診断画像である、請求項19に記載のプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、方法及びプログラムに関する。
【背景技術】
【0002】
関連技術の用途では、医用画像における疾患の識別及び位置特定(localization)は、医用画像中の疾患のセグメンテーションに適用される。さらにこれは、診断書における疾患のテキスト記述を、診断書内で議論されている画像の領域に関連付けるのにも役立ち得る。関連技術の方法は、臓器の自動セグメンテーションを可能にした。画像中に何の疾患が生じているか、及び各疾患のおおよその位置を知ることによって、臓器セグメンテーション方法を、疾患セグメンテーションに応用することができる。ひいてはこれにより、医用画像における疾患サイズの測定効率が向上するであろう。
【0003】
さらに、関連技術では、疾患の位置特定を実行する能力により、放射線技師又は医師の診断書に記載された疾患又は異常な状態の医用画像内での位置をリンク又は強調表示することも可能になる。これは、医師及びその患者による診断書の理解を深めるのに役立つ可能性がある。疾患の存在に注釈が付けられた医療データセットはいくつかあるが、疾患位置の注釈は非常に少ない。したがって、例えば疾患領域を示す境界ボックスなど、疾患位置の注釈があったとしても、ほとんど必要としないシステムを開発することが望ましい。
【先行技術文献】
【非特許文献】
【0004】
【文献】JADERBERG, M., et al., Spatial Transformer Networks, Advances in Neural Information Processing Systems, 2015, pp.2017-2015.
【文献】LI, Z., et al., Thoracic Disease Identification and Localization with Limited Supervision, Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp.8290-8299.
【文献】MA, C-Y., et al., Learning to Generate Grounded Visual Captions without Localization Supervision, arXiv:1906.00283, 2019, 16 pgs.
【文献】RAJPURKAR, P., et al., Deep Learning for Chest Radiograph Diagnosis: A Retrospective Comparison of the CheXNeXt Algorithm to Practicing Radiologists, PLoS Medicine, 15(11), 2018, 17 pgs.
【文献】SCHROFF, F., et al., FaceNet: A Unified Embedding for Face Recognition and Clustering, Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp.815-823.
【文献】SELVARAJU, R. R., et al., Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization, Proceedings of IEEE International Conference on Computer Vision, 2017, pp.618-626.
【文献】WANG, X., et al., ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases, Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp.2097-2106.
【文献】XIA, Y., et al., Dual Supervised Learning, Proceedings of the 34th International Conference on Machine Learning, 70, 2017, pp.3789-3798.
【文献】ZHOU, B., et al., Learning Deep Features for Discriminative Localization, Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp.2921-2929.
【文献】GUAN, Q., et al., Diagnose like a Radiologist: Attention Guided Convolutional Neural Network for Thorax Disease Classification, arXiv:1801.09927, 2018, 10 pgs.
【発明の概要】
【発明が解決しようとする課題】
【0005】
本開示の技術は、ニューラルネットワークを使用して画像特徴を分類する方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本開示の第1の態様は、ニューラルネットワークを使用して画像特徴を分類する方法を含み得る。方法は、トリプレット損失プロセスを使用してニューラルネットワークをトレーニングするステップと、トレーニング済みニューラルネットワークを使用して、関連するラベル付けされた特徴を有していないテストデータ画像の画像特徴を分類するステップとを含み得る。ニューラルネットワークをトレーニングするステップは、ニューラルネットワークをトレーニングするために使用されるアンカー画像及びアンカー画像に関連付けられた画像ラベルを取得すること、アンカー画像と少なくとも1つの画像ラベルを共有するポジティブ画像及びポジティブ画像に関連付けられた画像ラベルを選択すること、アンカー画像と画像ラベルを共有していないネガティブ画像及びネガティブ画像に関連付けられた画像ラベルを選択すること、画像特徴埋め込みネットワークを使用して、アンカー画像、ポジティブ画像、及びネガティブ画像の各々に関連付けられた画像埋め込みを生成すること、ニューラルネットワークによって、アンカー画像の画像埋め込みに基づいてアンカー画像から抽出された画像特徴を分類すること、及び、アンカー画像、ポジティブ画像、及びネガティブ画像の各々に関連付けられた画像埋め込みに基づいてトリプレット損失を計算して、画像特徴の分類重み付けを決定することを含む。
【0007】
上記の第1の態様において、ニューラルネットワークをトレーニングするステップが、画像埋め込みに関連付けられたアンカー画像から抽出された分類済みの画像特徴と、アンカー画像に関連付けられた画像ラベルとに基づいてマルチラベル損失を計算すること、及び、損失の加重合計を使用して、マルチラベル損失を計算されたトリプレット損失と結合することをさらに含んでいてもよい。また、ニューラルネットワークをトレーニングするステップが、空間変換ネットワークを使用して、拡大縮小、回転、及び切り取りを行うことにより、アンカー画像、ポジティブ画像、及びネガティブ画像の各々を変換し、共通のビューの向きを確立することをさらに含んでいてもよい。
【0008】
上記の第1の態様において、ニューラルネットワークをトレーニングするステップが、分類済みの画像特徴に関連付けられた画像ラベル位置を決定すること、決定された画像ラベル位置に関連付けられた特徴を抽出すること、ニューラルネットワークを使用して、決定された画像ラベル位置に関連付けられた特徴を分類すること、決定された画像ラベル位置に関連付けられた特徴に関連付けられた局所画像分類損失を決定すること、及び、損失の加重合計を使用して、マルチラベル損失を前記局所画像分類損失及び前記トリプレット損失と結合することをさらに含んでいてもよい。また、トレーニング済みニューラルネットワークを使用して、テストデータ画像上の画像ラベル位置を特定するステップをさらに含んでいてもよい。また、ニューラルネットワークをトレーニングするステップが、決定された画像ラベル位置に関連付けられた特徴であって抽出された特徴に基づいて、アンカー画像の新しい画像埋め込みを生成すること、及び、ニューラルネットワークによって、新しい画像埋め込みに基づいて、アンカー画像から抽出された特徴を分類することをさらに含んでいてもよい。アンカー画像、ポジティブ画像、及びネガティブ画像の各々は、1又は複数の疾患に関連付けられた医療診断画像であってもよい。
【0009】
本開示の第2の態様は、ニューラルネットワークを使用して画像特徴を分類する方法を含み得る。方法は、トリプレット損失プロセスを使用してニューラルネットワークをトレーニングするステップと、トレーニング済みニューラルネットワークを使用して、関連するラベル付けされた特徴を有していないテストデータ画像の画像特徴を分類するステップとを含み得る。ニューラルネットワークをトレーニングするステップは、ニューラルネットワークをトレーニングするために使用されるアンカー画像及びアンカー画像に関連付けられた画像ラベルを取得すること、画像特徴埋め込みネットワークを使用して、アンカー画像に関連付けられた画像埋め込みを生成すること、ニューラルネットワークによって、アンカー画像の画像埋め込みに基づいてアンカー画像から抽出された画像特徴を分類すること、分類済みの画像特徴に関連付けられた画像ラベル位置を決定すること、決定された画像ラベル位置に関連付けられた特徴を抽出すること、ニューラルネットワークを使用して、決定された画像ラベル位置に関連付けられた特徴を分類すること、及び、決定された画像ラベル位置に関連付けられた特徴に関連付けられた局所画像分類損失を決定することを含む。
【0010】
上記の第2の態様において、ニューラルネットワークをトレーニングするステップが、画像埋め込みに関連付けられたアンカー画像から抽出された分類済みの画像特徴と、アンカー画像に関連付けられた画像ラベルとに基づいてマルチラベル損失を計算すること、及び、損失の加重合計を使用して、マルチラベル損失を局所画像分類損失と結合することをさらに含んでいてもよい。また、トレーニング済みニューラルネットワークを使用して、テストデータ画像上の画像ラベル位置を特定するステップをさらに含んでいてもよい。ニューラルネットワークをトレーニングするステップが、決定された画像ラベル位置に関連付けられた特徴であって抽出された特徴に基づいて、アンカー画像の新しい画像埋め込みを生成すること、及び、ニューラルネットワークによって、新しい画像埋め込みに基づいて、アンカー画像から抽出された特徴を分類することをさらに含んでいてもよい。
【0011】
上記の第2の態様において、ニューラルネットワークをトレーニングするステップが、アンカー画像と少なくとも1つの画像ラベルを共有するポジティブ画像及びポジティブ画像に関連付けられた画像ラベルを選択すること、アンカー画像と画像ラベルを共有していないネガティブ画像及びネガティブ画像に関連付けられた画像ラベルを選択すること、アンカー画像、ポジティブ画像、及びネガティブ画像の各々に関連付けられた画像埋め込みに基づいてトリプレット損失を計算して、画像特徴の分類重み付けを決定すること、及び、損失の加重合計を使用して、マルチラベル損失を局所画像分類損失及びトリプレット損失と結合することをさらに含み、画像特徴埋め込みネットワークを使用して画像埋め込みを生成することが、画像特徴埋め込みネットワークを使用して、アンカー画像、ポジティブ画像、及びネガティブ画像の各々に関連付けられた画像埋め込みを生成することを含んでいてもよい。また、ニューラルネットワークをトレーニングするステップが、空間変換ネットワークを使用して、拡大縮小、回転、及び切り取りを行うことにより、アンカー画像、ポジティブ画像、及びネガティブ画像の各々を変換し、共通のビューの向きを確立するステップをさらに含んでいてもよい。アンカー画像、ポジティブ画像、及びネガティブ画像の各々は、1又は複数の疾患に関連付けられた医療診断画像であってもよい。
【0012】
本開示の第3の態様は、コンピュータに、トリプレット損失プロセスを使用してニューラルネットワークをトレーニングするステップと、トレーニング済みニューラルネットワークを使用して、関連するラベル付けされた特徴を有していないテストデータ画像の画像特徴を分類するステップと、を実行させるためのプログラムを含み得る。ニューラルネットワークをトレーニングするステップは、ニューラルネットワークをトレーニングするために使用されるアンカー画像及びアンカー画像に関連付けられた画像ラベルを取得すること、アンカー画像と少なくとも1つの画像ラベルを共有するポジティブ画像及びポジティブ画像に関連付けられた画像ラベルを選択すること、アンカー画像と画像ラベルを共有していないネガティブ画像及びネガティブ画像に関連付けられた画像ラベルを選択すること、画像特徴埋め込みネットワークを使用して、アンカー画像、ポジティブ画像、及びネガティブ画像の各々に関連付けられた画像埋め込みを生成すること、ニューラルネットワークによって、アンカー画像の画像埋め込みに基づいてアンカー画像から抽出された画像特徴を分類すること、分類済みの画像特徴に関連付けられた画像ラベル位置を決定すること、決定された画像ラベル位置に関連付けられた特徴を抽出すること、ニューラルネットワークを使用して、決定された画像ラベル位置に関連付けられた特徴を分類すること、決定された画像ラベル位置に関連付けられた特徴に関連付けられた局所画像分類損失を決定すること、アンカー画像、ポジティブ画像、及びネガティブ画像の各々に関連付けられた画像埋め込みに基づいてトリプレット損失を計算して、画像特徴の分類重み付けを決定すること、及び、損失の加重合計を使用して、局所画像分類損失及びトリプレット損失を結合することを含む。
【0013】
上記の第3の態様において、ニューラルネットワークをトレーニングするステップが、画像埋め込みに関連付けられたアンカー画像から抽出された分類済みの画像特徴と、アンカー画像に関連付けられた画像ラベルとに基づいてマルチラベル損失を計算すること、及び、損失の加重合計を使用して、マルチラベル損失を局所画像分類損失及びトリプレット損失と結合することをさらに含んでいてもよい。また、ニューラルネットワークをトレーニングするステップが、空間変換ネットワークを使用して、拡大縮小、回転、及び切り取りを行うことにより、アンカー画像、ポジティブ画像、及びネガティブ画像の各々を変換し、共通のビューの向きを確立するステップをさらに含んでいてもよい。
【0014】
上記の第3の態様において、トレーニング済みニューラルネットワークを使用して、テストデータ画像上の画像ラベル位置を特定するステップをさらに含んでいてもよい。ニューラルネットワークをトレーニングするステップが、決定された画像ラベル位置に関連付けられた特徴であって抽出された特徴に基づいて、アンカー画像の新しい画像埋め込みを生成すること、及び、ニューラルネットワークによって、新しい画像埋め込みに基づいて、アンカー画像から抽出された特徴を分類することをさらに含んでいてもよい。アンカー画像、ポジティブ画像、及びネガティブ画像の各々は、1又は複数の疾患に関連付けられた医療診断画像であってもよい。
【0015】
本開示のさらなる態様は、ニューラルネットワークを使用して画像特徴を分類するための情報処理装置を含み得る。情報処理装置は、トリプレット損失プロセスを使用してニューラルネットワークをトレーニングする手段と、トレーニング済みニューラルネットワークを使用して、関連するラベル付けされた特徴を有していないテストデータ画像の画像特徴を分類する手段とを含み得る。ニューラルネットワークをトレーニングする手段は、ニューラルネットワークをトレーニングするために使用されるアンカー画像及びアンカー画像に関連付けられた画像ラベルを取得すること、アンカー画像と少なくとも1つの画像ラベルを共有するポジティブ画像及びポジティブ画像に関連付けられた画像ラベルを選択すること、アンカー画像と画像ラベルを共有していないネガティブ画像及びネガティブ画像に関連付けられた画像ラベルを選択すること、画像特徴埋め込みネットワークを使用して、アンカー画像、ポジティブ画像、及びネガティブ画像の各々に関連付けられた画像埋め込みを生成すること、ニューラルネットワークによって、アンカー画像の画像埋め込みに基づいてアンカー画像から抽出された画像特徴を分類すること、及び、アンカー画像、ポジティブ画像、及びネガティブ画像の各々に関連付けられた画像埋め込みに基づいてトリプレット損失を計算して、画像特徴の分類重み付けを決定することを実行する。
【図面の簡単な説明】
【0016】
図1】本開示の例示的な実装形態に係るトリプレット損失を用いてマルチラベル疾患分類器をトレーニングする工程の概略図である。
図2】本開示の例示的な実装形態に係る局所(localized)疾患予測を用いて画像分類器をトレーニングする工程の概略図である。
図3】本開示の別の例示的な実装形態に係る局所疾患予測を用いて画像分類器をトレーニングする工程の概略図である。
図4】本開示の例示的な実装形態に係るトレーニング済みニューラルネットワークを用いて画像を分類するプロセスのフローチャートである。
図5】本開示の例示的な実装形態の評価結果のグラフ表示である。
図6】本開示の例示的な実装形態の評価結果のグラフ表示である。
図7】本開示の例示的な実装形態を使用して、疾患の例示的なヒートマップと予測位置及び正解(ground truth)位置とを示す図である。
図8】本開示の例示的な実装形態を使用して、疾患の例示的なヒートマップと予測位置及び正解位置とを示す図である。
図9】いくつかの例示的な実装形態での使用に適した例示的なコンピュータ装置を備えた例示的なコンピューティング環境を示す図である。
【発明を実施するための形態】
【0017】
以下の詳細な説明は、本出願の図面及び例示的な実装形態の詳細を提供する。図面間で重複する要素の参照符号及び説明は、明確化のために省略されている。明細書全体を通して使用される用語は、例示として提供されており、限定を意図するものではない。例えば、「自動」という用語の使用は、本出願の実装形態を実施する当業者の所望の実装形態に応じて、完全自動の実装形態、又は実装形態の特定の態様に対するユーザ又は管理者による制御を含む半自動の実装形態を含んでいてもよい。さらに、「第1」、「第2」、「第3」などのような連続する用語は、単なるラベル付け目的のために明細書及び請求項で使用される場合があり、上記アクション又はアイテムが記載された順序で起きることを指すように限定されるべきではない。アクション又はアイテムは、本開示の範囲から逸脱することなく、異なる順序で並べられてもよく、若しくは並行して又は動的に実行されてもよい。
【0018】
本開示では、用語「コンピュータ可読媒体」は、ローカル記憶装置、クラウドベースの記憶装置、遠隔に配置されたサーバ、又は当業者にとって自明であり得るその他いずれかの記憶装置を含み得る。
【0019】
上述のように、医用画像における疾患の識別及び位置特定は、医用画像における疾患のセグメンテーションへの応用が可能であり、診断書における疾患のテキスト記述を議論されている画像の領域に関連付けるのにも役立つ。画像内にどのような疾患が発生しているか、及び各疾患のおおよその位置が分かっている場合には、既存の臓器の自動セグメンテーション方法を使用することができる。しかしながら、疾患位置の注釈は非常に少ない。したがって、例えば疾患領域を示す境界ボックスなど、疾患位置の注釈があったとしても、ほとんど必要としないシステムを開発することが望ましい。
【0020】
本開示の例示的な実装形態は、医用画像における疾患の改善された分類及び位置特定を提供し得る。本開示のいくつかの例示的な実装形態では、物体の位置特定プロセスを使用して、関連する臓器(例えば、胸部に位置する肺)を含む画像の領域を自動的に識別し、これにより、関連する臓器が位置していない領域(例えば、肩や腕)で疾患を誤って識別することによるエラーを取り除くことができる。別の例示的な実装形態では、トリプレット損失プロセスを分類モデルに適用して、異なる疾患を含む一対の画像間の距離をどれだけ増やすかを、モデルがより継続的に学習できるようにしてもよい。さらに、いくつかの例示的な実装形態では、推定された疾患領域は、医用画像において疾患サイズを保証しながら疾患の位置を特定する方法をよりよく学習するために、トレーニング中にモデルにフィードバックされ得る。いくつかの例示的な実装形態では、これらの手法のすべてが組み合わせられてもよい。
【0021】
本開示の例示的な実装形態は、医用画像における疾患識別の文脈で説明される場合があるが、例示的な実装形態は、医用画像の解析に限定されるものではない。代わりに、例示的な実装形態は、当業者にとって明らかであろう別のタイプの画像解析に適用されてもよい。
【0022】
図1は、本開示の例示的な実装形態に係るトリプレット損失を用いてマルチラベル疾患分類器をトレーニングする工程の概略図100を示す。いくつかの例示的な実装形態では、医用画像は、疾患が発生する領域よりも広い領域を含むことが多い。たとえば、胸部x線は、患者の肩及び腕を含むことが多い。これらの例示的な実装形態では、空間変換ネットワーク(STN:Spatial Transformer Network)を使用して医用画像の周囲を切り取り(crop)、疾患が発生している領域に焦点を当てることができる。このステップは、いくつかの例示的な実装形態では実行されてもよく、又はいくつかの例示的な実装形態では省略されてもよい。
【0023】
さらに、図示されるように、いくつかの例示的な実装形態では、トリプレット損失手法は、マルチラベル分類システムの一部として適合され得る。具体的には、トリプレット損失を使用して、少なくとも1つの共通の疾患を有する画像を特徴空間内で互いに接近させ、共通の疾患を有していない画像を特徴空間内で離れさせることができる。トリプレット損失は、分類される画像、即ちアンカー画像105と、同じタイプ(例えば、同じ患者、同じ疾患、又はその他の類似の特徴)の別の画像との間の距離を最小化し得る。図1に示されるように、同じタイプの画像は、少なくとも1つの共通の疾患を含む画像(例えば、ポジティブ画像107)として図示されている。さらに、疾患ラベルの共通点がゼロの画像は、異なるタイプであると見なされる。これらはネガティブ画像109の例として機能する。トリプレット損失を用いると、各入力アンカー画像105について、1つのポジティブ画像107及び1つのネガティブ画像109が、同じトレーニングバッチからランダムに選択される。いくつかの例示的な実装形態では、以下により詳細に論じられるトリプレット損失手法の性能を改善するために、ハード例マイニング(hard example mining)が使用され得る。
【0024】
図1に示されるように、ポジティブ画像107及びネガティブ画像109がランダムに選択されると、各画像(例えば、アンカー画像105、ポジティブ画像107、及びネガティブ画像109)は、各画像を変換するための空間変換ネットワークによって処理されて、画像比較を可能にする。例えば、アンカー画像105は、符号111で空間変換ネットワークによって処理される。さらに、ポジティブ画像107は、符号113で空間変換ネットワークによって処理される。さらにまた、ネガティブ画像109は、符号115で空間変換ネットワークによって処理される。
【0025】
空間変換ネットワークは、入力画像(特徴マップ)に対し切り取り(cropping)、移動(translation)、回転、拡大縮小(scale)、及びスキューを適用する識別可能なモジュールであり、6つのパラメータのみを必要とする。具体的には、例示的な実装形態では、幅W及び高さHを有する入力された胸部X線画像105は、x=(xi,xj) i=1,2,…,W、j=1,2,…,Hで表され得る。空間変換ネットワークは、符号111で6次元ベクトルを出力し、これはアフィン変換Aθとしてパラメータ化され得る。アフィンの場合、点ごとの変換は以下の通りである。
【0026】
【数1】
【0027】
ここで、(xt i,yt i)は出力特徴マップのターゲット座標であり、(xs i,ys i)は入力画像(特徴マップ)のソース座標である。そしてAθは、元の画像に対する切り取り、移動、及び等方性の拡大縮小を可能にするアフィン変換である。トレーニング中、モデルは、s(scale)とt及びt(translation)の値を学習する。
【0028】
空間変換ネットワークが各画像(例えば、アンカー画像105、ポジティブ画像107、及びネガティブ画像109)を処理した後、各画像は、疾患分類に使用される画像の特徴を埋め込む画像特徴埋め込みネットワークによって処理されて、画像埋め込みを生成する。図1に示されるように、画像埋め込み123は、符号117で画像特徴埋め込みネットワークによってアンカー画像105から生成される。同様に、画像埋め込み125は、符号119で埋め込みネットワークによってポジティブ画像107から生成される。さらに、画像埋め込み127は、符号121で埋め込みネットワークによってネガティブ画像109から生成される。
【0029】
いくつかの例示的な実装形態では、疾患ローカライザを使用して疾患位置特徴を埋め込むことによって、疾患位置情報は埋め込まれた特徴として含まれていてもよい。疾患ローカライザの使用については、図2及び図3に関して以下でより詳細に論じられる。
【0030】
次に、アンカー画像105から作成された画像埋め込み123は、分類器ネットワーク129を通過して、トレーニングデータ内のアンカー画像105に割り当てられたラベルに基づいて損失係数を計算することができる。言い換えると、マルチラベル損失係数131は、トレーニングデータからのアンカー画像105に関連する割り当てられたラベルと、分類器ネットワーク129によるアンカー画像105の分類との差に基づいて計算される。
【0031】
第2の損失係数であるマルチラベル損失係数131に加えて、トリプレット損失係数133が、以下に説明されるように計算され得る。次に、加重合計を使用して2つの損失が結合され、画像全体の分類損失と局所画像の分類損失とに同じ重みが与えられる。あるいは、トレーニング中に重みを学習することもできる。
【0032】
いくつかの例示的な実装形態では、トリプレット制約集合Xは、以下のように考えることができる。
【0033】
【数2】
【0034】
ここで、Pはポジティブなペアを含み、Nはネガティブなペアを含み、Mはトリプレット集合全体の濃度を示す。2つのサンプルの相似関数は、l距離として示される。
【0035】
【数3】
【0036】
いくつかの例示的な実装形態では、コサイン距離が代わりに使用され得る。
【0037】
いくつかの例示的な実装形態では、アンカーxが与えられた1つのトリプレットのヒンジ損失は、以下のように定義され得る。
【0038】
【数4】
【0039】
ここで、mはポジティブとネガティブのペアの間に適用されるマージンである。したがって、トレーニングセット内のすべての可能なトリプレット(3枚の画像の組)にわたって最小化されているグローバルトリプレット損失Ltripletは、以下のように計算され得る。
【0040】
【数5】
【0041】
最後に、トリプレット学習と統合された分類のための総損失Lclsは、以下のように定式化され得る。
【0042】
【数6】
【0043】
ここで、Lbinaryはマルチラベル分類の伝統的にトレーニングされたバイナリ交差エントロピー損失(binary cross entropy loss)であり、βは係数である。
【0044】
いくつかの例示的な実装形態では、疾患特定アルゴリズムを使用して、疾患分類器をトレーニングし、疾患の識別及び位置特定の性能をさらに改善することができる。例えば、CAM又はGradCAMなどの既存の画像領域特定アルゴリズムを使用して、分類器をトレーニングすることができる。いずれのアルゴリズムも、クラス又は疾患予測のためにネットワークアクティベーションから計算され、分類を裏付ける画像内の領域がより大きい値を有する「ヒートマップ」を生成する。マルチラベル分類が実行されているので、アルゴリズム(例えば、GradCAM、CAM、又はその他のアルゴリズム)は、識別されたクラスごとに個別に実行され得る。疾患識別を改善するためのこの局所化の使用については、図2及び図3に関して以下でより詳細に説明する。
【0045】
図2は、本開示の例示的な実装形態に係る局所疾患予測を用いて画像分類器をトレーニングする工程の概略図200を示す。いくつかの例示的な実装形態では、局所疾患生成を使用して、疾患の予測位置が分類器と一致するかどうかを確認することができる。このような例示的な実装形態では、画像が正しく切り取られていない場合、分類が不正確になりがちである。言い換えると、画像が切り取られて疾患領域が除外されている場合、疾患の分類は正しくない可能性がある。
【0046】
図1に関して説明されたモデルと同様に、アンカー画像105(トレーニング目的で解析されている画像)は、画像を共通の画像スケールに変換するために、空間変換ネットワーク111を通過する。次に、空間変換ネットワーク111からの変換画像は、画像特徴埋め込みネットワーク117を通過して、疾患分類に使用される画像の特徴を埋め込み、画像埋め込み123を生成する。画像埋め込み123は、以下に説明するように、疾患位置情報を含む。疾患位置情報は、疾患位置特徴を埋め込むために疾患ローカライザ202によって使用されることになる。
【0047】
図1で説明されたモデルと同様に、アンカー画像105から作成された画像埋め込み123は、次に分類器ネットワーク129を通過して、トレーニングデータ内のアンカー画像105に割り当てられたラベルに基づいて損失係数を計算することができる。言い換えると、マルチラベル損失係数131(全体画像分類損失とも呼ばれる)は、トレーニングデータからのアンカー画像105に関連する割り当てられたラベルと、分類器ネットワーク129によるアンカー画像105の分類との差に基づいて計算される。
【0048】
入力画像全体における疾患の分類に基づいて分類器損失(全体画像分類損失131)を計算することに加えて、例示的な実装形態は、各疾患に対する予測境界ボックスを使用して、分類の前に画像を切り取ることができる。具体的には、図示されるように、ローカライザ202は、疾患の予測位置206を決定し、画像を疾患の予測位置の領域を残して切り取って、局所画像埋め込み204を生成する。具体的には、ローカライザ202は、アンカー画像105内の局所疾患の予測位置の境界ボックス内の領域の特徴を抽出する。境界ボックスの外側の領域の特徴値は0に設定される。修正された特徴、即ち局所画像埋め込み204は、境界ボックスの中の画像を表し、第2の分類器に入力される。代替のアプローチは、非疾患領域をある値、例えば0でマスクし、マスクされた画像を分類器への入力として使用することであろう。なお、予測された境界ボックス内の特徴(又は局所からの特徴)を選択することで、計算のいくつかの層がスキップされ、効率が向上することに留意されたい。
【0049】
いくつかの例示的な実装形態では、CAM位置特定アルゴリズムを使用することができ、DenseNetの最後の層でのアクティベーションが抽出される。あるいは、例示的な実装形態では、GradCAM位置特定アルゴリズムが使用されてもよい。異なる例示的な実装形態では、異なる位置特定方法が使用され得る。いくつかの例示的な実装形態では、すべての特徴にわたって最大値が正規化に使用され得る。別の例示的な実装形態では、すべての特徴にわたって最大値と最小値との差が正規化に使用され得る。いずれの場合も、固定された閾値よりも大きい特徴アクティベーションの位置が識別され得る。閾値アクティベーションの周りの矩形の境界ボックスが計算され、境界ボックスの外側の特徴はゼロにされる。次に、得られた特徴マップは分類器205に供給され、分類器205は元の分類器と重みを共有する(図2参照)。あるいは、トレーニングされた分類器パラメータ(分類層のみ)で初期化された別個の分類器が、局所画像を分類するために使用され得る。別の代替の例示的な実装形態では、ローカライザ202によって決定された画像の局所領域は、分類器の直前に埋め込む特徴ではなく、画像特徴埋め込みネットワーク表現(DENSENET表現)の任意の層から決定されてもよい。
【0050】
いくつかの実施形態では、全体画像分類からの損失131及び局所画像分類からの損失208は、以下の式7を使用して加重合計212として結合される。
【0051】
【数7】
【0052】
ここで、αは、局所画像損失の効果が徐々に加えられるように、いくつかの基準時点(epoch)にわたって0から0.5まで変化する。例えば、いくつかの例示的な実装形態では、αは20の基準時点にわたって増加し得る。その後、αは一定に保たれる。
【0053】
いくつかの例示的な実装形態では、このトレーニングモデルは、トレーニング済みベースラインモデルのパラメータで初期化され得る。トレーニング済みベースラインモデルは、固定回数の反復トレーニングによって、又は検証データセットで損失が漸近するまで完全にトレーニングすることによって取得され得る。この初期化、即ち事前トレーニングを使用して、最初の反復で、推定された局所領域が正しい可能性が高くなり、局所特徴が何らかの情報を有する可能性が高くなる。初期化が実行されない場合には、最初の反復で、局所領域推定の推定値は純粋なノイズであり、このためモデルには非常にノイズの多い局所特徴が与えられ、初期のトレーニング反復中の困難さを増大させる。
【0054】
いくつかの例示的な実装形態では、図2に示される予測された局所特徴モデルは、図1のトリプレット損失予測モデルと組み合わせることができる。具体的には、バイナリ分類器を事前トレーニングするのと同様に、トリプレットモデルを最初に単独でトレーニングして、事前にトレーニング済み分類モデルを提供することができる。次に、図1の分類器ネットワーク129を、図2に示される2つの分類器129、205及びローカライザ202で置き換えることができる。すると損失は、全体画像損失(マルチレベル損失131、局所画像損失208、及びトリプレット損失133)の組み合わせとなる。結合モデルは、複数の疾患を区別するためのより優れた特徴空間を学習することを目的としている。
【0055】
しかしながら、代替の例示的な実装形態では、図2の予測された局所特徴モデルは、図1のトリプレット損失予測モデルなしで単独で使用されてもよい。さらに別の例示的な実装形態では、図1のトリプレット損失予測モデルは、図2の予測された局所特徴モデルなしで単独で使用されてもよい。
【0056】
図3は、本開示の別の例示的な実装形態に係る局所疾患予測を用いて画像分類器をトレーニングする工程の概略図300を示す。図3のモデルは図2のモデルと類似しており、類似の説明が以下に提供される。いくつかの例示的な実装形態では、局所疾患生成を使用して、疾患の予測位置が分類器と一致するかどうかを確認することができる。このような例示的な実装形態では、画像が正しく切り取られていない場合、分類が不正確になりがちである。言い換えると、画像が切り取られて疾患領域が除外されている場合、疾患の分類は正しくない可能性がある。
【0057】
図1及び図2に関して論じられたモデルと同様に、アンカー画像105(トレーニング目的で解析されている画像)は、画像を共通の画像スケールに変換するために、空間変換ネットワーク111を通過する。次に、空間変換ネットワーク111からの変換画像は、画像特徴埋め込みネットワーク117を通過して、疾患分類に使用される画像の特徴を埋め込み、画像埋め込み123を生成する。画像埋め込み123は、以下に説明するように、疾患位置情報を含む。疾患位置情報は、疾患位置特徴を埋め込むために疾患ローカライザ202によって使用されることになる。
【0058】
図1及び図2に関して説明されたモデルと同様に、アンカー画像105から作成された画像埋め込み123は、次に分類器ネットワーク129を通過して、トレーニングデータ内のアンカー画像105に割り当てられたラベルに基づいて損失係数を計算することができる。言い換えると、マルチラベル損失係数131(全体画像分類損失とも呼ばれる)は、トレーニングデータからのアンカー画像105に関連する割り当てられたラベルと、分類器ネットワーク129によるアンカー画像105の分類との差に基づいて計算される。
【0059】
入力画像全体における疾患の分類に基づいて分類器損失(全体画像分類損失131)を計算することに加えて、例示的な実装形態は、各疾患に対する予測境界ボックスを使用して、分類の前に画像を切り取ることができる。具体的には、図示されるように、ローカライザ302は、疾患の予測位置306を決定し、画像を疾患の予測位置の領域を残して切り取って、局所画像埋め込み304を生成する。具体的には、ローカライザ302は、アンカー画像305の局所疾患の予測位置の境界ボックス内の領域の特徴を抽出する。境界ボックスの外側の領域の特徴値は0に設定される。修正された特徴、即ち局所画像埋め込み304は、境界ボックスの中の画像を表し、第2の分類器に入力される。代替のアプローチは、非疾患領域をある値、例えば0でマスクし、マスクされた画像を分類器への入力として使用することであろう。なお、予測された境界ボックス内の特徴(又は局所からの特徴)を選択することで、計算のいくつかの層がスキップされ、効率が向上することに留意されたい。
【0060】
加えて、図3のモデルでは、画像埋め込み304は、画像特徴埋め込みネットワーク117にフィードバックされて、アンカー画像105から抽出されている特徴の画像埋め込みを改善することができる。
【0061】
いくつかの例示的な実装形態では、CAM位置特定アルゴリズムを使用することができ、DenseNetの最後の層でのアクティベーションが抽出される。あるいは、例示的な実装形態では、GradCAM位置特定アルゴリズムが使用されてもよい。異なる例示的な実装形態では、異なる正規化方法が使用され得る。いくつかの例示的な実装形態では、すべての特徴にわたって最大値が正規化に使用され得る。別の例示的な実装形態では、すべての特徴にわたって最大値と最小値との差が正規化に使用され得る。いずれの場合も、固定された閾値よりも大きい特徴アクティベーションの位置が識別され得る。閾値アクティベーションの周りの矩形の境界ボックスが計算され、境界ボックスの外側の特徴はゼロにされる。次に、得られた特徴マップは分類器305に供給され、分類器305は元の分類器と重みを共有する(図3参照)。あるいは、トレーニングされた分類器パラメータ(分類層のみ)で初期化された別個の分類器が、局所画像を分類するために使用され得る。全体画像分類からの損失131及び局所画像分類からの損失308は、以下の式8を使用して加重合計312として結合される。
【0062】
【数8】
【0063】
ここで、αは、局所画像損失の効果が徐々に加えられるように、いくつかの基準時点(epoch)にわたって0から0.5まで変化する。例えば、いくつかの例示的な実装形態では、αは20の基準時点にわたって増加し得る。その後、αは一定に保たれる。
【0064】
いくつかの例示的な実装形態では、このトレーニングモデルは、トレーニング済みベースラインモデルのパラメータで初期化され得る。トレーニング済みベースラインモデルは、固定回数の反復トレーニングによって、又は検証データセットで損失が漸近するまで完全にトレーニングすることによって取得され得る。この初期化、即ち事前トレーニングを使用して、最初の反復で、推定された局所領域が正しい可能性が高くなり、局所特徴が何らかの情報を有する可能性が高くなる。初期化が実行されない場合には、最初の反復で、局所領域推定の推定値は純粋なノイズであり、このためモデルには非常にノイズの多い局所特徴が与えられ、初期のトレーニング反復中の困難さを増大させる。
【0065】
いくつかの例示的な実装形態では、図3に示される予測された局所特徴モデルは、図1のトリプレット損失予測モデルと組み合わせることができる。具体的には、バイナリ分類器を事前トレーニングするのと同様に、トリプレットモデルを最初に単独でトレーニングして、事前にトレーニング済み分類モデルを提供することができる。次に、図1の分類器ネットワーク129を、図3に示される2つの分類器129、305及びローカライザ302で置き換えることができる。すると損失は、全体画像損失(マルチレベル損失131、局所画像損失308、及びトリプレット損失133)の組み合わせとなる。結合モデルは、複数の疾患を区別するためのより優れた特徴空間を学習することを目的としている。
【0066】
しかしながら、代替の例示的な実装形態では、図3の予測された局所特徴モデルは、図1のトリプレット損失予測モデルなしで単独で使用されてもよい。さらに別の例示的な実装形態では、図1のトリプレット損失予測モデルは、図3の予測された局所特徴モデルなしで単独で使用されてもよい。
【0067】
図4は、本開示の例示的な実装形態に係るトレーニング済みニューラルネットワークを用いて画像を分類するプロセス400のフローチャートを示す。プロセス400は、コンピューティング環境内のコンピュータ装置によって実行され得る。例えば、図9のコンピューティング環境900のコンピュータ装置905が、プロセス400を実行してもよい。
【0068】
図4に示されるように、ステップ405で、ニューラルネットワークは、ラベル付けされた画像サンプルを使用してトレーニングされる。トレーニングには、画像ラベルでラベル付けされた複数のラベル付けされた画像サンプルを使用することを含み得るが、画像ラベルの位置情報(例えば、画像ラベルが配置された画像内の領域を識別する情報)は使用しない。例えば、ラベル付けされた画像サンプルは、疾患ラベル又はその他の診断情報でラベル付けされた公的に入手可能な医用画像セット(例えば、NIH CHESTXRAY14データセット)からの医用画像であってもよい。
【0069】
いくつかの例示的な実装形態では、ステップ405でのニューラルネットワークのトレーニングは、図1に示すようなトリプレット損失を用いて画像分類器をトレーニングすることを含み得る。別の例示的な実装形態では、ステップ405でのニューラルネットワークのトレーニングは、図2又は図3に示すような局所疾患予測を用いて画像分類器をトレーニングすることを含み得る。さらに別の例示的な実装形態では、ステップ405でのニューラルネットワークのトレーニングは、最初に図1に示すようなトリプレット損失を用いて画像分類器をトレーニングすることと、次に図2又は図3に示すような局所疾患予測を用いて画像分類器をトレーニングすることとを組み合わせることを含み得る。
【0070】
ニューラルネットワークがトレーニングされた後に、ステップ410で、解析用の画像(例えば、テストデータ画像)が選択される。選択されるテストデータ画像は、トレーニング画像データ内の画像の対象とは異なり、いくつかの例示的な実装形態におけるトレーニングと同じタイプの特徴(例えば、同じ疾患)を有することが疑われる新しい対象(例えば、新しい患者)であってもよい。選択されるテストデータ画像は、トレーニングデータ内の画像の対象と同じ対象(例えば、同じ患者)であってもよい。加えて、テストデータ画像及びトレーニング画像は、三次元画像の二次元スライスであってもよい。
【0071】
ステップ415で、トレーニング済みニューラルネットワークが選択画像に適用されて、選択画像に関連付けられた画像特徴分類が決定される。例えば、ニューラルネットワークは、選択画像を解析して、選択画像に関連付けられた疾患分類を決定することができる。いくつかの例示的な実施形態では、選択画像へのトレーニング済みニューラルネットワークの適用には、空間変換ネットワークを使用して画像を変換し、画像データのトレーニングに使用されるトレーニングデータと一致する一定の画像の向き及びスケールを有するようにすることを含み得る。
【0072】
ステップ420で、トレーニング済みニューラルネットワークは、任意選択で、決定された画像特徴分類に関連付けられた画像ラベルの位置(例えば、画像ラベルが配置されている画像内の領域)も決定してもよい。例えば、トレーニング済みニューラルネットワークは、ステップ415で決定された疾患分類に関連付けられた画像の領域も検出し得る。
【0073】
ステップ425で、決定された画像特徴分類は、ユーザに提供又はエクスポートされ得る。例えば、選択された医用画像に関連付けられた診断書に添付される疾患分類レポートが生成されてもよい。
【0074】
ステップ430で、決定された画像ラベルの位置(例えば、画像ラベルが配置されている画像内の領域)もまた、任意選択でユーザに提供又はエクスポートされ得る。例えば、選択された医用画像の疾患領域を識別する境界ボックスが、診断書に添付されてもよい。ステップ425で画像特徴分類がユーザに提供された後、又はステップ430で決定された画像ラベルの位置が任意選択でユーザに提供又はエクスポートされた後に、プロセス400は終了し得る。
【0075】
例示的な実装形態の評価
【0076】
【表1】
【0077】
表1:他のモデルとは異なりトレーニング時にいくつかのラベル付けされた境界ボックスを使用する本実施形態のモデル及びGoogleモデルという2つのベースラインモデルの分類及び位置特定の性能の概要。ラベル付けされた境界ボックスを使用しない最高性能モデルは太字で示されている。全モデルのうちの最高性能モデルはイタリック体の太字で示されている。
【0078】
本実施形態の評価のために、NIH ChestXray14データセットを使用した。トリプレット損失実験では、第1のタスクは、データセット内の14のラベル付けされた疾患のマルチラベル分類である。第2のタスクは、データセット内に局所特徴が存在しないGradCAMを使用した8つの疾患の位置特定である。
【0079】
局所特徴を用いる実験のために、本実施形態を3つの疾患のバイナリモデルと比較した。これは、局所特徴が他の疾患からの影響を混乱させることなく各疾患について性能が向上するか否かを、より明確に示すはずである。局所特徴が役立つかどうかを調べるための局所特徴実験にバイナリモデルを使用したが、この方法は、STN+トリプレット損失モデルに統合され得る。疾患は、心肥大、腫瘤、及び結節である。これらの疾患のための分類テストセットは、マルチラベル分類での3つの疾患のためのテストデータと同じである。位置特定テストセットは、ラベル付けされた境界ボックスを有するテストデータのサブセットである。
【0080】
STN及びトリプレット損失の結果
【0081】
2つのベースラインモデルChestX-ray14(NIHによる)及びCheXNextは、本実施形態のモデル(STN+トリプレット)との比較に使用した。ベースラインモデルChestX-ray14は、画像表現を計算するために4つの画像解析モデル(即ち、AlexNet、GoogLeNet、VGGNet-16、及びResNet-50)を使用して比較した。CheXNextは、DenseNet121を使用すると、ChestX-ray14(NIHによる)に使用されるモデルよりも性能が優れていることを示した。どちらのベースラインモデルも、疾患分類に次いで位置特定を実行する。本実施形態のモデルをGoogleモデル[2]とも比較した。Googleモデル[2]は、位置特定モデルをトレーニングするために境界ボックスラベルの70%を使用した。境界ボックスラベルは、医師が手動でラベル付けする必要があり、これは通常のやり方ではないので、取得するのが困難である。
【0082】
表1は、2つのベースラインモデルChestX-ray14及びCheXNextと追加データを使用するGoogleモデルについての分類及び位置特定の性能を示す。トレーニングにいくつかのラベル付けされた境界ボックスを使用しないモデルのうちでは、本実施形態のモデル(STN+トリプレット)が、分類及び位置特定の両方で全体的に最も優れた性能を発揮した。加えて、本実施形態のモデルはまた、トレーニング中により多くのラベル付けされたデータを利用するGoogleモデルの性能に近い性能を発揮した。
【0083】
各疾患での4つのモデルのより詳細な性能は、図5及び図6に示されている。図5は、ベースラインモデル、本実施形態のモデル、及びトレーニング中にいくつかのラベル付けされた境界ボックスを使用したGoogleモデルの分類精度を示す。図6は、ベースラインモデル、本実施形態のモデル、及びトレーニング中にいくつかのラベル付けされた境界ボックスを使用したGoogleモデルの、IoUを使用して測定した位置特定性能を示す。
【0084】
局所特徴を使用したトレーニング
【0085】
これらの実験では、局所特徴を使用するトレーニングの有効性を、単層疾患分類器を備えるDenseNet121で構成されたベースラインモデルと比較した。全体画像からの特徴と共に局所特徴を使用することで性能が向上するかどうかを評価するために、疾患ごとに個別のバイナリ分類器を作成した。
【0086】
【表2】
【0087】
表2:ベースラインモデル及びアクティベーションマップを正規化する2つの異なる方法を用いて計算された局所特徴を有するモデルの分類精度。最高のテストモデル精度は太字で示されている。
【0088】
上記の表2は、2つの異なる正規化方法で計算された局所特徴を使用するベースラインモデル及び2つのモデルについての、異なる疾患に対する分類精度を示す。精度評価では、3つの疾患すべてにわたって正規化方法のいずれかと共に局所特徴が使用される場合に、テスト精度の一貫した改善が認められた。対照的に、最高性能の検証精度はベースラインモデルに対するものであったが、最高の検証性能は最高のテスト性能にはならなかった。局所特徴を採用する2つのモデルの両方についての検証とテストとの性能差は、ベースラインよりも小さかった。小さな差は、局所特徴がモデルを新しいデータによりよく一般化するのに役立つことを示している可能性がある。
【0089】
【表3】
【0090】
表3:予め定めた閾値よりも大きいIoU(Intersection over Union)を用いて評価された異なるモデルの位置特定テスト性能。最高モデル位置特定性能は太字で示されている。
【0091】
表3は、表2と同じモデルの位置特定性能を比較している。ベースラインモデルは、IoU閾値が0.1の心肥大に対してのみ、両方の局所特徴モデルよりも優れた性能を発揮した。最小アクティベーション値によって正規化するnorm1の方法は、3つのケースでベースラインよりも性能が良かった。一方、norm2の方法は、2つのケースでベースラインよりも性能が良かった。
【0092】
表2及び表3の結果から、予測された局所特徴の使用が、3つのテスト疾患にわたってテスト分類精度を一貫して改善したことがわかる。さらに、局所特徴モデルはベースラインモデルよりも幾分優れていた。各々が2つの条件で最高の位置特定性能を示し、そのうち1つの条件はIoUが0.5であり、より高いオーバラップを必要とするより厳しい基準であった。ベースラインモデルは、1つの条件で最高の性能を示し、この条件はIoU閾値が0.1とあまり厳しくない基準であった。
【0093】
定性的な結果
【0094】
図7及び図8は、マルチラベルトリプレットモデルを使用した、例示的なヒートマップと、疾患の予測位置(赤いボックス)及び疾患の正解位置(緑のボックス)とを示す。図7は、真の疾患が0.5より高い確率で予測され、正解の境界ボックスと予測された疾患の境界ボックスとの間に少なくとも0.5のIoUがある場合の例を示す。図8は、不正確な予測の例を示す。最初の2列は正しい境界ボックスを有するケースを示しているが、予測された疾患の確率は0.5未満であり、これは正しくない。3番目の列は境界ボックスが正しくないケースを示しており、予測された疾患の確率は0.5より高くても高くなくてもよい。
【0095】
例示的なコンピューティング環境
【0096】
図9は、いくつかの例示的な実装形態での使用に適した例示的なコンピュータ装置905を備えた例示的なコンピューティング環境900を示す。コンピューティング環境900におけるコンピュータ装置905は、1又は複数の処理ユニット、コア、若しくはプロセッサ910、メモリ915(例えば、RAM、ROM、及び/又は同様のもの)、内部記憶装置920(例えば、磁気、光、固体記憶装置、及び/又は有機)、及び/又はI/Oインターフェース925を含むことができる。これらのいずれも、情報を通信するために通信機構又はバス930に接続されてもよく、又はコンピュータ装置905に内蔵されていてもよい。
【0097】
コンピュータ装置905は、入力/ユーザインターフェース935及び出力装置/インターフェース940に通信可能に接続されていてもよい。入力/ユーザインターフェース935及び出力装置/インターフェース940の一方又は両方は、有線又は無線インターフェースとすることができ、着脱可能とすることができる。入力/ユーザインターフェース935は、入力を提供するために使用され得る、物理的若しくは仮想的な任意の装置、コンポーネント、センサ、又はインターフェース(例えば、ボタン、タッチスクリーンインターフェース、キーボード、ポインティング/カーソル制御、マイク、カメラ、点字、モーションセンサ、光学式リーダなど)を含んでいてもよい。
【0098】
出力装置/インターフェース940は、ディスプレイ、テレビ、モニタ、プリンタ、スピーカ、点字などを含んでいてもよい。いくつかの例示的な実装形態において、入力/ユーザインターフェース935及び出力装置/インターフェース940は、コンピュータ装置905に内蔵されていてもよく、又はコンピュータ装置905に物理的に接続されていてもよい。他の例示的な実装形態では、他のコンピュータ装置は、コンピュータ装置905についても入力/ユーザインターフェース935や、出力装置/インターフェース940として機能してもよく、又はそれらの機能を提供してもよい。これらの要素は、ユーザがAR環境とやりとりできるように、公知のARハードウェア入力を含み得るが、これに限定されるものではない。
【0099】
コンピュータ装置905の例は、これに限定されるものではないが、高度なモバイル装置(例えば、スマートフォン、車両及び他の機械に搭載された装置、人間及び動物によって携行される装置など)、モバイル装置(例えば、タブレット、ノートブック、ラップトップ、パーソナルコンピュータ、ポータブルテレビ、ラジオなど)、及び移動用に設計されていない装置(例えば、デスクトップコンピュータ、サーバ装置、他のコンピュータ、情報キオスク、1又は複数のプロセッサが内蔵された及び/又はそれに接続されたテレビ、ラジオなど)を含んでいてもよい。
【0100】
コンピュータ装置905は、同一又は異なる構成の1又は複数のコンピュータ装置を含む、任意の数のネットワークコンポーネント、装置、及びシステムと通信するために、外部記憶装置945及びネットワーク950に(例えば、I/Oインターフェース925を介して)通信可能に接続されていてもよい。コンピュータ装置905又は任意の接続されたコンピュータ装置は、サーバ、クライアント、シンサーバ、汎用マシーン、専用マシーン、又は他のラベルのサービスを提供するように機能してもよく、又はそのように呼ばれてもよい。
【0101】
I/Oインターフェース925は、これに限定されるものではないが、コンピューティング環境900内の少なくとも全ての接続されたコンポーネント、装置、及びネットワークとの間で情報を通信するために、任意の通信又はI/Oプロトコル又は標準規格(例えば、イーサネット(登録商標)、802.11x、ユニバーサルシステムバス、WiMax、モデム、セルラーネットワークプロトコルなど)を使用する有線及び/又は無線インターフェースを含むことができる。ネットワーク950は、任意のネットワーク又はネットワークの組み合わせ(例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、電話ネットワーク、セルラーネットワーク、衛星ネットワークなど)とすることができる。
【0102】
コンピュータ装置905は、一時的媒体及び非一時的媒体を含むコンピュータ使用可能な媒体又はコンピュータ可読媒体を利用して、使用及び/又は通信することができる。一時的媒体は、伝送媒体(例えば、金属ケーブル、光ファイバ)、信号、搬送波などを含む。非一時的媒体は、磁気媒体(例えば、ディスク及びテープ)、光媒体(例えば、CD-ROM、ディジタルビデオディスク、ブルーレイディスク)、固体媒体(例えば、RAM、ROM、フラッシュメモリ、固体記憶装置)、及び他の不揮発性記憶装置又はメモリを含む。
【0103】
コンピュータ装置905は、いくつかの例示的なコンピューティング環境において、技術、方法、アプリケーション、プロセス、又はコンピュータ実行可能命令を実行するために使用されてもよい。コンピュータ実行可能命令は、一時的媒体から取得されてもよく、非一時的媒体に記憶されて非一時的媒体から取得されてもよい。実行可能命令は、プログラミング言語、スクリプト言語、及び機械語(例えば、C、C++、C#、Java(登録商標)、ビジュアルベーシック、パイソン、パール、JavaScript(登録商標)など)のうちの1又は複数から生成されてもよい。
【0104】
プロセッサ910は、ネイティブな環境又は仮想環境において、任意のオペレーティングシステム(OS)(図示しない)の下で動作することができる。論理ユニット955、アプリケーションプログラミングインターフェース(API)ユニット960、入力ユニット965、出力ユニット970、空間変換器975、特徴埋め込み器980、画像分類器985、ローカライザ990、及び異なるユニットが互いに通信すると共にOSや他のアプリケーション(図示しない)と通信するためのユニット間通信機構995を含む1又は複数のアプリケーションが展開されてもよい。
【0105】
例えば、出力ユニット970、空間変換器975、特徴埋め込み器980、画像分類器985、及びローカライザ990は、図4に示される1又は複数のプロセスを実施してもよく、図1から図3のアーキテクチャを実装してもよい。説明されたユニット及び要素は、設計、機能、構成、又は実施において異なる可能性があり、提供された説明に限定されるものではない。
【0106】
いくつかの例示的な実装形態では、情報又は実行命令がAPIユニット960によって受信されると、これは1又は複数の別のユニット(例えば、空間変換器975、特徴埋め込み器980、画像分類器985、及びローカライザ990)に伝送されてもよい。例えば、空間変換器975は、画像を共通の向きに対して回転及び拡大縮小させるために、1又は複数の画像を変換し得る。特徴埋め込み器980は、転送された画像から画像特徴を抽出して埋め込むことができる。画像分類器985は、埋め込まれた画像特徴に基づいて、変換画像の特徴を分類し得る。ローカライザ990は、画像分類を支援するために、埋め込まれた画像特徴分類に関連付けられた画像位置を決定し得る。
【0107】
いくつかの場合において、論理ユニット955は、上述したいくつかの例示的な実装形態において、ユニット間の情報フローを制御し、APIユニット960、空間変換器975、特徴埋め込み器980、画像分類器985、及びローカライザ990によって提供されるサービスを導くように構成されてもよい。例えば、1又は複数のプロセス又は実施形態のフローは、論理ユニット955によって単独で、又はAPIユニット960と連携して制御されてもよい。
【0108】
いくつかの例示的な実装形態が図示され、説明されてきたが、これらの例示的な実装形態は、本明細書に記載される主題を当業者に伝えるために提供される。本明細書に記載された主題は、記載された例示的な実装形態に限定されることなく、様々な形態で実施されてもよいと理解されるべきである。本明細書に記載された主題は、具体的に定義若しくは記載された事項を使用して、又は記載されていない他の若しくは異なる要素若しくは事項を使用して実施することができる。当業者は、添付の特許請求の範囲及びその均等物で定義された本明細書に記載された主題から逸脱することなく、これらの例示的な実装形態に対して変更を行うことができることを理解するであろう。
図1
図2
図3
図4
図5
図6
図7
図8
図9