IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 東芝メディカルシステムズ株式会社の特許一覧

<>
  • 特開-画像データ処理装置および方法 図1
  • 特開-画像データ処理装置および方法 図2
  • 特開-画像データ処理装置および方法 図3
  • 特開-画像データ処理装置および方法 図4
  • 特開-画像データ処理装置および方法 図5
  • 特開-画像データ処理装置および方法 図6
  • 特開-画像データ処理装置および方法 図7
  • 特開-画像データ処理装置および方法 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024125274
(43)【公開日】2024-09-18
(54)【発明の名称】画像データ処理装置および方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240910BHJP
   G06V 10/774 20220101ALI20240910BHJP
   G16H 30/20 20180101ALI20240910BHJP
【FI】
G06T7/00 612
G06V10/774
G16H30/20
【審査請求】未請求
【請求項の数】20
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024025189
(22)【出願日】2024-02-22
(31)【優先権主張番号】63/486,352
(32)【優先日】2023-02-22
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】18/581,231
(32)【優先日】2024-02-19
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】594164542
【氏名又は名称】キヤノンメディカルシステムズ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】フランチェスコ・ダラ・セラ
(72)【発明者】
【氏名】アリソン・オニール
(72)【発明者】
【氏名】チャオヤン・ワン
(57)【要約】      (修正有)
【課題】画像解析モデルをトレーニングし、少なくとも画像データを含む入力データに関するタスクを行うデータ処理装置及び方法を提供する。
【解決手段】データ処理装置20は、入力データを受け取ることと、前記入力データに含まれる画像データに含まれる解剖学的領域を特定し、当該解剖学的領域に関する所定のサブタスクに関するラベルを決定するようにトレーニングされる視覚的情報抽出器モデルを適用することにより、画像解析モデルへ入力するための画像トークンを作成することと、少なくとも前記画像トークンを入力することにより前記画像解析モデルをトレーニングすることと、を行う処理装置を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
画像解析モデルをトレーニングし、少なくとも画像データを含む入力データに関するタスクを行うデータ処理装置であって、
前記入力データを受け取ることと、
前記入力データに含まれる前記画像データに含まれる解剖学的領域を特定し、当該解剖学的領域に関する所定のサブタスクに関するラベルを決定するようにトレーニングされる視覚的情報抽出器モデルを適用することにより、前記画像解析モデルへ入力するための画像トークンを作成することと、
少なくとも前記画像トークンを入力することにより前記画像解析モデルをトレーニングすることと、
を行う処理回路を備えるデータ処理装置。
【請求項2】
前記画像解析モデルがトレーニングされる目的としての前記タスクは、テキストレポートの作成を含む、請求項1に記載のデータ処理装置。
【請求項3】
前記画像解析モデルがトレーニングされる目的としての前記タスクは、画像分類と、視覚的質問応答と、画像キャプショニングと、自動レポーティングと、のうちの少なくとも1つを含む、請求項1に記載のデータ処理装置。
【請求項4】
前記画像解析モデルはトランスフォーマーモデルを含む、または
前記視覚的情報抽出器モデルはFaster Region-based convolutional neural network(Faster R-CNN)モデルを含む、
のうちの少なくとも1つである、請求項1に記載のデータ処理装置。
【請求項5】
前記入力データはマルチモーダルデータであり、前記視覚的情報抽出器モデルは前記マルチモーダルデータに適用される、請求項1に記載のデータ処理装置。
【請求項6】
前記入力データはテキストデータを更に含み、前記画像解析モデルは前記テキストデータに適用される、請求項1に記載のデータ処理装置。
【請求項7】
前記テキストデータは、患者の病歴データと、スキャン情報と、応答すべき質問に関する情報と、実行すべき前記タスクに関する情報と、前回のレポートと、前回の放射線読影レポートと、のうちの少なくとも1つを含む、請求項6に記載のデータ処理装置。
【請求項8】
前記所定のサブタスクは、前記解剖学的領域に関する所見を得るためのタスクである、請求項1に記載のデータ処理装置。
【請求項9】
前記視覚的情報抽出器モデルは複数の解剖学的領域を特定する、請求項1に記載のデータ処理装置。
【請求項10】
前記複数の解剖学的領域は、オントロジーの異なる世代層であり、前記画像解析モデルのトレーニングは、前記オントロジーの少なくとも1つの世代層をマスキングアウトすることを含む、請求項9に記載のデータ処理装置。
【請求項11】
前記画像トークンの作成は、前記解剖学的領域の特徴表現をグローバル画像表現に連結することを含む、請求項1に記載のデータ処理装置。
【請求項12】
前記視覚的情報抽出器モデルは、解剖学的領域のクラスタごとに、前記所定のサブタスクのラベルを決定し、
前記画像解析モデルのトレーニングは、当該所定のサブタスクに関する前記解剖学的領域のクラスタをマスキングアウトすることを含む、請求項1に記載のデータ処理装置。
【請求項13】
前記視覚的情報抽出器モデルは、複数の解剖学的領域ごとに、前記所定のサブタスクのラベルを決定し、
前記画像解析モデルのトレーニングは、実行すべき前記タスクの結果を含むグラウンドトゥルースデータを入力することを更に含み、前記結果は複数のセンテンスを含むテキストデータを含み、
前記画像解析モデルのトレーニングは、前記複数のセンテンスのうち、当該所定のサブタスクに関する少なくとも1つのセンテンスを削除することと、当該削除された少なくとも1つのセンテンスに対応する解剖学的領域のクラスタをマスキングアウトすることと、を更に含む、請求項1に記載のデータ処理装置。
【請求項14】
前記画像データは、現在のスキャンと以前のスキャンを含む被検体の2つのスキャンからのデータを含み、
前記画像トークンを前記画像解析モデルへ入力するときに、前記現在のスキャンと以前のスキャンからの対応する画像トークンはペア化される、
請求項1に記載のデータ処理装置。
【請求項15】
前記画像データは、現在のスキャンと以前のスキャンとを含む被検体の2つのスキャンからのデータを含み、
前記所定のサブタスクは前記現在のスキャンと以前のスキャンとの間の所見の属性の変化、または、当該属性の変化がないことを予測する、
請求項1に記載のデータ処理装置。
【請求項16】
画像解析モデルをトレーニングし、少なくとも画像データを含む入力データに関するタスクを行う方法であって、
前記入力データを受け取ることと、
前記入力データに含まれる前記画像データに含まれる解剖学的領域を特定し、当該解剖学的領域に関する所定のサブタスクに関するラベルを決定するようにトレーニングされる視覚的情報抽出器モデルを適用することにより、前記画像解析モデルへ入力するための画像トークンを作成することと、
前記画像トークンを入力することにより前記画像解析モデルをトレーニングすることと、
を含む方法。
【請求項17】
少なくとも画像データを含む入力データに関するタスクを行うようにトレーニングされる画像解析モデルを適用するデータ処理装置であって、前記データ処理装置は
被検体に関連付けられた前記入力データを受け取ることと、
前記入力データに含まれる前記画像データに含まれる解剖学的領域を特定し、当該解剖学的領域に関する所定のサブタスクに関するラベルを決定するようにトレーニングされる視覚的情報抽出器モデルを適用することにより、前記画像解析モデルへ入力するための画像トークンを作成することと、
前記画像解析モデルを当該画像トークンに適用することと、
を行う処理回路を備え、
前記画像解析モデルは当該タスクを行い、前記被検体に関する出力を作成する、
データ処理装置。
【請求項18】
前記視覚的情報抽出器モデルは、複数の解剖学的領域ごとに、前記所定のサブタスクのラベルを決定し、
前記処理回路はさらに、前記複数の解剖学的領域のサブセットの選択を示す入力をユーザから受け取り、前記画像解析モデルが使用する前記画像トークンを前記選択に従って制限する、
請求項16に記載のデータ処理装置。
【請求項19】
前記視覚的情報抽出器モデルは、複数の解剖学的領域ごとに、前記所定のサブタスクのラベルを決定し、
前記タスクは視覚的質問応答を含み、
前記処理回路はさらに、解剖学的領域のサブセットの選択をユーザから受け取り、当該解剖学的領域のサブセットを参照して前記タスクを行う、
請求項17に記載のデータ処理装置。
【請求項20】
少なくとも画像データを含む入力データに関するタスクを行うようにトレーニングされる画像解析モデルを適用する方法であって、
被検体に関連付けられた前記入力データを受け取ることと、
前記入力データに含まれる前記画像データに含まれる解剖学的領域を特定し、当該解剖学的領域に関する所定のサブタスクに関するラベルを決定するようにトレーニングされる視覚的情報抽出器モデルを適用することにより、前記画像解析モデルへ入力するための画像トークンを作成することと、
前記画像解析モデルを当該画像トークンに適用することと、
を含み、
前記画像解析モデルは当該タスクを行い、前記被検体に関する出力を作成する、
方法。
【発明の詳細な説明】
【技術分野】
【0001】
本明細書に記載の実施形態は、概して、例えば、第1のモデルを用いて画像トークンを生成し、当該画像トークンを第2のモデルへ入力して画像処理タスクを行う、画像データを処理する方法と装置に関する。
【背景技術】
【0002】
トランスフォーマー(Transformer)モデルは、マルチヘッドセルフアテンション(Self-attention)機構の使用に基づく深層学習モデルのファミリーである。トランスフォーマーモデルは、例えば、画像分類、視覚的質問応答(visual question answering)、画像キャプショニング、および/または、自動レポーティングなどに用いられることがある。
【0003】
トランスフォーマーへの入力は、視覚的情報抽出器からの画像トークンと、入力シーケンス内のインデックスのベクトル表現を与える位置埋め込みと、入力モダリティのベクトル表現を与えるセグメント埋め込みと、をしばしば含む。医用画像処理ためのトランスフォーマーモデルの入力データは、例えば、エンコーダモデルからの特徴マップなどのグローバル特徴のシーケンス、若しくは、画像のグリッドなどのパッチを含んでよい。これらの表現のどちらも、当該入力の空間構造に依存しない。
【0004】
視覚的情報抽出器の選択に依存して、異なる画像トークン表現が得られてよい。画像トークン表現は、画像全体または画像内の別々のオブジェクトを表してよい。
【発明の概要】
【発明が解決しようとする課題】
【0005】
状況次第では、画像に適用されるトランスフォーマーモデルの出力が正確でないことがある。ある状況では、画像に適用されるトランスフォーマーモデルを簡単に解釈できないことがある。ある状況では、トランスフォーマーモデルの出力が、臨床使用に要求される精度を有していないことがある。
【0006】
具体的には、後続のタスクが画像キャプショニングである場合は、自動作成されたレポートにおいて解剖学的位置の説明がしばしば不正確である。入力トークンをマスキングアウトして出力における影響を観察すると、入力と出力との間に弱い空間的対応しかないことが通常は判明する。
【課題を解決するための手段】
【0007】
ある実施形態は、画像解析モデルをトレーニングし、少なくとも画像データを含む入力データに関するタスクを行うデータ処理装置を提供する。前記データ処理装置は、前記入力データを受け取ることと、前記入力データに含まれる前記画像データに含まれる解剖学的領域を特定し、当該解剖学的領域に関する所定のサブタスクに関するラベルを決定するようにトレーニングされる視覚的情報抽出器モデルを適用することにより、前記画像解析モデルへ入力するための画像トークンを作成することと、少なくとも前記画像トークンを入力することにより前記画像解析モデルをトレーニングすることと、を行う処理回路を備える。
【0008】
ある実施形態は、少なくとも画像データを含む入力データに関するタスクを行うようにトレーニングされる画像解析モデルを適用するデータ処理装置を提供する。前記データ処理装置は、被検体に関連付けられた前記入力データを受け取ることと、前記入力データに含まれる前記画像データに含まれる解剖学的領域を特定し、当該解剖学的領域に関する所定のサブタスクに関するラベルを決定するようにトレーニングされる視覚的情報抽出器モデルを適用することにより、前記画像解析モデルへ入力するための画像トークンを作成することと、前記画像解析モデルを当該画像トークンに適用することと、を行う処理回路を備える。前記画像解析モデルは当該タスクを行い、前記被検体に関する出力を作成する。
【0009】
ある実施形態は、画像解析モデルをトレーニングし、少なくとも画像データを含む入力データに関するタスクを行う方法を提供する。前記方法は、前記入力データを受け取ることと、前記入力データに含まれる前記画像データに含まれる解剖学的領域を特定し、当該解剖学的領域に関する所定のサブタスクに関するラベルを決定するようにトレーニングされる視覚的情報抽出器モデルを適用することにより、前記画像解析モデルへ入力するための画像トークンを作成することと、前記画像トークンを入力することにより前記画像解析モデルをトレーニングすることと、を含む。
【0010】
ある実施形態は、少なくとも画像データを含む入力データに関するタスクを行うようにトレーニングされる画像解析モデルを適用する方法を提供する。前記方法は、被検体に関連付けられた前記入力データを受け取ることと、前記入力データに含まれる前記画像データに含まれる解剖学的領域を特定し、当該解剖学的領域に関する所定のサブタスクに関するラベルを決定するようにトレーニングされる視覚的情報抽出器モデルを適用することにより、前記画像解析モデルへ入力するための画像トークンを作成することと、前記画像解析モデルを当該画像トークンに適用することと、を含み、前記画像解析モデルは当該タスクを行い、前記被検体に関する出力を作成する。
【図面の簡単な説明】
【0011】
ここで、実施形態が、限定にはならない例示として説明され、以下の図に示される。
図1図1は、実施形態に従った画像データを処理するための装置の概略図である。
図2図2は、実施形態に従った画像データを処理するための方法の概略図である。
図3図3は、実施形態に従った画像解析モデルの概略図である。
図4図4は、実施形態に従った画像トークン表現の3つの概略図を含む。
図5図5は、実施形態に従った画像データを処理するための方法の概略図である。
図6図6は、実施形態に従った自動レポート作成方法の概略図である。
図7図7は、実施形態に従った画像データを処理するための方法の概略図である。
図8図8は、オーバーレイされた視覚特徴を有する3つの医用画像を含む。
【発明を実施するための形態】
【0012】
実施形態に従ったデータ処理装置20が、図1に概略的に示される。本実施形態において、データ処理装置20は、医用画像データを処理するように構成される。他の実施形態において、データ処理装置20は任意の他の好適なデータを処理するように構成されてよい。
【0013】
データ処理装置20は、本例ではパーソナルコンピュータ(PC)またはワークステーションであるコンピューティング装置22を備える。コンピューティング装置22は、ディスプレイスクリーン26、または、他の表示装置と、コンピュータキーボードやマウスなどの1つまたは複数の入力装置28とに接続される。
【0014】
コンピューティング装置22は、データ記憶部30からデータセットを取得するように構成される。データ記憶部から取得されるデータの少なくとも一部は、例えば、スキャナ24を用いて得たデータなどの医用画像データを含む。医用画像データは、任意の撮像モダリティにおける2次元、3次元、または、4次元のデータを備えてよい。例えば、スキャナ24は、磁気共鳴(Magnetic Resonance:MRまたはMagnetic Resonance Imaging:MRI)スキャナ、コンピュータ断層撮影(Computed Tomography:CT)スキャナ、コーンビームCTスキャナ、X線スキャナ、超音波スキャナ、陽電子放出断層撮影(Positron Emission Tomography:PET)スキャナ、または、単一光子放射コンピュータ断層撮影(Single Photon Emission Computed Tomography:SPECT)スキャナを備えてよい。
【0015】
医用画像データは追加データを含んでよい、または、追加データと関連付けられてよい。追加データは、例えば、非画像データを含んでよい。非画像データは、テキストデータを含んでよい。例えば、非画像データは患者病歴を含んでよい。非画像データは、例えばスキャンを取った理由などの、スキャンに関する情報を含んでよい。非画像データは、応答すべき質問を含んでよい。非画像データは、構造化臨床データを含んでよい。非画像データは、遺伝学的データを含んでよい。
【0016】
コンピューティング装置22は、データ記憶部30の代わりに、または、データ記憶部30に加えて、1つまたは複数の更なるデータ記憶部(図示せず)からデータを受け取ってよい。例えば、コンピューティング装置22は、医用画像保管伝送システム(Picture Archiving and Communication System:PACS)または他の情報システムの一部を形成してもよい1つまたは複数の遠隔のデータ記憶部(図示せず)から医用画像データを受け取ってよい。
【0017】
コンピューティング装置22は、自動的に、または、半自動で当該データを処理するための処理リソースを提供する。コンピューティング装置22は、処理装置32を備える。処理装置32は、1つまたは複数のモデルをトレーニングするモデルトレーニング回路34と、トレーニング済モデル(複数可)を適用し、例えば、画像分類、視覚的質問応答、画像キャプショニング、および/または、自動レポーティングなどの他の処理を行うデータ処理回路36と、ユーザまたは他の入力を得て、および/または、データ処理の結果を出力する推論回路38と、を備える。
【0018】
本実施形態において、回路34、36、38は、各々、実施形態の方法を実行するために実行可能であるコンピュータが読み出し可能な命令を有するコンピュータプログラムにより、コンピューティング装置22に実装される。しかし、他の実施形態では、種々の回路が、1つまたは複数の特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)またはフィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA)として実装されてよい。
【0019】
また、コンピューティング装置22は、ハードドライブと、RAM、ROM、データバス、種々のデバイスドライバを含むオペレーティングシステム、および、グラフィックカードを含むハードウェア装置を含んだPCの他のコンポーネントとを有する。その様なコンポーネントは、明瞭化のために、図1には示されない。
【0020】
図1のデータ処理装置20は、図示されるおよび/または以下に説明される方法を行う。
【0021】
図2は、実施形態に従った医用画像データを含むデータを処理する方法200の概略を示すフローチャートである。図2において、胸部X線(Chest X-Ray:CXR)画像のためのマルチモーダル自動レポーティングパイプラインと統合して、データ処理方法が示されている。組み合わせた方法は、解剖学的特徴抽出40と放射線読影レポート作成42との2つのパートを含んで示される。
【0022】
解剖特徴抽出40パートでは、解剖学的特徴を見つけるために、入力CXR画像44が視覚的情報抽出器46に与えられる。視覚的情報抽出器46はCNNを含んでよい。本実施形態では、視覚的情報抽出器46は、Faster R-CNNを含む。他の実施形態では、入力画像はMRIおよびCTスキャンを含む任意の他のフォーマットの画像であってよく、また、テキストを含んでよい。
【0023】
視覚的情報抽出器46は入力CXR画像44に基づいて、1セットの解剖学的特徴候補48を選択する。視覚的情報抽出器46は、特定の解剖学的特徴に関連付けられた空間領域の所定のセットのうちの1つまたは複数を特定するようにトレーニングされている。これらは、左上肺と、縦隔と、右心尖部と、右心房と、他の関連する解剖学的特徴とを含んでよい。解剖学的特徴候補48のセットは、視覚的情報抽出器46が入力画像内で特定する1つまたは複数の解剖学的トークンと、解剖学的特徴候補に関連付けられた複数の所定の所見のうちの1つまたは複数と、を含む。このような所見の取得をサブタスク(複数可)と称することがある。
【0024】
空間領域の所定のセットからのトークンの抽出は、入力シーケンスの意味構造を正規化する。所見それぞれの位置に関する情報をトランスフォーマーモデルへ暗黙的に与えることで、当該方法はより正確なモデル予測に至る。
【0025】
解剖学的特徴候補48は、放射線読影レポート作成パート42およびマルチタスク分類器50に入力として与えられる。マルチタスク分類器50と放射線読影レポート作成パート42は共に画像解析モデルを含む。
【0026】
マルチタスク分類器50は解剖学的構造の位置の特定および所見検出のタスクを行う。解剖学的構造の位置の特定は、解剖学的構造または解剖学的特徴の特定エレメントの境界ボックス座標を予測するタスクを含む。図2では、解剖学的特徴を描く二次元の境界ボックスが出力CXR画像52内に示される。所見の検出は、各領域内の所見を予測するタスクである。所見は、解剖学的特徴に関連する症状や解剖学的特徴の状態の変化など、医用画像内で特定された患者に関する任意の臨床関連情報を含んでよい。所見は放射線検査に関わるイベントまたは変化であってよい。所見は、病理学的な強度または空間的広がりにおける改善または悪化であってよい。
【0027】
マルチタスク分類器50は、出力CXR画像52を生成する。出力CXR画像52内の解剖学的トークンはラベル付けされたものでよい。検出された解剖学的トークンは、図2の出力CXR画像52に重畳する境界ボックスのように、視覚的にラベル付けされたものでよい。また、出力画像に重畳するテキストのように、テキストを用いて特徴をラベル付けしてよい。出力はマルチタスク分類器50が作成したテキストを伴ってよい。図示される実施形態では、当該テキストは、解剖学的特徴に関連付けられた所見を伴う解剖学的トークンのラベルを含む。出力CXR画像52のフォーマットは、当該埋め込みに固有である。他の実施形態では、検出した所見および解剖学的トークンを他の様々な方法で図示してよい。
【0028】
放射線読影レポート作成42パートに入力として与えられるマルチモーダル解剖学的特徴候補48は、入力CXR画像44に対応する1つまたは複数の解剖学的トークン54と症状欄56とを含む。症状欄は、マルチタスク分類50中に特定された所見ラベルを含む。
【0029】
解剖学的トークン54と症状欄56の情報を、トリプル60を生成するトリプル抽出器58に渡す。トリプル60は2つのエンティティ間の関係を表す情報を含む。本実施形態では、エンティティは解剖学的特徴とそれらの関連プロパティとを含む。他の実施形態では、トリプル60は他のエンティティ間の関係を定義してよい。出力CXR画像52は、例えば、解剖学的領域ごとの境界ボックス座標プラス当該領域における各所見の確率など、トレーニングタスクから結果として得られた画像に対する位置の特定/検出予測を含んでよい。本実施形態ではテキストレポートである出力レポート64を後に生成する放射線読影レポート作成モデルへの入力として、このネットワーク(例えば、解剖学的特徴抽出)からの中間表現を用いてよい。例えば、レポート作成器62は、マルチモーダル入力53とトリプル60とを用いて、出力レポートを作成する。本実施形態の出力レポート64は、テキスト情報を含む。他の実施形態では、出力レポート64は1つまたは複数の画像、若しくは、テキストと画像の組み合わせを含んでよい。
【0030】
図3は、実施形態に従った画像解析モデル66の概略図である。画像解析モデルは、マルチヘッドアテンション機構を活用するトランスフォーマーモデルを含む。画像解析モデルの他の実施は、畳み込みニューラルネットワークおよび再帰型ニューラルネットワークを含む。トランスフォーマーは、自然言語処理(Natural Language Processing:NLP)タスクにおける最新技術であり、画像処理タスクでの期待が高まっている。
【0031】
トランスフォーマーへの入力は、画像トークンと、位置埋め込みと、セグメント埋め込みと、を含んでよい。図3において、マルチモーダル入力データ68を視覚的情報抽出器46に与えて、画像トークンを得る。トークン化した入力から位置およびセグメント埋め込みを得る。視覚的情報抽出器46から画像トークンを得てよい。ここで、視覚的情報抽出器は残差ニューラルネットワークまたは同様のニューラルネットワークであってよい。位置埋め込みは、入力シーケンス内のトークンのインデックスのベクトル表現を含む。これにより、画像解析モデルは、トークン埋め込みの順番に、または、トークンが入力シーケンスに現れる順番にアクセスできる。セグメント埋め込みは、入力のモダリティのベクトル表現を含み、モデルが画像データとテキストデータなどの異なる入力モードを区別するための手助けをする。本実施形態では、マルチモーダル入力データ68は、視覚的に表現されるフォーマットおよびテキストで表現されるフォーマットのデータを含むが、他の実施形態では、他のデータフォーマットを用いてよい。テキストで表現されるデータは、視覚的に表現されるデータとは別に、図3に示される入力テキスト69を含む。上述した入力データのベクトル表現と入力データのフォーマットとを、解剖学的構造の位置の特定と、所見の検出と、レポート作成のためにトランスフォーマーモデル70に与える。トークン化は放射線読影レポート作成器内で行われる。各テキスト作成モデルは自身の対応するトークナイザを有してよい。
【0032】
トランスフォーマーを用いる画像処理タスクの例には、画像分類と、画像キャプショニングと、視覚的質問応答と、自動レポーティングとが含まれる。トランスフォーマーアーキテクチャを使用することで、視覚的情報の入力およびテキストで表現される入力の連結とマルチモーダル入力の使用が可能となる。視覚的質問応答は質問に応答するタスクであり、ここでは、質問は画像を参照するものであり、画像解析モデルへのマルチモーダル入力の例である。自動レポーティングは、画像のためのテキスト説明を作成するタスクであり、画像キャプショニングを含んでよい。
【0033】
Faster R-CNNは、所見確率(スカラ値)を出力してよい。トランスフォーマーは所見のテキスト説明と、レポートに含まれるべき任意の関連詳細(例えば、位置、重症度)を出力してよい。
【0034】
図4は、典型的には画像解析モデルとそれらを作成する方法に与えられる画像トークン表現の3つの異なるフォーマットを示す。得られたトークンのフォーマットは、視覚的情報抽出器46の選択に依存する。
【0035】
図4のaは入力画像72を示し、入力画像72は例えばサイズM×Nの矩形または正方形または任意の他の好適なアレイに分割され、各セクションは生のピクセルパッチと呼ばれる。その後、パッチを連結し、連結ステージ74で長さNpのシーケンスを形成する。ここで、Npは整数である。パッチのシーケンスを大量の全結合層(Fully Connected Layer:FCL)を用いて処理し、入力画像の、長さNpの潜在ベクトル表現76を得る。全結合層は、放射線読影レポート作成器モデルへの入力に適した次元の表現を生成する。当該実施形態の変形例として、画像のクラスを予測することにより、または、放射線読影レポート作成器モデルでのエンドツーエンド(end-to-end)トレーニングにより、この層をトレーニングしてよい。CNNモデルは、高いレポート作成性能のために、各画像から最良の特徴を抽出することを目指す。上述の表現は入力画像72全体を表す。
【0036】
図4のbは、サイズK×Lの特徴マップを得るためにCNN78を用いて処理される入力画像72を示す。その後、特徴マップを平坦化し、FCLによってNr個の個々の画像埋め込みになるよう処理する。ここで、Nrは整数である。表現はフル入力画像72を表す。
【0037】
図4のcは、1つまたは複数の解剖学的トークンを得るようにCNN78を用いて処理される入力画像72を示す。CNN78と、領域提案ネットワーク(Region Proposal Network:RPN)と、関心領域プーリング層(Region of Interest Pooling:ROIプール)90を用いて画像を処理し、Na個の解剖学的特徴埋め込み、即ち、解剖学的トークン88を得る。ここで、Naは整数である。当該表現は完全な画像というよりは画像内の特定のオブジェクトを表すため、当該表現は図4のaおよび4のb内のものと対照的である。オブジェクト検出は、画像内の意味オブジェクトのインスタンスを、それらを含むボックス座標を検出することにより特定するタスクである。
【0038】
図5は、実施形態に従った画像データを処理するための方法500の概略図である。図5は、実施形態に従って視覚的データから解剖学的トークンを得るために用いられる視覚的情報抽出器46と画像解析モデル66の詳細を示す。入力画像92をトレーニング済ニューラルネットワーク94へ入力として与える。トレーニング済ニューラルネットワーク94はFaster R-CNNを含んでよい。本実施形態のトレーニング済ニューラルネットワーク94は、「Chest ImaGenome」データセットでトレーニングされ、36個の解剖学的特徴と当該解剖学的特徴に関連付けられた71個の所見を検出する。ニューラルネットワーク94は入力画像92から画像特徴96を得る。領域提案ネットワーク(region proposal network:RPN)98は、画像特徴を処理して、ターゲットとなる解剖学的領域ごとに境界ボックス座標の1つまたは複数の候補を提案するニューラルネットワークである。RPN98からの出力を、関心領域プーリング層(Region of Interest Pooling:ROIプール)100内で画像特徴96と組み合わせる。ROIプール100は、入力画像92内に存在する解剖学的特徴に対応する解剖学的トークン102を出力する。RPNが提案する境界ボックスの候補ごとに、RoIプーリング層は画像特徴表現から対応する領域を抽出し、これをベクトル表現に平坦化する。
【0039】
解剖学的トークン102を画像解析モデル66により処理する。画像解析モデル66はトランスフォーマーモデル70を含んでよい。本実施形態では、画像解析モデル66は、解剖学的構造分類と、境界ボックス回帰と、マルチレベル分類と、を解剖学的トークン102に行う。解剖学的構造分類とマルチレベル分類は図2に関連して説明したので、ここでは説明を繰り返さない。典型的には、境界ボックスリグレッサはターゲットとなるオブジェクトクラスの位置を、座標位置のペア(例えば、左上、右下)として予測し、境界ボックスリグレッサはグラウンドトゥルース境界ボックスについてトレーニングされる。Faster R-CNNにおいて、これらの境界ボックス予測は領域提案と呼ばれる。固定のアンカーボックスを用いて座標予測を初期化してよい。
【0040】
画像解析モデル66は出力110を作成する。出力110は、図5に示される視覚的に表現されたエレメントとテキストで表現されたエレメントの組み合わせなど、マルチモーダルであってよい。
【0041】
現在の実施形態では、出力110は、境界ボックス110、112、114がオーバーレイした入力画像92を含む。説明のために3つの境界ボックス110、112、114を図示するが、実際にはボックスの数はもっと多くてよい。しかし、3つのまたは任意の他の所望の数の解剖学的領域を検出し、他を検出しないことも可能である。境界ボックスは、複数の所定の解剖学的特徴のうちの1つを構成する画像内の座標点の範囲を定める。また、これらの解剖学的特徴の分類またはラベルを、境界ボックス114の「右肺」、境界ボックス110の「脊椎」、境界ボックス112の「左肺」、のようにテキストで示す。出力110は、解剖学的特徴の分類/ラベルと解剖学的特徴に関連付けられた所見とを含む出力テキスト116を更に含む。図5の出力テキスト116において、出力110において特定された解剖学的特徴が、各解剖学的特徴の対応する所見とともにテキストフォーマットでリスト化されている。出力110のフォーマットは、本実施形態に限られない。視覚的情報および/またはテキスト情報の任意の組み合わせを用いて出力110を作成してよい。
【0042】
図6は実施形態に従った自動レポート作成方法の概略図である。本実施形態では、レポートは入力胸部X線画像に基づく放射線読影レポートである。他の実施形態では、異なる画像または医用画像からレポートを取得してよく、テキストを含んでよい。放射線読影レポート作成方法120に与えられるマルチモーダル入力122は、視覚的情報抽出器が取得する1つまたは複数の解剖学的トークン124と、解剖学的トークン124に関連付けられた所見である1つまたは複数の症状欄129とを含む。各ステップでトランスフォーマーのエンコーダ-デコーダの基幹部分を考察する。レポート作成処理の各ステップでニューラルネットワークが用いられる各種実施形態の特徴は、これらのステップを当該またはあるトランスフォーマーが扱ってよく、本実施形態のレポート作成器とトリプル抽出器は個別のトランスフォーマーであってよい。本実施形態では、2つのトランスフォーマー、即ち、トリプル抽出器とレポート作成器があるが、他の実施形態では任意の好適な他のモデルアーキテクチャを用いてよい。
【0043】
当該方法の第1のステップは、トリプル抽出であり、トリプル抽出器128によって行われる。本ステップでは、CXRから構造化情報セットを得る。当該情報はトリプル130として表され、「エンティティ1」、「関係」、「エンティティ2」のフォーマットに従う。本実施形態では、エンティティは解剖学的特徴とそれらの関連プロパティとを含む。他の実施形態では、トリプル130は他のエンティティ間の関係を定義してよい。レポート作成器132は、マルチモーダル入力122とトリプル130とを用いて、出力レポート134を作成する。本実施形態の出力レポート134は、テキスト情報を含む。他の実施形態では、出力レポート134は1つまたは複数の画像またはテキストと画像の組み合わせを含んでよい。
【0044】
レポート作成器132のトレーニングフェーズの間、本実施形態では、グラウンドトゥルーストリプルのマスキングを適用し、グラウンドトゥルーストリプルのある割合を入力シーケンスから取り除き、当該モデルが視覚的情報の埋め込みに関心を向けるようにする。
【0045】
図7は、実施形態に従った装置の概略図である。本実施形態は、図5の実施形態のエレメントに加えて追加エレメントを含む。本実施形態の説明は、追加エレメントに重点を置き、前回説明したエレメントは詳細に説明しない。下記の検討目的により、ローカル特徴は入力画像全体に内包される領域の特徴ベクトル表現を含む一方、グローバル特徴は入力画像全体の特徴ベクトル表現を含む。本実施形態では、プロジェクション層146を用いて画像特徴96を処理して、入力画像92全体を表すグローバル特徴142を得る。いくつかの実施形態では、グローバル特徴の代わりにローカル特徴を用いてよい。RPN98とROIプール100とを用いて画像特徴を処理し、複数の所定の解剖学的特徴のうちの1つを表すローカル特徴144を得る。解剖学的構造分類108と境界ボックス回帰106の処理のための入力として、ローカル特徴144を画像解析モデル66に与える。ローカル特徴144とグローバル特徴142とを連結して、所見のマルチラベル分類のために画像解析モデル66に与えられるグローバル-ローカルトークン140を形成する。画像解析モデル66は、画像データとテキストデータとを含む放射線読影レポートのフォーマットで出力110を作成する。グローバル特徴142をローカル特徴144と組み合わせて使用することは、特定の所見が複数の解剖学的領域にわたる、または同様に、複数の解剖学的トークンに関連付けられている場合に有益である。
【0046】
別に与えられてよい別の実施形態では、視覚的情報抽出器46が取得した所見ラベルを用いてレポート作成器モデルをトレーニングする。その後、所与の1つまたは複数の出力センテンスにおける所見に関するトークンのクラスタをマスクできる。これにより、1つまたは複数の出力センテンスを作成したレポートに含めるか、あるいは、作成したレポートから除外することができる。これは、反事実的ステートメントをトレーニング中に与えることに等しく、作成したレポートの精度および解釈可能性に有益である。マスキングは、入力トークンと出力センテンス間の教師あり学習のプロセスを強固にし、ハルシネーション(幻覚)の減少により精度を改善する。空間的に対応する入力トークンから出力センテンスへのより密接な情報フローにより、作成したレポートの解釈可能性が改善する。
【0047】
表1は、実施形態に従って行われた部分レポート作成処理における定性的結果を示す。表1の左列から右列へ向かって、レポートが求められる解剖学的領域のサブセットと、グラウンドトゥルース部分レポートと、ベースラインが作成したレポート(事前スキャンおよびセンテンス-解剖学的領域トレーニングの追加なし)と、最後に実施形態の方法で作成したものと、を表す。3番目の列では、ベースライン法により生成されたハルシネーションを強調している。
【0048】
【表1】
【0049】
表1は、参照することによりその内容全てをここに組み込んだ、Dalla Serra等によるControllable Chest X-Ray Report Generation from Longitudinal Representations、arXiv:2310.05881にもある。また、Dalla Serra等によるFinding-Aware Anatomical Tokens for Chest X-Ray Automated Reporting, arXiv:2308.15961もまた、参照することによりその内容全てをここに組み込んだ。
【0050】
別に与えられてよい別の実施形態では、トークン間の空間的階層関係が、トレーニング中に異なる階層をマスクできるように、定義される。ある実施形態では、これは、左肺をマスキングアウトするが、下部、中央部、上部の左肺トークンを残すことを含む。これは、画像解析モデル66が、入力トークンに重複がある場合であっても、トークンのサブセットから学習するのではなく、全てのトークンに注意を向けること、に重点を置く。
【0051】
各層内の領域間の関係に対応するオントロジーの世代層内の解剖学的領域を配置することにより、マスキングを実現してもよい。本実施形態における画像解析モデルのトレーニングは、オントロジーの世代層をマスキングアウトすることを含む。
【0052】
図8は、「全ラベル」150とラベル付けされた、所定の解剖学的トークンの完全セットとそれらの関連境界ボックスとがオーバーレイしたCXRスキャンを示す。「全ラベル」150内の解剖学的トークンと境界ボックスに関連付けられたラベルは、腹部、大動脈弓、心影像、竜骨、上大静脈-心房接合部、下行大動脈、左心尖部、左心影像、左心横隔膜角、左鎖骨、左肋骨横隔膜角、左側横隔膜、左肺門構造、左下肺野、左肺、左中肺野、左上腹部、左上肺野、縦隔、右心尖部、右心房、右心影像、右心横隔膜角、右鎖骨、右肋骨横隔膜角、右側横隔膜、右肺門構造、右下肺野、右肺、右中肺野、右上腹部、右上肺野、脊椎、上大静脈、気管、上縦隔、を含む。
【0053】
また図8は、「全ラベル」からのラベルのサブセットを示し、左肺、右肺、上縦隔、心影像、腹部を含む、「親ラベル」152のCXRスキャンを示す。「全ラベル」150および「親ラベル」152内のラベルまたはトークン間で空間的階層関係を定義し、階層をトレーニング中にマスキングアウトする目的で用いてよい。関心対象であり得る空間関係は、本例における「親」と「子」ラベル間であってよい。これらのグループのそれぞれは、「全ラベル」プールから引き出したものであってよい。
【0054】
同様に、図8はさらに「全ラベル」からのラベルのサブセットを示し、左中肺野、左下肺野、右心房、上大静脈-心房接合部、右中肺野、右上肺野、右下肺野、左上肺野、気管を含む、「子ラベル」154のCXRスキャンを示す。「全ラベル」150および「子ラベル」154内のラベルまたはトークン間で空間的階層関係を定義し、階層をトレーニング中にマスキングアウトする目的で用いてよい。同様に、「親ラベル」152および「子ラベル」154内のラベルまたはトークン間で空間的階層関係を定義し、階層をトレーニング中にマスキングアウトする目的で用いてよい。
【0055】
別に与えられてよい別の実施形態では、モデルの予測を制御するために、トークンマスキングとトークン排除とを展開時に使用することができる。例えば、通常通りに画像をシステムへ入力し、その後、(例えば、マスキングされていない領域の所見のみを記述する)所望の出力レポートを得るために、レポートを求められていない領域に対応するトークンをマスキングアウトしてよい。例えば胸部スキャンにおける心臓、肺、または骨格などの解剖学的構造における特定部分に関するレポートを要求される場合に、これは特定の適応性を有する。また、画像キャプショニング、自動レポート作成、解剖学的構造における特定部分について視覚的質問応答を行う際にも有益であり得る。
【0056】
別に与えられてよい別の実施形態では、比較支援のために、連続するスキャンについてトークンをペア化することができる。これは、あるスキャンとフォローアップスキャンとを比較する際の助けとなり得る、また、入力時に対応する解剖学的トークンをペアリングすることで実現可能である。トークン-ペアリングのケースでの所見は、以前のスキャンと現在のスキャンとの間の所見の属性の変化、または、当該属性に変化が無いこと、であってよい。そのような所見を得ることを、サブタスクと称することがある。ペアリングは、例えば、連結を含んでよい。任意の好適な他の方法を用いてよいが、いくつかの例で連結は、対応する空間的位置に対応する画像特徴が整列し、処理中にトランスフォーマーが当該画像特徴を簡単に比較できる(例えば帰納バイアスとして作用する)、という利点があり得る。
【0057】
本発明の1つの実施形態で実験的に得られた結果を説明する。表2は、Faster R-CNNの3つの異なる実施形態における解剖学的構造の位置の特定と所見検出の比較結果を報告する。これらのうち第1のものは、解剖学的構造の位置の特定のみを用いる。第2のものは解剖学的構造の位置の特定と所見検出とを用いる。第3のものは、解剖学的構造の位置の特定と、所見検出とを用い、画像解析モデルの入力トークンを得るためにグローバルおよびローカル特徴を連結する。表2では、「mAP@0.5」は「Intersection over Union(IoU)>0.5のポジティブ検出での平均適合率(Average Precision)」を意味し、AUROCは、各解剖学的領域での所見ごとの、受信者操作特性下にある面積のマクロ平均を意味する。当該結果は、公に利用可能な胸部ImaGenomeデータセットに基づく。このような所見の取得をサブタスク(複数可)と称することがある。
【0058】
【表2】
【0059】
結果を得るために用いた実施形態の更なる実施の詳細を提供する。
【0060】
CXRごとに、解剖学的構造の位置の特定は一般的な物体検出タスクとして構成され、境界ボックスの座標と、それぞれに割り当てられる解剖ラベルとを計算するために、Faster R-CNNフレームワークが採用された。具体的には、領域提案ネットワーク(Region Proposal Network:RPN)から作成される-左上および右下座標に対応する-および境界ボックス候補ごとに、および、関心領域(RoI)プーリング層から抽出された対応する固定長ベクトル(ローカル特徴)に、当該RoIがいずれの解剖学的領域に相当するかをクラス分けする。
【0061】
境界ボックス候補と解剖ラベルの予測に並行して、解剖学的領域ごとに所見セットを検出する、サブタスクと称することがある、追加的マルチラベルヘッドが含まれる。オリジナルのFaster R-CNN実施に追加して、グローバル特徴のセットをはじめに抽出する。ResNet-50と特徴ピラミッドネットワーク(Feature Pyramid Network:FPN)とから構成されるCNNバックボーンの出力を画像特徴として検討する。具体的には、FPNからの4つのマルチスケール特徴マップを、チャネル次元に沿って連結する。グローバル特徴global features g=conv2D(m) E R,conv2Dは、カーネルサイズ(K×K)のZと等しい入力チャネルと、ローカル特徴ベクトルlkの同一次元dと等しい出力チャネルと、を有する2次元の畳み込み層を表す。RoI kごとに、対応するローカル特徴lkとCXRグローバル特徴gを連結して、後に所見マルチラベル分類器へ入力として渡すglk=[g,lk]E R2dを得る。グローバル特徴ベクトルが追加の画像レベルコンテキストとして与えられ、特定の所見が複数の解剖学的領域(例えば管構造)にわたる如何なる場合でも、または、境界ボックスの位置が適切に特定されない如何なる場合でも、肯定的に寄与する。CXRスキャンごとに、連結したグローバルおよびローカル特徴のセットをgl E RN×2dと称し、これらは提案する自動レポーティング方法の入力視覚的シーケンスに対応する。
【0062】
トレーニング中に、例えばサブタスクに関連して、解剖学的構造分類損失と、所見マルチラベル分類損失と、ボックス回帰損失と、の3つのタームを含むマルチタスク損失が用いられる。正式には、予測される境界ボックスごとに、次のように計算する。
【0063】
L=Lanat+Lbox+λLfind
【0064】
ここで、LanatとLboxは分類損失と境界ボックス回帰損失とにそれぞれ対応する。所見マルチレベル分類損失Lfindは、分類重みwj=(1/νj)0.25付きの二値交差エントロピーに対応し、νjは所見jのトレーニングセットに対する頻度であり、λはλ=10に設定されたバランシング・ハイパーパラメータである。
【0065】
CXR画像セットI={Ip}Pp=1とすると、放射線読影レポートR={Rp}Pp=1を自動作成することを目標とする。CXR画像に関する自動レポーティングに、2ステージアプローチを用いることができる。第1のステップは、CXR画像Iから構造化情報をトリプルTrpp={Trppl}Ll=1の形式で抽出することからなるトリプル抽出として定義される。第2のステップであるレポート作成ステップは、放射線読影レポートRの作成からなる。
【0066】
各ステップにおいて、マルチモーダルなエンコーダ-デコーダトランスフォーマー(fTEおよびfRG)を採用し、当該2つのステップをシーケンスツーシーケンス(sequence-to-sequence)タスクとして扱う。正式には、CXRに関連付けられたグローバル-ローカル特徴セットglと症状欄Iを与えられれば、第1のステップであるトリプル抽出をトレーニングし、Trpp=fTE(glp,Ind)を行う。Trppはトリプルのターゲットセットに対応する。第2のステップであるレポート作成は、R=fRG(glp,Ind,Trp)として定義され、gl,Indおよびステップ1で抽出したトリプルのセットTrpが与えられると、レポートRが作成される。ステップ2のトレーニングフェーズ中に、グラウンドトゥルーストリプルのマスキング処理が用いられ、グラウンドトゥルーストリプルのある割合を入力シーケンスから取り除き、当該モデルが視覚的情報の埋め込みに関心を向けるようにする。
【0067】
入力シーケンスは、異なる入力モダリティの連結から構成され、入力埋め込みはトークン埋め込み(テキストと視覚的情報)と、位置埋め込みと、(2つのモダリティを区別するための)セグメント埋め込みの合計に対応する。
【0068】
上記表に結果を示した実験は、胸部ImaGenomeとMIMIC-CXRという2つのオープンソースのCXRデータセットに基づく。胸部ImaGenomeは、MIMIC-CXRから派生し、242,072個の前後(AP)および背腹(PA)CXRから解剖学的境界ボックス領域を検出するアトラスベースのパイプラインと、関連付けられた放射線読影レポートに基づいて各領域に関する所見を抽出するルールベースの自然言語処理アプローチと、を採用する自動抽出された追加のアノテーションを導入する。36個の解剖学的領域を局在化し、71個の所見を検出することを目標とする。
【0069】
MIMIC-CXRデータセットはCXR-レポートペアを含み、レポート作成に用いられる。前回のワークに続いて、ターゲットレポートとして各レポートの所見セクションのみを検討する。このセクションは、CXRに現れる所見についての詳細な情報を含む。さらに、症状欄を各レポートから抽出し、我々のレポート作成パイプラインの各ステップで追加のコンテキストとして使用する。このセクションは画像処理時に利用可能であり、患者のいくつかの関連病歴および/またはスキャンを撮った理由を含む。
【0070】
[6]で記載した半自動パイプラインに続いて、画像-レポートの各ペアに関連付けられたグラウンドトゥルーストリプルのセットにアノテーションを付与する。グラウンドトゥルーストリプルは、自動レポーティングパイプラインの第1のステップをスーパーバイズする(supervise)ように働く。
【0071】
実験について、胸部ImaGenomeデータセットで提案されたものと同一のトレーニング/検証/テストの分割が検討された。画像は、解像度512×512にリサイズおよびクロッピングされ、アスペクト比は維持される。
【0072】
Faster R-CNN。セクション2.1に記載されるように、トーチビジョン(torchvision)で利用可能なfasterrcnn resnet50 fpn v2の実装が採用され、36個の解剖学的領域を局在化し、領域内毎に71個の所見の有または無を検出するようにトレーニングされる。25個のエポックと10-3に設定した学習率でモデルをトレーニングする。推論時に、CXRごとに、最も高い信頼度スコアを有する予測した解剖学的領域を検討し、2048次元のローカル-グローバル特徴ベクトルを抽出する。解剖学的領域が検出されない場合は常に、ローカル特徴が1024次元のゼロベクトルに対応する。
【0073】
2ステップのパイプライン。各ステップで、一般的なトランスフォーマーのエンコーダ-デコーダの基幹部分を用いる。エンコーダとデコーダはどちらも3つのアテンション層から構成され、それぞれが8個のヘッドと512個の隠れユニットからなる。全てのパラメータはランダムに初期化される。ステップ1は、40個のエポックで、10-4に設定した学習率でトレーニングされる。ステップ2は、20個のエポックで、ステップ1と同じ学習率でトレーニングされる。トレーニング中にグラウンドトゥルーストリプルの50%がマスキングアウトされた一方(この割合は経験的に最良であると判明した)、推論中にステップ1で抽出したトリプルを用いた。
【0074】
Faster R-CNN。提案するFaster R-CNNを次の2つのベースラインと比較した。1つ目は、解剖学的構造の位置の特定のみでトレーニングした標準的Faster R-CNNであり、所見マルチレベル分類ヘッドが位置特定の性能を低下させるかを評価する。2つ目は、グローバル特徴連結なしのマルチタスクFaster R-CNNであり、所見検出のためにいくつかの画像レベルのコンテキストを導入する利点を評価する。
【0075】
自動レポーティング。当該2ステップのアプローチを、中間トリプル抽出ステップを行わない1ステップのベースラインと比較した。異なる視覚的表現を採用する効果:CNNと、Faster R-CNNの異なる構造で抽出された境界ボックス(BBox)を研究した。
【0076】
Faster R-CNNの解剖学的構造の位置特定性能を、予測した境界ボックスとグラウンドトゥルースとの間のIntersection over Unionスコアが0.5を上回るときのポジティブ検出で平均適合率の平均(mean Average Precision)(mAP@0.5)を計算することにより評価する。所見検出性能は、受信者操作特性下の面積(Area Under the Receiver Operating Characteristic:AUROC)の平均を各解剖学的領域での所見ごとに計算することによって、所見検出性能を計算する。
【0077】
レポート作成メトリクスの品質を評価するため、自然言語生成(Natural Language Generation:NLG)メトリクス-BLEUと、ROUGEと、METEOR-を、CheXpertラベラーをグラウンドトゥルースと作成したレポートとに適用し-14個の所見を抽出し-、F1適合率再現率スコアを計算することにより生じる臨床効率(Clinical Efficiency:CE)メトリクスとともに計算する。
【0078】
提案した解決手法は、各視覚的トークン埋め込みが特定の解剖学的位置に対応するため、解釈可能な特徴表現が多いという利点を有する。
【0079】
このため、生成した出力に対してより制御することができる。いくつかの例では、我々は解剖学的領域をマスキングアウトでき、結果として作成されたレポートは当該特定領域に現れる所見を記述しない。
【0080】
Dalla Serra, F., Wang, C., Deligianni, F., Dalton, J. and O’Neil,. (2023) Finding-Aware Anatomical Tokens for Chest X-Ray Automated Reporting In: MLMI 2023, Vancouver, Canada, 8 October 2023,を参照することによりその内容全てを組み込んだ。Controllable Chest X-Ray Report Generation from Longitudinal Representations, arXiv:2310.05881, Dalla Serra et alの内容もまた参照することによりその全てを組み込んだ。Finding-Aware Anatomical Tokens for Chest X-Ray Automated Reporting, arXiv:2308.15961, Dalla Serra et al areの内容もまた参照することによりその全てを組み込んだ。
【0081】
特定の回路が本明細書において説明されているが、代替の実施形態において、これらの回路の内の1つまたは複数の機能を、1つの処理リソースまたは他のコンポーネントによって提供することができ、または、1つの回路によって提供される機能を、2つまたはそれより多くの処理リソースまたは他のコンポーネントを組み合わせることによって提供することができる。1つの回路への言及は、当該回路の機能を提供する複数のコンポーネントを包含し、そのようなコンポーネントがお互いに隔たっているか否かにかかわらない。複数の回路への言及は、それらの回路の機能を提供する1つのコンポーネントを包含する。
【0082】
所定の実施形態が説明されているが、これらの実施形態は、例示のためにのみ提示されており、発明の範囲を限定することは意図されない。実際は、本明細書において説明された新規な方法およびシステムは、様々な他の形態で具体化することができる。更に、本明細書において説明された方法およびシステムの形態における様々な省略、置き換え、および、変更が、発明の要旨を逸脱することなくなされてよい。添付の特許請求の範囲の請求項およびそれらに均等な範囲は、発明の範囲にはいるような形態および変更をカバーすると意図される。
【0083】
以上の実施形態に関し、発明の一側面および選択的な特徴として以下の付記を開示する。
【0084】
(付記1)
第1の態様では、画像解析モデルをトレーニングし、少なくとも画像データを含む入力データに関するタスクを行うデータ処理装置を提供する。前記データ処理装置は、画像データを受け取ることと、前記画像データに含まれる解剖学的領域を特定し当該解剖学的領域に関する所定のサブタスクに関するラベルを決定するようにトレーニングされる視覚的情報抽出器を適用することにより、前記画像解析モデルへ入力するための少なくとも画像トークンを作成することと、少なくとも前記画像トークンを入力することにより、前記画像解析モデルをトレーニングすることと、を行う処理回路を備える。
(付記2)
トークンは入力シーケンスの1つのユニットである。これは、1つのワードまたはサブワード(テキストトークン)、若しくは、画像パッチまたは解剖学的構造(視覚的トークン)を表すことができる。
(付記3)
前記画像解析モデルがトレーニングされる目的としての前記タスクは、画像分類と、視覚的質問応答と、画像キャプショニングと、自動レポーティングと、を含んでよい。
(付記4)
前記画像解析モデルは、トランスフォーマーモデルを含んでよい。前記トランスフォーマーモデルは、トランスフォーマーによる双方向エンコード表現(Bidirectional Encoder Representations from Transformers:BERT)モデルを含んでよい。
(付記5)
前記画像解析モデルは、シーケンスを含む入力を取る任意のモデルを含んでよい。前記画像モデルは、再帰型モデルを含んでよい。前記画像解析モデルは、畳み込みニューラルネットワーク(convolutional neural network:CNN)を含んでよい。
(付記6)
前記視覚的情報抽出器モデルは、畳み込みニューラルネットワーク(convolutional neural network:CNN)を含んでよい。前記視覚的情報抽出器モデルは、Faster Region-based convolutional neural network(Faster R-CNN)モデルを含んでよい。
(付記7)
前記入力データはマルチモーダルデータを含んでよい。前記視覚的情報抽出器は、前記マルチモーダルデータに適用されてよい。前記マルチモーダルデータは、画像データを含む第1のデータタイプと、第2の異なるデータタイプとを含んでよい。前記第2のデータタイプは、テキストデータを含んでよい。前記第2のデータタイプは、構造化臨床データを含んでよい。前記第2のデータタイプは、遺伝学的データを含んでよい。
(付記8)
前記入力データは更にテキストデータを含んでよい。前記画像解析モデルは、前記テキストデータに適用されてよい。前記画像トークンを連結してよい。前記テキストデータを表すトークンを前記画像トークンと連結してよい。
(付記9)
前記テキストデータは、患者の病歴データを含んでよい。前記テキストデータは、スキャン情報を含んでよい。前記テキストデータは、応答すべき質問に関する情報を含んでよい。前記テキストデータは、実行すべき前記タスクに関する情報を含んでよい。前記テキストデータは、例えば放射線読影レポートなどのレポートの少なくとも一部を含んでよい。前記テキストデータは、例えば前回の放射線読影レポートなどの前回のレポートの少なくとも一部を含んでよい。
(付記10)
前記所定のサブタスクは、前記画像解析モデルが実行する前記タスクに関してよい。前記所定のサブタスクは、前記画像解析モデルが実行する前記タスクの一部を含んでよい。
(付記11)
前記所定のサブタスクは、前記解剖学的領域に関する所見を得るためのタスクであってよい。前記所定のサブタスクは、前記解剖学的領域に所見が存在すると判断するタスクであってよい。前記所定のサブタスクは、前記解剖学的領域に所見が存在しないと判断するタスクであってよい。
(付記12)
前記所見は、病状、病理、状態、変化、悪化のうちの少なくとも1つを含んでよい。前記所見は放射線所見を含んでよい。
(付記13)
前記画像解析モデルのトレーニングは、実行すべき前記タスクの結果を含むグラウンドトゥルースデータを入力することを含んでよい。
(付記14)
前記結果はテキスト出力を含んでよい。前記テキスト出力は、放射線読影レポートを含んでよい。
(付記15)
前記解剖学的領域の特定は、前記解剖学的領域の境界ボックスを決定することを含んでよい。前記視覚的情報抽出器モデルは複数の解剖学的領域を特定してよい。前記複数の解剖学的領域の特定は、前記複数の解剖学的領域それぞれの境界ボックスを決定することを含んでよい。
(付記16)
前記複数の解剖学的領域は、オントロジーの異なる世代層であってよい。前記画像解析モデルのトレーニングは、前記オントロジーの少なくとも1つの世代層をマスキングアウトすることを含んでよい。
(付記17)
前記画像トークンの作成は、前記解剖学的領域の特徴表現をグローバル画像表現に連結することを含んでよい。
(付記18)
前記視覚的情報抽出器モデルは、解剖学的領域のクラスタごとに、前記所定のサブタスクのラベルを決定してよい。
(付記19)
前記画像解析モデルのトレーニングは、当該所定のサブタスクに関する前記解剖学的領域のクラスタをマスキングアウトすることを含んでよい。
(付記20)
前記視覚的情報抽出器モデルは、複数の解剖学的領域ごとに、前記所定のサブタスクのラベルを決定してよい。
(付記21)
前記画像解析モデルのトレーニングは、実行すべき前記タスクの結果を含むグラウンドトゥルースデータを入力することを更に含んでよい。前記結果は複数のセンテンスを含むテキストデータを含んでよい。前記画像解析モデルのトレーニングは、前記複数のセンテンスのうち、当該所定のサブタスクに関する少なくとも1つのセンテンスを削除することを含んでよい。前記画像解析方法のトレーニングは、当該削除された少なくとも1つのセンテンスに対応する解剖学的領域のクラスタをマスキングアウトすることを更に含んでよい。
(付記22)
前記画像データは、被検体の2つのスキャンからのデータを含んでよい。前記2つのスキャンは、現在のスキャンと以前のスキャンとを含んでよい。前記画像トークンを前記画像解析モデルへ入力するときに、前記現在のスキャンと以前のスキャンからの対応する画像トークンをペア化してよい。前記所定のサブタスクは前記現在のスキャンと以前のスキャンとの間の所見の属性の変化、または、当該属性の変化がないことを予測するものであってよい。
(付記23)
独立して提供し得る更なる態様では、画像解析モデルをトレーニングし、少なくとも画像データを含む入力データに関するタスクを行うデータ処理方法を提供する。前記方法は、画像データを受け取ることと、前記画像データに含まれる解剖学的領域を特定し当該解剖学的領域に関する所定のサブタスクに関するラベルを決定するようにトレーニングされる視覚的情報抽出器モデルを適用することにより、前記画像解析モデルへ入力するための画像トークンを作成することと、前記画像トークンを入力することにより、前記画像解析モデルをトレーニングすることと、を含む。
(付記24)
独立して提供し得る更なる態様では、少なくとも画像データを含む入力データに関するタスクを行うようにトレーニングされる画像解析モデルを適用するデータ処理装置を提供する。前記データ処理装置は、被検体に関連付けられた画像データを受け取ることと、前記入力データに含まれる前記画像データに含まれる解剖学的領域を特定し、当該解剖学的領域に関する所定のサブタスクに関するラベルを決定するようにトレーニングされる視覚的情報抽出器モデルを適用することにより、前記画像解析モデルへ入力するための画像トークンを作成することと、前記画像解析モデルを当該画像トークンに適用することと、を行う処理回路を備え、前記画像解析モデルは当該タスクを行い、前記被検体に関する出力を作成する。
(付記25)
前記画像解析モデルがトレーニングされる目的としての前記タスクは、画像分類を含んでよい。前記画像解析モデルがトレーニングされる目的としての前記タスクは、視覚的質問応答を含んでよい。前記画像解析モデルがトレーニングされる目的としての前記タスクは、画像キャプショニングを含んでよい。前記画像解析モデルがトレーニングされる目的としての前記タスクは、自動レポーティングを含んでよい。
(付記26)
前記画像解析モデルは、トランスフォーマーモデルを含んでよい。前記トランスフォーマーモデルは、トランスフォーマーによる双方向エンコード表現(Bidirectional Encoder Representations from Transformers:BERT)モデルを含んでよい。
(付記27)
前記画像解析モデルは、シーケンスを含む入力を取る任意のモデルを含んでよい。前記画像モデルは、再帰型モデルを含んでよい。前記画像解析モデルは、畳み込みニューラルネットワーク(convolutional neural network:CNN)を含んでよい。
(付記28)
前記視覚的情報抽出器モデルは、畳み込みニューラルネットワーク(convolutional neural network:CNN)を含んでよい。前記視覚的情報抽出器モデルは、Faster Region-based convolutional neural network(Faster R-CNN)モデルを含んでよい。
(付記29)
前記入力データはマルチモーダルデータを含んでよい。前記視覚的情報抽出器モデルは、前記マルチモーダルデータに適用されてよい。前記マルチモーダルデータは、画像データを含む第1のデータタイプと、第2の異なるデータタイプとを含んでよい。前記第2のデータタイプは、テキストデータを含んでよい。前記第2のデータタイプは、構造化臨床データを含んでよい。前記第2のデータタイプは、遺伝学的データを含んでよい。
(付記30)
前記入力データは更にテキストデータを含んでよい。前記画像解析モデルは、前記テキストデータに適用されてよい。前記画像トークンを連結してよい。前記テキストデータを表すトークンを前記画像トークンと連結してよい。
(付記31)
前記テキストデータは、患者の病歴データを含んでよい。前記テキストデータは、スキャン情報を含んでよい。前記テキストデータは、応答すべき質問に関する情報を含んでよい。前記テキストデータは、実行すべき前記タスクに関する情報を含んでよい。前記テキストデータは、例えば放射線読影レポートなどのレポートの少なくとも一部を含んでよい。前記テキストデータは、例えば前回の放射線読影レポートなどの前回のレポートの少なくとも一部を含んでよい。
(付記32)
前記所定のサブタスクは、前記画像解析モデルが実行する前記タスクに関してよい。前記所定のサブタスクは、前記画像解析モデルが実行する前記タスクの一部を含んでよい。
(付記33)
前記所定のサブタスクは、前記解剖学的領域内で所見を検出するためのタスクであってよい。前記所定のサブタスクは、前記解剖学的領域に所見が存在すると判断するタスクであってよい。前記所定のサブタスクは、前記解剖学的領域に所見が存在しないと判断するタスクであってよい。
(付記34)
前記所見は、病状、病理、状態、変化、悪化のうちの少なくとも1つを含んでよい。前記所見は放射線所見を含んでよい。
(付記35)
前記出力はテキスト出力を含んでよい。前記出力は、放射線読影レポートを含んでよい。
(付記36)
前記解剖学的領域の特定は、前記解剖学的領域の境界ボックスを決定することを含んでよい。前記視覚的情報抽出器モデルは複数の解剖学的領域を特定してよい。前記複数の解剖学的領域の特定は、前記複数の解剖学的領域それぞれの境界ボックスを決定することを含んでよい。
(付記37)
前記画像トークンの作成は、前記解剖学的領域の特徴表現をグローバル画像表現に連結することを含んでよい。
(付記38)
前記視覚的情報抽出器モデルは、解剖学的領域のクラスタごとに、前記所定のサブタスクのラベルを決定してよい。
(付記39)
前記処理回路はさらに、前記複数の解剖学的領域のサブセットの選択を示す入力をユーザから受け取ってよい。前記処理回路はさらに、前記画像解析モデルが使用する前記画像トークンを前記選択に従って制限してよい。
(付記40)
前記画像データは、前記被検体の2つのスキャンからのデータを含んでよい。前記2つのスキャンは現在のスキャンと以前のスキャンとを含んでよい。前記画像トークンを前記画像解析モデルへ入力するときに、前記現在のスキャンと以前のスキャンからの対応する画像トークンをペア化してよい。
(付記41)
前記タスクは視覚的質問応答を含んでよい。前記処理回路はさらに、解剖学的領域のサブセットの選択をユーザから受け取り、当該解剖学的領域のサブセットを参照して前記タスクを行ってよい。
(付記42)
独立して提供し得る更なる態様では、少なくとも画像データを含む入力データに関するタスクを行うようにトレーニングされる画像解析モデルを適用する方法を提供する。前記方法は、被検体に関連付けられた画像データを受け取ることと、前記入力データに含まれる前記画像データに含まれる解剖学的領域を特定し、当該解剖学的領域に関する所定のサブタスクに関するラベルを決定するようにトレーニングされる視覚的情報抽出器モデルを適用することにより、前記画像解析モデルへ入力するための画像トークンを作成することと、前記画像解析モデルを当該画像トークンに適用することと、を含み、前記画像解析モデルは当該タスクを行い、前記被検体に関する出力を作成する。
(付記43)
独立して提供し得る更なる態様では、少なくとも画像データを含むマルチモーダルデータに関するタスクを処理するトランスフォーマーモデルのトレーニング方法を提供する。前記方法は、画像データを受け取るステップと、前記画像データに含まれる解剖学的領域と前記解剖学的領域に関する所定のサブタスクに関するラベルとをトレーニングすることにより、前記トランスフォーマーモデルへ入力するための画像トークンを作成するステップと、前記画像トークンを入力することにより、前記トランスフォーマーモデルをトレーニングするステップと、を含む。
(付記44)
前記所定のサブタスクは、前記解剖学的領域における所見検出のタスクであってよい。前記マルチモーダルデータは、更にテキストデータを含んでよい。
(付記45)
独立して提供し得る別の態様では、タスクを意識したアトラスベースのトークン(task-aware atlas-grounded tokens)のための方法を提供する。前記方法は、
a)解剖学的領域と、それらの領域のための前記ターゲットタスク・グラウンドトゥルースとでアノテーションした医用画像セットと、
b)タスクを意識したアトラスベースのトークンを得るために、解剖学的領域特徴を抽出し、同一特徴表現について前記ターゲットタスクの支援タスクを行うようにトレーニング可能な視覚的情報抽出器モデルと、
c)画像特徴トークンのシーケンスを入力として取ることができる画像解析モデルと、
を含む。
(付記46)
方法b)は、例えばFaster R-CNNなどのCNNネットワークであってよい。方法bは、トークン抽出ポイントで教師あり学習のプロセスを導入する。方法c)は、例えばBERTモデルなどのトランスフォーマーネットワークであってよい。
(付記47)
グローバル画像特徴表現を各ローカル構造特徴表現に連結して、前記トークンを形成してよい。
(付記48)
前記解剖学的領域をオントロジーとして編成してよい、また、前記オントロジーの異なる世代層をトレーニング中にマスキングアウトし、モデル予測ロバスト性(解剖学的階層のドロップアウト)を上昇させてよい。
(付記49)
前記ターゲットタスクは医用画像分類であってよく、所見有/無分類を前記支援タスクとして設定してよい。
(付記50)
解剖学的領域を含むクラスタを所見ごとに定義してよく、対応する所見クラスの調整(拡張法)と並んで、所見クラスタをトレーニング中にランダムにマスキングアウトしてよい。
(付記51)
前記ターゲットタスクは医用画像キャプショニングであってよく、所見の有/無分類を前記支援タスクとして設定してよい。
(付記52)
解剖学的領域を含むクラスタを、ある画像のための前記ターゲットレポートの各センテンスにおいて記述される所見のセットごとに定義してよく、対応するセンテンスクラスの調整(拡張法)と並んで、センテンスクラスタをトレーニング中にランダムにマスキングアウトしてよい。
(付記53)
テスト時に、所定の解剖学的領域のいずれを入力として含めるべきかを選択するオプションを臨床ユーザに与えてよい。
(付記54)
タスクを意識した解剖学的構造ベースのトークン(Task-aware anatomical-grounded tokens)を、現在のスキャンと以前のスキャンとを含む同一患者の2つのスキャンから抽出してよく、対応するトークンを入力時にペア化(比較センテンスを可能にする)してよい。
(付記55)
タスクを意識した解剖学的構造ベースのトークンを、現在のスキャンと以前のスキャンとを含む同一患者の2つのスキャンから同時に抽出してよく、前記支援タスクは所見の有/無またはその他の属性について前記スキャン間の変化を予測するものであってよい。
(付記56)
前記ターゲットタスクは視覚的質問応答であってよく、所定の解剖学的領域について質問を組み立てるオプションを前記臨床ユーザに与えてよい。
(付記57)
ある態様または実施形態における特徴を、任意の他の態様または実施形態における特徴に、適切な組み合わせで組み合わせてよい。例えば、装置の特徴を方法の特徴として提供してよく、その逆であってもよい。
図1
図2
図3
図4
図5
図6
図7
図8
【外国語明細書】