特開2024-150400 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 東芝メディカルシステムズ株式会社の特許一覧

特開2024-150400医用画像処理装置及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7A
7B
7C
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024150400

(43)【公開日】2024-10-23

(54)【発明の名称】医用画像処理装置及び方法

(51)【国際特許分類】

G16H 30/40 20180101AFI20241016BHJP

A61B 5/00 20060101ALI20241016BHJP

G06T 7/00 20170101ALI20241016BHJP

G06T 7/11 20170101ALI20241016BHJP

G06V 10/82 20220101ALI20241016BHJP

G06N 20/00 20190101ALI20241016BHJP

【ＦＩ】

G16H30/40

A61B5/00 G

G06T7/00 350C

G06T7/00 612

G06T7/11

G06V10/82

G06N20/00

【審査請求】未請求

【請求項の数】20

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2024025596

(22)【出願日】2024-02-22

(31)【優先権主張番号】63/486,404

(32)【優先日】2023-02-22

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】18/438,152

(32)【優先日】2024-02-09

(33)【優先権主張国・地域又は機関】US

(71)【出願人】

【識別番号】594164542

【氏名又は名称】キヤノンメディカルシステムズ株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】パトリック・シュレンフ

(72)【発明者】

【氏名】ハミシュ・マッキノン

(72)【発明者】

【氏名】アリソン・オニール

(57)【要約】（修正有）

【課題】医用撮像におけるスキャン要求には、患者の症状歴を含む、患者に関する臨床情報が含まれる場合がある。臨床の場で放射線スキャン画像を見る際、放射線科医は当該情報に基づいて可能性のある診断を下す。特に、画像だけでは区別できない鑑別診断が複数ある場合、このような情報は重要になる。
【解決手段】医用画像処理装置は処理回路を備える。該処理回路は、医用画像データを受信して処理し、医用画像データに関する臨床情報を含むテキストデータを受信し、テキストデータに基づいて、医用画像データの対象処理領域または該医用画像データから導出された空間内の対象処理領域を特定し、医用画像データにおいて、または医用画像データから導出された空間において少なくとも特定された対象処理領域を処理する。
【選択図】図１

【特許請求の範囲】

【請求項1】

医用画像データを受信して処理し、
前記医用画像データに関する臨床情報を含むテキストデータを受信し、
前記テキストデータに基づいて、前記医用画像データの対象処理領域または該医用画像データから導出された空間内の対象処理領域を特定し、
前記医用画像データにおいて、または該医用画像データから導出された空間において、前記特定された対象処理領域を少なくとも処理する、処理回路を備える、
医用画像処理装置。

【請求項2】

前記特定された対象処理領域を少なくとも処理することは、セグメンテーション処理を実行して、特定された解剖学的特徴および／または病変をセグメント化することを含む、
請求項１に記載の装置。

【請求項3】

前記処理することは、前記医用画像データに主の学習済み機械学習モデルを適用することを含み、
前記主の学習済み機械学習モデルは、条件付け情報を含み、または条件付け情報を受信して、該主の機械学習モデルの出力が前記医用画像データと前記条件付け情報の双方に依存するように該出力に対し条件付けを行う、
請求項１に記載の装置。

【請求項4】

前記処理回路は、補助の学習済み機械学習モデルを前記テキストデータに適用することによって前記対象処理領域を特定する、
請求項３に記載の装置。

【請求項5】

前記補助の学習済み機械学習モデルは、テキストエンコーダ・ネットワークを備え、
該テキストエンコーダ・ネットワークは、前記テキストデータのテキストを表すトークンの埋め込みを生成し、前記主の機械学習モデルの条件付け情報である、または条件付け情報の一部を構成するベクトルに該埋め込みを統合する、
請求項４に記載の装置。

【請求項6】

前記処理回路は、前記主の機械学習モデルが前記テキストデータ内の空間情報を確実に考慮するための、または前記主の機械学習モデルに該空間情報を考慮することを促すために追加の条件付け処理を適用する、
請求項４に記載の装置。

【請求項7】

前記追加の条件付け処理は、前記主の機械学習モデルに入力されるまたは含まれる空間アテンションを表すアテンションベクトルを変更する処理である、
請求項６に記載の装置。

【請求項8】

前記追加の条件付け処理は、病変部または他の関心のある特徴の形状または他の性質を表示するとともに、前記主の機械学習モデルの条件付けを行う処理である、
請求項６に記載の装置。

【請求項9】

前記追加の条件付け処理は、符号付き距離場または他の損失関数を用いて前記主の機械学習モデルに対し条件付けを行う処理である、
請求項８に記載の装置。

【請求項10】

前記補助の学習済み機械学習モデルの学習は、構造化データに従わずに学習するために損失関数にペナルティを適用することを含む、
請求項４に記載の装置。

【請求項11】

前記主の学習済み機械学習モデルの学習は、構造化データに従わずに学習するために損失関数にペナルティを適用することを含む、
請求項３に記載の装置。

【請求項12】

前記主の学習済み機械学習モデルは、少なくとも反事実的学習データおよび／または反事実的学習法を用いて訓練される、
請求項３に記載の装置。

【請求項13】

前記学習データは少なくとも、前記条件付け情報および／または補助の学習済み機械学習モデルの出力を用いること、または該出力により影響を受けることを前記主の機械学習モデルに促すための反例や他の性質を表す学習データを含む、
請求項１２に記載の装置。

【請求項14】

前記処理回路は、
ユーザ入力を受信し、
前記主の機械学習モデルの空間アテンション機構の内の少なくとも１つをユーザ入力に応じて変更する、および／または
前記ユーザ入力に基づいて前記テキストデータを拡張または修整する、
請求項３に記載の装置。

【請求項15】

前記処理回路は、
ユーザ入力を受信し、
フィードバックループにおいて前記ユーザ入力を用いる、
該フィードバックループは、前記補助の機械学習モデルへの入力、前記補助の機械学習モデルの出力および／または前記ユーザ入力に基づく前記主の機械学習モデルへの入力の内の少なくとも１つを修整すること、および前記主の機械学習モデルの出力を再算出することを含む、
請求項５に記載の装置。

【請求項16】

前記テキストデータは、少なくとも１つの放射線読影レポートおよび／または臨床医の記録またはユーザの記録を含む、
請求項１に記載の装置。

【請求項17】

前記医用画像データは、磁気共鳴撮像（MRI）データ、コンピュータ断層撮影（CT）データ、コーンビームＣＴデータ、Ｘ線データ、超音波データ、ポジトロン放出断層撮影（PET）データ、単光子放出コンピュータ断層撮影（SPECT）データの内の少なくとも１つを含む、
請求項１に記載の装置。

【請求項18】

医用画像データを受信すること、
前記医用画像データに関する臨床情報を含むテキストデータを受信すること、
前記テキストデータに基づいて、前記医用画像データの対象処理領域を特定すること、および
前記医用画像データ内の、少なくとも特定された対象処理領域を処理することを備える、
画像処理装置の方法。

【請求項19】

学習用画像データセットおよび対応するテキストデータに基づいて、主の機械学習モデルと補助の機械学習モデルの内の少なくとも１つを学習させる処理装置であって、
前記主の機械学習モデルの学習は、医用画像データと前記補助の機械学習モデルから受信された条件付け情報に基づいて、前記主の機械学習モデルにセグメンテーションの実行を学習させることを含み、
前記補助の機械学習モデルの学習は、該補助の機械学習モデルに少なくともテキストデータについて学習させ、前記主の機械学習モデルに条件付け情報を提供して対象処理領域を特定させることを含む、
処理装置。

【請求項20】

学習用画像データセットおよび対応するテキストデータに基づいて、主の機械学習モデルと補助の機械学習モデルの内の少なくとも１つを学習させる方法であって、該方法は、
医用画像データと前記補助の機械学習モデルから受信された条件付け情報に基づいて、前記主の機械学習モデルにセグメンテーションの実行を学習させること、および／または
前記補助の機械学習モデルに少なくともテキストデータについて学習させ、前記主の機械学習モデルに条件付け情報を提供して対象処理領域を特定させること、を備える、
方法。

【発明の詳細な説明】

【関連出願の参照】

【0001】

本願は、２０２３年２月２２日に出願された米国特許仮出願番号第６３／４８６，４０４の優先権の利益を享受し、その全内容は本出願において援用される。

【技術分野】

【0002】

本明細書に開示される実施形態は、一般に、データ処理方法及び装置に関し、例えば、モデルを学習させ、モデルを用いて画像セグメンテーションを提供する方法及び装置に関する。

【背景技術】

【0003】

医用撮像におけるスキャン要求には、患者の症状歴を含む、患者に関する臨床情報が含まれる場合がある。臨床の場で放射線スキャン画像を見る際、放射線科医は当該情報に基づいて可能性のある診断を下す。特に、画像だけでは区別できない鑑別診断が複数ある場合、このような情報は重要になる。

【0004】

畳み込みニューラルネットワーク（CNN）や他の機械学習モデルに、例えば、医用データなどのデータ処理を学習させることが知られている。

【0005】

機械学習モデルは、教師有り学習法、教師無し学習法、あるいは教師有りと教師無しを組み合わせた学習法によって訓練することができる。

【0006】

また、臨床の非画像入力に関する畳み込みニューラルネットワーク（CNN）の予測に空間的条件付けを行うことが知られている。

【0007】

米国特許出願番号第１６／９９２，４６６の全内容をここに援用する。該出願において、医用画像データ処理装置は処理回路を備える。該処理回路は、少なくとも１つの被検体の医用画像データを受信し、非画像データを受信し、受信した非画像データに基づきフィルタを生成し、このフィルタを医用画像データに適用する。フィルタは医用画像データの領域を限定する。この例において適用される画像セグメンテーション（segmentation）は、画像内の異なる物体に画素単位でラベル付けを行う処理である。画像セグメンテーションは２次元または３次元で実行され、医用画像内の病変部等の対象物を空間的に識別する。一般に、画像セグメンテーションにはＣＮＮベースの方法が用いられる。

【0008】

「空間依存インスタンスモジュレーション（instance modulation with spatial dependency： INSIDE）」とは、臨床情報入力に関する畳み込みニューラルネットワークの前提条件に対し空間的条件を課し、ネットワークのアテンション（attention）を臨床情報入力から得られた画像の特定の一部に集中させる機構である。INSIDE層はニューラルネットワークの畳み込み層の間に挟み込んで配置され、中間特徴マップに適用されるガウスアテンション空間フィルタを作成する。

【発明の概要】

【0009】

第１の態様において、医用画像処理装置は処理回路を備える。該処理回路は、医用画像データを受信して処理し、前記医用画像データに関する臨床情報を含むテキストデータを受信し、前記テキストデータに基づいて、前記医用画像データの対象処理領域または該医用画像データから導出された空間内の対象処理領域を特定し、前記医用画像データの該特定された対象処理領域を処理する。

【0010】

前記処理は、特定された対象処理領域に対するアテンションを高めるように医用画像データを処理することを含んでもよい。

【0011】

医用画像データから導出された空間は、例えば、１つの潜在空間または画像セグメンテーションモデルなどの潜在的空間を含み得る。対象処理領域は、画像内の領域と直接対応するのではなく、画像の特徴の特性と対応してもよい。

【0012】

前記処理は、セグメンテーション処理の実行を含んでもよい。セグメンテーション処理は、特定された解剖学的特徴および／または病変部のセグメント化を含み得る。

【0013】

また、前記処理は、例えば、主の学習済みニューラルネットワークなどの主の学習済み機械学習モデルを医用画像データに適用することを含んでもよい。主の学習済み機械学習モデルは、条件付け情報を含み、または条件付け情報を受信して、該主の機械学習モデルの出力が医用画像データと条件付け情報の双方に依存するように、該出力を条件づけてもよい。条件付け情報は非画像データを含み得る。

【0014】

前記処理回路は、例えば、補助の学習済みニューラルネットワークなどの補助の学習済み機械学習モデルをテキストデータに適用してもよい。対象処理領域の特定は、補助の学習済み機械学習モデルをテキストデータに適用することによって対象処理領域を特定することを含み得る。

【0015】

補助の学習済み機械学習モデルは、テキストエンコーダ・ネットワークを備えてもよい。

【0016】

テキストエンコーダ・ネットワークなどの補助の学習済み機械学習モデルは、テキストデータの個別のトークン表現をテキストデータの１つの潜在表現に統合してもよい（例えば、連結によって、またはニューラルネットワークを介して）。

【0017】

テキストエンコーダ・ネットワークは、テキストデータのテキストを表すトークンの埋め込みを生成し、主の機械学習モデルに対する条件付け情報入力である、または条件付け情報入力の一部を構成するベクトルに該埋め込みを統合（例えば、連結）してもよい。

【0018】

補助の学習済み機械学習モデルは、主の機械学習モデルに入力される条件付け情報として利用されるパラメータを学習してもよい。補助の学習済み機械学習モデルは、例えば、条件付け情報のテキスト符号化とニューラルネットワークへの主な入力の組み合わせが主の機械学習モデルの出力に影響を与えるようにパラメータを学習する。

【0019】

前記処理回路は、例えば、訓練中または使用中のテキストエンコーダや他の補助の機械学習モデルの出力に対して、追加の条件付け処理を適用してもよい。追加の条件付け処理は、例えばグラウンドトゥルース（ground truth）に応じて決定されたテキストデータ内の空間情報が主の機械学習モデルの入力および／または出力によって確実に表される、または入力および／または出力に考慮されるように促すような処理であってもよい。

【0020】

追加の条件付け処理は、例えば、主の機械学習モデルに入力されるまたは含まれる空間アテンションを表すアテンションベクトルを変更してもよい。

【0021】

また、追加の条件付け処理は、病変または他の関心のある特徴の形状や他の性質を表してもよい。追加の条件付け処理は、符号付き距離場または他の損失関数を含むまたは表してもよい。また、追加の条件付け処理は、例えば、符号付き距離場または他の損失関数によって表される、または符号付き距離場または他の損失関数を用いて生成される１つまたは複数のアテンションベクトルなどのアテンションを提供してもよい。条件付けプロセスにおいてアテンションを表すまたは生成に用いられる関数は、テキストエンコーダの出力に基づいて選択され得る。

【0022】

複数のアテンション形状は、複数の符号付き距離場または他の損失関数を用いて学習されてもよい。この場合、正しいアテンション形状は、例えば、入力条件に応じて選択可能である（例えば、スィッチ機能または他の機構や処理によって）。

【0023】

テキストエンコーダ・ネットワークや他の補助の学習済み機械学習モデルの学習は、構造化データに従わずに学習するために、損失関数にペナルティを適用することを含んでもよい。

【0024】

主の機械学習モデルの学習は、構造化データに従わずに学習するために、損失関数にペナルティを適用することを含んでもよい。

【0025】

主の機械学習モデルの学習は、少なくとも反事実学習データおよび／または反事実学習法を用いることを含んでもよい。学習データは少なくとも、ニューラルネットワークや他の学習済みモデルに対し、条件付け情報および／または補助の学習済み機械学習モデルの出力を用いる、またはより影響を受けることを促すための反例や他の性質を表す学習データを含み得る。

【0026】

テキストデータは、少なくとも１つの放射線読影レポート（radiology report）および／または臨床医の記録またはユーザの記録を含み得る。主の学習済み機械学習モデルの出力は、例えば、病変の時間変化の監視に用いられる病変セグメンテーションを含んでもよい。

【0027】

さらに、前記処理回路は、ユーザ入力を受信し、主の機械学習モデルの空間アテンション機構の内の少なくとも１つをユーザ入力に応じて変更する、および／または該ユーザ入力に基づいてテキスト入力を拡張または修整してもよい。また、前記処理回路は、該ユーザ入力をフィードバックループにおいて用いてもよい。フィードバックループは、補助のモデルへの入力、補助モデルの出力および／またはユーザ入力に基づく主モデルへの入力の内の少なくとも１つを修整すること、および主モデルの出力を再算出することを含む。

【0028】

補助モデルに、例えば、指示に応答できるように会話データについて学習または事前学習させてもよい。

【0029】

処理回路は、ユーザ入力を他の学習済み機械学習モデルに入力してもよい。この機械学習モデルは、主の機械学習モデルおよび／または補助の機械学習モデルに入力される、および／または条件付け情報の変更に用いられる出力を生成するように訓練される。ユーザ入力は、改良された、または、代替のセグメンテーションや他の出力を提供するプロンプト（prompt）を含むか、または、表してもよい。

【0030】

テキストエンコーダまたは他の補助モデルは、主モデルに入力されるアテンションパラメータを導出するアテンション機構を備えてもよい。

【0031】

処理回路は、他の学習済み機械学習モデル（例えば、少なくとも１つのアテンション層）をテキストエンコーダの出力に適用して、テキストデータから固有表現や他の特徴を抽出する、固有表現や他の特徴に対応するテキストエンコーダの出力から符号を抽出する、および抽出した符号に基づいて他のアテンション処理の条件付けを行ってもよい。

【0032】

独立して提供され得る他の態様において、画像処理装置の方法は、医用画像データを受信すること、前記医用画像データに関する臨床情報を含むテキストデータを受信すること、前記テキストデータに基づいて、前記医用画像データの対象処理領域を特定すること、および前記医用画像データの内、少なくとも特定された対象処理領域を処理することを備える。

【0033】

独立して提供され得る他の態様において、処理装置は、学習用画像データセットおよび対応するテキストデータに基づいて、主の機械学習モデルおよび／または補助の機械学習モデルを学習させる。主の機械学習モデルの学習は、医用画像データと補助の機械学習モデルから受信された条件付け情報に基づいて、主の機械学習モデルにセグメンテーションの実行を学習させることを含む。補助の機械学習モデルの学習は、補助の機械学習モデルに少なくともテキストデータについて学習させて、主の機械学習モデルに条件付け情報を提供して対象処理領域を特定させることを含む。

【0034】

独立して提供され得る他の態様において、学習用画像データセットおよび対応するテキストデータに基づいて、主の機械学習モデルおよび／または補助の機械学習モデルを学習させる方法は、医用画像データと補助の機械学習モデルから受信された条件付け情報に基づいて、主の機械学習モデルにセグメンテーションの実行を学習させること、および／または補助の機械学習モデルに少なくともテキストデータについて学習させて、主の機械学習モデルに条件付け情報を提供して対象処理領域を特定させることを備える。

【0035】

独立して提供され得る他の態様において、テキストからの意味情報を統合するシステムは、ニューラルネットワーク、条件付け情報統合機構（例えば、FiLM、INSIDE）、１組の入力、テキスト形式の条件付けデータ、および補助のテキストエンコーダ・ネットワークを備える。該補助のテキストエンコーダ・ネットワークは、例えば、条件付けデータのテキスト符号化とニューラルネットワークに対する主な入力の組み合わせが出力に影響を与えるように、個々のトークン表現をテキストの潜在表現に統合することによって（例えば、連結またはニューラルネットワークを介して）、条件付け機構のパラメータを学習する。

【0036】

構造化データに従わない学習のため、損失関数におけるペナルティをテキストエンコーダに適用してもよい（例えば、合成データを用いて）。

【0037】

構造化データに従わない学習のため、損失関数におけるペナルティを条件付け機構に適用してもよい（例えば、合成データを用いて）。

【0038】

ネットワークを反事実学習法に従って訓練してもよい。データを、操作（例えば、コピー、ミラー、貼り付け）を通じて拡張することによって、ニューラルネットワークに対して条件付け機構の利用を促す反例を作成してもよい。

【0039】

追加のテキスト入力は、過去の放射線読影レポートを含んでもよい、および／またはネットワークの出力は、例えば、変化を監視するために病変セグメンテーションを含んでもよい。

【0040】

システムはフィードバックループを備えてもよい。または、システムは、ネットワークの空間アテンションに影響を及ぼし得る臨床医によってフィードバックループにおいて利用されてもよい。

【0041】

アテンションパラメータは、テキストエンコーダ・ネットワークのアテンション機構から導出される、および／またはアテンション機構と結合されてもよい。

【0042】

テキストデータは、例えば、病変や他の関心のある特徴の位置に関連するまたは依存する、または病変や他の関心のある特徴の位置を決定する情報等の空間情報を含む、または表してもよい。また、テキストデータは、病変の種類、症状の種類、過去の病変の形状および／または位置および／または種類、および／または症状の位置を含み得るまたは表してもよい。

【0043】

医用撮像手順は、臨床医が記載したスキャン要求によって開始されてもよい。スキャン要求は、患者の症状などの患者の病歴に関する情報を含む。放射線科医は、臨床業務における放射線スキャンの観察時に、このスキャン要求に基づいて可能性のある診断を決定する。特に、画像だけでは識別できない鑑別診断が複数ある場合に、この情報は重要となり得る。

【0044】

独立して提供され得る他の態様において、画像セグメンテーションを向上させるために、既存の空間依存モデル（例えば、INSIDE）を拡張することによって、スキャン要求のテキストを画像セグメンテーションアルゴリズムに入力する。自由なテキスト入力を自然言語処理（natural language processing：NLP）モデルによって処理し、学習済みのアテンション機構を介して、入力データ内のある位置や形状に画像セグメンテーションモデルを誘導してもよい。テキストエンコーダを用いて異なる種類の症状や病変に関係する意味情報を抽出してもよい。構造化データ誤差に基づいて、潜在表現を教師とすることで条件層の学習を向上させてもよい。さらに、利用可能な学習データ量が限られる状況において、反事実データ拡張（data augmentation）法を用いて、モデルが行うテキスト条件付け入力からの顕著な情報の抽出を向上させてもよい。

【0045】

一態様または一実施形態の構成は、他の態様または実施形態の構成と適宜組み合わせ可能である。例えば、装置の構成を方法の構成として、または方法の構成を装置の構成として提供可能である。

【図面の簡単な説明】

【0046】

次に、以下の図面に示される実施形態を非限定的な例として説明する。

【図1】図１は、実施形態に係る医用画像処理装置の概略図である。

【図2】図２は、実施形態に係る医用画像処理方法の概略図である。

【図3】図３は、実施形態に係るテキスト符号化方法の概略図である。

【図4】図４は、実施形態に係る医用画像処理方法の概略図である。

【図5】図５は、実施形態に係る医用画像処理方法の概略図である。

【図6】図６は、実施形態に係る２次元医用スキャンの３つの画像を示す図である。

【図7A】図７Ａは、３次元空間における符号付き距離のグラフを示す図である。

【図7B】図７Ｂは、３次元空間における符号付き距離のグラフを示す図である。

【図7C】図７Ｃは、３次元空間における符号付き距離のグラフを示す図である。

【図8】図８は、実施形態に係る医用画像処理方法の概略図である。

【図9】図９は、実施形態に係る医用画像処理方法の概略図である。

【図10】図１０は、実施形態に係る医用画像処理方法の概略図である。

【図11】図１１は、異なる実施形態の成果を比較する実験に用いられた３つの画像を示す図である。

【発明を実施するための形態】

【0047】

実施形態に係るデータ処理装置１の概要を図１に示す。本実施形態において、データ処理装置１は医用データを処理する。他の実施形態において、データ処理装置１は適宜他のデータを処理してもよい。

【0048】

データ処理装置１は演算装置２を備える。この例では、演算装置２はパーソナルコンピュータ（PC）やワークステーションである。演算装置２は、表示画面６や他の表示装置と、コンピュータキーボードおよびマウス等の１つまたは複数の入力装置８とに接続される。

【0049】

演算装置２はデータセットをデータ記憶部１０から取得する。データセットは、適宜任意の装置を用いてまたは任意のソースから生成されるまたは取得される。

【0050】

一実施形態において、データの少なくとも一部は、例えばスキャナ４によって取得された医用撮像データを含む、または医用撮像データから特定され得る。スキャナ４は、任意の撮像モダリティの２次元、３次元、または４次元のデータを含む医用撮像データを生成する。例えば、スキャナ４は、磁気共鳴（magnetic resonance：MRまたはMRI）スキャナ、コンピュータ断層撮影（computed tomography：CT）スキャナ、コーンビームＣＴスキャナ、Ｘ線スキャナ、超音波スキャナ、ポジトロン放出断層撮影（positron emission tomography：PET）スキャナ、または単光子放出コンピュータ断層撮影（single photon emission computed tomography： SPECT）スキャナを含み得る。医用撮像データは、例えば、非撮像データを含む追加的条件付けデータを含み得る、または追加的条件付けデータと関連付けされる。

【0051】

演算装置２は、例えば、データ記憶部１０に代えてまたはデータ記憶部１０に加えて、他の１つ以上のデータ記憶部（図示せず）からデータを受信してもよい。例えば、演算装置２は、画像保管通信システム（Picture Archiving and Communication System：PACS）や他の情報システムの一部を構成する、離れた場所にある１つ以上のデータ記憶部（図示せず）からデータを受信してもよい。

【0052】

演算装置２は、データを自動的または半自動的に処理するための処理資源を提供する。演算装置２は処理装置１２を備える。処理装置１２は、モデル訓練回路１４、データ処理回路１６、およびインターフェース回路１８を備える。モデル訓練回路１４は、１つ以上のモデルを学習させる。データ処理回路１６は、１つまたは複数の学習済みモデルを適用して他の処理を実行する。インターフェース回路１８は、ユーザ入力や他の入力を取得する、および／またはデータ処理の結果を出力する。

【0053】

本実施形態において、演算装置２内の各回路１４、１６、１８は、実施形態に基づく方法を実行させるコンピュータ読み取り可能な指示を含むコンピュータプログラムによって実現される。但し、他の実施形態では、種々の回路を１つ以上の特定用途向け集積回路（application specific integrated circuit：ASIC）またはフィールド・プログラマブル・ゲート・アレイ（field programmable gate array：FPGA）として実現してもよい。

【0054】

また、演算装置２は、ＰＣのハードドライブと他のコンポーネント、すなわちＲＡＭ、ＲＯＭ、データバス、種々のデバイスドライバを含むオペレーティングシステム、およびグラフィックカードを含むハードウェアデバイス等を備える。明瞭性のため、図１はこれらのコンポーネントを示していない。

【0055】

図１のデータ処理装置１は、以下に例示および／または説明される通り、複数の方法を実行する。

【0056】

図２は、実施形態に係る医用画像処理方法を示す概略図である。図２は、患者の症状の臨床歴を有するテキストデータを含むスキャン要求２２を示す。スキャン画像２４は、Ｘ線、ＭＲＩ、ＣＴスキャン等の撮像技術によって取得される。スキャン要求２２は、テキストエンコーダ・ネットワーク形式のテキストエンコーダ２６に供給される。本実施形態において、テキストエンコーダ・ネットワークはトランスフォーマーを含み得る。テキストエンコーダは、補助の学習済み機械学習モデルとも称される。テキストエンコーダ２６は、スキャン要求２２のテキストを表すトークン用の埋め込み（embedding）を生成する。

【0057】

テキストは、例えば、任意の関連臨床情報を含み得る。例として、該臨床情報は、臨床所見、患者の状態、病歴や家族歴に関する、またはスキャンの性質、スキャンの測定パラメータ、他の調査結果、物理的検査からの所見、現在の投薬治療や他の治療、潜在的な診断のリスク要因、または画像内に映る病変の有無や性質に関連する他の情報などに関する。例えば、スキャン要求は、病変部（例えば、卒中病変部）の測性と分布に対応する症状の測性、分布、種類に関する情報（例えば、臨床歴）を含むことが多い。純粋に例示のために、以下に具体例を示す。「右側に上肢脱力、?tPA候補」、「突発性めまい及び回転性めまい、?POCS、?小脳の脳卒中」、「左顔面下垂、血栓溶解候補、出血は除外してください」。スキャン要求のテキストは測性に関する位置情報とともに、脳の特定領域や他の領域と対応する体の症状のある部位（顔、腕など）を含む。かかるテキストを病変セグメンテーション・ネットワークや他のセグメンテーションモデルに対して条件付け情報として入力して、セグメンテーション性能を高めることが実施形態の特徴である。

【0058】

符号化テキストは条件付け機構２８に供給され、スキャン画像２４は画像セグメンテーションモデル３０に供給される。条件付け機構２８は、スキャン要求２２のテキストに従って、画像セグメンテーションモデル３０をスキャン画像２４内の１つまたは複数の特定位置に誘導する。当該位置は対象処理領域とも称される。条件付け機構２８は、INSIDE機構、FiLM機構、または適宜他の条件付け機構を備えてもよい。使用されるFiLM機構は、”FiLM: Visual Reasoning with a General Conditioning layer, Perez et. al, arXiv:1709.07871, 2017”に開示される。INSIDE機構については、米国特許出願番号第16/992,466に記載される。ここに参照することによってその全内容を援用する。画像セグメンテーションモデル３０は、画像と受信したテキスト情報を処理して、出力画像３２と出力テキスト３４を生成する。画像セグメンテーションモデルは主の機械学習モデルとも称される。

【0059】

本実施形態は、スキャン要求２２からのテキストの利用を説明するが、任意の関連するソースからのテキストをテキストエンコーダ２６への入力として利用可能である。

【0060】

他の実施形態において、当該方法は画像セグメンテーションモデルの潜在空間内で機能する。該方法は、条件付け機構がテキストデータを用いて、潜在空間内の選択された特徴や特性を、例えば高いアテンションが付与されるようにして、特定する。選択された特徴や特性は、アテンションが付与された選択空間とも称され得る。例えば、一例では、体の右側の症状（例えば、右側に脱力を示す患者）は、脳の反対（左）側の病変を示す可能性があるため、テキストに症状およびその側性が記述される場合は、側性情報がテキストエンコーダから抽出され、画像セグメンテーション・ネットワークに送られ、反対（左）側に対する注目を高めるようにマッピングする。または、症状そのものを特定の脳領域にマッピングすることも可能である。例えば、「めまい」を小脳にマッピングする（「過去４時間めまいがするという患者の訴え」）。

【0061】

図２の実施形態において、画像セグメンテーションモデル３０は、例えば、モデル訓練回路１４を用いて、または他のリモートまたはローカルの学習プロセスに基づいて訓練された学習済み畳み込みニューラルネットワーク（ＣＮＮ）である。一実施形態において、事前学習させたモデルを装置１に設けてもよい。または、離れた場所に保存し、装置１はネットワークや他の通信リンクを介してモデルにアクセスしてもよい。本実施形態において、学習は、医用画像データを含むアノテーション付き学習用医用画像データセットを用いて行われる。医用画像データは、例えば、検討中の解剖学的領域を表す２次元データまたは３次元データである。各データセットには、モデル学習プロセスの主題としての特定の解剖学的特徴や関心のある病変を識別するためのアノテーションが設けられる。モデル学習プロセスは、例えば、データ処理回路１６が後に学習済みモデルを新たなデータセットに適用し、新データセットそれぞれの解剖学的特徴や関心のある病変のアノテーションを取得する、または他の所望の処理を実行できるようにモデルを学習させることを目的とする。かかる新データセットは、例えば、スキャナ４によって取得される。

【0062】

アノテーション付き学習用データセットに含まれるアノテーションは、例えば、画像データのセグメンテーションを表すラベル（例えば、解剖学的特徴や関心のある病変部に対応する画素またはボクセル、または画素またはボクセル領域）を含む。

【0063】

受信されたアノテーション付き学習用医用画像データセットは、インターフェース回路１８からモデル訓練回路１４に送られる。図１の実施形態において、モデル訓練回路１４は、畳み込みニューラルネットワーク（ＣＮＮ）を備え、ＣＮＮにアノテーション付き学習用医用画像セットについて学習させる。

【0064】

図２の実施形態のＣＮＮは、概して既知のＣＮＮに基づく構造またはアーキテクチャを有し、畳み込み層、完全結合層、プーリング層、入力・出力層を含む複数の層を備える。既知のＣＮＮ法に応じて、適宜他の層を含んでもよい。

【0065】

既知の手法に従って、特定の層に対して、先行層で実行された処理の出力として特徴マップが生成され、その特徴マップは特定の層に対し入力として供給される。例えば、特徴マップ形式の該層の出力は、ＣＮＮの次の層に入力として供給される。各層は、適切な数の入力チャネルおよび出力チャネルを有する。各層において、フィルタリング／畳み込み、プーリング、ReLU処理、または他の所望の処理等の任意の所望の処理が実行される。実施形態において、層の数は任意であり、各種類の層の数や配置に制約を課すものは、例えば、特定のＣＮＮ手法の要件および使用されるアーキテクチャのみである。

【0066】

INSIDE機構やFiLM機構などの条件付け機構を備えることが実施形態の特徴である。条件付け機構は、主のＣＮＮに加えて、補助ネットワークや他のモデルまたはアルゴリズム等の形式である。補助ネットワークは、他のＣＮＮ、別の種類のニューラルネットワーク、深層学習アルゴリズム、別の訓練可能なまたは他のモデル等である。

【0067】

補助ネットワークは、条件付けデータを提供する。条件付けデータは、主のＣＮＮの妥当性の高い出力（例えば、各画像データセット内の対象となる特定の解剖学的特徴を識別するタスク用の妥当性の高い出力）の空間を制限するまたは影響を与えるために用いられる。

【0068】

なお、かかる条件付けデータは、対象の解剖学的特徴の大きさ、位置、他の特性に関連する。

【0069】

条件付け機構の出力は、スケール（γ）およびシフト（β）パラメータであって、モデルの各層における処理に対する入力として用いられる。スケール／シフトパラメータは、バッチ正規化プロセスに従って、画像Fc（例えば、学習用画像データセットまたはＣＮＮの先行層から導出された特徴マップ）を変換するために用いられる。例えば、“Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift, Ioffe et al, 2015, arXiv.1502.03167 or US2016217368”に記載されるようなバッチ正規化プロセスが適宜CNNに適用可能である。

【0070】

処理の一部として、異なるスケール（γ）およびシフト（β）係数をＣＮＮの該当する層の各チャネルに適用し、得られた個々の特徴マップを増幅または抑制することによって、ＣＮＮの最終予測に影響を与える。但し、一般にバッチ正規化プロセスは、空間位置に応じてチャネル調整をするような柔軟性を持たないため、スケール／シフト係数によって特徴マップ全体を修整する。

【0071】

また、非画像データに基づく空間依存的条件付けもＣＮＮの各層において実行される。特に、実施形態において、例えば、特徴単位の変換前に実行される微分可能な関数（例えば、ガウシアン）に基づくアテンション機構を備える空間依存フィルタが生成される。

【0072】

該フィルタは、モデル訓練の際に画像データの空間領域によりアテンション（例えば、より大きい重みまたは重要性）が集まるように、医用画像データの領域を限定する効果を奏する。例えば、特定の値の非画像パラメータを有する被検体について、対象の解剖学的特徴が画像（例えば、位置合わせおよび／または正規化画像）の特定の空間領域に見られる可能性が高い場合、アテンション関数としてのフィルタは、ＣＮＮや他のモデルに画像データセット内の解剖学的特徴のラベル付け（例えば、セグメント化）を学習させる際に、確実に画像の該特定の空間領域がより注目されるようにする。

【0073】

実施形態において、フィルタは、２つのガウスベクトルの積（下記、式１）として生成され、条件付きインスタンス正規化層に統合される。他の実施形態において、例えば、CTまたはMRIスキャンデータ等の３Ｄスキャンデータの３つのベクトルであってもよい。該ベクトルは同様に乗算によって統合可能である。

【0074】

【数1】

【0075】

本実施形態において、例えば、各ガウス関数のピーク位置および分散の値などの、ガウス関数の形状と位置を規定するパラメータ値は、条件付け機構の出力として決定される。

【0076】

補助ネットワークによって生成された、アテンション関数として動作するフィルタは、ＣＮＮの訓練時に特徴マップ間で共有可能またはチャネル単位で適用可能である。ＣＮＮ訓練時に、例えば、異なるパラメータ値（例えば、ピーク位置、分散）を有するガウシアンや他のフィルタを、１つ以上の層の異なる特徴マップおよび／またはチャネルに対して用いることができる。条件付け機構は、該当する異なる特徴マップおよび／またはチャネルにアテンション関数として適用されるフィルタのパラメータ値を個別に学習可能である。または、一実施形態において、同じパラメータ値を有する同一のフィルタを、関係する全てのチャネルおよび／または２つ以上の特徴マップに対してアテンション関数として用いることができる。

【0077】

アテンション関数として機能するガウシアンフィルタをＣＮＮの１つの層に適用可能であるが、他の実施形態では、アテンション関数であるフィルタをＣＮＮの２つ以上の異なる層に適用する、または異なる条件付けから得られた各々アテンション関数として機能する異なるフィルタをＣＮＮの異なる層に適用することができる。

【0078】

図３は、テキストエンコーダ３８の実施形態の詳細を示す。テキストデータを含むスキャン要求３６はテキストエンコーダ３８に供給される。テキストエンコーダ３８は、スキャン要求３６のテキストを表すトークン用の埋め込みを出力する。自然言語処理（NLP）の単語埋め込み（word embedding）とは、低次元空間において個々の単語を実数値ベクトルとして表す手法であり、単語間の意味を捉えるものである。言語表現はトークンに細分化することが可能である。トークンは、段落、文、単語、または単語内の要素までも表すことができる。各トークンは、複数次元の実数値ベクトルによって表される。本実施形態におけるスキャン要求３６内の各単語は１つのトークンとみなされる。テキストエンコーダ３８は、bag-of-wordsトーカナイザ（tokeniser）、これに続く単純な埋め込み機構およびPubMedBert等の事前学習済みトランスフォーマーモデルなどを含む様々なテキスト符号化モデルを利用可能である。図３は、テキストエンコーダ３８が取得した１つのトークンに対する埋め込み４０を示す。

【0079】

埋め込み４０は、例えば連結によって、条件付けデータ４２を含むベクトルＺに統合される。条件付けデータ４２は条件付け機構４４に供給される。条件付けデータ４２に基づいて、条件付け機構４４の空間アテンションが制御される。

【0080】

テキストエンコーダ３８によって誘導されるセグメンテーションの一例として、スキャン要求３６に明示される側性のセグメンテーションが挙げられる。本実施形態において、スキャン要求３６はテキスト「右側」を含む。テキストエンコーダ３８は、このテキストを抽出し、条件付け機構４４の、最終的には画像セグメンテーションモデルの誘導に用いることが予想される。また、テキストエンコーダ３８は、例えば、スキャン要求３６や他の利用可能なテキストに対象処理領域の選択に影響を及ぼす暗示的な情報が含まれる場合等の用途に有用である。一実施形態のテキストエンコーダ３８は、頭蓋骨内の骨折位置が特定されている場合に「中空球アテンション」を用いる等、病変のタイプを識別し、対処する方法を学習可能である。また、テキストエンコーダ３８は、入力テキストが言語障害を示す場合、ブローカ野に注目する等、症状のタイプを識別し、対処することが可能である。また、テキストエンコーダ３８は、入力テキストが腹痛を示す場合、例えば、腹部に注目する等、症状の位置を識別し、対処することができる。テキストエンコーダ３８には、患者の病歴および病変部が記載される報告書が与えられてもよい。テキストエンコーダ３８は、過去のスキャンにおける病変部の形状や位置を、新たなスキャンに対する画像セグメンテーションモデルを誘導するのに用いることもできる。

【0081】

別途に提供され得る他の実施形態において、既知の構造化グラウンドトゥルース（ground truth）データに基づいて、テキストエンコーダ５０の出力にデータ監視を付加可能である。図４は、画像とテキスト情報を含む入力データ４６を示す。入力画像には主な特徴が２つあり、１つはスキャンの右半分に、もう１つは左半分に見られる。付随するテキストは患者の臨床歴を表し、「右側脱力」と書かれている。

【0082】

入力データ４６内のテキストは、トランスフォーマーを備えるテキストエンコーダ５０に供給される。テキストエンコーダ５０は、入力データ４６のテキストを表すトークン用の埋め込みを生成する。グラウンドトゥルース４８の情報に基づいて、テキストエンコーダの出力を監視する。この監視機構は、例えば、標準分類タスクを備える、または交差エントロピー（cross-entropy）誤差ベースの機構を備えてもよい。実施形態によっては、他の監視機構が適宜利用可能である。

【0083】

本実施形態のグラウンドトゥルース４８は、「側性: “右”」を表す。教師有り符号化プロセスによって符号化されたテキストは条件付け機構４４に供給される。入力データ４６からのスキャン画像は画像セグメンテーションモデル５２に供給される。条件付け機構４４は、入力データ４６のテキストおよびグラウンドトゥルース４８のデータに基づくテキスト符号化に応じて、画像セグメンテーションモデル５２をスキャン画像内の特定の１つまたは複数の位置に誘導する。条件付け機構４４は、INSIDE機構またはFiLM機構を備えてもよい。画像セグメンテーションモデル５２は、受信した画像およびテキスト情報を処理し、出力画像５４を生成する。図４から、画像セグメンテーションモデル５２がスキャンの右半分にある画像の特徴をセグメント化したことが分かる。

【0084】

別の実施形態において、合成された対応する画像とテキストの対に基づいて、テキストエンコーダの出力を監視することができる。テキストとアテンションとの関係は実データに類似する必要があるが、画像は大きく異なって見える場合があり得る。例えば、合成画像が人の解剖学的構造とそれ程似ていない場合でも、側性関係は、アテンションモデリングにおいて正確に再生可能である。なお、特定次元に対して監視を付加しても、ネットワークによって抽出される有用な追加情報を除外するものではない。構造化データの監視は、テキストエンコーダの出力に対する補助的タスクと考えられるが、画像セグメンテーションモデルとともにテキストエンコーダを徹底的に学習させることによって、側性のみではなく、より多くの情報抽出が可能になる（例えば、病変部の位置、外見に関する情報）。

【0085】

本実施形態に係るデータ監視に利用されるグラウンドトゥルースは、症状の側性である。他の実施形態では、症状の位置や種類、病変の種類、臨床歴に含まれる病変部の形状、位置または種類等の、他の様々な構造化グラウンドトゥルースが利用可能である。

【0086】

別途提供され得る別の実施形態において、既知のグラウントゥルース・データに基づいて、アテンション機構を直接監視してもよい。アテンションベクトルは画像セグメンテーションモデルに供給可能である、またはアテンションベクトルは画像セグメンテーションモデルに包含されてもよい。図５は、画像とテキスト情報を含む入力データ５６を示す。入力画像には主な特徴が２つあり、１つはスキャンの右半分に、もう１つは左半分に見られる。付随するテキストは患者の臨床歴を表し、「右側脱力」と書かれている。

【0087】

入力データ５６内のテキストは、トランスフォーマーを備えるテキストエンコーダ５８に供給される。テキストエンコーダ５８は、入力データ５６のテキストを表すトークン用の埋め込みを生成し、条件付け機構６２に供給する。本実施形態のグラウンドトゥルース６０は、「側性: “右”」を表す。条件付け機構６２にグラウンドトゥルース６０を供給することによって、画像セグメンテーションモデル６４のアテンションベクトルを変調することが可能である。アテンション変調機構は、グラウンドトゥルースに基づくアテンションベクトルに対するペナルティ項を適用することを備えてもよい。

【0088】

テキストエンコーダ・ネットワークや他の補助の学習済み機械学習モデルの訓練は、構造化データに従わずに学習させるため、損失関数にペナルティを適用することを含む。一実施形態における主の機械学習モデルの訓練も、構造化データに従わずに学習させるため、損失関数にペナルティを適用することを含む。

【0089】

入力データ５６からのスキャン画像は画像セグメンテーションモデル６４に供給される。条件付け機構６２は、入力データ５６のテキストおよびグラウンドトゥルース６０のデータに基づき変調されたアテンション機構に応じて、画像セグメンテーションモデル６４をスキャン画像内の１つまたは複数の特定位置に誘導する。条件付け機構６２は、INSIDE機構またはFiLM機構を備えてもよい。画像セグメンテーションモデル６４は、受信した画像およびテキスト情報を処理し、出力画像６８を生成する。図５から、画像セグメンテーションモデル６４がスキャンの右半分にある画像の特徴をセグメント化したことが分かる。

【0090】

本実施形態に係るデータ監視に利用されるグラウンドトゥルースは、症状の側性のものである。他の実施形態では、症状の位置や種類、病変の種類、臨床歴に含まれる病変部の形状、位置または種類等の他の様々な構造化グラウンドトゥルースが利用可能である。

【0091】

図６は医用スキャン画像の内の３つの画像を示す。３つの画像には適用されたアテンションベクトルの視覚的マークが重ねられている。本実施形態のアテンションベクトルは、グラウンドトゥルースに基づきアテンションベクトルにペナルティ項が適用される図５に対応する実施形態に記載の機構によって変調される。図６ａは、スキャン画像６００と、アテンションベクトル生成についてペナルティを科せられた画像６０２の右半分とを示す。画像の右側において、低いアテンション値は報酬を、高いアテンション値はペナルティを受ける。ベクトルは、値に配置される損失関数に拘わらず存在する。これによって、アテンションベクトルに画像の左半分に注意を向けることを促す。図６ｂは、スキャン画像６００と、アテンションベクトル生成についてペナルティを科せられた画像６０４の左半分とを示す。これによって、アテンションベクトルに画像の右半分に注目することを促す。図６ｃは、アテンション機構に対してペナルティが適用されていないスキャン画像６００を示す。この場合、アテンションベクトルは特定の側性方向に偏ることはない。本実施形態は２次元スキャン画像に関するが、上述の手法は３次元スキャン画像にも適用可能である。

【0092】

別途に提供され得る別の実施形態において、条件付け機構は、ガウス分布等の分布のパラメータを制御する代わりに、カスタム（custom）な形状に対して符号付き距離関数（signed distance function：SDF）または他の損失関数を用いる。一定の外見や形の病変は特定の形状を有する傾向があることが知られている。例えば、頭部ＣＴ画像の場合、骨折は脳中央部ではなく、頭蓋骨表面に見られる傾向が強い。ＳＤＦによって、例えば、３Ｄ頭蓋骨の中空球の周囲に滑らかに下降する勾配を作成する、または３Ｄスキャンをスライスして２Ｄの円環形状を作成・処理することができる。

【0093】

図７Ａは、固定ディスク７０と固定ディスク７０を含む平面７２上の点との間の符号付き距離のグラフ７４を示す。図７Ｂは、より複雑な形状７６と形状７６を含む平面７２上の点との間の符号付き距離のグラフ７８を示す。図７Ｃにおいて、符号付き距離場７０１を、形状を表すラスター画像として示す。符号付き距離場７０１はこの形式で保存され、画像分析モデルの条件付けに用いられる。

【0094】

テキストエンコーダは、条件付け機構のアテンションに利用される関数の選択に影響を与えることができる。

【0095】

別途に提供され得る別の実施形態において、モデルは、拡張処理（augmentation）とともに実データについて学習する。拡張処理は、病変部の属性を反転、変換、または修整することによって、条件付け情報の意味の学習を促す学習時に、ネットワークに直接的な反例（例えば、反事実的データ）を与える。条件入力は属性反転に応じて調整される。例として、上述の側性の場合、可能値が３つ（左、右、両側）あるため、左から右への切り替えが反転とみなされる。但し、別の例では、症状の種類を修整（例えば、「脱力」から「めまい」へ変更）し、これに応じて注目する解剖学的位置を大脳から小脳へ変更する。第３の例では、病変（例えば、脳卒中）の発症時期を時間単位から年単位に変更し、これに応じて画像内の病変部の外見を微かに暗い領域から黒い領域（死んだ脳、すなわち梗塞）に変更する。

【0096】

図８は、反事実拡張処理を用いる、画像およびテキストデータの処理方法８００を示す。テキストを含む入力データ８０がテキストエンコーダ８２に供給される。テキストエンコーダ８２によって単語埋め込みが生成され、条件付け機構８４に供給される。スキャン画像８６は、病変部の属性の反転等によって拡張され、拡張後スキャン画像８８が取得される。任意の拡張処理が適宜利用可能である。例えば、異なる位置（例えば、脳または他の生体構造の一部）にある病変部を導入する、または外見（例えば、明度、質感）が異なる病変部を導入する。単純に、元の病変部をコピー、貼り付け、変換することでこれらのパターンを実現することができる。また、随意に、位置合わせアトラスと組み合わせて確実に位置を正しく入力テキストにマッピングすることも可能である。拡張後スキャン画像８８は、出力画像９４と出力テキスト９２を生成する画像セグメンテーションモデル９０に供給される。

【0097】

例えば、「コピー，ペースト」技術を用いて、関心のある病変を（グラウンドトゥルースデータのセグメンテーションを用いて）原画像からコピーし、新たな位置に挿入する。コピー／ペースト技術には、グラウンドトゥルースである病変ラベル（セグメンテーション）に対応する画像の一部を「コピーすること」、そして、外見を変換した後、例えば、明度（明るさ）を増減した後などに、画像の別の部分に「貼り付けること」を含む。これによって、画像内のセグメンテーション候補の病変部が２つ以上となるため、ネットワークは、どの病変部をセグメント化すべきかを知るためにテキスト監視に依拠することになる。このように、ネットワークはテキスト入力を無視せず、利用するように促される。新たな位置は、使用される構造化データのタイプに基づいて特定される。方法８００において、反転された属性は側性のため、病変部はコピーまたはミラー（mirror）され、貼り付けられる。次に側性は無作為に割り当てられ、正しいグラウンドトゥルース・セグメンテーションが選択される。例えば、マスクではなく、「グラウンドトゥルース・セグメンテーション・ラベル」を修整してもよい。拡張後画像は敢えて同一とし、病変の可能性のある個所を２つにする（左と右）。グラウンドトゥルースマスクは、a）左、b）右、c）両側の何れかに変更可能である。対応する条件テキストもこの変更に合わせて変更される。このように、ネットワークは、正しい病変部をセグメント化するために側性情報の符号化を学習する。

【0098】

様々な実施形態の学習データは少なくとも、反例や他の性質を表す学習データを含む。かかる反例等は、主の機械学習モデルに対し、条件付け情報および／または補助の学習済み機械学習モデルの出力を用いる、またはそれらの影響を受けることを促す。

【0099】

別途に提供され得る別の実施形態において、臨床医は、モデルをフィードバックループにおいて用いる場合がある。この場合、臨床医は、会話的な言語を用いてモデルに対してセグメンテーションの向上を指示する。これにはユーザ入力とプロンプトから成る追加の学習データを要する。

【0100】

また別の実施形態において、他のユーザ入力が適宜取得され、主の機械学習モデルの空間アテンション機構はユーザ入力に従って変更される、および／またはテキストデータが、ユーザ入力に基づいて拡張されるまたは修整される。例えば、臨床医は、セグメンテーションの結果に満足できず（おそらく、臨床歴不足または画像の一部に過剰に注目範囲を狭め、残りを無視させるような臨床歴等に起因する）、追加のテキスト挿入を望む場合がある。一実施形態において、テキストエンコーダを大規模言語モデル（large language model：LLM）や他の学習済みモデルに拡張または拡大させる、またはテキストエンコーダを拡張または拡大させてLLM等と相互作用させる。例としては、セグメント化を所望する病変部の位置や外見に関する臨床指示が挙げられる。例えば、「慢性病変のセグメント化をお願いします」、「加齢関連の変化のセグメント化をお願いします」、「左側の硬膜下血腫のセグメント化をお願いします」などである。

【0101】

図９は、当該処理の２段階を示す。第１段階において、入力データ８０は、テキストエンコーダ８２、条件付け機構８４、画像セグメンテーションモデル９０の順に供給される。画像セグメンテーションモデル９０は、出力画像９４と出力テキスト９２を生成する。続いて、ユーザが別のテキスト入力を入力プロンプト９６としてテキストエンコーダに与える場合もある。本実施形態において、入力データ８０は、画像の右側に病変の情報を含む。入力プロンプト９６には「左側に何かありますか？」と記述される。テキストエンコーダ８２、条件付け機構８４、画像セグメンテーションモデル９０の順に入力プロンプト９６を処理する。画像セグメンテーションモデル９０は、入力プロンプト９６に基づいて第２出力画像９８と第２出力テキスト１００を生成する。

【0102】

別途に提供され得る別の実施形態において、固有表現認識（Named Entity Recognition：NER）機構を適用して、テキストから固有名詞等を抽出する。ＮＥＲ機構は、テキストエンコーダに付加されたアテンション層である。テキストエンコーダからのこれらの固有表現のエンコーディングは抽出され、別のアテンション機構の条件付けに用いられる。

【0103】

図１０は、テキストエンコーダ８２に供給される入力データ８０を示す。テキストエンコーダ８２が取得したテキストのベクトル表示は、ＮＥＲモデル１０２ならびにINSIDEモジュール１０４に供給される。ＮＥＲモデル１０２は、既知のテキスト分類モデル（例えば、BERT）や固有表現を検出する言語学的規則ベースのアルゴリズムなどである。出力は、対象の病変予測およびその属性の予測であってもよい。これによって、属性情報に基づいて、アテンション機構を監督し、各対象の病変の位置をより適切に特定させることができる。他の実施形態において、固有表現を条件入力として用いてもよい。これは構造化データ損失防止アプローチに幾分類似するが、その目的は、補助的監視としてだけでなく、テキストの代わりに撮像モデルに入力される実際の出力として、有用な構造化データを抽出することにある。

【0104】

次に、INSIDE機構を３次元スキャンに拡張した実験の結果を説明する。また、この実験では、側性がINSIDE用の条件付け情報として利用可能であるかをテストした。構造化データのみを用いて実験を行った。

【0105】

モデルが、左、右側、両側の入力に対してアテンションを正しく学習したことが分かる。右側の例はガウスアテンションである。ガウスアテンションは、任意の形状を学習する符号付き距離関数に置き換え可能である。例えば、テキスト「?骨折」によって、中空球アテンションが学習対象となり、モデルを頭蓋骨に集中させる。

【0106】

表１は、条件付けデータベクトル「Ｚ」と３つの異なる側性に対するセグメンテーションタスクを示す。

【0107】

【表1】

【0108】

図１１は、実験における画像セグメンテーションモデル９０の入力画像１１０、ガウスアテンション１１２、予測１１４を示す。

【0109】

第１の実験では、モデルに実データのみを学習させ、側性情報を追加することでセグメンテーションの精度が向上するかどうかを確認した。第１の実験の結果を表２に示す。条件付け情報の追加および条件付け情報に対する側性の追加によってプロセスの合計Diceスコアが向上したことが分かる。

【0110】

【表2】

【0111】

第２の実験において、モデルがINSIDEを正しく使用しているかを確認するサニティチェック（sanity check）として、側性に関する「コピー、ミラー、張り付け」操作によって実データセットを拡張した。セグメンテーションが条件付け情報に依拠するように工夫をした（病変が２か所あり、条件付け情報によってどちらをセグメント化すべきかが特定されるため）。学習データと検証データの双方を拡張した。このため、UNet3Dモデルの性能は、第１の実験結果と比較して低下することが予想された。

【0112】

表３は、第２の実験の結果を示す。

【0113】

【表3】

【0114】

表２および３の結果の基になったデータには、出血部と周囲の浮腫のグラウンドトゥルース・セグメンテーションを有する１８８個の頭部ＣＴスキャンを含むデータセットが含まれる。ボリュームに対して、ウィンドウイング（windowing）、正規化、および２ｍｍの解像度への再サンプリングによって前処理を行った。データセットは、８５個の学習用ボリューム（７３個に出血部を含む）、２０個の検証用（１８個に出血部を含む）、および８３個のテスト用ボリューム（６９個に出血部を含む）に分割した。モデルには実データのみを学習させた。学習させたモデルの一つはUNet3Dだけを含む。学習させた別のモデルはINSIDE条件付けモジュールを含むものの、アブレーション感知・条件付け情報は入力されていない。最後に、また別のモデルを、側性を条件付けモデルの入力として用いて学習させた。

【0115】

種々の実施形態において、任意の学習済みモデルが適宜利用可能である。表２および３の結果を得た実施形態では、3D UNetエンコーダ／デコーダ・アーキテクチャを３ステージのダウンサンプリング／アップサンプリング処理とともに用いた。かかるアーキテクチャは、例えば以下に記載される、“Ronneberger, Olaf, Philipp Fischer, and Thomas Brox, "U-net: Convolutional Networks for biomedical image segmentation", Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015: 18th International Conference, Munich, Germany, October 5-9, 2015, Proceedings, Part III 18, Springer International Publishing, 2015”。エンコーダの各ステージは２つの重み正規化畳み込み層から成る（例えば、“Qiao, Siyuan, et al., "Micro-batch training with batch-channel normalization and weight standardization" arXiv preprint arXiv:1903.10520 (2019)”に記載される）。カーネルサイズはそれぞれ３、３２、６４、３ステージの出力チャネル数は１２８である。３ステージの後にSwish活性化層（例えば、“Ramachandran, Prajit, Barret Zoph, and Quoc V. Le, "Searching for activation functions", arXiv preprint arXiv: 1710.05941 (2017)”に記載される）とグループ正規化層（例えば、“Wu, Yuxin, and Kaiming He., "Group normalization", Proceedings of the European conference on computer vision (ECCV), 2018”に記載される）が続く。平均2 x 2 x 2のプーリング層がダウンサンプリングに用いられる。デコーダ・アーキテクチャは、エンコーダを反転させた構造であって、アップサンプリングには転置畳み込み層が用いられる。3D UNetモデル用のDiceとバイナリ交差エントロピー誤差の組み合わせを用いて、モデルはバッチサイズ２で４００回反復学習する。Adamアルゴリズム（例えば、“Reddi, Sashank J., Satyen Kale, and Sanjiv Kumar, "On the convergence of adam and beyond", arXiv preprint arXiv:1904.09237 (2019)”に記載される）を、最大学習率0.0001のOneCycleLR学習率スケジュール（例えば、“Smith, Leslie N., and Nicholay Topin, "Super-convergence: Very fast training of neural networks using large learning rates", Artificial intelligence and machine learning for multi-domain operations applications", Vol. 11006, SPIE, 2019”に記載される）とともに用いる。検証データセットのDiceに対して早期終了が適用される（エポック数２０のpatience）。

【0116】

第３の実験では、合成撮像データセットを、実数テキストデータを有するモデルへの入力として利用した。テキストエンコーダモデル（PubMedBERT [17]）を上述の実験と同じ設定に追加した。テキストエンコーダモデルの出力を条件付けモジュールに入力した。エポック数５０で、バッチサイズ８を用いてこのセットアップを学習させた。検証データセットのDiceスコアに対して早期終了を適用した（patience 20）。モデルの画像とテキスト部には異なる学習率を用いた（テキストに対して5e^-6、撮像に対して5e^-4）。放射線読影レポートから得た実数テキストデータセットを第１および第２の実験で用いた実際の頭部ＣＴスキャンに対応付けて使用した。各報告書の臨床歴／表示フィールドを抽出し、側性にマッピングを行った。対応するグラウンドトゥルース・セグメンテーションの側性に基づいて、合成画像毎に一致する実際の臨床歴を選択した。その結果は、テキストエンコーダモデルがテキスト入力の処理に成功し、このデータに関するセグメンテーション予測を向上させたことを示している。

【0117】

表４は第３の実験結果を示す。

【0118】

【表4】

【0119】

本明細書では特定の回路について説明したが、別の実施形態では、これらの回路の内１つ以上の機能を単一の処理資源や他のコンポーネントで実現することができる。または、単一の回路で実現される機能を２つ以上の処理資源または他のコンポーネントを組み合わせて実現することができる。単一の回路とは、該回路の機能を実現する複数のコンポーネント、互いに離間しているか否かに拘わらず、の意を含む。複数の回路とは、それらの回路の機能を実現する単一のコンポーネントの意を含む。

【0120】

いくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。新規の方法やシステムは、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

【図1】