特表2024-538578 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エコー　イメージング，インク．の特許一覧

特表2024-538578畳み込みニューラルネットワークに基づく画像処理方法およびシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4A
4B
5
6
7A
7B
8A
8B
9A
9B
10
11
12
13A
13B
13C
13D
13E
13F
13G
13H
13I
13J
13K
13L
14A
14B
14C
14D
14E
14F
14G
14H
14I
14J
14K
14L
15A
15B
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-10-23

(54)【発明の名称】畳み込みニューラルネットワークに基づく画像処理方法およびシステム

(51)【国際特許分類】

G06T 7/00 20170101AFI20241016BHJP

G06V 10/82 20220101ALI20241016BHJP

【ＦＩ】

G06T7/00 350C

G06V10/82

【審査請求】有

【予備審査請求】有

(21)【出願番号】P 2024518801

(86)(22)【出願日】2021-10-14

(85)【翻訳文提出日】2024-03-26

(86)【国際出願番号】 SG2021050623

(87)【国際公開番号】W WO2023063874

(87)【国際公開日】2023-04-20

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＪＡＶＡ

(71)【出願人】

【識別番号】520342725

【氏名又は名称】エコーイメージング，インク．

(74)【代理人】

【識別番号】100118902

【弁理士】

【氏名又は名称】山本修

(74)【代理人】

【識別番号】100106208

【弁理士】

【氏名又は名称】宮前徹

(74)【代理人】

【識別番号】100196508

【弁理士】

【氏名又は名称】松尾淳一

(72)【発明者】

【氏名】チン，シュエビン

(72)【発明者】

【氏名】デーガン，マスード

(72)【発明者】

【氏名】ゾヌービ，ドルヌーシュ

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096HA11

5L096KA04

(57)【要約】

畳み込みニューラルネットワーク（ＣＮＮ）に基づく画像処理方法が提供される。この方法は、入力画像を受け取るステップと、入力画像に基づいてＣＮＮのそれぞれ複数の畳み込み層を使用して複数の特徴量抽出動作を実行し、それぞれ複数の出力特徴マップを作成するステップと、複数の畳み込み層の複数の出力特徴マップに基づいて、入力画像に対する出力画像を作成するステップとを含む。特に、複数の特徴量抽出動作の各々に対して、畳み込み層を使用して特徴量抽出動作を実行するステップは、畳み込み層によって受け取られた入力特徴マップ、および複数の加重座標マップに基づいて、畳み込み層の出力特徴マップを作成するステップと、複数の座標マップおよび空間注意マップに基づいて、複数の加重座標マップを作成するステップと、畳み込み層によって受け取られた入力特徴マップに基づいて空間注意マップを作成し、複数の座標マップの各々における座標情報を修正して、複数の加重座標マップを作成するステップとを含む。ＣＮＮに基づく対応する画像処理システムも提供される。

【特許請求の範囲】

【請求項1】

少なくとも１つのプロセッサを使用した畳み込みニューラルネットワーク（ＣＮＮ）に基づく画像処理方法であって、
入力画像を受け取るステップと、
前記入力画像に基づいて前記ＣＮＮのそれぞれ複数の畳み込み層を使用して複数の特徴量抽出動作を実行し、それぞれ複数の出力特徴マップを作成するステップと、
前記複数の畳み込み層の前記複数の出力特徴マップに基づいて、前記入力画像に対する出力画像を作成するステップと、
を含み、
前記複数の特徴量抽出動作の各々に対して、前記畳み込み層を使用して前記特徴量抽出動作を実行するステップが、
前記畳み込み層によって受け取られた入力特徴マップおよび複数の加重座標マップに基づいて、前記畳み込み層の前記出力特徴マップを作成するステップと、
複数の座標マップおよび空間注意マップに基づいて、前記複数の加重座標マップを作成するステップと、
前記畳み込み層によって受け取られた入力特徴マップに基づいて前記空間注意マップを作成し、前記複数の座標マップの各々における座標情報を修正して、前記複数の加重座標マップを作成するステップと、
を含む、方法。

【請求項2】

前記空間注意マップを作成するステップが、
前記畳み込み層によって受け取られた入力特徴マップに基づいて第１の畳み込み動作を実行し、畳み込み特徴マップを作成するステップと、
前記畳み込み特徴マップに基づいて活動化関数を適用し、前記空間注意マップを作成するステップと、
を含む、請求項１に記載の方法。

【請求項3】

前記活動化関数が、シグモイド活動化関数である、請求項２に記載の方法。

【請求項4】

前記複数の加重座標マップを作成するステップが、前記複数の座標マップの各々を前記空間注意マップと乗じて、前記複数の座標マップの各々における前記座標情報を修正するステップを含む、請求項２または３に記載の方法。

【請求項5】

前記複数の座標マップが、第１の次元に対する座標情報を含む第１の座標マップと、第２の次元に対する座標情報を含む第２の座標マップとを含み、前記第１の次元および前記第２の次元が、前記第１の畳み込み動作が実行されるように構成された２つの次元である、請求項２～４のいずれか一項に記載の方法。

【請求項6】

前記畳み込み層の前記出力特徴マップを作成するステップが、
前記畳み込み層によって受け取られた入力特徴マップおよび前記複数の加重座標マップをチャネルごとに連結して、連結特徴マップを形成するステップと、
前記連結特徴マップに基づいて第２の畳み込み動作を実行して、前記畳み込み層の前記出力特徴マップを作成するステップと、
を含む、請求項１～５のいずれか一項に記載の方法。

【請求項7】

前記ＣＮＮが、前記ＣＮＮの前記複数の畳み込み層のうちの少なくとも１つの畳み込み層を含む予測サブネットワークを含み、
前記方法が、前記入力画像に基づいて、前記予測サブネットワークを使用して１組の予測特徴マップを作成するステップをさらに含み、前記１組の予測特徴マップを作成するステップが、前記予測サブネットワークの前記少なくとも１つの畳み込み層を使用して、前記複数の特徴量抽出動作のうちの少なくとも１つの特徴量抽出動作を実行するステップを含み、
前記１組の予測特徴マップのうちの複数の予測特徴マップが、異なる空間分解能レベルを有する、
請求項１～６のいずれか一項に記載の方法。

【請求項8】

前記予測サブネットワークが、１組のエンコーダブロックおよび１組のデコーダブロックを含むエンコーダ－デコーダ構造を有し、前記予測サブネットワークの前記１組のエンコーダブロックが、複数のエンコーダブロックを含み、前記予測サブネットワークの前記１組のデコーダブロックが、複数のデコーダブロックを含み、
前記方法が、
前記予測サブネットワークの前記複数のエンコーダブロックの各々に対して、前記エンコーダブロックによって受け取られた入力特徴マップに基づいて、前記エンコーダブロックを使用してダウンサンプル特徴マップを作成するステップと、
前記予測サブネットワークの前記複数のデコーダブロックの各々に対して、入力特徴マップ、および前記デコーダブロックに対応する前記エンコーダブロックによって作成され、前記デコーダブロックによって受け取られた前記ダウンサンプル特徴マップに基づいて、前記デコーダブロックを使用してアップサンプル特徴マップを作成するステップと、
をさらに含む、請求項７に記載の方法。

【請求項9】

前記予測サブネットワークを使用して前記１組の予測特徴マップを作成するステップが、それぞれ前記複数のデコーダブロックによって作成された前記複数のアップサンプル特徴マップに基づいて、前記複数の予測特徴マップを作成するステップを含む、請求項８に記載の方法。

【請求項10】

前記予測サブネットワークの前記エンコーダブロックを使用して前記ダウンサンプル特徴マップを作成するステップが、
前記エンコーダブロックによって受け取られた前記入力特徴マップに基づいて、マルチスケール特徴を抽出するステップと、
前記エンコーダブロックによって抽出された前記抽出マルチスケール特徴に基づいて、前記ダウンサンプル特徴マップを作成するステップと、
を含み、
前記予測サブネットワークの前記デコーダブロックを使用して前記アップサンプル特徴マップを作成するステップが、
前記入力特徴マップ、および前記デコーダブロックに対応する前記エンコーダブロックによって作成され、前記デコーダブロックによって受け取られた前記ダウンサンプル特徴マップに基づいて、マルチスケール特徴を抽出するステップと、
前記デコーダブロックによって抽出された前記抽出マルチスケール特徴に基づいて、前記アップサンプル特徴マップを作成するステップと、
を含む、
請求項８または９に記載の方法。

【請求項11】

前記予測サブネットワークの前記複数のエンコーダブロックの各々が、前記ＣＮＮの複数の畳み込み層のうちの少なくとも１つの畳み込み層を含み、前記予測サブネットワークの前記エンコーダブロックを使用して前記ダウンサンプル特徴マップを作成するステップが、前記エンコーダブロックの前記少なくとも１つの畳み込み層を使用して、前記複数の特徴量抽出動作のうちの少なくとも１つの特徴量抽出動作を実行するステップを含み、
前記予測サブネットワークの前記複数のデコーダブロックの各々が、前記ＣＮＮの前記複数の畳み込み層のうちの少なくとも１つの畳み込み層を含み、前記予測サブネットワークの前記デコーダブロックを使用して前記アップサンプル特徴マップを作成するステップが、前記デコーダブロックの前記少なくとも１つの畳み込み層を使用して、前記複数の特徴量抽出動作のうちの少なくとも１つの特徴量抽出動作を実行するステップを含む、
請求項８～１０のいずれか一項に記載の方法。

【請求項12】

前記予測サブネットワークの前記複数のエンコーダブロックの各々の各畳み込み層が、前記ＣＮＮの前記複数の畳み込み層のうちの１つであり、
前記予測サブネットワークの前記複数のデコーダブロックの各々の各畳み込み層が、前記ＣＮＮの複数の畳み込み層のうちの１つである、
請求項１１に記載の方法。

【請求項13】

前記予測サブネットワークの前記複数のエンコーダブロックの各々が、残差ブロックとして構成され、
前記予測サブネットワークの前記複数のデコーダブロックの各々が、残差ブロックとして構成される、
請求項８～１２のいずれか一項に記載の方法。

【請求項14】

前記ＣＮＮが、前記ＣＮＮの複数の畳み込み層のうちの少なくとも１つの畳み込み層を含む精練サブネットワークをさらに含み、
前記方法が、融合特徴マップに基づいて前記精練サブネットワークを使用して１組の精練特徴マップを作成するステップをさらに含み、前記１組の精練特徴マップを作成するステップが、前記精練サブネットワークの前記少なくとも１つの畳み込み層を使用して、前記複数の特徴量抽出動作のうちの少なくとも１つの特徴量抽出動作を実行するステップを含み、
前記１組の精練特徴マップのうちの複数の精練特徴マップが、異なる空間分解能レベルを有する、
請求項７～１３のいずれか一項に記載の方法。

【請求項15】

前記１組の予測特徴マップを連結して、前記融合特徴マップを作成するステップをさらに含む、請求項１４に記載の方法。

【請求項16】

前記精練サブネットワークが、それぞれ前記複数の精練特徴マップを作成するように構成された複数の精練ブロックを含み、前記複数の精練ブロックの各々が、１組のエンコーダブロックおよび１組のデコーダブロックを含むエンコーダ－デコーダ構造を有し、前記精練サブネットワークの前記１組のエンコーダブロックが、複数のエンコーダブロックを含み、前記精練サブネットワークの前記１組のデコーダブロックが、複数のデコーダブロックを含み、
前記方法が、前記複数の精練ブロックの各々に対して、
前記精練ブロックの前記複数のエンコーダブロックの各々に対して、前記エンコーダブロックによって受け取られた入力特徴マップに基づいて、前記エンコーダブロックを使用してダウンサンプル特徴マップを作成するステップと、
前記精練ブロックの前記複数のデコーダブロックの各々に対して、入力特徴マップ、および前記デコーダブロックに対応する前記エンコーダブロックによって作成され、前記デコーダブロックによって受け取られた前記ダウンサンプル特徴マップに基づいて、前記デコーダブロックを使用してアップサンプル特徴マップを作成するステップと、
をさらに含む、
請求項１４または１５に記載の方法。

【請求項17】

前記複数の精練ブロックの前記複数のエンコーダ－デコーダ構造が、異なる高さを有する、請求項１６に記載の方法。

【請求項18】

前記精練サブネットワークを使用して前記１組の精練特徴マップを作成するステップが、前記複数の精練ブロックの各々に対して、前記精練ブロックによって受け取られた前記融合特徴マップ、および前記精練ブロックの前記複数のデコーダブロックのうちの第１のデコーダブロックによって作成された前記アップサンプル特徴マップに基づいて、前記精練ブロックの前記精練特徴マップを作成するステップを含む、請求項１６または１７に記載の方法。

【請求項19】

前記精練ブロックの前記エンコーダブロックを使用して前記ダウンサンプル特徴マップを作成するステップが、
前記エンコーダブロックによって受け取られた前記入力特徴マップに基づいて、マルチスケール特徴を抽出するステップと、
前記エンコーダブロックによって抽出された前記抽出マルチスケール特徴に基づいて、前記ダウンサンプル特徴マップを作成するステップと、
を含み、
前記精練ブロックの前記デコーダブロックを使用して前記アップサンプル特徴マップを作成するステップが、
前記入力特徴マップ、および前記デコーダブロックに対応する前記精練ブロックの前記エンコーダブロックによって作成され、前記デコーダブロックによって受け取られた前記ダウンサンプル特徴マップに基づいて、マルチスケール特徴を抽出するステップと、
前記デコーダブロックによって抽出された前記抽出マルチスケール特徴に基づいて、前記アップサンプル特徴マップを作成するステップと、
を含む、
請求項１６～１８のいずれか一項に記載の方法。

【請求項20】

前記複数の精練ブロックの各々に対して、
前記精練ブロックの前記複数のエンコーダブロックの各々が、前記ＣＮＮの複数の畳み込み層のうちの少なくとも１つの畳み込み層を含み、前記精練ブロックの前記エンコーダブロックを使用して前記ダウンサンプル特徴マップを作成するステップが、前記エンコーダブロックの前記少なくとも１つの畳み込み層を使用して、前記複数の特徴量抽出動作のうちの少なくとも１つの特徴量抽出動作を実行するステップを含み、
前記精練ブロックの前記複数のデコーダブロックの各々が、前記ＣＮＮの複数の畳み込み層のうちの少なくとも１つの畳み込み層を含み、前記精練ブロックの前記デコーダブロックを使用して前記アップサンプル特徴マップを作成するステップが、前記デコーダブロックの前記少なくとも１つの畳み込み層を使用して、前記複数の特徴量抽出動作のうちの少なくとも１つの特徴量抽出動作を実行するステップを含む、
請求項１６～１９のいずれか一項に記載の方法。

【請求項21】

前記精練ブロックの前記複数のエンコーダブロックの各々の各畳み込み層が、前記ＣＮＮの複数の畳み込み層のうちの１つであり、
前記精練ブロックの前記複数のデコーダブロックの各々の各畳み込み層が、前記ＣＮＮの複数の畳み込み層のうちの１つである、
請求項２０に記載の方法。

【請求項22】

前記複数の精練ブロックの各々に対して、
前記精練ブロックの前記複数のエンコーダブロックの各々が、残差ブロックとして構成され、
前記精練ブロックの前記複数のデコーダブロックの各々が、残差ブロックとして構成される、
請求項１６～２１のいずれか一項に記載の方法。

【請求項23】

前記出力画像が、前記１組の精練特徴マップに基づいて作成される、請求項１４～２１のいずれか一項に記載の方法。

【請求項24】

前記出力画像が、前記１組の精練特徴マップの平均に基づいて作成される、請求項２３に記載の方法。

【請求項25】

前記入力画像を受け取るステップが、複数の入力画像を受け取るステップを含み、前記複数の入力画像の各々が、前記ＣＮＮを訓練して訓練済みＣＮＮを得るためのラベル付き画像であり、
前記複数の入力画像の各々に対して、
前記入力画像に基づいて前記ＣＮＮのそれぞれ前記複数の畳み込み層を使用して前記複数の特徴量抽出動作を実行し、それぞれ前記複数の出力特徴マップを作成するステップと、
前記複数の畳み込み層の前記複数の出力特徴マップに基づいて、前記入力画像に対する前記出力画像を作成するステップと、
を含む、
請求項１～２４のいずれか一項に記載の方法。

【請求項26】

前記ラベル画像が、組織構造を含むラベル付き超音波画像である、請求項２５に記載の方法。

【請求項27】

前記出力画像が、前記ＣＮＮを使用した前記入力画像に対する推論の結果である、請求項１～２４のいずれか一項に記載の方法。

【請求項28】

前記入力画像が、組織構造を含む超音波画像である、請求項２７に記載の方法。

【請求項29】

ＣＮＮに基づく画像処理システムであって、
メモリと、
前記メモリに通信的に結合されており、請求項１～２８のいずれか一項に記載のＣＮＮに基づく画像処理方法を実行するように構成された少なくとも１つのプロセッサと、
を備える、システム。

【請求項30】

１つまたは複数の非一時的コンピュータ可読記憶媒体で実施されており、請求項１～２８のいずれか一項に記載のＣＮＮに基づく画像処理方法を実行するように少なくとも１つのプロセッサによって実行可能な命令を含む、コンピュータプログラム製品。

【請求項31】

少なくとも１つのプロセッサを使用して、ＣＮＮを使用して超音波画像内の組織構造を分割する方法であって、
請求項１～２４のいずれか一項に記載のＣＮＮに基づく画像処理方法を実行するステップを含み、
前記入力画像が、前記組織構造を含む前記超音波画像であり、
前記出力画像が、分割された前記組織構造を有し、前記ＣＮＮを使用した前記入力画像に対する推論の結果である、方法。

【請求項32】

前記ＣＮＮが、請求項２５または２６に記載のように訓練される、請求項３１に記載の方法。

【請求項33】

ＣＮＮを使用して超音波画像内の組織構造を分割するためのシステムであって、
メモリと、
前記メモリに通信的に結合されており、請求項３１または３２に記載のＣＮＮを使用して超音波画像内の組織構造を分割する方法を実行するように構成された少なくとも１つのプロセッサと、
を備える、システム。

【請求項34】

１つまたは複数の非一時的コンピュータ可読記憶媒体で実施されており、請求項３１または３２に記載のＣＮＮを使用して超音波画像内の組織構造を分割する方法を実行するように少なくとも１つのプロセッサによって実行可能な命令を含む、コンピュータプログラム製品。

【発明の詳細な説明】

【技術分野】

【0001】

[0001]本発明は、一般に、畳み込みニューラルネットワーク（ＣＮＮ）に基づく画像処理方法およびシステムに関する。

【背景技術】

【0002】

[0002]畳み込みニューラルネットワーク（ＣＮＮ）は、当技術分野ではよく知られている人工ニューラルネットワークのクラスであり、予測の目的で様々な領域で、特に画像分割および画像分類などの様々な予測用途の画像処理で適用されてきた。ＣＮＮは概して、様々な予測用途の様々な領域で適用可能であると理解されることがあるが、様々な予測用途でＣＮＮを使用することが、常に満足のいく予測結果を提供するとは限らず（たとえば、画像分割または画像分類において十分に正確とは限らない）、満足のいく予測結果を得ることは難しいまたは困難な可能性がある。

【0003】

[0003]一例として、医療用超音波撮像は、安全かつ非侵襲的な実時間撮像診断法であり、高周波音波を使用して人体の構造の画像を提供する。コンピュータ断層撮影法（ＣＴ）および磁気共鳴撮像（ＭＲＩ）などの他の撮像診断法と比べて、超音波撮像は比較的安く、持ち運ぶことができ、より普及しているため、２１世紀の聴診器になると広く考えられている。しかし、超音波画像は、手持ち式のプローブから得られることがあり、したがって操作者次第であり、大きいスペックルノイズ、陰影、およびぼやけた境界などの多数のアーチファクトを受けやすい。これにより、関心組織構造（たとえば、解剖学的構造）を隣接する組織から分割することがより難しくなる。複数の従来の方法（たとえば、動的輪郭、グラフカット、スーパーピクセル、およびディープモデル（たとえば、完全畳み込みネットワーク（ＦＣＮ）、Ｕ－Ｎｅｔなど）が、超音波画像分割のために提案および適合されてきた。しかし、超音波画像のノイズの多さのため、そのような従来の方法は通常、粗悪な結果をもたらす。ディープモデルは、従来の方法に比べて大きな改善を実現しているが、超音波画像から軟組織構造を正確に分割することは、依然として困難なタスクである。

【0004】

[0004]単一のディープモデルを使用して超音波画像を分割することに伴う別の問題は、概してぼやけた境界およびテキスチャのためにバイアスの大きい結果をもたらし、ノイズおよび不均質性のために分散が大きいことである。バイアスおよび分散の両方を低減させるために、バギング、ブースティングなどのマルチモデルアンサンブル手法が提案されている。しかし、アンサンブル化のために複数のモデルを訓練することは、計算コストが高い。従来、これに対処するために、１回のパスでモデルを訓練しながら、学習率アニーリングによって最適化経路に沿って複数組のモデル重みを節約することが提案されてきた。しかし、そのような方法ではそれでもなお、推論プロセスを複数回走らせる必要がある。この問題に対処しようとして、直列モジュールによって分割結果を予測し、徐々に精練するための複数の多段階予測精練ディープモデル（たとえば、ＨｏｕｒｇｌａｓｓＮｅｔ、ＣＵ－Ｎｅｔ、Ｒ^３－Ｎｅｔ、ＢＡＳＮｅｔ）が開発されてきた。そのような方策は、分割バイアスを低減させることは可能であるかもしれないが、分散に与える影響は制限されており、これは、データセット全体に対する平均的な性能は良好に見えるが、様々な入力画像に対して安定した予測をもたらす可能性は低いことを意味する。

【発明の概要】

【発明が解決しようとする課題】

【0005】

[0005]したがって、ＣＮＮに基づく従来の画像処理方法およびシステムに伴う１つまたは複数の問題の克服または少なくとも改善、特にそれだけに限定されるものではないが画像分割などのＣＮＮに基づく画像処理に伴う予測能力（たとえば、予測結果の精度）の強化または改善を目指す、ＣＮＮに基づく画像処理方法およびシステムを提供することが必要とされている。この背景に基づいて、本発明は開発されている。

【課題を解決するための手段】

【0006】

[0006]本発明の第１の態様によれば、少なくとも１つのプロセッサを使用したＣＮＮに基づく画像処理方法が提供され、この方法は、
入力画像を受け取るステップと、
入力画像に基づいてＣＮＮのそれぞれ複数の畳み込み層を使用して複数の特徴量抽出動作を実行し、それぞれ複数の出力特徴マップを作成するステップと、
複数の畳み込み層の複数の出力特徴マップに基づいて、入力画像に対する出力画像を作成するステップとを含み、
複数の特徴量抽出動作の各々に対して、畳み込み層を使用して特徴量抽出動作を実行するステップが、
畳み込み層によって受け取られた入力特徴マップおよび複数の加重座標マップに基づいて、畳み込み層の出力特徴マップを作成するステップと、
複数の座標マップおよび空間注意マップに基づいて、複数の加重座標マップを作成するステップと、
畳み込み層によって受け取られた入力特徴マップに基づいて空間注意マップを作成し、複数の座標マップの各々における座標情報を修正して、複数の加重座標マップを作成するステップとを含む。

【0007】

[0007]本発明の第２の態様によれば、ＣＮＮに基づく画像処理システムが提供され、このシステムは、メモリと、メモリに通信的に結合されており、本発明の上述した第１の態様によるＣＮＮに基づく画像処理方法を実行するように構成された少なくとも１つのプロセッサとを備える。

【0008】

[0008]本発明の第３の態様によれば、１つまたは複数の非一時的コンピュータ可読記憶媒体で実施されており、本発明の上述した第１の態様によるＣＮＮに基づく画像処理方法を実行するように少なくとも１つのプロセッサによって実行可能な命令を含むコンピュータプログラム製品が提供される。

【0009】

[0009]本発明の第４の態様によれば、少なくとも１つのプロセッサを使用して、ＣＮＮを使用して超音波画像内の組織構造を分割する方法が提供され、この方法は、
本発明の上述した第１の態様によるＣＮＮに基づく画像処理方法を実行するステップを含み、
入力画像は、組織構造を含む超音波画像であり、
出力画像は、分割された組織構造を有し、ＣＮＮを使用した入力画像に対する推論の結果である。

【0010】

[0010]本発明の第５の態様によれば、ＣＮＮに基づく画像処理システムが提供され、このシステムは、メモリと、メモリに通信的に結合されており、本発明の上述した第４の態様によるＣＮＮを使用して超音波画像内の組織構造を分割する方法を実行するように構成された少なくとも１つのプロセッサとを備える。

【0011】

[0011]本発明の第６の態様によれば、１つまたは複数の非一時的コンピュータ可読記憶媒体で実施されており、本発明の上述した第４の態様によってＣＮＮを使用して超音波画像内の組織構造を分割する方法を実行するように少なくとも１つのプロセッサによって実行可能な命令を含むコンピュータプログラム製品が提供される。

【0012】

[0012]本発明の実施形態は、ほんの一例として、図面と併せて以下に記載の説明から、当業者にはよりよく理解され、容易に明らかになる。

【図面の簡単な説明】

【0013】

【図1】本発明の様々な実施形態によるＣＮＮに基づく画像処理方法の概略的な流れ図である。

【図2】本発明の様々な実施形態によるＣＮＮに基づく画像処理システムの概略的なブロック図である。

【図3】本発明の様々な実施形態によるＣＮＮに基づく画像処理システムを実現または実装するために使用することができる例示的なコンピュータシステムの概略的なブロック図である。

【図4A】本発明の様々な例示的な実施形態による例示的なＣＮＮの例示的なネットワークアーキテクチャを示す図である。

【図4B】本発明の様々な例示的な実施形態による例示的なＣＮＮの例示的なネットワークアーキテクチャを示す図である。

【図5】本発明の様々な例示的な実施形態による例示的なＣＮＮの予測モジュールおよび精練モジュールの例示的な詳細な構成を示す表（表１）である。

【図6】本発明の様々な例示的な実施形態による残差Ｕブロック（ＲＳＵ）の概略的なブロック図である。

【図7A】図７Ａは、様々な例示的な実施形態による残差ブロックの概略的なブロック図である。

【図7B】図７Ｂは、様々な例示的な実施形態によるＲＳＵの概略的なブロック図である。

【図8A】図８Ａは、本発明の様々な例示的な実施形態による元の座標畳み込み（ＣｏｏｒｄＣｏｎｖ）の概略的なブロック図である。

【図8B】図８Ｂは、本発明の様々な例示的な実施形態による注意座標畳み込み（ＡＣ－Ｃｏｎｖ）の概略的なブロック図である。

【図9A】図９Ａは、本発明の様々な例示的な実施形態による従来の直列精練モジュールおよび並列精練モジュールの概略的なブロック図である。

【図9B】図９Ｂは、本発明の様々な例示的な実施形態による従来の直列精練モジュールおよび並列精練モジュールの概略的なブロック図である。

【図10】本発明の様々な例示的な実施形態による甲状腺および超音波走査プロトコルを、手動でラベル付けされた甲状腺葉オーバーレイを有する対応する超音波画像とともに示す概略図である。

【図11】本発明の様々な例示的な実施形態による超音波画像の各部分集合におけるボリューム番号および対応するスライス（画像）を示す表（表２）である。

【図12】横断面（ＴＲＸ）および矢状面（ＳＡＧ）試験セットにおける本発明の様々な例示的な実施形態による例示的なＣＮＮと他の現況技術の分割モデルとの定量的な評価または比較を示す表（表３）である。

【図13A】本発明の様々な例示的な実施形態による例示的なＣＮＮを使用したＴＲＸ甲状腺画像におけるサンプル分割結果を示す図である。

【図13B】本発明の様々な例示的な実施形態による例示的なＣＮＮを使用したＴＲＸ甲状腺画像におけるサンプル分割結果を示す図である。

【図13C】本発明の様々な例示的な実施形態による例示的なＣＮＮを使用したＴＲＸ甲状腺画像におけるサンプル分割結果を示す図である。

【図13D】本発明の様々な例示的な実施形態による例示的なＣＮＮを使用したＴＲＸ甲状腺画像におけるサンプル分割結果を示す図である。

【図13E】本発明の様々な例示的な実施形態による例示的なＣＮＮを使用したＴＲＸ甲状腺画像におけるサンプル分割結果を示す図である。

【図13F】本発明の様々な例示的な実施形態による例示的なＣＮＮを使用したＴＲＸ甲状腺画像におけるサンプル分割結果を示す図である。

【図13G】本発明の様々な例示的な実施形態による例示的なＣＮＮを使用したＴＲＸ甲状腺画像におけるサンプル分割結果を示す図である。

【図13H】本発明の様々な例示的な実施形態による例示的なＣＮＮを使用したＴＲＸ甲状腺画像におけるサンプル分割結果を示す図である。

【図13I】本発明の様々な例示的な実施形態による例示的なＣＮＮを使用したＴＲＸ甲状腺画像におけるサンプル分割結果を示す図である。

【図13J】本発明の様々な例示的な実施形態による例示的なＣＮＮを使用したＴＲＸ甲状腺画像におけるサンプル分割結果を示す図である。

【図13K】本発明の様々な例示的な実施形態による例示的なＣＮＮを使用したＴＲＸ甲状腺画像におけるサンプル分割結果を示す図である。

【図13L】本発明の様々な例示的な実施形態による例示的なＣＮＮを使用したＴＲＸ甲状腺画像におけるサンプル分割結果を示す図である。

【図14A】本発明の様々な例示的な実施形態による例示的なＣＮＮを使用したＳＡＧ甲状腺画像におけるサンプル分割結果を示す図である。

【図14B】本発明の様々な例示的な実施形態による例示的なＣＮＮを使用したＳＡＧ甲状腺画像におけるサンプル分割結果を示す図である。

【図14C】本発明の様々な例示的な実施形態による例示的なＣＮＮを使用したＳＡＧ甲状腺画像におけるサンプル分割結果を示す図である。

【図14D】本発明の様々な例示的な実施形態による例示的なＣＮＮを使用したＳＡＧ甲状腺画像におけるサンプル分割結果を示す図である。

【図14E】本発明の様々な例示的な実施形態による例示的なＣＮＮを使用したＳＡＧ甲状腺画像におけるサンプル分割結果を示す図である。

【図14F】本発明の様々な例示的な実施形態による例示的なＣＮＮを使用したＳＡＧ甲状腺画像におけるサンプル分割結果を示す図である。

【図14G】本発明の様々な例示的な実施形態による例示的なＣＮＮを使用したＳＡＧ甲状腺画像におけるサンプル分割結果を示す図である。

【図14H】本発明の様々な例示的な実施形態による例示的なＣＮＮを使用したＳＡＧ甲状腺画像におけるサンプル分割結果を示す図である。

【図14I】本発明の様々な例示的な実施形態による例示的なＣＮＮを使用したＳＡＧ甲状腺画像におけるサンプル分割結果を示す図である。

【図14J】本発明の様々な例示的な実施形態による例示的なＣＮＮを使用したＳＡＧ甲状腺画像におけるサンプル分割結果を示す図である。

【図14K】本発明の様々な例示的な実施形態による例示的なＣＮＮを使用したＳＡＧ甲状腺画像におけるサンプル分割結果を示す図である。

【図14L】本発明の様々な例示的な実施形態による例示的なＣＮＮを使用したＳＡＧ甲状腺画像におけるサンプル分割結果を示す図である。

【図15A】ＴＲＸ画像における本発明の様々な例示的な実施形態による例示的なＣＮＮおよび他の現況技術モデルの成功率曲線グラフである。

【図15B】ＳＡＧ画像における本発明の様々な例示的な実施形態による例示的なＣＮＮおよび他の現況技術モデルの成功率曲線グラフである。

【図16】異なる畳み込みブロックおよび精練アーキテクチャで行われたアブレーション研究を示す表（表４）である。

【発明を実施するための形態】

【0014】

[0013]本発明の様々な実施形態は、畳み込みニューラルネットワーク（ＣＮＮ）、より詳細にはディープＣＮＮに基づく画像処理のための方法およびシステムを提供する。ＣＮＮは、人工ニューラルネットワークのクラスまたはタイプであり、ＣＮＮモデル、または単にモデルと呼ばれることもある。たとえば、背景に記載したように、ＣＮＮは概して、様々な予測用途の様々な領域で適用可能であると理解されることがあるが、様々な予測用途でＣＮＮを使用することが、常に満足のいく予測結果を提供するとは限らず（たとえば、画像分割または画像分類において十分に正確とは限らない）、満足のいく予測結果を得ることは難しいまたは困難な可能性がある。一例として、組織構造（たとえば、解剖学的構造、または腫瘍などの他のタイプの組織構造）を含む超音波画像はノイズが多く、ＣＮＮに基づいてそのような超音波画像を分割するための従来の方法は、粗悪な結果をもたらすことが分かっている。それに応じて、本発明の様々な実施形態は、ＣＮＮに基づく画像処理のための従来の方法およびシステムに伴う１つまたは複数の問題の克服または少なくとも改善、特にそれだけに限定されるものではないが画像分割などのＣＮＮに基づく画像処理に伴う予測能力（たとえば、予測結果の精度）の強化または改善を目指す、ＣＮＮに基づく画像処理のための方法およびシステムを提供する。

【0015】

[0014]図１は、本発明の様々な実施形態による少なくとも１つのプロセッサを使用したＣＮＮに基づく画像処理方法１００の概略的な流れ図を示す。方法１００は、入力画像を受け取るステップ（１０２）と、入力画像に基づいてＣＮＮのそれぞれ複数の畳み込み層を使用して複数の特徴量抽出動作を実行し、それぞれ複数の出力特徴マップを作成するステップ（１０４）と、複数の畳み込み層の複数の出力特徴マップに基づいて、入力画像に対する出力画像を作成するステップ（１０６）とを含む。特に、複数の特徴量抽出動作の各々に対して、畳み込み層を使用して特徴量抽出動作を実行するステップは、畳み込み層によって受け取られた入力特徴マップおよび複数の加重座標マップに基づいて、畳み込み層の出力特徴マップを作成するステップと、複数の座標マップおよび空間注意マップに基づいて、複数の加重座標マップを作成するステップと、畳み込み層によって受け取られた入力特徴マップに基づいて空間注意マップを作成し、複数の座標マップの各々における座標情報を修正して、複数の加重座標マップを作成するステップとを含む。

【0016】

[0015]それに応じて、画像処理方法１００は、有利には、特に画像分割に関連して、より詳細には超音波画像分割に関連して、予測能力を強化または改善することが分かっている。特に、上述したように対応する畳み込み層を使用して特徴量抽出動作を実行することによって、関連付けられた畳み込み動作が、座標情報へのアクセス（座標マップ（余分の座標チャネルの使用による））を有するだけでなく、関連付けられた畳み込み動作は、特徴量抽出動作（単に注意マップと呼ぶこともできる空間注意マップの使用による）にとって有益となりうる特定の座標により注目すること（すなわち、追加の注意）も可能になり、それによってそのような追加の注目（すなわち、追加の注意）は、畳み込み層によって受け取られた入力特徴マップによって、入力特徴マップから導出された空間注意マップを介して案内される。それに応じて、関連付けられた畳み込み動作が、空間的な場所（たとえば、デカルト空間内）を知るだけでなく、関連付けられた畳み込み動作は、空間注意マップを介してより注目すべき場所も知る。たとえば、空間注意マップによって、入力特徴マップによる案内に応じて、より多くの注目または注意を必要としうる特定の座標に余分の重みを加えることができ、より少ない注目または注意を必要としうる特定の座標への重みを低減させることができ（たとえば、したがって入力特徴マップのより重要な部分は、特徴量抽出動作においてより多くの注意を受け取ることができる）、それによって畳み込み層の関連付けられた畳み込み動作は、有利には、注意座標案内を有することになる。それに応じて、注意座標案内を有するそのような畳み込み層を使用するそのような特徴量抽出動作を、注意座標案内畳み込み（ＡＣ－Ｃｏｎｖ）と呼ぶことができ、注意座標案内を有するそのような畳み込み層を、ＡＣ－Ｃｏｎｖ層と呼ぶことができる。これに関して、注意座標案内によって、画像処理方法１００は、有利には、予測能力を強化または改善することが分かっている。画像処理方法１００ならびに対応する画像処理システムが、本発明の様々な実施形態および例示的な実施形態によってより詳細に説明されているため、これらの利点もしくは技術的効果、および／または他の利点もしくは技術的効果が当業者にはより明らかになるであろう。

【0017】

[0016]様々な実施形態では、空間注意マップを作成する上述したステップは、畳み込み層によって受け取られた入力特徴マップに基づいて第１の畳み込み動作を実行し、畳み込み特徴マップを作成するステップと、畳み込み特徴マップに基づいて活動化関数を適用し、空間注意マップを作成するステップとを含む。

【0018】

[0017]様々な実施形態では、活動化関数は、シグモイド活動化関数である。
[0018]様々な実施形態では、複数の加重座標マップを作成する上述したステップは、複数の座標マップの各々を空間注意マップと乗じて、複数の座標マップの各々における座標情報を修正するステップを含む。

【0019】

[0019]様々な実施形態では、複数の座標マップは、第１の次元に対する座標情報を含む第１の座標マップと、第２の次元に対する座標情報を含む第２の座標マップとを含み、第１および第２の次元は、第１の畳み込み動作が実行されるように構成された２つの次元である。

【0020】

[0020]様々な実施形態では、畳み込み層の出力特徴マップを作成する上述したステップは、畳み込み層によって受け取られた入力特徴マップおよび複数の加重座標マップをチャネルごとに連結して、連結特徴マップを形成するステップと、連結特徴マップに基づいて第２の畳み込み動作を実行し、畳み込み層の出力特徴マップを作成するステップとを含む。

【0021】

[0021]様々な実施形態では、ＣＮＮは、ＣＮＮの複数の畳み込み層のうちの少なくとも１つの畳み込み層を含む予測サブネットワークを含む。これに関して、方法１００は、入力画像に基づいて、予測サブネットワークを使用して１組の予測特徴マップを作成するステップをさらに含み、１組の予測特徴マップを作成する上述したステップは、予測サブネットワークの少なくとも１つの畳み込み層を使用して、複数の特徴量抽出動作のうちの少なくとも１つの特徴量抽出動作を実行するステップを含む。さらに、１組の予測特徴マップのうちの複数の予測特徴マップは、異なる空間分解能レベルを有する。

【0022】

[0022]様々な実施形態では、予測サブネットワークは、１組のエンコーダブロックおよび１組のデコーダブロックを含むエンコーダ－デコーダ構造を有する。予測サブネットワークの１組のエンコーダブロックは、複数のエンコーダブロックを含み、予測サブネットワークの１組のデコーダブロックは、複数のデコーダブロックを含む。これに関して、方法１００は、予測サブネットワークの複数のエンコーダブロックの各々に対して、エンコーダブロックによって受け取られた入力特徴マップに基づいて、エンコーダブロックを使用してダウンサンプル特徴マップを作成するステップと、予測サブネットワークの複数のデコーダブロックの各々に対して、入力特徴マップ、およびデコーダブロックに対応するエンコーダブロックによって作成され、デコーダブロックによって受け取られたダウンサンプル特徴マップに基づいて、デコーダブロックを使用してアップサンプル特徴マップを作成するステップとをさらに含む。

【0023】

[0023]様々な実施形態では、予測サブネットワークを使用して１組の予測特徴マップを作成する上述したステップは、それぞれ複数のデコーダブロックによって作成された複数のアップサンプル特徴マップに基づいて、複数の予測特徴マップを作成するステップを含む。

【0024】

[0024]様々な実施形態では、予測サブネットワークのエンコーダブロックを使用してダウンサンプル特徴マップを作成する上述したステップは、エンコーダブロックによって受け取られた入力特徴マップに基づいて、マルチスケール特徴を抽出するステップと、エンコーダブロックによって抽出された抽出マルチスケール特徴に基づいて、ダウンサンプル特徴マップを作成するステップとを含む。様々な実施形態では、予測サブネットワークのデコーダブロックを使用してアップサンプル特徴マップを作成する上述したステップは、入力特徴マップ、およびデコーダブロックに対応するエンコーダブロックによって作成され、デコーダブロックによって受け取られたダウンサンプル特徴マップに基づいて、マルチスケール特徴を抽出するステップと、デコーダブロックによって抽出された抽出マルチスケール特徴に基づいて、アップサンプル特徴マップを作成するステップとを含む。

【0025】

[0025]様々な実施形態では、予測サブネットワークの複数のエンコーダブロックの各々は、ＣＮＮの複数の畳み込み層のうちの少なくとも１つの畳み込み層を含み、予測サブネットワークのエンコーダブロックを使用してダウンサンプル特徴マップを作成する上述したステップは、エンコーダブロックの少なくとも１つの畳み込み層を使用して、複数の特徴量抽出動作のうちの少なくとも１つの特徴量抽出動作を実行するステップを含む。様々な実施形態では、予測サブネットワークの複数のデコーダブロックの各々は、ＣＮＮの複数の畳み込み層のうちの少なくとも１つの畳み込み層を含み、予測サブネットワークのデコーダブロックを使用してアップサンプル特徴マップを作成する上述したステップは、デコーダブロックの少なくとも１つの畳み込み層を使用して、複数の特徴量抽出動作のうちの少なくとも１つの特徴量抽出動作を実行するステップを含む。

【0026】

[0026]様々な実施形態では、予測サブネットワークの複数のエンコーダブロックの各々の各畳み込み層は、ＣＮＮの複数の畳み込み層のうちの１つである。様々な実施形態では、予測サブネットワークの複数のデコーダブロックの各々の各畳み込み層は、ＣＮＮの複数の畳み込み層のうちの１つである。

【0027】

[0027]様々な実施形態では、予測サブネットワークの複数のエンコーダブロックの各々は、残差ブロックとして構成される。様々な実施形態では、予測サブネットワークの複数のデコーダブロックの各々は、残差ブロックとして構成される。

【0028】

[0028]様々な実施形態では、ＣＮＮは、ＣＮＮの複数の畳み込み層のうちの少なくとも１つの畳み込み層を含む精練サブネットワークをさらに含む。これに関して、方法１００は、融合特徴マップに基づいて精練サブネットワークを使用して１組の精練特徴マップを作成するステップをさらに含み、１組の精練特徴マップを作成する上述したステップは、精練サブネットワークの少なくとも１つの畳み込み層を使用して、複数の特徴量抽出動作のうちの少なくとも１つの特徴量抽出動作を実行するステップを含む。さらに、１組の精練特徴マップのうちの複数の精練特徴マップが、異なる空間分解能レベルを有する。

【0029】

[0029]様々な実施形態では、方法１００は、１組の予測特徴マップを連結して、融合特徴マップを作成するステップをさらに含む。
[0030]様々な実施形態では、精練サブネットワークは、それぞれ複数の精練特徴マップを作成するように構成された複数の精練ブロックを含み、複数の精練ブロックの各々は、１組のエンコーダブロックおよび１組のデコーダブロックを含むエンコーダ－デコーダ構造を有する。精練サブネットワークの１組のエンコーダブロックは、複数のエンコーダブロックを含み、精練サブネットワークの１組のデコーダブロックは、複数のデコーダブロックを含む。これに関して、方法１００は、複数の精練ブロックの各々に対して、精練ブロックの複数のエンコーダブロックの各々に対して、エンコーダブロックによって受け取られた入力特徴マップに基づいて、エンコーダブロックを使用してダウンサンプル特徴マップを作成するステップと、精練ブロックの複数のデコーダブロックの各々に対して、入力特徴マップ、およびデコーダブロックに対応するエンコーダブロックによって作成され、デコーダブロックによって受け取られたダウンサンプル特徴マップに基づいて、デコーダブロックを使用してアップサンプル特徴マップを作成するステップとをさらに含む。

【0030】

[0031]様々な実施形態では、複数の精練ブロックの複数のエンコーダ－デコーダ構造は、異なる高さを有する。
[0032]様々な実施形態では、精練サブネットワークを使用して１組の精練特徴マップを作成する上述したステップは、複数の精練ブロックの各々に対して、精練ブロックによって受け取られた融合特徴マップ、および精練ブロックの複数のデコーダブロックのうちの第１のデコーダブロックによって作成されたアップサンプル特徴マップに基づいて、精練ブロックの精練特徴マップを作成するステップを含む。

【0031】

[0033]様々な実施形態では、精練ブロックのエンコーダブロックを使用してダウンサンプル特徴マップを作成する上述したステップは、エンコーダブロックによって受け取られた入力特徴マップに基づいて、マルチスケール特徴を抽出するステップと、エンコーダブロックによって抽出された抽出マルチスケール特徴に基づいて、ダウンサンプル特徴マップを作成するステップとを含む。様々な実施形態では、精練ブロックのデコーダブロックを使用してアップサンプル特徴マップを作成する上述したステップは、入力特徴マップ、およびデコーダブロックに対応する精練ブロックのエンコーダブロックによって作成され、デコーダブロックによって受け取られたダウンサンプル特徴マップに基づいて、マルチスケール特徴を抽出するステップと、デコーダブロックによって抽出された抽出マルチスケール特徴に基づいて、アップサンプル特徴マップを作成するステップとを含む。

【0032】

[0034]様々な実施形態では、複数の精練ブロックの各々に対して、精練ブロックの複数のエンコーダブロックの各々は、ＣＮＮの複数の畳み込み層のうちの少なくとも１つの畳み込み層を含み、精練ブロックのエンコーダブロックを使用してダウンサンプル特徴マップを作成する上述したステップは、エンコーダブロックの少なくとも１つの畳み込み層を使用して、複数の特徴量抽出動作のうちの少なくとも１つの特徴量抽出動作を実行するステップを含む。様々な実施形態では、複数の精練ブロックの各々に対して、精練ブロックの複数のデコーダブロックの各々は、ＣＮＮの複数の畳み込み層のうちの少なくとも１つの畳み込み層を含み、精練ブロックのデコーダブロックを使用してアップサンプル特徴マップを作成する上述したステップは、デコーダブロックの少なくとも１つの畳み込み層を使用して、複数の特徴量抽出動作のうちの少なくとも１つの特徴量抽出動作を実行するステップを含む。

【0033】

[0035]様々な実施形態では、精練ブロックの複数のエンコーダブロックの各々の各畳み込み層は、ＣＮＮの複数の畳み込み層のうちの１つである。様々な実施形態では、精練ブロックの複数のデコーダブロックの各々の各畳み込み層は、ＣＮＮの複数の畳み込み層のうちの１つである。

【0034】

[0036]様々な実施形態では、複数の精練ブロックの各々に対して、精練ブロックの複数のエンコーダブロックの各々は、残差ブロックとして構成され、精練ブロックの複数のデコーダブロックの各々は、残差ブロックとして構成される。

【0035】

[0037]様々な実施形態では、出力画像は、１組の精練特徴マップに基づいて作成される。
[0038]様々な実施形態では、出力画像は、１組の精練特徴マップの平均に基づいて作成される。

【0036】

[0039]様々な実施形態では、入力画像を受け取る上述したステップ（１０２）は、複数の入力画像を受け取るステップを含み、複数の入力画像の各々は、ＣＮＮを訓練して訓練済みＣＮＮを得るためのラベル付き画像である。これに関して、複数の入力画像の各々に対して、入力画像に基づいてＣＮＮのそれぞれ複数の畳み込み層を使用して複数の特徴量抽出動作を実行し、それぞれ複数の出力特徴マップを作成するステップと、複数の畳み込み層の複数の出力特徴マップに基づいて、入力画像に対する出力画像を作成するステップ。

【0037】

[0040]様々な実施形態では、ラベル画像は、組織構造を含むラベル付き超音波画像である。
[0041]様々な実施形態では、出力画像は、ＣＮＮを使用した入力画像に対する推論の結果である。

【0038】

[0042]様々な実施形態では、入力画像は、組織構造を含む超音波画像である。
[0043]図２は、本発明の様々な実施形態による図１を参照して前述した画像処理方法１００に対応する、本発明の様々な実施形態によるＣＮＮに基づく画像処理システム２００の概略的なブロック図を示す。システム２００は、メモリ２０２と、メモリ２０２に通信的に結合されており、本発明の様々な実施形態による本明細書に記載する画像処理方法１００を実行するように構成された少なくとも１つのプロセッサ２０４とを備える。それに応じて、様々な実施形態では、少なくとも１つのプロセッサ２０４は、入力画像を受け取り、入力画像に基づいてＣＮＮのそれぞれ複数の畳み込み層を使用して複数の特徴量抽出動作を実行し、それぞれ複数の出力特徴マップを作成し、複数の畳み込み層の複数の出力特徴マップに基づいて、入力画像に対する出力画像を作成するように構成される。特に、前述したように、複数の特徴量抽出動作の各々に対して、畳み込み層を使用して特徴量抽出動作を実行するステップは、畳み込み層によって受け取られた入力特徴マップ、および複数の加重座標マップに基づいて、畳み込み層の出力特徴マップを作成するステップと、複数の座標マップおよび空間注意マップに基づいて、複数の加重座標マップを作成するステップと、畳み込み層によって受け取られた入力特徴マップに基づいて空間注意マップを作成し、複数の座標マップの各々における座標情報を修正して、複数の加重座標マップを作成するステップとを含む。

【0039】

[0044]少なくとも１つのプロセッサ２０４は、様々な機能または動作を実行するように少なくとも１つのプロセッサ２０４によって実行可能な命令セット（たとえば、ソフトウェアモジュール）によって、様々な機能または動作を実行するように構成することができることが、当業者には理解されよう。それに応じて、図２に示すように、システム２００は、入力画像を受け取るように構成された入力画像受信モジュール（または入力画像受信回路）２０６と、入力画像に基づいてＣＮＮのそれぞれ複数の畳み込み層を使用して複数の特徴量抽出動作を実行し、それぞれ複数の出力特徴マップを作成するように構成された特徴量抽出モジュール（または特徴量抽出回路）２０８と、複数の畳み込み層の複数の出力特徴マップに基づいて、入力画像に対する出力画像を作成するように構成された出力画像作成モジュール（または出力画像作成回路）２１０とを備えることができる。

【0040】

[0045]上述したモジュールは、必ずしも別個のモジュールであるとは限らず、本発明の範囲から逸脱することなく、所望される場合または適当な場合、１つまたは複数のモジュールを、１つの機能モジュール（たとえば、回路またはソフトウェアプログラム）によって実現することができ、または１つの機能モジュール（たとえば、回路またはソフトウェアプログラム）として実装することができることが、当業者には理解されよう。たとえば、入力画像受信モジュール２０６、特徴量抽出モジュール２０８、および出力画像作成モジュール２１０のうちの２つまたはそれ以上を、１つの実行可能なソフトウェアプログラム（たとえば、ソフトウェアアプリケーション、または単に「アプリ」と呼ばれる）として実現（たとえば、ともにコンパイル）することができ、１つの実行可能なソフトウェアプログラムは、たとえば、メモリ２０２内に記憶することができ、本発明の様々な実施形態による本明細書に記載する様々な機能／動作を実行するように少なくとも１つのプロセッサ２０４によって実行可能とすることができる。

【0041】

[0046]様々な実施形態では、画像処理システム２００は、様々な実施形態による図１を参照して前述した画像処理方法１００に対応しており、したがって少なく１つのプロセッサ２０４によって実行されるように構成された様々な機能または動作は、様々な実施形態によって前述した画像処理方法１００の様々なステップまたは動作に対応することができ、したがって明瞭かつ簡潔にするために、画像処理システム２００に関して繰り返す必要はない。言い換えれば、方法の文脈で本明細書に記載する様々な実施形態は、対応するシステムにも類似的に有効であり、逆も同様である。

【0042】

[0047]たとえば、様々な実施形態では、メモリ２０２は、入力画像受信モジュール２０６、特徴量抽出モジュール２０８、および／または出力画像作成モジュール２１０を記憶することができ、これらのモジュールは、様々な実施形態による本明細書に記載する画像処理方法１００の様々なステップ（または動作もしくは機能）にそれぞれ対応しており、本明細書に記載する対応する機能または動作を実行するように少なくとも１つのプロセッサ２０４によって実行可能である。

【0043】

[0048]様々な実施形態では、本発明の様々な実施形態による、少なくとも１つのプロセッサを使用して、ＣＮＮを使用して超音波画像内の組織構造を分割する方法が提供される。この方法は、様々な実施形態によって前述したＣＮＮに基づく画像処理方法１００を実行するステップを含み、それによって入力画像は、組織構造を含む超音波画像であり、出力画像は、分割された組織構造を有し、ＣＮＮを使用した入力画像に対する推論の結果である。

【0044】

[0049]様々な実施形態では、ＣＮＮは、様々な実施形態によって前述したように訓練される。すなわち、ＣＮＮは、上述した訓練済みＣＮＮである。
[0050]様々な実施形態では、様々な実施形態による超音波画像内の組織構造を分割する上述した方法に対応する、様々な実施形態によるＣＮＮを使用して超音波画像内の組織構造を分割するためのシステムが提供される。システムは、メモリと、メモリに通信的に結合されており、超音波画像内の組織構造を分割する上述した方法を実行するように構成された少なくとも１つのプロセッサとを備える。様々な実施形態では、超音波画像内の組織構造を分割するためのシステムは、画像処理システム２００と同じものとすることができ、それによって入力画像は、組織構造を含む超音波画像であり、出力画像は、分割された組織構造を有し、ＣＮＮを使用した入力画像に対する推論の結果である。

【0045】

[0051]本開示における様々な実施形態によれば、計算システム、コントローラ、マイクロコントローラ、または処理能力を提供する任意の他のシステムを提供することができる。そのようなシステムは、１つまたは複数のプロセッサおよび１つまたは複数のコンピュータ可読記憶媒体を含むと見なすことができる。たとえば、前述した画像処理システム２００は、たとえば本明細書に記載するように様々な処理で使用されるプロセッサ（またはコントローラ）２０４およびコンピュータ可読記憶媒体（またはメモリ）２０２を含むことができる。様々な実施形態で使用されるメモリまたはコンピュータ可読記憶媒体は、揮発性メモリ、たとえばＤＲＡＭ（ダイナミックランダムアクセスメモリ）、または不揮発性メモリ、たとえばＰＲＯＭ（プログラマブルリードオンリメモリ）、ＥＰＲＯＭ（消去可能ＰＲＯＭ）、ＥＥＰＲＯＭ（電気的消去可能ＰＲＯＭ）、もしくはフラッシュメモリ、たとえば浮遊ゲートメモリ、電荷トラップメモリ、ＭＲＡＭ（磁気抵抗ランダムアクセスメモリ）、もしくはＰＣＲＡＭ（相変化ランダムアクセスメモリ）とすることができる。

【0046】

[0052]様々な実施形態では、「回路」とは、任意の種類の論理実装実体であると理解することができ、メモリ、ファームウェア、またはこれらの任意の組合せに記憶された特別目的回路またはプロセッサ実行ソフトウェアとすることができる。したがって、一実施形態では、「回路」は、プログラマブルプロセッサ、たとえばマイクロプロセッサ（たとえば、複合命令セットコンピュータ（ＣＩＳＣ）プロセッサまたは縮小命令セットコンピュータ（ＲＩＳＣ）プロセッサ）などのハードワイヤード論理回路またはプログラマブル論理回路とすることができる。「回路」はまた、プロセッサ実行ソフトウェア、たとえば任意の種類のコンピュータプログラム、たとえば仮想機械コード、たとえばＪａｖａを使用するコンピュータプログラムとすることができる。様々な実施形態によれば、それぞれの機能の任意の他の種類の実装形態もまた、「回路」であると理解することができる。同様に、「モジュール」は、様々な実施形態によるシステムの一部分とすることができ、上述した「回路」を包含することができ、または任意の種類の論理実装実体であると理解することができる。

【0047】

[0053]本開示のいくつかの部分は、コンピュータメモリ内のデータに対する動作のアルゴリズムおよび機能的または象徴的表現の点から明示的または暗示的に提示される。これらのアルゴリズム説明および機能的または象徴的表現は、データ処理技術の当業者であれば、作業の本質を他の当業者に最も効果的に伝えるために使用する手段である。本明細書では、アルゴリズムとは概して、所望の結果をもたらす一貫した一連のステップであると考えられる。これらのステップは、記憶、伝達、結合、比較、および他の方法で操作することが可能な電気、磁気、または光学信号などの物理量の物理的操作を必要とする。

【0048】

[0054]別途特別に記載しない限り、以下から明らかなように、本明細書全体にわたって、「受信」、「実行」、「作成」、「乗算」、「連結」、「抽出」などの用語を利用する説明または議論は、コンピュータシステム内の物理量として表されるデータを、コンピュータシステムまたは他の情報記憶、伝送、もしくは表示デバイス内の物理量として同様に表される他のデータに操作および変換するコンピュータシステムまたは類似の電子デバイスの動作およびプロセスを指すことが理解されよう。

【0049】

[0055]本明細書はまた、本明細書に記載する様々な方法の様々な動作／機能を実行するための画像処理システム２００などのシステム（たとえば、デバイスまたは装置として実施することもできる）を開示する。そのようなシステムは、必要とされる目的で特別に構築することができ、またはコンピュータ内に記憶されたコンピュータプログラムによって選択的に起動もしくは再構成される汎用コンピュータもしくは他のデバイスを備えることができる。本明細書に提示するアルゴリズムは、何らかの特定のコンピュータまたは他の装置に本質的に関係するとは限らない。本明細書の教示によるコンピュータプログラムとともに、様々な汎用機械を使用することができる。別法として、様々な方法ステップを実行するためのより特殊な装置の構造も適当なことがある。

【0050】

[0056]加えて、本明細書はまた、本明細書に記載する様々な方法の個々のステップをコンピュータコードによって実施することができることが当業者には明らかなはずであることから、コンピュータプログラムまたはソフトウェア／機能モジュールを少なくとも暗示的に開示する。コンピュータプログラムは、何らかの特定のプログラミング言語およびその実装形態に限定されることを意図したものではない。本明細書に包含される本開示の教示を実装するために、様々なプログラミング言語およびそのコーディングを使用することができることが理解されよう。さらに、コンピュータプログラムは、何らかの特定の制御フローに限定されることを意図したものではない。本発明の範囲から逸脱することなく、異なる制御フローを使用することができるコンピュータプログラムの多くの他の変形形態が存在する。本明細書に記載する様々なモジュール（たとえば、入力画像受信モジュール２０６、特徴量抽出モジュール２０８、および／または出力画像作成モジュール２１０）は、必要とされる機能を実行するためにコンピュータプロセッサによって実行可能なコンピュータプログラムもしくは命令セットによって実現されるソフトウェアモジュールとすることができ、または必要とされる機能を実行するように設計された機能的ハードウェアユニットであるハードウェアモジュールとすることができることが、当業者には理解されよう。ハードウェアおよびソフトウェアモジュールの組合せを実装することができることも理解されよう。

【0051】

[0057]さらに、本明細書に記載するコンピュータプログラム／モジュールまたは方法のステップのうちの１つまたは複数は、連続的にではなく並行して実行することができる。そのようなコンピュータプログラムは、任意のコンピュータ可読媒体に記憶することができる。コンピュータ可読媒体は、磁気もしくは光学ディスク、メモリチップ、または汎用コンピュータと相互作用するのに好適な他の記憶デバイスなどの記憶デバイスを含むことができる。コンピュータプログラムは、そのような汎用コンピュータ上にロードおよび実行されたとき、本明細書に記載する方法のステップを実装する装置を実質的にもたらす。

【0052】

[0058]様々な実施形態では、１つまたは複数のコンピュータ可読記憶媒体（非一時的コンピュータ可読記憶媒体）で実施されており、様々な実施形態による図１を参照して本明細書に記載する画像処理方法１００を実行するように１つまたは複数のコンピュータプロセッサによって実行可能な命令（たとえば、入力画像受信モジュール２０６、特徴量抽出モジュール２０８、および／または出力画像作成モジュール２１０）を含むコンピュータプログラム製品が提供される。それに応じて、本明細書に記載する様々なコンピュータプログラムまたはモジュールは、様々な機能を実行するようにシステム２００の少なくとも１つのプロセッサ２０４によって実行するために、図２に示す画像処理システム２００などのシステムによって受け入れることが可能なコンピュータプログラム製品内に記憶することができる。

【0053】

[0059]様々な実施形態では、１つまたは複数のコンピュータ可読記憶媒体（非一時的コンピュータ可読記憶媒体）で実施されており、様々な実施形態による超音波画像内の組織構造を分割する上述した方法を実行するように１つまたは複数のコンピュータプロセッサによって実行可能な命令を含むコンピュータプログラム製品が提供される。それに応じて、本明細書に記載する様々なコンピュータプログラムまたはモジュールは、様々な機能を実行するようにシステムの少なくとも１つのプロセッサによって実行するために、超音波画像内の組織構造を分割するための上述したシステムなど、システムによって受け入れることが可能なコンピュータプログラム製品内に記憶することができる。

【0054】

[0060]本明細書に記載するソフトウェアまたは機能モジュールはまた、ハードウェアモジュールとして実装することができる。より具体的には、ハードウェアの意味で、モジュールは、他の構成要素またはモジュールとともに使用するために設計された機能的ハードウェアユニットである。たとえば、モジュールは、個別の電子構成要素を使用して実装することができ、または特定用途向け集積回路（ＡＳＩＣ）などの電子回路全体の一部分を形成することができる。多数の他の可能性も存在する。本明細書に記載するソフトウェアまたは機能モジュールはまた、ハードウェアおよびソフトウェアモジュールの組合せとして実装することができることが、当業者には理解されよう。

【0055】

[0061]様々な実施形態では、画像処理システム２００は、限定ではなくほんの一例として図３に概略図的に示すコンピュータシステム３００など、少なくとも１つのプロセッサおよびメモリを含む任意のコンピュータシステム（たとえば、デスクトップまたは携帯型コンピュータシステム）によって実現することができる。コンピュータシステム３００内で実行されており、様々な実施形態によって本明細書に記載する様々な機能または動作を行うようにコンピュータシステム３００（特に、その中の１つまたは複数のプロセッサ）に指示する、コンピュータプログラムなどのソフトウェアとして、様々な方法／ステップまたは機能モジュールを実装することができる。コンピュータシステム３００は、コンピュータモジュール３０２と、キーボードおよび／またはタッチスクリーン３０４ならびにマウス３０６などの入力モジュールと、ディスプレイ３０８およびプリンタ３１０などの複数の出力デバイスとを備えることができる。コンピュータモジュール３０２は、たとえばインターネットまたはローカルエリアネットワーク（ＬＡＮ）またはもしくは（ＷＡＮ）などの他のネットワークシステムへのアクセスを可能にするために、好適なトランシーバデバイス３１４を介してコンピュータネットワーク３１２に接続することができる。この例のコンピュータモジュール３０２は、様々な命令を実行するためのプロセッサ３１８と、ランダムアクセスメモリ（ＲＡＭ）３２０と、リードオンリメモリ（ＲＯＭ）３２２とを含むことができる。コンピュータモジュール３０２はまた、複数の入出力（Ｉ／Ｏ）インターフェース、たとえばディスプレイ３０８へのＩ／Ｏインターフェース３２４、およびキーボード３０４へのＩ／Ｏインターフェース３２６を含むことができる。コンピュータモジュール３０２の構成要素は、典型的には、当業者には知られている方法で、相互接続バス３２８を介して通信する。

【0056】

[0062]本明細書で使用する術語は、様々な実施形態について説明することのみを目的とし、本発明を限定することを意図したものではないことが、当業者には理解されよう。本明細書では、文脈上別途明白に指示しない限り、単数形の「ａ」、「ａｎ」、および「ｔｈｅ」は、複数形も同様に含むことが意図される。本明細書で使用する「含む、備える（ｃｏｍｐｒｉｓｅｓ）」および／または「含む、備える（ｃｏｍｐｒｉｓｉｎｇ）」という用語は、記載の特徴、整数、ステップ、動作、要素、および／または構成要素の存在を指定するが、１つまたは複数の他の特徴、整数、ステップ、動作、要素、構成要素、および／またはこれらの群の存在または追加を除外するものではないことがさらに理解されよう。

【0057】

[0063]別途記載されない限り、または文脈上必要とされない限り、「第１」、「第２」などの名称を使用した本明細書における要素または特徴の参照は、そのような要素または特徴の数量または順序を限定するものではない。たとえば、そのような名称は、２つ以上の要素または要素事例を区別する好都合な方法として、本明細書で使用されることがある。したがって、第１および第２の要素の参照は、２つの要素のみを用いることができること、または第１の要素が第２の要素に先行しなければならないことを、必ずしも意味するものではない。加えて、項目のリストのうちの「少なくとも１つ」を参照する語句は、その中の任意の単一の項目、またはその中の２つ以上の項目の任意の組合せを指す。

【0058】

[0064]本発明を容易に理解して実際的に実施することができるように、本発明の様々な例示的な実施形態について、限定ではなくほんの例として以下に説明する。しかし本発明は、様々な異なる形態または構成で実施することができ、以下に記載する例示的な実施形態に限定されると解釈されるべきではないことが、当業者には理解されよう。逆に、これらの例示的な実施形態は、本開示を徹底的かつ完全にし、本発明の範囲を当業者に十分に伝えるために提供される。

【0059】

[0065]特に、限定または一般性の損失なく、本発明をより良好に理解するために、本発明の様々な例示的な実施形態について、入力画像が超音波画像であり、画像処理が超音波画像分割、すなわち超音波画像内の組織構造を分割するためのＣＮＮに基づく画像処理方法のためのものであることに関して、次に説明する。そのような特定の用途（すなわち、超音波画像分割）は、様々な例示的な実施形態に好ましいことがあるが、本発明は、そのような特定の用途に限定されるものではなく、画像処理方法は、所望される場合または適当な場合、それだけに限定されるものではないが画像分類など、他のタイプの用途（たとえば、入力画像に比較的ノイズが多く、あるいは／または関心構造が全体として入力画像内に類似の位置および／もしくは形状を有する用途）に実装することができることが、当業者には理解されよう。

【0060】

[0066]超音波画像分割は、減衰、陰影、スペックルノイズ、不均一のテキスチャ、およびぼやけた境界など、診断法に固有のアーチファクトの存在のため、困難なタスクである。これに関して、様々な例示的な実施形態は、超音波画像内の軟組織構造の分割のための予測精練注意ネットワーク（ＣＮＮ）を提供し、これを本明細書では、ＡＣＵ^２Ｅ－Ｎｅｔ、または単に本ＣＮＮまたはモデルと呼ぶことができる。予測精練注意ネットワークは、注意座標畳み込み（ＡＣ－Ｃｏｎｖ）を含む予測モジュールまたはブロック（たとえば、様々な実施形態によって前述した予測サブネットワークに対応しており、本明細書ではＡＣＵ^２－Ｎｅｔと呼ぶことができる）と、複数（たとえば、３つ）の並列残差精練モジュールまたはブロック（たとえば、様々な実施形態によって前述した複数の精練ブロックに対応する）を含むマルチヘッド残差精練モジュールまたはブロック（たとえば、様々な実施形態によって前述した精練サブネットワークに対応しており、本明細書ではＭＨ－ＲＲＭまたはＥ－Ｍｏｄｕｌｅと呼ぶことができる）とを備える。様々な例示的な実施形態では、ＡＣ－Ｃｏｎｖは、標的の解剖学的構造の形状および位置情報を知覚することによって、分割精度を改善するように構成または設計される。残差精練およびアンサンブル方策を統合することによって、ＭＨ－ＲＲＭは、有利には、分割バイアスおよび分散の両方を低減させ、アンサンブル方法で一般的に見られるマルチパス訓練および推論を回避することが分かっている。様々な例示的な実施形態による超音波画像内の組織構造の分割のための本ＣＮＮに基づく画像処理方法の有効性を実証するために、甲状腺超音波走査のデータセットが収集され、現況技術の分割方法と比べて本ＣＮＮが評価された。現況技術モデルとの比較は、横断面および矢状面の両方の甲状腺画像において、本ＣＮＮの競争力のあるまたは改善された性能を実証している。たとえば、アブレーション研究は、ＡＣ－ＣｏｎｖおよびＭＨ－ＲＲＭモジュールが、基線モデルの分割Ｄｉｃｅスコアを７９．６２％から８０．９７％および８３．９２％まで改善するとともに、分散を６．１２％から４．６７％および３．２１％まで低減させることを示す。

【0061】

[0067]背景に記載したように、超音波画像は、手持ち式のプローブから得られることがあり、したがって操作者次第であり、大きいスペックルノイズ、陰影、およびぼやけた境界などの多数のアーチファクトを受けやすい。これにより、関心組織構造（たとえば、解剖学的構造）を隣接する組織から分割することがより難しくなる。複数の従来の方法（たとえば、動的輪郭、グラフカット、スーパーピクセル、およびディープモデル（たとえば、完全畳み込みネットワーク（ＦＣＮ）、Ｕ－Ｎｅｔなど）が、超音波画像分割のために提案および適合されてきた。しかし、超音波画像のノイズの多さのため、そのような従来の方法は通常、粗悪な結果をもたらす。ディープモデルは、従来の方法に比べて大きな改善を実現しているが、超音波画像から軟組織構造を正確に分割することは、依然として困難なタスクである。

【0062】

[0068]超音波画像分割に関連して、様々な例示的な実施形態では、自然の画像分割における様々な形状および位置の概略的な物体とは異なり、超音波画像内の組織構造（たとえば、解剖学的構造）は、類似の位置および形状パターンを有することに留意されたい。しかし、これらの幾何学的な特徴は、表現および符号化するのが難しいため、分割ディープモデルではほとんど使用されない。それに応じて、従来、超音波画像における軟組織構造の特有の幾何学的な制約をどのように使用するかは、依然として難題のままである。単一のディープモデルを使用して超音波画像を分割することに伴う別の問題は、概してぼやけた境界およびテキスチャのためにバイアスの大きい結果をもたらし、ノイズおよび不均質性のために分散が大きいことである。

【0063】

[0069]それに応じて、これらの難題を克服するために、様々な例示的な実施形態は、上述したＡＣ－Ｃｏｎｖ上に構築された予測モジュールと、マルチヘッド残差精練モジュール（ＭＨ－ＲＲＭ）とを備える、上述した注意にも基づく予測精練アーキテクチャ（すなわち、本ＣＮＮ）を提供する。そのような注意に基づく予測精練アーキテクチャは、有利には、超音波画像内に提示される解剖学的位置および形状制約を活用して、分割結果のバイアスおよび分散を低減させるとともに、マルチパス訓練および推論を回避する。それに応じて、本ＣＮＮの寄与は、（ａ）超音波画像から両方の幾何学的情報（たとえば、形状および位置情報）を知覚することによって、分割精度を改善するように構成されたＡＣ－Ｃｏｎｖ、ならびに／または（ｂ）アンサンブル方策および予測精練方策の両方をともに統合することによって、分割精度を改善するＭＨ－ＲＲＭを伴う予測精練アーキテクチャを含む。以下に後述するように、様々な例示的な実施形態による超音波画像分割のための本ＣＮＮに基づく画像処理方法は、甲状腺超音波走査のデータセットに関して試験され、従来のモデルと比べて改善された性能（たとえば、精度）を実現した。

【0064】

ＣＮＮアーキテクチャ
[0070]図４Ａおよび図４Ｂは、本発明の様々な例示的な実施形態による例示的なＣＮＮ４００の例示的なネットワークアーキテクチャをともに示す。やはり前述したように、例示的なＣＮＮ４００は、予測モジュールまたはブロック（ＡＣＵ^２－Ｎｅｔ）４１０（図４Ａ）およびＭＨ－ＲＲＭ４５０（図４Ｂ）を備える。様々な例示的な実施形態では、予測モジュール４１０は、Ｑｉｎら、「Ｕ^２－Ｎｅｔ：ＧｏｉｎｇＤｅｅｐｅｒｗｉｔｈｎｅｓｔｅｄＵ－ｓｔｒｕｃｔｕｒｅｆｏｒｓａｌｉｅｎｔｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ」、ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ、１０６：１０７４０４、２０２０（本明細書では参照文献Ｑｉｎと呼び、その内容があらゆる目的で全体として参照により本明細書に組み込まれている）に開示されているＵ^２－Ｎｅｔに基づいて、Ｕ^２－Ｎｅｔにおける各単純畳み込み層を、様々な例示的な実施形態によって本明細書に記載するＡＣ－Ｃｏｎｖ層に置き換えることによって、注意座標案内Ｕ^２－Ｎｅｔ（ＡＣＵ^２－Ｎｅｔと呼ぶことができる）を形成するように構成することができる。様々な例示的な実施形態では、精練モジュール４５０は、予測モジュール（ＡＣＵ^２－Ｎｅｔ）の１組の並列に配置された変形形態を備える（たとえば、異なる空間分解能レベルを有する精練特徴マップを作成するため）。一例として、図４Ｂに示すように、精練モジュール４５０は、並行して配置された３つの精練ヘッドまたはブロック（異なる空間分解能レベルを有する精練特徴マップを作成するための３つのＡＣＵ^２－Ｎｅｔ変形形態である）４５４－１、４５４－２、４５４－３を有するように構成することができ、これらはそれぞれ、ＡＣＵ^２－Ｎｅｔ－Ｒｅｆ７、ＡＣＵ^２－Ｎｅｔ－Ｒｅｆ５、およびＡＣＵ^２－Ｎｅｔ－Ｒｅｆ３として図４Ｂに示されている（たとえば、「Ｅ」の文字のように見えており、したがって精練モジュール４５０のそのような例示的な構成を、本明細書ではＥ－Ｍｏｄｕｌｅと呼ぶことができる）。図４Ａに示す凡例では、ＡＣ－ＣＢＲという用語が、ＡＣ－Ｃｏｎｖ＋ＢａｃｔｈＮｏｒｍ＋ＲｅＬＵを示す。

【0065】

[0071]限定ではなく説明の目的でほんの一例として、図５は、様々な例示的な実施形態による例示的なＣＮＮ４００の予測モジュール４１０および精練モジュール４５０の例示的な詳細な構成を示す表（表１）を示す。表１の空白のセルは、そのような段階が存在しないことを示す。加えて、「Ｉ」、「Ｍ」、および「Ｏ」は、各ＡＣ－ＲＳＵブロック（注意座標案内残差Ｕブロック）の入力チャネル（Ｃ_ｉｎ）、中間チャネル、および出力チャネル（Ｃ_ｏｕｔ）の数を示す。「Ｅｎ＿ｉ」および「Ｄｅ＿ｊ」は、それぞれエンコーダおよびデコーダ段階を示す。「ＡＣ－ＲＳＵ－Ｌ」内の数字「Ｌ」は、ＡＣ－ＲＳＵブロックの高さを示す。本発明は、図５に示す例示的な詳細な構成（またはパラメータ）を有するＣＮＮに限定されるものではなく、これらは限定ではなく説明の目的でほんの一例として提供されることが、当業者には理解されよう。ＣＮＮのパラメータは、所望される場合または適当な場合、それだけに限定されるものではないが、ＡＣＵ^２－Ｎｅｔのエンコーダ－デコーダ構造の所望の高さ、作成される予測特徴マップの所望の異なる空間分解能レベル（および／または異なる空間分解能レベルの所望の数）、作成される精練特徴マップの所望の異なる空間分解能レベル（および／または異なる空間分解能レベルの所望の数）、エンコーダまたはデコーダブロック内の層の所望の数、エンコーダまたはデコーダブロック内のチャネルの所望の数などの様々な目的で、変更または修正することができることが、当業者には理解されよう。

【0066】

[0072]参照文献Ｑｉｎは、顕著オブジェクト検出（ＳＯＤ）のためのディープネットワークアーキテクチャ（Ｕ^２－Ｎｅｔと呼ばれる）を開示している。Ｕ^２－Ｎｅｔのネットワークアーキテクチャは、２レベルのネスト状Ｕ構造である。ネットワークアーキテクチャには、（１）残差Ｕブロック（ＲＳＵブロック、単にＲＳＵと呼ばれることもある）内の異なるサイズの受容野の混合により、異なるスケールからより多くの文脈情報を捕捉することが可能であり、（２）これらのＲＳＵブロック内で使用されるプーリング動作のため、計算コストを大幅に増大させることなく、アーキテクチャ全体の深さが増大するという利点がある。そのようなネットワークアーキテクチャは、画像分類タスクからのバックボーンを使用することなく、スクラッチからのディープネットワークの訓練を可能にする。特に、Ｕ^２－Ｎｅｔは、画像分類からの事前に訓練されたバックボーンを使用することなく、ＳＯＤ向けに設計された２レベルのネスト状Ｕ構造である。Ｕ^２－Ｎｅｔは、競争力のある性能を実現するように、スクラッチから訓練することができる。さらに、このネットワークアーキテクチャにより、メモリおよび計算コストを大幅に増大させることなく、ネットワークはより深化し、高い分解能を達成することが可能になる。これは、ネスト状のＵ構造によって実現され、それによって最下レベルでは、特徴マップ分解能を劣化させることなく段階内マルチスケール特徴を抽出することが可能なＲＳＵブロックが構成され、最上レベルでは、Ｕ－Ｎｅｔ状の構造（エンコーダ－デコーダ構造）が存在し、各段階はＲＳＵブロックによって埋められている。２レベル構成の結果、ネスト状のＵ構造、および図４Ａに示す様々な例示的な実施形態によるネスト状のＵ構造（エンコーダ－デコーダ構造）の一例が得られ、それによって前述したように、Ｕ^２－Ｎｅｔにおける各単純畳み込み層が、様々な例示的な実施形態によって本明細書に記載するＡＣ－Ｃｏｎｖ層に置き換えられて、ＡＣＵ^２－Ｎｅｔ４１０を形成する。

【0067】

[0073]要約すると、マルチレベルの深層特徴統合方法では主に、より良好なマルチレベル特徴集約方策の開発に注目が集まっている。他方では、マルチスケール特徴量抽出の分野の方法は、バックボーンネットワークによって得られた特徴から局所的情報および大局的情報の両方を抽出するための新しいモジュールの設計を標的としている。これに関して、Ｕ^２－ＮｅｔまたはＡＣＵ^２－Ｎｅｔ４１０のネットワークアーキテクチャは、マルチスケール特徴を段階ごとに直接抽出するように構成される。

【0068】

残差Ｕブロック（ＲＳＵ）／注意座標案内残差Ｕブロック（ＡＣ－ＲＳＵ）
[0074]局所的文脈情報および大局的文脈情報はどちらも、顕著オブジェクト検出および他の分割タスクにとって重要である。ＶＧＧ、ＲｅｓＮｅｔ、ＤｅｎｓｅＮｅｔなどの現代のＣＮＮ設計において、１×１または３×３のサイズを有する小さい畳み込みフィルタは、特徴量抽出のために最も頻繁に使用される構成要素である。これらの畳み込みフィルタは、必要とする記憶空間が小さく、計算効率がよいことから好ましい。たとえば、浅い層の出力特徴マップは、１×１または３×３フィルタの受容野が大局的情報を捕捉するには小さすぎるため、局所的特徴のみを収容する。浅い層からの高分解能の特徴マップでより多くの大局的情報を実現するために、最も直接的な概念は、受容野を拡大することである。しかし、元の分解能で入力特徴マップにおいて（特に、早い段階で）複数の膨張畳み込みを行うためには、あまりに多くの計算およびメモリ資源を必要とする。計算コストを減少させるためには、ピラミッドプーリングモジュール（ＰＰＭ）から、並列構成を適合させることができ、これは元のサイズの特徴マップにおける膨張畳み込みではなく、ダウンサンプル特徴マップで小さいカーネルフィルタを使用する。しかし、直接アップサンプリングおよび連結（または追加）による異なるスケールの特徴の融合は、高分解能特徴の劣化を招く可能性がある。

【0069】

[0075]それに応じて、参照文献Ｑｉｎに記載されているように、段階内マルチスケール特徴を捕捉するためにＲＳＵブロックが提供される。限定ではなくほんの一例として、ＲＳＵ－Ｌ（Ｃ_ｉｎ、Ｍ、Ｃ_ｏｕｔ）ブロック６００の例示的な構造が図６に示されており、ここで、Ｌはエンコーダ内の層の数であり、Ｃ_ｉｎ、Ｃ_ｏｕｔは入力および出力チャネルを示し、ＭはＲＳＵブロック６００の内部層内のチャネルの数を示す。ＲＳＵ－Ｌブロック６００は、図６に示す特定の寸法（たとえば、層の数Ｌ）に限定されるものではなく、これは限定ではなくほんの一例であることが、当業者には理解されよう。それに応じて、ＲＳＵブロック６００は、３つの構成要素を備える。

【0070】

（ｉ）入力特徴マップｘ（Ｈ×Ｗ×Ｃ_ｉｎ）を、Ｃ_ｏｕｔのチャネルを有する中間マップＦ_１（ｘ）に変換する入力畳み込み層。これは、局所的特徴量抽出のための単純畳み込み層である。

【0071】

（ｉｉ）中間特徴マップＦ_１（ｘ）を入力とし、マルチスケール文脈情報Ｕ（Ｆ_１（ｘ））を抽出および符号化することを学習する、Ｌの高さを有するＵ－Ｎｅｔ状の対称なエンコーダ－デコーダ構造。Ｕは、図６に示すＵ－Ｎｅｔ状の構造を表す。Ｌが大きければ大きいほど、より深い残差Ｕブロック（ＲＳＵ）、より多くのプーリング動作、より大きい範囲の受容野、ならびにより豊富な局所的および大局的特徴がもたらされる。このパラメータを構成することで、任意の空間分解能を有する入力特徴マップからのマルチスケール特徴の抽出が可能になる。マルチスケール特徴は、累進的なアップサンプリング、連結、および畳み込みによって、徐々にダウンサンプルされる特徴マップから抽出され、高分解能の特徴マップに符号化される。このプロセスにより、大きいスケールの直接アップサンプリングによって引き起こされる細かい詳細の損失が軽減される。

【0072】

（ｉｉｉ）加算Ｆ_１（ｘ）＋Ｕ（Ｆ_１（ｘ））によって局所的特徴およびマルチスケール特徴を融合する残差接続。
[0076]より良好な理解のために、図７Ａおよび図７Ｂは、比較のために、元の残差ブロック７００（図７Ａ）および残差Ｕブロック（ＲＳＵ）７２０（図７Ｂ）の概略図を示す。元の残差ブロック７００内の動作は、Ｈ（ｘ）＝Ｆ_２（Ｆ_１（ｘ））＋ｘとして要約することができ、ここで、Ｈ（ｘ）は入力特徴ｘの所望のマッピングを示し、Ｆ_２、Ｆ_１は重み層を表し、この設定では、これらは畳み込み動作である。ＲＳＵブロック７２０と元の残差ブロック７００との間の主な設計の違いは、ＲＳＵブロック７２０では、単純な単一ストリームの畳み込みが、Ｕ－Ｎｅｔ状構造６００に置き換えられ、元の特徴が、重み層Ｈ_ＲＳＵ（ｘ）＝Ｕ（Ｆ_１（ｘ））＋Ｆ_１（ｘ）によって変換された局所的特徴に置き換えられることであり、ここでＵは、図６に示すような多層Ｕ構造６００を表す。ＲＳＵブロック７２０と元の残差ブロック７００との間のそのような違いにより、ネットワークは、複数のスケールからの特徴を、各ＲＳＵブロックから直接抽出することが可能になる。さらに、ほとんどの動作がダウンサンプル特徴マップで適用されるため、Ｕ構造による計算オーバーヘッドは小さい。

【0073】

[0077]様々な例示的な実施形態では、ＡＣ－ＲＳＵブロックは、（所望される場合または適当な場合に変更または修正されうる層の数Ｌなどの特定の寸法に限定されることなく）上述したＲＳＵブロック７２０に基づいて（たとえば、同じまたは同様に）形成することができ、それによってＲＳＵブロック７２０内の各単純畳み込み層が、様々な例示的な実施形態によって本明細書に記載するＡＣ－Ｃｏｎｖ層に置き換えられる。

【0074】

ＡＣＵ^２－Ｎｅｔのアーキテクチャ
[0078]様々な例示的な実施形態によれば、ＡＣＵ^ｎ－Ｎｅｔが開示され、それによって複数のＵ－Ｎｅｔ状構造がネスト上に積み重ねられる。特に、指数表記は、直列の積み重ねではなく、ネスト状のＵ構造を指す。理論的には、指数ｎは、単一レベルまたはマルチレベルのネスト状Ｕ構造を実現するために、任意の正の整数として設定することができる。ただし、ネストレベルが多すぎるアーキテクチャは、現実の用途で実装および使用するにはあまりに複雑である。たとえば、ｎを２に設定して、ＡＣＵ^２－Ｎｅｔを形成することができる。ＡＣＵ^２－Ｎｅｔは、２レベルのネスト状Ｕ構造を有し、図４Ａは、様々な例示的な実施形態による予測モジュール４１０を形成する例示的なＡＣＵ^２－Ｎｅｔの概略的なブロック図を示す。上部レベルは、複数の段階（図４Ａの複数の立方体）、たとえば限定ではなく１４段階を含むＵ構造である。各段階は、構成されたＡＣ－ＲＳＵブロックによって埋められる（最下レベルのＵ構造）。それに応じて、ネスト状のＵ構造は、段階内マルチスケール特徴の抽出および段階間マルチレベル特徴の集約をより効率的に可能にする。

【0075】

[0079]図４Ａに示すように、予測モジュール（ＡＣＵ^２－Ｎｅｔ）４１０は、１組のエンコーダブロック４２０および１組のデコーダブロック４３０を含むエンコーダ－デコーダ構造を有する。限定ではなくほんの一例として、予測モジュール４１０は、（１）多段階（たとえば、７段階）のエンコーダ構造４２０、（２）多段階（たとえば、７段階）のデコーダ構造４３０、および（３）デコーダ段階４３０に結合されまたは取り付けられた特徴マップ融合モジュールまたはブロック４４０という３つの部分を含む。

【0076】

[0080]エンコーダ段階４２０に関しては、１組のエンコーダブロック４２０の例示的な構成が、図５の表１に示されている。デコーダ段階４３０に関しては、１組のデコーダブロック４３０の例示的な構成がまた、図５の表１に示されている。前述したように、「７」、「６」、「５」、および「４」は、ＡＣ－ＲＳＵブロックの高さ（Ｌ）を示す。たとえば、Ｌは、入力特徴マップの空間分解能に従って構成することができる。高さおよび幅が大きい特徴マップの場合、Ｌが大きければ大きいほど、より大きいスケールの情報を捕捉するために使用することができる。たとえば、Ｅｎ＿６およびＥｎ＿７における特徴マップの分解能は比較的低く、これらの特徴マップのさらなるダウンサンプリングは、有用な文脈の損失を招く。したがって、Ｅｎ＿６およびＥｎ＿７段階の両方において、ＡＣ－ＲＳＵ－４Ｆが使用され、ここで「Ｆ」は、ＡＣ－ＲＳＵブロックが膨張版であることを示し、たとえばプーリングおよびアップサンプリング動作が膨張畳み込みに置き換えられる。この場合、ＡＣ－ＲＳＵ－４Ｆの中間特徴マップのすべてが、その入力特徴マップと同じ分解能を有する。

【0077】

[0081]デコーダ段階４３０に関しては、１組のデコーダブロック（ＡＣ－ＲＳＵ）の例示的な構成がまた、図５の表１に示されている。様々な例示的な実施形態では、デコーダ段階４３０は、対称のまたは対応するエンコーダ段階４２０に類似または対応する構造を有することができる。たとえば、膨張版ＡＣ－ＲＳＵ－４Ｆは、デコーダブロックＤｅ＿６およびＤｅ＿７にも使用され、これは対称のまたは対応するエンコーダブロックＥｎ＿６およびＥｎ＿７に使用されるものに類似または対応している。図４Ａに示すように、各デコーダ段階は、その直前の段階からのアップサンプル特徴マップおよびその対称のまたは対応するエンコーダ段階からのダウンサンプル特徴マップの連結を入力として取るように構成することができる。

【0078】

[0082]様々な例示的な実施形態では、予測モジュール４１０は、デコーダ段階４３０によって作成されたアップサンプル特徴マップに基づいて、複数の予測特徴マップを生成するように構成することができる。限定ではなくほんの一例として、図４Ａに示す例示的な構成では、３×３畳み込み層およびシグモイド関数に基づいて、それぞれデコーダ段階Ｄｅ＿１、Ｄｅ＿２、Ｄｅ＿３、Ｄｅ＿４、Ｄｅ＿５、Ｄｅ＿６、Ｄｅ＿７からの７つの予測特徴マップ（たとえば、サイド出力顕著性確率マップ）Ｓ^（１） _ｓｉｄｅ、Ｓ^（２） _ｓｉｄｅ、Ｓ^（３） _ｓｉｄｅ、Ｓ^（４） _ｓｉｄｅ、Ｓ^（５） _ｓｉｄｅ、Ｓ^（６） _ｓｉｄｅ、Ｓ^（７） _ｓｉｄｅを作成することができる。次いで、予測モジュール４１０は、サイド出力顕著性マップのロジット（シグモイド関数前の畳み込み出力）を入力画像サイズへアップサンプリングし、これらを連結動作ならびにそれに続く１×１畳み込み層およびシグモイド関数に融合して、融合特徴マップ（たとえば、最終顕著性確率マップ）Ｓ_ｆｕｓｅ４４４を生成することができる。

【0079】

[0083]それに応じて、ＡＣＵ^２－Ｎｅｔの構成は、豊富なマルチスケール特徴ならびに比較的低い計算およびメモリコストを伴うディープアーキテクチャを有することを可能にする。加えて、様々な例示的な実施形態では、ＡＣＵ^２－Ｎｅｔアーキテクチャは、画像分類から適合された事前に訓練されたバックボーンを使用することなく、ＡＣ－ＲＳＵブロックに基づいて構築されているため、著しい性能損失なく異なる作業環境に柔軟かつ容易に適合される。

【0080】

[0084]それに応じて、様々な例示的な実施形態では、予測モジュール４１０は、１組のエンコーダブロック（たとえば、Ｅｎ＿１～Ｅｎ＿７）４２０および１組のデコーダブロック（たとえば、Ｄｅ＿１～Ｄｅ＿７）４３０を含むエンコーダ－デコーダ構造を有する。図４Ａに示すように、１組のエンコーダブロックのうちの複数のエンコーダブロック（たとえば、Ｅｎ＿１～Ｅｎ＿５）の各々に対して、エンコーダブロックによって受け取られた入力特徴マップに基づいて、エンコーダブロックを使用してダウンサンプル特徴マップを作成することができる。さらに、図４Ａに示すように、１組のデコーダブロックのうちの複数のデコーダブロック（たとえば、Ｄｅ＿１～Ｄｅ＿５）の各々に対して、入力特徴マップ、およびデコーダブロックに対応するエンコーダブロックによって作成され、デコーダブロックによって受け取られたダウンサンプル特徴マップに基づいて、デコーダブロックを使用してアップサンプル特徴マップを作成することができる。それに応じて、様々な例示的な実施形態では、複数のデコーダブロックに基づいて作成された複数の予測特徴マップは、異なる空間分解能レベルを有する。

【0081】

[0085]様々な例示的な実施形態では、複数の予測特徴マップは、それぞれ複数のデコーダブロックによって作成された複数のアップサンプル特徴マップに基づいて作成される。
注意座標畳み込み（ＡＣ－Ｃｏｎｖ）
[0086]様々な例示的な実施形態では、医療画像内の甲状腺のような軟組織構造は、予測可能な位置および形状パターンを有すると考えられ、これを使用して分割プロセスを支援することができることに留意されたい。座標変換の問題を解決するために、図８Ａに示すような座標畳み込み（ＣｏｏｒｄＣｏｎｖ）が開示されている（本明細書では参照文献Ｌｉｕと呼び、その内容があらゆる目的で全体として参照により本明細書に組み込まれている、Ｌｉｕら、「ＡｎｉｎｔｒｉｇｕｉｎｇｆａｉｌｉｎｇｏｆｃｏｎｖｏｌｕｔｉｏｎｎｅｕｒａｌｎｅｔｗｏｒｋｓａｎｄｔｈｅＣｏｏｒｄＣｏｎｖｓｏｌｕｔｉｏｎ（畳み込みニューラルネットワークの興味深い欠点およびＣｏｏｒｄＣｏｎｖの解決策）」、ＮＩＰＳ、９６０５～９６１６、２０１８参照）。特に、図８Ａは、元のＣｏｏｒｄＣｏｎｖ層８００の概略的なブロック図を示す。入力特徴マップＭ_ｉｎ（ｈ×ω×ｃ）８０４を考慮して、ＣｏｏｒｄＣｏｎｖは、Ｍ_ｏｕｔ＝ｃｏｎｖ（ｃａｔ（Ｍ_ｉｎ，Ｍ_ｉ，Ｍ_ｊ））として記述することができ、ここでＭ_ｉ８０６およびＭ_ｊ８０８は、それぞれ行および列の座標マップを示す。しかし、本発明の様々な例示的な実施形態では、異なる層内の特徴に取り付けられた座標マップ（Ｍ_ｉ，Ｍ_ｊ）がほぼ一定であるため、これらを異なる層内の特徴マップＭ_ｉｎに直接連結すると、ネットワークの一般化能力を劣化させる可能性があることに留意されたい。これは、対応する畳み込み重みが、これらの値スケールを特徴マップＭ_ｉｎのものと同期させること、ならびに幾何学的情報を抽出することを担うからである。この問題に対処するために、様々な例示的な実施形態は、図８Ｂに示す注意座標畳み込み（ＡＣ－Ｃｏｎｖ）８５０を提供する。特に、図８Ｂは、本発明の様々な例示的な実施形態によるＡＣ－Ｃｏｎｖ８５０の概略的なブロック図を示す。ＡＣ－Ｃｏｎｖ８５０は、入力特徴マップ８５４および座標マップ８５６’、８５８’（様々な実施形態によって前述した複数の加重座標マップに対応）の連結（チャネルごと）前に、空間的注意のような動作を追加する。

【0082】

【数1】

【0083】

ここで、σはシグモイド関数である。
[0087]それに応じて、様々な例示的な実施形態では、畳み込み（ＡＣ－Ｃｏｎｖ）層８５０を使用して特徴量抽出動作を実行するステップは、畳み込み層８５０によって受け取られた入力特徴マップ８５４および複数の加重座標マップ８５６’、８５８’に基づいて、畳み込み層８５０の出力特徴マップ８７０を作成するステップと、複数の座標マップ８５６、８５８および空間注意マップ８６０に基づいて、複数の加重座標マップ８５６’、８５８’を作成するステップと、畳み込み層８５０によって受け取られた入力特徴マップ８５４に基づいて空間注意マップ８６０を作成し、複数の座標マップ８５６、８５８の各々における座標情報を修正して、複数の加重座標マップ８５６’、８５８’を作成するステップとを含む。様々な例示的な実施形態では、空間注意マップ８６０を作成するステップは、畳み込み層８５０によって受け取られた入力特徴マップ８５４に基づいて第１の畳み込み動作８６２を実行し、畳み込み特徴マップを作成するステップと、畳み込み特徴マップに基づいて活動化関数８６４を適用し、空間注意マップ８６０を作成するステップとを含む。様々な例示的な実施形態では、複数の加重座標マップ８５６’、８５８’を作成するステップは、複数の座標マップ８５６、８５８の各々を空間注意マップ８６０と乗じて、複数の座標マップ８５６、８５８の各々における座標情報を修正するステップを含む。様々な例示的な実施形態では、畳み込み層８５０の出力特徴マップ８７０を作成するステップは、畳み込み層８５０によって受け取られた入力特徴マップ８５４および複数の加重座標マップ８５６’、８５８’をチャネルごとに連結して、連結特徴マップ８６６を形成するステップと、連結特徴マップ８６６に基づいて第２の畳み込み動作８６８を実行し、畳み込み層８５０の出力特徴マップ８７０を作成するステップとを含む。

【0084】

[0088]空間的注意のような動作は、ｉ）Ｍ_ｉｎと｛Ｍ_ｉ，Ｍ_ｊ｝との間のスケール差を低減させるための同期層、ｉｉ）現在の入力特徴マップ８５４から導出された注意マップ８６０の案内によってより重要な幾何学的情報を捕捉するために、一定の座標マップを使用するのではなく、すべての画素の座標の再加重という２つの役割を担う。たとえば、２つの座標ｉおよびｊに関して、ｉ座標マップ（またはｉ座標チャネル）８５６およびｊ座標マップ（またはｊ座標チャネル）８５８を提供することができる。たとえば、ｉ座標マップ８５６は、ｈ×ωのランク１マトリックスとすることができ、その第１の行は０で埋められ、その第２の行は１で埋められ、その第３の行は２で埋められ、以下同様である。ｊ座標マップ８５８は、ｉ座標マップ８５６と同じまたは同様のものとすることができるが、行ではなく列が、上述した値で埋められている。様々な例示的な実施形態によって前述したように、Ｕ^２－Ｎｅｔで使用されるＲＳＵ７２０は、畳み込み層を様々な例示的な実施形態によるＡＣ－Ｃｏｎｖ層８５０に置き換えることによって、様々な例示的な実施形態によるＡＣ－ＲＳＵを作成または構築するように修正または適合することができる。たとえばＲＳＵ７２０と比較すると、ＡＣ－ＲＳＵは、テキスチャおよび幾何学的特徴の両方を異なる受容野から抽出することが可能である。様々な例示的な実施形態では、予測モジュールＡＣＵ^２－Ｎｅｔ４１０、ならびに精練Ｅ－Ｍｏｄｕｌｅ４５０内の３つのサブネットワークＡＣＵ^２－Ｎｅｔ－Ｒｅｆ７、ＡＣＵ^２－Ｎｅｔ－Ｒｅｆ５、およびＡＣＵ^２－Ｎｅｔ－Ｒｅｆ３はすべて、ＡＣ－ＲＳＵに基づいて構築されている。

【0085】

並列マルチヘッド残差精練モジュール（ＭＨ－ＲＲＭ）
[0089]精度をさらに改善しようとして、複数の従来の予測精練モデルが、図９Ａに示すように、

【0086】

【数2】

【0087】

として、直列サブネットワーク（直列精練モジュール）によって粗い結果を再帰的または累進的に精練するように設計されてきた。最終出力

【0088】

【数3】

【0089】

は、理論的には最も正確な出力であり、したがって通常は最終結果として利用される。この直列精練方策は、分割結果のバイアスを低減させることが可能である。しかし、様々な例示的な実施形態では、そのようなネットワークを使用した超音波画像内の軟組織の分割は、実際には、低い画像品質およびぼやけた境界により、大きな分散を有することが多いことが分かった。予測のバイアスおよび分散を低減させるために、マルチモデルアンサンブル方策を使用することができる。しかし、様々な例示的な実施形態では、複数のディープモデルの直接アンサンブル化には、大きい計算および時間コストが必要となることが分かった。従来の技法に伴うこれらの問題に対処するために、様々な例示的な実施形態は、アンサンブル方策を精練モジュールに埋め込む。特に、本発明の様々な例示的な実施形態によれば、図４Ｂに示す簡単かつ効果的な並列マルチヘッド残差精練モジュール（ＭＨ－ＲＲＭ）４５０が提供される。限定ではなくほんの一例として、様々な例示的な実施形態によるＭＨ－ＲＲＭヘッド４５４－１、４５４－２、４５４－３（たとえば、様々な実施形態によって前述した複数の精練ブロックに対応）の数は、図４Ｂに示すように、３

【0090】

【数4】

【0091】

に設定される。前述したように、３つの精練ヘッドまたはブロック４５４－１、４５４－２、４５４－３は各々、融合特徴マップ４４４に基づいて異なる空間分解能レベルを有する精練特徴マップを作成するように構成されたＡＣＵ^２－Ｎｅｔに基づいて形成することができる。様々な例示的な実施形態では、複数の精練ブロック４５４－１、４５４－２、４５４－３は、それぞれ複数の精練特徴マップ４６４－１、４６４－２、４６４－３を作成する。それに応じて、様々な例示的な実施形態では、複数の精練特徴マップ４６４－１、４６４－２、４６４－３は、異なる空間分解能レベルを有する。

【0092】

[0090]様々な例示的な実施形態では、複数の精練ブロック４５４－１、４５４－２、４５４－３の各々は、複数のエンコーダブロックおよび複数のデコーダブロックを含むエンコーダ－デコーダ構造を有する。各精練ブロックおよび精練ブロックの複数のエンコーダブロックの各々に対して、図４Ｂに示すように、エンコーダブロックによって受け取られた入力特徴マップに基づいて、エンコーダブロックを使用してダウンサンプル特徴マップを作成することができる。さらに、各精練ブロックおよび精練ブロックの複数のデコーダブロックの各々に対して、図４Ｂに示すように、入力特徴マップ、およびデコーダブロックに対応するエンコーダブロックによって作成され、デコーダブロックによって受け取られたダウンサンプル特徴マップに基づいて、デコーダブロックを使用してアップサンプル特徴マップを作成することができる。様々な例示的な実施形態では、複数の精練ブロックの複数のエンコーダ－デコーダ構造は、異なる高さを有する。

【0093】

[0091]様々な例示的な実施形態では、図４Ｂに示すように、各精練ブロックに対して、精練ブロックによって受け取られた融合特徴マップ４４４、および精練ブロックの複数のデコーダブロックのうちの第１のデコーダブロック４５８－１、４５８－２、４５８－３によって作成されたアップサンプル特徴マップに基づいて、精練ブロックの精練特徴マップを作成することができる。様々な例示的な実施形態では、例示的なＣＮＮ４００の出力画像は、１組の精練特徴マップ４６４－１、４６４－２、４６４－３の平均に基づいて作成される。

【0094】

[0092]それに応じて、様々な例示的な実施形態では、入力画像Ｘを考慮して、例示的なＣＮＮ４００の最終分割結果は、

【0095】

【数5】

【0096】

として表現することができる。
[0093]図９Ｂは、上述した並列精練モジュールを伴う例示的なＣＮＮ４００の予測精練アーキテクチャの意味論的な作業フローを示す。図９Ａおよび図９Ｂで、太字は最終予測結果を示す。

【0097】

訓練および推論
[0094]訓練プロセスにおいて、Ｅ－Ｍｏｄｕｌｅ４５０の３つの精練出力Ｒ^（１）４６４－１、Ｒ^（２）４６４－２、およびＲ^（３）４６４－３が、図４Ａに示すようにおよび図４Ｂ、７つのサイド出力

【0098】

【数6】

【0099】

および予測モジュール４１０からの１つの融合出力Ｓ^ｆｕｓｅ４４４とともに、独立して計算された損失によって監視される。モデル全体を、バイナリ交差エントロピー（ＢＣＥ）損失

【0100】

【数7】

【0101】

によって、端末相互間で訓練することができ、ここで、

【0102】

【数8】

【0103】

は総損失であり、

【0104】

【数9】

【0105】

【数10】

【0106】

および

【0107】

【数11】

【0108】

はサイド出力、融合出力、および精練出力の対応する損失であり、

【0109】

【数12】

【0110】

【数13】

【0111】

および

【0112】

【数14】

【0113】

は異なる出力を強調するための対応する重みである。様々な例示的な実施形態によって行われた実験では、λ重みはすべて１．０に設定されている。推論プロセスにおいて、Ｒ^（１）４６４－１、Ｒ^（２）４６４－２、およびＲ^（３）４６４－３の平均が、最終予測結果（たとえば、様々な実施形態によって前述したＣＮＮの出力画像に対応）として利用される。

【0114】

実験
[0095]甲状腺は、首の根元で鎖骨の真上にある蝶形の臓器であり、左葉および右葉が、峡部と呼ばれる中間で細い帯状組織によって接続されている（図１０参照）。特に、図１０は、手動でラベル付けされた甲状腺葉オーバーレイ１０１０を有する対応する超音波画像に沿って、甲状腺および超音波走査プロトコルの概略図を示す。図１０の画像の上の行の点線矢印は、横断面（ＴＲＸ）および矢状面（ＳＡＧ）における超音波プローブの走査方向を示す。図１０の画像の下の行は、手動でラベル付けられた甲状腺葉オーバーレイ１０１０とともに、サンプルＴＲＸ画像（左）およびＳＡＧ画像（右）を示す。

【0115】

[0096]甲状腺異常を診断するために、臨床医は、収集された超音波スキャンから甲状腺を手動で分割することによって、そのサイズを評価することができる。限定ではなく説明の目的でほんの一例として、例示的なＣＮＮ４００は、甲状腺組織の分割の問題に関して事例研究として評価された。

【0116】

データセット
[0097]既存の公開データセットはいずれも、大規模学習に基づく方法には好適ではないと考えられる。大規模な臨床応用を可能にするために、参加施設の健康研究倫理委員会の承認を得て、包括的な甲状腺超音波分割データセットが収集された。

【0117】

[0098]超音波スキャンの収集に関しては、１２の異なる撮像施設の甲状腺超音波検査で見つかった１８歳から８２歳の７００人の患者から、７７７点の超音波スキャンが遡及的に収集された。スキャンは、超音波プローブの走査方向によって、横断面（ＴＲＸ）および矢状面（ＳＡＧ）に分けられた（たとえば、図１０参照）。したがって、２つの区分（ＴＲＸおよびＳＡＧセット）が利用可能であった。各区分は、訓練、認証、および試験に関して、同じ患者が２つの異なる部分集合に入らないように、患者ＩＤに基づいてさらに３つの部分集合にランダムに分割された。図１１は、各部分集合におけるボリューム番号および対応するスライス（画像）を示す表（表２）を示す。特に、表２は、甲状腺データセット内のＴＲＸおよびＳＡＧ甲状腺スキャンの数を示し、それによって「Ｖｏｌ＃」および「Ｓｌｉｃｅ＃」は、それぞれボリューム番号および対応するラベル付き画像を示す。

【0118】

[0099]注釈またはラベル付けに関して、データセット内の画像は、５人の経験豊富な音波検査者によって手動でラベル付けされ、３人の放射線科医によって検証された。合計でかなり多数の画像が利用可能であることを考慮して、ラベル付け時間を節約するために、訓練セット内の超音波スキャンは、３つまたは５つごとのスライスにラベル付けされた。しかし、認証および試験セットは、正確なボリューム評価のために、スライスごとにラベル付けされた。

【0119】

[00100]実装の詳細に関して、例示的なＣＮＮ４００は、ＰｙＴｏｒｃｈによって実装された。指定された訓練、評価、および試験セットを使用して、例示的なＣＮＮ４００の性能を評価した。訓練プロセスでは、入力画像はまず、１６０×１６０×３にサイズ変更され、次いでランダムに１４４×１４４×３に切り取られた。オンラインのランダム水平および垂直反転を使用して、データセットを増強した。訓練バッチサイズは１２に設定された。モデル重みは、デフォルトのＨｅの一様初期化によって初期化された（たとえば、Ｈｅら、「Ｄｅｌｖｉｎｇｄｅｅｐｉｎｔｏｒｅｃｔｉｆｉｅｒｓ：Ｓｕｒｐａｓｓｉｎｇｈｕｍａｎ－ｌｅｖｅｌｐｅｒｆｏｒｍａｎｃｅｏｎｉｍａｇｅｎｅｔｃｌａｓｓｉｆｉｃａｔｉｏｎ（整流器の探求：ＩｍａｇｅＮｅｔ分類における人間レベルの性能を超える）」、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎｃｏｍｐｕｔｅｒｖｉｓｉｏｎ、１０２６～１０３４、２０１５参照）。Ａｄａｍｏｐｔｉｍｉｚｅｒ（たとえば、Ｋｉｎｇｍａ、「Ａｄａｍ：Ａｍｅｔｈｏｄｆｏｒｓｔｏｃｈａｓｔｉｃｏｐｔｉｍｉｚａｔｉｏｎ（Ａｄａｍ：確率論的最適化の方法）」、ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１４１２．６９８０、２０１４参照）が、学習率ｌｅ－３および重み減衰なしで使用された。訓練損失は約５０，０００回の反復後に収束し、これには約２４時間を費やした。試験プロセスにおいて、入力画像は１６０×１６０×３にサイズ変更され、例示的なＣＮＮへ送られた。ダウンサンプリングプロセスおよびアップサンプリングプロセスの両方において、双線形補間が使用された。訓練プロセスおよび試験プロセスはどちらも、ＡＭＤＲｙｚｅｎＴｈｒｅａｄｒｉｐｐｅｒ２９２０ｘ４．３ＧＨｚＣＰＵ（１２８ＧＢＲＡＭ）を有し、ＮＶＩＤＩＡＧＴＸ１０８０ＴｉＧＰＵを伴う１２コア、２４スレッドのＰＣで行われた。

【0120】

[00101]評価メトリクスに関しては、体積Ｄｉｃｅ（たとえば、Ｐｏｐｏｖｉｃら、「Ｓｔａｔｉｓｔｉｃａｌｖａｌｉｄａｔｉｏｎｍｅｔｒｉｃｆｏｒａｃｃｕｒａｃｙａｓｓｅｓｓｍｅｎｔｉｎｍｅｄｉｃａｌｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎ（医療画像分割における精度評価のための統計的評価基準）」、ＩＪＣＡＲＳ、２（２－４）：１６９～１８１、２００７）およびその標準偏差σという２つの測定結果を使用して、本方法の全体的な性能を評価した。Ｄｉｃｅスコアは、

【0121】

【数15】

【0122】

として定義され、ここでＰおよびＧは、それぞれ予測される分割マスクスイープ（ｈ×ω×ｃ）およびグラウンドトゥルースマスクスイープ（ｈ×ω×ｃ）である。Ｄｉｃｅスコアの標準偏差は、

【0123】

【数16】

【0124】

として計算され、ここで、Ｎは試験体積の数であり、Ｄｉｃｅ_μは全試験セットの平均体積Ｄｉｃｅスコアである。行われた実験では、各試験セットの平均ダイス（Ｄｉｃｅ）が、標準偏差（σ）とともに報告された。

【0125】

[00102]例示的なＣＮＮ（ＡＣＵ^２Ｅ－Ｎｅｔ）４００は、Ｕ－Ｎｅｔ（Ｒｏｎｎｅｂｅｒｇｅｒら、「Ｕ－ｎｅｔ：Ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｂｉｏｍｅｄｉｃａｌｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎ（Ｕ－ｎｅｔ：生物医学画像分割のための畳み込みネットワーク）」、ＭＩＣＣＡＩ、２３４～２４１、２０１５）を含む１１の現況技術（ＳＯＴＡ）モデル、ならびにＲｅｓＵ－Ｎｅｔ（たとえば、Ｘｉａｏら、「ＷｅｉｇｈｔｅｄＲｅｓ－ＵＮｅｔｆｏｒｈｉｇｈ－ｑｕａｌｉｔｙｒｅｔｉｎａｖｅｓｓｅｌｓｅｇｍｅｎｔａｔｉｏｎ（高品質網膜血管分割のための加重Ｒｅｓ－ＵＮｅｔ）」、ＩＴＭＥ、３２７～３３１、２０１８参照）、ＤｅｎｓｅＵ－Ｎｅｔ（たとえば、Ｇｕａｎら、「ＦｕｌｌｙＤｅｎｓｅＵＮｅｔｆｏｒ２－ＤＳｐａｒｓｅＰｈｏｔｏａｃｏｕｓｔｉｃＴｏｍｏｇｒａｐｈｙＡｒｔｉｆａｃｔＲｅｍｏｖａｌ（２Ｄの希薄な光音響トモグラフィアーティファクト除去のための完全高密度ＵＮｅｔ）」、ＩＥＥＥＪＢＨＩ、２４（２）：５６８～５７６、２０１９参照）、ＡｔｔｅｎｔｉｏｎＵ－Ｎｅｔ（たとえば、Ｏｋｔａｙら、「Ａｔｔｅｎｔｉｏｎｕ－ｎｅｔ：Ｌｅａｒｎｉｎｇｗｈｅｒｅｔｏｌｏｏｋｆｏｒｔｈｅｐａｎｃｒｅａｓ（注意Ｕ－ｎｅｔ：膵臓を探すべき場所の学習）」、ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１８０４：０３９９９、２０１８参照）、Ｕ－Ｎｅｔ＋＋（たとえば、Ｚｈｏｕら、「Ｕｎｅｔ＋＋：Ａｎｅｓｔｅｄｕ－ｎｅｔａｒｃｈｉｔｅｃｔｕｒｅｆｏｒｍｅｄｉｃａｌｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎ（Ｕｎｅｔ＋＋：医療画像分割のためのネスト状Ｕ－ｎｅｔアーキテクチャ）」、ＭＩＣＣＡＩ－Ｗ、３～１１、２０１８参照）、およびＵ^２－Ｎｅｔ（たとえば、Ｑｉｎら、「Ｕ２－Ｎｅｔ：ＧｏｉｎｇＤｅｅｐｅｒｗｉｔｈｎｅｓｔｅｄＵ－ｓｔｒｕｃｔｕｒｅｆｏｒｓａｌｉｅｎｔｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ（Ｕ^２－Ｎｅｔ：顕著オブジェクト検出のためにネスト状Ｕ構造によって深化する）」、ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ、１０６：１０７４０４、２０２０参照）を含むその５つの変形形態、ならびにＳｔａｃｋｅｄＨｏｕｒｇｌａｓｓＮｅｔ（たとえば、Ｎｅｗｅｌｌら、「Ｓｔａｃｋｅｄｈｏｕｒｇｌａｓｓｎｅｔｗｏｒｋｓｆｏｒｈｕｍａｎｐｏｓｅｅｓｔｉｍａｔｉｏｎ（人物姿勢推定のための積層砂時計）」、ＥＣＣＶ、４８３～４９９、２０１６参照）、ＳＲＭ（たとえば、Ｗａｎｇら、「Ａｓｔａｇｅｗｉｓｅｒｅｆｉｎｅｍｅｎｔｍｏｄｅｌｆｏｒｄｅｔｅｃｔｉｎｇｓａｌｉｅｎｔｏｂｊｅｃｔｓｉｎｉｍａｇｅｓ（画像内で顕著オブジェクトを検出するための段階ごとの精練モデル）」、ＩＣＣＶ、４０１９～４０２８、２０１７参照）、Ｃ－Ｕ－Ｎｅｔ（たとえば、Ｔａｎｇら、「Ｑｕａｎｔｉｚｅｄｄｅｎｓｅｌｙｃｏｎｎｅｃｔｅｄｕ－ｎｅｔｓｆｏｒｅｆｆｉｃｉｅｎｔｌａｎｄｍａｒｋｌｏｃａｌｉｚａｔｉｏｎ（効率的なランドマーク特定のための量子化され高密度に接続されたＵ－ｎｅｔ）」、ＥＣＣＶ、３３９～３５４、２０１８参照）、Ｒ^３－Ｎｅｔ（Ｄｅｎｇら、「Ｒ３ｎｅｔ：Ｒｅｃｕｒｒｅｎｔｒｅｓｉｄｕａｌｒｅｆｉｎｅｍｅｎｔｎｅｔｗｏｒｋｆｏｒｓａｌｉｅｎｃｙｄｅｔｅｃｔｉｏｎ（Ｒ^３ｎｅｔ：顕著性検出のための再帰残差精練ネットワーク）」、ＡＡＡＩ、２０１８）、およびＢＡＳＮｅｔ（Ｑｉｎら、「Ｂａｓｎｅｔ：Ｂｏｕｎｄａｒｙ－ａｗａｒｅｓａｌｉｅｎｔｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ（Ｂａｓｎｅｔ：境界認識顕著オブジェクト検出）」、ＣＶＰＲ、７４７９～７４８９、２０１９）を含む５つの予測精練モデルと比較された。

【0126】

[00103]図１２は、ＴＲＸおよびＳＡＧ試験セットにおける例示的なＣＮＮ４００と他の現況技術の分割モデルとの定量的な評価または比較を示す表（表３）を示す。表３の上部は、従来のＵ－ＮｅｔおよびＡｔｔｅｎｔｉｏｎＵ－Ｎｅｔのようなその変形形態に対する比較を含み、表の下部は、Ｒ^３－Ｎｅｔのような予測精練方策を伴うモデルに対する比較を示す。例示的なＣＮＮ４００はＴＲＸ画像およびＳＡＧ画像の両方において最も高いＤｉｃｅスコアを生じさせることを観察することができる。さらに、並列精練モジュール４５０は、次善のモデル（ＢＡＳＮｅｔ）およびＲ^３－Ｎｅｔのような他の精練モジュール設計に対して、Ｄｉｃｅスコアを２．５５％、１．２２％大幅に改善し、標準偏差σを３１．９９％、７．５１％低減させる。

【0127】

[00104]図１３Ａ～図１３Ｌおよび図１４Ａ～図１４Ｌは、ＴＲＸおよびＳＡＧ甲状腺画像におけるサンプル分割結果を示す。特に、図１３Ａ～図１３Ｌは、均質な甲状腺のサンプリングされたＴＲＸスライスにおける異なる方法に対するグラウンドトゥルース（白色点線）および分割結果（白色実線）の定性的比較を示し、図１４Ａ～図１４Ｌは、不均質な甲状腺のサンプリングされたＳＡＧスライスにおける異なる方法に対するグラウンドトゥルース（白色点線）および分割結果（白色実線）の定性的比較を示す。見ることができるように、例示的なＣＮＮ４００は、改善された（より正確な）分割結果をもたらすことが可能であった。具体的には、図１３Ａ～図１３Ｌは、大きいスパークルノイズおよびぼやけた境界を有する均質なＴＲＸ甲状腺葉を示す。ＲｅｓＵ－Ｎｅｔ、Ｕ－Ｎｅｔ＋＋、ＳＲＭ、Ｃ－Ｕ－Ｎｅｔ、Ｒ^３－Ｎｅｔ、およびＢＡＳＮｅｔは、正確な境界を捕捉することができない。Ｕ－Ｎｅｔ、ＤｅｎｓｅＵ－Ｎｅｔ、ＡｔｔｅｎｔｉｏｎＵ－Ｎｅｔ、Ｕ^２－Ｎｅｔ、およびＳｔａｃｋｅｄＨｏｕｒｇｌａｓｓＮｅｔなどの他のモデルは、甲状腺の左上の細長い領域を分割することができない。図１４Ａ～図１４Ｌは、いくつかの複雑な結節を含む不均質なＳＡＧ図の甲状腺の分割結果を示す。それに応じて、見ることができるように、例示的なＣＮＮ４００は、他のモデルより比較的良好な結果をもたらす。

【0128】

[00105]例示的なＣＮＮ４００の頑強性をさらに評価するために、ＴＲＸ画像およびＳＡＧ画像における例示的なＣＮＮ４００および他の１１の現況技術モデルの成功率曲線を、それぞれ図１５Ａおよび図１５Ｂに描く。成功率は、走査総数に対する走査予測の数（特定のダイス閾値より高いスコアを有する）の比として定義される。成功率が高ければ高いほど、性能がより良好であることを示し、したがって上部の曲線（ＡＣＵ^２Ｅ－Ｎｅｔ）は、比較されている他の１１の現況技術モデルより良好である。それに応じて、見ることができるように、例示的なＣＮＮ４００は、ＴＲＸおよびＳＡＧの両方の試験セットにおいて、他のモデルより大差で性能が優れている。

【0129】

[00106]様々な例示的な実施形態によるＡＣ－Ｃｏｎｖの有効性を認証するために、適合されたＵ^２－Ｎｅｔにおける単純畳み込み（単純Ｃｏｎｖ）（ＬｅＣｕｎら、「Ｇｒａｄｉｅｎｔ－ｂａｓｅｄｌｅａｒｎｉｎｇａｐｐｌｉｅｄｔｏｄｏｃｕｍｅｎｔｒｅｃｏｇｎｉｔｉｏｎ（文書認識に適用される勾配に基づく学習）」、ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥ、８６（１１）：２２７８～２３２４、１９９８）を、その圧縮および励起（ｓｑｕｅｅｚｅ－ａｎｄ－ｅｘｃｉｔａｔｉｏｎ）ブロックによってチャネル相互依存を明示的にモデル化するＳＥ－Ｃｏｎｖ（Ｈｕら、「Ｓｑｕｅｅｚｅ－ａｎｄ－ｅｘｃｉｔａｔｉｏｎｎｅｔｗｏｒｋｓ（圧縮および励起ネットワーク）」、ＣＶＰＲ、７１３２～７１４１、２０１８）、特徴マップをそのチャネルおよび空間注意ブロックによって精練するＣＢＡＭ－Ｃｏｎｖ（Ｗｏｏら、「Ｃｂａｍ：Ｃｏｎｖｏｌｕｔｉｏｎａｌｂｌｏｃｋａｔｔｅｎｔｉｏｎｍｏｄｕｌｅ（Ｃｂａｍ：畳み込みブロック注意モジュール）」、ＥＣＣＶ、３～１９、２０１８）、座標チャネルの使用によってその独自の入力座標に畳み込みアクセスを与えるＣｏｏｒｄＣｏｎｖ（Ｌｉｕら、「ＡｎｉｎｔｒｉｇｕｉｎｇｆａｉｌｉｎｇｏｆｃｏｎｖｏｌｕｔｉｏｎｎｅｕｒａｌｎｅｔｗｏｒｋｓａｎｄｔｈｅＣｏｏｒｄＣｏｎｖｓｏｌｕｔｉｏｎ（畳み込みニューラルネットワークの興味深い欠点およびＣｏｏｒｄＣｏｎｖの解決策）」、ＮＩＰＳ、９６０５～９６１６、２０１８）、ならびに本発明者らのＡＣ－Ｃｏｎｖという変形形態に置き換えることによって、アブレーション研究が行われた。図１６は、異なる畳み込みブロックおよび精練アーキテクチャで行われたアブレーション研究を示す表（表４）を示す。表４で、Ｒｅｆ７は、ＡＣＵ^２－Ｎｅｔ－Ｒｅｆ７の略語である。これらの実験は、ＴＲＸ甲状腺試験セットで行われた。ＴＲＸ試験セットに関する結果が、表４の上部に示されている。見ることができるように、ＡＣ－Ｃｏｎｖを使用したＡＣＵ^２－Ｎｅｔは、Ｄｉｃｅスコアおよび標準偏差σの両方の点で最善の結果を与える。これにより、幾何学的情報および空間情報を一緒に知覚する複合的な方策が、単独の空間的な注意に基づく方法（ＣＢＡＭ）または座標に基づく方法（ＣｏｏｒｄＣｏｎｖ）より効果的であることがさらに実証される。

【0130】

[00107]ＭＨ－ＲＲＭ（Ｅ－Ｍｏｄｕｌｅ）の性能を認証するために、アブレーション研究はまた、直列ＲＲＭＲｅｆ３（Ｒｅｆ５（Ｒｅｆ７）））、並列ＲＲＭを有する３つの同じＲＲＭａｖｇ（Ｒｅｆｋ，Ｒｅｆｋ，Ｒｅｆｋ）｛ｋ＝３，５，７｝、および融合された並列ＲＲＭｃｏｎｖ（Ｒｅｆ７，Ｒｅｆ５，Ｒｅｆ３）を含む異なる精練構成に関して行われ、並列精練出力は、推論における平均化ではなく、畳み込み層によって融合された。表４の下部は、ＲＲＭに関するアブレーション結果を示し、直列ＲＲＭ、同じ分岐を有する並列ＲＲＭ、ならびに融合された並列ＲＲＭがすべて、様々な例示的な実施形態によるＭＨ－ＲＲＭに劣ることを示す。

【0131】

[00108]それに応じて、様々な例示的な実施形態は、有利には、超音波画像における柔組織構造の分割のために、注意に基づく予測精練ネットワーク（ＡＣＵ^２Ｅ－Ｎｅｔ）４００を提供する。特に、ＡＣＵ^２Ｅ－Ｎｅｔは、（ａ）超音波画像にける甲状腺の幾何学的情報を十分に活用する注意座標畳み込み（ＡＣ－Ｃｏｎｖ）８５０、および（ｂ）アンサンブル方策を残差精練手法と統合することによって、分割結果を精練する並列マルチヘッド精練モジュール（ＭＨ－ＲＲＭ）４５０に基づいて構築される。

【0132】

[00109]徹底的なアブレーション研究、および前述した現況技術モデルとの比較により、訓練および推論プロセスを複雑にすることなく、例示的なＣＮＮ４００の有効性および頑強性が実証される。例示的なＣＮＮ４００について、超音波画像からの甲状腺組織の分割に関して説明してきたが、例示的なＣＮＮ４００、ならびにＡＣ－Ｃｏｎｖ８５０およびＭＨ－ＲＲＭ４５０は、超音波画像から甲状腺組織を分割するために適用されることに限定されるものではなく、所望される場合または適当な場合、それだけに限定されるものではないが、肝臓、脾臓、および腎臓、ならびに腫瘍（たとえば、肝臓内の肝細胞がん（ＨＣＣ）または皮下腫瘤）など、他のタイプの組織を超音波画像から分割するために適用することもできることが理解されよう。

【0133】

[00110]本発明の実施形態について、特有の実施形態を参照して特に図示および説明してきたが、添付の特許請求の範囲によって定義される本発明の範囲から逸脱することなく、形態および詳細に様々な変更を加えることができることを、当業者には理解されたい。したがって、本発明の範囲は、添付の特許請求の範囲によって示されており、したがって、特許請求の範囲に等価の意味および範囲内のすべての変更が包含されることが意図される。

【図1】

【図2】

【図3】

【図4A】

【図4B】

【図5】

【図6】

【図7A】

【図7B】

【図8A】

【図8B】

【図9A】

【図9B】

【図10】

【図11】

【図12】

【図13A】

【図13B】

【図13C】

【図13D】

【図13E】

【図13F】

【図13G】

【図13H】

【図13I】

【図13J】

【図13K】

【図13L】

【図14A】

【図14B】

【図14C】

【図14D】

【図14E】

【図14F】

【図14G】

【図14H】

【図14I】

【図14J】

【図14K】

【図14L】

【図15A】

【図15B】

【図16】

【手続補正書】

【提出日】2024-03-26

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

少なくとも１つのプロセッサを使用した畳み込みニューラルネットワーク（ＣＮＮ）に基づく画像処理方法であって、
入力画像を受け取るステップと、
前記ＣＮＮの複数の畳み込み層を使用して複数の特徴量抽出動作を実行し、複数の出力特徴マップを作成するステップであって、前記複数の特徴量抽出動作のそれぞれの特徴量抽出動作が、前記複数の畳み込み層のそれぞれの畳み込み層によって実行され、
前記それぞれの畳み込み層によって、それぞれの入力特徴マップ（８５４）および複数の座標マップ（８５６、８５８）を受け取るステップと、
前記それぞれの畳み込み層によって、前記それぞれの入力特徴マップ（８５４）に基づいて、それぞれの空間注意マップ（８６０）を生成するステップと、
前記それぞれの畳み込み層によって、前記複数の座標マップ（８５６、８５８）および前記それぞれの空間注意マップ（８６０）に基づいて、複数の加重座標マップ（８５６”、８５８”）を生成するステップと、
前記それぞれの畳み込み層によって、前記それぞれの入力特徴マップ（８５４）および前記複数の加重座標マップ（８５６”、８５８”）に基づいて、前記それぞれの畳み込み層のそれぞれの出力特徴マップ（８７０）を出力するステップを含む、作成するステップと、
を含むステップと、
前記複数の畳み込み層の前記複数の出力特徴マップに基づいて、前記入力画像に対応する出力画像を作成するステップと、
を含む、方法。

【請求項2】

前記それぞれの畳み込み層によって、前記それぞれの入力特徴マップに基づいて、それぞれの空間注意マップを生成するステップが、
前記それぞれの畳み込み層によって受け取られた前記それぞれの入力特徴マップ（８５４）に基づいて第１の畳み込み動作（８６２）を実行し、それぞれの畳み込み特徴マップを作成するステップと、
前記それぞれの畳み込み特徴マップに基づいて活動化関数（８６４）を適用し、前記それぞれの空間注意マップ（８６０）を生成するステップと
を含む、請求項１に記載の方法。

【請求項3】

前記活動化関数（８６４）が、シグモイド活動化関数である、請求項２に記載の方法。

【請求項4】

前記それぞれの畳み込み層によって、前記複数の加重座標マップ（８５６”、８５８”）を生成するステップが、複数の座標マップ（８５６、８５８）の各々を前記それぞれの空間注意マップ（８６０）と乗じて、前記複数の座標マップの各々における座標情報を修正するステップを含む、請求項２または３に記載の方法。

【請求項5】

前記複数の座標マップ（８５６、８５８）が、第１の次元に対する座標情報を含む第１の座標マップ（８５６）と、第２の次元に対する座標情報を含む第２の座標マップ（８５８）とを含み、前記第１の次元および前記第２の次元が、前記第１の畳み込み動作が実行されるように構成された２つの次元である、請求項２～４のいずれか一項に記載の方法。

【請求項6】

前記それぞれの畳み込み層によって、前記それぞれの畳み込み層のそれぞれの出力特徴マップを出力するステップが、
前記それぞれの畳み込み層によって受け取られた前記それぞれの入力特徴マップ（８５４）および前記複数の加重座標マップ（８５６”、８５８”）をチャネルごとに連結して、それぞれの連結特徴マップ（８６６）を形成するステップと、
前記それぞれの連結特徴マップに基づいて第２の畳み込み動作を実行して、前記それぞれの畳み込み層のそれぞれの出力特徴マップを作成するステップと
を含む、請求項１～５のいずれか一項に記載の方法。

【請求項7】

前記ＣＮＮが、前記ＣＮＮの複数の畳み込み層のうちの少なくとも１つの畳み込み層を含む予測サブネットワーク（４１０）を含み、
前記方法が、
前記入力画像に基づいて、前記予測サブネットワーク（４１０）を使用して１組の予測特徴マップを作成するステップをさらに含み、前記１組の予測特徴マップを作成するステップが、
前記予測サブネットワークの前記少なくとも１つの畳み込み層を使用して、前記複数の特徴量抽出動作のうちの少なくとも１つの特徴量抽出動作を実行するステップを含み、前記１組の予測特徴マップが、異なる空間分解能レベルを有する複数の予測特徴マップを含む、
請求項１～６のいずれか一項に記載の方法。

【請求項8】

前記予測サブネットワーク（４１０）が、複数の第１のエンコーダブロック（４２０）および複数の第１のデコーダブロック（４３０）を含むエンコーダ－デコーダ構造を有し、前記複数の第１のエンコーダブロックの各々の第１のエンコーダブロックが、前記複数の第１のデコーダブロックのうちの１つのそれぞれの第１のデコーダブロックに対応し、
前記方法が、
前記複数の第１のエンコーダブロック（４２０）のうちのそれぞれの第１のエンコーダブロックによって、前記それぞれの第１のエンコーダブロックによって受け取られたそれぞれの入力特徴マップに基づいて、それぞれのダウンサンプル特徴マップを作成するステップと、
前記複数の第１のデコーダブロック（４３０）のうち、前記それぞれの第１のエンコーダブロックに対応するそれぞれの第１のデコーダブロックによって、前記それぞれの入力特徴マップ、および前記それぞれの第１のデコーダブロックに対応する前記それぞれの第１のエンコーダブロックによって作成された前記それぞれのダウンサンプル特徴マップに基づいて、それぞれのアップサンプル特徴マップを作成するステップと、
をさらに含む、請求項７に記載の方法。

【請求項9】

前記予測サブネットワーク（４１０）を使用して前記１組の予測特徴マップを作成するステップが、前記複数の第１のデコーダブロックによって作成された複数のアップサンプル特徴マップに基づいて、前記複数の予測特徴マップを作成するステップを含む、請求項８に記載の方法。

【請求項10】

前記複数の第１のエンコーダブロック（４２０）のうちのそれぞれの第１のエンコーダブロックに対して、前記それぞれのダウンサンプル特徴マップを作成するステップが、
前記それぞれの第１のエンコーダブロックによって受け取られた前記それぞれの入力特徴マップに基づいて、第１のマルチスケール特徴を抽出するステップと、
前記抽出された第１のマルチスケール特徴に基づいて、前記それぞれのダウンサンプル特徴マップを作成するステップとを含み、
前記複数の第１のデコーダブロック（４３０）のうちのそれぞれの第１のデコーダブロックに対して、前記それぞれのアップサンプル特徴マップを作成するステップが、
前記それぞれの入力特徴マップ、および前記それぞれの第１のエンコーダブロックによって作成され、前記デコーダブロックによって受け取られた前記それぞれの第１のデコーダブロックに対応する前記それぞれのダウンサンプル特徴マップに基づいて、第２のマルチスケール特徴を抽出するステップと、
前記それぞれのデコーダブロックによって抽出された前記抽出マルチスケール特徴に基づいて、前記それぞれのアップサンプル特徴マップを作成するステップとを含む、
請求項８または９に記載の方法。

【請求項11】

前記予測サブネットワーク（４１０）の前記複数の第１のエンコーダブロック（４２０）の各々が、前記ＣＮＮの複数の畳み込み層のうちの少なくとも１つの畳み込み層を含み、
前記複数の第１のエンコーダブロックのうちの前記それぞれの第１のエンコーダブロックによって、前記それぞれのダウンサンプル特徴マップを作成するステップが、
前記それぞれの第１のエンコーダブロックの前記少なくとも１つの畳み込み層を使用して、前記複数の特徴量抽出動作のうちの少なくとも１つの特徴量抽出動作を実行するステップを含み、
前記予測サブネットワーク（４１０）の前記複数の第１のデコーダブロック（４３０）の各々が、前記ＣＮＮの複数の畳み込み層のうちの少なくとも１つの畳み込み層を含み、
前記複数の第１のデコーダブロックのうちの前記それぞれの第１のデコーダブロックによって、前記それぞれのアップサンプル特徴マップを作成するステップが、
前記それぞれの第１のデコーダブロックの前記少なくとも１つの畳み込み層を使用して、前記複数の特徴量抽出動作のうちの少なくとも１つの特徴量抽出動作を実行するステップを含む、
請求項８～１０のいずれか一項に記載の方法。

【請求項12】

前記予測サブネットワーク（４１０）の前記複数の第１のエンコーダブロック（４２０）の各々の各畳み込み層が、前記ＣＮＮの複数の畳み込み層のうちの１つであり、
前記予測サブネットワーク（４１０）の前記複数の第１のデコーダブロック（４３０）の各々の各畳み込み層が、前記ＣＮＮの複数の畳み込み層のうちの１つである、
請求項１１に記載の方法。

【請求項13】

前記予測サブネットワークの前記複数の第１のエンコーダブロックの各々が、残差ブロックとして構成され、
前記予測サブネットワークの前記複数の第１のデコーダブロックの各々が、残差ブロックとして構成される、
請求項８～１２のいずれか一項に記載の方法。

【請求項14】

前記ＣＮＮが、前記ＣＮＮの複数の畳み込み層のうちの少なくとも１つの畳み込み層を含む精練サブネットワーク（４５０）をさらに含み、
前記方法が、融合特徴マップ（４４４）に基づいて前記精練サブネットワーク（４５０）を使用して１組の精練特徴マップ（４６４－１、４６４－２、４６４－３）を作成するステップをさらに含み、前記作成するステップが、
前記精練サブネットワークの前記少なくとも１つの畳み込み層を使用して、前記複数の特徴量抽出動作のうちの少なくとも１つの特徴量抽出動作を実行するステップを含み、前記１組の精練特徴マップ（４６４－１、４６４－２、４６４－３）が、異なる空間分解能レベルを有する複数の精練特徴マップ（４６４－１、４６４－２、４６４－３）を含む、
請求項７～１３のいずれか一項に記載の方法。

【請求項15】

前記１組の予測特徴マップを連結して、前記融合特徴マップ（４４４）を作成するステップをさらに含む、請求項１４に記載の方法。

【請求項16】

前記精練サブネットワーク（４５０）が、前記複数の精練特徴マップ（４６４－１、４６４－２、４６４－３）を作成するように構成された複数の精練ブロック（４５４－１、４５４－２、４５４－３）を備え、前記複数の精練ブロックの各々が、複数の第２のエンコーダブロックおよび複数の第２のデコーダブロックを含むエンコーダ－デコーダ構造を有し、前記複数の第２のエンコーダブロックのうちのそれぞれの第２のエンコーダブロックが、前記複数の第２のデコーダブロックのうちの１つのそれぞれの第２のデコーダブロックに対応し、
前記方法が、前記複数の精練ブロック（４５４－１、４５４－２、４５４－３）のうちの各精練ブロックに対して、
前記複数の第２のエンコーダブロックのうちの各々の第２のエンコーダブロックによって、前記それぞれの第２のエンコーダブロックによって受け取られた入力特徴マップに基づいて、前記それぞれの第２のエンコーダブロックを使用してそれぞれのダウンサンプル特徴マップを作成するステップと、
前記複数の第２のデコーダブロックのうちの各々の第２のデコーダブロックによって、前記それぞれの入力特徴マップ、および前記それぞれの第２のデコーダブロックに対応する前記それぞれの第２のエンコーダブロックによって作成され、前記それぞれの第２のデコーダブロックによって受け取られた前記それぞれのダウンサンプル特徴マップに基づいて、前記それぞれの第２のデコーダブロックを使用してそれぞれのアップサンプル特徴マップを作成するステップとをさらに含む、
請求項１４または１５に記載の方法。

【請求項17】

前記複数の精練ブロック（４５４－１、４５４－２、４５４－３）が、異なる高さを有する複数のエンコーダ－デコーダ構造を含む、請求項１６に記載の方法。

【請求項18】

前記複数の精練ブロック（４５４－１、４５４－２、４５４－３）が、
前記複数の精練ブロックのうちの各精練ブロックに対して、前記それぞれの精練ブロックによって受け取られた前記融合特徴マップ（４４４）、および前記複数の第２のデコーダブロックのうち、前記それぞれの精練ブロックに対応するそれぞれの第２のデコーダブロックによって作成されたそれぞれのアップサンプル特徴マップに基づいて、前記複数の精練特徴マップのうちのそれぞれの精練特徴マップを作成することによって、前記複数の精練特徴マップ（４６４－１、４６４－２、４６４－３）を作成するように構成される、
請求項１６または１７に記載の方法。

【請求項19】

前記複数の第２のエンコーダブロックのうちの各々の第２のエンコーダブロックに対して、前記それぞれのダウンサンプル特徴マップを作成するステップが、
前記それぞれの第２のエンコーダブロックによって受け取られた前記それぞれの入力特徴マップに基づいて、第１のマルチスケール特徴を抽出するステップと、
前記それぞれの第２のエンコーダブロックによって抽出された前記抽出された第１のマルチスケール特徴に基づいて、前記それぞれのダウンサンプル特徴マップを作成するステップとを含み、
前記複数の第２のデコーダブロックのうちの各々の第２のデコーダブロックに対して、前記それぞれのアップサンプル特徴マップを作成するステップが、
前記それぞれの入力特徴マップ、および前記それぞれの第２のデコーダブロックに対応する前記それぞれの第２のエンコーダブロックによって作成され、前記それぞれの第２のデコーダブロックによって受け取られた前記それぞれのダウンサンプル特徴マップに基づいて、第２のマルチスケール特徴を抽出するステップと、
前記それぞれのデコーダブロックによって抽出された前記抽出マルチスケール特徴に基づいて、前記それぞれのアップサンプル特徴マップを作成するステップとを含む、
請求項１６～１８のいずれか一項に記載の方法。

【請求項20】

前記複数の精練ブロック４５４－１、４５４－２、４５４－３）のうちのそれぞれの精練ブロックに対して、
前記それぞれの精練ブロックに対応する前記複数の第２のエンコーダブロックの各々が、前記ＣＮＮの複数の畳み込み層のうちの少なくとも１つの畳み込み層を含み、
前記複数の第２のエンコーダブロックのうちの各々の第２のエンコーダブロックによって、前記それぞれの精練ブロックの前記それぞれの第２のエンコーダブロックを使用して前記それぞれのダウンサンプル特徴マップを作成するステップが、
前記それぞれの第２のエンコーダブロックの前記少なくとも１つの畳み込み層を使用して、前記複数の特徴量抽出動作のうちの少なくとも１つの特徴量抽出動作を実行するステップを含み、
前記それぞれの精練ブロックに対応する前記複数の第２のデコーダブロックの各々が、前記ＣＮＮの複数の畳み込み層のうちの少なくとも１つの畳み込み層を含み、
前記複数の第２のデコーダブロックのうちの各々の第２のデコーダブロックによって、前記それぞれの精練ブロックの前記それぞれの第２のデコーダブロックを使用して前記それぞれのアップサンプル特徴マップを作成するステップが、
前記それぞれの第２のデコーダブロックの前記少なくとも１つの畳み込み層を使用して、前記複数の特徴量抽出動作のうちの少なくとも１つの特徴量抽出動作を実行するステップを含む、
請求項１６～１９のいずれか一項に記載の方法。

【請求項21】

前記精練ブロックの前記複数の第２のエンコーダブロックの各々の各畳み込み層が、前記ＣＮＮの複数の畳み込み層のうちの１つであり、
前記精練ブロックの前記複数の第２のデコーダブロックの各々の各畳み込み層が、前記ＣＮＮの複数の畳み込み層のうちの１つである、
請求項２０に記載の方法。

【請求項22】

前記複数の精練ブロックの各々に対して、
前記精練ブロックの前記複数の第２のエンコーダブロックの各々が、残差ブロックとして構成され、
前記精練ブロックの前記複数の第２のデコーダブロックの各々が、残差ブロックとして構成される、
請求項１６～２１のいずれか一項に記載の方法。

【請求項23】

前記出力画像が、前記１組の精練特徴マップ（４６４－１、４６４－２、４６４－３）に基づいて作成される、請求項１４～２１のいずれか一項に記載の方法。

【請求項24】

前記出力画像が、前記１組の精練特徴マップ（４６４－１、４６４－２、４６４－３）の平均に基づいて作成される、請求項２３に記載の方法。

【請求項25】

前記入力画像を受け取るステップが、複数の入力画像を受け取るステップを含み、前記複数の入力画像の各々が、前記ＣＮＮを訓練して訓練済みＣＮＮを得るためのラベル付き画像であり、
前記方法が、前記複数の入力画像の各々に対して、
前記ＣＮＮの複数の畳み込み層を使用して前記複数の特徴量抽出動作を実行し、前記複数の出力特徴マップを作成するステップと、
前記複数の畳み込み層の前記複数の出力特徴マップに基づいて、前記入力画像に対応する前記出力画像を作成するステップとをさらに含む、
請求項１～２４のいずれか一項に記載の方法。

【請求項26】

前記ラベル画像が、組織構造を含むラベル付き超音波画像である、請求項２５に記載の方法。

【請求項27】

前記出力画像が、前記ＣＮＮを使用した前記入力画像に対する推論の結果である、請求項１～２４のいずれか一項に記載の方法。

【請求項28】

前記入力画像が、組織構造を含む超音波画像である、請求項２７に記載の方法。

【請求項29】

畳み込みニューラルネットワーク（ＣＮＮ）に基づく画像処理システムであって、
メモリと、
前記メモリに通信的に結合されており、請求項１～２８のいずれか一項に記載のＣＮＮに基づいて画像処理方法を実行するように構成された少なくとも１つのプロセッサと、
を備える、システム。

【請求項30】

１つまたは複数の非一時的コンピュータ可読記憶媒体で実施されており、請求項１～２８のいずれか一項に記載の畳み込みニューラルネットワーク（ＣＮＮ）に基づく画像処理方法を実行するように少なくとも１つのプロセッサによって実行可能な命令を含む、コンピュータプログラム製品。

【請求項31】

少なくとも１つのプロセッサを使用して、畳み込みニューラルネットワーク（ＣＮＮ）を使用して超音波画像内の組織構造を分割する方法であって、
請求項１～２４のいずれか一項に記載のＣＮＮに基づく画像処理方法を実行するステップを含み、
前記入力画像が、前記組織構造を含む前記超音波画像であり、
前記出力画像が、分割された前記組織構造を有し、前記ＣＮＮを使用した前記入力画像に対する推論の結果である、方法。

【請求項32】

前記ＣＮＮが、請求項２５または２６に記載のように訓練される、請求項３１に記載の方法。

【請求項33】

ＣＮＮを使用して超音波画像内の組織構造を分割するためのシステムであって、
メモリと、
前記メモリに通信的に結合されており、請求項３１または３２に記載の畳み込みニューラルネットワーク（ＣＮＮ）を使用して超音波画像内の組織構造を分割する方法を実行するように構成された少なくとも１つのプロセッサと、
を備える、システム。

【請求項34】

１つまたは複数の非一時的コンピュータ可読記憶媒体で実施されており、請求項３１または３２に記載の畳み込みニューラルネットワーク（ＣＮＮ）を使用して超音波画像内の組織構造を分割する方法を実行するように少なくとも１つのプロセッサによって実行可能な命令を含む、コンピュータプログラム製品。

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版