特表2021-527859(P2021-527859A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特表2021-527859深層領域拡張を使用した画像内の不規則形状のセグメント化
<>
  • 特表2021527859-深層領域拡張を使用した画像内の不規則形状のセグメント化 図000064
  • 特表2021527859-深層領域拡張を使用した画像内の不規則形状のセグメント化 図000065
  • 特表2021527859-深層領域拡張を使用した画像内の不規則形状のセグメント化 図000066
  • 特表2021527859-深層領域拡張を使用した画像内の不規則形状のセグメント化 図000067
  • 特表2021527859-深層領域拡張を使用した画像内の不規則形状のセグメント化 図000068
  • 特表2021527859-深層領域拡張を使用した画像内の不規則形状のセグメント化 図000069
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】特表2021-527859(P2021-527859A)
(43)【公表日】2021年10月14日
(54)【発明の名称】深層領域拡張を使用した画像内の不規則形状のセグメント化
(51)【国際特許分類】
   G06T 7/00 20170101AFI20210917BHJP
【FI】
   G06T7/00 612
   G06T7/00 350C
【審査請求】未請求
【予備審査請求】未請求
【全頁数】29
(21)【出願番号】特願2020-556276(P2020-556276)
(86)(22)【出願日】2019年5月13日
(85)【翻訳文提出日】2020年10月13日
(86)【国際出願番号】IB2019053923
(87)【国際公開番号】WO2019243910
(87)【国際公開日】20191226
(31)【優先権主張番号】16/014,785
(32)【優先日】2018年6月21日
(33)【優先権主張国】US
(31)【優先権主張番号】16/014,801
(32)【優先日】2018年6月21日
(33)【優先権主張国】US
(81)【指定国】 AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DJ,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JO,JP,KE,KG,KH,KN,KP,KR,KW,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT
(71)【出願人】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
(74)【代理人】
【識別番号】100108501
【弁理士】
【氏名又は名称】上野 剛史
(74)【代理人】
【識別番号】100112690
【弁理士】
【氏名又は名称】太佐 種一
(72)【発明者】
【氏名】デュフォール、ポール
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA03
5L096BA06
5L096BA13
5L096DA02
5L096HA11
5L096JA03
5L096JA11
5L096KA04
(57)【要約】
画像内の対象の領域を決定するためのシステム。このシステムは、メモリおよび電子プロセッサを含む。システムに含まれる電子プロセッサは、メモリに接続され、空間格子のノードの内部状態を初期化するように構成される。空間格子の各ノードは、画像のピクセルに対応し、画像の隣のピクセルを表す少なくとも1つのノードに接続される。また、電子プロセッサは、ニューラル・ネットワークを使用し、空間的にゲーティングされる伝搬を使用して空間格子内の各ノードの内部状態を反復的に更新し、空間格子の収束でのノードの内部状態に基づいて画像内の対象の領域を識別するように構成される。一実施形態では、電子プロセッサは、画像の画像ピラミッドを作成するように構成される。
【特許請求の範囲】
【請求項1】
医用画像内の対象の物体を識別するための方法であって、
空間格子のノードの内部状態を初期化することであって、各ノードが、前記医用画像のピクセルに対応し、前記医用画像の隣のピクセルを表す少なくとも1つのノードに接続される、前記初期化することと、
ニューラル・ネットワークを使用し、空間的にゲーティングされる伝搬を使用して前記空間格子内の前記ノードの前記内部状態を反復的に更新することであって、各反復で、各ノードが、前の反復からの前記ノードの値、前記前の反復からの隣のノードの値、および前記ノードの新しい値から成る群から選択された少なくとも1つに基づいて、その内部状態を更新する、前記更新することと、
前記空間格子の収束での前記ノードの前記値に基づいて、前記医用画像内の前記対象の物体を識別することとを含んでいる、方法。
【請求項2】
ニューラル・ネットワークを使用して前記ノードの前記内部状態を反復的に更新することが、前記ノードの前記内部状態に関連付けられた値のベクトル内の値を更新することを含んでいる、請求項1に記載の方法。
【請求項3】
前記値のベクトル内の前記値が、前記ノードに対応する前記ピクセルの明るさを表す値、および前記ノードの前記内部状態を表す値を含んでいる、請求項2に記載の方法。
【請求項4】
前記ノードの前の内部状態を含む畳み込みが反復ごとに実行される、請求項1に記載の方法。
【請求項5】
前記方法が、第1の反復において、各ピクセルの明るさを表す各値に対して畳み込みを実行することをさらに含んでいる、請求項1に記載の方法。
【請求項6】
前記空間格子の収束での前記ノードの前記値に基づいて前記医用画像内の対象の物体を識別することが、前記ニューラル・ネットワークの最終的な層を使用して、各ピクセルに関連付けられた値のベクトルに含まれている値に基づいて、各ピクセルが前記対象の物体に含まれている確率を計算することと、
ピクセルごとに、前記計算された確率が既定のしきい値より高いかどうかを判定することとを含んでいる、請求項1に記載の方法。
【請求項7】
各ノードが、スカッシング関数を使用して、前の反復からの前記ノードの値、前記前の反復からの隣のノードの値、および前記ノードの新しい値から成る群から選択された少なくとも1つに基づいて、その内部状態を更新する、請求項1に記載の方法。
【請求項8】
前記隣のノードが、前記ノードによって表されたピクセルの真上、真下、右、および左にあるピクセルを表すノードから成る群から選択されたノードである、請求項1に記載の方法。
【請求項9】
前記方法が、複数の層を含む画像ピラミッドを生成することをさらに含んでおり、各連続する層が、より少ない値を含む前記医用画像を表す、請求項1に記載の方法。
【請求項10】
前記方法が、各反復において、前記画像ピラミッドの複数の層からの値を連結することをさらに含んでいる、請求項9に記載の方法。
【請求項11】
画像内の対象の領域を決定するためのシステムであって、
メモリと、
前記メモリに接続された電子プロセッサとを含み、前記電子プロセッサは、
空間格子のノードの内部状態を初期化することであって、各ノードが、前記画像のピクセルに対応し、前記画像の隣のピクセルを表す少なくとも1つのノードに接続される、前記初期化することと、
ニューラル・ネットワークを使用し、空間的にゲーティングされる伝搬を使用して前記空間格子内の各ノードの前記内部状態を反復的に更新することと、
前記空間格子の収束での前記ノードの前記内部状態に基づいて、前記画像内の前記対象の領域を識別することとを実行するように構成されている、システム。
【請求項12】
前記電子プロセッサが、各反復で、前の反復からの前記ノードの値、前記前の反復からの隣のノードの値、または前記ノードの新しい値から成る群から選択された少なくとも1つに基づいて前記内部状態を更新することによって、前記ノードの前記内部状態を更新するように構成されている、請求項11に記載のシステム。
【請求項13】
前記電子プロセッサが、ニューラル・ネットワークを使用して、前記ノードの前記内部状態に関連付けられた値のベクトル内の値を更新することによって、前記ノードの前記内部状態を反復的に更新するように構成されている、請求項11に記載のシステム。
【請求項14】
前記値のベクトル内の前記値が、前記ノードに対応するピクセルの明るさを表す値、および前記ノードの前記内部状態を表す値を含んでいる、請求項13に記載のシステム。
【請求項15】
前記電子プロセッサが、各反復で、前記ノードの前の内部状態を含む畳み込みを実行するようにさらに構成されている、請求項11に記載のシステム。
【請求項16】
前記電子プロセッサが、第1の反復において、各ピクセルの明るさを表す各値に対して畳み込みを実行するようにさらに構成されている、請求項11に記載のシステム。
【請求項17】
前記電子プロセッサが、前記ニューラル・ネットワークの最終的な層を使用して、各ピクセルに関連付けられた前記ベクトルに基づいて、各ピクセルが前記画像内の対象の物体に含まれている確率を計算することと、
ピクセルごとに、前記計算された確率が既定のしきい値より高いかどうかを判定することとによって、前記空間格子の収束での前記ノードの前記値に基づいて前記画像内の前記対象の物体を識別するように構成されている、請求項11に記載のシステム。
【請求項18】
前記電子プロセッサが、スカッシング関数を使用することによって、前の反復からの前記ノードの値、前記前の反復からの隣のノードの値、または前記ノードの新しい値から成る群から選択された少なくとも1つに基づいて前記内部状態を更新するように構成されている、請求項12に記載のシステム。
【請求項19】
前記隣のノードが、前記ノードによって表された前記ピクセルの真上、真下、右、および左にあるピクセルを表すノードから成る群から選択されたノードである、請求項12に記載のシステム。
【請求項20】
電子プロセッサを使用して実行された場合に一連の機能を実行する命令を格納している非一時的なコンピュータ可読媒体であって、前記一連の機能が、
空間格子のノードの内部状態を初期化することであって、各ノードが、画像のピクセルを表しており、前記画像の少なくとも1つの隣のピクセルに接続される、前記初期化することと、
ニューラル・ネットワークを使用し、空間的にゲーティングされる伝搬を使用して前記空間格子内の前記ノードの前記内部状態を反復的に更新することであって、各反復で、各ノードが、前の反復からの前記ノードの値、前記前の反復からの隣のノードの値、または前記ノードの新しい値から成る群から選択された少なくとも1つに基づいて、その内部状態を更新する、前記更新することと、
前記空間格子の収束での前記ノードの前記値に基づいて、前記画像内の対象の物体を識別することとを含んでいる、非一時的なコンピュータ可読媒体。
【請求項21】
ニューラル・ネットワークを使用して前記ノードの前記内部状態を反復的に更新することが、前記ノードの前記内部状態に関連付けられた値のベクトル内の値を更新することを含んでいる、請求項20に記載の非一時的なコンピュータ可読媒体。
【請求項22】
前記空間格子の収束での前記ノードの前記値に基づいて前記画像内の対象の物体を識別することが、前記ニューラル・ネットワーク内の最終的な層を使用して、各ピクセルに関連付けられた前記ベクトルに基づいて、各ピクセルが前記対象の物体に含まれている確率を計算することと、
ピクセルごとに、前記計算された確率が既定のしきい値より高いかどうかを判定することとを含んでいる、請求項20に記載の非一時的なコンピュータ可読媒体。
【請求項23】
医用画像内の対象の物体を識別するための方法であって、
前記医用画像の画像ピラミッドを作成することであって、前記画像ピラミッドが複数の層を含んでおり、各層が複数の値を含んでおり、各値が前記医用画像内の1つまたは複数のピクセルのブロックを表し、各連続する層が、直前の層より少ない値を含んでいる、前記作成することと、
前記画像ピラミッドの層ごとに、
空間格子のノードの内部状態を初期化することであって、前記空間格子内の各ノードが、前記医用画像内の1つまたは複数のピクセルのブロックを表しており、前記医用画像内の1つまたは複数のピクセルの隣のブロックを表す少なくとも1つのノードに接続される、前記初期化することと、
ニューラル・ネットワークを使用し、空間的にゲーティングされる伝搬を使用して前記空間格子内の前記ノードの前記内部状態を反復的に更新することであって、各反復で、各ノードが、前の反復からの前記ノードの値、前記前の反復からの隣のノードの値、および前記ノードの新しい値から成る群から選択された少なくとも1つに基づいて、その内部状態を更新する、前記更新することと、
前記画像ピラミッドの第1の層に含まれる前記値を表すノードを含む前記空間格子の収束での前記ノードの前記値に基づいて、前記医用画像内の前記対象の物体を識別することとを含んでいる、方法。
【請求項24】
ニューラル・ネットワークを使用して前記ノードの前記内部状態を反復的に更新することが、前記ノードの前記内部状態に関連付けられた値のベクトル内の値を更新することを含んでいる、請求項23に記載の方法。
【請求項25】
前記方法が、
前記画像ピラミッドの層ごとの各反復で、前記画像ピラミッドの層に含まれている前記値および前記画像ピラミッドの前記層に含まれている前記値を表す前記ノードの前の内部状態の第1の連結を含む第1の畳み込みを実行することと、
前記第1の畳み込みの実行結果を格納することとをさらに含んでいる、請求項23に記載の方法。
【請求項26】
前記方法が、前記画像ピラミッドの層ごとの各反復で、前記画像ピラミッドの現在の層、前記画像ピラミッドの前記現在の層の真上の前記画像ピラミッドの層、および前記画像ピラミッドの前記現在の層の真下の前記画像ピラミッドの層に対する前記第1の畳み込みの実行結果の第2の連結を含む第2の畳み込みを実行することをさらに含んでいる、請求項25に記載の方法。
【請求項27】
前記画像ピラミッドを作成することが、前記医用画像内の1つまたは複数のピクセルの各ブロックの明るさを表す各値に対する畳み込みを実行することを含んでおり、入力医用画像データの次元の縮小を含む各畳み込みが、前記画像ピラミッドの次の層内の前記医用画像を表すために使用される値を生成する、請求項23に記載の方法。
【請求項28】
前記画像ピラミッドの前記第1の層内の前記医用画像を表す各値が、前記医用画像内のピクセルに対応する、請求項23に記載の方法。
【請求項29】
前記画像ピラミッドの第1の層に含まれる前記値を表すノードを含んでいる前記空間格子の収束での前記ノードの前記値に基づいて前記医用画像内の前記対象の物体を識別することが、前記ニューラル・ネットワークの最終的な層を使用して、前記画像ピラミッドの第1の層に含まれる前記値を表すノードに関連付けられた値の各ベクトルに含まれている値に基づいて、前記医用画像内の各ピクセルが前記対象の物体に含まれている確率を計算することと、
ピクセルごとに、前記計算された確率が既定のしきい値より高いかどうかを判定することとを含んでいる、請求項28に記載の方法。
【請求項30】
各ノードが、前の反復からの前記ノードの値、前記前の反復からの隣のノードの値、および前記ノードの新しい値から成る群から選択された少なくとも1つに基づいて、その内部状態を更新することが、スカッシング関数および前記第2の畳み込みの実行結果を使用することを含んでいる、請求項26に記載の方法。
【請求項31】
前記隣のノードが、前記ノードによって表された1つまたは複数のピクセルのブロックの真上、真下、右、および左にある1つまたは複数のピクセルのブロックを表すノードから成る群から選択されたノードである、請求項23に記載の方法。
【請求項32】
より少ない値を含んでいる前記医用画像を表すことによって、より低い解像度を有する医用画像を作成する、請求項23に記載の方法。
【請求項33】
画像内の対象の領域を決定するためのシステムであって、
メモリと、
前記メモリに接続された電子プロセッサとを備え、前記電子プロセッサは、
前記画像の画像ピラミッドを作成することであって、前記画像ピラミッドが複数の層を含んでいる、前記作成することと、
前記画像ピラミッドの層ごとに、
空間格子のノードの内部状態を初期化することであって、各ノードが、前記画像内の1つまたは複数のピクセルのブロックを表しており、前記画像内の1つまたは複数のピクセルの隣のブロックを表す少なくとも1つのノードに接続される、前記初期化することと、
ニューラル・ネットワークを使用し、空間的にゲーティングされる伝搬を使用して前記空間格子内の前記ノードの前記内部状態を反復的に更新することと、
前記画像ピラミッドの第1の層に含まれる値を表すノードを含んでいる前記空間格子の収束での前記ノードの前記内部状態に基づいて、前記画像内の前記対象の領域を識別することとを実行するように構成されている、システム。
【請求項34】
前記画像ピラミッドに含まれている前記複数の層の各連続する層が、前記画像ピラミッドの直前の層で表される画像より低い解像度で前記画像を表す、請求項33に記載のシステム。
【請求項35】
前記電子プロセッサが、より少ない値を含む前記画像を表すことによって、より低い解像度で前記画像を表すように構成されている、請求項34に記載のシステム。
【請求項36】
前記電子プロセッサが、各反復で、ノードごとに、前の反復からの前記ノードの値を維持するのか、前記ノードの値を前の反復からの隣のノードの値に設定するのか、または前記ノードの新しい値を設定するのかを決定することによって、前記ノードの前記内部状態を更新するように構成されている、請求項33に記載のシステム。
【請求項37】
前記電子プロセッサが、ニューラル・ネットワークを使用して、前記ノードの前記内部状態に関連付けられた値のベクトル内の値を更新することによって、前記ノードの前記内部状態を反復的に更新するように構成されている、請求項33に記載のシステム。
【請求項38】
前記電子プロセッサが、前記画像ピラミッドの層ごとの各反復で、前記画像ピラミッドの前記層に含まれている前記値および前記画像ピラミッドの前記層に含まれている前記値を表す前記ノードの前の内部状態の第1の連結を含む第1の畳み込みを実行することと、前記第1の畳み込みの実行結果を格納することとを実行するように構成されている、請求項35に記載のシステム。
【請求項39】
前記電子プロセッサが、前記画像ピラミッドの層ごとの各反復で、前記画像ピラミッドの現在の層、前記画像ピラミッドの前記現在の層の真上の前記画像ピラミッドの層、および前記画像ピラミッドの前記現在の層の真下の前記画像ピラミッドの層に対する前記第1の畳み込みの実行結果の第2の連結を含む第2の畳み込みを実行するように構成されている、請求項38に記載のシステム。
【請求項40】
前記電子プロセッサが、前記第1の反復において、前記画像内の1つまたは複数のピクセルの各ブロックの明るさを表す各値に対する畳み込みを実行するようにさらに構成されており、入力画像データの次元の縮小を含む各畳み込みが、前記画像ピラミッドの次の層内の前記画像を表すために使用される値を生成する、請求項34に記載のシステム。
【請求項41】
前記電子プロセッサが、前記ニューラル・ネットワークの最終的な層を使用して、前記画像ピラミッドの第1の層に含まれる前記値を表すノードに関連付けられた各ベクトルに基づいて、前記画像内の各ピクセルが前記画像内の対象の物体に含まれている確率を計算することと、
ピクセルごとに、前記計算された確率が既定のしきい値より高いかどうかを判定することとによって、前記画像ピラミッドの第1の層に含まれる値を表すノードを含む前記空間格子の収束での前記ノードの前記値に基づいて前記画像内の前記対象の物体を識別するように構成されている、請求項33に記載のシステム。
【請求項42】
前記電子プロセッサが、スカッシング関数および前記第2の畳み込みの実行結果を使用することによって、前の反復からの前記ノードの値、前記前の反復からの隣のノードの値、または前記ノードの新しい値から成る群から選択された少なくとも1つに基づいて前記内部状態を更新するように構成されている、請求項39に記載のシステム。
【請求項43】
前記隣のノードが、前記ノードによって表された前記画像内の1つまたは複数のピクセルの前記ブロックの真上、真下、右、および左にある前記画像内の1つまたは複数のピクセルのブロックを表すノードから成る群から選択されたノードである、請求項36に記載のシステム。
【請求項44】
電子プロセッサを使用して実行された場合に一連の機能を実行する命令を格納している非一時的なコンピュータ可読媒体であって、前記一連の機能が、
画像の画像ピラミッドを作成することであって、前記画像ピラミッドが複数の層を含んでおり、各層が複数の値を含んでおり、各値が前記画像内の1つまたは複数のピクセルのブロックを表し、各連続する層が、直前の層より少ない値を含んでいる、前記作成することと、
前記画像ピラミッドの層ごとに、
空間格子のノードの内部状態を初期化することであって、各ノードが、前記画像内の1つまたは複数のピクセルのブロックを表しており、前記画像内の1つまたは複数のピクセルの隣のブロックを表す少なくとも1つのノードに接続される、前記初期化することと、
ニューラル・ネットワークを使用し、空間的にゲーティングされる伝搬を使用して前記空間格子内の前記ノードの前記内部状態を反復的に更新することであって、各反復で、各ノードが、前の反復からの前記ノードの値、前記前の反復からの隣のノードの値、または前記ノードの新しい値から成る群から選択された少なくとも1つに基づいて、その内部状態を更新する、前記更新することと、
前記画像ピラミッドの第1の層に含まれる前記値を表すノードを含む前記空間格子の収束での前記ノードの前記値に基づいて、前記画像内の対象の物体を識別することとを含んでいる、非一時的なコンピュータ可読媒体。
【請求項45】
ニューラル・ネットワークを使用して前記ノードの前記内部状態を反復的に更新することが、前記ノードの前記内部状態に関連付けられた値のベクトル内の値を更新することを含んでいる、請求項44に記載の非一時的なコンピュータ可読媒体。
【請求項46】
前記画像ピラミッドの第1の層に含まれる前記値を表すノードを含む前記空間格子の収束での前記ノードの前記値に基づいて前記画像内の対象の物体を識別することが、前記ニューラル・ネットワーク内の最終的な層を使用して、前記画像ピラミッドの第1の層に含まれる前記値を表すノードに関連付けられた前記ベクトルに基づいて、前記画像内の各ピクセルが前記対象の物体に含まれている確率を計算することと、
ピクセルごとに、前記計算された確率が既定のしきい値より高いかどうかを判定することとを含んでいる、請求項44に記載の非一時的なコンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本明細書に記載された実施形態は、生物医学画像などの画像のセグメント化に関連しており、特に、時間および空間の両方においてニューラル・ネットワークのゲーティング・データの伝搬を使用する画像のセグメント化に関連している。
【発明の概要】
【0002】
本明細書に記載された実施形態は、回帰型ニューラル・ネットワーク(RNN:recurrent neural networks)および畳み込みニューラル・ネットワーク(CNN:convolutional neural networks)において使用される原理を結合する、新しいタイプのニューラル・ネットワーク・ユニットに関連している。RNNは、入力シーケンスを受信し、一度にシーケンスの1つの要素を読み取って処理する。RNNがシーケンス内の各要素を処理するときに、RNNは、シーケンスに関する知識を変更し、この知識は、RNNの内部状態に格納される。RNNは、入力シーケンスのすべてを読み取った後に、内部状態の一部または全部を使用して第2のシーケンスを出力するか、または単一の予測を行う。RNNの例は、1つまたは複数のLSTMセルを含んでいる長短期記憶(LSTM:Long Short-Term Memory)ニューラル・ネットワークである。各LSTMセルは、セルの前の状態を格納し、この前の状態は、LSTMニューラル・ネットワークの他のコンポーネントに提供され得る。各LSTMセルは、入力ゲート、忘却ゲート、および出力ゲートを含んでいる。LSTMは、消失する勾配に関連するRNNのトレーニングに伴う問題を解決するために導入された。
【0003】
CNNは、フィルタ(カーネル)を入力(例えば、画像)に適用し、入力に関する予測を行う。1つの例では、この予測は、画像が一連のカテゴリのうちのどれに属するかである。フィルタは、入力画像内で検出されることがある特徴に対応する。例えば、画像がCNNに入力される場合、入力画像内の隣接するピクセルのブロックにフィルタが適用されて中間画像を生成し、この中間画像は、画像内の各位置で各特徴がどの程度強く表されるかを示す。特徴の内容は、特徴に関連付けられたフィルタの重みによって示される。この重みは、隣接するピクセルの各ブロックに含まれているピクセルに掛け合わされる。例えば、CNNへの入力が手書き数字である場合、CNNは、手書き数字を複数のカテゴリ(この場合、カテゴリは数字1〜9である)のうちの1つに属しているとして分類する。手書き数字のCNNの分類は、数字に関連付けられているとCNNが検出した画像の特徴、およびそれらの特徴が、手書き数字が数字1〜9のうちの1つであるということをどの程度強く示しているかに基づく。
【0004】
本明細書に記載された実施形態は、生物医学画像のセグメント化に関連している。生物医学画像のセグメント化は、画像(特に、医用画像)内の物体の境界を識別することを含む。以前は、画像内の物体を識別するために、領域拡張が使用された。領域拡張では、対象の物体内のどこかに、シード・ピクセルが配置される。シード・ピクセルは、画像内に配置された後に、類似する強度または明度の隣接するピクセルに、繰り返し広げられる。物体の境界に達したときに、ピクセルの拡張が止まる。領域拡張では、強度しきい値または明度しきい値を下回る低下によって、境界が定義されてよい。
【0005】
領域拡張に伴う1つの問題は、医用画像内の隣接する明るいピクセルとのわずかな接続でさえ、対象の物体の外側への領域の拡張を引き起こす可能性があるということである。例えば、図1に示されているように、2つの明るい組織領域(肺の内部に位置する1つの組織領域および肺の外部に位置する1つの組織領域)が、小さい明るい組織の断片によって接続されている場合、領域拡張は、2つの明るい組織領域を同じ塊または物体に属しているとして誤って示す。したがって、多くの場合、領域拡張は破棄され、等位集合、条件付き確率場(CRF:conditional random fields)、能動輪郭、およびグラフ・カットなどの、より洗練された方法が好まれる。
【0006】
CNNは、ピクセルの隣接性の優位性を破棄する。むしろCNNは、規則性を有する物体を識別する。規則性を有している物体を使用して、ある種類の物体として物体を分類するように、CNNをトレーニングすることができる。しかしCNNは、腫瘤、病変などの、規則的でない形状を正確に認識してセグメント化することが、できないことがある。したがってCNNは、多くの場合、配列、強度などにおいて変化する形状などの、医用画像内の不規則な形状の境界を正確に決定することができない。
【0007】
したがって、本明細書に記載された実施形態は、不規則な形状の対象の物体の境界を識別するための以前の解決策に対応する、前述した問題に対する技術的解決策を提供する。具体的には、本明細書に記載された実施形態は、CNNの空間的接続性を、RNNにおいて使用される時間的ゲーティングと組み合わせ、画像内の不規則な構造をセグメント化するためのより高性能な方法を提供する。特に、本明細書に記載された実施形態は、前の内部状態、および分類されているピクセルに隣接するピクセルを表すノードの現在の値に基づいて画像内のピクセルを分類する、新しいタイプのユニットを提供する。この新しいタイプのユニットは、本明細書ではゲート付き時空間ユニット(gated spatiotemporal unit)と呼ばれ、通常はCNNに関連付けられる空間認識を含むゲート付き回帰型ユニットである。例えば、各時間ステップで、各ノードが、それ自体の前の内部状態または隣のノードのうちの1つの内部状態の値でその内部状態を更新するかどうかを決定する。
【0008】
したがって、本明細書に記載された方法およびシステムは、時間および空間の両方にわたって情報を伝搬するニューラル・ネットワークを提供する。単に時間にわたって情報の流れをゲーティングすることと比較して、時間および空間の両方にわたってゲーティングすることは、回帰型ユニットが、内部状態および画像内の周囲のピクセルの値に基づいて、ピクセルの内部状態に関する決定を行えるようにする。また、一部の実施形態では、ニューラル・ネットワークは、時間および空間の両方にわたって画像解像度間で情報を伝搬することができる。
【0009】
下で詳細に説明されているように、本明細書に記載された実施形態は、機械学習を使用してアルゴリズムを学習する。具体的には、ネットワークは、内部状態に関連付けられた値が収束するまで更新される。これに対して、シングル・パス・ネットワークは関数を学習する。前述したように、本明細書における実施形態は、ピクセル間に広がる情報の量を制御するゲート付き時空間ユニットを提供する。下で詳細に説明されているように、一部の実施形態では、画像がシステムに入力され、システムが、複数の層を含んでいる画像ピラミッドを作成する。画像ピラミッドの各層は、入力画像を表す異なる数の変数を含む。ピラミッドの基部は、画像を表す多数の値を含む(言い換えると、基層は、高解像度で画像を表す)。ピラミッドの連続する各レベルで、画像を表すために、次第により少ない値が使用される(言い換えると、連続する各層は、直前の層より低い解像度で画像を表す)。画像ピラミッドは、システムが画像ピラミッドを利用しなかった場合より少ない反復回数で、画像の一部からの情報をより低い解像度に伝搬し、次に、画像の異なる部分においてより高い解像度に逆に情報を伝搬することを可能にする。これは、例えば、数千のピクセルを含む画像がシステムに入力される場合に有益である。そのような入力は、システムが予測を生成する前に、数千回の反復の実行を必要とすることがある。システムは、前の時間ステップからのシステムの内部状態および画像ピラミッド内の画像の表現を使用して、畳み込みを実行する。ネットワーク内のノードの現在の内部状態に含める値を決定するために、ゲート付き時空間ユニットによって畳み込み層の結果が使用される。ネットワーク内のノードの内部状態が収束するまで、ゲート付き時空間ユニット上で反復が実行される。システム内のノードの内部状態が収束したときに、各ピクセルが対象の物体に属する確率が計算される。具体的には、本明細書に記載された実施形態は、医用画像内の不規則な構造をセグメント化するためのネットワークを提供し、このネットワークは、データが格子上をどのように流れるかに関してインテリジェントであり、均質性などのその他の要因を学習して、ピクセルを広げる方法を決定する。しかし、これらの実施形態は、例えば気象予測、石油およびガスのモデル化などを含む、医用画像のセグメント化以外の領域において適用可能であってよい。
【0010】
例えば、一実施形態は、医用画像内の対象の物体を識別するための方法を提供する。この方法は、空間格子のノードの内部状態を初期化することを含む。空間格子内の各ノードは、医用画像のピクセルに対応し、医用画像の隣のピクセルを表す少なくとも1つのノードに接続される。この方法は、ニューラル・ネットワークを使用し、空間的にゲーティングされる伝搬(spatially gated propagation)を使用して空間格子内のノードの内部状態を反復的に更新することも含む。各反復で、各ノードが、前の反復からのノードの値、前の反復からの隣のノードの値、およびノードの新しい値から成る群から選択された少なくとも1つに基づいて、その内部状態を更新する。この方法は、空間格子の収束でのノードの値に基づいて、医用画像内の対象の物体を識別することをさらに含む。
【0011】
別の実施形態も、医用画像内の対象の物体を識別するための方法を提供する。しかし、この実施形態によって提供される方法は、医用画像の画像ピラミッドを作成することを含む。作成された画像ピラミッドは複数の層を含んでおり、各層は複数の値を含んでおり、各値は、医用画像内の1つまたは複数のピクセルのブロックを表す。画像ピラミッド内の連続する各層は、直前の層より少ない値を含む。この方法は、画像ピラミッドの層ごとに、空間格子のノードの内部状態を初期化することも含む。空間格子内の各ノードは、医用画像内の1つまたは複数のピクセルのブロックを表しており、医用画像内の1つまたは複数のピクセルの隣のブロックを表す少なくとも1つのノードに接続される。この方法は、画像ピラミッドの層ごとに、ニューラル・ネットワークを使用し、空間的にゲーティングされる伝搬を使用して空間格子内のノードの内部状態を反復的に更新することも含む。各反復で、各ノードが、前の反復からのノードの値、前の反復からの隣のノードの値、およびノードの新しい値から成る群から選択された少なくとも1つに基づいて、その内部状態を更新する。この方法は、画像ピラミッドの第1の層に含まれる値を表すノードを含んでいる空間格子の収束でのノードの値に基づいて、医用画像内の対象の物体を識別することをさらに含む。
【0012】
一実施形態は、画像内の対象の領域を決定するためのシステムを提供する。このシステムは、メモリおよび電子プロセッサを含む。システムに含まれる電子プロセッサは、メモリに接続され、空間格子のノードの内部状態を初期化するように構成される。空間格子の各ノードは、画像のピクセルに対応し、画像の隣のピクセルを表す少なくとも1つのノードに接続される。また、電子プロセッサは、ニューラル・ネットワークを使用し、空間的にゲーティングされる伝搬を使用して空間格子内の各ノードの内部状態を反復的に更新し、空間格子の収束でのノードの内部状態に基づいて画像内の対象の領域を識別するように構成される。
【0013】
別の実施形態も、画像内の対象の領域を決定するためのシステムを提供する。前述した実施形態のシステムと同様に、この実施形態において説明されるシステムも、メモリおよびメモリに接続された電子プロセッサを含む。しかし、この実施形態によって提供されるシステムの電子プロセッサは、画像の画像ピラミッドを作成するように構成される。画像ピラミッドは、複数の層を含む。画像ピラミッドの層ごとに、電子プロセッサは、空間格子のノードの内部状態を初期化し、ニューラル・ネットワークを使用し、空間的にゲーティングされる伝搬を使用して空間格子内の各ノードの内部状態を反復的に更新するように構成される。空間格子内の各ノードは、画像内の1つまたは複数のピクセルのブロックを表しており、画像内の1つまたは複数のピクセルの隣のブロックを表す少なくとも1つのノードに接続される。また、電子プロセッサは、画像ピラミッドの第1の層に含まれる値を表すノードを含んでいる空間格子の収束でのノードの内部状態に基づいて、画像内の対象の領域を識別するように構成される。
【0014】
一実施形態は、一連の機能を実行するために電子プロセッサによって実行できる命令を含んでいる非一時的なコンピュータ可読媒体を提供する。一連の機能は、空間格子のノードの内部状態を初期化することを含む。各ノードは、画像のピクセルを表しており、画像の少なくとも1つの隣のピクセルに接続される。一連の機能は、ニューラル・ネットワークを使用し、空間的にゲーティングされる伝搬を使用して空間格子内のノードの内部状態を反復的に更新することも含む。各反復で、各ノードが、前の反復からのノードの値、前の反復からの隣のノードの値、またはノードの新しい値から成る群から選択された少なくとも1つに基づいて、その内部状態を更新する。一連の機能は、空間格子の収束でのノードの値に基づいて、画像内の対象の物体を識別することをさらに含む。
【0015】
別の実施形態も、一連の機能を実行するために電子プロセッサによって実行できる命令を含んでいる非一時的なコンピュータ可読媒体を提供する。しかし、前述した実施形態における一連の機能とは異なり、この実施形態の電子プロセッサによって実行される一連の機能は、画像の画像ピラミッドを作成することを含む。作成された画像ピラミッドは複数の層を含んでおり、各層は複数の値を含んでおり、各値は、画像内の1つまたは複数のピクセルのブロックを表す。画像ピラミッド内の連続する各層は、直前の層より少ない値を含む。一連の機能は、画像ピラミッドの層ごとに、空間格子のノードの内部状態を初期化することも含む。画像ピラミッドの各ノードは、画像内の1つまたは複数のピクセルのブロックを表しており、画像内の1つまたは複数のピクセルの隣のブロックを表す少なくとも1つのノードに接続される。一連の機能は、画像ピラミッドの層ごとに、ニューラル・ネットワークを使用し、空間的にゲーティングされる伝搬を使用して空間格子内のノードの内部状態を反復的に更新することも含む。各反復で、各ノードが、前の反復からのノードの値、前の反復からの隣のノードの値、またはノードの新しい値から成る群から選択された少なくとも1つに基づいて、その内部状態を更新する。一連の機能は、画像ピラミッドの第1の層に含まれる値を表すノードを含んでいる空間格子の収束でのノードの値に基づいて、画像内の対象の物体を識別することをさらに含む。
【図面の簡単な説明】
【0016】
図1】対象の物体を識別するために領域拡張が適用された医用画像を示す図である。
図2】画像内の対象の領域を決定するためのシステムを示す図である。
図3図2のシステムに含まれているニューラル・ネットワークを示す図である。
図4】ゲート付き時空間ユニット内のノードへの入力の例を示す図である。
図5図4のニューラル・ネットワークが入力として受信する医用画像の例を示す図である。
図6図4のニューラル・ネットワークが図5の医用画像内で検出する対象の領域の例を示す図である。
【発明を実施するための形態】
【0017】
以下の説明および添付の図面では、1つまたは複数の実施形態が説明され、図示される。これらの実施形態は、本明細書において提供される特定の詳細に限定されず、さまざまな方法で変更されてよい。さらに、本明細書に記載されていない他の実施形態が存在してよい。また、1つのコンポーネントによって実行されるとして本明細書において説明された機能が、複数のコンポーネントによって分散方式で実行されてよい。同様に、複数のコンポーネントによって実行される機能が、単一のコンポーネントによって統合されて実行されてよい。同様に、特定の機能を実行するとして説明されたコンポーネントが、本明細書に記載されていない追加の機能を実行してもよい。例えば、特定の方法で「構成された」デバイスまたは構造は、少なくともその方法で構成されるが、示されていない方法で構成されてもよい。さらに、本明細書に記載された一部の実施形態は、非一時的なコンピュータ可読媒体に格納された命令を実行することによって、説明された機能を実行するように構成された1つまたは複数の電子プロセッサを含んでよい。同様に、本明細書に記載された実施形態は、説明された機能を実行するために1つまたは複数の電子プロセッサによって実行できる命令を格納する非一時的なコンピュータ可読媒体として実装されてよい。本出願において使用されるとき、「非一時的なコンピュータ可読媒体」は、すべてのコンピュータ可読媒体を含むが、一過性の伝搬信号では構成されない。したがって、非一時的なコンピュータ可読媒体は、例えば、ハード・ディスク、CD−ROM、光ストレージ・デバイス、磁気ストレージ・デバイス、ROM(Read Only Memory:読み取り専用メモリ)、RAM(Random Access Memory:ランダム・アクセス・メモリ)、レジスタ・メモリ、プロセッサのキャッシュ、またはこれらの任意の組み合わせを含んでよい。
【0018】
加えて、本明細書において使用される表現および用語は、説明を目的としており、制限と見なされるべきではない。例えば、本明細書における「含んでいる」、「包含している」、「備えている」、「有している」、およびこれらの変形の使用は、その後に示された項目およびそれらと同等のものに加えて、追加の項目を包含するよう意図されている。「接続された」および「結合された」という用語は、広範囲に使用され、直接的および間接的に接続することおよび結合することの両方を包含する。さらに、「接続された」および「結合された」は、物理的または機械的接続または結合に制限されず、直接的または間接的のいずれであろうと、電気的接続または電気的結合を含むことができる。加えて、有線接続、無線接続、またはこれらの組み合わせを使用して、電子通信および電子通知が実行されてよく、さまざまな種類のネットワーク、通信チャネル、および接続を経由して、直接的に、または1つまたは複数の仲介デバイスを介して送信されてよい。さらに、本明細書では、第1および第2、上部および下部などの関係を示す用語が、そのような実体または動作の間のそのような実際の関係または順序を必ずしも必要としないか、または意味せずに、ある実体または動作を別の実体または動作と区別するために、単独で使用されることがある。
【0019】
前述したように、生物医学画像のセグメント化は、対象の物体を表す画像内のピクセルを識別しようとし、物体に対するさまざまな計算およびデータ処理(例えば、体積計算など)を実行できるようにする。しかし、画像のセグメント化を実行するための多くの手法は、一貫性のある形状および状況を識別することに頼る。例えば、前述したように、CNNは、CNNが認識するようにトレーニングされている画像内の形状および物体を認識することにおいて優れているが、CNNは、画像内の不規則な形状を認識するのが不得意である。したがって、一貫性のある形状および状況を識別することに頼る手法は、腫瘤、病変などの不規則な物体の識別においては、効果的でないことがある。
【0020】
他の手法は、画像内の対象の物体の境界を決定するために、ピクセルが広がることに頼る。前述したように、領域拡張は、規則性に頼らず、境界が識別されるまで、シード・ピクセルを隣接するピクセルに広げる。したがって、対象の物体の形状は、領域拡張の性能に影響を与えない。しかし、図1に示されているように、物体が明確に定義された境界を有していない場合(小さい接続によってであっても、物体が隣接する明るい組織に接続されている場合など)、領域拡張は、真の境界の外側に、物体を不適切に拡張することがある。
【0021】
前述した手法の欠陥を解決するために、本明細書に記載された実施形態は、CNNおよびRNNの利点を時空間ユニットにおいて組み合わせ、画像内の不規則な物体の識別を改善する。具体的には、下で詳細に説明されているように、本明細書に記載された実施形態は、空間的にゲーティングされる伝搬を採用する。ゲーティングは、(前の状態および新たに受信された情報に基づいて)システムの新しい状態を生成するネットワークの1つの部分と、この新しい状態をゲーティングし、新しい状態が使用されて時間において前方に伝搬されるかどうかを決定する、ネットワークの別の部分とを含む。本明細書において説明されているように、ピクセルおよびピクセルの最も近い隣の直前の内部状態が、ゲーティングされ、現在の時間ステップでのピクセルの内部状態を決定するために使用される。したがって、本明細書に記載されたシステムおよび方法は、空間および時間の両方にわたって値を伝搬する。さらに、前述した画像ピラミッドの作成によって、異なる画像解像度にわたる値の伝搬を可能にする。
【0022】
図2は、ニューラル・ネットワークを実装するためのシステム200を示している。ニューラル・ネットワークは、受信された入力に関する出力を予測するために非線形ユニットの1つまたは複数の層を採用する機械学習モデルである。一部のニューラル・ネットワークは、入力層および出力層に加えて、1つまたは複数の隠れ層を含む。各隠れ層の出力は、ネットワーク内の次の層(次の隠れ層または出力層)への入力として使用される。ネットワークの各層は、パラメータの各セットの現在の値に従って、受信された入力から出力を生成する。
【0023】
図2に示されているように、システム200は、電子プロセッサ204およびメモリ206を含んでいるコンピューティング・デバイス202を含んでいる。電子プロセッサ204およびメモリ206は、無線によって、有線通信チャネルもしくはバスを経由して、またはこれらの組み合わせによって、通信する。コンピューティング・デバイス202は、さまざまな構成において、図2に示されているコンポーネント以外の追加のコンポーネントを含んでよい。例えば、一部の実施形態では、コンピューティング・デバイス202は、複数の電子プロセッサ、複数のメモリ・モジュール、またはこれらの組み合わせを含む。また、一部の実施形態では、コンピューティング・デバイス202は、コンピューティング・デバイス202がネットワーク、周辺機器などと通信できるようにする、1つまたは複数の入出力インターフェイスを含む。
【0024】
コンピューティング・デバイス202によって実行されるとして本明細書において説明されている機能が、さまざまな地理的位置にある複数のコンピューティング・デバイスによって分散的に実行されてよいということが、理解されるべきである。例えば、コンピューティング・デバイス202によって実行されるとして本明細書において説明されている機能は、クラウド・コンピューティング環境に含まれている複数のコンピューティング・デバイス202によって実行されてよい。電子プロセッサ204は、マイクロプロセッサ、特定用途向け集積回路(ASIC:application-specific integrated circuit)などであってよい。電子プロセッサ204は、通常、本明細書に記載された機能を含む一連の機能を実行するためのソフトウェア命令を実行するように構成される。メモリ206は、非一時的なコンピュータ可読媒体を含み、電子プロセッサ204によって実行できる命令を含むデータを格納する。例えば、図2に示されているように、メモリ206は、電子プロセッサ204によって実行されるコンピュータ・プログラムを含んでいるニューラル・ネットワーク208を格納する。
【0025】
図3は、電子プロセッサ204が本明細書に記載された方法を実行するために実行する、ニューラル・ネットワーク208の例の視覚的表現を示している。図3に示されているように、電子プロセッサ204によって実行されたときに、ニューラル・ネットワーク208は、入力を受信して出力305を生成する機械学習システムを提供する。1つの例として、入力は、生物医学画像などの画像(入力画像300)、または別の種類の多次元データを含み、出力305は、同様に、画像または別の種類の多次元データを含む。
【0026】
図3に示されているように、入力画像300が、ニューラル・ネットワーク208の第1の層310に入力される。単一の層として第1の層310が示されているが、これは単に例示を目的としており、第1の層310が任意の数の層を含んでよいということが、理解されるべきである。第1の層310では、ニューラル・ネットワーク208が、各ピクセルの明るさを表す値に対して、複数の畳み込みを実行してよい。他の実施形態では、下で説明されているように、ニューラル・ネットワーク208が、第1の層310内で複数の畳み込みを実行し、入力画像300(I)から画像ピラミッド315を作成してよい。
【0027】
画像ピラミッド315は、入力画像300から畳み込まれたテンソル(I−I)のシーケンスである。l=1の場合に生成されたテンソルは、入力画像300(I)と同じ空間的次元を有するが、その後の畳み込み/縮小ごとに、テンソルのサイズが半分になる。したがって、lの値ごとに、テンソルは異なる解像度を有し、テンソルIが最高の解像度を有しており、テンソルIが最低の解像度を有している。次の方程式は、第1の層310において実行される、画像ピラミッド315を作成するプロセスを示している。
【0028】
【数1】
【0029】
【数2】


【0030】
【数3】
【0031】
演算子*は、畳み込み演算を表している。例えば、方程式A*Bは、入力BとカーネルAの間の畳み込みを表す。
【0032】
は、元の入力画像300を表す変数である。Iは次元N×N×1を有する。言い換えると、入力画像300は、N個の行、N個の列、および(この実施形態例では、入力画像300がグレースケール画像であるため)1つのチャネルを有する。
【0033】
は、入力画像300(I)に対して1つまたは複数の縮小が実行された後に生成された画像データ(テンソル)の中間形態を表す変数である。前述したように、l>1である場合、Iは入力画像300(I)より低い解像度を有する。Iは次元N×N×Cを有し、N=2−(l−1)であり、Cはチャネルの数である。
【0034】
【数4】
は、入力画像データの次元を維持する畳み込み演算子(カーネル)を表す変数である。入力画像データは次元N×N×Cを有し、一方、出力画像データは次元N×N×Cを有する。Kは、例えばAlexNet、DenseNet、またはある範囲の他のアーキテクチャにおけるように配置された複数の連続的な畳み込み演算の組み合わせ、および畳み込み演算子の学習可能なパラメータを表してよい。
【0035】
【数5】
は、入力画像データの次元を半分に縮小する畳み込み演算子を表す変数である。入力画像データは次元Nl−1×Nl−1×Cを有し、一方、出力画像データは次元N×N×Cを有する。Kと同様に、Dは、例えばAlexNet、DenseNet、またはある範囲の他のアーキテクチャにおけるように配置された複数の連続的な畳み込み演算、および畳み込み演算子の学習可能なパラメータを表してよい。しかし、畳み込み演算子Dは、入力画像データの次元を半分に縮小する最大プーリング層またはストライド畳み込み層も表す。
【0036】
画像ピラミッド315のレベルごとに計算されたテンソルが、第2の層320に供給される。第2の層320において実行される動作を示す方程式は、次のとおりである。
【0037】
【数6】
【0038】
やはり、演算子*は畳み込み演算子を表し、Iは、入力画像300(I)に対して1つまたは複数の縮小が実行された後に生成された画像データ(テンソル)の中間形態を表す変数である。
【0039】
[A、B]は、テンソル(例えば、AおよびB)間の連結動作である。2つのテンソルに対して実行される連結動作は、テンソルの各々に含まれているチャネルを結合する。例えば、テンソルAが次元M×M×Cを有しており、テンソルBが次元M×M×Cを有している場合、[A、B]の出力は次元M×M×(C+C)を有する。
【0040】
【数7】
は、解像度lおよび時間ステップtでの空間格子内のノードごとに内部状態を保持するテンソル322である。前述したように、空間格子内の各ノードの内部状態が、各時間ステップで更新される。テンソル322は、次元N×N×Cを有する。したがって、解像度lで画像の1つまたは複数のピクセルの各ブロックを表すC個の変数が存在する。
【0041】
【数8】
は、入力画像データの次元を維持する畳み込み演算子を表す変数である。入力画像データは次元N×N×Cを有し、一方、出力画像データは次元N×N×Cを有する。Kは、例えばAlexNet、DenseNet、またはある範囲の他のアーキテクチャにおけるように配置された複数の連続的な畳み込み演算の組み合わせ、および畳み込み演算子の学習可能なパラメータを表してよい。
【0042】
【数9】
は、方程式(4)の実行結果323を表す変数である。
【数10】
は、次元N×N×Cを有しており、ニューラル・ネットワーク208の第3の層325に入力される。
【0043】
要約すると、方程式(4)は、テンソル(I)をテンソル322(
【数11】
)に連結し(第1の連結を実行し)、畳み込み演算子
【数12】
をこの連結に適用し(画像ピラミッドの現在の層に対して第1の畳み込みを実行し)、結果323をテンソル
【数13】
に保存する。
【0044】
第3の層325において実行される動作を示す方程式は、次のとおりである。
【0045】
【数14】
【0046】
やはり、前述したように、演算子*は畳み込み演算を表し、[A、B]は、テンソル(例えば、テンソルAおよびB)間の連結動作である。同様に、
【数15】
は、入力画像データの次元を維持する畳み込み演算子(カーネル)を表す変数であり、
【数16】
は、入力画像データの次元を半分に縮小する畳み込み演算子(カーネル)を表す変数であり、
【数17】
は、テンソルI、内部状態
【数18】
、およびカーネル
【数19】
から計算された方程式(4)の結果を表す変数である。
【0047】
【数20】
は、テンソルIl+1、内部状態
【数21】
、およびカーネル
【数22】
から計算された方程式(5)の結果を表す変数であり、
【数23】
は、テンソルIl−1、内部状態
【数24】
、およびカーネル
【数25】
から計算された方程式(5)の結果を表す変数である。
【0048】
【数26】
は、次元を2倍にすることによって入力画像データの次元をアップサンプリングする畳み込み演算子(カーネル)を表す変数である。例えば、入力画像データは次元Nl+1×Nl+1×Cを有し、出力画像データは次元N×N×Cを有する。畳み込み演算子Kと同様に、畳み込み演算子Uは、AlexNet、DenseNet、またはある範囲の他のアーキテクチャにおけるように配置された複数の連続的な畳み込み演算、および畳み込み演算の学習可能なパラメータの組み合わせを表してよい。しかし、畳み込み演算子Uは、画像の次元を2倍にするための転置された畳み込み層を表してもよい。
【0049】
【数27】
は、方程式(5)の実行結果を含むテンソルである。
【数28】
は、ゲート付き時空間ユニットに渡される情報を含む。要約すると、方程式(5)は、より高い解像度(Il−1)で入力画像300を表すテンソル(画像ピラミッドの現在の層の真下にある画像ピラミッドの層)を使用する方程式(4)の計算結果(
【数29】
)を縮小することと、より低い解像度(Il+1)で入力画像300を表すテンソル(画像ピラミッドの現在の層の真上にある画像ピラミッドの層)からの方程式(4)の計算結果(
【数30】
)をアップサンプリングこととを含む。方程式(5)は、アップサンプリングの結果をダウンサンプリングの結果と連結し、解像度Iで入力画像300を表すテンソルからの方程式(4)の計算結果と連結する(第2の連結を実行する)ことも含む。この方程式は、連結の結果およびカーネル
【数31】
の畳み込みを実行し(第2の畳み込みを実行し)、その結果を変数
【数32】
に保存する。
【0050】
ニューラル・ネットワーク208の第1の反復では、第3の層325からの出力を使用して、ゲート付き時空間ユニット330の空間格子に含まれているノードごとに、内部状態を単に初期化する。各ノードは、ノードの内部状態を表す値のベクトル、およびそのノードの中心にある1つまたは複数のピクセルのブロックの明るさから画像ピラミッド内で導出された値を含む。連続する各反復で、前の反復からの各ノードの内部状態が、テンソル322(
【数33】
)を介してニューラル・ネットワーク208の第2の層320に入力される。その後、第2の層320から開始して、前述したプロセスが繰り返される。
【0051】
前述したように、ニューラル・ネットワーク208は、複数のノードが空間格子内に配置されているゲート付き時空間ユニット330を含む。この格子内の各ノードは、入力画像300内のピクセルに対応する。ゲート付き時空間ユニット330は、複数の時間ステップの各々でデータ処理を実行する。各時間ステップで、ゲート付き時空間ユニット330が複数の値を受信する。受信された値、および前の時間ステップでゲーティングされた各ノードの内部状態を表す値に基づいて、ゲート付き時空間ユニット330が、現在の時間ステップでの各ノードの内部状態の更新方法を決定する。下で詳細に説明されているように、ゲート付き時空間ユニット330は、格子内のノードごとに、前の時間ステップでのノードの内部状態を維持するか、ノードの内部状態を、前の時間ステップからの隣のノードの内部状態を表す値に設定するか、またはノードの新しい内部状態を生成するかを決定することによって、各ノードの内部状態を更新する方法を決定する。
【0052】
以下の方程式は、現在の時間ステップでのゲート付き時空間ユニット330の格子に含まれているノードの内部状態
【数34】
327を決定するために使用される計算の例であり、解釈を容易にするために、7行に分けられている(I〜VIIのラベルが付けられている)。
【0053】
【数35】
【0054】
【数36】
【0055】
【数37】
【0056】
【数38】
【0057】
【数39】
【0058】
【数40】
【0059】
【数41】
【0060】
σ(A)は、テンソルのすべての要素aへのシグモイド関数1/(1+e−a)の要素ごとの適用を表す。シグモイド関数は、「スカッシング」関数と呼ばれることがある。シグモイド関数は、+∞〜−∞の任意の入力値を受け取り、その入力値を0〜1の出力値に押しつぶす。
【0061】
tanhも、スカッシング関数である。tanh関数は、+∞〜−∞の任意の入力値を受け取るが、この関数は、その入力値を−1〜1の出力値に押しつぶす。
【0062】
演算子
【数42】
は、アダマール積演算を表している。例えば、方程式A
【数43】
Bが与えられた場合、入力Bと入力Aの間のアダマール積演算が実行される。アダマール積は、2つの同一サイズの入力からの要素の各対の、要素ごとの乗算である。
【0063】
【数44】
は、解像度lおよび時間ステップtでの第3の層325で実行される計算の結果326を含んでいるテンソルである。
【数45】
は次元N×N×7×Cを有する。第3の次元の7つの要素の各々は、時空間ゲーティング・プロセスにおいて特定の役割を有している。方程式内の変数の
【数46】

【数47】
は、7つの要素のうちの1つが選択されたときに得られるテンソルを参照している。7つの要素の各々に関連付けられた各テンソルは、次元N×N×Cを有する。
【0064】
【数48】
は、解像度lおよび時間ステップtでの空間格子内のノードごとに内部状態を保持するテンソル322である。前述したように、内部状態は、各時間ステップで動的に更新される。テンソルは、次元N×N×Cを有する。したがって、解像度lで各ノードを表すC個の変数が存在する。
【0065】
Δx,Δyは、空間変位畳み込み演算子(spatial shifting convolution operator)である。この演算子は、学習可能なパラメータを含んでいない。SΔx,Δyは、ノードの現在の内部状態を決定するときに、最も近い隣のノードの内部状態からの情報を考慮できるようにする。
【0066】
上の方程式に戻ると、テンソル
【数49】
に格納される結果326が、7つの部分に分けられている。各部分は、前述したように、テンソル
【数50】
の第3の次元内の要素を表している。方程式(6)の行(I)は、tanhスカッシング関数を方程式(6)の行II〜VIIの合計に適用し、現在の反復でのノードの内部状態を決定する。方程式(6)の行(II)は、ゲーティングされた値に応じて、前のタイムスタンプからのノードの内部状態を現在のタイムスタンプにコピーする可能性に対応する。次の4つの行(III〜VI)(
【数51】

【数52】

【数53】

【数54】
)は、前の反復からの最も近い隣のうちの1つの内部状態を現在の反復でのノードの内部状態にコピーする可能性にそれぞれ対応する。最後の行(VII)は、全く新しい値を生成し、場合によっては現在の反復でのノードの内部状態を新しい値に設定することに対応する。
【0067】
図4は、現在の反復で決定されている内部状態を有するノード400と、前の反復で決定された内部状態を有するノードとの間の接続を示している。各ノードは、ゲート付き時空間ユニット330の直前の反復で計算された内部状態を有するノードに接続されている。具体的には、各ノードは、ゲート付き時空間ユニット330の直前の反復でのそれ自身の内部状態を表すノードに加え、ゲート付き時空間ユニット330の直前の反復での隣のノードの内部状態を表すノードに接続されている。図4では、グループ405内のノードは、ニューラル・ネットワーク208の直前の反復で決定された内部状態にそれぞれ関連付けられているノードである。グループ410内のノードは、ニューラル・ネットワーク208の現在の反復で決定された内部状態に関連付けられているノードである。前述したように、各ノードは、入力画像300内のピクセル(または1つまたは複数のピクセルのブロック)に対応する。あるノードの隣の各ノードは、このノードによって表されるピクセル(または1つまたは複数のピクセルのブロック)に隣接するピクセル(または1つまたは複数のピクセルのブロック)を表す。例えば、ノード400が座標(i、j)での画像内のピクセルを表している場合、(i、j)でのピクセルを表しているノード400は、((i、j)でのピクセルのすぐ左にある)座標(i−1、j)を表しているノード415、((i、j)でのピクセルのすぐ右にある)座標(i+1、j)でのピクセルを表しているノード420、((i、j)でのピクセルのすぐ上にある)座標(i、j+1)でのピクセルを表しているノード425、および((i、j)でのピクセルのすぐ下にある)座標(i、j−1)でのピクセルを表しているノード430に接続される。ピクセル(i、j)を表しているノード400に接続されているとして説明された上記のノードの各々は、ノード400の隣のノードである。したがって、ゲート付き時空間ユニット330は、ノード400の内部状態を、グループ405内のノードのうちの1つの内部状態に設定するかどうかを決定する。
【0068】
ゲート付き時空間ユニット330の空間格子内のノードの内部状態が収束した(既定の量より少なく変化した)ときに、最高の解像度で入力画像300を表すノードの内部状態が、ニューラル・ネットワーク208の最終的な層335に出力される。最終的な層335は、各ノードの内部状態に含まれている1つの値を使用して、そのノードが表しているピクセルが入力画像300内の対象の物体に属している確率(例えば、0と1の間の値)を計算する。次の方程式は、各ピクセルが対象の物体の一部である確率を決定するために最終的な層335において実行される動作を表している。
【0069】
【数55】
【0070】
は、時間ステップtでのニューラル・ネットワーク208の出力305を表す変数であり、次元N×N×1(入力と同じ次元)を有する。
【0071】
【数56】
は、解像度1および時間ステップtでの空間格子内のノードごとに内部状態を保持するテンソルである。
【0072】
【数57】
は、入力画像データの次元を維持する畳み込み演算子を表す変数である。入力画像データは次元N×N×Cを有し、一方、出力画像データは次元N×N×1を有する。Kは、例えばAlexNet、DenseNet、またはある範囲の他のアーキテクチャにおけるように配置された複数の連続的な畳み込み演算の組み合わせ、および畳み込み演算子の学習可能なパラメータを表してよい。
【0073】
要約すると、方程式(7)は、
【数58】
を使用する最後の畳み込みを、最高の解像度の内部状態
【数59】
に適用し、それによって、入力チャネルの数(C)を1つの出力チャネルに減らす。この方程式は、
【数60】
を使用する最後の畳み込みを、最高の解像度の内部状態
【数61】
に適用した結果に、シグモイド関数を適用し、それによって、Yに含まれている各値を0〜1の範囲内の値に押しつぶす。Yに含まれている0〜1の範囲内の各値は、画像のピクセルが入力画像300内の対象の物体内にある確率に対応する。例えば、単一のピクセルに対してシグモイド関数によって生成された値が0.5である場合、このピクセルが対象の物体内にある50%の確率が存在する。
【0074】
ニューラル・ネットワーク208は、生成された出力305(各ノードに対して計算された確率)を出力データ・リポジトリ(例えば、メモリ206)に格納するか、または生成された出力305を、ディスプレイ・デバイス上でユーザに表示することなどによって、使用または消費するために提供してよい。いずれにせよ、電子プロセッサ204は、ピクセルが対象の物体に含まれているピクセルごとの確率を、既定のしきい値と比較する。ピクセルが対象の物体の一部である確率が既定のしきい値より高い場合、電子プロセッサ204は、このピクセルが対象の物体の一部であるということを決定する。
【0075】
一部の実施形態では、前述したニューラル・ネットワーク208内で、画像ピラミッド315に含まれている入力画像300の表現のレベル(I〜I)ごとに方程式(4〜6)が実行されるということが、理解されるべきである。ニューラル・ネットワーク208は、時間、空間、および解像度にわたって値を伝搬するとして、上で説明されたが、ニューラル・ネットワーク208が、時間および空間のみにわたって値を伝搬するように変更されてよいということも、理解されるべきである。
【0076】
各反復で各ノードの内部状態を決定するために使用されるゲートの値は、0または1のいずれかである必要はなく、0〜1の範囲内の任意の値であってよいということも、理解されるべきである(上の方程式(6)を参照)。したがって、一部の実施形態では、ノードの更新された内部状態は、前述した選択肢(前の反復からのノードの値、前の反復からの1つまたは複数の隣のノードの値、およびノードの新しい値)のうちの2つ以上の混合(または、より数学的には、線形結合)であってよい。
【0077】
図5および図6は、ニューラル・ネットワーク208の実際の適用の例を示している。図5は、ニューラル・ネットワーク208が入力として受信できる医用画像500の例を示している。画像500内の対象の物体は、左肺510内の腫瘍505である。図6は、ニューラル・ネットワーク208が対象の物体(腫瘍505)として識別する医用画像500の領域を示している。領域拡張手法が使用される場合(図1を参照)と異なり、対象の物体の境界が左肺510の外側に広がっていない。
【0078】
したがって、本明細書に記載された実施形態は、時空間ユニットを含んでいるニューラル・ネットワークを提供する。時空間ユニットは、空間的に拡張されたノードの格子である。例えば、各ノードは、画像内のピクセルに対応する。ニューラル・ネットワークは、ノードごとに初期内部状態を決定し、ノードごとに内部状態を反復的に更新し、時間または空間あるいはその両方にわたって値を伝搬することによって、およびノードごとに内部状態を表すための新しい値を計算することによって、何度も繰り返して新しい内部状態を生成する。したがって、文字または単語の1次元のシーケンスに対して反復する長短期記憶(LSTM)ネットワークおよびゲート付き回帰型ユニット(GRU:gated recurrent unit)ネットワークなどの、他の種類のRNNと比較して、本明細書に記載された実施形態は、各ノードの内部状態を更新するときに、隣のノードの決定を考慮する。具体的には、本明細書に記載された実施形態は、空間的次元および時間的次元の両方を適用する。したがって、時間次元は前方にのみ反復するが、空間的ゲーティングは、画像の1つの部分において新しい結論に達し、その結論が画像の他の部分に伝搬され、それらの部分での意思決定に情報を与えるというように、空間的情報が、必要な長さにわたって空間格子上を後方および前方に共鳴できるようにする。さらに、本明細書に記載された一部の実施形態では、ニューラル・ネットワーク208内の値が、画像の異なる解像度間で伝搬されてよい。
【0079】
本明細書に記載された実施形態は、閉じている。具体的には、本明細書に記載されたニューラル・ネットワーク208には、外部の世界に関する情報のすべてが初期入力(処理を必要とする画像)として与えられ、その時点以降、ニューラル・ネットワーク208は、外部からさらに情報を受け取らずに、それ自身の内部状態およびルールのみに従って、時間と共に進化する。そのようにして、内部状態がそれ以上変化しなくなって収束するまで、反復が継続する。これによって、ニューラル・ネットワーク208を、関数ではなくアルゴリズムのようなものにする。これに対して、RNNには、各時間ステップで新しい1つの問題(例えば、1つの単語)が与えられるため、新しい情報が使用可能である場合にのみ、反復が継続する。
【0080】
以下の特許請求の範囲では、一部の実施形態のさまざまな特徴および利点が示される。
図1
図2
図3
図4
図5
図6
【国際調査報告】