特開2024-96350 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧 ▶ 東芝メディカルシステムズ株式会社の特許一覧

特開2024-96350ニューラルネットワーク、ニューラルネットワークの学習方法、プログラム、画像処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024096350

(43)【公開日】2024-07-12

(54)【発明の名称】ニューラルネットワーク、ニューラルネットワークの学習方法、プログラム、画像処理装置

(51)【国際特許分類】

G06V 10/82 20220101AFI20240705BHJP

G06T 7/00 20170101ALI20240705BHJP

G06N 3/045 20230101ALI20240705BHJP

【ＦＩ】

G06V10/82

G06T7/00 350C

G06N3/045

【審査請求】有

【請求項の数】14

【出願形態】ＯＬ

(21)【出願番号】P 2024075268

(22)【出願日】2024-05-07

(62)【分割の表示】P 2020093607の分割

【原出願日】2020-05-28

(71)【出願人】

【識別番号】000001007

【氏名又は名称】キヤノン株式会社

(71)【出願人】

【識別番号】594164542

【氏名又は名称】キヤノンメディカルシステムズ株式会社

(74)【代理人】

【識別番号】110002860

【氏名又は名称】弁理士法人秀和特許事務所

(72)【発明者】

【氏名】山嵜深

(57)【要約】

【課題】一部のクラスに対応する正解データが欠損している教示データであっても学習に利用する。
【解決手段】複数のクラスに共通し、入力画像から第一の特徴を抽出する共通ネットワークと、前記複数のクラスの夫々に対応し、前記第一の特徴に基づいて複数の第二の特徴の夫々を抽出する複数のシングルクラスネットワークと、を備え、前記複数のシングルクラスネットワークの夫々は、夫々に対応するクラスを個別に識別するためのシングルクラス出力層を有する、ことを特徴とするニューラルネットワーク。
【選択図】図４

【特許請求の範囲】

【請求項1】

複数のクラスに共通し、入力画像から第一の特徴を抽出する共通ネットワークと、
前記複数のクラスの夫々に対応し、前記第一の特徴に基づいて複数の第二の特徴の夫々を抽出する複数のシングルクラスネットワークと、
を備え、
前記複数のシングルクラスネットワークの夫々は、夫々に対応するクラスを個別に識別するためのシングルクラス出力層を有する、
ことを特徴とするニューラルネットワーク。

【請求項2】

前記共通ネットワークは、前記複数のクラスのうち、すべてのクラスに共通するネットワークである、ことを特徴とする請求項１に記載のニューラルネットワーク。

【請求項3】

前記共通ネットワークは、前記複数のクラスのうち一部かつ２つ以上のクラスに共通するネットワークである、
ことを特徴とする請求項１に記載のニューラルネットワーク。

【請求項4】

前記共通ネットワークは、第一のクラスと第二のクラスに共通する第一の共通ネットワークと、第一のクラスと第三のクラスに共通する第二の共通ネットワークとを含み、
前記第一のクラスに対応するシングルクラスネットワークに、前記第一の共通ネットワークおよび前記第二の共通ネットワークが接続されている、
ことを特徴とする請求項１乃至請求項３のいずれか１項に記載のニューラルネットワーク。

【請求項5】

前記ニューラルネットワークは、前記第一の特徴および／または前記第二の特徴に基づいて第三の特徴を抽出するマルチクラスネットワークをさらに備え、
前記マルチクラスネットワークは、前記複数のクラスのうち、２つ以上のクラスを識別するためのマルチクラス出力層を有する、
ことを特徴とする請求項１乃至請求項４のいずれか１項に記載のニューラルネットワーク。

【請求項6】

複数のクラスに共通する共通ネットワークと、前記共通ネットワークに接続され、前記複数のクラスの夫々を個別に識別するためのシングルクラス出力層を有する複数のシングルクラスネットワークとを備えるニューラルネットワークの学習方法であって、
前記複数のクラスのうち、１つ以上のクラスに対応する正解データを含む教示データを取得する取得ステップと、
前記教示データを用いて、前記ニューラルネットワークを学習する学習ステップと、
を備え、
前記学習ステップは、前記複数のクラスのうち、１つ以上のクラスに対応する正解データが欠損している教示データを用いて学習する際に、正解データが欠損していないクラスに対応するシングルクラスネットワークを学習し、正解データが欠損しているクラスに対応するシングルクラスネットワークを学習しない、
ことを特徴とするニューラルネットワークの学習方法。

【請求項7】

前記学習ステップは、前記教示データの正解データが欠損しているかいないかにかかわらず、前記共通ネットワークを学習する、
ことを特徴とする請求項６に記載のニューラルネットワークの学習方法。

【請求項8】

前記学習ステップは、前記シングルクラス出力層の夫々の出力に対して、異なる損失関数を用いて損失値を算出する、
ことを特徴とする請求項６又は請求項７に記載のニューラルネットワークの学習方法。

【請求項9】

前記ニューラルネットワークは、前記複数のクラスのうち、２つ以上のクラスを識別するためのマルチクラス出力層を有するマルチクラスネットワークをさらに備え、
前記学習ステップは、前記複数のクラスのうち、すべてのクラスに対応する正解データを含む教示データを用いて学習する際に、前記マルチクラスネットワークを学習し、１つ以上のクラスに対応する正解データが欠損している教示データを用いて学習する際に、前記マルチクラスネットワークを学習しない、
ことを特徴とする請求項６乃至請求項８のいずれか１項に記載のニューラルネットワークの学習方法。

【請求項10】

前記学習ステップは、前記シングルクラス出力層の出力と、前記マルチクラス出力層の出力に対して、異なる損失関数を用いて損失値を算出する、
ことを特徴とする請求項９に記載のニューラルネットワークの学習方法。

【請求項11】

前記学習ステップは、教示データがどのクラスの正解データを有しているかに応じて、該教示データを用いて学習する際のパラメータを更新する層を決定する、
ことを特徴とする請求項６乃至請求項１０のいずれか１項に記載のニューラルネットワークの学習方法。

【請求項12】

前記学習ステップは、教示データがどのクラスの正解データを有しているかに応じて教示データをグループ分けし、１エポック内で、グループごとに教示データを選択して学習を行う、
ことを特徴とする請求項６乃至請求項１１のいずれか１項に記載のニューラルネットワークの学習方法。

【請求項13】

前記学習ステップは、すべてのクラスの正解データを有している教示データのグループを、１エポック内の最後に選択して学習を行う、
ことを特徴とする請求項１２に記載のニューラルネットワークの学習方法。

【請求項14】

画像を取得する取得ステップと、
請求項１乃至請求項５のいずれか１項に記載のニューラルネットワークを用いて、画像に対する推論を行い、識別結果を出力する推論ステップと、
を含むことを特徴とする画像処理方法。

【請求項15】

画像を取得する取得部と、
請求項１乃至請求項５のいずれか１項に記載のニューラルネットワークを含む識別部と、
を備える画像処理装置。

【請求項16】

画像を取得する取得部と、
識別部と、
を備え、
前記識別部は、
複数のクラスに共通し、入力画像から第一の特徴を抽出する共通ネットワークと、
前記複数のクラスの夫々に対応し、前記第一の特徴に基づいて前記複数のクラスの夫々に対応する第二の特徴を抽出する複数のシングルクラスネットワークと、
前記第一の特徴および／または前記第二の特徴に基づいて第三の特徴を抽出するマルチクラスネットワークと、
によって構成され前記複数のクラスを識別するニューラルネットワークを含み、
前記識別部は、前記ニューラルネットワークに前記画像を入力して、前記複数のシングルクラスネットワークの夫々から前記第二の特徴に基づく第一の識別結果を取得し、前記マルチクラスネットワークから前記第三の特徴に基づく第二の識別結果を取得し、前記複数のクラスの少なくとも１つについて、当該クラスに対応する前記第一の識別結果と前記第二の識別結果を統合して、第三の識別結果を生成する、
画像処理装置。

【請求項17】

前記識別部は、前記第一の識別結果と前記第二の識別結果とを、重み付き平均値統合、最大値統合、最小値統合、論理積統合、または論理和統合することで、前記第三の識別結果を生成する、
ことを特徴とする請求項１６に記載の画像処理装置。

【請求項18】

複数のクラスに共通する共通ネットワークと、前記共通ネットワークに接続され前記複数のクラスの夫々を個別に識別するためのシングルクラス出力層を有する複数のシングルクラスネットワークとを備えるニューラルネットワークを学習する画像処理装置であって、
前記複数のクラスのうち、１つ以上のクラスに対応する正解データを含む教示データを取得する取得部と、
前記教示データを用いて前記ニューラルネットワークを学習する学習部と、
を備え、
前記学習部は、前記複数のクラスのうち、１つ以上のクラスに対応する正解データが欠損している教示データを用いて学習する際に、正解データが欠損していないクラスに対応するシングルクラスネットワークを学習し、正解データが欠損しているクラスに対応するシングルクラスネットワークを学習しない、
ことを特徴とする画像処理装置。

【請求項19】

請求項６乃至請求項１３のいずれか１項に記載の方法の各ステップをコンピュータに実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本明細書の開示は、ニューラルネットワーク、ニューラルネットワークの学習方法、プログラムおよび画像処理装置に関する。

【背景技術】

【0002】

近年、画像処理分野において、深層学習に基づく識別器が注目を浴びている。その中でも、教師あり学習と呼ばれる手法は、学習画像と正解データによって構成される教示データを利用することで識別器を学習する。ここで、学習画像は実空間中に存在する注目物体を撮像装置で撮影することで得られる画像であり、注目物体の像が描出されている。正解データとは、学習画像に対応して存在するデータである。セグメンテーションを例に挙げると、正解データは正解領域が描画された画像であり、対応する学習画像のどの位置に注目物体が描出されているかを示す。注目物体が複数ある場合、注目物体の夫々を表すクラスに対応する複数の正解データが必要となる。

【0003】

非特許文献１には、学習画像と、注目物体の夫々を表すクラスに対応する複数の正解データとで構成される教示データを用いることで、複数の注目物体の領域を同時にセグメンテーションする識別器を構築する技術が開示されている。

【先行技術文献】

【非特許文献】

【0004】

【非特許文献1】ＪｏｎａｔｈａｎＬｏｎｇ，ｅｔａｌ． “ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓｆｏｒＳｅｍａｎｔｉｃＳｅｇｍｅｎｔａｔｉｏｎ”，ＣＶＰＲ，２０１５．

【発明の概要】

【発明が解決しようとする課題】

【0005】

非特許文献１に開示されている技術は、複数の注目物体の夫々を表すクラスに対応する正解データのうち、一部のクラスに対応する正解データが欠損している教示データを学習に利用することができない。これは、セグメンテーションを行う識別器に限定されるものではなく、教師あり学習に属する手法全般において生じる課題である。

【0006】

本発明は、複数の注目物体の夫々を表すクラスに対応する正解データのうち、一部のクラスに対応する正解データが欠損している教示データであっても学習に利用することができる技術を提供することを目的とする。

【課題を解決するための手段】

【0007】

本発明の第一の態様は、
複数のクラスに共通し、入力画像から第一の特徴を抽出する共通ネットワークと、
前記複数のクラスの夫々に対応し、前記第一の特徴に基づいて複数の第二の特徴の夫々を抽出する複数のシングルクラスネットワークと、
を備え、
前記複数のシングルクラスネットワークの夫々は、夫々に対応するクラスを個別に識別するためのシングルクラス出力層を有する、
ことを特徴とするニューラルネットワークである。

【0008】

本発明の第二の態様は、
複数のクラスに共通する共通ネットワークと、前記共通ネットワークに接続され前記複数のクラスの夫々を個別に識別するためのシングルクラス出力層を有する複数のシングルクラスネットワークとを備えるニューラルネットワークの学習方法であって、
前記複数のクラスのうち、１つ以上のクラスに対応する正解データを含む教示データを取得する取得ステップと、
前記教示データを用いて、前記ニューラルネットワークを学習する学習ステップと、
を備え、
前記学習ステップは、前記複数のクラスのうち、１つ以上のクラスに対応する正解データが欠損している教示データを用いて学習する際に、正解データが欠損していないクラスに対応するシングルクラスネットワークを学習し、正解データが欠損しているクラスに対応するシングルクラスネットワークを学習しない、
ことを特徴とするニューラルネットワークの学習方法である。

【0009】

本発明の第三の態様は、
画像を取得する取得ステップと、
上記第二の態様の方法によって学習したニューラルネットワークを用いて、画像に対する推論を行い、識別結果を出力する推論ステップと、
を含むことを特徴とする画像処理方法である。

【0010】

本発明の第四の態様は、
画像を取得する取得部と、
上記第一の態様に係るニューラルネットワークを含む識別部と、
を備える画像処理装置である。

【0011】

本発明の第五の態様は、
画像を取得する取得部と、
識別部と、
を備え、
前記識別部は、
複数のクラスに共通し、入力画像から第一の特徴を抽出する共通ネットワークと、
前記複数のクラスの夫々に対応し、前記第一の特徴に基づいて前記複数のクラスの夫々に対応する第二の特徴を抽出する複数のシングルクラスネットワークと、
前記第一の特徴および／または前記第二の特徴に基づいて第三の特徴を抽出するマルチクラスネットワークと、
によって構成され前記複数のクラスを識別するニューラルネットワークを含み、
前記識別部は、前記ニューラルネットワークに前記画像を入力して、前記複数のシングルクラスネットワークの夫々から前記第二の特徴に基づく第一の識別結果を取得し、前記マルチクラスネットワークから前記第三の特徴に基づく第二の識別結果を取得し、前記複数のクラスの少なくとも１つについて、当該クラスに対応する前記第一の識別結果と前記第二の識別結果を統合して、第三の識別結果を生成する、
画像処理装置である。

【発明の効果】

【0012】

本明細書の開示によれば、複数の注目物体の夫々を表すクラスに対応する正解データのうち、一部のクラスに対応する正解データが欠損している教示データであっても学習に利用することができる。

【図面の簡単な説明】

【0013】

【図1】第一の実施形態に係る画像処理装置１００の機能構成の一例を示す図。

【図2】第一の実施形態に係る画像処理装置のハードウェア構成の一例を示す図。

【図3】第一の実施形態に係る画像処理装置１００の処理手順の一例を示す図。

【図4】第一の実施形態に係るＣＮＮの構成を説明する図。

【図5】第一の実施形態に係る画像処理装置５００の機能構成の一例を示す図。

【図6】第一の実施形態に係る画像処理装置５００の処理手順の一例を示す図。

【図7】第一の実施形態に係る教示データの一例を説明する図。

【図8】第二の実施形態に係るＣＮＮの構成を説明する図。

【図9】第三の実施形態に係るＣＮＮの構成を説明する図。

【発明を実施するための形態】

【0014】

以下、図面を参照して本明細書に開示の画像処理装置の好ましい実施形態について説明する。各図面に示される同一または同等の構成要素、部材、処理には、同一の符号を付するものとし、適宜重複した説明は省略する。また、各図面では適宜、構成要素、部材、処理の一部は省略して表示する。

【0015】

以下では、深層学習に基づく識別器として、ニューラルネットワークのひとつであるＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を例に挙げて、本明細書に開示の技術を説明する。

【0016】

＜第一の実施形態＞（概要）
本実施形態では、Ｘ線コンピュータ断層撮像（Ｘ線ＣＴ）装置で撮影された腹部ＣＴ画像（三次元断層画像）から、臓器領域をセグメンテーションするＣＮＮを例に挙げて説明する。セグメンテーションの対象となる臓器（注目物体）は、肝臓、腎臓、胆のうとする。

【0017】

本実施形態において、推論工程は画像処理装置１００が用いられて実現され、学習工程は画像処理装置５００を用いて実現される。

【0018】

画像処理装置１００は、本明細書で開示される発明の一態様であるＣＮＮを利用し、腹部ＣＴ画像から肝臓、腎臓、胆のう領域をセグメンテーションする。画像処理装置１００は、先ず学習で得られたパラメータに基づき、ＣＮＮを構築する。本実施形態で用いるＣＮＮは、二次元画像を入力とし、二次元画像に対する識別結果を出力する２Ｄ－ＣＮＮに属する。ＣＮＮは肝臓、腎臓、胆のうに共通するネットワーク（共通ネットワークの一例）に、肝臓に対応するネットワーク、腎臓に対応するネットワーク、胆のうに対応するネットワーク（シングルクラスネットワークの一例）の夫々を接続することで構築されている。より一般的には、ＣＮＮは、すべてのクラスに共通する共通ネットワークと、複数のクラスの夫々に対応する複数のシングルクラスネットワークとを含み、これらは共通ネットワークの出力がシングルクラスネットワークの夫々に入力されるように接続されている。画像処理装置１００は、次に、セグメンテーション処理の対象となる腹部ＣＴ画像を取得し、ＣＮＮに腹部ＣＴ画像を構成する複数の二次元断層画像の夫々を順次入力する。ＣＮＮは二次元断層画像を入力として受け取った後、順伝播処理を実行し、該二次元断層画像に対する識別結果を画像処理装置１００に出力する。そして、ＣＮＮによってすべての二次元断層画像に対して処理することで、画像処理装置１００は腹部ＣＴ画像に対する識別結果を得る。ＣＮＮによる識別結果は、肝臓、腎臓、胆のうの領域を表すセグメンテーション結果である。

【0019】

画像処理装置５００は、画像処理装置１００で利用するＣＮＮのパラメータを生成する。画像処理装置５００は、まず、画像処理装置１００で利用するＣＮＮと同等のＣＮＮを構築する。ＣＮＮを構成するネットワークのパラメータは所定の方法で初期化する。次に、画像処理装置５００は、教示データを取得する。ここで、教示データは、学習画像である腹部ＣＴ画像と、学習画像と対応して存在する正解データで構成される。正解データは
、正解領域が描画された画像（正解画像）であり、対応する学習画像のどの位置に注目物体が描出されているかを示す。ここでは、肝臓の正解領域が描画されている画像（肝臓の正解画像）、腎臓の正解領域が描画されている画像（腎臓の正解画像）、胆のうの正解領域が描画されている画像（胆のうの正解画像）が正解データである。ここでの教示データには、夫々の教示データごとに、肝臓の正解画像、腎臓の正解画像、胆のうの正解画像のうち、少なくとも一つ以上の正解画像が存在するものを対象とする。そして、画像処理装置５００は、取得した教示データを用いてＣＮＮを学習する。本発明におけるＣＮＮの学習では、肝臓の正解画像が存在する教示データの場合、共通ネットワークと肝臓に対応するネットワークのパラメータ更新を行う。同様に、腎臓の正解画像が存在する教示データと胆のうの正解画像が存在する教示データの場合も、ＣＮＮを構成する共通ネットワークと夫々の臓器に対応するネットワークのパラメータ更新を行う。このように画像処理装置５００は、１つ以上のクラスに対応する正解データが欠損している教示データを用いて学習する際には、欠損していないクラスに対応するシングルクラスのネットワークの学習（パラメータ更新）を行う。一方、画像処理装置５００は、正解データが欠損しているクラスに対応するシングルクラスネットワークを学習しない。また画像処理装置５００は、教示データに正解データが欠損しているかいないかにかかわらず、共通ネットワークを学習してもよい。本発明におけるＣＮＮは、上述した構成によって、複数の注目物体の夫々を表すクラスに対応する正解データのうち、一部のクラスに対応する正解データが欠損している教示データであっても学習に用いることができる。

【0020】

本明細書では、画像処理装置１００により処理対象である腹部ＣＴ画像から臓器領域をセグメンテーションする工程を推論工程と呼び、画像処理装置５００によりＣＮＮを学習する工程を学習工程と呼ぶ。本実施形態では、推論工程と学習工程をそれぞれ画像処理装置１００と画像処理装置５００で実現しているが、推論工程と学習工程の両方を１つの画像処理装置で実現してもよい。

【0021】

以下では、複数の注目物体の夫々を表すクラスに対応する正解データがすべて揃っている教示データを、完全な教示データと呼ぶ。また、複数の注目物体の夫々を表すクラスに対応する正解データのうち一部のクラスに対応する正解データが欠損している教示データを、不完全な教示データと呼ぶ。また、ネットワークのパラメータを単にパラメータと呼ぶ。

【0022】

［推論工程］
まず、本実施形態に係る画像処理装置１００の構成について説明する。

【0023】

（機能構成）
図１を参照して本実施形態に係る画像処理装置１００の機能構成について説明する。同図に示すように、画像処理装置１００は、第一のデータ取得部１１０、第一のネットワーク構築部１２０、識別部１３０を含んで構成される。また、本実施形態に係る画像処理装置１００は外部の記憶装置７０に通信可能に接続される。

【0024】

記憶装置７０はコンピュータ読み取り記憶媒体の一例であり、ハードディスクドライブ（ＨＤＤ）やソリッドステイトドライブ（ＳＳＤ）に代表される大容量情報記憶装置である。記憶装置７０は、処理対象である少なくとも１つ以上の腹部ＣＴ画像と、識別部１３０におけるＣＮＮのパラメータを保持している。

【0025】

第一のデータ取得部１１０は、記憶装置７０から、識別部１３０におけるＣＮＮのパラメータを取得する。そして、第一のデータ取得部１１０は、取得したＣＮＮのパラメータを第一のネットワーク構築部１２０に送信する。また、第一のデータ取得部１１０は、記憶装置７０から、処理対象である腹部ＣＴ画像を入力画像として取得する。そして、第一
のデータ取得部１１０は、取得した入力画像を識別部１３０に送信する。

【0026】

第一のネットワーク構築部１２０は、第一のデータ取得部１１０からＣＮＮのパラメータを受信する。次に、第一のネットワーク構築部１２０は、ＣＮＮのパラメータに基づいて、ＣＮＮを構築する。ＣＮＮの構成は後述する。そして、構築したＣＮＮを識別部１３０へ送信する。

【0027】

識別部１３０は、第一のデータ取得部１１０から入力画像を受信し、第一のネットワーク構築部１２０からＣＮＮを受信する。識別部１３０は、次に、入力画像をＣＮＮに入力し、セグメンテーション結果を得る。

【0028】

なお、図１に示した画像処理装置１００の各部の少なくとも一部は、独立した装置として実現してもよい。また、画像処理装置１００の各部は、夫々の機能を実現するソフトウェアとして実現してもよいし、専用のハードウェアにより実現してもよい。本実施形態では、各部は夫々ソフトウェアにより実現されているものとする。

【0029】

（ハードウェア構成）
図２は画像処理装置１００のハードウェア構成の一例を示す図である。画像処理装置１００は、公知のコンピュータ（情報処理装置）の構成を有する。画像処理装置１００は、そのハードウェア構成として、ＣＰＵ２０１、主メモリ２０２、磁気ディスク２０３、表示メモリ２０４、モニタ２０５、マウス２０６、キーボード２０７を含む。

【0030】

ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１は、主として各構成要素の動作を制御する。主メモリ２０２は、ＣＰＵ２０１が実行する制御プログラムを格納したり、ＣＰＵ２０１によるプログラム実行時の作業領域を提供したりする。磁気ディスク２０３は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）、周辺機器のデバイスドライバ、後述する処理等を行うためのプログラムを含む各種アプリケーションソフトを実現するためのプログラムを格納する。ＣＰＵ２０１が主メモリ２０２、磁気ディスク２０３等に格納されているプログラムを実行することにより、図１に示した画像処理装置１００の機能（ソフトウェア）及び後述するフローチャートにおける処理が実現される。

【0031】

表示メモリ２０４は、表示用データを一時記憶する。モニタ２０５は、例えばＣＲＴモニタや液晶モニタ等であり、表示メモリ２０４からのデータに基づいて画像やテキスト等の表示を行う。マウス２０６及びキーボード２０７は、ユーザによるポインティング入力及び文字等の入力を夫々行う。上記各構成要素は、共通バス２０８により互いに通信可能に接続されている。

【0032】

ＣＰＵ２０１はプロセッサまたは制御部の一例に相当する。画像処理装置１００は、ＣＰＵ２０１に加えて、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）の少なくともいずれかを有していてもよい。また、ＣＰＵ２０１に代えて、ＧＰＵやＦＰＧＡの少なくともいずれかを有していてもよい。主メモリ２０２および磁気ディスク２０３はメモリまたは記憶装置の一例に相当する。

【0033】

（処理フロー）
図３を用いて、本実施形態における画像処理装置１００の処理手順について説明する。

【0034】

（ステップＳ３１００）
本ステップにおいて、第一のデータ取得部１１０は、記憶装置７０から、識別部１３０におけるＣＮＮのパラメータを取得する。そして、第一のデータ取得部１１０は、取得し
たＣＮＮのパラメータを第一のネットワーク構築部１２０に送信する。

【0035】

（ステップＳ３２００）
本ステップにおいて、第一のネットワーク構築部１２０は、第一のデータ取得部１１０から受信したＣＮＮのパラメータに基づいて、ＣＮＮを構築する。そして、構築したＣＮＮを識別部１３０へ送信する。

【0036】

図４を参照して、本実施形態におけるＣＮＮの構成を説明する。本実施形態に係るＣＮＮ４０００は、共通ネットワーク４１００に、複数のシングルクラスネットワーク４２００が接続されて構成される。

【0037】

共通ネットワーク４１００は、複数のクラスに共通するネットワークである。共通ネットワーク４１００は、入力を受け取るＩｎｐｕｔ層や複数のＣｏｎｖｏｌｕｔｉｏｎ層で構成されており、入力画像から第一の特徴を抽出する役割を担う。本実施形態では、Ｐｏｏｌｉｎｇ層やＵｐｓａｍｐｌｉｎｇ層も利用して共通ネットワーク４１００を構成しているが、さらに、ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ層など他の層が含まれていてもよい。Ｃｏｎｖｏｌｕｔｉｏｎ層は、Ｃｏｎｖｏｌｕｔｉｏｎ処理後の結果である特徴マップに対して、活性化関数を適用するように構成されている。本実施形態では、共通ネットワーク４１００における活性化関数は、ＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）を採用している。

【0038】

複数のシングルクラスネットワーク４２００は、複数のクラスの夫々に対応する複数のネットワークである。本実施形態では、肝臓に対応するネットワークである肝臓ネットワーク４２１０、腎臓に対応するネットワークである腎臓ネットワーク４２２０、胆のうに対応するネットワークである胆のうネットワーク４２３０の３つのシングルクラスネットワークが存在する。複数のシングルクラスネットワーク４２００の夫々は、複数のＣｏｎｖｏｌｕｔｉｏｎ層で構成されており、共通ネットワーク４１００が抽出した第一の特徴に基づいて、第二の特徴の夫々を抽出する役割を担う。複数のシングルクラスネットワーク４２００の夫々の末端には、夫々に対応するクラスを個別に識別するためのシングルクラス出力層が存在している。具体的に、肝臓ネットワーク４２１０の末端には、肝臓クラスを識別するためのシングルクラス出力層４２１１が存在する。同様に、腎臓ネットワーク４２２０と胆のうネットワーク４２３０の末端にも、夫々のクラスを識別するためのシングルクラス出力層４２２１，４２３１が存在する。これらのシングルクラス出力層は、Ｃｏｎｖｏｌｕｔｉｏｎ層であり、活性化関数としてＳｉｇｍｏｉｄ関数が設定されている。Ｓｉｇｍｏｉｄ関数は、入力された値を０～１に正規化する関数である。したがって、複数のシングルクラスネットワーク４２００の夫々は、各画素の画素値が０～１の画像を出力する。

【0039】

本実施形態で利用するＣＮＮ４０００は、例えば、２Ｄ－ＣＮＮである。２Ｄ－ＣＮＮは、二次元画像を入力として、二次元画像に対する識別結果を出力する。したがって、２Ｄ－ＣＮＮは、Ｉｎｐｕｔ層によって腹部ＣＴ画像（三次元断層画像）を構成する二次元断層画像（二次元画像の一種）を受け取り、その他のＣＮＮを構成する層によって二次元処理が実行されて、二次元断層画像に対する識別結果を出力する。

【0040】

このように構成されたＣＮＮ４０００は、複数のパラメータを有する。例えば、Ｃｏｎｖｏｌｕｔｉｏｎ層における重みなどがパラメータに該当する。本ステップＳ３２００では、後述の学習工程で得られたパラメータをＣＮＮに設定することで、肝臓、腎臓、胆のう領域をセグメンテーションするＣＮＮを構築する。これにより、本実施形態に係るＣＮＮは、複数のシングルクラスネットワーク４２００の夫々の末端に存在するシングルクラス出力層から、夫々に対応するクラスの識別結果として、夫々の尤度マップを出力できる
ようになる。例えば、肝臓ネットワーク４２１０は、各画素の画素値が肝臓らしさを０～１で表した肝臓の尤度マップを出力する。また、腎臓ネットワーク４２２０、胆のうネットワーク４２３０も同様に、夫々のクラスに対応する尤度マップを出力する。

【0041】

本実施形態に係るＣＮＮ４０００は、後述する学習方法により、肝臓の正解画像、腎臓の正解画像、胆のうの正解画像のうち、一つ以上の正解画像が存在しない教示データ（不完全な教示データ）であっても学習に利用することが可能である。すなわち、複数の注目物体の夫々を表すクラスに対応する正解データのうち、一部のクラスに対応する正解データが欠損している教示データであっても学習に利用することができる。

【0042】

ここで、本実施形態におけるＣＮＮ４０００と、シングルクラスを識別するＣＮＮを注目物体の夫々を表すクラスの数分だけ用意する方法との比較を述べる。２つのＣＮＮを比べると、前者（本実施形態におけるＣＮＮ４０００）は、共通ネットワーク４１００によってネットワークが共通化されている部分があるため、後者に比べて推論時および学習時の計算コストが低い。また、共通ネットワーク４１００は、肝臓の正解画像のみが存在する不完全な教示データ、腎臓の正解画像のみが存在する不完全な教示データ、胆のうの正解画像のみが存在する不完全な教示データなど、すべての不完全な教示データを用いて学習できる。これにより、共通ネットワーク４１００がより多くの特徴を学習できるため、ＣＮＮによる識別精度の向上が期待できる。

【0043】

なお、本実施形態に係るＣＮＮ４０００は、二次元画像を入力として受け取り、該二次元画像に対する識別結果を出力するが（２Ｄ－ＣＮＮの一種）、これに限らない。例えば、本実施形態に係るＣＮＮは、三次元画像を入力として受け取り、該三次元画像に対する識別結果を出力する３Ｄ－ＣＮＮに属するＣＮＮであってもよい。この場合、ＣＮＮは、三次元処理を実行する層などで構成される。その他、入力の次元数は如何なるものであっても構わないし、識別器を構成する層に関する制約はない。

【0044】

なお、本実施形態に係るＣＮＮ４０００は、すべてのクラスに共通する共通ネットワークが１つだけ存在したが、すべてのクラスのうちの一部かつ複数のクラスに共通する共通ネットワークが１つまたは複数存在してもよい。例えば、共通ネットワークは、第一のクラスと第二のクラスに共通する第一の共通ネットワークと、第一のクラスと第三のクラスに共通する第二の共通ネットワークとを含んでもよい。この場合、前記第一のクラスに対応するシングルクラスネットワークに、前記第一の共通ネットワークおよび前記第二の共通ネットワークが接続される。例えば、ＣＮＮ４０００は、肝臓クラスと腎臓クラスに共通する共通ネットワークと、肝臓クラスと胆のうクラスに共通する共通ネットワークを夫々含んでもよい。この場合、肝臓クラスと腎臓クラスに共通する共通ネットワークには、肝臓ネットワークと腎臓ネットワークが接続され、同様に肝臓クラスと胆のうクラスに共通する共通ネットワークには、肝臓ネットワークと腎臓ネットワークが接続されることで構成される。このとき、肝臓ネットワークには２つの共通ネットワークの夫々で抽出した２つの特徴マップ（第一の特徴）が入力となる。そのため、例えば、２つの特徴マップを結合するＣｏｎｃａｔｅｎａｔｉｏｎ層により、２つの第一の特徴を結合したり、あるいは２つの特徴マップ同士を加算して統合したりして、肝臓ネットワークに入力する。人体において、肝臓と腎臓、肝臓と胆のうは隣接することがあるが、腎臓と胆のうは隣接することはほとんどない。そのため、上述のように、腎臓と胆のうを別の共通ネットワークに分け、不要な特徴の学習を回避することで、識別精度の向上が期待できる。

【0045】

なお、本実施形態に係るＣＮＮ４０００における複数のシングルクラスネットワーク４２００の夫々は、複数のＣｏｎｖｏｌｕｔｉｏｎ層で構成したが、シングルクラス出力層のみで構成されてもよい。また、複数のシングルクラスネットワーク４２００の夫々は、互いに同一の層構成を有してもよいし、異なる層構成を有してもよい。

【0046】

（ステップＳ３２５０）
本ステップにおいて、第一のデータ取得部１１０は、記憶装置７０から入力画像を取得して、識別部１３０に送信する。

【0047】

（ステップＳ３３００）
本ステップにおいて、識別部１３０は、第一のデータ取得部１１０から受信した入力画像を、第一のネットワーク構築部１２０により構築したＣＮＮに入力して順伝播処理を実行することで、推論処理を実行する。本実施形態では、ＣＮＮによる識別処理の結果として入力画像に対する肝臓の尤度マップ、腎臓の尤度マップ、胆のうの尤度マップを得る。

【0048】

本ステップでは、先ず、入力画像をＣＮＮ４０００に入力する。ＣＮＮ４０００は、共通ネットワーク４１００内のＩｎｐｕｔ層（入力層）で入力画像を受け取る。そして、各層の処理を適用しながら後続の層に順伝播する。後続の層では、Ｉｎｐｕｔ層で受け取った腹部ＣＴ画像や前層の処理結果である特徴マップを入力とし、各々の処理を適用することで特徴マップを出力する。共通ネットワーク４１００の処理が終わると、共通ネットワーク４１００の出力である特徴マップは、複数のシングルクラスネットワーク４２００の夫々に入力される。複数のシングルクラスネットワーク４２００の夫々は、共通ネットワーク４１００と同様に順伝播処理を実行する。このとき、肝臓ネットワーク４２１０、腎臓ネットワーク４２２０、胆のうネットワーク４２３０の順伝播処理が並列処理で実現されていてもよいし、逐次処理で実現されていてもよい。そして、各シングルクラスネットワークの順伝播処理が終わると、肝臓ネットワークからは肝臓の尤度マップ、腎臓ネットワークからは腎臓の尤度マップ、胆のうネットワークからは胆のうの尤度マップが出力される。

【0049】

なお、上記では、すべてのシングルクラスネットワークの順伝播処理を行ったが、一部のシングルクラスネットワークの処理のみを行う構成でもよい。例えば、肝臓の識別結果のみが必要な場合、共通ネットワーク４１００と肝臓ネットワーク４２１０のみの順伝播処理を実行すればよい。あるいは、ステップＳ３２００において、第一のネットワーク構築部１２０は、例えば共通ネットワーク４１００と肝臓ネットワーク４２１０のみで構成されたネットワークを構築してもよい。この場合、腎臓ネットワーク４２２０および胆のうネットワーク４２３０は、学習工程でのみ用いる。このようにすることで、計算コストを低減しつつ、所望の識別結果のみを得ることができる。

【0050】

（ステップＳ３４００）
本ステップにおいて、識別部１３０は、肝臓の尤度マップ、腎臓の尤度マップ、胆のうの尤度マップの夫々に対して後処理を行うことで、夫々のセグメンテーション結果を出力する。

【0051】

本実施形態では、後処理としてしきい値処理と最大連結成分の取得処理を適用する。識別部１３０は、先ず、夫々の尤度マップに対して、しきい値ｔ＝０．５を用いてしきい値処理を実行する。しきい値処理では、夫々の尤度マップにおける各画素の画素値（尤度）をしきい値ｔと比較し、画素値を０か１に置き換えることで二値画像に変換する。識別部１３０は、次に、しきい値処理を実行して得られた二値画像に対して、最大連結成分の取得処理を実行する。肝臓や胆のうは、一塊の臓器であるため、最大連結成分を取得することで、孤立したノイズ領域を排除できる。腎臓は、右腎と左腎の二対であるため、腎臓の二値画像を左右分割し、左右の画像の夫々に対して最大連結成分を取得することで、同様に孤立したノイズ領域を排除する。識別部１３０は、上記の後処理を適用した後の夫々の二値画像を、セグメンテーション結果として出力する。

【0052】

上記では、後処理としてしきい値処理と最大連結成分の取得処理を実施したが、これに限らない。例えば、グラフカット法によるセグメンテーションを適用してもよい。この場合、夫々の尤度マップに基づき、エネルギー関数のデータ項を設計すればよい。また、重複領域を排除するために、夫々の尤度マップ内の同一座標において、最大となる尤度を取得し、これに基づき、二値画像に変換する処理を実行してもよい。その他、如何なる後処理を適用しても構わない。

【0053】

なお、本ステップＳ３４００は必須ではないため、省略してもよい。その場合、識別部１３０は肝臓、腎臓、胆のうのセグメンテーション結果として、肝臓の尤度マップ、腎臓の尤度マップ、胆のうの尤度マップを出力する。

【0054】

以上の手順にしたがい、本実施形態に係る画像処理装置１００は、腹部ＣＴ画像から肝臓、腎臓、胆のうのセグメンテーション結果を得て、記憶装置７０やモニタ２０５に出力する。

【0055】

なお、識別部１３０による処理対象である入力画像が複数存在する場合には、ステップＳ３２５０からステップＳ３４００の処理を、夫々の入力画像に対して繰り返し実行すればよい。本実施形態では、識別部１３０は腹部ＣＴ画像を構成する二次元断層画像の夫々を処理対象として、ステップＳ３２５０からステップＳ３４００の処理を繰り返し実行する。

【0056】

［学習工程］
次に、本実施形態に係る画像処理装置５００の構成について説明する。

【0057】

（機能構成）
図５を参照して、本実施形態に係る画像処理装置５００の機能構成について説明する。同図に示すように、画像処理装置５００は、教示データを取得する第二のデータ取得部５１０、ＣＮＮを構築する第二のネットワーク構築部５２０、教示データを利用してＣＮＮを学習する学習部５３０を含んで構成される。また、本実施形態に係る画像処理装置５００は外部の記憶装置７０に通信可能に接続される。

【0058】

記憶装置７０はコンピュータ読み取り記憶媒体の一例である。記憶装置７０は、複数の教示データを保持している。教示データの詳細は後述する。

【0059】

第二のデータ取得部５１０は、記憶装置７０から、教示データを取得する。そして、第二のデータ取得部５１０は、取得した教示データを学習部５３０に送信する。

【0060】

第二のネットワーク構築部５２０は、ＣＮＮを構築し、パラメータを初期化する。そして、構築したＣＮＮを学習部５３０へ送信する。

【0061】

学習部５３０は、第二のデータ取得部５１０から複数の教示データを受信し、第二のネットワーク構築部５２０からＣＮＮを受信する。次に、学習部５３０は、後述の学習方法によりＣＮＮを学習し、学習後のＣＮＮのパラメータを記憶装置７０に保存する。

【0062】

なお、図５に示した画像処理装置５００の各部の少なくとも一部を、独立した装置として実現してもよい。また、画像処理装置５００の各部を、夫々の機能を実現するソフトウェアとして実現してもよいし、専用のハードウェアにより実現してもよい。本実施形態では、各部は夫々ソフトウェアにより実現されているものとする。

【0063】

（ハードウェア構成）
画像処理装置５００におけるハードウェア構成は、図２に示した画像処理装置１００におけるハードウェア構成と同様であるため、説明を省略する。

【0064】

（処理手順）
図６を用いて、本実施形態における画像処理装置５００の処理手順について説明する。

【0065】

（ステップＳ６１００）
本ステップにおいて、第二のデータ取得部５１０は、記憶装置７０から、複数の教示データを取得する。そして、第二のデータ取得部５１０は、取得した複数の教示データを学習部５３０に送信する。

【0066】

図７を参照して、教示データについて説明する。本実施形態において、教示データは学習画像７１０と、学習画像７１０に対応する正解データで構成される。学習画像７１０は、ＣＮＮによる処理の対象とする画像と同様の属性を持った画像であり、本実施形態では腹部ＣＴ画像である。また本実施形態において正解データは、肝臓の正解画像７１１、腎臓の正解画像７１２、胆のうの正解画像７１３である。正解画像７１１，７１２，７１３の夫々は、学習画像７１０における肝臓、腎臓、胆のうのそれぞれ位置あるいは領域を示すデータである。教示データは、学習データ、教師データ、訓練データなどと称されることもある。正解画像は正解ラベル画像と称されることもある。

【0067】

図７では、４種類の教示データを示している。図７の（ａ）は、学習画像７１０に対して、肝臓の正解画像７１１、腎臓の正解画像７１２、胆のうの正解画像７１３がすべて存在する教示データである。これを完全な教示データと称する。図７の（ｂ）は、学習画像７１０に対して、肝臓の正解画像７１１のみが存在する教示データである。つまり、腎臓の正解画像と胆のうの正解画像が存在しない（欠損した）教示データである。これを不完全な教示データと称する。同様に、図７の（ｃ）は学習画像に対して、腎臓の正解画像７１２のみが存在する不完全な教示データであり、図７の（ｄ）は学習画像に対して、胆のうの正解画像７１３のみが存在する不完全な教示データを示している。

【0068】

本ステップＳ６１００において、第二のデータ取得部５１０は、上記の４種類の教示データを任意に取得する。つまり、第二のデータ取得部５１０は、不完全な教示データだけを取得してもよいし、不完全な教示データと完全な教示データの双方を取得してもよい。もちろん、完全な教示データのみを取得してもよい。

【0069】

なお、ここでは説明を簡便にするために、同一の学習画像７１０を例に挙げて、４種類の教示データを説明したが、４種類の教示データ間には、同一の学習画像が含まれていなくてもよいし、含まれていてもよい。同一の学習画像が含まれていない場合は、４種類の教示データ間には重複する学習画像が存在しないことを意味する。また、図７では、不完全な教示データとして、複数のクラスのうち、いずれか１つクラスに対応する正解画像のみしか存在しない教示データを示したが、任意の数の正解画像が存在する教示データであっても構わない。例えば、肝臓の正解画像と腎臓の正解画像が存在し、胆のうの正解画像が存在しない不完全な教示データが含まれていてもよい。

【0070】

（ステップＳ６２００）
本ステップにおいて、第二のネットワーク構築部５２０は、ＣＮＮを構築し、パラメータを初期化する。そして、構築したＣＮＮを学習部５３０へ送信する。

【0071】

本実施形態において、第二のネットワーク構築部５２０は、画像処理装置１００で用いるＣＮＮと同一のＣＮＮを利用する。ＣＮＮのパラメータは、Ｈｅらが提案した初期値の決定方法［ＫａｉｍｉｎｇＨｅ，ｅｔａｌ．， “ＤｅｌｖｉｎｇＤｅｅｐｉ
ｎｔｏＲｅｃｔｉｆｉｅｒｓ：ＳｕｒｐａｓｓｉｎｇＨｕｍａｎ－ＬｅｖｅｌＰｅｒｆｏｒｍａｎｃｅｏｎＩｍａｇｅＮｅｔＣｌａｓｓｉｆｉｃａｔｉｏｎ，” ＩＣＣＶ，２０１５］や、定数値や乱数値を初期値とする方法など、公知の方法で初期化する。また、記憶装置７０からＣＮＮのパラメータの初期値を取得し、パラメータを初期化してもよい。例えば、あらかじめ学習させて得られたパラメータを転移させる場合（転移学習）には、この方法によりパラメータを初期化する。

【0072】

なお、第二のネットワーク構築部５２０で構築するＣＮＮは、画像処理装置１００で用いるＣＮＮと同一の構成でなくてもよい。例えば、学習による汎化性能を向上させるために、Ｄｒｏｐｏｕｔ層を追加してもよい。また、例えば、識別工程で胆のうネットワーク４２３０（シングルクラスネットワークの一つ）を利用しない場合であっても、学習工程では胆のうネットワーク４２３０を共通ネットワーク４１００に接続してＣＮＮを構築してもよい。これにより、胆のうの正解画像のみが存在する教示データも学習に利用できるため、共通ネットワークがより多くの特徴を学習することができ、汎化性能の向上が期待できる。

【0073】

（ステップＳ６３００）
本ステップにおいて、学習部５３０は、第二のデータ取得部５１０から受信した複数の教示データを用いて、第二のネットワーク構築部５２０から受信したＣＮＮを、後述の学習方法によって学習する。そして、学習後のＣＮＮのパラメータを記憶装置７０に保存する。

【0074】

図６（ｂ）を参照して、学習方法について詳説する。

【0075】

（ステップＳ６３１０）
本ステップにおいて、学習部５３０は、ＣＮＮにおける学習の進捗等が学習の終了条件を満たしているか否かを判定する。学習の終了条件としては、エポック数に関する条件や損失値の収束に関する条件など、公知の方法を用いる。ＣＮＮにおける学習の進捗等が学習の終了条件を満たしていない場合には、ステップＳ６３２０に処理を進める。学習の終了条件を満たしている場合には、ステップＳ６３７０に処理を進める。

【0076】

（ステップＳ６３２０）
本ステップにおいて、学習部５３０は、複数の教示データの中から、任意の教示データ（学習画像と正解データの組）を一組選択する。

【0077】

本実施形態では、学習部５３０は、教示データの属性を一つのグループとして、グループごとに順番に選択する。教示データの属性とは、教示データがどのクラスの正解データ（正解画像）を有しているかという情報である。すなわち、学習部５３０は、教示データがどのクラスの正解データを有しているかに応じて教示データをグループ分けし、１エポック内で、グループごとに教示データを選択して学習を行う。なお、本実施形態では、記憶装置７０が、夫々の教示データの属性に関する情報（属性情報）を保持している。学習部５３０は、当該属性情報を参照することで夫々の教示データの属性を取得し、属性に応じた処理を実行する。学習部５３０は、例えば、複数の教示データの中から、先ずは完全な教示データを選択し、ステップＳ６３００を順次実行する。未処理の完全な教示データが無くなったら、次は肝臓の不完全な教示データを選択し、同様にステップＳ６３００を順次実行する。そして、腎臓の不完全な教示データ、胆のうの不完全な教示データに対してもステップＳ６３００を順次実行する。これを１エポックとする。すべてのグループの教示データについてステップＳ６３００を実行し終えたら、再び完全な教示データから順番に処理する。このように、教示データの属性を一つのグループとして、ＣＮＮに対して順番に学習させることで、リミットサイクルに陥りにくくなり、学習が安定する。

【0078】

なお、教示データを選択する順番はどのような順番でもよい。上述の方法では、学習を終了する直前に選択されていたグループの影響が、比較的に強くパラメータに残る。例えば、ステップＳ６３１０において、エポック数を終了条件に設定した場合、上述の方法では、胆のうの正解画像のみが存在する不完全な教示データが最後に学習される。この場合、胆のうの識別精度が高くなり、教示データに正解画像として含まれていない肝臓や腎臓の識別精度が低下する可能性がある。これを回避する場合には、例えば教示データをランダムに選択する方法や、上述の方法で完全な教示データを１エポック内の最後に学習するように選択する方法を採用すればよい。

【0079】

（ステップＳ６３３０）
本ステップにおいて、学習部５３０は、ステップＳ６３２０で選択した教示データの属性に基づいて、パラメータを更新する層を決定する。すなわち、本ステップでは、学習部５３０は、選択された教示データがどのクラスの正解データを有しているかに応じて、教示データを用いて学習する際のパラメータを更新する層を決定する。

【0080】

ステップＳ６３２０において図７（ａ）のような完全な教示データが選択された場合、本ステップでは、学習部５３０は、共通ネットワーク４１００と複数のシングルクラスネットワーク４２００の全てに含まれる層を、パラメータを更新する層として決定する。

【0081】

一方、図７（ｂ）のような肝臓の正解画像のみが存在する不完全な教示データが選択された場合、本ステップでは、学習部５３０は、共通ネットワーク４１００と肝臓ネットワーク４２１０に含まれる層を、パラメータを更新する層として決定する。図７（ｃ）に示すような腎臓の正解画像のみが存在する不完全な教示データや、図７（ｄ）に示すような胆のうの正解画像のみが存在する不完全な教示データにおいても、学習部５３０は同様にパラメータを更新する層を決定する。すなわち、ステップＳ６３２０において不完全な教示データが選択された場合は、学習部５３０は、共通ネットワーク４１００と、正解画像が存在するクラスに対応するシングルクラスネットワークに含まれる層を、パラメータを更新する層として決定する。

【0082】

なお、パラメータを更新しない層については、任意に決定してよい。例えば、上記の説明では、すべてのケースにおいて、共通ネットワーク４１００に含まれる層のパラメータを更新するように決定したが、あらかじめ定めた一部の層のパラメータを固定する構成であってもよい。これにより、例えば、ステップＳ６２００において、あらかじめ学習させたパラメータを転移させた場合に、転移させたパラメータをそのまま利用することができる。

【0083】

（ステップＳ６３４０）
本ステップにおいて、学習部５３０は、ステップＳ６３２０で選択した教示データの学習画像をＣＮＮに入力し、順伝播処理を実行する。これにより、現在のパラメータによる暫定の識別結果（尤度マップ）が得られる。

【0084】

ここで、順伝播処理を行うネットワークの範囲は、教示データの属性によらず常に全ネットワークに対して行ってもよいが、属性に応じて、ステップＳ６３５０の処理に必要な範囲に対してのみ処理を行うことで、無駄な演算を省いてもよい。すなわち、ステップＳ６３２０において図７（ａ）に示すような完全な教示データが選択された場合、本ステップでは、学習部５３０は、共通ネットワーク４１００および複数のシングルクラスネットワーク４２００の全てに対して順伝播処理を実行する。これにより、肝臓ネットワーク４２１０から肝臓の暫定の識別結果を取得する。同様に腎臓ネットワーク４２２０から腎臓の暫定の識別結果、胆のうネットワーク４２３０から胆のうの暫定の識別結果を取得する
。

【0085】

一方、ステップＳ６３２０において図７（ｂ）に示すような肝臓の正解画像のみが存在する不完全な教示データが選択された場合、本ステップでは、学習部５３０は、共通ネットワーク４１００および肝臓ネットワーク４２１０に対して順伝播処理を実行する。これにより、肝臓ネットワーク４２１０から肝臓の暫定の識別結果を取得する。このとき、腎臓の暫定の識別結果および胆のうの暫定の識別結果については、後段のステップで利用しないため、腎臓ネットワーク４２２０および胆のうネットワーク４２３０は順伝播処理をしない。図７（ｃ）に示すような腎臓の正解画像のみが存在する不完全な教示データや、図７（ｄ）に示すような胆のうの正解画像のみが存在する不完全な教示データにおいても、同様に順伝播処理を実行し、暫定の識別結果を取得する。すなわち、ステップＳ６３２０において不完全な教示データが選択された場合は、共通ネットワーク４１００と、正解画像が存在するクラスに対応するシングルクラスネットワークに対して順伝播処理を実行し、暫定の識別結果を取得する。

【0086】

（ステップＳ６３５０）
本ステップにおいて、学習部５３０は、ステップＳ６３２０で選択した教示データの正解画像と、ステップＳ６３４０で得た暫定の識別結果に基づき、損失値を算出する。

【0087】

ステップＳ６３２０において図７（ａ）に示すような完全な教示データが選択された場合、ステップＳ６３４０において肝臓の暫定の識別結果、腎臓の暫定の識別結果、胆のうの暫定の識別結果の夫々が得られている。そのため、本ステップでは、学習部５３０は、教示データの正解画像の夫々と、複数のシングルクラスネットワーク４２００が出力した暫定の識別結果の夫々に基づいて、夫々のクラスの損失値を算出する。より具体的には、肝臓の正解画像ｔ_{ｌｉｖｅｒ}と、肝臓ネットワーク４２１０が出力した肝臓の暫定の識別結果ｙ_{ｌｉｖｅｒ}とに基づく損失関数Ｌ_{ｌｉｖｅｒ}（ｙ_{ｌｉｖｅｒ}，ｔ_{ｌｉｖｅｒ}）により、肝臓の暫定の識別結果に対する損失値を算出する。同様に、損失関数Ｌ_{ｋｉｄｎｅｙ}（ｙ_{ｋｉｄｎｅｙ}，ｔ_{ｋｉｄｎｅｙ}）により、腎臓の暫定の識別結果に対する損失値を算出し、損失関数Ｌ_{ｇａｌｌｂｌａｄｄｅｒ}（ｙ_{ｇａｌｌｂｌａｄｄｅｒ}，ｔ_{ｇａｌｌｂｌａｄｄｅｒ}）により、胆のうの暫定の識別結果に対する損失値を算出する。

【0088】

一方、ステップＳ６３２０において図７（ｂ）に示すような肝臓の正解画像のみが存在する不完全な教示データが選択された場合、ステップＳ６３４０において肝臓の暫定の識別結果が得られる。そのため、本ステップでは、学習部５３０は、教示データの肝臓の正解画像と肝臓ネットワーク４２１０が出力した肝臓の暫定の識別結果とに基づく損失関数Ｌ_{ｌｉｖｅｒ}（ｙ_{ｌｉｖｅｒ}，ｔ_{ｌｉｖｅｒ}）により、肝臓の暫定の識別結果に対する損失値を算出する。図７（ｃ）に示すような腎臓の正解画像のみが存在する不完全な教示データや、図７（ｄ）に示すような胆のうの正解画像のみが存在する不完全な教示データにおいても、同様に損失値を算出する。すなわち、ステップＳ６３２０において不完全な教示データが選択された場合は、正解画像の夫々と、正解画像が存在するクラスに対応する暫定の識別結果の夫々に基づいて、暫定の識別結果に対する損失値を夫々算出する。

【0089】

なお、損失関数は公知のものを用いればよい。例えば、ＭＳＥ（ＭｅａｎＳｑｕａｒｅｄＥｒｒｏｒ）や、ＣｒｏｓｓＥｎｔｒｏｐｙを用いる。また、複数の暫定の識別結果であるシングルクラス出力層の夫々の出力に対して、同一の損失関数を用いて損失値を算出してもよいし、異なる損失関数を用いて損失値を算出してもよい。例えば、肝臓の暫定結果に対する損失値はＭＳＥで算出し、腎臓の暫定結果および胆のうの暫定結果に対する損失値はＣｒｏｓｓＥｎｔｒｏｐｙで算出してもよい。また、各々の損失値に重みを付与してもよい。例えば、肝臓に比重をおいて学習させたい場合には、肝臓の暫定結果に対する損失値に大きい重みを付与し、腎臓の暫定結果および胆のうの暫定結果に対する
損失値に対する損失値に小さい重みを付与する構成としてもよい。

【0090】

（ステップＳ６３６０）
本ステップにおいて、学習部５３０は、ステップＳ６３３０で決定したパラメータを更新する層の情報と、ステップＳ６３５０で算出した暫定結果の夫々に対する損失値とに基づき、パラメータを更新する。

【0091】

ステップＳ６３２０において図７（ａ）に示すような完全な教示データが選択された場合、ステップＳ６３５０において肝臓の暫定の識別結果に対する損失値、腎臓の暫定の識別結果に対する損失値、胆のうの識別結果に対する損失値が得られている。そのため、本ステップでは、学習部５３０は、夫々の損失値に基づき、誤差逆伝播法などの公知の方法を用いて、パラメータを更新する。ここでは、誤差逆伝播法を例に説明する。肝臓の暫定の識別結果に対する損失値は、肝臓ネットワーク４２１０の出力に対する損失値である。そのため、学習部５３０は、肝臓の暫定の識別結果に対する損失値を、肝臓ネットワーク４２１０の末端に存在する肝臓クラスを識別するためのシングルクラス出力層４２１１から逆伝播処理を実行して勾配を算出する。同様に、腎臓の暫定の識別結果に対する損失値は、腎臓クラスを識別するためのシングルクラス出力層４２２１から逆伝播処理を実行して勾配を算出する。胆のうの暫定の識別結果に対する損失値は、胆のうクラスを識別するためのシングルクラス出力層４２３１から逆伝播処理を実行して勾配を算出する。共通ネットワーク４１００は、複数のシングルクラスネットワーク４２００の夫々から逆伝播されてきた値を考慮して、逆伝播処理を実行して勾配を算出する。そして、学習部５３０は、勾配に基づいてステップ６３３０で決定したパラメータを更新する層のパラメータを更新する。

【0092】

一方、ステップＳ６３２０において図７（ｂ）に示すような肝臓の正解画像のみが存在する不完全な教示データが選択された場合、ステップＳ６３５０において肝臓の暫定の識別結果に対する損失値が得られている。そのため、本ステップでは、学習部５３０は、肝臓の暫定の識別結果に対する損失値を、肝臓ネットワーク４２１０の末端に存在する肝臓クラスを識別するためのシングルクラス出力層４２１１から逆伝播処理を実行して勾配を算出する。共通ネットワーク４１００は、肝臓ネットワーク４２１０から逆伝播されてきた値を考慮して、逆伝播処理を実行して勾配を算出する。そして、学習部５３０は、勾配に基づいて、ステップ６３３０で決定したパラメータを更新する層のパラメータを更新する。図７（ｃ）に示すような腎臓の正解画像のみが存在する不完全な教示データや、図７（ｄ）に示すような胆のうの正解画像のみが存在する不完全な教示データにおいても、同様にパラメータを更新する。

【0093】

（ステップＳ６３７０）
本ステップにおいて、学習部５３０は、ＣＮＮのパラメータを記憶装置７０に保存し、ステップＳ６３００を終了する。

【0094】

以上の手順にしたがい、本実施形態に係る画像処理装置５００は、画像処理装置１００におけるＣＮＮのパラメータを生成する。

【0095】

（本実施形態の効果）
以上に示したように、本実施形態に係る画像処理装置１００および画像処理装置５００におけるＣＮＮは、肝臓の正解画像、腎臓の正解画像、胆のうの正解画像のうち、一部の正解画像が欠損している教示データであっても、学習することができる。すなわち、複数の注目物体の夫々を表すクラスに対応する正解データのうち、一部のクラスに対応する正解データが欠損している教示データであっても学習に利用することができる。

【0096】

＜第二の実施形態＞（概要）
第一の実施形態におけるＣＮＮは、共通ネットワークに、複数のクラスの夫々に対応するシングルクラスネットワークを接続することで、不完全な教示データであっても学習できるような構成にした。しかしながら、第一の実施形態におけるＣＮＮは、シングルクラスネットワークの夫々の末端で対応するクラスの識別結果のみを出力するため、夫々のクラスの配置関係を考慮した出力が得られにくい。例えば、肝臓ネットワークは、肝臓の暫定の識別結果に対する損失値のみによってパラメータを更新するため、肝臓と肝臓以外とのいずれかに分類するように学習される。すなわち、肝臓ネットワークでは、腎臓や胆のうは、肝臓以外に含まれる物体のうちの一つとして学習されるため、互いの配置関係は学習されにくい。腎臓ネットワークや胆のうネットワークについても同様である。

【0097】

例えば人体における臓器のように、臓器間の位置関係がある程度決まっている場合には、夫々の臓器（クラス）間の配置関係を学習した方が、識別精度の向上が期待できる。そのため、本実施形態では、互いの配置関係を考慮した出力が得られるように、マルチクラス出力層を有するマルチクラスネットワークを備えるＣＮＮの構成およびその学習方法について説明する。

【0098】

本実施形態において、本明細書で開示される発明は、第一の実施形態と同様に、画像処理装置１００と画像処理装置５００を用いて実現される。画像処理装置１００は本実施形態に係るＣＮＮの推論工程を実行し、画像処理装置５００は学習工程を実行する。

【0099】

［推論工程］（機能構成・ハードウェア構成）
本実施形態に係る画像処理装置１００の機能構成およびハードウェア構成は、第一の実施形態に係る画像処理装置１００と同一であるため、説明を省略する。

【0100】

（処理フロー）
図３を参照して、本実施形態における画像処理装置１００の処理手順について説明する。以下では、第一の実施形態に係る画像処理装置１００の説明との重複部分を省略して説明する。

【0101】

（ステップＳ３１００）
本ステップの処理は、第一の実施形態におけるステップＳ３１００と同一であるため、説明を省略する。

【0102】

【0103】

図８を参照して本実施形態におけるＣＮＮの構成を説明する。本実施形態に係るＣＮＮ８０００は、第一の実施形態に係るＣＮＮ４０００に、さらにマルチクラスネットワーク８３００が接続されて構成される。すなわち、本実施形態に係るＣＮＮ８０００は、共通ネットワーク４１００と、複数のシングルクラスネットワーク４２００と、マルチクラスネットワーク８３００を有する。共通ネットワーク４１００と複数のシングルクラスネットワーク４２００は、第一の実施形態に係るＣＮＮと同一であるため、説明を省略する。

【0104】

マルチクラスネットワーク８３００は、複数のシングルクラスネットワーク４２００に接続されており、複数のシングルクラスネットワーク４２００の夫々が抽出した複数の第二の特徴（夫々のシングルクラスに関する特徴）が入力される。マルチクラスネットワーク８３００は、複数のクラスを識別するためのマルチクラス出力層を有しており、第二の
特徴に基づいて第三の特徴（マルチクラスに関する特徴）を抽出する。そして、マルチクラスネットワーク８３００は、第三の特徴に基づいて、複数のクラスの識別結果を同時に出力する。複数のクラスの識別結果とは、具体的に、肝臓、腎臓、胆のう、その他の領域の各尤度マップである。ここで、その他の領域とは、腹部ＣＴ画像中に描出される肝臓、腎臓、胆のうを除くすべての領域のことを指す。マルチクラスネットワーク８３００には、複数の第二の特徴を結合するためのＣｏｎｃａｔｅｎａｔｉｏｎ層が存在する。また、末端には、肝臓、腎臓、胆のう、その他の領域の尤度マップを同時に出力するためのマルチクラス出力層８３０１が存在する。マルチクラス出力層８３０１は、Ｃｏｎｖｏｌｕｔｉｏｎ層であり、活性化関数としてＳｏｆｔｍａｘ関数が設定されている。

【0105】

このように構成されたＣＮＮ８０００は、複数のパラメータを有する。そのため、本ステップＳ３２００では、後述の学習工程で得られたパラメータを、ＣＮＮ８０００に設定することで、肝臓、腎臓、胆のう領域をセグメンテーションするＣＮＮを構築する。これにより、本実施形態に係るＣＮＮ８０００は、第一の実施形態に係るＣＮＮと同様に、複数のシングルクラスネットワーク４２００の夫々の末端に存在するシングルクラス出力層から、夫々に対応するクラスの識別結果として、夫々の尤度マップを出力できる。さらに、マルチクラスネットワーク８３００の末端に存在するマルチクラス出力層から、肝臓、腎臓、胆のうの識別結果として、夫々の尤度マップを出力できるようになる。以降では、複数のシングルクラスネットワーク４２００の夫々の末端に存在するシングルクラス出力層から出力された識別結果を、肝臓の第一の尤度マップ、腎臓の第一の尤度マップ、胆のうの第一の尤度マップと呼ぶ。これら３つの尤度マップをまとめて第一の尤度マップと呼ぶ。また、マルチクラスネットワーク８３００の末端に存在するマルチクラス出力層８３０１から出力された識別結果を、肝臓の第二の尤度マップ、腎臓の第二の尤度マップ、胆のうの第二の尤度マップと呼ぶ。これら３つの尤度マップをまとめて第二の尤度マップと呼ぶ。

【0106】

本実施形態に係るＣＮＮ８０００は、後述する学習方法により、肝臓の正解画像、腎臓の正解画像、胆のうの正解画像のうち、一つ以上の正解画像が存在しない教示データ（不完全な教示データ）であっても学習することが可能である。すなわち、複数の注目物体の夫々を表すクラスに対応する正解データのうち、一部のクラスに対応する正解データが欠損している教示データであっても学習に利用することができる。

【0107】

本実施形態に係るＣＮＮにおけるマルチクラスネットワーク８３００は、複数のシングルクラスネットワーク４２００の夫々が抽出した複数の第二の特徴を入力とするように構成したが、これに限らない。例えば、共通ネットワーク４１００が抽出した第一の特徴をマルチクラスネットワーク８３００の入力とするように構成してもよい。つまり、マルチクラスネットワーク８３００は、共通ネットワーク４１００に接続してもよい。この場合、複数のシングルクラスネットワーク４２００とマルチクラスネットワーク８３００は並列処理が可能となる。また、第一の特徴と、複数の第二の特徴とをマルチクラスネットワーク８３００の入力とするように構成してもよい。つまり、マルチクラスネットワーク８３００は、共通ネットワーク４１００と複数のシングルクラスネットワーク４２００とに接続してもよい。第一の特徴は、複数の第二の特徴よりも入力層に近い層で抽出した特徴であるため、入力である腹部ＣＴ画像のディティールを保持していると考えられる。一方で、複数の第二の特徴は、第一の特徴よりも入力層から遠い層で抽出した特徴であるため、高次の情報を保持していると考えられる。そのため、第一の特徴と複数の第二の特徴とを入力とすることで、双方の特性を考慮した出力が得られるため、識別精度の向上が期待できる。また、本実施形態に係るＣＮＮにおいて、複数のシングルクラスネットワークの全てに接続する１つのマルチクラスネットワークを用いているが、一部のシングルクラスネットワークに接続する１つまたは複数のマルチクラスネットワークを用いてもよい。例えば、肝臓が最も注目すべき臓器である場合、肝臓ネットワーク４２１０と、その他２つ
のネットワークのうちの１つのネットワークとに接続するマルチクラスネットワークを２つ用いてＣＮＮ８０００を構成してもよい。より具体的には、第一のマルチクラスネットワークは、肝臓ネットワーク４２１０と腎臓ネットワーク４２２０とに接続され、第二のマルチクラスネットワークは肝臓ネットワーク４２１０と胆のうネットワーク４２３０とに接続される。このようにすることで、第一のマルチクラスネットワークでは、肝臓と腎臓の関係をより確からしく学習させることができ、同様に第二のマルチクラスネットワークでは、肝臓と胆のうの関係をより確からしく学習させることができる。

【0108】

（ステップＳ３２５０）
本ステップの処理は、第一の実施形態におけるステップＳ３２５０と同一であるため、説明を省略する。

【0109】

（ステップＳ３３００）
本ステップにおいて、識別部１３０は、第一のデータ取得部１１０から受信した入力画像を、第一のネットワーク構築部１２０から受信したＣＮＮに入力して順伝播処理を実行することで、推論処理を実行する。本実施例では、複数のシングルクラスネットワーク４２００から第一の尤度マップを取得し、マルチクラスネットワーク８３００から第二の尤度マップを取得する。本ステップにおける処理の詳細は第一の実施形態と同様であるため、説明を省略する。

【0110】

なお、本実施形態において、識別部１３０は、第一の尤度マップと第二の尤度マップの双方を取得したが、いずれか一方でも構わない。例えば、第二の尤度マップのみを取得する場合、複数のシングルクラスネットワーク４２００では、夫々の末端に存在するシングルクラス出力層には順伝播させずに、マルチクラスネットワーク８３００に順伝播させる。あるいは、ステップＳ３２００において、ＣＮＮを構築する際に、シングルクラス出力層をあらかじめ除いておいてもよい。この場合、シングルクラス出力層は学習工程にのみ用いることになる。

【0111】

（ステップＳ３４００）
本ステップにおいて、識別部１３０は、第一の尤度マップと第二の尤度マップに対して後処理を行うことで、セグメンテーション結果を得て、記憶装置７０やモニタ２０５に出力する。

【0112】

本ステップでは、識別部１３０は、第一の尤度マップと第二の尤度マップにおける、同じクラスに関する尤度マップを統合し、当該クラスの新たな尤度マップ（第三の尤度マップ）を生成する。具体的には、識別部１３０は、肝臓の第一の尤度マップに含まれる画素の画素値と、肝臓の第二の尤度マップに含まれる画素の画素値を平均値統合し、肝臓の第三の尤度マップを生成する。同様に、識別部１３０は、腎臓の第三の尤度マップと胆のうの第三の尤度マップを生成する。そして、識別部１３０は、セグメンテーション結果として、肝臓の第三の尤度マップ、腎臓の第三の尤度マップ、胆のうの第三の尤度マップを出力する。

【0113】

上述の方法では、第一の尤度マップと第二の尤度マップを平均値統合したが、統合方法はこれに限らない。例えば、平均値統合をする際に、第一の尤度マップと第二の尤度マップに重みを付与して平均値統合してもよい。その他にも、第一の尤度マップと第二の尤度マップに含まれる画素の画素値を、最大値統合や最小値統合で統合してもよいし、夫々の尤度マップを二値画像に変換した後に、論理和統合、論理積統合などの方法で統合してもよい。例えば、肝臓の第一の尤度マップおよび肝臓の第二の尤度マップの双方において、肝臓領域が抽出不足になりやすい場合は、最大値統合や論理和統合を行うことで、肝臓領域の抽出不足を抑制できる。また、肝臓の第一の尤度マップおよび肝臓の第二の尤度マッ
プの双方において、肝臓以外の領域を誤抽出しやすい場合は、最小値統合や論理積統合を行うことで、肝臓以外の領域の誤抽出を抑制できる。

【0114】

上記において、平均値統合は、第一の尤度マップと第二の尤度マップの対応する画素の平均値を、統合後の尤度マップとして画素値とする統合方法である。最大値統合、最小値統合、論理和統合、論理積統合も、同様であり、平均値の代わりに最大値、最小値、論理和、論理積を統合後の画素値とする統合方法である。

【0115】

上記では、後処理として第一の尤度マップと第二の尤度マップの統合処理を実施したが、第一の実施形態におけるステップＳ３４００に記載した後処理を適用しても構わない。その他、第一の尤度マップおよび第二の尤度マップに対して、如何なる後処理を適用しても構わない。

【0116】

なお、本ステップは必須ではないため、省略してもよい。その場合、識別部１３０はセグメンテーション結果として、肝臓の第一の尤度マップ、腎臓の第一の尤度マップ、胆のうの第一の尤度マップと、肝臓の第二の尤度マップ、腎臓の第二の尤度マップ、胆のうの第二の尤度マップとを出力する。

【0117】

以上の手順にしたがい、本実施形態に係る画像処理装置１００は、腹部ＣＴ画像から肝臓、腎臓、胆のうのセグメンテーション結果を出力する。

【0118】

［学習工程］（機能構成・ハードウェア構成）
本実施形態に係る画像処理装置５００の機能構成およびハードウェア構成は、第一の実施形態に係る画像処理装置５００と同一であるため、説明を省略する。

【0119】

（処理フロー）
図６を参照して、本実施形態における画像処理装置５００の処理手順について説明する。以下では、第一の実施形態に係る画像処理装置５００の説明との重複部分を省略して説明する。

【0120】

【0121】

本実施形態に係るＣＮＮ８０００は、マルチクラス出力層８３０１を有するマルチクラスネットワーク８３００を備える。このマルチクラスネットワーク８３００を学習させるためには、肝臓の正解画像、腎臓の正解画像、胆のうの正解画像がすべて揃った教示データ（完全な教示データ）が必要である。なぜならば、マルチクラス出力層８３０１が出力した複数の暫定の識別結果（肝臓の暫定の識別結果、腎臓の暫定の識別結果、胆のうの暫定の識別結果）に対して、正しい損失値を算出するためには、夫々の正解画像が必要になるためである。したがって、第二のデータ取得部５１０は、完全な教示データを少なくとも１つ以上含むように教示データを取得する。

【0122】

（ステップＳ６２００）
本ステップの処理は、第一の実施形態におけるステップＳ６２００と同一であるため、説明を省略する。

【0123】

（ステップＳ６３００）
本ステップにおいて、学習部５３０は、第二のデータ取得部５１０から受信した複数の
教示データを用いて、第二のネットワーク構築部５２０から受信したＣＮＮを、後述の学習方法によって学習する。そして、学習後のＣＮＮのパラメータを記憶装置７０に保存する。

【0124】

図６（ｂ）を参照して、学習方法について詳説する。第一の実施形態と同様のステップについては説明を省略し、差分についてのみ説明する。

【0125】

（ステップＳ６３１０）
本ステップの処理は、第一の実施形態におけるステップＳ６３１０と同一であるため、説明を省略する。

【0126】

（ステップＳ６３２０）
本ステップの処理は、第一の実施形態におけるステップＳ６３２０と同一であるため、説明を省略する。

【0127】

（ステップＳ６３３０）
本ステップにおいて、学習部５３０は、ステップＳ６３２０で選択した教示データの属性に基づいて、パラメータを更新する層を決定する。

【0128】

ステップＳ６３２０において図７（ａ）に示すような完全な教示データが選択された場合、本ステップでは、学習部５３０は、すべてのネットワークに含まれる層を、パラメータを更新する層として決定する。すなわち、学習部５３０は、共通ネットワーク４１００、複数のシングルクラスネットワーク４２００、マルチクラスネットワーク８３００に含まれる層を、パラメータを更新する層として決定する。

【0129】

一方、ステップＳ６３２０において図７（ｂ）～図７（ｄ）に示すような不完全な教示データが選択された場合は、第一の実施形態におけるステップＳ６３３０に記載の処理を実行する。すなわち、学習部５３０は、共通ネットワーク４１００と、正解画像が存在するクラスに対応するシングルクラスネットワークに含まれる層を、パラメータを更新する層として決定する。

【0130】

このように本実施形態では、完全な教示データを用いて学習する際には、マルチクラスネットワーク８３００を学習し、不完全な教示データを用いて学習する際には、マルチクラスネットワーク８３００を学習しない。

【0131】

【0132】

ステップＳ６３２０において図７（ａ）に示すような完全な教示データが選択された場合、本ステップでは、共通ネットワーク４１００、複数のシングルクラスネットワーク４２００、マルチクラスネットワーク８３００に対して順伝播処理を実行する。これにより、複数のシングルクラスネットワーク４２００の夫々から、肝臓の第一の暫定の識別結果、腎臓の第一の暫定の識別結果、胆のうの第一の暫定の識別結果を取得する。これらをまとめて第一の暫定の識別結果と称する。また、マルチクラスネットワーク８３００から、肝臓の第二の暫定の識別結果、腎臓の第二の暫定の識別結果、胆のうの第二の暫定の識別結果、その他の領域の暫定の識別結果を取得する。これらをまとめて第二の暫定の識別結果と称する。

【0133】

一方、ステップＳ６３２０において図７（ｂ）～図７（ｄ）に示すような不完全な教示データが選択された場合は、第一の実施形態におけるステップＳ６３４０に記載の処理を実行する。すなわち、学習部５３０は、正解画像が存在するクラスまたは全てのクラスに対応する第一の暫定の識別結果を取得する。

【0134】

【0135】

ステップＳ６３２０において図７（ａ）に示すような完全な教示データが選択された場合、ステップＳ６３４０において第一の暫定の識別結果と第二の暫定の識別結果の夫々が得られている。そのため、本ステップでは、学習部５３０は、教示データの正解画像の夫々と、第一の暫定の識別結果の夫々とに基づいて、第一の暫定の識別結果の夫々に対する複数の損失値を算出する。また、学習部５３０は、教示データの正解画像の夫々と、第二の暫定の識別結果の夫々とに基づいて、第二の暫定の識別結果に対する損失値を算出する。第二の暫定の識別結果に対する損失値は、夫々の正解画像ｔ_{ｍｕｌｔｉ－ｃｌａｓｓ}＝［ｔ_{ｌｉｖｅｒ}，ｔ_{ｋｉｄｎｅｙ}，ｔ_{ｇａｌｌｂｌａｄｄｅｒ}，ｔ_{ｏｔｈｅｒｓ}］と、第二の暫定の識別結果ｙ_{ｍｕｌｔｉ－ｃｌａｓｓ}＝［ｙ_{ｌｉｖｅｒ}，ｙ_{ｋｉｄｎｅｙ}，ｙ_{ｇａｌｌｂｌａｄｄｅｒ}，ｙ_{ｏｔｈｅｒｓ}］に基づく損失関数Ｌ_{ｍｕｌｔｉ－ｃｌａｓｓ}（ｙ_{ｍｕｌｔｉ－ｃｌａｓｓ}，ｔ_{ｍｕｌｔｉ－ｃｌａｓｓ}）により算出する。ここで、ｔ_{ｏｔｈｅｒｓ}はその他の領域の正解画像であり、ｙ_{ｏｔｈｅｒｓ}はその他の領域の暫定の識別結果を表す。第一の暫定の識別結果の夫々に対する複数の損失値の算出については、第一の実施形態におけるステップＳ６３５０に記載の通りである。

【0136】

一方、ステップＳ６３２０において図７（ｂ）～図７（ｄ）に示すような不完全な教示データが選択された場合は、第一の実施形態におけるステップＳ６３５０に記載の処理を実行する。すなわち、学習部５３０は、ステップＳ６３４０で得られた第一の暫定の識別結果に対する損失値を算出する。

【0137】

なお、損失関数は公知のものを用いればよい。また、第一の暫定の識別結果と第二の暫定の識別結果の夫々に対して、同一の損失関数を用いて損失値を算出してもよいし、異なる損失関数を用いて損失値を算出してもよいし、各々の損失値に重みを付与してもよい。シングルクラス出力層のみを有するＣＮＮと、マルチクラス出力層のみを有するＣＮＮを学習する際に、良好な学習結果が得られる損失関数が異なる場合がある。例えば、シングルクラス出力層のみを有するＣＮＮでは、ＭＳＥが最も良好な学習結果が得られるのに対し、マルチクラス出力層のみを有するＣＮＮでは、ＣｒｏｓｓＥｎｔｒｏｐｙが最も良好な学習結果が得られるということがある。このような場合、本実施形態に係るＣＮＮにおいても、同様の現象が生じる可能性がある。そのため、第一の暫定の識別結果に対しては、ＭＳＥにより損失値を算出し、第二の暫定の識別結果に対しては、ＣｒｏｓｓＥｎｔｒｏｐｙにより損失値を算出することで、双方の識別精度の向上が期待できる。

【0138】

【0139】

ステップＳ６３２０において図７（ａ）に示すような完全な教示データが選択された場合、ステップＳ６３５０において第一の暫定の識別結果の夫々に対する複数の損失値および第二の暫定の識別結果に対する損失値が得られている。そのため、本ステップでは、学習部５３０は、夫々の損失値に基づき、誤差逆伝播法などの公知の方法を用いて、パラメ
ータを更新する。ここで、第二の暫定の識別結果に対する損失値は、マルチクラスネットワーク８３００の出力に対する損失値である。そのため、第二の暫定の識別結果に対する損失値を、マルチクラスネットワーク８３００の末端に存在するマルチクラス出力層８３０１から逆伝播させて勾配を算出する。同様に、学習部５３０は、第一の暫定の識別結果に対する複数の損失値を、複数のシングルクラスネットワーク４２００の夫々の末端に存在するシングルクラス出力層から逆伝播させて勾配を算出する。このとき、複数のシングルクラスネットワーク４２００の夫々には、マルチクラスネットワーク８３００が接続されているため、マルチクラスネットワーク８３００から逆伝播されてきた値を考慮して逆伝播処理を実行し、勾配を算出する。同様に、共通ネットワーク４１００は、複数のシングルクラスネットワーク４２００の夫々から逆伝播されてきた値を加味して、逆伝播処理を実行して勾配を算出する。そして、学習部５３０は、勾配に基づいて、ステップ６３３０で決定したパラメータを更新する層のパラメータを更新する。

【0140】

一方、ステップＳ６３２０において図７（ｂ）～図７（ｄ）に示すような不完全な教示データが選択された場合は、第一の実施形態におけるステップＳ６３６０に記載の処理を実行する。

【0141】

（ステップＳ６３７０）
本ステップの処理は、第一の実施形態におけるステップＳ６３７０と同一であるため、説明を省略する。

【0142】

以上の手順にしたがい、本実施形態に係る画像処理装置５００は、画像処理装置１００におけるＣＮＮのパラメータを生成する。

【0143】

【0144】

＜第三の実施形態＞
本明細書で開示される発明は、セグメンテーションに限定されるものではない。例えば、物体認識や物体検出などにも適用できる。物体認識とは、画像に描出されている注目物体がどのクラス（カテゴリー）に属するかを識別するタスクである。物体検出とは、画像に描出されている注目物体の位置（または位置とクラス）を識別するタスクである。

【0145】

図９に物体認識を行うためのＣＮＮ９０００を例示する。例示したＣＮＮ９０００は、共通ネットワーク９１００、複数のシングルクラスネットワーク９２００、マルチクラスネットワーク９３００を有する。このＣＮＮ９０００には、層間のすべてのニューロンを結合するＦｕｌｌＣｏｎｎｅｃｔｉｏｎ層が含まれており、ＦｕｌｌＣｏｎｎｅｃｔｉｏｎ層の出力結果に活性化関数を適用するように構成されている。複数のシングルクラスネットワーク９２００の夫々の末端には、シングルクラス出力層が存在する。シングルクラス出力層は、ＦｕｌｌＣｏｎｎｅｃｔｉｏｎ層であり、活性化関数にはＳｉｇｍｏｉｄ関数が設定されている。マルチクラスネットワーク９３００の末端には、マルチクラス出力層９３０１が存在する。マルチクラス出力層は、ＦｕｌｌＣｏｎｎｅｃｔｉｏｎ層であり、活性化関数にはＳｏｆｔｍａｘ関数が設定されている。このＣＮＮは、シングルクラスネットワーク９２００の末端に存在するシングルクラス出力層により、不完全な教示データであっても学習に利用することが可能になり、本明細書に開示される発明の効果を得ることができる。

【0146】

また、本明細書で開示される発明は、処理対象のデータに対する制約はない。上記では、Ｘ線ＣＴ装置で撮影されたＣＴ画像を例に説明したが、核磁気共鳴撮像（ＭＲＩ）装置や超音波撮像装置などで撮像された他の医用画像も処理することが可能である。また、カメラで撮影した画像や、デプスセンサで取得した三次元データ、音声信号、テキストデータなども処理することが可能である。その他、如何なるデータに対しても、本明細書で開示される発明を適用することができる。

【0147】

（その他の実施例）本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

【符号の説明】

【0148】

４０００：ニューラルネットワーク（ＣＮＮ）
４１００：共通ネットワーク
４２１０，４２２０，４２３０：シングルクラスネットワーク
４２１１，４２２１，４２３１：シングルクラス出力層

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【手続補正書】

【提出日】2024-05-27

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

【請求項2】

前記学習ステップは、前記教示データの正解データが欠損しているかいないかにかかわらず、前記共通ネットワークを学習する、
ことを特徴とする請求項１に記載のニューラルネットワークの学習方法。

【請求項3】

前記学習ステップは、前記シングルクラス出力層の夫々の出力に対して、異なる損失関数を用いて損失値を算出する、
ことを特徴とする請求項１又は請求項２に記載のニューラルネットワークの学習方法。

【請求項4】

前記ニューラルネットワークは、前記複数のクラスのうち、２つ以上のクラスを識別するためのマルチクラス出力層を有するマルチクラスネットワークをさらに備え、
前記学習ステップは、前記複数のクラスのうち、すべてのクラスに対応する正解データを含む教示データを用いて学習する際に、前記マルチクラスネットワークを学習し、１つ以上のクラスに対応する正解データが欠損している教示データを用いて学習する際に、前記マルチクラスネットワークを学習しない、
ことを特徴とする請求項１乃至請求項３のいずれか１項に記載のニューラルネットワー
クの学習方法。

【請求項5】

前記学習ステップは、前記シングルクラス出力層の出力と、前記マルチクラス出力層の出力に対して、異なる損失関数を用いて損失値を算出する、
ことを特徴とする請求項４に記載のニューラルネットワークの学習方法。

【請求項6】

前記学習ステップは、教示データがどのクラスの正解データを有しているかに応じて、該教示データを用いて学習する際のパラメータを更新する層を決定する、
ことを特徴とする請求項１乃至請求項５のいずれか１項に記載のニューラルネットワークの学習方法。

【請求項7】

前記学習ステップは、教示データがどのクラスの正解データを有しているかに応じて教示データをグループ分けし、１エポック内で、グループごとに教示データを選択して学習を行う、
ことを特徴とする請求項１乃至請求項６のいずれか１項に記載のニューラルネットワークの学習方法。

【請求項8】

前記学習ステップは、すべてのクラスの正解データを有している教示データのグループを、１エポック内の最後に選択して学習を行う、
ことを特徴とする請求項６に記載のニューラルネットワークの学習方法。

【請求項9】

【請求項10】

画像を取得する取得部と、
学習済みのニューラルネットワークを用いて、識別を行う識別部と、
を備えた画像処理装置であって、
前記学習済みのニューラルネットワークは、複数のクラスに共通する共通ネットワークと、前記共通ネットワークに接続され、前記複数のクラスの夫々を個別に識別するためのシングルクラス出力層を有する複数のシングルクラスネットワークとを備え、前記複数のクラスのうち、１つ以上のクラスに対応する正解データを含む教示データを用いて学習されたニューラルネットワークであり、
前記学習済みのニューラルネットワークは、前記複数のクラスのうち、１つ以上のクラスに対応する正解データが欠損している教示データを用いて学習される際に、正解データが欠損していないクラスに対応するシングルクラスネットワークが学習されたニューラルネットワークである、
ことを特徴とする画像処理装置。

【請求項11】

前記学習済みのニューラルワークは、前記複数のクラスのうち、１つ以上のクラスに対
応する正解データが欠損している教示データを用いて学習される際に、正解データが欠損しているクラスに対応するシングルクラスネットワークが学習されていないニューラルネットワークである、
ことを特徴とする請求項１０に記載の画像処理装置。

【請求項12】

画像を取得する取得ステップと、
学習済みのニューラルネットワークを用いて、識別を行う識別ステップと、
を含む画像処理方法であって、
前記学習済みのニューラルネットワークは、複数のクラスに共通する共通ネットワークと、前記共通ネットワークに接続され、前記複数のクラスの夫々を個別に識別するためのシングルクラス出力層を有する複数のシングルクラスネットワークとを備え、前記複数のクラスのうち、１つ以上のクラスに対応する正解データを含む教示データを用いて学習されたニューラルネットワークであり、
前記学習済みのニューラルネットワークは、前記複数のクラスのうち、１つ以上のクラスに対応する正解データが欠損している教示データを用いて学習される際に、正解データが欠損していないクラスに対応するシングルクラスネットワークが学習されたニューラルネットワークである、
ことを特徴とする画像処理方法。

【請求項13】

前記学習済みのニューラルワークは、前記複数のクラスのうち、１つ以上のクラスに対応する正解データが欠損している教示データを用いて学習される際に、正解データが欠損しているクラスに対応するシングルクラスネットワークが学習されていないニューラルネットワークである、
ことを特徴とする請求項１２に記載の画像処理方法。

【請求項14】

請求項１～７，１２，１３のいずれか１項に記載の方法の各ステップをコンピュータに実行させるためのプログラム。

【手続補正2】

【補正対象書類名】明細書

【補正対象項目名】０００７

【補正方法】削除

【補正の内容】

【手続補正3】

【補正対象書類名】明細書

【補正対象項目名】０００８

【補正方法】変更

【補正の内容】

【0008】

本発明の第一の態様は、
複数のクラスに共通する共通ネットワークと、前記共通ネットワークに接続され前記複数のクラスの夫々を個別に識別するためのシングルクラス出力層を有する複数のシングルクラスネットワークとを備えるニューラルネットワークの学習方法であって、
前記複数のクラスのうち、１つ以上のクラスに対応する正解データを含む教示データを取得する取得ステップと、
前記教示データを用いて、前記ニューラルネットワークを学習する学習ステップと、
を備え、
前記学習ステップは、前記複数のクラスのうち、１つ以上のクラスに対応する正解データが欠損している教示データを用いて学習する際に、正解データが欠損していないクラスに対応するシングルクラスネットワークを学習し、正解データが欠損しているクラスに対
応するシングルクラスネットワークを学習しない、
ことを特徴とするニューラルネットワークの学習方法である。

【手続補正4】

【補正対象書類名】明細書

【補正対象項目名】０００９

【補正方法】変更

【補正の内容】

【0009】

本発明の第二の態様は、
画像を取得する取得部と、
学習済みのニューラルネットワークを用いて、識別を行う識別部と、
を備えた画像処理装置であって、
前記学習済みのニューラルネットワークは、複数のクラスに共通する共通ネットワークと、前記共通ネットワークに接続され、前記複数のクラスの夫々を個別に識別するためのシングルクラス出力層を有する複数のシングルクラスネットワークとを備え、前記複数のクラスのうち、１つ以上のクラスに対応する正解データを含む教示データを用いて学習されたニューラルネットワークであり、
前記学習済みのニューラルネットワークは、前記複数のクラスのうち、１つ以上のクラスに対応する正解データが欠損している教示データを用いて学習される際に、正解データが欠損していないクラスに対応するシングルクラスネットワークが学習されたニューラルネットワークである、
ことを特徴とする画像処理装置である。

【手続補正5】

【補正対象書類名】明細書

【補正対象項目名】００１０

【補正方法】変更

【補正の内容】

【0010】

本発明の第三の態様は、
画像を取得する取得ステップと、
学習済みのニューラルネットワークを用いて、識別を行う識別ステップと、
を含む画像処理方法であって、
前記学習済みのニューラルネットワークは、複数のクラスに共通する共通ネットワークと、前記共通ネットワークに接続され、前記複数のクラスの夫々を個別に識別するためのシングルクラス出力層を有する複数のシングルクラスネットワークとを備え、前記複数のクラスのうち、１つ以上のクラスに対応する正解データを含む教示データを用いて学習されたニューラルネットワークであり、
前記学習済みのニューラルネットワークは、前記複数のクラスのうち、１つ以上のクラスに対応する正解データが欠損している教示データを用いて学習される際に、正解データが欠損していないクラスに対応するシングルクラスネットワークが学習されたニューラルネットワークである、
ことを特徴とする画像処理方法である。

【手続補正6】

【補正対象書類名】明細書

【補正対象項目名】００１１

【補正方法】削除

【補正の内容】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版