(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-06-16
(45)【発行日】2023-06-26
(54)【発明の名称】学習データ作成システム及び学習データ作成方法
(51)【国際特許分類】
G06V 10/82 20220101AFI20230619BHJP
G06T 7/00 20170101ALI20230619BHJP
【FI】
G06V10/82
G06T7/00 350C
(21)【出願番号】P 2022504849
(86)(22)【出願日】2020-03-04
(86)【国際出願番号】 JP2020009215
(87)【国際公開番号】W WO2021176605
(87)【国際公開日】2021-09-10
【審査請求日】2022-09-02
(73)【特許権者】
【識別番号】000000376
【氏名又は名称】オリンパス株式会社
(74)【代理人】
【識別番号】100104710
【氏名又は名称】竹腰 昇
(74)【代理人】
【識別番号】100124682
【氏名又は名称】黒田 泰
(74)【代理人】
【識別番号】100090479
【氏名又は名称】井上 一
(74)【代理人】
【識別番号】100166523
【氏名又は名称】西河 宏晃
(72)【発明者】
【氏名】安藤 淳
【審査官】山田 辰美
(56)【参考文献】
【文献】特開2019-213623(JP,A)
【文献】特開2020-17229(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 10/82
G06T 7/00-7/90
(57)【特許請求の範囲】
【請求項1】
第1画像、第2画像、前記第1画像に対応する第1正解情報、及び前記第2画像に対応する第2正解情報を取得する取得部と、
前記第1画像が入力されることで第1特徴マップを生成し、前記第2画像が入力されることで第2特徴マップを生成する第1ニューラルネットワークと、
前記第1特徴マップの一部を前記第2特徴マップの一部で差し替えることで合成特徴マップを生成する特徴マップ合成部と、
前記合成特徴マップに基づいて出力情報を生成する第2ニューラルネットワークと、
前記出力情報、前記第1正解情報、及び前記第2正解情報に基づいて出力誤差を算出する出力誤差算出部と、
前記出力誤差に基づいて前記第1ニューラルネットワーク及び前記第2ニューラルネットワークを更新するニューラルネットワーク更新部と、
を含むことを特徴とする学習データ作成システム。
【請求項2】
請求項1において、
前記第1特徴マップは、第1の複数のチャンネルを含み、
前記第2特徴マップは、第2の複数のチャンネルを含み、
前記特徴マップ合成部は、
前記第1の複数のチャンネルのうち一部のチャンネル全体を、前記第2の複数のチャンネルのうち一部のチャンネル全体で差し替えることを特徴とする学習データ作成システム。
【請求項3】
請求項2において、
前記第1画像と前記第2画像は、超音波画像であることを特徴とする学習データ作成システム。
【請求項4】
請求項1において、
前記出力誤差算出部は、
前記出力情報と前記第1正解情報に基づいて第1出力誤差を算出し、前記出力情報と前記第2正解情報に基づいて第2出力誤差を算出し、前記第1出力誤差と前記第2出力誤差の重み付け和を前記出力誤差として算出することを特徴とする学習データ作成システム。
【請求項5】
請求項1において、
前記取得部は、
第1入力画像を画像拡張することで前記第1画像を生成する第1拡張処理と、第2入力画像を画像拡張することで前記第2画像を生成する第2拡張処理との少なくとも一方を行う画像拡張部を含むことを特徴とする学習データ作成システム。
【請求項6】
請求項5において、
前記第1拡張処理は、
前記第1入力画像に写る第1認識対象と前記第2入力画像に写る第2認識対象との間の位置関係に基づいて、前記第1認識対象の位置補正を前記第1入力画像に対して行う処理を含み、
前記第2拡張処理は、
前記位置関係に基づいて、前記第2認識対象の位置補正を前記第2入力画像に対して行う処理を含むことを特徴とする学習データ作成システム。
【請求項7】
請求項5において、
前記画像拡張部は、
色補正、明るさ補正、平滑化処理、鮮鋭化処理、ノイズ付加及びアフィン変換の少なくとも1つの処理によって前記第1拡張処理及び前記第2拡張処理の少なくとも一方を行うことを特徴とする学習データ作成システム。
【請求項8】
請求項1において、
前記第1特徴マップは、第1の複数のチャンネルを含み、
前記第2特徴マップは、第2の複数のチャンネルを含み、
前記特徴マップ合成部は、
前記第1の複数のチャンネルに含まれるチャンネルの一部の領域を、前記第2の複数のチャンネルに含まれるチャンネルの一部の領域で差し替えることを特徴とする学習データ作成システム。
【請求項9】
請求項8において、
前記特徴マップ合成部は、
前記第1の複数のチャンネルに含まれるチャンネルの帯状領域を、前記第2の複数のチャンネルに含まれるチャンネルの帯状領域で差し替えることを特徴とする学習データ作成システム。
【請求項10】
請求項8において、
前記特徴マップ合成部は、
前記第1の複数のチャンネルに含まれるチャンネルにおいて周期的に設定された領域を、前記第2の複数のチャンネルに含まれるチャンネルにおいて周期的に設定された領域で差し替えることを特徴とする学習データ作成システム。
【請求項11】
請求項8において、
前記特徴マップ合成部は、
前記第1の複数のチャンネルに含まれるチャンネルにおいて差し替えの対象となる前記一部の領域のサイズを、前記第1画像と前記第2画像の分類カテゴリに基づいて決定することを特徴とする学習データ作成システム。
【請求項12】
請求項1において、
前記特徴マップ合成部は、
第1割合で、前記第1特徴マップの一部を前記第2特徴マップの一部で差し替え、
前記出力誤差算出部は、
前記出力情報と前記第1正解情報に基づいて第1出力誤差を算出し、前記出力情報と前記第2正解情報に基づいて第2出力誤差を算出し、前記第1割合に基づく重み付けによって前記第1出力誤差と前記第2出力誤差の重み付け和を算出し、前記重み付け和を前記出力誤差とすることを特徴とする学習データ作成システム。
【請求項13】
請求項12において、
前記出力誤差算出部は、
前記第1割合と同じ割合で前記第1出力誤差と前記第2出力誤差の前記重み付け和を算出することを特徴とする学習データ作成システム。
【請求項14】
請求項12において、
前記出力誤差算出部は、
前記第1割合と異なる割合で前記第1出力誤差と前記第2出力誤差の前記重み付け和を算出することを特徴とする学習データ作成システム。
【請求項15】
請求項1において、
前記第1画像と前記第2画像は、超音波画像であることを特徴とする学習データ作成システム。
【請求項16】
請求項1において、
前記第1画像と前記第2画像は、異なる分類カテゴリであることを特徴とする学習データ作成システム。
【請求項17】
第1画像、第2画像、前記第1画像に対応する第1正解情報、及び前記第2画像に対応する第2正解情報を取得することと、
前記第1画像が第1ニューラルネットワークに入力されることで第1特徴マップを生成し、前記第2画像が前記第1ニューラルネットワークに入力されることで第2特徴マップを生成することと、
前記第1特徴マップの一部を前記第2特徴マップの一部で差し替えることで合成特徴マップを生成することと、
第2ニューラルネットワークが前記合成特徴マップに基づいて出力情報を生成することと、
前記出力情報、前記第1正解情報、及び前記第2正解情報に基づいて出力誤差を算出することと、
前記出力誤差に基づいて前記第1ニューラルネットワーク及び前記第2ニューラルネットワークを更新することと、
を含むことを特徴とする学習データ作成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習データ作成システム及び学習データ作成方法等に関する。
【背景技術】
【0002】
ディープラーニングによってAI(Artificial Intelligence)の精度を高めるには大量の学習データが必要である。大量の学習データを用意するために、オリジナルの学習データを元にして学習データを水増しする手法が知られている。学習データを水増しする手法として、非特許文献1にManifold Mixupが開示されている。この手法では、異なる2枚の画像をCNN(Convolutional Neural Network)に入力し、CNNの中間層の出力である特徴マップを取り出し、1枚目の画像の特徴マップと2枚目の画像の特徴マップとを重み付け加算することで特徴マップを合成し、その合成した特徴マップを次の中間層の入力とする。2枚のオリジナル画像による学習に加えて、中間層において特徴マップを合成する学習が行われるので、結果的に学習データが水増しされている。
【先行技術文献】
【非特許文献】
【0003】
【文献】Vikas Verma, Alex Lamb, Christopher Beckham, Amir Najafi, Ioannis Mitliagkas, Aaron Courville, David Lopez-Paz and Yoshua Bengio: “Manifold Mixup: Better Representations by Interpolating Hidden States”, arXiv: 1806.05236 (2018)
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記の従来技術では、CNNの中間層において2枚の画像の特徴マップを重み付け加算するため、各画像の特徴マップに含まれるテクスチャ情報が失われてしまう。例えば、特徴マップを重み付け加算することで、テクスチャの細かな違いが潰れてしまう。このため、画像に含まれるテクスチャに基づいて対象を画像認識する場合には、従来技術の水増し手法を用いて学習を行ったとしても、認識の精度が十分に上がらないという課題がある。例えば、超音波画像等の医療画像から病変鑑別を行う際には、画像に写る病変のテクスチャの微妙な差を認識できることが重要になる。
【課題を解決するための手段】
【0005】
本開示の一態様は、第1画像、第2画像、前記第1画像に対応する第1正解情報、及び前記第2画像に対応する第2正解情報を取得する取得部と、前記第1画像が入力されることで第1特徴マップを生成し、前記第2画像が入力されることで第2特徴マップを生成する第1ニューラルネットワークと、前記第1特徴マップの一部を前記第2特徴マップの一部で差し替えることで合成特徴マップを生成する特徴マップ合成部と、前記合成特徴マップに基づいて出力情報を生成する第2ニューラルネットワークと、前記出力情報、前記第1正解情報、及び前記第2正解情報に基づいて出力誤差を算出する出力誤差算出部と、前記出力誤差に基づいて前記第1ニューラルネットワーク及び前記第2ニューラルネットワークを更新するニューラルネットワーク更新部と、を含む学習データ作成システムに関係する。
【0006】
本開示の他の態様は、第1画像、第2画像、前記第1画像に対応する第1正解情報、及び前記第2画像に対応する第2正解情報を取得することと、前記第1画像が第1ニューラルネットワークに入力されることで第1特徴マップを生成し、前記第2画像が前記第1ニューラルネットワークに入力されることで第2特徴マップを生成することと、前記第1特徴マップの一部を前記第2特徴マップの一部で差し替えることで合成特徴マップを生成することと、第2ニューラルネットワークが前記合成特徴マップに基づいて出力情報を生成することと、前記出力情報、前記第1正解情報、及び前記第2正解情報に基づいて出力誤差を算出することと、前記出力誤差に基づいて前記第1ニューラルネットワーク及び前記第2ニューラルネットワークを更新することと、を含む学習データ作成方法に関係する。
【図面の簡単な説明】
【0007】
【
図3】学習データ作成システムの処理を説明する図。
【
図4】第1構成例において処理部が行う処理のフローチャート。
【
図5】第1構成例において処理部が行う処理を模式的に示した図。
【
図6】病変に対する画像認識のシミュレーション結果。
【
図8】第2構成例において処理部が行う処理のフローチャート。
【
図9】第2構成例において処理部が行う処理を模式的に示した図。
【
図13】超音波画像を学習データ作成システムに入力する場合のシステム構成例。
【
図14】超音波診断システムにおけるニューラルネットワークの構成例。
【発明を実施するための形態】
【0008】
以下、本実施形態について説明する。なお、以下に説明する本実施形態は、請求の範囲に記載された内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。
【0009】
1.第1構成例
ディープラーニングを用いた認識処理では、過学習を避けるために大量の学習データが必要である。しかし、医療画像のように、認識に必要な大量の学習データを集めることが困難な場合がある。例えば、希少病変の画像は、その症例自体が少ないことから学習データを大量に収集することが難しい。或いは、医療画像に教師ラベルを付す必要があるが、専門的な知識が必要であること等から、大量の画像に教師ラベルを付すことが難しい。
【0010】
このような問題に対して、既存の学習データに変形等の処理を加えることで、学習データを拡張する画像拡張が提案されている。この手法は、データオーギュメンテーションとも呼ばれる。或いは、異なるラベルをもつ2枚の画像を重み付け和によって合成した画像を学習画像に加えることでラベル間の境界付近を重点的に学習するMixupが提案されている。或いは、上述した非特許文献1のように、異なるラベルをもつ2枚の画像をCNNの中間層で重み付け和によって合成するManifold Mixupが提案されている。主に自然画像認識でMixup及びManifold Mixupの有効性が示されている。
【0011】
図1を用いて、Manifold Mixupの手法を説明する。ニューラルネットワーク5は、畳み込み処理を用いた画像認識を行うCNN(Convolutional Neural Network)である。学習後の画像認識では、ニューラルネットワーク5は、1枚の入力画像に対して1つのスコアマップを出力する。一方、学習時には、ニューラルネットワーク5に2枚の入力画像を入力し、中間層において特徴マップの合成を行うことで学習データの水増しが行われる。
【0012】
具体的には、ニューラルネットワーク5の入力層には、入力画像IMA1、IMA2が入力される。CNNの畳み込み層は、特徴マップと呼ばれる画像データを出力する。ある中間層から、入力画像IMA1に対応した特徴マップMAPA1と、入力画像IMA2に対応した特徴マップMAPA2とを取り出す。MAPA1は、入力層から当該中間層までのCNNが入力画像IMA1に対して適用されることによって生成された特徴マップである。特徴マップMAPA1は複数のチャンネルを有しており、各チャンネルが、それぞれ1枚の画像データとなっている。MAPA2についても同様である。
【0013】
図1には、特徴マップが3つのチャンネルを有する例を示す。このチャンネルをch1~ch3とする。特徴マップMAPA1のch1と特徴マップMAPA2のch1が重み付け加算され、合成特徴マップSMAPAのch1が生成される。ch2、ch3についても同様の重み付け加算が行われ、合成特徴マップSMAPAのch2、ch3が生成される。合成特徴マップSMAPAは、特徴マップMAPA1、MAPA2が取り出された中間層の次の中間層に入力される。ニューラルネットワーク5は、出力情報NNQAとしてスコアマップを出力し、そのスコアマップと正解情報とに基づいてニューラルネットワーク5が更新される。
【0014】
特徴マップの各チャンネルには、畳み込み処理のフィルタ重み係数に応じて様々な特徴が抽出されている。上記
図1の手法では、特徴マップMAPA1、MAPA2のチャンネルが重み付け加算されるので、各特徴マップが有しているテクスチャの情報が混合される。このため、テクスチャの微妙な差が適切に学習されない可能性がある。例えば超音波内視鏡画像からの病変鑑別のように、病変のテクスチャの微妙な差を認識する必要がある場合において、十分な学習効果が得られない可能性がある。
【0015】
図2は、本実施形態の学習データ作成システム10の第1構成例である。学習データ作成システム10は、取得部110と第1ニューラルネットワーク121と第2ニューラルネットワーク122と特徴マップ合成部130と出力誤差算出部140とニューラルネットワーク更新部150とを含む。
図3は、学習データ作成システム10の処理を説明する図である。
【0016】
取得部110は、第1画像IM1、第2画像IM2、第1画像IM1に対応する第1正解情報TD1、及び第2画像IM2に対応する第2正解情報TD2を取得する。第1ニューラルネットワーク121は、第1画像IM1が入力されることで第1特徴マップMAP1を生成し、第2画像IM2が入力されることで第2特徴マップMAP2を生成する。特徴マップ合成部130は、第1特徴マップMAP1の一部を第2特徴マップMAP2の一部で差し替えることで合成特徴マップSMAPを生成する。なお
図3には、第1特徴マップMAP1のch2、ch3が第2特徴マップMAP2のch2、ch3で差し替えられた例を示す。第2ニューラルネットワーク122は、合成特徴マップSMAPに基づいて出力情報NNQを生成する。出力誤差算出部140は、出力情報NNQ、第1正解情報TD1、及び第2正解情報TD2に基づいて出力誤差ERQを算出する。ニューラルネットワーク更新部150は、出力誤差ERQに基づいて第1ニューラルネットワーク121及び第2ニューラルネットワーク122を更新する。
【0017】
ここで、「差し替える」とは、第1特徴マップMAP1の一部のチャンネル又は領域を削除し、削除した一部のチャンネル又は領域の代わりに第2特徴マップMAP2の一部のチャンネル又は領域を配置することである。合成特徴マップSMAPの側で考えれば、合成特徴マップSMAPの一部が第1特徴マップMAP1から選択され、合成特徴マップSMAPの残りの部分が第2特徴マップMAP2から選択される、とも言える。
【0018】
本実施形態によれば、第1特徴マップMAP1の一部が第2特徴マップMAP2の一部で差し替えられるので、特徴マップが有するテクスチャが重み付け加算されることなく合成特徴マップSMAPに保持される。これにより、上述の従来技術に比べてテクスチャの情報を良好に保持したまま特徴マップを合成できるので、AIによる画像認識の精度を向上できる。具体的には、超音波内視鏡画像からの病変鑑別のように、病変テクスチャの微妙な差を認識する必要がある場合においても画像合成による水増し方法が活用でき、学習データが少量の場合でも高い認識性能が得られる。
【0019】
以下、第1構成例の詳細を説明する。
図2に示すように、学習データ作成システム10は、処理部100と記憶部200とを含む。処理部100は、取得部110とニューラルネットワーク120と特徴マップ合成部130と出力誤差算出部140とニューラルネットワーク更新部150とを含む。
【0020】
学習データ作成システム10は、例えばPC(Personal Computer)等の情報処理装置である。或いは、学習データ作成システム10は、端末装置と情報処理装置により構成されてもよい。例えば、端末装置は記憶部200と不図示の表示部と不図示の操作部等を含み、情報処理装置は処理部100を含み、端末装置と情報処理装置がネットワークを介して接続されてもよい。或いは、学習データ作成システム10は、ネットワークを介して接続された複数の情報処理装置が分散処理を行うクラウドシステムであってもよい。
【0021】
記憶部200は、ニューラルネットワーク120の学習に用いられる教師データを記憶する。教師データは、学習用画像と、その学習用画像に付された正解情報と、で構成される。正解情報は教師ラベルとも呼ばれる。記憶部200は、メモリ、ハードディスクドライブ又は光学ドライブ等の記憶装置である。メモリは半導体メモリであり、RAM等の揮発性メモリ、又はEPROM等の不揮発性メモリである。
【0022】
処理部100は、1又は複数の回路部品を含む処理回路又は処理装置である。処理部100は、CPU(Central Processing Unit)、GPU(Graphical Processing Unit)又はDSP(Digital Signal Processor)等のプロセッサを含む。プロセッサは、FPGA(Field Programmable Gate Array)又はASIC(Application Specific Integrated Circuit)等の集積回路装置であってもよい。処理部100は、複数のプロセッサを含んでもよい。プロセッサは、記憶部200に記憶されたプログラムを実行することで処理部100の機能を実現する。プログラムには、取得部110、ニューラルネットワーク120、特徴マップ合成部130、出力誤差算出部140及びニューラルネットワーク更新部150の機能が記述されている。記憶部200は、ニューラルネットワーク120の学習モデルを記憶している。学習モデルには、ニューラルネットワーク120のアルゴリズムと、その学習モデルに用いられるパラメータとが記述されている。パラメータは、ノード間の重み付け係数等である。プロセッサは、学習モデルを用いてニューラルネットワーク120の推論処理を実行し、学習により更新されたパラメータで、記憶部200に記憶されたパラメータを更新する。
【0023】
図4は、第1構成例において処理部100が行う処理のフローチャートであり、
図5は、その処理を模式的に示した図である。
【0024】
ステップS101において処理部100はニューラルネットワーク120を初期化する。ステップS102、S103において第1画像IM1と第2画像IM2が処理部100に入力され、ステップS104、S105において第1正解情報TD1と第2正解情報TD2が処理部100に入力される。ステップS102~S105は、
図4の実行順序に限定されず順不同に実行されてもよいし、或いは並列的に実行されてもよい。
【0025】
具体的には、取得部110は、記憶部200から第1画像IM1と第2画像IM2を取得する画像取得部111と、記憶部200から第1正解情報TD1と第2正解情報TD2を取得する正解情報取得部112と、を含む。取得部110は、例えば、記憶部200へのアクセスを制御するアクセス制御部である。
【0026】
図5に示すように、第1画像IM1には認識対象TG1が写り、第2画像IM2には、認識対象TG1と分類カテゴリが異なる認識対象TG2が写っている。即ち、記憶部200は、画像認識における分類カテゴリが異なる第1学習用画像群と第2学習用画像群とを記憶している。分類カテゴリは、臓器、臓器内の部位、又は病変の分類等である。画像取得部111は、第1学習用画像群のうち任意の1つを第1画像IM1として取得し、第2学習用画像群のうち任意の1つを第2画像IM2として取得する。
【0027】
ステップS108において処理部100は第1画像IM1に第1ニューラルネットワーク121を適用し、第1ニューラルネットワーク121が第1特徴マップMAP1を出力する。また、処理部100は第2画像IM2に第1ニューラルネットワーク121を適用し、第1ニューラルネットワーク121が第2特徴マップMAP2を出力する。ステップS109において特徴マップ合成部130が第1特徴マップMAP1と第2特徴マップMAP2を合成し、合成特徴マップSMAPを出力する。ステップS110において、処理部100は合成特徴マップSMAPに第2ニューラルネットワーク122を適用し、第2ニューラルネットワーク122が出力情報NNQを出力する。
【0028】
具体的には、ニューラルネットワーク120はCNNであり、そのCNNが中間層で分割されたものが第1ニューラルネットワーク121と第2ニューラルネットワーク122である。即ち、CNNの入力層から当該中間層までが第1ニューラルネットワーク121となり、当該中間層の次の中間層から出力層までが第2ニューラルネットワーク122となる。CNNは、畳み込み層、正規化層、活性化層及びプーリング層を有するが、そのいずれを境に第1ニューラルネットワーク121と第2ニューラルネットワーク122に分割されてもよい。ディープラーニングにおいて中間層は複数存在するが、そのいずれの中間層で分割するのかを、画像入力毎に異ならせてもよい。
【0029】
図5には、第1ニューラルネットワーク121がチャンネル数6の特徴マップを出力する例を示す。特徴マップの各チャンネルは、各画素にノードの出力値が割り当てられた画像データである。特徴マップ合成部130は、第1特徴マップMAP1のチャンネルch2、ch3を第2特徴マップMAP2のチャンネルch2、ch3に差し替える。即ち、合成特徴マップSMAPの一部のチャンネルch1、ch4~ch6に第1特徴マップMAP1のチャンネルch1、ch4~ch6が割り当てられ。残りの一部のチャンネルch2、ch3に第2特徴マップMAP2のチャンネルch2、ch3が割り当てられる。
【0030】
合成特徴マップSMAPに占める各特徴マップの割合を差し替え率と呼ぶこととする。第1特徴マップMAP1の差し替え率は、4/6≒0.7であり、第2特徴マップMAP2の差し替え率は、2/6≒0.3である。なお、特徴マップのチャンネル数は6に限定されない。また、どのチャンネルを差し替えるのか、及び差し替えるチャンネル数は、
図5の例に限定されず、例えば画像入力毎にランダムに設定されてもよい。
【0031】
第2ニューラルネットワーク122が出力する出力情報NNQは、スコアマップと呼ばれるデータである。複数の分類カテゴリがある場合には、スコアマップは複数のチャンネルを有し、1つのチャンネルが1つの分類カテゴリに対応する。
図5には、分類カテゴリが2つである例を示す。スコアマップの各チャンネルは、各画素に推定値が割り当てられた画像データである。推定値は、その画素に認識対象が検出された確からしさを示す値である。
【0032】
図4のステップS111において、出力誤差算出部140は、出力情報NNQと第1正解情報TD1と第2正解情報TD2に基づいて出力誤差ERQを求める。
図5に示すように、出力誤差算出部140は、出力情報NNQと第1正解情報TD1の誤差を示す第1出力誤差ERR1と、出力情報NNQと第2正解情報TD2の誤差を示す第2出力誤差ERR2と、を求める。出力誤差算出部140は、第1出力誤差ERR1と第2出力誤差ERR2を差し替え率で重み付け加算することで出力誤差ERQを求める。
図5の例では、ERQ=ERR1×0.7+ERR2+0.3である。
【0033】
図4のステップS112において、ニューラルネットワーク更新部150は、出力誤差ERQに基づいてニューラルネットワーク120を更新する。ニューラルネットワーク120の更新とは、ノード間の重み付け係数等のパラメータを更新することである。更新手法としては、誤差逆伝播法等の種々の公知の手法を採用できる。ステップS113において、処理部100は学習の終了条件を満たすか否かを判断する。終了条件は、出力誤差ERQが所定以下となったこと、或いは所定数の画像を学習したこと等である。処理部100は、終了条件が満たされた場合には本フローの処理を終了し、終了条件が満たされていない場合にはステップS102に戻る。
【0034】
図6は、病変に対する画像認識のシミュレーション結果である。横軸は、認識対象となっている全ての分類カテゴリの病変に対する正解率である。縦軸は、認識対象となっている分類カテゴリのうち少量病変に対する正解率である。DAは、単一の画像だけから学習データを水増しする従来手法のシミュレーション結果であり、DBは、Manifold Mixupのシミュレーション結果であり、DCは、本実施形態の手法のシミュレーション結果である。各結果に3点ずつプロットされているが、これらは少量病変の検出に対するオフセットを異ならせてシミュレーションした結果である。
【0035】
図6において、右上、即ち全体病変正解率と少量病変正解率の両方が高くなる方向にグラフがあるほど、画像認識の成績がよい。本実施形態の手法を用いたシミュレーション結果DCは、従来技術を用いたシミュレーション結果DA、DBよりも右上にあり、従来技術よりも高精度な画像認識が可能である。
【0036】
なお、第1特徴マップMAP1の一部が差し替えられることで、その一部に含まれる情報が失われている。しかし、中間層のチャンネル数は大きめに設定されるので、中間層の出力が持つ情報には冗長性がある。このため、差し替えによって一部の情報が失われたとしても、あまり問題にならない。
【0037】
また、特徴マップを合成する際に重み付け加算を行わなかったとしても、その後段の中間層においてチャンネル間の線形結合が行われる。しかし、この線形結合の重み付け係数は、ニューラルネットワークの学習において更新されるパラメータである。このため、テクスチャの細かい違いが失われないように、学習において重み付け係数が最適化されることが期待できる。
【0038】
以上の本実施形態によれば、第1特徴マップMAP1は、第1の複数のチャンネルを含み、第2特徴マップMAP2は、第2の複数のチャンネルを含む。特徴マップ合成部130は、第1の複数のチャンネルのうち一部のチャンネル全体を、第2の複数のチャンネルのうち一部のチャンネル全体で差し替える。
【0039】
このようにすれば、一部のチャンネルの全体を差し替えることで、第1特徴マップMAP1の一部を第2特徴マップMAP2の一部で差し替えることができる。各チャンネルには異なるテクスチャが抽出されているが、あるテクスチャについては第1画像IM1が選択され、他のあるテクスチャについては第2画像IM2が選択される、といった混ざり方になる。
【0040】
或いは、特徴マップ合成部130は、第1の複数のチャンネルに含まれるチャンネルの一部の領域を、第2の複数のチャンネルに含まれるチャンネルの一部の領域で差し替えてもよい。
【0041】
このようにすれば、チャンネル全体でなくチャンネル内の一部の領域が差し替えられる。これにより、例えば、認識対象が存在する領域のみを差し替えることで、一方の特徴マップの背景の中に他方の特徴マップの認識対象が嵌め込まれたような合成特徴マップを生成できる。或いは、認識対象の一部を差し替えることで、2つの特徴マップの認識対象を合成したような合成特徴マップを生成できる。
【0042】
特徴マップ合成部130は、第1の複数のチャンネルに含まれるチャンネルの帯状領域を、第2の複数のチャンネルに含まれるチャンネルの帯状領域で差し替えてもよい。なお、チャンネルの一部領域を差し替える手法は上記に限定されない。例えば、特徴マップ合成部130は、第1の複数のチャンネルに含まれるチャンネルにおいて周期的に設定された領域を、第2の複数のチャンネルに含まれるチャンネルにおいて周期的に設定された領域で差し替えてもよい。周期的に設定された領域は、例えば縞状の領域、或いはチェッカードパターン状の領域等である。
【0043】
このようにすれば、第1特徴マップのチャンネルと第2特徴マップのチャンネルを、各々のテクスチャを残しつつ混ぜ合わせることができる。例えば、チャンネルにおける認識対象を切り抜いて差し替えるような場合には、第1画像IM1と第2画像IM2の認識対象の位置が一致する必要がある。本実施形態では、第1画像IM1と第2画像IM2で認識対象の位置が一致していなくても、その認識対象のテクスチャを残しつつ混ぜ合わせることが可能である。
【0044】
特徴マップ合成部130は、第1の複数のチャンネルに含まれるチャンネルにおいて差し替えの対象となる一部の領域のサイズを、第1画像と第2画像の分類カテゴリに基づいて決定してもよい。
【0045】
このようにすれば、画像の分類カテゴリに応じたサイズの領域で特徴マップを差し替えることができる。例えば、分類カテゴリにおいて病変等の認識対象に特徴的なサイズが決まっている場合に、そのサイズの領域で特徴マップを差し替える。これにより、例えば、一方の特徴マップの背景の中に他方の特徴マップの認識対象が嵌め込まれたような合成特徴マップを生成できる。
【0046】
また本実施形態では、第1画像IM1と第2画像IM2は、超音波画像である。なお、超音波画像に基づいて学習を行うシステムは
図13等で後述する。
【0047】
超音波画像は通常はモノクロ画像であり、画像認識においてテクスチャが重要な要素となる。本実施形態では、テクスチャの微妙な差に基づく高精度な画像認識が可能となるので、超音波画像診断に適した画像認識システムを生成できる。なお、本実施形態の適用対象は超音波画像に限定されず、様々な医療画像に適用できる。例えば、イメージセンサを用いて撮像する内視鏡システムによって取得される医療画像にも、本実施形態の手法を適用できる。
【0048】
また本実施形態では、第1画像IM1と第2画像IM2は、異なる分類カテゴリである。
【0049】
中間層において第1特徴マップMAP1と第2特徴マップMAP2が合成されて学習が行われることで、第1画像IM1の分類カテゴリと第2画像IM2の分類カテゴリの境界が学習される。本実施形態によれば、特徴マップが有する微妙なテクスチャの違いが失われることなく合成されるので、分類カテゴリの境界が適切に学習される。例えば、第1画像IM1の分類カテゴリと第2画像IM2の分類カテゴリは、画像認識処理において判別が難しい組み合わせである。このような分類カテゴリの境界が本実施形態の手法で学習されることで、判別が難しい分類カテゴリの認識精度が向上する。また、第1画像IM1と第2画像IM2は同一の分類カテゴリであってもよい。分類カテゴリは同一であるが特徴が異なる認識対象を合成することで、同一カテゴリ内でより多様性に富んだ画像データが作成できる。
【0050】
また本実施形態では、出力誤差算出部140は、出力情報NNQと第1正解情報TD1に基づいて第1出力誤差ERR1を算出し、出力情報NNQと第2正解情報TD2に基づいて第2出力誤差ERR2を算出し、第1出力誤差ERR1と第2出力誤差ERR2の重み付け和を出力誤差ERQとして算出する。
【0051】
中間層において第1特徴マップMAP1と第2特徴マップMAP2が合成されるので、出力情報NNQは、第1画像IM1の分類カテゴリに対する推定値と、第2画像IM2の分類カテゴリに対する推定値とが重み付け加算された情報になっている。本実施形態によれば、第1出力誤差ERR1と第2出力誤差ERR2の重み付け和を算出することで、出力情報NNQに対応した出力誤差ERQが求められる。
【0052】
また本実施形態では、特徴マップ合成部130は、第1割合で、第1特徴マップMAP1の一部を第2特徴マップのMAP2一部で差し替える。第1割合は、
図5で説明した差し替え率=0.7に相当する。出力誤差算出部140は、第1割合に基づく重み付けによって、第1出力誤差ERR1と第2出力誤差ERR2の重み付け和を算出し、その重み付け和を出力誤差ERQとする。
【0053】
上述した出力情報NNQにおける推定値の重み付けは、第1割合に応じた重み付けになっている。本実施形態によれば、第1割合に基づく重み付けによって、第1出力誤差ERR1と第2出力誤差ERR2の重み付け和が算出されることで、出力情報NNQに対応した出力誤差ERQが求められる。
【0054】
具体的には、出力誤差算出部140は、第1割合と同じ割合で第1出力誤差ERR1と第2出力誤差ERR2の重み付け和を算出する。
【0055】
上述した出力情報NNQにおける推定値の重み付けは、第1割合と同じ割合となることが期待される。本実施形態によれば、第1割合と同じ割合で第1出力誤差ERR1と第2出力誤差ERR2の重み付け和が算出されることで、出力情報NNQにおける推定値の重み付けが、期待値である第1割合となるようにフィードバックされる。
【0056】
或いは、出力誤差算出部140は、第1割合と異なる割合で第1出力誤差ERR1と第2出力誤差ERR2の重み付け和を算出してもよい。
【0057】
具体的には、希少病変等の少量カテゴリの推定値が正方向にオフセットされるように重み付けが行われてもよい。例えば、第1画像IM1が希少病変の画像であり、第2画像IM2が非希少病変の画像である場合、第1出力誤差ERR1の重み付けを第1割合より大きくする。本実施形態によれば、認識精度を上げにくい少量カテゴリが検出されやすくなるように、フィードバックされる。
【0058】
なお、出力誤差算出部140は、第1正解情報TD1と第2正解情報TD2から正解確率分布を作成し、出力情報NNQと正解確率分布から算出したKLダイバージェンスを出力誤差ERQとしてもよい。
【0059】
2.第2構成例
図7は、学習データ作成システム10の第2構成例である。
図7では、画像取得部111は画像拡張部160を含む。
図8は、第2構成例において処理部100が行う処理のフローチャートであり、
図9は、その処理を模式的に示した図である。なお、第1構成例で説明した構成要素及びステップには同一の符号を付し、その構成要素及びステップについての説明を適宜に省略する。
【0060】
記憶部200は、第1入力画像IM1’と第2入力画像IM2’を記憶する。画像取得部111は、記憶部200から第1入力画像IM1’と第2入力画像IM2’を読み出す。画像拡張部160は、第1入力画像IM1’を画像拡張することで第1画像IM1を生成する第1拡張処理と、第2入力画像IM2’を画像拡張することで第2画像IM2を生成する第2拡張処理との少なくとも一方を行う。
【0061】
画像拡張とは、ニューラルネットワーク120の入力画像に対する画像処理であり、例えば入力画像を学習に適した画像に変換する処理、或いは認識対象の見え方が異なる画像を生成することで学習の精度を上げるための画像処理等である。本実施形態によれば、第1入力画像IM1’と第2入力画像IM2’の少なくとも一方に画像拡張が施されることで、効果的な学習が可能となる。
【0062】
図8のフローでは、画像拡張部160は、ステップS106において第1入力画像IM1’を画像拡張し、ステップS107において第2入力画像IM2’を画像拡張する。但し、ステップS106とS107の両方が実行されてもよいし、いずれか一方のみが実行されてもよい。
【0063】
図9には、第2入力画像IM2’を画像拡張する第2拡張処理のみが実行される例を示している。第2拡張処理は、第1入力画像IM1’に写る第1認識対象TG1と第2入力画像IM2’に写る第2認識対象TG2との間の位置関係に基づいて、第2認識対象TG2の位置補正を第2入力画像IM2’に対して行う処理を含む。
【0064】
位置補正は、平行移動を含むアフィン変換である。画像拡張部160は、第1正解情報TD1から第1認識対象TG1の位置を把握し、第2正解情報TD2から第2認識対象TG2の位置を把握し、それらの位置が一致するように補正を行う。例えば、画像拡張部160は、第1認識対象TG1の重心位置と第2認識対象TG2の重心位置が一致するように、位置補正を行う。
【0065】
なお同様に、第1拡張処理は、第1入力画像IM1’に写る第1認識対象TG1と第2入力画像IM2’に写る第2認識対象TG2との間の位置関係に基づいて、第1認識対象TG1の位置補正を第1入力画像IM1’に対して行う処理を含む。
【0066】
本実施形態によれば、第1画像IM1における第1認識対象TG1の位置と、第2画像IM2における第2認識対象TG2の位置とが一致する。これにより、特徴マップを差し替えた後の合成特徴マップSMAPにおいても、第1認識対象TG1の位置と第2認識対象TG2の位置とが一致するので、分類カテゴリの境界を適切に学習できる。
【0067】
第1拡張処理と第2拡張処理は、上記の位置補正に限定されない。例えば、画像拡張部160は、色補正、明るさ補正、平滑化処理、鮮鋭化処理、ノイズ付加及びアフィン変換の少なくとも1つの処理によって第1拡張処理及び第2拡張処理の少なくとも一方を行ってもよい。
【0068】
3.CNN
上述したように、ニューラルネットワーク120はCNNである。以下、CNNの基本構成を説明する。
【0069】
図10には、CNNの全体構成例を示す。CNNの入力層は畳み込み層であり、正規化層、活性化層と続く。次に、プーリング層、畳み込み層、正規化層及び活性化層を1セットとして、同様なセットが繰り返される。CNNの出力層は畳み込み層である。畳み込み層は、入力に対して畳み込み処理を行うことで特徴マップを出力する。後段の畳み込み層になるほど、特徴マップのチャンネル数が増えると共に、1チャンネルの画像サイズが小さくなる傾向にある。
【0070】
CNNの各層はノードを含み、ノードと次の層のノードとの間が重み係数によって結合される。このノード間の重み係数が出力誤差に基づいて更新されることで、ニューラルネットワーク120の学習が行われる。
【0071】
図11には、畳み込み処理の例を示す。ここでは3チャンネルの入力マップから2チャンネルの出力マップが生成され、重み係数のフィルタサイズが3×3である例を説明する。入力層では入力マップは入力画像であり、出力層では出力マップはスコアマップである。中間層では入力マップと出力マップは共に特徴マップである。
【0072】
3チャンネルの入力マップに対して、3チャンネルの重み係数フィルタが畳み込み演算されることで、出力マップの1チャンネルが生成される。3チャンネルの重み係数フィルタが2セットあり、出力マップは2チャンネルとなる。畳み込み演算では、入力マップの3×3のウィンドウと重み係数の積和をとり、ウィンドウを1画素ずつ順次にスライドしていくことで、入力マップ全体について積和を演算する。具体的には、下式(1)が演算される。
【0073】
【0074】
yoc
n,mは、出力マップにおいてチャンネルocのn行m列に配置される値である。woc,ic
j,iは、重み係数フィルタにおいてセットocのチャンネルicのj行i列に配置される値である。xic
n+j,m+iは、入力マップにおいてチャンネルicのn+j行m+i列に配置される値である。
【0075】
図12には、CNNが出力する認識結果の例を示す。出力情報は、CNNから出力された認識結果を示しており、位置(u,v)の各々に推定値が割り当てられたスコアマップである。推定値は、その位置に認識対象が検出された確からしさを示す。正解情報は、理想的な認識結果を示しており、認識対象が存在する位置(u,v)に1が割り当てられたマスク情報である。ニューラルネットワーク120の更新処理において、正解情報と出力情報の誤差が小さくなるように、上述の重み係数が更新される。
【0076】
4.超音波診断システム
図13は、超音波画像を学習データ作成システム10に入力する場合のシステム構成例である。
図13のシステムは、超音波診断システム20と教師データ作成システム30と学習データ作成システム10と超音波診断システム40とを含む。なお、これらは常時接続されている必要はなく、作業の各段階において適宜に接続されればよい。
【0077】
超音波診断システム20は、学習用画像としての超音波画像を撮影し、その超音波画像を教師データ作成システム30に転送する。教師データ作成システム30は、超音波画像をディスプレイに表示し、ユーザから正解情報の入力を受け付け、超音波画像と正解情報を対応づけて教師データを作成し、その教師データを学習データ作成システム10に転送する。学習データ作成システム10は、教師データに基づいてニューラルネットワーク120の学習を行い、学習済みモデルを超音波診断システム40に転送する。
【0078】
超音波診断システム40は、超音波診断システム20と同じシステムであってもよいし、異なるシステムであってもよい。超音波診断システム40は、プローブ41と処理部42とを含む。プローブ41は、被検体からの超音波エコーを検出する。処理部42は、超音波エコーに基づいて超音波画像を生成する。処理部42は、学習済みモデルに基づく画像認識処理を超音波画像に対して行うニューラルネットワーク50を含む。処理部42は、画像認識処理の結果をディスプレイに表示する。
【0079】
図14は、ニューラルネットワーク50の構成例である。ニューラルネットワーク50は、学習データ作成システム10のニューラルネットワーク120と同じアルゴリズムを有し、学習済みモデルに含まれる重み付け係数等のパラメータを用いることで、学習データ作成システム10における学習結果が反映された画像認識処理を行う。第1ニューラルネットワーク51と第2ニューラルネットワーク52は、学習データ作成システム10の第1ニューラルネットワーク121と第2ニューラルネットワーク122に相当する。第1ニューラルネットワーク51には1枚の画像IMが入力され、その画像IMに対応した特徴マップMAPが第1ニューラルネットワーク51から出力される。超音波診断システム40では特徴マップの合成は行わないので、第1ニューラルネットワーク51が出力する特徴マップMAPが第2ニューラルネットワーク52の入力となる。なお、
図14では学習データ作成システム10との比較のために第1ニューラルネットワーク51と第2ニューラルネットワーク52を図示したが、実際の処理ではニューラルネットワーク50は分割されない。
【0080】
以上、本実施形態及びその変形例について説明したが、本開示は、各実施形態やその変形例そのままに限定されるものではなく、実施段階では、要旨を逸脱しない範囲内で構成要素を変形して具体化することができる。また、上記した各実施形態や変形例に開示されている複数の構成要素を適宜組み合わせることができる。例えば、各実施形態や変形例に記載した全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態や変形例で説明した構成要素を適宜組み合わせてもよい。このように、本開示の主旨を逸脱しない範囲内において種々の変形や応用が可能である。また、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。
【符号の説明】
【0081】
5 ニューラルネットワーク、6 チャンネル数、10 学習データ作成システム、20 超音波診断システム、30 教師データ作成システム、40 超音波診断システム、41 プローブ、42 処理部、50 ニューラルネットワーク、51 第1ニューラルネットワーク、52 第2ニューラルネットワーク、100 処理部、110 取得部、111 画像取得部、112 正解情報取得部、120 ニューラルネットワーク、121 第1ニューラルネットワーク、122 第2ニューラルネットワーク、130 特徴マップ合成部、140 出力誤差算出部、150 ニューラルネットワーク更新部、160 画像拡張部、200 記憶部、ERQ 出力誤差、ERR1 第1出力誤差、ERR2 第2出力誤差、IM1 第1画像、IM1’ 第1入力画像、IM2 第2画像、IM2’ 第2入力画像、MAP1 第1特徴マップ、MAP2 第2特徴マップ、NNQ 出力情報、SMAP 合成特徴マップ、TD1 第1正解情報、TD2 第2正解情報、TG1 第1認識対象、TG2 第2認識対象、ch1~ch6 チャンネル