IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ オリンパス株式会社の特許一覧

特許7231709情報処理システム、内視鏡システム、情報処理方法及び学習済みモデルの製造方法
<>
  • 特許-情報処理システム、内視鏡システム、情報処理方法及び学習済みモデルの製造方法 図1
  • 特許-情報処理システム、内視鏡システム、情報処理方法及び学習済みモデルの製造方法 図2
  • 特許-情報処理システム、内視鏡システム、情報処理方法及び学習済みモデルの製造方法 図3
  • 特許-情報処理システム、内視鏡システム、情報処理方法及び学習済みモデルの製造方法 図4
  • 特許-情報処理システム、内視鏡システム、情報処理方法及び学習済みモデルの製造方法 図5
  • 特許-情報処理システム、内視鏡システム、情報処理方法及び学習済みモデルの製造方法 図6
  • 特許-情報処理システム、内視鏡システム、情報処理方法及び学習済みモデルの製造方法 図7
  • 特許-情報処理システム、内視鏡システム、情報処理方法及び学習済みモデルの製造方法 図8
  • 特許-情報処理システム、内視鏡システム、情報処理方法及び学習済みモデルの製造方法 図9
  • 特許-情報処理システム、内視鏡システム、情報処理方法及び学習済みモデルの製造方法 図10
  • 特許-情報処理システム、内視鏡システム、情報処理方法及び学習済みモデルの製造方法 図11
  • 特許-情報処理システム、内視鏡システム、情報処理方法及び学習済みモデルの製造方法 図12
  • 特許-情報処理システム、内視鏡システム、情報処理方法及び学習済みモデルの製造方法 図13
  • 特許-情報処理システム、内視鏡システム、情報処理方法及び学習済みモデルの製造方法 図14
  • 特許-情報処理システム、内視鏡システム、情報処理方法及び学習済みモデルの製造方法 図15
  • 特許-情報処理システム、内視鏡システム、情報処理方法及び学習済みモデルの製造方法 図16
  • 特許-情報処理システム、内視鏡システム、情報処理方法及び学習済みモデルの製造方法 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-02-20
(45)【発行日】2023-03-01
(54)【発明の名称】情報処理システム、内視鏡システム、情報処理方法及び学習済みモデルの製造方法
(51)【国際特許分類】
   G06N 20/00 20190101AFI20230221BHJP
   G06N 20/20 20190101ALI20230221BHJP
   G06T 7/00 20170101ALI20230221BHJP
   G06T 7/10 20170101ALI20230221BHJP
   A61B 1/045 20060101ALI20230221BHJP
【FI】
G06N20/00 130
G06N20/20
G06T7/00 350B
G06T7/10
G06T7/00 612
A61B1/045 614
A61B1/045 623
【請求項の数】 11
(21)【出願番号】P 2021508598
(86)(22)【出願日】2019-03-28
(86)【国際出願番号】 JP2019013605
(87)【国際公開番号】W WO2020194662
(87)【国際公開日】2020-10-01
【審査請求日】2021-05-13
(73)【特許権者】
【識別番号】000000376
【氏名又は名称】オリンパス株式会社
(74)【代理人】
【識別番号】100104710
【弁理士】
【氏名又は名称】竹腰 昇
(74)【代理人】
【識別番号】100124682
【弁理士】
【氏名又は名称】黒田 泰
(74)【代理人】
【識別番号】100090479
【弁理士】
【氏名又は名称】井上 一
(74)【代理人】
【識別番号】100166523
【弁理士】
【氏名又は名称】西河 宏晃
(72)【発明者】
【氏名】上山 都士也
【審査官】多賀 実
(56)【参考文献】
【文献】特開2011-192178(JP,A)
【文献】米国特許出願公開第2014/0341449(US,A1)
【文献】特表2016-513328(JP,A)
【文献】特開2015-93192(JP,A)
【文献】特開2005-157679(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
A61B 1/045
G06T 7/00
G06T 7/10
G06V 10/00-10/98
(57)【特許請求の範囲】
【請求項1】
学習済みモデルの情報を記憶する記憶部と、
検出用画像から対象物の位置情報を検出する検出処理を、前記学習済みモデルの情報に基づいて行い、前記検出処理により検出した前記位置情報を出力する処理部と、
を含み、
前記学習済みモデルは、
学習用画像における対象物に対して複数のアノテーションが付された教師データに基づいて学習され、前記複数のアノテーションの重複関係に基づいて前記学習用画像における前記対象物の位置情報を出力するように学習されたことを特徴とする情報処理システム。
【請求項2】
請求項1において、
前記学習済みモデルは、
前記複数のアノテーションの重複関係に基づいて前記学習用画像における前記対象物の確からしさを連続的又は段階的に示す前記位置情報を出力するように学習され、
前記処理部は、
前記検出処理において、前記対象物の位置の確からしさを連続的又は段階的に示す前記位置情報を前記検出用画像から検出し、
前記位置情報に基づいて、前記対象物の位置の確からしさを連続的又は段階的に示す表示情報を前記検出用画像に合成することで、表示画像を生成することを特徴とする情報処理システム。
【請求項3】
請求項1において、
前記学習済みモデルは、
前記複数のアノテーションが重複する領域に基づいて学習された第1学習済みモデルと、
前記複数のアノテーションが重複しない領域に基づいて学習された第2学習済みモデルと、
を含み、
前記処理部は、
前記検出処理において、前記第1学習済みモデルに基づいて前記検出用画像から前記対象物の第1位置情報を検出し、前記第2学習済みモデルに基づいて前記検出用画像から前記対象物の第2位置情報を検出し、
前記第1位置情報に基づく第1表示情報と、前記第2位置情報に基づく第2表示情報とを区別して、前記検出用画像に合成することで、表示画像を生成することを特徴とする情報処理システム。
【請求項4】
請求項1において、
前記学習済みモデルは、
前記複数のアノテーションの前記重複関係が重み付けされた前記教師データに基づいて学習されることで、前記重み付けされた前記重複関係に基づいて前記学習用画像における前記対象物の位置情報を出力するように学習され、
前記処理部は、
前記重み付けされた前記重複関係に基づいて学習された前記学習済みモデルを用いて、前記対象物の位置の確からしさを連続的又は段階的に示す前記位置情報を前記検出用画像から検出し、
前記位置情報に基づいて、前記対象物の位置の確からしさを連続的又は段階的に示す表示情報を前記検出用画像に合成することで、表示画像を生成することを特徴とする情報処理システム。
【請求項5】
複数の学習済みモデルである第1~第n(nは2以上の整数)学習済みモデルの情報を記憶する記憶部と、
検出用画像から対象物の第1~第n位置情報をそれぞれ検出する検出処理を、前記第1~第n学習済みモデルの情報に基づいてそれぞれ行い、前記検出処理により検出した前記第1~第n位置情報を出力する処理部と、
を含み、
前記第1~第n学習済みモデルはそれぞれ、学習用画像における対象物に対して付された第1~第nアノテーションに基づいて、前記学習用画像における前記対象物の第1~第n位置情報をそれぞれ出力するようにそれぞれ学習され、
前記処理部は、
前記検出処理において、前記第1~第n学習済みモデルのそれぞれに基づいて前記検出用画像から前記対象物の第1~第n位置情報をそれぞれ検出し、
前記第1~第n位置情報の重複関係を重み付けすることで、前記対象物の位置の確からしさを連続的又は段階的に示す表示情報を生成し、前記表示情報を前記検出用画像に合成することで表示画像を生成することを特徴とする情報処理システム。
【請求項6】
請求項1において、
前記学習済みモデルは、
前記複数のアノテーションが重複しない領域に対してボケ処理された前記教師データに基づいて学習され、
前記処理部は、
前記ボケ処理された前記教師データに基づいて学習された前記学習済みモデルを用いて、前記対象物の位置の確からしさを連続的又は段階的に示す前記位置情報を前記検出用画像から検出し、
前記位置情報に基づいて、前記対象物の位置の確からしさを連続的又は段階的に示す表示情報を前記検出用画像に合成することで、表示画像を生成することを特徴とする情報処理システム。
【請求項7】
複数の学習済みモデルである第1~第n(nは2以上の整数)学習済みモデルの情報を記憶する記憶部と、
検出用画像から対象物の第1~第n位置情報をそれぞれ検出する検出処理を、前記第1~第n学習済みモデルの情報に基づいてそれぞれ行い、前記検出処理により検出した前記第1~第n位置情報を出力する処理部と、
を含み、
前記第1~第n学習済みモデルはそれぞれ、学習用画像における対象物に対して付された第1~第nアノテーションに基づいて、前記学習用画像における前記対象物の第1~第n位置情報をそれぞれ出力するようにそれぞれ学習され、
前記処理部は、
前記検出処理において、前記第1~第n学習済みモデルのそれぞれに基づいて前記検出用画像から前記対象物の第1~第n位置情報をそれぞれ検出し、
前記第1~第n位置情報の重複しない領域に対してボケ処理を行い、前記ボケ処理後の位置情報に基づいて、前記対象物の位置の確からしさを連続的又は段階的に示す表示情報を生成し、前記表示情報を前記検出用画像に合成することで表示画像を生成することを特徴とする情報処理システム。
【請求項8】
複数の学習済みモデルである第1~第n(nは2以上の整数)学習済みモデルの情報を記憶する記憶部と、
検出用画像から対象物の第1~第n位置情報をそれぞれ検出する検出処理を、前記第1~第n学習済みモデルの情報に基づいてそれぞれ行い、前記検出処理により検出した前記第1~第n位置情報を出力する処理部と、
を含み、
前記第1~第n学習済みモデルはそれぞれ、学習用画像における対象物に対して付された第1~第nアノテーションに基づいて、前記学習用画像における前記対象物の第1~第n位置情報をそれぞれ出力するようにそれぞれ学習され、
前記処理部は、
前記検出処理において、前記第1~第n学習済みモデルのそれぞれに基づいて前記検出用画像から前記対象物の第1~第n位置情報をそれぞれ検出し、前記第1~第n位置情報の重複関係に基づいて前記対象物の位置情報を出力することを特徴とする情報処理システム。
【請求項9】
請求項1乃至8のいずれか一項に記載の情報処理システムを有するプロセッサユニットと、
前記プロセッサユニットに接続され、前記検出用画像を撮像して前記プロセッサユニットに送信する内視鏡スコープと、
前記プロセッサユニットに接続され、前記情報処理システムにより前記検出用画像から検出された前記対象物の位置情報に基づいて、前記対象物の位置を示す表示情報が重畳された前記検出用画像を表示する表示部と、
を含むことを特徴とする内視鏡システム。
【請求項10】
学習済みモデルに基づく検出処理を行う情報処理方法であって、
前記学習済みモデルは、
学習用画像における対象物に対して複数のアノテーションが付された教師データに基づいて学習され、前記複数のアノテーションの重複関係に基づいて前記学習用画像における前記対象物の位置情報を出力するように学習された学習済みモデルであり、
検出用画像から対象物の位置情報を検出する前記検出処理を行い、
前記検出処理により検出した前記位置情報を出力することを特徴とする情報処理方法。
【請求項11】
学習用画像における対象物に対して複数のアノテーションが付された教師データを受け付ける工程と、
ニューラルネットワークの入力層において、前記学習用画像を受け付ける工程と、
前記ニューラルネットワークの中間層において、前記入力層を通じて入力された前記学習用画像に対して演算処理を行う工程と、
前記ニューラルネットワークの出力層において、前記学習用画像における前記対象物の位置情報を出力する工程と、
前記出力層において出力される前記位置情報と前記教師データとに基づいて前記ニューラルネットワークに対して学習処理を行うことで、前記複数のアノテーションの重複関係に基づく前記位置情報が前記出力層において出力されるように前記ニューラルネットワークを学習させる工程と、
を含むことを特徴とする学習済みモデルの製造方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム、内視鏡システム情報処理方法及び学習済みモデルの製造方法等に関する。
【背景技術】
【0002】
機械学習を用いて画像から認識対象の検出処理を行う手法が知られている。例えば特許文献1には、学習結果から好適な教師データを選択する技術が開示されている。特許文献1では、教師データを、複数の異なるデータである第1ラベリングモデルと第2ラベリングモデルに分類し、その各々について学習モデルに学習させ、その学習結果に基づいて好適な教師データを選択する。
【先行技術文献】
【特許文献】
【0003】
【文献】特許第6182242号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
医療用画像においては、境界があいまいな対象物が存在する。従来技術では、このような対象物について、その境界の曖昧性を考慮した学習を行うことができなかった。例えば上記特許文献1では、複数の異なる教師データによって学習を行っているが、最終的に好適な1つ教師データを選択している。即ち、特許文献1は、同一の対象物に複数のアノテーションデータを与えて境界があいまいな対象物について精度よく学習する技術ではない。
【課題を解決するための手段】
【0005】
本発明の一態様は、学習済みモデルの情報を記憶する記憶部と、検出用画像から対象物の位置情報を検出する検出処理を、前記学習済みモデルの情報に基づいて行い、前記検出処理により検出した前記位置情報を出力する処理部と、を含み、前記学習済みモデルは、学習用画像における対象物に対して複数のアノテーションが付された教師データに基づいて学習され、前記複数のアノテーションの重複関係に基づいて前記学習用画像における前記対象物の位置情報を出力するように学習された情報処理システムに関係する。
【0006】
また本発明の他の態様は、上記の情報処理システムを有するプロセッサユニットと、前記プロセッサユニットに接続され、前記検出用画像を撮像して前記プロセッサユニットに送信する内視鏡スコープと、前記プロセッサユニットに接続され、前記情報処理システムにより前記検出用画像から検出された前記対象物の位置情報に基づいて、前記対象物の位置を示す表示情報が重畳された前記検出用画像を表示する表示部と、を含む内視鏡システムに関係する。
【0007】
また本発明の更に他の態様は、ニューラルネットワークに検出用画像の入力を受け付けて対象物を検出する検出処理を行い、前記検出処理により検出した前記位置情報を出力するように、コンピュータを機能させる学習済みモデルであって、前記ニューラルネットワークは、データを入力する入力層と、前記入力層を通じて入力されたデータに対し演算処理を行う中間層と、記中間層から出力される演算結果に基づき、データを出力する出力層と、を備え、前記学習済みモデルは、学習用画像における対象物に対して複数のアノテーションが付された教師データに基づいて学習され、前記複数のアノテーションの重複関係に基づいて前記学習用画像における前記対象物の位置情報を出力するように学習された学習済みモデルに関係する。
【0008】
また本発明の更に他の態様は、上記の学習済みモデルを記憶した情報記憶媒体に関係する。
【0009】
また本発明の更に他の態様は、学習済みモデルに基づく検出処理を行う情報処理方法であって、前記学習済みモデルは、学習用画像における対象物に対して複数のアノテーションが付された教師データに基づいて学習され、前記複数のアノテーションの重複関係に基づいて前記学習用画像における前記対象物の位置情報を出力するように学習された学習済みモデルであり、検出用画像から対象物の位置情報を検出する前記検出処理を行い、前記検出処理により検出した前記位置情報を出力する情報処理方法に関係する。
【0010】
また本発明の更に他の態様は、学習用画像における対象物に対して複数のアノテーションが付された教師データを受け付ける工程と、ニューラルネットワークの入力層において、前記学習用画像を受け付ける工程と、前記ニューラルネットワークの中間層において、前記入力層を通じて入力された前記学習用画像に対して演算処理を行う工程と、前記ニューラルネットワークの出力層において、前記学習用画像における前記対象物の位置情報を出力する工程と、前記出力層において出力される前記位置情報と前記教師データとに基づいて前記ニューラルネットワークに対して学習処理を行うことで、前記複数のアノテーションの重複関係に基づく前記位置情報が前記出力層において出力されるように前記ニューラルネットワークを学習させる工程と、を含む学習済みモデルの製造方法に関係する。
【図面の簡単な説明】
【0011】
図1】情報処理システム及び内視鏡システムの構成例。
図2】第1実施形態における学習処理を説明する図。
図3】第1実施形態における検出処理を説明する図。
図4】第1実施形態における表示処理を説明する図。
図5】第2実施形態における学習処理を説明する図。
図6】第2実施形態における検出処理を説明する図。
図7】第2実施形態における表示処理を説明する図。
図8】第3実施形態における学習処理を説明する図。
図9】第4実施形態における検出処理及び表示処理を説明する図。
図10】第5実施形態における学習処理を説明する図。
図11】第6実施形態における検出処理及び表示処理を説明する図。
図12】第7実施形態における学習処理を説明する図。
図13】第7実施形態における検出処理及び表示処理を説明する図。
図14】アノテーションの例。
図15】アノテーションにより生成された教師データの例。
図16】学習装置の構成例。
図17】学習の手順を示すフローチャート。
【発明を実施するための形態】
【0012】
以下、本発明の実施形態(以下、「本実施形態」という。)について説明する。なお、以下に説明する本実施形態は、請求の範囲に記載された本発明の内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本発明の必須構成要件であるとは限らない。
【0013】
1.情報処理システム、内視鏡システム
図1は、本実施形態の情報処理システム10、及び情報処理システム10を含む内視鏡システム100の構成例である。内視鏡システム100は、プロセッサユニット1と、内視鏡スコープ2と、表示部3と、を含む。また内視鏡システム100は操作部9を更に含んでもよい。
【0014】
内視鏡スコープ2の先端部には撮像装置が設けられ、その先端部が腹腔内に挿入される。撮像装置が腹腔内の画像を撮影し、その撮像データが内視鏡スコープ2からプロセッサユニット1へ送信される。
【0015】
プロセッサユニット1は、内視鏡システム100における種々の処理を行う装置である。例えばプロセッサユニット1は、内視鏡システム100の制御、及び画像処理等を行う。プロセッサユニット1は、内視鏡スコープ2からの撮像データを受信する撮像データ受信部8と、学習済みモデルにより撮像データから対象物を検出する情報処理システム10と、を含む。
【0016】
撮像データ受信部8は、例えば内視鏡スコープ2のケーブルが接続されるコネクター、又は、撮像データを受信するインターフェース回路等である。
【0017】
情報処理システム10は、学習済みモデルを記憶する記憶部7と、記憶部7に記憶された学習済みモデルに基づいて画像から対象物を検出する処理部4と、を含む。以下では、対象物の検出に用いられる画像を検出用画像と呼ぶ。図1の構成例では、撮像データ受信部8が処理部4に出力する撮像データが、検出用画像に対応する。
【0018】
記憶部7は、例えば半導体メモリ、又はハードディスクドライブ、光学ディスクドライブ等の記憶装置である。記憶部7には、予め学習済みモデルが記憶されている。或いは、サーバ等の外部装置からネットワークを介して学習済みモデルが情報処理システム10に入力され、その学習済みモデルを記憶部7が記憶してもよい。
【0019】
処理部4は、学習済みモデルによる推論を行うことで画像から対象物を検出する検出部5と、その検出結果に基づいて表示情報を画像に重畳して表示部3に表示させる出力部6と、を含む。表示情報は対象物の位置を示す情報である。学習済みモデルによる推論を実行するハードウェアとしては、種々想定できる。例えば、検出部5はCPU等の汎用プロセッサである。この場合、記憶部7は、推論アルゴリズムが記述されたプログラムと、その推論アルゴリズムに用いられるパラメータと、を学習済みモデルとして記憶する。或いは、検出部5は、推論アルゴリズムがハードウェア化された専用プロセッサであってもよい。専用プロセッサは例えばASIC(Application Specific Integrated Circuit)又はFPGA(Field Programmable Gate Array)等である。この場合、記憶部7は、推論アルゴリズムに用いられるパラメータを学習済みモデルとして記憶する。推論アルゴリズムはニューラルネットワークを適用することができる。この場合、ニューラルネットワークにおけるノード間接続の重み係数がパラメータである。
【0020】
表示部3は、出力部6から出力された画像を表示するモニタであり、例えば液晶ディスプレイ又は有機ELディスプレイ等の表示装置である。
【0021】
操作部9は、作業者が内視鏡システム100を操作するための装置である。例えば、操作部9は、ボタン、又はダイヤル、フットスイッチ、タッチパネル等である。
【0022】
なお、上記では情報処理システム10がプロセッサユニット1に含まれるが、情報処理システム10の一部又は全部がプロセッサユニット1の外部に設けられてもよい。例えば、記憶部7と検出部5は、PC又はサーバ等の外部処理装置により実現されてもよい。或いは、記憶部7と検出部5は、ネットワークを介して接続された複数のPC又は複数のサーバ等が並列処理を行うクラウドシステムにより、実現されてもよい。撮像データ受信部8は、撮像データを、ネットワーク等を介して外部処理装置又はクラウドシステムに送信する。外部処理装置又はクラウドシステムは、検出した対象物を示す情報を、ネットワーク等を介して出力部6に送信する。出力部6は、受信した情報を画像に重畳して表示部3に表示させる。
【0023】
一般的な物体を撮影した画像では、その物体の境界は明瞭である。このような物体の位置検出を機械学習により実現する場合、例えば境界内を塗りつぶしたデータを作成し、そのデータと画像を教師データとして機械学習を行う。境界は明瞭であるため、誰が見ても境界は1つであり、曖昧さがない。また学習済みモデルにより物体を検出する際にも、その検出対象となる物体の境界は明瞭であり、曖昧に境界を検出する必要がない。
【0024】
一方、内視鏡により撮像される体内画像には、境界があいまいな対象物が存在する。例えば、対象物が画角内に存在するが、その対象物が他の組織又は臓器によって隠れている場合、或いは、対象物が画像内に写っているが、その境界が不明瞭な場合などである。これらの対象物の位置検出を機械学習により実現する場合、教師データを作成する作業者が異なると、境界の判定が異なる可能性がある。また学習済みモデルにより物体を検出する際にも、その検出対象となる物体の境界を、曖昧さを許容して検出できることが望ましい。なお、教師データを作成する作業者は、例えば内視鏡システム100を用いた診断又は処置を行う医師等である。
【0025】
以下、医療用画像における境界があいまいな対象物について、複数のアノテーションを与えることで、境界のあいまい性を考慮した位置検出が可能な本実施形態の手法を説明する。
【0026】
2.第1実施形態
図2は、第1実施形態における学習処理を説明する図である。以下、学習処理に用いられる画像を学習用画像と呼ぶ。学習用画像は、例えば内視鏡システムにより撮影された動画のフレーム画像である。
【0027】
学習用画像IMGTの画角内には、境界が不明瞭な対象物OBJTが含まれる。図2では、不明瞭な境界を点線で示している。なお対象物OBJTが他の組織又は臓器に覆われている場合には、学習用画像IMGTにおいて対象物OBJTそのものを視認できないが、その場合も、境界が不明瞭な対象物OBJTに含む。
【0028】
教師データは、学習用画像IMGTと複数のアノテーションTG1~TG3を含む。アノテーションTG1~TG3は、同一の学習用画像IMGTにおける同一の対象物OBJTに対して付される。なお、同一画像の同一対象物にたいして第1~第nアノテーションが付されていればよい。nは2以上の整数である。以下ではn=3とする。
【0029】
アノテーションTG1~TG3は、それぞれ異なる作業者によって付されたものである。対象物OBJTの境界が曖昧であるため、作業者によって境界の判定にばらつきがあり、アノテーションTG1~TG3の位置形状が異なっている。図14図15等で後述するように、アノテーションTG1~TG3は、各画素にフラグが付されたマップデータである。作業者が対象物OBJTと判断した領域の各画素に、フラグが付される。以下、このマップデータをフラグデータとも呼ぶ。
【0030】
学習装置50は、教師データを用いて学習モデル20に対する学習処理を行う。即ち、学習装置50は、学習用画像IMGTを学習モデル20に入力し、学習モデル20が検出した対象物OBJTの位置情報とアノテーションTG1とを比較し、その誤差に基づくフィードバックを学習モデル20に対して行う。この手順を、アノテーションTG2、TG3についても順次に行う。
【0031】
なお、学習手法は上記に限定されない。例えば、学習装置50は、アノテーションTG1~TG3を合成することで合成アノテーションを生成し、その合成アノテーションと学習用画像IMGTとに基づいて学習モデル20に対する学習処理を行ってもよい。例えば、アノテーションTG1~TG3のマップデータを加算平均して合成アノテーションとしてもよい。例えば、アノテーションTG1~TG3の各画素に付されるフラグを「1」とする。例えば、アノテーションTG1~TG3の全てにおいてフラグが付された画素では、そのフラグの平均値は1であり、アノテーションTG1~TG3のうち1つだけにフラグが付された画素では、そのフラグの平均値は1/3である。この平均値が各画素に付されたマップデータが合成アノテーションである。
【0032】
図2の学習が行われることで、学習モデル20は、複数のアノテーションTG1~TG3の重複関係に基づいて学習用画像IMGTにおける対象物OBJTの位置情報を出力するように、学習される。具体的には、対象物OBJTの位置情報は、対象物OBJTの位置の確からしさを連続的又は段階的に示す情報である。学習後の学習モデル20は、アノテーションTG1~TG3が重複した領域では位置の確からしさが高く、且つアノテーションTG1~TG3が重複しない領域では位置の確からしさが低い位置情報を、出力する。以下では、学習後の学習モデル20を学習済みモデルと呼ぶ。
【0033】
図3は、第1実施形態における検出処理を説明する図である。検出用画像IMGDは、例えば内視鏡システム100により撮影された動画のフレーム画像である。
【0034】
検出用画像IMGDの画角内には、境界が不明瞭な対象物OBJDが含まれる。図3では、不明瞭な境界を点線で示している。なお対象物OBJDが他の組織又は臓器に覆われている場合には、検出用画像IMGDにおいて対象物OBJDそのものを視認できないが、その場合も、境界が不明瞭な対象物OBJDに含む。図3には、対象物OBJDの位置形状が、学習用画像IMGTにおける対象物OBJTの位置形状と同じ場合を図示している。但し、通常は、検出用画像IMGDは学習用画像IMGTとは異なる画像であり、対象物OBJDの位置形状は対象物OBJTの位置形状とは異なる。
【0035】
検出部5は、検出用画像IMGDから対象物OBJDの位置情報を検出する。即ち、検出部5は、検出用画像IMGDを学習済みモデル30に入力し、学習済みモデル30が検出した対象物OBJDの位置情報HTMを出力する。位置情報HTMは、対象物OBJDの位置の確からしさを連続的又は段階的に示す情報である。具体的には、位置情報HTMは、位置の確からしさを示す値が各画素に割り当てられたマップデータである。図3では、位置情報HTMにおける位置の確からしさを斜線ハッチングで表している。斜線の密度が濃いほど、位置の確からしさが高いことを示す。図3では3段階の確からしさで位置情報を図示しているが、確からしさの段階数は3に限定されず、また確からしさは連続的な値であってもよい。
【0036】
図4は、第1実施形態における表示処理を説明する図である。
【0037】
出力部6は、検出用画像IMGDと位置情報HTMに基づいて表示画像IMGHを生成し、その表示画像IMGHを表示部3に出力する。具体的には、出力部6は、位置情報HTMに基づいて表示情報MKHを生成し、その表示情報MKHを検出用画像IMGDに重畳することで表示画像IMGHを生成する。表示情報MKHは、対象物OBJDの位置の確からしさを連続的又は段階的に表示する情報である。例えば、表示情報MKHは、確からしさの値を色の変化で視覚化したヒートマップである。或いは、表示情報MKHは、単一色であるが、確からしさの値に応じて透過率が変化する情報であってもよい。
【0038】
本実施形態によれば、学習用画像IMGTにおける対象物OBJTに対して複数のアノテーションTG1~TG3が付された教師データに基づいて学習モデル20が学習されることで、学習済みモデル30が生成される。これにより、学習済みモデル30が、複数のアノテーションTG1~TG3の重複関係に基づいて対象物OBJTの位置情報を出力できるようになる。このようにすれば、複数の作業者が個別に同一の対象物について個別にアノテーションを付したものを教師データとすることができる。また、複数のアノテーションTG1~TG3の重複関係に基づいて学習が行われることで、対象物OBJTの境界の曖昧さを考慮した学習を行うことができる。
【0039】
また本実施形態によれば、複数のアノテーションTG1~TG3の重複関係に基づいて学習が行われた学習済みモデル30を用いることで、検出部5が、検出用画像IMGDにおける対象物OBJDの位置の確からしさを連続的又は段階的に示す位置情報HTMを、検出できる。そして、出力部6が、位置情報HTMに基づいて、検出用画像IMGDにおける対象物OBJDの位置の確からしさを連続的又は段階的に示す表示情報MKHを表示部3に表示させることができる。このようにすれば、対象物OBJDの境界の曖昧さを考慮した位置情報の表示を行うことができる。
【0040】
3.第2実施形態
第2実施形態では、境界の曖昧さを考慮された位置情報を検出することは第1実施形態と同様であるが、その境界の曖昧さを考慮した処理を出力側で行う。
【0041】
図5は、第2実施形態における学習処理を説明する図である。教師データは第1実施形態と同様に、学習用画像IMGTと複数のアノテーションTG1~TG3とを含む。
【0042】
学習モデル20は、第1~第3学習モデル21~23を含む。学習モデル21~23は、例えば同一の推論アルゴリズムを用いるが、これに限定されるものではない。学習装置50は、教師データを用いて学習モデル21~23に対する学習処理を行う。即ち、学習装置50は、学習用画像IMGTを学習モデル21に入力し、学習モデル21が検出した対象物OBJTの第1位置情報とアノテーションTG1とを比較し、その誤差に基づくフィードバックを学習モデル21に対して行う。同様に、学習装置50は、学習用画像IMGTを学習モデル22、23に入力し、学習モデル22、23が検出した対象物OBJTの第2、第3位置情報とアノテーションTG2、TG3とを比較し、その誤差に基づくフィードバックを学習モデル22、23に対して行う。
【0043】
上記学習によって、学習モデル21は、アノテーションTG1と同様な第1位置情報を出力するように学習される。即ち、学習モデル21は、アノテーションTG1のフラグデータと同様なフラグデータを第1位置情報として出力するように、学習される。同様に、学習モデル22、23は、アノテーションTG2、TG3のフラグデータと同様なフラグデータを第2、第3位置情報として出力するように、学習される。
【0044】
学習モデル21~23の各々が出力する位置情報は、フラグデータであるため、それ自体は境界が明瞭である。一方、学習モデル20全体として見れば、アノテーションTG1~TG3に対応した3つのフラグデータが得られるので、対象物OBJTの境界の曖昧さが考慮された位置情報となっている。
【0045】
図6は、第2実施形態における検出処理を説明する図である。学習済みモデル30は、第1~第3学習済みモデル31~33を含む。学習済みモデル31~33は、それぞれ学習後の学習モデル21~23である。
【0046】
検出部5は、検出用画像IMGDから対象物OBJDの第1~第3位置情報MK1~MK3を検出する。即ち、検出部5は、検出用画像IMGDを学習済みモデル31に入力し、学習済みモデル31が検出した位置情報MK1を出力する。同様に、検出部5は、検出用画像IMGDを学習済みモデル32、33に入力し、学習済みモデル32、33が検出した位置情報MK2、MK3を出力する。位置情報MK1~MK3は、各画素にフラグが付されたマップデータ、即ちフラグデータである。
【0047】
図7は、第2実施形態における表示処理を説明する図である。
【0048】
出力部6は、位置情報MK1~MK3に基づいて対象物OBJDの位置情報HTMを出力する。位置情報HTMは、対象物OBJDの位置の確からしさを連続的又は段階的に示す情報である。即ち、出力部6は、位置の確からしさを示す値が各画素に割り当てられたマップデータを位置情報HTMとして生成する。例えば、出力部6は、位置情報MK1~MK3を加算平均することでマップデータを生成する。
【0049】
出力部6は、検出用画像IMGDと位置情報HTMに基づいて表示画像IMGHを生成し、その表示画像IMGHを表示部3に出力する。表示画像IMGHの生成手法は第1実施形態と同様である。
【0050】
本実施形態によれば、学習済みモデル31~33が検出した位置情報MK1~MK3の各々は、フラグデータであるため、それ自体は境界が明瞭である。一方、出力部6が位置情報MK1~MK3を合成した位置情報HTMは、位置の確からしさを連続的又は段階的に示す情報となっている。この位置情報HTMを用いることで、対象物OBJDの境界の曖昧さを考慮した位置情報の表示を行うことができる。
【0051】
4.第3実施形態
第3実施形態では、アノテーションTG1~TG3に対して重み付けを行い、その重み付けされたアノテーションTG1~TG3を用いて学習を行う。
【0052】
図8は、第3実施形態における学習処理を説明する図である。教師データは第1実施形態と同様に、学習用画像IMGTと複数のアノテーションTG1~TG3とを含む。
【0053】
学習装置50は、アノテーションTG1~TG3に対して重み付けを行うことでアノテーションTG1’~TG3’を生成する。アノテーションTG1~TG3のうち最も重視すべきアノテーションに対して、より大きな重み付けを行う。例えば、アノテーションTG1~TG3を作成した3人の作業者のうち、最も熟練度が高い作業者が作成したアノテーションに対して、より大きな重み付けを行う。具体的な重み付け処理としては、種々の処理を想定できるが、例えば以下の第1例、第2例を想定できる。
【0054】
第1例では、学習装置50は、アノテーションTG1~TG3のフラグデータに重み係数WG1~WG3を乗算することでアノテーションTG1’~TG3’を生成する。例えばTG1においてフラグ「1」の画素には、TG1’において値「WG1」が割り当てられることになる。例えばアノテーションTG1を重視する場合、WG1>WG2、WG1>WG3とする。
【0055】
第2例では、学習装置50は、最も重視するアノテーションの位置形状に近づけるようにアノテーションTG1~TG3の位置形状を加工することでアノテーションTG1’~TG3’を生成する。例えばアノテーションTG1を重視する場合、学習装置50は、アノテーションTG2、TG3の位置形状をアノテーションTG1の位置形状に近づける。例えば、学習装置50は、アノテーションTG1のフラグデータを重み係数としてアノテーションTG2、TG3のフラグデータに乗算することでアノテーションTG2’、TG3’を生成する。これにより、アノテーションTG2、TG3のうちアノテーションTG1に重なる部分のみが残り、それがアノテーションTG2’、TG3’となる。アノテーションTG1’はアノテーションTG1と同じである。
【0056】
学習装置50は、図2で説明した第1実施形態における学習処理と同様にして、アノテーションTG1’~TG3’を用いた学習処理を行う。
【0057】
また検出部5は、図3で説明した第1実施形態における検出処理と同様にして、検出用画像IMGDから対象物OBJDの位置情報HTMを検出する。また出力部6は、図4で説明した第1実施形態における表示処理と同様にして、対象物OBJDの位置情報HTMと検出用画像IMGDとに基づいて表示画像IMGHを生成する。
【0058】
本実施形態によれば、複数のアノテーションTG1~TG3の重複関係が重み付けされた教師データに基づいた学習が行われる。これにより、例えば熟練作業者が作成したアノテーションを重視した学習を行うことができる。そして、その学習により作成された学習済みモデル30を用いて検出用画像IMGDから対象物OBJDの位置情報を検出することで、熟練作業者の知見をより大きく反映した検出結果を得ることができる。
【0059】
なお、「重複関係が重み付けされる」とは、複数のアノテーションのうち、いずれのアノテーションとの重複関係を重視するかが重み付けされている、ということである。上記第1例では、アノテーションTG1の重みが最も大きいので、アノテーションTG2、TG3のうちアノテーションTG1に重ならない部分が学習に与える影響度が相対的に小さくなる。上記第2例では、アノテーションTG2、TG3のうちアノテーションTG1に重なる部分のみが残る。即ち、アノテーションTG1に重複する部分が重視されている。
【0060】
5.第4実施形態
第4実施形態では、第3実施形態と同様に重み付けを行うが、学習済みモデル30が検出した複数の位置情報に対して重み付けを行う。
【0061】
図9は、第4実施形態における検出処理及び表示処理を説明する図である。第2実施形態と同様に、学習済みモデル30は、第1~第3学習済みモデル31~33を含む。検出部5は、検出用画像IMGDを学習済みモデル31~33に入力し、学習済みモデル31~33が検出した位置情報MK1~MK3を出力する。
【0062】
出力部6は、位置情報MK1~MK3に対して重み付けを行うことで位置情報MK1’~MK3’を生成する。出力部6は、第3実施形態におけるアノテーションTG1~TG3に対する重み付けと同様にして、位置情報MK1~MK3に対する重み付けを行う。即ち、重視したいアノテーションに対応した位置情報に対して、より大きな重み付けを行う。出力部6は、重み付け後の位置情報MK1’~MK3’から位置情報HTMを生成する。例えば、出力部6は、重み付け後の位置情報MK1’~MK3’を加算平均することでマップデータを生成する。出力部6は、図4で説明した第1実施形態における表示処理と同様にして、対象物OBJDの位置情報HTMと検出用画像IMGDとに基づいて表示画像IMGHを生成する。
【0063】
本実施形態によれば、学習済みモデル31~33が検出した位置情報MK1~MK3に対して重み付けされることで、位置情報HTMが生成される。これにより、例えば熟練作業者が作成したアノテーションを重視した位置情報HTMを生成できる。これにより、熟練作業者の知見をより大きく反映した検出結果を得ることができる。
【0064】
6.第5実施形態
第5実施形態では、アノテーションTG1~TG3の重複関係に基づくボケ処理を行い、ボケ処理後のアノテーションを用いて学習を行う。
【0065】
図10は、第5実施形態における学習処理を説明する図である。学習装置50は、アノテーションTG1~TG3に対してボケ処理を行うことでアノテーションTGBRを生成する。学習装置50は、ボケ処理後のアノテーションTGBRと学習用画像IMGTとを用いて学習モデル20に対して学習処理を行う。ボケ処理として種々の処理を想定できるが、以下に一例を示す。
【0066】
学習装置50は、アノテーションTG1~TG3の論理積と論理和を求める。論理積と論理和はフラグデータの各画素について実行され、論理積と論理和の結果は各々フラグデータとして出力される。アノテーションTG1~TG3の論理積に対応した領域をAANDとし、アノテーションTG1~TG3の論理和に対応した領域をAORとする。学習装置50は、領域AANDに属する画素には値「1」を割り当てると共に、領域AORに対してボケ処理を行う。領域AORはボケ処理によりグラデーションが施される。即ち、領域AORでは、領域AANDから離れた画素ほど小さい値が割り当てられる。
【0067】
なおボケ処理は上記に限定されない。例えば、学習装置50は、アノテーションTG1~TG3の各々に対してボケ処理を行うことで、アノテーションTG1”~TG3”を生成し、そのアノテーションTG1”~TG3”を用いて学習モデル20に対する学習処理を行ってもよい。例えば、学習装置50は、アノテーションTG1~TG3の各々において、領域AORに対するボケ処理を行うことで、アノテーションTG1”~TG3”を生成してもよい。或いは、学習装置50は、アノテーションTG1~TG3の各々において、境界をぼかすボケ処理を行うことで、アノテーションTG1”~TG3”を生成してもよい。
【0068】
領域AORに対するボケ処理、或いは境界に対するボケ処理は、例えばローパスフィルター処理により実現される。例えば、ボケ処理を施したい領域を指定するマスクを用いることで、特定の領域に対してローパスフィルター処理を行うことができる。
【0069】
検出処理及び表示処理は第1実施形態と同様である。即ち、検出部5は、図3で説明した第1実施形態における検出処理と同様にして、検出用画像IMGDから対象物OBJDの位置情報HTMを検出する。また出力部6は、図4で説明した第1実施形態における表示処理と同様にして、対象物OBJDの位置情報HTMと検出用画像IMGDとに基づいて表示画像IMGHを生成する。
【0070】
本実施形態によれば、複数のアノテーションTG1~TG3が重複しない領域に対してボケ処理された教師データに基づいて学習モデル20が学習されることで、学習済みモデル30が生成される。そして、その学習により作成された学習済みモデル30を用いて検出用画像IMGDから対象物OBJDの位置情報を検出することで、対象物OBJDの境界の曖昧さを考慮した位置情報の表示を行うことができる。なお、「アノテーションTG1~TG3が重複しない領域」とは、アノテーションTG1~TG3のうち少なくとも1つが重複していない領域であり、領域AORから領域AANDを除いた領域である。
【0071】
7.第6実施形態
第6実施形態では、第5実施形態と同様にボケ処理を行うが、学習済みモデル30が検出した複数の位置情報に対してボケ処理を行う。
【0072】
図11は、第6実施形態における検出処理及び表示処理を説明する図である。第2実施形態と同様に、学習済みモデル30は、第1~第3学習済みモデル31~33を含む。検出部5は、検出用画像IMGDを学習済みモデル31~33に入力し、学習済みモデル31~33が検出した位置情報MK1~MK3を出力する。
【0073】
出力部6は、位置情報MK1~MK3に対してボケ処理を行うことで位置情報HTMを生成する。ボケ処理として種々の処理を想定できるが、以下に一例を示す。
【0074】
出力部6は、位置情報MK1~MK3の論理積と論理和を求める。論理積と論理和はフラグデータの各画素について実行され、論理積と論理和の結果は各々フラグデータとして出力される。位置情報MK1~MK3の論理積に対応した領域をMANDとし、位置情報MK1~MK3の論理和に対応した領域をMORとする。出力部6は、領域MANDに属する画素には値「1」を割り当てると共に、領域MORに対してボケ処理を行う。領域MORはボケ処理によりグラデーションが施される。即ち、領域MORでは、領域MANDから離れた画素ほど小さい値が割り当てられる。
【0075】
なおボケ処理は上記に限定されない。例えば、出力部6は、位置情報MK1~MK3の各々に対してボケ処理を行うことで、位置情報MK1”~MK3”を生成し、その位置情報MK1”~MK3”を用いて位置情報HTMを生成してもよい。例えば、出力部6は、位置情報MK1~MK3の各々において、領域MORに対するボケ処理を行うことで、位置情報MK1”~MK3”を生成してもよい。或いは、出力部6は、位置情報MK1~MK3の各々において、境界をぼかすボケ処理を行うことで、位置情報MK1”~MK3”を生成してもよい。例えば、出力部6は、位置情報MK1”~MK3”を加算平均することで位置情報HTMを生成してもよい。
【0076】
本実施形態によれば、学習済みモデル31~33により位置情報MK1~MK3が検出され、その位置情報MK1~MK3が重複しない領域に対してボケ処理されることで、対象物OBJDの位置情報HTMが生成される。この位置情報HTMを用いることで、対象物OBJDの境界の曖昧さを考慮した位置情報の表示を行うことができる。なお、「位置情報MK1~MK3が重複しない領域」とは、位置情報MK1~MK3のうち少なくとも1つが重複していない領域であり、領域MORから領域MANDを除いた領域である。
【0077】
8.第7実施形態
第7実施形態では、複数のアノテーションから求めた論理積と論理和の各々に対して学習を行うことで、論理積に対応する位置情報と、論理和に対応する位置情報とを検出及び表示できるようにする。
【0078】
図12は、第7実施形態における学習処理を説明する図である。学習装置50は、アノテーションTG1~TG3の論理積に対応したフラグデータTGANDと、アノテーションTG1~TG3の論理和に対応したフラグデータTGORと、を求める。領域AANDは、アノテーションTG1~TG3の論理積に対応し、フラグデータTGANDは、領域AANDに属する画素にフラグが付されたデータである。領域AORは、アノテーションTG1~TG3の論理和に対応し、フラグデータTGORは、領域AORに属する画素にフラグが付されたデータである。
【0079】
学習モデル20は、第1学習モデル21と第2学習モデル22とを含む。学習装置50は、学習用画像IMGTを学習モデル21に入力し、学習モデル21が検出した対象物OBJTの第1位置情報とフラグデータTGANDとを比較し、その誤差に基づくフィードバックを学習モデル21に対して行う。また、学習装置50は、学習用画像IMGTを学習モデル22に入力し、学習モデル22が検出した対象物OBJTの第2位置情報とフラグデータTGORとを比較し、その誤差に基づくフィードバックを学習モデル22に対して行う。
【0080】
学習モデル21は、例えば領域検出(セマンティックセグメンテーション)を行う推論アルゴリズムを用いる。学習モデル22は、例えば存在検出(ディテクション)を行う推論アルゴリズムを用いる。存在検出を行う学習モデル22は、例えば対象物を内包する矩形を位置情報として検出する。なお学習モデル21、22が用いる推論アルゴリズムは、これに限定されない。例えば学習モデル21、22ともに領域検出を行ってもよい。この場合、学習モデル22が検出した領域を内包する矩形を、位置情報としてもよい。
【0081】
図13は、第7実施形態における検出処理及び表示処理を説明する図である。学習済みモデル30は、第1学習済みモデル31と第2学習済みモデル32とを含む。学習済みモデル31、32は、それぞれ学習後の学習モデル21、22である。
【0082】
検出部5は、検出用画像IMGDを学習済みモデル31に入力し、学習済みモデル31が検出した第1位置情報MKARを出力する。位置情報MKARは、対象物OBJDが検出された領域に属する画素にフラグが付されたフラグデータである。また検出部5は、検出用画像IMGDを学習済みモデル32に入力し、学習済みモデル32が検出した第2位置情報MKDTを出力する。位置情報MKDTは、点線で示す論理和領域を内包する矩形である。但し、学習済みモデル32が存在検出を行う場合には論理和領域は検出されず、矩形の位置情報MKDTが直接に検出される。
【0083】
出力部6は、位置情報MKARに基づく第1表示情報HYARと、位置情報MKDTに基づく第2表示情報HYDTとを生成し、表示情報HYAR、HYDTを区別して検出用画像IMGDに合成することで表示画像IMGHを生成する。例えば、表示情報HYARは、位置情報MKARの領域に特定色を付したものである。表示情報HYDTは、位置情報MKDTの矩形を表示するものである。
【0084】
本実施形態によれば、対象物OBJDの境界の曖昧さを考慮した位置情報の表示を行うことができる。具体的には、アノテーションTG1~TG3の重複領域に相当する位置情報MKARと、アノテーションTG1~TG3が重複しない領域に相当する位置情報MKDTとを、生成できる。これらの位置情報MKAR、MKDTを用いることで、対象物OBJDの位置の確からしさに応じた表示が可能となる。即ち、位置の確からしさが高い領域を表示情報HYARで示すと共に、対象物OBJDの可能性があるが相対的に確からしさが低い領域を矩形の表示情報HYDTで示すことができる。
【0085】
9.アノテーション、対象物
学習用画像に対するアノテーションの例と、アノテーション対象である対象物の例と、を説明する。なお以下では腹腔鏡下胆のう摘出手術を例に説明するが、上述した実施形態の適用対象は腹腔鏡下胆のう摘出手術に限定されない。即ち、同一画像の同一対象物に複数のアノテーションが付された教師データに基づいて機械学習が行われ、その学習済みモデルにより画像から対象物が検出される場合に、上述した実施形態を適用可能である。
【0086】
図14に、アノテーションの例を示す。アノテーション前の学習用画像には、肝臓KZと、胆のうTNNと、処置具TL1、TL2とが撮像されている。この学習用画像の画角内には、総胆管、胆のう管、ルビエレ溝及びS4下縁が含まれている。図14において、肝臓右葉の実線部分は、ルビエレ溝の開始部分(比較的明瞭な部分)を示し、点線部分は溝の終了部分に向かって徐々に溝が消失していく状態を示す。また、肝臓左葉内側の下縁付近の点線は、画像で視認できるが境界が曖昧な対象物であるS4下縁の領域を示す。
【0087】
アノテーションを行う作業者は、学習用画像から総胆管及び胆のう管、ルビエレ溝、S4下縁を識別し、各々に対してタグ付けを行う。アノテーション後の学習用画像には、総胆管を示すタグTGAと、胆のう管を示すタグTGBと、ルビエレ溝を示すタグTGCと、S4下縁を示すタグTGDが付されている。例えば、作業者は、マウス又はタッチパネル等のポインティングデバイスを用いて、総胆管等の領域を指定する。学習装置は、作業者によって指定された学習用画像上の領域にタグを付す。
【0088】
総胆管と胆のう管は、臓器又は組織に覆われている対象物の例である。このような対象物は、カメラの画角内に入っていたとしても、対象物そのものは画像上では見えない。このため、対象物の位置形状は明確でない。腹腔鏡下胆のう摘出手術の内視鏡画像において、総胆管は肝臓に覆われており、総胆管そのものは画像に表示されない。ルビエレ溝とS4下縁は、画像中に露出して視認できるが、境界が曖昧な対象物の例である。腹腔鏡下胆のう摘出手術の内視鏡画像において、ルビエレ溝は視認可能であり、その溝の開始部分は比較的明瞭である。しかし、溝の終了部分に向かって徐々に溝が消失していくため、ルビエレ溝の境界が曖昧となっている。S4下縁は、肝臓左葉内側の下縁であり視認できるが、境界が曖昧である。
【0089】
図15に、アノテーションにより生成された教師データの例を示す。図15に示すように、タグ付けされた領域の画素に、フラグが付される。この各画素にフラグが付されたマップデータを、フラグデータと呼ぶ。フラグデータは、タグTGA~TGDの各々について生成される。即ち、教師データは、学習用画像と、その学習用画像にタグ付けすることで生成された4層のフラグデータと、で構成されている。
【0090】
なお図15には、1人の作業者が付したアノテーションを図示している。複数の作業者がアノテーションを付す場合、同一の学習用画像に対して、4層のフラグデータのセットが、作業者の人数分だけ付されることになる。即ち、総胆管、胆のう管、ルビエレ溝及びS4下縁の各々に対して、作業者の人数分だけアノテーションが付される。
【0091】
10.学習装置
図16は、学習装置50の構成例である。学習装置50は、処理部51と記憶部52と操作部53と表示部54とを含む。例えば、学習装置50はPC等の情報処理装置である。処理部51はCPU等のプロセッサである。処理部51は、学習モデルに対する機械学習を行って学習済みモデルを生成する。記憶部52は半導体メモリ又はハードディスクドライブ等の記憶装置である。操作部53はマウス又はタッチパネル、キーボード等の種々の操作入力装置である。表示部54は液晶ディスプレイ等の表示装置である。なお学習装置50は、ネットワークで接続された複数の情報処理装置が並列処理を行うクラウドシステムであってもよい。
【0092】
なお、図1の情報処理システム10が学習装置を兼ねてもよい。この場合、処理部4、記憶部7、操作部9、表示部3が、それぞれ学習装置50の処理部51、記憶部52、操作部53、表示部54に対応する。
【0093】
図17は、学習の手順を示すフローチャートである。
【0094】
教師データは記憶部52に記憶されている。ステップS11において、処理部51は記憶部52から教師データを読み出す。例えば1回の推論に対して1つの学習用画像と、それに対応したフラグデータとが読み出される。なお、1回の推論に複数の学習用画像と、それに対応したフラグデータとが用いられてもよい。
【0095】
ステップS12において、処理部51は対象物の位置情報を推定し、その結果を出力する。即ち、処理部51は、ニューラルネットワークに学習用画像を入力する。処理部51は、ニューラルネットワークによる推論処理を実行し、対象物の位置情報を出力する。
【0096】
ステップS13において、処理部51は、ニューラルネットワークが推定した位置情報と、教師データのアノテーションが示す位置情報を比較し、その結果に基づいて誤差を計算する。
【0097】
ステップS14において、処理部51は、誤差が減少するように学習モデルのモデルパラメータを調整する。即ち、処理部51は、ステップS13で求めた誤差に基づいて、ニューラルネットワークにおけるノード間の重み係数等を調整する。
【0098】
ステップS15において、処理部51は、パラメータ調整を規定回数終了したか否かを判断する。パラメータ調整が規定回数終了していない場合、処理部51はステップS11~S15を再び実行する。パラメータ調整が規定回数終了した場合、ステップS16に示すように処理部51は学習処理を終了する。又は、処理部51は、ステップS13で求めた誤差が規定値以下になったか否かを判断する。誤差が規定値以下になっていない場合、処理部51はステップS11~S15を再び実行する。誤差が規定値以下になった場合、ステップS16に示すように処理部51は学習処理を終了する。学習処理後の学習モデルが学習済みモデルである。
【0099】
学習モデル及び学習済みモデルは、ニューラルネットワークを含むことができる。ニューラルネットワークは、データを入力する入力層と、入力層を通じて入力されたデータに対し演算処理を行う中間層と、中間層から出力される演算結果に基づいてデータを出力する出力層と、を含む。本実施形態において、入力層に入力されるデータは、学習用画像又は検出用画像である。また出力層から出力されるデータは、対象物の位置形状を示す位置情報である。なお、ニューラルネットワークとして、公知の様々なAI(Artificial Intelligence)技術を採用できる。ニューラルネットワークを利用するためには、学習や推論アルゴリズムを実行するためのソフトウェア開発を行う必要があるが、市販化、無償公開されたソフトウェアパッケージも現在複数入手可能であり、それらを利用することもできる。また、ニューラルネットワークにおける機械学習のアルゴリズムとして、公知の種々な学習アルゴリズムを採用でき、例えば、誤差逆伝播法を用いた教師有り学習アルゴリズムを採用できる。
【0100】
また、学習済みモデルは、コンピュータにより読み取り可能な媒体である情報記憶媒体に、格納されてもよい。情報記憶媒体は、例えば光ディスク、メモリカード、HDD、或いは半導体メモリなどにより実現できる。半導体メモリは例えばROMである。図1の情報処理システム10は、情報記憶媒体に格納されるプログラムとデータに基づいて本実施形態の種々の処理を行う。即ち情報記憶媒体には、本実施形態の学習済みモデルをコンピュータに実行させるためのプログラムとパラメータが記憶される。コンピュータは、入力装置、及び処理部、記憶部、出力部を備える装置である。プログラムは、学習済みモデルの推論アルゴリズムをコンピュータに実行させるためのプログラムである。パラメータは、推論アルゴリズムに用いられるパラメータであり、例えばニューラルネットワークにおけるノード間接続の重み係数である。情報記録媒体としては、DVDやCD等の光ディスク、光磁気ディスク、ハードディスク、不揮発性メモリやRAM等のメモリなど、コンピュータによって読み取り可能な種々の記録媒体を想定できる。
【0101】
以上、本発明を適用した実施形態およびその変形例について説明したが、本発明は、各実施形態やその変形例そのままに限定されるものではなく、実施段階では、発明の要旨を逸脱しない範囲内で構成要素を変形して具体化することができる。また、上記した各実施形態や変形例に開示されている複数の構成要素を適宜組み合わせることによって、種々の発明を形成することができる。例えば、各実施形態や変形例に記載した全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態や変形例で説明した構成要素を適宜組み合わせてもよい。このように、発明の主旨を逸脱しない範囲内において種々の変形や応用が可能である。また、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。
【符号の説明】
【0102】
1 プロセッサユニット、2 内視鏡スコープ、3 表示部、4 処理部、5 検出部、6 出力部、7 記憶部、8 撮像データ受信部、9 操作部、10 情報処理システム、20 学習モデル、21 第1学習モデル、22 第2学習モデル、23 第3学習モデル、50 学習装置、51 処理部、52 記憶部、53 操作部、54 表示部、100 内視鏡システム、HTM 位置情報、HYAR,HYDT 表示情報、IMGD 検出用画像、IMGH 表示画像、IMGT 学習用画像、MK1~MK3 位置情報、MKAR,MKDT 位置情報、MKH 表示情報、OBJD,OBJT 対象物、TG1~TG3 アノテーション
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17