(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-20
(45)【発行日】2023-09-28
(54)【発明の名称】学習支援システム及び学習支援方法
(51)【国際特許分類】
H04L 67/06 20220101AFI20230921BHJP
G06F 21/62 20130101ALI20230921BHJP
G06N 20/00 20190101ALI20230921BHJP
G06N 3/02 20060101ALI20230921BHJP
【FI】
H04L67/06
G06F21/62
G06N20/00
G06N3/02
(21)【出願番号】P 2021552057
(86)(22)【出願日】2019-10-17
(86)【国際出願番号】 JP2019040875
(87)【国際公開番号】W WO2021075023
(87)【国際公開日】2021-04-22
【審査請求日】2022-04-11
(73)【特許権者】
【識別番号】000000376
【氏名又は名称】オリンパス株式会社
(74)【代理人】
【識別番号】100104710
【氏名又は名称】竹腰 昇
(74)【代理人】
【識別番号】100124682
【氏名又は名称】黒田 泰
(74)【代理人】
【識別番号】100090479
【氏名又は名称】井上 一
(74)【代理人】
【識別番号】100166523
【氏名又は名称】西河 宏晃
(72)【発明者】
【氏名】坂口 誠一郎
【審査官】小林 義晴
(56)【参考文献】
【文献】国際公開第2018/142764(WO,A1)
【文献】国際公開第2019/069629(WO,A1)
【文献】特表2018-533103(JP,A)
【文献】特開2019-139386(JP,A)
【文献】川上明久,実践AWS! 企業クラウドの設計パターン 特別編 AIとIoT AIの学習と試行を効率化 エッジのIoTと協調処理,日経SYSTEMS,日本,日経BP社,2019年01月14日,第310号,pp.54-61
(58)【調査した分野】(Int.Cl.,DB名)
H04L 67/06
G06F 21/62
G06N 20/00
G06N 3/02
(57)【特許請求の範囲】
【請求項1】
第1ネットワークにおいて生成された内視鏡画像と、前記第1ネットワークにおいて生成され前記内視鏡画像の注目領域にアノテーションが行われたアノテーション画像を保存するストレージと、
前記ストレージから前記アノテーション画像を取得し、前記アノテーション画像を用いた機械学習を行うことによって、学習済モデルを生成するプロセッサと、
前記プロセッサと通信して前記学習済モデルがアップロードされるサーバシステムと、
前記プロセッサと通信して、前記機械学習を支援する支援プロセッサと、
を含み、
前記ストレージ及び前記プロセッサは、前記第1ネットワークを構成するノードであり、前記サーバシステムは、第2ネットワークを構成するノードであり、
前記第1ネットワークは、院内ネットワークであり、前記第2ネットワークは院外ネットワークであ
り、
前記支援プロセッサは、第4ネットワークを構成するノードであり、
前記第4ネットワークは、前記内視鏡画像を生成する内視鏡システムのメーカのネットワークであり、
前記プロセッサは、複数のコンテナのうちのいずれかのコンテナを用いて前記機械学習を行い、
前記コンテナは、前記機械学習に用いられるアルゴリズムであるモデルと、前記モデルに従った前記機械学習を行う実行環境であるフレームワークとからなり、
前記支援プロセッサは、
前記コンテナの選択指示を行うことによって、前記機械学習を支援し、
前記モデルに含まれるパラメータの設定指示を行うことによって、前記機械学習を支援することを特徴とする学習支援システム。
【請求項2】
請求項1において、
前記院内ネットワークは、前記院外ネットワークに比べて、前記内視鏡画像及び前記アノテーション画像について、セキュリティ性の高いネットワークであることを特徴とする学習支援システム。
【請求項3】
請求項2において、
前記院内ネットワークは、アクセス可能なIP(Internet Protocol)アドレスが制限されていることを特徴とする学習支援システム。
【請求項4】
請求項1において、
前記院内ネットワークは、イントラネットであり、
前記院外ネットワークは、インターネットであることを特徴とする学習支援システム。
【請求項5】
請求項4において、
前記院内ネットワークは、第1イントラネットと第2イントラネットを含み、
前記第1イントラネット内の所与の前記ノードと、前記第2イントラネット内の所与の前記ノードは、ブロックチェーンネットワークを構成するノードである、又は、
前記第1イントラネットと前記第2イントラネットは、VPN(Virtual Private Network)を構成することを特徴とする学習支援システム。
【請求項6】
請求項1において、
前記プロセッサは、
前記アノテーション画像を用いて、CNN(Convolutional Neural Network)で前記機械学習された前記学習済モデルを生成することを特徴とする学習支援システム。
【請求項7】
請求項1において、
前記プロセッサは、
推論内視鏡画像を撮像する内視鏡システムと、前記学習済モデルとの適合性を表す適合性情報を生成し、前記学習済モデルと前記適合性情報とを対応付けて前記サーバシステムにアップロードし、
前記推論内視鏡画像は、前記学習済モデルを用いた推論処理の入力となる画像であることを特徴とする学習支援システム。
【請求項8】
請求項1において、
前記サーバシステムと通信して前記学習済モデルをダウンロードし、前記学習済モデルに基づいて、推論内視鏡画像から前記注目領域の検出処理を行う推論プロセッサをさらに含み、
前記推論内視鏡画像は、前記学習済モデルを用いた推論処理の入力となる画像であり、
前記推論プロセッサは、第3ネットワークを構成するノードであり、
前記第3ネットワークは、推論処理を実行する推論病院のネットワークであることを特徴とする学習支援システム。
【請求項9】
請求項8において、
前記サーバシステムは、複数の前記学習済モデルを記憶し、
前記推論プロセッサは、
複数の前記学習済モデルから前記検出処理に用いる前記学習済モデルを選択し、選択した前記学習済モデルをダウンロードすることを特徴とする学習支援システム。
【請求項10】
第1ネットワークにおいて生成された内視鏡画像と、前記第1ネットワークにおいて生成され前記内視鏡画像の注目領域にアノテーションが行われたアノテーション画像を保存するストレージと、
前記ストレージから前記アノテーション画像を取得し、前記アノテーション画像を用いた機械学習を行うことによって、学習済モデルを生成し、生成した前記学習済モデルをサーバシステムにアップロードするプロセッサと、
前記プロセッサと通信して、前記機械学習を支援する支援プロセッサと、
を含み、
前記ストレージ及び前記プロセッサは、前記第1ネットワークを構成するノードであり、前記サーバシステムは、第2ネットワークを構成するノードであり、
前記第1ネットワークは、院内ネットワークであり、前記第2ネットワークは院外ネットワークであ
り、
前記支援プロセッサは、第4ネットワークを構成するノードであり、
前記第4ネットワークは、前記内視鏡画像を生成する内視鏡システムのメーカのネットワークであり、
前記プロセッサは、複数のコンテナのうちのいずれかのコンテナを用いて前記機械学習を行い、
前記コンテナは、前記機械学習に用いられるアルゴリズムであるモデルと、前記モデルに従った前記機械学習を行う実行環境であるフレームワークとからなり、
前記支援プロセッサは、
前記コンテナの選択指示を行うことによって、前記機械学習を支援し、
前記モデルに含まれるパラメータの設定指示を行うことによって、前記機械学習を支援することを特徴とする学習支援システム。
【請求項11】
第1ネットワークにおいて生成された内視鏡画像と、前記第1ネットワークにおいて生成され前記内視鏡画像の注目領域にアノテーションが行われたアノテーション画像を保存するストレージから前記アノテーション画像を取得し、前記アノテーション画像を用いた機械学習を行うことによって、学習済モデルを生成し、生成した前記学習済モデルをサーバシステムにアップロードするプロセッサと通信を行うことによって、前記機械学習を支援する支援プロセッサを含み、
前記プロセッサは、複数のコンテナのうちのいずれかのコンテナを用いて前記機械学習を行い、
前記コンテナは、前記機械学習に用いられるアルゴリズムであるモデルと、前記モデルに従った前記機械学習を行う実行環境であるフレームワークとからな
り、
前記支援プロセッサは、
前記コンテナ
の選択
指示を行うことによって、前記機械学習を支援し、
前記モデルに含まれるパラメータの設定指示を行うことによって、前記機械学習を支援し、
前記ストレージ及び前記プロセッサは、前記第1ネットワークを構成するノードであり、前記サーバシステムは、第2ネットワークを構成するノードであり、前記支援プロセッサは、第4ネットワークを構成するノードであり、
前記第1ネットワークは、院内ネットワークであり、前記第2ネットワークは院外ネットワークであり、前記第4ネットワークは、前記内視鏡画像を生成する内視鏡システムのメーカのネットワークであることを特徴とする学習支援システム。
【請求項12】
第1ネットワークにおいて生成された内視鏡画像と、前記第1ネットワークにおいて生成され前記内視鏡画像の注目領域にアノテーションが行われたアノテーション画像を保存するストレージと、
前記ストレージから前記アノテーション画像を取得し、前記アノテーション画像を用いた機械学習を行うことによって、学習済モデルを生成するプロセッサと、
前記プロセッサと通信して前記学習済モデルがアップロードされるサーバシステムと、
推論プロセッサと、
を含み、
前記ストレージ及び前記プロセッサは、前記第1ネットワークを構成するノードであり、前記サーバシステムは、第2ネットワークを構成するノードであり、
前記第1ネットワークは、院内ネットワークであり、前記第2ネットワークは院外ネットワークであ
り、
前記プロセッサは、推論内視鏡画像を撮像する内視鏡システムと、前記学習済モデルとの適合性を表す適合性情報を生成し、前記学習済モデルと前記適合性情報とを対応付けて前記サーバシステムにアップロードし、
前記推論内視鏡画像は、前記学習済モデルを用いた推論処理の入力となる画像であり、
前記推論プロセッサは、前記サーバシステムと通信して前記学習済モデルをダウンロードし、前記学習済モデルに基づいて、前記推論内視鏡画像から前記注目領域の検出処理を行い、
前記推論プロセッサは、第3ネットワークを構成するノードであり、
前記第3ネットワークは、推論処理を実行する推論病院のネットワークであり、
前記サーバシステムは、複数の前記学習済モデルを記憶し、
前記推論プロセッサは、前記推論内視鏡画像を撮像する内視鏡システムの構成、撮像条件、撮像対象の患者に関する情報のうち、少なくとも一つの情報を前記サーバシステムに送信し、
前記サーバシステムは、前記推論プロセッサから送信された前記少なくとも一つの情報と、前記適合性情報との類似度を算出し、前記類似度が所与の閾値以上となる1又は複数の前記学習済みモデルを前記推論プロセッサに提示し、
前記推論プロセッサは、前記サーバシステムから提示された前記1又は複数の前記学習済モデルから前記検出処理に用いる前記学習済モデルを選択し、選択した前記学習済モデルをダウンロードすることを特徴とする学習支援システム。
【請求項13】
第1ネットワークにおいて生成された内視鏡画像と、前記第1ネットワークにおいて生成され前記内視鏡画像の注目領域にアノテーションが行われたアノテーション画像を保存するストレージと、
前記ストレージから前記アノテーション画像を取得し、前記アノテーション画像を用いた機械学習を行うことによって、学習済モデルを生成し、生成した前記学習済モデルをサーバシステムにアップロードするプロセッサと、
推論プロセッサと、
を含み、
前記ストレージ及び前記プロセッサは、前記第1ネットワークを構成するノードであり、前記サーバシステムは、第2ネットワークを構成するノードであり、
前記第1ネットワークは、院内ネットワークであり、前記第2ネットワークは院外ネットワークであ
り、
前記プロセッサは、推論内視鏡画像を撮像する内視鏡システムと、前記学習済モデルとの適合性を表す適合性情報を生成し、前記学習済モデルと前記適合性情報とを対応付けて前記サーバシステムにアップロードし、
前記推論内視鏡画像は、前記学習済モデルを用いた推論処理の入力となる画像であり、
前記推論プロセッサは、前記サーバシステムと通信して前記学習済モデルをダウンロードし、前記学習済モデルに基づいて、前記推論内視鏡画像から前記注目領域の検出処理を行い、
前記推論プロセッサは、第3ネットワークを構成するノードであり、
前記第3ネットワークは、推論処理を実行する推論病院のネットワークであり、
前記サーバシステムは、複数の前記学習済モデルを記憶し、
前記推論プロセッサは、前記推論内視鏡画像を撮像する内視鏡システムの構成、撮像条件、撮像対象の患者に関する情報のうち、少なくとも一つの情報を前記サーバシステムに送信し、
前記サーバシステムは、前記推論プロセッサから送信された前記少なくとも一つの情報と、前記適合性情報との類似度を算出し、前記類似度が所与の閾値以上となる1又は複数の前記学習済みモデルを前記推論プロセッサに提示し、
前記推論プロセッサは、前記サーバシステムから提示された前記1又は複数の前記学習済モデルから前記検出処理に用いる前記学習済モデルを選択し、選択した前記学習済モデルをダウンロードすることを特徴とする学習支援システム。
【請求項14】
第1ネットワークにおいて生成された内視鏡画像と、前記第1ネットワークにおいて生成され前記内視鏡画像の注目領域にアノテーションが行われたアノテーション画像を保存し、
前記アノテーション画像を用いた機械学習を行うことによって、学習済モデルを生成し、
生成した前記学習済モデルを、第2ネットワークを構成するノードであるサーバシステムにアップロードし、
前記アノテーション画像の保存及び前記学習済モデルの生成は、前記第1ネットワーク内で実行され、
前記第1ネットワークは、院内ネットワークであり、前記第2ネットワークは院外ネットワークであ
り、
前記学習済モデルの生成において、複数のコンテナのうちのいずれかのコンテナを用いて前記機械学習を行い、
前記コンテナは、前記機械学習に用いられるアルゴリズムであるモデルと、前記モデルに従った前記機械学習を行う実行環境であるフレームワークとからなり、
前記コンテナの選択指示を行うことによって、前記機械学習を支援し、前記モデルに含まれるパラメータの設定指示を行うことによって、前記機械学習を支援し、
前記機械学習の支援は、第4ネットワーク内で実行され、
前記第4ネットワークは、前記内視鏡画像を生成する内視鏡システムのメーカのネットワークであることを特徴とする学習支援方法。
【請求項15】
第1ネットワークにおいて生成された内視鏡画像と、前記第1ネットワークにおいて生成され前記内視鏡画像の注目領域にアノテーションが行われたアノテーション画像を保存し、
前記アノテーション画像を用いた機械学習を行うことによって、学習済モデルを生成し、
生成した前記学習済モデルを、第2ネットワークを構成するノードであるサーバシステムにアップロードし、
前記アノテーション画像の保存及び前記学習済モデルの生成は、前記第1ネットワーク内で実行され、
前記第1ネットワークは、院内ネットワークであり、前記第2ネットワークは院外ネットワークであ
り、
前記学習済みモデルのアップロードにおいて、推論内視鏡画像を撮像する内視鏡システムと、前記学習済モデルとの適合性を表す適合性情報を生成し、前記学習済モデルと前記適合性情報とを対応付けて前記サーバシステムにアップロードし、
前記推論内視鏡画像は、前記学習済モデルを用いた推論処理の入力となる画像であり、
第3ネットワークを構成するノードである推論プロセッサは、前記サーバシステムと通信して前記学習済モデルをダウンロードし、前記学習済モデルに基づいて、前記推論内視鏡画像から前記注目領域の検出処理を行い、
前記第3ネットワークは、推論処理を実行する推論病院のネットワークであり、
前記サーバシステムは、複数の前記学習済モデルを記憶し、
前記推論プロセッサは、前記推論内視鏡画像を撮像する内視鏡システムの構成、撮像条件、撮像対象の患者に関する情報のうち、少なくとも一つの情報を前記サーバシステムに送信し、
前記サーバシステムは、前記推論プロセッサから送信された前記少なくとも一つの情報と、前記適合性情報との類似度を算出し、前記類似度が所与の閾値以上となる1又は複数の前記学習済みモデルを前記推論プロセッサに提示し、
前記推論プロセッサは、前記サーバシステムから提示された前記1又は複数の前記学習済モデルから前記検出処理に用いる前記学習済モデルを選択し、選択した前記学習済モデルをダウンロードすることを特徴とする学習支援方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習支援システム及び学習支援方法等に関する。
【背景技術】
【0002】
従来、内視鏡システムを用いて撮像された内視鏡画像を用いて、学習済モデルを生成する手法が知られている。例えば特許文献1には、大腸粘膜を撮像した内視鏡画像に基づく機械学習を行って学習済モデルを生成し、当該学習済モデルに基づいて、大腸ポリープのピットパターンを分類する手法が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1等の従来手法においては、機械学習に用いられる内視鏡画像や、注目領域を特定するための情報が付与されたアノテーション画像がデータサーバに蓄積され、当該データサーバに蓄積されたデータを用いて学習済モデルが生成される。ここでのデータサーバは、例えば内視鏡システムの製造メーカのサーバであり、内視鏡画像等が取得される病院の外部のネットワークを構成するノードである。従来手法では、内視鏡画像やアノテーション画像が病院外に出てしまうため、秘匿性の高い情報を適切に管理することが難しい。
【0005】
本開示のいくつかの態様によれば、機械学習において、秘匿性の高い内視鏡画像及びアノテーション画像を適切に管理可能な学習支援システム及び学習支援方法等を提供できる。
【課題を解決するための手段】
【0006】
本開示の一態様は、第1ネットワークにおいて生成された内視鏡画像と、前記第1ネットワークにおいて生成され前記内視鏡画像の注目領域にアノテーションが行われたアノテーション画像を保存するストレージと、前記ストレージから前記アノテーション画像を取得し、前記アノテーション画像を用いた機械学習を行うことによって、学習済モデルを生成するプロセッサと、前記プロセッサと通信して前記学習済モデルがアップロードされるサーバシステムと、を含み、前記ストレージ及び前記プロセッサは、前記第1ネットワークを構成するノードであり、前記サーバシステムは、第2ネットワークを構成するノードであり、前記第1ネットワークは、院内ネットワークであり、前記第2ネットワークは院外ネットワークである学習支援システムに関係する。
【0007】
本開示の他の態様は、第1ネットワークにおいて生成された内視鏡画像と、前記第1ネットワークにおいて生成され前記内視鏡画像の注目領域にアノテーションが行われたアノテーション画像を保存するストレージと、前記ストレージから前記アノテーション画像を取得し、前記アノテーション画像を用いた機械学習を行うことによって、学習済モデルを生成し、生成した前記学習済モデルをサーバシステムにアップロードするプロセッサと、を含み、前記ストレージ及び前記プロセッサは、前記第1ネットワークを構成するノードであり、前記サーバシステムは、第2ネットワークを構成するノードであり、前記第1ネットワークは、院内ネットワークであり、前記第2ネットワークは院外ネットワークである学習支援システムに関係する。
【0008】
本開示のさらに他の態様は、第1ネットワークにおいて生成された内視鏡画像と、前記第1ネットワークにおいて生成され前記内視鏡画像の注目領域にアノテーションが行われたアノテーション画像を保存するストレージから前記アノテーション画像を取得し、前記アノテーション画像を用いた機械学習を行うことによって、学習済モデルを生成し、生成した前記学習済モデルをサーバシステムにアップロードするプロセッサと通信を行うことによって、前記機械学習を支援する支援プロセッサを含み、前記支援プロセッサは、前記機械学習に用いられるアルゴリズムであるモデルと、前記モデルに従った前記機械学習を行う実行環境であるフレームワークとからなるコンテナを選択することによって、前記機械学習を支援し、前記ストレージ及び前記プロセッサは、前記第1ネットワークを構成するノードであり、前記サーバシステムは、第2ネットワークを構成するノードであり、前記支援プロセッサは、第4ネットワークを構成するノードであり、前記第1ネットワークは、院内ネットワークであり、前記第2ネットワークは院外ネットワークであり、前記第4ネットワークは、前記内視鏡画像を生成する内視鏡システムのメーカのネットワークである学習支援システムに関係する。
【0009】
本開示のさらに他の態様は、第1ネットワークにおいて生成された内視鏡画像と、前記第1ネットワークにおいて生成され前記内視鏡画像の注目領域にアノテーションが行われたアノテーション画像を保存し、前記アノテーション画像を用いた機械学習を行うことによって、学習済モデルを生成し、生成した前記学習済モデルを、第2ネットワークを構成するノードであるサーバシステムにアップロードし、前記アノテーション画像の保存及び前記学習済モデルの生成は、前記第1ネットワーク内で実行され、前記第1ネットワークは、院内ネットワークであり、前記第2ネットワークは院外ネットワークである学習支援方法に関係する。
【図面の簡単な説明】
【0010】
【
図3】院内ネットワークである第1ネットワークの構成例。
【
図5】
図5(A)、
図5(B)は複数のイントラネットを含む院内ネットワークの例。
【
図6】推論病院のネットワークである第3ネットワークの構成例。
【
図8】
図8(A)は内視鏡画像の例、
図8(B)及び
図8(C)は内視鏡画像にアノテーションが付与された例。
【
図9】
図9(A)、
図9(B)はニューラルネットワークを説明する図。
【
図10】本実施形態におけるコンテナを説明する図。
【
図11】学習済モデルの選択、ダウンロードを説明する図。
【発明を実施するための形態】
【0011】
以下、本実施形態について説明する。なお、以下に説明する本実施形態は、請求の範囲に記載された本開示の内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。
【0012】
1.システム構成例
まず本実施形態の学習支援システムの構成例について説明する。
図1、
図2を用いてシステムの概要を説明し、
図3~
図6を用いて各ネットワークの具体例を説明する。
【0013】
1.1 全体構成
従来、内視鏡画像を用いた学習済モデルの生成は、例えば内視鏡システムのメーカによって行われる。メーカは、内視鏡画像にアノテーションが付与されたアノテーション画像を病院から提供してもらい、当該アノテーション画像を訓練データとする学習処理を行うことによって、学習済モデルを生成する。ここでのアノテーションとは、内視鏡画像に対して付与されるデータであり、具体的には、内視鏡画像における注目領域の位置等を特定するための情報である。ここでの注目領域とは、ユーザにとって観察の優先順位が他の領域よりも相対的に高い領域であり、例えば、ユーザが医者であり治療を希望した場合、粘膜部や病変部を写した領域を指す。また、他の例として、医者が観察したいと欲した対象が泡や便であれば、注目領域は、その泡部分や便部分を写した領域になる。ユーザが注目すべき対象は観察目的によって異なるが、いずれにしても、その観察に際してユーザにとって観察の優先順位が他の領域よりも相対的に高い領域が注目領域となる。
【0014】
またメーカは、自社の内視鏡システムに当該学習済モデルをインストールすることによって、当該学習済モデルを用いた推論処理を実行可能な内視鏡システムを実現する。例えば、
図12を用いて後述する例と同様に、内視鏡システムにおいて撮像された内視鏡画像を学習済モデルに入力することによって、注目領域の検出結果が出力される。当該検出結果をユーザである医師に提示することによって、医師による診断や治療を適切に支援することが可能になる。
【0015】
ただし従来手法では、所与の病院で取得された内視鏡画像や、当該内視鏡画像に対してアノテーションが付与されたアノテーション画像が、病院外のネットワークに流出してしまう。内視鏡画像及びアノテーション画像は、患者のプライバシーを含む情報であり守秘性が高いため、病院内から出ることはセキュリティ上、好ましくない。
【0016】
また内視鏡画像に対してアノテーションを付与する処理は、専門的な知識を有する医師でなければ実行が難しい。学習済モデルの生成では訓練データの量が多くなるほど精度向上が期待されるため、アノテーションの付与対象となる内視鏡画像は、数万枚やそれ以上の膨大な枚数となる場合がある。
図8(B)を用いて後述するように、注目領域に矩形の枠を付すようなケースであれば、1つのアノテーションを付与する負荷はそれほど大きくない。しかし上述したように膨大な枚数を対象とした場合、医師の負担が大きくなる。また、
図8(C)を用いて後述するように、注目領域を塗りつぶしたマスクデータをアノテーションとして付与する場合、どこまでが注目領域であるかを考慮する必要があるため、医師の負担が増大する。さらに言えば、どこまでが注目領域であるか、医師であっても正解がわかりにくいケースもある。
【0017】
このようにアノテーションを付与する際の医師の負担は大きい。しかし従来手法では、病院が学習済モデルの生成主体であるメーカ等に内視鏡画像及びアノテーション画像を提供する形となるため、医師個人への見返りが少ない。また医師が生成された学習済モデルを利用する場合、メーカ等から購入する必要がある。どのような学習済モデルを生成するかの決定はメーカ等が行うため、そもそも医師が必要とする学習済モデルが生成されない場合もある。
【0018】
以上のように、従来手法では医師の負担が大きいにもかかわらず、学習済モデルの生成段階及び利用段階において、当該負担に対する十分な見返りが与えられていない。この状況では、医師が学習済モデルの生成に協力する意欲が減退し、内視鏡分野における機械学習の発展に悪影響を及ぼすおそれがある。
【0019】
図1は、本実施形態の学習支援システムの構成を示す図である。
図1に示すように、学習支援システムは、ストレージ110と、プロセッサ100と、サーバシステム200を含む。ストレージ110は、第1ネットワークNW1において生成された内視鏡画像と、第1ネットワークにおいて生成され内視鏡画像の注目領域にアノテーションが行われたアノテーション画像を保存する。プロセッサ100は、ストレージ110からアノテーション画像を取得し、アノテーション画像を用いた機械学習を行うことによって、学習済モデルを生成する。ストレージ110及びプロセッサ100は、第1ネットワークNW1を構成するノードである。
【0020】
プロセッサ100は、ハードウェアにより構成される。ハードウェアは、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むことができる。例えば、ハードウェアは、回路基板に実装された1又は複数の回路装置や、1又は複数の回路素子で構成することができる。1又は複数の回路装置は例えばIC等である。1又は複数の回路素子は例えば抵抗、キャパシター等である。
【0021】
プロセッサ100は、メモリに記憶された情報に基づいて動作する。ここでのメモリは、ストレージ110であってもよいし、不図示のメモリであってもよい。情報は、例えばプログラムと各種のデータ等である。プロセッサは、例えばメモリから
図7を用いて後述する処理を実行するための学習プログラムを読み出し、当該学習プログラムに従った処理を実行することによって、アノテーション画像を用いた機械学習を行う。プロセッサ100は、当該機械学習の結果として、学習済モデルを出力する。
【0022】
プロセッサ100は、例えばCPU(Central Processing Unit)であってもよい。ただし、プロセッサ100はCPUに限定されるものではなく、GPU(Graphics Processing Unit)、或いはDSP(Digital Signal Processor)等、各種のプロセッサを用いることが可能である。また上記メモリは、SRAM、DRAMなどの半導体メモリであってもよいし、レジスターであってもよいし、ハードディスク装置等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。例えば、メモリはコンピュータにより読み取り可能な命令を格納しており、当該命令がプロセッサ100により実行されることで、プロセッサ100の機能が処理として実現されることになる。ここでの命令は、プログラムを構成する命令セットの命令でもよいし、プロセッサ100のハードウェア回路に対して動作を指示する命令であってもよい。
【0023】
ストレージ110は、大量の画像データを保持することを考慮すれば、ハードディスク装置やSSD(Solid State Drive)等の不揮発性メモリであることが望ましい。ただし、ストレージ110はこれに限定されず他の方式の記憶装置が用いられてもよい。
【0024】
またサーバシステム200は、プロセッサ100と通信して学習済モデルがアップロードされる。サーバシステム200は、第2ネットワークNW2を構成するノードである。ここでのサーバシステム200は、1つのサーバに限定されず、複数のサーバを含んでもよい。
【0025】
そして第1ネットワークNW1は、院内ネットワークであり、第2ネットワークNW2は院外ネットワークである。院内ネットワークとは、所与の病院の内部に構築されるプライベートネットワークであり、例えばイントラネットである。プライベートネットワークとは、外部への公開度合いを制御可能な(狭義には非公開とすることが可能な)ネットワークである。ただし院内ネットワークに含まれる病院は1つの病院に限定されず、機密性の高い情報を共同で管理する複数の病院が含まれてもよい。即ち院内ネットワークとは、1つのプライベートネットワークであってもよいし、機密性の高い情報の管理について連携可能な複数のプライベートネットワークの集合であってもよい。院内ネットワークの詳細については
図3~
図5(B)を用いて後述する。院外ネットワークとは、院内ネットワークの外部のネットワークであり、例えばインターネット等の公衆通信網である。
【0026】
本実施形態の手法においては、第1ネットワークNW1内において内視鏡画像及びアノテーション画像が取得、蓄積され、当該第1ネットワークNW1内のプロセッサ100において学習済モデルが生成される。第1ネットワークNW1から外部のネットワークである第2ネットワークNW2に出力される情報は、学習済モデルである。学習済モデルから、当該学習済モデルの生成に用いられた内視鏡画像やアノテーション画像を特定することはできない。本実施形態の手法によれば、内視鏡画像やアノテーション画像を院内ネットワークの外部に送信する必要がないため、秘匿性の高い情報をセキュリティ性の高い状態で管理することが可能になる。
【0027】
また本実施形態の手法においては、院内ネットワークのプロセッサ100を用いて機械学習が行われる。医師をはじめとした病院関係者が学習済モデルの生成主体となるため、必要性の高い学習済モデルを生成し、当該学習済モデルを自由な態様で使用することが可能になる。また上述したとおり、学習済モデルを院内ネットワークの外部に送信してもセキュリティ上の問題は少ない。そのため、生成した学習済モデルを他者に利用させることによって、対価を取得することも可能である。医師にとって学習済モデルの生成に関与する利点が大きくなるため、内視鏡分野における機械学習を促進することが可能になる。
【0028】
図2は、本実施形態の学習支援システムの他の構成例である。ストレージ110、プロセッサ100、サーバシステム200、第1ネットワークNW1、第2ネットワークNW2については
図1と同様である。
【0029】
学習支援システムは、ストレージ110、プロセッサ100、サーバシステム200に加えて、推論プロセッサ300を含んでもよい。推論プロセッサ300は、サーバシステム200と通信して学習済モデルをダウンロードし、学習済モデルに基づいて、推論内視鏡画像から注目領域の検出処理を行う。ここでの検出処理とは、推論内視鏡画像に注目領域が存在するか否かを判定する処理、推論内視鏡画像における注目領域の位置を特定する処理、推論内視鏡画像における注目領域の位置及び形状を特定する処理を含む。また複数種類の注目領域を検出する場合、ここでの検出処理は、注目領域の分類処理を含む。
【0030】
ここでの注目領域が粘膜中の病変である場合、分類処理は、検出結果の病変を癌か否か判定するような鑑別をする処理であってもよい。たとえば、癌または非癌2クラス分類の場合、注目領域のとなりに癌の確率の表示を表示する。
【0031】
また、検出処理をシーン認識処理としてもよい。その場合は、送水シーン、白色光観察シーン、NBI観察シーン、等のシーンに合わせて10クラス程度の分類を行う。
【0032】
また、検出処理を画面内に映る領域を分割する処理としてもよい。たとえば、特定の臓器(ラパコレの場合、肝臓、胆嚢、総胆管、など)に該当するか否をピクセル単位で分類する。
【0033】
更に、検出処理で検出された注目領域を高精度に追従する機能を追加してもよい。たとえば、動画で注目領域を追従する場合、各フレームの静止画で毎回検出処理を行うよりも、低計算コストで注目領域を捉え続けることができる。また、複数フレームに跨った注目領域を、「ひとつの注目領域」と認識することが可能となる。
【0034】
推論プロセッサ300は、第3ネットワークNW3を構成するノードであり、第3ネットワークNW3は、推論処理を実行する病院である推論病院のネットワークである。推論内視鏡画像とは、学習済モデルを用いた推論処理の入力となる画像であり、具体的には第3ネットワークNW3のノードである内視鏡システムを用いて撮像される画像である。
【0035】
このようにすれば、所与の院内ネットワークである第1ネットワークNW1において生成された学習済モデルを、他の病院の院内ネットワークである第3ネットワークNW3において利用することが可能になる。第3ネットワークNW3の詳細については、
図6を用いて後述する。サーバシステム200を仲介することによって、学習済モデルの提供と利用をスムーズに行うことが可能になる。学習済モデルを生成する側からすれば、生成した学習済モデルの利用が促進されるため、対価を得やすくなるという利点がある。また学習済モデルを利用する側からすれば、種々の病院が生成した複数の学習済モデルから、自身のニーズに合ったものを選択できるため、利便性が向上するという利点がある。
【0036】
なお、以下では第1ネットワークNW1において学習済モデルが生成され、第3ネットワークNW3において学習済モデルが利用される例について説明する。よって、第1ネットワークNW1が構築された病院を学習病院と表記し、第3ネットワークNW3が構築される病院を推論病院と表記する。ただし各病院は、学習済モデルの生成と利用のいずれか一方のみを行うものに限定されない。例えば、各病院の院内ネットワークにおいて、自ら学習済モデルを生成する処理と、他者が生成した学習済モデルを取得して利用する処理との両方が行われてもよい。即ち、ここでの推論プロセッサ300とは、1つの学習済モデルに着目した場合に、当該学習済モデルをサーバシステム200からダウンロードすることによって推論処理を行うプロセッサであり、推論病院とは当該推論プロセッサ300をノードとして含むネットワークが構築された病院を表す。よって、ある学習済モデルについての推論病院が、他の学習済モデルについての学習病院となることは妨げられない。
【0037】
近年、AI(Artificial Intelligence)のコモディティ化が進んでいる。具体的には、
図10を用いて後述するモデルやフレームワークが多数公開されており、自由に使用できるものも多い。そのため、AIの専門家でない医師であっても、モデルやフレームワークを組み合わせることによって、学習済モデルを生成することが可能になってきている。しかし、モデルとフレームワークの組み合わせによっては適切に学習が行えない場合があったり、学習パラメータの設定によっては学習結果が収束しない場合もある。この点を考慮し、支援プロセッサ400による学習支援が行われてもよい。
【0038】
学習支援システムは、
図2に示すように、プロセッサ100と通信して、機械学習を支援する支援プロセッサ400をさらに含む。支援プロセッサ400は、第4ネットワークNW4を構成するノードであり、第4ネットワークNW4は、第1ネットワークNW1において内視鏡画像を生成するために用いられる内視鏡システムのメーカのネットワークである。
【0039】
学習済モデルを内視鏡システムにインストールすることによって、内視鏡画像から注目領域を検出、分類する処理の精度を高くすることが可能である。そのため、内視鏡システムのメーカが、学習済モデルを生成し、当該学習済モデルを用いて内視鏡システムの機能向上を図ることは十分考えられる。即ち、内視鏡システムのメーカは、学習済モデルの生成について高い専門性を有している。またメーカは、内視鏡システムの光学系や画像処理プログラムの設計も行うため、内視鏡画像の明るさ、色味等の特性や、当該内視鏡画像に適した学習手法等について知見を有している蓋然性が高い。よって内視鏡システムのメーカが支援プロセッサ400を用いた学習支援を行うことによって、内視鏡画像を用いた機械学習をスムーズに行うことが可能になる。
【0040】
ただし、支援プロセッサ400が含まれる第4ネットワークNW4は、院内ネットワークである第1ネットワークNW1に対して外部のネットワークである。そのため、支援プロセッサ400に対して、内視鏡画像やアノテーション画像が自由に利用可能な態様によって送信されてしまうと、秘匿性の高い情報を保護するという本実施形態の手法による効果が損なわれるおそれがある。よって支援プロセッサ400による学習支援は、内視鏡画像やアノテーション画像を閲覧しない態様による支援、又は、内視鏡画像やアノテーション画像が二次利用不可な状態で提供される態様による支援であることが望ましい。支援プロセッサ400を用いた学習支援の詳細については、
図10を用いて後述する。
【0041】
以上では本実施形態の学習支援システムとして、ストレージ110と、プロセッサ100と、サーバシステム200を含む例、及び上記に加えて推論プロセッサ300又は支援プロセッサ400を含む例について説明した。なお学習支援システムは、推論プロセッサ300と支援プロセッサ400の両方を含んでもよい。ただし本実施形態の学習支援システムはこれに限定されない。
【0042】
例えば、本実施形態の手法は、第1ネットワークNW1において生成された内視鏡画像と、第1ネットワークNW1において生成され内視鏡画像の注目領域にアノテーションが行われたアノテーション画像を保存するストレージ110と、ストレージ110からアノテーション画像を取得し、アノテーション画像を用いた機械学習を行うことによって、学習済モデルを生成し、生成した学習済モデルをサーバシステムにアップロードするプロセッサ100と、を含む学習支援システムに適用できる。上述したとおり、ストレージ110及びプロセッサ100は第1ネットワークNW1を構成するノードであり、サーバシステム200は第2ネットワークNW2を構成するノードである。第1ネットワークNW1は、院内ネットワークであり、第2ネットワークNW2は院外ネットワークである。
【0043】
また本実施形態の手法は、支援プロセッサ400を含む学習支援システムに適用できる。支援プロセッサ400は、第1ネットワークNW1において生成された内視鏡画像と、第1ネットワークNW1において生成され内視鏡画像の注目領域にアノテーションが行われたアノテーション画像を保存するストレージ110からアノテーション画像を取得し、アノテーション画像を用いた機械学習を行うことによって、学習済モデルを生成し、生成した学習済モデルをサーバシステム200にアップロードするプロセッサ100と通信を行うことによって、機械学習を支援する。支援プロセッサ400は、
図10を用いて後述するように、機械学習に用いられるアルゴリズムであるモデルと、モデルに従った機械学習を行う実行環境であるフレームワークとからなるコンテナを選択することによって、機械学習を支援する。ストレージ110及びプロセッサ100は第1ネットワークNW1を構成するノードであり、サーバシステム200は第2ネットワークNW2を構成するノードであり、支援プロセッサ400は第4ネットワークNW4を構成するノードである。第1ネットワークNW1は、院内ネットワークであり、第2ネットワークNW2は院外ネットワークであり、第4ネットワークNW4は、内視鏡画像を生成する内視鏡システムのメーカのネットワークである。
【0044】
また本実施形態の手法は、学習支援システムにおける処理を実行する学習支援方法に適用できる。学習支援方法は、第1ネットワークNW1で生成された内視鏡画像と、第1ネットワークNW1で生成され内視鏡画像の注目領域にアノテーションが行われたアノテーション画像を保存し、アノテーション画像を用いた機械学習を行うことによって、学習済モデルを生成し、生成した学習済モデルを、第2ネットワークNW2を構成するノードであるサーバシステムにアップロードする。アノテーション画像の保存及び学習済モデルの生成は、第1ネットワークNW1内で実行される。第1ネットワークNW1は、院内ネットワークであり、第2ネットワークNW2は院外ネットワークである。
【0045】
1.2 院内ネットワーク
次に院内ネットワークの具体例について説明する。
図3は、院内ネットワークを構成するノードの具体例、及び他のネットワークとの接続を説明する図である。
図3に示すように、院内ネットワークである第1ネットワークNW1は、内視鏡システム120と、ストレージ110と、アノテーションプロセッサ103と、学習プロセッサ101と、をノードとして含む。ただし、院内ネットワークのノードは
図3に示したものに限定されず、他のノードが追加されてもよい。
【0046】
図4は、内視鏡システム120の構成例である。内視鏡システム120は、挿入部10と、外部I/F部20と、内視鏡プロセッサ105と、表示部40と、光源装置50を含む。ただし内視鏡システム120の構成は
図4に限定されず、一部の構成を省略したり、他の構成を追加する等の種々の変形実施が可能である。内視鏡システム120としては、例えば消化管等に用いられる軟性鏡や、腹腔鏡等に用いられる硬性鏡を想定できるが、これらに限定されない。
【0047】
挿入部10は、体内へ挿入される部分である。挿入部10は、対物光学系11、撮像素子12、アクチュエータ13、照明レンズ14、ライトガイド15、AF(Auto Focus)開始/終了ボタン16を含む。
【0048】
ライトガイド15は、光源52からの照明光を、挿入部10の先端まで導光する。照明レンズ14は、ライトガイド15によって導光された照明光を被写体に照射する。対物光学系11は、被写体から反射した反射光を、被写体像として結像する。対物光学系11は、フォーカスレンズ17を含み、フォーカスレンズ17の位置に応じて被写体像が結像する位置を変更可能である。アクチュエータ13は、AF制御部36からの指示に基づいて、フォーカスレンズ17を駆動する。なお、AFは必須ではなく、内視鏡システム120はAF制御部36を含まない構成であってもよい。
【0049】
撮像素子12は、対物光学系11を経由した被写体からの光を受光する。撮像素子12はモノクロセンサであってもよいし、カラーフィルタを備えた素子であってもよい。カラーフィルタは、広く知られたベイヤフィルタであってもよいし、補色フィルタであってもよいし、他のフィルタであってもよい。補色フィルタとは、シアン、マゼンタ及びイエローの各色フィルタを含むフィルタである。
【0050】
AF開始/終了ボタン16は、ユーザがAFの開始/終了を操作するための操作インターフェースである。外部I/F部20は、内視鏡システム120に対するユーザからの入力を行うためのインターフェースである。外部I/F部20は、例えばAF制御モードの設定ボタン、AF領域の設定ボタン、画像処理パラメータの調整ボタンなどを含む。
【0051】
内視鏡プロセッサ105は、画像処理やシステム全体の制御を行う。なお、内視鏡プロセッサ105は、1つのプロセッサであってもよいし、複数のプロセッサを含んでもよい。例えば、内視鏡プロセッサ105は、システム全体の制御を行うCPUと、画像処理を行うGPUを含んでもよい。この場合の複数のプロセッサは、1つの装置内に設けられてもよいし、異なる装置にそれぞれ設けられてもよい。内視鏡プロセッサ105は、A/D変換部31、前処理部32、検出部33、後処理部34、システム制御部35、AF制御部36、記憶部37を含む。
【0052】
A/D変換部31は、撮像素子12から順次出力されるアナログ信号をデジタルの画像に変換し、前処理部32に順次出力する。前処理部32は、A/D変換部31から順次出力される撮像画像に対して、各種補正処理を行い、検出部33、AF制御部36に順次出力する。補正処理とは、例えばホワイトバランス処理、ノイズ低減処理等を含む。
【0053】
検出部33は、記憶部37に記憶される学習済モデルに従って動作することによって、撮像画像から注目領域の検出処理を行う。ここでは学習病院で利用される内視鏡システム120を想定しており、学習済モデルは当該学習病院において生成したものである。なお、学習済モデルを生成する前の段階では、検出部33における処理が省略されてもよい。或いは上述したように、他者がサーバシステム200にアップロードした学習済モデルをダウンロードして使用してもよい。学習済モデルがニューラルネットワークである場合、検出部33は、前処理部32からの画像を推論内視鏡画像として、学習によって決定された重み付け係数を用いて順方向の演算処理を行う。そして、出力層の出力に基づいて、注目領域の検出結果を出力する。
【0054】
後処理部34は、検出部33における検出処理結果に基づく後処理を行い、後処理後の画像を表示部40に出力する。ここでの後処理は、推論内視鏡画像における注目領域の視認性を向上させる強調処理等が考えられる。
【0055】
システム制御部35は、撮像素子12、AF開始/終了ボタン16、外部I/F部20、AF制御部36と互いに接続され、各部を制御する。具体的には、システム制御部35は、各種制御信号の入出力を行う。AF制御部36は、前処理部32から順次出力される画像を用いてAF制御を行う。
【0056】
表示部40は、後処理部34から出力される画像を順次表示する。表示部40は、例えば液晶ディスプレイやEL(Electro-Luminescence)ディスプレイ等である。光源装置50は、照明光を発光する光源52を含む。光源52は、キセノン光源であってもよいし、LEDであってもよいし、レーザー光源であってもよい。また光源52は他の光源であってもよく、発光方式は限定されない。
【0057】
推論プロセッサ300のある病院の内視鏡システムも同様に構成してよい。さらに、推論プロセッサ300の出力を内視鏡システムの制御にフィードバックしてもよい。たとえば、検出処理が注目領域の分類処理である場合、ハレーション領域が認識されたときには光源の出力を低減するようにコントロールする。また、病変が検出されたときには拡大を促すようにコントロールする。
【0058】
図3に戻り、院内ネットワークの説明を続ける。ストレージ110は、
図1及び
図2と同様であり、内視鏡システム120が撮像した撮像画像を内視鏡画像として取得する。内視鏡画像は、例えば前処理部32から出力される画像である。
【0059】
アノテーションプロセッサ103は、内視鏡システム120によって撮像された内視鏡画像に対して、アノテーションを付与する。具体的には、医師等によるアノテーション入力を受け付け、当該入力に基づいてアノテーション画像を生成する。ここでのアノテーション画像とは、例えば
図8(C)を用いて後述するように、内視鏡画像と、アノテーション画像(マスク画像)とが対応付けられた多次元の画像データである。アノテーションプロセッサ103における処理の詳細は後述する。生成されたアノテーション画像は、ストレージ110に蓄積される。
【0060】
学習プロセッサ101は、アノテーション画像に基づいて機械学習を行うことによって、学習済モデルを生成する。学習プロセッサ101は、
図1及び
図2のプロセッサ100に対応する。なお、学習プロセッサ101とアノテーションプロセッサ103は、異なるプロセッサであってもよいし、同じプロセッサであってもよい。即ち、学習支援システムのプロセッサ100は、学習プロセッサ101における機械学習と、アノテーションプロセッサ103におけるアノテーション画像の生成処理の両方を行うプロセッサであってもよい。また第1ネットワークNW1は
図3に不図示の他のノードを含んでもよい。また学習支援システムのプロセッサ100が、不図示のプロセッサを含んでもよい。
【0061】
院内ネットワークは、院外ネットワークに比べて、内視鏡画像及びアノテーション画像について、セキュリティ性の高いネットワークである。ここでのセキュリティは、具体的には情報セキュリティであって、特に機密性(confidentiality)に関連する。機密性は、許可されていない対象に対して、情報を使用不可にする又は非公開にすることである。即ち、セキュリティ性が高いとは、セキュリティ性が低い場合に比べて、情報が漏洩しにくい状態を表す。なお、セキュリティ性が高いとは、内視鏡画像及びアノテーション画像について脆弱性が低いと言い換えてもよい。内視鏡画像やアノテーション画像の通信を院内ネットワークである第1ネットワークNW1内に限定することによって、秘匿性の高い情報が不正に流出することを抑制できる。
【0062】
例えば、院内ネットワークは、アクセス可能なIP(Internet Protocol)アドレスが制限されているネットワークである。換言すれば、本実施形態におけるセキュリティとは、ネットワークセキュリティであってもよい。一例としては、第1ネットワークNW1は、外部のネットワークのノードから、第1ネットワークNW1内のノードへのアクセスを制御するファイアウォールFWを含む。ファイアウォールFWが設けられることによって、外部のネットワークに属するノードからのアクセスが制限される。例えば、IPを用いたアクセス制御を行う場合、ファイアウォールFWは院内ネットワークにアクセス可能なIPアドレスのリストを保持し、当該リストに含まれないIPアドレスからのアクセスを遮断する。またファイアウォールFWは、IPアドレスとポート番号の組み合わせによって、アクセスを許可するか遮断するかを決定してもよい。このようなアクセス制限を設けることによって、院内ネットワーク内の内視鏡画像及びアノテーション画像をセキュリティの高い態様で管理することが可能になる。
【0063】
また、院内ネットワークである第1ネットワークNW1は、イントラネットであり、院外ネットワークである第2ネットワークNW2は、インターネットであってもよい。閉じられたネットワークであるイントラネットを用いることによって、第1ネットワークNW1の外部からの不正なアクセスを抑制できる。具体的には、イントラネットでは上記のファイアウォールFWが設けられることが多く、ファイアウォールFWを用いたアクセス制御が可能である。
【0064】
なお、
図3に示すように、外部から院内ネットワークへのアクセスは厳しく制限されるものの、院内ネットワークのノードから外部のサーバシステム200へのアクセスは可能である。例えば、学習プロセッサ101について、外部ノードへの自由なアクセスを許可してもよい。サーバシステム200へのアップロードが可能であるため、生成した学習済モデルの利用が促進される。ただし学習済モデルを特定の他者、例えば使用料を支払った顧客に限定して使用させる場合もある。学習済モデルを不適切な対象に送信することを抑制するため、学習プロセッサ101がアクセス可能な対象をサーバシステム200に限定する等のアクセス制御が行われてもよい。
【0065】
また、支援プロセッサ400が用いられる場合、ファイアウォールFWは支援プロセッサ400から院内ネットワークのノード、具体的には学習プロセッサ101へのアクセスを許可する。ただし上述したように、支援プロセッサ400が内視鏡画像やアノテーション画像を取得可能としてしまうと、秘匿性の高い情報が院外のネットワークである第4ネットワークNW4に送信されることになり好ましくない。よって支援プロセッサ400による内視鏡画像やアノテーション画像へのアクセスを許可しない、或いは、内視鏡画像やアノテーション画像をリードオンリー属性によって送信することが望ましい。この場合、支援プロセッサ400を使用するユーザ、例えば内視鏡システムのメーカの従業員は、支援プロセッサ400に接続された表示部を用いて内視鏡画像やアノテーション画像を閲覧することが可能である。ただし、当該内視鏡画像やアノテーション画像の提供は、保存できない態様で行われる。そのため学習支援において、支援プロセッサ400での内視鏡画像やアノテーション画像の二次利用は許可されない。ここでの二次利用とは、内視鏡画像やアノテーション画像を保存し、他の用途に利用したり、他のノードに転送することを表す。
【0066】
また、本実施形態における院内ネットワークとは、狭義には1つの病院内に構築されるイントラネットを表す。ただし、複数の病院が連携することによって、機械学習を効果的に実行することが可能になる。
【0067】
例えば、複数の病院を所有する医療法人を考えた場合、複数の病院で取得された内視鏡画像やアノテーション画像を集約することによって、機械学習に用いる訓練データの量や種類を増やすことができる。ここでの種類とは、例えば撮像対象となる部位、注目領域の位置やサイズ、画像の明度や彩度等に関する種類である。そのため、1つの病院単体で機械学習を行う場合に比べて、機械学習の精度を高くすることが可能である。
【0068】
或いは、経営主体が異なる複数の病院が連携することも考えられる。例えば、研究分担者として承認を受けた複数の病院内において、内視鏡画像やアノテーション画像を送受信する。この場合、同一医療法人に比べてつながりの弱い複数の病院が連携するため、内視鏡画像やアノテーション画像の種類がより豊富になると考えられる。例えば、1つの病院、医療法人では1つのメーカの内視鏡システムしか使用していないケースもあり、学習内容に偏りが生じるおそれがある。その点、経営主体の異なる複数の病院が連携した場合、異なるメーカの内視鏡システムによって撮像された内視鏡画像やアノテーション画像を訓練データとすることが可能であり、生成される学習済モデルの多様性を高くできる。
【0069】
ただし、複数の病院において構築されるイントラネット間の接続には留意する必要がある。単純にインターネット等の公衆通信網を用いてイントラネット間の接続を行った場合、盗聴や改ざん等のセキュリティ上のリスクが存在する。またイントラネット間の接続を専用線を用いて行うことによって、セキュリティを強固にすることが可能であるが、専用線はコストが高いというデメリットがある。
【0070】
図5(A)、
図5(B)は、複数のイントラネットを含む院内ネットワークの具体例を説明する図である。
図5(A)、
図5(B)に示すように、院内ネットワークは、第1イントラネットと第2イントラネットを含んでもよい。また院内ネットワークに含まれるイントラネットは3以上に拡張可能である。
【0071】
図5(A)に示すように、第1イントラネット内の所与のノードと、第2イントラネット内の所与のノードは、ブロックチェーンネットワークを構成するノードである。ここでのブロックチェーンネットワークとは、ブロックチェーンを用いたネットワークを表す。ブロックチェーンネットワークは、例えばインターネットである第2ネットワークNW2において実現されるP2P(Peer to Peer)のネットワークである。ブロックチェーンネットワークにおいては、複数のブロックがチェーン状につながったブロックチェーンと呼ばれるデータ構造が用いられる。
【0072】
第1イントラネット内の所与のノードと、第2イントラネット内の所与のノードには、ブロックチェーンのクライアントアプリケーションがインストールされる。クライアントアプリケーションは、ブロックチェーンネットワークに参加するためのソフトウェアである。クライアントアプリケーションは、例えばトランザクションの生成、発行、コンセンサスアルゴリズムの処理、仮想通貨の管理等、ブロックチェーンネットワークで行われる各種処理を実行するためのソフトウェアである。
【0073】
ブロックチェーンにおいては、暗号化や、コンセンサスアルゴリズムを用いたブロックの追加等、盗聴、改ざんを抑制するための種々の手法が用いられている。そのため、ブロックチェーンネットワークを用いて送受信されたデータについてのセキュリティが高くなる。そのため、例えばインターネット等の公衆通信網を用いて複数のイントラネットを接続する場合であっても、高セキュリティな院内ネットワークを構築することが可能である。
【0074】
また
図5(B)に示すように、第1イントラネットと第2イントラネットは、VPN(Virtual Private Network)を構成してもよい。ここでのVPNは、インターネットを用いたVPNであってもよいし、通信事業者が提供する閉域網を用いたVPNであってもよい。VPNにおいては、暗号化データをトンネリングした通信を行うことによって、通信データの改ざん等を抑制できる。そのため、複数のイントラネットを接続して高セキュリティな院内ネットワークを構築することが可能である。
【0075】
なお、1つのイントラネット内では内視鏡画像やアノテーション画像は平文で送受信されてもよい。ただし、よりセキュリティを向上させるために、イントラネットのノード間の通信において、アノテーション画像等が暗号化されてもよい。
【0076】
1.3 推論病院ネットワーク
図6は、推論病院のネットワークである第3ネットワークNW3の具体例を説明する図である。
図6に示すように、第3ネットワークNW3は、内視鏡システム310を含み、推論プロセッサ300は、当該内視鏡システム310に含まれるプロセッサであってもよい。
【0077】
ここでの内視鏡システム310は、例えば
図4を用いて上述した内視鏡システム120と同様であり、推論プロセッサ300は、
図3及び
図4の内視鏡プロセッサ105に対応する。ただし、学習病院の内視鏡システム120と、推論病院の内視鏡システム310は、同じ機種であってもよいし異なる機種であってもよい。また内視鏡システムのメーカは一致する必要はなく、内視鏡システム120と内視鏡システム310は異なるメーカの製品であってもよい。
【0078】
内視鏡システム310は、サーバシステム200からダウンロードした学習済モデルを記憶するメモリを含む。推論プロセッサ300は、メモリから学習済モデルを読み出し、撮像素子が撮像した画像を推論内視鏡画像として学習済モデルに入力することによって、当該推論内視鏡画像から注目領域の検出処理を行う。内視鏡システム310が
図4と同様の構成の場合、推論内視鏡画像とは前処理後の画像である。また推論プロセッサ300は、
図4の検出部33に対応する処理を行う。
【0079】
以上のように、推論病院のネットワークでは、当該ネットワークのノードである内視鏡システムに、サーバシステム200を介して取得した学習済モデルを適用する。このようにすれば、他者が生成した学習済モデルを容易に利用でき、当該学習済モデルを用いることによって注目領域を高い精度で検出することが可能になる。
【0080】
2.学習処理
次に学習病院の院内ネットワークにおいて実行される学習処理について詳細に説明する。まず機械学習の流れを
図7のフローチャートを用いて説明し、その後、アノテーション画像の生成処理、及び具体的な学習処理について説明する。
【0081】
2.1 機械学習の流れ
図7は、第1ネットワークNW1のノードである各プロセッサが実行する学習処理を説明する図である。学習処理では、まずステップS101において内視鏡画像が取得される。ステップS101の処理は、内視鏡プロセッサ105が光源52や撮像素子12等を制御することによって、生体内の画像を撮像し、撮像結果をストレージ110に保存する処理である。
【0082】
ステップS102において、アノテーション画像が取得される。ステップS102の処理は、アノテーションプロセッサ103がストレージ110から内視鏡画像を読み出す処理、読み出した内視鏡画像を表示部で表示する処理、ユーザによるアノテーション入力を受け付ける処理、及び受け付けたアノテーションを内視鏡画像に対応付けてアノテーション画像としてストレージ110に保存する処理を含む。
【0083】
ステップS103において、学習プロセッサ101は、アノテーション画像に基づいて機械学習を行う。例えばニューラルネットワークを用いる場合、ステップS103の処理は、アノテーション画像に基づいて、順方向の演算、誤差関数の算出、誤差関数に基づく重み付け係数の更新、の各処理を1回行う処理である。
【0084】
ステップS104において、学習プロセッサ101は、機械学習を終了するか否かを判定する。例えば学習プロセッサ101は、取得した多数のデータセットを、訓練データと検証データに分けておく。そして学習プロセッサ101は、訓練データに基づいて学習処理を行うことによって取得された学習済モデルに対して、検証データを用いた処理を行うことによって精度を判定する。検証データは、アノテーションに対応する正解ラベルが対応付けられているため、学習プロセッサ101は、学習済モデルに基づく検出結果が正解であるか否かを判定可能である。ここでの正解とは、検出結果が正解ラベルに十分近いことを表す。学習プロセッサ101は、検証データに対する正解率が所定閾値以上である場合に、学習を終了すると判定し(S104でYes)、機械学習を終了する。或いは、学習プロセッサ101は、S103に示す処理を所定回数実行した場合に、学習を終了すると判定してもよい。
【0085】
ステップS105において、学習プロセッサ101は、生成した学習済モデルを、サーバシステム200に送信する処理を行う。なお学習プロセッサ101は、学習済モデルをストレージ110に記憶する処理を行ってもよい。
【0086】
2.2 アノテーション
ステップS102において実行されるアノテーション画像の生成処理について説明する。本実施形態におけるアノテーションとは、内視鏡画像において注目領域の位置等を特定するための情報を付与すること、及び付与された情報を表す。
【0087】
図8(A)は内視鏡画像を表し、
図8(B)及び
図8(C)はアノテーションが付与された内視鏡画像を表す図である。
図8(A)に示すように、内視鏡画像はポリープである対象物OBが撮像されている。ここでの注目領域は、内視鏡画像のうち、対象物OBに対応する領域である。
図8(B)に示すように、アノテーションは、例えば注目領域を内包する矩形領域を特定する情報である。この場合、アノテーションとは、例えば矩形領域の左上の頂点を表すx座標とy座標、及び矩形領域の右下の頂点を表すx座標とy座標という4つの数値によって表される。ここでのx軸は画像の横方向に設定される軸であり、y軸は画像の縦方向に設定される軸である。なお矩形領域を特定する情報は、左上の頂点の座標値と、矩形領域の縦方向の長さと、横方向の長さとの組でもよく、具体的な形式は種々の変形実施が可能である。
【0088】
アノテーションが矩形領域を特定する情報である場合、アノテーション画像とは、内視鏡画像に対して、4つの数値であるアノテーションが対応付けられた情報である。この場合、医師等のユーザは、表示部に表示された内視鏡画像において、操作部を用いて矩形領域を指定する入力を行う。例えばマウス又はタッチパネル等のポインティングデバイスを用いて、矩形領域を設定する。なお、具体的な入力手法はこれに限定されない。
【0089】
またアノテーションは、注目領域の位置に加え、具体的な形状を特定する情報であってもよい。以下、位置と形状を合わせて、位置形状と表記する。例えば
図8(C)に示すように、アノテーションは、注目領域の位置形状を表すマスクデータである。ここでのマスクデータとは、例えば内視鏡画像と同じ画素数を有し、注目領域に対応する画素が第1の値となり、注目領域以外の画素が第2の値に設定された2値画像データである。例えば、医師等のユーザは、ポインティングデバイスを用いて注目領域の輪郭を指定する入力と、当該輪郭の内部を塗りつぶす入力を行うことによって、アノテーションを行う。この場合のアノテーション画像とは、内視鏡画像に対して、マスクデータが対応付けられた情報である。
【0090】
位置形状を表すアノテーションを用いることによって、注目領域の具体的な形状、例えば病変の広がり具合を特定できる。そのため、当該アノテーションを含むアノテーション画像によって生成した学習済モデルを用いることによって、医師の診断や処置を適切にサポートすることが可能になる。例えば医師が病変を切除する際、切除範囲の設定が容易になる。ただし、位置形状を特定するアノテーションデータを付与する場合、上記矩形領域であるアノテーションの付与に比べてユーザ負担が大きい。例えば、内視鏡画像においてどこまでを病変とするかは医師によって判断が分かれる場合もある。
【0091】
また内視鏡下の外科手術等においては、画像に明確な位置形状が表示されない対象物を識別しなくてはならない場合がある。例えば、内視鏡下の外科手術において所定のランドマークを目印として手順を進めていくが、そのランドマークの位置形状が画像に明確に表示されない状態を想定できる。ここでのランドマークは、例えば腹腔鏡下胆のう摘出手術における、総胆管、胆のう管、ルビエレ溝等である。総胆管や胆のう管は、他の臓器又は組織に覆われている状態で撮像されるため、画像上に表示されない。またルビエレ溝は、溝の終了部分に向かって徐々に溝が消失していくため、ルビエレ溝の境界が曖昧となっている。この場合、注目領域の位置形状の判断結果が医師に応じて大きく異なる可能性もあり、アノテーションにおける作業者の負担が非常に大きくなる。なお、ここで説明したように、注目領域は複数種類であってもよい。上記の例であれば、総胆管、胆のう管、ルビエレ溝の3種類の注目領域が設定される。この場合、アノテーションは注目領域の位置だけでなく、当該注目領域の種類を特定する情報、例えば分類ラベル等が付与される。例えばアノテーション画像は、内視鏡画像に対して、総胆管を表すマスクデータ、胆のう管を表すマスクデータ、ルビエレ溝を表すマスクデータの3チャンネルのマスクデータが付与され、各チャンネルと注目領域の種類とが対応付けられる。
【0092】
以上のように、アノテーションの具体的な形式は種々考えられ、当該形式によって作業者の負荷は異なる。また注目領域が内視鏡画像においてどのように撮像されるかによっても、作業者の負荷は変化する。ただしいずれの場合であっても、膨大な枚数の内視鏡画像にアノテーションを付与する作業は非常に負荷が高い。アノテーション画像を用いた学習を病院内で実行し、生成された学習済モデルを利用可能とする本実施形態の手法は、負荷の高い作業を実行する動機付けとなるという点で有用である。
【0093】
2.3 機械学習
次に機械学習の詳細について説明する。以下ではニューラルネットワークを用いた機械学習について説明するが、本実施形態の手法はこれに限定されない。本実施形態においては、例えばSVM(support vector machine)等の他のモデルを用いた機械学習が行われてもよいし、ニューラルネットワークやSVM等の種々の手法を発展させた手法を用いた機械学習が行われてもよい。
【0094】
図9(A)は、ニューラルネットワークを説明する模式図である。ニューラルネットワークは、データが入力される入力層と、入力層からの出力に基づいて演算を行う中間層と、中間層からの出力に基づいてデータを出力する出力層を有する。
図9(A)においては、中間層が2層であるネットワークを例示するが、中間層は1層であってもよいし、3層以上であってもよい。また各層に含まれるノード(ニューロン)の数は
図9(A)の例に限定されず、種々の変形実施が可能である。なお精度を考慮すれば、本実施形態の学習は多層のニューラルネットワークを用いた深層学習(ディープラーニング)を用いることが望ましい。ここでの多層とは、狭義には4層以上である。
【0095】
図9(A)に示すように、所与の層に含まれるノードは、隣接する層のノードと結合される。各結合には重み付け係数が設定されている。各ノードは、前段のノードの出力と重み付け係数を乗算し、乗算結果の合計値を求める。さらに各ノードは、合計値に対してバイアスを加算し、加算結果に活性化関数を適用することによって当該ノードの出力を求める。この処理を、入力層から出力層へ向けて順次実行することによって、ニューラルネットワークの出力が求められる。なお活性化関数としては、シグモイド関数やReLU関数等の種々の関数が知られており、本実施形態ではそれらを広く適用可能である。
【0096】
ニューラルネットにおける学習は、適切な重み付け係数(バイアスを含む)を決定する処理である。具体的には、学習プロセッサ101は、訓練データのうちの入力データをニューラルネットワークに入力し、そのときの重み付け係数を用いた順方向の演算を行うことによって出力を求める。学習プロセッサ101は、当該出力と訓練データのうちの正解ラベルとに基づいて、誤差関数を演算する。そして誤差関数を小さくするように、重み付け係数を更新する。重み付け係数の更新では、例えば出力層から入力層に向かって重み付け係数を更新していく誤差逆伝播法を利用可能である。
【0097】
またプロセッサ100は、アノテーション画像を用いて、CNN(Convolutional Neural Network)で機械学習された学習済モデルを生成してもよい。
図9(B)は、CNNを説明する模式図である。CNNは、畳み込み演算を行う畳み込み層とプーリング層を含む。畳み込み層は、フィルタ処理を行う層である。プーリング層は、縦方向、横方向のサイズを縮小するプーリング演算を行う層である。
図9(B)に示す例は、畳み込み層及びプーリング層による演算を複数回行った後、全結合層による演算を行うことによって出力を求めるネットワークである。全結合層とは、所与の層のノードに対して前の層の全てのノードが結像される場合の演算処理を行う層であり、
図9(A)を用いて上述した各層の演算に対応する。なお、
図9(B)では活性化関数による演算処理を省略している。
【0098】
図8(B)に示すアノテーションを付与する場合、学習済モデルは、例えば入力である推論内視鏡画像上に複数のウィンドウを設定し、当該ウィンドウ内の物体を識別する処理を行うことによって注目領域を表す矩形領域を検出する。この場合、全結像層の出力は、ウィンドウ内の物体が注目領域であるか否かの識別結果を表す情報となる。
【0099】
また、
図8(C)に示すアノテーションを付与する場合、学習済モデルの出力は例えば入力である内視鏡画像と同じサイズの画像データである。この場合、例えば
図9(B)の全結像層に代えて、画像サイズを拡大するアップサンプリング層や、畳み込み層が追加される。出力層が公知のソフトマックス層である場合、出力画像の各画素は、当該画素が注目領域である確率を表す0以上1以下の数値データである。
【0100】
また、畳み込み層を3層以上にする等、CNNの具体的な構成は種々の変形実施が可能である。CNNの畳み込み層における重み付け係数は、フィルタのパラメータである。即ち、CNNにおける学習とは、畳み込み演算に用いるフィルタの学習を含む。
【0101】
CNNを用いる場合も、処理の手順は
図9(A)と同様である。即ち、学習プロセッサ101は、内視鏡画像を入力として、そのときのフィルタ特性を用いたフィルタ処理やプーリング演算を行うことによって出力を求める。当該出力と、アノテーションに対応する正解ラベルとに基づいて誤差関数を算出し、当該誤差関数を小さくするように、フィルタ特性を含む重み付け係数を更新する。CNNの重み付け係数を更新する際にも、例えば誤差逆伝播法を利用可能である。
【0102】
さらに、模倣学習の処理を追加してもよい。模倣学習では、学習病院の医師の内視鏡操作データ(操作ログ等)を元に同操作をトレース出来るよう学習する構成としてもよい。
【0103】
また、強化学習の処理を追加してもよい。強化学習では、特定の目的(病変を検出する等)に最適化された動作を逐次学習していく構成としてもよい。
【0104】
2.4 学習支援
近年、機械学習に用いられる種々のモデルが知られている。ここでのモデルとは、入力データに基づいてニューラルネットワークの出力データを求めるためのアルゴリズムであり、ニューラルネットワークの具体的な構造に対応する。ニューラルネットワークの構造とは、例えばCNNの畳み込み層におけるフィルタサイズ、プーリング層における画像サイズの縮小度合い、各層の数等を表す。またモデルによっては所与の層において求められる情報が、隣接しない他の層における演算に利用されてもよく、モデルはこのような処理内容を特定する情報も保持する。モデルとしてはYOLO、ResNet、AlexNet等、種々のモデルが公開されている。
【0105】
また、これらのモデルを実行するための実行環境として種々のフレームワークも知られている。フレームワークとは、モデルに従った学習を行うための開発環境であって、例えば機械学習において汎用的に用いられる処理を規定したライブラリを有する。
【0106】
機械学習を行うユーザは、演算能力の高いプロセッサと、フレームワークと、モデルと、訓練データであるアノテーション画像とを組み合わせることによって、注目領域の検出処理に用いられる学習済モデルを生成する。本実施形態では内視鏡画像を処理対象とするため、プロセッサ(学習プロセッサ101)は画像処理性能の高いGPUが好適である。
【0107】
ただし、フレームワークとモデルには相性がある。第1モデルと第1フレームワークの組み合わせは正常に動作するが、第1モデルと第2フレームワークでは動作しなかったり、性能が低下する場合がある。また同じフレームワークであってもバージョンが異なると挙動が変化する場合もある。例えば上記第1フレームワークとは所与のフレームワークのバージョン1であり、上記第2フレームワークとは同じフレームワークのバージョン2であってもよい。モデルについてもバージョンの違いによってフレームワークとの相性が異なる。
【0108】
また、ここではモデルとフレームワークの相性について説明したが、学習プロセッサ101(GPU)との相性もあり、これらを適切に組み合わせることが重要となる。以上の点を考慮すれば、フレームワークやモデルや利用する場合であっても、機械学習に関して専門的な知識を有さないユーザは、適切な機械学習を行うことは容易でない。
【0109】
よって本実施形態では、学習病院は内視鏡システム120のメーカからコンテナの提供を受けてもよい。ここでのコンテナとは、モデルとフレームワークを含む。内視鏡システムのメーカは、内視鏡画像を用いた機械学習について経験があるため、高い性能を発揮するモデルとフレームワークの組み合わせについての知見を有する。
【0110】
図10は、本実施形態のコンテナを説明する図である。
図10の例では、モデル1とフレームワーク1、モデル2とフレームワーク2、モデル3とフレームワーク2の組み合わせは相性がよいことがわかっている。一方、モデル1とフレームワーク2等、不図示の組み合わせは相対的に性能が低下することがわかっている。よってメーカは、この3つのコンテナを利用可能なシステムを提供する。具体的には、内視鏡システムのメーカは、例えば学習プロセッサ101と、フレームワーク1及び2と、モデル1~3と、を含むシステムを学習病院に提供する。その上で、上記3つの組み合わせによる機械学習を容易に実行可能にする。
【0111】
例えば、メーカは、フレームワーク1においてモデル1に従った機械学習を行うためのプログラムを提供してもよい。ここでのプログラムとは、例えばフレームワーク1で利用可能なプログラミング言語を用いて、フレームワーク1が提供するライブラリを利用して記載されたソースコードである。この場合、ユーザは当該プログラムにおいて、パラメータ設定を行うことによって、機械学習を実行できる。その他のコンテナについても同様である。
【0112】
以上のように、プロセッサ100は、複数のコンテナのうちのいずれかのコンテナを用いて機械学習を行ってもよい。コンテナは、機械学習に用いられるアルゴリズムであるモデルと、モデルに従った機械学習を行う実行環境であるフレームワークとからなる。このようにすれば、相性の悪いモデルとフレームワークの選択が抑制されるため、機械学習を適切に行うことが可能になる。
【0113】
ただし、コンテナとして提供されるモデルとフレームワークの組み合わせは、高い性能を発揮するポテンシャルはあるものの、実際に高性能であるか否かは、入力となる内視鏡画像の種類に依存する。例えば、内視鏡画像がどの部位を撮像した画像であるか、注目領域はどのような被写体を対象としているのか等に応じて、最適なコンテナが異なる。即ち、メーカから提供されたコンテナをそのまま用いたとしても、内視鏡画像によっては所望の性能が発揮されない。
【0114】
よって本実施形態の学習支援システムでは、支援プロセッサ400は、コンテナの選択指示を行うことによって、機械学習を支援してもよい。例えば支援プロセッサ400は、プロセッサ100から内視鏡画像に関する情報を取得する。そして当該内視鏡画像に基づいて、複数のコンテナから適切なコンテナを特定し、当該コンテナを使用する指示をプロセッサ100に送信する。このようにすれば、内視鏡画像に合わせたコンテナの使用を指示できるため、適切な機械学習を行うことが可能になる。なお、ここでは学習プロセッサ101において、メーカが指示したコンテナが選択されればよく、メーカからの指示は電話やメールを用いて行われ、選択操作は学習病院の医師等が行ってもよい。
【0115】
また支援プロセッサ400は、モデルに含まれるパラメータの設定指示を行うことによって、機械学習を支援してもよい。ここでのパラメータは、機械学習によって設定可能な重み付け係数とは異なり、ユーザが設定する必要があるパラメータである。
【0116】
パラメータは、例えば重み付け係数の変化量を決定するパラメータである学習率である。学習率は機械学習の進行に合わせて変化させるとよいことが知られており、Momentum、AdaGrad、Adam等の種々の最適化手法が知られている。学習率の設定指示とは、公知の最適化手法のうちのいずれかの選択指示であってもよいし、個別に学習率を指定する指示であってもよい。
【0117】
またモデルによっては中間層の数やフィルタサイズが可変である。この場合、支援プロセッサ400は、それらをパラメータとして設定してもよい。また支援プロセッサ400は、上述した活性化関数をパラメータとして設定してもよい。その他、ニューラルネットワークでは、荷重減衰(Weight Decay)等の正則化の係数、ドロップアウト率等のパラメータが知られており、支援プロセッサ400はこれらの設定指示を行ってもよい。
【0118】
これらのパラメータは収束までの速度や、生成した学習済モデルの精度に影響することが知られているものの、適切な値を設定することは非常に難しい。パラメータ設定を支援プロセッサ400から支援することによって、医師等のユーザが容易に機械学習を実行することが可能になる。
【0119】
なお、コンテナの選択やパラメータの設定に当たって、支援プロセッサ400は第4ネットワークNW4に含まれる表示部において、内視鏡画像やアノテーション画像を表示する処理を行ってもよい。このようにすれば、メーカ担当者は機械学習に用いる画像データを確認した上で、適切な指示を行うことが可能になる。ただし上述したように、秘匿性の高いデータを適切に管理することを考慮すれば、第4ネットワークNW4における内視鏡画像及びアノテーション画像は二次利用が不可能な態様とする必要がある。
【0120】
3.学習済モデルの選択、及び学習済モデルを用いた推論処理
図11は、学習済モデルのアップロード及びダウンロードを説明する図である。
図11に示すように、サーバシステム200は、複数の学習済モデルを記憶してもよい。例えば
図11に示すように、学習病院が複数存在してもよい。
図11では、学習病院は3つであり、それぞれ院内ネットワークであるNW1-1~NW1-3を構成するノードであるプロセッサ100-1~100-3において、学習済モデル1~3を生成する。サーバシステム200は、3つの学習済モデルを記憶する。なお、学習病院の数は3に限定されない。また1つの学習病院において複数の学習済モデルが生成されてもよい。
【0121】
ここで、複数の学習済モデルは、それぞれ機械学習に用いた内視鏡画像の撮像条件が異なる。撮像条件とは、観察対象となる部位、検出対象となる注目領域等の条件である。推論病院において学習済モデルを利用する場合、当該推論病院での推論内視鏡画像の撮像条件と、学習時の撮像条件とを揃えることが望ましい。例えば、推論病院で胃の粘膜から上皮がんを検出しようとした場合、胃を撮像した内視鏡画像に対して、上皮がんに対応する領域にアノテーションが付与されたアノテーション画像を用いて機械学習された学習済モデルを用いるべきである。例えば大腸のポリープに対応する領域にアノテーションが付与されたアノテーション画像を用いて機械学習された学習済モデルを用いた場合、検出精度は低下する。
【0122】
よって推論プロセッサ300は、複数の学習済モデルから、検出処理に用いる学習済モデルを選択し、選択した学習済モデルをダウンロードする。このようにすれば、推論病院において適切な学習済モデルを用いた推論処理を行うことが可能になる。即ち、本実施形態におけるサーバシステム200は、特性の異なる多様な学習済モデルを蓄積するライブラリであり、利用者である推論病院は、当該ライブラリから自身の用途に合わせて学習済モデルを選択する。
【0123】
なお、推論病院側で適切な学習済モデルを選択するためには、サーバシステム200に記憶される各学習済モデルがどのような特性を有するものであるかが既知でなくてはならない。よって学習病院のプロセッサ100は、推論内視鏡画像を撮像する内視鏡システム310と、学習済モデルとの適合性を表す適合性情報を生成し、学習済モデルと適合性情報とを対応付けてサーバシステム200にアップロードする。ここで学習済モデルに対応付けられる適合性情報は、当該学習済モデルがどのような内視鏡システム310に適合するかを表す情報である。ここでの適合とは、学習済モデルを利用した推論処理が、十分に高い精度で実行できることを表す。
【0124】
例えば適合性情報は、内視鏡システムのメーカや、製品の型番を表す情報であってもよい。メーカ、型番が特定されれば、レンズの構成、絞り値の範囲、ズーム倍率範囲、撮像素子のサイズ等、撮像光学系に関する情報が決まる。これらの情報に基づいて、撮像される内視鏡画像の特性が決まるため、学習済モデルが推論病院の内視鏡システム310に適合するか否かの判定が可能である。なお、交換式の挿入部10(スコープ)が用いられる場合、適合性情報は当該挿入部10を特定する型番等の情報を含んでもよい。
【0125】
また適合性情報は、内視鏡画像の撮像時に照射された照明光に関する情報を含んでもよい。例えば内視鏡システムでは、白色光とは異なる波長帯域の特殊光を照射することによって、特殊光画像を撮像する手法が広く知られている。特殊光画像は、例えば緑色狭帯域光と青色狭帯域光を照射することによって取得されるNBI(Narrow Band Imaging)画像である。NBI画像をモデルの入力として機械学習を行った場合、推論処理においてもNBI画像を学習済モデルに入力する必要がある。よってプロセッサ100は、例えば学習済モデルに対して、NBI画像を撮像可能な内視鏡システム310に適合する旨を表す適合性情報を付与して、サーバシステム200にアップロードする。
【0126】
また適合性情報は、観察対象となる部位や、検出対象となる注目領域の情報であってもよい。上述したように、同じ部位、同じ種類の注目領域を対象とすることによって、学習済モデルを用いた推論処理の精度向上が可能になる。
【0127】
また適合性情報は、内視鏡診断の対象となった患者の既往歴等の情報であってもよい。例えばピロリ菌を除菌することによって胃がんの発生率が低下することが知られている。そのため、胃の粘膜を撮像する際にも、ピロリ菌を除菌していない患者と、除菌後の患者とで異なる傾向があると考えられる。学習済モデルも、ピロリ菌を除菌した患者に適用するモデルと、除菌していない患者に適用するモデルとを分けることが望ましく、この場合の適合性情報は、ピロリ菌の除菌の有無を表す情報である。
【0128】
以上のように、適合性情報は、メーカ、型番、撮像対象の部位、注目領域の種類、照明光の数及び波長帯域、患者の既往歴等の種々の情報を用いることが可能である。推論病院のユーザは、学習済モデルに付与された適合性情報と、推論病院の内視鏡システム310の構成や、撮像部位、検出対象の注目領域、撮像対象の患者の情報等を比較することによって、適切な学習済モデルの選択を行う。
【0129】
ここで、学習済モデルが推論病院の内視鏡システム310に適合するか否かは、過剰に厳密に判断することは望ましくない。NBI画像の例であれば、緑色狭帯域光と青色狭帯域光は、ヘモグロビンに対する感度が高いという特性を有する光である。そのため、当該特性を有する範囲であれば、照明光のピーク波長や半値幅は種々の変形実施が可能である。即ち、内視鏡画像の撮像における緑色狭帯域光及び青色狭帯域光と、推論内視鏡画像の撮像における緑色狭帯域光と青色狭帯域光とは、波長帯域等が厳密に一致する必要はなく、ある程度類似すれば十分な精度での推論処理が可能である。
【0130】
例えば適合性情報は、学習病院の内視鏡システム120が照射した緑色狭帯域光及び青色狭帯域光そのものの情報だけでなく、同様の特性を有する他の光に関する情報を含む。具体的には、ピーク波長や半値幅は、1つの値ではなく所与の数値範囲として表現される。このようにすれば、学習済モデルの適用範囲を過剰に狭めることを抑制できるため、学習済モデルの利用促進が可能になる。光源以外の適合性情報についても同様であり、学習病院における情報に限定せず、類似度合いの高い他の情報に拡張することが望ましい。
【0131】
なお、適合する学習済モデルの選択は、サーバシステム200が行ってもよい。例えば推論プロセッサ300は、推論病院の内視鏡システム310の構成や、撮像条件、撮像対象の患者の情報等を、サーバシステム200に送信する。サーバシステム200は、推論プロセッサ300から送信された情報と、適合性情報との類似度を算出し、当該類似度が所与の類似度閾値以上となる学習済モデルを推論プロセッサ300に提示する。推論プロセッサ300は、提示された1又は複数の学習済モデルから、選択した学習済モデルをダウンロードする。なおこの場合、類似度閾値を調整することによって、学習済モデルの適用範囲を過剰に狭めることを抑制してもよい。
【0132】
利用する学習済モデルが決定されたら、推論病院の内視鏡システム310は、学習済モデルをダウンロードし、当該学習済モデルを用いた推論処理を行う。なお学習済モデルは、第3ネットワークNW3に含まれるノードである不図示のメモリに記憶される。ここでのメモリは、例えば推論プロセッサ300に含まれるメモリであり、
図4の記憶部37に対応する。またメモリは、不揮発性メモリであってもよいし、揮発性メモリであってもよい。具体的には、内視鏡システム310の推論プロセッサ300は、学習済モデルに従った演算を行うことによって、注目領域の検出処理を行う。なお学習済モデルは、人工知能ソフトウェアの一部であるプログラムモジュールとして利用される。
【0133】
学習済モデルに従った推論プロセッサ300における演算、即ち、入力データに基づいて出力データを出力するための演算は、ソフトウェアによって実行されてもよいし、ハードウェアによって実行されてもよい。換言すれば、CNNにおける畳み込み演算等は、ソフトウェア的に実行されてもよい。或いは上記演算は、FPGA(field-programmable gate array)等の回路装置によって実行されてもよい。また、上記演算は、ソフトウェアとハードウェアの組み合わせによって実行されてもよい。このように、学習済モデルからの指令に従った推論プロセッサ300の動作は、種々の態様によって実現可能である。例えば学習済モデルは、推論アルゴリズムと、当該推論アルゴリズムにおいて用いられるパラメータとを含む。推論アルゴリズムとは、入力データに基づいて、積和演算や畳み込み演算等を行うアルゴリズムであり、上記モデルに対応する。パラメータとは、学習処理によって取得されるパラメータであって、例えばニューラルネットワークの重み付け係数である。この場合、推論アルゴリズムとパラメータの両方がメモリに記憶され、推論プロセッサ300は、当該推論アルゴリズムとパラメータを読み出すことによってソフトウェア的に推論処理を行ってもよい。或いは、推論アルゴリズムはFPGA等によって実現されてもよい。
【0134】
図12は、推論プロセッサ300における推論処理を説明するフローチャートである。具体的な推論処理の開始前に、ステップS201において、推論プロセッサ300は、用途に合わせた学習済モデルをサーバシステム200からダウンロードする。
【0135】
S202において、推論プロセッサ300は、内視鏡システム310の光源装置や撮像素子を制御することによって、推論内視鏡画像を取得する。ステップS203において、推論プロセッサ300は、ダウンロードした学習済モデルからの指令に従って動作することによって、推論内視鏡画像から注目領域の検出処理を行う。具体的には、推論プロセッサ300は、推論内視鏡画像を入力データとしてニューラルネットワーク演算を行う。さらにS204において、推論プロセッサ300は検出結果を表示する処理を行う。例えば、元の推論内視鏡画像に対して、検出された注目領域を視認性を向上させる強調処理を行い、処理結果を表示部に出力する。
【0136】
なお、本発明における学習済モデルには、学習病院において生成されたモデルそのもののみならず、当該モデルに基づいて生成された派生モデルを含んでもよい。
【0137】
以上、本実施形態およびその変形例について説明したが、本開示は、各実施形態やその変形例そのままに限定されるものではなく、実施段階では、要旨を逸脱しない範囲内で構成要素を変形して具体化することができる。また、上記した各実施形態や変形例に開示されている複数の構成要素を適宜組み合わせることによって、種々の実施形態を形成することができる。例えば、各実施形態や変形例に記載した全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態や変形例で説明した構成要素を適宜組み合わせてもよい。このように、本開示の主旨を逸脱しない範囲内において種々の変形や応用が可能である。また、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。
【符号の説明】
【0138】
10…挿入部、11…対物光学系、12…撮像素子、13…アクチュエータ、14…照明レンズ、15…ライトガイド、16…AF開始/終了ボタン、17…フォーカスレンズ、20…外部I/F部、31…A/D変換部、32…前処理部、33…検出部、34…後処理部、35…システム制御部、36…AF制御部、37…記憶部、40…表示部、50…光源装置、52…光源、100…プロセッサ、101…学習プロセッサ、103…アノテーションプロセッサ、105…内視鏡プロセッサ、110…ストレージ、120…内視鏡システム、200…サーバシステム、300…推論プロセッサ、310…内視鏡システム、400…支援プロセッサ、FW…ファイアウォール、NW1(NW1-1~NW1-3)…第1ネットワーク、NW2…第2ネットワーク、NW3…第3ネットワーク、NW4…第4ネットワーク