特許7195085 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ オリンパス株式会社の特許一覧

特許7195085アノテーション装置およびアノテーション方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-12-15

(45)【発行日】2022-12-23

(54)【発明の名称】アノテーション装置およびアノテーション方法

(51)【国際特許分類】

G06N 20/00 20190101AFI20221216BHJP

G06F 16/55 20190101ALI20221216BHJP

G06F 16/58 20190101ALI20221216BHJP

【ＦＩ】

G06N20/00 130

G06F16/55

G06F16/58

【請求項の数】 9

(21)【出願番号】P 2018159583

(22)【出願日】2018-08-28

(65)【公開番号】P2020035095

(43)【公開日】2020-03-05

【審査請求日】2021-08-19

(73)【特許権者】

【識別番号】000000376

【氏名又は名称】オリンパス株式会社

(74)【代理人】

【識別番号】100109209

【弁理士】

【氏名又は名称】小林一任

(72)【発明者】

【氏名】李禎

(72)【発明者】

【氏名】長和彦

(72)【発明者】

【氏名】野中修

【審査官】北川純次

(56)【参考文献】

【文献】特開２０１７－２２４１８４（ＪＰ，Ａ）

【文献】特開平０４－０５２８７３（ＪＰ，Ａ）

【文献】特開平０２－２７７１３４（ＪＰ，Ａ）

【文献】特開２０１５－０８７９０３（ＪＰ，Ａ）

【文献】特開２００３－２８１５４０（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ２０／００

Ｇ０６Ｎ３／００

Ｇ０６Ｆ１６／００

Ｇ０６Ｔ７／００

(57)【特許請求の範囲】

【請求項1】

アノテーションの対象となる対象物を含み得る複数の画像を、個々に順次再生する再生部と、
上記再生部で再生された画像内の上記対象物の特定部分を手動操作により指定する指定部と、
上記手動操作により上記特定部分を指定する作業時間またはデータ量を条件として設定するための設定部と、
上記設定部により設定された上記条件のもとで、上記指定部によって上記特定部分の指定が終了した後、上記複数の画像の内の別画像の上記特定部分を手動操作により指定するために、上記再生部によって再生される画像を別画像に変更する際に、上記対象物と上記特定部分の関係を教師データとして用いて学習することによって、推論モデルを作成する学習部と、
具備し、
上記学習部によって上記推論モデル作成を行う際に、並行して、上記指定部は、上記複数の画像の内で、上記特定部分を指定していない残りの画像に対して、上記手動操作により上記対象物の特定部分を指定することを特徴とするアノテーション装置。

【請求項2】

上記学習部によって上記推論モデルが作成された後に、上記複数の画像の中で残っている画像に対して、上記推論モデルによる推論を利用して、上記特定部分を指定することを特徴とする請求項１に記載のアノテーション装置。

【請求項3】

作業時間またはデータ量に従って、上記特定部分を手動操作によって指定する時間と、上記推論モデルを作成する時間の配分を行うことを特徴とする請求項１または２に記載のアノテーション装置。

【請求項4】

汎用的な画像クラス分類に従って、上記複数の画像を分類し、上記分類に応じて、上記特定部分を手動操作によって指定する画像を選択する分類部を具備することを特徴とする請求項１ないし３に記載のアノテーション装置。

【請求項5】

上記分類部は、上記特定部分を手動操作によって指定する際に、画像の優先順位を指定することを特徴とする請求項４に記載のアノテーション装置。

【請求項6】

手動操作により、アノテーションの対象となる得る対象物の特定部分を指定する作業時間またはデータ量を設定し、
上記設定された作業時間またはデータ量に応じて、上記対象物を含みうる複数の画像を、個々に順次に再生し、再生された画像内の上記対象物の特定部分を手動操作により指定する第１の手動アノテーションと、
上記第１の手動アノテーションが終了した後、上記設定された作業時間またはデータ量に応じて、上記複数の画像のうち上記特定部分を手動操作により指定する第２のアノテーションと、上記第２のアノテーションと並行して、上記第１の手動アノテーションにおいて取得した上記対象物と上記特定部分の関係を教師データとして用いて学習することによって、推論モデルを作成する、
ことを特徴とするアノテーション方法。

【請求項7】

アノテーションの対象となる対象物を含み得る複数の画像を、個々に順次再生する再生部と、
上記再生部で再生された画像内の上記対象物の特定部分を手動操作により指定する指定部と、
上記複数の画像のうち上記特定部分を手動操作により指定するために別画像に変更する際に、学習用の画像セットと、正解用の画像セットに分離し、上記学習用の画像セットの上記対象物と上記特定部分の関係を教師データとして用いて学習して推論モデルを作成し、上記正解用の画像セットで上記推論モデルを検証する学習部と、
具備することを特徴とするアノテーション装置。

【請求項8】

アノテーションの対象となる対象物を含み得る複数の画像を、個々に順次再生し、
上記再生された画像内の上記対象物の特定部分を手動操作により指定し、
上記複数の画像のうち上記特定部分を手動操作により指定するために別画像に変更する際に、学習用の画像セットと、正解用の画像セットに分離し、上記学習用の画像セットの上記対象物と上記特定部分の関係を教師データとして用いて学習して推論モデルを作成し、上記正解用の画像セットで上記推論モデルを検証する、
ことを特徴とするアノテーション方法。

【請求項9】

アノテーションの対象となる対象物を含み得る複数の画像を、個々に順次再生する再生部と、上記再生部で再生された画像内の上記対象物の特定部分を手動操作により指定する指定部と、上記手動操作により上記特定部分を指定する作業時間またはデータ量を条件として設定するための設定部と、を有するアノテーション装置内に設けられたコンピュータを実行するためのプログラムにおいて、
上記設定部により設定された上記条件のもとで、上記指定部によって上記特定部分の指定が終了した後、上記複数の画像の内の別画像の上記特定部分を手動操作により指定するために、上記再生部によって再生される画像を別画像に変更する際に、上記対象物と上記特定部分の関係を教師データとして用いて学習することによって、推論モデルの作成を行い、該推論モデルの作成と並行して、上記指定部は、上記複数の画像の内で、上記特定部分を指定していない残りの画像に対して、上記手動操作により上記対象物の特定部分を指定する、
ことを上記コンピュータに実行させることを特徴とするプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、深層学習等の機械学習のための推論モデルを生成するための教師用データを作成するに適したアノテーション装置およびアノテーション方法に関する。

【背景技術】

【0002】

被検体を撮影した少なくとも１つの医用画像を表示する医用画像処理装置において、画像から確認すべき位置を判定し、この位置について判定されたか否かを表示することが提案されている（特許文献１参照）。また、近年、深層学習等の機械学習装置が種々提案されているが、この機械学習にあたっては、深層学習するための教師用データが必要である。この教師用データを作成するために、人が手動で位置を指定するアノテーションを行っていた。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１５－１９８９２８号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

前述したように、診断すべき位置を判定することは提案されているが、アノテーションを行うことによって、深層学習等の機械学習に使用するための教師用データを作成することについては、何ら記載されていない。また、アノテーションを行う際に、作業者が手動で行い、残りをアノテーションによって作成された教師用データを用いて生成した推論モデルを用いることについても記載されていない。また、推論モデルを用いて推論する際には、推論モデルの信頼性についても検証しなければならないが、学習用の教師データと推論モデルの信頼性を検出するための検証データの生成についても記載されていない。

【0005】

本発明は、このような事情を鑑みてなされたものであり、作業者に負担をかけることなくアノテーション作業を行うことができるアノテーション装置およびアノテーション方法を提供することを目的とする。

【課題を解決するための手段】

【0006】

上記目的を達成するため第１の発明に係るアノテーション装置は、アノテーションの対象となる対象物を含み得る複数の画像を、個々に順次再生する再生部と、上記再生部で再生された画像内の上記対象物の特定部分を手動操作により指定する指定部と、上記手動操作により上記特定部分を指定する作業時間またはデータ量を条件として設定するための設定部と、上記設定部により設定された上記条件のもとで、上記指定部によって上記特定部分の指定が終了した後、上記複数の画像の内の別画像の上記特定部分を手動操作により指定するために、上記再生部によって再生される画像を別画像に変更する際に、上記対象物と上記特定部分の関係を教師データとして用いて学習することによって、推論モデルを作成する学習部と、具備し、上記学習部によって上記推論モデル作成を行う際に、並行して、上記指定部は、上記複数の画像の内で、上記特定部分を指定していない残りの画像に対して、上記手動操作により上記対象物の特定部分を指定する。

【0007】

第２の発明に係るアノテーション装置は、上記第１の発明において、上記学習部によって上記推論モデルが作成された後に、上記複数の画像の中で残っている画像に対して、上記推論モデルによる推論を利用して、上記特定部分を指定する。

【0008】

第３の発明に係るアノテーション装置は、上記第１または第２の発明において、作業時間またはデータ量に従って、上記特定部分を手動操作によって指定する時間と、上記推論モデルを作成する時間の配分を行う。
第４発明に係るアノテーション装置は、上記第１ないし第３の発明において、汎用的な画像クラス分類に従って、上記複数の画像を分類し、上記分類に応じて、上記特定部分を手動操作によって指定する画像を選択する分類部を具備する。
第５の発明に係るアノテーション装置は、上記第４の発明において、上記分類部は、上記特定部分を手動操作によって指定する際に、画像の優先順位を指定する。

【0009】

第６の発明に係るアノテーション方法は、手動操作により、アノテーションの対象となる得る対象物の特定部分を指定する作業時間またはデータ量を設定し、上記設定された作業時間またはデータ量に応じて、上記対象物を含みうる複数の画像を、個々に順次に再生し、再生された画像内の上記対象物の特定部分を手動操作により指定する第１の手動アノテーションと、上記第１の手動アノテーションが終了した後、上記設定された作業時間またはデータ量に応じて、上記複数の画像のうち上記特定部分を手動操作により指定する第２のアノテーションと、上記第２のアノテーションと並行して、上記第１の手動アノテーションにおいて取得した上記対象物と上記特定部分の関係を教師データとして用いて学習することによって、推論モデルを作成する。

【0010】

第７の発明に係るアノテーション装置は、アノテーションの対象となる対象物を含み得る複数の画像を、個々に順次再生する再生部と、上記再生部で再生された画像内の上記対象物の特定部分を手動操作により指定する指定部と、上記複数の画像のうち上記特定部分を手動操作により指定するために別画像に変更する際に、学習用の画像セットと、正解用の画像セットに分離し、上記学習用の画像セットの上記対象物と上記特定部分の関係を教師データとして用いて学習して推論モデルを作成し、上記正解用の画像セットで上記推論モデルを検証する学習部と、具備する。

【0011】

第８の発明に係るアノテーション方法は、アノテーションの対象となる対象物を含み得る複数の画像を、個々に順次再生し、上記再生された画像内の上記対象物の特定部分を手動操作により指定し、上記複数の画像のうち上記特定部分を手動操作により指定するために別画像に変更する際に、学習用の画像セットと、正解用の画像セットに分離し、上記学習用の画像セットの上記対象物と上記特定部分の関係を教師データとして用いて学習して推論モデルを作成し、上記正解用の画像セットで上記推論モデルを検証する。

【0012】

第９の発明に係るプログラムは、アノテーションの対象となる対象物を含み得る複数の画像を、個々に順次再生する再生部と、上記再生部で再生された画像内の上記対象物の特定部分を手動操作により指定する指定部と、上記手動操作により上記特定部分を指定する作業時間またはデータ量を条件として設定するための設定部と、を有するアノテーション装置内に設けられたコンピュータを実行するためのプログラムにおいて、上記設定部により設定された上記条件のもとで、上記指定部によって上記特定部分の指定が終了した後、上記複数の画像の内の別画像の上記特定部分を手動操作により指定するために、上記再生部によって再生される画像を別画像に変更する際に、上記対象物と上記特定部分の関係を教師データとして用いて学習することによって、推論モデルの作成を行い、該推論モデルの作成と並行して、上記指定部は、上記複数の画像の内で、上記特定部分を指定していない残りの画像に対して、上記手動操作により上記対象物の特定部分を指定する、ことを上記コンピュータに実行させる。

【発明の効果】

【0013】

本発明によれば、作業者に負担をかけることなくアノテーション作業を行うことができるアノテーション装置およびアノテーション方法を提供することができる。

【図面の簡単な説明】

【0014】

【図1】本発明の一実施形態に係る撮像システムの主として電気的構成を示すブロック図である。

【図2】本発明の一実施形態に係る撮像システムにおいて、教師用データの生成と、教師用データを用いて作成された推論モデルを用いて行う推論を示すブロック図である。

【図3】本発明の一実施形態に係る撮像システムにおいて、アノテーション作業の一例を示す図である。

【図4】本発明の一実施形態に係る撮像システムにおいて、アノテーション作業の他の例を示す図である。

【図5】本発明の一実施形態に係る撮像システムにおいて、アノテーションの動作を示すフローチャートである。

【図6】本発明の一実施形態に係る撮像システムにおいて、アノテーションの動作の作業状態を示す図である。

【図7】本発明の一実施形態に係る撮像システムにおいて、アノテーションの動作の第１の変形例を示すフローチャートである。

【図8】本発明の一実施形態に係る撮像システムにおいて、アノテーションの動作の第１の変形例の作業状態を示す図である。

【図9】本発明の一実施形態に係る撮像システムにおいて、アノテーションの動作の第２の変形例を示すフローチャートである。

【図10】本発明の一実施形態に係る撮像システムにおいて、アノテーションの動作の第２の変形例の作業状態を示す図である。

【発明を実施するための形態】

【0015】

以下、本発明の好ましい実施形態として、本発明を撮像装置（例えば、デジタルカメラ、内視鏡用カメラ、顕微鏡用カメラ等）と外部装置を有する撮像システムに適用した例について説明する。この撮像システムの概略は以下の通りである。カメラは、外部機器とネットを通じて接続することができる。この外部装置は、画像を記録することができ、この記録された画像に対して、作業者は目視し、目的とする箇所の判定し、この範囲をアノテーション（注釈）情報とする。例えば、医師が患者の患部の内視鏡画像等を目視し、患部をマウスやカーソル等を用いて指定するアノテーション作業を行い、この指定された範囲の情報をアノテーション情報とする。

【0016】

医師等の作業者は、アノテーション作業を開始するにあたって、作業時間、画像枚数等を指定しておく（例えば、図５のＳ１１参照）。手動によるアノテーション作業の開始後に、予め指定した作業時間が経過すると、または画像枚数についてアノテーション作業を行うと、それまでに付与が終了したアノテーション情報を用いて、深層学習を行う（例えば、図５のＳ１９参照）。この深層学習と並行して、手動によるアノテーション作業も行う（例えば、図５のＳ２１）。

【0017】

深層学習が終了すると、この深層学習で生成された推論モデルを用いて、アノテーション情報を推論によって付与し（例えば、図５のＳ２５参照）、作業者は推論結果を目視し、正しく患部等の目的物を指示しているか否かを判定する。この判定の結果、適合の場合には、教師用データとして使用し、一方、不適合の場合には、作業者が手動でアノテーション情報を修正し、教師用データとして使用できるようにする。これらの教師用データを用いて、更に深層学習を行うことにより、より信頼性の高い推論モデルを生成することができる。

【0018】

また、所定時間または所定枚数の画像について、アノテーション作業を行うと、教師用データ作成用のアノテーション情報付き画像と、検証用のアノテーション情報付き画像に、分離する（例えば、図５のＳ１７参照）。教師用データ用のアノテーション情報付き画像は、推論モデル生成のための深層学習に使用する。検証用のアノテーション情報付き画像は、生成された推論モデルの信頼性を検証する際に使用する。

【0019】

図１は、本発明の一実施形態に係る撮像システムの主として電気的構成を示すブロック図を示す。この撮像システムは、情報取得装置１０と外部装置２０を有する。情報取得装置１０としては、カメラ、撮像部を有するスマートフォン、撮像部を有するＰＣ（パーソナルコンピュータ）、撮像部を有するタブレット等、撮像部を有する内視鏡、撮像部の取り付けられた顕微鏡装置の画像情報を取得可能な機器であればよい。

【0020】

情報取得装置１０は、画像処理および制御部１、情報取得部２、姿勢センサ３、記録部４、操作判定部５、通信部６、表示部８、タッチパネル８ａを有する。

【0021】

情報取得部２は、対象物の画像データを取得する。この情報取得部２は、対象物の光学像を形成するための光学系と、この光学像を画像信号に変換するための撮像素子と、この撮像素子の制御および画像信号の読み出し等を行う撮像回路等を有する。撮像回路は、更に、画像信号の増幅処理や、画像データに変換するためのＡＤ変換回路等を有する。情報取得部２は、取得した画像データを画像処理および制御部１に出力する。

【0022】

姿勢センサ３は、ジャイロセンサ、加速度センサ等を有する。姿勢センサ３は、情報取得装置１０の姿勢を検知し、検知結果を画像処理および制御部１に出力する。なお、姿勢センサ３としては、傾きセンサであってもよく、この場合は、情報取得装置１０の傾きを検知する。また、姿勢センサ３は電子コンパスであってもよく、この場合は、例えば、情報取得装置１０の光学系の向いている方向を検知する。

【0023】

記録部４は、電気的に書き換え可能な不揮発性メモリを有し、このメモリは、情報取得装置１０に装着可能な記録媒体であってもよく、また情報取得装置１０に固定された半導体メモリや、ハードディスク等であってもよい。記録部４は、推論情報４ａ、画像データ４ｂ、各種データ４ｃ等を記録する。推論情報４ａは、外部装置２０内の学習部によって深層学習がなされ、生成された推論モデル等の推論情報である。画像データ４ｂは、情報取得部２によって取得され、画像処理および制御部１によって画像処理が施された画像データである。各種データ４ｃは、情報取得装置１０を動作させるための各種調整データ等である。

【0024】

操作判定部５は、ユーザが情報取得装置１０に対して指示を与えるインターフェースであり、各種操作ボタン、操作ダイヤル等の操作部材を有する。操作判定部５は、操作部材の操作状態を判定するための判定回路を有し、判定結果は、画像処理および制御部１に出力される。

【0025】

通信部６は、無線通信および／または有線通信を行うための通信回路を有する。通信部６は、外部装置２０内の通信部３０と送受信を行う。通信部６を介して、情報取得装置１０は画像データを外部装置２０に送信し、外部装置２０から推論モデルを受信する。
表示部８は、液晶ディスプレイ（ＬＣＤ）や有機ＥＬ等のディスプレイを有する。表示部８は、情報取得部２によって取得された画像データに基づいてライブビュー画像を表示し、また記録部４に記録された画像データ４ｂに基づく画像を再生表示する。また、表示部８の表示面にはタッチパネル８ｂが設けられている。タッチパネル８ｂは、ユーザのタッチ操作を検知し、この検知結果を画像処理および制御部１に出力する。

【0026】

画像処理および制御部１は、制御部１ａ、画像処理部１ｂ、推論部１ｃ、関連判定部１ｄ、ガイド作成部１ｅ、表示制御部１ｆを有する。画像処理および制御部１は、プロセッサであり、また、ＡＳＩＣ（Application Specific Integrated Circuit）によって、構成してもよい。制御部１ａは、ＣＰＵ（Central Processor Unit）を有し、記録部４に記憶されているプログラムに従って、情報取得装置１０の各部を制御することによって、全体を制御する。

【0027】

画像処理部１ｂは、画像処理回路を有し、情報取得部２によって取得された画像データに対して、種々の画像処理を施す。種々の画像処理としては、例えば、ノイズ処理、ＷＢゲイン補正、輪郭強調、偽色補正等の様々な画像処理がある。また、画像処理部１ｂは、表示部８におけるライブビュー画像に適した画像処理を施し、記録部４に記録する際に適した画像処理を施す。

【0028】

推論部１ｃは、ハードウエアで構成された推論エンジンを有してもよく、また、ＣＰＵ等のプロセッサによってソフトウエアによる推論処理を実現してもよい。推論部１ｃは、外部装置２０の学習部２６において生成された推論モデルを入力して、ニューラル・ネットワークの重み付けや結合の強さを設定する。また、推論部１ｃは、情報取得部２によって取得された画像データを入力し、推論を行う。

【0029】

推論部１ｃは、例えば、情報取得装置１０が内視鏡の場合には、患部の位置や、患部の症状等を推論する。推論部１ｃは、この推論結果は関連判定部１ｄに出力し、前後の画像の時系列的な関連性を判定した上で、推論結果をガイド作成部１ｅに出力する。ガイド作成部１ｅは、表示部８に、患部の位置や症状等を、操作者にガイドする。このガイドにあたって、関連判定部１ｄは、画像の時系列的変化を判定し、例えば、患部の位置を通り過ぎてしまった場合に、ガイド作成部１ｅは、観察位置を戻すようなガイドを出力する。

【0030】

表示制御部１ｆは、表示制御回路を有し、表示部８における表示の制御を行う。例えば、情報取得部２によって取得した対象物をライブビュー表示し、また記録部４に記録されている画像を再生表示する。強調部１ｆａは、ガイド表示する場合等、ユーザに特に気づいてもらいたい箇所を強調する表示を行うための制御を行う。

【0031】

外部装置２０は、制御部２１、情報記録部２２、再生部２３、指定操作部２４、汎用分類部２５、学習部２６、通信部３０を有する。外部装置２０は、パーソナルコンピュータ（ＰＣ）等のスタンドアロン装置であってもよく、またインターネット上で接続されているサーバであってもよい。ＰＣ等のスタンドアロン装置の場合には、画像データは、通信部を介さず、ＵＳＢメモリ等から入力するようにしてもよい。

【0032】

制御部２１は、プロセッサであり、また、ＡＳＩＣ（Application Specific Integrated Circuit）によって、構成してもよい。また、この制御部２１は、ＣＰＵ（Central Processing Unit）を有し、記憶部に記憶されたプログラムに従って、外部装置２０内の各部を制御し、全体を制御する。

【0033】

制御部２１は、再生制御部２１ａ、特定部分判定部２１ｂ、学習・検証分離部２１ｃ、仮学習部２１ｄを有する。これらの各部は、ハードウエア回路で構成してもよく、またＣＰＵがプログラムに従って実現するようにしてもよい。

【0034】

再生制御部２１ａは、複数のアノテーションを付与する対象物（画像）を、再生部２３に個々に順次再生する。すなわち、対象物記録ＤＢ２２ａに記憶されている画像を、順次読出し、この画像を再生部２３の表示モニタに再生表示する。再生制御部２１ａは、再生制御回路を有し、この再生制御回路によって画像の再生制御を行うようにしてもよい。

【0035】

特定部分判定部２１ｂは、外部装置２０の操作者によって指定された特定部分を判定する。再生制御部２１ａによって、再生部２３に対象物画像が再生表示されると、操作者は指定操作部２４を操作することによって、特定部分を指定する（例えば、図３、４、および図５のＳ１５等参照）。特定部分判定部２１ｂは、この指定された特定部分を認識し、再生表示された画像の画像データに関連付けて記録する。この特定部分は、アノテーション情報となる。特定部分としては、例えば、内視鏡画像の場合には、患部の範囲等がある。

【0036】

学習・検証分離部２１ｃは、アノテーション情報が付与された画像を、深層学習の際に使用画像と、推論モデルの信頼性の検証の際に使用する画像に分ける。すなわち、アノテーション情報が付与された画像は、教師用データとして使用することができる。この教師用データは、推論モデルを生成する際の深層学習に使用でき、また推論モデルの信頼性の検証に使用できる。推論モデル生成用に使用した教師用データは、信頼性の検証に使用できないことから、学習・検証分離部２１ｃは、アノテーション情報が付与された画像を、深層学習の際に使用するか、信頼性の検証の際に使用するかを決める（例えば、図５のＳ１７参照）。

【0037】

仮学習部２１ｄは、外部装置２０の操作者によって、対象物記録ＤＢ２２ａに記録されている画像の内の一部の画像について、特定部分の指定を行うアノテーション作業が終了すると、完了したアノテーション付き画像（教師用データ）を用いて、深層学習を行う（例えば、図５のＳ１９参照）。この深層学習は、特定部分を抽出（認識）するための学習である。この学習によって特定部分を抽出するための推論モデルを生成する。生成された推論モデルは、情報記録部２２に仮学習結果記録２２ｂとして記録される。

【0038】

情報記録部２２は、電気的に書き換え可能な不揮発性メモリであり、種々のデータ・画像等を記憶する。情報記録部２２には、対象物記録ＤＢ（データベース）２２ａと、仮学習結果記録２２ｂが記録される。対象物記録ＤＢ２２ａは、情報取得部２によって取得され、通信部６を通じて外部装置２０に送信されてきた画像データである。なお、この対象物記録ＤＢ２２ａは、多数の情報取得装置１０から画像データによって構成され、また他のサーバ等に記録されている画像データを含むようにしてもよい。仮学習結果記録２２ｂは、前述したように、仮学習部２１ｄによって、生成された推論モデルである。

【0039】

再生部２３は、液晶ディスプレイ（ＬＣＤ）や有機ＥＬ等のディスプレイを有し、外部装置２０に外付けされていてもよい。この再生部２３には、情報記録部２２に記録された対象物記録ＤＢに基づく画像が順次表示される。ここで表示された画像は、後述するように操作者によってアノテーション情報が付与されるアノテーション作業がなされる（図３、図４、図５のＳ１５，Ｓ２１等参照）。また、指定操作部２４によって指定された領域が表示される。

【0040】

再生部２３は、アノテーションの対象となる対象物を含み得る複数の画像を、個々に順次再生する再生部として機能する（例えば、図３、図４等参照）。また、再生部２３は、分類部による汎用分類に従って、複数の画像を、個々に順次再生する再生部として機能する（例えば、図９のＳ１４参照）。

【0041】

指定操作部２４は、マウスやタッチパネル等による操作を行うインターフェースであり、外部装置２０に外付けされていてもよい。指定操作部２４は、再生部２３に表示された画像に対して、操作者が特定部分を指定する。特定部分としては、例えば、前述したように、患部のある範囲等がある。この指定操作部２４による特定部分の指定については、図３および図４を用いて後述する。また、指定操作部２４によって、ユーザ（作業者）が手動でアノテーションを行う作業時間、またはデータ量（画像数で代用してもよい）等を設定することができる（例えば、図５のＳ１１参照）。この作業時間やデータ量の設定は、作業開始時に設定するが、作業開始時に限らず、作業中に設定してもよく、また設定した作業時間やデータ量等を作業中に修正してもよい。

【0042】

指定操作部２４は、再生部で再生された画像内の対象物の特定部分を手動操作により指定する指定部として機能する（例えば、図３、図４、図５のＳ１５、Ｓ２１、図９のＳ１４、Ｓ２２ａ等参照）。また、指定操作部２４は、手動操作により特定部分を指定する作業時間またはデータ量を設定するための設定部として機能する（例えば、図５のＳ１１、図６（ａ）、図７のＳ１２、図８（ａ）参照）。また、学習部によって推論モデル作成を行う際に、並行して、指定部は複数の画像の内で、特定部分を指定していない残りの画像に対して、手動操作により対象物の特定部分を指定する（例えば、図５のＳ１９、Ｓ２１、図７のＳ２０、Ｓ２２、図９のＳ２０ａ、Ｓ２２ａ参照）。設定部において設定された作業時間またはデータ量に従って、特定部分を手動操作によって指定する時間と、推論モデルを作成する時間の配分を行う（例えば、図５のＳ１５、Ｓ２１、およびＳ２７のＴ０、図７のＳ１６およびＳ２２のＴ０／２参照）。

【0043】

汎用分類部２５は、対象物記録部ＤＢ２２ａの内の画像を、画像の明るさ、色調・色彩、ピント状態等の画像パターンに基づいて、分類する。外部装置２０の操作者が、対象物記録部ＤＢ２２ａの全ての画像に対して、アノテーション作業（特定部分の指定を行う作業）を行うのは、膨大な時間がかかってしまう。そこで、その一部を仮学習部２１ｄによって生成された推論モデルを利用すれば、時間を短縮することができる。この場合、操作者がアノテーション作業を施す画像として、深層学習で推論モデルを生成する際の苦手画像を選択すれば、推論モデルの信頼性を向上させることができる。また、アノテーション作業を行う画像を多様化することによって、推論モデルの信頼性を向上させることができる。

【0044】

なお、教師用データは公開されているデータがある。例えば、特定の画像を扱う団体が研究用に配布しているデータや、評価者によって販売されているデータや、画像検索によって簡単に画像をサービスによって入手できるデータ等がある。これらのデータは、何枚セットとかの集合として使えるので、これを使ってアノテーションしてもよい。この場合、何枚セットとか仕様がわかっているので、「何時間作業する」という指定を行う代わりに、これをアノテーション時にスペック情報として入力してもよい。もちろん、このデータ量を手動入力し、作業量を見積もっても同様の効果を奏する。画像の中の特定部分を手動操作によって指定する時間と、学習によって推論モデルを作成する時間の配分を、一枚の画像のアノテーションにかかる時間から決定してもよい。

【0045】

汎用分類部２５は、画像を明るさ、色彩・色調、画像のコントラスト等、パターン分類を行う。例えば、明るい暗い、ボケてる、ボケてない、赤っぽい、青っぽいに基づいて、分類してもよい。手動アノテーションを担当した者によって分類してもよい。さらに、この分類の際に、画像の特徴でクラス分類して選んだ各クラスで１０個×クラス数１０のように、所定数の画像を選択してもよい。また、アノテーション作業の順位付けを行い、優先順位の高い画像から、アノテーション作業を行うようにすればよい（例えば、図９のＳ３、Ｓ５参照）。

【0046】

汎用分類部２５は、汎用的な画像クラス分類に従って記複数の画像を分類し、分類に応じて、特定部分を手動操作によって指定する画像を選択する分類部として機能する（例えば、図９のＳ３、Ｓ１４等参照）。また、分類部は、特定部分を手動操作によって指定する際に、画像の優先順位を指定する（例えば、図９のＳ３、Ｓ１４等参照）。また、汎用分類部２５は、ノテーションの対象となり得る対象物を含みうる複数の画像を、汎用分類に沿って分類する分類部として機能する（例えば、図９のＳ３、Ｓ１４等参照）。

【0047】

学習部２６は、ハードウエアで構成された推論エンジンを有してもよく、また、ＣＰＵ等のプロセッサによってソフトウエアによって推論処理を実現してもよい。学習部２６は、アノテーション情報化部２７によって作成されたアノテーション付きの画像データ、すなわち教師データを用いて、深層学習を行い、推論モデルを作成する。作成された推論モデルは、通信部３０を通じて、情報取得装置１０内の推論部１ｃに送信される。

【0048】

学習部２６は、所謂人工知能（ＡＩ）を用いて深層学習（機械学習）を行う。具体的には、学習部２６は、アノテーション情報化部２７によって作成されたアノテーション付き画像（教師用データ）を母集合とすると共に教師データとして用いて、深層学習を行う。すなわち、ニューラル・ネットワークの入力層にアノテーション付き画像の画像データを入力し、出力結果が教師用データのアノテーション情報となるように、中間層の重み付けを決定する。この中間層の重み付け（結合の強さ）が推論モデルとして出力される。深層学習については、図２を用いて後述する。

【0049】

なお、本実施形態においては、学習部２６と仮学習部２１ｄは、分離して配置している。しかし、両者とも深層学習を行うことから、学習部２６が仮学習部２１ｄを兼用してもよく、逆に仮学習部２１ｄが学習部２６を兼用してもよい。また、制御部２１内に仮学習部２１ｄを配置したが、これに限らず、仮学習部２１ｄを制御部２１の外部に配置するようにしてもよい。さらに、学習部２６を制御部２１内に配置するようにしてもよい。

【0050】

学習部２６（または仮学習部２１ｄ）は、設定部により設定された作業時間またはデータ量（または画像数）に基づいた時間またはデータ量（または画像数）について、指定部によって特定部分を指定が終了し、複数の画像のうち上記特定部分を手動操作により指定するために別画像に変更する際に、対象物と特定部分の関係を教師データとして用いて学習することによって、推論モデルを作成する学習部として機能する（例えば、図５のＳ１９、図７のＳ２０、図９のＳ２０ａ参照）。また、学習部によって推論モデルが作成された後に、複数の画像の中で残っている画像に対して、推論モデルによる推論を利用して、特定部分を指定する（例えば、図５、図７および図９のＳ２５参照）。

【0051】

また、学習部２６は、複数の画像のうち特定部分を手動操作により指定するために別画像に変更する際に、学習用の画像セットと、正解用の画像セットに分離し、学習用画像セットの対象物と特定部分の関係を教師データとして用いて学習して推論モデルを作成し、正解用の画像セットで推論モデルを検証する学習部として機能する（例えば、図５のＳ１７、Ｓ１９、Ｓ２３参照）。

【0052】

通信部３０は、無線通信および／または有線通信を行うための通信回路を有する。この通信部３０は、情報取得装置１０内の通信部６と送受信を行う。通信部３０を介して、情報取得装置１０から画像データを受信し、また、外部装置２０は推論モデルを情報取得装置１０に送信する。

【0053】

次に、深層学習について、説明する。「深層学習（ディープ・ラーニング）」は、ニューラル・ネットワークを用いた「機械学習」の過程を多層構造化したものである。情報を前から後ろに送って判定を行う「順伝搬型ニューラル・ネットワーク」が代表的なものである。順伝搬型ニューラル・ネットワークは、最も単純なものでは、Ｎ１個のニューロンで構成される入力層、パラメータで与えられるＮ２個のニューロンで構成される中間層、判別するクラスの数に対応するＮ３個のニューロンで構成される出力層の３層があればよい。入力層と中間層、中間層と出力層の各ニューロンはそれぞれが結合加重で結ばれ、中間層と出力層はバイアス値が加えられることによって、論理ゲートを容易に形成できる。

【0054】

ニューラル・ネットワークは、簡単な判別を行うのであれば３層でもよいが、中間層を多数にすることにより、機械学習の過程において複数の特徴量の組み合わせ方を学習することも可能となる。近年では、９層～１５２層のものが、学習にかかる時間や判定精度、消費エネルギーの観点から実用的になっている。また、画像の特徴量を圧縮する、「畳み込み」と呼ばれる処理を行い、最小限の処理で動作し、パターン認識に強い「畳み込み型ニューラル・ネットワーク」を利用してもよい。また、より複雑な情報を扱え、順番や順序によって意味合いが変わる情報分析に対応して、情報を双方向に流れる「再帰型ニューラル・ネットワーク」（全結合リカレントニューラルネット）を利用してもよい。

【0055】

これらの技術を実現するために、ＣＰＵやＦＰＧＡ（Field Programmable Gate Array）等の従来からある汎用的な演算処理回路を使用してもよい。しかし、これに限らず、ニューラル・ネットワークの処理の多くが行列の掛け算であることから、行列計算に特化したＧＰＵ（Graphic Processing Unit）やTensor Processing Unit（TPU）と呼ばれるプロセッサを利用してもよい。近年ではこのような人工知能（ＡＩ）専用ハードの「ニューラル・ネットワーク・プロセッシング・ユニット（ＮＰＵ）」がＣＰＵ等その他の回路とともに集積して組み込み可能に設計され、処理回路の一部になっている場合もある。

【0056】

その他、機械学習の方法としては、例えば、サポートベクトルマシン、サポートベクトル回帰という手法もある。ここでの学習は、識別器の重み、フィルター係数、オフセットを算出するものあり、これ以外にも、ロジスティック回帰処理を利用する手法もある。機械に何かを判定させる場合、人間が機械に判定の仕方を教える必要がある。本実施形態においては、画像の判定を、機械学習により導出する手法を採用したが、そのほか、人間が経験則・ヒューリスティクスによって獲得したルールを適応するルールベースの手法を用いてもよい。

【0057】

次に、図２を用いて、外部装置２０内の学習部２６における深層学習を行うための教師用データと、学習部２６が行う深層学習について説明する。

【0058】

図２（ａ）は、学習部２６が行う教師用データを示す。Ａ画像４１は、情報取得部２によって取得された画像である。Ｂ答え４２は、アノテーション化部２７によって生成されたアノテーション情報である。学習用画像群４３ａは、アノテーション情報が付与された画像群（教師用データ）である。この画像群（教師用データ）を用いて、学習部２６内のニューラル・ネットワーク（ネットワークのデザイン）４４における深層学習を行う。検証用画像群４３ｂは、学習用画像群４３ａと同じくアノテーション情報が付与された画像で群であるが、深層学習には使用せず、深層学習によって生成された推論モデルの信頼性の検証に使用される。

【0059】

図２（ｂ）は、学習部２６が行う深層学習と、推論部１ｃが行う推論を説明する図である。画像群４３の内の画像をニューラル・ネットワーク４４の入力層に入力し、画像群４３の内の答え（アノテーション情報）を出力層に与える。そして、各入力に対して、各出力が一致するように、中間層（ニューラル・ネットワーク４４）の各層におけるニューロンの結合の強さや重み付け決めていく。中間層の結合の強さや重み付けが推論モデルとなる。学習部２６によって生成された推論モデル（中間層の結合の強さや重み付け）は、推論部１ｃに格納され、推論の際に使用される。

【0060】

図２に示す深層学習は、外部装置２０内の学習部２６において行われるが、これ以外にも制御部２１内の仮学習部２１ｄにおいても、深層学習が行われる。仮学習部２１ｄにおいて行う深層学習は、対象物の特定部分を抽出し、指示するための推論モデルを生成する（例えば、図５のＳ１９参照）。

【0061】

次に、図３を用いて、外部装置２０の操作者が行うアノテーション作業の例について説明する。図３（ａ）は、再生部２３の表示画面２３ａに、対象物記録ＤＢ２２ａから読み出した画像が表示されている様子を示す。操作者は、表示画面２３ａに表示された対象物５１の範囲を、特定部分として、カーソル５５によって指示するための作業を行う。まず、表示画面２３ａの右側に表示された指示用形状５３ａ～５３ｃの中から、操作者は対象物５１の特定部分に適した形状を選択する。図３に示す例では、特定部分は、四角形状であることから、操作者は四角形の指示用形状５３ｂを選択する。この選択は、指定操作部２４によって行う。

【0062】

図３（ａ）において、操作者は指示用形状５３ｂを選択すると、指定操作部２４を操作して、図３（ｂ）に示すように、指示用形状５４を対象物５１の位置まで移動させる。そして、図３（ｃ）に示すように、指示用形状５４ｂの角部分を下側に延ばすことにより、指示用形状５４ｂが対象物５１の全体を覆うように広げる。この状態で、操作者は表示画面２３ａの右下に表示されている「済み」アイコン５７を選択する。この選択によって、図３（ｄ）に示すように、対象物５１の範囲を特定範囲として決定することができる。

【0063】

図４を用いて、外部装置２０の操作者が行うアノテーション作業の他の例について説明する。図３に示したアノテーション作業例は、指示用形状５３ａ～５３ｃの形状自体は変えず、その大きさを変更するだけであった。図４に示すアノテーション作業例は、指示用形状５３ａ～５３ｃの形状自体を変形することができる。

【0064】

図４（ａ）においても、再生部２３の表示画面２３ａに、対象物記録ＤＢ２２ａから読み出した画像が表示されている。操作者は、表示画面２３ａに表示された対象物５２の範囲を、特定部分として指示するために、まず、表示画面２３ａの右側に表示された指示用形状５３ａ～５３ｃの中から、対象物５２の特定部分に適した形状を選択する。図４に示す例では、特定部分は、豆状であることから、操作者は円形の指示用形状５３ａを、指定操作部２４によって選択する。

【0065】

図４（ａ）において、操作者は指示用形状５３ａを選択すると、指定操作部２４を操作して、図４（ｂ）に示すように、指示用形状５４ａを対象物５２の位置まで移動させる。図４（ｂ）に示す状態では、指示用形状５４ａと対象物５２の間には隙間があることから、指示用形状５４ａの形状を対象物５３の形状に近くなるように、指示用形状５４ａを変形させる。

【0066】

まず、円形の指示用形状５４ａの直径をカーソル５５によって調整する。続いて、凹み型の修正用のアイコン５３ｅを選択し、図４（ｃ）に示すように、円形の指示用形状５４ａの外側から押し込むように操作する。また、図４（ｄ）に示すように、円形の指示用形状５４ａの内側から引き込むように操作する。なお、アイコン５３ｄは、直線状の修正用アイコンである。修正用アイコン５３ｄ、５３ｅを操作することによって、図４（ｅ）に示すように、対象物５２の範囲を特定範囲として決定することができる。この状態で、操作者は表示画面２３ａの右下に表示されている「済み」アイコン５７を選択する。この選択によって、図４（ｅ）に示すように、対象物５２の範囲を特定範囲として決定することができる。ここでのアノテーション作業は、ＰＣとマウスを使用する例について説明した。しかし、もっと単純にタッチパネルを有するデバイスにおいて、作業者が指やタッチペン等によって、領域指定するような応用も可能である。

【0067】

このように、アノテーション時には、様々なステップからなる操作を行う必要があり、このステップのいくつかをＡＩで代用することによって作業性を向上させることができる。例えば、最初に囲み図形を作成する候補の選択や、囲み図形の大きさの選択や、囲み図形を重ね合わせる等のステップをＡＩによって自動化させてもよい。これらのステップのいくつかが自動化されるだけで作業性が増し、また作業時間が短縮でき、さらに作業者のストレスが軽減する。図４（ｃ）、（ｄ）に示すアイコン５３ｄ、５３ｅ等のアイコンも初めから自動選択されていると同様の効果を奏する。

【0068】

カメラや携帯機器等の情報端末に搭載するタイプの推論エンジンは、層の数が少なく消費電力が少ないながら高性能が求められるコンパクトタイプであり、ＰＣ等に搭載され、病変を探すノーマルタイプの推論エンジンとは異なる。製品に搭載するコンパクトタイプの推論エンジンは、少ない層で高精度判断するための学習は困難であり、また時間がかかるため、正確なアノテーションも重要である。したがって、コンパクトタイプ推論エンジン用の正確な作業を行うには、作業者に通常以上のストレスがかかる。

【0069】

次に、図５に示すフローチャートを用いて、アノテーションの動作について説明する。このアノテーションは、まず、外部装置２０の操作者が再生部２３に表示された画像の中から対象物４１、４２の特定部分を選択し、この特定部分をアノテーション情報として、画像データに関連付ける。手動アノテーションを所定時間の間行うと、または所定枚数の画像を手動アノテーションによって処理すると、アノテーション用の推論モデルを生成するための深層学習を行い、また並行して手動アノテーションを実行する。推論モデルが生成されると、以後、推論モデルによる推論によってアノテーションを付与する。図５に示すフローにおいて、一部のステップ（Ｓ１５、Ｓ２１）は、操作者が行うが、他のステップは外部装置２０の制御部２１内のＣＰＵがメモリに記憶されたプログラムに従って外部装置２０内の各部を制御することにより実現する。

【0070】

図５に示すアノテーションの動作が開始すると、まず、作業時間Ｔを設定する（Ｓ１１）。このステップでは、外部装置２０の操作者が、指定操作部２４を操作することによって、図６（ａ）に示すように、作業時間を入力する。なお、作業時間に代えて、作業枚数を入力するようにしてもよい。作業者が、例えば、医師等の専門家の場合、多忙であり、教師用データ作成のためのアノテーション作業に費やすことのできる時間に限りがある。そこで、ステップＳ１１では作業時間（または作業枚数）を予め設定できるようにしている。

【0071】

作業時間Ｔを設定すると、次に、作業時間Ｔを３分割した時間Ｔ０を設定する（Ｓ１３）。アノテーション動作では、後述するように、手動アノテーション（Ｓ１５参照）、手動アノテーションと深層学習の並行実施（Ｓ１９、Ｓ２１参照）、および推論によるアノテーション（Ｓ２５参照）の３つの段階がある。このステップでは、それぞれの時間を設定する。なお、本実施形態においては、Ｔ０は作業時間Ｔを３等分した時間としているが、それぞれの時間は、３等分せずに、異ならせてもよい。また、ステップＳ１９とＳ２１における時間も、同一の時間でなくてもよい。

【0072】

次に、時間Ｔ０で手動アノテーションを行う（Ｓ１５）。ここでは、外部装置２０の操作者が、図３および図４を用いて説明したように、再生部２３に表示された画像を目視しながら、指定操作部２４を操作して、対象物の特定部分を指定する。この処理によって、画像にアノテーション情報が付与される。

【0073】

手動アノテーションが開始されてから時間Ｔ０が経過すると、教師用画像群と検証用画像群に分離する（Ｓ１７）。図２を用いて説明したように、アノテーション情報が付与された画像の内、一部を学習用画像群とし、残りを検証用画像群に分ける。

【0074】

教師用画像群と検証用画像群に分離すると、手動アノテーションの結果を用いて学習する（Ｓ１９）。ここでは、ステップＳ１５において手動アノテーションによってアノテーション情報が付与され、ステップＳ１７において教師用画像群（教師用データ）として分離された画像群を用いて、深層学習を行う。この深層学習は、画像の中から対象物の特定部分を指定（抽出）する推論を行うための推論モデルを生成する。学習中は、図６に示すように、学習実行中マーク５８が表示される。

【0075】

ステップＳ１９における学習と並行して、時間Ｔ０で手動アノテーションを行う（Ｓ２１）。ここでは、ステップＳ１５と同様に、外部装置２０の操作者が、図３および図４を用いて説明したように、再生部２３に表示された画像を目視しながら、指定操作部２４を操作して、対象物の特定部分を指定する。なお、作業中は、図６（ｂ）に示すように、作業経過時間表示部５９に、経過時間が表示される。操作者は、作業経過時間表示部５９の棒グラフの長さによって、経過時間を知ることができる。この作業経過時間表示部５９の棒グラフの長さは最長で、作業時間Ｔ０に対応するようにすると、作業時間Ｔ０と経過時間の関係が分かりやすい。

【0076】

ステップＳ１９における学習が終了し、また時間Ｔ０の手動アノテーションが終了すると、検証結果を点数表示する（Ｓ２３）。ステップＳ１９において、教師用画像群を用いて推論モデルを生成している。このステップでは、生成された推論モデルに、ステップＳ１７において分離した検証用画像群を教師用データとして入力し、その信頼性を算出する。算出された信頼性、例えば、８０％（８０点）等を図６（ｃ）の表示画面２３ａの左下等に表示するようにしてもよい。

【0077】

検証結果を表示すると、次に、手動アノテーションの未実施画像に対し、学習式アノテーションを行う（Ｓ２５）。ステップＳ１５およびＳ２１において、手動アノテーションによって、画像に対してアノテーション情報を付与している。このステップでは、Ｓ１５およびＳ２１においてアノテーション情報が付与されなかった残りの画像に対して、ステップＳ１９において生成された推論モデルを用いて、学習部２６または仮学習部２１ｄにおける推論によって、アノテーション情報を付与する。学習式アノテーションは、推論モデルを用いて行うので、処理時間は極めて短時間（一瞬）である。

【0078】

ステップＳ２５において、学習式アノテーションを行うと、アノテーション手直し入力を行う（Ｓ２７）。ここでは、ステップＳ２５において行われた、推論結果に基づくアノテーション情報（すなわち、対象物の特定部分）を、図６（ｃ）に示すように表示する。操作者は、この表示を見て、適切にアノテーション情報が付与されたか否かを判断する。適切にアノテーション情報が付与されていない場合には、指定操作部２４を操作し、指示用形状５３ａ～５３ｃ、カーソル５５等によって、アノテーション情報の修正を行う。修正の仕方は、図３および図４と同様である。このアノテーション手直しの時間はＴ０であり、ステップＳ１５、Ｓ２１およびステップＳ２７における作業時間を合計すると、ステップＳ１１において設定した作業時間Ｔとなる。

【0079】

ステップＳ２７において、アノテーション手直し入力を行うと、次に、アノテーション済み画像を教師データ化する（Ｓ２９）。ここでは、ステップＳ１５、Ｓ２１において手動アノテーションでアノテーションが付与され、またステップＳ２５、Ｓ２７において、学習式アノテーションによってアノテーションが付与された画像群を教師データとする。この教師データを用いて、学習部２６は深層学習を行い、推論モデルを生成することができる。

【0080】

このように、アノテーションのフローにおいては、操作者が予め作業時間Ｔを設定しておくと（Ｓ１１参照）、この時間に基づいて、手動アノテーションの時間Ｔ０（ステップＳ１５、Ｓ２１参照）、および学習式アノテーションの結果を修正する時間Ｔ０が決まり、この時間に沿ってアノテーションの時間配分がなされる。このため、医師等の専門家に負担をかけることなくアノテーション作業を行うことができる。

【0081】

また、手動アノテーションによってアノテーション情報が付与された画像群を用いて、アノテーション情報を付与するための深層学習を行い、推論モデルを生成している（Ｓ１９参照）。この生成された推論モデルを用いて、手動アノテーションがなされていない画像群に対してアノテーションを付与する推論を実施している（Ｓ２５参照）。推論を行うことによって、短時間に大量にアノテーション情報を付与することが可能となる。また、推論モデル生成のための学習を行っている間も、手動操作によってアノテーションを付与するようにしている（Ｓ２１参照）。このように、２つの処理を並行して行うことができることから、効率的にアノテーションが実施される。

【0082】

また、手動アノテーションによって作成された画像群から、教師用画像群と検証用画像群を分離し（Ｓ１７参照）、教師用画像群を用いてアノテーション用の推論モデルを生成し（Ｓ１９参照）、検証用画像を用いて生成された推論モデルの信頼性を検証している。このため、手動でアノテーション情報が付与された画像群を有効に活用することができる。

【0083】

次に、図５に示したアノテーション動作の第１の変形例を、図７に示すフローチャートを用いて説明する。図５に示した例では、ステップＳ１５およびＳ２１において行う手動アノテーションの作業時間と、アノテーションの手直しの時間を合計した作業時間Ｔを予め設定していた。本変形例では、手動アノテーションにかかる作業時間を考慮し、学習式アノテーションによるアノテーションの補助を開始する時間Ｔ０を予め設定するようにしている。

【0084】

図７に示すフローチャートは、図５のフローチャートと比較し、ステップＳ１１～Ｓ１５をステップＳ１２、Ｓ１６に置き換え、ステップＳ１９、Ｓ２１、Ｓ２５、Ｓ２７をステップＳ２０、Ｓ２２、Ｓ２８に置き換える以外は、同じである。そこで、相違点を中心に説明する。

【0085】

図７に示すアノテーションのフローが開始すると、まず、補助希望開始時間Ｔ０を設定する（Ｓ１２）。ここでの「補助」は、ステップＳ２５における学習式アノテーションを開始する時間である。補助希望開始時間Ｔ０までは、手動アノテーションを行い（Ｓ１６、Ｓ２２）、補助希望開始時間Ｔ０になると、学習式アノテーションによるアノテーションを行う（Ｓ２５）。ここでは、外部装置２０の操作者が、指定操作部２４を操作することによって、図８（ａ）に示すように、補助希望開始時間を入力する。なお、時間に代えて、作業枚数を入力するようにしてもよい。

【0086】

補助希望開始時間Ｔ０を設定すると、次に、手動アノテーションを行う（Ｓ１６）。ここでは、外部装置２０の操作者が、図３および図４を用いて説明したように、再生部２３に表示された画像を目視しながら、指定操作部２４を操作して、対象物の特定部分を指定する。この処理によって、画像にアノテーション情報が付与される。この手動アノテーションは、時間Ｔ０／２の間、行う。

【0087】

ステップＳ１６において手動アノテーションを開始して、時間Ｔ０／２が経過すると、教師用画像群と検証用画像群に分離する（Ｓ１７）。教師用画像群と検証用画像群に分離すると、手動アノテーションの結果を用いて学習する（Ｓ２０）。ここでは、ステップＳ１７において教師用画像群（教師用データ）として分離された画像群を用いて、深層学習を行う。学習中は、図８に示すように、学習実行中マーク５８が表示される。なお、図７のフローにおいては、手動アノテーション学習の時間は、Ｔ０／２で行うようにしてもよい。

【0088】

ステップＳ２０における学習と並行して、時間Ｔ０／２で手動アノテーションを行う（Ｓ２２）。ここでは、ステップＳ１６と同様に、外部装置２０の操作者が、図３および図４を用いて説明したように、再生部２３に表示された画像を目視しながら、指定操作部２４を操作して、対象物の特定部分を指定する。なお、作業中は、図８（ｂ）に示すように、作業経過時間表示部５９に、経過時間が表示される。操作者は、作業経過時間表示部５９の棒グラフの長さによって、経過時間を知ることができる。この作業経過時間表示部５９の棒グラフの長さは最長で、作業時間Ｔ０に対応するようにすると、作業時間Ｔ０と経過時間の関係が分かりやすい。また、棒グラフが右端に達すると、ステップＳ２５における学習式アノテーション、すなわち、補助付きのアノテーションになる。

【0089】

ステップＳ２０において学習が終了すると、アノテーション情報付与用の推論モデルが生成される。この推論モデルに、ステップＳ１７において分離した検証用画像群を用いて、生成された推論モデルの信頼性を検証してもよい。ステップＳ２２において、手動アノテーションを行っている際に、信頼性の検証がなされ、その信頼性が所定値以上であれば、手動アノテーションを終了してもよい。

【0090】

ステップＳ２０において学習が終わると、またはステップＳ２２において時間Ｔ０／２の手動アノテーションが終わると、手動アノテーション未実施画像に対して学習式アノテーションを行う（Ｓ２５）。

【0091】

学習式アノテーションを行うと、次に、アノテーション手直し入力を行う（Ｓ２８）。ここでは、ステップＳ２５において行われた、推論結果に基づくアノテーション情報（すなわち、対象物の特定部分）を、図８（ｂ）に示すように表示する。操作者は、この表示を見て、適切にアノテーション情報が付与されたか否かを判断する。図５のステップＳ２７と同様、適切にアノテーション情報が付与されていない場合には、指定操作部２４を操作し、指示用形状５３ａ～５３ｃ、カーソル５５等によって、アノテーション情報の修正を行う。修正の仕方は、図３および図４と同様である。

【0092】

ステップＳ２７において、アノテーション手直し入力を行うと、次に、アノテーション済み画像を教師データ化する（Ｓ２９）。ここでは、ステップＳ１５、Ｓ２１において手動アノテーションでアノテーションが付与され、またステップＳ２５、Ｓ２８において、学習式アノテーションによってアノテーションが付与された画像群を教師データとする。この教師データを用いて、学習部２６は深層学習を行い、推論モデルを生成することができる。

【0093】

このように、図７に示すアノテーションのフローにおいては、操作者が予め補助希望開始時間Ｔ０を設定しておくと（Ｓ１２参照）、アノテーション作業を開始してから、補助希望時間Ｔ０が経過すると、学習式アノテーションによって、アノテーションがなされる（Ｓ２５参照）。この間だけ、外部装置２０の操作者は、手動アノテーションを行えばよい。学習式アノテーションによってアノテーション情報が付与された画像は、必要に応じて、アノテーションの手直しを行えばよい。このため、医師等の専門家に負担をかけることなくアノテーション作業を行うことができる。

【0094】

なお、本変形例においては、ステップＳ１６とＳ２２における手動アノテーションでは、それぞれＴ０／２の時間で処理するとしているが、各時間はＴ０を２等分した時間でなくてもよい。適宜、不均等に分割してもよい。

【0095】

次に、図５に示したアノテーション動作の第２の変形例を、図９に示すフローチャートを用いて説明する。本変形例では、手動アノテーションを行うに先立って、画像を分類し、アノテーションを行う際の順位付けを行う。この分類付けに従って、手動アノテーションの際の順位付けする。画像分類と順位付けによって、アノテーション用の推論モデルの信頼性を高くすることができる。

【0096】

図９に示すフローチャートは、図５のフローチャートと比較し、ステップＳ１～Ｓ３を追加し、ステップＳ１１～Ｓ２３をステップＳ１４～Ｓ２４に置き換える以外は、同じである。そこで、相違点を中心に説明する。

【0097】

図９に示すアノテーションのフローが開始すると、まず、類似の学習があるか否かを判定する（Ｓ１）。アノテーションを付与するにあたって、既に、類似のアノテーションを付与したことがあるかを判定する。他の医師等の専門家によって、類似の画像群についてアノテーションが付与されている場合があれば、別の部位であっても、その際に行った学習式アノテーションが利用できる。このステップでは、利用できる学習があるか判定する。

【0098】

ステップＳ１における判定の結果、類似の学習がない場合には、次に、画像を分類し、アノテーションの順位をつける（Ｓ３）。画像を分類し、それぞれの分類について、所定数ずつ表示できるように分類を付ける。すなわち、手動アノテーションを行う際に、画像の特徴に偏りがあると、特定の部分についてのみ推論モデルの信頼性が高く、他の部分については推論モデルの信頼性が低くなってしまう。そこで、画像を分類し、各分類ごとに、画像を選択することにより、万遍なく多様性に富んだ画像について、手動アノテーションができるようにしている。画像分類は、画像の明るさ、色調・色彩、ピント状態等の画像パターンに基づいて行う。また、アノテーションの順位付けを行う。順位付けは、各分類における代表的なパターンや、学習式アノテーションの苦手とする画像が、優先順位が高くなるようにしてもよい。

【0099】

ステップＳ３において、画像を分類し、アノテーションの順位付けを行うと、次に、高優先度画像を手動アノテーションする（Ｓ１４）。ステップＳ３において、アノテーションを行う際の順位付けがなされているので、図１０（ｂ）に示すように、優先順位の高い画像から順次、再生部２３に表示する。外部装置２０の操作者が再生部２３に表示された画像を目視しながら、図３および図４を用いて説明したように、指定操作部２４を操作して、対象物の特定部分を指定する。この処理によって、画像にアノテーション情報が付与される。この手動アノテーションは、時間Ｔｓの間、行う。

【0100】

ステップＳ１６において手動アノテーションを開始して、時間Ｔｓが経過すると、教師用画像群と検証用画像群に分離する（Ｓ１７）。ステップＳ１４において優先度の高い画像について手動アノテーションを行って、取得したアノテーション情報付きの画像を、教師用画像群と検証用画像群に分離する。

【0101】

教師用画像群と検証用画像群に分離すると、手動アノテーションの結果を用いて学習する（Ｓ２０ａ）。ここでは、ステップＳ１４において優先度の高い画像についてアノテーション情報が付与された教師用画像群（教師用データ）を用いて、深層学習を行う。なお、図９のフローにおいては、手動アノテーション学習の時間は、Ｔｓで行うようにしてもよい。

【0102】

ステップＳ２０ａにおける学習と並行して、時間Ｔｓで手動アノテーションを行う（Ｓ２２ａ）。ここでは、優先度が高い画像としてステップＳ１４において手動アノテーションがなされた画像以外の画像に対して、外部装置２０の操作者が、図３および図４を用いて説明したように、再生部２３に表示された画像を目視しながら、指定操作部２４を操作して、対象物の特定部分を指定する。

【0103】

ステップＳ２０ａにおいて学習すると、またはステップＳ２２ａにおいて手動アノテーションを行うと、次に、仮学習済みか否かを判定する（Ｓ２４）。このステップでは、ステップＳ２０ａにおける学習が終了したか否かを判定する。この判定は、ステップＳ１７において分離した教師用画像群の全てについて、学習が終了したかを判定する。しかし、全ての教師用画像群について学習が終了しなくても、一定数の画像群について学習が終了した場合に、学習が終了したと判定してもよく、また、検証用画像群を用いて、所定のレベル以上の信頼性があることを検証できれば、学習を終了するようにしてもよい。この判定の結果、仮学習が終了していない場合には、ステップＳ２０ａ、Ｓ２２ａに戻る。

【0104】

一方、ステップＳ２４における判定の結果、仮学習が終了した場合には、またはステップＳ１における判定の結果類似学習が有る場合には、手動アノテーション未実施画像に対し、学習式アノテーションを行う（Ｓ２５）。ここでは、ステップＳ２０ａにおいて生成したアノテーション用の推論モデル、またはステップＳ１における検索の結果、類似学習があった場合にはこの類似学習によって生成したアノテーション用の推論モデルを用いて、学習式アノテーションを行う。続いて、ノテーションの手直し入力を行い（Ｓ２８）、アノテーション済み画像を教師データ化する（Ｓ２９）。教師データを生成すると、このアノテーションのフローを終了する。

【0105】

このように、図９に示すアノテーションのフローにおいては、手動アノテーションを行うに先立って、画像を分類している（Ｓ３参照）。この分類に基づいて、各分類ごとに画像を選択することにより、万遍なく多様性に富んだ画像について、手動アノテーションを行っている。このため、アノテーション用の推論モデルの信頼性を向上させることができる。また、手動アノテーションを行う画像について、優先順位を付けている（Ｓ３参照）。この優先順位に従って、手動アノテーションを行っている（Ｓ１４参照）。このため、手動アノテーションのための時間が少なくても、効率的かつ信頼性の高い手動アノテーションを行うことができる。

【0106】

以上説明したように、本発明の一実施形態や変形例においては、手動操作により、アノテーションの対象となる得る対象物の特定部分を指定する作業時間またはデータ量（または画像数で代用）を設定し（例えば、図５のＳ１１参照）、設定された作業時間またはデータ量（または画像数で代用）に応じて、対象物を含みうる複数の画像を、個々に順次に再生し、再生された画像内の上記対象物の特定部分を手動操作により指定する第１の手動アノテーションと（例えば、図５のＳ１５参照）、第１の手動アノテーションが終了した後、設定された作業時間またはデータ量（または画像数で代用）に応じて、複数の画像のうち特定部分を手動操作により指定する第２のアノテーションと（例えば、図５のＳ２１参照）、第２のアノテーションと並行して、第１のアノテーションにおいて取得した対象物と特定部分の関係を教師データとして用いて学習することによって、推論モデルを作成する（例えば、図５のＳ２５参照）。このため、医師等の専門家に負担をかけることなくアノテーション作業を行うことができる。

【0107】

また、本発明の一実施形態や変形例においては、アノテーションの対象となる対象物を含み得る複数の画像を、個々に順次再生し、再生された画像内の対象物の特定部分を手動操作により指定し（例えば、図５のＳ１５、Ｓ２１等参照）、複数の画像のうち特定部分を手動操作により指定するために別画像に変更する際に、学習用の画像セットと正解用の画像セットに分離し（例えば、図５のＳ１７参照）、学習用画像セットの対象物と特定部分の関係を教師データとして用いて学習して推論モデルを作成し（例えば、図５のＳ１９参照）、正解用の画像セットで推論モデルを検証する（例えば、図５のＳ２３参照）。手動アノテーションでアノテーション情報を付与した画像を、推論モデル作成用の画像群と、推論モデル検証用の画像群に分けていることから、推論モデルの作成と、その推論モデルの検証に有効に活用することができる。

【0108】

また、本発明の一実施形態や変形例においては、アノテーションの対象となり対象物を含み得る複数の画像を、汎用分類に沿って分類し（例えば、図９のＳ３参照）、汎用分類に従って分類された複数の画像を、個々に順次再生し、再生された画像内の対象物の特定部分を手動操作により指定する（例えば、図９のＳ１４参照）。アノテーションの対象となる画像を特定の偏りがなく選択できることから、作成された推論モデルの信頼性を向上させることができる。

【0109】

なお、本発明の一実施形態や変形例においては、対象物の特定部分として、患者の内視鏡画像に写っている患部を例として説明した。しかし、対象物およびその特定部分は、この例に限られない。

【0110】

また、本発明の一実施形態や変形例においては、手動アノテーションの結果を用いて学習を行うと共に、並行して手動アノテーションを行っていた（例えば、図５のＳ１９、Ｓ２１、図７のＳ２０、Ｓ２２、図９のＳ２０ａ、２２ａ参照）。この２つの処理の設定時間は同じにしていたが、同じでなくても構わない。また、図５に示した例のみ、検証結果を表示していたが（図５のＳ２３）、図７および図９に示す例においても、学習の終了後に、検証用画像群を用いて検証し、その検証結果を表示してもよい。

【0111】

カメラや携帯機器等の情報端末製品に搭載するコンパクトタイプの推論エンジンは、少ない層で高精度判断するための学習は困難であり、また時間がかかるため、正確なアノテーションや学習のさせ方に工夫することが望まれる。推論モデルを生成する時、学習に使用した画像によって推論モデルの仕様が変わるので、学習時の情報と連携して効率的な学習を行ってもよい。そこで、どのような学習をさせたかを示す情報をアノテーション作業時に設定し、この情報を情報取得装置１０の記録部４に推論情報４ａの一部として記録しておいてもよい。

【0112】

例えば、一般の撮影画像によって取得した水平・垂直が揃った画像だけを用いて学習して生成された推論モデルによって推論を行う場合、上下左右の差異がある画像に対しては、正しい推論が出来ない可能性がある。そこで、推論情報４ａから上述の情報を読み出し、撮像時に、姿勢センサ３からの水平または垂直の情報を加味して取得画像に対して、推論を行うことにより、正しい測定部位判定が可能となる。推論モデルを用いた推論を行う前に水平垂直の情報を入れて画像を判定させるような工夫は有効であり、この条件の情報や、画像を補正するためのセンサを有するようにすることが好ましい。学習時にこのような制約を入れるかどうかで、推論エンジンの仕様や性能が変わるので、アノテーション作業を進めながら、このような試行錯誤ができてもよいし、その試行錯誤を表示させてもよい。

【0113】

同様に、対象物に対して特定の距離から得た画像ばかりを用いて学習を行うと、特定の距離以外で撮影された画像については、正しい推論が出来ない。このような画像で生成された推論モデルを用いて推論する場合は、距離の差異を打ち消すように遠い画像は拡大して、擬似的に近い画像にして推論モデルを用いて推論する等の工夫によって精度を向上させることができる。この場合、距離センサなどを併用して、画像を推論する時に、画像の拡大縮小の実際と学習データの差異を補う補正を行う。どのような学習データを使って作られたモデルであるかを示す情報を記憶するためのメモリを備えておき、推論モデルを用いて推論するときには、上述の情報を利用して、推論モデルが正しい推論ができるように画像を補正するような工夫を行うとよい。このような補正が必要かどうかを、アノテーション作業時に気づくことがあり、本実施形態のようなアノテーション作業時に、仮の学習を検証可能にする工夫は有意義である。

【0114】

もちろん、撮影現場で起こる様々な撮影条件の差異に対応して、予め撮影現場での状況を加味、あるいは未知の状況までを対処できるように学習データも様々な状況を含むようなものを用意し、特定の報酬も与えて学習させる強化学習の手法で学習させてもよい。強化学習とは、試行錯誤を通じて「価値や効果を最大化するような行動」を学習するもので与えられた正解の出力をそのまま学習するのではなく、さらに良い回答が得られるよう学習させるものある。このような強化学習など教師なし学習を行うべきかどうかを判断することもアノテーション途中の仮学習反映表示にて早期の判断が可能となり、開発時の手間を減らすことが可能となる。

【0115】

本発明では、以上のように、アノテーション作業途中における仮学習（あらかじめ決められた仮のルールによる学習）の反映によって、推論エンジン生成時の効率を高める効果もあるが、特に、本実施形態において示すような現場で端末機器において、使用されるような携帯端末向きのコンパクトタイプの推論エンジンを作成する時には、レイヤーの数、消費電流など消費エネルギーを考慮して、非常に手間のかかる学習を行って対処する必要があるので、この学習時の報酬の与え方などもアノテーション作業時に考察することができ、早めの判断や対応ができる。仮学習の結果を確認しながら、仕様の見直しなどを前倒しで行うフィードバックが可能となり、優れた性能の推論エンジンを得るのに時間短縮を含め総合的に寄与することができる。

【0116】

また、図５等に示したフローチャートでは、作業量を作業時間で分割していたが、作業時間で分割する以外にデータ量で作業量を分割してもよい。データ量は画像数代用してもよい。最初に所定数の教師データを作成してから学習させるかを設定することによって、作業時間と同様に作業量の分割ができる。例えば１／３のデータを手動でアノテーションしてから、このアノテーションに基づく教師データを用いて学習する。そして、この学習結果（推論モデル）を用いた推論によって、残りの２／３のデータに対して機械化したアノテーションを行い、このアノテーションを人間がチェックする。良さそうなものや、十分なアノテーションがなされなかったが人間が手動で簡単に治せるものは、追加アノテーションし、再学習に使用してもよい。この作業を目標としている全データのアノテーションが完了するまで繰り返す。

【0117】

このように本発明は、少量のアノテーション済みデータで学習した結果を、未着手のデータに適応することで、自動的にアノテーションができ、作業者の負荷やストレス、作業時間を軽減する効果がある。また、作業時間には、休憩時間を含んでもよく、例えば、作業に三日かかる場合は、作業者の帰宅時間も含めて作業時間、作業期間とし、休憩時間や帰宅時間を使って学習を行ってもよい。データ量で管理する場合も、同様の効果が得られるが、特定の時刻に学習を開始したり、作業が停止した時に学習を開始したり、作業または作業中断で所定時間経過したら学習するような応用もあり得る。休憩から戻った時までや、次に作業開始するまでの間に、自動アノテーション用の学習を行い、再度、作業開始する時に、直近の学習の効果が現れるようにしてもよい。ただし、これに限る必要もない。

【0118】

また、本発明の一実施形態や変形例においては、再生部２３、指定操作部２４、汎用分類部２５、学習部２６等を、制御部２１とは別体の構成としたが、各部の全部または一部をソフトウエアで構成し、制御部２１内のＣＰＵによって実行するようにしても勿論かまわない。また、制御部２１内の各部を、制御部２１の外にハードウエア回路によって設けてもよい。また、上述の各部は、ヴェリログ（Verilog）によって記述されたプログラム言語に基づいて生成されたゲート回路等のハードウエア構成でもよく、またＤＳＰ（Digital Signal Processor）等のソフトを利用したハードウエア構成を利用してもよい。これらは適宜組み合わせてもよいことは勿論である。

【0119】

また、情報取得装置として、デジタルカメラを用いて例についても説明したが、カメラとしては、デジタル一眼レフカメラでもミラーレスカメラでもコンパクトデジタルカメラでもよく、ビデオカメラ、ムービーカメラのような動画用のカメラでもよく、さらに、携帯電話、スマートフォン、携帯情報端末、パーソナルコンピュータ（ＰＣ）、タブレット型コンピュータ、ゲーム機器等に内蔵されるカメラ、医療用カメラ、顕微鏡等の科学機器用のカメラ、自動車搭載用カメラ、監視用カメラでも構わない。いずれにしても、取得した画像に対して、アノテーションを行うのであれば、本発明を適用することができる。

【0120】

また、本明細書において説明した技術のうち、主にフローチャートで説明した制御に関しては、プログラムで設定可能であることが多く、記録媒体や記録部に収められる場合もある。この記録媒体、記録部への記録の仕方は、製品出荷時に記録してもよく、配布された記録媒体を利用してもよく、インターネットを介してダウンロードしたものでもよい。

【0121】

また、本発明の一実施形態においては、フローチャートを用いて、本実施形態における動作を説明したが、処理手順は、順番を変えてもよく、また、いずれかのステップを省略してもよく、ステップを追加してもよく、さらに各ステップ内における具体的な処理内容を変更してもよい。

【0122】

また、特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず」、「次に」等の順番を表現する言葉を用いて説明したとしても、特に説明していない箇所では、この順で実施することが必須であることを意味するものではない。

【0123】

本発明は、上記実施形態にそのまま限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素の幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

【符号の説明】

【0124】

１・・・画像処理および制御部、１ａ・・・制御部、１ｂ・・・画像処理部、１ｃ・・・推論部、１ｄ・・・ガイド作成部、１ｅ・・・関連判定部、１ｆ・・・表示制御部、１ｆａ・・・強調部、２・・・情報取得部、３・・・姿勢センサ、４・・・記録部、４ａ・・・推論情報、４ｂ・・・画像データ、４ｃ・・・各種データ、６・・・通信部、８・・・表示部、８ｂ・・・タッチパネル、１０・・・情報取得装置、２０・・・外部装置、２１・・・制御部、２１ａ・・・再生制御部、２１ｂ・・・特定部分判定部、２１ｃ・・・学習・検証分離部、２１ｄ・・・仮学習部、２２・・・情報記録部、２２ａ・・・対象物記録ＤＢ、２２ｂ・・・仮学習結果記録、２３・・・再生部、２４・・・指定操作部、２５・・・汎用分類部、２６・・・学習部、３０・・・通信部、４１・・・Ａ画像、４２・・・Ｂ答え、４３ａ・・・学習用画像群、４３ｂ・・・検証用画像群、４４・・・ネットワーク、５１・・・対象物、５２・・・対象物、５３・・・指示用形状、５４・・・指示用形状、５５・・・カーソル、５７・・・「済み」アイコン、５８・・・学習実行中マーク、５９・・・作業時間経過表示部

【図1】