IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士フイルムRIファーマ株式会社の特許一覧

特許7375161学習データ作成装置、方法、プログラム、及び記録媒体
<>
  • 特許-学習データ作成装置、方法、プログラム、及び記録媒体 図1
  • 特許-学習データ作成装置、方法、プログラム、及び記録媒体 図2
  • 特許-学習データ作成装置、方法、プログラム、及び記録媒体 図3
  • 特許-学習データ作成装置、方法、プログラム、及び記録媒体 図4
  • 特許-学習データ作成装置、方法、プログラム、及び記録媒体 図5
  • 特許-学習データ作成装置、方法、プログラム、及び記録媒体 図6
  • 特許-学習データ作成装置、方法、プログラム、及び記録媒体 図7
  • 特許-学習データ作成装置、方法、プログラム、及び記録媒体 図8
  • 特許-学習データ作成装置、方法、プログラム、及び記録媒体 図9
  • 特許-学習データ作成装置、方法、プログラム、及び記録媒体 図10
  • 特許-学習データ作成装置、方法、プログラム、及び記録媒体 図11
  • 特許-学習データ作成装置、方法、プログラム、及び記録媒体 図12
  • 特許-学習データ作成装置、方法、プログラム、及び記録媒体 図13
  • 特許-学習データ作成装置、方法、プログラム、及び記録媒体 図14
  • 特許-学習データ作成装置、方法、プログラム、及び記録媒体 図15
  • 特許-学習データ作成装置、方法、プログラム、及び記録媒体 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-27
(45)【発行日】2023-11-07
(54)【発明の名称】学習データ作成装置、方法、プログラム、及び記録媒体
(51)【国際特許分類】
   G06T 7/00 20170101AFI20231030BHJP
【FI】
G06T7/00 350C
【請求項の数】 18
(21)【出願番号】P 2022507151
(86)(22)【出願日】2021-03-05
(86)【国際出願番号】 JP2021008791
(87)【国際公開番号】W WO2021182345
(87)【国際公開日】2021-09-16
【審査請求日】2022-07-20
(31)【優先権主張番号】P 2020044138
(32)【優先日】2020-03-13
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000149837
【氏名又は名称】富士フイルム富山化学株式会社
(74)【代理人】
【識別番号】100083116
【弁理士】
【氏名又は名称】松浦 憲三
(74)【代理人】
【識別番号】100170069
【弁理士】
【氏名又は名称】大原 一樹
(74)【代理人】
【識別番号】100128635
【弁理士】
【氏名又は名称】松村 潔
(74)【代理人】
【識別番号】100140992
【弁理士】
【氏名又は名称】松浦 憲政
(72)【発明者】
【氏名】岩見 一央
(72)【発明者】
【氏名】羽田 真司
【審査官】新井 則和
(56)【参考文献】
【文献】特開2019-125203(JP,A)
【文献】特開2018-027242(JP,A)
【文献】特開2019-207535(JP,A)
【文献】特開2019-215647(JP,A)
【文献】米国特許出願公開第2018/0260665(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
(57)【特許請求の範囲】
【請求項1】
プロセッサと、メモリとを備え、前記プロセッサが機械学習用の学習データを作成する学習データ作成装置であって、
前記プロセッサは、
薬剤が撮影された撮影画像を取得する取得処理と、
前記取得した前記撮影画像から前記薬剤を任意に配置した学習用画像を生成する学習用画像生成処理と、
前記生成した学習用画像における前記薬剤の領域に対応する第2領域情報を生成し、前記生成した前記第2領域情報を前記学習用画像に対する正解データとする正解データ生成処理と、
前記生成した学習用画像と前記正解データとのペアを、学習データとして前記メモリに記憶させる記憶制御と、を行い、
前記学習用画像生成処理は、複数の薬剤を含む前記学習用画像を生成する際に、前記複数の薬剤の全部又は一部が点又は線で接触する前記学習用画像を生成し、
前記正解データは、前記複数の薬剤の前記点又は線で接触する箇所のみを示すエッジ画像を含む、
学習データ作成装置。
【請求項2】
プロセッサと、メモリとを備え、前記プロセッサが機械学習用の学習データを作成する学習データ作成装置であって、
前記プロセッサは、
薬剤が撮影された撮影画像を取得する取得処理と、
前記取得した前記撮影画像から前記薬剤を任意に配置した学習用画像を生成する学習用画像生成処理と、
前記生成した学習用画像における前記薬剤の領域に対応する第2領域情報を生成し、前記生成した前記第2領域情報を前記学習用画像に対する正解データとする正解データ生成処理と、
前記生成した学習用画像と前記正解データとのペアを、学習データとして前記メモリに記憶させる記憶制御と、を行い、
前記学習用画像生成処理は、複数の薬剤を含む前記学習用画像を生成する際に、前記複数の薬剤の全部又は一部が点又は線で接触する前記学習用画像を生成し、
前記正解データは、前記薬剤の領域に対応するマスク画像又は前記薬剤の領域のエッジを示すエッジ画像であり、前記点又は線で接触する箇所は背景色に置換される、
学習データ作成装置。
【請求項3】
プロセッサと、メモリとを備え、前記プロセッサが機械学習用の学習データを作成する学習データ作成装置であって、
前記プロセッサは、
薬剤が撮影された撮影画像を取得する取得処理と、
前記取得した前記撮影画像から前記薬剤を任意に配置した学習用画像を生成する学習用画像生成処理と、
前記生成した学習用画像における前記薬剤の領域に対応する第2領域情報を生成し、前記生成した前記第2領域情報を前記学習用画像に対する正解データとする正解データ生成処理と、
前記生成した学習用画像と前記正解データとのペアを、学習データとして前記メモリに記憶させる記憶制御と、を行い、
前記学習用画像生成処理は、複数の薬剤を含む前記学習用画像を生成する際に、前記複数の薬剤の全部又は一部が点又は線で接触する前記学習用画像を生成し、
前記正解データは、前記薬剤の領域に対応するマスク画像であり、前記点又は線で接触する前記複数の薬剤に対応する前記マスク画像は画素値が異なる、
学習データ作成装置。
【請求項4】
プロセッサと、メモリとを備え、前記プロセッサが機械学習用の学習データを作成する学習データ作成装置であって、
前記プロセッサは、
薬剤が撮影された撮影画像を取得する取得処理と、
前記取得した前記撮影画像から前記薬剤を任意に配置した学習用画像を生成する学習用画像生成処理と、
前記生成した学習用画像における前記薬剤の領域に対応する第2領域情報を生成し、前記生成した前記第2領域情報を前記学習用画像に対する正解データとする正解データ生成処理と、
前記生成した学習用画像と前記正解データとのペアを、学習データとして前記メモリに記憶させる記憶制御と、を行い、
前記薬剤は、少なくとも一部が透明な薬剤であり、
前記プロセッサによる前記学習用画像生成処理は、複数の薬剤を含む前記学習用画像を生成する際に、前記透明な薬剤以外の薬剤を任意に配置する、
学習データ作成装置。
【請求項5】
前記プロセッサの前記取得処理は、前記取得した前記撮影画像内の薬剤の領域に対応する第1領域情報を取得し、
前記正解データ生成処理は、前記取得した前記第1領域情報に基づいて前記第2領域情報を生成する、
請求項1から4のいずれか1項に記載の学習データ作成装置。
【請求項6】
前記プロセッサの前記取得処理は、複数の薬剤が撮影された前記撮影画像、又は薬剤が撮影された複数の前記撮影画像を取得し、複数の薬剤の領域に対応する複数の前記第1領域情報を取得する、
請求項に記載の学習データ作成装置。
【請求項7】
前記第1領域情報は、前記撮影画像内の薬剤の領域を手動で設定された領域情報、前記撮影画像内の薬剤の領域を画像処理により自動で抽出した領域情報、又は前記撮影画像内の薬剤の領域を画像処理により自動で抽出し、かつ手動で調整された領域情報である、
請求項5又は6に記載の学習データ作成装置。
【請求項8】
前記学習用画像生成処理は、前記撮影画像を平行移動、反転、回転、又は拡縮させて前記学習用画像を生成し、
前記正解データ生成処理は、前記第1領域情報を前記撮影画像に対応して平行移動、反転、回転、又は拡縮させて前記正解データを生成する、
請求項5又は6に記載の学習データ作成装置。
【請求項9】
前記学習用画像生成処理は、前記撮影画像を平行移動、反転、回転、又は拡縮させた2以上の画像を合成して前記学習用画像を生成し、
前記正解データ生成処理は、前記2以上の画像の各々に対応する前記第1領域情報を前記撮影画像に対応して平行移動、反転、回転、又は拡縮させて前記正解データを生成する、
請求項5又は6に記載の学習データ作成装置。
【請求項10】
前記プロセッサは、前記取得した前記第1領域情報に基づいて前記撮影画像から前記薬剤の領域を切り出した薬剤画像を取得する薬剤画像取得処理を含み、
前記学習用画像生成処理は、前記取得した薬剤画像を平行移動、反転、回転、又は拡縮させて前記学習用画像を生成し、
前記正解データ生成処理は、前記第1領域情報を前記薬剤画像に対応して平行移動、反転、回転、又は拡縮させて前記正解データを生成する、
請求項5又は6に記載の学習データ作成装置。
【請求項11】
前記プロセッサは、前記取得した前記第1領域情報に基づいて前記撮影画像から前記薬剤の領域を切り出した薬剤画像を取得する薬剤画像取得処理を含み、
前記学習用画像生成処理は、前記取得した薬剤画像を平行移動、反転、回転、又は拡縮させた2以上の画像を合成して前記学習用画像を生成し、
前記正解データ生成処理は、前記第1領域情報を前記薬剤画像に対応して平行移動、反転、回転、又は拡縮させた2以上の前記第2領域情報を合成して前記正解データを生成する、
請求項5、6及び10のいずれか1項に記載の学習データ作成装置。
【請求項12】
前記撮影画像は、自薬局が取り扱っている薬剤を撮影した画像である、
請求項1から11のいずれか1項に記載の学習データ作成装置。
【請求項13】
プロセッサが、以下の各ステップの処理を行うことにより機械学習用の学習データを作成する学習データ作成方法であって、
薬剤が撮影された撮影画像を取得するステップと、
前記取得した前記撮影画像から前記薬剤を任意に配置した学習用画像を生成するステップと、
前記生成した学習用画像における前記薬剤の領域に対応する第2領域情報を生成し、前記生成した前記第2領域情報を前記学習用画像に対する正解データとするステップと、
前記生成した学習用画像と前記正解データとのペアを、学習データとしてメモリに記憶させるステップと、を含み、
前記学習用画像を生成するステップは、複数の薬剤を配置する際に、前記複数の薬剤の全部又は一部を点又は線で接触させ、
前記正解データは、前記複数の薬剤の前記点又は線で接触する箇所のみを示すエッジ画像を含む、
学習データ作成方法。
【請求項14】
プロセッサが、以下の各ステップの処理を行うことにより機械学習用の学習データを作成する学習データ作成方法であって、
薬剤が撮影された撮影画像を取得するステップと、
前記取得した前記撮影画像から前記薬剤を任意に配置した学習用画像を生成するステップと、
前記生成した学習用画像における前記薬剤の領域に対応する第2領域情報を生成し、前記生成した前記第2領域情報を前記学習用画像に対する正解データとするステップと、
前記生成した学習用画像と前記正解データとのペアを、学習データとしてメモリに記憶させるステップと、を含み、
前記学習用画像を生成するステップは、複数の薬剤を配置する際に、前記複数の薬剤の全部又は一部を点又は線で接触させ、
前記正解データは、前記薬剤の領域に対応するマスク画像又は前記薬剤の領域のエッジを示すエッジ画像であり、前記点又は線で接触する箇所は背景色に置換される、
学習データ作成方法。
【請求項15】
プロセッサが、以下の各ステップの処理を行うことにより機械学習用の学習データを作成する学習データ作成方法であって、
薬剤が撮影された撮影画像を取得するステップと、
前記取得した前記撮影画像から前記薬剤を任意に配置した学習用画像を生成するステップと、
前記生成した学習用画像における前記薬剤の領域に対応する第2領域情報を生成し、前記生成した前記第2領域情報を前記学習用画像に対する正解データとするステップと、
前記生成した学習用画像と前記正解データとのペアを、学習データとしてメモリに記憶させるステップと、を含み、
前記学習用画像を生成するステップは、複数の薬剤を配置する際に、前記複数の薬剤の全部又は一部を点又は線で接触させ、
前記正解データは、前記薬剤の領域に対応するマスク画像であり、前記点又は線で接触する前記複数の薬剤に対応する前記マスク画像は画素値が異なる、
学習データ作成方法。
【請求項16】
プロセッサが、以下の各ステップの処理を行うことにより機械学習用の学習データを作成する学習データ作成方法であって、
薬剤が撮影された撮影画像を取得するステップと、
前記取得した前記撮影画像から前記薬剤を任意に配置した学習用画像を生成するステップと、
前記生成した学習用画像における前記薬剤の領域に対応する第2領域情報を生成し、前記生成した前記第2領域情報を前記学習用画像に対する正解データとするステップと、
前記生成した学習用画像と前記正解データとのペアを、学習データとしてメモリに記憶させるステップと、を含み、
前記学習用画像を生成するステップは、複数の薬剤を配置する際に、前記複数の薬剤の全部又は一部を点又は線で接触させ、
前記薬剤は、少なくとも一部が透明な薬剤であり、
前記学習用画像を生成するステップは、複数の薬剤を含む学習用画像を生成する際に、前記透明な薬剤以外の薬剤を任意に配置する、
学習データ作成方法。
【請求項17】
薬剤が撮影された撮影画像を取得する機能と、
前記取得した前記撮影画像から前記薬剤を任意に配置した学習用画像を生成する機能であって、複数の薬剤を含む前記学習用画像を生成する際に、前記複数の薬剤の全部又は一部が点又は線で接触する前記学習用画像を生成する機能と、
前記生成した学習用画像における前記薬剤の領域に対応する第2領域情報を生成し、前記生成した前記第2領域情報を前記学習用画像に対する正解データとする機能と、
前記生成した学習用画像と前記正解データとのペアを、学習データとしてメモリに記憶させる機能と、をコンピュータにより実現させ、
前記正解データは、前記複数の薬剤の前記点又は線で接触する箇所のみを示すエッジ画像を含む、
学習データ作成プログラム。
【請求項18】
非一時的かつコンピュータ読取可能な記録媒体であって、請求項17に記載のプログラムが記録された記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は学習データ作成装置、方法、プログラム、学習データ及び機械学習装置に係り、特に多数の学習データを効率よく作成する技術に関する。
【背景技術】
【0002】
従来、教示ファイルに格納されている多数の教示データに基づいて学習し、パターン認識して欠陥判定をする外観検査装置が提案されている(特許文献1)。
【0003】
この外観検査装置は、教示ファイル中の多数の教示データのうち、データ数の少ない特定の教示データについては、その特定の教示データを変形して新たな教示データを生成する教示データ生成装置を備え、教示データ生成装置により生成された教示データを教示ファイルに補充して学習することで、データ数の少ない欠陥の検査を可能にしている。
【0004】
また、教示データ生成装置は、生成すべき教示データが画像データであるときは、画像の拡大、縮小、回転を含むアフィン変換と、明るさ、コントラスト、エッジ強度を含む属性変換を行うことにより、新たな教示データを生成している。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2006-48370号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
ところで、対象物としての薬剤が撮影された撮影画像からその撮影画像内の薬剤の領域を、学習済みの学習モデルにより精度よく認識するためには、薬剤を撮影した撮影画像と、その撮影画像内の薬剤の領域を示す領域情報(正解データ)とのペアを多数作成し、多数のペアからなる学習データセットにより学習モデルを機械学習させる必要がある。
【0007】
従来のこの種の正解データは、撮影画像をディスプレイに表示し、ディスプレイに表示された撮影画像を見ながら薬剤の領域をユーザが画素単位で塗り潰して作成しており、正解データの作成に手間と時間がかかるという問題がある。
【0008】
一方、特許文献1に記載の外観検査装置は、カメラを用いて印刷物や無地面(紙、フィルム、金属など)の対象物を撮像し、撮像した画像から印刷欠陥を認識し、欠陥の種類(「穴」、「しみ」、「凸」、「すじ」など)を分別するものである。
【0009】
したがって、教示データ生成装置により、データ数の少ない一のデータ(画像データ)を変形して新たに複数の教示データを生成する場合、同じ画像データを変形して生成した複数の教示データに対応する正解データは、同一の欠陥の種類を示すデータになる。即ち、特許文献1には、教示データ(教示画像)に対する正解データの作成に手間と時間がかかるという課題の記載がなく、それを解決する技術も開示されていない。
【0010】
本発明はこのような事情に鑑みてなされたもので、薬剤を撮影した撮影画像から薬剤の領域に対応する領域情報を認識する学習モデルを機械学習させるための学習データを効率よく作成することができる学習データ作成装置、方法、プログラム、学習データ及び機械学習装置を提供することを目的とする。
【課題を解決するための手段】
【0011】
上記目的を達成するために第1態様に係る発明は、プロセッサと、メモリとを備え、プロセッサが機械学習用の学習データを作成する学習データ作成装置であって、プロセッサは、薬剤が撮影された撮影画像を取得する取得処理と、取得した撮影画像から薬剤を任意に配置した学習用画像を生成する学習用画像生成処理と、生成した学習用画像における薬剤の領域に対応する第2領域情報を生成し、生成した第2領域情報を学習用画像に対する正解データとする正解データ生成処理と、生成した学習用画像と正解データとのペアを、学習データとしてメモリに記憶させる記憶制御と、を行う。
【0012】
本発明の第1態様によれば、薬剤が撮影された撮影画像から薬剤を任意に配置した学習用画像を生成する。また、生成した学習用画像における薬剤の領域に対応する第2領域情報を生成し、生成した第2領域情報を学習用画像に対する正解データとする。この正解データの生成は、プロセッサによる正解データ生成処理により行うことができるため、正解データの作成に手間と時間を要しない。
【0013】
このようにして生成した学習用画像と正解データとのペアを学習データとすることで、多くの学習データを生成すること(水増しすること)ができる。
【0014】
本発明の第2態様に係る学習データ作成装置において、プロセッサの取得処理は、取得した撮影画像内の薬剤の領域に対応する第1領域情報を取得し、正解データ生成処理は、取得した第1領域情報に基づいて第2領域情報を生成することが好ましい。
【0015】
本発明の第3態様に係る学習データ作成装置において、プロセッサの取得処理は、複数の薬剤が撮影された撮影画像、又は薬剤が撮影された複数の撮影画像を取得し、複数の薬剤の領域に対応する複数の第1領域情報を取得することが好ましい。
【0016】
本発明の第4態様に係る学習データ作成装置において、第1領域情報は、撮影画像内の薬剤の領域を手動で設定された領域情報、撮影画像内の薬剤の領域を画像処理により自動で抽出した領域情報、又は撮影画像内の薬剤の領域を画像処理により自動で抽出し、かつ手動で調整された領域情報であることが好ましい。
【0017】
本発明の第5態様に係る学習データ作成装置において、正解データは、薬剤の領域に対応する正解画像、薬剤の領域を矩形で囲むバウンディングボックス情報、及び薬剤の領域のエッジを示すエッジ情報のうちの少なくとも1つを含むことが好ましい。尚、正解画像は、マスク画像を含む。
【0018】
本発明の第6態様に係る学習データ作成装置において、学習用画像生成処理は、撮影画像を平行移動、反転、回転、又は拡縮させて学習用画像を生成し、正解データ生成処理は、第1領域情報を撮影画像に対応して平行移動、反転、回転、又は拡縮させて正解データを生成することが好ましい。学習用画像の生成と正解データの生成とは、並列処理にて同時に生成してもよいし、学習用画像及び正解データのうちのいずれか一方を生成してから他方を生成してもよい。
【0019】
本発明の第7態様に係る学習データ作成装置において、学習用画像生成処理は、撮影画像を平行移動、反転、回転、又は拡縮させた2以上の画像を合成して学習用画像を生成し、正解データ生成処理は、2以上の画像の各々に対応する第1領域情報を撮影画像に対応して平行移動、反転、回転、又は拡縮させて正解データを生成することが好ましい。これにより、複数の薬剤の画像からなる学習用画像とその正解データを生成することができる。
【0020】
本発明の第8態様に係る学習データ作成装置において、プロセッサは、取得した第1領域情報に基づいて撮影画像から薬剤の領域を切り出した薬剤画像を取得する薬剤画像取得処理を含み、学習用画像生成処理は、取得した薬剤画像を平行移動、反転、回転、又は拡縮させて学習用画像を生成し、正解データ生成処理は、第1領域情報を薬剤画像に対応して平行移動、反転、回転、又は拡縮させて正解データを生成することが好ましい。
【0021】
本発明の第9態様に係る学習データ作成装置において、プロセッサは、取得した第1領域情報に基づいて撮影画像から薬剤の領域を切り出した薬剤画像を取得する薬剤画像取得処理を含み、学習用画像生成処理は、取得した薬剤画像を平行移動、反転、回転、又は拡縮させた2以上の画像を合成して学習用画像を生成し、正解データ生成処理は、第1領域情報を薬剤画像に対応して平行移動、反転、回転、又は拡縮させた2以上の第2領域情報を合成して正解データを生成することが好ましい。これにより、複数の薬剤の画像からなる学習用画像とその正解データを生成することができる。
【0022】
本発明の第10態様に係る学習データ作成装置において、学習用画像生成処理は、複数の薬剤を含む学習用画像を生成する際に、複数の薬剤の全部又は一部が点又は線で接触する学習用画像を生成することが好ましい。
【0023】
本発明の第11態様に係る学習データ作成装置において、正解データは、複数の薬剤画像の点又は線で接触する箇所のみを示すエッジ画像を含むことが好ましい。複数の薬剤の全部又は一部が点又は線で接触する学習用画像に対する正解データとして、複数の薬剤画像の点又は線で接触する箇所のみを示すエッジ画像を含めることができる。この学習データは、複数の薬剤画像の点又は線で接触する箇所の分離に有用なものとなる。
【0024】
本発明の第12態様に係る学習データ作成装置において、薬剤は、少なくとも一部が透明な薬剤であることが好ましい。少なくとも一部が透明な薬剤は、全体が不透明な薬剤と比較して抽出が難しく、かつ学習データが少ないため、少なくとも一部が透明な薬剤に対する学習データの生成は特に有効である。
【0025】
本発明の第13態様に係る学習データ作成装置において、プロセッサによる学習用画像生成処理は、複数の薬剤を含む学習用画像を生成する際に、透明な薬剤以外の薬剤を任意に配置することが好ましい。少なくとも一部が透明な薬剤の場合、その薬剤画像を任意に配置したものと、透明な薬剤を同じ位置に配置して撮影したものとは、照明光との位置関係で異なる画像になるからである。
【0026】
本発明の第14態様に係る学習データ作成装置において、撮影画像は、自薬局が取り扱っている薬剤を撮影した画像であることが好ましい。自薬局が取り扱っている薬剤に対する学習データを作成できればよいからである。
【0027】
第15態様に係る発明は、撮影された薬剤を任意に配置して生成された学習用画像と、学習用画像における薬剤の領域を示す第2領域情報を有する正解データと、のペアからなる学習データである。
【0028】
本発明の第16態様に係る機械学習装置は、学習モデルと、上記の学習データを使用し、学習モデルを機械学習させる学習制御部と、を備える。
【0029】
本発明の第17態様に係る機械学習装置において、学習モデルは、畳み込みニューラルネットワークで構成されることが好ましい。
【0030】
第18態様に係る発明は、プロセッサが、以下の各ステップの処理を行うことにより機械学習用の学習データを作成する学習データ作成方法であって、薬剤が撮影された撮影画像を取得するステップと、取得した撮影画像から薬剤を任意に配置した学習用画像を生成するステップと、生成した学習用画像における薬剤の領域に対応する第2領域情報を生成し、生成した第2領域情報を学習用画像に対する正解データとするステップと、生成した学習用画像と正解データとのペアを、学習データとしてメモリに記憶させるステップと、を含む。
【0031】
本発明の第19態様に係る学習データ作成方法において、正解データは、薬剤の領域に対応する正解画像、薬剤の領域を矩形で囲むバウンディングボックス情報、及び薬剤の領域のエッジを示すエッジ情報のうちの少なくとも1つを含むことが好ましい。
【0032】
本発明の第20態様に係る学習データ作成方法において、学習用画像を生成するステップは、複数の薬剤を配置する際に、複数の薬剤の全部又は一部を点又は線で接触させることが好ましい。
【0033】
本発明の第21態様に係る学習データ作成方法において、正解データは、複数の薬剤の点又は線で接触する箇所のみを示すエッジ画像を含むことが好ましい。
【0034】
本発明の第22態様に係る学習データ作成方法において、薬剤は、少なくとも一部が透明な薬剤であることが好ましい。
【0035】
本発明の第23態様に係る学習データ作成方法において、学習用画像を生成するステップは、複数の薬剤を含む学習用画像を生成する際に、透明な薬剤以外の薬剤を任意に配置することが好ましい。
【0036】
第24態様に係る発明は、薬剤が撮影された撮影画像を取得する機能と、取得した撮影画像から薬剤を任意に配置した学習用画像を生成する機能と、生成した学習用画像における薬剤の領域に対応する第2領域情報を生成し、生成した第2領域情報を学習用画像に対する正解データとする機能と、生成した学習用画像と正解データとのペアを、学習データとしてメモリに記憶させる機能と、をコンピュータにより実現させる学習データ作成プログラムである。
【発明の効果】
【0037】
本発明によれば、薬剤を撮影した撮影画像から薬剤の領域に対応する領域情報を認識する学習モデルを機械学習させるための学習データを効率よく作成することができる。
【図面の簡単な説明】
【0038】
図1図1は、学習済みの学習モデルに入力される撮影画像と学習モデルから取得したい出力結果とを示す図である。
図2図2は、学習データの一例を示す図である。
図3図3は、正解データを自動で作成する場合の画像処理を示す概念図である。
図4図4は、シミュレーションにより学習データを作成する第1実施形態を示す図である。
図5図5は、シミュレーションにより学習データを作成する第2実施形態を示す図である。
図6図6は、本発明に係る学習データ作成装置のハードウェア構成の一例を示すブロック図である。
図7図7は、複数の薬剤が一包化された薬包を示す平面図である。
図8図8は、図6に示した撮影装置の概略構成を示すブロック図である。
図9図9は、撮影装置の概略構成を示す平面図である。
図10図10は、撮影装置の概略構成を示す側面図である。
図11図11は、本発明に係る学習データ作成装置の実施形態を示すブロック図である。
図12図12は、画像取得部が取得する撮影画像及び第1領域情報取得部が取得する撮影画像内の薬剤の領域を示す第1領域情報の一例を示す図である。
図13図13は、図12に示した撮影画像及びマスク画像から生成した学習データの一例を示す図である。
図14図14は、複数の薬剤の点又は線で接触する箇所のみを示すエッジ画像の一例を示す図である。
図15図15は、本発明に係る機械学習装置の実施形態を示すブロック図である。
図16図16は、本発明に係る学習データ作成方法の実施形態を示すフローチャートである。
【発明を実施するための形態】
【0039】
以下、添付図面に従って本発明に係る学習データ作成装置、方法、プログラム、学習データ及び機械学習装置の好ましい実施形態について説明する。
【0040】
[本発明の概要]
図1は、学習済みの学習モデルに入力される撮影画像と学習モデルから取得したい出力結果とを示す図である。
【0041】
図1(B)に示す学習モデルの出力結果は、図1(A)に示した撮影画像内の薬剤の領域(薬剤領域)を推論した推論結果であり、本例では、薬剤領域と背景領域とを領域分類したマスク画像である。尚、推論結果は、マスク画像に限らず、例えば、薬剤領域を矩形の枠で囲むバウンディングボックス、又はバウンディングボックスの対角の2点の座標、又はこれらの組み合わせが考えられる。
【0042】
学習済みの学習モデルにより、任意の入力画像から所望の出力結果(推論結果)を得るためには、未学習の学習モデルを機械学習させるための学習データを大量に準備する必要がある。
【0043】
図2は、学習データの一例を示す図である。
【0044】
図2(A)~(C)は、それぞれ左側が薬剤の撮影画像(学習用画像)であり、右側が撮影画像に対する正解データであり、左右の撮影画像と正解データとのペアが、学習データである。本例の正解データは、各薬剤の領域を背景から区別するマスク画像である。
【0045】
基本的に、学習データには、図2(A)~(C)に示した左側の撮影画像が必要であるが、例えば、新薬等、数が少ない薬剤も存在するため、多くの画像が集まらないという問題がある。
【0046】
撮影画像(学習用画像)に対する正解データの作成は、撮影画像をディスプレイに表示させ、ディスプレイに表示された撮影画像を見ながら薬剤の領域をユーザが画素単位で塗り潰して作成するのが一般的である。
【0047】
また、正解データを自動で作成する場合、例えば、撮影画像からテンプレートマッチングにより薬剤の位置、回転角を計算することで求めることができる。
【0048】
図3は、正解データを自動で作成する場合の画像処理を示す概念図である。
【0049】
薬剤を撮影した撮影画像ITPに対して、その薬剤を示す画像であるテンプレート画像Itplを用意する。薬剤の形状が円形でない場合には、探索する回転角毎の複数のテンプレート画像Itplを用意することが好ましい。
【0050】
そして、撮影画像ITPの中からテンプレート画像Itplと相関が最も高くなる位置、及び回転角のテンプレート画像を探索すること(テンプレートマッチング)により、相関が最も高い時のテンプレート画像Itplの位置、及びテンプレート画像Itplの回転角に基づいて、撮影画像ITPにおける薬剤の領域を示す正解データを作成することができる。
【0051】
また、撮影画像ITPと正解データ(例えば、マスク画像)とを重ね合わせてディスプレイに表示し、マスク画像に誤差がある場合には、ユーザがマスク画像を画素単位で修正するようにしてもよい。
【0052】
<シミュレーションにより学習データを作成する第1実施形態>
図4は、シミュレーションにより学習データを作成する第1実施形態を示す図である。
【0053】
図4(A)は、薬剤を撮影した撮影画像と、その撮影画像に基づいて手動又は自動で生成したマスク画像とのペアを示す図である。
【0054】
本発明は、撮影画像とマスク画像とのペアから、シミュレーションにより学習データを作成する(学習データを水増しする)。
【0055】
図4(B)は、それぞれ図4(A)に示した撮影画像とマスク画像とをそれぞれ反転した撮影画像及びマスク画像のペアを示す図である。
【0056】
図4(B)に示す右側の反転(左右反転)されたマスク画像は、図4(B)に示す左側の反転された撮影画像における薬剤の領域を示すマスク画像となる。したがって、反転された撮影画像は、新たな学習用画像とすることができ、反転されたマスク画像は、新たに生成された学習用画像に対する正解データとすることができる。尚、画像の反転は、左右反転に限らず、上下反転も含む。また、先に左の画像を作っておき、そこから薬剤画像の領域を検出することによって、右の画像を作成するようにしてもよい。
【0057】
図4(C)は、図4(A)及び図4(B)に示した画像を加算した画像を示す図である。
【0058】
図4(C)に示す左側の撮影画像は、図4(A)に示した撮影画像と図4(B)に示した反転された撮影画像とを合成することで作成することができる。即ち、図4(C)に示す撮影画像は、図4(A)に示す撮影画像に、図4(B)に示す反転された撮影画像中の薬剤の領域を切り出した画像(薬剤画像)を貼り付けることで作成することができる。尚、反転された撮影画像からの薬剤画像の切り出しは、図4(B)の反転されたマスク画像に基づいて、図4(A)に示した撮影画像から薬剤の領域を切り出す処理により行うことができる。また、2以上の薬剤画像を合成する方法は、上記のようにマスク画像を使用する方法に限らない。例えば、薬剤が撮影されていない背景のみの背景画像を使用して、図4(A)及び図4(B)からそれぞれ薬剤画像のみを抽出し、抽出した各薬剤画像を背景画像に合成することで、図4(C)に示した撮影画像を生成することができる。
【0059】
また、図4(C)に示す右側のマスク画像は、図4(A)に示したマスク画像と図4(B)に示す反転されたマスク画像とを加算することで作成することができる。尚、2つのマスク画像を加算する際に、インスタンス分離のために、本例では図4(C)の反転されたマスク画像の薬剤の領域の画素値を例えば「0.5」、背景の画素値を「0」として加算することで、生成されたマスク画像における2つの薬剤の領域の画素値を異ならせる。
【0060】
このようにして、図4(A)に示した撮影画像とマスク画像のペアからなる1つの学習データから、図4(B)及び(C)に示した2つの学習データを作成することができる。
【0061】
また、上記の第1実施形態では、図4(A)に示した撮影画像及びマスク画像をそれぞれ反転し、図4(B)に示した新たな撮影画像及びマスク画像のペアからなる学習データを作成するようにしたが、これに限らず、図4(A)に示した撮影画像及びマスク画像をそれぞれ同期して平行移動、回転、又は拡縮させて、新たな撮影画像及びマスク画像のペアからなる学習データを作成してもよい。尚、撮影画像及びマスク画像をそれぞれ同期して平行移動、回転、又は縮小させることで、背景に余白が生じる場合には、背景と同様な画素値で余白を埋めることが好ましい。
【0062】
更に、上記の第1実施形態では、1つの薬剤が撮影された撮影画像及びマスク画像から新たな撮影画像及びマスク画像を作成するが、複数の異なる薬剤が別々に撮影された複数の撮影画像及びマスク画像、又は複数の異なる薬剤が同時に撮影された撮影画像及びマスク画像から、新たな撮影画像及びマスク画像を作成するようにしてもよい。
【0063】
<シミュレーションにより学習データを作成する第2実施形態>
図5は、シミュレーションにより学習データを作成する第2実施形態を示す図である。
【0064】
図5(A)は、薬剤を撮影した撮影画像と、その撮影画像に基づいて手動又は自動で生成したマスク画像とのペアを示す図であり、図4(A)に示したペアと同一である。
【0065】
図5(B)は、それぞれ図5(A)に示した撮影画像及びマスク画像からそれぞれ切り出す薬剤領域を示す図である。
【0066】
本例では、薬剤領域を囲む矩形の枠内の領域を、画像を切り出す領域(切出領域)としている。尚、マスク画像により薬剤領域は既知であるため、マスク画像に基づいて薬剤領域を囲む矩形の枠内の画像を切り出すことができる。
【0067】
図5(C)は、それぞれ図5(A)に示した撮影画像及びマスク画像から切り出された切出領域の画像を示す。撮影画像からの薬剤画像の切り出しは、図5(A)に示したマスク画像に基づいて、図5(A)に示した撮影画像から薬剤の領域を切り出す処理(薬剤画像取得処理)により行うことができる。尚、図5(A)に示したマスク画像は、薬剤の領域を示す情報(第1領域情報)を有するため、マスク画像から薬剤の領域(以下、「薬剤マスク画像」という)を切り出すことができる。また、薬剤画像取得処理には、切り出された後の状態の画像を、メモリ等から読み出す処理が含まれていてもよい。
【0068】
図5(D)は、切り出された薬剤画像及び薬剤マスク画像を任意の位置及び任意の回転角で貼り付けて作成した、新たな撮影画像及びマスク画像を示す図である。
【0069】
図5(D)に示す撮影画像及びマスク画像は、図5(A)に示した撮影画像及びマスク画像から上記の画像処理により作成した、新たな学習用画像及び正解データのペアからなる学習データとなる。
【0070】
図5(E)は、切り出された薬剤画像及び薬剤マスク画像を任意の位置及び任意に回転角で貼り付けて作成した、新たな撮影画像及びマスク画像を示す図であり、特に複数の薬剤画像が点又は線で接触するように作成されている。
【0071】
学習モデルにおける推論結果を向上させるためには、薬剤同士が点又は線で接触している状態の学習データを大量に作成する必要がある。薬剤同士が点又は線で接触している撮影画像から、各薬剤の領域を精度よく推論するのは、各薬剤が接触せずに孤立している場合に比べて難しいからである。
【0072】
図5(E)に示す左側のマスク画像は、各薬剤領域が接しないように画像処理することが好ましい。各薬剤領域が接触する箇所は既知であるため、その接触する箇所を背景色に置換することで、各薬剤領域が接触しないようにできる。
【0073】
また、薬剤同士が点又は線で接触する各薬剤が同一薬剤の場合、インスタンス分離のために、薬剤領域の画素値を異ならせることが好ましい。この場合、マスク画像における各薬剤領域は、その画素値の違いで認識できるため、薬剤領域が接触する箇所を背景色に置換しなくてもよい。
【0074】
以上のようにして、薬剤が撮影された撮影画像とその撮影画像内の薬剤の領域を示す第1領域情報(マスク画像)とを元に、多くの学習データを作成することができる。
【0075】
[学習データ作成装置の構成]
図6は、本発明に係る学習データ作成装置のハードウェア構成の一例を示すブロック図である。
【0076】
図6に示す学習データ作成装置1は、例えば、コンピュータにより構成することができ、主として画像取得部22、CPU(Central Processing Unit)24、操作部25、RAM(Random Access Memory)26、ROM(Read Only Memory)27、メモリ28及び表示部29から構成されている。
【0077】
画像取得部22は、撮影装置10により薬剤が撮影された撮影画像を、撮影装置10から取得する。
【0078】
撮影装置10により撮影される薬剤は、例えば、服用1回分の薬剤、又は任意の薬剤であり、薬包に入っているものでもよいし、薬包に入っていないものでもよい。
【0079】
図7は、複数の薬剤が一包化された薬包を示す平面図である。
【0080】
図7に示す薬包TPは、1回に服用される複数の薬剤が透明な包に収納され、一包ずつパッキングされたものである。薬包TPは、図9及び図10に示すように帯状に連結されており、各薬包TPを切り離し可能にする切取線が入っている。尚、図7に示す薬包TPには、6個の薬剤Tが一包化されている。
【0081】
図8は、図6に示した撮影装置の概略構成を示すブロック図である。
【0082】
図8に示す撮影装置10は、薬剤を撮影する2台のカメラ12A、12Bと、薬剤を照明する2台の照明装置16A,16Bと、撮影制御部13とから構成されている。
【0083】
図9及び図10は、それぞれ撮影装置の概略構成を示す平面図及び側面図である。
【0084】
薬包TPは、水平(x-y平面)に設置された透明なステージ14の上に載置される。
【0085】
カメラ12A、12Bは、ステージ14と直交する方向(z方向)に、ステージ14を挟んで互いに対向して配置される。カメラ12Aは、薬包TPの表面に正対し、薬包TPを上方から撮影する。カメラ12Bは、薬包TPの裏面に正対し、薬包TPを下方から撮影する。
【0086】
ステージ14を挟んで、カメラ12Aの側には、照明装置16Aが備えられ、カメラ12Bの側には、照明装置16Bが備えられる。
【0087】
照明装置16Aは、ステージ14の上方に配置され、ステージ14に載置された薬包TPを上方から照明する。照明装置16Aは、放射状に配置された4つの発光部16A1~16A4を有し、直交する4方向から照明光を照射する。各発光部16A1~16A4の発光は、個別に制御される。
【0088】
照明装置16Bは、ステージ14の下方に配置され、ステージ14に載置された薬包TPを下方から照明する。照明装置16Bは、照明装置16Aと同様に放射状に配置された4つの発光部16B1~16B4を有し、直交する4方向から照明光を照射する。各発光部16B1~16B4の発光は、個別に制御される。
【0089】
撮影は、次のように行われる。まず、カメラ12Aを用いて、薬包TPを上方から撮影する。撮影の際には、照明装置16Aの各発光部16A1~16A4を順次発光させ、4枚の画像の撮影を行い、続いて、各発光部16A1~16A4を同時に発光させ、1枚の画像の撮影を行う。次に、下方の照明装置16Bの各発光部16B1~16B4を同時に発光させるとともに、図示しないリフレクタを挿入し、リフレクタを介して薬包TPを下から照明し、カメラ12Aを用いて上方から薬包TPの撮影を行う。
【0090】
各発光部16A1~16A4を順次発光させて撮影される4枚の画像は、それぞれ照明方向が異なっており、薬剤の表面に刻印(凹凸)がある場合に刻印による影の出方が異なるものとなる。これらの4枚の撮影画像は、薬剤Tの表面側の刻印を強調した刻印画像を生成するために使用される。
【0091】
各発光部16A1~16A4を同時に発光させて撮影される1枚の画像は、輝度ムラのない画像であり、例えば、薬剤Tの表面側の画像(薬剤画像)を切り出す場合に使用され、また、刻印画像が重畳される撮影画像である。
【0092】
また、リフレクタを介して薬包TPを下方から照明し、カメラ12Aを用いて上方から薬包TPが撮影される画像は、複数の薬剤Tの領域を認識する場合に使用される撮影画像である。
【0093】
次に、カメラ12Bを用いて、薬包TPを下方から撮影する。撮影の際には、照明装置16Bの各発光部16B1~16B4を順次発光させ、4枚の画像の撮影を行い、続いて、各発光部16B1~16B4を同時に発光させ、1枚の画像の撮影を行う。
【0094】
4枚の撮影画像は、薬剤Tの裏面側の刻印を強調した刻印画像を生成するために使用され、各発光部16B1~16B4を同時に発光させて撮影される1枚の画像は、輝度ムラのない画像であり、例えば、薬剤Tの裏面側の薬剤画像を切り出す場合に使用され、また、刻印画像が重畳される撮影画像である。
【0095】
図8に示した撮影制御部13は、カメラ12A、12B、及び照明装置16A、16Bを制御し、1つの薬包TPに対して11回の撮影(カメラ12Aで6回、カメラ12Bで5回の撮影)を行わせる。
【0096】
また、撮影は暗室の状態で行われ、撮影の際に薬包TPに照射される光は、照明装置16A、又は照明装置16Bからの照明光のみである。したがって、上記のようにして撮影される11枚の撮影画像のうち、リフレクタを介して薬包TPを下方から照明し、カメラ12Aを用いて上方から薬包TPを撮影した画像は、背景が光源の色(白色)になり、各薬剤Tの領域が遮光されて黒くなる。一方、他の10枚の撮影画像は、背景が黒く、各薬剤の領域が薬剤の色になる。
【0097】
尚、リフレクタを介して薬包TPを下方から照明し、カメラ12Aを用いて上方から薬包TPを撮影した画像であっても、薬剤全体が透明(半透明)な透明薬剤、あるいは一部又は全部が透明なカプセルに粉末又は顆粒状の医薬が充填されたカプセル剤(一部が透明な薬剤)の場合、薬剤の領域から光が透過するため、不透明な薬剤のように真っ黒にならない。
【0098】
図6に戻って、学習データ作成装置1は、薬剤が撮影された撮影画像から薬剤を推論(特に撮影画像内に存在する各薬剤Tの領域を推論)する学習モデルを、機械学習させるための学習データを作成するものである。
【0099】
したがって、学習データ作成装置1の画像取得部22は、撮影装置10により撮影される11枚の撮影画像のうちの、複数の薬剤Tの領域を認識する場合に使用される撮影画像(即ち、リフレクタを介して薬包TPを下方から照明し、カメラ12Aを用いて上方から薬包TPを撮影した撮影画像)を取得することが好ましい。
【0100】
メモリ28は、学習データを記憶する記憶部分であり、例えば、ハードディスク装置、フラッシュメモリ等の不揮発性メモリである。
【0101】
CPU24は、RAM26を作業領域とし、ROM27又はメモリ28に記憶された学習データ作成プログラムを含む各種のプログラムを使用し、プログラムを実行することで本装置の各種の処理を実行する。
【0102】
操作部25は、キーボード、ポインティングデバイス(マウス等)を含み、ユーザの操作により各種の情報や指示を入力する部分である。
【0103】
表示部29は、操作部25での操作に必要な画面を表示し、GUI(Graphical User Interface)を実現する部分として機能し、また、撮影画像等を表示することができる。
【0104】
[学習データ作成装置の実施形態]
図11は、本発明に係る学習データ作成装置の実施形態を示すブロック図である。
【0105】
図11に示す学習データ作成装置1は、図6に示した学習データ作成装置1のハードウェア構成により実行される機能を示す機能ブロック図であり、プロセッサ2とメモリ28とを備えている。
【0106】
プロセッサ2は、図6に示した画像取得部22、CPU24、RAM26、ROM27、及びメモリ28等から構成され、以下に示す各種の処理を行う。
【0107】
プロセッサ2は、取得部20、学習用画像生成部30、正解データ生成部32、及び記憶制御部34として機能する。
【0108】
取得部20は、画像取得部22及び第1領域情報取得部23を備えている。
【0109】
画像取得部22は、前述したように撮影装置10から薬剤Tを撮影した撮影画像ITPを取得する(撮影画像の取得処理を行う)。
【0110】
第1領域情報取得部23は、画像取得部22が取得した撮影画像ITP内の薬剤の領域を示す情報(第1領域情報)を取得する。この第1領域情報は、撮影画像を学習モデルの機械学習用の入力画像とした場合、学習モデルが推論する推論結果に対する正解データである。尚、正解データである第1領域情報としては、撮影画像内の薬剤の領域を示す正解画像(例えば、マスク画像)、薬剤の領域を矩形で囲むバウンディングボックス情報、及び薬剤の領域のエッジを示すエッジ情報の少なくとも1つを含むことが好ましい。
【0111】
図12は、画像取得部が取得する撮影画像及び第1領域情報取得部が取得する撮影画像内の薬剤の領域を示す第1領域情報の一例を示す図である。
【0112】
図12(A)に示す撮影画像ITPは、リフレクタを介して薬包TPを下方から照明し、カメラ12Aを用いて上方から薬包TP(図7参照)を撮影した画像である。この薬包TPには、6個の薬剤T1~T6が一包化されている。
【0113】
図12(A)に示す薬剤T1~T3は、下方からの照明光を遮光する不透明な薬剤であるため、黒く撮影されている。薬剤T4は、透明薬剤であるため、下方からの照明光が透過して白く撮影されている。薬剤T5、T6は、同一種類のカプセル剤であり、下方からの照明光の一部が漏れるため、部分的に僅かに白く撮影されている。
【0114】
図12(B)は、撮影画像ITP内の各薬剤T1~T6の領域を示す第1領域情報であり、本例ではマスク画像IMである。
【0115】
マスク画像IMは、例えば、撮影画像ITPを表示部29に表示させ、表示部29に表示された撮影画像ITPを見ながら、ユーザがマウス等のポインティングデバイスを使用して各薬剤T1~T6の領域を画素単位で塗り潰すことで作成することができる。例えば、塗り潰した各薬剤T1~T6の領域の画素値を「1」、背景の領域の画素値を「0」とすることで、2値化したマスク画像IMを作成することができる。
【0116】
尚、カプセル状の薬剤T5、T6は、同一種類であるが、インスタンス分離のために、両者の薬剤T5、T6の領域の画素値を異ならせてことが好ましい。例えば、薬剤T5の領域の画素値を「1」、薬剤T6の領域の画素値を「0.5」とすることができる。
【0117】
上記の例では、第1領域情報であるマスク画像IMは、撮影画像ITP内の各薬剤T1~T6の領域をユーザがポインティングデバイスを使用して手動で設定することで生成される領域情報であるが、これに限らず、撮影画像内の薬剤の領域を画像処理により自動で抽出して生成したものでもよいし、撮影画像内の薬剤の領域を画像処理により自動で抽出し、かつ手動で調整することで生成されたものでもよい。
【0118】
図11に戻って、学習用画像生成部30は、画像取得部22から薬剤を撮影した撮影画像ITPを入力し、入力した撮影画像ITPから薬剤を任意に配置した学習用画像(I,I,I,…)を生成する。即ち、学習用画像生成部30は、撮影画像ITPに基づいて複数の学習用画像(I,I,I,…)を生成する学習用画像生成処理を行う。
【0119】
撮影画像ITPに撮影されている薬剤の任意の配置は、ユーザがポインディンデバイスにより薬剤画像の位置や回転を指示して行うようにしてもよいし、図4を用いて説明したように撮影画像の反転や加算等により行うようにしてもよい。また、乱数を使用してランダムに薬剤画像の位置や回転を決定して、薬剤を任意に配置してもよい。この場合、薬剤画像が重ならないようにする必要がある。
【0120】
正解データ生成部32は、第1領域情報取得部23から第1領域情報であるマスク画像IMを入力し、入力したマスク画像IMから複数の学習用画像(I,I,I,…)に対応する複数の正解データ(I,I,I,…)を生成する。即ち、正解データ生成部32は、マスク画像IMに基づいて複数の学習用画像(I,I,I,…)における薬剤の領域を示す第2領域情報を生成し、生成した第2領域情報を複数の学習用画像(I,I,I,…)にそれぞれ対する複数の正解データ(I,I,I,…)とする正解データ生成処理を行う。
【0121】
尚、複数の学習用画像(I,I,I,…)、及び複数の正解データ(I,I,I,…)の生成は、シミュレーションにより学習データを作成する第1実施形態、及び第2実施形態で説明したように、薬剤を撮影した撮影画像と、その撮影画像内の薬剤の領域を示す第1領域情報(例えば、マスク画像)とを使用し、撮影画像及びマスク画像をそれぞれ同期して反転、平行移動、回転、又は拡縮等を行い、あるいは撮影画像及びマスク画像から切り出した薬剤画像及び薬剤マスク画像を平行移動、回転、又は拡縮して貼り付けることで生成することができる。
【0122】
記憶制御部34は、学習用画像生成部30により生成される学習用画像(I,I,I,…)と、正解データ生成部32により生成される正解データ(I,I,I,…)とを入力し、それぞれ対応するペア(学習用画像Iと正解データI,学習用画像Iと正解データI,学習用画像Iと正解データI,…、)からなる学習データをメモリ28に記憶させる。
【0123】
これにより、メモリ28には、多くの学習データが記憶、蓄積される。尚、図6には図示されていないが、学習用画像生成部30及び正解データ生成部32にそれぞれ入力される撮影画像ITPとマスク画像IMのペアも学習データとしてメモリ28に記憶させることが好ましい。
【0124】
図13は、図12に示した撮影画像及びマスク画像から生成した学習データの一例を示す図である。
【0125】
図13(A)は、学習用画像Iと正解データ(マスク画像)Iとのペアからなる学習データを示し、図13(B)は、学習用画像Iとマスク画像Iとのペアからなる学習データを示す。
【0126】
図13(A)に示す学習用画像Iでは、カプセル状の薬剤T5,T6が線で接触し、薬剤T2,T3,T4が互いに点で接触している。この学習用画像Iに対応するマスク画像Iは、同一の薬剤である薬剤T5,T6の領域の画素値を異ならせることで、薬剤T5,T6の領域のインスタンス分離を可能にし、かつ線で接している薬剤T5,T6の境界も区別可能にしている。
【0127】
また、マスク画像Iは、薬剤T2,T3,T4の互いに点で接触している箇所を、背景の画素値と同一とすることで、各薬剤T2,T3,T4が互いに接触しないようにし、各薬剤T2,T3,T4の領域が明確になるようにしている。
【0128】
また、図13(B)に示す学習用画像Iでは、カプセル状の薬剤T5,T6が線で接触し、薬剤T6と薬剤T3が点で接触している。この学習用画像Iに対応するマスク画像Iは、同一の薬剤である薬剤T5,T6の領域の画素値を異ならせる(例えば、薬剤T6の領域の画素値を「0.5」とする)ことで、薬剤T5,T6の領域のインスタンス分離を可能にし、かつ線で接している薬剤T5,T6の境界、及び点で接している薬剤T6と薬剤T3の境界を区別可能にしている。
【0129】
図13に示した学習データは一例であり、各薬剤T1~T6を示す薬剤画像をそれぞれ任意に平行移動及び回転等を組み合わせて配置し、各薬剤T1~T6の領域を示す薬剤マスク画像を同様に配置することで、多くの学習データを作成することができる。
【0130】
この場合、複数の薬剤画像の一部又は全部が点又は線で接触するように配置して学習データを生成することが好ましい。このような学習データにより機械学習された学習済み学習モデルが、点又は線で接触する薬剤を撮影した撮影画像を入力画像とする場合に、各薬剤の領域を正しく推論するためである。
【0131】
また、図12(A)に示した撮影画像ITPのように透明な薬剤T4が撮影されている場合、下方からの照明光が透過して白く撮影されるが、薬剤T4の位置や角度により照明光の透過状況が変化する。即ち、透明な薬剤T4の薬剤画像は、撮影領域における透明な薬剤T4の位置や角度により輝度分布等が異なる画像になる。
【0132】
したがって、透明な薬剤を含む複数の薬剤を撮影した撮影画像から、薬剤を任意に配置して学習用画像を生成する場合、透明な薬剤は移動させずに透明な薬剤以外の薬剤を任意に配置して学習用画像を生成することが好ましい。
【0133】
また、本例では、正解データとしてマスク画像を生成するようにしたが、薬剤画像の領域のエッジを示す薬剤画像毎のエッジ情報(エッジ画像)とすることができる。また、薬剤同士が点又は線で接触している場合には、点又は線で接触する箇所を背景色で置換し、薬剤毎のエッジ画像を離間させることが好ましい。
【0134】
更に、薬剤同士が点又は線で接触する場合には、点又は線で接触する箇所のみを示すエッジ画像を、正解データとして生成してもよい。
【0135】
図14は、複数の薬剤の点又は線で接触する箇所のみを示すエッジ画像の一例を示す図である。
【0136】
図14に示すエッジ画像IEは、複数の薬剤T1~T6のうちの2以上の薬剤が点又は線で接触する箇所E1、E2のみを示す画像であり、図14上で、実線で示した画像である。尚、図14上で、点線で示した領域は、複数の薬剤T1~T6が存在する領域を示す。
【0137】
線で接触する箇所E1のエッジ画像は、カプセル状の薬剤T5とT6とが線で接触している箇所の画像であり、点で接触する箇所E2のエッジ画像は、3つの薬剤T2~T4が互いに点で接触している箇所の画像である。
【0138】
学習用画像における各薬剤画像の配置は既知であるため、複数の薬剤のうちの2以上の薬剤が点又は線で接触する箇所も既知である。したがって、図11に示した正解データ生成部32は、学習用画像生成部30により生成される学習用画像に対して、点又は線で接触する箇所のみを示すエッジ画像(正解データ)を自動的に作成することができる。
【0139】
図14に示したエッジ画像IEは、図13(A)に示した学習用画像Iに対応する正解データとすることができる。即ち、図13(A)に示した学習用画像I図14に示したエッジ画像IEとのペアからなる学習データとするができる。
【0140】
このような学習データは、点又は線で接触する薬剤を撮影した薬剤画像を入力画像とし、その点又は線で接触する箇所のみのエッジ画像を推論結果として出力する学習モデルを機械学習させる場合に使用することができる。
【0141】
また、点又は線で接触する箇所のみのエッジ画像(推論結果)は、例えば、点又は線で接触する複数の薬剤を撮影した薬剤画像と、その点又は線で接触する箇所のみのエッジ画像とを入力画像(マルチチャンネルの入力画像)とし、複数の薬剤の領域を推論する学習モデルに使用することができる。この学習モデルによれば、入力画像に加えて、点又は線で接触する箇所の情報を入力するため、各薬剤の領域をより正確に推論することができる。
【0142】
[機械学習装置]
図15は、本発明に係る機械学習装置の実施形態を示すブロック図である。
【0143】
図15に示す機械学習装置50は、学習モデル(学習モデルの一つである畳み込みニューラルネットワーク(CNN:Convolution Neural Network))52と、損失値算出部54と、パラメータ制御部56とから構成される。
【0144】
この機械学習装置50は、図11に示した学習データ作成装置1により作成され、メモリ28に記憶された学習データを使用し、CNN52を機械学習させる。
【0145】
CNN52は、薬剤を撮影した撮影画像を入力画像とするとき、その入力画像に写っている薬剤の領域を推論する部分であり、複数のレイヤ構造を有し、複数の重みパラメータを保持している。重みパラメータは、畳み込み層での畳み込み演算に使用されるカーネルと呼ばれるフィルタのフィルタ係数などである。
【0146】
CNN52は、重みパラメータが初期値から最適値に更新されることで、未学習の学習モデルから学習済みの学習モデルに変化しうる。
【0147】
このCNN52は、入力層52Aと、畳み込み層とプーリング層から構成された複数セットを有する中間層52Bと、出力層52Cとを備え、各層は複数の「ノード」が「エッジ」で結ばれる構造となっている。
【0148】
入力層52Aには、学習対象である学習用画像が入力画像として入力される。学習用画像は、メモリ28に記憶されている学習データ(学習用画像と正解データとのペアからなる学習データ)における学習用画像である。
【0149】
中間層52Bは、畳み込み層とプーリング層とを1セットとする複数セットを有し、入力層52Aから入力した画像から特徴を抽出する部分である。畳み込み層は、前の層で近くにあるノードにフィルタ処理し(フィルタを使用した畳み込み演算を行い)、「特徴マップ」を取得する。プーリング層は、畳み込み層から出力された特徴マップを縮小して新たな特徴マップとする。「畳み込み層」は、画像からのエッジ抽出等の特徴抽出の役割を担い、「プーリング層」は抽出された特徴が、平行移動などによる影響を受けないようにロバスト性を与える役割を担う。
【0150】
尚、中間層52Bには、畳み込み層とプーリング層とを1セットとする場合に限らず、畳み込み層が連続する場合や活性化関数による活性化プロセス、正規化層も含まれ得る。
【0151】
出力層52Cは、中間層52Bにより抽出された特徴を示す特徴マップを出力する部分である。また、出力層52Cは、学習済みCNN52では、例えば、入力画像に写っている薬剤領域等をピクセル単位、もしくはいくつかのピクセルを一塊にした単位で領域分類(セグメンテーション)した推論結果を出力する。
【0152】
学習前のCNN52の各畳み込み層に適用されるフィルタの係数やオフセット値は、任意の初期値がセットされる。
【0153】
学習制御部として機能する損失値算出部54及びパラメータ制御部56のうちの損失値算出部54は、CNN52の出力層52Cから出力される特徴マップと、入力画像(学習用画像)に対する正解データであるマスク画像(メモリ28から学習湯尾画像に対応して読み出されるマスク画像)とを比較し、両者間の誤差(損失関数の値である損失値)を計算する。損失値の計算方法は、例えばソフトマックスクロスエントロピー、シグモイドなどが考えられる。
【0154】
パラメータ制御部56は、損失値算出部54により算出された損失値を元に、誤差逆伝播法によりCNN52の重みパラメータを調整する。誤差逆伝播法では、誤差を最終レイヤから順に逆伝播させ、各レイヤにおいて確率的勾配降下法を行い、誤差が収束するまでパラメータの更新を繰り返す。
【0155】
この重みパラメータの調整処理を繰り返し行い、CNN52の出力と正解データであるマスク画像との差が小さくなるまで繰り返し学習を行う。
【0156】
機械学習装置50は、メモリ28に記憶された学習データを使用した機械学習を繰り返すことで、CNN52が学習済みモデルとなる。学習済みのCNN52は、未知の入力画像(薬剤を撮影した撮影画像)を入力すると、撮影画像内の薬剤の領域を示すマスク画像等の推論結果を出力する。
【0157】
尚、CNN52としては、R-CNN(Regions with Convolutional Neural Networks)を適用することができる。R-CNNでは、撮影画像ITP内において、大きさを変えたバウンディングボックスをスライドさせ、薬剤が入るバウンディングボックスの領域を検出する。そして、バウンディングボックスの中の画像部分だけを評価(CNN特徴量を抽出)することで、薬剤のエッジを検出する。また、R-CNNに代えて、Fast R-CNN、Faster R-CNN、Mask R-CNN等を使用することができる。
【0158】
このようにして構成される学習済モデルの推論結果は、例えば、複数の薬剤が一包化された薬包を撮影した撮影画像から、各薬剤の画像を切り出す場合に使用することができる。尚、切り出された各薬剤の画像は、薬包に入っている各薬剤の監査・鑑別を行う場合に使用される。
【0159】
ところで、メモリ28には、前述したように薬剤を撮影した撮影画像とその撮影画像内の薬剤の領域を示す正解データとに基づいて、シミュレーションにより作成した多くの学習データが記憶されるが、撮影画像は、自薬局が取り扱っている薬剤を撮影した画像であることが好ましい。自薬局が取り扱っている薬剤を撮影した撮影画像を使用して学習データを作成し、その学習データを使用して学習モデルを構成することで、自薬局で取り扱っている薬剤の監査・鑑別を行う場合に、その学習モデルを有効に使用できるからである。
【0160】
[学習データ作成方法]
図16は、本発明に係る学習データ作成方法の実施形態を示すフローチャートである。
【0161】
図16に示す各ステップの処理は、例えば、図11に示した学習データ作成装置1のプロセッサ2により行われる。
【0162】
図16において、画像取得部22は、撮影装置10から薬剤を撮影した撮影画像ITP(例えば、図12(A)に示す撮影画像ITP)を取得する(ステップS10)。尚、図12(A)に示した撮影画像ITPは、リフレクタを介して薬包を下から照明し、薬包の上方から薬包を撮影した画像であるが、薬剤を撮影した撮影画像は上記のようにして撮影したものに限らない。また、撮影される薬剤は、薬包に入っていないものでもよいし、薬剤の個数は1個でもよい。
【0163】
また、第1領域情報取得部23は、画像取得部22が取得する撮影画像内の薬剤の領域を示す第1領域情報としてマスク画像IM(例えば、図12(B)に示すマスク画像IM)を取得する(ステップS12)。尚、マスク画像IMは、撮影画像ITPに基づいて手動又は自動で生成され、メモリ28等に記憶されたものである。
【0164】
続いて、学習用画像生成部30は、ステップS10で取得する撮影画像ITPから薬剤T1~T6を任意に配置した学習用画像を生成する(ステップS14)。学習用画像の生成は、各薬剤を示す薬剤画像を平行移動、反転、回転、又は拡縮させる画像処理により行うことができる。
【0165】
また、正解データ生成部32は、ステップS12で取得したマスク画像IMに基づいて、ステップS14で生成された学習用画像に対応する正解データ(マスク画像)を生成する(ステップS16)。即ち、ステップS16では、マスク画像IMにおける各薬剤の領域を学習用画像における各薬剤と同様に配置し、その配置した各薬剤の領域を示す第2領域情報を生成し、生成した第2領域情報を学習用画像に対する正解データ(マスク画像)とする画像処理を行う。
【0166】
記憶制御部34は、ステップS14で生成した学習用画像とステップS16で生成したマスク画像とのペアを学習データとしてメモリ28に記憶させる(ステップS18)。図13(A)及び図13(B)は、上記のようにして生成され、メモリ28に記憶される学習用画像とマスク画像のペアからなる学習データの一例を示す。
【0167】
続いて、プロセッサ2は、学習データの生成を終了するか否かを判別する(ステップS20)。例えば、ユーザからの学習データの生成終了の指示入力があった場合や、1つの撮影画像ITPとマスク画像のペアから、予め設定された規定数の学習データの作成が終了した場合を学習データの生成終了と判別することができる。
【0168】
学習データの生成を終了していないと判別されると(「No」の場合)、ステップS14、ステップS16に戻り、ステップS14~ステップS20により次の学習データを作成する。
【0169】
学習データの生成を終了すると判別されると(「Yes」の場合)、ステップS10、ステップS12で取得した撮影画像ITP,マスク画像IMに基づく学習データの作成を終了させる。
【0170】
尚、ステップS10、ステップS12において、別の撮影画像ITP,マスク画像IMが取得される場合には、その撮影画像ITP,マスク画像IMに基づく複数の学習データの作成が行われることは言うまでもない。
【0171】
[その他]
本発明に係る学習データ作成装置の、例えば、CPU24等の各種の処理を実行する処理部(processing unit)のハードウェア的な構造は、次に示すような各種のプロセッサ(processor)である。各種のプロセッサには、ソフトウェア(プログラム)を実行して各種の処理部として機能する汎用的なプロセッサであるCPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)、ASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。
【0172】
1つの処理部は、これら各種のプロセッサのうちの1つで構成されていてもよいし、同種または異種の2つ以上のプロセッサ(例えば、複数のFPGA、あるいはCPUとFPGAの組み合わせ)で構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。複数の処理部を1つのプロセッサで構成する例としては、第1に、クライアントやサーバなどのコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組合せで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第2に、システムオンチップ(System On Chip:SoC)などに代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサを1つ以上用いて構成される。
【0173】
これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路(circuitry)である。
【0174】
また、本発明は、コンピュータにインストールされることにより、本発明に係る学習データ作成装置として各種の機能を実現させる学習データ作成プログラム、及びこの学習データ作成プログラムが記録された記録媒体を含む。
【0175】
更に、本発明は上述した実施形態に限定されず、本発明の精神を逸脱しない範囲で種々の変形が可能であることは言うまでもない。
【符号の説明】
【0176】
1 学習データ作成装置
2 プロセッサ
10 撮影装置
12A、12B カメラ
13 撮影制御部
14 ステージ
16A、16B 照明装置
16A1~16A4,16B1~16B4 発光部
20 取得部
22 画像取得部
23 第1領域情報取得部
24 CPU
25 操作部
26 RAM
27 ROM
28 メモリ
29 表示部
30 学習用画像生成部
32 正解データ生成部
34 記憶制御部
50 機械学習装置
52 学習モデル(CNN)
52A 入力層
52B 中間層
52C 出力層
54 損失値算出部
56 パラメータ制御部
、I、I 学習用画像
IE エッジ画像
IM、I、I、I マスク画像(正解データ)
ITP 撮影画像
tpl テンプレート画像
S10~S20 ステップ
T、T1~T6 薬剤
TP 薬包
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16