(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-04
(45)【発行日】2024-06-12
(54)【発明の名称】内視鏡用途のための訓練データを生成するための方法、システム、及びソフトウェアプログラム製品
(51)【国際特許分類】
A61B 1/045 20060101AFI20240605BHJP
G06T 7/00 20170101ALI20240605BHJP
G06V 10/82 20220101ALI20240605BHJP
G06V 10/774 20220101ALI20240605BHJP
【FI】
A61B1/045 614
A61B1/045 618
G06T7/00 350C
G06V10/82
G06V10/774
【外国語出願】
(21)【出願番号】P 2022045617
(22)【出願日】2022-03-22
【審査請求日】2022-07-28
(31)【優先権主張番号】10 2021 107 075.9
(32)【優先日】2021-03-22
(33)【優先権主張国・地域又は機関】DE
(73)【特許権者】
【識別番号】591228476
【氏名又は名称】オリンパス ビンテル ウント イーベーエー ゲーエムベーハー
【氏名又は名称原語表記】OLYMPUS WINTER & IBE GESELLSCHAFT MIT BESCHRANKTER HAFTUNG
(74)【代理人】
【識別番号】110000578
【氏名又は名称】名古屋国際弁理士法人
(72)【発明者】
【氏名】トルシュテン ユルゲンス
【審査官】佐藤 秀樹
(56)【参考文献】
【文献】米国特許出願公開第2020/0372180(US,A1)
【文献】特開2007-044239(JP,A)
【文献】特開2012-217631(JP,A)
【文献】国際公開第2019/244896(WO,A1)
【文献】米国特許出願公開第2021/0012032(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
A61B 1/00-1/32
G06T 1/00-7/90
(57)【特許請求の範囲】
【請求項1】
内視鏡用途のための訓練データ(12)を生成するための方法であって、内視鏡手術又は内視鏡検査から保存された個人の画像及び/又はビデオデータ(
10
1
,10
2
,..,10
N
)を機械学習用の訓練データ(12)として作成することを含み、
a)前記個人の画像及び/又はビデオデータ(
10
1
,10
2
,..,10
N
)は、まず、画像認識アルゴリズム(102,202,203,204)にかけられて、それにより、
i)前記個人の画像及び/又はビデオデータ(
10
1
,10
2
,..,10
N
)の記録が体内でキャプチャされたのか、又は体外でキャプチャされたのかと、
ii)前記個人の画像及び/又はビデオデータ(
10
1
,10
2
,..,10
N
)にテキスト情報及び/又は顔が含まれているか否かと、が検出され、
b)前記個人の画像及び/又はビデオデータ(
10
1
,10
2
,..,10
N
)は、次いで、画像処理アルゴリズム(104,210,214)にかけられて、それにより、方法ステップ
a)における前記画像認識アルゴリズム(102,202,203,204)の結果に応じて、
i)前記個人の画像及び/又はビデオデータ(
10
1
,10
2
,..,10
N
)のそれぞれの前記記録が体外でキャプチャされた場合は、テキスト情報及び顔が存在していればそれらをぼかす又は除去することで、前記個人の画像及び/又はビデオデータ(
10
1
,10
2
,..,10
N
)が匿名化されるとともに、
ii)前記個人の画像及び/又はビデオデータ(
10
1
,10
2
,..,10
N
)のそれぞれの前記記録が体内でキャプチャされた場合は、テキスト情報が存在していればその全てをぼかす又は除去することで、前記個人の画像及び/又はビデオデータ(
10
1
,10
2
,..,10
N
)が匿名化され、
方法ステップb)i)において、前記個人の画像及び/又はビデオデータ(
10
1
,10
2
,..,10
N
)は、その全体、又はテキスト情報及び/又は顔が検出された領域(20)においてのみ局所的に、テキスト情報及び顔をぼかす又は除去するため
に着色され、
方法ステップb)ii)において、テキスト情報をぼかす又は除去するために、テキスト情報を含む画像領域(20)のみ
が着色され、
前記画像の全体又は非表示すべき前記画像領域(20)の前記着色は、着色する前記画像領域の標準配色に合う色での塗りつぶしにより行われ、
前記標準配色は、前記テキストと明確に関連付けられる画素を除いて決定される、
方法。
【請求項2】
方法ステップa)ii)において、一般的なテキストと個人を特定するテキストとが区別され、
特に、患者の名前、ID、若しくは生年月日、担当医師の名前若しくはID、手術日、又は個人を直接的又は非直接的に特定し得るその他の情報を含むテキストは、個人を特定するテキストであると考えられる、ことを特徴とする請求項1に記載の方法。
【請求項3】
匿名化される顔に加えて
、前記着色は、不明瞭化又は前記色付けは個人を特定するテキストに関してのみ施され、一般的なテキストに関しては施されない、ことを特徴とする請求項2に記載の方法。
【請求項4】
方法ステップb)における前記画像処理の前記結果は、元の個人の画像及び/又はビデオデータ(
10
1
,10
2
,..,10
N
)に代えて又は加えて保存される、ことを特徴とする請求項1から3のいずれか1項に記載の方法。
【請求項5】
方法ステップa)の前記画像認識アルゴリズム(102,202,203,204)、特に前記個人の画像及び/又はビデオデータ(
10
1
,10
2
,..,10
N
)が体内でキャプチャされたか、又は体外でキャプチャされたかの前記検出、テキストの存在及び内容、及
び着色される前記領域(20)の前記特定に関しては、1つ又は複数の訓練されたニューラルネットワークに基づく、ことを特徴とする請求項1から4のいずれか1項に記載の方法。
【請求項6】
内視鏡用途のための訓練データ(12)を生成するためのシステム(100)であって、
内視鏡手術又は内視鏡検査からの個人の画像及び/又はビデオデータ(
10
1
,10
2
,..,10
N
)を有する大容量記憶装置(112)と、
請求項1から5のいずれか1項に記載の方法における画像認識アルゴリズム(102,202,203,204)及び画像処理アルゴリズム(104,210,214)を作動させるデータ処理ユニット(110)と、を備え、
前記データ処理ユニット(110)は、前記個人の画像及び/又はビデオデータ(
10
1
,10
2
,..,10
N
)を、前記画像認識アルゴリズム(102,202,203,204)と、前記画像処理アルゴリズム(104,210,214)とにかけるとともに、前記処理された個人の画像及び/又はビデオデータ(
10
1
,10
2
,..,10
N
)を訓練データ(12)として、前記大容量記憶装置(112)に保存するように設計且つ構成される、システム。
【請求項7】
プログラムコード手段を備えるソフトウェアプログラム製品であって、
前記プログラムコード手段は、請求項6に記載のシステム(100)のデータ処理ユニット(110)で動作するとき、前記システム(100)の前記大容量記憶装置(112)から個人の画像及び/又はビデオデータ(
10
1
,10
2
,..,10
N
)を呼び出し、前記個人の画像及び/又はビデオデータ(
10
1
,10
2
,..,10
N
)を前記画像認識アルゴリズム(102,202,203,204)と、前記画像処理アルゴリズム(104,210,214)と、にかけるとともに、前記処理された個人の画像及び/又はビデオデータ(
10
1
,10
2
,..,10
N
)、を訓練データ(12)として、前記大容量記憶装置(112)に保存するように前記データ処理ユニット(110)を構成する、ソフトウェアプログラム製品。
【発明の詳細な説明】
【発明の詳細な説明】
【0001】
[説明]
本発明は、内視鏡用途のための訓練データを生成するための方法、システム、及びソフトウェアプログラム製品であって、内視鏡手術又は内視鏡検査から保存された個人の画像及び/又はビデオデータが、機械学習用途のための訓練データとして作成されるものである。
【0002】
内視鏡手術としては、特殊な例として腹腔鏡手術も含まれており、映像技術を伴うことが多くなっている。そのため、ビデオヘッドを備える内視鏡であって、そのビデオヘッドが内視鏡に装着可能であり、対応する部品を備え、内視鏡の接眼レンズ又はその腹腔鏡の同等物からの光をそれぞれ受光して処理するものはもちろんのこと、1つ又は複数の画像センサと読み出し電子装置とを含むビデオユニットが内蔵されたビデオ内視鏡も使用される。これらのビデオ内視鏡器具によれば、ビデオデータや個人の画像(必要な場合)がキャプチャされ、表示され、保存され、そして処理される。これらのビデオデータ及び個人の画像は、手術又は検査を行う医師に対して直接表示されるだけでなく、その後の病変の診断、組織の異常変化、疾患等のための文書作成、及びデータベースとして用いられる。
【0003】
内視鏡介入によるビデオデータを、それぞれ手術中又は検査中に評価するとともに、画像評価の結果を、内視鏡システムの作動パラメータを直接制御するために利用する用途が存在する。例えば、本出願人によるドイツ特許出願第10 2020 105 835.7号は、HF外科的処置を支援する方法であって、内視鏡HF器具のHF電極により、組織を切除する又は凝固させる方法を開示している。この方法では、様々な組織型に対して、組織型に適した様々なHFモードが利用可能である。内視鏡HF器具には、光学取り込み装置が搭載され、その視野は、HF電極により治療される組織に対して方向付けられている。それぞれ、組織治療の直前又はその最中に、治療対象の組織の組織型の光学分類が行われるとともに、検出された組織型に適したHFモードが設定される。
【0004】
本出願人によるドイツ特許出願第10 2020 116 473.4号には、内視鏡で撮像する方法が記載されている。該方法において、白色光画像が、ビデオ内視鏡により白色光照明を用いてキャプチャされる。そして、白色光画像は、画像評価ユニットにより、少なくとも1つの予め定められた特徴を有する少なくとも1つの構造の存在について、リアルタイムで評価される。画像評価ユニットが白色光画像において対応する構造の存在を検出した場合は、特殊光を利用して特殊光照明が生成される。その特殊光照明を用いてビデオストリームの画像がキャプチャされ、画像に画像処理が施される。
【0005】
本出願人によるドイツ特許出願番号第10 2021 101 410.7号は、さらに、HF手持手術器具を用いた外科的HF処置の際において外科的HF生成器を制御する方法に関するものである。なお、術野は、一連の画像を記録するビデオ内視鏡により監視される。記録された画像は、リアルタイムで自動画像認識されて、1つ又は複数の構造型に属する構造及び/又は1つ又は複数の手術状況の種類に属する手術状況について評価される。予め定められた構造又は手術状況が検出された場合は、HF生成器の1つ又は複数の動作パラメータ及び/又は動作モードの変更が提案されて実行される。
【0006】
ビデオ内視鏡検査におけるこれらの画像認識用途のなかには、機械学習の事例に基づくものがある。例えば、これに限らないが、以下で「ニューラルネットワーク」と省略して称される、人工ニューラルネットワークの訓練に基づくものである。このようなニューラルネットワーク、特に、畳み込みニューラルネットワーク(CNNs)は、画像における構造又は物体の迅速な認識に特によく適している。そのため、畳み込みニューラルネットワークは、それぞれ訓練画像又は訓練ビデオを用いて訓練され、訓練画像又は訓練ビデオの一部は、後に使用される際に認識される構造を示す。訓練が計算集約的な処理である一方で、画像処理はニューラルネットワークにより非常にすばやく行われて、リアルタイムでの画像分析を可能にする。
【0007】
本明細書で明らかにされる用途は、様々な方法で実施され得る。例えば、使用事例ごとに別々のニューラルネットワークを訓練させてもよい。しかしながら、内視鏡手術や内視鏡介入の際に非常に類似した画像が発生することから、互いに密接に関連したニューラルネットワークに基づいて、様々な用途について実施することも可能である。これらの密接に関連したニューラルネットワークは、非常に簡略化させて言うと、まず画像やビデオデータといった共通の基準に基づいて訓練させて、そこからコピーが様々な用途のために区別されてさらに訓練されるニューラルネットワークに基づくものである。
【0008】
医療用途、特に内視鏡用途のためにニューラルネットワークを訓練する際の根本的な問題は、入手可能な訓練データが不足していることである。したがって、基本的な訓練は、通常は、より容易に入手可能な画像データを用いて行われる。より容易に入手可能な画像は、日用品、動物、植物、及び人の画像であってもよいが、それだけでなく、内視鏡手術及び/又は内視鏡検査の画像に、人が判断した分類をメタデータとして加えたものであってもよい。この最初の訓練は、以前に手作業で編集されたメタデータに存在する画像データの特定の特徴を記載するのに適した分類指標の初期セットを用いて、「ディープラーニング」として監視下又は非監視下で行われてもよい。入力側のより深いニューロン層の構造は、訓練のために用いられる画像資料に適合している。出力側の上部のニューロン層は、訓練の基礎となる上述の初期の分類のための分類指標を形成する。
【0009】
非医療画像で訓練されたネットワークを、内視鏡画像を用いてさらに訓練することができる。その場合、全て又はより計算量の少ない上位層のみを最適化のために解放して、下位層は凍結したままとする。
【0010】
ニューラルネットワークについて内視鏡画像を用いた初期訓練が行われると、様々な問題や用途にさらに適応させることができる。そのために、ニューラルネットワークの下位層は凍結されて、分類指標を形成する最上位層のみが凍結を解除されるので、その結果、特定の用途に必要な特定の組織型や手術状況等の新しい分類指標で、最上位層を訓練することができる。この後続の訓練は、通常は監視されており、元のニューラルネットワークから派生して、訓練された用途に対して好結果を生むニューラルネットワークをもたらす。それゆえ、得られたニューラルネットワークは、繰り返し非常に簡略化して述べるが、同一の下位層を有し、上位分類層だけが異なる。
【0011】
上述のとおり、内視鏡用途に関するニューラルネットワークの訓練は、訓練データ不足という問題に直面している。入手可能となった手術記録や検査記録を分類することができる訓練された専門家が不足していることに加え、プライバシー規制を遵守する必要があることがさらなる妨げとなっている。機械学習のための訓練データは、特定の個人との関連付けが可能ないかなる情報も含んではならない。これは、患者も医師も特定できないことを意味している。しかしながら、内視鏡手術や内視鏡検査の個人の画像及びビデオ記録の多くには、患者名、病院名、機器名称、担当医名、手術日等を含む様々テキストコンポーネントが背後に表示されている。このような画像データは、訓練データとして使用することはできない。
【0012】
さらに、手術又は検査の前後において内視鏡でキャプチャされた画像データに、患者やその他の人物の顔が表示されていることで、その人物たちの身元もさらしてしまうことが起こり得る。
【0013】
本発明の目的は、それゆえ、内視鏡手術及び内視鏡検査からの画像データの任意選択に基づいて、内視鏡用途のための訓練データの生成を容易にすることである。
この目的は、内視鏡用途のための訓練データを生成するための方法であって、内視鏡手術又は内視鏡検査から保存された個人の画像及び/又はビデオデータが機械学習用途のための訓練データとして作成される方法により達成される。該方法において、
a)個人の画像及び/又はビデオデータは、まず画像認識アルゴリズムにかけられて、その画像認識アルゴリズムで、
i)個人の画像及び/又はビデオデータの記録が体内でキャプチャされたのか、又は体外でキャプチャされたのか、並びに、
ii)個人の画像及び/又はビデオデータにテキスト情報及び/又は顔が含まれているか否か、が検出される。
【0014】
b)個人の画像及び/又はビデオデータは、次いで、画像処理アルゴリズムにかけられる。その画像処理アルゴリズムで、方法ステップa)i)の画像認識アルゴリズムの結果に応じて、
i)個人の画像及び/又はビデオデータのそれぞれの記録が体外でキャプチャされた場合は、テキスト情報及び顔が存在していればそれらをぼかす又は除去することにより個人の画像及び/又はビデオデータを匿名化し、
ii)個人の画像及び/又はビデオデータのそれぞれの記録が体内でキャプチャされた場合は、テキスト情報が存在していればその全てをぼかす又は除去することにより個人の画像及び/又はビデオデータを匿名化する。
【0015】
本発明は、内視鏡からの画像データが体内でキャプチャされたか、又は体外でキャプチャされたかを区別することは、機械学習用途のための訓練データを生成するための画像データの処理において、有益であるとの理解に基づいている。なぜならば、特定の状況においてのみ特定の画像認識アルゴリズムを用いることができるため、それによって処理スピードを向上させることができるためである。
【0016】
画像認識アルゴリズム自体は、まず、個人の画像及び/又はビデオデータの記録が体内でキャプチャされたか又は体外でキャプチャされたか、並びに、その中にテキスト情報及び/又は顔が含まれているか否か、を検出する。その後の画像処理は、記録が体内から生じたものか、又は体外から生じたものかの結果に応じて行われ、その結果、記録が体内からのものである場合はテキスト情報のみを考慮する必要があり、記録が体外からのものである場合は、顔をぼかす又は除去する必要が同様にある。
【0017】
同様に、記録が体外から生じたものか、又は体内から生じたものかの検出は、この区別のために訓練された訓練済みのニューラルネットワークに基づくものであってもよい。また、従来の画像認識アルゴリズムでは、体内から撮影された画像と同様に、例えば、照度分布に基づいて、写真の外縁が中央よりも明るいか否かを検出することができる。また、主に赤色は、画像が体内から生じたものであることを示すことがある。さらには、直線や縁等の人工的な構造物は、画像が体外で生じたものであることを示す。
【0018】
実施形態において、方法ステップb)i)では(つまり、記録が体外からのものである場合)、個人の画像及び/又はビデオデータの全体、又はそのうちのテキスト情報及び/又は顔が検出された局所的な領域のみが、テキスト情報及び顔をぼかす又は除去するためにぼかされるか又は着色される。通常は、テキスト情報及び/又は顔が検出された領域のみを局所的にぼかす又は着色することが好ましい。しかしながら、例えば、影響を受けた領域が画像の大半を占めるといった特定の場合では、画像全体をぼかす又は着色するほうが容易であることもある。この場合、訓練のための情報の損失は小さい。さらには、実施形態において、方法ステップb)ii)では(つまり、記録が体内からのものである場合)、文字情報を含む領域のみが、文字情報をぼかす又は除去するためにぼかされるか又は着色される。
【0019】
画像全体又は非表示とすべき画像領域の着色は、黒塗り、白塗り、又は着色する画像領域の標準配色に合う色での塗りつぶしにより、様々な形態で行うことができる。標準配色は、特に、テキストと明確に関連付けられる画素を除いて決定される。影響を受けた領域を黒塗り又は白塗りすることで、その領域が変化したことが一目瞭然となる。標準的な背景色で着色すると、この変化が目立たなくなり、ニューラルネットワークの訓練への影響がより小さくなってしまう。標準的な背景色もまた、テキストと明確に関連付けられる画素を除いて決定されるという特徴により、この領域が、テキストの黒色又は白色画素に影響されて、変化した領域の周囲の背景と比較して暗くなる又は明るくなることが抑制される。このことは、テキストが黒色又は白色以外の色を有する場合にも当てはまる。例えば、テキストが画像に重ねられた際に、画像の残りの部分との色彩コントラストが特に良くなり、それゆえ読みやすくなる場合である。
【0020】
さらなる発展形態では、方法ステップa)ii)において、一般的なテキストと、個人を特定するテキストとが区別されるものとする。特に、患者の名前、ID、若しくは生年月日、担当医の名前若しくはID、手術日、又は個人を直接的又は間接的に特定してしまうその他の情報を含むテキストが、個人を特定するテキストであると考えられる。これは、個人を特定しない一般的なテキストは、訓練データに残り得ることを意味している。それゆえ、ニューラルネットワークは、テキストを伴う画像について、所望の分類分けを行う際にそれらに惑わされることなく、どのように扱うかについても学習する。
【0021】
このような場合、訓練されたニューラルネットワークの一部は、例えば、画像のなかの様々な日付フォーマット又は特定の情報の典型的な配置を含む連続した文字を認識することができる。その結果、これらの領域について、匿名化すべき情報又は無害な情報が含まれる可能性が割り当てられる。
【0022】
したがって、実施形態では、画像データの処理の際に、匿名化される顔に加えて、個人を特定するテキストのみに関してぼかし又は着色が適用されるが、一般的なテキストに関しては適用されない。
【0023】
様々な実施形態において、画像処理の結果は、元の個人の画像及び/又はビデオデータに代えて又は加えて方法ステップb)で保存される。元のデータの代わりに保存すると、容量が少なくて済むという利点がある。保存されたデータは、すでに、機械学習のために生成される訓練データである。元の画像データに加えて保存することで、結果を確認して元のものと比較することができる。結果が不十分である場合は、必要であれば変更したパラメータを用いて、処理を再度実行することが可能である。特に、例えば、システマティックな誤りが検知された場合、訓練データを生成する工程を改良するために、元の画像データのメタデータにおける分類を適用する又は拡大することができる。
【0024】
実施形態では、方法ステップa)の画像認識アルゴリズム、特に個人の画像及び/又はビデオデータが体内でキャプチャされたか、又は体外でキャプチャされたかの検出に関連して、テキストの存在及び内容、並びにぼかす又は着色する領域の特定は、1つ又は複数の訓練されたニューラルネットワークに基づく。
【0025】
本発明の目的は、内視鏡用途のための訓練データを生成するためのシステムによっても実現される。該システムは、内視鏡手術又は内視鏡検査からの個人の画像及び/又はビデオデータを含む大容量記憶装置と、データ処理ユニットと、を備える。データ処理ユニットは、個人の画像及び/又はビデオデータを、本発明による前述の方法の方法ステップa)による画像認識アルゴリズムと、本発明による前述の方法の方法ステップb)による画像処理アルゴリズムと、にかけるとともに、処理された個人の画像及び/又はビデオデータを訓練データとして、特に大容量記憶装置に保存するように設計且つ構成される。
【0026】
それゆえ、システムは、前述の本発明による方法と同様の特性、特徴、及び利点を実現する。
本発明の目的は、プログラムコード手段を備えるソフトウェアプログラム製品によってもさらに実現される。該プログラムコード手段は、前述の本発明によるシステムのデータ処理ユニットで動作するとき、システムの大容量記憶装置から個人の画像及びビデオデータを呼び出し、それらを、前述の本発明による方法の方法ステップa)による画像認識アルゴリズムと、前述の本発明による方法の方法ステップb)による画像認識アルゴリズムと、にかけるとともに、処理された個人の画像及びビデオデータを、訓練データとして、特に大容量記憶装置に保存するようにシステムのデータ処理ユニットを構成する。
【0027】
それゆえ、本発明によるソフトウェアプログラム製品もまた、前述の本発明の主題と同様の特性、特徴、及び利点を実現する。前述の本発明によるデータ処理ユニットのためのソフトウェアプログラム製品を呼び出して実行可能に保存する、書き換え可能又は一度だけ書き換え可能な保存媒体についても同様のことが言える。
【0028】
本発明のさらなる特徴は、特許請求の範囲及び添付の図面と共に、本発明による実施形態の説明から明らかになるであろう。本発明による実施形態は、個々の特徴、又はいくつかの特徴の組み合わせを実現し得る。
【0029】
本発明の文脈の範囲において、「特に」又は「好ましくは」が付された特徴は、選択的な特徴であると解される。
本発明は、本発明の概念を限定することなく、例示的な実施形態に基づいて図面を参照して以下に説明され、これにより、文面でより詳細に説明されない本発明による全ての詳細の開示に関して、図面を例示的に参照する。
【図面の簡単な説明】
【0030】
【
図2】内視鏡により体内でキャプチャされた画像の例示的な略図を示す。
【
図3】内視鏡により体外でキャプチャされた画像の例示的な略図を示す。
【
図4】本発明による方法のおおまかなフローの略図を示す。
【
図5】本発明による方法の一部の詳細な略図を示す。
【発明を実施するための形態】
【0031】
図面において、同一又は類似の要素及び/又は部品には、それぞれ、同一の参照符号が付されているため、それぞれ、再度の説明は省略される。
図1は、内視鏡用途のための訓練データを生成するためのシステム100を概略的に示している。システム100は、基本的には、データ処理ユニット110と、大容量記憶装置112とを備え、これらは、互いにデータのやりとりを行う。大容量記憶装置112は、データ処理ユニット110の一部であってもよいし、局所に設けられた大容量記憶システムであってもよく、例えば、ネットワーク接続ストレージ(NAS)や、クラウド上の大容量記憶システムである。
【0032】
大容量記憶装置112には、手術中又は検査中に内視鏡によりキャプチャされた複数の個人の画像及び/又はビデオデータが保存されており、それらにより、訓練データが、内視鏡検査の画像評価分野において様々に適用するための機械学習の基礎として生成される。大容量記憶装置112は、訓練されたニューラルネットワークの例や、データ処理ユニット110から呼び出されて、最適化された後に大容量記憶装置112に保存されて戻される訓練対象のニューラルネットワークも保存することができる。データ処理ユニット110は、個人の画像及び/又はビデオデータの処理済みの画像データを、訓練データとして、大容量記憶装置112に保存することもできる。
【0033】
データ処理ユニット110は、コンピュータであってもよいし、互いに通信し合う複数のコンピュータを備えるシステムであってもよい。或いは、クラウドサービス、つまりはクラウド型のサーバであってもよい。以下に記載する本発明による方法を実行するソフトウェアは、データ処理ユニット110で動作する。
【0034】
図2及び
図3は、画像データ10
1及び画像データ10
2の2つを例示している。画像10
1は、内視鏡が患者の体腔から表示することができる様子を概略的に示している。この場合、腸や胃等であってもよい。特殊な腹腔鏡撮影の場合は、腹腔の様子であってもよい。左下の角にある領域20には、テキスト情報が表示される。テキスト情報は、例えば、患者又は手術技師等の関係者について判断することが可能な、患者データや手術データ等を表示することが可能である。
【0035】
しかしながら、概して、画像101は、内視鏡からの画像データが大半を占めているため、訓練データを生成することに適している。そのため、テキスト情報は匿名化されなければならない。
【0036】
図3に示す画像10
2は、概略的に、手術の周囲状況の光景を示したものであり、それゆえ、内視鏡は患者の体腔に未だ挿入されていないか、又はもう挿入されていない状況である。画像10
2は、手術室の構造とともに、手術に関与する3名を示している。担当者は手術用マスクを着用しているが、より近くで見ると判別可能である。この画像にはテキスト情報は含まれてはいないが、テキスト情報を画像の背後に表示させることもできる。
【0037】
表示される人物の頭部が大半を占めている画像102の画像データについては、訓練データから完全に除外することが有益である場合もある。しかしながら、画像が体内から生じたものか、又は体外から生じたものかを区別できるようにすることは、訓練されるニューラルネットワークにとって関連性のあることでもある。そのため、体外からの訓練画像もまた、必要である。画像102の場合、写し出された人物の顔を、例えば、対応する画像領域にぼかしフィルタを適用するか、又は着色することにより、認識不可能にする必要がある。
【0038】
図4は、本発明による方法のフロー図を概略的に示している。
図1に示す大容量記憶装置112に保存された画像データ10
1、10
2、10
3、・・・10
Nは、システム100のための入力の役割を果たし、そのシステム100において、画像認識アルゴリズム102及び画像処理アルゴリズム104が、
図1に示すデータ処理ユニット110で、各画像データ10
1、10
2、10
3、・・・10
Nに対して作動する。画像認識アルゴリズム102は、画像データ10
1、10
2、10
3、・・・10
Nを備える画像が、体内から生じたものであるか、又は体外から生じたものであるかと、その中に顔及び/又はテキスト情報が存在しているか否かと、を確立する。所望であれば、特定された任意のテキスト情報により関係人物を特定できるか否かについて、確立可能であってもよい。そのために、テキスト情報が、対応する判断を可能にする選択パターンの1つに合致するか否かについて確認され、例えば、日付フォーマット又は名前フォーマットを有するか否かである。
【0039】
画像処理アルゴリズム104において、画像データ101、102、103、・・・10Nは、画像認識アルゴリズム102の結果を用いて処理されて、特定された領域や、必要に応じて画像全体が、適切な手段でぼかされるか又は着色される。得られた処理済み画像は、訓練データ12として、大容量記憶装置112に再度保存される。或いは、例えば、別の大容量記憶装置等の別の場所に保存してもよい。
【0040】
図5は、より詳細に本方法の主要部分を示している。方法ステップ200では、それぞれ、大容量記憶装置112に保存された画像のうちの1つに由来する画像データ10
1、10
2、10
3、・・・10
Nが、最初に保存された画像の画像データ10
1から始まり、次々にデータ処理ユニット110に読み込まれる。方法ステップ202では、画像データ10
1、10
2、10
3、・・・10
Nは、画像認識アルゴリズムにかけられて、それにより、画像が体外から生じたものであるか、又は体内から生じたものであるかが確立される。結果は、中間結果として保存される。次いで、方法ステップ204では、同じ画像が画像認識アルゴリズムにかけられて、その画像認識アルゴリズムが、画像におけるテキスト情報の存在を検出して、対応する領域をマークする。画像認識は、結合すると画像認識アルゴリズムとなる複数の独立したアルゴリズムに基づいていてもよい。或いは、位置及びテキストの画像認識を、ステップ202及びステップ204を組み合わせた共同の方法ステップ203で行ってもよい。
【0041】
取り込まれた画像の画像データ10
1、10
2、10
3、・・・10
Nについて画像認識が完了すると、画像は、
図4の画像処理アルゴリズム104に対応して処理される。これには、決定ステップ206において、画像が体内から生じたものか、又は体外から生じたものかをまず決定することが含まれる。このため、方法ステップ202の中間結果が用いられる。画像が体外から生じたものである場合(「out:外」)、さらなる方法ステップ208、210である左側の分岐が選択される。決定ステップ208では、テキスト情報及び/又は顔が画像に存在しているか否かが問われる。テキスト情報及び/又は顔が存在している場合(「yes:はい」)は、方法ステップ210において、画像のテキスト情報及び/又は顔が含まれる領域がぼかされるか若しくは除去され、又は必要に応じて、画像全体がぼかされるか又は着色される。結果は、保存される。次いで、方法は、方法ステップ200に戻り、そこで次の画像の画像データが取り込まれる。
【0042】
決定ステップ208が、画像にテキストも顔も存在しないという結果になった場合は、分岐「no:いいえ」が選択されて、アルゴリズムは、直ちに方法ステップ200により最初に戻る。画像自体は、訓練データの一部として保存される。方法ステップ200では、次の画像の画像データ101、102、103、・・・10Nが取り込まれて、画像認識処理及び画像処理にかけられる。
【0043】
決定ステップ206において、画像が体内から生じたものであることが確立された場合(「in:内」)、画像にテキストが存在するか否かの決定ステップ212が実行される。これは、テキストに関する画像認識アルゴリズム204の結果である。テキストが存在する場合(分岐:yes:はい)、方法ステップ214において、画像のテキスト領域はぼやかされる又は除去される。処理された画像は、訓練データとともに保存される。そして、アルゴリズムは、方法ステップ200に戻り、そこで次の画像の画像データが、大容量記憶装置112から取り込まれる。
【0044】
しかしながら、画像にテキストが存在するか否かの決定212が、テキストは存在しないという結果になった場合(「no:いいえ」)、アルゴリズムは、直ちに方法ステップ200へ戻り、次の画像のデータが取り込まれる。これは、まだ処理されていない個人の画像データ及び/又はビデオデータの全ての画像データがこのように処理されるまで実行される。
【0045】
画像データ101、102、103、・・・10Nを厳密に順次に処理していく代わりに、複数の画像の並行処理を同時に実行することもでき、それにより、保存された全ての画像の画像データ101、102、103、・・・10Nを処理するのに要する時間を大幅に削減することができる。
【0046】
得られた保存済みの訓練データは、完全に匿名化されているため、ニューラルネットワークや他の機械学習の例での使用に適しており、内視鏡手術及び内視鏡検査のための特定用途を支援するために使用される。例えば、HFモードに適合させるため、又は特定の検査において特殊光照明の使用が必要であるかを自動的に認識してそれを自動的に実行するために、ある瞬間にどのような種類の組織が存在しているかを問題にしてもよい。
【0047】
他の特徴と組み合わせて開示される個々の特徴だけでなく、図面のみから暗示される特徴を含む全ての言及された特徴は、単独でも、組み合わせても、本発明にとって必須であると考えられる。本発明による実施形態は、個々の特徴又はいくつかの特徴の組み合わせによって実現され得る。
【符号の説明】
【0048】
101,102,..,10N…画像データ、12…訓練データ、20…テキスト情報を含む領域、100…システム、102…画像認識アルゴリズム、104…画像処理アルゴリズム、110…データ処理ユニット、112…大容量記憶装置、200…読み込み画像データ、202…位置に関する画像認識アルゴリズム、203…位置及びテキストに関する画像認識アルゴリズム、204…テキストに関する画像認識アルゴリズム、206…判定:体内からの画像か、又は体外からの画像か、208…判定:画像にテキスト及び/又は顔があるか?、210…テキスト及び/又は顔をぼかす/除去し、保存、212…判定:画像にテキストがあるか?、214…テキストをぼかす/除去し、保存