IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ コスモ アーティフィシャル インテリジェンス−エーアイ リミティドの特許一覧

特表2023-511810コンテキスト化された画像解析用のシステムおよび方法
<>
  • 特表-コンテキスト化された画像解析用のシステムおよび方法 図1
  • 特表-コンテキスト化された画像解析用のシステムおよび方法 図2A
  • 特表-コンテキスト化された画像解析用のシステムおよび方法 図2B
  • 特表-コンテキスト化された画像解析用のシステムおよび方法 図3
  • 特表-コンテキスト化された画像解析用のシステムおよび方法 図4
  • 特表-コンテキスト化された画像解析用のシステムおよび方法 図5
  • 特表-コンテキスト化された画像解析用のシステムおよび方法 図6
  • 特表-コンテキスト化された画像解析用のシステムおよび方法 図7A
  • 特表-コンテキスト化された画像解析用のシステムおよび方法 図7B
  • 特表-コンテキスト化された画像解析用のシステムおよび方法 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-03-23
(54)【発明の名称】コンテキスト化された画像解析用のシステムおよび方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20230315BHJP
   G06V 10/82 20220101ALI20230315BHJP
【FI】
G06T7/00 350C
G06V10/82
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022529511
(86)(22)【出願日】2021-01-29
(85)【翻訳文提出日】2022-05-18
(86)【国際出願番号】 EP2021052215
(87)【国際公開番号】W WO2021156159
(87)【国際公開日】2021-08-12
(31)【優先権主張番号】62/969,643
(32)【優先日】2020-02-03
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.ANDROID
2.BLACKBERRY
3.WINDOWS
4.UNIX
5.SOLARIS
6.VXWORKS
7.iOS
8.CHROME
9.WINDOWS XP
(71)【出願人】
【識別番号】520492282
【氏名又は名称】コスモ アーティフィシャル インテリジェンス-エーアイ リミティド
(74)【代理人】
【識別番号】110000659
【氏名又は名称】弁理士法人広江アソシエイツ特許事務所
(72)【発明者】
【氏名】ケルビーニ,アンドレア
(72)【発明者】
【氏名】ゴ ディン,ナン
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096BA06
5L096BA13
5L096CA21
5L096DA01
5L096FA59
5L096FA77
5L096GA51
5L096HA11
5L096KA04
5L096MA07
(57)【要約】
一実施態様では、リアルタイム映像処理用の計算機実装されたシステムが提供される。このシステムは、命令を記憶するように構成される少なくとも1つのメモリと、命令を実行して操作を実行するように構成される少なくとも1つの処理装置とを含む。少なくとも1つの処理装置は、医療用画像システムによって生成されて複数の画像フレームを含むリアルタイム映像を受信するように、そして医療用画像システムとのユーザの対話を指示するコンテキスト情報を得るように構成される。また、少なくとも処理装置は、複数の画像フレーム内の少なくとも1つのオブジェクトを検出するオブジェクト検出を実行するように、そして複数の画像フレーム内の少なくとも1つのオブジェクトに対する分類情報を生成する分類を実行するように構成される。さらに、少なくとも1つの処理装置は、受信されたリアルタイム映像を修正する映像操作を、オブジェクト検出および分類の少なくとも一方に基づいて実行するように構成される。さらに、処理装置は、オブジェクト検出、分類、およびコンテキスト情報に基づく映像操作の、少なくとも1つを呼び出すように構成される。
【選択図】 図3
【特許請求の範囲】
【請求項1】
命令を記憶するように構成される少なくとも1つのメモリと;
医療用画像システムによって生成されて複数の画像フレームを含むリアルタイム映像を受信すること;および
前記医療用画像システムによって生成されたリアルタイム映像を受信している間に:
前記医療用画像システムとのユーザの対話を指示するコンテキスト情報を得ること;
前記複数の画像フレーム内の少なくとも1つのオブジェクトを検出するオブジェクト検出を実行すること;
前記複数の画像フレーム内の前記少なくとも1つの検出されたオブジェクトに対する分類情報を生成する分類を実行すること;
前記受信されたリアルタイム映像を、前記オブジェクト検出および前記分類の少なくとも一方に基づいて修正する画像修正を実行して、前記画像修正を伴うリアルタイム映像の表示体を映像表示装置上で生成すること、
を含む操作を実行する命令を実行するように構成される少なくとも1つの処理装置と、
を含む、計算機実装されたリアルタイム映像処理用のシステムであって;
前記コンテキスト情報に基づいて前記オブジェクト検出および前記分類の少なくとも一方を呼び出すように、前記少なくとも1つの処理装置がさらに構成される、システム。
【請求項2】
前記オブジェクト検出および前記分類の少なくとも一方が、前記医療用画像システムから受信されたフレームを処理するよう訓練された少なくとも1つのニューラルネットワークを適用することによって実行される、請求項1に記載のシステム。
【請求項3】
前記ユーザが、前記医療用画像システムと対話し前記オブジェクトを同定しようとしていることを前記コンテキスト情報が指示する場合に、前記オブジェクト検出を呼び出すように、前記少なくとも1つの処理装置が構成される、請求項1または2に記載のシステム。
【請求項4】
前記ユーザが前記医療用画像システムともはや対話せずオブジェクトを同定しようとしていないことを前記コンテキスト情報が指示する場合に、前記オブジェクト検出を無効化するように、前記少なくとも1つの処理装置がさらに構成される、請求項3に記載のシステム。
【請求項5】
前記ユーザが、前記医療用画像システムと対話し前記複数の画像フレーム内の少なくとも1つのオブジェクトを調べていることを前記コンテキスト情報が指示する場合に、前記分類を呼び出すように、前記少なくとも1つの処理装置が構成される、請求項1から4のいずれか一項に記載のシステム。
【請求項6】
前記ユーザが、前記医療用画像システムともはや対話せず前記複数の画像フレーム内の少なくとも1つのオブジェクトを調べていないことを前記コンテキスト情報が指示する場合に、前記分類を無効化するように、前記少なくとも1つの処理装置がさらに構成される、請求項5に記載のシステム。
【請求項7】
前記ユーザが、少なくとも1つのオブジェクトを含む前記複数の画像フレーム内の領域に関心を示していることを前記コンテキスト情報が指示する場合に、前記オブジェクト検出を呼び出すように、前記少なくとも1つの処理装置がさらに構成され、前記ユーザが、前記少なくとも1つのオブジェクトに関心を示していることを前記コンテキスト情報が指示する場合に、分類を呼び出すように、前記少なくとも1つの処理装置がさらに構成される、請求項1から6のいずれか一項に記載のシステム。
【請求項8】
前記少なくとも1つのオブジェクトを含む2枚以上のフレームの集約を実行するように、前記少なくとも1つの処理装置がさらに構成され、前記コンテキスト情報に基づいて前記集約を呼び出すように、前記少なくとも1つの処理装置がさらに構成される、請求項1から7のいずれか一項に記載のシステム。
【請求項9】
前記画像修正が、前記少なくとも1つの検出されたオブジェクトの場所を指示する少なくとも1つの境界、前記少なくとも1つのオブジェクトに対する分類情報、前記少なくとも1つのオブジェクトのズームされた画像、または修正された画像色分布を含む、少なくとも1つのオーバーレイを含む、請求項1から8のいずれか一項に記載のシステム。
【請求項10】
経時的な2枚以上の画像フレーム内の前記少なくとも1つの検出されたオブジェクトの場所についての、領域の和集合に対する領域の重なり部分(インターセクション・オーバー・ユニオン(Intersection over Union(IoU)))の値に基づいて前記コンテキスト情報を生成するように、前記少なくとも1つの処理装置が構成される、請求項1から9のいずれか一項に記載のシステム。
【請求項11】
2枚以上の画像フレームにおける画像類似度値に基づいて前記コンテキスト情報を生成するように、前記少なくとも1つの処理装置が構成される、請求項1から10のいずか一項に記載のシステム。
【請求項12】
前記複数の画像フレーム内の1つまたは複数のオブジェクトの検出または分類に基づいて前記コンテキスト情報を生成するように、前記少なくとも1つの処理装置が構成される、請求項1から11のいずれか一項に記載のシステム。
【請求項13】
前記医療用画像システムによって前記ユーザから受信された入力に基づいて前記コンテキスト情報を生成するように、前記少なくとも1つの処理装置が構成される、請求項1から12のいずれか一項に記載のシステム。
【請求項14】
前記分類情報に基づいて前記コンテキスト情報を生成するように、前記少なくとも1つの処理装置がさらに構成される、請求項1から13のいずれか一項に記載のシステム。
【請求項15】
前記複数の画像フレームが、消化管の画像フレームを含む、請求項1から14のいずれか一項に記載のシステム。
【請求項16】
前記フレームが、内視鏡検査、胃内視鏡検査、大腸内視鏡検査、小腸内視鏡検査、腹腔鏡検査、または手術用内視鏡検査の、少なくとも1つの最中に使用される医療用画像装置からの画像を含む、請求項1から15のいずれか一項に記載のシステム。
【請求項17】
前記少なくとも1つの検出されたオブジェクトが異常性である、請求項1から16のいずれか一項に記載のシステム。
【請求項18】
前記異常性が、ヒト組織上またはヒト組織の形成物、1つのタイプの細胞から別のタイプの細胞へのヒト組織の変化、ヒト組織が存在すると予想される場所にヒト組織が存在しないこと、または病変の、少なくとも1つを含む、請求項17に記載のシステム。
【請求項19】
医療用画像システムによって生成されて複数の画像フレームを含むリアルタイム映像を受信することと;
前記医療用画像システムからの画像フレームを処理するよう訓練された少なくとも1つのニューラルネットワークを提供することと;
前記医療用画像システムとのユーザの対話を指示するコンテキスト情報を得ることと;
前記コンテキスト情報に基づいて前記対話を同定することと;
前記少なくとも1つの訓練されたニューラルネットワークを適用して、前記同定された対話に基づいて前記複数の画像フレームに対してリアルタイム処理を実行することと、
を含むリアルタイム映像処理する方法。
【請求項20】
リアルタイム処理を実行することが、前記複数の画像フレーム内の少なくとも1つのオブジェクトを検出するオブジェクト検出、前記少なくとも1つの検出されたオブジェクトに対する分類情報を生成する分類、および前記受信されたリアルタイム映像を修正する画像修正の、少なくとも1つを実行することを含む、請求項19に記載の方法。
【請求項21】
前記同定された対話が、前記医療用画像システムと対話してナビゲートしオブジェクトを同定しようとしているユーザである場合に、前記オブジェクト検出が呼び出される、請求項20に記載の方法。
【請求項22】
前記ユーザが、前記医療用画像システムともはや対話せずナビゲートせず、オブジェクトを同定しようとしていないことを前記コンテキスト情報が指示する場合に、前記オブジェクト検出が無効化される、請求項21に記載の方法。
【請求項23】
前記同定された対話が、前記医療用画像システムと対話して前記複数の画像フレーム内の少なくとも1つの検出されたオブジェクトを調べているユーザである場合に、前記分類が呼び出される、請求項20から22のいずれか一項に記載の方法。
【請求項24】
前記ユーザが、前記医療用画像システムともはや対話せず前記複数の画像フレーム内の少なくとも1つの検出されたオブジェクトを調べていないことを前記コンテキスト情報が表示する場合に、前記分類が無効化される、請求項20から23のいずれか一項に記載の方法。
【請求項25】
前記ユーザが、少なくとも1つのオブジェクトを含む前記複数の画像フレーム内の領域に関心を示していることをコンテキスト情報が指示する場合に、前記オブジェクト検出が呼び出され、前記ユーザが、前記少なくとも1つのオブジェクトに関心を示していることをコンテキスト情報が指示する場合に、前記分類が呼び出される、請求項20から24のいずれか一項に記載の方法。
【請求項26】
前記医療用画像システムから受信されたフレームを処理するよう訓練された少なくとも1つのニューラルネットワークを適用することによって、前記オブジェクト検出および前記分類の少なくとも一方が実行される、請求項20から25のいずれか一項に記載の方法。
【請求項27】
前記画像修正が、前記少なくとも1つの検出されたオブジェクトの場所を指示する少なくとも1つの境界、前記少なくとも1つの検出されたオブジェクトに対する分類情報、前記少なくとも1つの検出されたオブジェクトのズームされた画像、または修正された画像色分布を含む、少なくとも1つのオーバーレイを含む、請求項20から26のいずれか一項に記載の方法。
【請求項28】
前記少なくとも1つの検出されたオブジェクトが異常性である、請求項20から27のいずれか一項に記載の方法。
【請求項29】
前記異常性が、ヒト組織上またはヒト組織の形成物、1つのタイプの細胞から別のタイプの細胞へのヒト組織の変化、ヒト組織が存在すると予想される場所にヒト組織が存在しないこと、または病変の、少なくとも1つを含む、請求項28に記載の方法。
【請求項30】
前記コンテキスト情報に基づいて、少なくとも1つのオブジェクトを含む2枚以上のフレームの集約を実行するステップをさらに含む、請求項19から29のいずれか一項に記載の方法。
【請求項31】
前記複数の画像フレームが、消化管の画像フレームを含む、請求項19から30のいずれか一項に記載の方法。
【請求項32】
前記フレームが、内視鏡検査、胃内視鏡検査、大腸内視鏡検査、小腸内視鏡検査、腹腔鏡検査、または手術用内視鏡検査の、少なくとも1つの最中に用いられる医療用画像装置からの画像を含む、請求項19から31のいずれか一項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本出願は、2020年2月3日に仮出願された米国仮出願第62/969,643号の優先権を主張し、その内容全体は、参照により本明細書に組み込まれる。
【0002】
本開示は概して、コンテキスト化された画像解析用の計算機実装されたシステムおよび方法に関する。より詳細には、そして限定することなしに、本開示は、リアルタイム映像を処理しコンテキスト情報に基づいて画像処理操作を実行する計算機実装されたシステムおよび方法に関する。本明細書に開示のシステムおよび方法は、様々な用途や視覚システム、例えば医療画像解析や、正確な画像処理能力が強みとなるシステムに使用してもよい。
【背景技術】
【0003】
画像解析システムでは、画像中の関心オブジェクトを検出することが望ましい場合が多い。関心オブジェクトは、人、場所、または物である場合がある。いくつかの用途、例えば医療用画像解析や診断のためのシステムでは、検出されたオブジェクト(例えば、ヒト組織上またはヒト組織の形成物などの異常性)の場所および分類も同様に重要である。しかし、既存の計算機実装されたシステムおよび方法は、オブジェクトを正確に検出できないこと、および/または検出されたオブジェクトの場所もしくは分類を提供できないことなど、多くの欠点を抱えている。加えて、既存のシステムおよび方法は、不必要に、および/または画像装置のリアルタイムでのコンテキストもしくは使用を考慮することなく、無差別に画像処理操作を実行する場合があるという点で非効率的である。本明細書で使用されるとおり、「リアルタイム」は、直ちに生じるまたは処理することを意味する。
【0004】
既存の医療用撮像システムには、単一の検出器ネットワーク上で構築されているものがある。検出がなされると、ネットワークは、例えば医師または他の医療従事者に、その検出結果を単に出力する。しかし、そのような検出結果は、内視鏡検査等における非ポリープまたは同類のものなどの擬陽性である場合がある。そのようなシステムは、擬陽性と真陽性を区別する別個のネットワークを提供していない。
【0005】
さらには、ニューラルネットワークに基づくオブジェクト検出器は、ニューラルネットワークによって同定された特徴を検出器に送り込むのが普通であり、この検出器が、第2のニューラルネットワークを含む場合がある。しかし、そのようなネットワークは不正確であることが多く、これは、一般化されたネットワークによって特徴検出が実行され、検出器部分のみが特化されているからである。
【0006】
リアルタイム用途向けの既存の医療用撮像システムは、他にも不利な点がある。例えば、そのようなシステムは、使用のコンテキストを、または医師もしくは他のユーザと、処理用に映像フレームを生成する医療用画像装置との間のリアルタイムの対話を考慮せず動作するように設計されていることが多い。
【0007】
さらには、リアルタイム用途向けの既存の医療用撮像システムは、時間次元に沿ってオブジェクト検出器によって同定されたオブジェクトを集約するために、医師または他のユーザと医療用画像装置との間の対話から導出されるコンテキスト化された情報を使用するということはない。
【0008】
さらには、リアルタイム用途向けの既存の医療用撮像システムは、特定のタスク、例えばオブジェクトを検出すること、検出されたオブジェクトを分類すること、オブジェクト特性を出力すること、またはユーザの利益のために医療用表示体上で情報を視覚化するやり方を修正することを実行可能な特定のニューラルネットワークを有効化または無効化するために、ユーザと医療用画像装置との間の対話から導出されるコンテキスト化された情報を使用するということはない。
【0009】
本発明者らは先記に鑑みて、医療用画像解析および診断に向けたものを含め、画像解析用の改良されたシステムおよび方法を求める要望があることを突き止めた。また、正確にそして効率的にオブジェクトを検出し分類情報を提供することができる改良された医療用撮像システムを求める要望もある。さらに、コンテキスト情報に基づいてリアルタイムの画像処理操作を実行することのできる画像解析システムおよび方法を求める要望がある。
【発明の概要】
【0010】
先記に鑑み、本開示の実施形態は、画像装置、例えば医療用画像システムからのリアルタイム映像を処理する計算機実装されたシステムおよび方法を提供する。開示のシステムおよび方法は、画像処理操作、例えばオブジェクト検出および分類を実行するように構成される場合がある。また、開示のシステムおよび方法は、コンテキスト情報を使用して画像装置とのユーザの対話を同定するように、そして例えば、画像装置から受信された画像フレームを処理するよう、または表示体上で情報を視覚化するやり方をコンテキスト情報に基づいて修正するよう訓練された1つまたは複数のニューラルネットワークを適用することによって、同定された対話に基づいて画像処理を実行するように、構成されてもよい。本開示のシステムおよび方法は、既存のシステムおよび技術に勝る利点を提供するものであり、既存のシステムおよび技術の上記の欠点および/または他の欠点のうちの1つまたは複数への対処によることを含む。
【0011】
いくつかの実施形態では、画像装置から受信された画像フレームは、ヒト臓器の画像フレームを含む場合がある。例えば、ヒト臓器は、消化管を含む場合がある。フレームは、内視鏡検査、胃内視鏡検査、大腸内視鏡検査、小腸内視鏡検査、腹腔鏡検査、または手術用内視鏡検査の、少なくとも1つの最中に使用される医療用画像装置からの画像を含む場合がある。様々な実施形態では、画像フレームに含まれる関心オブジェクトは、ヒト臓器の一部、手術用器具、または異常性である場合がある。異常性は、ヒト組織上またはヒト組織の形成物、1つのタイプの細胞から別のタイプの細胞へのヒト組織の変化、および/またはヒト組織が存在すると予想される場所にヒト組織が存在しないことを含む場合がある。ヒト組織上またはヒト組織の形成物は、病変、例えばポリープ状病変または非ポリープ状病変を含む場合がある。その結果、開示された実施形態は、いずれかの単一の疾患に特化するというやり方ではなく、むしろ一般的に適用可能なやり方で、医療コンテキストに利用してもよいものである。
【0012】
いくつかの実施形態では、コンテキスト情報が、どの画像処理操作を実行すべきか決定するのに使用される場合がある。例えば、画像処理操作は、オブジェクト検出器、画像分類器、または画像類似度評価器などの特定のニューラルネットワークの有効化または無効化を含む場合がある。加えて、画像処理操作は、検出されたオブジェクトに関する情報、例えばオブジェクトの種類またはオブジェクトの特定の特徴を提供するように適応させた特定のニューラルネットワークの有効化または無効化を含む場合がある。
【0013】
いくつかの実施形態では、コンテキスト情報が、画像装置とのユーザ対話を同定するのに使用される場合がある。例えば、コンテキスト情報は、ユーザが画像装置と対話して画像フレーム内の関心オブジェクトを同定しようとしていることを指示する場合がある。その後、コンテキスト情報は、ユーザが画像装置ともはや対話せず関心オブジェクトを同定しようとしていないことを指示する場合がある。さらなる例として、コンテキスト情報は、ユーザが画像装置と対話して画像フレーム内の1つまたは複数の検出されたオブジェクトを調べていることを指示する場合がある。その後、コンテキスト情報は、ユーザが画像装置ともはや対話せず画像フレーム内の1つまたは複数の検出されたオブジェクトを調べていないことを指示する場合がある。しかし、画像装置または医療用画像システムを備えた関連機器との他のいかなるユーザ対話、例えば表示情報の表示または非表示、映像機能の実行(例えば、関心オブジェクトを含む領域へのズーム、画像色分布、または同類のもの)、記憶装置への取り込み画像フレームの保存、画像装置の電源オン/オフ、または同類のものを同定するのにもコンテキスト情報を使用してよいことは理解されよう。
【0014】
いくつかの実施形態では、コンテキスト情報が、時間次元に沿って複数の画像フレームにまたがって関心オブジェクトの集約を実行するかどうかを決定するのに使用される場合がある。例えば、医師による将来の検査のために、ポリープなどの関心オブジェクトを含むあらゆる画像フレームを取り込むことが望ましい場合がある。このような状況では、画像装置によって取り込まれた関心オブジェクトを含むあらゆる画像フレームをグループ化することが有利である場合がある。情報、例えば標識、タイムスタンプ、場所、移動距離を、画像フレームの各グループに関連付けて、それらを互いに区別してもよい。また、関心オブジェクトの集約を実行する他の方法を使用してもよく、例えば画像フレームの色分布を変更(例えば、第1の関心オブジェクトを示すために緑を使用し、第2の関心オブジェクトを示すために赤を使用)しても、画像フレームに英数字情報または他の文字を追加(例えば、第1の関心オブジェクトを示すために「1」を使用し、第2の関心オブジェクトを示すために「2」を使用)してもよい。
【0015】
コンテキスト情報は、開示された実施形態と矛盾しない様々な手段によって生成される場合がある。例えば、コンテキスト情報は、経時的に2枚以上の画像フレーム内に検出されたオブジェクトの場所についての、領域の和集合に対する領域の重なり部分(インターセクション・オーバー・ユニオン(Intersection over Union(IoU)))の値を使用することによって生成される場合がある。IoU値は、画像装置とのユーザの対話(例えば、ユーザが画像装置をナビゲートしてオブジェクトを同定しようとしている)のコンテキストを決定するために、しきい値と比較される場合がある。いくつかの実施形態では、所定の数のフレームまたは時間にわたってIoU値がしきい値を満たすことで、画像装置とのユーザ対話を判定するのに必要な持続性が確立する場合がある。
【0016】
いくつかの実施形態では、コンテキスト情報は、経時的に2枚以上の画像フレーム内に検出されたオブジェクトの画像類似度値または他の特定の画像特徴を使用することによって生成される場合がある。検出されたオブジェクトの画像類似度値または他の特定の画像特徴は、画像装置とのユーザの対話(例えば、ユーザが画像装置をナビゲートしてオブジェクトを同定しようとしている)のコンテキストを決定するために、しきい値と比較される場合がある。いくつかの実施形態では、検出されたオブジェクトの画像類似度値または別の特定の画像特徴が、所定の数のフレームまたは時間にわたってしきい値を満たすことで、画像装置とのユーザ対話を決定するために必要な持続性が確立する場合がある。
【0017】
また開示された実施形態は、同一画像フレーム内に同時に存在する複数のオブジェクトの存在または解析に基づいてコンテキスト情報を得るように実装される場合がある。また開示された実施形態は、画像全体(すなわち、同定されたオブジェクトだけでなく)の解析に基づいてコンテキスト情報を得るように実装される場合がある。いくつかの実施形態では、コンテキスト情報は、分類情報に基づいて得られる。これに加えて、またはこれに代わって、コンテキスト情報は、ユーザの対話を指示する画像装置によって受信されたユーザ入力(例えば、同定されたオブジェクトを、ユーザが画像装置をフォーカスまたはズームすることによって調べていることを指示する入力)に基づいて生成される場合がある。そのような実施形態では、画像装置とのユーザ対話を決定するために、所定の数のフレームまたは時間にわたるユーザ入力の持続性が要求される場合がある。
【0018】
本開示の実施形態は、コンテキスト情報に基づいて画像処理を実行する計算機実装されたシステムおよび方法を含む。例えば、いくつかの実施形態では、ユーザが画像装置と対話してオブジェクトを同定しようとしていることをコンテキスト情報が指示する場合に、オブジェクト検出が呼び出される場合がある。その結果、例えば、関心オブジェクトが存在しないか、さもなければユーザが検出処理または1つもしくは複数の分類処理を開始する準備ができていない場合には、オブジェクト検出が実行されることになる可能性は低くなる。さらなる例として、いくつかの実施形態では、ユーザが画像装置と対話して、検出されたオブジェクトを調べていることをコンテキスト情報が指示する場合に、分類が呼び出される場合がある。したがって、例えば、関心オブジェクトが適切にフレーム化される前に、またはユーザが関心オブジェクトに対する分類情報を知らないでおこうと考える前に分類が早まって実行されるリスクは、最低限になる。
【0019】
加えて、本開示の実施形態は、画像装置、例えば医療用撮像システムから受信されたフレームを処理するよう訓練されたニューラルネットワークを適用することによって画像処理操作を実行することを含む。このようにして、開示された実施形態を、疾患に特化しないやり方で、様々な用途、例えば医療用映像のリアルタイム処理に適応させてもよい。
【0020】
本開示の実施形態は、画像処理から得られるオブジェクト検出および分類情報と共に、リアルタイム映像(内視鏡検査映像または他の医療画像など)を表示するように構成されるシステムおよび方法も含む。本開示の実施形態は、リアルタイム映像(内視鏡検査映像または他の医療画像など)を、画像内の関心特徴に医師の注意を向けさせるために導入された画像修正と共に表示するように、および/またはその関心特徴もしくは関心オブジェクトに関する情報(例えば、画像フレーム内の関心オブジェクトの場所を指示する境界、関心オブジェクトの分類情報、画像フレーム内の関心オブジェクトまたは特定の関心領域のズームされた画像、および/または修正された画像色分布を含むオーバーレイ)を提供するように構成されるシステムおよび方法をさらに含む。そのような情報は、ユーザ(医師または他の医療従事者など)によって見られるように、単一表示装置上に一緒に提示される場合がある。さらに、いくつかの実施形態では、そのような情報は、対応する画像処理操作がコンテキスト情報に基づいて呼び出される場合に応じて表示される場合がある。したがって、本明細書に記載のとおり、本開示の実施形態は、そのような検出結果および分類情報を効率的に、そして必要なときに提供し、それによって、不要な情報で表示体が過密にならないようにする。
【0021】
一実施形態では、リアルタイム映像処理用の計算機実装されたシステムは、命令を記憶するように構成される少なくとも1つのメモリと、命令を実行するように構成される少なくとも1つの処理装置とを含む場合がある。少なくとも1つの処理装置は、医療用画像システムによって生成されたリアルタイム映像を受信するよう命令を実行する場合があり、このリアルタイム映像は複数の画像フレームを含む。医療用画像システムによって生成されたリアルタイム映像を受信している間、少なくとも1つの処理装置は、医療用画像システムとのユーザの対話を指示するコンテキスト情報を得るように、さらに構成される場合がある。少なくとも1つの処理装置は、複数の画像フレーム内の少なくとも1つのオブジェクトを検出するオブジェクト検出を実行するように、さらに構成される場合がある。少なくとも1つの処理装置は、複数の画像フレーム内の少なくとも1つの検出されたオブジェクトに対する分類情報を生成する分類を実行するように、さらに構成される場合がある。少なくとも1つの処理装置は、受信されたリアルタイム映像を、オブジェクト検出および分類の少なくとも一方に基づいて修正する画像修正を実行して、画像修正を伴うリアルタイム映像の表示体を映像表示装置上に生成するように、さらに構成される場合がある。少なくとも1つの処理装置は、オブジェクト検出および分類の少なくとも一方をコンテキスト情報に基づいて呼び出すように、さらに構成される場合がある。
【0022】
いくつかの実施形態では、オブジェクト検出および分類の少なくとも一方は、医療用画像システムから受信されたフレームを処理するよう訓練された少なくとも1つのニューラルネットワークを適用することによって実行される場合がある。いくつかの実施形態では、少なくとも1つの処理装置は、ユーザが医療用画像システムと対話してオブジェクトを同定しようとしている可能性があることをコンテキスト情報が指示する場合に、オブジェクト検出を呼び出すように、さらに構成される場合がある。いくつかの実施形態では、少なくとも1つの処理装置は、ユーザが医療用画像システムともはや対話せずオブジェクトを同定しようとしていない可能性があることをコンテキスト情報が指示する場合に、オブジェクト検出を無効化するように、さらに構成される場合がある。いくつかの実施形態では、少なくとも1つの処理装置は、ユーザが医療用画像システムと対話して複数の画像フレーム内の少なくとも1つのオブジェクトを調べている可能性があることをコンテキスト情報が指示する場合に、分類を呼び出すように、構成される場合がある。いくつかの実施形態では、少なくとも1つの処理装置は、ユーザが医療用画像システムともはや対話せず複数の画像フレーム内の少なくとも1つのオブジェクトを調べていない可能性があることをコンテキスト情報が指示する場合に、分類を無効化するように、さらに構成される場合がある。いくつかの実施形態では、少なくとも1つの処理装置は、少なくとも1つのオブジェクトを含む複数の画像フレーム内の領域にユーザが関心を示している可能性があることをコンテキスト情報が指示する場合に、オブジェクト検出を有効化するように、そして少なくとも1つのオブジェクトにユーザが関心を示している可能性があることをコンテキスト情報が指示する場合に、分類を呼び出すように、さらに構成される場合がある。いくつかの実施形態では、少なくとも1つの処理装置は、少なくとも1つのオブジェクトを含む2枚以上のフレームの集約を実行するようにさらに構成される場合があり、この場合、少なくとも1つの処理装置は、コンテキスト情報に基づいて集約を呼び出すように、さらに構成される場合がある。いくつかの実施形態では、画像修正は、少なくとも1つの検出されたオブジェクトの場所を指示する少なくとも1つの境界、少なくとも1つの検出されたオブジェクトに対する分類情報、少なくとも1つの検出されたオブジェクトのズームされた画像、または修正された画像色分布を含む、少なくとも1つのオーバーレイを含む。
【0023】
いくつかの実施形態では、少なくとも1つの処理装置は、経時的な2枚以上の画像フレーム内の少なくとも1つの検出されたオブジェクトの場所についての、インターセクション・オーバー・ユニオン(IoU)値に基づいてコンテキスト情報を生成するように構成される場合がある。いくつかの実施形態では、少なくとも1つの処理装置は、2枚以上の画像フレームにおける画像類似度値に基づいてコンテキスト情報を生成するように構成される場合がある。いくつかの実施形態では、少なくとも1つの処理装置は、複数の画像フレーム内の1つまたは複数のオブジェクトの検出または分類に基づいてコンテキスト情報を生成するように構成される場合がある。いくつかの実施形態では、少なくとも1つの処理装置は、ユーザから医療用画像システムによって受信された入力に基づいてコンテキスト情報を生成するように構成される場合がある。いくつかの実施形態では、少なくとも1つの処理装置は、分類情報に基づいてコンテキスト情報を生成するように、さらに構成される場合がある。いくつかの実施形態では、複数の画像フレームは、消化管の画像フレームを含む場合がある。いくつかの実施形態では、フレームは、内視鏡検査、胃内視鏡検査、大腸内視鏡検査、小腸内視鏡検査、腹腔鏡検査、または手術用内視鏡検査の、少なくとも1つの最中に使用される医療用画像装置からの画像を含む場合がある。いくつかの実施形態では、少なくとも1つの検出されたオブジェクトは、異常性である場合がある。異常性は、ヒト組織上またはヒト組織の形成物、1つのタイプの細胞から別のタイプの細胞へのヒト組織の変化、ヒト組織が存在すると予想される場所にヒト組織が存在しないこと、または病変である場合がある。
【0024】
さらなる実施形態では、リアルタイム映像処理用の方法が提供される。この方法は、医療用画像システムによって生成されたリアルタイム映像を受信することを含み、リアルタイム映像は、複数の画像フレームを含む。方法は、少なくとも1つのニューラルネットワークを提供することをさらに含み、少なくとも1つのニューラルネットワークは、医療用画像システムからの画像フレームを処理するよう訓練され、医療用画像システムとのユーザの対話を指示するコンテキスト情報を得る。方法は、コンテキスト情報に基づいて対話を同定することと、少なくとも1つの訓練されたニューラルネットワークを適用することにより、同定された対話に基づいて複数の画像フレーム上でリアルタイム処理を実行することとをさらに含む。
【0025】
いくつかの実施形態では、リアルタイム処理を実行することは、複数の画像フレーム内の少なくとも1つのオブジェクトを検出するオブジェクト検出、少なくとも1つの検出されたオブジェクトに対する分類情報を生成する分類、および受信されたリアルタイム映像を修正する画像修正の、少なくとも1つを実行することを含む。
【0026】
いくつかの実施形態では、同定された対話が、医療用画像システムと対話してナビゲートしオブジェクトを同定しようとしているユーザである場合に、オブジェクト検出が呼び出される。いくつかの実施形態では、オブジェクト検出は、ユーザが医療用画像システムともはや対話せずナビゲートせず、オブジェクトを同定しようとしていないことをコンテキスト情報が指示する場合に無効化される。
【0027】
いくつかの実施形態では、同定された対話が、医療用画像システムと対話して複数の画像フレーム内の少なくとも1つの検出されたオブジェクトを調べているユーザである場合に、分類が呼び出される。いくつかの実施形態では、ユーザが医療用画像システムともはや対話せず複数の画像フレーム内の少なくとも1つの検出されたオブジェクトを調べていないことをコンテキスト情報が指示する場合に、分類が無効化される。
【0028】
いくつかの実施形態では、少なくとも1つのオブジェクトを含む複数の画像フレーム内の領域にユーザが関心を示していることをコンテキスト情報が指示する場合に、オブジェクト検出が呼び出され、少なくとも1つのオブジェクトにユーザが関心を示していることをコンテキスト情報が指示する場合に、分類が呼び出される。
【0029】
いくつかの実施形態では、オブジェクト検出および分類の少なくとも一方は、医療用画像システムから受信されたフレームを処理するよう訓練された少なくとも1つのニューラルネットワークを適用することによって実行される。
【0030】
いくつかの実施形態では、方法は、コンテキスト情報に基づいて、少なくとも1つのオブジェクトを含む2枚以上のフレームの集約を実行することをさらに含む。いくつかの実施形態では、画像修正は、少なくとも1つの検出されたオブジェクトの場所を指示する少なくとも1つの境界、少なくとも1つの検出されたオブジェクトに対する分類情報、少なくとも1つの検出されたオブジェクトのズームされた画像、または修正された画像色分布を含む、少なくとも1つのオーバーレイを含む。
【0031】
複数の画像フレームは、ヒト臓器、例えば消化管の画像フレームを含む場合がある。例として、フレームは、内視鏡検査、胃内視鏡検査、大腸内視鏡検査、小腸内視鏡検査、腹腔鏡検査、または手術用内視鏡検査の、少なくとも1つの最中に使用される医療用画像装置からの画像を含む場合がある。
【0032】
本開示の実施形態によれば、少なくとも1つの検出されたオブジェクトは、異常性である。異常性は、ヒト組織上またはヒト組織の形成物、1つのタイプの細胞から別のタイプの細胞へのヒト組織の変化、ヒト組織が存在すると予想される場所にヒト組織が存在しないこと、または病変である場合がある。
【0033】
本開示のさらなる目的および利点は部分的には、以下の発明を実施するための形態に記載されることになり、そして部分的には本明細書から明らかとなるが、または本開示の実施によって教示される可能性もある。本開示の目的および利点は、添付の特許請求の範囲に特に指摘された構成要素および組み合わせによって現実化および達成される。
【0034】
先記の一般的な記載および以下の発明を実施するための形態は、例示および説明するものに過ぎず、開示された実施形態を制限するものではないことは理解されよう。
【0035】
本明細書の一部を含む添付図面は、いくつかの実施形態を例示しており、さらに本明細書とともに、開示された実施形態の原理および特徴を説明するのに役立つものである。これらの図面において:
【図面の簡単な説明】
【0036】
図1図1は、本開示の実施形態による、映像をリアルタイム処理し映像フィード上に情報を重ね合わせる、例示的な計算機実装されたシステムの概略図である。
【0037】
図2A図2Aは、本開示の実施形態による、コンテキスト情報を使用してリアルタイム画像処理を行う、例示的な計算機実装されたシステムの概略図である。
図2B図2Bは、本開示の実施形態による、コンテキスト情報を使用してリアルタイム画像処理を行う、例示的な計算機実装されたシステムの概略図である。
【0038】
図3図3は、本開示の実施形態による、画像装置から受信されたリアルタイム映像を処理する例示的な方法のフローチャートである。
【0039】
図4図4は、本開示の実施形態による、画像装置とのユーザの対話を指示するコンテキスト情報に基づいて画像処理操作を呼び出す例示的な方法のフローチャートである。
【0040】
図5図5は、本開示の実施形態による、画像装置からのリアルタイム映像フィード上にオーバーレイ情報を生成する例示的な方法のフローチャートである。
【0041】
図6図6は、本開示の実施形態による、映像内にオブジェクト検出および関連の分類情報についてのオーバーレイを伴う表示体の例である。
【0042】
図7A図7Aは、本開示の実施形態による、2枚の画像フレーム内の検出されたオブジェクトについての、インターセクション・オーバー・ユニオン(IoU)値を決定する視覚的表現の例である。
【0043】
図7B図7Bは、本開示の実施形態による、2枚の画像フレーム内の検出されたオブジェクトについての、インターセクション・オーバー・ユニオン(IoU)値を決定する視覚的表現の別の例である。
【0044】
図8図8は、本開示の実施形態と矛盾しない、リアルタイム画像処理を行う別の例示的な方法のフローチャートである。
【発明を実施するための形態】
【0045】
本開示の開示された実施形態は概して、画像装置、例えば医療用画像システムからのリアルタイム映像を処理する計算機実装されたシステムおよび方法に関する。いくつかの実施形態では、本開示のシステムおよび方法は、画像処理操作、例えばオブジェクト検出および分類を実行するように構成される場合がある。本明細書に開示されるとおり、システムおよび方法はまた、コンテキスト情報を使用して画像装置とのユーザの対話を同定するように、そして同定された対話に基づいて画像処理を実行するように、構成される場合がある。さらに、本開示の実施形態は、人工知能、例えば画像装置から受信された画像フレームを処理するよう訓練された1つまたは複数のニューラルネットワークとともに実装される場合がある。本発明のこれらのそして他の特徴を、本明細書においてさらに開示する。
【0046】
本開示から理解されるであろうとおり、開示された実施形態は、例示の目的で提供されており、様々な用途および視覚システムに実装し使用してもよい。例えば、本開示の実施形態は、医療用画像解析システム、およびリアルタイム画像処理操作を含む画像処理を行う他のタイプのシステム用に実装される場合がある。本開示の実施形態を、医療用画像解析および内視鏡検査を一般的に参照しつつ本明細書に記載しているが、それらの実施形態を、他の医療用画像処置、内視鏡検査、胃内視鏡検査、大腸内視鏡検査、小腸内視鏡検査、腹腔鏡検査、または手術用内視鏡検査に適用してもよいことは理解されよう。さらに、本開示の実施形態を、他の環境および視覚システム向けに、例えば、LIDARシステム、監視、自動操縦、および他の撮像システム用のもの向けに、またはこれらを含むもの向けに実装してもよい。
【0047】
本開示の一態様によれば、コンテキスト情報を使用してユーザ対話を同定し、同定された対話に基づいて画像処理を実行する、計算機実装されたシステムが提供される。システムは、命令を記憶するように構成される少なくとも1つのメモリ(例えば、ROM、RAM、ローカルメモリ、ネットワークメモリ等)と、命令を実行するように構成される少なくとも1つの処理装置とを含む場合がある(例えば、図1および2を見られたい)。少なくとも1つの処理装置は、画像装置によって生成されたリアルタイム映像を受信する場合があり、リアルタイム映像は、複数の画像フレームを表す。例えば、少なくとも1つの処理装置は、医療用撮像システム、例えば内視鏡検査、胃内視鏡検査、大腸内視鏡検査、または小腸内視鏡検査の手順の最中に使用されるものからリアルタイム映像を受信する場合がある。これに加えて、またはこれに代わって、画像フレームは、医療用画像、例えば消化管、または他の器官、またはヒト組織の領域の画像を含む場合がある。
【0048】
本明細書で使用されるとおり、用語「画像」は、シーンまたは視野のあらゆるデジタル表現を指す。デジタル表現は、あらゆる適切な形式、例えばジョイント・フォトグラフィック・エキスパーツ・グループ(Joint Photographic Experts Group(JPEG)形式)、グラフィック・インターチェンジ・フォーマット(Graphics Interchange Format(GIF))形式、ビットマップ形式、スケーラブル・ベクター・グラフィックス(Scalable Vector Graphics(SVG))形式、エンキャプサレイティッド・ポストスクリプト(Encapsulated PostScript(EPS))形式で符号化される場合がある。同様に、「映像」という用語は、シーケンスになった複数の画像で構成される関心シーンまたは関心領域のあらゆるデジタル表現を指す。デジタル表現は、あらゆる適切な形式、例えばムービング・ピクチャー・エキスパート・グループ(Moving Picture Experts Group(MPEG))形式、フラッシュビデオ形式、オーディオ・ビデオ・インターリーブ(Audio Video Interleave(AVI))形式で符号化される場合がある。いくつかの実施形態では、画像のシーケンスは、音声と対になっている場合がある。
【0049】
画像フレームは、関心特徴(すなわち、異常性、または関心オブジェクト)の表現を含む場合がある。例えば、関心特徴は、ヒト組織上またはヒト組織の異常性を含む場合がある。いくつかの実施形態では、関心特徴は、オブジェクト、例えば車両、人、または他の実体を含む場合がある。
【0050】
本開示に準拠して、「異常性」は、ヒト組織上またはヒト組織の形成物、1つのタイプの細胞から別のタイプの細胞へのヒト組織の変化、および/またはヒト組織が存在すると予想される場所にヒト組織が存在しないことを含む場合がある。例えば、腫瘍または他の組織成長が異常性を含む場合があるが、これは、予想以上に多くの細胞が存在するためである。同様に、打撲傷または細胞タイプの他の変化が異常性を含む場合があるが、これは、予想された場所以外の場所(つまり、毛細血管の外側)に血球が存在するためである。同様に、ヒト組織の陥没が異常性を含む場合があるが、これは、予想された場所に細胞が存在せず、その結果が陥没となるためである。
【0051】
いくつかの実施形態では、異常性は病変を含む場合がある。病変は消化管粘膜の病変を含む場合がある。病変は、組織学的に分類(例えば、NICE(狭帯域光観察国際大腸小腸内視鏡(Narrow-Band Imaging International Colorectal Endoscopic))またはウィーン分類による)される、または形態学的に分類(例えば、パリ分類による)される、および/または構造的に分類(例えば、鋸歯状または非鋸歯状として)される場合がある。パリ分類は、ポリープ状病変と非ポリープ状病変を含む。ポリープ状病変は、突出した病変、有茎性で突出した病変、または無茎性の病変を含む場合がある。非ポリープ状病変は、表面に隆起した、平坦な、表面から浅く陥没した、または掘り込まれた病変を含む場合がある。
【0052】
検出された異常性に関して、鋸歯状病変は、無茎性鋸歯状腺腫(SSA);従来型の鋸歯状腺腫(TSA);過形成ポリープ(HP);線維性ポリープ(FP);または混合ポリープ(MP)を含む場合がある。NICE分類体系によると、異常性は3つの型に分類され、以下の:(タイプ1)無茎性鋸歯状ポリープまたは過形成ポリープ、(タイプ2)従来の腺腫、(タイプ3)粘膜下深部浸潤を伴う癌である。ウィーン分類では、異常性は5つに分類され、以下の:(分類1)新形成/異形成陰性;(分類2)新形成/異形成不定;(分類3)非浸潤性低悪性度新形成(低悪性度腺腫/異形成);(分類4)粘膜高悪性新形成、例えば高悪性度腺腫/異形成、非浸潤癌(上皮内癌)、または浸潤癌の疑い;および(分類5)浸潤性新形成、粘膜内癌、粘膜下癌、または同類のものである。
【0053】
システムの処理装置は、1つまたは複数の画像処理装置を含む場合がある。画像処理装置は、リアルタイム映像を処理するよう、そして画像演算、例えばオブジェクト検出および分類を実行するよう訓練された1つまたは複数のニューラルネットワークとして実装される場合がある。いくつかの実施形態では、処理装置は、1つまたは複数のCPUまたはサーバを含む。本開示の一態様によれば、処理装置は、画像装置とのユーザの対話を指示するコンテキスト情報を得る場合がある。いくつかの実施形態では、コンテキスト情報は、処理装置により、経時的なリアルタイム映像内の2枚以上の画像フレームを解析することによって生成される場合がある。例えば、コンテキスト情報は、経時的に2枚以上の画像フレーム内の検出されたオブジェクトの場所についての、インターセクション・オーバー・ユニオン(IoU)値から生成される場合がある。いくつかの実施形態では、IoU値は、画像装置とのユーザの対話のコンテキスト(例えば、ユーザが画像装置をナビゲートしてオブジェクトを同定しようとしている)を決定するために、しきい値と比較される場合がある。さらに、いくつかの実施形態では、所定の数のフレームまたは時間にわたってしきい値を満たすIoU値の持続性が、画像装置とのユーザ対話を決定するために必要とされる場合がある。処理装置は、画像全体(すなわち、同定されたオブジェクトだけでなく)の解析に基づいてコンテキスト情報を得るように実装される場合がある。いくつかの実施形態では、コンテキスト情報は、分類情報に基づいて得られる。
【0054】
これに加えて、またはこれに代わって、コンテキスト情報は、ユーザの対話を指示する画像装置によって受信されたユーザ入力(例えば、同定されたオブジェクトを、ユーザが画像装置をフォーカスまたはズームすることによって調べていることを指示する入力)に基づいて生成される場合がある。そのような実施形態では、画像装置は、画像装置によって(例えば、フォーカスまたはズームボタンを押すことによって)受信されたユーザ入力を指示する信号を処理装置に提供する場合がある。いくつかの実施形態では、所定の数のフレームまたは時間にわたるユーザ入力の持続性が、画像装置とのユーザ対話を決定するために要求される場合がある。
【0055】
システムの処理装置は、コンテキスト情報に基づいてユーザ対話を同定する場合がある。例えば、IoU法を採用する実施形態では、2枚の連続する画像フレーム間の0.5以上(例えば約0.6または0.7またはそれ以上、例えば、0.8または0.9)のIoU値を使用して、ユーザが関心オブジェクトを調べていることを同定する場合がある。対照的に、それらと同じ画像フレーム間の0.5以下(例えば、約0.4以下)のIoU値を使用して、ユーザが画像装置をナビゲートしていること、または関心オブジェクトから遠ざかっていることを同定する場合がある。いずれの場合でも、所定の数のフレームまたは時間にわたるIoU値(しきい値以上または以下)の持続性が、画像装置とのユーザ対話を決定するために要求される場合がある。
【0056】
これに加えて、またはこれに代わって、コンテキスト情報が、画像装置へのユーザ入力に基づいて得られる場合がある。例えば、ユーザが画像装置上の1つまたは複数のボタンを押すと、分類情報、例えば関心オブジェクトに関する種類情報をユーザが知りたいと望んでいることを指示するコンテキスト情報が提供される場合がある。関心オブジェクトについての情報をユーザがさらに知りたいと望んでいることを指示するユーザ入力の例には、フォーカス操作、ズーム操作、手振れ補正操作、調光操作、および同類のものがある。さらなる例として、オブジェクトをナビゲートし同定することをユーザが望んでいることを他のユーザ入力が指示する場合がある。さらなる例、医療用画像装置の場合には、ユーザは、装置を制御してナビゲートし、視野を移動させて関心オブジェクトを同定する場合がある。上記の実施形態では、所定の数のフレームまたは時間にわたるユーザ入力の持続性が、画像装置とのユーザ対話を決定するために要求される場合がある。
【0057】
いくつかの実施形態では、システムの処理装置は、得られたコンテキスト情報、および決定された画像装置とのユーザ対話に基づいて、複数の画像フレーム上で画像処理を実行する場合がある。いくつかの実施形態では、画像処理は、画像装置から受信されたフレームを処理するよう訓練された少なくとも1つのニューラルネットワーク(例えば、敵対的ネットワーク)を適用することによって実行される場合がある。例えば、ニューラルネットワークは、入力として画像フレームを受信するように、そして関心オブジェクトの場所および/または分類情報の指示体を出力するように構成される1つまたは複数の層を含む場合がある。いくつかの実施形態では、画像処理は、畳み込みニューラルネットワークを適用することによって実行される場合がある。
【0058】
本開示の実施形態と矛盾せずに、ニューラルネットワークは、ネットワークの1つまたは複数のノードの重みを調整することによって、および/またはネットワークの1つまたは複数のノードの活性化(または伝達)関数を調整することによって、訓練される場合がある。例えば、ニューラルネットワークの重みは、ネットワークに関連する損失関数を最小化するように調整される場合がある。いくつかの実施形態では、損失関数は、二乗損失関数、ヒンジ損失関数、ロジスティック損失関数、交差エントロピー損失関数、またはいずれかの他の適切な損失関数または損失関数の組み合わせを含む場合がある。いくつかの実施形態では、ニューラルネットワークの活性化(または伝達)関数は、ノードの1つまたは複数のモデルとノードへの入力との間の合わせ込みを向上させるように修正される場合がある。例えば、処理装置は、ノードに関連付けられた多項式関数の次数を増加または減少させる場合があり、関連付けられた関数を1つのタイプから別のタイプ(例えば、多項式から指数関数、対数関数から多項式、または同類のもの)に変更する場合があり、またはノードのモデルにいずれかの他の調整を実行する場合がある。
【0059】
いくつかの実施形態では、複数の画像フレームを処理することは、複数の画像フレーム内の少なくとも1つのオブジェクトを検出するオブジェクト検出を実行することを含む場合がある。例えば、画像フレーム内のオブジェクトが、非ヒト組織を含むならば、少なくとも1つの処理装置は、(例えば、テクスチャ、色、コントラストなどの特徴に基づいて)オブジェクトを同定する場合がある。
【0060】
いくつかの実施形態では、複数の画像フレームを処理することは、複数の画像フレーム内の少なくとも1つの検出されたオブジェクトに対する分類情報を生成する分類を実行することを含む場合がある。例えば、検出されたオブジェクトが病変を含むならば、少なくとも1つの処理装置は、病変を1つまたは複数のタイプ(例えば、癌性、または非癌性、または同類のもの)に分類する場合がある。しかし、開示された実施形態は、オブジェクト検出器によって同定されたオブジェクト上で分類を実行することには限定されない。例えば、分類は、画像内のオブジェクトを最初に検出することなく画像上で実行される場合がある。加えて、分類は、関心オブジェクトを含む可能性が高い画像の区画または領域(例えば、領域提案ネットワーク(RPN)、高速の領域ベースの畳み込みニューラルネットワーク(FRCN)など、領域提案アルゴリズムによって同定されたもの)上で実行される場合がある。
【0061】
いくつかの実施形態では、複数の画像フレームを処理することは、2枚以上の画像フレームどうし、またはその一部どうし間の画像類似度値、または他の特定の画像特徴を決定することを含む場合がある。例えば、画像類似度値は、複数の画像フレーム内の1つもしくは複数のオブジェクトの動き、複数の画像フレーム内の1つもしくは複数のオブジェクト間の物理的類似性、2枚以上の画像フレーム全体どうしもしくはその一部どうし間の類似性、または2枚以上の画像フレームどうしの間のいずれかの他の特徴、特性、または情報に基づいて生成される場合がある。いくつかの実施形態では、画像類似度値は、オブジェクト検出、分類、および/またはシステムによって受信、取り込み、若しくは計算されたいずれかの他の情報の履歴データに基づいて決定される場合がある。例えば、画像類似度値は、経時的な2枚以上の画像フレーム内に検出されたオブジェクトの場所についての、インターセクション・オーバー・ユニオン(IoU)値から生成される場合がある。さらに、検出されたオブジェクトが以前に検出されたオブジェクトに類似しているかどうかに基づいて、画像類似度値が生成される場合がある。さらに、少なくとも1つのオブジェクトが、以前にユーザが関心を示した分類の一部であるかどうかに基づいて、画像類似度値が生成される場合がある。加えて、ユーザが以前に実行した行動(例えば、フレームの手振れ補正、オブジェクトへのフォーカス、または画像装置とのいずれかの他の対話)を実行しているかどうかに基づいて、画像類似度値が生成される場合がある。このようにして、システムは、ユーザの好みを認識することを学習してもよく、それによって、個別にさらに調整された楽しいユーザ体験をもたらす。先記から理解できるとおり、開示された実施形態は、いかなる特定のタイプの類似度値またはそれを生成する処理にも限定されず、むしろ、2枚以上の画像フレームどうしまたはその一部どうし間の類似度値を決定するいずれかの適切な処理、例えば経時的な情報の集約、経時的な情報の統合、経時的な情報の平均化、および/またはデータ(例えば画像データ)を処理または扱ういずれかの他の方法の関与する処理と共に使用される場合がある。
【0062】
いくつかの実施形態では、複数の画像フレーム内の少なくとも1つのオブジェクトに対するオブジェクト検出、分類、および/または類似度値生成は、システムによって受信、取り込み、または生成された情報に基づいて制御される場合がある。例えば、オブジェクト検出、分類、および/または類似度値は、コンテキスト情報に基づいて呼び出されるまたは無効化される場合がある(例えば、ユーザが画像装置と対話してオブジェクトを同定しようとしていることをコンテキスト情報が指示する場合に、オブジェクト検出が呼び出される場合がある、および/または、ユーザが画像装置と対話して、検出されたオブジェクトを調べていることをコンテキスト情報が指示する場合に、分類が呼び出される場合がある)。一例として、1枚もしくは複数の画像フレームまたはその一部における領域にユーザが関心を示していることをコンテキスト情報が指示する場合に、関心領域内のあらゆるオブジェクトを検出するオブジェクト検出が呼び出される場合がある。その後、関心領域内の1つまたは複数の特定のオブジェクトにユーザが関心を示していることをコンテキスト情報が指示する場合に、関心オブジェクトに対する分類情報を生成する分類が呼び出される場合がある。このようにして、システムは、ユーザが関心を示す情報をリアルタイムでまたはほぼリアルタイムで継続的に提供する場合がある。さらに、いくつかの実施形態では、オブジェクト検出、分類、および/または類似度値生成の、少なくとも1つは、継続的に有効状態である場合がある。例えば、オブジェクト検出は、複数のフレーム内の1つまたは複数の関心オブジェクトを検出するために継続的に実行される場合があり、そして、得られた出力は、システムの他の処理(例えば、コンテキスト情報を生成するための、分類および/または類似度値生成、またはシステムのいずれかの他の機能)において使用される場合がある。継続的な有効化は、システムによって自動的に(例えば、電源投入時に)、ユーザからの入力(例えば、ボタンを押すこと)の結果として、またはそれらの組み合わせによって制御される場合がある。
【0063】
本明細書に開示されるとおり、システムの処理装置は、映像表示装置上に複数の画像フレームと共に表示するオーバーレイを生成する場合がある。随意に、複数の画像フレーム内にオブジェクトが検出されないならば、オーバーレイは、ヌル指示体、またはオブジェクトが検出されなかったという他の指示体を含む場合がある。
【0064】
オーバーレイは、複数の画像フレーム内の少なくとも1つの検出されたオブジェクトの場所を指示する境界を含む場合がある。例えば、少なくとも1つの検出されたオブジェクトの場所が点を含む実施形態では、オーバーレイは、点上に配置された円、星印、またはいずれかの他の形状を含む場合がある。加えて、場所が領域を含む実施形態では、オーバーレイは、領域の周りの境界を含む場合がある。いくつかの実施形態では、形状または境界は動画化される場合がある。したがって、形状または境界は、フレームをまたいで検出されたオブジェクトの場所をなぞるようにしてだけではなく、フレームがシーケンスとして表示される場合に動画らしく見えるようにして、複数のフレームについて生成される場合がある。
【0065】
いくつかの実施形態では、オーバーレイは、分類情報、例えば映像フィード内の少なくとも1つの検出されたオブジェクトに対する分類情報とともに表示される場合がある。例えば、NICE分類体系を用いる実施形態では、オーバーレイは、「タイプ1」、「タイプ2」、「タイプ3」、「ポリープなし」、または「不明」のいずれかである場合のある標識を含む場合がある。またオーバーレイは、信頼度スコア(例えば、「90%」)または同類のものなどの情報を含む場合がある。いくつかの実施形態では、オーバーレイの色、形状、パターン、または他の態様が分類に依存する場合がある。さらに、音および/または振動による指示体を提供する実施形態では、音および/または振動の持続時間、周波数、および/または振幅は、オブジェクトが検出されたかどうかに、または分類に依存する場合がある。
【0066】
本開示と矛盾せずに、システム処理装置は、画像装置からリアルタイム映像を受信して、オーバーレイを含む映像をリアルタイムで表示装置に出力する場合がある。画像装置から映像を受信し、オーバーレイを含む映像を表示装置に出力するのに好適な実施形態の例示的な開示が、2018年6月13日に共に出願された米国出願第16/008,006号および同第16/008,015号に記載されている。これらの出願は、本明細書に明示的に組み込まれる。
【0067】
いくつかの実施形態では、1つまたは複数のニューラルネットワークを含む人工知能(AI)システムが、画像装置との対話中に医師または他の医療従事者の挙動を決定するために提供される場合がある。いくつかの可能な方法を、AIシステムを訓練するのに使用することができる。一実施形態では、映像フレームは、例えば、タスク-臓器-病気の特定の組み合わせに従って、グループ化することができる。例えば、一連の映像フレームを、腺腫の大腸内検出のために、またはバレット症候群の食道内特徴付けのために収集することができる。これらの映像フレームでは、同じタスクを実行している異なる医師の挙動が、システムによって解析される多次元領域においていくつかの共通の特徴を有する場合がある。類似の映像フレームを提示されたAIシステムは、適切に訓練された場合には、これらの映像フレーム内で医師が所与のタスクを実行していることを所与の精度で同定できる場合がある。システムはその結果、映像フレームを高い性能で解析するよう訓練された適切な人工知能の下位アルゴリズムを有効化することができる場合があり、画面上の情報を用いて医師を支援する。
【0068】
他の実施形態では、時間空間領域における画像の基本的な特徴の計算機視覚解析を用いて、色、速度、コントラスト、動きのスピード、オプティカルフロー、エントロピー、二進パターン、テクスチャ、および同類のものの変化などの画像特徴を解析して、同様の結果を得ることができる。
【0069】
本開示において、実施形態を、大腸内視鏡検査におけるポリープの検出および特徴付けの文脈において記載する。従来の大腸内視鏡検査を行っている間、映像カメラを収めた可撓性チューブが肛門から通される。主な目的は、大腸癌の予兆を表し得る小さな病変(ポリープ)を同定し場合によっては除去するために、大腸をその全長で検査することである。医師また他のユーザは、可撓性チューブを動かしながら大腸内をナビゲートする場合があり、同時に、大腸の壁を連続的に検査し、潜在的な病変の存在を探す(検出)場合がある。ポリープの可能性がある画像の特定の領域に医師の注意が向くたびに、医師は動きのスピードを落としたり、疑わしい領域上でズームを試みたりして、ナビゲーション方法を変更する場合がある。疑わしい病変の性質が決定(特徴付け)されると、続いて適切な行動がとられる場合がある。医師は、病変が癌の予兆と考えられる場合にはその場での切除を行うか、そうでない場合には検出のためナビゲーションを再開する場合がある。
【0070】
ポリープを検出する目的で訓練された人工知能システムおよびアルゴリズムは、検出段階では有用である場合があるが、他の瞬間、例えば手術中には邪魔になる可能性がある。同様に、潜在的病変を腺腫または非腺腫として特徴付けるよう訓練された人工知能アルゴリズムは、特徴付け段階においては意味のあるものであるが、検出段階では必要ではない。したがって、本発明者らは、検出用の人工知能システムまたはアルゴリズムを検出段階でのみ有効化し、特徴付け用の人工知能システムまたはアルゴリズムを特徴付け段階でのみ有効化するのが望ましいことを見出した。
【0071】
ここで図1を参照すると、本開示の実施形態による、映像をリアルタイム処理し情報を映像フィード上に重ね合わせる、例示的な計算機実装されたシステム100の概略図が提供されている。図1に示されるとおり、システム100は、画像装置103を制御する操作者101を含む。映像フィードが医療用映像を含む実施形態では、操作者101は、医師または他の医療従事者を含む場合がある。画像装置103は、医療用画像装置、例えばX線装置、コンピュータ断層撮影(CT)装置、磁気共鳴イメージング(MRI)装置、内視鏡検査装置、または人体もしくはその一部の、映像もしくは1枚もしくは複数の画像を生成する他の医療用画像装置を含む場合がある。操作者101は、画像装置103の取り込み速度および/または画像装置103の動き、例えば人体を通るまたは人体に相対的な動きを制御することによって、画像装置103を制御する場合がある。いくつかの実施形態では、画像装置103は、外部画像装置、例えばX線装置の代わりに、Pill-Cam(商標)装置または他の形態のカプセル内視鏡検査装置、または人体の腔を通して挿入される画像装置、例えば内視鏡検査装置を含む場合がある。
【0072】
図1にさらに図示されるとおり、画像装置103は、取り込まれた映像を複数の画像フレームとしてオーバーレイ装置105に送信する場合がある。オーバーレイ装置105は、本明細書の記載のとおり、映像を処理する1つまたは複数の処理装置を含む場合がある。これに加えて、またはこれに代わって、1つまた複数の処理装置は、オーバーレイ装置105の一部ではない別個の構成成分(図示せず)として実装される場合がある。そのような実施形態では、処理装置は、画像装置103から複数の画像フレームを受信し、1つまたは複数のオーバーレイを作成する目的でオーバーレイ装置105と通信して制御信号または情報信号を転送する場合がある。また、いくつかの実施形態では、操作者101は、画像装置103に加えてオーバーレイ装置105を、例えばオーバーレイ装置105のオブジェクト検出器(図示せず)の感度を制御することによって制御する場合がある。
【0073】
図1に図示されるとおり、オーバーレイ装置105は、画像装置103から受信した映像を拡張し、次いで、拡張映像(augmented video)を表示装置107に送信する場合がある。いくつかの実施形態では、この拡張は、本明細書に記載されるとおり、映像に1つまたは複数のオーバーレイを提供することを含む場合がある。図1にさらに図示されるとおり、オーバーレイ装置105は、画像装置103からの映像を表示装置107に直接中継するように構成される場合がある。例えば、オーバーレイ装置105は、所定の条件下では、例えば拡張または生成されることになるオーバーレイがない場合には、直接の中継を実行する場合がある。これに加えて、またはこれに代わって、操作者101が、直接の中継を実行するようオーバーレイ装置105にコマンドを入力するならば、オーバーレイ装置105はそうする場合がある。コマンドは、オーバーレイ装置105に含まれる1つまたは複数のボタンを介して、および/またはキーボードもしくは同類のものなどの入力装置を介して受信される場合がある。映像の修正または1つもしくは複数のオーバーレイがある場合には、オーバーレイ装置105は、修正された映像ストリームを生成して表示装置に送信する場合がある。修正された映像は、表示装置107を介して操作者に表示されることになるオーバーレイおよび/または分類情報を有する元の画像フレームを含む場合がある。表示装置107は、映像または修正された映像を表示するためのいずれかの適切な表示体または類似のハードウェアを含む場合がある。他のタイプの映像修正(例えば、少なくとも1つのオブジェクトのズームされた画像、修正された画像色分布等)を本明細書に記載する。
【0074】
図2Aおよび図2Bはそれぞれ、本開示の実施形態による、コンテキスト情報を用いたリアルタイム画像処理用の、例示的な計算機実装されたシステム200aおよび200bの概略図である。図2Aおよび図2Bはそれぞれ、開示された実施形態と矛盾しない、例示的な計算機実装されたシステム200aおよび200bの構成要素の例示的な構成要素を示している。他の構成が実装されてもよいこと、そして本開示および本明細書の様々な実施形態に鑑みて構成成分が追加、削除、または再配置されてもよいことは理解されよう。
【0075】
図2Aおよび図2Bでは、1つまたは複数の画像処理装置230aおよび230bが提供される場合がある。画像処理装置230aおよび230bはそれぞれ、画像装置210aおよび210bによって取得された画像フレームを処理する場合がある。画像処理装置230aおよび230bはそれぞれ、画像フレーム内の少なくとも1つの関心オブジェクトを検出するためのオブジェクト検出器240aおよび240bと、それぞれ、少なくとも1つの関心オブジェクトに対する分類情報を生成するための分類器250aおよび250bとを含む場合がある。いくつかの実施形態では、オブジェクト検出器240aおよび240b、ならびに分類器250aおよび250bは、画像フレームを処理するよう訓練された1つまたは複数のニューラルネットワークを使用して実装される場合がある。画像処理装置230aおよび230bは、少なくとも1つの検出されたオブジェクトの場所を指示する少なくとも1つの境界を含むオーバーレイを生成すること、少なくとも1つのオブジェクトに対する分類情報を生成すること、少なくとも1つのオブジェクトにズームすること、画像色分布を修正すること、または1枚もしくは複数の画像フレームに対するあらゆる他の調整もしくは変更を行うことなどの画像修正を含む、他の画像処理機能を実行する場合がある。画像装置210aおよび210b(図1の画像装置103と類似のもの)は、医療用画像システムの画像装置または他のタイプの画像装置である場合がある。表示装置260aおよび260bは、図1の表示装置107と同一または類似のものである場合があり、上の説明と同一または類似のやり方で動作する場合がある。
【0076】
コンテキスト解析器220aおよび220bは、(図2Aおよび図2Bに示されるとおり)画像処理装置230aおよび230bとは別個に実装される場合があるか、または画像処理装置230aおよび230bと一体化した構成成分(図示せず)として実装される場合がある。コンテキスト解析器220aおよび230bはそれぞれ、画像装置210aおよび210bとの操作者対話またはユーザ対話を決定し、決定されたユーザ対話に基づいて1つまたは複数の出力を生成する場合がある。それぞれ画像装置210aおよび210bとのユーザ対話を決定するために、コンテキスト解析器220aおよび220bによってコンテキスト情報が得られるまたは生成される場合がある。例えば、いくつかの実施形態では、コンテキスト解析器220aおよび220bは、経時的な2枚以上の画像フレーム内のオブジェクトの場所に関連する、インターセクション・オーバー・ユニオン(IoU)値を計算する場合がある。コンテキスト解析器220aおよび220bは、画像装置とのユーザ対話を決定するためにIoU値をしきい値と比較する場合がある。これに加えて、またはこれに代わって、コンテキスト情報は、経時的な2枚以上の画像フレーム内の検出されたオブジェクトの画像類似度値または他の特定の画像特徴を用いることにより、コンテキスト解析器220aおよび220bによって生成される場合がある。検出されたオブジェクトの画像類似度値または他の特定の画像特徴は、画像装置とのユーザの対話(例えば、ユーザが画像装置をナビゲートしてオブジェクトを同定しようとしている)のコンテキストを決定するために、しきい値と比較される場合がある。検出されたオブジェクトの画像類似度値または他の特定の画像特徴が、所定の数のフレームまたは時間にわたってしきい値を満たすならば、画像装置とのユーザ対話を決定するのに必要な持続性が確立される場合がある。これに加えて、またはこれに代わって、コンテキスト情報は、本明細書に記載されるとおり、ユーザによって、例えばユーザがフォーカスボタンもしくはズームボタンを押すことによって、または画像装置210aおよび210bに他の入力を提供することによって、手動で生成される場合がある。これらの実施形態では、(i)しきい値に対するIoUまたは画像類似度値または(ii)同定されたユーザ入力が、画像装置とのユーザ対話を決定するために、所定の数のフレームまたは時間にわたる持続性が要求される場合がある。
【0077】
いくつかの実施形態では、類似度値生成は、2枚以上の画像フレームどうしまたはそれらの一部どうしの間の画像類似度値または他の特定の画像特徴を決定するよう訓練された1つまたは複数のニューラルネットワークを使用して実行される場合がある。そのような実施形態では、ニューラルネットワークは、IoU値、検出されたオブジェクトが、以前に検出されたオブジェクトに類似しているかどうか、少なくとも1つのオブジェクトが、以前にユーザが関心を示した分類の一部であるかどうか、および/またはユーザが以前に実行した行動を実行しているかどうかを含む、2枚以上の画像フレームどうし間のいずれかの特徴、特性、および/または情報に基づいて類似度値を決定する場合がある。いくつかの実施形態では、類似度値生成は、本明細書に記載されるとおり、システムによって受信、取り込み、および/または生成されてコンテキスト情報を含む情報に基づいて、呼び出されるまたは無効化される場合がある。
【0078】
図2Aの例示的構成によれば、コンテキスト解析器220aは、画像装置210aとの操作者対話またはユーザ対話を決定する場合があり、そして画像装置210aとの決定されたユーザ対話に基づいて画像処理装置230aに対する命令を生成する場合がある。画像装置210aとのユーザ対話を決定するために、コンテキスト解析器220aによってコンテキスト情報が得られるまたは生成される場合がある。例えば、いくつかの実施形態では、コンテキスト解析器220aは、経時的な2枚以上の画像フレーム内のオブジェクトの場所と関連する、インターセクション・オーバー・ユニオン(IoU)値を計算する場合がある。コンテキスト解析器220aは、画像装置とのユーザ対話を決定するためにIoU値をしきい値と比較する場合がある。これに加えて、またはこれに代わって、コンテキスト情報は、上述のとおり、ユーザによって、例えばフォーカスボタンもしくはズームボタンを押すユーザによって、または画像装置210aに他の入力を提供することによって、手動で生成される場合がある。これらの実施形態では、(i)しきい値に対するIoU値または(ii)同定されたユーザ入力が、画像装置とのユーザ対話を決定するために、所定の数のフレームまたは時間にわたって持続するよう要求される場合がある。
【0079】
画像処理装置230aは、コンテキスト解析に関してコンテキスト解析器220aによって受信された入力に基づいて、画像フレームを処理する場合がある。画像処理装置230aは、例えば、オブジェクト検出器240a、分類器250a、および/または他の画像処理構成成分(図示せず)を呼び出すことによって、1つまたは複数の画像処理操作を実行する場合がある。いくつかの実施形態では、画像処理は、画像装置210aから受信された画像フレームを処理するよう訓練された1つまたは複数のニューラルネットワークを適用することによって実行される場合がある。例えば、コンテキスト解析器220aは、画像装置210aをユーザが使用してナビゲートしていることをコンテキスト情報が指示する場合に、オブジェクト検出器240aを呼び出すよう画像処理装置230aに命令する場合がある。さらなる例として、コンテキスト解析器220aは、関心オブジェクトをユーザが調べていることをコンテキスト情報が指示する場合に、分類器250aを呼び出すよう画像処理装置230aに命令する場合がある。当業者には理解されるであろうとおり、画像処理は、オブジェクト検出または分類には限定されない。例えば、画像処理は、領域提案アルゴリズム(例えば、領域提案ネットワーク(RPN)、高速の領域ベースの畳み込みニューラルネットワーク(FRCN)等)を適用すること、関心点検出アルゴリズム(例えば、加速セグメントテストから得られる特徴(Features from Accelerated Segment Test(FAST))、ハリス(Harris)法、最大安定極値領域(Maximally Stable Extremal Regions(MSER))または同類のもの)を適用すること、画像修正(例えば、本明細書に記載の境界または分類情報を重ね合わせること)、または1枚もしくは複数の画像フレームに対するあらゆる他の調整もしくは変更を実行することを含む場合がある。
【0080】
図2Aにさらに示されるとおり、画像処理装置230aは、表示装置260aへの出力を生成する場合がある。表示装置260aは、図1の表示装置107と同一または類似のものである場合があり、そして上に説明したのと同一または類似のやり方で動作する場合がある。出力は、例えば、画像フレーム内の検出されたオブジェクトの場所を指示する境界、および/またはフレーム内の関心オブジェクトの分類情報などの1つまたは複数のオーバーレイを有する元の画像フレームを含む場合がある。
【0081】
図2Bの構成例では、画像処理装置230bは、コンテキスト解析器220bによって提供される情報を用いて画像フレームを処理する場合があり、または画像装置210bによって取り込まれた画像を直接処理する場合がある。コンテキスト解析器220bは、処理全体を通して一貫して実行されて、可能な場合には、画像装置210aとのユーザの対話を指示するコンテキスト情報を決定し、これに応じて、画像処理装置230bに命令を提供する場合がある。またコンテキスト解析器220bは、IoU値、類似度判定、および/または経時的な他の情報を含め、履歴データを分析するように実装される場合がある。画像処理装置230bは、表示装置260bに映像出力を提供する場合がある、および/またはコンテキスト解析器220bにその画像処理機能の1つもしくは複数の出力を提供する場合がある。表示装置260bへの映像出力は、本明細書に記載のとおりの修正(例えば、1つまたは複数のオーバーレイ、分類情報等)を伴う、または伴わない元の映像を含む場合がある。
【0082】
コンテキスト解析器220bは、画像装置210bとの操作者対話またはユーザ対話を決定する場合があり、そして、画像装置210bとの決定されたユーザ対話に基づいて、画像処理装置230bに対する命令を生成する場合がある。コンテキスト解析器220bは、本明細書に開示されるとおり、画像装置210bによって取り込まれた1枚または複数の画像フレームを使用して(例えば、2枚以上のフレームどうしの間のIoU値を計算することによって)ユーザ対話を決定する場合がある。コンテキスト解析器220bは、画像処理装置230bによって生成された履歴データ、例えばオブジェクト検出器240bによって生成されたオブジェクト検出、または分類器250bによって生成された分類を受信する場合がある。コンテキスト解析器220bは、本明細書に記載されるとおり、この情報を使用して画像装置210bとのユーザ対話を決定する場合がある。加えて、コンテキスト解析器220bは、本明細書に記載されるとおり、コンテキスト解析器220b自体によって以前に得られたコンテキスト情報(例えば、以前に計算されたIoU値、類似度値、ユーザ対話、および/またはコンテキスト解析器220bによって生成された他の情報)に基づいて、操作者対話またはユーザ対話を決定する場合がある。
【0083】
いくつかの実施形態では、コンテキスト解析器220bは、画像装置210bからの複数の画像フレームを処理して、画像フレーム内の特定の領域にユーザが関心を示していると判定する場合がある。次いで、コンテキスト解析器220bは、画像処理装置230bに命令を提供して、オブジェクト検出器240bにオブジェクト検出を実行させて、特定された関心領域内のあらゆるオブジェクトを検出させるようにする場合がある。その後、関心領域内のオブジェクトにユーザが関心を示していることをコンテキスト情報が指示する場合に、コンテキスト解析器220bは、画像処理装置230bに命令を提供して、分類器250bに関心オブジェクトに対する分類情報を生成させる場合がある。このようにして、システムは、ユーザが関心を示す情報をリアルタイムで、またはほぼリアルタイムで継続的に提供する場合のある一方で、関心を示さないオブジェクトの情報を表示しないようにする場合がある。有利には、このようにしてコンテキスト情報を使用すると、オブジェクト検出器240bおよび分類器250bによる必要以上の処理もまた回避することができるが、これは、コンテキスト情報から導出された関心領域およびその領域内の関心オブジェクトに関してのみ、処理が実行されるからである。
【0084】
画像処理装置230bは、コンテキスト解析器220bによってコンテキスト解析に関して受信された入力に基づいて、画像フレームを処理する場合がある。加えて、画像処理装置230bは、画像装置210bによって取り込まれた画像フレームを、コンテキスト解析器220bから最初に命令を受信することなく直接処理する場合がある。画像処理装置230bは、例えば、オブジェクト検出器240b、分類器250b、および/または他の画像処理構成成分(図示せず)を呼び出すことによって、1つまたは複数の画像処理操作を実行する場合がある。いくつかの実施形態では、画像処理は、画像装置210bから受信された画像フレームを処理するよう訓練された1つまたは複数のニューラルネットワークを適用することによって実行される場合がある。例えば、コンテキスト解析器220bは、画像装置210bをユーザが使用してナビゲートしていることをコンテキスト情報が指示する場合に、オブジェクト検出器240bを呼び出すよう画像処理装置230bに命令する場合がある。さらなる例として、コンテキスト解析器220bは、関心オブジェクトまたは関心特徴をユーザが調べていることをコンテキスト情報が指示する場合に、分類器250bを呼び出すよう画像処理装置230bに命令する場合がある。当業者には理解されるであろうとおり、画像処理は、オブジェクト検出および分類には限定されない。例えば、画像処理は、領域提案アルゴリズム(例えば、領域提案ネットワーク(RPN)、高速の領域ベースの畳み込みニューラルネットワーク(FRCN)等)を適用すること、関心点検出アルゴリズム(例えば、加速セグメントテストから得られる特徴(Accelerated Segment Test(FAST))、ハリス(Harris)法、最大安定極値領域(Maximally Stable Extremal Regions(MSER))または同類のもの)を適用すること、画像修正(例えば、本明細書に記載の境界または分類情報を重ね合わせること)、または1枚もしくは複数の画像フレームに対するあらゆる他の調整または変更を実行することを含む場合がある。
【0085】
図2Bにさらに示されるとおり、画像処理装置230bは、表示装置260bへの出力を生成する場合がある。出力は、1つまたは複数の画像修正(例えば、画像フレーム内の検出されたオブジェクトの場所を指示する境界、フレーム内の関心オブジェクトの分類情報、オブジェクトのズームされた画像、修正された画像色分布等のオーバーレイ)を伴う元の画像フレームを含む場合がある。加えて、画像処理装置230bは、画像処理情報をコンテキスト解析器220bに提供する場合がある。例えば、画像処理装置230bは、オブジェクト検出器240bによって検出されたオブジェクトに関連する情報、および/または分類器250bによって生成された分類情報を提供する場合がある。その結果、コンテキスト解析器220bは、本明細書に記載されるとおり、この情報を利用して操作者対話またはユーザ対話を決定する場合がある。
【0086】
図3は、本開示の実施形態による、画像装置から受信されたリアルタイム映像を処理する例示的な方法のフローチャートである。図3の実施形態は、(図1または2の例示的なシステムに示されるものなどの)1つまたは複数の処理装置および他の構成成分によって実現される場合がある。図3では、映像は、コンテキスト情報に基づいて処理される。ステップ301では、映像は、画像装置、例えば医療用画像システムから受信される。映像は、複数の画像フレームを含む場合があり、それらの画像フレームは、1つまたは複数の関心オブジェクトを含む場合がある。ステップ303では、画像フレームを処理するよう訓練された1つまたは複数のニューラルネットワークが提供される場合がある。例えば、関心オブジェクト(例えば、ポリープ)の存在を同定するために、敵対的ニューラルネットワークが提供される場合がある。さらなる例として、テクスチャ、色、または同類のものに基づき画像を1つまたは複数の種類(例えば、癌性または非癌性)に基づいて分類するために、畳み込みニューラルネットワークが提供される場合がある。このようにして、画像フレームは、所望の用途に個別に合わせつつ、効率的で正確なやり方で処理される場合がある。
【0087】
ステップ305では、コンテキスト情報が得られる場合がある。コンテキスト情報は、本明細書に記載されるとおり、画像装置のユーザの対話を指示する場合がある。ステップ307では、コンテキスト情報は、ユーザの対話を同定するのに使用される場合がある。例えば、IoUまたは画像類似度値は、ユーザがナビゲートして関心オブジェクトを同定しようとしていること、関心オブジェクトを調べていること、または関心オブジェクトから離れようとしていることを同定するのに使用される場合がある。これに加えて、またはこれに代わって、画像装置へのユーザ入力は、画像装置とのユーザ対話を決定するために使用される場合のあるコンテキスト情報を提供する場合がある。画像装置との特定のユーザ対話が存在することを処理装置が同定する前に、ステップ307の一部として、しきい値に対するIoUもしくは類似度値、および/またはユーザ入力の存在が、所定の数のフレームまたは時間にわたって持続するよう要求される場合がある。ステップ309では、画像処理が、上記のとおり、1つまたは複数の訓練されたニューラルネットワークを使用して、同定された対話(コンテキスト情報)に基づいて実行される場合がある。例えば、同定された対話が、ナビゲートすることであるならば、画像処理装置はオブジェクト検出を実行する場合がある。別の例として、同定された対話が、調べることであるならば、画像処理装置は分類を実行する場合がある。ステップ311では、受信された映像に対する画像修正が、画像処理に基づいて実行される場合がある。例えば、ステップ311の一部として、1つまたは複数のオーバーレイおよび/または分類情報が、ステップ309で実行された画像処理に基づいて生成される場合がある。本明細書で開示されるとおり、オーバーレイは、表示装置を介してユーザまたは操作者に表示される場合がある。例えば、表示される映像出力は、画像フレーム内の検出されたオブジェクトを指示する境界(例えば、四角枠、または星印)、および/または画像フレーム内の関心オブジェクトの分類情報(例えば、「タイプ1」、「タイプ2」、または「タイプ3」などのテキスト標識)を含む場合がある。
【0088】
図4は、本開示の実施形態による、画像装置とのユーザ対話を指示するコンテキスト情報に基づいて画像処理操作を呼び出す例示的な方法のフローチャートである。図4の実施形態は、1つまたは複数の処理装置および他の構成成分(図1または2の例示的なシステムに示されるものなど)によって実現される場合がある。図4では、オブジェクト検出および分類操作は、画像装置との同定されたユーザ対話に基づいて呼び出される。ステップ401では、処理装置は、ユーザが画像装置を使用してナビゲートしている(例えば、関心オブジェクトを同定するために大腸内視鏡検査中に身体部分を通してナビゲートしている)かどうかを判定する場合がある。ユーザがナビゲートしていると判定される場合、ステップ403で、オブジェクト検出器が呼び出される場合がある。例えば、大腸の腺腫を検出するよう訓練されたニューラルネットワークが呼び出される場合がある。ステップ405では、処理装置は、ユーザが関心オブジェクトを調べている(例えば、フレーム内の関心オブジェクトを解析するために画像装置を定常状態に保持している)かどうかを判定する場合がある。ユーザが調べていると判定された場合には、ステップ407で、分類器が呼び出される場合がある。例えば、食道内にバレット症候群の兆候を特徴付けるよう訓練されたニューラルネットワークが呼び出される場合がある。ステップ409では、ユーザが関心オブジェクトから離れようといているかどうかが検出される場合がある。ユーザが離れようとしていると判定されたなら、ステップ411で、分類器が停止される場合がある。
【0089】
図5は、本開示の実施形態による、画像装置からのリアルタイム映像フィード上にオーバーレイ情報を生成する例示的な方法のフローチャートである。図5の実施形態は、(図1または2の例示的なシステムに示されるものなどの)1つまたは複数の処理装置および他の構成成分によって実装される場合がある。図5では、オーバーレイは、コンテキスト情報の解析に基づいて生成され、オーバーレイ表示体は、例えば、画像フレーム内のオブジェクトの場所および分類情報を提供する。ステップ501では、処理装置は、リアルタイム映像フィード内の複数の画像フレーム内のオブジェクトを検出する場合がある。これは、上に説明されるとおり、オブジェクト検出アルゴリズムまたは訓練されたニューラルネットワークを適用することによって行われる場合がある。ステップ503では、画像フレーム内の検出されたオブジェクトの場所を指示する境界を含む第1のオーバーレイ表示体が生成される場合がある。例えば、第1のオーバーレイ表示体は、検出されたオブジェクトの点の場所を指定する円、星印、または他の形状を含む場合がある。さらなる例として、オブジェクトの場所が領域を含むならば、第1のオーバーレイ表示体は、領域上に配置された四角枠、矩形、円、または別の形状を含む場合がある。ステップ505では、処理装置は、ユーザ対話を指示するコンテキスト情報を得る場合がある。上に考察したとおり、コンテキスト情報は、映像(すなわち、IoUまたは画像類似度による方法)、および/またはユーザ入力(すなわち、フォーカスまたはズーム操作)を解析することによって得られる場合がある。ステップ506では、画像フレーム内の関心オブジェクトの分類情報は、本明細書に記載されるとおり、分類器または分類アルゴリズムを呼び出すことによって生成される場合がある。ステップ504では、分類情報を含む第2のオーバーレイ表示体が生成される場合がある。例えば、第2のオーバーレイ表示体は、関心オブジェクトの場所を指示する境界と、分類情報を提供するテキスト標識(例えば、「ポリープ」または「非ポリープ」)とを伴うオーバーレイを含む場合がある。これに加えて、またはこれに代わって、いくつかの実施形態では、第1および/または第2のオーバーレイの色、形状、パターン、または他の態様が、オブジェクトの検出および/または分類に依存する場合がある。
【0090】
図6は、本開示の実施形態による、オブジェクト検出および分類に基づく映像内のオーバーレイを伴う表示体の例である。図6(のみならず図7Aおよび図7B)の例では、例示の映像試料600a、600b、および600cは、大腸内視鏡検査手順から得られたものである。本開示から、本開示の実施形態を実施する場合に、他の手順および撮像装置からの映像を利用してもよいことは、理解されよう。よって、映像試料600a、600b、および600c(のみならず図7Aおよび図7B)は、本開示の非限定的な例である。加えて、例として、図6(のみならず図7Aおよび図7B)の映像表示体も、表示装置、例えば図1の表示装置107上に提示される場合がある。
【0091】
第1のオーバーレイ601は、映像内の検出されたオブジェクト(例えば、異常性)に対する指示体として使用される図形表現による境界の一例を表す。図6の例では、第1のオーバーレイ601は、実線で矩形の境界という形態の指示体を含む。他の実施形態では、第1のオーバーレイ601は、異なる形状(規則的であるにせよ不規則であるにせよ)である場合がある。加えて、第1のオーバーレイ601は、所定の色により、または第1の色から別の色へ遷移することにより、表示される場合がある。第1のオーバーレイ601は、映像フレーム600bおよび600cに現れ、これらは映像フレーム600aの後にシーケンスとして続く場合がある。
【0092】
第2のオーバーレイ602は、映像中の関心オブジェクトの分類の一例(例えば、異常性)を提示する。図6の例では、第2のオーバーレイ602は、異常性のタイプ(分類体系、例えばNICE分類体系による、例えば「タイプ1」)を同定するテキスト標識を含む。映像試料600cから理解できるとおり、第2のオーバーレイ602は、分類標識以外の他の情報を含む場合がある。例えば、分類に関連する信頼度標識(例えば、「95%」)が、第2のオーバーレイ602に含まれる場合がある。
【0093】
図7Aは、本開示の実施形態による、2枚の画像フレームにおけるオブジェクトについての、インターセクション・オーバー・ユニオン(IoU)値を決定する視覚的表現の例である。図7Aに示されるとおり、画像700aおよび700bは、関心オブジェクトを含む映像のフレームを含む。図7Aは、画像700aおよび後の画像700bを図示している。図7Aの例では、面積701aおよび701bはそれぞれ、画像700aおよび700b内に検出された関心オブジェクトの場所および大きさを表す。加えて、面積702は、面積701aおよび701bの組み合わせを表し、画像700aおよび700bにおいて検出されたオブジェクトについてIoU値を決定する視覚的表現を表す。いくつかの実施形態では、IoU値は、以下の式:
【0094】
【数1】
【0095】
上記のIoU式において、重なり面積(Area of Overlap)は、検出されたオブジェクトがどちらの画像にも存在する面積であり、合体面積(Area of Union)は、検出されたオブジェクトが2つの画像に存在する全面積である。図7Aの例では、面積701aと701bとの重なり面積(すなわち、面積702の中心部)と、面積701aと701bとの合体面積(すなわち、面積702全体)との比を用いてIoU値が推定される場合がある。図7Aの例では、面積702の中心が面積702全体よりも比較的小さいことを考えると、IoU値は低いとみなされる場合がある。いくつかの実施形態では、これは、ユーザが関心オブジェクトから遠ざかっていることを指示する場合がある。
【0096】
図7Bは、本開示の実施形態による、2枚の画像フレームにおけるオブジェクトについての、インターセクション・オーバー・ユニオン(IoU)値を決定する視覚的表現の別の例である。図7Bに示されるとおり、画像710aおよび720bは、関心オブジェクトを含む映像のフレームを含む。図7Bは、画像710aおよび後の画像710b(画像700aおよび700bと類似のもの)を図示している。図7Bの例では、面積711aおよび711bはそれぞれ、画像710aおよび710b内に検出された関心オブジェクトの場所および大きさを表す。加えて、面積712は、面積711aおよび711bの組み合わせを表し、画像710aおよび710b内に検出されたオブジェクトのIoU値を決定することの視覚的表現を表す。図7Aについて上記と同一のIoU式をIoU値の決定に用いてもよい。図7Bの例では、面積711aと711bとの重なり面積(すなわち、面積712の中心部)と、面積711aと711bとの合体面積(すなわち、面積712全体)との間の比率を用いてIoU値が推定される場合がある。図7Bの例では、面積712の中心部が面積712全体と比較的等しいことを考えると、IoU値は高いとみなされる場合がある。いくつかの実施形態では、これは、ユーザが関心オブジェクトを調べていることを指示する場合がある。
【0097】
図8は、本開示の実施形態による、複数のフレーム間の画像類似度値に基づいてコンテキスト情報が決定される、オブジェクト検出器および分類器を呼び出す例示的な方法のフローチャートである。しかし、この方法は、コンテキスト情報を決定する他の方法、例えば、IoU値、画像フレーム内の1つもしくは複数のオブジェクトの検出もしくは分類、またはユーザから医療用画像システムにより受信された入力に基づく方法と組み合わせて使用される場合があることは理解されよう。図8の実施形態は、(図1または2の例示的なシステムに示されるものなどの)1つまたは複数の処理装置および他の構成成分によって実装される場合がある。
【0098】
ステップ801では、オブジェクト検出器(例えば、図2Aおよび図2Bのオブジェクト検出器240aおよび240b)が呼び出されて、第1の画像フレーム内に関心オブジェクトが検出される。例えば、特定の疾患または異常性(例えば、大腸の腺腫)を検出するよう訓練された1つまたは複数のニューラルネットワークが呼び出されて、特定の疾患または異常性が第1の画像フレームに存在するかどうかを判定する場合がある。オブジェクト検出器は、他の実施形態に関連して上に考察したとおりの同一または類似の理由から呼び出される場合がある。ステップ803では、オブジェクト検出器は、第1の画像フレームに続いて得られた第2の画像フレームを処理して、第2の画像フレーム内の関心オブジェクトが存在するかしないかを判定する。例えば、1つまたは複数のニューラルネットワークは、大腸の腺腫と矛盾しないポリープが第2の画像フレーム内に存在することを検出する場合がある。
【0099】
ステップ805では、第1の画像フレームと第2の画像フレームとの間の類似度値が、コンテキスト情報を決定するための所定のしきい値以上であるかどうかの判定を行う。判定は、画像類似度評価器(図示せず)を用いて行われる場合がある。類似度評価器は、処理装置とともに実装される場合があり、かつ、入力としての画像フレームを処理する、そして画像の重なり、エッジ、関心点、関心領域、色分布、または同類のものの画像特徴とともに2枚以上の画像フレーム間の類似度値を出力する、1つまたは複数のアルゴリズムを含む場合がある。いくつかの実施形態では、類似度評価器は、0と1の間の数(例えば、0.587)を出力するように構成される場合があり、ここで1という類似度値は、2枚以上の画像フレームが同一であることを意味し、0という類似度値は、2枚以上の画像フレームが類似性を有さないことを意味する。いくつかの実施形態では、画像類似度評価器は、コンテキスト解析器(例えば、図2Aおよび図2Bのコンテキスト解析器220aおよび220b)または画像処理装置(例えば、図2Aおよび図2Bの画像処理装置230aおよび230b)の一部、例えば、オブジェクト検出器(例えば、図2Aおよび図2Bのオブジェクト検出器240aおよび240b)または分類器(例えば、図2Aおよび図2Bの分類器250aおよび250b)の一部である場合がある。
【0100】
類似度値の計算は、第1および第2の画像フレームの1つまたは複数の特徴を用いて実行される場合がある。例えば、関心オブジェクトをユーザが調べていることを同定するために、第1の画像フレームの充分な部分が第2の画像フレームに含まれているかどうかについて判定がなされる場合がある。非限定的な例として、第1の画像フレームの少なくとも0.5(例えば、約0.6または0.7以上、例えば0.8または0.9)が第2の画像フレームに含まれるならば、これを使用して、関心オブジェクトをユーザが調べていると同定される場合がある。対照的に、第1の画像フレームの0.5未満(例えば、約0.4以下)が第2の画像フレームに含まれるならば、これを使用して、画像装置をユーザがナビゲートしていると、または関心オブジェクトから遠ざかっていると同定される場合がある。しかしこの判定は、他の画像特徴、例えばエッジ、関心点、関心領域、色分布を用いて行われる場合があることは理解されよう。
【0101】
ステップ807では、関心オブジェクトをユーザが調べていないことを、画像類似度値が所定のしきい値以下であると判定することなどによってコンテキスト情報が指示するならば、オブジェクト検出器は、呼び出された状態のままその出力を得て、次の画像フレームを処理し、図8の例示的方法のステップ803からやり直す。いくつかの実施形態では、オブジェクト検出器は、ステップ807で無効化される場合がある。例えば、オブジェクト検出器は、オブジェクトを検出しようとユーザがもはや望んでいないことをコンテキスト情報が指示する場合には、無効化される場合がある。これは、例えば、ユーザがオブジェクト検出器を無効化しようと入力装置(例えば、ボタン、マウス、キーボードなど)と対話する場合に判定される場合がある。このようにして、検出は効率的に、必要とされる場合にだけ実行され、それによって例えば、表示体が不要な情報で過密にならないようにする。
【0102】
ステップ809では、オブジェクト検出器の出力に基づいて、画像修正が実行されて、受信された画像フレームを修正する。例えば、本開示の実施形態により、画像装置からのリアルタイム映像フィード上にオーバーレイ情報が生成される場合がある。オーバーレイ情報は、例えば、オブジェクト検出器によって検出された関心オブジェクトの場所、例えば、検出されたオブジェクトの場所を指定する円、星印、または他の形状を含む場合がある。さらなる例として、オブジェクトの場所が領域を含むならば、オーバーレイ情報は、領域上に配置された四角枠、矩形、円、または別の形状を含む場合がある。しかし、検出されたオブジェクトにユーザの注意を向けさせるために、例えば検出されたオブジェクトの領域をズームする、画像色分布を変更する、または同類のことを行うために、他の画像修正が使用される場合のあることは理解されよう。
【0103】
ステップ811では、分類器(例えば、図2Aおよび図2Bの分類器250aおよび250b)が呼び出されて、少なくとも1つの検出されたオブジェクトに対する分類情報が生成され、これは開示された実施形態と矛盾しない。例えば、検出されたオブジェクトが病変を含むならば、分類器は、病変を1つまたは複数のタイプ(例えば、癌性または非癌性、または同類のもの)に分類する場合がある。いくつかの実施形態では、オブジェクトを分類するよう訓練された1つまたは複数のニューラルネットワーク(例えば、敵対的ニューラルネットワーク)が呼び出されて、検出されたオブジェクトを分類する場合があり、これは開示された実施形態と矛盾しない。ステップ813では、オブジェクト検出器および分類器の両方は、次のフレーム(例えば、第2の画像フレームに続いて得られる第3の画像フレーム)を処理して、その画像フレーム内の関心オブジェクトが存在するかしないかを判定し、関心オブジェクトが検出されたならば分類情報を生成する。例えば、1つまたは複数のニューラルネットワークは、大腸の腺腫と矛盾しないポリープが画像フレームに存在することを検出する場合があり、その後、ポリープが実際に腺腫であると判定するならば、「腺腫(Adenoma)」等の標識を、ポリープが腺腫でないと判定するならば、「非腺腫(Non-Adenoma)」等の標識を、信頼性スコア(例えば「90%」)と共に生成する場合がある。
【0104】
ステップ815では、画像フレーム(例えば、第2の画像フレームと第3の画像フレーム)の間の類似度値が、コンテキスト情報を決定するための所定のしきい値以上であるかどうかの判定を行う。これは、ステップ805に関連して上記されたのと同一または類似のやり方で実行される場合がある。ステップ817では、関心オブジェクトをユーザがもはや調べていないことを、画像類似度値が所定のしきい値未満であると判定することなどによってコンテキスト情報が指示するならば、分類器は無効化され、オブジェクト検出器は、呼び出された状態のまま次の画像フレームを処理し、ステップ803からやり直す。このようにして、分類は効率的に、必要とされる場合にだけ実行され、それによって例えば、表示体が不要な情報で過密にならないようにする。対照的に、ステップ819では、関心オブジェクトをユーザが調べ続けていることをコンテキスト情報が指示するならば、分類器は、N枚(すなわち、2枚以上)という数の画像フレームを処理して、少なくとも1つの検出されたオブジェクトに対する分類情報を生成する。N枚の画像フレームすべてに対する分類器の出力にアルゴリズムが適用されて、単一の出力を生成する場合がある。例えば、移動平均計算が適用されて、時間次元にわたって各画像フレームに対する分類器の出力を一体化する場合がある。特定のポリープを種類(例えば、腺腫または腺腫でない)に分類した分類情報は、異なる特性(例えば、テクスチャ、色、大きさ、形状等)の影響を受ける可能性があるので、分類器の出力は、ポリープが存在するN枚のフレームの一部においてノイズの影響を受ける場合がある。この現象を低減させるために、最後のN枚のフレームについて分類器の出力を一体化する移動平均の形態を実装することができる。非限定的な例として、算術平均が計算される場合があるが、同一の結果を得るために他の数学的および統計的定式化を使用することができる。
【0105】
ステップ821では、分類器の出力に基づいて、画像修正が実行されて、受信された画像フレームを修正する。例えば、画像装置からのリアルタイム映像フィード上にオーバーレイ情報が、ステップ809に関連して上記されたのと同一または類似のやり方で、検出されたオブジェクトに対して生成される場合がある。加えて、オーバーレイ情報は、検出されたオブジェクトに対して分類器によって生成された分類情報とともに表示される場合がある。分類情報は、ステップ813に関連して上記されたものと同一または類似の情報を含む場合がある。ステップ823a、823b、および823cでは、例えば、検出されたオブジェクトに対し、分類に応じて異なる分類情報が生成される。ステップ823aでは、検出されたオブジェクトが、分類器によって腺腫と分類されたポリープであるならば、検出されたオブジェクトの周りに赤い四角枠とともに「腺腫(Adenoma)」という標識が生成される場合がある。ステップ823bでは、検出されたオブジェクトが、分類器によって非腺腫として分類されたポリープであるならば、検出されたオブジェクトの周りに白い四角枠とともに「非腺腫(Non-Adenoma)」という標識が生成される場合がある。ステップ823cでは、検出されたオブジェクトが、例えばフォーカスが合っていない、画像データが破損しているなどの結果として、分類器によって分類できないならば、検出されたオブジェクトの周りに灰色の四角枠とともに「非分類(Unclassified)」という標識が生成される場合がある。
【0106】
ステップ825では、オブジェクト検出器と分類器の両方が、次の利用可能な画像フレームを処理して、関心オブジェクトが存在するかしないかを判定し、関心オブジェクトが検出されるならば、分類情報を生成して、図8の方法のステップ815からやり直す。
【0107】
本開示は、例示目的で提示した。それは限定列挙ではなく、開示された正確な形態または実施形態に限定されるものでもない。実施形態の修正および適応は、本明細書および開示された実施形態の実施を考慮すれば明らかとなろう。例えば、記載の実装はハードウェアを含むが、本開示と矛盾しないシステムおよび方法を、ハードウェアおよびソフトウェアを用いて実装することができる。加えて、特定の構成成分が互いに結合されているものとして記載してきたが、そのような構成成分は、互いに一体化されてもよいし、いずれかの適切なやり方で分散されてもよい。
【0108】
さらに、本明細書では例示的な実施形態を記載してきたが、一方でその範囲は、本開示に基づく均等な構成要素、修正、省略、組み合わせ(例えば、様々な実施形態にまたがる態様の組み合わせ)、適応、および/または変更を有するありとあらゆる実施形態を含む。特許請求の範囲の構成要素は、特許請求の範囲に採用された文言に基づいて広く解釈され、本明細書に記載の例または本出願の手続き中の例には限定されておらず、これらの例は非排他的であると解釈されるものとする。さらに、開示の方法のステップは、ステップの順序を変更する、および/またはステップを挿入もしくは削除することを含め、いかようにしても変更することができる。
【0109】
本開示の特徴および利点は、詳細な明細書から明らかであり、したがって、添付の特許請求の範囲は、本開示の真の趣旨および範囲に収まるあらゆるシステムおよび方法を対象範囲とすることが意図される。本明細書で使用されるとおり、不定冠詞「a」および「an」は、「1つまたは複数」を意味する。同様に、複数形の用語の使用は、所与の文脈で明確にそうでない限り、必ずしも複数を指示しているわけではない。また、「および」または「または」などの語は、別途特に指示がない限り、「および/または」を意味する。さらに、本開示の検討から多数の修正および変形が容易になされることになるので、例示され説明されたものと厳密に同じ構造および動作に本開示を限定することは望ましくなく、したがって、本開示の範囲内に収まるあらゆる適切な修正および均等物に訴えてもよい。
【0110】
他の実施形態は、明細書と、本明細書に開示された実施形態の実施とを考慮することから明らかになろう。明細書および実施例は、例としてのみ考慮されることが意図されており、開示された実施形態の真の範囲および趣旨は、添付の特許請求の範囲によって指示される。
【0111】
いくつかの実施形態によれば、本明細書に記載の操作、技術、および/または構成成分は、1つまたは複数の特殊用途計算装置を含むことのできる装置またはシステムによって実現することができる。特殊用途計算装置は、本明細書に記載の操作、技術、および/もしくは構成成分を実行するように結線することができるか、または本明細書に記載の操作、技術、および/もしくは構成成分を実行するように永続的にプログラムされた、1つもしくは複数の特定用途向け集積回路(ASIC)もしくはフィールドプログラマブルゲートアレイ(FPGA)などのデジタル電子装置を含むことができるか、またはファームウェア、メモリ、他のストレージ、もしくは組み合わせにおけるプログラム命令に従って本開示のそうした特徴を行うようプログラムされた1つもしくは複数のハードウェア処理装置を含むことができる。そのような特殊用途計算装置はまた、カスタム結線ロジック、ASIC、またはFPGAをカスタムプログラミングと組み合わせて、本開示の技術および他の特徴を達成することができる。特殊用途計算装置は、デスクトップ計算機システム、ポータブル計算機システム、携帯型装置、ネットワーク装置、または本開示の技術および他の特徴を実現するための結線論理および/またはプログラム論理を組み込むことができるいずれの他の装置とすることもできる。
【0112】
1つまたは複数の特殊用途計算装置は概して、オペレーティングシステムソフトウェア、例えばiOS、Android、Blackberry、Chrome OS、Windows XP、Windows Vista、Windows 7、Windows 8、Windows Server、Windows CE、Unix、Linux(登録商標)、SunOS、Solaris、VxWorks、または他の互換オペレーティングシステムによって制御し調整することができる。他の実施形態では、計算装置は、独自のオペレーティングシステムによって制御することができる。オペレーティングシステムはとりわけ、実行用の計算機処理を制御およびスケジューリングし、メモリ管理を行い、ファイルシステム、ネットワーキング、I/Oサービスを提供し、ユーザインターフェース機能、例えばグラフィカルユーザインターフェース(「GUI」)を提供することが可能である。
【0113】
さらに、開示された実施形態の態様は、メモリおよび他の有形の計算機可読記憶媒体に記憶されたデータに関連するものとして記載されているものの、当業者は、これらの態様がまた、多くの種類の有形の計算機可読媒体、例えばハードディスク、フロッピーディスク、もしくはCD-ROMなどの二次記憶装置、または他の形態のRAMもしくはROMに記憶され、そこから実行することもできることを理解するであろう。したがって、開示された実施形態は、上記の例に限定されるものではなく、むしろ、それらの最大限の範囲の均等物に照らして、添付の特許請求の範囲によって規定される。
【0114】
さらに、本明細書では例示的な実施形態を記載してきたが、その範囲は、本開示に基づく均等な構成要素、修正、省略、組み合わせ(例えば、様々な実施形態にまたがる態様の組み合わせ)、適応、または変更を有するありとあらゆる実施形態を含む。特許請求の範囲における構成要素は、特許請求の範囲において採用された文言に基づいて広く解釈され、本明細書に記載の例または本出願の手続き中の例に限定されるものではなく、これらの例は非排他的であると解釈されるものとする。さらに、開示の方法のステップは、ステップの順序変更、またはステップの挿入もしくは削除を含め、いかようにしても修正することができる。
【0115】
したがって、本明細書および実施例は、例としてしか見なされないことが意図されており、真の範囲および趣旨は、添付の特許請求の範囲およびそれらの最大限の範囲の均等物によって指示される。
図1
図2A
図2B
図3
図4
図5
図6
図7A
図7B
図8
【国際調査報告】