(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-19
(45)【発行日】2024-03-28
(54)【発明の名称】医療画像装置からのリアルタイムビデオを処理し、且つ、ビデオ内の物体を検出するシステム及び方法
(51)【国際特許分類】
A61B 1/045 20060101AFI20240321BHJP
G06T 7/00 20170101ALI20240321BHJP
【FI】
A61B1/045 618
G06T7/00 350C
G06T7/00 616
A61B1/045 614
(21)【出願番号】P 2021518990
(86)(22)【出願日】2019-06-11
(86)【国際出願番号】 EP2019065258
(87)【国際公開番号】W WO2019238714
(87)【国際公開日】2019-12-19
【審査請求日】2022-06-10
(32)【優先日】2018-06-13
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2018-06-28
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】520492282
【氏名又は名称】コスモ アーティフィシャル インテリジェンス-エーアイ リミティド
(74)【代理人】
【識別番号】100099759
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100092624
【氏名又は名称】鶴田 準一
(74)【代理人】
【識別番号】100114018
【氏名又は名称】南山 知広
(74)【代理人】
【識別番号】100153729
【氏名又は名称】森本 有一
(72)【発明者】
【氏名】ナーン ゴー ディン
(72)【発明者】
【氏名】ジュリオ エバンジェリスティ
(72)【発明者】
【氏名】フラビオ ナバーリ
【審査官】増渕 俊仁
(56)【参考文献】
【文献】国際公開第2017/042812(WO,A2)
【文献】特開2016-144507(JP,A)
【文献】特表2008-535566(JP,A)
【文献】国際公開第2017/055412(WO,A1)
【文献】米国特許出願公開第2018/0075599(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
A61B 1/00-1/32
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
リアルタイムビデオを処理するコンピュータ実装されたシステムであって、
医療画像装置から取得された
複数のフレームを有するリアルタイムビデオを受け取る入力ポートと、
前記受け取られたリアルタイムビデオを転送する第1バスと、
物体検出及び境界オーバーレイのための命令を実行するように構成された少なくとも1つのプロセッサであって、前記命令が、
前記第1バスから前記リアルタイムビデオを
受信し、
前記受信したリアルタイムビデオの前記複数のフレームを、トレーニングされたニューラルネットワークに直接的に供給し、
前記トレーニング
されたニューラルネットワークを
、前記
受信したリアルタイムビデオの
前記複数のフレームに
適用することにより、物体検出を実行し、
前記トレーニングされたニューラルネットワークを前記受信したリアルタイムビデオの前記複数のフレームに適用することによって判定した前記
複数のフレーム内の少なくとも1つの検出された物体の
位置を
示す境界をオーバーレイする
ことであって、
前記オーバーレイされた境界が、前記少なくとも1つの検出された物体を含む前記複数のフレームの領域の周りに表示された第1パターン及び/又は色のグラフィカルインジケータを有する、オーバーレイすることと、
を有する、少なくとも1つのプロセッサと、
前記オーバーレイされた境界を有する前記
複数のフレームを受け取る第2バスと、
前記オーバーレイされた境界を有する前記
複数のフレームを前記第2バスから外部ディスプレイに出力する出力ポートと、
前記受け取られたリアルタイムビデオを前記出力ポートに直接的に送信する第3バスと、
を有
し、前記少なくとも1つのプロセッサは、前記少なくとも1つの検出された物体が真陽性である場合は前記グラフィカルインジケータが第2パターン及び/又は色で表示されるように変更し、前記少なくとも1つの検出された物体が偽陽性である場合は前記グラフィカルインジケータが第3パターン及び/又は色で表示されるよう更に変更する、ように更に構成されている、システム。
【請求項2】
前記第3バスは、前記少なくとも1つのプロセッサからのエラー信号の受信の際に起動されている、請求項1に記載のシステム。
【請求項3】
前記リアルタイムビデオは、胃鏡検査、結腸内視鏡検査、小腸内視鏡検査、或いは、任意選択により、内視鏡検査装置を含む上部内視鏡検査の少なくとも1つの際に使用される撮像装置からの画像を有する、請求項1又は2に記載のシステム。
【請求項4】
前記少なくとも1つの検出される物体は、異常性であり、且つ、異常性は、任意選択により、ヒト組織上における形成又はヒト組織の形成、1つのタイプの細胞から別のタイプの細胞へのヒト組織における変化、及び/又は、ヒト組織が予想されている
位置からの前記ヒト組織の欠如を有する、請求項1から3のいずれか1項に記載のシステム。
【請求項5】
前記異常性は、任意選択により、ポリープ状病変又は非ポリープ状病変を有する、病変を有する、請求項4に記載のシステム。
【請求項6】
前記少なくとも1つのプロセッサは、前記境界の
パターンが変更された際に、サウンドを生成するように、1つ又は複数のスピーカにコマンドを送信し、且つ/又は、前記境界の
パターンが変更された際に、振動するように、少なくとも1つのウェアラブル装置にコマンドを送信する、ように更に構成されている、請求項
1から5のいずれか1項に記載のシステム。
【請求項7】
前記サウンドの持続時間、トーン、周波数、及び振幅の少なくとも1つは、前記少なくとも1つの検出された物体が真陽性であるのか又は偽陽性であるのかに依存しており、且つ/又は、前記振動の持続時間、周波数、及び振幅の少なくとも1つは、前記少なくとも1つの検出された物体が真陽性であるのか又は偽陽性であるのかに依存している、請求項
6に記載のシステム。
【請求項8】
前記複数のフレームは、胃鏡検査、結腸内視鏡検査、小腸内視鏡検査の少なくとも1つの際に使用される前記医療画像装置からの画像を含む、請求項1に記載のシステム。
【請求項9】
前記トレーニングされたニューラルネットワークは、対象の特徴の位置のインジケータを有するビデオの複数のフレームを用いてトレーニングされる、請求項1に記載のシステム。
【請求項10】
前記トレーニングされたニューラルネットワークは、生成ネットワーク及びディスクリミネータネットワークを有し、前記生成ネットワークは、対象の特徴の複数の人工的表現を生成するようにトレーニングされ、前記ディスクリミネータネットワークは、前記対象の特徴の前記複数の人工的表現と前記対象の特徴の真の表現とを弁別するようにトレーニングされる、請求項1に記載のシステム。
【請求項11】
前記ディスクリミネータネットワークは、敵対的ブランチ及び知覚ブランチを有し、前記敵対的ブランチは、前記対象の特徴の前記複数の人工的表現と前記対象の特徴の真の表現との間の差インジケータを生成するようにトレーニングされ、前記知覚ブランチは、前記対象の特徴の第2の複数の検出を生成するようにトレーニングされる、請求項10に記載のシステム。
【請求項12】
前記少なくとも1つのプロセッサは、前記トレーニングされたニューラルネットワークを適用することによって、前記検出された物体の分類を実行するように更に構成されている、請求項1に記載のシステム。
【請求項13】
前記分類は、組織学的分類、形態学的分類、構造的分類のうちの少なくとも1つに基づく、請求項12に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、一般に、ニューラルネットワークの分野と、画像分析及び物体検出用のこの種のネットワークの使用と、に関する。更に詳しくは、且つ、限定を伴うことなしに、本開示は、敵対的生成ネットワークをトレーニングする、且つ、リアルタイムビデオを処理する、コンピュータ実装されたシステム及び方法に関する。本明細書において開示されているシステム及び方法並びにトレーニング済みのニューラルネットワークは、医療画像分析及び正確な物体検出能力から受益するシステムなどの、様々な用途及びビジョンシステムにおいて使用することができる。
【背景技術】
【0002】
多くの物体検出システムにおいて、物体が画像内において検出されている。対象の物体は、人物、場所、又は物であってよい。医療画像分析及び診断などの、いくつかの用途においては、物体の場所も、同様に重要である。但し、画像クラシファイアを利用しているコンピュータ実装されたシステムは、通常、検出された物体の場所を識別又は提供することができない。従って、画像クラシファイアのみを使用している現存のシステムは、あまり有用ではない。
【0003】
更には、物体検出用のトレーニング技法は、手動的に注釈付けされたトレーニングセットに依存しうる。このような注釈付けは、トレーニング対象の検出ネットワークが、ユー・オンリー・ルック・ワンス(YOLO:You Only Look Once)アーキテクチャ、シングルショット検出器(SSD:Single Shot Detector)アーキテクチャ、又はこれらに類似したもの、などの、境界ボックスに基づいたものである際に、時間を所要している。従って、大きなデータセットは、トレーニング用に注釈付けすることが困難であり、これにより、しばしば、相対的に小さなデータセットにおいてトレーニングされるニューラルネットワークを結果的にもたらしており、この結果、精度が低減されている。
【0004】
コンピュータ実装されたシステムの場合に、現存の医療撮像は、通常、単一の検出器ネットワーク上において構築されている。従って、検出が実施されたら、ネットワークは、単に、例えば、医師又はその他の医療従事者に検出を出力している。但し、このような検出は、内視鏡検査における非ポリープ又はこれに類似したもののように、偽陽性である場合がある。このようなシステムは、真陽性から偽陽性を弁別するための別個のネットワークを提供してはいない。
【0005】
更には、ニューラルネットワークに基づいた物体検出器は、通常、ニューラルネットワークによって識別された特徴を検出器に供給しており、検出器は、第2のニューラルネットワークを有しうる。但し、このようなネットワークは、しばしば、不正確であり、その理由は、特徴検出が、一般化されたネットワークによって実行されており、専門化されているのは、検出器部分のみである、からである。
【0006】
最後に、多くの現存の物体検出器は、遅延を伴って機能している。例えば、医療画像は、分析の前に、キャプチャ及び保存される場合がある。但し、内視鏡検査などの、いくつかの医療手順は、リアルタイムで診断されている。この結果、これらのシステムは、通常、必要とされているリアルタイム方式によって適用することが困難である。
【発明の概要】
【0007】
以上の内容に鑑み、本開示の実施形態は、敵対的生成ネットワークをトレーニングする、且つ、医療画像分析などの用途のために、これを使用する、コンピュータ実装されたシステム及び方法を提供している。本開示のシステム及び方法は、現存のシステム及び技法との比較において、改善された物体検出及び場所情報を含む、利益を提供している。
【0008】
いくつかの実施形態によれば、その場所と共に、対象の特徴(即ち、対象の異常性又は物体)を識別する物体検出器ネットワークと、偽陽性から真陽性を弁別する敵対的ネットワークと、を含む、コンピュータ実装されたシステムが提供されている。更には、本開示の実施形態は、物体検出器ネットワークをトレーニングするための2ループ技法をも提供している。このトレーニングプロセスは、手動的な注釈付けが、格段に高速に、且つ、従って、相対的に大きなデータセットを伴って、発生しうるように、検出の検討に基づいた注釈付けを使用している。更には、このプロセスは、真陽性から偽陽性を弁別するために、敵対的生成ネットワークをトレーニングするべく、使用することができる。
【0009】
これに加えて、物体検出器ネットワークを敵対的生成ネットワークと組み合わせる、開示されたシステムが提供されている。このようなネットワークを組み合わせることにより、偽陽性が真陽性から弁別され、これより、相対的に正確な出力を提供することができる。偽陽性を低減することにより、医師又はその他の医療従事者は、増大した精度の故に、増大した注意をネットワークからの出力に付与することができる。
【0010】
更には、本開示の実施形態は、専門化された検出器と組み合わせられた1つのニューラルネットワークによる一般的な特徴識別を使用してはいないニューラルネットワークを含む。むしろ、単一の、シームレスなニューラルネットワークが、物体検出器部分についてトレーニングされており、この結果、相対的に高度な専門化のみならず、増大した精度及び効率がもたらされている。
【0011】
最後に、本開示の実施形態は、単一のディスプレイ上において、物体検出と共に、(内視鏡検査ビデオ又はその他の医療画像などの)リアルタイムビデオを表示するように、構成されている。従って、本開示の実施形態は、物体検出器に伴う誤り及びその他の潜在的な欠点に由来する潜在的な問題を極小化するべく、ビデオバイパスを提供している。更には、物体検出は、医師又はその他の医療従事者の注意を相対的に良好に引き付けるように設計された特殊な方式によって表示することができる。
【0012】
一実施形態において、リアルタイムビデオを処理するシステムは、リアルタイムビデオを受け取る入力ポートと、受け取ったリアルタイムビデオを転送する第1バスと、第1バスからリアルタイムビデオを受け取り、受け取ったリアルタイムビデオのフレームに対して物体検出を実行し、且つ、フレーム内の少なくとも1つの検出された物体の場所を通知する境界をオーバーレイする、ように構成された少なくとも1つのプロセッサと、オーバーレイされた境界を有するビデオを受け取る第2バスと、オーバーレイされた境界を有するビデオを第2バスから外部装置に出力する出力ポートと、受け取られたリアルタイムビデオを出力ポートに直接的に送信する第3バスと、を有することができる。
【0013】
いくつかの実施形態において、第3バスは、少なくとも1つのプロセッサからのエラー信号の受信の際に起動されうる。
【0014】
実施形態のいずれかにおいて、少なくとも1つの検出される物体は、異常性であってよい。このような実施形態において、異常性は、ヒト組織上における形成又はヒト組織の形成を有することできる。これに加えて、又はこの代わりに、異常性は、1つのタイプの細胞から別のタイプの細胞へのヒト組織における変化を有することができる。これに加えて、又はこの代わりに、異常性は、ヒト組織が予想されている場所からのヒト組織の欠如を有することもできる。
【0015】
実施形態のいずれかにおいて、異常性は、病変を有することができる。例えば、病変は、ポリープ状病変又は非ポリープ状病変を有することができる。
【0016】
実施形態のいずれかにおいて、オーバーレイされた境界は、少なくとも1つの検出された物体を含む画像の領域の周りのグラフィカルパターンを有していてもよく、この場合に、パターンは、第1色において表示されている。このような実施形態において、少なくとも1つのプロセッサは、所定の時間が経過した後に、少なくとも1つの検出された物体が真陽性である際には、第2色において表示されるように、パターンを変更し、且つ、少なくとも1つの検出された物体が偽陽性である場合には、第3色において表示されるように、パターンを更に変更する、ように更に構成することができる。このような実施形態において、少なくとも1つのプロセッサは、境界のパターンが変更された際に、サウンドを生成するべく、1つ又は複数のスピーカにコマンドを送信するように更に構成することができる。このような実施形態において、サウンドの持続時間、トーン、周波数、及び振幅の少なくとも1つは、少なくとも1つの検出された物体が真陽性であるのか又は偽陽性であるのかに依存しうる。サウンドに加えて、又はこの代わりに、少なくとも1つのプロセッサは、境界のパターンが変更された際に、振動するべく、少なくとも1つのウェアラブル装置にコマンドを送信するように更に構成することができる。このような実施形態において、振動の持続時間、周波数、及び振幅の少なくとも1つは、少なくとも1つの検出された物体が真陽性であるのか又は偽陽性であるのかに依存している。
【0017】
一実施形態において、リアルタイムビデを処理するシステムは、リアルタイムビデオを受け取る入力ポートと、入力ポートからリアルタイムビデオを受け取り、トレーニング済みのニューラルネットワークを受け取られたリアルタイムビデオのフレームに対して適用することにより、物体検出を実行し、フレーム内の少なくとも1つの検出された物体の場所を通知する境界をオーバーレイする、ように構成された少なくとも1つのプロセッサと、オーバーレイされた境界を有するビデオを少なくとも1つのプロセッサから外部ディスプレイに出力する出力ポートと、ユーザーから感度設定を受け取る入力装置と、を有することができる。プロセッサは、感度設定に応答して、トレーニング済みのニューラルネットワークの少なくとも1つのパラメータを調節するように更に構成することができる。
【0018】
いくつかの実施形態において、少なくとも1つの検出された物体は、異常性であってよい。このような実施形態において、異常性は、ヒト組織上における形成又はヒト組織の形成を有することができる。これに加えて、又はこの代わりに、異常性は、1つのタイプの細胞から別のタイプの細胞へのヒト組織における変化を有することができる。これに加えて、又はこの代わりに、異常性は、ヒト組織が予想されている場所からのヒト組織の欠如を有することができる。
【0019】
実施形態のいずれかにおいて、異常性は、病変を有することができる。例えば、病変は、ポリープ状病変又は非ポリープ状病変を有することができる。
【0020】
本開示の更なる目的及び利点については、部分的には、以下の詳細な説明に記述されており、且つ、部分的には、その説明から明らかとなり、或いは、本開示の実施により、学習することができる。本開示の目的及び利点は、添付の請求項において具体的に指摘されている要素及び組合せを利用して実現及び達成されることになる。
【0021】
上述の一般的な説明及び以下の詳細な説明は、例示及び説明を目的としたものに過ぎず、且つ、開示されている実施形態を限定するものではない、ことを理解されたい。
【0022】
本明細書の一部分を構成する、添付の図面は、いくつかの実施形態を示しており、且つ、記述と共に、開示されている実施形態の原理及び特徴を説明するべく機能している。添付図面は、以下のとおりである。
【図面の簡単な説明】
【0023】
【
図1】本開示の実施形態による、物体検出をビデオフィード上においてオーバーレイする例示用のコンピュータ実装されたシステムの概略表現である。
【
図2】本開示の実施形態による、物体検出ネットワーク用の例示用の2フェーズトレーニングループである。
【
図3】本開示の実施形態による、物体検出ネットワークをトレーニングする例示用の方法のフローチャートである。
【
図4】本開示の実施形態による、ディスクリミネータネットワーク及び生成ネットワークを有する例示用の物体検出器の概略表現である。
【
図5】本開示の実施形態による、ディスクリミネータネットワーク及び生成ネットワークを使用して対象の特徴を検出する例示用の方法のフローチャートである。
【
図6】本開示の実施形態による、物体検出器ネットワークを使用するコンピュータ実装されたシステムの概略表現である。
【
図7】本開示の実施形態による、物体検出器ネットワークを使用して物体インジケータをビデオフィード上においてオーバーレイする例示用の方法のフローチャートである。
【
図8A】本開示の実施形態による、ビデオ内における物体検出用のオーバーレイを有する表示の一例である。
【
図8B】本開示の実施形態による、ビデオ内における物体検出用のオーバーレイを有する表示の別の例である。
【
図8C】本開示の実施形態による、ビデオ内における物体検出用のオーバーレイを有する表示の一例である。
【発明を実施するための形態】
【0024】
開示されている実施形態は、敵対的生成ネットワークをトレーニングする、且つ、これを使用する、コンピュータ実装されたシステム及び方法に関する。有利には、例示用の実装形態は、改善されたトレーニング済みのネットワークと、高速且つ効率的な物体検出と、を提供することができる。又、本開示の実施形態は、低減された偽陽性を伴う、医療画像分析用の改善された物体検出を提供することもできる。
【0025】
本開示の実施形態は、様々な用途及びビジョンシステムにおいて実装及び使用することができる。例えば、本開示の実施形態は、医療画像分析システム及び物体が真陽性又は偽陽性でありうる物体検出から受益するその他のタイプのシステムのために実装することができる。本開示の実施形態は、本明細書においては、医療画像分析及び内視鏡検査に対する一般的な参照を伴って記述されているが、実施形態は、胃鏡検査、結腸内視鏡検査、小腸内視鏡検査、並びに、食道内視鏡検査などの上部内視鏡検査などの、その他の医療画像手順に適用されうる、ことを理解されたい。更には、本開示の実施形態は、LIDAR、偵察、オートパイロット、及びその他の撮像システム用の、或いは、これらを含む、ものなどの、その他の環境及びビジョンシステムに限定されるものではない。
【0026】
本開示の一態様によれば、対象の特徴の表現を含む画像を使用して敵対的生成ネットワークをトレーニングするための、コンピュータ実装されたシステムが提供されている。システムは、命令を保存するように構成された少なくとも1つのメモリと、命令を実行するように構成された少なくとも1つのプロセッサと、を含むことができる(例えば、
図1及び
図6を参照されたい)。少なくとも1つのプロセッサは、第1の複数の画像を提供することができる。例えば、少なくとも1つのプロセッサは、1つ又は複数のデータベースから第1の複数の画像を抽出することができる。これに加えて、又はこの代わりに、第1の複数の画像は、1つ又は複数のビデオから抽出された複数のフレームを有することもできる。
【0027】
本明細書において使用されている「画像」という用語は、シーン又は視野の任意のデジタル表現を意味している。デジタル表現は、JPEG(Joint Photographic Experts Group)フォーマット、GIF(Graphic Interchange Format)、ビットマップフォーマット、SVG(Scalable Vector Graphics)フォーマット、EPS(Encapsulated PostScript)フォーマット、又はこれらに類似したものなどの、任意の適切なフォーマットにおいてエンコーディングすることができる。同様に、「ビデオ」という用語も、複数の連続的な画像から構成された、対象のシーン又はエリアの任意のデジタル表現を意味している。デジタル表現は、MPEG(Moving Picture Experts Group)フォーマット、フラッシュビデオフォーマット、AVI(Audio Video Interleave)フォーマット、又はこれらに類似したものなどの、任意の適切なフォーマットにおいてエンコーディングすることができる。いくつかの実施形態において、一連の画像は、オーディオとペア化することができる。
【0028】
第1の複数の画像は、対象の特徴の表現(即ち、対象の異常性又は物体)と、第1の複数の画像の画像内の対象の特徴の場所のインジケータと、を含むことができる。例えば、対象の特徴は、ヒト組織上における異常性又はヒト組織の異常性を有することができる。いくつかの実施形態において、対象の特徴は、車両、人物、又はその他のエンティティなどの、物体を有することができる。
【0029】
本開示によれば、「異常性」は、ヒト組織上における形成又はヒト組織の形成、1つのタイプの細胞から別のタイプの細胞へのヒト組織における変化、並びに/或いは、ヒト組織が予想されている場所からのヒト組織の欠如を含むことができる。例えば、腫瘍又はその他の組織の成長は、異常性を有する場合があり、その理由は、予想されているものよりも多くの細胞が存在しているからである。同様に、細胞タイプにおける傷又はその他の変化は、異常性を有する場合があり、その理由は、血液細胞が、予想されている場所の外側(即ち、毛細血管の外側)の場所に存在しているからである。同様に、ヒト組織内における窪みも、異常性を有する場合があり、その理由は、細胞が、予想されている場所内に存在しておらず、その結果、窪みがもたらされているからである。
【0030】
いくつかの実施形態において、異常性は、病変を有することができる。病変は、胃腸粘膜の病変を有することができる。病変は、組織学的に(例えば、ウイーン分類に基づいて)分類されてもよく、形態学的に(例えば、パリ分類に基づいて)分類されてもよく、且つ/又は、構造的に(例えば、鋸歯形又は非鋸歯形として)分類されてもよい。パリ分類は、ポリープ状及び非ポリープ状病変を含む。ポリープ状病変は、突出した、有茎性の且つ突出した、或いは、無茎性の、病変を有することができる。非ポリープ状病変は、表面が盛り上がった、フラットな、表面が浅く窪んだ、或いは、掘り込まれた、病変を有することができる。
【0031】
検出された異常性との関連において、鋸歯状病変は、無茎性鋸歯状腺腫(SSA)、従来の鋸歯状腺腫(TSA)、過形成性ポリープ(HP)、線維芽細胞性ポリープ(FP)、又は混合型ポリープ(MP)を有することができる。ウイーン分類によれば、異常性は、(カテゴリ1)腫瘍形成/形成異常の陰性、(カテゴリ2)腫瘍形成/形成異常の不定、(カテゴリ3)非侵襲的な低レベル腫瘍形成(低レベルの腺腫/形成異常)、(カテゴリ4)高レベルの腺腫/形成異常、非侵襲的な癌腫(原位置癌腫)、或いは、侵襲的癌腫の疑いなどの、粘膜性高レベル腫瘍形成、並びに、(カテゴリ5)侵襲的な腫瘍形成、粘膜内癌、粘膜下癌、又はこれらに類似したもの、という、5つのカテゴリに分割されている。
【0032】
異常性又は対象の特徴の場所のインジケータは、ポイント(例えば、座標)又は領域(例えば、矩形、正方形、楕円、又は任意のその他の規則的又は不規則な形状)を有することができる。インジケータは、画像上における手動的な注釈付け又は画像の手動的な注釈付けを有することができる。いくつかの実施形態において、第1の複数の画像は、胃腸臓器又はその他の臓器或いはヒト組織のエリアの画像などの、医療画像を有することができる。画像は、内視鏡検査、胃鏡検査、結腸内視鏡検査、小腸内視鏡検査、或いは、食道内視鏡検査手順などの上部内視鏡検査の際に使用されるものなどの、医療撮像装置から生成することができる。このような実施形態において、対象の特徴が病変又はその他の異常性である場合に、医師又はその他の医療従事者は、画像内において異常性のインジケータを配置するべく、画像に注釈付けすることができる。
【0033】
システムの1つ又は複数のプロセッサは、対象の特徴を検出するために物体検出ネットワークをトレーニングするべく、第1の複数の画像及び対象の特徴のインジケータを使用することができる。例えば、物体検出ネットワークは、入力として画像を受け入れると共に対象の特徴の場所のインジケータを出力するように構成された1つ又は複数の層を有するニューラルネットワークを有することができる。いくつかの実施形態において、物体検出ネットワークは、畳み込みネットワークを有することができる。
【0034】
物体検出ネットワークのトレーニングは、ネットワークの1つ又は複数のノードの重みを調節するステップ及び/又はネットワークの1つ又は複数のノードの活性化(又は、伝達)関数を調節するステップを含むことができる。例えば、物体検出ネットワークの重みは、ネットワークと関連する損失関数を極小化するように調節することができる。いくつかの実施形態において、損失関数は、平方損失関数、ヒンジ損失関数、ロジスティック損失関数、クロスエントロピー損失関数、又は任意のその他の適切な損失関数、或いは、損失関数の組合せを有することができる。いくつかの実施形態において、物体検出ネットワークの活性化(又は、伝達)関数は、1つ又は複数のノードの1つ又は複数のモデルと1つ又は複数のノードに対する入力の間のフィットを改善するように、変更することができる。例えば、1つ又は複数のプロセッサは、1つ又は複数のノードと関連する多項式関数の指数を増大又は減少させてもよく、関連する関数を1つのタイプから別のものに変更してもよく(例えば、多項式から指数関数に、対数関数から多項式に、或いは、これらに類似したもの)、或いは、任意のその他の調節を1つ又は複数のノードの1つ又は複数のモデルに対して実行してもよい。
【0035】
1つ又は複数のシステムプロセッサは、対象の特徴の表現を含む、第2の複数の画像を更に提供することができる。例えば、1つ又は複数のプロセッサは、第1の複数の画像を保存したものと同一の1つ又は複数のデータベースであるのか又は1つ又は複数の異なるデータベースであるのかを問わず、1つ又は複数のデータベースから第1の複数の画像を抽出することができる。これに加えて、或いは、この代わりに、第2の複数の画像は、第1の複数の画像を抽出するべく使用された1つ又は複数の同一のビデオであるのか又は1つ又は複数の異なるビデオであるのかを問わず、1つ又は複数のビデオから抽出された複数のフレームを有することができる。
【0036】
いくつかの実施形態において、第2の複数の画像は、内視鏡検査装置からの画像などの、医療画像を有することができる。このような実施形態において、対象の特徴は、病変又はその他の異常性を有することができる。
【0037】
いくつかの実施形態において、第2の複数の画像は、第1の複数の画像内に含まれているものよりも多くの数の画像を有することができる。例えば、第2の複数の画像は、第1の複数の画像よりも、少なくとも百倍だけ、多くの画像を含むことができる。いくつかの実施形態において、第2の複数の画像は、少なくとも部分的に、第1の複数のものを含んでいてもよく、或いは、第1の複数のものとは異なる画像であってもよい。第2の複数の画像が、少なくとも部分的に、第1の複数の画像の少なくとも一部分が抽出された1つ又は複数のビデオから抽出されている、実施形態において、第2の複数の画像は、1つ又は複数の同一のビデオからの第1の複数のものとは異なるフレームを有することができる。
【0038】
1つ又は複数のプロセッサは、対象の特徴の第1の複数の検出を生成するべく、トレーニング済みの物体検出ネットワークを第2の複数の画像に適用することができる。例えば、トレーニング済みの物体検出ネットワークがニューラルネットワークを有する実施形態において、少なくとも1つのプロセッサは、第2の複数の画像をネットワークに入力することができると共に、検出を受け取ることができる。検出は、第2の複数の画像内の対象の特徴の場所のインジケータを有することができる。第2の複数の画像が対象の特徴を含んでいない場合には、インジケータは、ヌルインジケータ又は対象の特徴が存在していないという旨のその他のインジケータを有することができる。
【0039】
1つ又は複数のプロセッサは、第1の複数の検出との関係における真陽性及び偽陽性の手動的に設定された検証を更に提供することができる。例えば、検証は、1つ又は複数のデータベースから抽出されてもよく、或いは、入力として受け取られてもよい。対象の特徴が病変又はその他の異常性を有する実施形態において、検証は、医師又はその他の医療従事者によって入力されてもよい。例えば、1つ又は複数のプロセッサは、表示のために、医師又はその他の医療従事者に検出を出力することができると共に、表示された検出に応答して検証を受け取ることができる。
【0040】
1つ又は複数のシステムプロセッサは、敵対的生成ネットワークをトレーニングするべく、第1の複数の検出との関係における真陽性及び偽陽性の検証を使用することができる。例えば、ネットワークの生成ブランチは、対象の特徴の人工的表現を生成するべく、トレーニングすることができる。従って、生成ブランチは、畳み込みニューラルネットワークを有することができる。
【0041】
物体検出ネットワークと同様に、生成ブランチのトレーニングは、ネットワークの1つ又は複数のノードの重みを調節するステップ及び/又はネットワークの1つ又は複数のノードの活性化(又は、伝達)関数を調節するステップを含むことができる。例えば、上述のように、生成ブランチの重みは、ネットワークと関連する損失関数を極小化するように、調節することができる。これに加えて、又はこの代わりに、生成ブランチの活性化(又は、伝達)関数は、1つ又は複数のノードの1つ又は複数のモデルと1つ又は複数のノードに対する入力間のフィットを改善するように、変更することができる。
【0042】
更には、ネットワークの敵対的ブランチは、手動的な検証に基づいて真陽性から偽陽性を弁別するべく、トレーニングすることができる。例えば、敵対的ブランチは、入力として画像及び1つ又は複数の対応する検出を受け取ると共に出力として検証を生成するニューラルネットワークを有することができる。いくつかの実施形態において、1つ又は複数のプロセッサは、2つ以上の画像内における対象の特徴の見逃された検出についての偽陰性の検証を提供することにより、生成ネットワークを更に再トレーニングすることができる。敵対的ブランチへの入力として生成ブランチからの人工的表現を提供すると共に敵対的ブランチからの出力を再帰的に使用することにより、敵対的ブランチ及び生成ブランチは、教師なし学習を実行することができる。
【0043】
生成ブランチと同様に、敵対的ブランチのトレーニングは、ネットワークの1つ又は複数のノードの重みを調節するステップ及び/又はネットワークの1つ又は複数のノードの活性化(又は、伝達)関数を調節するステップを含むことができる。例えば、上述のように、敵対的ブランチの重みは、ネットワークと関連する損失関数を極小化するように、調節することができる。これに加えて、又はこの代わりに、敵対的ブランチの活性化(又は、伝達)関数は、1つ又は複数のノードの1つ又は複数のモデルと1つ又は複数のノードに対する入力の間のフィットを改善するように、変更することができる。
【0044】
従って、対象の特徴が病変又はその他の異常性を有する実施形態において、生成ブランチは、異常性と同様に見える非異常性の表現を生成するべく、トレーニングすることができると共に、敵対的ブランチは、第2の複数の画像内の異常性から人工的な非異常性を弁別するべく、トレーニングすることができる。
【0045】
1つ又は複数のシステムプロセッサは、対象の特徴の更なる検出との関係における真陽性及び偽陽性の更なる手動的に設定された検証と共に、画像の少なくとも1つの更なる組及び対象の特徴の検出を使用することにより、敵対的生成ネットワークを再トレーニングすることができる。例えば、1つ又は複数のプロセッサは、第1の複数の画像及び/又は第2の複数の画像を保存したものと同一の1つ又は複数のデータベースであるのか又は1つ又は複数の異なるデータベースであるのかを問わず、1つ又は複数のデータベースから画像の更なる組を抽出することができる。これに加えて、又はこの代わりに、画像の更なる組は、第1の複数の画像及び/又は第2の複数の画像を抽出するべく使用されたものと同一の1つ又は複数のビデオであるのか又は1つ又は複数の異なるビデオであるのかを問わず、1つ又は複数のビデオから抽出された複数のフレームを有することができる。トレーニングと同様に、敵対的ブランチの再トレーニングは、ネットワークの1つ又は複数のノードの重みに対する更なる調節及び/又はネットワークの1つ又は複数のノードの活性化(或いは、伝達)関数に対する更なる調節を含むことができる。
【0046】
本開示の別の態様によれば、人間臓器の画像内の異常性を検出するためにニューラルネットワークシステムをトレーニングするべく、コンピュータ実装された方法が提供されている。方法は、少なくとも1つのプロセッサ(例えば、
図6のプロセッサ607を参照されたい)により、実装することができる。
【0047】
例示用の方法によれば、1つ又は複数のプロセッサは、データベース内において、異常性の表現を含む複数のビデオを保存することができる。例えば、ビデオは、内視鏡検査ビデオを有することができる。ビデオは、MPEG(Moving Picture Expers Goup)フォーマット、フラッシュビデオフォーマット、AVI(Audio Video Interleave)フォーマット、又はこれらに類似したものなどの、1つ又は複数のフォーマットにおいてエンコーディングすることができる。
【0048】
方法は、1つ又は複数のプロセッサにより、複数のビデオの第1サブセットを選択するステップを更に含むことができる。例えば、1つ又は複数のプロセッサは、第1サブセットをランダムに選択することができる。或いは、この代わりに、1つ又は複数のプロセッサは、第1サブセットを選択するべく、データベースの1つ又は複数のインデックスを使用することができる。例えば、1つ又は複数のプロセッサは、異常性の表現を含むものとしてインデックス付けされたビデオとして第1サブセットを選択することができる。
【0049】
方法は、1つ又は複数のプロセッサにより、第1の複数の異常性の検出を生成するべく、物体検出ネットワークの知覚ブランチを複数のビデオの第1サブセットのフレームに適用するステップを更に含むことができる。例えば、物体検出ネットワークは、入力として画像を受け付けると共に第1の複数の検出を出力するようにトレーニングされたニューラルネットワークを有することができる。第1の複数の検出は、検出された異常性のポイント又は領域などの、フレーム内の異常性の場所のインジケータを有することができる。異常性の欠如は、ヌルインジケータ又は非異常性のその他のインジケータを結果的にもたらしうる。知覚ブランチは、ポリープを検出すると共に任意の検出された異常性の場所のインジケータを出力するように構成されたニューラルネットワーク(例えば、畳み込みニューラルネットワーク)を有することができる。
【0050】
方法は、1つ又は複数のプロセッサにより、複数のビデオの第2サブセットを選択するステップを更に含むことができる。いくつかの実施形態において、第2サブセットは、少なくとも部分的に、第1サブセットを含んでいてもよく、或いは、第1サブセットとは異なるビデオであってもよい。
【0051】
方法は、異常性の複数の人工的表現を生成するために、生成器ネットワークをトレーニングするべく、第1の複数の検出及び複数のビデオの第2サブセットからのフレームを使用するステップを更に含むことができる。例えば、生成器ネットワークは、人工的表現を生成するように構成されたニューラルネットワークを有することができる。いくつかの実施形態において、生成器ネットワークは、畳み込みニューラルネットワークを有することができる。複数の人工的表現は、残差学習を通じて生成することができる。
【0052】
上述のように、生成ネットワークのトレーニングは、ネットワークの1つ又は複数のノードの重みを調節するステップ及び/又はネットワークの1つ又は複数のノードの活性化(又は、伝達)関数を調節するステップを含むことができる。例えば、上述のように、生成ネットワークの重みは、ネットワークと関連する損失関数を極小化するように、調節することができる。これに加えて、又はこの代わりに、生成ネットワークの活性化(又は、伝達)関数は、1つ又は複数のノードの1つ又は複数のモデルと1つ又は複数のノードに対する入力の間のフィットを改善するように、変更することもできる。
【0053】
方法は、1つ又は複数のプロセッサにより、異常性の人工的表現と異常性の真の表現の間を弁別するべく、ディスクリミネータの敵対的ブランチをトレーニングするステップを更に含むことができる。例えば、敵対的ブランチは、入力として表現を受け取ると共に入力表現が人工的なものであるのか又は真であるのかの通知を出力するニューラルネットワークを有することができる。いくつかの実施形態において、ニューラルネットワークは、畳み込みニューラルネットワークを有することができる。
【0054】
生成ブランチと同様に、ディスクリミネータネットワークの敵対的ブランチのトレーニングは、ネットワークの1つ又は複数ノードの重みを調節するステップ及び/又はネットワークの1つ又は複数のノードの活性化(又は、伝達)関数を調節するステップを含むことができる。例えば、上述のように、ディスクリミネータネットワークの敵対的ブランチの重みは、ネットワークと関連する損失関数を極小化するように、調節することができる。これに加えて、又はこの代わりに、ディスクリミネータネットワークの敵対的ブランチの活性化(又は、伝達)関数は、1つ又は複数のノードの1つ又は複数のモデルと1つ又は複数のノードに対する入力の間のフィットを改善するように、変更することができる。
【0055】
方法は、1つ又は複数のプロセッサにより、異常性の人工的表現と複数のビデオの第2サブセットのフレーム内に含まれている異常性の真の表現の間の差インジケータを生成するべく、ディスクリミネータネットワークの敵対的ブランチを複数の人工的表現に適用するステップを更に含むことができる。例えば、人工的表現は、異常性と同様に見える非異常性の表現を有することができる。従って、それぞれの人工的表現は、異常性の真の表現に非常に類似した異常性の偽の表現を提供することができる。敵対的ブランチは、非異常性(偽の表現)と異常性(真の表現)の間の差、特に、異常性に類似した非異常性、を識別するべく、学習することができる。
【0056】
方法は、1つ又は複数のプロセッサにより、第2の複数の異常性の検出を生成するべく、ディスクリミネータネットワークの知覚ブランチを人工的な表現に適用するステップを更に含むことができる。第1の複数の検出と同様に、第2の複数の検出は、検出された異常性のポイント又は領域などの、人工的表現における異常性の場所のインジケータを有することができる。異常性の欠如は、ヌルインジケータ又は非異常性のその他のインジケータを結果的にもたらしうる。
【0057】
方法は、差インジケータ及び第2の複数の検出に基づいて知覚ブランチを再トレーニングするステップを更に含むことができる。例えば、知覚ブランチの再トレーニングは、ネットワークの1つ又は複数のノードの重みを調節するステップ及び/又はネットワークの1つ又は複数のノードの活性化(又は、伝達)関数を調節するステップを含むことができる。例えば、上述のように、知覚ブランチの重みは、ネットワークと関連する損失関数を極小化するように、調節することができる。これに加えて、又はこの代わりに、知覚ブランチの活性化(又は、伝達)関数は、1つ又は複数のノードの1つ又は複数のモデルと差インジケータ及び第2の複数の検出の間のフィットを改善するように、変更することができる。
【0058】
上述のトレーニングの例示用の方法は、トレーニング済みのニューラルネットワークシステムを生成することができる。トレーニング済みのニューラルネットワークシステムは、人間臓器の画像内において対象の特徴を検出するべく使用されるシステムの一部分を形成することができる(例えば、ニューラルネットワークシステムは、
図1のオーバーレイ装置105の一部分として実装することができる)。例えば、このようなシステムは、命令を保存するように構成された少なくとも1つのメモリと、命令を実行するように構成された少なくとも1つのプロセッサと、を含むことができる。少なくとも1つのプロセッサは、人間臓器のビデオからフレームを選択することができる。例えば、ビデオは、内視鏡検査ビデオを有することができる。
【0059】
1つ又は複数のシステムプロセッサは、対象の特徴の少なくとも1つの検出を生成するべく、トレーニング済みのニューラルネットワークシステムをフレームに適用することができる。いくつかの実施形態において、対象の特徴は、異常性を有することができる。少なくとも1つの検出は、対象の特徴の場所のインジケータを含むことができる。例えば、場所は、検出された対象の特徴のポイント又はこれを含む領域を有することができる。ニューラルネットワークシステムは、上述のように、異常性を検出するようにトレーニング済みであってよい。
【0060】
いくつかの実施形態において、1つ又は複数のプロセッサは、1つ又は複数の更なるクラシファイア及び/又はニューラルネットワークを検出された対象の特徴に更に適用することができる。例えば、対象の特徴が病変を有する場合に、少なくとも1つのプロセッサは、病変を1つ又は複数のタイプに分類することができる(例えば、癌性又は非癌性、或いは、これらに類似したもの)。これに加えて、又はこの代わりに、ニューラルネットワークシステムは、検出された対象の特徴が偽陽性であるのか又は真陽性であるのかを更に出力することができる。
【0061】
1つ又は複数のシステムプロセッサは、フレームの1つ上における少なくとも1つの検出の場所のインジケータを生成することができる。例えば、対象の特徴の場所は、フレーム上において配置された場所のインジケータ及びグラフィカルインジケータから抽出することができる。場所がポイントを有する実施形態において、グラフィカルインジケータは、ポイント上において配置された円、星、又は任意のその他の形状を有することができる。場所が領域を有する実施形態において、グラフィカルインジケータは、領域の周りの境界を有することができる。いくつかの実施形態において、形状又は境界は、アニメーション化されてもよく、従って、形状又は境界は、フレームに跨って対象の特徴の場所を追跡するように、のみならず、フレームが順番に示された際に、アニメーション化された状態において現れるように、複数のフレームについて生成することができる。更に後述するように、グラフィカルインジケータは、サウンド及び/又は振動インジケータなどの、その他のインジケータとペア化することができる。
【0062】
インジケータの任意の態様は、例えば、1つ又は複数のタイプとしての、或いは、偽又は真陽性としての、などのような、対象の特徴の分類に依存しうる。従って、グラフィカルインジケータの色、形状、パターン、又はその他の態様は、分類に依存しうる。又、サウンド及び/又は振動インジケータを使用している実施形態において、サウンド及び/又は振動の持続時間、周波数、及び/又は振幅は、分類に依存しうる。
【0063】
1つ又は複数のシステムプロセッサは、フレームをビデオとして再エンコーディングすることができる。従って、(グラフィック)インジケータを生成し、且つ、これを1つ又は複数のフレーム上においてオーバーレイした後に、フレームをビデオとして再度組み立てることができる。従って、システムの1つ又は複数のプロセッサは、インジケータと共に、再エンコーディングされたビデオを出力することができる。
【0064】
本開示の別の態様に従って、リアルタイムビデオを処理するコンピュータ実装されたシステム(例えば、
図1及び
図6を参照されたい)について説明する。システムは、リアルタイムビデオ用の入力ポートを有することができる。例えば、入力ポートは、ビデオグラフィクスアレイ(VGA)ポート、高精細マルチメディアインターフェイス(HDMI(登録商標))ポート、デジタルビジュアルインターフェイス(DVI)ポート、シリアルデジタルインターフェイス(SDI)、或いは、これらに類似したものを有することができる。リアルタイムビデオは、医療ビデオを有することができる。例えば、システムは、内視鏡検査装置からリアルタイムビデオを受け取ることができる。
【0065】
システムは、受け取られたリアルタイムビデオを伝達するための第1バスを更に有することができる。例えば、第1バスは、並列接続又は直列接続を有することができると共に、マルチドロップトポロジー又はデイジーチェーントポロジーにおいて配線することができる。第1バスは、PIC Express(Peripheral Component Interconnect Express)バス、ユニバーサルシリアルバス(USB)、IEEE1394インターフェイス(FireWire(登録商標))、又はこれらに類似したものを有することができる。
【0066】
システムは、第1バスからリアルタイムビデオを受け取り、受け取られたリアルタイムビデオのフレーム上において物体検出を実行し、且つ、フレーム内の少なくとも1つの検出された物体の場所を通知する境界をオーバーレイする、ように構成された少なくとも1つのプロセッサを有することができる。1つ又は複数のプロセッサは、物体の少なくとも1つの検出を生成するようにトレーニングされたニューラルネットワークシステムを使用することにより、物体検出を実行することができる。いくつかの実施形態において、少なくとも1つの物体は、病変又はその他の異常性を有することができる。従って、ニューラルネットワークシステムは、上述のように、異常性を検出するようにトレーニング済みであってよい。
【0067】
1つ又は複数のプロセッサは、上述のように、境界をオーバーレイすることができる。例えば、境界は、物体を含む領域を取り囲んでいてもよく、この場合に、領域は、1つ又は複数のプロセッサにより、少なくとも1つの検出と共に、受け取れられている。
【0068】
システムは、オーバーレイされた境界と共に、ビデオを受け取るべく、第2バスを更に有することができる。例えば、第1バスと同様に、第2バスは、並列接続又は直列接続を有することができると共に、マルチドロップトポロジー又はデイジーチェーントポロジーにおいて配線することができる。従って、第1バスと同様に、第2バスは、PCI Express(Peripheral Component Interconnect Express)バス、ユニバーサルシリアルバス(USB)、IEEE1394インターフェイス(FireWire(登録商標))、又はこれらに類似したものを有することができる。第2バスは、第1バスと同一のタイプのバスを有していてもよく、或いは、異なるタイプのバスを有していてもよい。
【0069】
システムは、第2バスから外部ディスプレイに、オーバーレイされた境界と共にビデオを出力するべく、出力ポートを更に有することができる。出力ポートは、VGAポート、HDMI(登録商標)ポート、DVIポート、SDIポート、又はこれらに類似したものを有することができる。従って、出力ポートは、入力ポートと同一のタイプのポートであってもよく、或いは、異なるタイプのポートであってもよい。
【0070】
システムは、受け取られたリアルタイムビデオを出力ポートに直接的に送信するべく、第3バスを有することができる。第3バスは、全体システムがターンオフされた際にも、有効になるように、入力ポートから出力ポートにリアルタイムビデオを受動的に搬送することができる。いくつかの実施形態において、第3バスは、全体システムがオフ状態にある際に、有効である、既定のバスであってよい。このような実施形態において、第1及び第2バスは、全体システムが起動された際に、起動されてもよく、且つ、第3バスは、従って、停止されてもよい。第3バスは、全体システムがターンオフされた際に、或いは、1つ又は複数のプロセッサからのエラー信号の受信の際に、起動されてもよい。例えば、プロセッサによって実装された物体検出が誤動作した場合に、1つ又は複数のプロセッサは、第3バスを起動し、これにより、誤動作に起因した中断を伴うことなしに、リアルタイムビデオストリームの継続した出力を許容することができる。
【0071】
いくつかの実施形態において、オーバーレイされた境界は、フレームに跨って変更することができる。例えば、オーバーレイされた境界は、少なくとも1つの検出された物体を含む画像の領域の周りにおいて表示された2次元形状を有していてもよく、この場合に、境界は、第1色である。所定の時間が経過した後に、1つ又は複数のプロセッサは、少なくとも1つの検出された物体が真陽性である場合には、境界を第2色に変更することができると共に、少なくとも1つの検出された物体が偽陽性である場合には、第3色に変更することができる。これに加えて、又はこの代わりに、1つ又は複数のプロセッサは、検出された物体の分類に基づいて境界を変更することもできる。例えば、物体が病変又はその他の異常性を有する場合に、変更は、病変又は形成が癌性であるのか又はその他の方式による異常性であるのかに基づいたものであってもよい。
【0072】
上述の実施形態のいずれかにおいて、オーバーレイされたインジケータは、1つ又は複数の更なるインジケータとペア化することができる。例えば、1つ又は複数のプロセッサは、少なくとも1つの物体が検出された際に、サウンドを生成するべく、コマンドを1つ又は複数のスピーカに送信することができる。境界が変更される実施形態において、1つ又は複数のプロセッサは、境界が変更された際に、コマンドを送信することができる。このような実施形態において、サウンドの持続時間、トーン、周波数、及び振幅の少なくとも1つは、少なくとも1つの検出された物体が真陽性であるのか又は偽陽性であるのかに依存しうる。これに加えて、又はこの代わりに、サウンドの持続時間、トーン、周波数、及び振幅の少なくとも1つは、検出された物体の分類にも依存しうる。
【0073】
これに加えて、又はこの代わりに、1つ又は複数のプロセッサは、少なくとも1つの物体が検出された際に、振動するべく、コマンドを少なくとも1つのウェアラブル装置に送信することができる。境界が変更される実施形態において、1つ又は複数のプロセッサは、境界が変更された際に、コマンドを送信することができる。このような実施形態において、振動の持続時間、周波数、及び振幅の少なくとも1つは、少なくとも1つの検出された物体が真陽性であるのか又は偽陽性であるのかに依存しうる。これに加えて、又はこの代わりに、振動の持続時間、周波数、及び振幅の少なくとも1つは、検出された物体の分類にも依存しうる。
【0074】
本開示の別の態様に従って、リアルタイムビデオを処理するシステムについて説明する。上述の処理システムと同様に、システムは、リアルタイムビデオを受け取る入力ポートと、入力ポートからリアルタイムビデオを受け取り、トレーニング済みのニューラルネットワークを受け取られたリアルタイムビデオのフレームに適用することにより、物体検出を実行し、且つ、フレーム内において少なくとも1つの検出された物体の場所を通知する境界をオーバーレイするように構成された少なくとも1つのプロセッサと、オーバーレイされた境界と共に、ビデオをプロセッサから外部ディスプレイに出力する出力ポートと、を有することができる。
【0075】
システムは、ユーザーから感度設定を受け取る入力装置を更に有することができる。例えば、入力装置は、設定を増大させるための1つのコマンド及び設定を減少させるための別のコマンドを受け取るのに適した、ノブ、1つ又は複数のボタン、又は任意のその他の装置を有することができる。
【0076】
1つ又は複数のシステムプロセッサは、感度設定に応答して、トレーニング済みのニューラルネットワークの少なくとも1つのパラメータを調節することができる。例えば、1つ又は複数のプロセッサは、感度設定に基づいて、ネットワークによって生成される検出の数を増大させる又は減少させるべく、ネットワークの1つ又は複数のノードの1つ又は複数の重みを調節することができる。これに加えて、又はこの代わりに、ネットワークの出力層の、且つ/又は、ネットワークの出力層から受け取られた検出に適用される、1つ又は複数の閾値を感度設定に応答して増大又は減少させることができる。従って、感度設定が増大された場合には、1つ又は複数のプロセッサは、ネットワークによって生成される検出の数を増大させるように、1つ又は複数の閾値を減少させることができる。同様に、感度設定が減少された場合には、1つ又は複数のプロセッサは、ネットワークによって生成される検出の数を減少させるように、1つ又は複数の閾値を増大させることができる。
【0077】
図1は、本開示の実施形態と一貫性を有する、ビデオフィード上において物体検出をオーバーレイするパイプラインを含む例示用のシステム100の概略表現である。
図1の例において示されているように、システム100は、画像装置103を制御する操作者101を含む。ビデオフィードが医療ビデオを有する実施形態において、操作者101は、医師又はその他の医療従事者を有することができる。画像装置103は、X線装置、コンピュータ断層撮影(CT)装置、磁気共鳴撮像(MRI)装置、内視鏡検査装置、或いは、人体又はその一部分のビデオ又は1つ又は複数の画像を生成する、その他の医療撮像装置などの、医療撮像装置を有することができる。操作者101は、例えば、人体を通じた又はこれとの関係における、装置103のキャプチャレート及び/又は装置103の運動を制御することにより、画像装置103を制御することができる。いくつかの実施形態において、画像装置103は、X線装置、或いは、内視鏡検査装置などの人体の空洞を通じて挿入された撮像装置などの、外部撮像装置の代わりに、Pill-Cam(商標)装置又はその他の形態のカプセル内視鏡検査装置を有することができる。
【0078】
図1に更に描かれているように、画像装置103は、キャプチャされたビデオ又は画像をオーバーレイ装置105に送信することができる。オーバーレイ装置105は、上述のように、ビデオを処理するべく、1つ又は複数のプロセッサを有することができる。又、いくつかの実施形態において、操作者101は、例えば、オーバーレイ装置105の物体検出器(図示されてはいない)の感度を制御することにより、画像装置103に加えて、オーバーレイ装置105を制御することもできる。
【0079】
図1に描かれているように、オーバーレイ装置105は、画像装置103から受け取れたビデオを拡張することができると共に、次いで、拡張されたビデオをディスプレイ107に送信することができる。いくつかの実施形態において、拡張は、上述のオーバーレイ化を有することができる。又、
図1に更に描かれているように、オーバーレイ装置105は、画像装置103からのビデオを直接的にディスプレイ107に中継するように構成することもできる。例えば、オーバーレイ装置105は、オーバーレイ装置105内に含まれている物体検出器(図示されてはいない)が誤動作した場合などの、既定の状態下において直接的な中継を実行することができる。これに加えて、又はこの代わりに、オーバーレイ装置105は、操作者101が直接的な中継を実行するようにコマンドをオーバーレイ装置105に入力した場合に、直接的な中継を実行することができる。コマンドは、オーバーレイ装置105上において含まれている1つ又は複数のボタンを介して、且つ/又は、キーボード又はこれに類似したものなどの入力装置を通じて、受け取ることができる。
【0080】
図2は、本開示の実施形態と一貫性を有する、物体検出ネットワーク用の2フェーズトレーニングループ200の概略表現である。ループ200は、1つ又は複数のプロセッサによって実装することができる。
図2に示されているように、ループ200のフェーズIは、対象の特徴を含む画像のデータベース201を使用することができる。画像が医療画像を有する実施形態において、対象の特徴は、病変などの異常性を含むことができる。
【0081】
上述のように、データベース201は、個々の画像及び/又は1つ又は複数のビデオを保存していてもよく、この場合に、それぞれのビデオは、複数のフレームを含む。ループ200のフェーズIにおいて、1つ又は複数のプロセッサは、データベース201から画像及び/又はフレームのサブセット203を抽出することができる。1つ又は複数のプロセッサは、ランダムに、或いは、少なくとも部分的に、1つ又は複数のパターンを使用することにより、サブセット203を選択することができる。例えば、データベース201がビデオを保存している場合に、1つ又は複数のプロセッサは、サブセット203内に含まれているそれぞれのビデオから、1つ、2つ、又は類似の数以下のフレームを選択することができる。
【0082】
図2に更に描かれているように、特徴インジケータ205は、サブセット203に対する注釈を有することができる。例えば、注釈は、対象の特徴のポイント又はこれを含む領域を含みうる。いくつかの実施形態において、操作者は、ビデオ又は画像を観察することができると共に、入力装置(例えば、キーボード、マウス、タッチスクリーン、及びディスプレイの任意の組合せ)を介して、1つ又は複数のプロセッサに注釈を手動的に入力することができる。注釈は、JSON、XML、テキスト、又はこれらに類似したものなどのフォーマットにおいて、画像とは別個のデータ構造として保存することができる。例えば、画像が医療画像である実施形態において、操作者は、医師又はその他の医療従事者であってよい。抽出の後に、サブセット203に追加されるものとして描かれているが、サブセット203には、データベース201内における保存の前に、或いは、別の以前の時点において、注釈付け済みであってもよい。このような実施形態において、1つ又は複数のプロセッサは、特徴インジケータ205を有するデータベース201内において画像を選択することにより、サブセット203を選択することができる。
【0083】
サブセット203は、特徴インジケータ205と共に、トレーニングセット207を有する。1つ又は複数のプロセッサは、トレーニングセット207を使用することにより、ディスクリミネータネットワーク209をトレーニングすることができる。例えば、ディスクリミネータネットワーク209は、上述のように、物体検出ネットワークを有することができる。更に上述したように、ディスクリミネータネットワークのトレーニングは、ネットワークの1つ又は複数のノードの重みを調節するステップ及び/又はネットワークの1つ又は複数のノードの活性化(又は、伝達)関数を調節するステップを含むことができる。例えば、物体検出ネットワークの重みは、ネットワークと関連する損失関数を極小化するように調節することができる。別の例において、物体検出ネットワークの活性化(又は、伝達)関数は、1つ又は複数のノードの1つ又は複数のモデルと1つ又は複数のノードに対する入力の間のフィットを改善するように変更することができる。
【0084】
図2に示されているように、ループ200のフェーズIIにおいて、1つ又は複数のプロセッサは、データベース201から画像(及び/又は、フレーム)のサブセット211を抽出することができる。サブセット211は、少なくとも部分的に、サブセット203からの画像のいくつか又はすべてを有していてもよく、或いは、異なるサブセットを有していてもよい。サブセット203が1つ又は複数のビデオからの複数のフレームを有する実施形態において、サブセット211は、同一のビデオの1つ又は複数からの隣接した又はその他のフレームを含みうる。サブセット211は、例えば、少なくとも100倍だけ、多い数の画像などの、サブセット203よりも多くの数の画像を有することができる。
【0085】
1つ又は複数のプロセッサは、複数の特徴インジケータ213を生成するべく、ディスクリミネータネットワーク209’(フェーズIのトレーニングが完了した後のディスクリミネータネットワーク209を表している)をサブセット211に適用することができる。例えば、特徴インジケータ213は、ディスクリミネータネットワーク209’によって検出された対象の特徴のポイント又はこれを含む領域を有することができる。
【0086】
図2に更に描かれているように、検証215は、特徴インジケータ213に対する注釈を有することができる。例えば、注釈は、それぞれの特徴インジケータが真陽性であるのか又は偽陽性であるのかのインジケータを含むことができる。検出された対象の特徴を有していなかったが、対象の特徴を含んでいる、画像は、偽陰性として注釈付けすることができる。
【0087】
サブセット211は、特徴インジケータ213及び検証215と共に、トレーニングセット217を有する。1つ又は複数のプロセッサは、トレーニングセット217を使用することにより、敵対的生成ネットワーク219をトレーニングすることができる。例えば、敵対的生成ネットワーク219は、上述のように、生成ネットワーク及び敵対的ネットワークを有することができる。敵対的生成ネットワークのトレーニングは、対象の特徴の、或いは、真の対象の特徴に類似して見える偽の対象の特徴の、人工的表現を生成するべく、生成ネットワークをトレーニングするステップと、例えば、サブセット211内に含まれているものなどの、実際の表現から人工的表現を弁別するべく、敵対的ネットワークをトレーニングするステップと、を含むことができる。
【0088】
図2には描かれていないが、検証215は、ディスクリミネータネットワーク209’を再トレーニングするべく、更に使用することができる。例えば、ディスクリミネータネットワーク209’の重み及び/又は活性化(又は、伝達)関数は、偽陽性として注釈付けされた画像内の検出を除去するように調節することができると共に/又は、偽陰性として注釈付けされた画像内の検出を生成するように調節することもできる。
【0089】
図3は、物体検出ネットワークをトレーニングする例示用の方法300のフローチャートである。方法300は、1つ又は複数のプロセッサによって実行することができる。
図3のステップ301において、少なくとも1つのプロセッサは、対象の特徴の表現を含む第1の複数の画像と、第1の複数の画像のうちの画像内の対象の特徴の場所のインジケータと、を提供することができる。インジケータは、手動的に設定されたインジケータを有することができる。手動的に設定されたインジケータは、データベースから抽出されてもよく、或いは、操作者から入力として受け取られてもよい。
【0090】
ステップ303において、少なくとも1つのプロセッサは、第1の複数の画像及び対象の特徴のインジケータを使用することにより、対象の特徴を検出するべく、物体検出ネットワークをトレーニングすることができる。例えば、物体検出ネットワークは、上述のように、トレーニングすることができる。
【0091】
ステップ305において、少なくとも1つのプロセッサは、対象の特徴の表現を含む、第2の複数の画像を提供してもよく、この場合に、第2の複数の画像は、第1の複数の画像内に含まれているものよりも多い数の画像を有する。いくつかの実施形態において、第2の複数の画像は、少なくとも部分的に、第1の複数の画像とオーバーラップすることができる。或いは、この代わりに、第2の複数の画像は、第1の複数のもの内のものとは異なる画像から構成することもできる。
【0092】
ステップ307において、少なくとも1つのプロセッサは、対象の特徴の第1の複数の検出を生成するべく、トレーニング済みの物体検出ネットワークを第2の複数の画像に適用することができる。いくつかの実施形態において、上述のように、検出は、検出された対象の特徴の場所のインジケータを含むことができる。例えば、物体検出ネットワークは、任意選択により、それぞれの検出ごとの1つ又は複数の関連するコンフィデンススコアと共に、それぞれのマトリックスが、任意の検出された対象の特徴の座標及び/又は領域を定義している、1つ又は複数のマトリックスを出力する畳み込みニューラルネットワークを有することができる。
【0093】
ステップ309において、少なくとも1つのプロセッサは、第1の複数の検出との関係における真陽性及び偽陽性の手動的に設定された検証を提供することができる。例えば、少なくとも1つのプロセッサは、手動的に設定された検証をデータベースから抽出してもよく、或いは、操作者から入力として、これらを受け取ってもよい。
【0094】
ステップ311において、少なくとも1つのプロセッサは、第1の複数の検出との関係における真陽性及び偽陽性の検証を使用することにより、敵対的生成ネットワークをトレーニングすることができる。例えば、敵対的生成ネットワークは、上述のようにトレーニングすることができる。
【0095】
ステップ313において、少なくとも1つのプロセッサは、対象の特徴の更なる検出との関係における真陽性及び偽陽性の更なる手動的に設定された検証と共に、少なくとも1つの画像の更なる組及び対象の特徴の検出を使用することにより、敵対的生成ネットワークを再トレーニングすることができる。いくつかの実施形態において、画像の更なるセットは、少なくとも部分的に、第1の複数の画像及び/又は第2の複数の画像とオーバーラップすることができる。或いは、この代わりに、画像の更なる組は、第1の複数のもの内のもの及び第2の複数のもの内のものとは異なる画像から構成されていてもよい。従って、ステップ313は、対象の特徴の更なる検出を生成するべく、トレーニング済みの物体検出ネットワークを画像の更なる組に適用するステップと、更なる検出との関係における真陽性及び偽陽性の手動的に設定された検出を提供するステップと、更なる検出との関係における検証を使用して敵対的生成ネットワークを再トレーニングするステップと、を有することができる。
【0096】
本開示と一貫性を有する状態において、例示用の方法300は、更なるステップを含むことができる。例えば、いくつかの実施形態において、方法300は、2つ以上の画像内の対象の特徴の見逃された検出についての偽陰性の検証を提供することにより、敵対的生成ネットワークを再トレーニングするステップを含むことができる。従って、データベースから抽出された、或いは、入力として受け取られた、手動的に設定された検証は、偽陰性の検証のみならず、真陽性及び偽陽性の検証を含むことができる。偽陰性は、敵対的生成ネットワークを再トレーニングするべく、使用することができる。これに加えて、又はこの代わりに、偽陰性は、物体検出ネットワークを再トレーニングするべく、使用することもできる。
【0097】
図4は、物体検出器400の概略表現である。物体検出器400は、1つ又は複数のプロセッサによって実装することができる。
図4に示されているように、物体検出器400は、対象の特徴を含むビデオのデータベース401を使用することができる。画像が医療画像を有する実施形態において、対象の特徴は、病変などの異常性を含むことができる。
図4の例において、データベース401は、内視鏡検査ビデオのデータベースを有する。
【0098】
図4に更に描かれているように、検出器400は、データベース401からビデオのサブセット403を抽出することができる。
図2との関係において上述したように、サブセット403は、ランダムに、且つ/又は、1つ又は複数のパターンを使用することにより、選択することができる。検出器400は、ディスクリミネータネットワーク405の知覚ブランチ407をサブセット403のフレームに適用することができる。知覚ブランチ407は、上述のように、物体検出ネットワークを有することができる。知覚ブランチ407は、対象の特徴を検出するべく、且つ、検出された対象の特徴と関連する場所(例えば、ポイント又は領域)を識別するべく、トレーニング済であってよい。例えば、知覚ブランチ407は、異常性を検出することができると共に、検出された異常性を含む境界ボックスを出力することができる。
【0099】
図4に示されているように、知覚ブランチ407は、検出413を出力することができる。上述のように、検出413は、サブセット403内の検出された対象の特徴の場所を識別するポイント又は領域を含むことができる。
図4に更に描かれているように、検出器400は、データベース401からビデオのサブセット411を抽出することができる。例えば、サブセット411は、少なくとも部分的に、サブセット403とオーバーレイしていてもよく、或いは、異なるビデオから構成されていてもよい。サブセット411は、例えば、少なくとも100倍だけ、多い数のビデオなどの、サブセット403よりも多くの数のビデオを有することができる。検出器400は、生成器ネットワーク415をトレーニングするべく、サブセット411及び検出器413を使用することができる。生成器ネットワーク415は、例えば、異常性などの、対象の特徴の人工的表現417を生成するべく、トレーニングすることができる。人工的表現417は、対象の特徴の真の表現に類似して見える対象の特徴の偽の表現を有しうる。従って、生成器ネットワーク415は、偽陽性であるという決定を下すように、知覚ブランチ407を騙すべく、トレーニングすることができる。
【0100】
図4に更に描かれているように、生成器ネットワーク415は、トレーニングされたら、人工的表現417を生成することができる。検出器400は、ディスクリミネータネットワーク405の敵対的ブランチ409をトレーニングするべく、人工的表現417を使用することができる。上述のように、敵対的ブランチ409は、サブセット411から人工的表現417を弁別するべく、トレーニングすることができる。従って、敵対的ブランチ409は、差インジケータ419を判定することができる。差インジケータ419は、人工的表現417内に存在しているが、サブセット411内には存在していない、サブセット411内には存在しているが、人工的表現417内には存在していない、画像の任意の特徴ベクトル又はその他の態様、或いは、特徴ベクトル間の差を表す減算ベクトル又はその他の態様、或いは、人工的表現417のその他の態様、並びに、サブセット411のもの、を表すことができる。
【0101】
図4に描かれているように、検出器400は、差インジケータ419を使用することにより、知覚ブランチ407を再トレーニングすることができる。例えば、人工的表現417が対象の特徴の偽の表現を有する実施形態において、検出器400は、偽の表現がサブセット411内の真の表現の検出を結果的にもたらさないように、知覚ブランチ407を再トレーニングすることができる。
【0102】
図4には描かれていないが、検出器400は、生成器ネットワーク415、知覚ブランチ407、及び/又は敵対的ブランチ409を改善するべく、再帰的なトレーニングを更に使用することができる。例えば、検出器400は、差インジケータ419を使用して生成器ネットワーク415を再トレーニングすることができる。従って、敵対的ブランチ409の出力は、人工的表現が真の表現に相対的に類似して見えるように、生成器ネットワーク415を再トレーニングするべく、使用することができる。これに加えて、再トレーニング済みの生成器ネットワーク415は、敵対的ブランチ409を再トレーニングするべく使用される人工的表現の新しい組を生成することができる。従って、敵対的ブランチ409及び生成器ネットワーク415は、教師なし学習を実行してもよく、この場合に、それぞれのものの出力は、再帰的な方式によってその他のものを再トレーニングするべく使用されている。この再帰的なトレーニングは、閾値数のサイクルに到達する時点まで、且つ/又は、生成器ネットワーク415と関連する損失関数及び/又は敵対的ブランチ409と関連する損失関数が閾値に到達する時点まで、反復することができる。更には、この再帰的トレーニングにおいては、知覚ブランチ407は、新しい検出を有する新しいサブセットが、生成器ネットワーク415を更に再トレーニングするべく、使用されうるように、差インジケータのそれぞれの新しい出力を使用することにより、再トレーニングすることもできる。
【0103】
図5は、ディスクリミネータネットワーク及び生成器ネットワークを使用して対象の特徴を検出する例示用の方法500のフローチャートである。方法500は、1つ又は複数のプロセッサにより、実行することができる。
【0104】
図5のステップ501において、少なくとも1つのプロセッサは、データベース内において、異常性などの、対象の特徴の表現を含む複数のビデオを保存することができる。例えば、ビデオは、内視鏡検査手順においてキャプチャ済みであってよい。ステップ501の一部分として、少なくとも1つのプロセッサは、複数のビデオの第1サブセットを更に選択することができる。上述のように、少なくとも1つのプロセッサは、ランダムに、且つ/又は、1つ又は複数のパターンを使用することにより、選択することができる。
【0105】
ステップ503において、少なくとも1つのプロセッサは、第1の複数の異常性の検出を生成するべく、物体検出ネットワークの知覚ブランチを複数のビデオの第1サブセットのフレームに適用することができる。いくつかの実施形態において、上述のように、検出は、検出された異常性の場所のインジケータを含みうる。又、いくつかの実施形態において、知覚ブランチは、上述のように、畳み込みニューラルネットワークを有することができる。
【0106】
ステップ505において、少なくとも1つのプロセッサは、複数のビデオの第2サブセットを選択することができる。上述のように、少なくとも1つのプロセッサは、ランダムに、且つ/又は、1つ又は複数のパターンを使用することにより、選択することができる。第1の複数の検出及び複数のビデオの第2サブセットからのフレームを使用することにより、少なくとも1つのプロセッサは、複数の異常性の人工的表現を生成するべく、生成器ネットワークを更にトレーニングしてもよく、この場合に、複数の人工的表現は、残差学習を通じて生成されている。上述のように、それぞれの人工的表現は、異常性の真の表現に非常に類似した異常性の偽の表現を提供している。
【0107】
ステップ507において、少なくとも1つのプロセッサは、異常性の人工的な表現と異常性の真の表現の間を弁別するべく、ディスクリミネータネットワークの敵対的ブランチをトレーニングすることができる。例えば、上述のように、敵対的ブランチは、人工的表現とフレーム内の真の表現の間の差を識別するべく、トレーニングすることができる。いくつかの実施形態において、敵対的ブランチは、上述のように、畳み込みニューラルネットワークを有することができる。
【0108】
ステップ509において、少なくとも1つのプロセッサは、異常性の人工的表現と複数のビデオの第2サブセットのフレーム内に含まれている異常性の真の表現の間の差インジケータを生成するべく、ディスクリミネータネットワークの敵対的ブランチを複数の人工的表現に適用することができる。例えば、上述のように、差インジケータは、人工的表現には存在しているが、フレーム内には存在していない、フレーム内には存在しているが、人工的表現には存在していない、画像の任意の特徴ベクトル又はその他の態様を表していてもよく、或いは、特徴ベクトルの間の差を表す減算ベクトル又は人工的表現のその他の態様、或いは、フレームのものである。
【0109】
ステップ511において、少なくとも1つのプロセッサは、第2の複数の異常性の検出を生成するべく、ディスクリミネータネットワークの知覚ブランチを人工的表現に適用することができる。第1の複数の検出と同様に、検出は、人工的表現内の検出された異常性の場所のインジケータを含むことができる。
【0110】
ステップ513において、少なくとも1つのプロセッサは、差インジケータ及び第2の複数の検出に基づいて知覚ブランチを再トレーニングすることができる。例えば、それぞれの人工的表現が、異常性の真の表現に非常に類似している異常性の偽の表現を提供している、実施形態において、少なくとも1つのプロセッサは、人工的表現から返される検出の数を減少させるべく、且つ、従って、人工的表現から返される非異常性のヌルインジケータ又はその他のインジケータの数を増大させるべく、知覚ブランチを再トレーニングすることができる。
【0111】
本開示と一貫性を有する状態において、例示用の方法500は、更なるステップを含むことができる。例えば、いくつかの実施形態において、方法500は、差インジケータに基づいて生成ネットワークを再トレーニングするステップを含みうる。このような実施形態において、方法500は、更なる複数の異常性の人工的表現を生成するべく、生成ネットワークを適用するステップと、更なる複数の異常性の人工的表現に基づいて敵対的ブランチを再トレーニングするステップと、を更に含むことができる。このような再トレーニングステップは、再帰的なものであってよい。更には、方法500は、異常性の更なる人工的表現と複数のビデオの第2サブセットのフレームに含まれている異常性の真の表現の間の更なる差インジケータを生成するべく、再トレーニング済みの敵対的ブランチを更なる複数の人工的表現に適用するステップと、更なる差インジケータに基づいて生成ネットワークを再トレーニングするステップと、を含むことができる。上述のように、この再帰的な再トレーニングは、閾値数のサイクルに到達する時点まで、且つ/又は、生成ネットワークと関連する損失関数及び/又は敵対的ブランチと関連する損失関数が閾値に到達する時点まで、反復することができる。
【0112】
図6は、本開示の実施形態と一貫性を有する、ビデオフィード用のハードウェア構成を有するシステム600の概略表現である。
図6に示されているように、システム600は、カメラ又はビデオフィードを出力するその他の装置などの、画像装置601に通信自在に結合されていてもよい。例えば、画像装置601は、CTスキャナ、MRI装置、内視鏡検査装置、又はこれらに類似したものなどの、医療撮像装置を有することができる。システム600は、更には、ビデオを表示又は保存するべく、ディスプレイ615又はその他の装置に通信自在に結合されていてもよい。例えば、ディスプレイ615は、ユーザーに画像を表示するモニタ、スクリーン、又はその他の装置を有することができる。いくつかの実施形態において、ディスプレイ615は、クラウドに基づいたストレージシステム(図示されてはいない)に通信自在に接続されたストレージ装置(こちらも、図示されてはいない)又はネットワークインターフェイスコントローラ(NIC)によって置換又は補完することができる。
【0113】
図6に更に描かれているように、システム600は、カメラ601からビデオフィードを受け取る入力ポート603のみならず、ビデオをディスプレイ615に出力する出力ポート611を含むことができる。上述のように、入力ポート603及び出力ポート611は、VGAポート、HDMI(登録商標)ポート、DVIポート、又はこれらに類似したものを有することができる。
【0114】
システム600は、第1バス605及び第2バス613を更に含む。
図6に示されているように、第1バス605は、少なくとも1つのプロセッサ607を通じて入力ポート603を通じて受け取られたビデオを送信することができる。例えば、1つ又は複数のプロセッサ607は、上述の物体検出器ネットワーク及び/又はディスクリミネータネットワークのいずれかを実装することができる。従って、1つ又は複数のプロセッサ607は、例えば、
図7の例示用の方法700を使用することにより、第1バス602を介して受け取られたビデオ上において、例えば、
図8の例示用のグラフィカルインジケータなどの、1つ又は複数のインジケータをオーバーレイすることができる。次いで、プロセッサ607は、第3バス609を介して、出力ポート611に、オーバーレイされたビデオを送信することができる。
【0115】
特定の状況において、1つ又は複数のプロセッサ607によって実装された物体検出器は、誤動作する場合がある。例えば、物体検出器を実装したソフトウェアは、クラッシュする場合があり、或いは、さもなければ、適切な動作を停止する場合がある。これに加えて、又はこの代わりに、1つ又は複数のプロセッサ607は、(例えば、システム600の操作者から)ビデオのオーバーレイ動作を停止するためのコマンドを受け取る場合もある。誤動作及び/又はコマンドに応答して、1つ又は複数のプロセッサ607は、第2バス613を起動することができる。例えば、1つ又は複数のプロセッサ607は、
図6に描かれているように、第2バス613を起動するべく、コマンド又はその他の信号を送信することができる。
【0116】
図6に描かれているように、第2バス613は、受け取られたビデオを直接的に入力ポート603から出力ポート611に送信し、これにより、システム600が画像装置601用のパススルーとして機能することを許容することができる。第2バス613は、プロセッサ607によって実装されたソフトウェアが誤動作した場合にも、或いは、ハードウェアオーバーレイ600の操作者がビデオフィードの途中でオーバーレイ動作を停止するべく決定した場合にも、画像装置601からのビデオのシームレスな提示を許容することができる。
【0117】
図7は、本開示の実施形態と一貫性を有する、物体検出器ネットワークを使用してビデオフィード上において物体インジケータをオーバーレイする例示用の方法700のフローチャートである。方法700は、1つ又は複数のプロセッサによって実行することができる。
図7のステップ701において、少なくとも1つのプロセッサは、少なくとも1つの画像を提供することができる。例えば、少なくとも1つの画像は、データベースから抽出されてもよく、或いは、撮像装置から受け取られてもよい。いくつかの実施形態において、少なくとも1つの画像は、ビデオフィード内のフレームを有することができる。
【0118】
ステップ703において、少なくとも1つのプロセッサは、対象の特徴を含むものとして検出された画像の領域の周りにおいて2次元形状を有する境界をオーバーレイしてもよく、この場合に、境界は、第1色においてレンダリングされている。ステップ705において、所定の時間が経過した後に、少なくとも1つのプロセッサは、対象の特徴が真陽性である場合には、第2色において出現するように、且つ、対象の特徴が偽陽性である場合には、第3色において出現するように、境界を変更することができる。所定の時間の経過は、事前に設定された期間(例えば、閾値数のフレーム及び/又は秒)を表していてもよく、且つ/又は、対象の特徴の検出と真又は偽陽性としてのその分類の間の時間の経過を表していてもよい。
【0119】
これに加えて、又はこの代わりに、少なくとも1つのプロセッサは、対象の特徴が第1カテゴリにおいて分類された場合には、境界を第2色に変更することができると共に、対象の特徴が第2カテゴリにおいて分類された場合には、境界を第3色に変更することができる。例えば、対象の特徴が病変である場合には、第1カテゴリは、癌性病変を有することができると共に、第2カテゴリは、非癌性病変を有することができる。
【0120】
本開示と一貫性を有する状態において、例示用の方法700は、更なるステップを含むことができる。例えば、いくつかの実施形態において、方法700は、境界が変更された際に、サウンドを生成するべく、コマンドを1つ又は複数のスピーカに送信するステップ及び/又は境界が変更された際に振動するべく少なくとも1つのウェアラブル装置にコマンドを送信するステップを含むことができる。このような実施形態において、サウンド及び/又は振動の持続時間、トーン、周波数、及び振幅の少なくとも1つは、少なくとも1つの検出された物体が真陽性であるのか又は偽陽性であるのかに依存しうる。
【0121】
図8Aは、本開示の実施形態と一貫性を有する、ビデオ内の物体検出用の例示用のオーバーレイ801を示している。
図8Aのみならず、
図8B及び
図8Cの例において、図示されているビデオサンプル800a及び800bは、結腸内視鏡検査手順からのものである。本開示から、本開示の実施形態を実装する際には、その他の手順及び撮像装置からのビデオが利用されうることが理解されよう。従って、ビデオサンプル800a及び800bは、本開示の非限定的な例である。これに加えて、例として、
図8A~
図8Cのビデオ表示は、
図1のディスプレイ107又は
図6のディスプレイ615などの、表示装置上において提示されてもよい。
【0122】
オーバーレイ801は、検出された異常性又はビデオ内の対象の特徴用のインジケータとして使用されるグラフィカル境界の一例を表している。
図8Aに示されているように、画像800a及び800bは、検出された対象の特徴を含むビデオのフレームを有する。画像800bは、グラフィカルオーバーレイ801を含み、且つ、画像800aよりも、順番において後である、或いは、時間において後である、フレームに対応している。
【0123】
図8Aに示されているように、画像800a及び800bは、結腸内視鏡検査からのビデオフレームを有しており、且つ、対象の特徴は、病変又はポリープを有する。その他の実施形態においては、上述のように、胃鏡検査、小腸内視鏡検査、食道内視鏡検査などの上部内視鏡検査、或いは、これらに類似したものなどの、その他の医療手順からの画像を利用することができると共に、オーバーレイ801などの、グラフィカルインジケータとオーバーレイさせることができる。いくつかの実施形態において、インジケータ801は、異常性の検出及び時間(例えば、画像800aと画像800bの間の特定数のフレーム及び/又は秒)の経過の後にオーバーレイさせることができる。
図8Aの例において、オーバーレイ801は、既定のパターンを有する矩形境界の形態におけるインジケータ(即ち、実線のコーナー角)を有する。その他の実施形態において、オーバーレイ801は、異なる形状であってもよい(規則的であるのか又は不規則的であるのかを問わない)。これに加えて、オーバーレイ801は、既定の色において表示されてもよく、或いは、第1色から別の色に遷移してもよい。
【0124】
図8Aの例において、オーバーレイ801は、ビデオフレーム内の対象の特徴の検出された場所を取り囲む実線のコーナー角を有するインジケータを有する。オーバーレイ801は、ビデオフレーム800b内において出現しており、ビデオフレーム800bは、順番において、ビデオフレーム800aに後続するものでありうる。
【0125】
図8Bは、本開示の実施形態による、ビデオ内の物体検出用のオーバーレイを有するディスプレイの別の例を示している。
図8Bは、(画像800aに類似した)画像810aと、インジケータ811とオーバーレイされた後の(画像800bに類似した)画像810bと、を描いている。
図8Bの例において、オーバーレイ811は、すべての辺において実線を有する矩形境界を有する。その他の実施形態において、オーバーレイ811は、第1色及び/又は異なる形状であってもよい(規則的であるのか又は不規則的であるのかを問わない)。これに加えて、オーバーレイ811は、既定の色において表示されてもよく、或いは、第1色から別の色に遷移してもよい。
図8Bに示されているように、オーバーレイ811は、ビデオ内の検出された異常性又は対象の特徴上において配置されている。オーバーレイ811は、ビデオフレーム810b内において出現しており、ビデオフレーム810Bは、順番において、ビデオフレーム810aに後続するものでありうる。
【0126】
図8Cは、本開示の実施形態による、ビデオ内の物体検出用のオーバーレイを有するディスプレイの別の例を示している。
図8Cは、(画像800aに類似した)画像820aと、インジケータ821とオーバーレイされた、後の(画像800bに類似した)画像820bと、を描いている。
図8Cの例において、オーバーレイ821は、すべての辺において破線を有する矩形境界を有する。その他の実施形態において、インジケータ821は、異なる形状であってもよい(規則的であるのか又は不規則的であるのかを問わない)。これに加えて、オーバーレイ821は、既定の色において表示されてもよく、或いは、第1色から別の色に遷移してもよい。
図8Cにおいて示されているように、オーバーレイ821は、ビデオ内の検出された異常性又は対象の特徴上において配置されている。オーバーレイ821は、ビデオフレーム820b内において出現しており、ビデオフレーム820bは、順番において、ビデオフレーム820aに後続するものでありうる。
【0127】
いくつかの実施形態において、グラフィカルインジケータ(即ち、オーバーレイ801、811、又は821)は、パターン及び/又は色を変化させることができる。例えば、パターン及び/又はパターンの境界の色を時間の経過(例えば、画像800aと画像800b、画像810aと画像810b、或いは、画像820aと画像820b、の間の既定数のフレーム及び/又は秒)に応答して変更することができる。これに加えて、又はこの代わりに、インジケータのパターン及び/又は色を対象の特徴の特定の分類(例えば、対象の特徴がポリープである場合に、癌性又は非癌性としてのポリープの分類など)に応答して変更することもできる。更には、インジケータのパターン及び/又は色は、対象の特徴の分類にも依存しうる。従って、インジケータは、対象の特徴が第1カテゴリにおいて分類された場合に、第1パターン又は色を有してもよく、対象の特徴が第2カテゴリにおいて分類された場合には、第2パターン又は色を有してもよく、以下同様である。或いは、この代わりに、インジケータのパターン及び/又は色は、対象の特徴が真陽性として識別されたのか又は偽陽性として識別されたのかにも依存しうる。例えば、対象の特徴は、上述のように、物体検出ネットワーク(或いは、ディスクリミネータネットワークの知覚ブランチ)によって検出され、これにより、インジケータを結果的にもたらしうるが、次いで、上述のように、敵対的ブランチ又はネットワークによって偽陽性であると判定され、これにより、インジケータが第1パターン又は色になるという結果をもたらしうる。その代わりに、対象の特徴が、敵対的ブランチ又はネットワークによって真陽性であると判定された場合には、インジケータは、第2パターン又は色において表示することができる。
【0128】
以上の説明は、例示を目的として提示されたものである。これは、すべてを網羅したものではなく、且つ、開示されている形態又は実施形態そのままに限定されるものでもない。実施形態の変更及び適合については、本明細書の検討及び開示されている実施形態の実施から明らかとなろう。例えば、記述されている実装形態は、ハードウェアを含むが、本開示と一貫性を有するシステム及び方法は、ハードウェア及びソフトウェアにより、実装することができる。これに加えて、特定のコンポーネントは、互いに結合されるものとして記述されているが、このようなコンポーネントは、互いに統合されていてもよく、或いは、任意の適切な方式により、分散されていてもよい。
【0129】
更には、本明細書においては、例示用の実施形態が記述されているが、範囲は、本開示に基づいた、等価な要素、変更、省略、(例えば、様々な実施形態に跨る態様の)組合せ、適合、及び/又は変形を有する任意の且つすべての実施形態を含む。請求項における要素は、請求項において利用されている言語に基づいて広範に解釈することを要し、且つ、本明細書において、或いは、適用の実行において、記述されている例に限定されるものではなく、これらの例は、非排他的なものであると解釈することを要する。更には、開示されている方法のステップは、ステップの再順序付け及び/又はステップの挿入又は削除を含む、任意の方式により、変更することができる。
【0130】
本開示の特徴及び利点については、以上の詳細な説明から明らかであり、且つ、従って、添付の請求項は、本開示の真の精神及び範囲内に含まれるすべてのシステム及び方法を含むものと解釈されたい。本明細書において使用されている不定冠詞「a」及び「an」は、「1つ又は複数」を意味している。同様に、複数形の用語の使用は、所与の文脈において明らかでない限り、必ずしも、複数を表記しているものではない。「及び」又は「又は」などの用語は、具体的にそうではない旨が明示されていない限り、「及び/又は」を意味している。更には、本開示の検討から、多数の変更及び変形が容易に発生することになることから、本開示を図示及び記述されている構造及び動作そのままに限定することは望ましいことではなく、且つ、従って、すべての適切な変更及び均等物が本開示の範囲に包含されるものと解釈されたい。
【0131】
その他の実施形態については、本明細書の検討及び本明細書において開示されている実施形態の実施から明らかとなろう。本説明及び例は、例としてのみ見なすことを要し、開示されている実施形態の真の範囲及び精神は、添付の請求項によって示されているものと解釈されたい。
上述の実施形態は下記のように記載され得るが、下記に限定されるものではない。
[構成1]
リアルタイムビデオを処理するコンピュータ実装されたシステムであって、
医療画像装置から取得されたリアルタイムビデオを受け取る入力ポートと、
前記受け取られたリアルタイムビデオを転送する第1バスと、
前記第1バスから前記リアルタイムビデオを受け取り、トレーニング済みのニューラルネットワークを前記受け取られたリアルタイムビデオのフレームに対して適用することにより、物体検出を実行し、且つ、前記フレーム内の少なくとも1つの検出された物体の場所を通知する境界をオーバーレイする、ように構成された少なくとも1つのプロセッサと、
前記オーバーレイされた境界を有する前記ビデオを受け取る第2バスと、
前記オーバーレイされた境界を有する前記ビデオを前記第2バスから外部ディスプレイに出力する出力ポートと、
前記受け取られたリアルタイムビデオを前記出力ポートに直接的に送信する第3バスと、
を有するシステム。
[構成2]
前記第3バスは、前記少なくとも1つのプロセッサからのエラー信号の受信の際に起動されている、構成1に記載のシステム。
[構成3]
前記第1の複数の画像及び前記第2の複数の画像の少なくとも1つは、胃鏡検査、結腸内視鏡検査、小腸内視鏡検査、或いは、任意選択により、内視鏡検査装置を含む上部内視鏡検査の少なくとも1つの際に使用される撮像装置からの画像を有する、構成1又は2に記載のシステム。
[構成4]
前記少なくとも1つの検出される物体は、異常性であり、且つ、異常性は、任意選択により、ヒト組織上における形成又はヒト組織の形成、1つのタイプの細胞から別のタイプの細胞へのヒト組織における変化、及び/又は、ヒト組織が予想されている場所からの前記ヒト組織の欠如を有する、構成1から3のいずれか1項に記載のシステム。
[構成5]
前記異常性は、任意選択により、ポリープ状病変又は非ポリープ状病変を有する、病変を有する、構成4に記載のシステム。
[構成6]
前記オーバーレイされる境界は、前記少なくとも1つの検出された物体を含む画像の領域の周りにおけるグラフィカルパターンを有しており、前記パターンは、第1色において表示されている、構成1から5のいずれか1項に記載のシステム。
[構成7]
前記少なくとも1つのプロセッサは、所定の時間の経過の後に、前記少なくとも1つの検出された物体が真陽性である際には、第2色において表示されるように、前記パターンを変更し、且つ、前記少なくとも1つの検出された物体が偽陽性である場合には、第3色において表示されるように、前記パターンを更に変更する、ように更に構成されている、構成6に記載のシステム。
[構成8]
前記少なくとも1つのプロセッサは、前記境界の前記パターンが変更された際に、サウンドを生成するように、1つ又は複数のスピーカにコマンドを送信し、且つ/又は、前記境界の前記パターンが変更された際に、振動するように、少なくとも1つのウェアラブル装置にコマンドを送信する、ように更に構成されている、構成7に記載のシステム。
[構成9]
前記サウンドの持続時間、トーン、周波数、及び振幅の少なくとも1つは、前記少なくとも1つの検出された物体が真陽性であるのか又は偽陽性であるのかに依存しており、且つ/又は、前記振動の持続時間、周波数、及び振幅の少なくとも1つは、前記少なくとも1つの検出された物体が真陽性であるのか又は偽陽性であるのかに依存している、構成8に記載のシステム。
[構成10]
リアルタイムビデオを処理するコンピュータ実装されたシステムであって、
医療画像装置から取得されたリアルタイムビデオを受け取る入力ポートと、
前記入力ポートから前記リアルタイムビデオを受け取り、トレーニング済みのニューラルネットワークを前記受け取られたリアルタイムビデオのフレームに対して適用することにより、物体検出を実行し、且つ、前記フレーム内の少なくとも1つの検出された物体の場所を通知する境界をオーバーレイする、ように構成された少なくとも1つのプロセッサと、
前記オーバーレイされた境界を有する前記ビデオを前記少なくとも1つのプロセッサから外部ディスプレイに出力する出力ポートと、
ユーザーから感度設定を受け取る入力装置と、
を有し、
前記プロセッサは、前記感度設定に応答して、前記トレーニング済みのニューラルネットワークの少なくとも1つのパラメータを調節するように更に構成されている、システム。
[構成11]
前記第1の複数の画像及び前記第2の複数の画像の少なくとも1つは、胃鏡検査、結腸内視鏡検査、小腸内視鏡検査、或いは、任意選択により、内視鏡検査装置を含む上部内視鏡検査の少なくとも1つの際に使用される撮像装置からの画像を有する、構成10に記載のシステム。
[構成12]
前記少なくとも1つの検出される物体は、異常性であり、且つ、前記異常性は、任意選択により、ヒト組織上における形成又はヒト組織の形成、1つのタイプの細胞から別のタイプの細胞へのヒト組織における変化、及び/又は、ヒト組織が予測されている場所からの前記ヒト組織の欠如を有する、構成1から11のいずれか1項に記載のシステム。
[構成13]
前記異常性は、任意選択により、ポリープ状病変又は非ポリープ状病変を含む、病変を有する、構成12に記載のシステム。