(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2021-12-23
(45)【発行日】2022-01-18
(54)【発明の名称】神経生理学的信号を使用する反復分類のためのシステムと方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20220111BHJP
A61B 5/245 20210101ALI20220111BHJP
A61B 5/291 20210101ALI20220111BHJP
【FI】
G06T7/00 350C
A61B5/245
A61B5/291
(21)【出願番号】P 2019533183
(86)(22)【出願日】2017-12-21
(86)【国際出願番号】 IB2017058297
(87)【国際公開番号】W WO2018116248
(87)【国際公開日】2018-06-28
【審査請求日】2019-12-16
(32)【優先日】2016-12-21
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】517417474
【氏名又は名称】インナーアイ リミテッド
【氏名又は名称原語表記】InnerEye Ltd.
【住所又は居所原語表記】85 Medinat Hayehudim Street, Building G, POB# 12952, Herzeliya, Israel
(74)【代理人】
【識別番号】110002952
【氏名又は名称】特許業務法人鷲田国際特許事務所
(72)【発明者】
【氏名】ゲヴァ アミール ビー
(72)【発明者】
【氏名】ネッツァー エイタン
(72)【発明者】
【氏名】マノール ラン エル
(72)【発明者】
【氏名】ヴァイスマン セルゲイ
(72)【発明者】
【氏名】デオウェル レオン ワイ
(72)【発明者】
【氏名】アントマン ウリ
【審査官】佐藤 実
(56)【参考文献】
【文献】国際公開第2016/193979(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
A61B 5/245
A61B 5/291
(57)【特許請求の範囲】
【請求項1】
画像分類ニューラルネットワークをトレーニングする方法であって、
識別されるべきターゲットに関するアプリオリの知識を観察者に提供するステップであって、前記ターゲットは、第1の複数の画像の少なくとも1つの画像内にある、提供するステップと、
前記観察者の脳から神経生理学的信号を収集しながら、前記観察者に
前記第1の複数の画像を視覚刺激として提示するステップと、
前記神経生理学的信号を処理して、前記第1の複数の画像のうちの少なくとも1つの画像における前記観察者による
前記ターゲットの検出を示す神経生理学的事象を識別するステップと、
前記神経生理学的事象の前記識別に基づいて
前記少なくとも1つの画像にラベル又はスコアを割り当て、前記少なくとも1つの画像を前記画像分類ニューラルネットワークに供給することによって、前記少なくとも1つの画像内の前記ターゲットを識別するように前記画像分類ニューラルネットワークをトレーニングするステップと、
前記トレーニング済み画像分類ニューラルネットワークをコンピュータ可読記憶媒体に記憶するステップと、
を備えた、前記方法。
【請求項2】
前記トレーニング済み画像分類ニューラルネットワークを第2の複数の画像に適用して、そのうちで前記ターゲットによって占められていると疑われる候補画像を検出するステップであり、前記第2の複数の画像が前記第1の複数の画像の少なくとも1つの画像を含んでいる、該検出するステップと、
前記第2の複数の画像を再定義するステップであり、前記再定義済み第2の複数の画像のうちの少なくとも1つの画像が、前記トレーニング済み画像分類ニューラルネットワークによって検出された候補画像である、該再定義するステップと、
前記再定義済み第
2の複数の画像のうちの少なくとも1つの画像について、前記提示と、前記神経生理学的信号の前記収集及び処理と、前記トレーニングとを繰り返すことによって、前記画像分類ニューラルネットワークを反復的にトレーニングするステップと、
を更に備えた、請求項1に記載の方法。
【請求項3】
教師なしクラスタリングを前記第2の複数の画像に適用するステップと、前記教師なしクラスタリングに基づく前記第2の複数の画像から前記第1の複数の画像を選択するステップと、を更に備えた請求項2に記載の方法。
【請求項4】
前記第2の複数の画像から第1の複数の画像をランダムに選択するステップを備えた、請求項2に記載の方法。
【請求項5】
前記ターゲットを含む基準画像を受信するステップと、前記基準画像に応じて前記第2の複数の画像から第1の複数の画像を選択するステップと、を備えた、請求項2に記載の方法。
【請求項6】
前記画像分類ニューラルネットワークが、前記神経生理学的信号を受信して処理するように構成された第1のニューラルサブネットワークと、前記第2の複数の画像を受信して処理するように構成された第2のニューラルサブネットワークと、前記第1のニューラルサブネットワーク及び前記第2のニューラルサブネットワークの両方からの出力を受信して組み合わせるニューラルネットワーク層を有する共有サブネットワークと、を備えている、請求項2~5のいずれか一項に記載の方法。
【請求項7】
前記画像分類ニューラルネットワークが畳み込みニューラルネットワークであり、前記第1及び前記第2のニューラルサブネットワークの少なくとも一方が畳み込みニューラルサブネットワークである、請求項6に記載の方法。
【請求項8】
前記画像分類ニューラルネットワークが、第1のスコアを出力する前記第1のニューラルサブネットワーク用の第1の個別出力層と、第2のスコアを出力する前記第2のニューラルサブネットワーク用の第2の個別出力層と、を備えており、前記方法が、前記第1のスコアと前記第2のスコアとを組み合わせて組み合わせ済みスコアにするステップと、前記組み合わせ済みスコアで前記画像をラベル付けするステップと、前記トレーニングの少なくとも1回の反復において前記ラベル付けのラベルを使用するステップと、を備えている、請求項6及び7のいずれか一項に記載の方法。
【請求項9】
前記神経生理学的信号を用いて前記神経生理学的事象にスコアを付けるステップを更に備えており、前記トレーニングが少なくとも部分的に前記スコアに基づいている、請求項1~8のいずれか一項に記載の方法。
【請求項10】
前記スコアを使用して、前記観察者によって観察される画像内のオブジェクトと前記ターゲットとの類似性のレベルを判定するステップを更に備えた、請求項9に記載の方法。
【請求項11】
前記第1の複数の画像の前記提示の前に、前記ターゲットを表す刺激を前記観察者に提示するステップを更に備えており、前記刺激が、視覚刺激と、テキスト刺激と、聴覚刺激と、嗅覚刺激とで構成される群から選択される少なくとも1つの刺激を含んでいる、請求項1~9のいずれか一項に記載の方法。
【請求項12】
前記第1の複数の画像の前記提示の前に、前記ターゲットに対して補完的である刺激を前記観察者に提示するステップを更に備えており、前記刺激が、視覚刺激と、テキスト刺激と、聴覚刺激と、嗅覚刺激とで構成される群から選択される少なくとも1つの刺激を含んでいる、請求項1~9のいずれか一項に記載の方法。
【請求項13】
画像分類ニューラルネットワークをトレーニングするためのシステムであって、
観察者の脳から神経生理学的信号を収集するように構成された神経生理学的信号収集システムと、
前記神経生理学的信号収集システムと通信し、請求項1~12のいずれか一項に記載の方法を実行するように構成されたデータプロセッサと、
を備えた前記システム。
【請求項14】
画像を分類する方法であって、
請求項1~12のいずれか一項に記載の方法を実行して画像分類ニューラルネットワークをトレーニングするステップと、
前記トレーニング済み画像分類ニューラルネットワークを前記画像に適用して、前記トレーニング済み画像分類ニューラルネットワークの出力層によって生成されたスコアに基づいて、前記画像内における前記ターゲットの存在を判定するステップと、
を備えた前記方法。
【請求項15】
画像を分類する方法であって、
請求項1~12のいずれか一項に記載の方法を前記画像に適用するステップと、
前記トレーニング済み画像分類ニューラルネットワークを前記画像に適用して、前記画像がターゲットによって占められていると疑われるか否かを判定するステップと、
観察者の脳から神経生理学的信号を収集しながら、前記画像を前記観察者に視覚刺激として提示するステップと、
前記神経生理学的事象の前記識別に、少なくとも部分的に、基づいて、前記画像内における前記ターゲットの存在を判定するステップと、
を備えた前記方法。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願)
本出願は、2016年12月21日に出願された米国仮特許出願第62/437,065号の優先権の利益を主張し、その内容全体を参照により本明細書に援用する。
【0002】
本発明は、その一部の実施形態において、ブレインコンピュータインターフェース(Brain Computer Interface)(BCI)に関し、更に詳しくは、しかし限定的ではなく、神経生理学的信号を使用する反復分類のためのシステムと方法に関する。
【背景技術】
【0003】
BCIの用途は、基礎研究で盛んに研究されている平均反応の描写とは対照的に、単一事象(試行)に反応する脳活動を解読することに依存している。非侵襲的な記録技術である脳波検査法(Electroencephalography)(EEG)は、脳活動をモニタするために一般的に使用されているシステムの1つである。EEGデータは、多数のチャンネルから同時に高い時間分解能で収集され、単一試行脳活動(single trial brain activity)を表現するための高次元データ行列をもたらす。その卓越した時間分解能に加えて、EEGは、非侵襲的であり、着用可能であり、その他のニューロイメージング(neuroimaging)技術よりも手頃な費用であり、従って、あらゆるタイプの実用的なBCIにとって主要な選択肢である。
【0004】
従来の分類技法は、機械学習アルゴリズムを使用して、単一試行時空間活動行列(single-trial spatio-temporal activity matrices)を、それらの行列の統計的特性に基づいて、分類する。これらの方法は、2つの主な要素、即ち、効果的な次元数削減のための特徴抽出メカニズムと、分類アルゴリズムと、に基づいている。代表的な分類器は、サンプルデータを使用して、他の試験データを2つ以上のカテゴリのうちの1つに分類できるマッピング規則を学習する。分類器は、線形法と非線形法に大別できる。ニューラルネットワーク(Neural Networks)、隠れマルコフモデル(Hidden Markov Model)、k近傍法(k-nearest neighbor)などの非線形分類器は、広範囲の関数を近似することができ、複雑なデータ構造の判別を可能にする。非線形分類器は、複雑な判別関数を捕捉する潜在的な可能性を備えているが、それらの複雑さが、過剰適合(overfitting)を引き起こし、そして重い計算上の需要をもたらすこともあり、リアルタイムの用途にはあまり適していない。
【0005】
他方、線形分類器は、それほど複雑ではなく、従って、データの過剰適合に対してより強固である。線形分類器は、線形に分離できるデータについて、特に有効である。フィッシャー線形判別(Fisher Linear discriminant)(FLD)、線形サポートベクトルマシン(linear Support Vector Machine)(SVM)及びロジスティック回帰(Logistic Regression)(LR)は、線形分類器の例である。FLDは、2つのクラスのデータを分離可能射影軸にマッピングする、特徴の線形結合(linear combination)を見つける。分離についての基準は、クラス内分散に対するクラス平均相互間距離の比として定義される。SVMは、2つのクラス相互間のマージンを最大化する分離超平面(separating hyper-plane)を見つける。LRは、その名が示すように、データをロジスティック関数に射影する。
【0006】
特許文献1は、その内容を参考としてここに記載するが、ターゲット画像と非ターゲット画像とを含む一連の画像に応答して生成される人間の被検者のEEG信号の単一試行分類(single trial classification)の実施方法を開示している。この方法は、EEG信号の時間点とそれぞれの空間分布とを含む時空間表現でEEG信号を取得するステップと、線形判別分類器を使用して時間点を独立して分類して時空間判別重みを計算するステップと、時空間判別重みを用いて、時空間点において、それぞれ、時空間表現を時空間判別重みによって拡張して、空間的に重み付けされた表現を作成するステップと、EEG信号の空間チャンネル毎に個別に、次元数削減のために時間領域で主成分分析(Principal Component Analysis)(PCA)を使用して、PCA射影を作成するステップと、空間的に重み付けされた表現に第1の複数の主成分へのPCA射影を適用して、各空間チャンネルについて複数の主要な時間的射影についてのPCA係数を含む時間的に近似され空間的に重み付けされた表現を作成するステップと、線形判別分類器を使用して、チャンネルの数全体にわたって、時間的に近似され空間的に重み付けされた表現を分類して、一連の画像の各画像をターゲット画像または非ターゲット画像のいずれかに属するものとして示す二分決定系列を生成するステップと、を備えている。
【0007】
特許文献2は、その内容を参考としてここに記載するが、画像を分類する方法を開示している。この方法は、画像にコンピュータビジョン手順(computer vision procedure)を適用して、目標物によって占有されていると疑われる候補画像領域をその画像内で検出する。各候補画像領域を視覚刺激として観察者に提示する一方、観察者の脳から神経生理学的信号を収集する。神経生理学的信号を処理して、観察者による目標物の検出を示す神経生理学的事象(neurophysiological event)を識別する。この神経生理学的事象の識別に基づいて、画像内の目標物の存在を判定する。
【先行技術文献】
【特許文献】
【0008】
【文献】国際公開公報第2014/170897号
【文献】国際公開公報第2016/193979号
【文献】米国特許第5,513,649号明細書
【文献】米国公開特許出願第20150018704号明細書
【発明の概要】
【0009】
本発明の一部の実施形態の一態様に従って、画像分類ニューラルネットワークをトレーニングする方法を提供する。この方法は、観察者の脳から神経生理学的信号を収集しながら、観察者に第1の複数の画像を視覚刺激として提示するステップと、神経生理学的信号を処理して、第1の複数の画像のうちの少なくとも1つの画像における観察者によるターゲットの検出を示す神経生理学的事象を識別するステップと、神経生理学的事象の識別に基づいて画像内のターゲットを識別するように画像分類ニューラルネットワークをトレーニングするステップと、トレーニング済み画像分類ニューラルネットワークをコンピュータ可読記憶媒体に記憶するステップと、を備えている。
【0010】
本発明の一部の実施形態に従えば、本方法は、教師なしクラスタリングを第2の複数の画像に適用するステップと、教師なしクラスタリングに基づく第2の複数の画像から第1の複数の画像を選択するステップと、を備えている。
【0011】
本発明の一部の実施形態に従えば、本方法は、トレーニング済み画像分類ニューラルネットワークを第2の複数の画像に適用して、そのうちでターゲットによって占められていると疑われる候補画像を検出するステップであり、第2の複数の画像が第1の複数の画像の少なくとも1つの画像を含んでいる、該検出するステップを備えている。本方法は、第2の複数の画像を再定義するステップであり、再定義済み第2の複数の画像のうちの少なくとも1つの画像が、トレーニング済み画像分類ニューラルネットワークによって検出された候補画像である、該再定義するステップを更に備えている。本方法は、再定義済み第1の複数の画像のうちの少なくとも1つの画像について、提示と、神経生理学的信号の収集及び処理と、トレーニングとを繰り返すことによって、画像分類ニューラルネットワークを反復的にトレーニングするステップを更に備えている。
【0012】
本発明の一部の実施形態に従えば、本方法は、入力画像を複数の画像タイルにタイリングするステップを備えており、第1の複数の画像は、それらの複数の画像タイルの一部を含んでいる。
【0013】
本発明の一部の実施形態に従えば、第2の複数の画像は、それらの複数の画像タイルを含んでいる。
【0014】
本発明の一部の実施形態に従えば、第2の複数の画像を再定義するステップは、入力画像を複数の画像に再タイリングするステップを含み、再タイリングされた入力画像の少なくとも1つの画像は、候補画像を含んでいる。
【0015】
本発明の一部の実施形態に従えば、本方法は、教師なしクラスタリングを第2の複数の画像に適用するステップと、教師なしクラスタリングに基づく第2の複数の画像から第1の複数の画像を選択するステップと、を備えている。
【0016】
本発明の一部の実施形態に従えば、本方法は、第2の複数の画像から第1の複数の画像をランダムに選択するステップを備えている。
【0017】
本発明の一部の実施形態に従えば、本方法は、ターゲットを含む基準画像を受信するステップと、基準画像に応じて第2の複数の画像から第1の複数の画像を選択するステップと、を備えている。
【0018】
本発明の一部の実施形態に従えば、画像分類ニューラルネットワークは、畳み込みニューラルネットワークである。
【0019】
本発明の一部の実施形態に従えば、画像分類ニューラルネットワークは、神経生理学的データを受信して処理するように構成された第1のニューラルサブネットワークと、第2の複数の画像を受信して処理するように構成された第2のニューラルサブネットワークと、第1のニューラルサブネットワーク及び第2のニューラルサブネットワークの両方からの出力を受信して組み合わせるニューラルネットワーク層を有する共有サブネットワークと、を備えている。
【0020】
本発明の一部の実施形態に従えば、画像分類ニューラルネットワークは、畳み込みニューラルネットワークであり、第1及び第2のニューラルサブネットワークの少なくとも一方は、畳み込みニューラルサブネットワークである。
【0021】
本発明の一部の実施形態に従えば、画像分類ニューラルネットワークは、第1のスコアを出力する第1のニューラルサブネットワーク用の第1の個別出力層と、第2のスコアを出力する第2のニューラルサブネットワーク用の第2の個別出力層と、を備えており、本方法は、第1のスコアと第2のスコアとを組み合わせて組み合わせ済みスコアにするステップと、組み合わせ済みスコアで画像をラベル付けするステップと、トレーニングの少なくとも1回の反復においてそのラベル付けのラベルを使用するステップと、を備えている。
【0022】
本発明の一部の実施形態に従えば、組み合わせ済みスコアは、第1及び第2のスコアの重み付け合計である。
【0023】
本発明の一部の実施形態に従えば、画像分類ニューラルネットワークは、教師なし特徴学習用のオートエンコーダサブネットワークを備えている。
【0024】
本発明の一部の実施形態に従えば、オートエンコーダサブネットワークは、第1の複数の画像を選択するために使用される。
【0025】
本発明の一部の実施形態に従えば、本方法は、神経生理学的信号を用いて神経生理学的事象にスコアを付けるステップを備えており、トレーニングは、少なくとも部分的にそのスコアに基づいている。
【0026】
本発明の一部の実施形態に従えば、本方法は、スコアを使用して、観察者によって観察される画像内のオブジェクトとターゲットとの類似性のレベルを判定するステップを備えている。
【0027】
本発明の一部の実施形態に従えば、本方法は、第1の複数の画像の提示の前に、ターゲットを表す刺激を観察者に提示するステップを備えており、この刺激は、視覚刺激と、テキスト刺激と、聴覚刺激と、嗅覚刺激とで構成される群から選択される少なくとも1つの刺激を含んでいる。
【0028】
本発明の一部の実施形態に従えば、本方法は、第1の複数の画像の提示の前に、ターゲットに対して補完的である刺激を観察者に提示するステップを備えており、この刺激は、視覚刺激と、テキスト刺激と、聴覚刺激と、嗅覚刺激とで構成される群から選択される少なくとも1つの刺激を含んでいる。
【0029】
本発明の一部の実施形態の一態様に従って、画像分類ニューラルネットワークのトレーニング用のシステムであって、観察者の脳から神経生理学的信号を収集するように構成された神経生理学的信号収集システムと、この神経生理学的信号収集システムと通信し、以上に詳述の及び、任意選択的に且つ望ましくは、以下に詳述の方法を実行するように構成されたデータプロセッサと、を備えた該システムを提供する。
【0030】
本発明の一部の実施形態の一態様に従って、画像の分類の方法であって、前述の方法を実行して画像分類ニューラルネットワークをトレーニングするステップと、トレーニング済み画像分類ニューラルネットワークを画像に適用して、トレーニング済み画像分類ニューラルネットワークの出力層によって生成されたスコアに基づいて、画像内におけるターゲットの存在を判定するステップと、を備えた該方法を提供する。
【0031】
本発明の一部の実施形態の一態様に従って、画像の分類の方法であって、以上に詳述の及び、任意選択的に且つ望ましくは、以下に詳述の方法を画像に適用するステップと、トレーニング済み画像分類ニューラルネットワークを画像に適用して、画像がターゲットによって占められていると疑われるか否かを判定するステップと、観察者の脳から神経生理学的信号を収集しながら、画像を観察者に視覚刺激として提示するステップと、神経生理学的事象の識別に、少なくとも部分的に、基づいて、画像内におけるターゲットの存在を判定するステップと、を備えた該方法を提供する。
【0032】
本発明の一部の実施形態の一態様に従って、画像分類の方法であって、トレーニング済み画像分類ニューラルネットワークを画像に適用して、その中でターゲットによって占められていると疑われる候補画像領域を検出するステップと、観察者の脳から神経生理学的信号を収集しながら、観察者に各々の候補画像領域を視覚刺激として提示するステップと、神経生理学的事象の識別に、少なくとも部分的に、基づいて、画像内におけるターゲットの存在を判定するステップと、を備えた該方法を提供する。
【0033】
本発明の一部の実施形態の一態様に従って、画像分類の方法であって、トレーニング済み画像分類ニューラルネットワークを複数の画像の各々に適用して、そのうちにおいてターゲットによって占められていると疑われる候補画像を検出するステップと、観察者の脳から神経生理学的信号を収集しながら、観察者に各々の候補画像を視覚刺激として提示するステップと、神経生理学的事象の識別に、少なくとも部分的に、基づいて、候補画像内におけるターゲットの存在を判定するステップと、を備えた該方法を提供する。
【0034】
本発明の一部の実施形態の一態様に従って、画像分類のためのシステムであって、観察者の脳から神経生理学的信号を収集するように構成された神経生理学的信号収集システムと、この神経生理学的信号収集システムと通信し、以上に詳述の及び、任意選択的に且つ望ましくは、以下に詳述の方法を実行するように構成されたデータプロセッサと、を備えた該システムを提供する。
【0035】
特に定義しない限り、本明細書で使用する全ての技術および/または科学用語は、本発明が属する技術分野の当業者により通常理解されるものと同じ意味を有する。本明細書に記載のものと同様のまたは等価な方法および材料を、本発明の実施形態の実践または試験に使用することができるが、例示的な方法および/または材料を下記に記載する。矛盾する場合、定義を含む特許明細書が優先する。加えて、材料、方法、および実施例は単なる例示であり、必ずしも限定を意図するものではない。
【0036】
本発明の実施形態の方法及び/又はシステムの実施には、選択されたタスクを手動で、自動的に、あるいは、それらの組み合わせで、遂行又は完遂することが含まれ得る。更に、本発明の方法及び/又はシステムの実施形態の実際の手段及び装置に従って、一部の選択されたタスクは、ハードウェアによって、ソフトウェアによって、ファームウェアによって、あるいは、オペレーティングシステムを使用するそれらの組み合わせによって、実施し得る。
【0037】
例えば、本発明の実施形態に従って、選択されたタスクを遂行するためのハードウェアは、チップ又は回路として実施し得る。ソフトウェアとしては、本発明の実施形態に従う選択されたタスクは、任意の適切なオペレーティングシステムを使用するコンピュータによって実行される複数のソフトウェア命令として、実施し得る。本発明の代表的な一実施形態において、本明細書に記載の方法及び/又はシステムの代表的な実施形態に従う1つ又は複数のタスクは、複数の命令を実行するためのコンピューティングプラットフォームのようなデータプロセッサによって遂行される。任意選択的に、このデータプロセッサには、命令及び/又はデータを記憶するための揮発性メモリ、及び/又は、命令及び/又はデータを記憶するための不揮発性記憶装置、例えば、磁気ハードディスク及び/又は取り外し可能媒体が含まれる。任意選択的に、ネットワーク接続も提供される。ディスプレイ、及び/又は、キーボード又はマウスのようなユーザ入力装置も、任意選択的に、提供される。
【0038】
本発明のいくつかの実施形態について、その例示のみを目的として添付の図面を参照して本明細書に記載する。以下、特に図面を詳細に参照して示す細部は、例示を目的とし、また本発明の実施形態の詳細な説明を目的とすることを強調する。同様に、図面と共に説明を見ることで、本発明の実施形態をどのように実践し得るかが当業者には明らかとなる。
【図面の簡単な説明】
【0039】
【
図1】本発明の一部の実施形態に従う、画像分類ニューラルネットワークをトレーニングするのに適した一方法のフローチャート図を示す図である。
【
図2】本発明の一部の実施形態に従う、一画像分類ニューラルネットワークの概略的な説明図を示す図である。
【
図3】本発明の一部の実施形態に従う、画像分類に適した一方法のフローチャート図を示す図である。
【
図4】本発明の一部の実施形態に従う一システムの概略的な説明図を示す図である。
【
図5】本発明の一部の実施形態の代表的な一実践態様の概略的な説明図を示す図である。
【
図6】本発明の一部の実施形態に従って遂行された実験において使用された画像分類用のマルチモーダルEEG画像ニューラルネットワークの概略的な説明図を示す図である。
【
図7】本発明の一部の実施形態に従って遂行されたシミュレーションにおける入力画像として使用された空中画像を示す図である。
【
図8A】本発明の一部の実施形態に従って
図7における空中画像に適用されたシミュレーションにおいて得られたターゲット識別マップを示す図である。
【
図8B】本発明の一部の実施形態に従って
図7における空中画像に適用されたシミュレーションにおいて得られたターゲット識別マップを示す図である。
【
図8C】本発明の一部の実施形態に従って
図7における空中画像に適用されたシミュレーションにおいて得られたターゲット識別マップを示す図である。
【
図8D】本発明の一部の実施形態に従って
図7における空中画像に適用されたシミュレーションにおいて得られたターゲット識別マップを示す図である。
【
図9A】本発明の一部の実施形態に従って遂行された実験において得られた、人工のニューラルネットワーク間の比較結果を示す図である。
【
図9B】本発明の一部の実施形態に従って遂行された実験において得られた、人工のニューラルネットワーク間の比較結果を示す図である。
【
図9C】本発明の一部の実施形態に従って遂行された実験において得られた、人工のニューラルネットワーク間の比較結果を示す図である。
【
図9D】本発明の一部の実施形態に従って遂行された実験において得られた、人工のニューラルネットワーク間の比較結果を示す図である。
【発明を実施するための形態】
【0040】
本発明は、その一部の実施形態において、ブレインコンピュータインターフェース(BCI)に関し、更に詳しくは、しかし限定的ではなく、神経生理学的信号を使用する反復分類のためのシステムと方法に関する。
【0041】
本発明の少なくとも1つの実施形態を詳細に説明する前に、本発明は、必ずしもその用途が、以下の記載に示す、および/または図面および/または実施例で例示する、構成の詳細および要素の配置および/または方法に限定されるものではないことを理解するべきである。本発明は、他の実施形態が可能であり、また、さまざまな手段で実施または実行することが可能である。
【0042】
コンピュータビジョンによる視覚的オブジェクト分類は、探求されているオブジェクトが十分に定義され、その例がトレーニングデータセットにおいて利用可能である場合、非常に高速かつ正確である。しかしながら、本発明者は、視覚的データ解釈タスクが、場合によっては、トレーニングセットから得られる例と一致しない多種多様な潜在的なターゲット又は未知のターゲットさえも取り扱わなければならないことを確認した。また、本発明者は、ターゲットの定義が解釈タスクの期間中に変わる可能性があることも確認した。本発明者は、人間の視覚がそのような課題を高精度で処理できることを確認した。本発明者は、大きな高解像度画像又は多数組の離散的な画像の場合、それらの画像を分析して、それらの内におけるターゲット又は対象オブジェクトを検出するのに数十分または数時間さえも必要なことがあり、その理由は、人間の分析者の処理能力が低いからである(例えば、単一の画像を手動でスキャンするのに数秒かかることがある)ことを認識している。
【0043】
従って、本発明者は、画像の高速逐次視覚提示(Rapid Serial Visual Presentation)(RSVP)を、EEG取得、望ましくは、リアルタイムEEG取得(例えば、1秒未満以内)と組み合わせる技術を考案した。この創意に富む技術は、従来の分類技術と比較して遥かに速い速度での分類に使用できる。本実施形態の方法及びシステムは、任意選択的に且つ望ましくは、反復プロセスを提供し、その反復プロセスにおいて、ニューラルネットワークのトレーニングが、人間の観察者の分類の出力に基づいて、反復的に更新され、その際、人間の観察者の分類に関する入力が、人間の観察者が分類を行っている間に記録されたEEG信号から抽出される。次に、更新されたニューラルネットワークの出力が、人間の観察者に対して反復的に示される更新された一組の画像を選択するために、任意選択的に且つ望ましくは、使用される。
【0044】
本実施形態の技術は、大きな画像に、例えば、限定はしないが、空中画像又は広い領域をカバーするカメラから得られる高解像度画像などに、適用できる。本実施形態の技術は、その代わりに、画像組に、例えば、1組について10以上、50以上、250以上、あるいは、1250以上の画像を含むものに、適用でき、その際、それらの画像の少なくとも一部はターゲットを含んでおり、本実施形態の方法及びシステムは、当該画像を識別する、あるいは、ラベル付けする。本実施形態の技術は、単一の画像に適用でき、あるいは、その単一の画像がターゲットを含んでいるか否かを自動的に判定できる。
【0045】
本実施形態の技術は、画像又はターゲットを含む画像部分の2値識別と、画像又は画像部分の非2値分類との両方に使用でき、2値分類は、その画像又は画像部分がターゲットを含んでいるか否かを示す2値スコア(binary score)を提供し、非2値分類は、その画像又は画像部分がターゲットを含んでいる確度、あるいは、ターゲットとその画像又は画像部分内のオブジェクトとの間の類似性のレベル、を示す非2値スコア(non-binary score)を提供する。本発明の一部の実施形態では、2値スコア及び非2値スコアのいずれもがニューラルネットワークのトレーニングに使用される。
【0046】
本明細書に記載の動作の少なくとも一部は、データを受信して、以下に説明する動作を実行するように構成されたデータ処理システム、例えば、専用回路又は汎用コンピュータによって実施できる。動作の少なくとも一部は、遠隔地にあるクラウドコンピューティング設備によって実施できる。
【0047】
本実施形態の方法を実施するコンピュータプログラムは、一般的に、通信ネットワークによって、あるいは、配布媒体、例えば、限定はしないが、フロッピーディスク、CD-ROM、フラッシュメモリデバイス及びポータブルハードドライブなどによって、ユーザに配布できる。このコンピュータプログラムは、通信ネットワーク又は配布媒体から、ハードディスク又は同様の中間記憶媒体に、コピーできる。このコンピュータプログラムは、それらの配布媒体又はそれらの中間記憶媒体からコード命令をコンピュータの実行メモリにロードして、本発明の方法に従って動作するようにコンピュータを構成することによって、実行できる。これら全ての動作は、コンピュータシステムの当業者に良く知られている。
【0048】
本明細書において説明する処理動作は、例えば、DSP、マイクロコントローラ、FPGA、ASICなどのようなプロセッサ回路、あるいは、その他の任意の従来の及び/又は専用のコンピューティングシステムによって、実行してもよい。
【0049】
本実施形態の方法は、多くの形態で実施できる。例えば、それは、方法動作を実行するコンピュータのような有形媒体上で実施できる。それは、方法動作を実行するためのコンピュータ可読命令を備えたコンピュータ可読媒体上で実施できる。また、それは、有形媒体上でコンピュータプログラムを実行するように、あるいは、コンピュータ可読媒体上で命令を実行するように、構成されたデジタルコンピュータ機能を有する電子装置において実施することもできる。
【0050】
本発明の一部の実施形態は、画像分類ニューラルネットワークをトレーニングするのに適した方法及びシステムに関する。
【0051】
ニューラルネットワークは、相互結合された「ニューロン」の概念に基づく一種のコンピュータ実施技術である。代表的なニューラルネットワークにおいて、ニューロンはデータ値を含んでおり、そのデータ値の各々は、既定の強度を有する結合と、各々の特定のニューロンに対する結合の合計が既定の閾値を満たすか否かと、に従って、結合されたニューロンの値に影響を及ぼす。適切な結合強度及び閾値を特定すること(トレーニングとも呼ばれるプロセス)によって、ニューラルネットワークは、画像及び文字の効率的な認識を達成できる。多くの場合、これらのニューロンは層にグループ化され、それによって、グループ相互間の結合がより明確になり、値の計算が容易になる。ネットワークの各々の層は、異なる数のニューロンを備えていることがあり、これらは入力データの特定の品質に関連していることもあれば、そうでないこともある。
【0052】
完全結合型ニューラルネットワークと呼ばれる一実施形態において、特定の層内の各々のニューロンは、次の層内のニューロンに結合されており、入力値を供給する。次に、これらの入力値が合計され、この合計値がバイアス、あるいは、閾値と比較される。この値が特定のニューロンについての閾値を超えると、そのニューロンは正の値を保持して、その正の値は、次のニューロン層内のニューロンへの入力として使用され得る。この計算は、ニューラルネットワークの種々の層を通して続けられて、ついに最終層に到達する。この時点で、ニューラルネットワークのルーチンの出力が、最終層内の値から読み取り可能となる。
【0053】
単一の値をネットワーク又はサブネットワークの各々のニューロンに関連付ける完全結合型ネットワーク又はサブネットワークとは異なり、畳み込みニューラルネットワーク又はサブネットワークは、1アレイの値(an array of values)を各々のニューロンに関連付けることによって、機能する。概念的には、このアレイは、分類すべき画像の小さなパッチ(small patch)として考えることができる。次の層に対するニューロン値の変換は、乗算から畳み込みへと一般化される。これは、結合強度がスカラ値(scalar values)ではなく畳み込みカーネル(convolution kernels)であることを意味している。これらのより複雑な変換は、より複雑なニューラルネットワーク行列を伴う。従って、完全結合型ネットワーク又はサブネットワーク内の行列は1アレイの数値(an array of number values)を含んでいるが、畳み込みニューラルネットワーク又はサブネットワークにおいては、各々の行列成分(matrix entry)は、1パッチの画素(a patch of pixels)である。
【0054】
トレーニングすべきニューラルネットワークは、任意選択的に且つ望ましくは、また、必ずではなく、畳み込みニューラルネットワークである。本実施形態に適した画像分類ニューラルネットワークの一代表例を以下に説明する。
【0055】
次に図面を参照すると、
図1は、本発明の種々の代表的な実施形態に従う方法のフローチャート図である。以下に説明する動作は、特に定めのない限り、多数の組み合わせ又は実行順序で、同時に又は順次に、実行できることを理解されたい。具体的には、フローチャート図の順序は、限定的であると見なすべきではない。例えば、以下の説明において又はフローチャート図において特定の順序で現れる2つ以上の動作は、異なる順序(例えば、逆の順序)で又は実質的に同時に実行できる。また、以下に説明する一部の動作は、任意選択的であり、実行されない場合もある。
【0056】
この方法は、10で始まり、任意選択的に且つ望ましくは、11に進み、そこで、1つ又は複数の入力画像が受信される。この受信された画像が大きい場合(例えば、空中画像、あるいは、広い視野をカバーするカメラによって捕捉された画像、例えばパノラマ画像である場合)、本方法は、任意選択的に且つ望ましくは、12に進み、そこで、この画像は、各々が本方法によって個別の入力画像として使用される複数のタイルにタイリングされる。その代わりに、本方法は、11で複数の入力画像を受信でき、その場合、12をスキップできる。また、本方法は、複数の画像を受信して、これらの画像のうちの1つ又は複数又は各々をタイリングする実施形態も考えられる。一般的に、11で受信されたいずれの入力画像も、それがタイリングされるか否かに関わらず、本方法によって、画像分類ニューラルネットワークをトレーニングするために使用され得る。
【0057】
本方法は、任意選択的に且つ望ましくは、13に進み、そこで、これらの画像の一部が選択される。これは複数の態様で行うことができる。
【0058】
本発明の一部の実施形態において、これらの画像は、統一された分布又は他の任意の分布に従って、ランダムに選択される。
【0059】
本発明の一部の実施形態において、ターゲットを含む基準画像が受信され、この基準画像に応じて、画像の一部が選択される。例えば、粗画像処理手順を適用して、基準画像に対する類似性レベルが所定の閾値よりも高い画像を選択できる。望ましくは、より良いトレーニングを可能にするために、類似性レベルが所定の閾値よりも低い少なくとも数枚の画像も選択される。基準画像との類似性が低い画像に対する、類似性が高い画像の比は、任意選択的に且つ望ましくは、約1~約10とすることができる。その代わりに、あるいは、それに加えて、基準画像を増補すること(augmenting)によって(例えば、回転画像を作成することによって)初期ターゲットモデルを構築でき、教師なしオートエンコーダ(unsupervised autoencoder)を使用して基準画像を代表する特徴を学習できる。その後、画像の一部を、平均画像からの距離に基づいて、選択できる。その距離が短い(例えば、所定の閾値未満)の画像に対する、その距離が長い(例えば、所定の閾値より上の)画像の比は、任意選択的に且つ望ましくは、約1~約10とすることができる。
【0060】
本発明の一部の実施形態において、教師なしクラスタリング(unsupervised clustering)が画像に適用され、その一部が教師なしクラスタリングに基づいて選択される。複数のクラスタが、画像内に提示されている相異なるタイプのオブジェクトと一致することがあり、その際、クラスタのうちの1つが、ターゲットに似ているオブジェクトである。本方法は、クラスタの一部をサンプリングして、各々のクラスタからいくつかの画像を選択できる。ターゲットに似ている画像のクラスタからの画像の、他のクラスタからの画像に対する比は、任意選択的に且つ望ましくは、約1~約10とすることができる。最大のクラスタには、気を散らす特徴が含まれ得る。一部の実施形態において、このクラスタは、観察者によって調べられるデータの量を減らすために、除外される。
【0061】
14において、画像、又は、より望ましくは、画像の一部が視覚刺激として観察者に提示され、15において、観察者の脳から神経生理学的信号が収集される。動作15は、望ましくは、視覚刺激14と同時に実行され、その結果、収集された信号には、視覚刺激に対する観察者の反応を示す信号も含まれている。
【0062】
画像は、十分に高いレートで逐次的に提示されることが望ましい。このような提示は、高速逐次視覚提示(Rapid Serial Visual Presentation)(RSVP)と呼ばれる。このレートは、高速の一連の視覚提示においてオーバーラップする反応(overlapping responses)に対処できるように選択されることが望ましい。本実施形態に適した代表的な提示レートは、約2Hz~約20Hz、約2Hz~約15Hz、約2Hz~約10Hz、約5Hz~約20Hz、約5Hz~約15Hz、あるいは、約5Hz~約10Hzである。
【0063】
神経生理学的信号は、例えば脳電図(electroencephalogram)(EEG)信号又は脳磁図(magnetoencephalogram)(MEG)信号などの脳造影図(encephalogram)(EG)信号であることが望ましい。その他のタイプの信号も考えられるが、本発明者は、EEG信号が望ましいことを確認した。
【0064】
EEG信号は、多数の電極(例えば、少なくとも4個、少なくとも16個、少なくとも32個、あるいは、少なくとも64個の電極)から、任意選択的に且つ望ましくは同時に、また、任意選択的に且つ望ましくは十分に高い時間分解能で収集されることが望ましい。本発明の一部の実施形態において、信号は、少なくとも150Hz、少なくとも200Hz、あるいは、少なくとも250Hz、例えば約256Hzのサンプリングレートでサンプリングされる。任意選択的に、高周波数のエイリアシングを防止するために、ローパスフィルタが使用される。このローパスフィルタについての代表的なカットオフ周波数は、限定はしないが、約51Hzである。
【0065】
神経生理学的信号がEEG信号である場合、以下の周波数帯域のうちの1つ以上が規定でき、即ち、デルタ帯域(代表的には約1Hz~約4Hz)、シータ帯域(代表的には約3~約8Hz)、アルファ帯域(代表的には約7~約13Hz)、低ベータ帯域(代表的には約12~約18Hz)、ベータ帯域(代表的には約17~約23Hz)、及び、高ベータ帯域(代表的には約22~約30Hz)となる。また、より高い周波数帯域、例えば、限定はしないが、ガンマ帯域(代表的には約30~約80Hz)も考えられる。
【0066】
電極は、以下の位置のうちの1つ以上に、任意選択的に且つ望ましくは全てに、配置でき、即ち、2つが乳様突起に、2つの水平EOGチャンネルが左右の目の外側眼角に、2つの垂直EOGチャンネルの一方が右目の下方に他方が右目の上方に、及び、1つのチャンネルが鼻の先端部に、配置される。
【0067】
本方法は16に進み、そこで神経生理学的信号が処理されて、観察者によるターゲットの検出を示す神経生理学的事象が識別される。一部の実施形態に従えば、観察者には、画像内で識別されるべきターゲットに関するアプリオリの知識(a priori knowledge)が提供される。
【0068】
例えば、観察者にターゲットを表す刺激を提示でき、そして、観察者にターゲットを記憶するように依頼できる。このターゲットを表す刺激は、限定はしないが、視覚刺激(例えば、ターゲットの画像)、テキスト刺激(例えば、ターゲットの記述表現)、聴覚刺激(例えば、ターゲットの口述表現)、及び、嗅覚刺激(例えば、ターゲットの匂いに似た匂いのするサンプル)を含む任意のタイプのものであり得る。観察者が、ターゲットに対して補完的である刺激を提示される実施形態も考えられる。例えば、観察者に対してあるオブジェクトを記憶するように要求でき、その場合、そのターゲットはターゲット以外の任意のものとして定義されている。この補完的な刺激は、上述のタイプのいずれかのものであってもよい。
【0069】
処理16は、複数の態様で実施できる。以下、神経生理学的信号における神経生理学的事象を識別するために使用できるいくつかの技術を説明する。
【0070】
この処理には、通常、信号からデジタルデータを生成するデジタル化行程が含まれている。これらのデータは代表的には時空間行列(spatiotemporal matrix)として配列され、その空間次元(spatial dimension)は観察者の頭皮上の電極位置に対応し、時間次元(temporal dimension)は時間軸を複数の時点又はエポック(epochs)に離散化したものであり、それらの時点又はエポックは、オーバーラップされていても、されていなくてもよい。次に、データを次元削減行程にかけて、データをより低い次元空間にマッピングできる。この処理は、任意選択的に、また、必ずではなく、ターゲット検出に関連する周波数帯域に基づいていてもよい。具体的には、この処理は、主にP300EEG波に基づいていてもよい。
【0071】
この処理は、望ましくは、自動的であり、トレーニングデータセットからの教師付き又は教師なし学習に基づくことができる。ターゲット検出事象を識別するのに有用な学習技術には、限定はしないが、共通空間パターン(Common Spatial Patterns)(CSP)、自己回帰モデル(autoregressive models)(AR)及び主成分分析(Principal Component Analysis)(PCA)が含まれる。CSPは、一方のクラスの分散を最大化し、他方のクラスの分散を最小化することによって、2つのクラスを判別するための空間的重みを抽出する。ARは、その代わりに、判別情報を含み得る信号中の、空間的ではなく、時間的な相関に着目している。判別AR係数は、線形分類器を使用して選択できる。
【0072】
PCAは、特に、教師なし学習に有用である。PCAは、データを、新しい、代表的には非相関の、空間にマッピングし、そこでは、軸に沿った射影済みデータサンプルの分散によって、それらの軸が順序付けられ、分散の大部分を反映する軸のみが維持される。その結果、元のデータに関する最大限の情報を保持しながらも、効果的な次元削減を実現する、データの新しい表現が得られる。
【0073】
ターゲット検出事象を識別するのに有用であるもう一つの方法は、空間的独立成分分析(spatial Independent Component Analysis)(ICA)を採用して1組の空間的重みを抽出し、最大限独立した時空間的ソース(spatial-temporal sources)を取得する。独立した時間-周波数成分についてのスペクトル重みを学習するために、並列ICAステージが周波数領域で実行される。PCAは、データの次元を減らすために、空間ソースとスペクトルソースで別々に使用できる。各々の特徴組は、フィッシャー線形判別(Fisher Linear Discriminants)(FLD)を個別に使用して分類することができ、次に、任意選択的に且つ望ましくは、ナイーブベイズ融合(naive Bayes fusion)を使用して、事後確率(posterior probabilities)の乗算によって、組み合わせることができる。
【0074】
更にもう1つの技術は、時間軸と空間軸の両方で事象関連データの双線形空間-時間射影(bilinear spatial-temporal projection)を使用する。これらの射影は、多くの態様で実施できる。空間的射影は、例えば、下に在るソース空間への信号の線形変換として、あるいは、ICAとして、実施できる。時間的射影は、フィルタとして機能できる。双対射影(dual projections)は、単一試行データ行列のオーバーラップしない時間窓において実施でき、その結果、窓ごとのスコアを表すスカラ(scalar)が得られる。窓のスコアを合計して又は分類して、単一試行全体についての分類スコアを得ることができる。更に、この技術の選択によって、射影行列の構造に対する付加的な制約をサポートできる。1つの選択肢は、例えば、各々のチャンネルについて個別に最適な時間窓を学習し、次いで空間項(spatial terms)をトレーニングすることである。
【0075】
本発明の種々の代表的な実施形態において、本方法は、神経生理学的信号に対して空間的被重み付けフィッシャー線形判別(Spatially Weighted Fisher Linear Discriminant)(SWFLD)分類器を使用する。この分類器は、以下の動作の少なくとも一部を実行することによって得ることができる。時点を独立して分類して、判別重みの時空間行列を計算できる。次に、この行列を用いて、各々の時空間点における判別重みによって元の時空間行列を拡張することによって、空間的に重み付けされた行列を得ることができる。
【0076】
SWFLDは、PCAによって補足されることが望ましい。これらの実施形態において、PCAは、任意選択的に且つ望ましくは、時間領域において、各々の空間チャンネルに対して別々に且つ独立して、適用される。これによって、時系列データが、成分の線形結合として表される。PCAは、任意選択的に且つ望ましくは、空間的に重み付けされた行列の各々の行ベクトルに対しても、独立して適用される。PCAのこれら2つの別々の適用によって射影行列を得て、これを用いて各々のチャンネルの次元を削減することによって、次元が削減されたデータ行列を得ることができる。
【0077】
次に、次元が削減されたこの行列の行を連結して、特徴表現ベクトル(feature representation vector)を得ることができ、このベクトルは、信号の、時間的に近似され空間的に重み付けされた活動状態を表している。次に、FLD分類器を特徴ベクトルについてトレーニングして、時空間行列を2つのクラスのうちの一方に分類できる。本実施形態において、1つのクラスはターゲット識別事象に対応し、もう1つのクラスはその他の事象に対応する。本発明の一部の実施形態に従うSWFLD分類器に関する更なる詳細は、後述の例(Examples)の欄で説明する。
【0078】
本発明の種々の代表的な実施形態において、本方法は、神経生理学的信号に対してニューラルネットワーク分類器、より望ましくは、畳み込みニューラルネットワーク(convolutional neural network)(CNN)分類器を使用する。これらの実施形態において、CNNは、信号を時空間行列として受信し、提示された視覚刺激がターゲットである確率を推定する、代表的には[0,1]の範囲内のスコアを生成する。任意選択的に且つ望ましくは、ロジスティック回帰コスト関数(logistic regression cost function)を最小にするために、確率的勾配降下法(stochastic gradient descent)(SGD)を使用してネットワークをトレーニングできる。望ましい実施形態において、CNNは、神経生理学的信号を特徴付ける複数の時点の各々について空間フィルタリングを適用する第1の畳み込み層と、第1の畳み込み層によって提供される出力に時間フィルタリングを適用する第2の畳み込み層と、任意選択的に且つ望ましくは、第2の畳み込み層によって提供される出力に時間フィルタリングを適用する第3の畳み込み層と、を備えている。第2及び第3の畳み込み層は、代表的には、第1の層によって学習された空間マップの振幅の変化を表す、信号内の時間的パターンを学習し、従って、これは、それらが分類精度を向上させるので、有利である。
【0079】
CNNは2つ以上の完全結合層も備えることができ、これらの完全結合層の各々は、それぞれの前の層によって提供される出力の非線形結合(non-linear combination)を提供する。第1の完全結合層は、第3の畳み込み層(第3の畳み込み層が使用される場合)又は第2の畳み込み層(望ましくは、また、必ずではないが、第3の畳み込み層が使用されない場合)からの出力を受信することが望ましい。第2の完全結合層は、第1の完全結合層からの出力を受信することが望ましい。任意選択的に、CNNは、次元を削減するために、2つ以上のプーリング層(pooling layers)、例えばマックスプーリング層(max-pooling layers)を備えている。望ましいCNNに関する更なる詳細は、後述の例(Examples)の欄で説明する。
【0080】
処理16には、任意選択的に且つ望ましくは、ターゲットが画像中に存在する確率、あるいは、提示された画像内のオブジェクトとターゲットとの間の類似性、を表すスコアを計算することが含まれる。このスコアは、それぞれの分類器を使用して計算される。例えば、分類器がSWFLD分類器である場合、フィッシャースコア(Fisher score)を計算でき、分類器がCNN分類器である場合、このスコアを、CNNのロジスティック回帰層の出力とすることができる。
【0081】
望ましい実施形態において、本方法は、計算されたスコアを正規化するための観察者固有スコア正規化関数を使用する。そのような観察者固有スコア正規化関数は、代表的には、トレーニング段階で準備され、そのトレーニング段階において、トレーニングデータセットの画像を使用して、同じ観察者に対して本方法が繰り返し実行され、その際、データセットの各々の画像が、ターゲットを含むか、あるいは、含まないかに分類される。この観察者固有スコア正規化関数は、ターゲット固有にすることもでき、その場合、トレーニング段階が、検出されるべき各々のターゲットについて繰り返される。しかしながら、これは、必ずしもそうである必要はなく、その理由は、一部の用途について、各々のターゲットについてトレーニングを繰り返す必要がないこともあり、その理由は、特に相異なるターゲットが同じカテゴリ(例えば、相異なる車両、相異なる顔など)に属する場合、その相異なるターゲットを検出する観察者の能力が同様であることもあるからである。トレーニング段階中に、第1のスコア分布関数(score distribution function)が、ターゲットを含むと分類されたターゲットについて計算され、第2のスコア分布関数が、ターゲットを含まないと分類されたターゲットについて計算される。トレーニング段階で計算されたスコア分布関数は、次に、実施段階で提供されるスコアを正規化するために使用される。例えば、第1のスコア分布関数をg
1で表し、第2のスコア分布関数をg
0で表すと、実施段階で分類器によって提供されるスコアsを正規化して、
【数1】
として定義される正規化済みスコア
【数2】
を得ることができる。
【0082】
第1及び第2のスコア分布関数は、スコア空間内で所定の形状を有することができる。代表的には、この形状は、局所的(localized)である。第1及び第2のスコア分布関数としての使用に適したタイプの分布関数の代表例には、ガウス関数(Gaussian)、ローレンツ関数(Lorenzian)及び変形ベッセル関数(modified Bessel function)が含まれるが、これらには限定されない。
【0083】
正規化済みスコアを所定の信頼性閾値と比較して、識別された検出事象の信頼性のレベルを特定できる。正規化済みのものが所定の信頼性閾値を下回る場合、本方法は、任意選択的に且つ望ましくは、14にループバック(loop back)し、それぞれの画像領域又は画像領域群を観察者に再提示し、正規化済みスコアを再計算する。
【0084】
一部の実施形態において、2つの相異なるタイプの分類器が使用されて、個々の分類器によって提供されたスコアを重み付けするスコアが計算される。例えば、本方法は、SWFLD分類器を適用してこのSWFLD分類器に基づいてSWFLD分類スコアを計算し、CNN分類器を適用してこのCNN分類器に基づいてCNN分類スコアを計算し、そして、これらのSWFLDスコアとCNNスコアとを組み合わせることができる。任意選択的に且つ望ましくは、この2つのスコアの組み合わせの前に、これらの2つのスコアを同様のスケールにするスコアスケール変更(score rescaling)を実施してもよい。第1及び第2のスコア分布関数を用いた前述の正規化は、スコアをスケール変更することにも使用できる。
【0085】
本発明の一部の実施形態において、本方法は、神経生理学的信号を処理して目のまばたきを識別する。これらの実施形態において、観察者に対する画像領域又は画像領域群の提示中に目のまばたきが明確に識別された場合、本方法は、任意選択的に且つ望ましくは、14にループバックし、それぞれの画像領域又は画像領域群を観察者に再提示する。目のまばたきは、当該技術分野において既知の任意の技術、例えば特許文献3及び特許文献4に開示された技術、を使用して識別でき、その特許文献3及び特許文献4の内容を参考として本明細書に記載する。
【0086】
神経生理学的事象の識別に続いて、本方法は17に進み、そこで、画像分類ニューラルネットワークが、神経生理学的事象の識別に基づいて、画像内のターゲットを識別するようにトレーニングされる。これは、ラベル又はスコアを画像に割り当てて、その画像を画像分類ニューラルネットワークにフィードバックすることによって行うことができる。このラベル又はスコアは、2値であってもよく、その場合、画像がターゲットを含んでいると識別されたときに、1つの値(例えば「1」)を取り、画像がターゲットを含んでいないと識別されたときに、もう1つの値(例えば「0」)を取ることができる。また、このラベル又はスコアは、2値でなくてもよく、その場合、画像がターゲットを含んでいる確度、あるいは、ターゲットと画像内のオブジェクトとの間の類似性、を示す離散値又は連続値の範囲内の値を取ることができる。このスコアは、例えば、16で計算されたスコアであってもよい。
【0087】
画像分類ニューラルネットワークが同じ画像について既にトレーニングされている場合、本方法は、そのトレーニングを更新する。必要に応じて、トレーニング又は再トレーニングを画像分類ニューラルネットワークの1つ又は複数の層に適用できる。ディープネットワーク(deep networks)については、トレーニング又は再トレーニングは、あまり一般的ではなく且つより細部特有の特徴を含む最後の隠れ層のうちの1つ又は複数の層に適用できる。任意選択的に、トレーニング又は再トレーニングは、画像分類ニューラルネットワークの出力層に適用できる。本発明の一部の実施形態において、トレーニング又は再トレーニングは、ネットワークの全ての層に適用される。
【0088】
本方法は、任意選択的に且つ望ましくは、18に進み、そこで、トレーニング済み画像分類ニューラルネットワークが、11で受信された画像の少なくとも一部に、より望ましくは、全てに適用されて、それらの内で、ターゲットによって占められていると疑われる候補画像を検出する。任意選択的に、このネットワークによる検出は、次に、画像を再定義するために使用される。例えば、ターゲットによって占められていると疑われる候補画像とターゲットによって占められていないと疑われる画像との比が所定の比の区間(例えば、1と10の間)内になるように、画像の数を減らすことができる。再定義された1組の画像のうちの少なくとも1つの画像は、任意選択的に且つ望ましくは、トレーニング済み画像分類ニューラルネットワークによって検出された候補画像である。次に、本方法は、13又は14にループバックして、ここで説明した動作の少なくとも一部を繰り返すことができ、従って、画像分類ニューラルネットワークが、神経生理学的信号の使用によって反復的にトレーニングされる。画像が、これらよりも大きな1つの入力画像の複数の画像タイルである場合、本方法は、13又は14の代わりに、12にループバックでき、従って、再定義が、このより大きな入力画像を複数の画像に再タイリングすることによって、実行できる。
【0089】
本方法の任意の実行段階に続いて、例えば17に続いて、本方法は19に進むことができ、そこで、画像分類ニューラルネットワークが、コンピュータ可読記憶媒体に記憶される。本方法は、20で終了する。
【0090】
方法10を使用する利点は、視覚刺激を処理する脳の能力が、人工ニューラルネットワークをトレーニングするために、自動的に使用されることである。これは、著しく、トレーニングされると画像を正確に分類する人工ニューラルネットワークの能力を向上させ、トレーニング時間を短縮し、従って、必要とされるコンピュータ資源も軽減する。
【0091】
図2は、本実施形態の方法及びシステムを使用してトレーニングすることができ、(例えば、本実施形態の方法及びシステムを使用して)トレーニングされると、画像の分類に少なくとも部分的に使用できる画像分類ニューラルネットワーク30の概略的な説明図である。ニューラルネットワーク30は、神経生理学的データ34を受信して処理するように構成された第1のニューラルサブネットワーク32と、画像38を受信して処理するように構成された第2のニューラルサブネットワーク36と、第1のニューラルサブネットワーク32及び第2のニューラルサブネットワーク36の両方からの出力を受信して組み合わせるニューラルネットワーク層42を有する共有サブネットワーク40と、を備えていることが望ましい。共有サブネットワーク40は、1つ又は複数の追加のニューラルネットワーク層、例えば、1つ又は複数の隠れ層44及び出力層46を有することもできる。ニューラルネットワーク層42は、2つのサブネットワーク32及び36の出力の特徴を連結する連結層であることが望ましい。共有サブネットワーク40の隠れ層44は完全結合層(fully connected layer)とすることができ、出力層はソフトマックス層(softmax layer)とすることができる。サブネットワーク32及び36は、任意選択的に且つ望ましくは、教師付き機械学習(supervised machine learning)用に構成されている。
【0092】
サブネットワーク36のトレーニング中に、ニューラルサブネットワーク32の出力は、任意選択的に且つ望ましくは、サブネットワーク36に、フィードバック58として、供給できる。例えば、サブネットワーク36の出力層が、サブネットワーク32によって処理される特定の画像について、2値又は非2値のスコアを提供する場合、そのスコアを使用してその特定の画像をラベル付けすることができる。その画像及びそれに対応付けられたラベルは、サブネットワーク36に供給することができ、それによってサブネットワーク36の教師付き学習又は半教師付き学習(semi-supervised learning)を容易にすることができる。
【0093】
ネットワーク30は、任意選択的に且つ望ましくは、オートエンコーダサブネットワーク48を備えており、これは、画像38を受信して、その画像から特徴を抽出して、それらをサブネットワーク36に、入力として、提供する。本発明の種々の代表的な実施形態において、オートエンコーダサブネットワーク48は、ネットワーク30のトレーニング中に使用されて、ネットワーク30の後の画像分類には使用されない。サブネットワーク32及び36とは異なり、オートエンコーダサブネットワーク48は、教師なし機械学習(unsupervised machine learning)用に構成されていることが望ましい。オートエンコーダサブネットワーク48を備えていることの利点は、それが、サブネットワーク36のより良いトレーニングを可能にすることである。
【0094】
ネットワーク30のトレーニングの初期段階において、オートエンコーダサブネットワーク48は、任意選択的に且つ望ましくは、ターゲットを含まないものとしてラベル付けされた画像を供給される。オートエンコーダサブネットワーク48は、それらの画像から非ターゲットの特徴を抽出する。これは、ターゲットの形状が未知であるシナリオをシミュレートしている。オートエンコーダサブネットワーク48は、非ターゲットを含んでいる画像をモデル化する特徴を学習する。トレーニングの後期段階において、オートエンコーダサブネットワーク48に、任意選択的に且つ望ましくは、更なる画像を供給することができ、これらの更なる画像には、ラベルに対応付けられていない画像(即ち、それらがターゲットを含んでいるか否かが分からない画像)、及び/又は、2値又は非2値のラベル又はスコアに対応付けられている画像、が含まれていてもよい。
【0095】
オートエンコーダサブネットワーク48は、入力層及び出力層に加えて、2組以上の並列特徴マップ層(parallel feature map layers)と1つ又は複数の完全結合層とを有するCNNとすることができる。1組又は複数組の並列特徴マップ層は、畳み込みを実施して、完全結合層に特徴のベクトルを供給できる。完全結合層は、任意選択的に且つ望ましくは、特徴マップ層よりもサイズ(ニューロン要素(neuron elements)の数)が小さく、そして、並列特徴マップ層から受信された特徴を符号化する役割りを果たすことができる。1つ又は複数のその他の組の並列特徴マップ層が、完全結合層から符号化済み特徴を受信して、符号化済み特徴に対して逆畳み込み(deconvolution)を実施することによって特徴ベクトルを再構成又は近似的に再構成できる。これらの特徴マップ層のサイズは、任意選択的に且つ望ましくは、完全結合層のサイズよりも大きく、そして、望ましくは、再構成された特徴ベクトルの次元が画像38から生成された特徴ベクトルと同じ又はほぼ同じになるように選択される。出力層は、任意選択的に且つ望ましくは、再構成された特徴ベクトルを連結して、入力画像38のサイズを復元する。
【0096】
オートエンコーダサブネットワーク48において、畳み込みカーネルを使用して入力層の出力を並列特徴マップ層組に供給できる。任意選択的に及び望ましくは、ダウンサンプリングカーネル(down-sampling kernel)(例えば、マックスプーリングカーネル(max pooling kernel))を、並列特徴マップ層組相互間で、及び、最後の組の並列特徴マップ層と出力層との間でも、使用できる。任意選択的に且つ望ましくは、アップサンプリングカーネル(up-sampling kernel)を使用して完全結合層の出力を並列特徴マップ層組のうちの1つに供給できる。
【0097】
第2のニューラルサブネットワーク36は、入力層、1組又は複数組の並列特徴マップ層、及び、1つ又は複数の出力層を有するCNNとすることができる。畳み込みカーネルを使用して入力層から特徴を受信して1組の並列特徴マップ層に特徴を提供することができ、そして、任意選択的に且つ望ましくは、ダウンサンプリングカーネル(例えば、マックスプーリングカーネル)を、並列特徴マップ層組相互間で、使用できる。(サブネットワーク40の層42において連結されている)出力層は、任意選択的に且つ望ましくは、完全結合層であり、任意選択的に且つ望ましくは、最後の組の並列特徴マップ層から特徴を受信する。
【0098】
第1のニューラルサブネットワーク32は、入力層、1つ又は複数の組の並列特徴マップ層、及び、1つ又は複数の出力層を有するCNNとすることができる。畳み込みカーネル及びダウンサンプリングカーネル(例えば、マックスプーリングカーネル)を、並列特徴マップ層組相互間で交互に使用できる。任意選択的に且つ望ましくは、畳み込みカーネルを、入力層と最初の組の並列特徴マップ層との間で、使用する。
【0099】
サブネットワーク40がサブネットワーク32及び36の出力を組み合わせるが、本発明の発明者は、サブネットワーク32及び36の少なくとも一方の出力を、それぞれの出力が、共有サブネットワーク40によって組み合わされるが、別途でも処理されるように、分割することも有益であることを確認した。これは、追加のニューラルネットワーク層を用いて実施でき、あるいは、それぞれのサブネットワークの出力を受信するがその他のサブネットワークの出力を受信しない追加のサブネットワークを用いて実施できる。
図2には、サブネットワーク32の出力を受信する第1の追加のニューラルネットワーク層52と、サブネットワーク36の出力を受信する第2のニューラルネットワーク層56と、が示されている。これらの追加の層52及び56の各々は、それぞれのサブネットワークの出力ベクトルを使用して、スコアを別々に計算できる。これらの実施形態の利点は、それらが2つのネットワークの検出精度を区別することを可能にすることである。例えば、1つの画像に、層52によって計算された第1の検出スコアと、層56によって計算された第2の検出スコアと、を割り当てることができる。これらのスコアは、例えば、重み付け合計(weighted sum)を使用して、比較する又は組み合すことができる。
【0100】
サブネットワーク32を使用せずに、出力層56を含むサブネットワーク48及び30を使用して、トレーニングサブセットの画像を生成できる。これは、トレーニングセット内の画像の数が多く、人間の観察者に提示する前に最初に機械(例えば、サブネットワーク48及び30と出力層56とを含むがサブネットワーク32を含まないネットワーク)によって画像を分類することが望ましい場合に、特に有用である。これらの実施形態において、層56の出力を使用して、トレーニングサブセットの画像を最初に選択できる、例えば、ターゲットを含むと疑われる画像のみを最初に選択できる、あるいは、ターゲットを含むと疑われる画像とターゲットを含まないと疑われる画像との両方を、これら相互間の所定の比率で、最初に選択できる。
【0101】
サブネットワーク48及び30と出力層56とを含むがサブネットワーク32を含まないネットワークの使用によってトレーニングサブセットの画像が得られると、オートエンコーダサブネットワーク48を使用せずに、サブネットワーク32及び36の両方を使用して、1つ又は複数のトレーニング反復を実行できる。これらの反復において、層52の出力は、オートエンコーダサブネットワーク48を迂回して、サブネットワーク36に供給される。
【0102】
図3は、本発明の一部の実施形態に従う、画像分類に適した方法のフローチャート図である。本方法は、60で始まり、61に進み、そこで1つ又は複数の画像が受信される。この受信された画像が大きい場合、画像は、任意選択的に且つ望ましくは、複数のタイルにタイリングされ、その各々が、既に更に詳しく説明したように、個別の入力画像として、本方法によって使用される。あるいは、61において、本方法は複数の入力画像を受信することができる。また、本方法が、複数の画像を受信し、これらの画像のうちの1つ又は複数又は各々をタイリングする実施形態も考えられる。
【0103】
本方法は、62に進み、そこで、例えば、限定はしないが、ネットワーク30のようなトレーニング済み画像分類ニューラルネットワークを各々の画像に適用して、ターゲットによって占められていると疑われる候補画像を検出する。本方法は、任意選択的に且つ望ましくは、既に更に詳しく説明したように、63に進み、そこで、観察者に各々の候補画像を視覚刺激として提示し、64に進み、そこで、観察者の脳から神経生理学的信号を収集し、65に進み、そこで、神経生理学的信号を処理して、観察者によるターゲットの検出を示す神経生理学的事象を識別する。次に、本方法は、66に進むことができ、そこで、画像内のターゲットの存在を、少なくとも部分的に神経生理学的事象の識別に基づいて、判定する。この判定66は2値化することができ、その場合、画像には、その画像がターゲットを含むと識別されたときに1つの値(例えば、「1」)を取り、その画像がターゲットを含まないと識別されたときにはもう1つの値(例えば、「0」)を取り得る2値スコアが割り当てられる。あるいは、判定66は非2値であってもよく、その場合、画像には、その画像がターゲットを含んでいる確度、あるいは、ターゲットとその画像内のオブジェクトとの間の類似性、を示す離散値又は連続値の範囲内の値を取り得る非2値スコアが割り当てられる。このスコアは、例えば、既に更に詳しく説明したように、神経生理学的信号の処理中に計算されるスコアであってもよい。
【0104】
本方法は、67で終了する。
【0105】
方法60を使用することの利点は、ニューラルネットワークによって事前に候補画像として識別された画像だけが観察者に提示されることである。これは、著しく、検出精度を向上させ、処理時間を短縮し、観察者の疲労を軽減する。
【0106】
次に、
図4を参照すると、これは、本発明の一部の実施形態に従うシステム130の概略的な説明図である。システム130は、データプロセッサ132、このデータプロセッサ132と通信するディスプレイ160、及び、神経生理学的信号収集システム146を備えている。システム130は、任意の動作、例えば、上述した方法の全動作のうちの任意の動作を実行するために使用できる。システム130は、据え置き型のターゲット識別システムであってもよく、あるいは、携帯型のシステムであるか、又は、これと組み合わせることができ、例えば、限定はしないが、拡張現実システムの仮想現実システムであってもよい。
【0107】
神経生理学的信号収集システム146は、任意選択的に且つ望ましくは、132と通信し、画像148内のターゲット153を検出するための視覚刺激として画像148を提示された観察者の脳から神経生理学的信号を収集するように構成されている。
【0108】
データプロセッサ132は、代表的には、入出力(I/O)回路134と、中央処理装置(CPU)、例えばマイクロプロセッサのようなデータ処理回路136と、代表的には揮発性メモリと不揮発性メモリの両方を含むメモリ138と、を備えている。I/O回路134は、その他のCPU136及びその他の装置又はシステム130の外部のネットワークとの間で、適切に構造化された形態の情報を、通信するために使用される。CPU136は、I/O回路134及びメモリ138と通信する。これらの構成要素は、ほとんどの汎用コンピュータに一般的に見られるものとすることができ、それ自体既知である。
【0109】
ディスプレイ装置160は、代表的にはI/O回路134を介して、データプロセッサ132と通信するように示されている。データプロセッサ132は、CPU136によって生成されたグラフィック及び/又はテキスト出力画像をディスプレイ装置160に送出する。キーボード142も、代表的にはI/O回路134を介してデータプロセッサ132と通信できる。
【0110】
また、任意選択的に且つ望ましくは、本発明の一部の実施形態に従って使用されてもよいリモートコンピュータ150も示されており、これは、同様に、ハードウェアプロセッサ152、I/O回路154、ハードウェアCPU156、ハードウェアメモリ158を備えていてもよい。任意選択的に、リモートコンピュータ160は、グラフィカルユーザインタフェース166を備えていてもよい。システム130及びコンピュータ150のI/O回路134と154は、有線又は無線通信を介して、互いに情報を伝達するトランシーバとして動作できる。例えば、システム130及びコンピュータ150は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)又はインターネットなどのネットワーク140を介して通信できる。一部の実施形態において、プロセッサ132及び152のいずれも、クラウドコンピューティング設備のクラウドコンピューティングリソースの一部とすることができる。
【0111】
クライアント130及びサーバ150のコンピュータは、それぞれ、1つ又は複数のコンピュータ可読記憶媒体144、164を更に備えていてもよい。媒体144及び164は、本明細書において更に詳しく説明した選択済み動作を実行するためのコンピュータコード命令を記憶する非一時的記憶媒体であることが望ましく、プロセッサ132及び152は、これらのコード命令を実行する。これらのコード命令は、プロセッサ132及び152のそれぞれの実行メモリ138及び158にそれぞれのコード命令をロードすることによって、実行できる。記憶媒体144及び164の各々は、それぞれのプロセッサによって読み取られると、そのプロセッサに、本明細書において説明した方法を、実行させるプログラム命令を記憶できる。
【0112】
神経生理学的信号収集システム144は、任意選択的に且つ望ましくは、データプロセッサ132と通信し、既に更に詳しく説明したように、観察者162の脳から神経生理学的信号を収集するように構成されている。
【0113】
本発明の一部の実施形態において、システム130のデータプロセッサ132は、本明細書に記載の方法を実行するように構成されている。本方法によって使用される画像は、プロセッサ132によって記憶装置144から取り出すことができ、あるいは、ネットワーク140を介してコンピュータ150からプロセッサ152に送信できる。1つ又は複数の画像がプロセッサ132によって記憶装置144から取り出され、1つ又は複数の画像がネットワーク140を介してコンピュータ150からプロセッサ152に送信される実施形態も考えられる。例えば、トレーニングセットを形成する画像を記憶装置144から取り出すことができ、本実施形態の方法によって分類されるべき画像を、ネットワーク140を介して、送信できる。本画像分類方法が画像内のターゲットの存在を判定すると、検出スコアをシステム130からコンピュータ150に送信でき、それによって、その検出スコア及び、任意選択的に且つ望ましくは、画像もGUI166上に表示できる。
【0114】
本明細書で使用する「約」は、±10%または±5%を指す。
【0115】
「代表的な(exemplary)」という語句は、本明細書では「一例、具体例あるいは実例として役立つ」という意味で使用されている。「代表的な」として説明された実施形態は、必ずしもその他の実施形態よりも望ましい又は有利であると解釈されるべきではなく、及び/又は、その他の実施形態から得られる特徴の組み込みを除外するものではない。
【0116】
「任意選択的に(optionally)」という語句は、本明細書では、「一部の実施形態においては提供され、その他の実施形態においては提供されない」という意味で使用されている。本発明の任意の特定の実施形態には、複数の「任意選択的な(optional)」特徴が、互いに対立・矛盾しなければ、含まれ得る。
【0117】
「具備する(comprises)」、「具備している(comprising)」、「含む(includes)」、「含む(including)」、「有する(having)」という用語およびその活用形は、「限定されるものではないが、含む(including but not limited to)」を意味する。
【0118】
「からなる」という用語は、「含み、限定される」ことを意味する。
【0119】
「から実質的になる」という用語は、組成物、方法または構造が追加の成分、工程および/または部分を含み得ることを意味する。但しこれは、追加の成分、工程および/または部分が、請求項に記載の組成物、方法または構造の基本的かつ新規な特性を実質的に変更しない場合に限られる。
【0120】
本明細書において、単数形を表す「a」、「an」および「the」は、文脈が明らかに他を示さない限り、複数をも対象とする。例えば、「化合物(a compound)」または「少なくとも1種の化合物」には、複数の化合物が含まれ、それらの混合物をも含み得る。
【0121】
本願全体を通して、本発明のさまざまな実施形態は、範囲形式にて示され得る。範囲形式での記載は、単に利便性および簡潔さのためであり、本発明の範囲の柔軟性を欠く制限ではないことを理解されたい。したがって、範囲の記載は、可能な下位の範囲の全部、およびその範囲内の個々の数値を特異的に開示していると考えるべきである。例えば、1~6といった範囲の記載は、1~3、1~4、1~5、2~4、2~6、3~6等の部分範囲のみならず、その範囲内の個々の数値、例えば1、2、3、4、5および6も具体的に開示するものとする。これは、範囲の大きさに関わらず適用される。
【0122】
本明細書において数値範囲を示す場合、それは常に示す範囲内の任意の引用数(分数または整数)を含むことを意図する。第1の指示数と第2の指示数「との間の範囲」という表現と、第1の指示数「から」第2の指示数「までの範囲」という表現は、本明細書で代替可能に使用され、第1の指示数および第2の指示数と、それらの間の分数および整数の全部を含むことを意図する。
【0123】
明確さのために別個の実施形態に関連して記載した本発明の所定の特徴はまた、1つの実施形態において、これら特徴を組み合わせて提供され得ることを理解されたい。逆に、簡潔さのために1つの実施形態に関連して記載した本発明の複数の特徴はまた、別々に、または任意の好適な部分的な組み合わせ、または適当な他の記載された実施形態に対しても提供され得る。さまざまな実施形態に関連して記載される所定の特徴は、その要素なしでは特定の実施形態が動作不能でない限り、その実施形態の必須要件であると捉えてはならない。
【0124】
上述したように、本明細書に記載され、特許請求の範囲に請求される本発明のさまざまな実施形態および態様は、以下の実施例によって実験的に支持されるものである。
【0125】
例(EXAMPLES)
ここで、上記の記載と共に本発明を限定することなく説明する以下の実施例に参照する。
【0126】
例1(Example 1)
代表的な実践態様(Representative Implementation)
この例は、本実施形態の技術の代表的な実践態様を説明する。この実践態様は、本方法によってタイリングされる大きな入力画像の場合について、説明する。本明細書に記載された詳細情報を提供された当業者は、画像組の個々の画像の場合についても、この技術をどのように実践するかが分かるであろう。
【0127】
空中画像又は広い領域をカバーするカメラから得られる高解像度画像のような大きな画像の場合において、任意選択的に且つ望ましくは、経験豊富な人間の観察者に対して、潜在的なターゲット又は対象オブジェクトを含んでいる可能性のある画像の一部分を、望ましくはRSVPモードで、提示し、それによって、観察者の能力を上げることができる。本発明の種々の代表的な実施形態において、その画像のその他の部分は、観察者に提示されない。
【0128】
本発明の一部の実施形態は反復プロセスを提供し、これは、視覚オブジェクト認識ニューラルネットワークの出力を使用して人間の観察者に示される画像選択の手順を簡素化し、人間の観察者の分類の出力を使用してニューラルネットワークのトレーニングを向上させる。
【0129】
代表的なフレームワークには、以下の動作のうちの1つ又は複数の動作が含まれる。
【0130】
1.視覚オブジェクト認識についてトレーニング前のニューラルネットワークをトレーニングする、あるいは、使用する。このネットワークは、タスク内の対象オブジェクトに類似したオブジェクトを検出するようにトレーニングできる。
【0131】
2.トレーニング済みオブジェクト認識ニューラルネットワークを使用して入力画像から特徴を抽出する。
【0132】
3.教師なし特徴学習用の追加のオートエンコーダ層を加えて入力画像をより良く表現する。
【0133】
4.任意選択的に且つ望ましくは、RSVPモードにおいて連続的な人間の観察(sequenced human observation)を可能にするようにサイズ設定されたN個の画像パッチから成るブロックを形成する。最初のブロックは、次の1つ又は複数の処理によって、形成できる。
【0134】
4.1.抽出された特徴を、K個のクラスタに、教師なしクラスタリング(unsupervised clustering)する。クラスタは、画像内に提示された相異なるタイプの複数のオブジェクトと一致し、これらのクラスタのうちの1つが、ターゲットに似た複数のオブジェクトである場合がある。次に、K個のクラスタをサンプリングして複数の画像から成るブロックを形成する、即ち、各々のクラスタからN個の表現物(representations)を選択して、それらからRSVPモードでの人間の観察に最適化された小さな画像パッチを再構成する。(例えば、オッドボールパラダイム(oddball paradigm)に従って)求められているターゲット検出ERP応答を引き出すために、非ターゲットに対するターゲットの比は、任意選択的に且つ望ましくは、約1~約10とする。従って、Kは、例えば約10になるように選択できる。最大のクラスタには、気を散らす特徴が含まれ得る。一部の実施形態において、このクラスタは、調べるデータの量を減らすために、除外される。
【0135】
4.2.N個のパッチをランダムにサンプリングする。
【0136】
4.3.ターゲット例が(例えば、基準画像の形態で)利用可能である場合、任意選択的に且つ望ましくは、トレーニングのためにデータ量を増加させるために基準画像を増補することによって(例えば、回転画像を作成することによって)初期ターゲットモデルを構築して、教師なしオートエンコーダを使用して基準画像を代表する特徴を学習する。次に、平均画像からの距離に基づいてN個の画像パッチを選択できる。
【0137】
5.1ブロックの画像を、任意選択的に且つ望ましくはRSVPモードで、人間の観察者に提示して、そして、各々の画像に分類スコアを割り当てて、単一試行についてのEEG応答を分類する。
【0138】
6.EEG応答によって分類された画像は、分類スコアに基づいてラベルを割り当てられ、そして、オブジェクト認識ニューラルネットワークにフィードバックされ、これによって、そのトレーニングが更新されるが、このプロセスは、ファインチューニング(fine-tuning)として知られている。ネットワークの全ての層、あるいは、あまり一般的ではなく且つより細部特有の特徴を含む後半の層のみ、をファインチューニングすることが可能である。
【0139】
7.所定の変換閾値が達成されるまで、段階2~6を数回反復して繰り返す。新たな反復ごとによって、人間の観察者に示されるように選択された画像は、任意選択的に且つ望ましくは、潜在的なターゲットをより正確に表す特徴に基づいている。
【0140】
図5は、本発明の一部の実施形態に従う代表的な実践態様を概略的に例示している。
【0141】
以下の例2及び例3には、
図1に示されたフレームワークを使用して、大きな衛星画像について、実行されたシミュレーションの結果が含まれている。EEG分類段階をシミュレートするためにラベルが導入された(上記段階6を参照されたい)。
【0142】
検出の精度及びトレーニングの効率は、任意選択的に且つ望ましくは、
図6に例示された画像分類用のマルチモーダルEEG画像ニューラルネットワーク(multimodal EEG-Image neural network)を使用して、向上させることができる。このネットワークは、任意選択的に且つ望ましくは、入力として、画像と、この画像についての脳の反応に対応する単一試行EEGデータとを受信する。このネットワークは、特徴レベル融合(feature-level fusion)を用いて、これらの入力を検出スコアに分類するようにトレーニングされる。具体的には、このネットワークは、各々のタイプのデータについて個別に特徴を学習し、その後、これらの特徴を最終層用に結合する。これによって、このネットワークは、両方のモダリティ(modalities)から得られる特徴を使用して検出スコアを提供でき、そして、例えば、それらのモダリティの一方が十分なサポートを有していないときを識別できる。
【0143】
分類されるべきターゲットは、未知のこともあれば、あるいは、変わることもある。このような場合、ネットワークの画像部分は、ターゲット画像についてトレーニングできない。この問題を解決するために、まず、教師なしオートエンコーダモデルを使用して、ターゲットを含まない画像のみについてネットワークをトレーニングする(「半教師付きネットワーク」)。このオートエンコーダモデルは、特徴から画像を再構成する方法を学習し、画像に関する適切な情報を表す特徴を生成する。次に、オートエンコーダによって抽出された特徴が、元の画像の代わりに、マルチモーダルネットワークへの入力として使用される。もう1つの入力は、ラベル付けされたEEGデータである。このネットワークは、任意選択的に且つ望ましくは、各々の入力に対して別々の層で始まり、各々の入力から得られる特徴を連結する層で続行して、そして最終分類層で終了する。以下の例2及び例3には、イメージデータについてのマルチモーダルネットワークの適用の結果が含まれている。
【0144】
例2
コンピュータシミュレーション
このフレームワークへの入力画像は、
図7に示された大きな空中画像であった。ターゲットは、人造の建物として定義した。入力画像には、合計101個のターゲットが含まれていた。
【0145】
図8Aは、入力画像を表す最初のマップを示している。黄色のシンボルはターゲットとして識別されたオブジェクトを表し、紫色のシンボルは非ターゲットとして識別されたオブジェクトを表している。
【0146】
図8Bは、1回目の反復後のマップを示している。ランダムに選択された観察者に提示されるべき画像の一部は、全画像数の約1.5%を構成し、クラスタリングによって選択された観察者に提示されるべき画像の一部は約10%であった。RSVPにおけるターゲット数は24であり、RSVPにおける非ターゲット数は276であった。
【0147】
図8Cは、2回目の反復後のマップを示している。ランダムに選択された観察者に提示されるべき画像の一部は、全画像数の約1.5%を構成し、クラスタリングによって選択された観察者に提示されるべき画像の一部は約10.2%であった。RSVPにおけるターゲット数は76であり、RSVPにおける非ターゲット数は224であった。
【0148】
図8Dは、3回目の反復後のマップを示している。ランダムに選択された観察者に提示されるべき画像の一部は、全画像数の約1.5%を構成し、クラスタリングによって選択された観察者に提示されるべき画像の一部は約10.19%であった。RSVPにおけるターゲット数は1であり、RSVPにおける非ターゲット数は299であった。
【0149】
検出されたターゲットの総数は、24(1回目の反復)+76(2回目の反復)+1(3回目の反復)=101であった。従って、3回の反復後に、この技術は、任意選択的に且つ望ましくは、100%の精度で、且つ、誤検出なしで、全てのターゲットを識別することができた。
【0150】
例3
オートエンコーダを用いたマルチモーダルネットワークの動作性能
動作性能を、以下、被験者A及び被験者Bと呼ぶ2人の被験者が関与した12の相異なるRSVPセッション(各々の被験者につき6セッション)について、評価した。タスクは、人造のオブジェクトを検出することであった。以下の表1は、各々のセッションについての動作性能をまとめたものである。
【0151】
【表1】
3つの追加の動作性能分析を行った。第1の追加の動作性能分析において、
図6に示されたEEGネットワークを評価し、第2の追加の動作性能分析において、
図6における画像ネットワークを評価し、第3の追加の動作性能分析において、
図6のEEGネットワークと画像ネットワークとの組み合わせを、オートエンコーダなしで、評価した。これらの3つの分析において、画像を、それがターゲットを含んでいるか、あるいは、含んでいないか、のどちらかとしてアプリオリ(a priori)にラベル付けし(2値ラベリング)、そして、その2値ラベルをそれぞれの教師付き学習用のネットワークに供給した。
【0152】
図9A~
図9Dは、
図6に示されたマルチモーダルネットワークの動作性能を、その他のネットワークの動作性能と、比較している。この例における分析されたネットワークの各々について、
図9Aは正確な分類のパーセンテージを表すヒストグラムを示し、
図9Bはヒットのパーセンテージを表すヒストグラムを示し、
図9Cは誤りアラームのパーセンテージを表すヒストグラムを示し、
図9Dは均衡精度を表すヒストグラムを示している。
図9A~
図9Dにおいて、EEGIMGAeNetと表示された結果は
図6に示されたオートエンコーダを有するマルチモーダルネットワークに対応しており、EegNetと表示された結果は
図6内のEEGネットワークに対応しており、ImgNetと表示された結果は
図6内の画像ネットワークに対応しており、EegImgNetと表示された結果は
図6のオートエンコーダなしのEEGネットワークと画像ネットワークとの組み合わせに対応している。
【0153】
本発明をその特定の実施形態との関連で説明したが、多数の代替、修正および変種が当業者には明らかであろう。したがって、そのような代替、修正および変種の全ては、添付の特許請求の範囲の趣旨および広い範囲内に含まれることを意図するものである。
【0154】
本明細書で言及した全ての刊行物、特許および特許出願は、個々の刊行物、特許および特許出願のそれぞれについて具体的且つ個別の参照により本明細書に組み込む場合と同程度に、それらの全体が参照により本明細書に組み込まれる。加えて、本願におけるいかなる参考文献の引用または特定は、このような参考文献が本発明の先行技術として使用できることの容認として解釈されるべきではない。また、各節の表題が使用される範囲において、必ずしも限定として解釈されるべきではない。