特許6998959 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インナーアイ　リミテッドの特許一覧

特許6998959神経生理学的信号を使用する反復分類のためのシステムと方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8A
8B
8C
8D
9A
9B
9C
9D

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2021-12-23

(45)【発行日】2022-01-18

(54)【発明の名称】神経生理学的信号を使用する反復分類のためのシステムと方法

(51)【国際特許分類】

G06T 7/00 20170101AFI20220111BHJP

A61B 5/245 20210101ALI20220111BHJP

A61B 5/291 20210101ALI20220111BHJP

【ＦＩ】

G06T7/00 350C

A61B5/245

A61B5/291

【請求項の数】 15

(21)【出願番号】P 2019533183

(86)(22)【出願日】2017-12-21

(65)【公表番号】

(43)【公表日】2020-01-23

(86)【国際出願番号】 IB2017058297

(87)【国際公開番号】W WO2018116248

(87)【国際公開日】2018-06-28

【審査請求日】2019-12-16

(31)【優先権主張番号】62/437,065

(32)【優先日】2016-12-21

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】517417474

【氏名又は名称】インナーアイリミテッド

【氏名又は名称原語表記】ＩｎｎｅｒＥｙｅＬｔｄ．

【住所又は居所原語表記】８５ＭｅｄｉｎａｔＨａｙｅｈｕｄｉｍＳｔｒｅｅｔ，ＢｕｉｌｄｉｎｇＧ，ＰＯＢ＃１２９５２，Ｈｅｒｚｅｌｉｙａ，Ｉｓｒａｅｌ

(74)【代理人】

【識別番号】110002952

【氏名又は名称】特許業務法人鷲田国際特許事務所

(72)【発明者】

【氏名】ゲヴァアミールビー

(72)【発明者】

【氏名】ネッツァーエイタン

(72)【発明者】

【氏名】マノールランエル

(72)【発明者】

【氏名】ヴァイスマンセルゲイ

(72)【発明者】

【氏名】デオウェルレオンワイ

(72)【発明者】

【氏名】アントマンウリ

【審査官】佐藤実

(56)【参考文献】

【文献】国際公開第２０１６／１９３９７９（ＷＯ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ａ６１Ｂ５／２４５

Ａ６１Ｂ５／２９１

(57)【特許請求の範囲】

【請求項1】

画像分類ニューラルネットワークをトレーニングする方法であって、
識別されるべきターゲットに関するアプリオリの知識を観察者に提供するステップであって、前記ターゲットは、第１の複数の画像の少なくとも１つの画像内にある、提供するステップと、
前記観察者の脳から神経生理学的信号を収集しながら、前記観察者に前記第１の複数の画像を視覚刺激として提示するステップと、
前記神経生理学的信号を処理して、前記第１の複数の画像のうちの少なくとも１つの画像における前記観察者による前記ターゲットの検出を示す神経生理学的事象を識別するステップと、
前記神経生理学的事象の前記識別に基づいて前記少なくとも１つの画像にラベル又はスコアを割り当て、前記少なくとも１つの画像を前記画像分類ニューラルネットワークに供給することによって、前記少なくとも１つの画像内の前記ターゲットを識別するように前記画像分類ニューラルネットワークをトレーニングするステップと、
前記トレーニング済み画像分類ニューラルネットワークをコンピュータ可読記憶媒体に記憶するステップと、
を備えた、前記方法。

【請求項2】

前記トレーニング済み画像分類ニューラルネットワークを第２の複数の画像に適用して、そのうちで前記ターゲットによって占められていると疑われる候補画像を検出するステップであり、前記第２の複数の画像が前記第１の複数の画像の少なくとも１つの画像を含んでいる、該検出するステップと、
前記第２の複数の画像を再定義するステップであり、前記再定義済み第２の複数の画像のうちの少なくとも１つの画像が、前記トレーニング済み画像分類ニューラルネットワークによって検出された候補画像である、該再定義するステップと、
前記再定義済み第２の複数の画像のうちの少なくとも１つの画像について、前記提示と、前記神経生理学的信号の前記収集及び処理と、前記トレーニングとを繰り返すことによって、前記画像分類ニューラルネットワークを反復的にトレーニングするステップと、
を更に備えた、請求項１に記載の方法。

【請求項3】

教師なしクラスタリングを前記第２の複数の画像に適用するステップと、前記教師なしクラスタリングに基づく前記第２の複数の画像から前記第１の複数の画像を選択するステップと、を更に備えた請求項２に記載の方法。

【請求項4】

前記第２の複数の画像から第１の複数の画像をランダムに選択するステップを備えた、請求項２に記載の方法。

【請求項5】

前記ターゲットを含む基準画像を受信するステップと、前記基準画像に応じて前記第２の複数の画像から第１の複数の画像を選択するステップと、を備えた、請求項２に記載の方法。

【請求項6】

前記画像分類ニューラルネットワークが、前記神経生理学的信号を受信して処理するように構成された第１のニューラルサブネットワークと、前記第２の複数の画像を受信して処理するように構成された第２のニューラルサブネットワークと、前記第１のニューラルサブネットワーク及び前記第２のニューラルサブネットワークの両方からの出力を受信して組み合わせるニューラルネットワーク層を有する共有サブネットワークと、を備えている、請求項２～５のいずれか一項に記載の方法。

【請求項7】

前記画像分類ニューラルネットワークが畳み込みニューラルネットワークであり、前記第１及び前記第２のニューラルサブネットワークの少なくとも一方が畳み込みニューラルサブネットワークである、請求項６に記載の方法。

【請求項8】

前記画像分類ニューラルネットワークが、第１のスコアを出力する前記第１のニューラルサブネットワーク用の第１の個別出力層と、第２のスコアを出力する前記第２のニューラルサブネットワーク用の第２の個別出力層と、を備えており、前記方法が、前記第１のスコアと前記第２のスコアとを組み合わせて組み合わせ済みスコアにするステップと、前記組み合わせ済みスコアで前記画像をラベル付けするステップと、前記トレーニングの少なくとも１回の反復において前記ラベル付けのラベルを使用するステップと、を備えている、請求項６及び７のいずれか一項に記載の方法。

【請求項9】

前記神経生理学的信号を用いて前記神経生理学的事象にスコアを付けるステップを更に備えており、前記トレーニングが少なくとも部分的に前記スコアに基づいている、請求項１～８のいずれか一項に記載の方法。

【請求項10】

前記スコアを使用して、前記観察者によって観察される画像内のオブジェクトと前記ターゲットとの類似性のレベルを判定するステップを更に備えた、請求項９に記載の方法。

【請求項11】

前記第１の複数の画像の前記提示の前に、前記ターゲットを表す刺激を前記観察者に提示するステップを更に備えており、前記刺激が、視覚刺激と、テキスト刺激と、聴覚刺激と、嗅覚刺激とで構成される群から選択される少なくとも１つの刺激を含んでいる、請求項１～９のいずれか一項に記載の方法。

【請求項12】

前記第１の複数の画像の前記提示の前に、前記ターゲットに対して補完的である刺激を前記観察者に提示するステップを更に備えており、前記刺激が、視覚刺激と、テキスト刺激と、聴覚刺激と、嗅覚刺激とで構成される群から選択される少なくとも１つの刺激を含んでいる、請求項１～９のいずれか一項に記載の方法。

【請求項13】

画像分類ニューラルネットワークをトレーニングするためのシステムであって、
観察者の脳から神経生理学的信号を収集するように構成された神経生理学的信号収集システムと、
前記神経生理学的信号収集システムと通信し、請求項１～１２のいずれか一項に記載の方法を実行するように構成されたデータプロセッサと、
を備えた前記システム。

【請求項14】

画像を分類する方法であって、
請求項１～１２のいずれか一項に記載の方法を実行して画像分類ニューラルネットワークをトレーニングするステップと、
前記トレーニング済み画像分類ニューラルネットワークを前記画像に適用して、前記トレーニング済み画像分類ニューラルネットワークの出力層によって生成されたスコアに基づいて、前記画像内における前記ターゲットの存在を判定するステップと、
を備えた前記方法。

【請求項15】

画像を分類する方法であって、
請求項１～１２のいずれか一項に記載の方法を前記画像に適用するステップと、
前記トレーニング済み画像分類ニューラルネットワークを前記画像に適用して、前記画像がターゲットによって占められていると疑われるか否かを判定するステップと、
観察者の脳から神経生理学的信号を収集しながら、前記画像を前記観察者に視覚刺激として提示するステップと、
前記神経生理学的事象の前記識別に、少なくとも部分的に、基づいて、前記画像内における前記ターゲットの存在を判定するステップと、
を備えた前記方法。

【発明の詳細な説明】

【技術分野】

【0001】

（関連出願）
本出願は、２０１６年１２月２１日に出願された米国仮特許出願第６２／４３７，０６５号の優先権の利益を主張し、その内容全体を参照により本明細書に援用する。

【0002】

本発明は、その一部の実施形態において、ブレインコンピュータインターフェース（Brain Computer Interface）（ＢＣＩ）に関し、更に詳しくは、しかし限定的ではなく、神経生理学的信号を使用する反復分類のためのシステムと方法に関する。

【背景技術】

【0003】

ＢＣＩの用途は、基礎研究で盛んに研究されている平均反応の描写とは対照的に、単一事象（試行）に反応する脳活動を解読することに依存している。非侵襲的な記録技術である脳波検査法（Electroencephalography）（ＥＥＧ）は、脳活動をモニタするために一般的に使用されているシステムの１つである。ＥＥＧデータは、多数のチャンネルから同時に高い時間分解能で収集され、単一試行脳活動（single trial brain activity）を表現するための高次元データ行列をもたらす。その卓越した時間分解能に加えて、ＥＥＧは、非侵襲的であり、着用可能であり、その他のニューロイメージング（neuroimaging）技術よりも手頃な費用であり、従って、あらゆるタイプの実用的なＢＣＩにとって主要な選択肢である。

【0004】

従来の分類技法は、機械学習アルゴリズムを使用して、単一試行時空間活動行列（single-trial spatio-temporal activity matrices）を、それらの行列の統計的特性に基づいて、分類する。これらの方法は、２つの主な要素、即ち、効果的な次元数削減のための特徴抽出メカニズムと、分類アルゴリズムと、に基づいている。代表的な分類器は、サンプルデータを使用して、他の試験データを２つ以上のカテゴリのうちの１つに分類できるマッピング規則を学習する。分類器は、線形法と非線形法に大別できる。ニューラルネットワーク（Neural Networks）、隠れマルコフモデル（Hidden Markov Model）、k近傍法（k-nearest neighbor）などの非線形分類器は、広範囲の関数を近似することができ、複雑なデータ構造の判別を可能にする。非線形分類器は、複雑な判別関数を捕捉する潜在的な可能性を備えているが、それらの複雑さが、過剰適合（overfitting）を引き起こし、そして重い計算上の需要をもたらすこともあり、リアルタイムの用途にはあまり適していない。

【0005】

他方、線形分類器は、それほど複雑ではなく、従って、データの過剰適合に対してより強固である。線形分類器は、線形に分離できるデータについて、特に有効である。フィッシャー線形判別（Fisher Linear discriminant）（ＦＬＤ）、線形サポートベクトルマシン（linear Support Vector Machine）（ＳＶＭ）及びロジスティック回帰（Logistic Regression）（ＬＲ）は、線形分類器の例である。ＦＬＤは、２つのクラスのデータを分離可能射影軸にマッピングする、特徴の線形結合（linear combination）を見つける。分離についての基準は、クラス内分散に対するクラス平均相互間距離の比として定義される。ＳＶＭは、２つのクラス相互間のマージンを最大化する分離超平面（separating hyper-plane）を見つける。ＬＲは、その名が示すように、データをロジスティック関数に射影する。

【0006】

特許文献１は、その内容を参考としてここに記載するが、ターゲット画像と非ターゲット画像とを含む一連の画像に応答して生成される人間の被検者のＥＥＧ信号の単一試行分類（single trial classification）の実施方法を開示している。この方法は、ＥＥＧ信号の時間点とそれぞれの空間分布とを含む時空間表現でＥＥＧ信号を取得するステップと、線形判別分類器を使用して時間点を独立して分類して時空間判別重みを計算するステップと、時空間判別重みを用いて、時空間点において、それぞれ、時空間表現を時空間判別重みによって拡張して、空間的に重み付けされた表現を作成するステップと、ＥＥＧ信号の空間チャンネル毎に個別に、次元数削減のために時間領域で主成分分析（Principal Component Analysis）（ＰＣＡ）を使用して、ＰＣＡ射影を作成するステップと、空間的に重み付けされた表現に第１の複数の主成分へのＰＣＡ射影を適用して、各空間チャンネルについて複数の主要な時間的射影についてのＰＣＡ係数を含む時間的に近似され空間的に重み付けされた表現を作成するステップと、線形判別分類器を使用して、チャンネルの数全体にわたって、時間的に近似され空間的に重み付けされた表現を分類して、一連の画像の各画像をターゲット画像または非ターゲット画像のいずれかに属するものとして示す二分決定系列を生成するステップと、を備えている。

【0007】

特許文献２は、その内容を参考としてここに記載するが、画像を分類する方法を開示している。この方法は、画像にコンピュータビジョン手順（computer vision procedure）を適用して、目標物によって占有されていると疑われる候補画像領域をその画像内で検出する。各候補画像領域を視覚刺激として観察者に提示する一方、観察者の脳から神経生理学的信号を収集する。神経生理学的信号を処理して、観察者による目標物の検出を示す神経生理学的事象（neurophysiological event）を識別する。この神経生理学的事象の識別に基づいて、画像内の目標物の存在を判定する。

【先行技術文献】

【特許文献】

【0008】

【文献】国際公開公報第２０１４／１７０８９７号

【文献】国際公開公報第２０１６／１９３９７９号

【文献】米国特許第５,５１３,６４９号明細書

【文献】米国公開特許出願第２０１５００１８７０４号明細書

【発明の概要】

【0009】

本発明の一部の実施形態の一態様に従って、画像分類ニューラルネットワークをトレーニングする方法を提供する。この方法は、観察者の脳から神経生理学的信号を収集しながら、観察者に第１の複数の画像を視覚刺激として提示するステップと、神経生理学的信号を処理して、第１の複数の画像のうちの少なくとも１つの画像における観察者によるターゲットの検出を示す神経生理学的事象を識別するステップと、神経生理学的事象の識別に基づいて画像内のターゲットを識別するように画像分類ニューラルネットワークをトレーニングするステップと、トレーニング済み画像分類ニューラルネットワークをコンピュータ可読記憶媒体に記憶するステップと、を備えている。

【0010】

本発明の一部の実施形態に従えば、本方法は、教師なしクラスタリングを第２の複数の画像に適用するステップと、教師なしクラスタリングに基づく第２の複数の画像から第１の複数の画像を選択するステップと、を備えている。

【0011】

本発明の一部の実施形態に従えば、本方法は、トレーニング済み画像分類ニューラルネットワークを第２の複数の画像に適用して、そのうちでターゲットによって占められていると疑われる候補画像を検出するステップであり、第２の複数の画像が第１の複数の画像の少なくとも１つの画像を含んでいる、該検出するステップを備えている。本方法は、第２の複数の画像を再定義するステップであり、再定義済み第２の複数の画像のうちの少なくとも１つの画像が、トレーニング済み画像分類ニューラルネットワークによって検出された候補画像である、該再定義するステップを更に備えている。本方法は、再定義済み第１の複数の画像のうちの少なくとも１つの画像について、提示と、神経生理学的信号の収集及び処理と、トレーニングとを繰り返すことによって、画像分類ニューラルネットワークを反復的にトレーニングするステップを更に備えている。

【0012】

本発明の一部の実施形態に従えば、本方法は、入力画像を複数の画像タイルにタイリングするステップを備えており、第１の複数の画像は、それらの複数の画像タイルの一部を含んでいる。

【0013】

本発明の一部の実施形態に従えば、第２の複数の画像は、それらの複数の画像タイルを含んでいる。

【0014】

本発明の一部の実施形態に従えば、第２の複数の画像を再定義するステップは、入力画像を複数の画像に再タイリングするステップを含み、再タイリングされた入力画像の少なくとも１つの画像は、候補画像を含んでいる。

【0015】

【0016】

本発明の一部の実施形態に従えば、本方法は、第２の複数の画像から第１の複数の画像をランダムに選択するステップを備えている。

【0017】

本発明の一部の実施形態に従えば、本方法は、ターゲットを含む基準画像を受信するステップと、基準画像に応じて第２の複数の画像から第１の複数の画像を選択するステップと、を備えている。

【0018】

本発明の一部の実施形態に従えば、画像分類ニューラルネットワークは、畳み込みニューラルネットワークである。

【0019】

本発明の一部の実施形態に従えば、画像分類ニューラルネットワークは、神経生理学的データを受信して処理するように構成された第１のニューラルサブネットワークと、第２の複数の画像を受信して処理するように構成された第２のニューラルサブネットワークと、第１のニューラルサブネットワーク及び第２のニューラルサブネットワークの両方からの出力を受信して組み合わせるニューラルネットワーク層を有する共有サブネットワークと、を備えている。

【0020】

本発明の一部の実施形態に従えば、画像分類ニューラルネットワークは、畳み込みニューラルネットワークであり、第１及び第２のニューラルサブネットワークの少なくとも一方は、畳み込みニューラルサブネットワークである。

【0021】

本発明の一部の実施形態に従えば、画像分類ニューラルネットワークは、第１のスコアを出力する第１のニューラルサブネットワーク用の第１の個別出力層と、第２のスコアを出力する第２のニューラルサブネットワーク用の第２の個別出力層と、を備えており、本方法は、第１のスコアと第２のスコアとを組み合わせて組み合わせ済みスコアにするステップと、組み合わせ済みスコアで画像をラベル付けするステップと、トレーニングの少なくとも１回の反復においてそのラベル付けのラベルを使用するステップと、を備えている。

【0022】

本発明の一部の実施形態に従えば、組み合わせ済みスコアは、第１及び第２のスコアの重み付け合計である。

【0023】

本発明の一部の実施形態に従えば、画像分類ニューラルネットワークは、教師なし特徴学習用のオートエンコーダサブネットワークを備えている。

【0024】

本発明の一部の実施形態に従えば、オートエンコーダサブネットワークは、第１の複数の画像を選択するために使用される。

【0025】

本発明の一部の実施形態に従えば、本方法は、神経生理学的信号を用いて神経生理学的事象にスコアを付けるステップを備えており、トレーニングは、少なくとも部分的にそのスコアに基づいている。

【0026】

本発明の一部の実施形態に従えば、本方法は、スコアを使用して、観察者によって観察される画像内のオブジェクトとターゲットとの類似性のレベルを判定するステップを備えている。

【0027】

本発明の一部の実施形態に従えば、本方法は、第１の複数の画像の提示の前に、ターゲットを表す刺激を観察者に提示するステップを備えており、この刺激は、視覚刺激と、テキスト刺激と、聴覚刺激と、嗅覚刺激とで構成される群から選択される少なくとも１つの刺激を含んでいる。

【0028】

本発明の一部の実施形態に従えば、本方法は、第１の複数の画像の提示の前に、ターゲットに対して補完的である刺激を観察者に提示するステップを備えており、この刺激は、視覚刺激と、テキスト刺激と、聴覚刺激と、嗅覚刺激とで構成される群から選択される少なくとも１つの刺激を含んでいる。

【0029】

本発明の一部の実施形態の一態様に従って、画像分類ニューラルネットワークのトレーニング用のシステムであって、観察者の脳から神経生理学的信号を収集するように構成された神経生理学的信号収集システムと、この神経生理学的信号収集システムと通信し、以上に詳述の及び、任意選択的に且つ望ましくは、以下に詳述の方法を実行するように構成されたデータプロセッサと、を備えた該システムを提供する。

【0030】

本発明の一部の実施形態の一態様に従って、画像の分類の方法であって、前述の方法を実行して画像分類ニューラルネットワークをトレーニングするステップと、トレーニング済み画像分類ニューラルネットワークを画像に適用して、トレーニング済み画像分類ニューラルネットワークの出力層によって生成されたスコアに基づいて、画像内におけるターゲットの存在を判定するステップと、を備えた該方法を提供する。

【0031】

本発明の一部の実施形態の一態様に従って、画像の分類の方法であって、以上に詳述の及び、任意選択的に且つ望ましくは、以下に詳述の方法を画像に適用するステップと、トレーニング済み画像分類ニューラルネットワークを画像に適用して、画像がターゲットによって占められていると疑われるか否かを判定するステップと、観察者の脳から神経生理学的信号を収集しながら、画像を観察者に視覚刺激として提示するステップと、神経生理学的事象の識別に、少なくとも部分的に、基づいて、画像内におけるターゲットの存在を判定するステップと、を備えた該方法を提供する。

【0032】

本発明の一部の実施形態の一態様に従って、画像分類の方法であって、トレーニング済み画像分類ニューラルネットワークを画像に適用して、その中でターゲットによって占められていると疑われる候補画像領域を検出するステップと、観察者の脳から神経生理学的信号を収集しながら、観察者に各々の候補画像領域を視覚刺激として提示するステップと、神経生理学的事象の識別に、少なくとも部分的に、基づいて、画像内におけるターゲットの存在を判定するステップと、を備えた該方法を提供する。

【0033】

本発明の一部の実施形態の一態様に従って、画像分類の方法であって、トレーニング済み画像分類ニューラルネットワークを複数の画像の各々に適用して、そのうちにおいてターゲットによって占められていると疑われる候補画像を検出するステップと、観察者の脳から神経生理学的信号を収集しながら、観察者に各々の候補画像を視覚刺激として提示するステップと、神経生理学的事象の識別に、少なくとも部分的に、基づいて、候補画像内におけるターゲットの存在を判定するステップと、を備えた該方法を提供する。

【0034】

本発明の一部の実施形態の一態様に従って、画像分類のためのシステムであって、観察者の脳から神経生理学的信号を収集するように構成された神経生理学的信号収集システムと、この神経生理学的信号収集システムと通信し、以上に詳述の及び、任意選択的に且つ望ましくは、以下に詳述の方法を実行するように構成されたデータプロセッサと、を備えた該システムを提供する。

【0035】

特に定義しない限り、本明細書で使用する全ての技術および／または科学用語は、本発明が属する技術分野の当業者により通常理解されるものと同じ意味を有する。本明細書に記載のものと同様のまたは等価な方法および材料を、本発明の実施形態の実践または試験に使用することができるが、例示的な方法および／または材料を下記に記載する。矛盾する場合、定義を含む特許明細書が優先する。加えて、材料、方法、および実施例は単なる例示であり、必ずしも限定を意図するものではない。

【0036】

本発明の実施形態の方法及び／又はシステムの実施には、選択されたタスクを手動で、自動的に、あるいは、それらの組み合わせで、遂行又は完遂することが含まれ得る。更に、本発明の方法及び／又はシステムの実施形態の実際の手段及び装置に従って、一部の選択されたタスクは、ハードウェアによって、ソフトウェアによって、ファームウェアによって、あるいは、オペレーティングシステムを使用するそれらの組み合わせによって、実施し得る。

【0037】

例えば、本発明の実施形態に従って、選択されたタスクを遂行するためのハードウェアは、チップ又は回路として実施し得る。ソフトウェアとしては、本発明の実施形態に従う選択されたタスクは、任意の適切なオペレーティングシステムを使用するコンピュータによって実行される複数のソフトウェア命令として、実施し得る。本発明の代表的な一実施形態において、本明細書に記載の方法及び／又はシステムの代表的な実施形態に従う１つ又は複数のタスクは、複数の命令を実行するためのコンピューティングプラットフォームのようなデータプロセッサによって遂行される。任意選択的に、このデータプロセッサには、命令及び／又はデータを記憶するための揮発性メモリ、及び／又は、命令及び／又はデータを記憶するための不揮発性記憶装置、例えば、磁気ハードディスク及び／又は取り外し可能媒体が含まれる。任意選択的に、ネットワーク接続も提供される。ディスプレイ、及び／又は、キーボード又はマウスのようなユーザ入力装置も、任意選択的に、提供される。

【0038】

本発明のいくつかの実施形態について、その例示のみを目的として添付の図面を参照して本明細書に記載する。以下、特に図面を詳細に参照して示す細部は、例示を目的とし、また本発明の実施形態の詳細な説明を目的とすることを強調する。同様に、図面と共に説明を見ることで、本発明の実施形態をどのように実践し得るかが当業者には明らかとなる。

【図面の簡単な説明】

【0039】

【図1】本発明の一部の実施形態に従う、画像分類ニューラルネットワークをトレーニングするのに適した一方法のフローチャート図を示す図である。

【図2】本発明の一部の実施形態に従う、一画像分類ニューラルネットワークの概略的な説明図を示す図である。

【図3】本発明の一部の実施形態に従う、画像分類に適した一方法のフローチャート図を示す図である。

【図4】本発明の一部の実施形態に従う一システムの概略的な説明図を示す図である。

【図5】本発明の一部の実施形態の代表的な一実践態様の概略的な説明図を示す図である。

【図6】本発明の一部の実施形態に従って遂行された実験において使用された画像分類用のマルチモーダルＥＥＧ画像ニューラルネットワークの概略的な説明図を示す図である。

【図7】本発明の一部の実施形態に従って遂行されたシミュレーションにおける入力画像として使用された空中画像を示す図である。

【図8A】本発明の一部の実施形態に従って図７における空中画像に適用されたシミュレーションにおいて得られたターゲット識別マップを示す図である。

【図8B】本発明の一部の実施形態に従って図７における空中画像に適用されたシミュレーションにおいて得られたターゲット識別マップを示す図である。

【図8C】本発明の一部の実施形態に従って図７における空中画像に適用されたシミュレーションにおいて得られたターゲット識別マップを示す図である。

【図8D】本発明の一部の実施形態に従って図７における空中画像に適用されたシミュレーションにおいて得られたターゲット識別マップを示す図である。

【図9A】本発明の一部の実施形態に従って遂行された実験において得られた、人工のニューラルネットワーク間の比較結果を示す図である。

【図9B】本発明の一部の実施形態に従って遂行された実験において得られた、人工のニューラルネットワーク間の比較結果を示す図である。

【図9C】本発明の一部の実施形態に従って遂行された実験において得られた、人工のニューラルネットワーク間の比較結果を示す図である。

【図9D】本発明の一部の実施形態に従って遂行された実験において得られた、人工のニューラルネットワーク間の比較結果を示す図である。

【発明を実施するための形態】

【0040】

本発明は、その一部の実施形態において、ブレインコンピュータインターフェース（ＢＣＩ）に関し、更に詳しくは、しかし限定的ではなく、神経生理学的信号を使用する反復分類のためのシステムと方法に関する。

【0041】

本発明の少なくとも１つの実施形態を詳細に説明する前に、本発明は、必ずしもその用途が、以下の記載に示す、および／または図面および／または実施例で例示する、構成の詳細および要素の配置および／または方法に限定されるものではないことを理解するべきである。本発明は、他の実施形態が可能であり、また、さまざまな手段で実施または実行することが可能である。

【0042】

コンピュータビジョンによる視覚的オブジェクト分類は、探求されているオブジェクトが十分に定義され、その例がトレーニングデータセットにおいて利用可能である場合、非常に高速かつ正確である。しかしながら、本発明者は、視覚的データ解釈タスクが、場合によっては、トレーニングセットから得られる例と一致しない多種多様な潜在的なターゲット又は未知のターゲットさえも取り扱わなければならないことを確認した。また、本発明者は、ターゲットの定義が解釈タスクの期間中に変わる可能性があることも確認した。本発明者は、人間の視覚がそのような課題を高精度で処理できることを確認した。本発明者は、大きな高解像度画像又は多数組の離散的な画像の場合、それらの画像を分析して、それらの内におけるターゲット又は対象オブジェクトを検出するのに数十分または数時間さえも必要なことがあり、その理由は、人間の分析者の処理能力が低いからである（例えば、単一の画像を手動でスキャンするのに数秒かかることがある）ことを認識している。

【0043】

従って、本発明者は、画像の高速逐次視覚提示（Rapid Serial Visual Presentation）（ＲＳＶＰ）を、ＥＥＧ取得、望ましくは、リアルタイムＥＥＧ取得（例えば、１秒未満以内）と組み合わせる技術を考案した。この創意に富む技術は、従来の分類技術と比較して遥かに速い速度での分類に使用できる。本実施形態の方法及びシステムは、任意選択的に且つ望ましくは、反復プロセスを提供し、その反復プロセスにおいて、ニューラルネットワークのトレーニングが、人間の観察者の分類の出力に基づいて、反復的に更新され、その際、人間の観察者の分類に関する入力が、人間の観察者が分類を行っている間に記録されたＥＥＧ信号から抽出される。次に、更新されたニューラルネットワークの出力が、人間の観察者に対して反復的に示される更新された一組の画像を選択するために、任意選択的に且つ望ましくは、使用される。

【0044】

本実施形態の技術は、大きな画像に、例えば、限定はしないが、空中画像又は広い領域をカバーするカメラから得られる高解像度画像などに、適用できる。本実施形態の技術は、その代わりに、画像組に、例えば、１組について１０以上、５０以上、２５０以上、あるいは、１２５０以上の画像を含むものに、適用でき、その際、それらの画像の少なくとも一部はターゲットを含んでおり、本実施形態の方法及びシステムは、当該画像を識別する、あるいは、ラベル付けする。本実施形態の技術は、単一の画像に適用でき、あるいは、その単一の画像がターゲットを含んでいるか否かを自動的に判定できる。

【0045】

本実施形態の技術は、画像又はターゲットを含む画像部分の２値識別と、画像又は画像部分の非２値分類との両方に使用でき、２値分類は、その画像又は画像部分がターゲットを含んでいるか否かを示す２値スコア（binary score）を提供し、非２値分類は、その画像又は画像部分がターゲットを含んでいる確度、あるいは、ターゲットとその画像又は画像部分内のオブジェクトとの間の類似性のレベル、を示す非２値スコア（non-binary score）を提供する。本発明の一部の実施形態では、２値スコア及び非２値スコアのいずれもがニューラルネットワークのトレーニングに使用される。

【0046】

本明細書に記載の動作の少なくとも一部は、データを受信して、以下に説明する動作を実行するように構成されたデータ処理システム、例えば、専用回路又は汎用コンピュータによって実施できる。動作の少なくとも一部は、遠隔地にあるクラウドコンピューティング設備によって実施できる。

【0047】

本実施形態の方法を実施するコンピュータプログラムは、一般的に、通信ネットワークによって、あるいは、配布媒体、例えば、限定はしないが、フロッピーディスク、ＣＤ－ＲＯＭ、フラッシュメモリデバイス及びポータブルハードドライブなどによって、ユーザに配布できる。このコンピュータプログラムは、通信ネットワーク又は配布媒体から、ハードディスク又は同様の中間記憶媒体に、コピーできる。このコンピュータプログラムは、それらの配布媒体又はそれらの中間記憶媒体からコード命令をコンピュータの実行メモリにロードして、本発明の方法に従って動作するようにコンピュータを構成することによって、実行できる。これら全ての動作は、コンピュータシステムの当業者に良く知られている。

【0048】

本明細書において説明する処理動作は、例えば、ＤＳＰ、マイクロコントローラ、ＦＰＧＡ、ＡＳＩＣなどのようなプロセッサ回路、あるいは、その他の任意の従来の及び／又は専用のコンピューティングシステムによって、実行してもよい。

【0049】

本実施形態の方法は、多くの形態で実施できる。例えば、それは、方法動作を実行するコンピュータのような有形媒体上で実施できる。それは、方法動作を実行するためのコンピュータ可読命令を備えたコンピュータ可読媒体上で実施できる。また、それは、有形媒体上でコンピュータプログラムを実行するように、あるいは、コンピュータ可読媒体上で命令を実行するように、構成されたデジタルコンピュータ機能を有する電子装置において実施することもできる。

【0050】

本発明の一部の実施形態は、画像分類ニューラルネットワークをトレーニングするのに適した方法及びシステムに関する。

【0051】

ニューラルネットワークは、相互結合された「ニューロン」の概念に基づく一種のコンピュータ実施技術である。代表的なニューラルネットワークにおいて、ニューロンはデータ値を含んでおり、そのデータ値の各々は、既定の強度を有する結合と、各々の特定のニューロンに対する結合の合計が既定の閾値を満たすか否かと、に従って、結合されたニューロンの値に影響を及ぼす。適切な結合強度及び閾値を特定すること（トレーニングとも呼ばれるプロセス）によって、ニューラルネットワークは、画像及び文字の効率的な認識を達成できる。多くの場合、これらのニューロンは層にグループ化され、それによって、グループ相互間の結合がより明確になり、値の計算が容易になる。ネットワークの各々の層は、異なる数のニューロンを備えていることがあり、これらは入力データの特定の品質に関連していることもあれば、そうでないこともある。

【0052】

完全結合型ニューラルネットワークと呼ばれる一実施形態において、特定の層内の各々のニューロンは、次の層内のニューロンに結合されており、入力値を供給する。次に、これらの入力値が合計され、この合計値がバイアス、あるいは、閾値と比較される。この値が特定のニューロンについての閾値を超えると、そのニューロンは正の値を保持して、その正の値は、次のニューロン層内のニューロンへの入力として使用され得る。この計算は、ニューラルネットワークの種々の層を通して続けられて、ついに最終層に到達する。この時点で、ニューラルネットワークのルーチンの出力が、最終層内の値から読み取り可能となる。

【0053】

単一の値をネットワーク又はサブネットワークの各々のニューロンに関連付ける完全結合型ネットワーク又はサブネットワークとは異なり、畳み込みニューラルネットワーク又はサブネットワークは、１アレイの値（an array of values）を各々のニューロンに関連付けることによって、機能する。概念的には、このアレイは、分類すべき画像の小さなパッチ（small patch）として考えることができる。次の層に対するニューロン値の変換は、乗算から畳み込みへと一般化される。これは、結合強度がスカラ値(scalar values)ではなく畳み込みカーネル（convolution kernels）であることを意味している。これらのより複雑な変換は、より複雑なニューラルネットワーク行列を伴う。従って、完全結合型ネットワーク又はサブネットワーク内の行列は１アレイの数値（an array of number values）を含んでいるが、畳み込みニューラルネットワーク又はサブネットワークにおいては、各々の行列成分（matrix entry）は、１パッチの画素（a patch of pixels）である。

【0054】

トレーニングすべきニューラルネットワークは、任意選択的に且つ望ましくは、また、必ずではなく、畳み込みニューラルネットワークである。本実施形態に適した画像分類ニューラルネットワークの一代表例を以下に説明する。

【0055】

次に図面を参照すると、図１は、本発明の種々の代表的な実施形態に従う方法のフローチャート図である。以下に説明する動作は、特に定めのない限り、多数の組み合わせ又は実行順序で、同時に又は順次に、実行できることを理解されたい。具体的には、フローチャート図の順序は、限定的であると見なすべきではない。例えば、以下の説明において又はフローチャート図において特定の順序で現れる２つ以上の動作は、異なる順序（例えば、逆の順序）で又は実質的に同時に実行できる。また、以下に説明する一部の動作は、任意選択的であり、実行されない場合もある。

【0056】

この方法は、１０で始まり、任意選択的に且つ望ましくは、１１に進み、そこで、１つ又は複数の入力画像が受信される。この受信された画像が大きい場合（例えば、空中画像、あるいは、広い視野をカバーするカメラによって捕捉された画像、例えばパノラマ画像である場合）、本方法は、任意選択的に且つ望ましくは、１２に進み、そこで、この画像は、各々が本方法によって個別の入力画像として使用される複数のタイルにタイリングされる。その代わりに、本方法は、１１で複数の入力画像を受信でき、その場合、１２をスキップできる。また、本方法は、複数の画像を受信して、これらの画像のうちの１つ又は複数又は各々をタイリングする実施形態も考えられる。一般的に、１１で受信されたいずれの入力画像も、それがタイリングされるか否かに関わらず、本方法によって、画像分類ニューラルネットワークをトレーニングするために使用され得る。

【0057】

本方法は、任意選択的に且つ望ましくは、１３に進み、そこで、これらの画像の一部が選択される。これは複数の態様で行うことができる。

【0058】

本発明の一部の実施形態において、これらの画像は、統一された分布又は他の任意の分布に従って、ランダムに選択される。

【0059】

本発明の一部の実施形態において、ターゲットを含む基準画像が受信され、この基準画像に応じて、画像の一部が選択される。例えば、粗画像処理手順を適用して、基準画像に対する類似性レベルが所定の閾値よりも高い画像を選択できる。望ましくは、より良いトレーニングを可能にするために、類似性レベルが所定の閾値よりも低い少なくとも数枚の画像も選択される。基準画像との類似性が低い画像に対する、類似性が高い画像の比は、任意選択的に且つ望ましくは、約１～約１０とすることができる。その代わりに、あるいは、それに加えて、基準画像を増補すること（augmenting）によって（例えば、回転画像を作成することによって）初期ターゲットモデルを構築でき、教師なしオートエンコーダ（unsupervised autoencoder）を使用して基準画像を代表する特徴を学習できる。その後、画像の一部を、平均画像からの距離に基づいて、選択できる。その距離が短い（例えば、所定の閾値未満）の画像に対する、その距離が長い（例えば、所定の閾値より上の）画像の比は、任意選択的に且つ望ましくは、約１～約１０とすることができる。

【0060】

本発明の一部の実施形態において、教師なしクラスタリング（unsupervised clustering）が画像に適用され、その一部が教師なしクラスタリングに基づいて選択される。複数のクラスタが、画像内に提示されている相異なるタイプのオブジェクトと一致することがあり、その際、クラスタのうちの１つが、ターゲットに似ているオブジェクトである。本方法は、クラスタの一部をサンプリングして、各々のクラスタからいくつかの画像を選択できる。ターゲットに似ている画像のクラスタからの画像の、他のクラスタからの画像に対する比は、任意選択的に且つ望ましくは、約１～約１０とすることができる。最大のクラスタには、気を散らす特徴が含まれ得る。一部の実施形態において、このクラスタは、観察者によって調べられるデータの量を減らすために、除外される。

【0061】

１４において、画像、又は、より望ましくは、画像の一部が視覚刺激として観察者に提示され、１５において、観察者の脳から神経生理学的信号が収集される。動作１５は、望ましくは、視覚刺激１４と同時に実行され、その結果、収集された信号には、視覚刺激に対する観察者の反応を示す信号も含まれている。

【0062】

画像は、十分に高いレートで逐次的に提示されることが望ましい。このような提示は、高速逐次視覚提示（Rapid Serial Visual Presentation）（ＲＳＶＰ）と呼ばれる。このレートは、高速の一連の視覚提示においてオーバーラップする反応（overlapping responses）に対処できるように選択されることが望ましい。本実施形態に適した代表的な提示レートは、約２Ｈｚ～約２０Ｈｚ、約２Ｈｚ～約１５Ｈｚ、約２Ｈｚ～約１０Ｈｚ、約５Ｈｚ～約２０Ｈｚ、約５Ｈｚ～約１５Ｈｚ、あるいは、約５Ｈｚ～約１０Ｈｚである。

【0063】

神経生理学的信号は、例えば脳電図（electroencephalogram）（ＥＥＧ）信号又は脳磁図（magnetoencephalogram）（ＭＥＧ）信号などの脳造影図（encephalogram）（ＥＧ）信号であることが望ましい。その他のタイプの信号も考えられるが、本発明者は、ＥＥＧ信号が望ましいことを確認した。

【0064】

ＥＥＧ信号は、多数の電極（例えば、少なくとも４個、少なくとも１６個、少なくとも３２個、あるいは、少なくとも６４個の電極）から、任意選択的に且つ望ましくは同時に、また、任意選択的に且つ望ましくは十分に高い時間分解能で収集されることが望ましい。本発明の一部の実施形態において、信号は、少なくとも１５０Ｈｚ、少なくとも２００Ｈｚ、あるいは、少なくとも２５０Ｈｚ、例えば約２５６Ｈｚのサンプリングレートでサンプリングされる。任意選択的に、高周波数のエイリアシングを防止するために、ローパスフィルタが使用される。このローパスフィルタについての代表的なカットオフ周波数は、限定はしないが、約５１Ｈｚである。

【0065】

神経生理学的信号がＥＥＧ信号である場合、以下の周波数帯域のうちの１つ以上が規定でき、即ち、デルタ帯域（代表的には約１Ｈｚ～約４Ｈｚ）、シータ帯域（代表的には約３～約８Ｈｚ）、アルファ帯域（代表的には約７～約１３Ｈｚ）、低ベータ帯域（代表的には約１２～約１８Ｈｚ）、ベータ帯域（代表的には約１７～約２３Ｈｚ）、及び、高ベータ帯域（代表的には約２２～約３０Ｈｚ）となる。また、より高い周波数帯域、例えば、限定はしないが、ガンマ帯域（代表的には約３０～約８０Ｈｚ）も考えられる。

【0066】

電極は、以下の位置のうちの１つ以上に、任意選択的に且つ望ましくは全てに、配置でき、即ち、２つが乳様突起に、２つの水平ＥＯＧチャンネルが左右の目の外側眼角に、２つの垂直ＥＯＧチャンネルの一方が右目の下方に他方が右目の上方に、及び、１つのチャンネルが鼻の先端部に、配置される。

【0067】

本方法は１６に進み、そこで神経生理学的信号が処理されて、観察者によるターゲットの検出を示す神経生理学的事象が識別される。一部の実施形態に従えば、観察者には、画像内で識別されるべきターゲットに関するアプリオリの知識（a priori knowledge）が提供される。

【0068】

例えば、観察者にターゲットを表す刺激を提示でき、そして、観察者にターゲットを記憶するように依頼できる。このターゲットを表す刺激は、限定はしないが、視覚刺激（例えば、ターゲットの画像）、テキスト刺激（例えば、ターゲットの記述表現）、聴覚刺激（例えば、ターゲットの口述表現）、及び、嗅覚刺激（例えば、ターゲットの匂いに似た匂いのするサンプル）を含む任意のタイプのものであり得る。観察者が、ターゲットに対して補完的である刺激を提示される実施形態も考えられる。例えば、観察者に対してあるオブジェクトを記憶するように要求でき、その場合、そのターゲットはターゲット以外の任意のものとして定義されている。この補完的な刺激は、上述のタイプのいずれかのものであってもよい。

【0069】

処理１６は、複数の態様で実施できる。以下、神経生理学的信号における神経生理学的事象を識別するために使用できるいくつかの技術を説明する。

【0070】

この処理には、通常、信号からデジタルデータを生成するデジタル化行程が含まれている。これらのデータは代表的には時空間行列（spatiotemporal matrix）として配列され、その空間次元（spatial dimension）は観察者の頭皮上の電極位置に対応し、時間次元（temporal dimension）は時間軸を複数の時点又はエポック（epochs）に離散化したものであり、それらの時点又はエポックは、オーバーラップされていても、されていなくてもよい。次に、データを次元削減行程にかけて、データをより低い次元空間にマッピングできる。この処理は、任意選択的に、また、必ずではなく、ターゲット検出に関連する周波数帯域に基づいていてもよい。具体的には、この処理は、主にＰ３００ＥＥＧ波に基づいていてもよい。

【0071】

この処理は、望ましくは、自動的であり、トレーニングデータセットからの教師付き又は教師なし学習に基づくことができる。ターゲット検出事象を識別するのに有用な学習技術には、限定はしないが、共通空間パターン（Common Spatial Patterns）（ＣＳＰ）、自己回帰モデル（autoregressive models）（ＡＲ）及び主成分分析（Principal Component Analysis）（ＰＣＡ）が含まれる。ＣＳＰは、一方のクラスの分散を最大化し、他方のクラスの分散を最小化することによって、２つのクラスを判別するための空間的重みを抽出する。ＡＲは、その代わりに、判別情報を含み得る信号中の、空間的ではなく、時間的な相関に着目している。判別ＡＲ係数は、線形分類器を使用して選択できる。

【0072】

ＰＣＡは、特に、教師なし学習に有用である。ＰＣＡは、データを、新しい、代表的には非相関の、空間にマッピングし、そこでは、軸に沿った射影済みデータサンプルの分散によって、それらの軸が順序付けられ、分散の大部分を反映する軸のみが維持される。その結果、元のデータに関する最大限の情報を保持しながらも、効果的な次元削減を実現する、データの新しい表現が得られる。

【0073】

ターゲット検出事象を識別するのに有用であるもう一つの方法は、空間的独立成分分析（spatial Independent Component Analysis）（ＩＣＡ）を採用して１組の空間的重みを抽出し、最大限独立した時空間的ソース（spatial-temporal sources）を取得する。独立した時間－周波数成分についてのスペクトル重みを学習するために、並列ＩＣＡステージが周波数領域で実行される。ＰＣＡは、データの次元を減らすために、空間ソースとスペクトルソースで別々に使用できる。各々の特徴組は、フィッシャー線形判別（Fisher Linear Discriminants）（ＦＬＤ）を個別に使用して分類することができ、次に、任意選択的に且つ望ましくは、ナイーブベイズ融合（naive Bayes fusion）を使用して、事後確率（posterior probabilities）の乗算によって、組み合わせることができる。

【0074】

更にもう１つの技術は、時間軸と空間軸の両方で事象関連データの双線形空間－時間射影（bilinear spatial-temporal projection）を使用する。これらの射影は、多くの態様で実施できる。空間的射影は、例えば、下に在るソース空間への信号の線形変換として、あるいは、ＩＣＡとして、実施できる。時間的射影は、フィルタとして機能できる。双対射影（dual projections）は、単一試行データ行列のオーバーラップしない時間窓において実施でき、その結果、窓ごとのスコアを表すスカラ（scalar）が得られる。窓のスコアを合計して又は分類して、単一試行全体についての分類スコアを得ることができる。更に、この技術の選択によって、射影行列の構造に対する付加的な制約をサポートできる。１つの選択肢は、例えば、各々のチャンネルについて個別に最適な時間窓を学習し、次いで空間項（spatial terms）をトレーニングすることである。

【0075】

本発明の種々の代表的な実施形態において、本方法は、神経生理学的信号に対して空間的被重み付けフィッシャー線形判別（Spatially Weighted Fisher Linear Discriminant）（ＳＷＦＬＤ）分類器を使用する。この分類器は、以下の動作の少なくとも一部を実行することによって得ることができる。時点を独立して分類して、判別重みの時空間行列を計算できる。次に、この行列を用いて、各々の時空間点における判別重みによって元の時空間行列を拡張することによって、空間的に重み付けされた行列を得ることができる。

【0076】

ＳＷＦＬＤは、ＰＣＡによって補足されることが望ましい。これらの実施形態において、ＰＣＡは、任意選択的に且つ望ましくは、時間領域において、各々の空間チャンネルに対して別々に且つ独立して、適用される。これによって、時系列データが、成分の線形結合として表される。ＰＣＡは、任意選択的に且つ望ましくは、空間的に重み付けされた行列の各々の行ベクトルに対しても、独立して適用される。ＰＣＡのこれら２つの別々の適用によって射影行列を得て、これを用いて各々のチャンネルの次元を削減することによって、次元が削減されたデータ行列を得ることができる。

【0077】

次に、次元が削減されたこの行列の行を連結して、特徴表現ベクトル（feature representation vector）を得ることができ、このベクトルは、信号の、時間的に近似され空間的に重み付けされた活動状態を表している。次に、ＦＬＤ分類器を特徴ベクトルについてトレーニングして、時空間行列を２つのクラスのうちの一方に分類できる。本実施形態において、１つのクラスはターゲット識別事象に対応し、もう１つのクラスはその他の事象に対応する。本発明の一部の実施形態に従うＳＷＦＬＤ分類器に関する更なる詳細は、後述の例（Examples）の欄で説明する。

【0078】

本発明の種々の代表的な実施形態において、本方法は、神経生理学的信号に対してニューラルネットワーク分類器、より望ましくは、畳み込みニューラルネットワーク（convolutional neural network）（ＣＮＮ）分類器を使用する。これらの実施形態において、ＣＮＮは、信号を時空間行列として受信し、提示された視覚刺激がターゲットである確率を推定する、代表的には［０，１］の範囲内のスコアを生成する。任意選択的に且つ望ましくは、ロジスティック回帰コスト関数（logistic regression cost function）を最小にするために、確率的勾配降下法（stochastic gradient descent）（ＳＧＤ）を使用してネットワークをトレーニングできる。望ましい実施形態において、ＣＮＮは、神経生理学的信号を特徴付ける複数の時点の各々について空間フィルタリングを適用する第１の畳み込み層と、第１の畳み込み層によって提供される出力に時間フィルタリングを適用する第２の畳み込み層と、任意選択的に且つ望ましくは、第２の畳み込み層によって提供される出力に時間フィルタリングを適用する第３の畳み込み層と、を備えている。第２及び第３の畳み込み層は、代表的には、第１の層によって学習された空間マップの振幅の変化を表す、信号内の時間的パターンを学習し、従って、これは、それらが分類精度を向上させるので、有利である。

【0079】

ＣＮＮは２つ以上の完全結合層も備えることができ、これらの完全結合層の各々は、それぞれの前の層によって提供される出力の非線形結合（non-linear combination）を提供する。第１の完全結合層は、第３の畳み込み層（第３の畳み込み層が使用される場合）又は第２の畳み込み層（望ましくは、また、必ずではないが、第３の畳み込み層が使用されない場合）からの出力を受信することが望ましい。第２の完全結合層は、第１の完全結合層からの出力を受信することが望ましい。任意選択的に、ＣＮＮは、次元を削減するために、２つ以上のプーリング層（pooling layers）、例えばマックスプーリング層（max-pooling layers）を備えている。望ましいＣＮＮに関する更なる詳細は、後述の例（Examples）の欄で説明する。

【0080】

処理１６には、任意選択的に且つ望ましくは、ターゲットが画像中に存在する確率、あるいは、提示された画像内のオブジェクトとターゲットとの間の類似性、を表すスコアを計算することが含まれる。このスコアは、それぞれの分類器を使用して計算される。例えば、分類器がＳＷＦＬＤ分類器である場合、フィッシャースコア（Fisher score）を計算でき、分類器がＣＮＮ分類器である場合、このスコアを、ＣＮＮのロジスティック回帰層の出力とすることができる。

【0081】

望ましい実施形態において、本方法は、計算されたスコアを正規化するための観察者固有スコア正規化関数を使用する。そのような観察者固有スコア正規化関数は、代表的には、トレーニング段階で準備され、そのトレーニング段階において、トレーニングデータセットの画像を使用して、同じ観察者に対して本方法が繰り返し実行され、その際、データセットの各々の画像が、ターゲットを含むか、あるいは、含まないかに分類される。この観察者固有スコア正規化関数は、ターゲット固有にすることもでき、その場合、トレーニング段階が、検出されるべき各々のターゲットについて繰り返される。しかしながら、これは、必ずしもそうである必要はなく、その理由は、一部の用途について、各々のターゲットについてトレーニングを繰り返す必要がないこともあり、その理由は、特に相異なるターゲットが同じカテゴリ（例えば、相異なる車両、相異なる顔など）に属する場合、その相異なるターゲットを検出する観察者の能力が同様であることもあるからである。トレーニング段階中に、第１のスコア分布関数（score distribution function）が、ターゲットを含むと分類されたターゲットについて計算され、第２のスコア分布関数が、ターゲットを含まないと分類されたターゲットについて計算される。トレーニング段階で計算されたスコア分布関数は、次に、実施段階で提供されるスコアを正規化するために使用される。例えば、第１のスコア分布関数をｇ_１で表し、第２のスコア分布関数をｇ_０で表すと、実施段階で分類器によって提供されるスコアsを正規化して、

【数1】

として定義される正規化済みスコア

【数2】

を得ることができる。

【0082】

第１及び第２のスコア分布関数は、スコア空間内で所定の形状を有することができる。代表的には、この形状は、局所的（localized）である。第１及び第２のスコア分布関数としての使用に適したタイプの分布関数の代表例には、ガウス関数（Gaussian）、ローレンツ関数（Lorenzian）及び変形ベッセル関数（modified Bessel function）が含まれるが、これらには限定されない。

【0083】

正規化済みスコアを所定の信頼性閾値と比較して、識別された検出事象の信頼性のレベルを特定できる。正規化済みのものが所定の信頼性閾値を下回る場合、本方法は、任意選択的に且つ望ましくは、１４にループバック（loop back）し、それぞれの画像領域又は画像領域群を観察者に再提示し、正規化済みスコアを再計算する。

【0084】

一部の実施形態において、２つの相異なるタイプの分類器が使用されて、個々の分類器によって提供されたスコアを重み付けするスコアが計算される。例えば、本方法は、ＳＷＦＬＤ分類器を適用してこのＳＷＦＬＤ分類器に基づいてＳＷＦＬＤ分類スコアを計算し、ＣＮＮ分類器を適用してこのＣＮＮ分類器に基づいてＣＮＮ分類スコアを計算し、そして、これらのＳＷＦＬＤスコアとＣＮＮスコアとを組み合わせることができる。任意選択的に且つ望ましくは、この２つのスコアの組み合わせの前に、これらの２つのスコアを同様のスケールにするスコアスケール変更（score rescaling）を実施してもよい。第１及び第２のスコア分布関数を用いた前述の正規化は、スコアをスケール変更することにも使用できる。

【0085】

本発明の一部の実施形態において、本方法は、神経生理学的信号を処理して目のまばたきを識別する。これらの実施形態において、観察者に対する画像領域又は画像領域群の提示中に目のまばたきが明確に識別された場合、本方法は、任意選択的に且つ望ましくは、１４にループバックし、それぞれの画像領域又は画像領域群を観察者に再提示する。目のまばたきは、当該技術分野において既知の任意の技術、例えば特許文献３及び特許文献４に開示された技術、を使用して識別でき、その特許文献３及び特許文献４の内容を参考として本明細書に記載する。

【0086】

神経生理学的事象の識別に続いて、本方法は１７に進み、そこで、画像分類ニューラルネットワークが、神経生理学的事象の識別に基づいて、画像内のターゲットを識別するようにトレーニングされる。これは、ラベル又はスコアを画像に割り当てて、その画像を画像分類ニューラルネットワークにフィードバックすることによって行うことができる。このラベル又はスコアは、２値であってもよく、その場合、画像がターゲットを含んでいると識別されたときに、１つの値（例えば「１」）を取り、画像がターゲットを含んでいないと識別されたときに、もう１つの値（例えば「０」）を取ることができる。また、このラベル又はスコアは、２値でなくてもよく、その場合、画像がターゲットを含んでいる確度、あるいは、ターゲットと画像内のオブジェクトとの間の類似性、を示す離散値又は連続値の範囲内の値を取ることができる。このスコアは、例えば、１６で計算されたスコアであってもよい。

【0087】

画像分類ニューラルネットワークが同じ画像について既にトレーニングされている場合、本方法は、そのトレーニングを更新する。必要に応じて、トレーニング又は再トレーニングを画像分類ニューラルネットワークの１つ又は複数の層に適用できる。ディープネットワーク（deep networks）については、トレーニング又は再トレーニングは、あまり一般的ではなく且つより細部特有の特徴を含む最後の隠れ層のうちの１つ又は複数の層に適用できる。任意選択的に、トレーニング又は再トレーニングは、画像分類ニューラルネットワークの出力層に適用できる。本発明の一部の実施形態において、トレーニング又は再トレーニングは、ネットワークの全ての層に適用される。

【0088】

本方法は、任意選択的に且つ望ましくは、１８に進み、そこで、トレーニング済み画像分類ニューラルネットワークが、１１で受信された画像の少なくとも一部に、より望ましくは、全てに適用されて、それらの内で、ターゲットによって占められていると疑われる候補画像を検出する。任意選択的に、このネットワークによる検出は、次に、画像を再定義するために使用される。例えば、ターゲットによって占められていると疑われる候補画像とターゲットによって占められていないと疑われる画像との比が所定の比の区間（例えば、１と１０の間）内になるように、画像の数を減らすことができる。再定義された１組の画像のうちの少なくとも１つの画像は、任意選択的に且つ望ましくは、トレーニング済み画像分類ニューラルネットワークによって検出された候補画像である。次に、本方法は、１３又は１４にループバックして、ここで説明した動作の少なくとも一部を繰り返すことができ、従って、画像分類ニューラルネットワークが、神経生理学的信号の使用によって反復的にトレーニングされる。画像が、これらよりも大きな１つの入力画像の複数の画像タイルである場合、本方法は、１３又は１４の代わりに、１２にループバックでき、従って、再定義が、このより大きな入力画像を複数の画像に再タイリングすることによって、実行できる。

【0089】

本方法の任意の実行段階に続いて、例えば１７に続いて、本方法は１９に進むことができ、そこで、画像分類ニューラルネットワークが、コンピュータ可読記憶媒体に記憶される。本方法は、２０で終了する。

【0090】

方法１０を使用する利点は、視覚刺激を処理する脳の能力が、人工ニューラルネットワークをトレーニングするために、自動的に使用されることである。これは、著しく、トレーニングされると画像を正確に分類する人工ニューラルネットワークの能力を向上させ、トレーニング時間を短縮し、従って、必要とされるコンピュータ資源も軽減する。

【0091】

図２は、本実施形態の方法及びシステムを使用してトレーニングすることができ、（例えば、本実施形態の方法及びシステムを使用して）トレーニングされると、画像の分類に少なくとも部分的に使用できる画像分類ニューラルネットワーク３０の概略的な説明図である。ニューラルネットワーク３０は、神経生理学的データ３４を受信して処理するように構成された第１のニューラルサブネットワーク３２と、画像３８を受信して処理するように構成された第２のニューラルサブネットワーク３６と、第１のニューラルサブネットワーク３２及び第２のニューラルサブネットワーク３６の両方からの出力を受信して組み合わせるニューラルネットワーク層４２を有する共有サブネットワーク４０と、を備えていることが望ましい。共有サブネットワーク４０は、１つ又は複数の追加のニューラルネットワーク層、例えば、１つ又は複数の隠れ層４４及び出力層４６を有することもできる。ニューラルネットワーク層４２は、２つのサブネットワーク３２及び３６の出力の特徴を連結する連結層であることが望ましい。共有サブネットワーク４０の隠れ層４４は完全結合層（fully connected layer）とすることができ、出力層はソフトマックス層（softmax layer）とすることができる。サブネットワーク３２及び３６は、任意選択的に且つ望ましくは、教師付き機械学習（supervised machine learning）用に構成されている。

【0092】

サブネットワーク３６のトレーニング中に、ニューラルサブネットワーク３２の出力は、任意選択的に且つ望ましくは、サブネットワーク３６に、フィードバック５８として、供給できる。例えば、サブネットワーク３６の出力層が、サブネットワーク３２によって処理される特定の画像について、２値又は非２値のスコアを提供する場合、そのスコアを使用してその特定の画像をラベル付けすることができる。その画像及びそれに対応付けられたラベルは、サブネットワーク３６に供給することができ、それによってサブネットワーク３６の教師付き学習又は半教師付き学習（semi-supervised learning）を容易にすることができる。

【0093】

ネットワーク３０は、任意選択的に且つ望ましくは、オートエンコーダサブネットワーク４８を備えており、これは、画像３８を受信して、その画像から特徴を抽出して、それらをサブネットワーク３６に、入力として、提供する。本発明の種々の代表的な実施形態において、オートエンコーダサブネットワーク４８は、ネットワーク３０のトレーニング中に使用されて、ネットワーク３０の後の画像分類には使用されない。サブネットワーク３２及び３６とは異なり、オートエンコーダサブネットワーク４８は、教師なし機械学習（unsupervised machine learning）用に構成されていることが望ましい。オートエンコーダサブネットワーク４８を備えていることの利点は、それが、サブネットワーク３６のより良いトレーニングを可能にすることである。

【0094】

ネットワーク３０のトレーニングの初期段階において、オートエンコーダサブネットワーク４８は、任意選択的に且つ望ましくは、ターゲットを含まないものとしてラベル付けされた画像を供給される。オートエンコーダサブネットワーク４８は、それらの画像から非ターゲットの特徴を抽出する。これは、ターゲットの形状が未知であるシナリオをシミュレートしている。オートエンコーダサブネットワーク４８は、非ターゲットを含んでいる画像をモデル化する特徴を学習する。トレーニングの後期段階において、オートエンコーダサブネットワーク４８に、任意選択的に且つ望ましくは、更なる画像を供給することができ、これらの更なる画像には、ラベルに対応付けられていない画像（即ち、それらがターゲットを含んでいるか否かが分からない画像）、及び／又は、２値又は非２値のラベル又はスコアに対応付けられている画像、が含まれていてもよい。

【0095】

オートエンコーダサブネットワーク４８は、入力層及び出力層に加えて、２組以上の並列特徴マップ層（parallel feature map layers）と１つ又は複数の完全結合層とを有するＣＮＮとすることができる。１組又は複数組の並列特徴マップ層は、畳み込みを実施して、完全結合層に特徴のベクトルを供給できる。完全結合層は、任意選択的に且つ望ましくは、特徴マップ層よりもサイズ（ニューロン要素（neuron elements）の数）が小さく、そして、並列特徴マップ層から受信された特徴を符号化する役割りを果たすことができる。１つ又は複数のその他の組の並列特徴マップ層が、完全結合層から符号化済み特徴を受信して、符号化済み特徴に対して逆畳み込み（deconvolution）を実施することによって特徴ベクトルを再構成又は近似的に再構成できる。これらの特徴マップ層のサイズは、任意選択的に且つ望ましくは、完全結合層のサイズよりも大きく、そして、望ましくは、再構成された特徴ベクトルの次元が画像３８から生成された特徴ベクトルと同じ又はほぼ同じになるように選択される。出力層は、任意選択的に且つ望ましくは、再構成された特徴ベクトルを連結して、入力画像３８のサイズを復元する。

【0096】

オートエンコーダサブネットワーク４８において、畳み込みカーネルを使用して入力層の出力を並列特徴マップ層組に供給できる。任意選択的に及び望ましくは、ダウンサンプリングカーネル（down-sampling kernel）（例えば、マックスプーリングカーネル（max pooling kernel））を、並列特徴マップ層組相互間で、及び、最後の組の並列特徴マップ層と出力層との間でも、使用できる。任意選択的に且つ望ましくは、アップサンプリングカーネル（up-sampling kernel）を使用して完全結合層の出力を並列特徴マップ層組のうちの１つに供給できる。

【0097】

第２のニューラルサブネットワーク３６は、入力層、１組又は複数組の並列特徴マップ層、及び、１つ又は複数の出力層を有するＣＮＮとすることができる。畳み込みカーネルを使用して入力層から特徴を受信して１組の並列特徴マップ層に特徴を提供することができ、そして、任意選択的に且つ望ましくは、ダウンサンプリングカーネル（例えば、マックスプーリングカーネル）を、並列特徴マップ層組相互間で、使用できる。（サブネットワーク４０の層４２において連結されている）出力層は、任意選択的に且つ望ましくは、完全結合層であり、任意選択的に且つ望ましくは、最後の組の並列特徴マップ層から特徴を受信する。

【0098】

第１のニューラルサブネットワーク３２は、入力層、１つ又は複数の組の並列特徴マップ層、及び、１つ又は複数の出力層を有するＣＮＮとすることができる。畳み込みカーネル及びダウンサンプリングカーネル（例えば、マックスプーリングカーネル）を、並列特徴マップ層組相互間で交互に使用できる。任意選択的に且つ望ましくは、畳み込みカーネルを、入力層と最初の組の並列特徴マップ層との間で、使用する。

【0099】

サブネットワーク４０がサブネットワーク３２及び３６の出力を組み合わせるが、本発明の発明者は、サブネットワーク３２及び３６の少なくとも一方の出力を、それぞれの出力が、共有サブネットワーク４０によって組み合わされるが、別途でも処理されるように、分割することも有益であることを確認した。これは、追加のニューラルネットワーク層を用いて実施でき、あるいは、それぞれのサブネットワークの出力を受信するがその他のサブネットワークの出力を受信しない追加のサブネットワークを用いて実施できる。図２には、サブネットワーク３２の出力を受信する第１の追加のニューラルネットワーク層５２と、サブネットワーク３６の出力を受信する第２のニューラルネットワーク層５６と、が示されている。これらの追加の層５２及び５６の各々は、それぞれのサブネットワークの出力ベクトルを使用して、スコアを別々に計算できる。これらの実施形態の利点は、それらが２つのネットワークの検出精度を区別することを可能にすることである。例えば、１つの画像に、層５２によって計算された第１の検出スコアと、層５６によって計算された第２の検出スコアと、を割り当てることができる。これらのスコアは、例えば、重み付け合計（weighted sum）を使用して、比較する又は組み合すことができる。

【0100】

サブネットワーク３２を使用せずに、出力層５６を含むサブネットワーク４８及び３０を使用して、トレーニングサブセットの画像を生成できる。これは、トレーニングセット内の画像の数が多く、人間の観察者に提示する前に最初に機械（例えば、サブネットワーク４８及び３０と出力層５６とを含むがサブネットワーク３２を含まないネットワーク）によって画像を分類することが望ましい場合に、特に有用である。これらの実施形態において、層５６の出力を使用して、トレーニングサブセットの画像を最初に選択できる、例えば、ターゲットを含むと疑われる画像のみを最初に選択できる、あるいは、ターゲットを含むと疑われる画像とターゲットを含まないと疑われる画像との両方を、これら相互間の所定の比率で、最初に選択できる。

【0101】

サブネットワーク４８及び３０と出力層５６とを含むがサブネットワーク３２を含まないネットワークの使用によってトレーニングサブセットの画像が得られると、オートエンコーダサブネットワーク４８を使用せずに、サブネットワーク３２及び３６の両方を使用して、１つ又は複数のトレーニング反復を実行できる。これらの反復において、層５２の出力は、オートエンコーダサブネットワーク４８を迂回して、サブネットワーク３６に供給される。

【0102】

図３は、本発明の一部の実施形態に従う、画像分類に適した方法のフローチャート図である。本方法は、６０で始まり、６１に進み、そこで１つ又は複数の画像が受信される。この受信された画像が大きい場合、画像は、任意選択的に且つ望ましくは、複数のタイルにタイリングされ、その各々が、既に更に詳しく説明したように、個別の入力画像として、本方法によって使用される。あるいは、６１において、本方法は複数の入力画像を受信することができる。また、本方法が、複数の画像を受信し、これらの画像のうちの１つ又は複数又は各々をタイリングする実施形態も考えられる。

【0103】

本方法は、６２に進み、そこで、例えば、限定はしないが、ネットワーク３０のようなトレーニング済み画像分類ニューラルネットワークを各々の画像に適用して、ターゲットによって占められていると疑われる候補画像を検出する。本方法は、任意選択的に且つ望ましくは、既に更に詳しく説明したように、６３に進み、そこで、観察者に各々の候補画像を視覚刺激として提示し、６４に進み、そこで、観察者の脳から神経生理学的信号を収集し、６５に進み、そこで、神経生理学的信号を処理して、観察者によるターゲットの検出を示す神経生理学的事象を識別する。次に、本方法は、６６に進むことができ、そこで、画像内のターゲットの存在を、少なくとも部分的に神経生理学的事象の識別に基づいて、判定する。この判定６６は２値化することができ、その場合、画像には、その画像がターゲットを含むと識別されたときに１つの値（例えば、「１」）を取り、その画像がターゲットを含まないと識別されたときにはもう１つの値（例えば、「０」）を取り得る２値スコアが割り当てられる。あるいは、判定６６は非２値であってもよく、その場合、画像には、その画像がターゲットを含んでいる確度、あるいは、ターゲットとその画像内のオブジェクトとの間の類似性、を示す離散値又は連続値の範囲内の値を取り得る非２値スコアが割り当てられる。このスコアは、例えば、既に更に詳しく説明したように、神経生理学的信号の処理中に計算されるスコアであってもよい。

【0104】

本方法は、６７で終了する。

【0105】

方法６０を使用することの利点は、ニューラルネットワークによって事前に候補画像として識別された画像だけが観察者に提示されることである。これは、著しく、検出精度を向上させ、処理時間を短縮し、観察者の疲労を軽減する。

【0106】

次に、図４を参照すると、これは、本発明の一部の実施形態に従うシステム１３０の概略的な説明図である。システム１３０は、データプロセッサ１３２、このデータプロセッサ１３２と通信するディスプレイ１６０、及び、神経生理学的信号収集システム１４６を備えている。システム１３０は、任意の動作、例えば、上述した方法の全動作のうちの任意の動作を実行するために使用できる。システム１３０は、据え置き型のターゲット識別システムであってもよく、あるいは、携帯型のシステムであるか、又は、これと組み合わせることができ、例えば、限定はしないが、拡張現実システムの仮想現実システムであってもよい。

【0107】

神経生理学的信号収集システム１４６は、任意選択的に且つ望ましくは、１３２と通信し、画像１４８内のターゲット１５３を検出するための視覚刺激として画像１４８を提示された観察者の脳から神経生理学的信号を収集するように構成されている。

【0108】

データプロセッサ１３２は、代表的には、入出力（Ｉ／Ｏ）回路１３４と、中央処理装置（ＣＰＵ）、例えばマイクロプロセッサのようなデータ処理回路１３６と、代表的には揮発性メモリと不揮発性メモリの両方を含むメモリ１３８と、を備えている。Ｉ／Ｏ回路１３４は、その他のＣＰＵ１３６及びその他の装置又はシステム１３０の外部のネットワークとの間で、適切に構造化された形態の情報を、通信するために使用される。ＣＰＵ１３６は、Ｉ／Ｏ回路１３４及びメモリ１３８と通信する。これらの構成要素は、ほとんどの汎用コンピュータに一般的に見られるものとすることができ、それ自体既知である。

【0109】

ディスプレイ装置１６０は、代表的にはＩ／Ｏ回路１３４を介して、データプロセッサ１３２と通信するように示されている。データプロセッサ１３２は、ＣＰＵ１３６によって生成されたグラフィック及び／又はテキスト出力画像をディスプレイ装置１６０に送出する。キーボード１４２も、代表的にはＩ／Ｏ回路１３４を介してデータプロセッサ１３２と通信できる。

【0110】

また、任意選択的に且つ望ましくは、本発明の一部の実施形態に従って使用されてもよいリモートコンピュータ１５０も示されており、これは、同様に、ハードウェアプロセッサ１５２、Ｉ／Ｏ回路１５４、ハードウェアＣＰＵ１５６、ハードウェアメモリ１５８を備えていてもよい。任意選択的に、リモートコンピュータ１６０は、グラフィカルユーザインタフェース１６６を備えていてもよい。システム１３０及びコンピュータ１５０のＩ／Ｏ回路１３４と１５４は、有線又は無線通信を介して、互いに情報を伝達するトランシーバとして動作できる。例えば、システム１３０及びコンピュータ１５０は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）又はインターネットなどのネットワーク１４０を介して通信できる。一部の実施形態において、プロセッサ１３２及び１５２のいずれも、クラウドコンピューティング設備のクラウドコンピューティングリソースの一部とすることができる。

【0111】

クライアント１３０及びサーバ１５０のコンピュータは、それぞれ、１つ又は複数のコンピュータ可読記憶媒体１４４、１６４を更に備えていてもよい。媒体１４４及び１６４は、本明細書において更に詳しく説明した選択済み動作を実行するためのコンピュータコード命令を記憶する非一時的記憶媒体であることが望ましく、プロセッサ１３２及び１５２は、これらのコード命令を実行する。これらのコード命令は、プロセッサ１３２及び１５２のそれぞれの実行メモリ１３８及び１５８にそれぞれのコード命令をロードすることによって、実行できる。記憶媒体１４４及び１６４の各々は、それぞれのプロセッサによって読み取られると、そのプロセッサに、本明細書において説明した方法を、実行させるプログラム命令を記憶できる。

【0112】

神経生理学的信号収集システム１４４は、任意選択的に且つ望ましくは、データプロセッサ１３２と通信し、既に更に詳しく説明したように、観察者１６２の脳から神経生理学的信号を収集するように構成されている。

【0113】

本発明の一部の実施形態において、システム１３０のデータプロセッサ１３２は、本明細書に記載の方法を実行するように構成されている。本方法によって使用される画像は、プロセッサ１３２によって記憶装置１４４から取り出すことができ、あるいは、ネットワーク１４０を介してコンピュータ１５０からプロセッサ１５２に送信できる。１つ又は複数の画像がプロセッサ１３２によって記憶装置１４４から取り出され、１つ又は複数の画像がネットワーク１４０を介してコンピュータ１５０からプロセッサ１５２に送信される実施形態も考えられる。例えば、トレーニングセットを形成する画像を記憶装置１４４から取り出すことができ、本実施形態の方法によって分類されるべき画像を、ネットワーク１４０を介して、送信できる。本画像分類方法が画像内のターゲットの存在を判定すると、検出スコアをシステム１３０からコンピュータ１５０に送信でき、それによって、その検出スコア及び、任意選択的に且つ望ましくは、画像もＧＵＩ１６６上に表示できる。

【0114】

本明細書で使用する「約」は、±１０％または±５％を指す。

【0115】

「代表的な（exemplary）」という語句は、本明細書では「一例、具体例あるいは実例として役立つ」という意味で使用されている。「代表的な」として説明された実施形態は、必ずしもその他の実施形態よりも望ましい又は有利であると解釈されるべきではなく、及び／又は、その他の実施形態から得られる特徴の組み込みを除外するものではない。

【0116】

「任意選択的に（optionally）」という語句は、本明細書では、「一部の実施形態においては提供され、その他の実施形態においては提供されない」という意味で使用されている。本発明の任意の特定の実施形態には、複数の「任意選択的な（optional）」特徴が、互いに対立・矛盾しなければ、含まれ得る。

【0117】

「具備する（ｃｏｍｐｒｉｓｅｓ）」、「具備している（ｃｏｍｐｒｉｓｉｎｇ）」、「含む（ｉｎｃｌｕｄｅｓ）」、「含む（ｉｎｃｌｕｄｉｎｇ）」、「有する（ｈａｖｉｎｇ）」という用語およびその活用形は、「限定されるものではないが、含む（ｉｎｃｌｕｄｉｎｇｂｕｔｎｏｔｌｉｍｉｔｅｄｔｏ）」を意味する。

【0118】

「からなる」という用語は、「含み、限定される」ことを意味する。

【0119】

「から実質的になる」という用語は、組成物、方法または構造が追加の成分、工程および／または部分を含み得ることを意味する。但しこれは、追加の成分、工程および／または部分が、請求項に記載の組成物、方法または構造の基本的かつ新規な特性を実質的に変更しない場合に限られる。

【0120】

本明細書において、単数形を表す「ａ」、「ａｎ」および「ｔｈｅ」は、文脈が明らかに他を示さない限り、複数をも対象とする。例えば、「化合物（a compound）」または「少なくとも１種の化合物」には、複数の化合物が含まれ、それらの混合物をも含み得る。

【0121】

本願全体を通して、本発明のさまざまな実施形態は、範囲形式にて示され得る。範囲形式での記載は、単に利便性および簡潔さのためであり、本発明の範囲の柔軟性を欠く制限ではないことを理解されたい。したがって、範囲の記載は、可能な下位の範囲の全部、およびその範囲内の個々の数値を特異的に開示していると考えるべきである。例えば、１～６といった範囲の記載は、１～３、１～４、１～５、２～４、２～６、３～６等の部分範囲のみならず、その範囲内の個々の数値、例えば１、２、３、４、５および６も具体的に開示するものとする。これは、範囲の大きさに関わらず適用される。

【0122】

本明細書において数値範囲を示す場合、それは常に示す範囲内の任意の引用数（分数または整数）を含むことを意図する。第１の指示数と第２の指示数「との間の範囲」という表現と、第１の指示数「から」第２の指示数「までの範囲」という表現は、本明細書で代替可能に使用され、第１の指示数および第２の指示数と、それらの間の分数および整数の全部を含むことを意図する。

【0123】

明確さのために別個の実施形態に関連して記載した本発明の所定の特徴はまた、１つの実施形態において、これら特徴を組み合わせて提供され得ることを理解されたい。逆に、簡潔さのために１つの実施形態に関連して記載した本発明の複数の特徴はまた、別々に、または任意の好適な部分的な組み合わせ、または適当な他の記載された実施形態に対しても提供され得る。さまざまな実施形態に関連して記載される所定の特徴は、その要素なしでは特定の実施形態が動作不能でない限り、その実施形態の必須要件であると捉えてはならない。

【0124】

上述したように、本明細書に記載され、特許請求の範囲に請求される本発明のさまざまな実施形態および態様は、以下の実施例によって実験的に支持されるものである。

【0125】

例（EXAMPLES）
ここで、上記の記載と共に本発明を限定することなく説明する以下の実施例に参照する。

【0126】

例１（Example 1）
代表的な実践態様（Representative Implementation）
この例は、本実施形態の技術の代表的な実践態様を説明する。この実践態様は、本方法によってタイリングされる大きな入力画像の場合について、説明する。本明細書に記載された詳細情報を提供された当業者は、画像組の個々の画像の場合についても、この技術をどのように実践するかが分かるであろう。

【0127】

空中画像又は広い領域をカバーするカメラから得られる高解像度画像のような大きな画像の場合において、任意選択的に且つ望ましくは、経験豊富な人間の観察者に対して、潜在的なターゲット又は対象オブジェクトを含んでいる可能性のある画像の一部分を、望ましくはＲＳＶＰモードで、提示し、それによって、観察者の能力を上げることができる。本発明の種々の代表的な実施形態において、その画像のその他の部分は、観察者に提示されない。

【0128】

本発明の一部の実施形態は反復プロセスを提供し、これは、視覚オブジェクト認識ニューラルネットワークの出力を使用して人間の観察者に示される画像選択の手順を簡素化し、人間の観察者の分類の出力を使用してニューラルネットワークのトレーニングを向上させる。

【0129】

代表的なフレームワークには、以下の動作のうちの１つ又は複数の動作が含まれる。

【0130】

１．視覚オブジェクト認識についてトレーニング前のニューラルネットワークをトレーニングする、あるいは、使用する。このネットワークは、タスク内の対象オブジェクトに類似したオブジェクトを検出するようにトレーニングできる。

【0131】

２．トレーニング済みオブジェクト認識ニューラルネットワークを使用して入力画像から特徴を抽出する。

【0132】

３．教師なし特徴学習用の追加のオートエンコーダ層を加えて入力画像をより良く表現する。

【0133】

４．任意選択的に且つ望ましくは、ＲＳＶＰモードにおいて連続的な人間の観察（sequenced human observation）を可能にするようにサイズ設定されたＮ個の画像パッチから成るブロックを形成する。最初のブロックは、次の１つ又は複数の処理によって、形成できる。

【0134】

４．１．抽出された特徴を、Ｋ個のクラスタに、教師なしクラスタリング（unsupervised clustering）する。クラスタは、画像内に提示された相異なるタイプの複数のオブジェクトと一致し、これらのクラスタのうちの１つが、ターゲットに似た複数のオブジェクトである場合がある。次に、Ｋ個のクラスタをサンプリングして複数の画像から成るブロックを形成する、即ち、各々のクラスタからＮ個の表現物（representations）を選択して、それらからＲＳＶＰモードでの人間の観察に最適化された小さな画像パッチを再構成する。（例えば、オッドボールパラダイム（oddball paradigm）に従って）求められているターゲット検出ＥＲＰ応答を引き出すために、非ターゲットに対するターゲットの比は、任意選択的に且つ望ましくは、約１～約１０とする。従って、Ｋは、例えば約１０になるように選択できる。最大のクラスタには、気を散らす特徴が含まれ得る。一部の実施形態において、このクラスタは、調べるデータの量を減らすために、除外される。

【0135】

４．２．Ｎ個のパッチをランダムにサンプリングする。

【0136】

４．３．ターゲット例が（例えば、基準画像の形態で）利用可能である場合、任意選択的に且つ望ましくは、トレーニングのためにデータ量を増加させるために基準画像を増補することによって（例えば、回転画像を作成することによって）初期ターゲットモデルを構築して、教師なしオートエンコーダを使用して基準画像を代表する特徴を学習する。次に、平均画像からの距離に基づいてＮ個の画像パッチを選択できる。

【0137】

５．１ブロックの画像を、任意選択的に且つ望ましくはＲＳＶＰモードで、人間の観察者に提示して、そして、各々の画像に分類スコアを割り当てて、単一試行についてのＥＥＧ応答を分類する。

【0138】

６．ＥＥＧ応答によって分類された画像は、分類スコアに基づいてラベルを割り当てられ、そして、オブジェクト認識ニューラルネットワークにフィードバックされ、これによって、そのトレーニングが更新されるが、このプロセスは、ファインチューニング（fine-tuning）として知られている。ネットワークの全ての層、あるいは、あまり一般的ではなく且つより細部特有の特徴を含む後半の層のみ、をファインチューニングすることが可能である。

【0139】

７．所定の変換閾値が達成されるまで、段階２～６を数回反復して繰り返す。新たな反復ごとによって、人間の観察者に示されるように選択された画像は、任意選択的に且つ望ましくは、潜在的なターゲットをより正確に表す特徴に基づいている。

【0140】

図５は、本発明の一部の実施形態に従う代表的な実践態様を概略的に例示している。

【0141】

以下の例２及び例３には、図１に示されたフレームワークを使用して、大きな衛星画像について、実行されたシミュレーションの結果が含まれている。ＥＥＧ分類段階をシミュレートするためにラベルが導入された（上記段階６を参照されたい）。

【0142】

検出の精度及びトレーニングの効率は、任意選択的に且つ望ましくは、図６に例示された画像分類用のマルチモーダルＥＥＧ画像ニューラルネットワーク（multimodal EEG-Image neural network）を使用して、向上させることができる。このネットワークは、任意選択的に且つ望ましくは、入力として、画像と、この画像についての脳の反応に対応する単一試行ＥＥＧデータとを受信する。このネットワークは、特徴レベル融合（feature-level fusion）を用いて、これらの入力を検出スコアに分類するようにトレーニングされる。具体的には、このネットワークは、各々のタイプのデータについて個別に特徴を学習し、その後、これらの特徴を最終層用に結合する。これによって、このネットワークは、両方のモダリティ（modalities）から得られる特徴を使用して検出スコアを提供でき、そして、例えば、それらのモダリティの一方が十分なサポートを有していないときを識別できる。

【0143】

分類されるべきターゲットは、未知のこともあれば、あるいは、変わることもある。このような場合、ネットワークの画像部分は、ターゲット画像についてトレーニングできない。この問題を解決するために、まず、教師なしオートエンコーダモデルを使用して、ターゲットを含まない画像のみについてネットワークをトレーニングする（「半教師付きネットワーク」）。このオートエンコーダモデルは、特徴から画像を再構成する方法を学習し、画像に関する適切な情報を表す特徴を生成する。次に、オートエンコーダによって抽出された特徴が、元の画像の代わりに、マルチモーダルネットワークへの入力として使用される。もう１つの入力は、ラベル付けされたＥＥＧデータである。このネットワークは、任意選択的に且つ望ましくは、各々の入力に対して別々の層で始まり、各々の入力から得られる特徴を連結する層で続行して、そして最終分類層で終了する。以下の例２及び例３には、イメージデータについてのマルチモーダルネットワークの適用の結果が含まれている。

【0144】

例２
コンピュータシミュレーション
このフレームワークへの入力画像は、図７に示された大きな空中画像であった。ターゲットは、人造の建物として定義した。入力画像には、合計１０１個のターゲットが含まれていた。

【0145】

図８Ａは、入力画像を表す最初のマップを示している。黄色のシンボルはターゲットとして識別されたオブジェクトを表し、紫色のシンボルは非ターゲットとして識別されたオブジェクトを表している。

【0146】

図８Ｂは、１回目の反復後のマップを示している。ランダムに選択された観察者に提示されるべき画像の一部は、全画像数の約１．５％を構成し、クラスタリングによって選択された観察者に提示されるべき画像の一部は約１０％であった。ＲＳＶＰにおけるターゲット数は２４であり、ＲＳＶＰにおける非ターゲット数は２７６であった。

【0147】

図８Ｃは、２回目の反復後のマップを示している。ランダムに選択された観察者に提示されるべき画像の一部は、全画像数の約１．５％を構成し、クラスタリングによって選択された観察者に提示されるべき画像の一部は約１０．２％であった。ＲＳＶＰにおけるターゲット数は７６であり、ＲＳＶＰにおける非ターゲット数は２２４であった。

【0148】

図８Ｄは、３回目の反復後のマップを示している。ランダムに選択された観察者に提示されるべき画像の一部は、全画像数の約１．５％を構成し、クラスタリングによって選択された観察者に提示されるべき画像の一部は約１０．１９％であった。ＲＳＶＰにおけるターゲット数は１であり、ＲＳＶＰにおける非ターゲット数は２９９であった。

【0149】

検出されたターゲットの総数は、２４（１回目の反復）＋７６（２回目の反復）＋１（３回目の反復）＝１０１であった。従って、３回の反復後に、この技術は、任意選択的に且つ望ましくは、１００％の精度で、且つ、誤検出なしで、全てのターゲットを識別することができた。

【0150】

例３
オートエンコーダを用いたマルチモーダルネットワークの動作性能
動作性能を、以下、被験者Ａ及び被験者Ｂと呼ぶ２人の被験者が関与した１２の相異なるＲＳＶＰセッション（各々の被験者につき６セッション）について、評価した。タスクは、人造のオブジェクトを検出することであった。以下の表１は、各々のセッションについての動作性能をまとめたものである。

【0151】

【表1】

３つの追加の動作性能分析を行った。第１の追加の動作性能分析において、図６に示されたＥＥＧネットワークを評価し、第２の追加の動作性能分析において、図６における画像ネットワークを評価し、第３の追加の動作性能分析において、図６のＥＥＧネットワークと画像ネットワークとの組み合わせを、オートエンコーダなしで、評価した。これらの３つの分析において、画像を、それがターゲットを含んでいるか、あるいは、含んでいないか、のどちらかとしてアプリオリ（a priori）にラベル付けし（２値ラベリング）、そして、その２値ラベルをそれぞれの教師付き学習用のネットワークに供給した。

【0152】

図９Ａ～図９Ｄは、図６に示されたマルチモーダルネットワークの動作性能を、その他のネットワークの動作性能と、比較している。この例における分析されたネットワークの各々について、図９Ａは正確な分類のパーセンテージを表すヒストグラムを示し、図９Ｂはヒットのパーセンテージを表すヒストグラムを示し、図９Ｃは誤りアラームのパーセンテージを表すヒストグラムを示し、図９Ｄは均衡精度を表すヒストグラムを示している。図９Ａ～図９Ｄにおいて、ＥＥＧＩＭＧＡｅＮｅｔと表示された結果は図６に示されたオートエンコーダを有するマルチモーダルネットワークに対応しており、ＥｅｇＮｅｔと表示された結果は図６内のＥＥＧネットワークに対応しており、ＩｍｇＮｅｔと表示された結果は図６内の画像ネットワークに対応しており、ＥｅｇＩｍｇＮｅｔと表示された結果は図６のオートエンコーダなしのＥＥＧネットワークと画像ネットワークとの組み合わせに対応している。

【0153】

本発明をその特定の実施形態との関連で説明したが、多数の代替、修正および変種が当業者には明らかであろう。したがって、そのような代替、修正および変種の全ては、添付の特許請求の範囲の趣旨および広い範囲内に含まれることを意図するものである。

【0154】

本明細書で言及した全ての刊行物、特許および特許出願は、個々の刊行物、特許および特許出願のそれぞれについて具体的且つ個別の参照により本明細書に組み込む場合と同程度に、それらの全体が参照により本明細書に組み込まれる。加えて、本願におけるいかなる参考文献の引用または特定は、このような参考文献が本発明の先行技術として使用できることの容認として解釈されるべきではない。また、各節の表題が使用される範囲において、必ずしも限定として解釈されるべきではない。

【図1】