(58)【調査した分野】(Int.Cl.,DB名)
前記データプロセッサが、前記画像に神経生理学的検出スコアを割り当て、少なくとも部分的に前記神経生理学的検出スコアに基づいて前記画像内の前記目標物の存在を判定する、
請求項22または23に記載の画像を分類するシステム。
前記データプロセッサが、前記コンピュータビジョン手順を使用して前記画像にコンピュータ検出スコアを割り当て、前記コンピュータ検出スコアおよび前記神経生理学的検出スコアに基づいて前記画像内の前記目標物の存在を判定する、
請求項24に記載の画像を分類するシステム。
前記データプロセッサが、前記コンピュータ検出スコアを前記神経生理学的検出スコアと比較し、前記比較に基づいて、少なくとも1つの画像領域または画像領域のグループを前記観察者に再提示する、
請求項25に記載の画像を分類するシステム。
前記データプロセッサが、前記神経生理学的信号を処理して瞬目を識別し、画像領域または画像領域のグループを前に提示している間に瞬目が識別されたことに応じて、前記画像領域または画像領域のグループを前記観察者に再提示する、
請求項22〜26のいずれか一項に記載の画像を分類するシステム。
前記データプロセッサが、少なくとも1つの画像領域について前記提示および前記神経生理学的事象の前記識別を繰り返し、前記少なくとも1つの画像領域の前記識別を前の識別と比較し、前記比較に基づいて前記観察者の神経生理学的状態を判定する、
請求項22〜27のいずれか一項に記載の画像を分類するシステム。
前記データプロセッサが、前記目標物を含むデータベース画像領域を前記観察者に提示し、前記神経生理学的信号を処理して前記観察者による前記データベース画像領域内の前記目標物の検出を示す神経生理学的事象を識別し、前記識別に基づいて前記観察者の神経生理学的状態を判定する、
請求項22〜28のいずれか一項に記載の画像を分類するシステム。
前記データプロセッサが、前記神経生理学的信号を処理して筋緊張を識別し、画像領域または画像領域のグループを前に提示している間に筋緊張が識別されたことに応じて、前記画像領域または画像領域のグループを前記観察者に再提示する、
請求項22〜29のいずれか一項に記載の画像を分類するシステム。
【発明の概要】
【課題を解決するための手段】
【0008】
本発明のいくつかの実施形態の一態様によると、画像を分類する方法を提供する。本方法は、画像にコンピュータビジョン手順(computer vision procedure)を適用して、目標物によって占有されていると疑われる候補画像領域を画像内で検出するステップと、各候補画像領域を視覚刺激として観察者に提示する一方、観察者の脳から神経生理学的信号を収集するステップと、神経生理学的信号を処理して、観察者による目標物の検出を示す神経生理学的事象(neurophysiological event)を識別するステップと、少なくとも部分的に神経生理学的事象の識別に基づいて、画像内の目標物の存在を判定するステップと、を含む。
【0009】
本発明のいくつかの実施形態によると、本方法は、少なくとも1つのタイルが候補画像領域を包含するように、画像を複数の画像タイルにタイル分割するステップをさらに含み、少なくとも1つのタイルを提示して各候補画像領域を提示する。
【0010】
本発明のいくつかの実施形態によると、本方法は、画像に神経生理学的検出スコアを割り当てるステップをさらに含み、少なくとも部分的に神経生理学的検出スコアに基づいて画像内の目標物の存在を判定する。
【0011】
本発明のいくつかの実施形態によると、本方法は、コンピュータビジョン手順を使用して画像にコンピュータ検出スコアを割り当てるステップをさらに含み、コンピュータ検出スコアおよび神経生理学的検出スコアに基づいて、画像内の目標物の存在を判定する。
【0012】
本発明のいくつかの実施形態によると、本方法は、少なくとも1つの画像領域または画像領域のグループについて、コンピュータ検出スコアを神経生理学的検出スコアと比較するステップと、この比較に基づいて、その少なくとも1つの画像領域または画像領域のグループを観察者に再提示するステップと、を含む。
【0013】
本発明のいくつかの実施形態によると、本方法は、神経生理学的信号を処理して瞬目を識別するステップと、画像領域または画像領域のグループを前に提示している間に瞬目が識別されたことに応じて、その画像領域または画像領域のグループを観察者に再提示するステップと、を含む。
【0014】
本発明のいくつかの実施形態によると、本方法は、少なくとも1つの画像領域について提示および神経生理学的事象の識別を繰り返すステップと、少なくとも1つの画像領域の識別を前の識別と比較するステップと、この比較に基づいて観察者の神経生理学的状態を判定するステップと、を含む。
【0015】
本発明のいくつかの実施形態によると、本方法は、目標物を含むデータベース画像領域を観察者に提示するステップと、神経生理学的信号を処理して、観察者によるデータベース画像領域内の目標物の検出を示す神経生理学的事象を識別するステップと、この識別に基づいて観察者の神経生理学的状態を判定するステップと、を含む。
【0016】
本発明のいくつかの実施形態によると、本方法は、神経生理学的信号を処理して筋緊張を識別するステップと、画像領域または画像領域のグループを前に提示している間に筋緊張が識別されたことに応えて、その画像領域または画像領域のグループを観察者に再提示するステップと、を含む。
【0017】
本発明のいくつかの実施形態の一態様によると、画像を分類する方法を提供する。本方法は、画像にコンピュータビジョン手順を適用して画像内で目標物を検出し、コンピュータビジョン手順を使用して画像にコンピュータ検出スコアを割り当てるステップと、画像を視覚刺激として観察者に提示する一方、観察者の脳から神経生理学的信号を収集するステップと、神経生理学的信号を処理して、観察者による目標物の検出を示す神経生理学的事象を識別し、この識別に基づいて画像に神経生理学的検出スコアを割り当てるステップと、コンピュータ検出スコアおよび神経生理学的検出スコアの両方に基づいて画像内の目標物の存在を判定するステップと、を含む。
【0018】
本発明のいくつかの実施形態によると、本方法は、コンピュータ検出スコアを神経生理学的検出スコアと比較するステップと、この比較に基づいて画像を観察者に再提示するステップと、を含む。
【0019】
本発明のいくつかの実施形態によると、本方法は、神経生理学的信号を処理して瞬目を識別するステップと、画像を前に提示したときに瞬目が識別されたことに応じて、画像を観察者に再提示するステップと、を含む。
【0020】
本発明のいくつかの実施形態によると、本方法は、提示および神経生理学的事象の識別を繰り返すステップと、画像の識別を前の識別と比較するステップと、この比較に基づいて観察者の神経生理学的状態を判定するステップと、を含む。
【0021】
本発明のいくつかの実施形態によると、神経生理学的信号がEEG信号を含み、本方法が、速波EEGに対する遅波EEGの比率を計算するステップと、この比率に基づいて観察者の神経生理学的状態を判定するステップと、を含む。
【0022】
本発明のいくつかの実施形態によると、本方法は、目標物を含むデータベース画像を観察者に提示するステップと、神経生理学的信号を処理して、観察者によるデータベース画像内の目標物の検出を示す神経生理学的事象を識別するステップと、この識別に基づいて観察者の神経生理学的状態を判定するステップと、を含む。
【0023】
本発明のいくつかの実施形態によると、本方法は、神経生理学的信号を処理して筋緊張を識別するステップと、画像を前に提示している間に筋緊張が識別されたことに応じて、画像を観察者に再提示するステップと、を含む。
【0024】
本発明のいくつかの実施形態によると、神経生理学的信号がEEG信号を含み、本方法が、速波EEGに対する遅波EEGの比率を計算するステップと、この比率に基づいて観察者の神経生理学的状態を判定するステップと、を含む。
【0025】
本発明のいくつかの実施形態によると、本方法は、神経生理学的信号を処理して瞬目を識別するステップと、瞬目の時間的パターンを評価するステップと、この時間的パターンに基づいて観察者の神経生理学的状態を判定するステップと、を含む。
【0026】
本発明のいくつかの実施形態によると、コンピュータビジョン手順は、クラスタリングを採用する。
【0027】
本発明のいくつかの実施形態によると、コンピュータビジョン手順は、ニューラルネットワークを採用する。
【0028】
本発明のいくつかの実施形態によると、少なくとも150Hzのサンプリングレートで神経生理学的信号を収集する。
【0029】
本発明のいくつかの実施形態によると、本方法は、収集された神経生理学的信号に低域通過フィルタを適用するステップ、を含む。
【0030】
本発明のいくつかの実施形態によると、神経生理学的信号に対して、空間的に重み付けされたフィッシャー線形判別(SWFLD:Spatially Weighted Fisher Linear Discriminant)分類器を適用し、神経生理学的信号を処理する。
【0031】
本発明のいくつかの実施形態によると、神経生理学的信号に対して、畳み込みニューラルネットワーク(CNN:convolutional neural network)分類器を適用し、神経生理学的信号を処理する。
【0032】
本発明のいくつかの実施形態によると、神経生理学的信号を処理するステップは、空間的に重み付けされたフィッシャー線形判別(SWFLD)分類器を適用するステップと、SWFLD分類器に基づいてSWFLD分類スコアを計算するステップと、神経生理学的信号に、畳み込みニューラルネットワーク(CNN)分類器を適用するステップと、CNN分類器に基づいてCNN分類スコアを計算するステップと、SWFLDスコアとCNNスコアとを組み合わせるステップと、を含む。
【0033】
本発明のいくつかの実施形態によると、CNNは、神経生理学的信号を特徴付ける複数の時間点それぞれに対して空間フィルタリングを適用する第1の畳み込み層と、第1の畳み込み層によって提供される出力に時間フィルタリングを適用する第2の畳み込み層と、第2の畳み込み層によって提供される出力に時間フィルタリングを適用する第3の畳み込み層と、を備えている。
【0034】
本発明のいくつかの実施形態によると、本方法は、観察者に対して、神経生理学的事象の識別に関するフィードバックを提示するステップを含む。
【0035】
本発明のいくつかの実施形態の一態様によると、画像を分類するシステムを提供する。本システムは、画像にコンピュータビジョン手順を適用して、目標物によって占有されていると疑われる画像領域を画像内で検出することによって、候補画像領域のセットを提供するデータプロセッサと、データプロセッサと通信し、各候補画像領域を視覚刺激として観察者に提示するディスプレイと、データプロセッサと通信し、提示時に観察者の脳から神経生理学的信号を収集して、神経生理学的信号をデータプロセッサに送信する神経生理学的信号収集システムと、を備えており、データプロセッサが、神経生理学的信号を処理して、観察者による目標物の検出を示す神経生理学的事象を識別し、少なくとも部分的に神経生理学的事象の識別に基づいて、画像内の目標物の存在を判定する。
【0036】
本発明のいくつかの実施形態によると、データプロセッサは、画像を複数の画像タイルにタイル分割し、少なくとも1つのタイルが候補画像領域を包含し、少なくとも1つのタイルを提示して各候補画像領域を提示する。
【0037】
本発明のいくつかの実施形態によると、データプロセッサは、画像に神経生理学的検出スコアを割り当て、少なくとも部分的に神経生理学的検出スコアに基づいて画像内の目標物の存在を判定する。
【0038】
本発明のいくつかの実施形態によると、データプロセッサは、コンピュータビジョン手順を使用して画像にコンピュータ検出スコアを割り当て、コンピュータ検出スコアおよび神経生理学的検出スコアに基づいて画像内の目標物の存在を判定する。
【0039】
本発明のいくつかの実施形態によると、データプロセッサは、コンピュータ検出スコアを神経生理学的検出スコアと比較し、この比較に基づいて、少なくとも1つの画像領域または画像領域のグループを観察者に再提示する。
【0040】
本発明のいくつかの実施形態によると、データプロセッサは、神経生理学的信号を処理して瞬目を識別し、画像領域または画像領域のグループを前に提示している間に瞬目が識別されたことに応えて、その画像領域または画像領域のグループを観察者に再提示する。
【0041】
本発明のいくつかの実施形態によると、データプロセッサは、少なくとも1つの画像領域について提示および神経生理学的事象の識別を繰り返し、少なくとも1つの画像領域の識別を前の識別と比較し、この比較に基づいて観察者の神経生理学的状態を判定する。
【0042】
本発明のいくつかの実施形態によると、データプロセッサは、目標物を含むデータベース画像領域を観察者に提示し、神経生理学的信号を処理して、観察者によるデータベース画像領域内の目標物の検出を示す神経生理学的事象を識別し、この識別に基づいて観察者の神経生理学的状態を判定する。
【0043】
本発明のいくつかの実施形態によると、データプロセッサは、神経生理学的信号を処理して筋緊張を識別し、画像領域または画像領域のグループを前に提示している間に筋緊張が識別されたことに応じて、画像領域または画像領域のグループを観察者に再提示する。
【0044】
本発明のいくつかの実施形態の一態様によると、画像を分類するシステムであって、画像にコンピュータビジョン手順を適用して画像内で目標物を検出し、コンピュータビジョン手順を使用して画像にコンピュータ検出スコアを割り当てるデータプロセッサと、データプロセッサと通信し、画像を視覚刺激として観察者に提示するディスプレイと、データプロセッサと通信し、提示時に観察者の脳から神経生理学的信号を収集して、神経生理学的信号をデータプロセッサに送信する神経生理学的信号収集システムと、を備えており、データプロセッサが、神経生理学的信号を処理して、観察者による目標物の検出を示す神経生理学的事象を識別し、識別に基づいて、画像に神経生理学的検出スコアを割り当て、画像内の目標物の存在を、コンピュータ検出スコアおよび神経生理学的検出スコアの両方に基づいて判定するシステムを提供する。
【0045】
本発明のいくつかの実施形態によると、データプロセッサは、コンピュータ検出スコアを神経生理学的検出スコアと比較し、この比較に基づいて画像を観察者に再提示する。
【0046】
本発明のいくつかの実施形態によると、データプロセッサは、神経生理学的信号を処理して瞬目を識別し、画像を前に提示している間に瞬目が識別されたことに応じて、画像を観察者に再提示する。
【0047】
本発明のいくつかの実施形態によると、データプロセッサは、提示および神経生理学的事象の識別を繰り返し、画像の識別を前の識別と比較し、この比較に基づいて観察者の神経生理学的状態を判定する。
【0048】
本発明のいくつかの実施形態によると、データプロセッサは、目標物を含むデータベース画像を観察者に提示し、神経生理学的信号を処理して、観察者によるデータベース画像内の目標物の検出を示す神経生理学的事象を識別し、この識別に基づいて観察者の神経生理学的状態を判定する。
【0049】
本発明のいくつかの実施形態によると、データプロセッサは、神経生理学的信号を処理して筋緊張を識別し、画像を前に提示している間に筋緊張が識別されたことに応じて、画像を観察者に再提示する。
【0050】
本発明のいくつかの実施形態によると、神経生理学的信号がEEG信号を含み、データプロセッサが、速波EEGに対する遅波EEGの比率を計算し、この比率に基づいて観察者の神経生理学的状態を判定する。
【0051】
本発明のいくつかの実施形態によると、データプロセッサは、神経生理学的信号を処理して瞬目を識別し、瞬目の時間的パターンを評価し、この時間的パターンに基づいて観察者の神経生理学的状態を判定する。
【0052】
本発明のいくつかの実施形態によると、データプロセッサは、神経生理学的事象の識別に関するフィードバックを観察者に提示する。
【0053】
本発明のいくつかの実施形態によると、本システムは、仮想現実システム(virtual reality system)である。
【0054】
本発明のいくつかの実施形態によると、本システムは、拡張現実システム(augmented reality system)である。
【0055】
本発明のいくつかの実施形態の一態様によると、画像を分類する方法を提供する。本方法は、画像を視覚刺激として観察者に提示する一方、観察者の脳から神経生理学的信号を収集するステップと、神経生理学的信号をデジタル化して神経生理学的データを生成するステップと、畳み込みニューラルネットワーク(CNN)を使用して画像および神経生理学的データを同時に処理して、画像内の目標物のコンピュータビジョン検出と、観察者による目標物の検出を示す神経生理学的事象との間の相互関係を識別するステップと、識別された相互関係に基づいて画像内の目標物の存在を判定するステップと、を含み、CNNが、神経生理学的データを受信して処理するように構成されている第1の畳み込みニューラルサブネットワーク(CNS:convolutional neural subnetwork)と、画像を受信して処理するように構成されている第2の畳み込みニューラルサブネットワーク(CNS)と、第1のCNSおよび第2のCNSの両方からの出力を受信して組み合わせるニューラルネットワーク層を有する共有サブネットワークと、を備えている。
【0056】
本発明のいくつかの実施形態によると、本方法は、少なくとも第1のCNSを使用して画像に神経生理学的検出スコアを割り当てるステップと、少なくとも第2のCNSを使用して画像にコンピュータ検出スコアを割り当てるステップと、コンピュータ検出スコアを神経生理学的検出スコアと比較するステップと、この比較に基づいて、画像を観察者に再提示するステップと、を含む。
【0057】
本発明のいくつかの実施形態によると、本方法は、神経生理学的信号を処理して瞬目を識別するステップと、画像を前に提示している間に瞬目が識別されたことに応じて、画像を観察者に再提示するステップと、を含む。
【0058】
本発明のいくつかの実施形態によると、本方法は、提示および同時の処理を繰り返すステップと、画像の識別を前の識別と比較するステップと、この比較に基づいて観察者の神経生理学的状態を判定するステップと、を含む。
【0059】
本発明のいくつかの実施形態によると、神経生理学的信号がEEG信号を含み、本方法が、速波EEGに対する遅波EEGの比率を計算するステップと、この比率に基づいて観察者の神経生理学的状態を判定するステップと、を含む。
【0060】
本発明のいくつかの実施形態によると、本方法は、目標物を含むデータベース画像を観察者に提示するステップと、神経生理学的信号を処理して、観察者によるデータベース画像内の目標物の検出を示す神経生理学的事象を識別するステップと、この識別に基づいて観察者の神経生理学的状態を判定するステップと、を含む。
【0061】
本発明のいくつかの実施形態によると、本方法は、神経生理学的信号を処理して筋緊張を識別するステップと、画像を前に提示している間に筋緊張が識別されたことに応じて、画像を観察者に再提示するステップと、を含む。
【0062】
本発明のいくつかの実施形態によると、神経生理学的信号がEEG信号を含み、本方法が、速波EEGに対する遅波EEGの比率を計算するステップと、この比率に基づいて観察者の神経生理学的状態を判定するステップと、を含む。
【0063】
本発明のいくつかの実施形態によると、本方法は、神経生理学的信号を処理して瞬目を識別するステップと、瞬目の時間的パターンを評価するステップと、この時間的パターンに基づいて観察者の神経生理学的状態を判定するステップと、を含む。
【0064】
本発明のいくつかの実施形態によると、少なくとも150Hzのサンプリングレートで神経生理学的信号を収集する。
【0065】
本発明のいくつかの実施形態によると、本方法は、収集された神経生理学的信号に低域通過フィルタを適用するステップを含む。
【0066】
本発明のいくつかの実施形態によると、本方法は、神経生理学的事象の識別に関するフィードバックを観察者に提示するステップを含む。
【0067】
本発明のいくつかの実施形態によると、本方法は、仮想現実システムにおいて使用される。
【0068】
本発明のいくつかの実施形態によると、本方法は、拡張現実システムにおいて使用される。
【0069】
本発明のいくつかの実施形態によると、本方法は、目標物の存在の判定結果に応じて仮想現実システムまたは拡張現実システムによって提供される視野を変化させるステップを含む。
【0070】
本発明のいくつかの実施形態の一態様によると、画像を分類するシステムを提供する。本システムは、画像を受信するデータプロセッサと、データプロセッサと通信し、画像を視覚刺激として観察者に提示するディスプレイと、データプロセッサと通信し、提示時に観察者の脳から神経生理学的信号を収集して、神経生理学的信号をデータプロセッサに送信する神経生理学的信号収集システムとを備えており、データプロセッサが、神経生理学的信号をデジタル化して神経生理学的データを生成し、畳み込みニューラルネットワーク(CNN)を使用して画像および神経生理学的データを同時に処理して、画像内の目標物のコンピュータビジョン検出と、観察者による目標物の検出を示す神経生理学的事象との間の相互関係を識別し、識別された相互関係に基づいて画像内の目標物の存在を判定し、CNNが、神経生理学的データを受信して処理する第1の畳み込みニューラルサブネットワーク(CNS)と、画像データを受信して処理する第2の畳み込みニューラルサブネットワーク(CNS)と、第1のCNSおよび第2のCNSの両方からの出力を受信して組み合わせるニューラルネットワーク層を有する共有サブネットワークと、を備えている。
【0071】
本発明のいくつかの実施形態によると、データプロセッサは、少なくとも第1のCNSを使用して画像に神経生理学的検出スコアを割り当て、少なくとも第2のCNSを使用して画像にコンピュータ検出スコアを割り当て、コンピュータ検出スコアを神経生理学的検出スコアと比較し、この比較に基づいて、画像を観察者に再提示する。
【0072】
本発明のいくつかの実施形態によると、データプロセッサは、神経生理学的信号を処理して瞬目を識別し、画像を前に提示している間に瞬目が識別されたことに応じて、画像を観察者に再提示する。
【0073】
本発明のいくつかの実施形態によると、データプロセッサは、提示および同時の処理を繰り返し、画像の識別を前の識別と比較し、この比較に基づいて観察者の神経生理学的状態を判定する。
【0074】
本発明のいくつかの実施形態によると、データプロセッサは、目標物を含むデータベース画像を観察者に提示し、神経生理学的信号を処理して、観察者によるデータベース画像内の目標物の検出を示す神経生理学的事象を識別し、この識別に基づいて観察者の神経生理学的状態を判定する。
【0075】
本発明のいくつかの実施形態によると、データプロセッサは、神経生理学的信号を処理して筋緊張を識別し、画像を前に提示している間に筋緊張が識別されたことに応じて、画像を観察者に再提示する。
【0076】
本発明のいくつかの実施形態によると、神経生理学的信号がEEG信号を含み、データプロセッサが、速波EEGに対する遅波EEGの比率を計算し、この比率に基づいて観察者の神経生理学的状態を判定する。
【0077】
本発明のいくつかの実施形態によると、データプロセッサは、神経生理学的信号を処理して瞬目を識別し、瞬目の時間的パターンを評価し、この時間的パターンに基づいて観察者の神経生理学的状態を判定する。
【0078】
本発明のいくつかの実施形態によると、データプロセッサは、神経生理学的事象の識別に関するフィードバックを観察者に提示する。
【0079】
本発明のいくつかの実施形態によると、フィードバックは2値である。
【0080】
本発明のいくつかの実施形態によると、フィードバックは非2値である。
【0081】
本発明のいくつかの実施形態によると、本システムは、仮想現実システムである。
【0082】
本発明のいくつかの実施形態によると、本システムは、拡張現実システムである。
【0083】
本発明のいくつかの実施形態によると、データプロセッサは、目標物の存在の判定結果に応じて、仮想現実システムまたは拡張現実システムによって提供される視野を変化させる。
【0084】
特に定義されていない限り、本明細書において使用されているすべての技術用語および/または科学用語は、本発明に関連する技術分野における通常の技術を有する者によって一般的に理解されている意味と同じ意味を有する。本発明の実施形態を実施または試験するとき、本明細書に記載されている方法および材料に類似するかまたは同等の方法および材料を使用できるが、例示的な方法および/または材料が以下に記載してある。矛盾が生じる場合、定義を含めて本特許明細書に従うものとする。さらには、これらの材料、方法、および例は、説明のみを目的としており、本発明を制限するようには意図されていない。
【0085】
本発明の実施形態の方法および/またはシステムの実施においては、選択されたタスクを、手操作で、または自動的に、またはこれらの組合せによって、実行または完了することができる。さらには、本発明の方法および/またはシステムの実施形態の実際の機器および装置に応じて、いくつかの選択されたタスクを、ハードウェア、ソフトウェア、またはファームウェアによって、あるいはオペレーティングシステムを使用するこれらの組合せによって、実施することができる。
【0086】
例えば、本発明の実施形態による選択されたタスクを実行するためのハードウェアは、チップまたは回路として実施することができる。ソフトウェアとしては、本発明の実施形態による選択されたタスクを、任意の適切なオペレーティングシステムを使用するコンピュータによって実行される複数のソフトウェア命令として実施することができる。本発明の例示的な実施形態においては、本明細書に記載されている方法および/またはシステムの例示的な実施形態による1つまたは複数のタスクは、データプロセッサ(複数の命令を実行するコンピューティングプラットフォームなど)によって実行される。オプションとして、データプロセッサは、命令および/またはデータを記憶する揮発性メモリ、および/または、命令および/またはデータを記憶する不揮発性記憶装置(例えば磁気ハードディスクおよび/またはリムーバルメディア)、を含む。オプションとして、ネットワーク接続も提供される。オプションとして、ディスプレイおよび/またはユーザ入力装置(キーボードやマウスなど)も提供される。
【0087】
本明細書には、本発明のいくつかの実施形態を、添付の図面を参照しながら一例としてのみ説明してある。以下では図面を詳細に参照するが、図示されている細部は一例であり、本発明の実施形態を実例を通じて説明することを目的としていることを強調しておく。これに関して、図面を参照しながらの説明によって、当業者には、本発明の実施形態をどのように実施することができるかが明らかになる。
【発明を実施するための形態】
【0089】
本発明は、そのいくつかの実施形態においては、ブレインコンピュータインタフェースに関し、より詳細には、これに限定されないが、画像を分類する方法およびシステムに関する。
【0090】
本発明の少なくとも1つの実施形態について詳しく説明する前に、以下を理解されたい。すなわち本発明は、その適用において、以下の説明に記載されている、もしくは、図面および/または例に示されている、またはその両方である構成要素および/または方法の構造および配置の細部に、必ずしも制限されない。本発明は、別の実施形態の形をとることができ、あるいはさまざまな方法で実施または実行することができる。
【0091】
本発明の実施形態は、画像、より好ましくは画像のストリーム内の画像、さらにより好ましくは画像のストリーム内の各画像を、BCI(ブレインコンピュータインタフェース)によって分類するのに適する方法を対象とする。なお、特に定義されていない限り、以下に説明されている動作は、同時に実行する、またはさまざまな組合せまたは実行順序において連続的に実行することができることを理解されたい。特に、流れ図の順序は、本発明を制限するようにはみなされないものとする。例えば、以下の説明または流れ図において特定の順序で記載されている2つ以上の動作は、異なる順序で(例えば逆の順序で)実行する、あるいは実質的に同時に実行することができる。さらには、以下に記載されているいくつかの動作はオプションであり、実行しなくてもよい。
【0092】
動作の少なくとも一部は、データを受信して以下に記載されている動作を実行するように構成されているデータ処理システム(例えば専用回路や汎用コンピュータ)によって実施することができる。動作の少なくとも一部は、遠隔地におけるクラウドコンピューティングによって実施することができる。データ処理システムまたはクラウドコンピューティング設備は、少なくとも動作の一部において、画像処理システムとしての役割を果たすことができ、この場合、データ処理システムまたはクラウドコンピューティング設備によって受信されるデータに画像データが含まれる。
【0093】
本発明の実施形態の方法を実施するコンピュータプログラムは、一般には、配布媒体(例えば、以下に限定されないが、フロッピーディスク、CD−ROM、フラッシュメモリデバイス、ポータブルハードディスク)を通じて使用者に配布することができる。配布媒体からハードディスクまたは類似する中間記憶媒体に、コンピュータプログラムをコピーすることができる。配布媒体または中間記憶媒体のいずれかからコンピュータ命令をコンピュータの実行メモリにロードし、本発明の方法に従って動作するようにコンピュータを設定することによって、コンピュータプログラムを実行することができる。これらの操作すべては、コンピュータシステムの技術分野における当業者に周知である。
【0094】
本発明の実施形態の方法は、数多くの形態において具体化することができる。例えば、本方法を、有形媒体(本方法の動作を実行するコンピュータなど)上に具体化することができる。本方法を、本方法の動作を実行するためのコンピュータ可読命令を備えたコンピュータ可読媒体上に具体化することができる。さらには、有形媒体上のコンピュータプログラムを実行するように構成された、またはコンピュータ可読媒体上の命令を実行するように構成されたデジタルコンピュータ機能を有する電子デバイスに、本方法を具体化することもできる。
【0095】
次に
図17を参照し、
図17は、本発明のさまざまな例示的な実施形態による、画像を分類するのに適する方法の流れ図である。
【0096】
本方法は、10から始まり、11に続き、11において画像を受信する。画像は任意の種類とすることができ、例えば、以下に限定されないが、カラー画像、赤外線画像、紫外線画像、熱画像、グレースケール画像、高ダイナミックレンジ(HDR)画像、空撮画像、医用画像、衛星画像、天体画像、顕微鏡画像、MRI画像、X線画像、熱画像、コンピュータ断層撮影(CT)画像、マンモグラフィ画像、ポジトロン放射型断層撮影(PET)画像、超音波画像、インピーダンス画像、単一光子放射型コンピュータ断層撮影(SPECT)画像、とすることができる。
【0097】
本方法は12に続き、12においては、画像にコンピュータビジョン手順を適用し、目標物によって占有されていると疑われる画像領域を画像内で検出する。この動作の結果として、候補画像領域のセットが得られる。目標物は、本方法への入力として、またはより好ましくはコンピュータビジョン手順を実行する画像プロセッサへの入力として、提供することができる。この入力は、基準画像の形とする、または、目標物が画像内の領域を占有しているか否かを画像プロセッサが判定することを可能にする1つまたは複数のコンピュータ可読記述子のセットとすることができる。目標物は、任意の形状の、目に見える任意の対象物とすることができ、例えば、生物(人間または動物)、生物の器官(例:顔、四肢)、無生物、無生物の一部とすることができる。
【0098】
12において提供されるセットは、任意の数の画像領域(1つの画像領域を含む)を含むことができる。コンピュータビジョン手順が画像内で目標物を検出できない場合があることを理解されたい。これらの場合、12において提供されるセットは、空集合である。
【0099】
本発明の実施形態では、入力された目標物を画像内で検出するのに適している任意のタイプのコンピュータビジョン手順を意図している。1つの好ましいコンピュータビジョン手順は、例えば非特許文献1に記載されている「Bag−of−Visual−Words(バッグ・オブ・ビジュアルワード)」または「Bag−of−Keypoints(バッグオブキーポイント)」として公知である。この手順では、低レベルの特徴と高レベルのコンセプトとの間のセマンティックギャップ(semantic gap)を橋渡しするための画像の中レベルの特徴付けを提供する目的で、「ビジュアルディクショナリ(visual dictionary)」(「ビジュアルボキャブラリ(visual vocabulary)」としても公知である)を利用する。ビジュアルディクショナリは、訓練サンプルのセット(訓練画像から抽出される低レベルの特徴とすることができる)をクラスタリングすることによって、教師なしで推定することができる。画像の特徴ベクトルの少なくとも一部分それぞれを、最も近いクラスタに割り当てて、占有ヒストグラム(occupancy histogram)を構築する。次に、分類器のセット(クラスあたり1つ)に占有ヒストグラムを提供することによって、画像を分類することができる。本発明のいくつかの実施形態に従って採用されるコンピュータビジョン手順において使用するのに適する分類器の代表的な例は、以下に限定されないが、サポートベクターマシン(SVM)、適応的ブースティング(Adaptive Boosting)、ナイーブベイズ(Naive Bayes)などである。
【0100】
Bag−of−Keypoints手順では、例えば局所特徴量(SURF:Speeded up Robust Features)検出器を使用して画像内のキーポイント(keypoint)を検出して、特徴ベクトルを形成することができる。次に、ビジュアルワード(visual word)のディクショナリを構築するため、教師ありクラスタ分析、またはより好ましくは教師なしクラスタ分析を特徴ベクトルに適用することができる。本発明の実施形態に適するクラスタリンク分析手順の代表的な例は、以下に限定されないが、例えばk平均法、ファジーk平均法、階層的クラスタリング、ベイジアンクラスタリングである。
【0101】
教師なしニューラルネットワークを採用するコンピュータビジョン手順も意図されている。1つのこのような好ましいコンピュータビジョン手順は、スパースオートエンコーダ(sparse autoencoder)に関連する。この場合、画像から、オプションとして好ましくはランダムに画像のパッチを抽出し、各パッチを連結して列ベクトルを形成する。オプションとして好ましくは、各ベクトルをニューラルネットワーク(一般には2層のニューラルネットワーク、ただし必須ではない)に通して、フィルタのセットを生成する。これらのフィルタによる畳み込みによって画像をフィルタリングして、フィルタリングされた画像のセットを得ることができ、この画像のセットを使用して特徴ベクトルを形成することができる。
【0102】
本発明の実施形態では、画像領域を検出するために2種類以上のコンピュータビジョン手順を使用することも意図されている。例えば、12において、2つ以上の異なるタイプのコンピュータビジョン手順を適用することによって得られる画像領域の集合を得ることができる。本発明の実施形態に適するコンピュータビジョン手順のさらに詳しい説明は、後から実施例のセクションに記載する。
【0103】
本発明のいくつかの実施形態においては、12において、コンピュータビジョン手順を使用して、さらに画像にコンピュータ検出スコアを割り当てる。スコアは、例えば範囲[0,1]とすることができ、この場合、0は、コンピュータビジョン手順によって目標物を検出できなかった画像に対応し、1は、コンピュータビジョン手順によって目標物が検出された画像に対応する。
【0104】
本方法は13に続き、13においては、各候補画像領域を視覚刺激として観察者(好ましくは人間の観察者)に提示する。この提示は、表示装置を使用して行うことができる。いくつかの実施形態においては、少なくとも1つのタイルが候補画像領域を包含するように、画像を複数の画像タイルにタイル分割する。これらの実施形態では、13において、候補画像領域を包含するタイルを提示する。これらの実施形態の利点として、観察者が視覚的に容易に認識できるようにタイルのサイズ(例:面積)を選択することができる。
【0105】
これに代えて、候補画像領域のみではなく画像全体を観察者に提示することができる。画像は、全体として提示する、または、候補画像領域を包含する、または包含していない複数の画像タイルにタイル分割することができる。これらの実施形態では、13において、画像を提示する、または画像のタイルを、これらが候補領域を包含しているか否かには無関係に提示する。
【0106】
領域、すなわちタイルは、十分に高い速度で連続的に提示することが好ましい。このような提示は、高速逐次視覚提示(RSVP:Rapid Serial Visual Presentation)と称される。速度は、高速な一連の視覚提示において、重なり合う反応に対処できるように選択することが好ましい。本発明の実施形態に適する代表的な提示速度は、約2Hz〜約20Hz、または約2Hz〜約15Hz、または約2Hz〜約10Hz、または約5Hz〜約20Hz、または約5Hz〜約15Hz、または約5Hz〜約10Hzである。
【0107】
本方法は14に続き、14においては、観察者の脳から神経生理学的信号を収集する。収集された信号に、視覚刺激に対する観察者の反応を示す信号も含まれるように、動作14は視覚刺激13と同時に実行することが好ましい。神経生理学的信号は、好ましくは脳造影(EG)信号(脳波(EEG)信号または脳磁(MEG)信号など)である。他のタイプの信号も意図されているが、本発明者らは、EEG信号が好ましいことを見出した。
【0108】
EEG信号は、多数の電極(例えば少なくとも4個、または少なくとも16個、または少なくとも32個、または少なくとも64個の電極)から、オプションとして好ましくは十分に高い時間分解能において、オプションとして好ましくは同時に、収集することが好ましい。本発明のいくつかの実施形態においては、信号は、少なくとも150Hzまたは少なくとも200Hzまたは少なくとも250Hz(例えば約256Hz)のサンプリングレートでサンプリングする。オプションとして、高周波数のエイリアシングを防止するため、低域通過フィルタを採用する。低域通過フィルタの一般的なカットオフ周波数は、約51Hzである(ただしこれに限定されない)。
【0109】
神経生理学的信号がEEG信号であるときには、次の周波数帯域、すなわち、デルタ帯域(一般には約1Hz〜約4Hz)、シータ帯域(一般には約3Hz〜約8Hz)、アルファ帯域(一般には約7Hz〜約13Hz)、低ベータ帯域(一般には約12Hz〜約18Hz)、ベータ帯域(一般には約17Hz〜約23Hz)、および高ベータ帯域(一般には約22Hz〜約30Hz)、のうちの1つまたは複数を定義することができる。より高い周波数帯域、例えばこれに限定されないがガンマ帯域(一般には約30Hz〜約80Hz)も意図されている。
【0110】
電極は、次の位置、すなわち、乳様突起における2つ、左目および右目の外眼角に配置される2つの水平EOGチャンネル、2つの垂直EOGチャンネル(右目の下に1つと上に1つ)、および鼻の先端におけるチャンネル、のうちの1つまたは複数、オプションとして好ましくはすべて、に配置することができる。
【0111】
本方法は15に続き、15においては、神経生理学的信号を処理して、観察者による目標物の検出を示す神経生理学的事象を識別する。いくつかの実施形態によると、画像内で識別される目標物に関する知識を観察者に事前に与える。例えば、目標物を含む関心領域を観察者に表示することができ、表示された関心領域内の目標物を記憶するように観察者に求めることができる。
【0112】
処理15は、2つ以上の方法で行うことができる。以下では、神経生理学的信号において神経生理学的事象を識別するために使用することのできるいくつかの方法を説明する。
【0113】
この処理は、一般には、信号からデジタルデータを生成するデジタル化手順を含む。これらのデータは、一般には時空間行列(spatiotemporal matrix)として配置され、この場合、空間次元が観察者の頭皮上の電極の位置に対応し、時間次元が、時間軸を複数の時間点またはエポック(epoch)に離散化することに対応する(時間点またはエポックは重なっていても重なっていなくてもよい)。次に、データをより低い次元空間上にマッピングするため、データに次元削減手順を適用する。この処理は、オプションとして、目標物の検出に関連する周波数帯域に基づくことができる(ただし必須ではない)。特に、この処理は、主としてP300 EEG脳波に基づくことができる。
【0114】
この処理は、自動的であることが好ましく、訓練データセットからの教師あり学習または教師なし学習に基づくことができる。目標物検出事象を識別するために有用である学習方法としては、以下に限定されないが、共通空間パターン(CSP:Common Spatial Patterns)、自己回帰モデル(AR:autoregressive models)、主成分分析(PCA)が挙げられる。CSPでは、1つのクラスの分散を最大化する一方で、第2のクラスの分散を最小化することによって、2つのクラスを判別するための空間重みを抽出する。ARでは、判別情報を含みうる信号における空間的な相互関係ではなく、代わりに時間的な相互関係に焦点を当てる。線形分類器を使用して、判別AR係数を選択することができる。
【0115】
PCAは、教師なし学習に特に有用である。PCAでは、一般に相互関係のない新しい空間上にデータをマッピングし、この場合、軸は、軸に沿って射影されるデータサンプルの分散によって順序付けられ、分散の大部分を反映する軸のみを維持する。結果は、元のデータに関する最大限の情報を維持するが効果的な次元削減をもたらす、データの新しい表現である。
【0116】
目標物検出事象を識別するのに有用な別の方法では、空間独立成分分析(ICA:Independent Component Analysis)を採用して、空間重みのセットを抽出し、最大限に独立した時空間ソース(spatial-temporal sources)を得る。独立した時間−周波数成分のための空間重みを学習するため、並行するICA段階を周波数領域において実行する。データの次元を削減するため、空間ソースおよびスペクトルソースに対するPCA(主成分分析)を個別に使用することができる。各特徴セットを、フィッシャーの線形判別(FLD)を使用して個別に分類することができ、オプションとして好ましくは、次にナイーブベイズ統合を使用して(事後確率を乗算することによって)組み合わせることができる。
【0117】
別の方法では、時間軸および空間軸の両方における事象関連データの双線形時空間射影(bilinear spatial-temporal projection)を採用する。これらの射影は、多数の方法において実施することができる。空間射影は、例えば、下層のソース空間への信号の線形変換として、またはICA(独立成分分析)として、実施することができる。時間射影は、フィルタとしての役割を果たすことができる。単一試行データ行列の、重ならない時間窓において双対射影を実施することができ、結果として窓あたりのスコアを表すスカラーが得られる。窓のスコアを合計または分類して、単一試行全体の分類スコアを生成することができる。この方法を選択することに加えて、射影行列の構造に対する追加の制約をサポートすることができる。1つのオプションは、例えば、各チャンネルの最適な時間窓を個別に学習し、次に空間項を訓練することである。
【0118】
本発明のさまざまな例示的な実施形態においては、本方法は、神経生理学的信号に対して、空間的に重み付けされたフィッシャー線形判別(SWFLD)分類器を採用する。この分類器は、以下の動作の少なくともいくつかを実行することによって得ることができる。すなわち、時間点を独立して分類して、判別重みの時空間行列を計算することができる。次にこの行列を使用して、時空間点それぞれにおける判別重みによって元の時空間行列を展開することができ、これによって空間的に重み付けされた行列を生成する。
【0119】
SWFLDをPCAによって補うことが好ましい。これらの実施形態では、オプションとして好ましくは、各空間チャンネルにおいて個別かつ独立して、時間領域でのPCAを適用する。これにより、時系列データが、成分の線形結合として表される。オプションとして好ましくは、さらに、空間的に重み付けされた行列の各行ベクトルに対して独立してPCAを適用する。このようにPCAを個別に2回適用することによって射影行列が生成され、この射影行列を使用して各チャンネルの次元を削減することができ、これによって次元削減されたデータ行列が生成される。
【0120】
次に、次元削減されたこの行列の行を連結して、特徴表現ベクトル(feature representation vector)を生成することができ、このベクトルは、信号の、時間的に近似され空間的に重み付けされた活動を表す。次に、時空間行列を2つのクラスの一方に分類するため、特徴ベクトルにおいてFLD分類器を訓練することができる。本発明の実施形態においては、一方のクラスが目標物識別事象に対応し、もう1つのクラスがそれ以外の事象に対応する。本発明のいくつかの実施形態によるSWFLD分類器に関するさらなる詳細は、後から実施例のセクションで説明する。
【0121】
本発明のさまざまな例の実施形態においては、本方法は、神経生理学的信号に対して畳み込みニューラルネットワーク(CNN)分類器を採用する。これらの実施形態では、CNNは、信号を時空間行列として受信し、提示された視覚刺激が目標物である確率を推定するスコア(一般には範囲[0,1])を生成する。オプションとして好ましくは、ロジスティック回帰のコスト関数を最小化するため、確率的勾配降下法(SGD:stochastic gradient descent)を使用してネットワークを訓練することができる。好ましい実施形態では、CNNは、神経生理学的信号を特徴付ける複数の時間点それぞれに対して空間フィルタリングを適用する第1の畳み込み層と、第1の畳み込み層によって提供される出力に時間フィルタリングを適用する第2の畳み込み層と、さらにオプションとして好ましくは、第2の畳み込み層によって提供される出力に時間フィルタリングを適用する第3の畳み込み層と、を備えている。第2の畳み込み層および第3の畳み込み層は、一般には、第1の層によって学習された空間マップ(spatial map)の振幅の変化を表す信号における時間的パターンを学習し、したがってこれらの層は分類精度を向上させるため有利である。
【0122】
CNNは、2つ以上の完全に結合されている層をさらに備えていることができ、完全に結合されている各層は、自身の前の層によって提供される出力の非線形結合を提供する。第1の完全に結合されている層は、好ましくは、第3の畳み込み層からの出力(第3の畳み込み層が採用されているとき)、または第2の畳み込み層からの出力(好ましくは第3の畳み込み層が採用されていないとき、ただし必須ではない)、を受け取る。第2の完全に結合されている層は、好ましくは、第1の完全に結合されている層からの出力を受け取る。オプションとして、CNNは、次元を削減するため2つ以上のプーリング層(例:マックスプーリング層(max-pooling layers))を備えている。好ましいCNNに関するさらなる詳細は、後から実施例のセクションで説明する。
【0123】
処理15は、オプションとして好ましくは、目標物が画像内に存在する確率を表現するスコアを計算するステップ、を含む。スコアは、それぞれの分類器を使用して計算する。例えば、分類器がSWFLD分類器であるときには、フィッシャースコアを計算することができ、分類器がCNN分類器であるときには、スコアをCNNのロジスティック回帰層の出力とすることができる。
【0124】
好ましい実施形態においては、本方法は、計算されたスコアを正規化するため、観察者に固有なスコア正規化関数を採用する。そのような観察者に固有なスコア正規化関数は、一般には訓練段階で作成し、訓練段階では、画像の訓練データセットを使用して本方法を同じ観察者に対して繰り返し実行し、データセットの各画像が、目標物を含むものとして、または含まないものとして分類される。観察者に固有なスコア正規化関数は、目標物に固有とすることもでき、この場合、検出される各目標物に対して訓練段階を繰り返す。しかしながら、このことは必須ではなく、なぜなら、用途によっては、特に、異なる目標物が同じカテゴリ(例えば、異なる自動車、異なる顔など)に属するときには、異なる目標物を検出する観察者の能力が類似していてよいため、各目標物に対して訓練を繰り返す必要がないためである。
【0125】
訓練段階時、目標物を含むものと分類された目標物について、第1のスコア分布関数を計算し、目標物を含まないものと分類された目標物について、第2のスコア分布関数を計算する。訓練段階において計算されたこれらのスコア分布関数は、実行段階において生成されるスコアを正規化するために使用される。例えば、第1のスコア分布関数をg
1によって表し、第2のスコア分布関数をg
0によって表すと、実行段階において分類器によって生成されるスコアsを正規化して、
【数1】
=g
1(s)/(g
0(s)+g
1(s))として定義される正規化されたスコア
【数2】
を生成することができる。
【0126】
第1のスコア分布関数および第2のスコア分布関数は、スコア空間において所定の形状を有することができる。この形状は、一般には局在化する。第1および第2のスコア分布関数として使用するのに適するタイプの分布関数の代表的な例としては、以下に限定されないが、ガウス関数、ローレンツ関数、および変形ベッセル関数が挙げられる。
【0127】
正規化されたスコアを、所定の信頼度しきい値と比較し、識別された検出事象の信頼度のレベルを求める。正規化されたスコアが所定の信頼度しきい値より小さいときには、オプションとして好ましくは、本方法は13に戻り、それぞれの画像領域または画像領域のグループに観察者に再提示し、正規化されたスコアを再計算する。
【0128】
いくつかの実施形態においては、2つの異なるタイプの分類器を使用し、個々の分類器によって生成されたスコアを評価するスコアを計算する。例えば、本方法は、SWFLD分類器を適用してSWFLD分類器に基づくSWFLD分類スコアを計算し、CNN分類器を適用してCNN分類器に基づくCNN分類スコアを計算し、SWFLDスコアとCNNスコアを組み合わせる。オプションとして好ましくは、2つのスコアを組み合わせる前に、2つのスコアを同程度のスケールにするスコア再スケーリング動作を行うことができる。第1および第2のスコア分布関数を使用する前述した正規化は、スコアを再スケーリングする役割も果たすことができる。
【0129】
本発明のいくつかの実施形態においては、本方法は16に進み、16においては、神経生理学的信号を処理して瞬目を識別する。これらの実施形態では、画像領域または画像領域のグループを観察者に提示している間に瞬目が識別されたときには、オプションとして好ましくは、本方法は13に戻り、それぞれの画像領域または画像領域のグループを観察者に再提示する。瞬目は、この技術分野において公知の任意の方法、例えば特許文献2および特許文献3(これらの文書の内容は参照により本明細書に組み込まれている)に開示されている方法を使用して、識別することができる。
【0130】
本方法は17に進み、17においては、画像内の目標物の存在を、少なくとも部分的に神経生理学的事象の識別に基づいて判定する。例えば、本方法は、13で提示された領域の1つまたは複数において検出事象が識別されたときに、その画像内に目標物が存在すると判定する。オプションとして、例えば、15において分類器によって生成されたスコアを使用して、または2つ以上の分類器が採用される場合には組み合わされたスコアを使用して、画像(または与えられた時刻に領域のみが提示される場合には画像領域、与えられた時刻に画像タイルのみが提示される場合には画像タイル)に神経生理学的検出スコアを割り当てる。神経生理学的検出スコアが画像に割り当てられているときには、判定17は、少なくとも部分的に、神経生理学的検出スコアに基づくことが好ましい。この判定は、例えば、しきい値処理によって行うことができ、この場合、神経生理学的検出スコアが所定のしきい値より高いときには、本方法は、目標物が画像内に存在すると判定し、神経生理学的検出スコアが所定のしきい値より高くないときには、本方法は、目標物が画像内に存在しないと判定する。さらに、本方法では、画像内の目標物の存在に確率値を割り当てることもできる。この割当ては、神経生理学的検出スコアに基づいて行うことができる。例えば、スコアを確率的スケール(例えば範囲[0,1]内)にマッピングすることができ、マッピングされたスコアの値を、目標物の存在確率として使用することができる。
【0131】
コンピュータビジョン手順を使用してコンピュータ検出スコアが画像に割り当てられているときには、判定17は、好ましくはコンピュータ検出スコアおよび神経生理学的検出スコアの両方に基づく。例えば、両方のスコアが高いとき、本方法は、目標物が画像内に存在すると判定することができる。スコアが一致しないとき(例えば、コンピュータ検出スコアは高いが神経生理学的検出スコアが低いとき)、オプションとして好ましくは、本方法は13に戻り、それぞれの画像領域または画像領域のグループを観察者に再提示する。
【0132】
本発明の実施形態は、画像を形成している画像データと、画像(または画像領域あるいは画像タイル)の提示に対する観察者の反応を記述する神経生理学的データとを同時に処理するため、マルチモーダルCNNの使用も意図している。マルチモーダルCNNを使用して、コンピュータビジョンによる検出と神経生理学的な検出の間の相互関係を識別することができ、以下ではその方法について
図19を参照しながら説明する。
【0133】
図19はマルチモーダルCNN50を示しており、マルチモーダルCNN50は、14において収集された信号をデジタル化することによって得られる神経生理学的データを受信して処理する第1の畳み込みニューラルサブネットワーク(CNS)52と、11において受信される画像データを受信して処理する第2のCNS54を備えている。本発明のさまざまな例示的な実施形態においては、第1のCNS52および第2のCNS54それぞれは、サブネットワーク52および54それぞれが異なるタイプのデータ(CNS52では神経生理学的データ、CNS54では画像データ)を受信して処理するように独立して動作し、サブネットワーク52とサブネットワーク54の間のデータフローは存在しない。したがって、これらの実施形態では、CNS52の入力層は、神経生理学的データを受信するが画像データは受信せず、CNS54の入力層は、画像データを受信するが神経生理学的データは受信せず、CNS52の(入力層以外の)各層は、CNS54のいずれかの層からではなく自身の前のCNS52の層からデータを受信し、CNS54の(入力層以外の)各層は、CNS52のいずれかの層からではなく自身の前のCNS54の層からデータを受信する。
【0134】
CNS52の少なくとも一部分を、神経生理学的信号の分類に関して上述したように構成することができる。CNS54の少なくとも一部分を、コンピュータビジョン手順に関して上述したように構成することができる。
【0135】
さらに、CNN50は、CNS52およびCNS54の両方から出力を受信して組み合わせるニューラルネットワーク層58を有する共有サブネットワーク56を備えている。CNS52およびCNS54それぞれの出力は、一般には1次元のベクトルである。これらの実施形態では、層58は、CNS52によって提供される出力ベクトルを、CNS54によって提供される出力ベクトルと連結する連結層とすることができる。共有サブネットワーク56は、層58によって提供される連結されたベクトルを使用してスコアを計算する出力層60をさらに備えていることができる。本発明の発明者らは、このようなスコアが、コンピュータビジョンによる検出と神経生理学的な検出との間の相互関係を記述することを見出した。層60は、この技術分野において公知である任意の方法(例えば、以下に限定されないが、Softmax活性化関数またはロジスティック回帰関数)を使用して、スコアを計算することができる。
【0136】
CNN50は、CNS52の出力とCNS54の出力を組み合わせるが、本発明の発明者らは、これらの畳み込みサブネットワークの少なくとも一方の出力を分割し、したがってそれぞれの出力が共有サブネットワーク56によって組み合わされるが、さらに個別にも処理されることも有利であることを見出した。この方式は、自身のCNSの出力を受信するが他のCNSの出力は受信しない追加のニューラルネットワーク層または追加のサブネットワークによって、行うことができる。
図19には、CNS52の出力を受信する第1の追加のニューラルネットワーク層62と、CNS54の出力を受信する第2の追加のニューラルネットワーク層64とを示してある。追加の層62,64それぞれは、自身のCNSの出力ベクトルを使用してスコアを個別に計算することができる。
【0137】
これらの実施形態の利点として、神経生理学的な検出の精度とコンピュータビジョン検出の精度とを区別することができる。例えば、本方法は、層62によって計算された神経生理学的検出スコアを画像に割り当て、層64によって計算されたコンピュータ検出スコアを画像に割り当て、コンピュータ検出スコアを神経生理学的検出スコアと比較することができ、上にさらに詳しく説明したように、この比較に基づいて画像を観察者に再提示する。
【0138】
出力を分割することの別の利点として、コンピュータビジョン検出が発生した画像または領域またはタイルのみを観察者に提示することができる。例えば、上述した動作12を、CNS54および層64によって実行することができる。
【0139】
なお、CNS52およびCNS54の出力を必ずしも分割する必要はないことを理解されたい。CNN50を適用することに加えて、神経生理学的信号を処理するための上記の手順のいずれか、および/またはコンピュータビジョン手順を適用することによって、神経生理学的検出とコンピュータ検出の個別のスコアを得ることができる。
【0140】
オプションとして好ましくは、本方法は18に続き、18においては、観察者の神経生理学的状態を判定する。この判定は、2つ以上の方法で行うことができる。
【0141】
本発明のいくつかの実施形態においては、1つまたは複数の画像領域について、提示13、収集14、および識別15を繰り返す。繰り返された識別を、前の識別と比較し、この比較に基づいて観察者の神経生理学的状態を判定する。例えば、2つの識別が一致しないとき、本方法は、観察者が注意力を失っている、または観察者が疲労していると判定することができる。識別間の比較は、一対比較(この場合、本方法は、両方の提示時に観察者が目標物を識別したか否かを判定する)、または非一対比較(この場合、本方法は、両方の提示時に15で分類器によって生成されたスコアを比較し、これらのスコアのばらつき(例えば差、比率)に基づいて神経生理学的状態を判定し、大きいばらつきは注意力が失われている、または疲労を示す)、のいずれかとすることができる。
【0142】
本発明のいくつかの実施形態においては、速波EEGに対する遅波EEGの比率を計算し、この比率に基づいて観察者の神経生理学的状態を判定する。そのような比率の代表的な例は、(シータ+アルファ)/ベータであり、シータ、アルファ、およびベータは、それぞれの周波数帯域におけるEEG波の大きさである。この比率が大きくなると、疲労レベルが増していることを示す。
【0143】
本発明のいくつかの実施形態においては、目標物を含むデータベース画像領域を観察者に提示する。そして、このデータベース画像について収集14および処理15を繰り返す。これは、観察者による偽陰性事象を判定するのに有用である。15における識別の結果を使用して、観察者の神経生理学的状態を判定することができる。例えば、13においてデータベース画像領域を提示した結果として15において偽陰性事象になったとき、本方法は、観察者が注意力を失っている、または疲労していると判定することができる。
【0144】
本発明のいくつかの実施形態においては、16における瞬目の識別を使用して、観察者の神経生理学的状態を判定することができる。これらの実施形態では、瞬目の時間的パターンを評価し、それを使用して神経生理学的状態を判定することができる。例えば、観察者に固有な瞬目のしきい値を、例えばコンピュータ可読記憶媒体から取得し、瞬目の割合と比較することができる。瞬目の割合が観察者に固有な瞬目のしきい値より大きいときには、本方法は、観察者が疲労していると判定することができる。観察者に固有な瞬目のしきい値は、本方法を実行する前に記録しておくことができる。
【0145】
本発明のいくつかの実施形態においては、筋緊張を識別し、筋緊張が識別されたか存在しないかに基づいて、観察者の神経生理学的状態を判定する。筋緊張は、特定のセンサ、例えば、以下に限定されないが、特許文献4または特許文献5(これらの文書の内容は参照により本明細書に組み込まれている)に記載されているセンサを使用して、または神経生理学的信号を分析することによって、識別することができる。
【0146】
18において、注意力が失われている、疲労している、または観察者が目標物を正しく検出する能力を低下させる他の条件が識別されたときには、オプションとして好ましくは、本方法は13に戻り、それぞれの画像領域または画像領域のグループを観察者に再提示する。
【0147】
本方法は、オプションとして好ましくは、19において、神経生理学的事象の識別に関するフィードバックを観察者に提示する。このフィードバックは、観察者が視覚刺激に対する自分の脳の反応を変化させる方法を学習し、神経生理学的な識別を改善することを可能にするニューロフィードバックとしての役割を果たす。観察者の学習過程は、暗黙的とすることができ、この場合、観察者は神経生理学的な識別がどのように改善されるかを明確に表現することができない。これに代えて、学習過程を明示的とすることができ、これは、識別を改善するための認識的な方策または感情的な方策を適用するように観察者に要求することによる。フィードバックを提供するプロセスは、反復的に繰り返すことができ、この場合、正しく識別されるたびに、および間違って識別されるたびに、処理15の分類パラメータを更新し、フィードバックを再提示して、神経生理学的な識別をさらに改善する。本発明者らは、神経生理学的な反応が改善されるように脳の反応を適合させることによって、観察者の画像解釈能力が向上し、なぜなら観察者は信号処理15においてどのように検出事象が識別されるかを暗黙的に学習するためであることを見出した。
【0148】
フィードバックは、2値フィードバックとすることができ、例えば、正しく識別された場合の正のフィードバック(真陽性または真陰性)と、間違って識別された場合の負のフィードバック(偽陽性または偽陰性)の一方である。これに代えて、フィードバックを非2値とすることができ、例えば、15において計算されたスコアを提示するフィードバックである。フィードバックは、必要に応じて、視覚、聴覚、または触覚を通じて提供することができる。
【0149】
20において、識別を記述する出力を生成する。この生成は、2つ以上の方法で行うことができる。本発明のいくつかの実施形態においては、出力は、画像の集合(アルバム)の形であり、アルバム内の各画像に検出スコア(例えば、神経生理学的検出スコア、または上述した組み合わされたスコア)が関連付けられている。本発明のいくつかの実施形態においては、スコアがスコアしきい値を超えている画像のみをアルバムに含める。スコアしきい値は、事前に決める、または動的に更新することができる。
【0150】
本発明のいくつかの実施形態においては、出力は、観察者によって分類された2つ以上の画像を含むマップの形である。これらの実施形態では、画像を複数のタイルに分割し、この場合にオプションとして好ましくは、垂直方向および水平方向の両方において、隣り合うタイルが重なる。重なりは、オプションとして好ましくは、タイルの小部分pが隣接するタイルと共有されるような重なりであり、小部分pは、何らかの小部分しきい値より大きい(例えばp>0.5、ただし小部分しきい値の別の値も意図されている)。マップは、行列として具体化することができ、行列の各行列要素がn番目のタイルに対応する。オプションとして好ましくは、n番目のタイルそれぞれについてスコアを計算する。スコアは、例えば、各n番目のタイルを含むすべてのタイルの神経生理学的検出スコアの平均とする、または組み合わされたスコアとすることができる。行列を計算した後、その行列を、スコアの高い点が潜在的な目標物としてマークされた画像として表示することができる。このようなマップはヒートマップと称される。ヒートマップの局所的な最大値を探索することによって、さらなる潜在的な目標物を特定することができる。
【0152】
本発明の実施形態の方法は、ディスプレイに送信されて観察者によって観察される、任意の供給源からの画像のストリームにおいて、目標物を識別する目的に使用することができる。供給源は、画像を記憶しているコンピュータ可読記憶媒体、または撮像システムとすることができる。さらに、本発明の実施形態の方法は、仮想現実システムまたは拡張現実システムにおいて採用することもできる。これらの実施形態では、17における判定の結果を使用して、仮想現実システムまたは拡張現実システムの使用者に提示される視野内で目標物を識別することができる。例えば、目標物が識別されたときに、仮想現実システムまたは拡張現実システムが、使用者に提示される視野を変化させる(例えば、表示されている画像を移動させる、ズームインする、ズームアウトする、または画像を回転させて動きの錯覚を生み出す)ことができる。これは、ジョイスティックなどの周辺装置の介入なしに自動的に行うことができる。識別される目標物は、仮想現実システムまたは拡張現実システムによって表示される仮想物体とすることができる。本方法が拡張現実システムにおいて採用されるときには、目標物は、拡張現実システムによって表示されるシーン内の実物体とすることができる。
【0153】
次に
図18を参照し、
図18は、本発明のいくつかの実施形態による、画像を分類するシステム30の概略図である。システム30は、データプロセッサ32と、データプロセッサ32と通信するディスプレイ40と、神経生理学的信号収集システム44とを備えている。システム30は、上述した本方法の動作の1つまたは複数(例えばすべての動作)を実行する目的に使用することができる。システム30は、設置型の目標物識別システムとする、または、モバイルシステム(例えば、以下に限定されないが、仮想現実システムまたは拡張現実システム)と組み合わせることができる。
【0154】
データプロセッサ32は、一般には、入力/出力(I/O)回路34と、中央処理装置(CPU)36(例えばマイクロプロセッサ)などのデータ処理回路と、一般には揮発性メモリおよび不揮発性メモリの両方を含むメモリ38と、を備えている。I/O回路34は、CPU36とシステム30の外側の別の装置またはネットワークとの間で、適切に構築された形式における情報を互いに通信するために使用される。CPU36は、I/O回路34およびメモリ38と通信する。これらの要素は、ほとんどの汎用コンピュータにおいて一般に見られるものとすることができ、それ自体公知である。
【0155】
図示した表示装置40は、一般にはI/O回路34を介してデータプロセッサ32と通信する。データプロセッサ32は、CPU36によって生成されたグラフィック形式および/またはテキスト形式の出力画像を、表示装置40に送信する。図示したキーボード42も、一般にはI/O回路34を介してデータプロセッサ32と通信する。
【0156】
この技術分野における通常の技術を有する者には、システム30を、より大きなシステムの一部とすることができることを理解できるであろう。例えば、システム30は、ネットワークと通信することもでき、例えば、ローカルエリアネットワーク(LAN:local area network)、インターネット、またはクラウドコンピューティング設備のクラウドコンピューティングリソースに接続することができる。
【0157】
神経生理学的信号収集システム44は、オプションとして好ましくは、データプロセッサ32と通信し、前にさらに詳しく説明したように、患者の脳から神経生理学的信号を収集するように構成されている。
【0158】
本発明のいくつかの実施形態においては、システム30のデータプロセッサ32は、前にさらに詳しく説明したように、画像にコンピュータビジョン手順を適用して、目標物によって占有されていると疑われる画像領域を画像内で検出し、これによって候補画像領域のセットを提供し、各候補画像領域48を視覚刺激としてディスプレイ40によって観察者50に提示し、システム44から受信される神経生理学的信号を処理して観察者50による目標物52の検出を示す神経生理学的事象を識別し、少なくとも部分的に神経生理学的事象の識別に基づいて画像内の目標物52の存在を判定するように、構成されている。
【0159】
本発明のいくつかの実施形態においては、システム30は、クラウドコンピューティング設備のクラウドコンピューティングリソース(図示していない)と通信し、この場合、クラウドコンピューティングリソースは、前にさらに詳しく説明したように、画像にコンピュータビジョン手順を適用して、目標物によって占有されていると疑われる画像領域を画像内で検出し、これによって候補画像領域のセットを提供し、各候補画像領域48を視覚刺激としてディスプレイ40によって観察者50に提示し、システム44から受信される神経生理学的信号を処理して観察者50による目標物52の検出を示す神経生理学的事象を識別し、少なくとも部分的に神経生理学的事象の識別に基づいて画像内の目標物52の存在を判定するように、構成されている。
【0160】
上に説明した本方法は、システム30によって実行されるコンピュータソフトウェアに実施することができる。ソフトウェアは、例えば、メモリ38に記憶しておく、またはメモリ38にロードし、CPU36において実行することができる。したがって本発明のいくつかの実施形態は、プログラム命令が記憶されているコンピュータ可読媒体(より好ましくは非一時的なコンピュータ可読媒体)を備えたコンピュータソフト製品、を備えている。命令は、データプロセッサ32によって読み取られたとき、上述した本方法をデータプロセッサ32に実行させる。
【0161】
これに代えて、システム30の計算能力を、専用回路によって提供することができる。例えば、CPU36および/またはメモリ38を、専用回路に統合することができ、この専用回路は、前にさらに詳しく説明したように、画像にコンピュータビジョン手順を適用して、目標物によって占有されていると疑われる画像領域を画像内で検出し、これによって候補画像領域のセットを提供し、各候補画像領域48を視覚刺激としてディスプレイ40によって観察者50に提示し、システム44から受信される神経生理学的信号を処理して観察者50による目標物52の検出を示す神経生理学的事象を識別し、少なくとも部分的に神経生理学的事象の識別に基づいて画像内の目標物52の存在を判定するように、構成されている。
【0162】
本明細書において使用されている語「約」は、±10%を意味する。
【0163】
語「例示的な」は、本明細書においては、「例、一例、または説明としての役割を果たす」を意味する目的で使用されている。「例示的な」として説明されている実施形態は、他の実施形態よりも好ましい、または有利であるとは必ずしも解釈されない、および/または、他の実施形態の特徴を組み込むことは排除されない。
【0164】
語「オプションとして」は、本明細書においては、「いくつかの実施形態において設けられ、他の実施形態では設けられない」を意味する目的で使用されている。本発明のいずれの特定の実施形態も、互いに矛盾しない限りは複数の「オプションの」特徴を含むことができる。
【0165】
語「備える」、「備えている」、「含む」、「含んでいる」、「有する」、およびこれらの活用形は、「〜を含み、ただしそれらに限定されない」を意味する。
【0166】
語「からなる」は、「〜を含み、それらに限定される」を意味する。
【0167】
「本質的に〜からなる」という表現は、組成物、方法、または構造が、追加の成分、追加のステップ、および/または追加の部分を含むことができるが、ただし、それら追加の成分、追加のステップ、および/または追加の部分が、特許請求の範囲に記載されている組成物、方法、または構造の基本的かつ新規の特徴を実質的に変化させない場合に限られることを意味する。
【0168】
本明細書では、単数形(「a」、「an」、および「the」)は、文脈から明らかに複数の存在が除外される場合を除いて、複数の存在も含む。例えば、語「化合物」または「少なくとも1種類の化合物」は、複数種類の化合物(その混合物を含む)を含みうる。
【0169】
本出願の全体を通じて、本発明のさまざまな実施形態は、範囲形式で提示されていることがある。範囲形式での記述は、便宜上および簡潔さのみを目的としており、本発明の範囲を固定的に制限するようには解釈されないことを理解されたい。したがって範囲の記述には、具体的に開示されている可能な部分範囲すべてと、その範囲内の個々の数値とが含まれるものとみなされたい。例えば、1〜6などの範囲の記述には、具体的に開示された部分範囲(例えば、1〜3、1〜4、1〜5、2〜4、2〜6、3〜6など)と、この範囲内の個々の数(例えば1、2、3、4、5、および6)とが含まれるものとみなされたい。このことは、範囲の広さにかかわらずあてはまる。
【0170】
本明細書中に数値範囲が示されているときには、示された範囲内の任意の該当する数値(分数または整数)が含まれるものとする。第1の指示数と第2の指示数「の間の範囲」、および、第1の指示数「から」第2の指示数「までの範囲」という表現は、本明細書においては互換的に使用され、また、第1の指示数および第2の指示数と、それらの間のすべての分数および整数を含むものとする。
【0171】
明確さを目的として、個別の実施形態の文脈の中で説明されている本発明の特定の複数の特徴は、1つの実施形態の中に組み合わせて設けることもできることを理解されたい。逆に、簡潔さを目的として、1つの実施形態の文脈の中で説明されている本発明のさまざまな特徴は、個別に設ける、または適切な部分的組合せとして設ける、または本発明の任意の他の説明されている実施形態において適切に設けることもできる。さまざまな実施形態の文脈の中で説明されている特定の特徴は、実施形態がそれらの要素なしでは動作・機能しない場合を除いて、それらの実施形態の本質的な特徴とはみなさないものとする。
【0172】
上に説明されており、特許請求の範囲に記載されている本発明のさまざまな実施形態および態様は、以下の実施例において実験的に裏付けられる。
【0173】
(実施例)
以下の実施例を参照する。これらの実施例は、上の説明と合わせて、本発明のいくつかの実施形態を説明する(ただし本発明はこれらの実施例によって制限されない)。
【0174】
(実施例1)
プロトタイプのシステム
コンピュータビジョンが大きく進歩したにもかかわらず、人間の視知覚系の能力は、特に、柔軟性、学習能力、および変化する観察条件に対する安定性に関する限り、最高の人工知能システムさえも依然として上回っている。しかしながら、大量の画像(手荷物検査のX線画像や医用画像、監視カメラからの被疑者の画像、あるいは衛星航空画像など)を仕分けすることに関しては、人間はほぼ正確であるが、遅すぎる。そのボトルネックは、主として知覚過程に起因するのではなく(知覚過程はかなり速い)、決定を記録する(言葉で記録する、または書いて記録する、またはボタンを押すことによって記録する)のに要する時間に起因する。この障害条件を克服するため、観察者が自分の決定を明示的に報告する必要性から解放することができ、その一方で、画像が極めて高速で提示されるときに、コンピュータ化アルゴリズムによって観察者の単一試行脳反応(single trial brain responses)のパターンを仕分けする。
【0175】
この実施例は、上記の課題を実施するプロトタイプのシステムを説明する。このシステムには、静止画像およびビデオを含むあらゆる種類の視覚データを送り込むことができる。最初に、コンピュータビジョンに基づく分析によって画像を処理して潜在的な関心領域を検出し、人間の視覚認識用に最適化されたサイズの小さいタイルに画像を分割する。次に、対象のタイルを、調整可能な高い速度で人間の観察者に提示する。EEGを使用して観察者の脳の反応を記録して処理ユニットに転送し、処理ユニットにおいて脳の反応をリアルタイムで分類する。システムは、コンピュータビジョン分析からの分類スコアと、人間の脳の反応からの分類スコアを組み合わせることによって、目標物を含む画像を検出し、リアルタイムで最終使用者に提示する。
【0176】
図1A〜
図1Cは、本発明のいくつかの実施形態による、画像分類システムを説明するブロック図である。
図1A〜
図1Cにおけるモジュールの少なくとも1つはオプションである。
【0177】
コンピュータビジョンモジュール
コンピュータビジョンモジュールは、オプションとして好ましくは、最初に入力画像をふるい分けし、目標物または目的の対象物を含む可能性のある領域、および/または、目標物または目的の対象物を確実に含まない領域、を識別するために使用される。合計検査時間を短縮するため、目標物の確率が、事前に選択される調整可能なしきい値より小さい画像または画像の一部は、人間の観察者に提示されない。オプションとして好ましくは、目標物の確率がしきい値より大きい画像を小さいタイルに分割し、タイルのサイズは、人間の視覚認識用に適合させる(例えば最適化する)。オプションとして好ましくは、人間の観察者が関心領域をより速く検出および検査するのを支援するため、この分割は、検出される関心領域が含まれるように行う。
【0178】
コンピュータビジョンモジュールは、以下に説明するアルゴリズムのうちの1つ、またはそれらの組合せを使用して達成されるコンピュータビジョン分類器に基づく。
【0179】
全体としてより高い分類結果を得るため、コンピュータビジョン分類器によって得られるスコアを、脳の反応の分類器(以下を参照)によって得られるスコアと組み合わせることができる。
【0180】
Bag Of Visual Words(バッグ・オブ・ビジュアルワード)
このアルゴリズムは、非特許文献1に基づくことができる。オプションとして好ましくは、画像は、ビジュアルワードの「バッグ」(例えば特定の記述子によって記述されているパッチ)として表される。
【0181】
画像内のキーポイントを、局所特徴量(SURF)検出器を使用して検出し、特徴ベクトルとして記述することができる。
図2Aおよび
図2Bは、対象物が存在する川の空撮画像から抽出された記述子の例である。
【0182】
次に、画像を最終的な数の特徴(クラスタ)によって記述して、ビジュアルワードの「ディクショナリ」を構築することができる。オプションとして好ましくは、これは、クラスタ分析の教師なし学習法(以下に限定されないが、k平均法、ファジーk平均法など)を使用して実行する。
【0183】
画像内の各キーポイントを、構築されたディクショナリの中の最も近いビジュアルワードにマッチさせることができる。画像内のビジュアルワードの総数は、訓練段階で使用される特徴ベクトルを構成する。ワードを、画像内のそれぞれの出現頻度に基づいて重み付ける。
【0184】
上記の特徴ベクトルを使用して、複数の分類器を訓練することができる。分類器は、SVM(サポートベクターマシン)、適応的ブースティング(Adaboost)、ナイーブベイズ(Naive Bayes)からなる群、から選択することができる。分類結果を改善するため、オプションとして好ましくは、分類器のスコアを組み合わせてマルチエキスパート決定(multiexpert decision)を生成することができる。
【0185】
図3Aおよび
図3Bは、このアルゴリズムを使用して、対象物が存在する川の空撮画像内で検出された関心領域を示している。
【0186】
スパースオートエンコーダおよび畳み込みによる特徴抽出
特徴抽出モジュールを訓練する目的で、オートエンコーダによる教師なし特徴学習用に画像を使用する。画像から、オプションとして好ましくはランダムに、小さいn×nパッチを抽出し、各パッチを連結して、n
2個の要素を有する列ベクトル
【数3】
を形成する。オプションとして好ましくは、各ベクトルを2層ニューラルネットワークに通す。第1の層の出力は、
【数4】
である(
【数5】
)。行列w
(1)の次元はm×nであり、ベクトル
【数6】
の次元はm×1である。オプションとして好ましくは、m<nである。ベクトル
【数7】
を第2の層に通すことができ、出力は
【数8】
であり、この場合、行列w
(2)の次元はn×mであり、
【数9】
の次元はn×1である。例えば、コスト関数を最小にするパラメータセット
【数10】
を見つけることによって、ネットワークを訓練することができる。
【0187】
本発明の任意の一実施形態に適するコスト関数は以下である。
【0188】
【数11】
このコスト関数の第1項は、平均二乗誤差
【数12】
に相当し、N
pはパッチの数である。第2項は、正則化コスト(regularization cost)
【数13】
である。第3項は、スパーシティコスト(sparsity cost)
【数14】
であり、ρは事前定義される一定のパラメータでありかつ
【数15】
であり、
【数16】
は
【数17】
のj番目の要素である。
【0189】
ネットワークを訓練した後、特徴抽出用に
【数18】
および
【数19】
を使用することができる。オプションとして好ましくは、
【数20】
の行を再形成してm個のn×nフィルタのセット
【数21】
を形成する。次に、これらのフィルタによる畳み込みによって画像pをフィルタリングして、m個のフィルタリングされた画像(
【数22】
)のセットを得ることができる。オプションとして好ましくは、次に、フィルタリングされた各画像の次元を、プーリングによって削減する。プーリングされた画像のセットを連結して、1つの特徴ベクトル
【数23】
として形成することができる。オプションとして好ましくは、訓練画像からの特徴ベクトルのセットをそれぞれのラベルと一緒に使用して、分類器を訓練することができる。
【0190】
画像提示モジュール
人間の観察者に提示する画像は、以下の少なくとも1つに基づいて配置する。
(a)コンピュータビジョンモジュールによって事前に選択された画像。
(b)分類スコアが中程度であり、画像に目標物が含まれているか否かを確定的に決定できない分類スコアを有する画像であって、オプションとして好ましくは観察者にもう一度提示して、新しいスコアを前の利用可能なスコアと組み合わせる画像。
(c)前処理モジュールによって、再提示するように戻された画像(例えば、瞬目している間、またはEEGアーチファクトが発生している間に提示された画像)。
(d)セッション全体を通じて精度レベル、疲労、および注意力を測定できるようにする目的で観察者に表示される、事前に分類された画像(以下を参照)。
【0191】
オプションとして好ましくは、画像は、以下、すなわち、用途における必要性、緊急性、使用者の疲労、のうちの1つまたは複数に基づいて決定される高い速度でのRSVP(高速逐次視覚提示)において、使用者に提示する。速度は、1Hzから20Hzまでの間で(ただしこれに限定されない)変えることができる。オプションとして好ましくは、RSVPで提示している間、注意力レベル(すなわち使用者の精神的疲労)を、次の方法を使用してモニターする。
【0192】
オプションとして好ましくは、精神的疲労は、皮質の活性が失われた状態(これにより精神的能力が低下し、注意力が減少する)として定義される。精神的疲労の主要な症状は、一般的な疲労感、抑圧感、注意力および集中力のレベルが低いことによる活性の低下である。オプションとして好ましくは、本システムは、事前に分類される試行に対する電気生理学的指標の一意の組合せと成績評価を使用して、疲労を測定する。EEG信号をリアルタイムでスペクトル分析して、時間の経過とともに速波EEG活性に対する遅波EEG活性の比率をモニターする。このような比率の代表的な例は、(シータ+アルファ)/ベータである。この比率が大きくなると、疲労レベルが増していることを示す。これに加えて、筋緊張と、瞬目の量および波形も、疲労を示すことができ、EEGキャップにおける電極を使用してこれらを測定することができる。リアルタイムの課題を実行している間にEEG分類の精度を自動的に評価することができるように、事前に分類された試行(これらの試行では画像内の目標物の有無が既知である)をRSVPの中に入れる。比率[例えば(シータ+アルファ)/ベータ]が何らかのしきい値を超える/下回るときに、より多くの事前に分類された試行をストリームの中に入れることができるように、これらの測度の組合せを使用することができる。
【0193】
疲労が検出された時点で、課題において長い中断を自動的に開始することができ、このとき、立ち上がって周囲を歩く、トイレに行く、または休憩するように、言葉で、または視覚的に合図する。オプションとして好ましくは、分析者が課題を行うのに費やすべき最適な時間の長さ、または各分析者の1日の中で最適な時間帯に関する情報を提供するため、疲労の程度の報告を生成する。
【0194】
成績の測度を使用して、課題をゲーム化することもできる。数分ごとに、課題に関する(事前に定義された)量的な質問(例えば何個の目標物を数えたか)を分析者に行うことができる。事前に分類された画像が挿入されている画像ブロックでは、答えが既知であり、正しく答えた場合にポイントを与える。これらのポイントをセッション全体で累積して、個人的な報酬のための個人的スコアとする、または同様の課題を行っている別の分析者に対する競争スコアとすることができる。
【0195】
データ取得モジュール
神経生理学的データ(EEGデータなど、ただしこれに限定されない)を、多数のチャンネルから、オプションとして好ましくは同時に、オプションとして好ましくは高い時間分解能で、収集する。EEGデータは、市販されているEEG取得システムを使用して得ることができる。そのようなシステムの1つは、64個の焼結Ag/AgCl電極を使用するActive 2システム(オランダのBioSemi社)とすることができる。次の位置、すなわち、乳様突起における2つ、左目および右目の外眼角に配置される2つの水平EOGチャンネル(それぞれHEOGLおよびHEOGR)、2つの垂直EOGチャンネル(右目の下に1つ(眼窩下、VEOGI)および上に1つ(眼窩上、VEOGS))、および鼻の先端におけるチャンネル、のうちの1つまたは複数、オプションとして好ましくはすべてに、追加の電極を配置することができる。さらなるシステムは、64個の電極セットを備えた、Electrical Geodesics社のGES400システムとすることができる。
【0196】
データは、例えば256Hzのサンプリングレートでサンプリングすることができ、高周波数のエイリアシングを防止するため、例えば51Hzの低域通過フィルタを使用する。オンラインフィルタリングを採用することが好ましい。別のサンプリングレート、およびフィルタリングの別のカットオフ周波数も意図されている。データは、例えばTCPリンクを使用して前処理モジュールに連続的に供給することができる。
【0197】
前処理モジュール
前処理の利点として、単一試行において課題に関連する脳の反応を識別し、それらを関連する脳状態に類別することによって、柔軟なリアルタイムフィードバックまたは対話が可能になる。
【0198】
EEGデータを、調整可能なサイズのブロックにおいて、オプションとして好ましくはリアルタイムで、取得モジュールから受信する。前処理モジュールは、リアルタイム動作を可能にするため、ブロック全体に対してオプションとして好ましくは連続的に実行される次の段階を含む。
(a)フィルタリング。スロードリフトおよび高周波数干渉を除去するため、データを、例えば0.1〜30Hzの範囲内(ただし別の周波数帯域も意図されている)の帯域通過フィルタに通す。
(b)ノイズ除去。分類が成功する確率を高めるため、オプションとして好ましくは、脳の反応のデータから、ウェーブレット解析または他の方法を使用してさらにノイズ除去する。
(c)瞬目の検出および除去
(d)アーチファクトの除去
(e)データのセグメント化。データをセグメント化して、各画像の提示の開始より例えば100ms前から始まり例えば900ms後に終わる1秒間の事象関連セグメントにする。セグメント化の別のタイミングも意図されている。
(f)ベースライン補正。例えば、各試行および各チャンネルで独立して、刺激開始の前の100msについて平均活動を計算する。平均化の別の期間も意図されている。
【0199】
前処理された単一試行脳反応を、オプションとして好ましくは、次の分類をただちに行うことのできる、単一試行脳活動を表す時空間データ行列に配置する。
【0200】
訓練手順
脳波をリアルタイムで分類できるようにする目的で、オプションとして好ましくは、本システムを使用者ごとに個別に訓練し、脳の反応を学習させる。訓練は、事前に分類された画像を使用者に提示し、これらの画像に対する脳の反応を、EEG電極を使用して記録し、記録された脳の活動を使用してEEG分類器を訓練することによって、実行することができる。画像訓練セットは、オプションとして好ましくは、目標物画像および非目標物画像の両方を含む。
【0201】
新しい画像を分類するとき、別の日に訓練された分類器を使用することができる。新しい画像が分類されることが確認されたら、それらの画像を訓練セットに加えることによって、それらの画像を使用して分類器を改善することができる。
【0202】
分類モジュール
分類モジュールは、時空間EEGデータを受信し、次の方法、すなわち、SWFP(空間的に重み付けされたFLD−PCA)(Spatially Weighted FLD-PCA)分類器、深層畳み込みネット(Deep convolutional net)分類器、および複数の分類器、のうちの1つまたは複数に基づいて、脳の反応を分類する。
【0203】
SWFP分類器
段階I:
a)時間点を独立して分類し、判別重みの時空間行列(U)を計算する。これを実施するため、入力行列Xnの各列ベクトルxn,tをとる。各列は、時刻tにおけるEEG信号の空間分布を表しており、分析のこのステップでは、すべての時間点を独立して扱う。訓練セット内のn=1...Nの試行すべてに基づいて、各時間点t=1...Tに対する個別のFLD分類器を訓練し、各時間点tの空間重みベクトルwtを得る。これらの重みベクトルを、時空間重み付け行列Uの列として設定する。Uの次元はXの次元と同じである。
b)この重み付け行列Uを使用して、時空間点それぞれにおける判別重みによって元の時空間データ行列(Xn)を展開し、空間的に重み付けされた行列Xwnを生成する。この展開を実施するため、試行入力行列Xnと重み付け行列Uのアダマール積を、2つの行列の要素ごとの乗算によって計算する。
【数24】
c)Xwnの次元を削減するため、空間チャンネルdごとに独立して、時間領域でのPCAを使用し、K個の成分のみの線形結合として時系列データを表す。平均減算(mean subtraction)の後、空間的に重み付けされた行列Xwnの各行ベクトルxd(d=1...D)に対して独立してPCAを適用する。これにより、各行dに対して、サイズT×Kの射影行列Adが生成され、この行列Adを使用して、チャンネルdの時系列データを最初のK個の主成分に射影する。こうしてチャンネルあたりの次元がTからKに削減される。実験1では、70%より大きい分散を説明するため、経験的にK=6を選択した。結果としての行列^XnはサイズD×Kであり、各行dが、K個の主時間的射影のためのPCA係数を保持する。
【数25】
【0204】
2)段階II:
a)行列^Xnの行を連結して特徴表現ベクトルznを生成し、このベクトルznは、単一試行nの、時間的に近似され空間的に重み付けされた活動を表す。
【数26】
b)特徴ベクトル{zn}Nn=1においてFLD分類器を訓練および実行して、単一試行行列Xnを2つのクラスの一方に分類する(決定境界として0を使用する)。
【数27】
オプションとして好ましくは、ステップ1.aで正しく分類された割合が最高であった最も判別的な反応待ち時間を、待ち時間tとして定義する。関連する判別的空間活性化パターン(discriminative spatial activation pattern)は、U(t)によって与えられる。
【0205】
深層畳み込みニューラルネットワーク分類器(深層学習)
これらの実施形態では、分類器を深層畳み込みニューラルネットワークとして設計する。分類器は、次元N
chan×N
t(N
chanはEEGチャンネルの数、N
tは時間点の数)の行列としてEEG信号を受信し、提示された刺激が目標物であった確率の推定値であるスコア(0≦p≦1)を生成する。ロジスティック回帰のコスト関数が最小になるように、確率的勾配降下法(SGD)を使用してネットワークを訓練することができる。
【0206】
オプションとして好ましくは、ネットワークの構造は以下である(
図4を参照)。
1.好ましくはドロップアウト比0.2のドロップアウト層
2.好ましくはサイズN
chan×1の96個の畳み込みカーネル(これらのカーネルは各時間点に対して空間フィルタリングを実行する)を有する畳み込み層(Conv1)
3.ReLU非線形性層(入力を関数f(x)=max(x,0)に通す)
4.好ましくはプーリングカーネルサイズ1×3およびストライド2を有するマックスプーリング層(Pool1)
5.好ましくはサイズ1×6の128個のカーネルを有する第2の畳み込み層(Conv2)(時間フィルタリング)
6.第2のReLU非線形性層
7.好ましくはプーリングカーネルサイズ1×3およびストライド2を有する第2のマックスプーリング層(Pool2)
8.好ましくはサイズ1×6の128個のカーネルを有する第3の畳み込み層(Conv3)
9.第3のReLU非線形性層
10.好ましくは2048個の出力を有する完全に結合された層(FC1)(この層への入力は列ベクトル
【数28】
に再成形され、出力が
【数29】
であり、行列Wは2048の行を有する)
11.第4のReLU非線形性層
12.好ましくはドロップアウト比0.5の第2のドロップアウト層
13.好ましくは4096個の出力を有する第2の完全に結合された層(FC2)
14.第5のReLU非線形性層
15.好ましくはドロップアウト比0.5の第3のドロップアウト層
16.例えば以下(ただしこれに限定されない)のロジスティック回帰関数に従ってpを計算するロジスティック回帰層
【数30】
式中、
【数31】
はこの層への入力ベクトルであり、
【数32】
および
【数33】
は層のパラメータベクトルである。
【0207】
SGD(確率的勾配降下法)訓練過程は、オプションとして好ましくは、モーメンタム0.001および0.9の学習率で実行する。別の率およびモーメンタムも意図されている。サンプル数が少ない方のクラスをブートストラップして大きい方のクラスのサイズに一致させることによって、同じ数の「目標物」サンプルおよび「非目標物」サンプルが含まれるように、訓練セットを修正することができる。
【0208】
複数の分類器
SWFP分類器と深層畳み込みネット分類器の両方の利点を生かすため、画像の総スコアを、オプションとして好ましくは、両方の分類器から受信するスコアの組合せとすることができる。SWFPアルゴリズムでは、分類にFLD(フィッシャーの線形判別)を採用し、したがってこのアルゴリズムによって生成されるスコアの大きさは特定の訓練データに依存するのに対して、深層ネット分類器ではロジスティック回帰を使用し、したがってつねに領域[0,1]内のスコアが生成される。スコアを比較できるようにするため、オプションとして好ましくは、SWFPスコア(以下ではx
FLDと表す)を再スケーリングする。例えば、訓練データからのガウス関数を使用して、条件付き確率(Pr(x
FLD|y=n)をフィットさせることができ、ここでyは画像のラベルであり、nは、非目標物画像の場合には0、目標物画像の場合には1である。
【数34】
この場合、正規化されたFLDスコア
【数35】
を、Pr(y=1|x
FLD)として定義することができる。Pr(y=1|x
FLD)は、ベイズの公式から以下である。
【数36】
本発明のいくつかの実施形態においては、事前確率Pr(y=n)を
【数37】
として置き換える。フィットさせたガウス関数を使用して、正規化されたFLDスコアを次のように生成することができる。
【数38】
これに代えて、事前確率を推定することができる。
画像の総スコアは、
【数39】
と深層ネット分類器のスコアの平均とすることができる。ROC(
図5)は、2つの分類器の組合せを使用する利点を実例で示している。
【0209】
分析モジュール
分析モジュールは、分析の方法を実行する。
図6は、本発明のいくつかの実施形態による分析モジュールによって実行される方法のブロック図を示している。分析モジュールは、EEG分類モジュールからの画像分類スコアと、コンピュータビジョンモジュールからの画像分類スコアとを受信し、以下の動作のうちの1つまたは複数を実行する。
【0210】
決定を行う前に確実性のレベルを改善するために画像をさらに提示することが必要であるかを、事前に選択されるスコアしきい値に基づいて判定する。オプションとして好ましくは、本システムは、曖昧に分類された画像を、使用者に示される画像のキューに再挿入してもう一度見せることができる。2つ以上の分類の曖昧性を定量化するため、「目標物」訓練サンプルおよび「非目標物」訓練サンプルに対して分類器によって与えられるスコアの分布を、ガウス関数g
0(x;μ
0,σ
0)およびg
1(x;μ
1,σ
1)を使用してフィットさせることができる。新しい画像が挿入されるときには、オプションとして好ましくは、そのスコアsを
【数40】
によって
【数41】
に正規化する。
【数42】
が曖昧性しきい値T
ambより小さいときには、オプションとして好ましくは、その画像をキューに戻してさらに提示する。しきい値T
ambは、課題の要件に従って使用者によって調整することができる。
【0211】
画像をさらに提示したときのスコアが得られた後、オプションとして好ましくは、全回の画像提示からのEEG分類スコアに対する投票(voting)と、これらの画像のコンピュータビジョン分類スコアとに基づいて、決定を行う。
【0212】
ニューロフィードバックモジュール
本発明のさまざまな例示的な実施形態においては、訓練手順にニューロフィードバックモジュールを組み込む。分類器の最初の訓練に続いて、その後の分類結果を、各刺激の後に、正しく分類された場合の正のフィードバック(検出)および間違って分類された場合の負のフィードバック(誤検出)[2値フィードバック]として、または分類器のスコアのフィードバック[非2値フィードバック]として、使用者にフィードバックする。その結果として、使用者は、正のフィードバックの量を増やし負のフィードバックの量を減らすように目指すことによって、分類器の性能を改善することに関して、刺激に対する自分の脳の反応を変化させる方法を学習する。学習過程は、暗黙的とする(使用者は自身が受け取るフィードバックを改善するために自分が何をしているかを明確に説明することができない)、または明示的とする(フィードバックを改善する認識的な方策または感情的な方策を使用者に適用させることによる)ことができる。使用者が分類器の結果の改善に成功した時点で、このプロセスを繰り返し、すなわち、新しい分類パラメータを学習させ、再び使用者にフィードバックを送る。この閉ループプロセスは、分類器の精度と、使用者の脳の反応と分類器が学習した想定の一致性とを繰り返し改善することによって、分類器の精度を向上させることを目的とする。さらに、システムの分類を改善するために使用者の脳の反応を適合させることによって、使用者の画像解釈能力も向上し、なぜなら使用者は、システムが何を目標物とみなし何を非目標物とみなすかを暗黙的に学習するためである。
【0213】
結果提示モジュール
本発明の実施形態のシステムは、結果を2つ以上の方法で提示することができる。以下では2つの例を説明する。
【0214】
例1:アルバム
大量の個々の画像(例えば手荷物のX線画像や医用画像)を分類するため、本発明の実施形態のシステムは、画像をアルバムに配置することができる(
図7の代表的なスクリーンショットを参照)。各画像に、EEG分類器によってスコアを与える。本発明の実施形態では、画像をそれぞれのスコアによって仕分けする。本発明のいくつかの実施形態においては、スコアが特定のしきい値Tを超える画像のみを画面に提示し、目標物として分類する。しきい値Tは、使用者によってリアルタイムで調整することができる。
【0215】
例2:空間「ヒートマップ」
地図、衛星画像、または空撮画像などの大きな画像の場合、本発明の実施形態のシステムを使用してヒートマップを生成することが有利である(
図8の代表的なスクリーンショットを参照)。これらの実施形態では、画像をタイルに分割し、このときx方向およびy方向の両方において隣り合うタイルが重なる。重なりは、オプションとして好ましくは、タイルの小部分pが隣接するタイルと共有される領域であり、この場合、小部分pは、何らかの小部分しきい値より大きい(例えばp>0.5、ただし小部分しきい値の別の値も意図されている)。各タイルを、n=(1−p)
−2個の部分に分割することができ、したがって各部分は、n−1個の別の異なるタイル内にも現れる。例えば50%の重なりの場合、p=0.5であり、各タイルを四つ切りに分割することができ、四つ切りは他の3つのタイルにも現れる。次に、行列の各要素q
ijがn番目のタイルに対応するように、ヒートマップを行列Qとして具体化する。
【0216】
空間ヒートマップを生成するため、n番目のタイルそれぞれのスコアs
ijを計算し、この場合、スコアは、そのn番目のタイルを含むすべてのタイルの平均スコアである。その後、しきい値Tを選択し、このときq
ijは次のように設定される。
【数43】
ヒートマップQを計算したら、オプションとして好ましくは、第2のしきい値T
globより高い値を有する点を潜在的な目標物としてマークする。しきい値t
loc<t
globより高い値を有する、ヒートマップの局所的な最大値を探索することによって、さらなる潜在的な目標物を特定することができる。オプションとして好ましくは、潜在的な目標物としてマークされた各位置について、その位置を含むタイルを目標物として識別してマークする。しきい値t
globおよびt
locは、使用者によってオンラインで修正することができる。
【0217】
(実施例2)
X線/CT画像
手荷物や貨物のX線/CT画像、および医用X線/CT画像を、本発明の実施形態のシステムを使用して検査することができる。実施例1において説明したプロトタイプシステムを使用して、空港の手荷物検査場の手荷物のX線画像を分類して危険物(銃器、鋭利な物)を含む画像を検出することに成功した。以下は実験の結果である。
【0218】
脳の反応:ERP(事象関連電位)および空間分布
図9Aは、EEG電極(Pz)の1つにおける、目標物および非目標物に対する平均的な脳の反応(ERP)を示している。
図9Bは、画像を提示してから400〜800ミリ秒後の頭部における電位の分布を示している。赤みを帯びた色は、分類に有用である高いエネルギを示している。
【0219】
図10Aおよび
図10Bは、電極Pzにおいて測定された、目標物の単一画像と非目標物の単一画像に対する脳の反応の違いを実例で示している。
【0220】
スコアの分布
各画像に分類スコアを割り当てた。
図11は、試験段階のデータセットのスコア分布を実例で示している。危険物を含むカバンでは、危険物を含まないカバンよりも全体的に高い分類スコアが生成された。
【0221】
システムの性能
分類スコアのしきい値を選択することによって、危険物と分類される画像と、危険物ではないと分類される画像とが決まる。与えられた動作シナリオに基づいて、検出と誤検出との間の最適なトレードオフが達成されるように、または、例えば0%の見落としまたは0%の誤検出が確保されるように、しきい値を設定することができる。
【0222】
図12に示した受信者動作特性(ROC)曲線は、異なるしきい値における分類器の性能を示している。
【0223】
同じデータの異なるバージョン(
図13)は、しきい値を大きくする、または小さくすることが、検出率および誤検出率にどのように影響するかを示している。
【0224】
本発明の実施形態のシステムは、特定の精度を達成するためには中身を調べる対象としてどの手荷物を選ぶべきかを判定するための有用なツールとすることもできる。例えば、上の結果に基づくと、危険物の100%の検出が確保されるようにしきい値が設定される場合、システムは、約37%のカバンを開けるように指示する。危険物の90%近くを検出するためには、約20%のカバンを開けるように指示される。または、誤検出がまったく発生しないことを要求する設定(代償として目標物の2/3のみが検出される)の場合、システムは約7.5%のカバンを指示する(これらのカバンすべてが目標物を含む)。下の表は、動作点のいくつかをまとめたものである。
【0226】
(実施例3)
空撮画像
本発明の実施形態のシステムを使用して、空撮画像を解釈して目標物または目的の対象物を検出することができる。実施例1において説明したプロトタイプシステムは、100平方キロメートルの空撮画像内で建物を検出するテストに成功した。下の表は、この課題における検出/誤検出/d’の割合をまとめたものであり、この場合、1人の被験者に対して5Hzの速度(2回のセッション)および10Hzの速度(4回のセッション)で、画像を提示した。
【0228】
図14Aおよび
図14Bは、電極Pzにおいて測定された目標物および非目標物の単一画像に対する脳の反応の違いを実例で示している。
【0229】
図15および
図16は、電極(Pz)の1つにおける目標物および非目標物に対する平均的な脳の反応(ERP)と、画像を提示してから400〜800ミリ秒後の頭部における電位の分布を示している。赤みを帯びた色は、分類に有用である高いエネルギを示している。
【0230】
(実施例4)
顔検出
実施例1において説明したプロトタイプシステムは、特定の人の顔の画像を別の顔の画像の中で検出するテストに成功した。
【0231】
ここまで、本発明について、その特定の実施形態に関連して説明してきたが、当業者には、多くの代替形態、修正形態、および変形形態が明らかであろう。したがって、添付の特許請求の範囲の趣旨および広い範囲内に含まれるそのような代替形態、修正形態、および変形形態は、すべて本発明に包含されるものとする。
【0232】
本明細書に記載されているすべての刊行物、特許、および特許出願は、これら個々の刊行物、特許、および特許出願それぞれが、参照によって本明細書に組み込まれることを明示的かつ個別に示されている場合と同じように、それぞれの内容全体が参照によって本明細書に組み込まれている。さらには、本出願において参考文献が引用または特定されていることは、そのような参考文献が本発明の従来技術として利用可能であることを認めるものとして解釈されない。セクションの見出しが使用されている場合、それらの見出しは必ずしも本発明を制限するものとして解釈されない。
【0233】
本出願は、イスラエル特許出願第239191号(出願日:2015年6月3日)の優先権の利益を主張し、この文書の内容は参照により本明細書に組み込まれている。