(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022020465
(43)【公開日】2022-02-01
(54)【発明の名称】特徴変換装置、距離測定装置、照合システム、特徴変換方法、及びコンピュータプログラム
(51)【国際特許分類】
G06F 17/18 20060101AFI20220125BHJP
【FI】
G06F17/18 D
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2020123974
(22)【出願日】2020-07-20
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】504145342
【氏名又は名称】国立大学法人九州大学
(74)【代理人】
【識別番号】110001634
【氏名又は名称】特許業務法人 志賀国際特許事務所
(72)【発明者】
【氏名】武 小萌
(72)【発明者】
【氏名】木村 昭悟
(72)【発明者】
【氏名】柏野 邦夫
(72)【発明者】
【氏名】内田 誠一
【テーマコード(参考)】
5B056
【Fターム(参考)】
5B056BB81
(57)【要約】
【課題】属するクラスの特徴が明確に表れるように特徴ベクトルを変換する特徴変換装置を提供する。
【解決手段】特徴変換装置は、複数の訓練データの異なる部分に係る局所的な特徴を表す複数の訓練局所特徴ベクトルの散布度である訓練散布度と対象データの異なる部分に係る局所的な特徴を表す複数の対象局所特徴ベクトルの散布度である対象散布度とから求められる総合散布度を算出し、前記複数の訓練局所特徴ベクトルの代表値である訓練代表値と、前記複数の対象局所特徴ベクトルの代表値である対象代表値とから求められる総合代表値とを算出する総合統計値導出部と、散布度が前記総合散布度と等しく、代表値が前記総合代表値と等しい統計分布を正規化する変換を、前記対象局所特徴ベクトルに対して行う特徴変換部とを備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
複数の訓練データの異なる部分に係る局所的な特徴を表す複数の訓練局所特徴ベクトルの散布度である訓練散布度と対象データの異なる部分に係る局所的な特徴を表す複数の対象局所特徴ベクトルの散布度である対象散布度とから求められる総合散布度を算出し、前記複数の訓練局所特徴ベクトルの代表値である訓練代表値と、前記複数の対象局所特徴ベクトルの代表値である対象代表値とから求められる総合代表値とを算出する総合統計値導出部と、
散布度が前記総合散布度と等しく、代表値が前記総合代表値と等しい統計分布を正規化する変換を、前記対象局所特徴ベクトルに対して行う特徴変換部と
を備える特徴変換装置。
【請求項2】
前記総合統計値導出部は、
前記複数の訓練局所特徴ベクトルから算出される共分散行列と前記複数の対象局所特徴ベクトルから算出される共分散行列の加重平均により、前記総合散布度を算出し、
前記複数の訓練局所特徴ベクトルの平均ベクトルと前記複数の対象局所特徴ベクトルの平均ベクトルの加重平均により、総合代表値を算出し、
前記特徴変換部は、前記総合散布度及び前記総合代表値によって規定されるガウス分布を標準正規分布にする変換を、前記対象データから抽出される局所特徴ベクトルに対して行う
請求項1に記載の特徴変換装置。
【請求項3】
前記総合統計値導出部は、
前記複数の訓練局所特徴ベクトルから算出される共分散行列と前記複数の対象局所特徴ベクトルから算出される共分散行列の加重平均と、前記複数の訓練局所特徴ベクトルの平均ベクトルと前記複数の対象局所特徴ベクトルの平均ベクトルから算出される加重共分散行列とにより、前記総合散布度を算出する
請求項2に記載の特徴変換装置。
【請求項4】
請求項1から請求項3の何れか1項に記載の特徴変換装置と、
2つの対象データを基にして、対象データそれぞれに対応する前記複数の対象局所特徴ベクトルを抽出する特徴抽出部と、
前記2つの対象データそれぞれについて前記対象散布度及び前記対象代表値を算出する対象統計値導出部と、
前記特徴変換装置によって変換された前記2つの対象データそれぞれに係る変換対象局所特徴ベクトル間の距離を算出する距離算出部と、
をさらに備える距離測定装置。
【請求項5】
前記訓練データから前記訓練局所特徴ベクトルを抽出し、前記訓練散布度及び前記訓練代表値を算出する訓練統計値導出部と、
請求項4に記載の距離測定装置と
を備える照合システム。
【請求項6】
複数の訓練データの異なる部分に係る局所的な特徴を表す複数の訓練局所特徴ベクトルの散布度である訓練散布度と対象データの異なる部分に係る局所的な特徴を表す複数の対象局所特徴ベクトルの散布度である対象散布度とから求められる総合散布度を算出し、前記複数の訓練局所特徴ベクトルの代表値である訓練代表値と、前記複数の対象局所特徴ベクトルの代表値である対象代表値とから求められる総合代表値とを算出する総合統計値導出ステップと、
散布度が前記総合散布度と等しく、代表値が前記総合代表値と等しい統計分布を正規化する変換を、前記対象局所特徴ベクトルに対して行う特徴変換ステップと
を有する特徴変換方法。
【請求項7】
請求項1から請求項3の何れか1項に記載の特徴変換装置、請求項4に記載の距離測定装置、又は請求項5に記載の照合システムとしてコンピュータを機能させるためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特徴変換装置、距離測定装置、照合システム、特徴変換方法、及びコンピュータプログラムに関する。
【背景技術】
【0002】
時系列データの照合は、オンラインにおける署名認証や動作認識など多くの分野において重要である。時系列データを照合するときに時系列データ間の距離を測定しその距離を基にして照合する方法があり、近年ではニューラルネットワークを介して時系列データの特徴表現を学習し、学習した特徴間の距離を使用して時系列データを区別する技術が提案されている。しかし、ニューラルネットワークを介して時系列データの特徴表現を学習する場合、特徴の次元間の相関が拡大されることがあり、照合精度が低下することがある。
【0003】
この問題を解決する技術にホワイトニング変換と呼ばれるものがある。ホワイトニング変換とは、特徴表現がガウス分布に従うと仮定してガウス分布の平均ベクトルと共分散行列を求め、平均ベクトル及び共分散行列に基づいてガウス分布が標準正規分布になるように特徴表現を変換する手法である。
【0004】
画像や時系列データの特徴は、データの局所的な特徴を表す複数のベクトルの集合として表されることができる。このベクトルを局所特徴ベクトルと呼ぶ。局所特徴ベクトルの集合が画像を表す場合、この局所特徴ベクトルは例えばある局所領域における画像のRGBの値から抽出された多次元の特徴ベクトルを示し、局所特徴ベクトルの集合が署名の時系列データを表す場合、この局所特徴ベクトルは例えばある局所断片における署名の座標や筆圧から抽出された多次元の特徴ベクトルを示す。つまり、局所特徴ベクトルは、データの局所的な特徴を表すベクトルである。データの異なる部分に係る複数の局所特徴ベクトルの集合により、データ全体の特徴を表すことができる。
【0005】
局所特徴ベクトルの分布の範囲については様々な提案がされている。例えば、非特許文献1には、すべてのクラスのすべての画像における局所特徴ベクトルが単一のガウス分布に従うと仮定し、すべてのクラスのすべての画像から決定された単一のガウス分布が標準正規分布になるように局所特徴ベクトルを変換する手法が開示されている。
【0006】
また、非特許文献2には、各クラスのすべての時系列データにおける局所特徴ベクトルが単一のガウス分布に従うと仮定し、クラスごとに算出されたガウス分布に基づいてクラスごとに局所特徴ベクトルを変換する手法が開示されている。また、非特許文献3には、各特定のクラスの各特定の画像における局所特徴ベクトルが単一のガウス分布に従うと仮定し、それぞれガウス分布を算出し、局所特徴ベクトルを変換する手法が開示されている。
【0007】
非特許文献1-3の技術は、単一のガウス分布に対する局所特徴ベクトルの相対位置に関して、同じクラスのデータから抽出された局所特徴ベクトルの相対位置は類似し、異なるクラスのデータから抽出された局所特徴ベクトルの相対位置は類似しないという仮定に基づくものである。この仮定によれば、異なるクラスのデータから抽出された局所特徴ベクトルに対して単一のガウス分布を標準正規分布にする変換を行うことでベクトル間の距離が拡大し、局所特徴ベクトルどうしが正しく区別される。
【0008】
また、データから局所特徴ベクトルを抽出する方法にも、ニューラルネットワークを使用するものなどさまざまなものが提案されている(例えば非特許文献4-6)。
【先行技術文献】
【非特許文献】
【0009】
【非特許文献1】Krystian Mikolajczyk and Jiri Matas. Improving descriptors for fast tree matching by optimal linear projection. In ICCV, pp. 1-8, 2007.
【非特許文献2】Ronny Martens and Luc J. M. Claesen. On-line signature verification by dynamic time-warping. In ICPR, pp. 38-42, 1996.
【非特許文献3】Yijun Li, Chen Fang, Jimei Yang, Zhaowen Wang, Xin Lu, and Ming-Hsuan Yang. Universal style transfer via feature transforms. In NIPS, pp. 386-396, 2017.
【非特許文献4】Xiaomeng Wu, Akisato Kimura, Seiichi Uchida, and Kunio Kashino. Prewarping Siamese network: Learning local representations for online signature verification. In ICASSP, pp. 2467-2471, 2019.
【非特許文献5】Xiaomeng Wu, Akisato Kimura, Brian Kenji Iwana, Seiichi Uchida, and Kunio Kashino. Deep dynamic time warping: End-to-end local representation learning for online signature verification. In ICDAR, pp. 1103-1110, 2019.
【非特許文献6】Marcos Martinez-Diaz, Julian Fierrez, Ram P. Krish, and Javier Galbally. Mobile signature verification: Feature robustness and performance comparison. IET Biometrics, Vol. 3, No. 4, pp. 267-277, 2014.
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかし、データが少ないなどの理由から局所特徴ベクトルが単一のガウス分布に従わず仮定が成り立たない可能性がある。例えば、単一のガウス分布に対して、異なるクラスに属する2つのデータの局所特徴ベクトルの相対位置が偶然的に類似することがある。この場合、異なるクラスのデータから抽出された局所特徴ベクトルは、単一のガウス分布を標準正規分布にする変換を受けても2つのデータの変換された局所特徴ベクトルは類似したままであり、データが同じクラスに属するか否かが明確に表れない可能性がある。
本発明の目的は、属するクラスの特徴が明確に表れるように特徴ベクトルを変換する特徴変換装置を提供することにある。
【課題を解決するための手段】
【0011】
本発明の一態様は、複数の訓練データの異なる部分に係る局所的な特徴を表す複数の訓練局所特徴ベクトルの散布度である訓練散布度と対象データの異なる部分に係る局所的な特徴を表す複数の対象局所特徴ベクトルの散布度である対象散布度とから求められる総合散布度を算出し、前記複数の訓練局所特徴ベクトルの代表値である訓練代表値と、前記複数の対象局所特徴ベクトルの代表値である対象代表値とから求められる総合代表値とを算出する総合統計値導出部と、散布度が前記総合散布度と等しく、代表値が前記総合代表値と等しい統計分布を正規化する変換を、前記対象局所特徴ベクトルに対して行う特徴変換部とを備える特徴変換装置である。
【発明の効果】
【0012】
本発明によれば、属するクラスの特徴が明確に表れるように特徴ベクトルを変換することができる。
【図面の簡単な説明】
【0013】
【
図1】第1の実施形態に係る照合システムの構成を示す図である。
【
図2】第1の実施形態に係る訓練統計値導出部の動作を示すフローチャートである。
【
図3】第1の実施形態に係る距離測定部の動作を示すフローチャートである。
【
図4】第1の実施形態に係る照合システムの実験例である。
【発明を実施するための形態】
【0014】
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
【0015】
〈第1の実施形態〉
図1は、第1の実施形態に係る照合システム1の構成を示す図である。
照合システム1は、属するクラスが分かっている参照データと属するクラスが分かっていない評価データの間の距離を測定する。照合システム1は、訓練データ入力部10、対象データ入力部11、訓練統計値導出部12、訓練統計値記憶部122、距離測定部13、判定部14を備える。
【0016】
訓練データ入力部10は、1つ以上の訓練データをまとめた訓練データ集合をデータベースなどから取得し、訓練統計値導出部12に出力する。訓練データは訓練統計値導出部12が訓練統計値を算出するために使用するデータである。訓練データは、参照データ及び評価データと同種のデータである。また、訓練データは時間順に並べられた一連の数値又は一連の数値ベクトルからなる時系列データと、時系列データが属するクラスを示すクラスラベルのデータとを含む。例えばオンライン署名認証の場合、時系列データはディスプレイにおける署名の座標や筆圧であり、クラスラベルは署名を行った者を示すIDである。
対象データ入力部11は、取得した対象データを距離測定部13に出力する。対象データは時系列データである。対象データはクラスラベルのデータを含む参照データとクラスラベルのデータを含まない評価データに分けられる。
【0017】
訓練統計値導出部12は、取得した訓練データ集合から訓練データに係る統計値である訓練統計値を算出する。
距離測定部13は、参照データ及び評価データから参照データ及び評価データに係る距離を算出する。
【0018】
判定部14は、距離測定部13が算出した距離を基にして評価データが属するクラスを判定する。評価データが属するクラスを判定する方法の例としては、あるクラスに属するすべての参照データと評価データの距離を測定し、測定した距離の平均値が最も小さいクラスを評価データに割り当てる方法が挙げられる。また、評価データが属するクラスを判定する方法の例として、評価データと距離の近いk個の参照データのうち、参照データが最も多く属するクラスを評価データに割り当てるk近傍法と呼ばれる方法も挙げられる。
【0019】
訓練統計値導出部12は対応関係検出部120及び訓練統計値計算部121を備える。
対応関係検出部120は取得した訓練データ集合のうち同じクラスに属する2つの訓練データから、時間順に並べられた一連の局所特徴ベクトルである局所特徴ベクトル系列を2つ抽出する。局所特徴ベクトルとは、画像や時系列データなどの時間的又は空間的な連続性を有するデータの局所的な特徴を表すベクトルである。つまり、局所特徴ベクトルの集合である局所特徴ベクトル系列は、データ全体の特徴を表す。その後、対応関係検出部120はそれぞれの局所特徴ベクトル系列に含まれる局所特徴ベクトルどうしを、対応関係(例えば、2つの局所特徴ベクトルはそれぞれの局所特徴ベクトル系列で同じ時刻にあるなど)により関連付ける。その後、対応関係検出部120は関連付けられた局所特徴ベクトルのペアを集める。集めたものを局所特徴ベクトルペア集合と呼ぶ。
訓練統計値計算部121は局所特徴ベクトルペア集合から訓練統計値を算出する。また、訓練統計値計算部121は算出した訓練統計値を距離測定部13に出力する。
【0020】
《対応関係検出部120の詳細》
対応関係検出部120は初めに同じクラスに属する訓練データから2つの訓練データをペアとして抽出する。対応関係検出部120はペアにした2つの訓練データに対して動的時間伸縮法を適用し2つの訓練データを整列する。これにより2つの訓練データの間に存在する非線形な時間変動が補償される。次に対応関係検出部120は訓練済みのニューラルネットワークを用いて、訓練データのペアからそれぞれ局所特徴ベクトル系列を抽出する。その後対応関係検出部120は2つの局所特徴ベクトル系列から同じ時刻にある2つの局所特徴ベクトルを局所特徴ベクトルペアとする。
対応関係検出部120は同じクラスに属する訓練データのペア全ての組み合わせから局所特徴ベクトルペアを生成する。生成した局所特徴ベクトルペアの集合を局所特徴ベクトルペア集合と呼ぶ。
【0021】
《訓練統計値計算部121の詳細》
局所特徴ベクトルペア集合を構成する局所特徴ベクトルペアを(x、y)と表す。ここでx及びyは列ベクトルである。訓練統計値計算部121は局所特徴ベクトルの代表値(訓練代表値)として、局所特徴ベクトルの平均ベクトルである訓練平均ベクトルμ1及び局所特徴ベクトルの散布度(訓練散布度)として、局所特徴ベクトルの共分散行列である訓練共分散行列Σ1を算出する。μ1は式(1)により、Σ1は式(2)により算出される。
【0022】
【0023】
【0024】
ここでSは局所特徴ベクトルペア集合、nはSに含まれる局所特徴ベクトルペアの数である。また、xTはxの転置行列である。
訓練統計値計算部121は訓練平均ベクトルμ1及び訓練共分散行列Σ1を訓練統計値として距離測定部13に出力する。また、訓練統計値により決まるガウス分布を訓練ガウス分布と呼ぶ。
【0025】
距離測定部13は特徴抽出部130、事例統計値導出部131、総合統計値導出部132、特徴変換部133、距離算出部134を備える。なお、特徴抽出部130、事例統計値導出部131、総合統計値導出部132、及び特徴変換部133は、入力された局所特徴ベクトル系列を変換する特徴変換装置2を構成する。
【0026】
特徴抽出部130は対象データ入力部11から入力される参照データと評価データから、それぞれ参照データと評価データに対応する局所特徴ベクトル系列である参照局所特徴ベクトル系列と評価局所特徴ベクトル系列を抽出し、抽出した参照局所特徴ベクトル系列と評価局所特徴ベクトル系列を事例統計値導出部131及び特徴変換部133に出力する。
事例統計値導出部131は入力される参照局所特徴ベクトル系列から参照データに係る統計値である参照統計値を算出し、入力された評価局所特徴ベクトル系列から評価データに係る統計値である評価統計値を算出する。また、事例統計値導出部131は算出した参照統計値及び評価統計値を総合統計値導出部132に出力する。
【0027】
総合統計値導出部132は訓練統計値記憶部122から訓練統計値を取得する。総合統計値導出部132は訓練統計値と参照統計値を基にして参照総合統計値を算出する。また、総合統計値導出部132は入力された訓練統計値と評価統計値を基にして評価総合統計値を算出する。総合統計値導出部132は算出した参照総合統計値及び評価総合統計値を特徴変換部133に出力する。
【0028】
特徴変換部133には参照局所特徴ベクトル系列と評価局所特徴ベクトル系列及び参照総合統計値と評価総合統計値が入力される。特徴変換部133は参照局所特徴ベクトル系列を参照総合統計値に基づく変換方法により変換し、変換参照局所特徴ベクトル系列を生成する。また、特徴変換部133は評価局所特徴ベクトル系列を評価総合統計値に基づく変換方法により変換し、変換評価局所特徴ベクトル系列を生成する。特徴変換部133は生成した変換参照局所特徴ベクトル系列及び変換評価局所特徴ベクトル系列を距離算出部134に出力する。
【0029】
距離算出部134は入力される変換参照局所特徴ベクトル系列と変換評価局所特徴ベクトル系列との間の変換距離値を算出する。距離算出部134は算出する変換距離値を判定部14に出力する。
【0030】
《特徴抽出部130の詳細》
特徴抽出部130は初めに参照データと評価データに対して動的時間伸縮法を適用し参照データと評価データを整列する。次に特徴抽出部130は訓練済みのニューラルネットワークを用いて、整列した参照データから局所特徴ベクトル系列である参照局所特徴ベクトル系列を抽出し、整列した評価データから局所特徴ベクトル系列である評価局所特徴ベクトル系列を抽出する。
【0031】
局所特徴ベクトル系列は時間順に並べられた一連の局所特徴ベクトルである。時刻iにおける局所特徴ベクトルをxiとすると、L個の局所特徴ベクトルを含む局所特徴ベクトル系列Xは式(3)のように表すことができる。なお、xiは列ベクトルである。
【0032】
【0033】
つまり、Xは列数がLであり、行数が列ベクトルxiの行数と同じ行列である。
【0034】
《事例統計値導出部131》
事例統計値導出部131は参照局所特徴ベクトル系列及び評価局所特徴ベクトル系列からそれぞれ参照統計値及び評価統計値を算出する。
参照局所統計ベクトル系列が式(3)で表されるとき、参照統計値に含まれる参照局所特徴ベクトルの代表値(参照代表値)である参照平均ベクトルμ2及び参照局所特徴ベクトルの散布度(参照散布度)である参照共分散行列Σ2はそれぞれ式(4)、式(5)で算出される。
【0035】
【0036】
【0037】
また、参照統計値により決まるガウス分布を参照ガウス分布と呼ぶ。
評価統計値に含まれる評価平均ベクトル及び評価共分散行列もそれぞれ参照平均ベクトル及び参照共分散行列と同様の式で算出される。評価統計値により決まるガウス分布を評価ガウス分布と呼ぶ。
【0038】
《総合統計値導出部132》
総合統計値とは訓練統計値と参照統計値もしくは訓練統計値と評価統計値から算出される値である。
訓練統計値と参照統計値から算出される総合統計値には訓練代表値と参照代表値から算出される総合代表値、及び訓練散布度と参照散布度から算出される総合散布度が含まれる。
訓練代表値として訓練平均ベクトル、参照代表値として参照平均ベクトル、訓練散布度として訓練共分散行列、参照散布度として参照共分散行列を用いるとき、総合代表値を平均ベクトル、総合散布度を共分散行列とするガウス分布は訓練統計値と参照統計値の母集団(訓練データ及び参照データ)から直接算出される分布とは異なる。また、このガウス分布は訓練ガウス分布と参照ガウス分布を重ね合わせてできるガウス混合分布とも異なる。同様に、訓練統計値と評価統計値から算出される総合統計値に係るガウス分布についても、訓練統計値と評価統計値の母集団(訓練データ及び参照データ)から直接算出される分布とは異なる。
総合統計値導出部132は訓練統計値及び参照統計値から参照総合統計値を算出する。
参照総合統計値に含まれる参照総合平均ベクトルμ3及び参照総合共分散行列Σ3はそれぞれ式(6)、式(7)で算出される。
【0039】
【0040】
【0041】
ω1とω2は0以上かつω1+ω2=1を満たせばどんな値をとってもよい。つまりμ3はμ1とμ2の加重平均であり、Σ3はΣ1とΣ2の加重平均である。
また、Σ3は式(8)により算出してもよい。
【0042】
【0043】
式(8)におけるΣ3はΣ1とΣ2の加重平均とμ1とμ2の加重分散の和である。参照総合統計値により決まるガウス分布を参照総合ガウス分布と呼ぶ。訓練共分散行列Σ1と参照共分散行列Σ2の加重平均は、雑音の影響を受けやすい。そのため、総合統計値導出部132は、式(8)に示すように、訓練共分散行列Σ1と参照共分散行列Σ2の加重平均に加え、雑音の影響を受けにくい訓練平均ベクトルμ1の分散と参照平均ベクトルμ2の分散の加重平均を用いて参照総合共分散行列Σ3を求めることで、参照総合共分散行列Σ3に雑音の影響が生じることを抑えることができる。訓練平均ベクトルμ1の分散と参照平均ベクトルμ2の分散の加重平均は、訓練平均ベクトルμ1と参照平均ベクトルμ2から算出される加重共分散行列の一例である。
【0044】
評価総合統計値も訓練統計値及び評価統計値により、参照総合統計値を算出した方法と同様の方法で算出する。評価総合統計値により決まるガウス分布を評価総合ガウス分布と呼ぶ。
【0045】
《特徴変換部133》
特徴変換部133は参照総合統計値を基にする変換方法で参照局所特徴ベクトル系列をホワイトニング変換する。
参照局所特徴ベクトル系列に含まれる局所特徴ベクトルをxとすると、特徴変換部133は、最初に式(9)により局所特徴ベクトルを変換する。
【0046】
【0047】
ここでWはWTW=(Σ3)―1を満たす行列であり、ホワイトニング変換行列と呼ぶ。Wの算出方法に限定はない。例えばW=(Σ3)―1/2という式により算出してもよく、また、Σ―1をコレスキー分解することで算出してもよい。Σを固有値分解することでも算出することができる。
局所特徴ベクトルxが参照総合ガウス分布に従う場合、Φ(x)は各次元の平均が0、各次元の分散が1、次元間の相関が0の標準正規分布に従うことになる。つまり、ホワイトニング変換行列Wは参照総合ガウス分布を標準正規分布にする変換行列である。
特徴変換部133は、式(9)による変換を参照局所特徴ベクトル系列に含まれる全ての局所特徴ベクトルに対して行う。また、特徴変換部133は、変換した局所特徴ベクトルのL2ノルムが1になるように、変換した局所特徴ベクトルを正規化(L2正規化)する。正規化した局所特徴ベクトルを再度時間順に並べられたものを変換参照局所特徴ベクトル系列と呼ぶ。
特徴変換部133は、変換評価局所特徴ベクトル系列も変換参照局所特徴ベクトル系列と同様の方法で算出する。
【0048】
《距離算出部134》
距離算出部134は変換参照局所特徴ベクトル系列と変換評価局所特徴ベクトル系列との間の距離を算出する。距離算出部134は、それぞれの局所特徴ベクトル系列から同じ時刻にある2つの局所特徴ベクトルの距離(例えばユークリッド距離)を算出する。距離算出部134は、全ての時刻において距離を算出し、算出した距離の総和もしくは平均を変換距離値として判定部14に出力する。
【0049】
《訓練統計値の導出方法》
図2は第1の実施形態に係る訓練統計値の導出方法を示すフローチャートである。照合システム1は、評価データのラベル判定に先立って訓練統計値を求める。
初めに訓練データ入力部10が訓練データ集合を取得し、対応関係検出部120に訓練データ集合を出力する(ステップS1)。その後、対応関係検出部120は訓練データ集合から訓練データのペアを抽出し、各ペアに対してステップS3からステップS5を繰り返すことで訓練データ集合から局所特徴ベクトルペア集合を生成する(ステップS2)。対応関係検出部120は、2つの訓練データの時間変動を補償する(ステップS3)。対応関係検出部120は、訓練データからそれぞれ局所特徴ベクトル系列を抽出する(ステップS4)。対応関係検出部120は、それぞれの訓練データから抽出した局所特徴ベクトル系列から対応関係にある局所特徴ベクトルをペアにし、局所特徴ベクトルペアを生成する(ステップS5)。
対応関係検出部120が局所特徴ベクトルペア集合を生成すると、訓練統計値計算部121は局所特徴ベクトルペア集合から訓練統計値を算出する(ステップS6)。また、訓練統計値計算部121は算出した訓練統計値を訓練統計値記憶部122に出力する。
これにより、訓練統計値記憶部122には、訓練統計値が記憶される。
【0050】
《評価データの判定方法》
図3は第1の実施形態に係る評価データの判定方法を示すフローチャートである。
照合システム1は、利用者によって評価データの判定指示を受け付けると、
図3に示す評価データの判定処理を開始する。対象データ入力部11が評価データを取得し、特徴抽出部130に評価データを出力する(ステップS11)。
照合システム1は、参照データごとにステップS13からステップS19の処理を繰り返し、各参照データについて、参照データと評価データの間の距離を算出する(ステップS12)。対象データ入力部11は、参照データを取得し特徴抽出部130に参照データを出力する(ステップS13)。特徴抽出部130は参照データ及び評価データの時間変動を補償する(ステップS14)。
特徴抽出部130は時間変動を補償した参照データ及び評価データからそれぞれ参照局所特徴ベクトル系列及び評価局所特徴ベクトル系列を抽出する(ステップS15)。事例統計値導出部131は参照局所特徴ベクトル系列及び評価局所特徴ベクトル系列から参照統計値及び評価統計値を算出する(ステップS16)。総合統計値導出部132は訓練統計値を訓練統計値記憶部122から取得し、訓練統計値と事例統計値導出部131が算出する参照統計値及び評価統計値から参照総合統計値及び評価総合統計値を算出する(ステップS17)。
特徴変換部133は参照総合統計値に基づいて参照局所特徴ベクトル系列を変換し、評価総合統計値に基づいて評価局所特徴ベクトル系列を変換する(ステップS18)。その後距離算出部134は2つの変換した局所特徴ベクトル系列間の距離を算出する(ステップS19)。判定部14は距離算出部134が算出した距離に基づいて評価データの属するクラスを判定する(ステップS19)。判定部14は、判定結果をディスプレイなどに出力する。
これにより、利用者は評価データが属するクラスを認識することができる。
【0051】
《作用・効果》
このように、第1の実施形態によれば、照合システム1は訓練統計値と参照統計値から算出される参照総合統計値により参照局所特徴ベクトルを変換し、訓練統計値と評価統計値から算出される評価総合統計値により評価局所特徴ベクトルを変換している。その後、照合システム1は、2つの変換した局所特徴ベクトルの距離を測定する。参照局所特徴ベクトルと評価局所特徴ベクトルが異なるクラスに属し2つの局所特徴ベクトルが類似している場合、単一の訓練ガウス分布によりベクトル間の距離を大きくすることは難しい。
しかし、参照局所特徴ベクトルと評価局所特徴ベクトルが異なるクラスに属している場合、そのガウス分布(参照ガウス分布と評価ガウス分布)は大きく異なる可能性が高く、参照総合ガウス分布と評価総合ガウス分布は大きく異なるガウス分布となる可能性が高い。ゆえに照合システム1はそれぞれの局所特徴ベクトルに対して参照総合ガウス分布と評価総合ガウス分布を使用した変換をすることでベクトルの間の距離を大きくすることができる可能性を高めることができる。
【0052】
《実験例》
以下、実験例により本発明を説明するが、本発明は以下の実験例に限定されるものではない。
【0053】
図4は第1の実施形態に係る照合システム1の実験例である。
グラフG1は、参照局所特徴ベクトルの訓練ガウス分布、参照ガウス分布、参照総合ガウス分布との関係を示すグラフである。
グラフG2は、後述する比較手法により変換した参照局所特徴ベクトルと、比較手法により変換した訓練ガウス分布及び参照ガウス分布との関係を示すグラフである。
グラフG3は、本実施形態に係る手法により変換した参照局所特徴ベクトルと、本実施形態に係る手法により変換した訓練ガウス分布、参照ガウス分布、参照総合ガウス分布との関係を示すグラフである。
【0054】
グラフG4は、評価局所特徴ベクトルの訓練ガウス分布、評価ガウス分布、評価総合ガウス分布との関係を示すグラフである。
グラフG5は、比較手法により変換した評価局所特徴ベクトルと、比較手法により変換した訓練ガウス分布との関係を示すグラフである。
グラフG6は、本実施形態に係る手法により変換した評価局所特徴ベクトルと、本実施形態に係る手法により変換した訓練ガウス分布、評価ガウス分布、評価総合ガウス分布との関係を示すグラフである。
図4において、すべての局所特徴ベクトルが2次元ベクトルである。
図4のグラフG1-G3において黒色の破線は訓練ガウス分布の等高線を示し、灰色の破線は参照ガウス分布の等高線を示し、黒色の実線は参照総合ガウス分布の等高線を示す。
図4に示す等高線は式(10)に示す2次元ベクトルのガウス分布において、式(11)を満たす2次元ベクトルxを描いたものである。
【0055】
【0056】
【0057】
ここで|Σ|はΣの行列式であり、Σ―1はΣの逆行列である。
【0058】
また、
図4のグラフG4-G6においては灰色の破線が評価ガウス分布の等高線を示し、黒色の実線が評価総合ガウス分布の等高線を示す。
【0059】
ここで、比較手法について説明する。
本実施形態に係る手法は、参照総合統計値及び評価総合統計値により局所特徴ベクトルを変換するものである。これに対し、比較手法は、訓練ガウス分布を標準正規分布にする変換を局所特徴ベクトルに対して行うことにより、局所特徴ベクトルを変換する。
比較手法と本実施形態に係る手法において、使用した訓練統計値は同一である。訓練統計値は参照データと同じクラスに属する訓練データの集合から算出される。また、比較手法と本実施形態に係る手法において、対応関係検出部120が訓練データ集合を処理する方法は同じである。
【0060】
グラフG1-G3において参照局所特徴ベクトルは、白いプロットで示されている。また、グラフG4-G6において評価局所特徴ベクトルは、黒いプロットで示される。また、グラフG2、G3における白いプロットは参照局所特徴ベクトルを変換した後にL2正規化をしたときのベクトルである。グラフG5、G6における2つの黒いプロットは評価局所特徴ベクトルを変換した後にL2正規化したときのベクトルである。
参照データと評価データは異なるクラスであるにもかかわらずグラフG1に示す参照局所特徴ベクトルとグラフG4に示す評価局所特徴ベクトルの間の距離は偶然近くなってしまっている。グラフG2とグラフG5に比較手法における訓練統計値による変換をしたあとのそれぞれのベクトルを示すが、グラフG2に示す参照局所特徴ベクトルとグラフG5に示す評価局所特徴ベクトルとの間の距離は近いままである。
【0061】
しかし、本実施形態に係る手法によれば、グラフG3に示す参照局所特徴ベクトルとグラフG6に示す評価局所特徴ベクトル間の距離は比較手法よりも長くすることができている。これは異なるガウス分布である参照総合ガウス分布と評価総合ガウス分布により変換を行っているためである。この実験例により本実施形態に係る手法は異なるクラスに属する2つのベクトル間の距離が長くなるように変換することができることが示された。
【0062】
〈他の実施形態〉
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、上述した実施形態に係る照合システム1は時系列データの間の距離を算出するが、時系列データに限られない。例えば他の実施形態に係る照合システム1は画像データの間の距離を算出してもよい。
【0063】
上述した実施形態に係る照合システム1は、総合統計値に基づいて変換した局所特徴ベクトルを用いて、評価データのラベルの判定を行うが、これに限られない。例えば、他の実施形態に係る照合システム1は、1つの参照データをクエリとして最も類似する評価データをデータベースから探索してもよい。このとき、照合システム1は1つの参照データとすべての評価データの間の距離を算出し、算出する距離が小さい評価データを探索結果として得る。ここで探索結果として得る評価データは1つに限られず、例えば照合システム1は、距離が一定の値以下となる評価データを探索結果として得てもよい。
【0064】
上述した実施形態に係る対応関係検出部120は、2つの訓練データに対して動的時間伸縮法を適用し、2つの訓練データを整列した後に、訓練済みのニューラルネットワークを用いて2つの訓練データからそれぞれ局所特徴ベクトル系列を抽出するが、これに限られない。例えば他の実施形態に係る対応関係検出部120は、初めに2つの訓練データから訓練済みのニューラルネットワークを用いてそれぞれ局所特徴ベクトル系列を抽出した後に、動的時間伸縮法を適用して2つの局所特徴ベクトル系列を整列してもよい。
この場合、特徴抽出部130も、参照データと評価データを整列させずに、参照データと評価データから訓練済みのニューラルネットワークを用いてそれぞれ局所特徴ベクトル系列を抽出してもよい。この場合、2つの局所特徴ベクトルの時間変動の補償は、特徴抽出部130が局所特徴ベクトルに対して動的時間伸縮法を適用することによって行われてもよいし、距離算出部134が変換参照局所特徴ベクトル及び変換評価局所特徴ベクトルに対して動的時間伸縮法を適用することにより行われてもよい。
【0065】
照合システム1は、バスで接続されたCPU(Central Processing Unit)やメモリや補助記憶装置などを備え、プログラムを実行することによって訓練データ入力部、対象データ入力部、訓練統計値導出部、距離測定部、出力部を備える装置として機能する。なお、照合システムの各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。
【符号の説明】
【0066】
1 照合システム
10 訓練データ入力部
11 対象データ入力部
12 訓練統計値導出部
13 距離測定部
14 判定部
120 対応関係検出部
121 訓練統計値計算部
122 訓練統計値記憶部
130 特徴抽出部
131 事例統計値導出部
132 総合統計値導出部
133 特徴変換部
134 距離算出部