【国等の委託研究の成果に係る記載事項】(出願人による申告)平成28年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業「計測・解析を念頭においた新たな機械学習融合技術の確立と先端的計測への展開」委託研究、産業技術力強化法第19条の適用を受ける特許出願
【文献】
吉田 剛(外4名),「PU Classificationによるナノデバイス出力信号からのDNA塩基パルスの抽出」,2017年人工知能学会第31回全国大会論文集,セッションID: 213-OS-10a-3,[online],2017年05月26日,第1〜4頁,[令和元年5月20日検索],インターネット,<URL: https://www.jstage.jst.go.jp/article/pjsai/JSAI2017/0/JSAI2017_2I3OS10a3/_article/-char/ja/>,<DOI: https://doi.org/10.11517/pjsai.JSAI2017.0_2I3OS10a3>.
【文献】
山田 誠,「IT企業での機械学習」,シミュレーション,日本,一般社団法人 日本シミュレーション学会(編集),小宮山印刷工業株式会社(発行),2015年12月15日,Vol.34, No.4,第31〜37頁,ISSN: 0285-9947.
【文献】
兼平 篤志(外1名),「不完全ラベル付きデータからのマルチラベル分類問題」,情報処理学会研究報告,日本,情報処理学会,2015年10月30日,Vol.2015-CVIM-199, No.4,第1〜8頁,ISSN: 2188-8701,[online], [平成27年11月5日検索],インターネット,<URL: http://id.nii.ac.jp/1001/00145573/>.
【文献】
Dell Zhang, et al.,"A Simple Probabilistic Approach to Learning from Positive and Unlabeled Examples",Proceedings of the 2005 UK Workshop on Computational Intelligence,[online],2005年09月07日,Pages 83-87,[令和元年5月20日検索], インターネット,<URL: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.65.3521&rep=rep1&type=pdf>.
(58)【調査した分野】(Int.Cl.,DB名)
分類対象の事例が与えられた場合、前記事例が正事例として学習用母集団分布から標本抽出される第1確率と、前記事例が前記学習用母集団分布から標本抽出される第2確率との大小関係を判定する判定不等式を用いて、分類対象の事例を正事例又は負事例に最尤分類する分類器と、
前記学習用母集団分布から標本抽出される正事例の集合から、前記第1確率の分布関数を推定し、前記学習用母集団分布から標本抽出される正負が未知の事例の集合から、前記第2確率の分布関数を推定することにより、前記分類器を学習する学習部と
を備え、
前記学習部により学習した前記分類器を用いて、分類対象の事例を正事例又は負事例に分類する
PU分類装置。
分類対象の事例が与えられた場合、前記事例が正事例として学習用母集団分布から標本抽出される第1確率と、前記事例が前記学習用母集団分布から標本抽出される第2確率との大小関係を判定する判定不等式を用いて、分類対象の事例を正事例又は負事例に最尤分類する分類器を、前記学習用母集団分布から標本抽出される正事例の集合から、前記第1確率の分布関数を推定し、前記学習用母集団分布から標本抽出される正負が未知の事例の集合から、前記第2確率の分布関数を推定することにより学習し、
学習した前記分類器を用いて、分類対象の事例を正事例又は負事例に分類する
PU分類方法。
【発明を実施するための形態】
【0012】
以下、本発明をその実施の形態を示す図面に基づいて具体的に説明する。
(実施の形態1)
図1は本実施の形態に係る分類装置1のハードウェア構成を示すブロック図である。本実施の形態に係る分類装置1は、例えばパーソナルコンピュータ、サーバ装置等の情報処理装置であり、制御部11、記憶部12、入力部13、通信部14、操作部15、及び表示部16を備える。分類装置1は、入力された分類対象の事例を正事例又は負事例に分類する。
【0013】
制御部11は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)などを備える。制御部11が備えるROMには、上記ハードウェア各部の動作を制御するための制御プログラム等が記憶される。制御部11内のCPUは、ROMに記憶された制御プログラム及び後述する記憶部12に記憶された各種プログラムを実行し、上記ハードウェア各部の動作を制御することにより、装置全体を本願のPU分類装置として機能させる。制御部11が備えるRAMには、各種プログラムの実行中に一時的に利用されるデータが記憶される。
【0014】
なお、制御部11は上記の構成に限定されるものではなく、シングルコアCPU、マルチコアCPU、GPU(Graphics Processing Unit)、マイコン、揮発性又は不揮発性のメモリ等を含む1又は複数の処理回路又は演算回路であればよい。また、制御部11は、日時情報を出力するクロック、計測開始指示を与えてから計測終了指示を与えるまでの経過時間を計測するタイマ、数をカウントするカウンタ等の機能を備えていてもよい。
【0015】
記憶部12は、SRAM(Static Random Access Memory)、フラッシュメモリ、ハードディスクなどを用いた記憶装置を備える。記憶部12には、制御部11に実行させる各種プログラム、及び各種プログラムの実行に必要なデータ等が記憶される。記憶部12に記憶されるプログラムには、例えば、入力された分類対象の事例集合に含まれる各事例を正事例又は負事例に分類するPU分類プログラムが含まれる。
【0016】
記憶部12に記憶されるプログラムは、当該プログラムを読み取り可能に記録した記録媒体Mにより提供されてもよい。記録媒体Mは、例えば、SD(Secure Digital)カード、マイクロSDカード、コンパクトフラッシュ(登録商標)などの可搬型のメモリである。この場合、制御部11は、不図示の読取装置を用いて記録媒体Mからプログラムを読み取り、読み取ったプログラムを記憶部12にインストールすることが可能である。また、記憶部12に記憶されるプログラムは、通信部14を介した通信により提供されてもよい。この場合、制御部11は、通信部14を通じてプログラムを取得し、取得したプログラムを記憶部12にインストールすることが可能である。
【0017】
入力部13は、各種データを装置内に入力するための入力インタフェースを備える。入力部13には、例えば学習用の事例及び分類対象の事例を出力するセンサ又は出力装置が接続される。制御部11は、入力部13を通じて学習用の事例及び分類対象の事例を取得する事が可能である。
【0018】
通信部14は、インターネット網などの通信網(不図示)に接続するための通信インタフェースを備え、外部へ通知すべき各種情報を送信すると共に、外部から送信される各種情報を受信する。本実施の形態では、入力部13を通じて学習用の事例及び分類対象の事例を取得する構成としたが、通信部14を通じて学習用の事例及び分類対象の事例を取得する構成であってもよい。
【0019】
操作部15は、キーボード、タッチパネルなどのユーザインタフェースを備えており、各種の操作情報や設定情報を受付ける。制御部11は、操作部15から入力される操作情報に基づき適宜の制御を行い、必要に応じて設定情報を記憶部12に記憶させる。
【0020】
表示部16は、液晶表示パネル、有機EL(Electro Luminescence)表示パネル等の表示デバイスを備えており、制御部11から出力される制御信号に基づいて、ユーザに通知すべき情報を表示する。
【0021】
なお、本実施の形態では、制御部11が実行するソフトウェアの処理により、本願の分類方法を実現する構成について説明するが、当該分類方法を実現するLSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)などのハードウェアを制御部11とは別に搭載する構成であってもよい。この場合、制御部11は、入力部13を通じて取得する分類対象の事例等を上記ハードウェアに引き渡すことにより、当該ハードウェアの内部にて分類対象の事例集合に含まれる各事例を正事例又は負事例に分類する。
【0022】
また、本実施の形態では、簡略化のために、分類装置1を1つの装置として記載したが、複数の処理装置又は演算装置により構成されてもよく、1又は複数の仮想マシンにより構成されるものであってもよい。
【0023】
また、本実施の形態では、分類装置1が操作部15及び表示部16を備える構成としたが、操作部15及び表示部16は必須ではなく、外部に接続されたコンピュータを通じて操作を受付け、通知すべき情報を外部のコンピュータへ出力する構成であってもよい。
【0024】
図2は実施の形態1に係る分類装置1の機能的構成を説明する説明図である。分類装置1の制御部11は、ROMに記憶された制御プログラム及び記憶部12に記憶されたPU分類プログラムを実行し、上述したハードウェア各部の動作を制御することにより、以下で説明する各機能を実現する。
【0025】
分類装置1は、機能的構成として分類器110及び学習部120を備える。分類器110は、分類対象の事例が与えられた場合、与えられた分類対象の事例を正事例又は負事例に分類する分類器である。分類手法については、後に詳述することとするが、分類器110は、与えられた事例が正事例として学習用母集団分布から抽出される確率(第1確率)と、前記事例が学習用母集団分布から標本抽出される確率(第2確率)との大小関係を判定する判定不等式を用いて、事例を正事例又は負事例に最尤分類することを特徴とした分類器である。
【0026】
学習部120は、正事例であることが既知の学習用正事例集合と、正負が未知の学習用未知事例集合とを用いて、分類器110を学習する。具体的には、学習部120は、学習用母集団分布から標本抽出される正事例の集合(学習用正事例集合)から、前述の第1確率の分布関数を推定すると共に、学習用母集団分布から標本抽出される正負が未知の事例の集合(学習用未知事例集合)から、前述の第2確率の分布関数を推定することにより、分類器110を学習する。
【0027】
以下では、分類装置1の適用例の1つとして、ナノギャップセンサを用いて検出対象分子を検出する検出システムへの適用例について説明する。この適用例において、分類装置1は、ナノギャップセンサからの信号パルスを、検出対象分子に起因した信号パルスと、ノイズを含むそれ以外の信号パルスとに分類するために用いられる。
【0028】
図3は検出システムにおける計測系の概略構成を説明する説明図である。検出システムは、ナノギャップセンサNSを備える。ナノギャップセンサNSは、微細距離(例えば1nm)を隔てて配置される一対の電極D1,D2と、電極D1,D2間に流れる電流を計測する電流計測器MEとを備える。電極D1,D2は、例えば金原子により構成される微細形状の電極である。電極D1,D2に一定の電圧をかけた状態にて、検出対象分子がギャップ付近を通過した場合、電極D1,D2間には微弱なトンネル電流が流れる。電流計測器MEは、電極D1,D2間に流れるトンネル電流を適宜の時間間隔で時系列的に計測し、計測結果(パルス信号)を出力する。
【0029】
検出対象分子は、例えば、ジチオフェンウラシル誘導体(BithioU)及びTTFウラシル誘導体(TTF)である。これらの分子は人工核酸塩基であり、識別を容易にするためにエピジェネティック部位を化学的に修飾したものである。以下の説明において、検出対象分子のジチオフェンウラシル誘導体及びTTFウラシル誘導体を単に対象塩基とも記載する。
【0030】
対象塩基は、分子自体のブラウン運動、又は電気泳動、電気浸透流、誘電泳動等の手段により、それを含む溶液内で移動する。検出システムは、対象塩基がナノギャップセンサNSの電極D1,D2付近を通過する際のパルス波形を特定することにより、対象塩基を1分子単位で識別する。
図3Aはジチオフェンウラシル誘導体が電極D1,D2付近を通過している様子を示し、
図3BはTTFウラシル誘導体が電極D1,D2付近を通過している様子を示している。このような検出システムを用いることにより、例えば、DNA塩基分子の種類を1分子単位で識別することが可能となり、既存技術では困難であったペプチドのアミノ酸配列や疾病マーカとなる修飾アミノ分子の識別が実現される。
【0031】
しかしながら、計測系より得られる計測信号には、トンネル電流の量子雑音、電極D1,D2を構成する表面原子の熱運動、溶液に含まれる夾雑物等の影響により、ノイズパルスが含まれる場合がある。ノイズパルスを適切に除去できなければ、ノイズパルスを対象塩基由来のパルスと誤認する可能性があり、識別精度が低下する原因となる。
【0032】
図4は計測系より得られる計測信号の一例を示す波形図である。
図4Aは対象塩基を含んでいない状態での計測結果を示し、
図4Bは対象塩基を含んだ状態での計測結果を示している。何れの波形図も横軸は時間を示し、縦軸は電流値を示している。
【0033】
計測系より得られる計測信号(事例)には、一般的にノイズが含まれる。計測対象の溶液に対象塩基が含まれていない場合であっても、トンネル電流の量子雑音、電極D1,D2を構成する表面原子の熱運動、溶液に含まれる夾雑物等の影響により、ある程度の波高を有するノイズパルスが現れる場合がある。
図4Aに示した例は、時間T=T11,T12,T13においてノイズパルスが観測された状態を示している。ノイズパルスが出現するタイミングは全くランダムであり、出現タイミングを予測することは不可能である。
【0034】
一方、計測対象の溶液に対象塩基が含まれる場合、対象塩基がナノギャップセンサNSの電極D1,D2付近を通過する際に流れるトンネル電流に起因して、ある程度の波高を有するパルスが観測される。このパルスは、対象塩基由来のパルス(以下、対象塩基パルスとも記載する)であり、対象塩基を識別するために観測されるべきパルスである。また、計測対象の溶液に対象塩基が含まれる場合であっても、トンネル電流の量子雑音、電極D1,D2を構成する表面原子の熱運動、溶液に含まれる夾雑物等に起因したノイズパルスを避けることはできない。
図4Bに示した例は、時間T=T21,T24,T25,T26において対象塩基パルスが観測され、T=T22,T23においてノイズパルスが観測された状態を示している。
【0035】
前述のように、ノイズパルスが出現するタイミングは全くランダムであり、出現タイミングを予測することは不可能である。また、
図4Bに示すように、ノイズパルスは、対象塩基パルスと同程度又はそれ以上の波高を有している。よって、対象塩基を計測して得られる計測信号のみを用いて、対象塩基パルスのみを抽出することは原理的に不可能である。
【0036】
計測信号に含まれる対象塩基パルスをノイズパルスから分離して抽出するためには、対象塩基パルス及びノイズパルスを分類する分類手法の構築が不可欠となる。発明者らは、特願2017−092075号において、ベイズ推定原理に基づくPU分類手法を用いて、ナノギャップセンサNSより得られる計測信号に基づき、ノイズパルス(正事例)と対象塩基パルス(負事例)とを分類する分類器を構築し、計測信号からノイズを低減する手法を提案している。
【0037】
ベイズ推定原理に基づく既存のPU分類手法は、分類器を学習するために用いた学習用事例と、正負が未知の分類対象の事例とが同一の母集団分布から抽出されることを前提としており、両者が同一の母集団分布から抽出される場合に限り正確に分類することが可能である。
【0038】
しかしながら、計測信号を分類対象とする場合、分類器の学習に用いる計測信号と、実際に分類対象となる計測信号とでは、それぞれに含まれるノイズパルス(正事例)及び対象塩基パルス(負事例)の割合は必ずしも一致しておらず、両者は異なる母集団分布から抽出された事例を示すことが多い。そのため、ベイズ推定原理に基づく既存のPU分類手法を用いて、計測信号を正事例及び負事例に分類する場合、十分な分類精度を達成することができない。
【0039】
そこで、本願では、学習用に与えられた正事例の集合である学習用正事例集合と、正事例及び負事例が混在し、正事例及び負事例の割合が未知の事例の集合である学習用未知事例集合とから、未知事例集合が従う確率分布に依存しない最尤推定原理によって、任意の正負割合の確率分布を持つ分類対象の事例を高精度に正事例又は負事例に分類するPU分類手法を提案する。
【0040】
以下、本実施の形態に係るPU分類手法について説明する。
学習用に与えられたラベル付き正事例集合をD
LP、学習用に与えられたラベルなし事例集合をD
LU、計測のたびに取得されるテスト用ラベルなし事例集合をD
TUと表記する。D
LPの事例は、正事例周辺分布p
LP(X|Y=P)からIID標本抽出され、D
LU、D
TUの事例は、それぞれ周辺分布p
LU(X)、p
TU(X)からIID標本抽出される。
【0041】
ここで、Xは特徴ベクトルを表す。特徴ベクトルは、計測信号から得られる各パルスのパルス波形を反映した特徴量を成分として含むベクトルである。特徴ベクトルとして、例えば、パルス開始時点から終了時点までを10分割した各区間における計測電流値の平均値を成分とする10次元特徴ベクトルを用いることができる。なお、計測電流値の平均値に限らず、パルスピーク値を1に規格化した波高値、規格化しない波高値、パルス波長時間を1に規格化した波長方向時間、規格化しない波長方向時間、これらを組み合わせた値等の特徴量を成分として含む特徴ベクトルを用いてもよい。Yは正負例ラベルを表す。本実施の形態では、ノイズパルスを正事例とし、対象塩基パルスを負事例としている。
【0042】
本実施の形態では、p
LP(X|Y=P)、p
LU(X)、p
TU(X)は同一の不変な分布p(X|Y)から構成されると仮定する(以下、仮定1と称する)。この仮定1は特殊なものではなく、過去の全てのPU分類手法においても全事例集合にわたって共通のp(X|Y)が仮定されている。また、上述したナノギャップセンサNSを含む各種計測系は、事前確率密度関数p(Y)の変化に対してYのロバストな推定ができるように、不変なp(X|Y)を安定的に実現するように設計されていることからも、仮定1が特殊なものではないことが分かる。
【0043】
仮定1により、p
LP(X|Y=P)=p(X|Y=P)が成り立つので、Y=P,Nについての共通のp(X|Y)と、正負例のクラス事前確率π
L =p
LU(Y=P)及びπ
T =p
TU(Y=P)を用いて、p
LU(X)及びp
TU(X)を以下のように表せる。
【0044】
p
LU(X)=π
L p(X|Y=P)+(1−π
L )p(X|Y=N)…(1)
p
TU(X)=π
T p(X|Y=P)+(1−π
T )p(X|Y=N)…(2)
【0045】
ここで、π
L ,π
T ∈[0,1]のそれぞれの値は不明であるが、独立に与えられるものとする。π
L 及びπ
T の推定を必要としない分類器を構成するために、本実施の形態では、クラス事前確率の影響を受けない最尤推定原理を用いる分類基準を採用する。
【0046】
ラベルなしテスト事例x(∈D
TU)の最尤なYは、仮定1により、以下の式で与えられる。
【0048】
ここで、任意のπ∈[0,1]を有する、
p
π (X)=πp(X|Y=P)+(1−π)p(X|Y=N)
について、以下の2つの不等式は等価である。
【0049】
p(X|Y=P)≧p
π (x)…(4)
p(Y|Y=P)≧p(x|Y=N)…(5)
【0050】
仮定1と式(1)〜式(5)とに基づき、任意のπ
L ∈[0,1]の下で与えられる以下の判定不等式が得られる。この判定不等式は、π
L と独立に与えられる任意のπ
T ∈[0,1]をもつp
TU(X)に従う事例x∈D
TUの最尤分類基準を与える。
【0052】
このような最尤分類基準を用いることにより、D
LP、D
LUからそれぞれp(x|Y=P)の推定値、及びp
LU(x)の推定値をノンパラメトリック推定し、上記判定不等式を用いてx∈D
TUのラベルyを最尤推定する分類器110を構成することができる。
【0053】
なお、上述の最尤分類基準では、p(x|Y=P)=p
LU(x)の場合、正事例であるとしたが、p(x|Y=P)=p
LU(x)の場合、負事例と判定する最尤分類基準を用いてもよいことは勿論のことである。
【0054】
以下、分類装置1の動作について説明する。
図5は分類装置1が実行する処理の手順を説明するフローチャートである。分類装置1の制御部11は、現時点が学習フェーズであるか否かを判断する(ステップS101)。例えば、制御部11は、操作部15を通じて学習フェーズに移行させる指示を事前に受付けた場合、現時点が学習フェーズであると判断することができる。
【0055】
学習フェーズであると判断した場合(S101:YES)、制御部11は、入力部13を通じて、学習用の事例を取得する(ステップS102)。ステップS102で取得する事例は学習用母集団分布から標本抽出される事例である。このとき、制御部11は、対象塩基が含まれていない溶液を計測系により計測し、ノイズパルスのみを含む計測信号を正事例であることが既知の学習用の事例として複数取得する。また、制御部11は、対象塩基を含む溶液を計測系により計測し、ノイズパルス及び対象塩基パルスの双方を含む計測信号を正負が未知の学習用の事例として複数取得する。
【0056】
次いで、制御部11は、学習用に取得した正事例であることが既知の事例の集合である学習用正事例集合に基づき、分類対象として与えられた事例が正事例として学習用母集団分布から抽出される第1確率の分布関数を推定する(ステップS103)。具体的には、上述した式(6)におけるp(x|Y=P)の関数形を学習用正事例集合に基づき推定する。
【0057】
次いで、制御部11は、学習用に取得した正負が未知の事例の集合である学習用未知事例集合に基づき、学習用母集団分布から事例が標本抽出される第2確率の分布関数を推定する(ステップS104)。具体的には、上述した式(6)におけるp
LU(x)の関数形を学習用未知事例集合に基づき推定する。なお、ステップS103及びS104の処理の順序は任意である。
【0058】
次いで、制御部11は、ステップS103及びS104で推定した分布関数を用いて、式(6)の最尤分類基準を有する分類器110を構成する(ステップS105)。制御部11は、構成した分類器110を記憶部12に記憶させ、学習フェーズを終了する。
【0059】
ステップS101で学習フェーズでないと判断した場合(S101:NO)、制御部11は、入力された事例を正事例又は負事例に分類する分類フェーズであると判断する。
【0060】
制御部11は、入力部13を通じて、分類対象の事例(計測信号)を取得する(ステップS106)。ステップS106で取得する事例は分類用母集団分布から標本抽出される事例である。
【0061】
次いで、制御部11は、学習フェーズで推定した第1確率の分布関数を用いて、取得した事例が正事例として学習用母集団分布から標本抽出される第1確率の推定値を算出する(ステップS107)。
【0062】
次いで、制御部11は、学習フェーズで推定した第2確率の分布関数を用いて、学習用母集団分布から事例が標本抽出される第2確率の推定値を算出する(ステップS108)。なお、ステップS107及びS108の処理の順序は任意である。
【0063】
次いで、制御部11は、算出した第1確率p(x|X=P)が、第2確率p
LU(x)以上であるか否かを判定する(ステップS109)。
【0064】
第1確率p(x|X=P)が、第2確率p
LU(x)以上であると判断した場合(S109:YES)、制御部11は、取得した事例が正事例(ノイズ)であると判断し(ステップS110)、判断結果を記憶部12に記憶させる。
【0065】
また、第1確率p(x|X=P)が、第2確率p
LU(x)未満であると判断した場合(S109:NO)、制御部11は、取得した事例が負事例(対象塩基)であると判断し(ステップS111)、判断結果を記憶部12に記憶させる。
【0066】
なお、本実施の形態では、第1確率p(x|X=P)が、第2確率p
LU(x)に等しい場合、制御部11は、入力された事例が正事例(ノイズ)であると判断する構成としたが、負事例(対象塩基)と判断してもよい。
【0067】
次いで、制御部11は、計測が終了したか否かを判断する(ステップS112)。計測が終了していないと判断した場合(S112:NO)、制御部11は、処理をステップS106へ戻す。計測が終了したと判断した場合(S112:YES)、制御部11は、分類フェーズを終了させる。
【0068】
以下、実施の形態1に係る分類装置1の性能評価について記載する。
分類装置1は、入力された分類対象の事例(計測信号)を正事例又は負事例に分類するものであるが、対象塩基パルスとノイズパルスとを含む事例集合中のどのパルスが真に対象塩基パルスであるかということは知り得ないため、正負例の分類結果を性能指標とすることはできない。そこで、以下で定義される疑似F−measureの値(Fチルダ)をテスト用事例集合に対して計算し、性能指標とする。
【0070】
ここで、D
TPはテスト用の正事例集合であり、D
TUはテスト用のラベルなし事例集合である。また、ハット付きのD
TPはテスト用の正事例集合のうちで正事例と推定した事例の集合、ハット付きのD
PTUはテスト用のラベルなし事例集合のうちで正事例と推定した事例の集合である。
【0071】
図6は実施の形態1に係る分類装置1の性能評価を示す図表である。各事例集合について、|D
LP|=20、|D
LU|=800を学習用に取得し、|D
TP|=20、|D
TU|=100をテスト用に取得した。また、比較対象として、ElkanらのPU分類器(非特許文献1を参照)を用い、p
LP(X|Y=P)及びp
LU(X)の推定値をガウシアンナイーブベイズ推定(NE−E&N)及びガウスカーネル密度を用いたベイズ推定(KD−E&N)の2通りの手法を用いて演算した結果を併せて示している。
【0072】
各PU分類手法の疑似F−measureの値を
図6に示す。D
TUとして、計測の初期段階(π
L ≒π
T)、しばらく時間が経過して夾雑物が多くなった頃(π
L <π
T )、非常に夾雑物が増えた頃(π
L ≪π
T)の3通りについて調べた。疑似F−measureの値は通常のものとは異なり、[0,1]に規格化されないが、この値が大きいほど分類性能が高いことを示す。
【0073】
図6に示すように、実施の形態1に係る分類装置1(NL−PUC:Native Likelihood PUC)は、π
T の値によらず既存手法よりはるかに高性能を示すことがわかった。
【0074】
以上のように、本実施の形態では、分類器の学習に用いる事例と、実際に分類対象となる事例との間で、それぞれに含まれるノイズパルス(正事例)及び対象塩基パルス(負事例)の割合が異なる場合であっても、入力された事例を精度良く正事例又は負事例に分類することができる。
【0075】
(実施の形態2)
実施の形態1では、正事例であることが既知の学習用正事例集合を用いて第1確率の分布関数を推定し、正負が未知の学習用未知事例集合を用いて第2確率の分布関数を推定する構成としたが、正事例であることが既知の学習用の事例を十分に取得することができない場合もある。正事例であることが既知の学習用の事例が十分に得られない場合、推定した第1確率の分布関数の誤差が大きくなり、その結果、分類精度が低下する可能性がある。
【0076】
そこで、実施の形態2では、学習時に正事例であることが既知の学習用の事例が十分に用意できない場合であっても、第1確率の分布関数を精度良く推定することができる手法について説明する。
【0077】
実施の形態2では、正事例であることが既知の事例のみを用いるのではなく、一般的には十分な事例数を用意することができる正負が未知の事例を併せて用いることにより、第1確率の分布関数に関して推定精度の低下を抑える。
【0078】
学習用に与えたラベルなし事例集合D
LUから導出されるp
(k-1) (X|Y=P)の確率変数を用いて、p
LP(X|Y=P)の推定値を反復的にアップデートすることにより、より正確なp
(k)(X|Y=P)の推定値を得ることを目的とする。p
(k)(X|Y=P)の推定値は、以下のように記述することができる。
【0080】
ここで、r∈[0,1]であり、kは2以上の整数である。
カーネル密度p
K (X|x)とその重みw(x)は、以下に示すp(X|Y=P)の非ノンパラメトリック近似を与える。
【0082】
統計誤差が小さくなるように、p
(k-1)(x|Y=P)の推定値を用いて、確率変数p
(k-1) (X|Y=P)を反復的に計算する。
【0084】
ラベルなし事例集合D
LUに属する全てのxに対して、w
(k-1) (x)の確率変数が十分に収束した場合、より正確なp
(k)(X|Y=P)の推定値が得られる。
【0085】
図7は実施の形態2に係る分類装置1の性能評価を示す図表である。各事例集合について、|D
LP|=20、|D
LU|=800を学習用に取得し、|D
TP|=20、|D
TU|=100をテスト用に取得した。比較対象として、ガウシアンナイーブベイズ推定(NE−E&N)及びガウスカーネル密度を用いたベイズ推定(KD−E&N)の2通りの手法を用いたElkanらのPU分類器の性能評価、及び実施の形態1で説明した分類装置(NL−PUC)の性能評価を併せて示している。
【0086】
各PU分類手法の疑似F−measureの値を
図7に示す。D
TUとして、計測の初期段階(π
L ≒π
T)、しばらく時間が経過して夾雑物が多くなった頃(π
L <π
T )、非常に夾雑物が増えた頃(π
L ≪π
T)の3通りについて調べた。疑似F−measureの値は通常のものとは異なり、[0,1]に規格化されないが、この値が大きいほど分類性能が高いことを示す。
【0087】
図7に示すように、実施の形態2に係る分類装置1(EL−PUC:Enhanced Likelihood PUC)は、学習用の正事例数が少ないにも関わらず、既存手法及び実施の形態1に係る分類装置1(NL−PUC)より高性能を示すことがわかった。
【0088】
以上のように、本実施の形態では、学習用として得られる正事例集合の事例数が少ない場合であっても、推定精度を向上させることができ、計測信号を精度良く正事例又は負事例に分類することができる。
【0089】
今回開示された実施の形態は、全ての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述した意味ではなく、請求の範囲によって示され、請求の範囲と均等の意味及び範囲内での全ての変更が含まれることが意図される。
【0090】
例えば、本実施の形態では、一例として、ノイズパルスのみを含む事例と、対象塩基パルス及びノイズパルスの双方を含む事例とを用いて分類器110を学習し、分類対象として入力される対象塩基パルス及びノイズパルスの双方を含む事例から、正事例(ノイズパルス)及び負事例(対象塩基パルス)を分類する構成について説明したが、分類対象の事例は特定のセンサで計測された計測信号(事例)に限定されるものではなく、任意の事例であってもよい。