特許6985687 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アイポア株式会社の特許一覧

特許6985687ＰＵ分類装置、ＰＵ分類方法、及びＰＵ分類プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6985687

(24)【登録日】2021年11月30日

(45)【発行日】2021年12月22日

(54)【発明の名称】ＰＵ分類装置、ＰＵ分類方法、及びＰＵ分類プログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20211213BHJP

【ＦＩ】

G06N20/00 130

【請求項の数】6

【全頁数】15

(21)【出願番号】特願2020-516134(P2020-516134)

(86)(22)【出願日】2019年3月28日

(86)【国際出願番号】JP2019013650

(87)【国際公開番号】WO2019208087

(87)【国際公開日】20191031

【審査請求日】2020年8月6日

(31)【優先権主張番号】特願2018-87641(P2018-87641)

(32)【優先日】2018年4月27日

(33)【優先権主張国】JP

【国等の委託研究の成果に係る記載事項】（出願人による申告）平成２８年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業「計測・解析を念頭においた新たな機械学習融合技術の確立と先端的計測への展開」委託研究、産業技術力強化法第１９条の適用を受ける特許出願

(73)【特許権者】

【識別番号】518437671

【氏名又は名称】アイポア株式会社

(74)【代理人】

【識別番号】110000523

【氏名又は名称】アクシス国際特許業務法人

(72)【発明者】

【氏名】鷲尾隆

(72)【発明者】

【氏名】谷口正輝

(72)【発明者】

【氏名】大城敬人

(72)【発明者】

【氏名】吉田剛

【審査官】久保光宏

(56)【参考文献】

【文献】吉田剛（外４名），「PU Classificationによるナノデバイス出力信号からのDNA塩基パルスの抽出」，２０１７年人工知能学会第３１回全国大会論文集，セッションID: 213-OS-10a-3，[online]，2017年05月26日，第１〜４頁，[令和元年5月20日検索]，インターネット，<URL: https://www.jstage.jst.go.jp/article/pjsai/JSAI2017/0/JSAI2017_2I3OS10a3/_article/-char/ja/>，<DOI: https://doi.org/10.11517/pjsai.JSAI2017.0_2I3OS10a3>.

【文献】山田誠，「ＩＴ企業での機械学習」，シミュレーション，日本，一般社団法人日本シミュレーション学会（編集），小宮山印刷工業株式会社（発行），2015年12月15日，Vol.34, No.4，第３１〜３７頁，ISSN: 0285-9947.

【文献】兼平篤志（外１名），「不完全ラベル付きデータからのマルチラベル分類問題」，情報処理学会研究報告，日本，情報処理学会，2015年10月30日，Vol.2015-CVIM-199, No.4，第１〜８頁，ISSN: 2188-8701,[online], [平成27年11月5日検索]，インターネット，<URL: http://id.nii.ac.jp/1001/00145573/>.

【文献】 Dell Zhang, et al.，"A Simple Probabilistic Approach to Learning from Positive and Unlabeled Examples"，Proceedings of the 2005 UK Workshop on Computational Intelligence，[online]，2005年09月07日，Pages 83-87，[令和元年5月20日検索], インターネット，<URL: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.65.3521&rep=rep1&type=pdf>.

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｎ３／００−９９／００

ＣＳＤＢ（日本国特許庁）

ＩＥＥＥＸｐｌｏｒｅ（ＩＥＥＥ）

(57)【特許請求の範囲】

【請求項1】

分類対象の事例が与えられた場合、前記事例が正事例として学習用母集団分布から標本抽出される第１確率と、前記事例が前記学習用母集団分布から標本抽出される第２確率との大小関係を判定する判定不等式を用いて、分類対象の事例を正事例又は負事例に最尤分類する分類器と、
前記学習用母集団分布から標本抽出される正事例の集合から、前記第１確率の分布関数を推定し、前記学習用母集団分布から標本抽出される正負が未知の事例の集合から、前記第２確率の分布関数を推定することにより、前記分類器を学習する学習部と
を備え、
前記学習部により学習した前記分類器を用いて、分類対象の事例を正事例又は負事例に分類する
ＰＵ分類装置。

【請求項2】

前記学習部は、
前記学習用母集団分布から標本抽出される正事例の集合、及び前記学習用母集団分布から標本抽出される正負が未知の事例の集合の双方に基づき、前記第１確率の分布関数を推定する
請求項１に記載のＰＵ分類装置。

【請求項3】

前記学習部は、
カーネル密度と該カーネル密度に対する重みとを用いたカーネル密度推定により、前記第１確率の分布関数を推定する
請求項２に記載のＰＵ分類装置。

【請求項4】

前記分類器は、
前記判定不等式により、前記第１確率が前記第２確率よりも大きいと判定した場合、分類対象の事例を正事例に分類し、
前記判定不等式により、前記第１確率が前記第２確率よりも小さいと判定した場合、分類対象の事例を負事例に分類する
請求項１から請求項３の何れか１つに記載のＰＵ分類装置。

【請求項5】

分類対象の事例が与えられた場合、前記事例が正事例として学習用母集団分布から標本抽出される第１確率と、前記事例が前記学習用母集団分布から標本抽出される第２確率との大小関係を判定する判定不等式を用いて、分類対象の事例を正事例又は負事例に最尤分類する分類器を、前記学習用母集団分布から標本抽出される正事例の集合から、前記第１確率の分布関数を推定し、前記学習用母集団分布から標本抽出される正負が未知の事例の集合から、前記第２確率の分布関数を推定することにより学習し、
学習した前記分類器を用いて、分類対象の事例を正事例又は負事例に分類する
ＰＵ分類方法。

【請求項6】

コンピュータに、
分類対象の事例が与えられた場合、前記事例が正事例として学習用母集団分布から標本抽出される第１確率と、前記事例が前記学習用母集団分布から標本抽出される第２確率との大小関係を判定する判定不等式を用いて、分類対象の事例を正事例又は負事例に最尤分類する分類器を、前記学習用母集団分布から標本抽出される正事例の集合から、前記第１確率の分布関数を推定し、前記学習用母集団分布から標本抽出される正負が未知の事例の集合から、前記第２確率の分布関数を推定することにより学習し、
学習した前記分類器を用いて、分類対象の事例を正事例又は負事例に分類する
処理を実行させるためのＰＵ分類プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ＰＵ分類装置、ＰＵ分類方法、及びＰＵ分類プログラムに関する。

【背景技術】

【0002】

従来、正事例集合と正負が未知の事例集合とから、未知事例に含まれる正事例と負事例とを分離する分類器を学習するＰＵ分類手法（Classification of Positive and Unlabeled Examples）が提案されてきた。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Elkan, C. and Noto, K. "Learning classifiers from only positive and unlabeled data," in Proc. KDD08: the 14th ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining, pp. 213-220 (2008)

【非特許文献2】Ward, G., Hastie, T., Barry, S., Elith, J., and Leathwick, J.R. "Presence-only data and the em algorithm," Biometrics, Vol. 65, No. 2, pp. 554-563 (2009)

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、従来のＰＵ分類手法は、ベイズ推定原理を用いており、実際に分類対象とする正負が未知の事例集合と、学習に用いた未知事例集合とが、統計的に同一の確率分布から標本抽出されることを前提とした分類手法である。

【0005】

このため、例えばセンサの較正用対象事例集合と実際の計測対象である事例集合のように、学習事例と実対象事例との正負割合が異なり、しかも事前にその違いを知る手掛かりが得られない場合、従来のＰＵ分類手法は十分な分類精度を達成することができない。

【0006】

本発明は、斯かる事情に鑑みてなされたものであり、学習事例と実対象事例との正負割合が異なり、事前にその違いを知る手掛かりが得られない場合であっても、十分な分類精度を達成することができるＰＵ分類装置、ＰＵ分類方法、及びＰＵ分類プログラムを提供することを目的とする。

【課題を解決するための手段】

【0007】

本発明の一態様に係るＰＵ分類装置は、分類対象の事例が与えられた場合、前記事例が正事例として学習用母集団分布から標本抽出される第１確率と、前記事例が前記学習用母集団分布から標本抽出される第２確率との大小関係を判定する判定不等式を用いて、分類対象の事例を正事例又は負事例に最尤分類する分類器と、前記学習用母集団分布から標本抽出される正事例の集合から、前記第１確率の分布関数を推定し、前記学習用母集団分布から標本抽出される正負が未知の事例の集合から、前記第２確率の分布関数を推定することにより、前記分類器を学習する学習部とを備え、前記学習部により学習した前記分類器を用いて、分類対象の事例を正事例又は負事例に分類する。

【0008】

本発明の一態様に係るＰＵ分類方法は、分類対象の事例が与えられた場合、前記事例が正事例として学習用母集団分布から標本抽出される第１確率と、前記事例が前記学習用母集団分布から標本抽出される第２確率との大小関係を判定する判定不等式を用いて、分類対象の事例を正事例又は負事例に最尤分類する分類器を、前記学習用母集団分布から標本抽出される正事例の集合から、前記第１確率の分布関数を推定し、前記学習用母集団分布から標本抽出される正負が未知の事例の集合から、前記第２確率の分布関数を推定することにより学習し、学習した前記分類器を用いて、分類対象の事例を正事例又は負事例に分類する。

【0009】

本発明の一態様に係るＰＵ分類プログラムは、コンピュータに、分類対象の事例が与えられた場合、前記事例が正事例として学習用母集団分布から標本抽出される第１確率と、前記事例が前記学習用母集団分布から標本抽出される第２確率との大小関係を判定する判定不等式を用いて、分類対象の事例を正事例又は負事例に最尤分類する分類器を、前記学習用母集団分布から標本抽出される正事例の集合から、前記第１確率の分布関数を推定し、前記学習用母集団分布から標本抽出される正負が未知の事例の集合から、前記第２確率の分布関数を推定することにより学習し、学習した前記分類器を用いて、分類対象の事例を正事例又は負事例に分類する処理を実行させるためのＰＵ分類プログラムである。

【発明の効果】

【0010】

本願によれば、学習事例と実対象事例との正負割合が異なり、事前にその違いを知る手掛かりが得られない場合であっても、十分な分類精度を達成することができる。

【図面の簡単な説明】

【0011】

【図1】本実施の形態に係る分類装置のハードウェア構成を示すブロック図である。

【図2】実施の形態１に係る分類装置の機能的構成を説明する説明図である。

【図3】検出システムにおける計測系の概略構成を説明する説明図である。

【図4】計測系より得られる計測信号の一例を示す波形図である。

【図5】分類装置が実行する処理の手順を説明するフローチャートである。

【図6】実施の形態１に係る分類装置の性能評価を示す図表である。

【図7】実施の形態２に係る分類装置の性能評価を示す図表である。

【発明を実施するための形態】

【0012】

以下、本発明をその実施の形態を示す図面に基づいて具体的に説明する。
（実施の形態１）
図１は本実施の形態に係る分類装置１のハードウェア構成を示すブロック図である。本実施の形態に係る分類装置１は、例えばパーソナルコンピュータ、サーバ装置等の情報処理装置であり、制御部１１、記憶部１２、入力部１３、通信部１４、操作部１５、及び表示部１６を備える。分類装置１は、入力された分類対象の事例を正事例又は負事例に分類する。

【0013】

制御部１１は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）などを備える。制御部１１が備えるＲＯＭには、上記ハードウェア各部の動作を制御するための制御プログラム等が記憶される。制御部１１内のＣＰＵは、ＲＯＭに記憶された制御プログラム及び後述する記憶部１２に記憶された各種プログラムを実行し、上記ハードウェア各部の動作を制御することにより、装置全体を本願のＰＵ分類装置として機能させる。制御部１１が備えるＲＡＭには、各種プログラムの実行中に一時的に利用されるデータが記憶される。

【0014】

なお、制御部１１は上記の構成に限定されるものではなく、シングルコアＣＰＵ、マルチコアＣＰＵ、ＧＰＵ（Graphics Processing Unit）、マイコン、揮発性又は不揮発性のメモリ等を含む１又は複数の処理回路又は演算回路であればよい。また、制御部１１は、日時情報を出力するクロック、計測開始指示を与えてから計測終了指示を与えるまでの経過時間を計測するタイマ、数をカウントするカウンタ等の機能を備えていてもよい。

【0015】

記憶部１２は、ＳＲＡＭ（Static Random Access Memory）、フラッシュメモリ、ハードディスクなどを用いた記憶装置を備える。記憶部１２には、制御部１１に実行させる各種プログラム、及び各種プログラムの実行に必要なデータ等が記憶される。記憶部１２に記憶されるプログラムには、例えば、入力された分類対象の事例集合に含まれる各事例を正事例又は負事例に分類するＰＵ分類プログラムが含まれる。

【0016】

記憶部１２に記憶されるプログラムは、当該プログラムを読み取り可能に記録した記録媒体Ｍにより提供されてもよい。記録媒体Ｍは、例えば、ＳＤ（Secure Digital）カード、マイクロＳＤカード、コンパクトフラッシュ（登録商標）などの可搬型のメモリである。この場合、制御部１１は、不図示の読取装置を用いて記録媒体Ｍからプログラムを読み取り、読み取ったプログラムを記憶部１２にインストールすることが可能である。また、記憶部１２に記憶されるプログラムは、通信部１４を介した通信により提供されてもよい。この場合、制御部１１は、通信部１４を通じてプログラムを取得し、取得したプログラムを記憶部１２にインストールすることが可能である。

【0017】

入力部１３は、各種データを装置内に入力するための入力インタフェースを備える。入力部１３には、例えば学習用の事例及び分類対象の事例を出力するセンサ又は出力装置が接続される。制御部１１は、入力部１３を通じて学習用の事例及び分類対象の事例を取得する事が可能である。

【0018】

通信部１４は、インターネット網などの通信網（不図示）に接続するための通信インタフェースを備え、外部へ通知すべき各種情報を送信すると共に、外部から送信される各種情報を受信する。本実施の形態では、入力部１３を通じて学習用の事例及び分類対象の事例を取得する構成としたが、通信部１４を通じて学習用の事例及び分類対象の事例を取得する構成であってもよい。

【0019】

操作部１５は、キーボード、タッチパネルなどのユーザインタフェースを備えており、各種の操作情報や設定情報を受付ける。制御部１１は、操作部１５から入力される操作情報に基づき適宜の制御を行い、必要に応じて設定情報を記憶部１２に記憶させる。

【0020】

表示部１６は、液晶表示パネル、有機ＥＬ（Electro Luminescence）表示パネル等の表示デバイスを備えており、制御部１１から出力される制御信号に基づいて、ユーザに通知すべき情報を表示する。

【0021】

なお、本実施の形態では、制御部１１が実行するソフトウェアの処理により、本願の分類方法を実現する構成について説明するが、当該分類方法を実現するＬＳＩ（Large Scale Integration）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）などのハードウェアを制御部１１とは別に搭載する構成であってもよい。この場合、制御部１１は、入力部１３を通じて取得する分類対象の事例等を上記ハードウェアに引き渡すことにより、当該ハードウェアの内部にて分類対象の事例集合に含まれる各事例を正事例又は負事例に分類する。

【0022】

また、本実施の形態では、簡略化のために、分類装置１を１つの装置として記載したが、複数の処理装置又は演算装置により構成されてもよく、１又は複数の仮想マシンにより構成されるものであってもよい。

【0023】

また、本実施の形態では、分類装置１が操作部１５及び表示部１６を備える構成としたが、操作部１５及び表示部１６は必須ではなく、外部に接続されたコンピュータを通じて操作を受付け、通知すべき情報を外部のコンピュータへ出力する構成であってもよい。

【0024】

図２は実施の形態１に係る分類装置１の機能的構成を説明する説明図である。分類装置１の制御部１１は、ＲＯＭに記憶された制御プログラム及び記憶部１２に記憶されたＰＵ分類プログラムを実行し、上述したハードウェア各部の動作を制御することにより、以下で説明する各機能を実現する。

【0025】

分類装置１は、機能的構成として分類器１１０及び学習部１２０を備える。分類器１１０は、分類対象の事例が与えられた場合、与えられた分類対象の事例を正事例又は負事例に分類する分類器である。分類手法については、後に詳述することとするが、分類器１１０は、与えられた事例が正事例として学習用母集団分布から抽出される確率（第１確率）と、前記事例が学習用母集団分布から標本抽出される確率（第２確率）との大小関係を判定する判定不等式を用いて、事例を正事例又は負事例に最尤分類することを特徴とした分類器である。

【0026】

学習部１２０は、正事例であることが既知の学習用正事例集合と、正負が未知の学習用未知事例集合とを用いて、分類器１１０を学習する。具体的には、学習部１２０は、学習用母集団分布から標本抽出される正事例の集合（学習用正事例集合）から、前述の第１確率の分布関数を推定すると共に、学習用母集団分布から標本抽出される正負が未知の事例の集合（学習用未知事例集合）から、前述の第２確率の分布関数を推定することにより、分類器１１０を学習する。

【0027】

以下では、分類装置１の適用例の１つとして、ナノギャップセンサを用いて検出対象分子を検出する検出システムへの適用例について説明する。この適用例において、分類装置１は、ナノギャップセンサからの信号パルスを、検出対象分子に起因した信号パルスと、ノイズを含むそれ以外の信号パルスとに分類するために用いられる。

【0028】

図３は検出システムにおける計測系の概略構成を説明する説明図である。検出システムは、ナノギャップセンサＮＳを備える。ナノギャップセンサＮＳは、微細距離（例えば１ｎｍ）を隔てて配置される一対の電極Ｄ１，Ｄ２と、電極Ｄ１，Ｄ２間に流れる電流を計測する電流計測器ＭＥとを備える。電極Ｄ１，Ｄ２は、例えば金原子により構成される微細形状の電極である。電極Ｄ１，Ｄ２に一定の電圧をかけた状態にて、検出対象分子がギャップ付近を通過した場合、電極Ｄ１，Ｄ２間には微弱なトンネル電流が流れる。電流計測器ＭＥは、電極Ｄ１，Ｄ２間に流れるトンネル電流を適宜の時間間隔で時系列的に計測し、計測結果（パルス信号）を出力する。

【0029】

検出対象分子は、例えば、ジチオフェンウラシル誘導体（ＢｉｔｈｉｏＵ）及びＴＴＦウラシル誘導体（ＴＴＦ）である。これらの分子は人工核酸塩基であり、識別を容易にするためにエピジェネティック部位を化学的に修飾したものである。以下の説明において、検出対象分子のジチオフェンウラシル誘導体及びＴＴＦウラシル誘導体を単に対象塩基とも記載する。

【0030】

対象塩基は、分子自体のブラウン運動、又は電気泳動、電気浸透流、誘電泳動等の手段により、それを含む溶液内で移動する。検出システムは、対象塩基がナノギャップセンサＮＳの電極Ｄ１，Ｄ２付近を通過する際のパルス波形を特定することにより、対象塩基を１分子単位で識別する。図３Ａはジチオフェンウラシル誘導体が電極Ｄ１，Ｄ２付近を通過している様子を示し、図３ＢはＴＴＦウラシル誘導体が電極Ｄ１，Ｄ２付近を通過している様子を示している。このような検出システムを用いることにより、例えば、ＤＮＡ塩基分子の種類を１分子単位で識別することが可能となり、既存技術では困難であったペプチドのアミノ酸配列や疾病マーカとなる修飾アミノ分子の識別が実現される。

【0031】

しかしながら、計測系より得られる計測信号には、トンネル電流の量子雑音、電極Ｄ１，Ｄ２を構成する表面原子の熱運動、溶液に含まれる夾雑物等の影響により、ノイズパルスが含まれる場合がある。ノイズパルスを適切に除去できなければ、ノイズパルスを対象塩基由来のパルスと誤認する可能性があり、識別精度が低下する原因となる。

【0032】

図４は計測系より得られる計測信号の一例を示す波形図である。図４Ａは対象塩基を含んでいない状態での計測結果を示し、図４Ｂは対象塩基を含んだ状態での計測結果を示している。何れの波形図も横軸は時間を示し、縦軸は電流値を示している。

【0033】

計測系より得られる計測信号（事例）には、一般的にノイズが含まれる。計測対象の溶液に対象塩基が含まれていない場合であっても、トンネル電流の量子雑音、電極Ｄ１，Ｄ２を構成する表面原子の熱運動、溶液に含まれる夾雑物等の影響により、ある程度の波高を有するノイズパルスが現れる場合がある。図４Ａに示した例は、時間Ｔ＝Ｔ１１，Ｔ１２，Ｔ１３においてノイズパルスが観測された状態を示している。ノイズパルスが出現するタイミングは全くランダムであり、出現タイミングを予測することは不可能である。

【0034】

一方、計測対象の溶液に対象塩基が含まれる場合、対象塩基がナノギャップセンサＮＳの電極Ｄ１，Ｄ２付近を通過する際に流れるトンネル電流に起因して、ある程度の波高を有するパルスが観測される。このパルスは、対象塩基由来のパルス（以下、対象塩基パルスとも記載する）であり、対象塩基を識別するために観測されるべきパルスである。また、計測対象の溶液に対象塩基が含まれる場合であっても、トンネル電流の量子雑音、電極Ｄ１，Ｄ２を構成する表面原子の熱運動、溶液に含まれる夾雑物等に起因したノイズパルスを避けることはできない。図４Ｂに示した例は、時間Ｔ＝Ｔ２１，Ｔ２４，Ｔ２５，Ｔ２６において対象塩基パルスが観測され、Ｔ＝Ｔ２２，Ｔ２３においてノイズパルスが観測された状態を示している。

【0035】

前述のように、ノイズパルスが出現するタイミングは全くランダムであり、出現タイミングを予測することは不可能である。また、図４Ｂに示すように、ノイズパルスは、対象塩基パルスと同程度又はそれ以上の波高を有している。よって、対象塩基を計測して得られる計測信号のみを用いて、対象塩基パルスのみを抽出することは原理的に不可能である。

【0036】

計測信号に含まれる対象塩基パルスをノイズパルスから分離して抽出するためには、対象塩基パルス及びノイズパルスを分類する分類手法の構築が不可欠となる。発明者らは、特願２０１７−０９２０７５号において、ベイズ推定原理に基づくＰＵ分類手法を用いて、ナノギャップセンサＮＳより得られる計測信号に基づき、ノイズパルス（正事例）と対象塩基パルス（負事例）とを分類する分類器を構築し、計測信号からノイズを低減する手法を提案している。

【0037】

ベイズ推定原理に基づく既存のＰＵ分類手法は、分類器を学習するために用いた学習用事例と、正負が未知の分類対象の事例とが同一の母集団分布から抽出されることを前提としており、両者が同一の母集団分布から抽出される場合に限り正確に分類することが可能である。

【0038】

しかしながら、計測信号を分類対象とする場合、分類器の学習に用いる計測信号と、実際に分類対象となる計測信号とでは、それぞれに含まれるノイズパルス（正事例）及び対象塩基パルス（負事例）の割合は必ずしも一致しておらず、両者は異なる母集団分布から抽出された事例を示すことが多い。そのため、ベイズ推定原理に基づく既存のＰＵ分類手法を用いて、計測信号を正事例及び負事例に分類する場合、十分な分類精度を達成することができない。

【0039】

そこで、本願では、学習用に与えられた正事例の集合である学習用正事例集合と、正事例及び負事例が混在し、正事例及び負事例の割合が未知の事例の集合である学習用未知事例集合とから、未知事例集合が従う確率分布に依存しない最尤推定原理によって、任意の正負割合の確率分布を持つ分類対象の事例を高精度に正事例又は負事例に分類するＰＵ分類手法を提案する。

【0040】

以下、本実施の形態に係るＰＵ分類手法について説明する。
学習用に与えられたラベル付き正事例集合をＤ_LP、学習用に与えられたラベルなし事例集合をＤ_LU、計測のたびに取得されるテスト用ラベルなし事例集合をＤ_TUと表記する。Ｄ_LPの事例は、正事例周辺分布ｐ_LP（Ｘ｜Ｙ＝Ｐ）からＩＩＤ標本抽出され、Ｄ_LU、Ｄ_TUの事例は、それぞれ周辺分布ｐ_LU（Ｘ）、ｐ_TU（Ｘ）からＩＩＤ標本抽出される。

【0041】

ここで、Ｘは特徴ベクトルを表す。特徴ベクトルは、計測信号から得られる各パルスのパルス波形を反映した特徴量を成分として含むベクトルである。特徴ベクトルとして、例えば、パルス開始時点から終了時点までを１０分割した各区間における計測電流値の平均値を成分とする１０次元特徴ベクトルを用いることができる。なお、計測電流値の平均値に限らず、パルスピーク値を１に規格化した波高値、規格化しない波高値、パルス波長時間を１に規格化した波長方向時間、規格化しない波長方向時間、これらを組み合わせた値等の特徴量を成分として含む特徴ベクトルを用いてもよい。Ｙは正負例ラベルを表す。本実施の形態では、ノイズパルスを正事例とし、対象塩基パルスを負事例としている。

【0042】

本実施の形態では、ｐ_LP（Ｘ｜Ｙ＝Ｐ）、ｐ_LU（Ｘ）、ｐ_TU（Ｘ）は同一の不変な分布ｐ（Ｘ｜Ｙ）から構成されると仮定する（以下、仮定１と称する）。この仮定１は特殊なものではなく、過去の全てのＰＵ分類手法においても全事例集合にわたって共通のｐ（Ｘ｜Ｙ）が仮定されている。また、上述したナノギャップセンサＮＳを含む各種計測系は、事前確率密度関数ｐ（Ｙ）の変化に対してＹのロバストな推定ができるように、不変なｐ（Ｘ｜Ｙ）を安定的に実現するように設計されていることからも、仮定１が特殊なものではないことが分かる。

【0043】

仮定１により、ｐ_LP（Ｘ｜Ｙ＝Ｐ）＝ｐ（Ｘ｜Ｙ＝Ｐ）が成り立つので、Ｙ＝Ｐ，Ｎについての共通のｐ（Ｘ｜Ｙ）と、正負例のクラス事前確率π_L ＝ｐ_LU（Ｙ＝Ｐ）及びπ_T ＝ｐ_TU（Ｙ＝Ｐ）を用いて、ｐ_LU（Ｘ）及びｐ_TU（Ｘ）を以下のように表せる。

【0044】

ｐ_LU（Ｘ）＝π_L ｐ（Ｘ｜Ｙ＝Ｐ）＋（１−π_L ）ｐ（Ｘ｜Ｙ＝Ｎ）…（１）
ｐ_TU（Ｘ）＝π_T ｐ（Ｘ｜Ｙ＝Ｐ）＋（１−π_T ）ｐ（Ｘ｜Ｙ＝Ｎ）…（２）

【0045】

ここで、π_L ，π_T ∈［０，１］のそれぞれの値は不明であるが、独立に与えられるものとする。π_L 及びπ_T の推定を必要としない分類器を構成するために、本実施の形態では、クラス事前確率の影響を受けない最尤推定原理を用いる分類基準を採用する。

【0046】

ラベルなしテスト事例ｘ（∈Ｄ_TU）の最尤なＹは、仮定１により、以下の式で与えられる。

【0047】

【数1】

【0048】

ここで、任意のπ∈［０，１］を有する、
ｐ_π （Ｘ）＝πｐ（Ｘ｜Ｙ＝Ｐ）＋（１−π）ｐ（Ｘ｜Ｙ＝Ｎ）
について、以下の２つの不等式は等価である。

【0049】

ｐ（Ｘ｜Ｙ＝Ｐ）≧ｐ_π （ｘ）…（４）
ｐ（Ｙ｜Ｙ＝Ｐ）≧ｐ（ｘ｜Ｙ＝Ｎ）…（５）

【0050】

仮定１と式（１）〜式（５）とに基づき、任意のπ_L ∈［０，１］の下で与えられる以下の判定不等式が得られる。この判定不等式は、π_L と独立に与えられる任意のπ_T ∈［０，１］をもつｐ_TU（Ｘ）に従う事例ｘ∈Ｄ_TUの最尤分類基準を与える。

【0051】

【数2】

【0052】

このような最尤分類基準を用いることにより、Ｄ_LP、Ｄ_LUからそれぞれｐ（ｘ｜Ｙ＝Ｐ）の推定値、及びｐ_LU（ｘ）の推定値をノンパラメトリック推定し、上記判定不等式を用いてｘ∈Ｄ_TUのラベルｙを最尤推定する分類器１１０を構成することができる。

【0053】

なお、上述の最尤分類基準では、ｐ（ｘ｜Ｙ＝Ｐ）＝ｐ_LU（ｘ）の場合、正事例であるとしたが、ｐ（ｘ｜Ｙ＝Ｐ）＝ｐ_LU（ｘ）の場合、負事例と判定する最尤分類基準を用いてもよいことは勿論のことである。

【0054】

以下、分類装置１の動作について説明する。
図５は分類装置１が実行する処理の手順を説明するフローチャートである。分類装置１の制御部１１は、現時点が学習フェーズであるか否かを判断する（ステップＳ１０１）。例えば、制御部１１は、操作部１５を通じて学習フェーズに移行させる指示を事前に受付けた場合、現時点が学習フェーズであると判断することができる。

【0055】

学習フェーズであると判断した場合（Ｓ１０１：ＹＥＳ）、制御部１１は、入力部１３を通じて、学習用の事例を取得する（ステップＳ１０２）。ステップＳ１０２で取得する事例は学習用母集団分布から標本抽出される事例である。このとき、制御部１１は、対象塩基が含まれていない溶液を計測系により計測し、ノイズパルスのみを含む計測信号を正事例であることが既知の学習用の事例として複数取得する。また、制御部１１は、対象塩基を含む溶液を計測系により計測し、ノイズパルス及び対象塩基パルスの双方を含む計測信号を正負が未知の学習用の事例として複数取得する。

【0056】

次いで、制御部１１は、学習用に取得した正事例であることが既知の事例の集合である学習用正事例集合に基づき、分類対象として与えられた事例が正事例として学習用母集団分布から抽出される第１確率の分布関数を推定する（ステップＳ１０３）。具体的には、上述した式（６）におけるｐ（ｘ｜Ｙ＝Ｐ）の関数形を学習用正事例集合に基づき推定する。

【0057】

次いで、制御部１１は、学習用に取得した正負が未知の事例の集合である学習用未知事例集合に基づき、学習用母集団分布から事例が標本抽出される第２確率の分布関数を推定する（ステップＳ１０４）。具体的には、上述した式（６）におけるｐ_LU（ｘ）の関数形を学習用未知事例集合に基づき推定する。なお、ステップＳ１０３及びＳ１０４の処理の順序は任意である。

【0058】

次いで、制御部１１は、ステップＳ１０３及びＳ１０４で推定した分布関数を用いて、式（６）の最尤分類基準を有する分類器１１０を構成する（ステップＳ１０５）。制御部１１は、構成した分類器１１０を記憶部１２に記憶させ、学習フェーズを終了する。

【0059】

ステップＳ１０１で学習フェーズでないと判断した場合（Ｓ１０１：ＮＯ）、制御部１１は、入力された事例を正事例又は負事例に分類する分類フェーズであると判断する。

【0060】

制御部１１は、入力部１３を通じて、分類対象の事例（計測信号）を取得する（ステップＳ１０６）。ステップＳ１０６で取得する事例は分類用母集団分布から標本抽出される事例である。

【0061】

次いで、制御部１１は、学習フェーズで推定した第１確率の分布関数を用いて、取得した事例が正事例として学習用母集団分布から標本抽出される第１確率の推定値を算出する（ステップＳ１０７）。

【0062】

次いで、制御部１１は、学習フェーズで推定した第２確率の分布関数を用いて、学習用母集団分布から事例が標本抽出される第２確率の推定値を算出する（ステップＳ１０８）。なお、ステップＳ１０７及びＳ１０８の処理の順序は任意である。

【0063】

次いで、制御部１１は、算出した第１確率ｐ（ｘ｜Ｘ＝Ｐ）が、第２確率ｐ_LU（ｘ）以上であるか否かを判定する（ステップＳ１０９）。

【0064】

第１確率ｐ（ｘ｜Ｘ＝Ｐ）が、第２確率ｐ_LU（ｘ）以上であると判断した場合（Ｓ１０９：ＹＥＳ）、制御部１１は、取得した事例が正事例（ノイズ）であると判断し（ステップＳ１１０）、判断結果を記憶部１２に記憶させる。

【0065】

また、第１確率ｐ（ｘ｜Ｘ＝Ｐ）が、第２確率ｐ_LU（ｘ）未満であると判断した場合（Ｓ１０９：ＮＯ）、制御部１１は、取得した事例が負事例（対象塩基）であると判断し（ステップＳ１１１）、判断結果を記憶部１２に記憶させる。

【0066】

なお、本実施の形態では、第１確率ｐ（ｘ｜Ｘ＝Ｐ）が、第２確率ｐ_LU（ｘ）に等しい場合、制御部１１は、入力された事例が正事例（ノイズ）であると判断する構成としたが、負事例（対象塩基）と判断してもよい。

【0067】

次いで、制御部１１は、計測が終了したか否かを判断する（ステップＳ１１２）。計測が終了していないと判断した場合（Ｓ１１２：ＮＯ）、制御部１１は、処理をステップＳ１０６へ戻す。計測が終了したと判断した場合（Ｓ１１２：ＹＥＳ）、制御部１１は、分類フェーズを終了させる。

【0068】

以下、実施の形態１に係る分類装置１の性能評価について記載する。
分類装置１は、入力された分類対象の事例（計測信号）を正事例又は負事例に分類するものであるが、対象塩基パルスとノイズパルスとを含む事例集合中のどのパルスが真に対象塩基パルスであるかということは知り得ないため、正負例の分類結果を性能指標とすることはできない。そこで、以下で定義される疑似Ｆ−ｍｅａｓｕｒｅの値（Ｆチルダ）をテスト用事例集合に対して計算し、性能指標とする。

【0069】

【数3】

【0070】

ここで、Ｄ_TPはテスト用の正事例集合であり、Ｄ_TUはテスト用のラベルなし事例集合である。また、ハット付きのＤ_TPはテスト用の正事例集合のうちで正事例と推定した事例の集合、ハット付きのＤ^P_TUはテスト用のラベルなし事例集合のうちで正事例と推定した事例の集合である。

【0071】

図６は実施の形態１に係る分類装置１の性能評価を示す図表である。各事例集合について、｜Ｄ_LP｜＝２０、｜Ｄ_LU｜＝８００を学習用に取得し、｜Ｄ_TP｜＝２０、｜Ｄ_TU｜＝１００をテスト用に取得した。また、比較対象として、ElkanらのＰＵ分類器（非特許文献１を参照）を用い、ｐ_LP（Ｘ｜Ｙ＝Ｐ）及びｐ_LU（Ｘ）の推定値をガウシアンナイーブベイズ推定（ＮＥ−Ｅ＆Ｎ）及びガウスカーネル密度を用いたベイズ推定（ＫＤ−Ｅ＆Ｎ）の２通りの手法を用いて演算した結果を併せて示している。

【0072】

各ＰＵ分類手法の疑似Ｆ−ｍｅａｓｕｒｅの値を図６に示す。Ｄ_TUとして、計測の初期段階（π_L ≒π_T）、しばらく時間が経過して夾雑物が多くなった頃（π_L ＜π_T ）、非常に夾雑物が増えた頃（π_L ≪π_T）の３通りについて調べた。疑似Ｆ−ｍｅａｓｕｒｅの値は通常のものとは異なり、［０，１］に規格化されないが、この値が大きいほど分類性能が高いことを示す。

【0073】

図６に示すように、実施の形態１に係る分類装置１（ＮＬ−ＰＵＣ：Native Likelihood PUC）は、π_T の値によらず既存手法よりはるかに高性能を示すことがわかった。

【0074】

以上のように、本実施の形態では、分類器の学習に用いる事例と、実際に分類対象となる事例との間で、それぞれに含まれるノイズパルス（正事例）及び対象塩基パルス（負事例）の割合が異なる場合であっても、入力された事例を精度良く正事例又は負事例に分類することができる。

【0075】

（実施の形態２）
実施の形態１では、正事例であることが既知の学習用正事例集合を用いて第１確率の分布関数を推定し、正負が未知の学習用未知事例集合を用いて第２確率の分布関数を推定する構成としたが、正事例であることが既知の学習用の事例を十分に取得することができない場合もある。正事例であることが既知の学習用の事例が十分に得られない場合、推定した第１確率の分布関数の誤差が大きくなり、その結果、分類精度が低下する可能性がある。

【0076】

そこで、実施の形態２では、学習時に正事例であることが既知の学習用の事例が十分に用意できない場合であっても、第１確率の分布関数を精度良く推定することができる手法について説明する。

【0077】

実施の形態２では、正事例であることが既知の事例のみを用いるのではなく、一般的には十分な事例数を用意することができる正負が未知の事例を併せて用いることにより、第１確率の分布関数に関して推定精度の低下を抑える。

【0078】

学習用に与えたラベルなし事例集合Ｄ_LUから導出されるｐ^(k-1) （Ｘ｜Ｙ＝Ｐ）の確率変数を用いて、ｐ_LP（Ｘ｜Ｙ＝Ｐ）の推定値を反復的にアップデートすることにより、より正確なｐ^(k)（Ｘ｜Ｙ＝Ｐ）の推定値を得ることを目的とする。ｐ^(k)（Ｘ｜Ｙ＝Ｐ）の推定値は、以下のように記述することができる。

【0079】

【数4】

【0080】

ここで、ｒ∈［０，１］であり、ｋは２以上の整数である。
カーネル密度ｐ_K （Ｘ｜ｘ）とその重みｗ（ｘ）は、以下に示すｐ（Ｘ｜Ｙ＝Ｐ）の非ノンパラメトリック近似を与える。

【0081】

【数5】

【0082】

統計誤差が小さくなるように、ｐ^(k-1)（ｘ｜Ｙ＝Ｐ）の推定値を用いて、確率変数ｐ^(k-1) （Ｘ｜Ｙ＝Ｐ）を反復的に計算する。

【0083】

【数6】

【0084】

ラベルなし事例集合Ｄ_LUに属する全てのｘに対して、ｗ^(k-1) （ｘ）の確率変数が十分に収束した場合、より正確なｐ^(k)（Ｘ｜Ｙ＝Ｐ）の推定値が得られる。

【0085】

図７は実施の形態２に係る分類装置１の性能評価を示す図表である。各事例集合について、｜Ｄ_LP｜＝２０、｜Ｄ_LU｜＝８００を学習用に取得し、｜Ｄ_TP｜＝２０、｜Ｄ_TU｜＝１００をテスト用に取得した。比較対象として、ガウシアンナイーブベイズ推定（ＮＥ−Ｅ＆Ｎ）及びガウスカーネル密度を用いたベイズ推定（ＫＤ−Ｅ＆Ｎ）の２通りの手法を用いたElkanらのＰＵ分類器の性能評価、及び実施の形態１で説明した分類装置（ＮＬ−ＰＵＣ）の性能評価を併せて示している。

【0086】

各ＰＵ分類手法の疑似Ｆ−ｍｅａｓｕｒｅの値を図７に示す。Ｄ_TUとして、計測の初期段階（π_L ≒π_T）、しばらく時間が経過して夾雑物が多くなった頃（π_L ＜π_T ）、非常に夾雑物が増えた頃（π_L ≪π_T）の３通りについて調べた。疑似Ｆ−ｍｅａｓｕｒｅの値は通常のものとは異なり、［０，１］に規格化されないが、この値が大きいほど分類性能が高いことを示す。

【0087】

図７に示すように、実施の形態２に係る分類装置１（ＥＬ−ＰＵＣ：Enhanced Likelihood PUC）は、学習用の正事例数が少ないにも関わらず、既存手法及び実施の形態１に係る分類装置１（ＮＬ−ＰＵＣ）より高性能を示すことがわかった。

【0088】

以上のように、本実施の形態では、学習用として得られる正事例集合の事例数が少ない場合であっても、推定精度を向上させることができ、計測信号を精度良く正事例又は負事例に分類することができる。

【0089】

今回開示された実施の形態は、全ての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述した意味ではなく、請求の範囲によって示され、請求の範囲と均等の意味及び範囲内での全ての変更が含まれることが意図される。

【0090】

例えば、本実施の形態では、一例として、ノイズパルスのみを含む事例と、対象塩基パルス及びノイズパルスの双方を含む事例とを用いて分類器１１０を学習し、分類対象として入力される対象塩基パルス及びノイズパルスの双方を含む事例から、正事例（ノイズパルス）及び負事例（対象塩基パルス）を分類する構成について説明したが、分類対象の事例は特定のセンサで計測された計測信号（事例）に限定されるものではなく、任意の事例であってもよい。

【符号の説明】

【0091】

１分類装置
１１制御部
１２記憶部
１３入力部
１４通信部
１５操作部
１６表示部
１１０分類器
１２０学習部
Ｍ記録媒体

【図1】