(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-02
(45)【発行日】2023-10-11
(54)【発明の名称】分類装置及び分類方法
(51)【国際特許分類】
G06N 20/00 20190101AFI20231003BHJP
【FI】
G06N20/00 130
(21)【出願番号】P 2020053210
(22)【出願日】2020-03-24
【審査請求日】2022-09-14
【新規性喪失の例外の表示】特許法第30条第2項適用 令和1年11月15日、ウェブサイト(https://drive.google.com/file/d/1sNNg39Q8bETtHc2Ld0orTdq00pPNG3SO/view)で公開された第22回情報論的学習理論ワークショップ(IBIS 2019 IBIS)のポスターセッションのプレビュースライドにて公開
【新規性喪失の例外の表示】特許法第30条第2項適用 令和1年11月21日、ウインク愛知において開催された第22回情報論的学習理論ワークショップ(IBIS 2019 IBIS)で公開
【新規性喪失の例外の表示】特許法第30条第2項適用 令和2年1月29日、ウェブサイト(https://arxiv.org/abs/2001.10642)で公開
(73)【特許権者】
【識別番号】000003207
【氏名又は名称】トヨタ自動車株式会社
(73)【特許権者】
【識別番号】504137912
【氏名又は名称】国立大学法人 東京大学
(74)【代理人】
【識別番号】100104765
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100131015
【氏名又は名称】三輪 浩誉
(72)【発明者】
【氏名】篠田 和彦
(72)【発明者】
【氏名】梶 洋隆
(72)【発明者】
【氏名】杉山 将
【審査官】多賀 実
(56)【参考文献】
【文献】特開2017-102540(JP,A)
【文献】特開2019-046058(JP,A)
【文献】Jiaqi Lv et al.,"Progressive Identification of True Labels for Partial-Label Learning",arXiv.org [online],arXiv:2002.08053v1,Cornell University,2020年02月,pp.1-22,[検索日 2023.08.29], インターネット:<https://arxiv.org/abs/2002.08053v1>
【文献】Takashi Ishida et al.,"Binary Classification from Positive-Confidence Data",Part of Advances in Neural Information Processing Systems 31 (NeurIPS 2018) [online],2018年,pp.1-12,[検索日 2023.08.29], インターネット:<URL: https://proceedings.neurips.cc/paper_files/paper/2018/hash/bd1354624fbae3b2149878941c60df99-Abstract.html>
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
(57)【特許請求の範囲】
【請求項1】
複数のデータを正例と負例とに分類する分類装置であって、
前記正例及び前記正例の信頼度である正信頼度に基づいて、前記正例と前記負例とを分類する境界を学習する学習手段と、
補正パラメータを用いて前記正信頼度を補正する補正手段と、
前記正例が誤って前記負例として分類される確率である誤分類率について、予め求めた所定値と前記境界を用いた場合の実際の値との差が小さくなるように、前記補正パラメータを更新する更新手段と
を備えることを特徴とする分類装置。
【請求項2】
前記更新手段は、クロスバリデーションを用いて前記実際の値を算出することを特徴とする請求項1に記載の分類装置。
【請求項3】
前記所定値を算出する所定値算出部を更に備えることを特徴とする請求項1又は2に記載の分類装置。
【請求項4】
複数のデータを正例と負例とに分類する分類方法であって、
前記正例及び前記正例の信頼度である正信頼度に基づいて、前記正例と前記負例とを分類する境界を学習する学習工程と、
補正パラメータを用いて前記正信頼度を補正する補正工程と、
前記正例が誤って前記負例として分類される確率である誤分類率について、予め求めた所定値と前記境界を用いた場合の実際の値との差が小さくなるように、前記補正パラメータを更新する更新工程と
を含むことを特徴とする分類方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データの分類を行う分類装置及び分類方法の技術分野に関する。
【背景技術】
【0002】
この種の装置として、収集したデータを正のデータと負のデータとに分類するものが知られている。例えば非特許文献1では、正のデータ及び正のデータの信頼度を用いて、正のデータと負のデータとの分類境界を学習する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】Takeshi Ishida, Gang Niu, and Masashi Sugiyama. 2018. Binary classification from positive-confidence data. In Proceedings of the 32nd International Conference on Neural Information Processing Systems (NIPS’18).
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、正のデータのみが得られる状況では、その信頼度のバイアス(即ち、真の分布からのずれ)の有無や度合いを判断することができない。このため、上述した非特許文献1に係る技術では、データ分類の精度が低下してしまうという技術的問題点が生じ得る。
【0005】
本発明は、例えば上記問題点に鑑みてなされたものであり、正のデータとその信頼度を用いて適切にデータを分類することが可能な分類装置及び分類方法を提供することを課題とする。
【課題を解決するための手段】
【0006】
本発明に係る分類装置の一態様は、複数のデータを正例と負例とに分類する分類装置であって、前記正例及び前記正例の信頼度である正信頼度に基づいて、前記正例と前記負例とを分類する境界を学習する学習手段と、補正パラメータを用いて前記正信頼度を補正する補正手段と、前記正例が誤って前記負例として分類される確率である誤分類率について、予め求めた所定値と前記境界を用いた場合の実際の値との差が小さくなるように、前記補正パラメータを更新する更新手段とを備える。
【0007】
本発明に係る分類方法の一態様は、複数のデータを正例と負例とに分類する分類方法であって、前記正例及び前記正例の信頼度である正信頼度に基づいて、前記正例と前記負例とを分類する境界を学習する学習工程と、補正パラメータを用いて前記正信頼度を補正する補正工程と、前記正例が誤って前記負例として分類される確率である誤分類率について、予め求めた所定値と前記境界を用いた場合の実際の値との差が小さくなるように、前記補正パラメータを更新する更新工程とを含む。
【発明の効果】
【0008】
上述した分類装置及び分類方法の一の態様によれば、正のデータとその信頼度を用いて適切にデータを分類することが可能である。
【図面の簡単な説明】
【0009】
【
図1】実施形態に係る分類装置の構成を示すブロック図である。
【
図2】実施形態に係る分類装置の動作の流れを示すフローチャートである。
【
図4】二値分類器で学習される分類境界の一例を示す概念図である。
【
図5】実施形態に係る分類装置を用いてドライバの眠気を予測した結果を示す表である。
【発明を実施するための形態】
【0010】
以下、図面を参照して分類装置及び分類方法の実施形態について説明する。
【0011】
<装置構成>
まず、本実施形態に係る分類装置の構成について、
図1を参照して説明する。
図1は、実施形態に係る分類装置の構成を示すブロック図である。
【0012】
図1において、本実施形態に係る分類装置10は、収集した複数のデータを正例(即ち、正のデータ)と負例(即ち、負のデータ)とに分類することが可能に構成されている。分類装置10は、例えば演算回路やメモリ等を備えて構成されている。分類装置10は、その機能を実現するための構成要素として、記録部100と、学習部200とを備えて構成されている。
【0013】
記録部100は、分類装置10が用いる各種パラメータを記録可能に構成されている。記録部100は、分類装置10による分類の対象となるデータx、正信頼度r、及び正例の誤分類率φを記録しており、それらを学習部200に出力可能に構成されている。なお、「正信頼度r」とは、データxに含まれる正例の信頼度(即ち、正例がどれだけ正しいか)を示すパラメータである。「誤分類率φ」は、正例が誤って負例として分類されてしまう確率を示すパラメータである。記録部100は更に、学習部100で学習された二値分類器gを記録可能に構成されている。「二値分類器g」は、データxを正例と負例とに分類する分類境界を示すパラメータである。
【0014】
学習部200は、分類器学習部210と、パラメータ調整部220とを備えている。分類器学習部210は、記録部100から入力されるデータx、正信頼度r、及び正例の誤分類率φを用いて、二値分類器gの学習を実行する。また、分類器学習部210は、学習の際に補正パラメータk*を用いて正信頼度rを補正する。分類器学習部210は、後述する付記における「学習手段」及び「補正手段」の一具体例である。パラメータ調整部220は、分類器学習部210の学習に用いられる補正パラメータk*を調整(言い換えれば、更新)する。パラメータ調整部220は、後述する付記における「更新手段」の一具体例である。分類器学習部210及びパラメータ調整部220の具体的な動作については、以下で詳しく説明する。
【0015】
<動作説明>
次に、本実施形態に係る分類装置100の動作の流れについて、
図2を参照して説明する。
図2は、実施形態に係る分類装置の動作の流れを示すフローチャートである。
【0016】
図2に示すように、本実施形態に係る分類装置100の動作時には、まず分類器学習部210が、補正パラメータk及びk*、並びにm、Δ*に、それぞれ初期値を代入する(ステップS11)。補正パラメータkは、実際に用いられる補正パラメータk*を更新するために算出される値である。補正パラメータk及びk*の初期値は適当な値であってよい。ただし、経験上適切な初期値が計算できる場合には、その初期値を代入してもよい。mは処理が繰り返される回数をカウントするためのパラメータであり、例えば“1”が初期値として代入される。Δ*は、予め算出される正例の誤分類率φと実際の誤分類率との二乗誤差に対応するパラメータであり、例えば十分に大きな値が初期値として代入される。
【0017】
続いて、分類器学習部210は、補正パラメータkを用いて正信頼度rを補正する(ステップS12)。具体的には、正信頼度rは“rk”として補正される。
【0018】
続いて、分類器学習部210は、分類リスク最小化を行って二値分類器gを学習する(ステップS13)。具体的には、分類器学習部210は、下記式(1)で示すように、損失関数lが小さくなるように二値分類器gを学習する。
【0019】
【0020】
続いて、分類器学習部210は、予め算出された正例の誤分類率φと実際の誤分類率との二乗誤差を求め、Δとする(ステップS14)。なお、正例の誤分類率φ及び二乗誤差Δは、それぞれ下記式(2)及び(3)を用いて算出することができる。
【0021】
【0022】
【0023】
なお、ここでの二乗誤差Δは、予め算出された正例の誤分類率φと、二値分類器gによる実際の誤分類率との差分を知るために算出される。このため、算出されるΔは、二乗誤差に限定されるわけではなく差分を示す値であればよい。
【0024】
続いて、パラメータ調整部220は、Δ*がΔより大きいか否かを判定する(ステップS15)。そして、Δ*がΔより大きい場合(ステップS15:YES)、パラメータ調整部220は、Δ*をΔの値で更新し、k*をkの値で更新する(ステップS16)。一方、Δ*がΔより大きくない場合(ステップS15:NO)、パラメータ調整部220は、Δ*及びk*を更新しない(即ち、ステップS16の処理は省略される)。
【0025】
その後、パラメータ調整部220は、mを1増やす(ステップS17)。そして、mが事前に定めた上限回数Mを超えているか、又はΔが閾値εより小さくなっているかを判定する(ステップS18)。なお、閾値εは、二乗誤差が十分に小さくなったことを判定するために予め設定される閾値である。
【0026】
mが事前に定めた上限回数Mを超えておらず、且つ、Δが閾値εより小さくなっていない場合(ステップS18:NO)、パラメータ調整部220は、所定の手続きで補正パラメータkを更新する(ステップS19)。具体的には、Δがより小さい値として算出されるように、補正パラメータkが更新される。補正パラメータkが更新されると、更新後の補正パラメータkを用いてステップS12以降の処理が繰り返される。
【0027】
他方、mが事前に定めた上限回数Mを超えている、又はΔが閾値εより小さくなっている場合(ステップS18:YES)、分類器学習部210は、補正パラメータk*を用いて正信頼度rを補正する(ステップS20)。具体的には、正信頼度rは“rk*”として補正される。
【0028】
続いて、分類器学習部210は、分類リスク最小化を行って二値分類器gを学習する(ステップS21)。具体的には、分類器学習部210は、下記式(4)で示すように、損失関数lが小さくなるように二値分類器gを学習する。
【0029】
【0030】
<技術的効果>
次に、本実施形態に係る分類装置10の技術的効果について、
図3及び
図4を参照して説明する。
図3は、正例の誤分類率を示す概念図である。
図4は、二値分類器で学習される分類境界の一例を示す概念図である。
【0031】
図3に示すように、正例の誤分類率φは、正例を分類境界で分類した場合に、誤って負例(即ち、分類境界の反対側)に分類されてしまう部分の割合である。そして、本願発明者の研究するところによれば、予め算出された正例の誤分類率φと、二値分類器gによる実際の誤分類率との差分が小さくなるように二値分類器gを学習すれば、正信頼度rに生じるバイアスの影響を小さくできることが判明している。従って、本実施形態に係る分類装置10によれば、二値分類器gをより適切に学習することが可能である。
【0032】
図4において、比較例に係る分類境界は、本実施形態のように正例の誤分類率φを用いずに学習した場合(例えば、非特許文献1の技術をそのまま用いた場合)の分類境界である。図を見ても分かるように、比較例に係る分類境界では、正例(図中の黒丸)の一部が負例として分類されることになってしまう。一方、本実施形態に係る分類境界(即ち、正例の誤分類率φを用いずに学習した場合)は、正例と負例とが精度よく分類されている。このように、本実施形態に係る分類装置10によれば、正例と負例との分類精度を向上させることが可能である。
【0033】
<具体的な適用例>
次に、本実施形態に係る分類装置10の具体的な適用例について、
図5を参照して説明する。
図5は、実施形態に係る分類装置を用いてドライバの眠気を予測した結果を示す表である。
【0034】
本実施形態に係る分類装置10は、車両のドライバの眠気を予測する装置(具体的には、眠気がない状態か、眠気がある状態かを分類する装置)に適用することができる。
【0035】
図5において、この装置では、ドライバ1~3の心電位のR-R間隔から計算した7つの特徴量を使用してドライバの眠気を予測している。ここでの比較例は、本実施形態のように正例の誤分類率φを用いない装置(例えば、非特許文献1をそのまま適用した装置)を適用したものであるが、すべて覚醒状態(即ち、眠気がない状態)であると予測されてしまい、眠気を示す値を算出することができていない。一方で、本実施形態に係る分類装置10を適用したものでは、それぞれ眠気を示す値を算出できている。また、算出された値についても、教師データあり学習の場合と大きく変わらない。このような結果から、本実施形態に係る分類装置10は、比較例と比べて有益な効果を奏するものであることが分かる。
【0036】
また、上述した眠気を予測する装置では、その教師データとして正例(眠気がない状態を示すデータ)を収集することは容易である一方で、負例(眠気がある状態を示すデータ)を収集することが難しい。なぜなら、眠気がある状態を示すデータを収集するには、眠気があるドライバに車両を運転させることになり、安全上の問題が発生する可能性があるからである。しかしながら、本実施形態に係る分類装置10によれば、すでに説明したように、負例を用いずに適切な分類境界を学習することができる。
【0037】
本実施形態に係る分類装置10は、上記例のように正例が容易に取得できる一方で、負例が取得し難い状況において顕著に効果を発揮する。例えば、新規自社ユーザの継続確率を評価したいが、自社ユーザのデータ及びロイヤリティスコアしか持っていないような状況においても有用である。この場合、毎年どの程度のユーザが離脱するかが分かっていれば、本実施形態に係る分類装置10を適用して精度よく二値分類が可能となる。
【0038】
<付記>
以上説明した実施形態に関して、更に以下の付記を開示する。
【0039】
(付記1)
付記1に記載の分類装置は、複数のデータを正例と負例とに分類する分類装置であって、
前記正例及び前記正例の信頼度である正信頼度に基づいて、前記正例と前記負例とを分類する境界を学習する学習手段と、補正パラメータを用いて前記正信頼度を補正する補正手段と、前記正例が誤って前記負例として分類される確率である誤分類率について、予め求めた所定値と前記境界を用いた場合の実際の値との差が小さくなるように、前記補正パラメータを更新する更新手段とを備えることを特徴とする分類装置である。
【0040】
付記1に記載の分類装置によれば、誤分類率に基づいて更新される補正パラメータによって正信頼度が補正される。よって、正信頼度に生ずるバイアス等の影響を小さくすることができ、正例と負例との境界を適切に学習することが可能となる。
【0041】
(付記2)
付記2に記載の分類装置は、前記更新手段は、クロスバリデーションを用いて前記実際の値を算出することを特徴とする付記1に記載の分類装置である。
【0042】
付記2に記載の運転装置によれば、クロスバリデーションを用いて適切に補正パラメータを更新することが可能である。
【0043】
(付記3)
付記3に記載の分類装置は、前記所定値を算出する所定値算出部を更に備えることを特徴とする付記1又は2に記載の分類装置である。
【0044】
付記3に記載の分類装置によれば、誤分類値の所定値を予め算出することが可能である。
【0045】
(付記4)
付記4に記載の分類方法は、複数のデータを正例と負例とに分類する分類方法であって、
前記正例及び前記正例の信頼度である正信頼度に基づいて、前記正例と前記負例とを分類する境界を学習する学習工程と、補正パラメータを用いて前記正信頼度を補正する補正工程と、前記正例が誤って前記負例として分類される確率である誤分類率について、予め求めた所定値と前記境界を用いた場合の実際の値との差が小さくなるように、前記補正パラメータを更新する更新工程とを含むことを特徴とする分類方法である。
【0046】
付記4に記載の分類方法によれば、付記1に記載の分類装置と同様に、正信頼度に生ずるバイアス等の影響を小さくすることができる。従って、正例と負例との境界を適切に学習することが可能となる。
【0047】
本発明は、上述した実施形態に限られるものではなく、請求の範囲及び明細書全体から読み取れる発明の要旨或いは思想に反しない範囲で適宜変更可能であり、そのような変更を伴う分類装置及び分類方法もまた本発明の技術的範囲に含まれるものである。
【符号の説明】
【0048】
10 分類装置
100 記録部
200 学習部
210 分類器学習部
220 パラメータ調整部
x データ
r 正信頼度
φ 正例の誤分類率
g 二値分類器
k 補正パラメータ
Δ 二乗誤差