特許7359729 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ トヨタ自動車株式会社の特許一覧 ▶ 国立大学法人　東京大学の特許一覧

特許7359729分類装置及び分類方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-10-02

(45)【発行日】2023-10-11

(54)【発明の名称】分類装置及び分類方法

(51)【国際特許分類】

G06N 20/00 20190101AFI20231003BHJP

【ＦＩ】

G06N20/00 130

【請求項の数】 4

(21)【出願番号】P 2020053210

(22)【出願日】2020-03-24

(65)【公開番号】P2021152799

(43)【公開日】2021-09-30

【審査請求日】2022-09-14

【新規性喪失の例外の表示】特許法第３０条第２項適用令和１年１１月１５日、ウェブサイト（ｈｔｔｐｓ：／／ｄｒｉｖｅ．ｇｏｏｇｌｅ．ｃｏｍ／ｆｉｌｅ／ｄ／１ｓＮＮｇ３９Ｑ８ｂＥＴｔＨｃ２Ｌｄ０ｏｒＴｄｑ００ｐＰＮＧ３ＳＯ／ｖｉｅｗ）で公開された第２２回情報論的学習理論ワークショップ（ＩＢＩＳ２０１９ＩＢＩＳ）のポスターセッションのプレビュースライドにて公開

【新規性喪失の例外の表示】特許法第３０条第２項適用令和１年１１月２１日、ウインク愛知において開催された第２２回情報論的学習理論ワークショップ（ＩＢＩＳ２０１９ＩＢＩＳ）で公開

【新規性喪失の例外の表示】特許法第３０条第２項適用令和２年１月２９日、ウェブサイト（ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／２００１．１０６４２）で公開

(73)【特許権者】

【識別番号】000003207

【氏名又は名称】トヨタ自動車株式会社

(73)【特許権者】

【識別番号】504137912

【氏名又は名称】国立大学法人東京大学

(74)【代理人】

【識別番号】100104765

【弁理士】

【氏名又は名称】江上達夫

(74)【代理人】

【識別番号】100131015

【弁理士】

【氏名又は名称】三輪浩誉

(72)【発明者】

【氏名】篠田和彦

(72)【発明者】

【氏名】梶洋隆

(72)【発明者】

【氏名】杉山将

【審査官】多賀実

(56)【参考文献】

【文献】特開２０１７－１０２５４０（ＪＰ，Ａ）

【文献】特開２０１９－０４６０５８（ＪＰ，Ａ）

【文献】Jiaqi Lv et al.，"Progressive Identification of True Labels for Partial-Label Learning"，arXiv.org [online]，arXiv:2002.08053v1，Cornell University，2020年02月，pp.1-22，[検索日 2023.08.29], インターネット:<https://arxiv.org/abs/2002.08053v1>

【文献】Takashi Ishida et al.，"Binary Classification from Positive-Confidence Data"，Part of Advances in Neural Information Processing Systems 31 (NeurIPS 2018) [online]，2018年，pp.1-12，[検索日 2023.08.29], インターネット:<URL: https://proceedings.neurips.cc/paper_files/paper/2018/hash/bd1354624fbae3b2149878941c60df99-Abstract.html>

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／００－９９／００

(57)【特許請求の範囲】

【請求項1】

複数のデータを正例と負例とに分類する分類装置であって、
前記正例及び前記正例の信頼度である正信頼度に基づいて、前記正例と前記負例とを分類する境界を学習する学習手段と、
補正パラメータを用いて前記正信頼度を補正する補正手段と、
前記正例が誤って前記負例として分類される確率である誤分類率について、予め求めた所定値と前記境界を用いた場合の実際の値との差が小さくなるように、前記補正パラメータを更新する更新手段と
を備えることを特徴とする分類装置。

【請求項2】

前記更新手段は、クロスバリデーションを用いて前記実際の値を算出することを特徴とする請求項１に記載の分類装置。

【請求項3】

前記所定値を算出する所定値算出部を更に備えることを特徴とする請求項１又は２に記載の分類装置。

【請求項4】

複数のデータを正例と負例とに分類する分類方法であって、
前記正例及び前記正例の信頼度である正信頼度に基づいて、前記正例と前記負例とを分類する境界を学習する学習工程と、
補正パラメータを用いて前記正信頼度を補正する補正工程と、
前記正例が誤って前記負例として分類される確率である誤分類率について、予め求めた所定値と前記境界を用いた場合の実際の値との差が小さくなるように、前記補正パラメータを更新する更新工程と
を含むことを特徴とする分類方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、データの分類を行う分類装置及び分類方法の技術分野に関する。

【背景技術】

【0002】

この種の装置として、収集したデータを正のデータと負のデータとに分類するものが知られている。例えば非特許文献１では、正のデータ及び正のデータの信頼度を用いて、正のデータと負のデータとの分類境界を学習する技術が開示されている。

【先行技術文献】

【特許文献】

【0003】

【文献】Takeshi Ishida, Gang Niu, and Masashi Sugiyama. 2018. Binary classification from positive-confidence data. In Proceedings of the 32nd International Conference on Neural Information Processing Systems (NIPS’18).

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、正のデータのみが得られる状況では、その信頼度のバイアス（即ち、真の分布からのずれ）の有無や度合いを判断することができない。このため、上述した非特許文献１に係る技術では、データ分類の精度が低下してしまうという技術的問題点が生じ得る。

【0005】

本発明は、例えば上記問題点に鑑みてなされたものであり、正のデータとその信頼度を用いて適切にデータを分類することが可能な分類装置及び分類方法を提供することを課題とする。

【課題を解決するための手段】

【0006】

本発明に係る分類装置の一態様は、複数のデータを正例と負例とに分類する分類装置であって、前記正例及び前記正例の信頼度である正信頼度に基づいて、前記正例と前記負例とを分類する境界を学習する学習手段と、補正パラメータを用いて前記正信頼度を補正する補正手段と、前記正例が誤って前記負例として分類される確率である誤分類率について、予め求めた所定値と前記境界を用いた場合の実際の値との差が小さくなるように、前記補正パラメータを更新する更新手段とを備える。

【0007】

本発明に係る分類方法の一態様は、複数のデータを正例と負例とに分類する分類方法であって、前記正例及び前記正例の信頼度である正信頼度に基づいて、前記正例と前記負例とを分類する境界を学習する学習工程と、補正パラメータを用いて前記正信頼度を補正する補正工程と、前記正例が誤って前記負例として分類される確率である誤分類率について、予め求めた所定値と前記境界を用いた場合の実際の値との差が小さくなるように、前記補正パラメータを更新する更新工程とを含む。

【発明の効果】

【0008】

上述した分類装置及び分類方法の一の態様によれば、正のデータとその信頼度を用いて適切にデータを分類することが可能である。

【図面の簡単な説明】

【0009】

【図1】実施形態に係る分類装置の構成を示すブロック図である。

【図2】実施形態に係る分類装置の動作の流れを示すフローチャートである。

【図3】正例の誤分類率を示す概念図である。

【図4】二値分類器で学習される分類境界の一例を示す概念図である。

【図5】実施形態に係る分類装置を用いてドライバの眠気を予測した結果を示す表である。

【発明を実施するための形態】

【0010】

以下、図面を参照して分類装置及び分類方法の実施形態について説明する。

【0011】

＜装置構成＞
まず、本実施形態に係る分類装置の構成について、図１を参照して説明する。図１は、実施形態に係る分類装置の構成を示すブロック図である。

【0012】

図１において、本実施形態に係る分類装置１０は、収集した複数のデータを正例（即ち、正のデータ）と負例（即ち、負のデータ）とに分類することが可能に構成されている。分類装置１０は、例えば演算回路やメモリ等を備えて構成されている。分類装置１０は、その機能を実現するための構成要素として、記録部１００と、学習部２００とを備えて構成されている。

【0013】

記録部１００は、分類装置１０が用いる各種パラメータを記録可能に構成されている。記録部１００は、分類装置１０による分類の対象となるデータｘ、正信頼度ｒ、及び正例の誤分類率φを記録しており、それらを学習部２００に出力可能に構成されている。なお、「正信頼度ｒ」とは、データｘに含まれる正例の信頼度（即ち、正例がどれだけ正しいか）を示すパラメータである。「誤分類率φ」は、正例が誤って負例として分類されてしまう確率を示すパラメータである。記録部１００は更に、学習部１００で学習された二値分類器ｇを記録可能に構成されている。「二値分類器ｇ」は、データｘを正例と負例とに分類する分類境界を示すパラメータである。

【0014】

学習部２００は、分類器学習部２１０と、パラメータ調整部２２０とを備えている。分類器学習部２１０は、記録部１００から入力されるデータｘ、正信頼度ｒ、及び正例の誤分類率φを用いて、二値分類器ｇの学習を実行する。また、分類器学習部２１０は、学習の際に補正パラメータｋ*を用いて正信頼度ｒを補正する。分類器学習部２１０は、後述する付記における「学習手段」及び「補正手段」の一具体例である。パラメータ調整部２２０は、分類器学習部２１０の学習に用いられる補正パラメータｋ*を調整（言い換えれば、更新）する。パラメータ調整部２２０は、後述する付記における「更新手段」の一具体例である。分類器学習部２１０及びパラメータ調整部２２０の具体的な動作については、以下で詳しく説明する。

【0015】

＜動作説明＞
次に、本実施形態に係る分類装置１００の動作の流れについて、図２を参照して説明する。図２は、実施形態に係る分類装置の動作の流れを示すフローチャートである。

【0016】

図２に示すように、本実施形態に係る分類装置１００の動作時には、まず分類器学習部２１０が、補正パラメータｋ及びｋ*、並びにｍ、Δ*に、それぞれ初期値を代入する（ステップＳ１１）。補正パラメータｋは、実際に用いられる補正パラメータｋ*を更新するために算出される値である。補正パラメータｋ及びｋ*の初期値は適当な値であってよい。ただし、経験上適切な初期値が計算できる場合には、その初期値を代入してもよい。ｍは処理が繰り返される回数をカウントするためのパラメータであり、例えば“１”が初期値として代入される。Δ*は、予め算出される正例の誤分類率φと実際の誤分類率との二乗誤差に対応するパラメータであり、例えば十分に大きな値が初期値として代入される。

【0017】

続いて、分類器学習部２１０は、補正パラメータｋを用いて正信頼度ｒを補正する（ステップＳ１２）。具体的には、正信頼度ｒは“ｒ^ｋ”として補正される。

【0018】

続いて、分類器学習部２１０は、分類リスク最小化を行って二値分類器ｇを学習する（ステップＳ１３）。具体的には、分類器学習部２１０は、下記式（１）で示すように、損失関数ｌが小さくなるように二値分類器ｇを学習する。

【0019】

【数1】

【0020】

続いて、分類器学習部２１０は、予め算出された正例の誤分類率φと実際の誤分類率との二乗誤差を求め、Δとする（ステップＳ１４）。なお、正例の誤分類率φ及び二乗誤差Δは、それぞれ下記式（２）及び（３）を用いて算出することができる。

【0021】

【数2】

【0022】

【数3】

【0023】

なお、ここでの二乗誤差Δは、予め算出された正例の誤分類率φと、二値分類器ｇによる実際の誤分類率との差分を知るために算出される。このため、算出されるΔは、二乗誤差に限定されるわけではなく差分を示す値であればよい。

【0024】

続いて、パラメータ調整部２２０は、Δ*がΔより大きいか否かを判定する（ステップＳ１５）。そして、Δ*がΔより大きい場合（ステップＳ１５：ＹＥＳ）、パラメータ調整部２２０は、Δ*をΔの値で更新し、ｋ*をｋの値で更新する（ステップＳ１６）。一方、Δ*がΔより大きくない場合（ステップＳ１５：ＮＯ）、パラメータ調整部２２０は、Δ*及びｋ*を更新しない（即ち、ステップＳ１６の処理は省略される）。

【0025】

その後、パラメータ調整部２２０は、ｍを１増やす（ステップＳ１７）。そして、ｍが事前に定めた上限回数Ｍを超えているか、又はΔが閾値εより小さくなっているかを判定する（ステップＳ１８）。なお、閾値εは、二乗誤差が十分に小さくなったことを判定するために予め設定される閾値である。

【0026】

ｍが事前に定めた上限回数Ｍを超えておらず、且つ、Δが閾値εより小さくなっていない場合（ステップＳ１８：ＮＯ）、パラメータ調整部２２０は、所定の手続きで補正パラメータｋを更新する（ステップＳ１９）。具体的には、Δがより小さい値として算出されるように、補正パラメータｋが更新される。補正パラメータｋが更新されると、更新後の補正パラメータｋを用いてステップＳ１２以降の処理が繰り返される。

【0027】

他方、ｍが事前に定めた上限回数Ｍを超えている、又はΔが閾値εより小さくなっている場合（ステップＳ１８：ＹＥＳ）、分類器学習部２１０は、補正パラメータｋ*を用いて正信頼度ｒを補正する（ステップＳ２０）。具体的には、正信頼度ｒは“ｒ^ｋ*”として補正される。

【0028】

続いて、分類器学習部２１０は、分類リスク最小化を行って二値分類器ｇを学習する（ステップＳ２１）。具体的には、分類器学習部２１０は、下記式（４）で示すように、損失関数ｌが小さくなるように二値分類器ｇを学習する。

【0029】

【数4】

【0030】

＜技術的効果＞
次に、本実施形態に係る分類装置１０の技術的効果について、図３及び図４を参照して説明する。図３は、正例の誤分類率を示す概念図である。図４は、二値分類器で学習される分類境界の一例を示す概念図である。

【0031】

図３に示すように、正例の誤分類率φは、正例を分類境界で分類した場合に、誤って負例（即ち、分類境界の反対側）に分類されてしまう部分の割合である。そして、本願発明者の研究するところによれば、予め算出された正例の誤分類率φと、二値分類器ｇによる実際の誤分類率との差分が小さくなるように二値分類器ｇを学習すれば、正信頼度ｒに生じるバイアスの影響を小さくできることが判明している。従って、本実施形態に係る分類装置１０によれば、二値分類器ｇをより適切に学習することが可能である。

【0032】

図４において、比較例に係る分類境界は、本実施形態のように正例の誤分類率φを用いずに学習した場合（例えば、非特許文献１の技術をそのまま用いた場合）の分類境界である。図を見ても分かるように、比較例に係る分類境界では、正例（図中の黒丸）の一部が負例として分類されることになってしまう。一方、本実施形態に係る分類境界（即ち、正例の誤分類率φを用いずに学習した場合）は、正例と負例とが精度よく分類されている。このように、本実施形態に係る分類装置１０によれば、正例と負例との分類精度を向上させることが可能である。

【0033】

＜具体的な適用例＞
次に、本実施形態に係る分類装置１０の具体的な適用例について、図５を参照して説明する。図５は、実施形態に係る分類装置を用いてドライバの眠気を予測した結果を示す表である。

【0034】

本実施形態に係る分類装置１０は、車両のドライバの眠気を予測する装置（具体的には、眠気がない状態か、眠気がある状態かを分類する装置）に適用することができる。

【0035】

図５において、この装置では、ドライバ１～３の心電位のＲ－Ｒ間隔から計算した７つの特徴量を使用してドライバの眠気を予測している。ここでの比較例は、本実施形態のように正例の誤分類率φを用いない装置（例えば、非特許文献１をそのまま適用した装置）を適用したものであるが、すべて覚醒状態（即ち、眠気がない状態）であると予測されてしまい、眠気を示す値を算出することができていない。一方で、本実施形態に係る分類装置１０を適用したものでは、それぞれ眠気を示す値を算出できている。また、算出された値についても、教師データあり学習の場合と大きく変わらない。このような結果から、本実施形態に係る分類装置１０は、比較例と比べて有益な効果を奏するものであることが分かる。

【0036】

また、上述した眠気を予測する装置では、その教師データとして正例（眠気がない状態を示すデータ）を収集することは容易である一方で、負例（眠気がある状態を示すデータ）を収集することが難しい。なぜなら、眠気がある状態を示すデータを収集するには、眠気があるドライバに車両を運転させることになり、安全上の問題が発生する可能性があるからである。しかしながら、本実施形態に係る分類装置１０によれば、すでに説明したように、負例を用いずに適切な分類境界を学習することができる。

【0037】

本実施形態に係る分類装置１０は、上記例のように正例が容易に取得できる一方で、負例が取得し難い状況において顕著に効果を発揮する。例えば、新規自社ユーザの継続確率を評価したいが、自社ユーザのデータ及びロイヤリティスコアしか持っていないような状況においても有用である。この場合、毎年どの程度のユーザが離脱するかが分かっていれば、本実施形態に係る分類装置１０を適用して精度よく二値分類が可能となる。

【0038】

＜付記＞
以上説明した実施形態に関して、更に以下の付記を開示する。

【0039】

（付記１）
付記１に記載の分類装置は、複数のデータを正例と負例とに分類する分類装置であって、
前記正例及び前記正例の信頼度である正信頼度に基づいて、前記正例と前記負例とを分類する境界を学習する学習手段と、補正パラメータを用いて前記正信頼度を補正する補正手段と、前記正例が誤って前記負例として分類される確率である誤分類率について、予め求めた所定値と前記境界を用いた場合の実際の値との差が小さくなるように、前記補正パラメータを更新する更新手段とを備えることを特徴とする分類装置である。

【0040】

付記１に記載の分類装置によれば、誤分類率に基づいて更新される補正パラメータによって正信頼度が補正される。よって、正信頼度に生ずるバイアス等の影響を小さくすることができ、正例と負例との境界を適切に学習することが可能となる。

【0041】

（付記２）
付記２に記載の分類装置は、前記更新手段は、クロスバリデーションを用いて前記実際の値を算出することを特徴とする付記１に記載の分類装置である。

【0042】

付記２に記載の運転装置によれば、クロスバリデーションを用いて適切に補正パラメータを更新することが可能である。

【0043】

（付記３）
付記３に記載の分類装置は、前記所定値を算出する所定値算出部を更に備えることを特徴とする付記１又は２に記載の分類装置である。

【0044】

付記３に記載の分類装置によれば、誤分類値の所定値を予め算出することが可能である。

【0045】

（付記４）
付記４に記載の分類方法は、複数のデータを正例と負例とに分類する分類方法であって、
前記正例及び前記正例の信頼度である正信頼度に基づいて、前記正例と前記負例とを分類する境界を学習する学習工程と、補正パラメータを用いて前記正信頼度を補正する補正工程と、前記正例が誤って前記負例として分類される確率である誤分類率について、予め求めた所定値と前記境界を用いた場合の実際の値との差が小さくなるように、前記補正パラメータを更新する更新工程とを含むことを特徴とする分類方法である。

【0046】

付記４に記載の分類方法によれば、付記１に記載の分類装置と同様に、正信頼度に生ずるバイアス等の影響を小さくすることができる。従って、正例と負例との境界を適切に学習することが可能となる。

【0047】

本発明は、上述した実施形態に限られるものではなく、請求の範囲及び明細書全体から読み取れる発明の要旨或いは思想に反しない範囲で適宜変更可能であり、そのような変更を伴う分類装置及び分類方法もまた本発明の技術的範囲に含まれるものである。

【符号の説明】

【0048】

１０分類装置
１００記録部
２００学習部
２１０分類器学習部
２２０パラメータ調整部
ｘデータ
ｒ正信頼度
φ 正例の誤分類率
ｇ二値分類器
ｋ補正パラメータ
Δ 二乗誤差

【図1】