特許7485085 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7485085情報処理装置、方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-05-08

(45)【発行日】2024-05-16

(54)【発明の名称】情報処理装置、方法及びプログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20240509BHJP

【ＦＩ】

G06N20/00 130

【請求項の数】 6

(21)【出願番号】P 2022567720

(86)(22)【出願日】2020-02-13

(65)【公表番号】

(43)【公表日】2023-03-14

(86)【国際出願番号】 JP2020006653

(87)【国際公開番号】W WO2021161547

(87)【国際公開日】2021-08-19

【審査請求日】2022-07-07

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100103894

【弁理士】

【氏名又は名称】家入健

(72)【発明者】

【氏名】アンドラーデシルバダニエルゲオルグ

(72)【発明者】

【氏名】岡嶋穣

(72)【発明者】

【氏名】定政邦彦

【審査官】児玉崇晶

(56)【参考文献】

【文献】米国特許出願公開第２０１５／０１２０６２４（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１５／０３２４４５１（ＵＳ，Ａ１）

【文献】国際公開第２０１７／０２３５３９（ＷＯ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ２０／００

(57)【特許請求の範囲】

【請求項1】

分類スコアについての閾値を決定する情報処理装置であって、
分類器を訓練するために使用されなかった評価データセットのサンプルから全ての分類スコアをソートし、クラスラベルが偽であるスコアを除去するスコアランキング構成要素と、
前記閾値を、前記スコアランキング構成要素から返された最高スコアから下げることを、現在の閾値以上のスコアを有するサンプル数が前記評価データセット内の真ラベル数のユーザ指定リコール値倍を超えるまで反復する反復構成要素と
、を備える、情報処理装置。

【請求項2】

前記スコアランキング構成要素は、ソート前の２つ以上の分類器からの全ての分類スコアを一緒にプールし、
前記反復構成要素は、１つのサンプルに対応する、異なる分類器からの全てのスコアが閾値より大きくなる回数が、前記評価データセット内の真ラベルの数のユーザ指定リコール値倍より大きくなるまで前記反復を停止する、
請求項１に記載の情報処理装置。

【請求項3】

偽陰性誤分類コストを算出する偽陰性コスト算出構成要素を更に備え、
前記偽陰性誤分類コストは、前記閾値から１を引いた値の逆数と、偽陽性誤分類コストを乗算することで結果として得られる値と、により決定される、
請求項１又は２に記載の情報処理装置。

【請求項4】

前記スコアランキング構成要素は重複スコアを除去する、
請求項１～３のいずれか一項に記載の情報処理装置。

【請求項5】

分類スコアについての閾値を決定する方法であって、
分類器を訓練するために使用されなかった評価データセットのサンプルから全ての分類スコアをソートし、クラスラベルが偽であるスコアを除去し、
前記閾値を、前記分類器を訓練するために使用されなかった評価データセットのサンプルから全ての分類スコアをソートし、クラスラベルが偽であるスコアを除去した結果から返された最高スコアから下げることを、現在の閾値以上のスコアを有するサンプル数が前記評価データセット内の真ラベル数のユーザ指定リコール値倍を超えるまで反復する、方法。

【請求項6】

分類スコアについての閾値を決定する方法をコンピュータに実行させるプログラムであって、前記方法は、
分類器を訓練するために使用されなかった評価データセットのサンプルから全ての分類スコアをソートし、クラスラベルが偽であるスコアを除去し、
前記閾値を、前記分類器を訓練するために使用されなかった評価データセットのサンプルから全ての分類スコアをソートし、クラスラベルが偽であるスコアを除去した結果から返された最高スコアから下げることを、現在の閾値以上のスコアを有するサンプル数が前記評価データセット内の真ラベル数のユーザ指定リコール値倍を超えるまで反復する、プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、分類器の予想されたリコール（recall）がユーザ規定値を超えるようにクラスラベルスコアの閾値を決定する情報処理装置、方法、及び非一時的コンピュータ可読媒体に関する。

【背景技術】

【0002】

多くの状況では、より多くの共変数を収集することで分類精度を改善することができる。しかし、共変数の一部の取得には、コストが生じる恐れがある。例として、患者が糖尿病を患っているか否かの診断を検討する。年齢及び性別などの情報(共変数：covariates)の収集にはほとんどコストがかからないが、血液測定を行うことは明らかにコストがかかる。

【0003】

一方、患者を誤って分類するコストもある。２種類の誤分類がある。まず、患者は、糖尿病に苦しんでいるが、糖尿病を患っていないと分類される場合がある。結果的に生じるコストは、偽陰性誤分類コスト（false negative misclassification cost）と呼ばれ、ｃ_１，０と示される。２番目に、患者は、糖尿病に苦しんでいないが、糖尿病を患っていると分類される場合がある。結果的に生じるコストは、偽陽性誤分類コスト（false positive misclassification cost）と呼ばれ、ｃ_０，１と示される。

【0004】

【0005】

非特許文献１に記載の方法は、総分類コスト、すなわち、共変数の収集コストプラス誤分類の予想コストを最小化するために必要なだけの多くの共変数を収集することを試みるものである。

【0006】

【0007】

【先行技術文献】

【非特許文献】

【0008】

【文献】(Andrade et al, 2019) "Efficient Bayes Risk Estimation for Cost-Sensitive Classification", Artificial Intelligence and Statistics, 2019.

【文献】(Kanao et al, 2009)"PSA CUT-OFF NOMOGRAM THAT AVOID OVER-DETECTION OF PROSTATE CANCER IN ELDERLY MEN", The Journal of Urology, 2009.

【発明の概要】

【発明が解決しようとする課題】

【0009】

ベイズの手法、特に、非特許文献１の方法は全ての誤分類コストが指定されることを必要とする。ほとんどの状況では、誤分類コストｃ_０，１を指定するのは比較的簡単である。例えば、医療分野では、糖尿病を患っていないが、糖尿病を患っていると誤って分類された健康な患者を治療するための医療費を指定するのは簡単である。

【0010】

一方、ｃ_１，０を指定するのは難しくなる。例えば、糖尿病の患者が救えたかもしれないのに亡くなってしまった場合の正確なコストをマネタイズするのは難しくなる。したがって、医療分野では、リコール（recall）を保証することを試みることが一般的である。用語「センシティブ（sensitivity）」が医療分野では「リコール」よりも一般的であるが、機械学習分野における専門用語「リコール」を本明細書では使用される場合がある。特に、リコールが９５％であることを要求するのが一般的慣行である(例えば、非特許文献２参照）。

【0011】

しかしながら、上述したように、ベイズの手法はｃ_１，０の仕様を要求し、要求されたリコールについて保証することができない。

【0012】

本開示は上記の問題を解決するために実現されたものであり、したがって、本開示の目的は、ユーザ指定リコールを確保できる分類手順の閾値を決定可能な情報処理装置等を提供することになる。

【課題を解決するための手段】

【0013】

本開示に係る情報処理装置は、
分類スコアの閾値を決定する情報処理装置であって、
分類器を訓練するために使用されなかった評価データセットのサンプルから全ての分類スコアをソートし、クラスラベルが偽であるスコアを除去するスコアランキング構成要素と、
現在の閾値以上のスコアを有するサンプル数が、前記評価データセット内の真ラベル数のユーザ指定リコール値倍を超えるまで、前記スコアランキング構成要素から返された最高スコアから前記閾値を反復する反復構成要素と、を備える、情報処理装置である。

【0014】

本開示に係る方法は、
分類スコアについての閾値を決定する方法であって、
分類器を訓練するために使用されなかった評価データセットのサンプルから全ての分類スコアをソートし、クラスラベルが偽であるスコアを除去し、
現在の閾値以上のスコアを有するサンプルの数が前記評価データセット内の真ラベルの数のユーザ指定リコール値倍を超えるまで、前記スコアランキング構成要素から返された最高スコアから前記閾値を反復する、方法である。

【0015】

本開示に係る非一時的コンピュータ可読媒体は、
分類スコアについての閾値を決定する方法をコンピュータに実行させるプログラムを格納する非一時的コンピュータ可読媒体であって、前記方法は、
分類器を訓練するために使用されなかった評価データセットのサンプルから全ての分類スコアをソートし、クラスラベルが偽であるスコアを除去し、
現在の閾値以上のスコアを有するサンプルの数が前記評価データセット内の真ラベルの数のユーザ指定リコール値倍を超えるまで、前記スコアランキング構成要素から返された最高スコアから前記閾値を反復する、非一時的コンピュータ可読媒体である。

【発明の効果】

【0016】

本開示は、予想において、分類手順のリコールが少なくともユーザ指定値ｒと同じくらい大きいことを保証する閾値ｔを決定することができる。

【図面の簡単な説明】

【0017】

【図1】本開示の第１の実施形態に係る、閾値を決定する閾値推定装置の構成図である。

【図2】図２は、１つの分類器が存在する場合の閾値決定の例を説明する図である。

【図3】図３は、１つの分類器が存在する場合の閾値決定の例を説明する図である。

【図4】図４は、本開示の第２の実施形態に係る、偽陰性誤分類コストを決定する決定装置の構成図である。

【図5】図５は、２つ以上の分類器が存在する場合の閾値決定の例を説明する図である。

【図6】図６は、２つ以上の分類器が存在する場合の閾値決定の例を説明する図である。

【図7】図７は２つ以上の分類器が存在する場合の閾値決定の例を説明する図である。

【図8】図８は、２つ以上の分類器が存在する場合の閾値決定の例を説明する図である。

【図9】図９は、２つ以上の分類器が存在する場合の閾値決定の例を説明する図である。

【図10】図１０は、２つ以上の分類器が存在する場合の閾値決定の例を説明する図である。

【図11】図１１は、推定装置及び決定装置の構成例を説明するブロック図である。

【発明を実施するための形態】

【0018】

以下に、図面を参照して本開示に係る例示的な実施形態を説明する。
説明の明瞭化のため、以下の説明及び図面は適宜省略又は簡略化される場合がある。更に、各種処理を実行する機能ブロックとして図面に示された各要素は、ハードウェアにおけるＣＰＵ（中央処理装置)、メモリ及び他の回路から形成され得、ソフトウェアにおけるメモリにロードされたプログラムによって実装され得る。したがって、当業者であれば、これらの機能ブロックは、何らの限定なく、ハードウェアのみ、ソフトウェアのみ、又はそれらの組み合わせによる様々な方法で実装され得ることを理解するであろう。図面全体を通じて、同一の構成要素は同一の参照符号を付し、適宜重複する説明を省略する。

【0019】

誤分類コストｃ_１，０の仕様を要求する代わりに、本開示はユーザ指定リコールｒ、例えば、ｒ＝９５％を利用させることができる。

【0020】

分類手順のリコールが少なくともｒであることを保証するため、本開示は、ホールドアウトデータ（＝評価データ）についての経験的推定に基づいて分類確率ｐ（ｙ＝１｜ｘ）における閾値ｔを算出する。本開示により出力された閾値ｔは少なくともｒのリコールを保証するのに必要なだけ小さい。例えば、０の閾値は、明らかに１００％のリコールになることになり、０％の精度を有することになる。

【0021】

更にまた、取得した閾値ｔ及びユーザ指定偽陽性コストｃ_０，１は、ベイズの手法の特性を使用して、偽陰性コストｃ_１，０の算出を可能にする。

【0022】

本開示の第１の実施形態に係る閾値推定装置１００のコアの構成要素を図１に示し、以下で説明する。

【0023】

モード１：１つの分類器
まず、図１を参照して、第１の実施形態に係る閾値推定装置を説明する。本実施形態に係る閾値推定装置１００は、スコアランキング構成要素１０と反復構成要素２０を備える。本実施形態は常に全ての共変数が分類のために使用される簡易設定を示す。

【0024】

【0025】

【0026】

次に、反復構成要素２０はアルゴリズム１に概説される以下のステップを実行することができる。

【0027】

アルゴリズム１：１つの分類器の場合の閾値tの決定

【0028】

アルゴリズム１によって出力される閾値tを使用すると、

で規定される分類器は、予想的に少なくともｒのリコールを有するように保証される。

【0029】

【0030】

【0031】

以上説明したように、（アルゴリズム１に対応する）反復構成要素２０は、現在の閾値以上のスコアを有するサンプルの数が前記評価データセット内の真ラベルの数のユーザ指定リコール値倍を超えるまで、スコアランキング構成要素から返された最高スコアから閾値を反復する。

【0032】

最後に図２及び図３の例を説明する。図２は真ラベル（すなわち、ｙ＝１）を有するサンプルの評価されたスコアと、真のクラスラベル（class label）が１である全サンプルの一意にソートされた確率（unique sorted probabilities）を示す。図２では、各サンプルの分類スコアは０．８，０．３，０．９，０．９である。重複（例えば、図２では０．９）を除去後、一意のソートされたスコアは、０．３，０．８，０．９である。まず、分類の閾値は、０．９（最も高い分類スコア）に設定される。ハッチングされたセルは、分類器により真（ｙ＝１）として正しく分類されたサンプルの数（例えば、図２の０．９）に対応する。したがって、正しく分類されたサンプルの数は（４つのサンプルのうち、真のクラスラベルが１である）２つである。したがって、期待リコールは０．５以上（＞＝０．５）である。

【0033】

次に、分類の閾値を０．８（すなわち、２番目に高いスコア分類スコア）まで下げて、図３は真ラベル（すなわち、ｙ＝１）を有するサンプルの評価スコア及び一意にソートされた確率を示す。ハッチングされたセルは分類器によって真（ｙ＝１）として正しく分類されたサンプルの数（例えば、図３の０．８及び０．９）に対応する。したがって、正しく分類されたサンプルの数は、（４個のサンプルのうち、真のクラスラベルが１である）３つである。したがって、期待リコールは、０．７５以上である（＞＝０．７５）。

【0034】

図３では、閾値ｔは０．９から開始し、閾値が図４の０．８になるまで下げる。ハッチングされたセルの数は、閾値がｔの場合、分類器によって真（ｙ＝１）として正しく分類されたサンプルの数に対応する。ユーザ指定リコールが０．７であると仮定する場合、手順は閾値０．８で終了する。

【0035】

【0036】

【0037】

以下では、閾値ｔ_ｉを、以下の要件を満たすように見つけることができる。

【0038】

【0039】

【0040】

【0041】

その後、反復構成要素２０は、アルゴリズム２に記載の以下のステップを実行する。
アルゴリズム２：異なる分類器の場合の閾値の決定。

【0042】

【0043】

【0044】

更にまた、閾値推定装置１００は、閾値が、リコールが予想的に少なくともｒであることを保証するのに必要なだけ大きいことを判定する。

【0045】

共通閾値の簡略化
なお、閾値推定装置１００によって実行される上記手順は、全ての閾値ｔ_ｉは同一である（ｔと示される）ことが要求される場合には、簡略化（及び高速化）される場合がある。

【0046】

【0047】

更にまた、

とし、これは、閾値ｔを仮定した場合に、サンプルｋが全ての分類器によってｙ＝１として正しく分類されているかどうかを示す。

【0048】

その後、図１に示す反復構成要素２０は、アルゴリズム３を用いて閾値ｔを決定する。

【0049】

アルゴリズム３：異なる分類器に対して共通の閾値ｔを決定する。

【0050】

最後に図５から図１０の例を説明する。図５は真ラベル（すなわち、ｙ＝１）を有するサンプルの評価スコアと、一意にソートされた確率を示す。なお、行列において、各行（ｒｏｗ）は１つの分類器のスコアに対応し、各列（ｃｏｌｕｍｎ）は１つのサンプルに対応する。第１の閾値は０．９から開始し、閾値が０．３になるまで下がる。ハッチングされた列の数は、閾値がｔの場合に、全ての分類器によって真として正しく分類されたサンプルの数に対応する。ユーザ指定リコールが０．７であると仮定する場合、手順は閾値０．３で終了する。より詳細には、まず、図５では、閾値は、（全ての分類器により返された全てのスコアのうちの）最高スコアであるｔ＝０．９に設定される。この場合には、いずれのサンプルも、全ての分類器によって真として分類されない。

【0051】

【0052】

モード３：コストセンシティブな分類の用途
最後に、アルゴリズム１及びアルゴリズム３を用いて決定された閾値ｔを使用して偽陰性コストｃ_１，０を決定することができる。偽陰性コストｃ_１，０を使用してベイズ分類器を規定する。

【0053】

偽陰性コスト決定装置２００の完成図を図４に示す。偽陰性コスト決定装置２００は、スコアランキング構成要素１０，反復構成要素２０，及び偽陰性コスト算出構成要素３０を備える。

【0054】

【0055】

したがって、偽陰性コスト決定装置２００は以下のように分類器δのリコールを得ることができる。

【0056】

図１１は推定装置及び決定装置の構成例を説明するブロック図である。図１１を照らすと、推定装置１００及び決定装置２００はネットワークインターフェース１２０１，プロセッサ１２０２及びメモリ１２０３を備える。ネットワークインターフェース１２０１はネットワークノード（リモートノード１０及びコアネットワーク４０）と通信するために使用される。ネットワークインターフェース１２０１は、例えば、例えば、ＩＥＥＥ８０２．３シリーズに準拠したネットワークインターフェースカード（ＮＩＣ）を含むことができる。

【0057】

プロセッサ１２０２は、メモリ１２０３からソフトウェア（コンピュータプログラム）を読み込み、当該ソフトウェアを実行することで、上記実施形態のシーケンス図及びフローチャートを参照して説明したセンタノード２０の処理を実行する。プロセッサ１２０２は、例えば、マイクロプロセッサ、ＭＰＵ又はＣＰＵであり得る。プロセッサ１２０２は複数のプロセッサを含むことができる。

【0058】

プロセッサ１２０２は無線通信のためのデジタルベースバンド信号処理を含むデータプレーン処理及び制御プレーン処理を実行する。例えば、ＬＴＥ及びＬＴＥ－Ａｄｖａｎｃｅｄの場合には、プロセッサ１００４のデジタルベースバンド信号処理は、ＰＤＣＰレイヤ、ＲＬＣレイヤ及びＭＡＣレイヤの信号処理を含み得る。更にまた、プロセッサ１２０２の信号処理は、Ｘ２－Ｕインターフェース及びＳ１－Ｕインターフェース内のＧＴＰ－Ｕ・ＵＤＰ／ＩＰレイヤの信号処理を含み得る。更にまた、プロセッサ１００４の制御プレーン処理は、Ｘ２ＡＰプロトコル、Ｓ１－ＭＭＥプロトコル及びＲＲＣプロトコルの処理を含み得る。

【0059】

プロセッサ１２０２は複数のプロセッサを含むことができる。例えば、プロセッサ１００４は、デジタルベースバンド信号処理を実行するモデムプロセッサ（例えば、ＤＳＰ）と、Ｘ２－Ｕインターフェース及びＳ１－Ｕインターフェース内のＧＴＰ－Ｕ・ＵＤＰ／ＩＰレイヤの信号処理を実行するプロセッサ（例えば、ＤＳＰ）と、制御プレーン処理を実行するプロトコルスタックプロセッサ（例えば、ＣＰＵ又はＭＰＵ）と、を含むことができる。

【0060】

メモリ１２０３は揮発性メモリ及び不揮発性メモリの組み合わせにより構成される。メモリ１２０３はプロセッサ１２０２から離れて配置されたストレージを含むことができる。この場合、プロセッサ１２０２は、図示しないＩ／Ｏインターフェースを介してメモリ１２０３にアクセスすることができる。

【0061】

図１１の例では、メモリ１２０３はソフトウェアモジュールグループを格納するために使用される。プロセッサ１２０２は、これらのソフトウェアモジュールグループをメモリ１２０３から読み出し、ソフトウェアモジュールグループを実行することによって上記実施形態で説明した推定装置及び決定装置の処理を実行することができる。

【0062】

上記例示的な実施形態では、プログラムは様々な種類の非一時的コンピュータ可読媒体に格納され、それにより、コンピュータに供給され得る。非一時的コンピュータ可読媒体は様々な種類の有形記憶媒体を含む。

【0063】

非一時的コンピュータ可読媒体の例は、磁気記録媒体（フレキシブルディスク、磁気テープ、及びハードディスクドライブなど）及び光磁気記録媒体（光磁気ディスクなど）を含む。

【0064】

更に、非一時的コンピュータ可読媒体の例は、ＣＤ－ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ），ＣＤ－Ｒ，及びＣＤ－Ｒ／Ｗを含む。更に、非一時的コンピュータ可読媒体の例は半導体メモリを含む。半導体メモリは、例えば、マスクＲＯＭ，ＰＲＯＭ（ＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰＲＯＭ），フラッシュＲＯＭ及びＲＡＭ（ランダムアクセスメモリ）を含む。

【0065】

これらのプログラムは、様々な種類の一時的コンピュータ可読媒体を用いてコンピュータに供給され得る。一時的コンピュータ可読媒体の例は、電気信号、光信号及び電磁波を含む。一時的コンピュータ可読媒体を使用して、有線通信回線（例えば、電線及び光ファイバ）又は無線通信回線を介してプログラムをコンピュータに供給することができる。

【0066】

なお、本開示は上記した例示的な実施形態に限定されず、本開示の趣旨及び範囲から逸脱することなく適宜修正することができる。更に、本開示を所望の例示的な実施形態を組み合わせて実施してもよい。

【0067】

例示的な実施形態を参照して本開示を上記に説明したが、本開示は上記した例示的な実施形態に限定されない。

【産業上の利用可能性】

【0068】

決定手順(分類器)のリコールを保証することは、多くのリスククリティカルなアプリケーションにとって重要である。例えば、医療分野では、リコールの最小値を要求することが一般的である。

【符号の説明】

【0069】

１０スコアランキング構成要素
２０反復構成要素
３０偽陰性コスト算出構成要素
１００閾値推定装置
２００偽陰性コスト決定装置

【図1】