IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

<>
  • 特許-情報処理装置、方法及びプログラム 図1
  • 特許-情報処理装置、方法及びプログラム 図2
  • 特許-情報処理装置、方法及びプログラム 図3
  • 特許-情報処理装置、方法及びプログラム 図4
  • 特許-情報処理装置、方法及びプログラム 図5
  • 特許-情報処理装置、方法及びプログラム 図6
  • 特許-情報処理装置、方法及びプログラム 図7
  • 特許-情報処理装置、方法及びプログラム 図8
  • 特許-情報処理装置、方法及びプログラム 図9
  • 特許-情報処理装置、方法及びプログラム 図10
  • 特許-情報処理装置、方法及びプログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-08
(45)【発行日】2024-05-16
(54)【発明の名称】情報処理装置、方法及びプログラム
(51)【国際特許分類】
   G06N 20/00 20190101AFI20240509BHJP
【FI】
G06N20/00 130
【請求項の数】 6
(21)【出願番号】P 2022567720
(86)(22)【出願日】2020-02-13
(65)【公表番号】
(43)【公表日】2023-03-14
(86)【国際出願番号】 JP2020006653
(87)【国際公開番号】W WO2021161547
(87)【国際公開日】2021-08-19
【審査請求日】2022-07-07
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100103894
【弁理士】
【氏名又は名称】家入 健
(72)【発明者】
【氏名】アンドラーデ シルバ ダニエル ゲオルグ
(72)【発明者】
【氏名】岡嶋 穣
(72)【発明者】
【氏名】定政 邦彦
【審査官】児玉 崇晶
(56)【参考文献】
【文献】米国特許出願公開第2015/0120624(US,A1)
【文献】米国特許出願公開第2015/0324451(US,A1)
【文献】国際公開第2017/023539(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
分類スコアについての閾値を決定する情報処理装置であって、
分類器を訓練するために使用されなかった評価データセットのサンプルから全ての分類スコアをソートし、クラスラベルが偽であるスコアを除去するスコアランキング構成要素と、
前記閾値を、前記スコアランキング構成要素から返された最高スコアから下げることを、現在の閾値以上のスコアを有するサンプル数が前記評価データセット内の真ラベル数のユーザ指定リコール値倍を超えるまで反復する反復構成要素と
、を備える、情報処理装置。
【請求項2】
前記スコアランキング構成要素は、ソート前の2つ以上の分類器からの全ての分類スコアを一緒にプールし、
前記反復構成要素は、1つのサンプルに対応する、異なる分類器からの全てのスコアが閾値より大きくなる回数が、前記評価データセット内の真ラベルの数のユーザ指定リコール値倍より大きくなるまで前記反復を停止する、
請求項1に記載の情報処理装置。
【請求項3】
偽陰性誤分類コストを算出する偽陰性コスト算出構成要素を更に備え、
前記偽陰性誤分類コストは、前記閾値から1を引いた値の逆数と、偽陽性誤分類コストを乗算することで結果として得られる値と、により決定される、
請求項1又は2に記載の情報処理装置。
【請求項4】
前記スコアランキング構成要素は重複スコアを除去する、
請求項1~3のいずれか一項に記載の情報処理装置。
【請求項5】
分類スコアについての閾値を決定する方法であって、
分類器を訓練するために使用されなかった評価データセットのサンプルから全ての分類スコアをソートし、クラスラベルが偽であるスコアを除去し、
前記閾値を、前記分類器を訓練するために使用されなかった評価データセットのサンプルから全ての分類スコアをソートし、クラスラベルが偽であるスコアを除去した結果から返された最高スコアから下げることを、現在の閾値以上のスコアを有するサンプル数が前記評価データセット内の真ラベル数のユーザ指定リコール値倍を超えるまで反復する、方法。
【請求項6】
分類スコアについての閾値を決定する方法をコンピュータに実行させるプログラムであって、前記方法は、
分類器を訓練するために使用されなかった評価データセットのサンプルから全ての分類スコアをソートし、クラスラベルが偽であるスコアを除去し、
前記閾値を、前記分類器を訓練するために使用されなかった評価データセットのサンプルから全ての分類スコアをソートし、クラスラベルが偽であるスコアを除去した結果から返された最高スコアから下げることを、現在の閾値以上のスコアを有するサンプル数が前記評価データセット内の真ラベル数のユーザ指定リコール値倍を超えるまで反復する、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、分類器の予想されたリコール(recall)がユーザ規定値を超えるようにクラスラベルスコアの閾値を決定する情報処理装置、方法、及び非一時的コンピュータ可読媒体に関する。
【背景技術】
【0002】
多くの状況では、より多くの共変数を収集することで分類精度を改善することができる。しかし、共変数の一部の取得には、コストが生じる恐れがある。例として、患者が糖尿病を患っているか否かの診断を検討する。年齢及び性別などの情報(共変数:covariates)の収集にはほとんどコストがかからないが、血液測定を行うことは明らかにコストがかかる。
【0003】
一方、患者を誤って分類するコストもある。2種類の誤分類がある。まず、患者は、糖尿病に苦しんでいるが、糖尿病を患っていないと分類される場合がある。結果的に生じるコストは、偽陰性誤分類コスト(false negative misclassification cost)と呼ばれ、c1,0と示される。2番目に、患者は、糖尿病に苦しんでいないが、糖尿病を患っていると分類される場合がある。結果的に生じるコストは、偽陽性誤分類コスト(false positive misclassification cost)と呼ばれ、c0,1と示される。
【0004】
【0005】
非特許文献1に記載の方法は、総分類コスト、すなわち、共変数の収集コストプラス誤分類の予想コストを最小化するために必要なだけの多くの共変数を収集することを試みるものである。
【0006】
【0007】
【先行技術文献】
【非特許文献】
【0008】
【文献】(Andrade et al, 2019) "Efficient Bayes Risk Estimation for Cost-Sensitive Classification", Artificial Intelligence and Statistics, 2019.
【文献】(Kanao et al, 2009)"PSA CUT-OFF NOMOGRAM THAT AVOID OVER-DETECTION OF PROSTATE CANCER IN ELDERLY MEN", The Journal of Urology, 2009.
【発明の概要】
【発明が解決しようとする課題】
【0009】
ベイズの手法、特に、非特許文献1の方法は全ての誤分類コストが指定されることを必要とする。ほとんどの状況では、誤分類コストc0,1を指定するのは比較的簡単である。例えば、医療分野では、糖尿病を患っていないが、糖尿病を患っていると誤って分類された健康な患者を治療するための医療費を指定するのは簡単である。
【0010】
一方、c1,0を指定するのは難しくなる。例えば、糖尿病の患者が救えたかもしれないのに亡くなってしまった場合の正確なコストをマネタイズするのは難しくなる。したがって、医療分野では、リコール(recall)を保証することを試みることが一般的である。用語「センシティブ(sensitivity)」が医療分野では「リコール」よりも一般的であるが、機械学習分野における専門用語「リコール」を本明細書では使用される場合がある。特に、リコールが95%であることを要求するのが一般的慣行である(例えば、非特許文献2参照)。
【0011】
しかしながら、上述したように、ベイズの手法はc1,0の仕様を要求し、要求されたリコールについて保証することができない。
【0012】
本開示は上記の問題を解決するために実現されたものであり、したがって、本開示の目的は、ユーザ指定リコールを確保できる分類手順の閾値を決定可能な情報処理装置等を提供することになる。
【課題を解決するための手段】
【0013】
本開示に係る情報処理装置は、
分類スコアの閾値を決定する情報処理装置であって、
分類器を訓練するために使用されなかった評価データセットのサンプルから全ての分類スコアをソートし、クラスラベルが偽であるスコアを除去するスコアランキング構成要素と、
現在の閾値以上のスコアを有するサンプル数が、前記評価データセット内の真ラベル数のユーザ指定リコール値倍を超えるまで、前記スコアランキング構成要素から返された最高スコアから前記閾値を反復する反復構成要素と、を備える、情報処理装置である。
【0014】
本開示に係る方法は、
分類スコアについての閾値を決定する方法であって、
分類器を訓練するために使用されなかった評価データセットのサンプルから全ての分類スコアをソートし、クラスラベルが偽であるスコアを除去し、
現在の閾値以上のスコアを有するサンプルの数が前記評価 データセット内の真ラベルの数のユーザ指定リコール値倍を超えるまで、前記スコアランキング構成要素から返された最高スコアから前記閾値を反復する、方法である。
【0015】
本開示に係る非一時的コンピュータ可読媒体は、
分類スコアについての閾値を決定する方法をコンピュータに実行させるプログラムを格納する非一時的コンピュータ可読媒体であって、前記方法は、
分類器を訓練するために使用されなかった評価データセットのサンプルから全ての分類スコアをソートし、クラスラベルが偽であるスコアを除去し、
現在の閾値以上のスコアを有するサンプルの数が前記評価データセット内の真ラベルの数のユーザ指定リコール値倍を超えるまで、前記スコアランキング構成要素から返された最高スコアから前記閾値を反復する、非一時的コンピュータ可読媒体である。
【発明の効果】
【0016】
本開示は、予想において、分類手順のリコールが少なくともユーザ指定値rと同じくらい大きいことを保証する閾値tを決定することができる。
【図面の簡単な説明】
【0017】
図1】本開示の第1の実施形態に係る、閾値を決定する閾値推定装置の構成図である。
図2図2は、1つの分類器が存在する場合の閾値決定の例を説明する図である。
図3図3は、1つの分類器が存在する場合の閾値決定の例を説明する図である。
図4図4は、本開示の第2の実施形態に係る、偽陰性誤分類コストを決定する決定装置の構成図である。
図5図5は、2つ以上の分類器が存在する場合の閾値決定の例を説明する図である。
図6図6は、2つ以上の分類器が存在する場合の閾値決定の例を説明する図である。
図7図7は2つ以上の分類器が存在する場合の閾値決定の例を説明する図である。
図8図8は、2つ以上の分類器が存在する場合の閾値決定の例を説明する図である。
図9図9は、2つ以上の分類器が存在する場合の閾値決定の例を説明する図である。
図10図10は、2つ以上の分類器が存在する場合の閾値決定の例を説明する図である。
図11図11は、推定装置及び決定装置の構成例を説明するブロック図である。
【発明を実施するための形態】
【0018】
以下に、図面を参照して本開示に係る例示的な実施形態を説明する。
説明の明瞭化のため、以下の説明及び図面は適宜省略又は簡略化される場合がある。更に、各種処理を実行する機能ブロックとして図面に示された各要素は、ハードウェアにおけるCPU(中央処理装置)、メモリ及び他の回路から形成され得、ソフトウェアにおけるメモリにロードされたプログラムによって実装され得る。したがって、当業者であれば、これらの機能ブロックは、何らの限定なく、ハードウェアのみ、ソフトウェアのみ、又はそれらの組み合わせによる様々な方法で実装され得ることを理解するであろう。図面全体を通じて、同一の構成要素は同一の参照符号を付し、適宜重複する説明を省略する。
【0019】
誤分類コストc1,0の仕様を要求する代わりに、本開示はユーザ指定リコールr、例えば、r=95%を利用させることができる。
【0020】
分類手順のリコールが少なくともrであることを保証するため、本開示は、ホールドアウトデータ(=評価データ)についての経験的推定に基づいて分類確率p(y=1|x)における閾値tを算出する。本開示により出力された閾値tは少なくともrのリコールを保証するのに必要なだけ小さい。例えば、0の閾値は、明らかに100%のリコールになることになり、0%の精度を有することになる。
【0021】
更にまた、取得した閾値t及びユーザ指定偽陽性コストc0,1は、ベイズの手法の特性を使用して、偽陰性コストc1,0の算出を可能にする。
【0022】
本開示の第1の実施形態に係る閾値推定装置100のコアの構成要素を図1に示し、以下で説明する。
【0023】
モード1:1つの分類器
まず、図1を参照して、第1の実施形態に係る閾値推定装置を説明する。本実施形態に係る閾値推定装置100は、スコアランキング構成要素10と反復構成要素20を備える。本実施形態は常に全ての共変数が分類のために使用される簡易設定を示す。
【0024】
【0025】
【0026】
次に、反復構成要素20はアルゴリズム1に概説される以下のステップを実行することができる。
【0027】
アルゴリズム1:1つの分類器の場合の閾値tの決定
【0028】
アルゴリズム1によって出力される閾値tを使用すると、
で規定される分類器は、予想的に少なくともrのリコールを有するように保証される。
【0029】
【0030】
【0031】
以上説明したように、(アルゴリズム1に対応する)反復構成要素20は、現在の閾値以上のスコアを有するサンプルの数が前記評価データセット内の真ラベルの数のユーザ指定リコール値倍を超えるまで、スコアランキング構成要素から返された最高スコアから閾値を反復する。
【0032】
最後に図2及び図3の例を説明する。図2は真ラベル(すなわち、y=1)を有するサンプルの評価されたスコアと、真のクラスラベル(class label)が1である全サンプルの一意にソートされた確率(unique sorted probabilities)を示す。図2では、各サンプルの分類スコアは0.8,0.3,0.9,0.9である。重複(例えば、図2では0.9)を除去後、一意のソートされたスコアは、0.3,0.8,0.9である。まず、分類の閾値は、0.9(最も高い分類スコア)に設定される。ハッチングされたセルは、分類器により真(y=1)として正しく分類されたサンプルの数(例えば、図2の0.9)に対応する。したがって、正しく分類されたサンプルの数は(4つのサンプルのうち、真のクラスラベルが1である)2つである。したがって、期待リコールは0.5以上(>=0.5)である。
【0033】
次に、分類の閾値を0.8(すなわち、2番目に高いスコア分類スコア)まで下げて、図3は真ラベル(すなわち、y=1)を有するサンプルの評価スコア及び一意にソートされた確率を示す。ハッチングされたセルは分類器によって真(y=1)として正しく分類されたサンプルの数(例えば、図3の0.8及び0.9)に対応する。したがって、正しく分類されたサンプルの数は、(4個のサンプルのうち、真のクラスラベルが1である)3つである。したがって、期待リコールは、0.75以上である(>=0.75)。
【0034】
図3では、閾値tは0.9から開始し、閾値が図4の0.8になるまで下げる。ハッチングされたセルの数は、閾値がtの場合、分類器によって真(y=1)として正しく分類されたサンプルの数に対応する。ユーザ指定リコールが0.7であると仮定する場合、手順は閾値0.8で終了する。
【0035】
【0036】
【0037】
以下では、閾値tを、以下の要件を満たすように見つけることができる。
【0038】
【0039】
【0040】
【0041】
その後、反復構成要素20は、アルゴリズム2に記載の以下のステップを実行する。
アルゴリズム2:異なる分類器の場合の閾値の決定。
【0042】
【0043】
【0044】
更にまた、閾値推定装置100は、閾値が、リコールが予想的に少なくともrであることを保証するのに必要なだけ大きいことを判定する。
【0045】
共通閾値の簡略化
なお、閾値推定装置100によって実行される上記手順は、全ての閾値tは同一である(tと示される)ことが要求される場合には、簡略化(及び高速化)される場合がある。
【0046】
【0047】
更にまた、
とし、これは、閾値tを仮定した場合に、サンプルkが全ての分類器によってy=1として正しく分類されているかどうかを示す。
【0048】
その後、図1に示す反復構成要素20は、アルゴリズム3を用いて閾値tを決定する。
【0049】
アルゴリズム3:異なる分類器に対して共通の閾値tを決定する。
【0050】
最後に図5から図10の例を説明する。図5は真ラベル(すなわち、y=1)を有するサンプルの評価スコアと、一意にソートされた確率を示す。なお、行列において、各行(row)は1つの分類器のスコアに対応し、各列(column)は1つのサンプルに対応する。第1の閾値は0.9から開始し、閾値が0.3になるまで下がる。ハッチングされた列の数は、閾値がtの場合に、全ての分類器によって真として正しく分類されたサンプルの数に対応する。ユーザ指定リコールが0.7であると仮定する場合、手順は閾値0.3で終了する。より詳細には、まず、図5では、閾値は、(全ての分類器により返された全てのスコアのうちの)最高スコアであるt=0.9に設定される。この場合には、いずれのサンプルも、全ての分類器によって真として分類されない。
【0051】
【0052】
モード3:コストセンシティブな分類の用途
最後に、アルゴリズム1及びアルゴリズム3を用いて決定された閾値tを使用して偽陰性コストc1,0を決定することができる。偽陰性コストc1,0を使用してベイズ分類器を規定する。
【0053】
偽陰性コスト決定装置200の完成図を図4に示す。偽陰性コスト決定装置200は、スコアランキング構成要素10,反復構成要素20,及び偽陰性コスト算出構成要素30を備える。
【0054】
【0055】
したがって、偽陰性コスト決定装置200は以下のように分類器δのリコールを得ることができる。
【0056】
図11は推定装置及び決定装置の構成例を説明するブロック図である。図11を照らすと、推定装置100及び決定装置200はネットワークインターフェース1201,プロセッサ1202及びメモリ1203を備える。ネットワークインターフェース1201はネットワークノード(リモートノード10及びコアネットワーク40)と通信するために使用される。ネットワークインターフェース1201は、例えば、例えば、IEEE802.3シリーズに準拠したネットワークインターフェースカード(NIC)を含むことができる。
【0057】
プロセッサ1202は、メモリ1203からソフトウェア(コンピュータプログラム)を読み込み、当該ソフトウェアを実行することで、上記実施形態のシーケンス図及びフローチャートを参照して説明したセンタノード20の処理を実行する。プロセッサ1202は、例えば、マイクロプロセッサ、MPU又はCPUであり得る。プロセッサ1202は複数のプロセッサを含むことができる。
【0058】
プロセッサ1202は無線通信のためのデジタルベースバンド信号処理を含むデータプレーン処理及び制御プレーン処理を実行する。例えば、LTE及びLTE-Advancedの場合には、プロセッサ1004のデジタルベースバンド信号処理は、PDCPレイヤ、RLCレイヤ及びMACレイヤの信号処理を含み得る。更にまた、プロセッサ1202の信号処理は、X2-Uインターフェース及びS1-Uインターフェース内のGTP-U・UDP/IPレイヤの信号処理を含み得る。更にまた、プロセッサ1004の制御プレーン処理は、X2APプロトコル、S1-MMEプロトコル及びRRCプロトコルの処理を含み得る。
【0059】
プロセッサ1202は複数のプロセッサを含むことができる。例えば、プロセッサ1004は、デジタルベースバンド信号処理を実行するモデムプロセッサ(例えば、DSP)と、X2-Uインターフェース及びS1-Uインターフェース内のGTP-U・UDP/IPレイヤの信号処理を実行するプロセッサ(例えば、DSP)と、制御プレーン処理を実行するプロトコルスタックプロセッサ(例えば、CPU又はMPU)と、を含むことができる。
【0060】
メモリ1203は揮発性メモリ及び不揮発性メモリの組み合わせにより構成される。メモリ1203はプロセッサ1202から離れて配置されたストレージを含むことができる。この場合、プロセッサ1202は、図示しないI/Oインターフェースを介してメモリ1203にアクセスすることができる。
【0061】
図11の例では、メモリ1203はソフトウェアモジュールグループを格納するために使用される。プロセッサ1202は、これらのソフトウェアモジュールグループをメモリ1203から読み出し、ソフトウェアモジュールグループを実行することによって上記実施形態で説明した推定装置及び決定装置の処理を実行することができる。
【0062】
上記例示的な実施形態では、プログラムは様々な種類の非一時的コンピュータ可読媒体に格納され、それにより、コンピュータに供給され得る。非一時的コンピュータ可読媒体は様々な種類の有形記憶媒体を含む。
【0063】
非一時的コンピュータ可読媒体の例は、磁気記録媒体(フレキシブルディスク、磁気テープ、及びハードディスクドライブなど)及び光磁気記録媒体(光磁気ディスクなど)を含む。
【0064】
更に、非一時的コンピュータ可読媒体の例は、CD-ROM(Read Only Memory),CD-R,及びCD-R/Wを含む。更に、非一時的コンピュータ可読媒体の例は半導体メモリを含む。半導体メモリは、例えば、マスクROM,PROM(Programmable ROM)、EPROM(Erasable PROM),フラッシュROM及びRAM(ランダムアクセスメモリ)を含む。
【0065】
これらのプログラムは、様々な種類の一時的コンピュータ可読媒体を用いてコンピュータに供給され得る。一時的コンピュータ可読媒体の例は、電気信号、光信号及び電磁波を含む。一時的コンピュータ可読媒体を使用して、有線通信回線(例えば、電線及び光ファイバ)又は無線通信回線を介してプログラムをコンピュータに供給することができる。
【0066】
なお、本開示は上記した例示的な実施形態に限定されず、本開示の趣旨及び範囲から逸脱することなく適宜修正することができる。更に、本開示を所望の例示的な実施形態を組み合わせて実施してもよい。
【0067】
例示的な実施形態を参照して本開示を上記に説明したが、本開示は上記した例示的な実施形態に限定されない。
【産業上の利用可能性】
【0068】
決定手順(分類器)のリコールを保証することは、多くのリスククリティカルなアプリケーションにとって重要である。例えば、医療分野では、リコールの最小値を要求することが一般的である。
【符号の説明】
【0069】
10 スコアランキング構成要素
20 反復構成要素
30 偽陰性コスト算出構成要素
100 閾値推定装置
200 偽陰性コスト決定装置
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11