(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-08
(45)【発行日】2024-04-16
(54)【発明の名称】非偏向分類のためのパラメータサイズ不変分類器を利用してデータを分類する方法およびシステム
(51)【国際特許分類】
G06N 5/04 20230101AFI20240409BHJP
G06N 20/00 20190101ALI20240409BHJP
【FI】
G06N5/04
G06N20/00
(21)【出願番号】P 2022001602
(22)【出願日】2022-01-07
【審査請求日】2022-01-07
(31)【優先権主張番号】10-2021-0009563
(32)【優先日】2021-01-22
(33)【優先権主張国・地域又は機関】KR
【前置審査】
(73)【特許権者】
【識別番号】505205812
【氏名又は名称】ネイバー コーポレーション
【氏名又は名称原語表記】NAVER Corporation
(73)【特許権者】
【識別番号】523303688
【氏名又は名称】LINE WORKS株式会社
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】チャン ホドク
(72)【発明者】
【氏名】ウィ ドンユン
【審査官】金田 孝之
(56)【参考文献】
【文献】特開平06-083798(JP,A)
【文献】米国特許出願公開第2016/0307096(US,A1)
【文献】米国特許出願公開第2019/0294929(US,A1)
【文献】特表2019-533856(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
(57)【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサを含む、コンピュータ装置のデータ分類方法であって、
前記少なくとも1つのプロセッサが、入力データの埋め込みベクトルを生成する段階、
前記少なくとも1つのプロセッサが、前記埋め込みベクトルと学習された分類器のパラメータベクトルとの内積を計算する段階、および
前記少なくとも1つのプロセッサが、前記内積の結果に前記パラメータベクトルに対するノーム(norm)を適用して、前記パラメータベクトルのサイズに対する偏向性を取り除き、前記パラメータベクトルの方向性だけを残した、ロジット(logit)を計算する段階
、
を含
み、
前記ロジットを計算する段階は、
前記内積の結果を、前記パラメータベクトルに対するノームで除算して、その後で、
-1から1の間に値を制限するようにハイパーボリックタンジェント(hyperbolic tangent)が適用されたバイアスを、付加する、
ことを特徴とする、データ分類方法。
【請求項2】
複数のコンピュータ実行可能命令を含む、コンピュータプログラムであって、
コンピュータ装置におけるプロセッサによって、命令が実行されると、
請求項
1に記載の方法を前記コンピュータ装置に実行させる、
コンピュータプログラム。
【請求項3】
コンピュータプログラムが記録されているコンピュータ読み取り可能な記録媒体であって、
コンピュータ装置によって、前記コンピュータプログラムが実行されると、
請求項
1に記載の方法を前記コンピュータ装置に実行させる、
コンピュータ読み取り可能な記録媒体。
【請求項4】
コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ、を含む、コンピュータ装置であって、
前記少なくとも1つのプロセッサは、
入力データの埋め込みベクトルを生成し、
前記埋め込みベクトルと学習された分類器のパラメータベクトルとの内積を計算し、かつ、
前記内積の結果に前記パラメータベクトルに対するノーム(norm)を適用して、前記パラメータベクトルのサイズに対する偏向性を取り除き、前記パラメータベクトルの方向性だけを残した、ロジット(logit)を計算
し、
前記ロジットを計算するために、前記少なくとも1つのプロセッサは、
前記内積の結果を、前記パラメータベクトルに対するノームで除算して、その後で、
-1から1の間に値を制限するようにハイパーボリックタンジェント(hyperbolic tangent)が適用されたバイアスを、付加する、
ことを特徴とする、コンピュータ装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、非偏向分類のためのパラメータサイズ不変分類器を利用してデータを分類する方法およびシステムに関する。
【背景技術】
【0002】
従来の人工知能およびマシンラーニング分野で広く使用されている標準分類器は、分類器のパラメータサイズが学習データセットに内在する偏向性の影響を受けるため、偏向した分類性能を有するという問題があった。例えば、入力データを複数のカテゴリのうちの1つに分類するときに、学習データの各カテゴリの量の差によって偏向性が生じるようになる。
【0003】
このような問題点を解決するために、ほぼ同量の学習データを含むカテゴリごとにグループを形成し、各グループで学習を処理する従来技術が存在する。しかし、この従来技術は、特定のタスク(detection task)だけに特化しており、他のタスク(instance segmentation taskまたはclassification task)の分類問題には適用することができないという問題を抱えている。さらに、この従来技術は、多くのハイパーパラメータの探索を要求するため、実際に適用するには多くの資源と時間を要するという問題も抱えている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
分類器のパラメータベクトルのサイズに対する偏向性を取り除くことにより、分類器の偏向性問題を解消することができる、データ分類方法およびシステムを提供する。
【課題を解決するための手段】
【0006】
少なくとも1つのプロセッサを含むコンピュータ装置のデータ分類方法であって、前記少なくとも1つのプロセッサにより、入力データの埋め込みベクトルを生成する段階、前記少なくとも1つのプロセッサにより、前記埋め込みベクトルと学習された分類器のパラメータベクトルとの内積を計算する段階、および、前記少なくとも1つのプロセッサにより、前記内積の結果に前記パラメータベクトルに対するノーム(norm)を適用して、前記パラメータベクトルのサイズに対する偏向性を取り除いたロジット(logit)を計算する段階を含む、データ分類方法を提供する。
【0007】
一つの側面によると、前記ロジットを計算する段階は、前記内積の結果を前記パラメータベクトルに対するノームで除算して、前記パラメータベクトルのサイズに対する偏向性を取り除く、ことを特徴としてよい。
【0008】
他の側面によると、前記ロジットを計算する段階は、前記ノームが適用された内積の結果にハイパーボリックタンジェント(hyperbolic tangent)が適用されたバイアスを付与する段階を含む、ことを特徴としてよい。
【0009】
前記方法をコンピュータ装置に実行させるためのコンピュータプログラムを提供する。
【0010】
前記方法をコンピュータ装置に実行させるためのプログラムが記録されている、コンピュータ読み取り可能な記録媒体を提供する。
【0011】
コンピュータ読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサにより、入力データの埋め込みベクトルを生成し、前記少なくとも1つのプロセッサにより、前記埋め込みベクトルと学習された分類器のパラメータベクトルの内積を計算し、前記少なくとも1つのプロセッサにより、前記内積の結果に前記パラメータベクトルに対するノーム(norm)を適用して、前記パラメータベクトルのサイズに対する偏向性を取り除いたロジットを計算する、ことを特徴とする、コンピュータ装置を提供する。
【発明の効果】
【0012】
分類器のパラメータベクトルのサイズに対する偏向性を取り除くことにより、分類器の偏向性の問題を解消することができる。
【図面の簡単な説明】
【0013】
【
図1】本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。
【
図2】本発明の一実施形態における、データ分類方法の例を示したフローチャートである。
【
図3】標準ロジット表現を活用した場合と、本発明の一実施形態に係るノーム-不変ロジット表現を活用した場合の性能を比べた図表である。
【
図4】標準ロジット表現を活用した場合と、本発明の一実施形態に係るノーム-不変ロジット表現を活用した場合の性能を比べた図表である。
【発明を実施するための形態】
【0014】
以下、実施形態について、添付の図面を参照しながら詳しく説明する。
【0015】
本発明の実施形態に係るデータ分類システムは、少なくとも1つのコンピュータ装置によって実現されてよく、本発明の実施形態に係るデータ分類方法は、データ分類システムに含まれる少なくとも1つのコンピュータ装置によって実行されてよい。コンピュータ装置においては、本発明の一実施形態に係るコンピュータプログラムがインストールされて実現されてよく、コンピュータ装置は、実行されたコンピュータプログラムの制御にしたがって、本発明の実施形態に係るデータ分類方法を実行してよい。上述したコンピュータプログラムは、コンピュータ装置と結合してデータ分類方法をコンピュータに実行させるために、コンピュータ読み取り可能な記録媒体に記録されてよい。
【0016】
図1は、本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。このようなコンピュータ装置100は、
図1に示すように、メモリ110、プロセッサ120、通信インタフェース130、および入力/出力インタフェース140を含んでよい。メモリ110は、コンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永続的大容量記憶装置を含んでよい。ここで、ROMやディスクドライブのような永続的大容量記憶装置は、メモリ110とは区分される別の永続的記憶装置としてコンピュータ装置100に含まれてもよい。また、メモリ110には、オペレーティングシステムと、少なくとも1つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ110とは別のコンピュータ読み取り可能な記録媒体からメモリ110にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD-ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース130を通じてメモリ110にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク160を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータ装置100のメモリ110にロードされてよい。
【0017】
プロセッサ120は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ110または通信インタフェース130によって、プロセッサ120に提供されてよい。例えば、プロセッサ120は、メモリ110のような記憶装置に記録されたプログラムコードにしたがって、受信される命令を実行するように構成されてよい。
【0018】
通信インタフェース130は、ネットワーク160を介してコンピュータ装置100が他の電子機器(一例として、上述した記憶装置)と互いに通信するための機能を提供してよい。一例として、コンピュータ装置100のプロセッサ120がメモリ110のような記憶装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース130の制御にしたがって、ネットワーク160を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク160を介してコンピュータ装置100の通信インタフェース130を通じてコンピュータ装置100に受信されてよい。通信インタフェース130を通じて受信された信号や命令、データなどは、プロセッサ120やメモリ110に伝達されてよく、ファイルなどは、コンピュータ装置100がさらに含むことのできる記録媒体(上述した永続的記憶装置)に記録されてよい。
【0019】
入力/出力インタフェース140は、入力/出力装置150とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、またはマウスなどの装置を、出力装置は、ディスプレイ、スピーカなどのような装置を含んでよい。他の例として、入力/出力インタフェース140は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置150は、コンピュータ装置100と1つの装置で構成されてもよい。
【0020】
また、他の実施形態において、コンピュータ装置100は、
図1の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータ装置100は、上述した入力/出力装置150のうちの少なくとも一部を含むように実現されてもよいし、トランシーバやデータベースなどのような他の構成要素をさらに含んでもよい。
【0021】
図2は、本発明の一実施形態における、データ分類方法の例を示したフローチャートである。本実施形態に係るデータ分類方法は、コンピュータ装置100によって実行されてよい。このとき、コンピュータ装置100のプロセッサ120は、メモリ110が含むオペレーティングシステムのコードと、少なくとも1つのコンピュータプログラムのコードとによる制御命令(instruction)を実行するように実現されてよい。ここで、プロセッサ120は、コンピュータ装置100に記録されたコードが提供する制御命令にしたがってコンピュータ装置100が
図2の方法に含まれる段階210~230を実行するようにコンピュータ装置100を制御してよい。
【0022】
段階210で、コンピュータ装置100は、入力データの埋め込みベクトルを生成してよい。一例として、入力データがイメージである場合、コンピュータ装置100は、イメージの特徴ベクトルを埋め込みベクトルとして生成してよい。
【0023】
段階220で、コンピュータ装置100は、埋め込みベクトルと学習された分類器のパラメータベクトルとの内積を計算してよい。学習データを利用して分類器を学習することは、分類器のパラメータベクトルを学習することに対応してよい。この場合、コンピュータ装置100は、各カテゴリの学習データを利用して予め学習された分類器のパラメータベクトル(または、分類器加重値ベクトル)と段階210で生成された埋め込みベクトルとの内積を計算してよい。
【0024】
段階230で、コンピュータ装置100は、内積の結果にパラメータベクトルに対するノーム(norm)を適用して、パラメータベクトルのサイズに対する偏向性を取り除いたロジット(logit、logistic probit)を計算してよい。例えば、コンピュータ装置100は、内積の結果をパラメータベクトルに対するノームで除算して、パラメータベクトルのサイズに対する偏向性を取り除いてよい。ノームは、ベクトルのサイズを意味するため、埋め込みベクトルとパラメータベクトルの内積の結果をノームで割ることによってパラメータベクトルで方向性だけが残るようになり、パラメータベクトルのサイズは取り除かれる。したがって、学習データの各カテゴリの量の差によって現れる偏向性を取り除くことができる。
【0025】
実施形態によって、コンピュータ装置100は、ノームが適用された内積の結果にハイパーボリックタンジェント(hyperbolic tangent、tanh)が適用されたバイアスを付与してよい。バイアスは、分類器のバイアスに対応してよい。
【0026】
以下では、本発明の実施形態における、データ分類方法の数学的意味について説明する。
【0027】
一般的に、分類器の標準ロジット表現は、以下の数式(1)のように表現されてよい。
【0028】
【数1】
ここで、l
iは、分類器に対するi-番目のカテゴリのロジット表現を意味してよい。また、fは、C次元を有するパラメータベクトルと埋め込みベクトルをそれぞれ意味してよい。言い換えれば、分類器の標準ロジット表現は、数学的に、分類器のパラメータベクトルと入力データから生成された埋め込みベクトルとの内積に基づいて生成されてよい。このとき、学習データの各カテゴリの量の差によって発生する偏向性が分類器のパラメータベクトルに内在することがあり、このようなパラメータベクトルを利用して生成される標準ロジット表現に反映されることがある。このような偏向性の反映は、分類器の分類性能の偏向に繋がる恐れがある。なお、b
iは、分類器のバイアスを意味してよい。
【0029】
上述したように、本発明の実施形態では、分類器のパラメータベクトルのノームを利用することで、一例として、以下の数式(2)のように、このような偏向性による問題を解決することができる。
【0030】
【0031】
【数3】
は、分類器のパラメータベクトルのノームを意味してよい。言い換えれば、分類器のパラメータベクトルと入力データの埋め込みベクトルの内積をベクトルのサイズを示すノーム(分類器のパラメータベクトルのノーム)で除算することにより、内積の結果からサイズによる偏向性を取り除くことが可能となる。追加で、分類器のバイアスにハイパーボリックタンジェント(tanh)を適用し、適用されるバイアスの値を-1から1の間の実数に制限することにより、分類器が受けるバイアスの影響を制限することができる。本明細書では、数式(2)によるロジット表現を、ノーム-不変ロジット表現(norm-invariant logit representation)と呼ぶことにする。
【0032】
図3および
図4は、標準ロジット表現を活用した場合と、本発明の一実施形態に係るノーム-不変ロジット表現を活用した場合の性能を比べた図表である。
【0033】
図3は、入力イメージ内の物体の位置を探索して物体のカテゴリを分類するタスクであるインスタンスセグメンテーションタスク(instance segmentation task)に対して、標準ロジット表現を活用した場合の性能と、本発明の一実施形態に係るノーム-不変ロジット表現を活用した場合の性能を示している。このとき、インスタンスセグメンテーションタスクでは、ボックス(bbox)とピクセルレベルのマスク(mask)で位置を表現してよい。性能テストは、LVISv0.5benchmarkのデータセットを利用して行った。
図3の表において、APは、感知正確度を測定するために広く使用される測定項目である平均精密度を示している。このとき、AP_S、AP_M、およびAP_Lは、客体の大きさ(すなわち、Small、Medium、およびLarge)に関するAPであり、AP_r、AP_c、およびAP_fは、訓練データセットのサンプル頻度(すなわち、rarecommon、frequent)に関するAPである。このとき、
図3の図表では、ノーム-不変ロジット表現が、ボックスとマスクの両方においてロー-ショット(low-shot)の場合に(一例として、AP_rおよびAP_c)、性能を大きく改善し、学習データの各カテゴリの不均衡と、これによる偏向性の問題とを効果的に解決したことが示されている。また、AP_fの場合にも、ノーム-不変ロジット表現を活用した場合の性能は、標準ロジット表現を活用した場合の性能と類似した。
【0034】
図4は、入力イメージのカテゴリを分類するクラシフィケーションタスク(classification task)に対して、標準ロジット表現を活用した場合の性能と、本発明の一実施形態に係るノーム-不変ロジット表現を活用した場合の性能を示している。性能テストは、Long-tailed CIFAR-10 benchmarkのデータセットを利用して行った。
図4の図表において、不均衡率(Imbalance ratio)が高くなるほど、訓練データセットの不均衡が高くなることを意味している。このとき、
図4の図表では、ノーム-不変ロジット表現が、ロー-ショット(low-shot)の場合に(一例として、100の不均衡率)、性能を大きく改善し、学習データの各カテゴリの不均衡とこれによる偏向性の問題を効果的に解決したことが示されている。不均衡率が低い場合(一例として、50および10の不均衡率)でも、ノーム-不変ロジット表現を活用した場合の性能は、標準ロジット表現を活用した場合の性能と類似した。
【0035】
このように、本発明の実施形態によると、分類器のパラメータベクトルのサイズに対する偏向性を取り除くことにより、分類器の偏向性の問題を解消することができる。
【0036】
上述したシステムまたは装置は、ハードウェア構成要素、またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるものとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素、および/または、複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサ、または1つのプロセッサ、および1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
【0037】
ソフトウェアは、コンピュータプログラム、コード、命令、または、これらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置、コンピュータ記録媒体、または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。
【0038】
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されて、コンピュータ読み取り可能な媒体に記録されてよい。前記コンピュータ読み取り可能な媒体は、プログラム命令、データファイル、データ構造などを単独または組み合わせて含んでよい。媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時的に記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合された形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられてよい。プログラム命令の例としては、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを使用してコンピュータによって実行される高級言語コードを含む。
【0039】
以上のように、実施形態を、限定された実施形態および図面に基づいて説明してきたが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたり、または組み合わされたり、他の構成要素または均等物によって、対置されたり置換されたとしても、適切な結果を達成することができる。
【0040】
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
【符号の説明】
【0041】
100:コンピュータ装置
110:メモリ
120:プロセッサ
130:通信インタフェース
140:入力/出力インタフェース
150:入力/出力装置
160:ネットワーク