特許第6918397号(P6918397)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社エイシングの特許一覧

特許6918397情報処理装置、方法、プログラム及びシステム
<>
  • 特許6918397-情報処理装置、方法、プログラム及びシステム 図000002
  • 特許6918397-情報処理装置、方法、プログラム及びシステム 図000003
  • 特許6918397-情報処理装置、方法、プログラム及びシステム 図000004
  • 特許6918397-情報処理装置、方法、プログラム及びシステム 図000005
  • 特許6918397-情報処理装置、方法、プログラム及びシステム 図000006
  • 特許6918397-情報処理装置、方法、プログラム及びシステム 図000007
  • 特許6918397-情報処理装置、方法、プログラム及びシステム 図000008
  • 特許6918397-情報処理装置、方法、プログラム及びシステム 図000009
  • 特許6918397-情報処理装置、方法、プログラム及びシステム 図000010
  • 特許6918397-情報処理装置、方法、プログラム及びシステム 図000011
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】6918397
(24)【登録日】2021年7月27日
(45)【発行日】2021年8月11日
(54)【発明の名称】情報処理装置、方法、プログラム及びシステム
(51)【国際特許分類】
   G06N 20/00 20190101AFI20210729BHJP
【FI】
   G06N20/00
【請求項の数】9
【全頁数】14
(21)【出願番号】特願2021-517713(P2021-517713)
(86)(22)【出願日】2020年11月12日
(86)【国際出願番号】JP2020042292
【審査請求日】2021年3月29日
(31)【優先権主張番号】特願2020-20833(P2020-20833)
(32)【優先日】2020年2月10日
(33)【優先権主張国】JP
【早期審査対象出願】
(73)【特許権者】
【識別番号】517045705
【氏名又は名称】株式会社エイシング
(74)【代理人】
【識別番号】100098899
【弁理士】
【氏名又は名称】飯塚 信市
(74)【代理人】
【識別番号】100163865
【弁理士】
【氏名又は名称】飯塚 健
(72)【発明者】
【氏名】出澤 純一
(72)【発明者】
【氏名】菅原 志門
【審査官】 金田 孝之
(56)【参考文献】
【文献】 特開2012−063959(JP,A)
【文献】 特開2017−010436(JP,A)
【文献】 特開2016−091166(JP,A)
【文献】 国際公開第2020/008919(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00−99/00
(57)【特許請求の範囲】
【請求項1】
分割対象データ群に基づいて機械学習に利用される木構造を生成するための情報処理装置であって、
前記木構造を構成し前記分割対象データ群を保持するノードにおいて、前記分割対象データ群から任意に選択された複数のデータに基づいてデータ分割基準候補を生成することにより、複数のデータ分割基準候補を生成する、候補生成部と、
前記複数のデータ分割基準候補に基づいて、前記分割対象データ群の分割を行い、複数のデータ分割結果を生成する、データ分割部と、
各前記データ分割結果を評価してそれぞれ評価結果を生成する、評価部と、
各前記評価結果に基づいて、前記複数のデータ分割基準候補のうちの1つをデータ分割基準として決定する、分割基準決定部と、を備え
前記データ分割基準候補は、前記分割対象データ群から任意に選択された複数のデータの平均値、又は、前記分割対象データ群から任意に選択された複数のデータの最小値と最大値の間の任意の値のいずれかである、情報処理装置。
【請求項2】
前記情報処理装置は、さらに、
前記分割対象データ群のデータ数が所定数以上である場合に、前記データ分割基準候補の生成アルゴリズムを切り替える切替信号を生成する、切替部を備える、請求項1に記載の情報処理装置。
【請求項3】
前記機械学習の手法は決定木である、請求項1に記載の情報処理装置。
【請求項4】
前記機械学習の手法は、複数の木構造を利用するアンサンブル学習である、請求項1に記載の情報処理装置。
【請求項5】
前記アンサンブル学習の手法は、木構造を利用したバギング又はブースティングのいずれか1つ若しくはその組み合わせである、請求項に記載の情報処理装置。
【請求項6】
前記アンサンブル学習の手法は、ランダムフォレストである、請求項に記載の情報処理装置。
【請求項7】
分割対象データ群に基づいて機械学習に利用される木構造を生成するための情報処理方法であって、
前記木構造を構成し前記分割対象データ群を保持するノードにおいて、前記分割対象データ群から任意に選択された複数のデータに基づいてデータ分割基準候補を生成することにより、複数のデータ分割基準候補を生成する、候補生成ステップと、
前記複数のデータ分割基準候補に基づいて、前記分割対象データ群の分割を行い、複数のデータ分割結果を生成する、データ分割ステップと、
各前記データ分割結果を評価してそれぞれ評価結果を生成する、評価ステップと、
各前記評価結果に基づいて、前記複数のデータ分割基準候補のうちの1つをデータ分割基準として決定する、分割基準決定ステップと、を備え
前記データ分割基準候補は、前記分割対象データ群から任意に選択された複数のデータの平均値、又は、前記分割対象データ群から任意に選択された複数のデータの最小値と最大値の間の任意の値のいずれかである、情報処理方法。
【請求項8】
分割対象データ群に基づいて機械学習に利用される木構造を生成するための情報処理プログラムであって、
前記木構造を構成し前記分割対象データ群を保持するノードにおいて、前記分割対象データ群から任意に選択された複数のデータに基づいてデータ分割基準候補を生成することにより、複数のデータ分割基準候補を生成する、候補生成ステップと、
前記複数のデータ分割基準候補に基づいて、前記分割対象データ群の分割を行い、複数のデータ分割結果を生成する、データ分割ステップと、
各前記データ分割結果を評価してそれぞれ評価結果を生成する、評価ステップと、
各前記評価結果に基づいて、前記複数のデータ分割基準候補のうちの1つをデータ分割基準として決定する、分割基準決定ステップと、を備え
前記データ分割基準候補は、前記分割対象データ群から任意に選択された複数のデータの平均値、又は、前記分割対象データ群から任意に選択された複数のデータの最小値と最大値の間の任意の値のいずれかである、情報処理プログラム。
【請求項9】
分割対象データ群に基づいて機械学習に利用される木構造を生成するための情報処理システムであって、
前記木構造を構成し前記分割対象データ群を保持するノードにおいて、前記分割対象データ群から任意に選択された複数のデータに基づいてデータ分割基準候補を生成することにより、複数のデータ分割基準候補を生成する、候補生成部と、
前記複数のデータ分割基準候補に基づいて、前記分割対象データ群の分割を行い、複数のデータ分割結果を生成する、データ分割部と、
各前記データ分割結果を評価してそれぞれ評価結果を生成する、評価部と、
各前記評価結果に基づいて、前記複数のデータ分割基準候補のうちの1つをデータ分割基準として決定する、分割基準決定部と、を備え
前記データ分割基準候補は、前記分割対象データ群から任意に選択された複数のデータの平均値、又は、前記分割対象データ群から任意に選択された複数のデータの最小値と最大値の間の任意の値のいずれかである、情報処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、機械学習を行う情報処理装置等、特に、木構造を利用した機械学習を行う情報処理装置等に関する。
【背景技術】
【0002】
近年、決定木やランダムフォレスト等といった木構造を利用した機械学習技術が注目されつつある。
【0003】
この種の機械学習技術において、学習済の木構造は、所定のアルゴリズムに基づいて学習対象となるデータ群を分割していくことにより形成される。すなわち、木構造は、学習対象となるデータ群を所定の分割基準決定方法に従って複数の分割基準で分割し、そのうち、所定の条件、例えば、情報利得が最大となるといった条件を満たす分割基準を選択することにより形成されていた。
【0004】
図10は、従前の決定木における学習対象データ群の分割基準の決定方法に関する説明図である。同図(a)は、学習対象データ群の各データ間の中点を分割基準候補として網羅的に探索する手法、同図(b)は、学習対象データ群を1点おきに分割基準候補として網羅的に探索する手法について示している。
【0005】
同図(a)の例にあっては、各データ間の中点を分割基準候補として分割しその結果をそれぞれ評価し、最終的に評価結果の最も良好な分割基準候補が分割基準として決定される。一方、同図(b)の例にあっては、1点おきに分割基準候補として分割しその結果をそれぞれ評価し、最終的に評価結果の最も良好な分割基準候補が分割基準として決定される。
【0006】
このように、従前の決定木においては、所定の手法で網羅的に多数回分割を行い、最適な分割基準を決定することが行われていた。
【0007】
一方、多数の木構造を利用するアンサンブル学習手法においても様々な手法で個々の木構造の分割基準が決定されていた。例えば、アンサンブル学習手法の1つであるランダムフォレストにおいては、従前、分割対象データのうちから任意(ランダム)に選択された1つのデータを基準に試行的に複数回分割を行ってその結果をそれぞれ評価し、最終的に評価結果の最も良好な分割基準候補を分割基準として決定する手法が用いられることがあった(例として、非特許文献1)。
【0008】
また、分割対象データをすべて読み出して最大・最小のデータを特定して正規化し、それらに基づき、分割基準を決定する手法が用いられることもあった。さらに、分割対象データをヒストグラム化してその代表値を分割基準として決定する手法が用いられることもあった。
【先行技術文献】
【非特許文献】
【0009】
【非特許文献1】Hemant Ishwaran、"The Effect of Splitting on Random Forests"、[online]、平成26年7月2日発行、[令和2年1月20日]、インターネット<URL:https://link.springer.com/article/10.1007/s10994−014−5451−2>
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかしながら、木構造生成のための分割基準決定アルゴリズムのうち、分割対象データ群を網羅的に参照して分割基準を探索するアルゴリズム(例として図10)や、正規化・ヒストグラム化を伴うアルゴリズムの場合等にあっては、分割対象データ群のすべて又は少なくともその大部分を参照する必要があった。そのため、その参照に伴う処理負荷から分割基準決定に時間を要し、学習速度の低下を招くおそれがあった。
【0011】
分割対象データ群のうちから任意(ランダム)に選択された1つのデータを基準に分割を行う手法によればすべてのデータの参照の必要がないことから学習負荷は小さいものの、選択されるデータへの依存性が高くなり情報利得等が小さい不適切な分割を行ってしまうおそれがあった。また、学習対象データの個数が少ない場合等にあっては、分割基準候補の多様性が失われてしまうおそれがあった。
【0012】
本発明は、上述の技術的背景の下になされたものであり、その目的とするところは、機械学習に利用される木構造の生成において学習対象データ群を分割する分割基準を高速かつ適切に決定することにある。
【0013】
本発明のさらに他の目的並びに作用効果については、明細書の以下の記述を参照することにより、当業者であれば容易に理解されるであろう。
【課題を解決するための手段】
【0014】
上述の技術的課題は、以下の構成を有する情報処理装置、方法、プログラム又はシステム等により解決することができる。
【0015】
すなわち、本発明に係る情報処理装置は、分割対象データ群に基づいて機械学習に利用される木構造を生成するための情報処理装置であって、前記木構造を構成し前記分割対象データ群を保持するノードにおいて、前記分割対象データ群から任意に選択された複数のデータに基づいてデータ分割基準候補を生成することにより、複数のデータ分割基準候補を生成する、候補生成部と、前記複数のデータ分割基準候補に基づいて、前記分割対象データ群の分割を行い、複数のデータ分割結果を生成する、データ分割部と、各前記データ分割結果を評価してそれぞれ評価結果を生成する、評価部と、各前記評価結果に基づいて、前記複数のデータ分割基準候補のうちの1つをデータ分割基準として決定する、分割基準決定部と、を備えている。
【0016】
このような構成によれば、分割対象データ群から任意に選択された複数のデータから分割基準候補を生成してデータ分割を行うので、分割対象データ群のすべてについて値を参照する必要がないので計算負荷が小さく、また、選択するデータへの依存性が低く適切な位置で分割することができる。すなわち、機械学習に利用される木構造の生成において学習対象データを適切に分割する分割基準を高速かつ適切に決定することができる。
【0017】
前記データ分割基準候補は、前記分割対象データ群から任意に選択された複数のデータの平均値であってもよい。
【0018】
前記データ分割基準候補は、前記分割対象データ群から任意に選択された複数のデータの最小値と最大値の間の任意の値であってもよい。
【0019】
前記情報処理装置は、さらに、前記分割対象データ群のデータ数が所定数以上である場合に、前記データ分割基準候補の生成アルゴリズムを切り替える切替信号を生成する、切替部を備える、ものであってもよい。
【0020】
前記機械学習の手法は決定木であってもよい。
【0021】
前記機械学習の手法は、複数の木構造を利用するアンサンブル学習であってもよい。
【0022】
前記アンサンブル学習の手法は、木構造を利用したバギング又はブースティングのいずれか1つ若しくはその組み合わせであってもよい。
【0023】
前記アンサンブル学習の手法は、ランダムフォレストであってもよい。
【0024】
また、別の側面から見た本発明は、分割対象データ群に基づいて機械学習に利用される木構造を生成するための情報処理方法であって、前記木構造を構成し前記分割対象データ群を保持するノードにおいて、前記分割対象データ群から任意に選択された複数のデータに基づいてデータ分割基準候補を生成することにより、複数のデータ分割基準候補を生成する、候補生成ステップと、前記複数のデータ分割基準候補に基づいて、前記分割対象データ群の分割を行い、複数のデータ分割結果を生成する、データ分割ステップと、各前記データ分割結果を評価してそれぞれ評価結果を生成する、評価ステップと、各前記評価結果に基づいて、前記複数のデータ分割基準候補のうちの1つをデータ分割基準として決定する、分割基準決定ステップと、を備えている。
【0025】
さらに、別の側面から見た本発明は、分割対象データ群に基づいて機械学習に利用される木構造を生成するための情報処理プログラムであって、前記木構造を構成し前記分割対象データ群を保持するノードにおいて、前記分割対象データ群から任意に選択された複数のデータに基づいてデータ分割基準候補を生成することにより、複数のデータ分割基準候補を生成する、候補生成ステップと、前記複数のデータ分割基準候補に基づいて、前記分割対象データ群の分割を行い、複数のデータ分割結果を生成する、データ分割ステップと、各前記データ分割結果を評価してそれぞれ評価結果を生成する、評価ステップと、各前記評価結果に基づいて、前記複数のデータ分割基準候補のうちの1つをデータ分割基準として決定する、分割基準決定ステップと、を備えている。
【0026】
別の側面から視た本発明は、分割対象データ群に基づいて機械学習に利用される木構造を生成するための情報処理システムであって、前記木構造を構成し前記分割対象データ群を保持するノードにおいて、前記分割対象データ群から任意に選択された複数のデータに基づいてデータ分割基準候補を生成することにより、複数のデータ分割基準候補を生成する、候補生成部と、前記複数のデータ分割基準候補に基づいて、前記分割対象データ群の分割を行い、複数のデータ分割結果を生成する、データ分割部と、各前記データ分割結果を評価してそれぞれ評価結果を生成する、評価部と、各前記評価結果に基づいて、前記複数のデータ分割基準候補のうちの1つをデータ分割基準として決定する、分割基準決定部と、を備えている。
【発明の効果】
【0027】
本発明によれば、機械学習に利用される木構造の生成において学習対象データ群を分割する分割基準を高速かつ適切に決定することができる。
【図面の簡単な説明】
【0028】
図1図1は、ハードウェア構成図である。
図2図2は、機械学習装置として機能する場合の情報処理装置の機能ブロック図である。
図3図3は、推論装置として機能する場合の情報処理装置の機能ブロック図である。
図4図4は、木構造の生成処理に関するゼネラルフローチャートである。
図5図5は、分割基準決定処理の詳細フローチャートである。
図6図6は、分割基準の算定方法に関する説明図である。
図7図7は、様々な分割対象データの分割に関する説明図である。
図8図8は、本実施形態に係る分割手法と他の分割手法との比較表である。
図9図9は、変形例に係る情報処理装置の機能ブロック図である。
図10図10は、従前の決定木における学習対象データ群の分割基準の決定方法に関する説明図である。
【発明を実施するための形態】
【0029】
以下、本発明の実施の一形態を、添付の図面を参照しつつ、詳細に説明する。
【0030】
(1.第1の実施形態)
(1.1 構成)
図1乃至図3を参照しつつ、本実施形態のハードウェア構成について説明する。
【0031】
図1は、本実施形態に係る情報処理装置100のハードウェア構成図である。同図から明らかな通り、制御部1、記憶部2、通信部3、入力部4、表示制御部5、音声出力部6及びI/O部7を備え、それらはバスを介して接続されている。
【0032】
制御部1は、CPU及びGPU等の制御装置であり、後述する様々な動作を実現するプログラムの実行処理を行う。例えば、情報処理装置100の全体制御や機械学習処理又は推定処理等を行う。記憶部2は、ROM、RAM等の揮発性又は不揮発性の記憶装置であり、学習対象となる訓練用データ群である学習対象データ群、機械学習プログラム、推定処理プログラム等を格納している。通信部3は、インターネットやLAN等を通じて外部機器と通信を行う通信チップ等である。入力部4は、キーボード、タッチパネル、ボタン等の入力部を介して入力された信号を処理するものである。表示制御部5は、ディスプレイ等と接続されて表示制御を行い、ディスプレイ等を介してユーザにGUI等を提供する。音声出力部6は、スピーカ等と接続されて音声を出力する。I/O部7は、外部装置との情報の入出力処理を行う装置である。
【0033】
図2は、機械学習装置として機能する場合の情報処理装置100の機能ブロック図である。同図から明らかな通り、この場合、情報処理装置100は、記憶部2、学習対象データ取得部11、決定木生成処理部12及び記憶処理部13とを備えている。学習対象データ取得部11は、記憶部2に記憶された学習対象データ群を読み出して取得する処理を行う。決定木生成処理部12は、機械学習に必要なパラメータ等の情報と取得した学習対象データ群に基づいて、決定木を生成する処理を行う。記憶処理部13は、生成された決定木を記憶部2へと記憶する処理を行う。
【0034】
図3は、推論装置として機能する場合の情報処理装置100の機能ブロック図である。同図から明らかな通り、この場合、情報処理装置100は、記憶部2、入力データ取得部15、推論処理部16及びデータ出力部17を備えている。入力データ取得部15は、外部から入力される、又は記憶部2から読み出される入力データを取得する。推論処理部16は、学習済の木構造及び推論に必要な情報を記憶部2から読み出し、入力データに対応する推論結果を生成する。データ出力部17は、推論結果に対応するデータを出力する処理を行う。
【0035】
なお、ハードウェア構成は本実施形態に係る構成に限定されるものではない。従って、例えば、構成や機能の一部又は全体を分散又は統合してもよい。また、例えば、複数台の情報処理装置100により分散的に処理を行っても良いし、大容量記憶装置をさらに外部に設けて情報処理装置100と接続する等してもよい。さらに、IC、特に、ASICやFPGA等を用いて回路的に実装してもよい。
【0036】
また、本実施形態は、情報処理装置100は、パーソナルコンピュータ等の装置に限定されず、例えば、工作機械といった種々の特定の機能を有する装置、複合的な機能を有する装置であってもよい。
【0037】
(1.2 動作)
次に、図4乃至図8を参照しつつ、情報処理装置100の動作について説明する。
【0038】
図4は、機械学習処理、すなわち木構造の生成処理に関するゼネラルフローチャートである。同図から明らかな通り、処理が開始すると、学習対象データ取得部11により学習対象データ群を取得する処理が行われる(S1)。取得された学習対象データ群は、決定木生成処理部17により、木構造生成処理部木構造の基端となるノード、すなわち根ノードへと紐づけられる(S2)。
【0039】
その後、決定木生成処理部17は、根ノードを参照ノードへと設定する処理を行う(S3)。その後、参照ノードが分割対象条件を満たすか否かに関する判定がなされる(S5)。なお、分割対象条件とは、例えば、木構造の深さが所定の深さとなっているか否かである。参照ノードが分割対象ノードを含む場合(S5NO)、分割対象ノードについて後述の一連の処理が行われる(S6〜S9)。参照ノードに分割対象ノードが含まれている場合、まず、分割対象となる参照ノードについて分割基準を決定する処理が行われる(S6)。
【0040】
図5は、分割基準決定処理(S6)の詳細フローチャートである。同図から明らかな通り、処理が開始すると、所定の分割基準を設定する処理が行われる(S61)。本実施形態においては、所定の分割基準として分割対象データ群から任意に選択された複数のデータの平均値が採用される。
【0041】
図6は、本実施形態に係る分割基準の算定方法に関する説明図である。同図から明らかな通り、本実施形態においては、分割対象データのうちから任意(ランダム)に選択された3点のデータの平均値を分割基準としている。
【0042】
このような構成によれば、すべての分割対象データを参照する必要がなく、そのため、その参照に伴う処理負荷が小さい。そのため、学習速度を高速なものとすることができる。また、分割対象データ群から複数点を選択して平均値をとることから、選択されるデータへの依存性が低くなる。さらに、参照データは任意に選択されるので分割対象データ群の分布に応じて選択され、すなわち、分割対象データ群の分布を考慮した分割を行うことができる。
【0043】
その後、設定した分割基準に基づいて学習対象データ群を分割する処理が行われる(S62)。分割処理が完了すると、分割基準の評価処理が行われる(S63)。この分割基準の評価処理は、既知の種々の手法により行うことが出来る。本実施形態では、例として、情報利得が大きいほど良好な分割基準であるとして評価を行う。
【0044】
この評価処理の後、過去の評価結果より良かったか、すなわち最良であったか否かが判定される(S65)。分割基準の評価が最良であった場合(S65YES)、分割基準の更新処理を行い、所定の終了条件の判定処理が行われる(S68)。これに対して、分割基準の評価が最良でなかった場合、評価結果の更新を行わず、所定の終了条件の判定処理を行う(S68)。
【0045】
本実施形態において、所定の終了条件は既定の試行回数を満たしたか否かである。すなわち、試行回数が10回であれば、10個の分割基準を試行することとなる。所定の終了条件を満たした場合、最良と判断された最新の分割基準を最終的な分割基準として決定する(S69)。一方、未だ所定の終了条件を満たしていないと判断される場合(S68NO)、異なる分割基準、すなわち、再度任意に選択された3つのデータの平均値を設定する処理が行われ(S70)、再び、一連の処理が繰り返される(S62〜S68)。
【0046】
図4に戻り、分割基準の決定処理(S6)が完了すると、設定した分割基準に基づいて、参照ノードを左右の子ノードへと分割する処理が行われる(S8)。この分割処理の後、当該子ノードをさらに参照ノードとして設定する処理が行われて(S9)、再び、参照ノードが分割対象か否かを判定する処理が行われる(S5)。このような処理が、参照ノードが分割対象ノードを含まなくなるまで(S5YES)、すなわち、参照ノードが木構造の末端へと至るまで行われて、処理は終了する。
【0047】
図7は、様々な分割対象データの分割に関する説明図である。同図(a)に示されるような一様分布の場合、任意の複数点の平均値をとる本実施形態に係る手法によれば、およそ中央付近で分割することができる可能性が高い。また、同図(b)に示される通り、分割対象に偏りがある場合であっても、点分布の特に密度が大きい部分にある点が選択されやすいため、複数点をとって平均をとっても点密度の大きい部分付近を分割することができる。さらに、同図(c)のように左右に2つの峰が存在するような分布の場合には、複数点の平均値をとると点密度の小さい中央付近を分割する可能性が高いものの、その後のステップでは結局同図(b)と同じような偏りを有する分布となるため、結局、適切に分割することができる。
【0048】
図8は、本実施形態に係る分割手法(同図(D))と他の分割手法((A)〜(C))との比較表である。分割手法(A)は、分割対象データ群からランダムに1つのデータを選択して分割基準として決定する手法、分割手法(B)は、分割対象データ群の全体を参照してその最小値と最大値を検出して正規化を行いその間の任意の値を分割基準として決定する手法、分割対象手法(C)は、分割対象データ群に基づいてヒストグラムを生成して分割基準を決定する手法である。
【0049】
同図から明らかな通り、分割点基準決定の速度、すなわち、計算負荷の小ささにおいては、分割対象データの全部を予め参照する必要のない、分割手法(A)と分割手法(D)が有利である。また、データの分布については、正規化を伴う分割手法(B)を除いてはすべて考慮することができる。さらに、分割対象データ以外の選択については、分割対象データのうちから選択を行う分割手法(A)と(C)を除いては、その可能性が認められる。このように学習対象データ以外を選択できることにより、分割基準候補とされる値の柔軟性・多様性が増大し、結果として決定木の多様性が増大する。これは特にデータ数が少ない場合に顕著である。その結果、例えば、ランダムフォレスト等のような複数の決定木を利用するアルゴリズムに好適となる。
【0050】
すなわち、本実施形態に係る手法によれば、分割対象データの分布を考慮して高速に分割基準を決定することができる。また、さらにデータ点以外の値も分割基準として考慮することができるので柔軟で多様な分割基準の生成を実現することができる。
【0051】
このような構成によれば、分割対象データ群から任意に選択された複数のデータから分割基準候補を生成してデータ分割を行うので、分割対象データ群のすべてについて値を参照する必要がないので計算負荷が小さく、また、選択するデータへの依存性が低く適切な位置で分割することができる。すなわち、機械学習に利用される木構造の生成において学習対象データを適切に分割する分割基準を高速かつ適切に決定することができる。
【0052】
また、分割対象データ群から任意に選択された複数のデータの平均値を分割基準候補とするので、選択されるデータへの異存性を低下させつつ、適切な分割基準を決定することができる。
【0053】
(2.変形例)
上述の実施形態においては、学習対象データ数に拘らず、一定の分割手法を使用したが、本発明はそのような構成に限定されない。従って、例えば、学習対象データの数に応じて分割手法を切り替えてもよい。
【0054】
図9は、変形例に係る情報処理装置200の機能ブロック図である。情報処理装置200は、第1の実施形態と略同一の機能を有する記憶部2、学習対象データ取得部21、決定木生成処理部22及び記憶出力部23に加え、さらに、切替処理部28を備えている。本変形例において、切替処理部28は、記憶部2から読み出された分割対象データの数に応じて木構造生成に使用する分割手法を切り替える。
【0055】
分割対象データの数が所定の個数以下の場合には、データ分布が必ずしも信頼することができない可能性が高いためデータ分布の影響を受けにくい分割手法が好適である。そのため、切替処理部28は、データ分布の影響を受けにくい、上述の正規化を伴う分割手法(B)を使用して木構造を生成するよう設定する。一方、分割対象データの数が所定の個数以上の場合には、データ分布が信頼できる可能性が高いためデータ分布の影響を受ける分割手法が好適である。そのため、切替処理部28は、データ分布も考慮可能な上述の分割手法(D)等を使用して木構造を生成するよう設定する。
【0056】
上述の実施形態においては、分割基準候補の生成にあたっては分割対象データ群から任意に選択された複数のデータの平均値を計算したが、本発明はこのような構成に限定されない。従って、分割基準候補の生成にあたっては分割対象データ群から任意に選択された複数のデータに対して他の分割処理を適用してもよい。
【0057】
例えば、任意に選択された複数のデータに対して、さらに、上述の実施形態において言及した分割手法(B)(正規化を伴う分割基準の決定方法)又は分割手法(D)(ヒストグラムを利用した分割基準の決定方法)を適用してもよい。このような手法によれば、選択された限定的な個数のデータに対して処理を行うので計算負荷は比較的に高いもののデータ分布の考慮等が可能な分割手法を適用することができる。すなわち、分割基準決定の速度と適切な分割とを両立することができる。
【0058】
上述の実施形態においては、単一の木構造(決定木)の生成処理及びその利用について言及したが、本発明はそのような構成に限定されない。従って、木構造の生成処理は、複数の木構造を利用したアンサンブル学習にも適用可能である。このアンサンブル学習には、例えば、木構造を利用したバギング、ブースティング等が含まれる。
【0059】
ここで、木構造を利用したバギングとは、木構造を並列的に配置し、そのすべての木構造の推論値の平均や多数決をとる手法である(例として、ランダムフォレスト等)。また、木構造を利用したブースティングとは、木構造を直列的に配置し、直前の木構造で表現しきれなかった残差を学習する手法である。なお、アンサンブル学習を行う場合、これらいくつかの手法を組み合わせてもよい。例えば、バギングの一種であるランダムフォレストを階層的に配置し、ブースティングにより残差学習させる等してもよい。
【産業上の利用可能性】
【0060】
本発明は、木構造を利用した機械学習技術を利用する種々の産業にて利用可能である。
【符号の説明】
【0061】
1 制御部
2 記憶部
3 通信部
4 入力部
5 表示制御部
6 音声出力部
7 I/O部
11 学習対象データ取得部
12 決定木生成処理部
13 記憶処理部
15 入力データ取得部
16 推論処理部
17 データ出力部
21 学習対象データ取得部
22 決定木生成処理部
23 記憶出力部
28 切替処理部
100 情報処理装置
200 情報処理装置(変形例)
【要約】
【課題】 機械学習に利用される木構造の生成において学習対象データ群を分割する分割基準を高速かつ適切に決定すること。
【解決手段】 分割対象データ群に基づいて機械学習に利用される木構造を生成するための情報処理装置であって、前記木構造を構成し前記分割対象データ群を保持するノードにおいて、前記分割対象データ群から任意に選択された複数のデータに基づいてデータ分割基準候補を生成することにより、複数のデータ分割基準候補を生成する、候補生成部と、前記複数のデータ分割基準候補に基づいて、前記分割対象データ群の分割を行い、複数のデータ分割結果を生成する、データ分割部と、各前記データ分割結果を評価してそれぞれ評価結果を生成する、評価部と、各前記評価結果に基づいて、前記複数のデータ分割基準候補のうちの1つをデータ分割基準として決定する、分割基準決定部と、を備える情報処理装置が提供される。
【選択図】図6
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10