【文献】
嶋津恵子,外1名,データベースからの知識発見システムDB−Amp,人工知能学会誌,日本,社団法人人工知能学会,2000年 7月 1日,第15巻,第4号,pp.629-637
(58)【調査した分野】(Int.Cl.,DB名)
前記1つ以上の生成されたサンプルを用いて、前記予め定義された閾値の値を調整し、最適なサンプルが生成されるまでステップ(b)から(e)までを繰り返すステップをさらに備える、請求項1に記載のプロセッサに実装された方法。
前記予め定義された閾値に基づいて前記複数の値を第1の値セットおよび第2の値セットへ区分する前記ステップは、前記複数の値からの各値と前記予め定義された閾値との比較を行うステップを備える、請求項1に記載のプロセッサに実装された方法。
前記1つ以上のハードウェアプロセッサは、前記1つ以上の生成されたサンプルを用いて、前記予め定義された閾値の値を調整し、最適なサンプルが生成されるまでステップ(b)から(e)までを繰り返すようにさら構成された、請求項6に記載のシステム。
前記複数の値は、前記複数の値からの各値と前記予め定義された閾値との比較を行うことによって前記第1の値セットおよび前記第2の値セットへ区分される、請求項6に記載のシステム。
前記命令は、前記1つ以上の生成されたサンプルを用いて、前記予め定義された閾値の値を調整し、最適なサンプルが生成されるまでステップ(b)から(e)までを繰り返すステップをさらにもたらす、請求項11に記載の1つ以上の非一時的機械可読情報記憶媒体。
前記予め定義された閾値に基づいて前記複数の値を第1の値セットおよび第2の値セットへ区分する前記ステップは、前記複数の値からの各値と前記予め定義された閾値との比較を行うステップを備える、請求項11に記載の1つ以上の非一時的機械可読情報記憶媒体。
【発明を実施するための形態】
【0014】
添付図面を参照して例示的な実施形態が記載される。図中で、参照番号の最上位桁(単数または複数)は、その参照番号が最初に現われる図を特定する。便利であればどこでも、同じかまたは同様の部分を指すために複数の図面を通じて同じ参照番号が用いられる。本明細書では開示される原理の例および特徴が記載されるが、開示される実施形態の精神および範囲から逸脱することなく修正、適合、および他の実装が可能である。以下の詳細な記載は、例示的であるに過ぎないと見做され、真の範囲および精神は、添付の特許請求の範囲によって示されることが意図される。
【0015】
現実の世界にはドメイン知識が定性的であり、数値最適化に適した形式では容易にエンコードされないいくつかの計画問題がある。例として、列車のスケジュールを作成するときにオーストラリア鉄道線路会社によって遵守されるいくつかの指針を列挙すると、(1)健全な列車が遅れていれば、その列車には他の健全な列車と同等の優先度が与えられるべきである、(2)優先度が低い方の列車の遅延が最小限に維持されるという条件で、優先度が高い方の列車は、優先度が低い方の列車より優先されるべきである、などがある。このことから明白なのは、列車が健全か、列車の優先度がどうかなどを知ることが列車のスケジューリングに資するであろうということである。しかし、優先度および列車の健全さは、コンテキストに係わらず一定であろうか。低優先度の列車に許容可能な遅延を構成する値は何であろうか。良い列車スケジュールを生成するには、列車走行時間の定量的な知識と、孤立したおよび他の列車と関連した列車に関する定性的な知識との組み合わせが必要である。本開示では、分布推定アルゴリズム(EDA)の広いカテゴリに入るヒューリスティックな探索方法が提案される。EDAは、機械構築モデルを用いて最適化問題に対するより良い解を反復的に生成する。通常、EDAは、ベイジアンネットワークのような、生成的確率モデルを用いてきた。これらのモデルは、ドメイン知識を前の分布および/またはネットワーク・トポロジーへ翻訳する必要がある。本開示では、かかる翻訳が明白ではない問題を実施形態が取り扱う。本開示の実施形態は、特にILPを扱い、ILPは、モデルを構築するときにドメイン知識を用いるための最もフレキシブルな方法のうちの1つをおそらく提供する。最近の研究は、背景知識を組み込んだILPモデルがEDA反復ごとにより質の高い解を生成できたことを示した。しかしながら、効率的なサンプリングは容易ではなく、ILPは、高レベルの特徴の発見を深層生成モデルのように効率的に利用することができない。
【0016】
最適化にはニューラル・モデルが用いられてきたが、本開示の実施形態は、ドメイン知識を必要とする最適化問題に対して、深層生成モデルのサンプリングおよび特徴発見力とILPによって取り込まれた背景知識とを組み合わせることを試みる。ILPモデルによって発見された規則ベースの特徴がトレーニング中にディープビリーフネットワーク(DBN)の上位層へ加えられる。次に、規則と適合するサンプルを生成するためのサンプリング中に特徴のサブセットがクランプされる。この結果、サンプリングが一貫して改善されて、EDAベースの最適化手順の継続的な反復に対してプラスの波及効果を及ぼす。
【0017】
本開示の実施形態は、離散最適化のために帰納論理プログラミングによって強化されたディープビリーフネットワーク・モデルをトレーニングするためのシステムおよび方法を提供する。本開示の実施形態は、ディープビリーフネットワーク(DBN)および帰納論理プログラミング(ILP)のユニークな組み合わせによって離散最適化問題を「分布推定(EDA)」アプローチを用いて解決する検討を可能にする。継続的に「より良い」許容解の構造を学習するためにDBNが用いられる一方で、ILPは、解の良さに関するドメイン・ベースの背景知識の組み込みを可能にする。最近の研究は、ILPがEDAシナリオにおいてドメイン知識を用いるための有効な方法でありうることを示した。しかしながら、純粋にILPベースのEDAでは、継続的な集団のサンプリングが非効率的かまたは簡単でないかのいずれかである。ニューロシンボリックEDAの本開示では、ILPエンジンがドメイン・ベースの背景知識を用いて良い解のためのモデルを構築するために用いられる。これらの規則は、ブール特徴としてEDAベースの最適化に用いられるDBNモデルの(最後の)隠れ層に導入される。論理的ILP特徴のこの組み込みは、トレーニングおよびDBNからのサンプリング中にいくつかの変更を必要とし、すなわち、(a)DBNモデルは、入力層のユニットならびにそれ以外の隠れ層におけるいくつかのユニットに関するデータを用いてトレーニングされる必要があり、(b)本明細書における本開示および実施形態は、論理モデルに伴うインスタンスから生成されたサンプルを引き出す。これらの実施形態は、2つの最適化問題、すなわち、キング対ルーク+キング(KRK:King−Rook and King)エンドゲームに関する最適なデプス・オブ・ウィン(depth−of−win)の予測およびジョブショップ・スケジューリングのインスタンスについて、このアプローチの実行可能性を実証する。結果は効果的かつ有望であり、すなわち、(i)分布推定の各反復の際に、ILP支援DBNを用いて得られたサンプルは、ILP特徴の無いDBNを用いて生成されたサンプルより実質的に大きい割合の良い解を有し、(ii)分布推定の終了の際に、ILP支援DBNを用いて得られたサンプルは、ILP特徴の無いDBNからのサンプルと比べてより多くの準最適な解を含む。併せて考えると、これらの結果が示唆するのは、ILPによって構築された理論の使用が、推定分布ベースの手順のために複雑なドメイン知識を深層モデル中に組み込むのに有用でありうるということである。
【0018】
次に図面、より詳しくは、複数の図にわたって対応する特徴を同様の参照文字が一貫して表す、
図1から4を参照すると、好ましい実施形態が示され、これらの実施形態が以下の例示的なシステムおよび/または方法に照らして記載される。
【0019】
図1は、本開示のある実施形態による離散最適化のために帰納論理プログラミング(ILP)によって強化されたディープビリーフネットワーク(DBN)モデルをトレーニングするためのシステム100の例示的なブロック図を示す。ある実施形態において、システム100は、1つ以上のプロセッサ104、通信インターフェース・デバイス(単数または複数)もしくは入力/出力(I/O)インターフェース(単数または複数)106、1つ以上のプロセッサ104に作動的に結合された1つ以上のデータ記憶デバイスまたはメモリ102、ならびにコントローラ108を含む。他の能力のうちでも、プロセッサ(単数または複数)は、メモリに記憶されたコンピュータ可読命令をフェッチして実行するように構成される。ある実施形態では、システム100を様々なコンピューティングシステム、例えば、ワークステーション、サーバなどに実装できる。
【0020】
I/Oインターフェース・デバイス(単数または複数)106は、様々なソフトウェアおよびハードインターフェース、例えば、ウェブインターフェース、グラフィカルユーザインターフェースなどを含むことができ、有線ネットワーク、例えば、LAN、ケーブルなど、およびWLAN 、セルラまたは衛星のような無線ネットワークを含めて、多種多様なネットワークN/Wおよびプロトコル・タイプ内で複数の通信を容易にすることができる。ある実施形態において、I/Oインターフェース・デバイス(単数または複数)は、いくつかのデバイスを互いにまたは別のサーバへ接続するための1つ以上のポートを含むことができる。
【0021】
メモリ102は、例えば、スタティックランダムアクセスメモリ(SRAM:static random access memory)およびダイナミックランダムアクセスメモリ(DRAM:dynamic random access memory)のような揮発性メモリ、および/またはリードオンリメモリ(ROM:read only memory)、消去可能プログラマブルROM、フラッシュメモリ、ハードディスク、光ディスクおよび磁気テープのような不揮発性メモリを含む、当技術分野で知られた任意のコンピュータ可読媒体を含んでもよい。ある実施形態では、システム100の1つ以上のモジュール(図示されない)をメモリ102中に記憶できる。
【0022】
図2は、
図1を参照して、本開示のある実施形態に対してシステム100を用いた、離散最適化のために帰納論理プログラミング(ILP)によって強化されたディープビリーフネットワーク(DBN)モデルをトレーニングするためのプロセッサに実装された方法の例示的なフロー図を示す。ある実施形態において、システム100は、1つ以上のハードウェアプロセッサ104に作動的に結合された1つ以上のデータ記憶デバイスまたはメモリ102を備え、1つ以上のハードウェアプロセッサ104は、方法のステップの実行のための命令を記憶するように構成される。次に、
図1に示されるシステム100の構成要素と、このフロー図とを参照して本開示の方法のステップが説明される。本開示のある実施形態において、ステップ202では、1つ以上のハードウェアプロセッサ104が(i)複数の値を備えるデータセットおよび(ii)予め定義された閾値を初期化する。複数の値および予め定義された閾値は、アプリケーション(または、ある実施形態例ではドメイン)に固有である。本開示のある実施形態において、ステップ204では、1つ以上のハードウェアプロセッサ104が予め定義された閾値に基づいて複数の値を第1の値セットおよび第2の値セットへ区分(または分割)する。本開示のある実施形態では、複数の値からの各値と予め定義された閾値との比較を行うことによって、予め定義された閾値に基づいて複数の値が第1の値セットおよび第2の値セットへ区分される。ある実施形態において、第1の値セットは、予め定義された閾値以下の値である。ある実施形態において、第2の値セットは、予め定義された閾値より大きい値である。
【0023】
本開示のある実施形態において、ステップ206では、1つ以上のハードウェアプロセッサ104が1つ以上のブール特徴を得るために、(i)帰納論理プログラミング(ILPエンジン)および(ii)データセットと関連付けられたドメイン知識を用いて、第1の値セットおよび第2の値セットの各々に関する機械学習モデルを構築する。本開示のある実施形態において、システム100は、1つ以上のブール特徴に変換された1つ以上の規則を得るために、(i)帰納論理プログラミング(ILPエンジン)および(ii)データセットと関連付けられたドメイン知識を用いて、第1の値セットおよび第2の値セットの各々に関する機械学習モデルを構築する。
【0024】
本開示のある実施形態において、ステップ208では、1つ以上のハードウェアプロセッサ104が第1の値セットおよび第2の値セットの間で最適な値セットを特定するために、データセットに加えられている1つ以上のブール特徴を用いて、ディープビリーフネットワーク(DBN)モデルをトレーニングする。本開示のある実施形態において、DBNモデルをトレーニングすると、DBNモデルが第1の値セットおよび第2の値セットの間で良いおよび良くない(または悪い)値を特定することが可能になる。本開示のある実施形態において、ILPエンジンによって得られた規則(The rule)ベースのブール特徴は、ある実施形態例では、ディープビリーフネットワーク(DBN)モデルの1つ以上の上位層に加えられる。
【0025】
本開示のある実施形態において、ステップ210では、1つ以上のハードウェアプロセッサ104が1つ以上のサンプルを生成するために、トレーニングされたDBNモデルを用いて、最適な値セットをサンプリングする。本開示のある実施形態において、1つ以上のハードウェアプロセッサ104は、1つ以上の生成されたサンプルを用いて、予め定義された閾値の値を調整し、最適なサンプルが生成されるまでステップ204から(210)までが繰り返される。
【0026】
以下は、本開示の実施形態の実装の詳細に加えて実験データである。
【0027】
分布推定アプローチ:
本開示の実施形態の目的は、目的関数F(x)を最小化することであると仮定し、ここでxは、あるインスタンス空間Xからのインスタンスであり、本アプローチは、最初に、低い方および高い方の値、すなわちF(x)≦θおよびF(x)>θのサンプルを区別するために然るべき機械学習モデルを構築し、次にこのモデルを用いて、
図2の方法の以下の説明的なステップ(EDOS手順)によって、サンプルを生成する:
1.集団を初期化する P:={x
i};θ:=θ
0
2.while not converged do
a.P中のすべてのx
iに対してF(x
i)≦θならばlabel(x
i):=1、そうでない場合はlabel(x
i):=0
b.1および0ラベルを区別するためにDBNモデルMをトレーニングする、すなわち、P(x:label(x)=1|M)>P(x:label(x)=0|M)
c.モデルMを用いた繰り返しサンプリングによってPを再生成する
d.閾値θを減少させる
3.return P
【0028】
ここではデータ分布をモデリングするため、およびMIMIC(相互情報量最大化入力クラスタリング:Mutual information maximizing input clustering)の反復ごとにサンプルを生成するために、本開示の実施形態がディープビリーフネットワーク(DBN)モデルを実装する。ディープビリーフネットワーク(DBN)モデルは、制約ボルツマン機械(RBM:Restricted Boltzman Machine)と称される複数の潜在変数モデルからなる生成モデルである。特に、提案されるより大きい最適化アルゴリズムの一部として、DBNモデルは、先の説明的なステップで概説されたように、繰り返してトレーニングされて、その後、次の反復用にサンプル集合を再初期化するために、トレーニングされたDBNモデルから最適値をサンプリングする。これを達成するために、トレーニング中に単一の2進単位(変数)がDBNモデルの最上位の隠れ層に加えられて、サンプルの値がθ未満のときにはそれに値1が割り当てられ、その値がθを上回れば値0が割り当てられる。セパレータ変数と呼ばれるこの変数は、トレーニング中に、良いおよび悪いサンプルを区別することを学習する。典型的なDBNからコントラスティヴ・ダイバージェンスを用いてサンプリングするためには、可視ユニットをあるデータポイントへクランプし、最低レベルのRBMに関して隠れユニット値をサンプリングすることから開始することになろう。これらの値が、その後、次の上位層の隠れユニットをサンプリングするためのデータとして取り扱われることになるなどである。最上位層においてギブス連鎖が実行されて、その後に可視ユニットをサンプリングしながらネットワークを下降し、最終的に元のデータ層でサンプルを得る。本開示によって参照される問題では、良いサンプルを作り出すようにネットワークをバイアスして、事前のMIMIC反復からのDBN重みを後続の反復のための初期重みとして用いられるように保存するために、セパレータ変数が追加的に1にクランプされる。この技術は、1つの反復のためのトレーニングデータが事前の反復からのサンプルを包含するので、同じデータに対して繰り返して再トレーニングすることを防止する。
【0029】
以下は、ILPエンジンがこの目的で構築されたDBNをどのように支援できるかの概要を提供する。
【0030】
帰納論理プログラミング(ILP)の分野は、論理ベースの関係学習の理論、実装およびアプリケーションを発展させる点で数年にわたって着実に進歩してきた。機械学習のこの形式の特徴は、データ、ドメイン知識およびモデルが通常−常にではないが−1次論理、すなわち論理プログラムのサブセットで表現されることである。明白なのは、1次論理のあるバリアントの使用が関係(ここでは真理値のnタプルへの割り当ての形式的な意味で用いられる)を用いるモデルの自動的な構築を可能にすることである。本開示の実施形態は、そのドメインがデータ中のインスタンスのセットである、関数(この場合もやはり、一意的に定義された関係という意味で形式的に用いられる)の特定に係わる関係学習の形式に関心を示す。一例は、既存の関係(「分子mが一緒に縮合された3つ以上のベンゼン環を有すればf(m)=1、そうでない場合はf(m)=0」、ここではベンゼン環および環の結合性のような概念が背景知識において提供される一般的な関係である)に基づくデータ解析のための新しい特徴の構築である。
【0031】
以下は、帰納論理プログラミング支援ディープビリーフネットワーク・モデルの概要である。
インスタンスXのセットから引き出されたいくつかのデータインスタンスxおよびドメイン固有の背景知識を所与として、2つのクラス(簡単にするために、良いおよび悪いと称される)を区別するモデルを構築するためにILPエンジン(モデル)が用いられると仮定する。ILPエンジンは、h
j:Class(x;good)←Cp
j(x)の形式の規則を用いて良いインスタンスのためのモデルを構築する。Cp
j:X→{0,1}は、「コンテキスト述語」を表す。コンテキスト述語は、Xの任意の要素に関してTRUE(1)またはFALSE(0)に評価されるリテラルの接続詞に対応する。意味のある特徴に対しては、Cp
jが少なくとも1つのリテラルを含むことを必要とし、論理的には、それゆえに、対応するh
jが少なくとも2つのリテラルをもつ確定節であることを必要とする。規則h
j:Class(x;good)←Cp
j(x)は、次のように1対1のマッピングを用いて特徴f
jへ変換される、すなわち、Cp
j(x)=1であればf
j(x)=1(そうでない場合は0)。この関数は、Featureと表される。従って、Feature(h
j)=f
j、Feature
−1(f
j)=(h
j)。これは、ときにはFeature(H)={f:h∈H and f=Feature(h)}およびRules(F)={h:f∈F and h=Feature
−1(f)}と呼ばれる。
【0032】
ILPエンジンにおける各規則が単一のブール特徴へこのように変換されて、モデルがブール特徴のセットをもたらす。次に、説明的なステップを参照すると(ステップ1〜3を参照)、F(x)≦θ(良い)およびF(x)>θ(良くない)を区別するためにILPモデル(単数または複数)が構築される。概念的には、ILP特徴がディープビリーフネットワーク・モデルに関する高レベルの特徴として取り扱われ、
図3に示されるように、サンプルごとにILP特徴の値が最高レベルのRBMのデータ層に加えられる。より具体的には、
図3は、
図1〜2と関連して、本開示のある実施形態による(a)セパレータ変数だけ有り(b)ILP特徴有りのDBNからのサンプリングを示す。
【0033】
論理モデルからのサンプリング:
先の研究が示唆したのは、サンプルをILP構築モデルの成功セットから引き出すことができれば、準最適解を特定する効率を著しく向上できるであろうということである。ILP支援DBNモデル(またはILP強化DBNモデル)を用いてこれを達成する直接的なアプローチは、すべてのILP特徴をクランプすることであるように思われるであろうが、その理由は、このことがネットワークからのサンプルを対応規則の成功セットの共通部分からのサンプルの方へバイアスすることになるためである(共通部分中のインスタンスが求められる成功セット内にあることが保証されるのは明白である)。しかしながら、これは、不当に制限的になり、その理由は、求められるサンプルがモデルにおけるすべての規則を満たすサンプルではなく、少なくとも1つの規則を満たすサンプルであるためである。明らかな修正は、特徴のサブセットをクランプすることであろう(would be clamp)。しかしながら、特徴のサブセットからのすべてのサンプルが適切というわけではないこともある。
【0034】
クランプされた(または加えられている)特徴のサブセットを用いると、DBNの隠れユニット(または層)のストカスティックな特質に起因して生じるさらなる複雑さが存在する。これは、論理特徴f
jに対応するDBNのユニットが、背景知識および論理規則h
jに伴わないx
iを除いて、インスタンスx
iに対して値1を有することを可能にする。
【0035】
延いては、これが意味するのは、クランプされた値をもつ特徴サブセットに対しては、サンプルを関与する対応規則の成功セットの外部から生成してもよいということである。背景知識Bを所与として、B∧H=x(すなわち、xがBおよびHに伴う)ならば、特徴Fのセットをクランプすることによって生成されるサンプル・インスタンスxは、H=Rules(F)にアラインされる。ILPによって構築された論理モデルの成功セットからのインスタンスのサンプリングをバイアスするための手順が以下に例示的なステップによって示される。
【0036】
Given:背景知識B、規則のセットH={h
1,h
2,...,h
N}l、高レベルの特徴(f
i=Feature(h
i))としてF={f
1,f
2,...,f
N}をもつDBN、およびサンプル・サイズM
【0037】
Return:B∧Hの成功セットから引き出されたサンプルのセット{x
1,x
2,...,x
M}。
1.S:=φ,k=0
2.while |k|≦N do
a.Fからサイズkの特徴のサブセットF
kをランダムに選択する
b.F
k中にXクランピング特徴の小さいサンプル・セットを生成する
c.x∈X中のサンプルごとおよび規則h
jごとに、count
k=0に設定する
i.x∈success−set、ここで(f
j(x)=1)=>(x∈success−set(B and h
j))であればcount
k=count
k+1
3.k個の特徴をクランプすることによってSを生成する、ここでcount
k=max(count
1,count
2...count
N)
4.Return S
【0038】
経験的評価
本開示における経験的評価の目的は、以下の推測を検討することである、すなわち、
1)各反復の際に、EODS手順は、ILP特徴有りの方が無しより良いサンプルをもたらす。
2)終了の際に、EODS手順は、ILP特徴有りの方が無しより多くの準最適なインスタンスをもたらす。
3)両方の手順は、初期トレーニング・セットからのランダムサンプリングよりうまく行く。
【0039】
ここで適切なのは、上記のステートメントにおいて意図された比較を明確にすることである。推測1)は、基本的に、ILP特徴を用いることによって得られる精度の増大に関するステートメントである。サンプリングを導くためにILP特徴無しで高々θのコストでインスタンスxを生成する確率をPr(F(x)≦θ)と表し、いくつかのドメイン知識Bを用いた先のEODS手順の反復kの際に得られる、ILP特徴M
k,B有りでかかるインスタンスを得る確率をPr(F(x)≦θ)|M
k,B)によって表すとしよう。M
k,B=φであれば、Pr(F(x)≦θ)|M
k,B)=Pr(F(x)≦θ))を意味することに留意されたい。次に、1)が成り立つためには、いくつかの関連するBを所与として、PrF(x)≦θ
k|M
k,B)>Pr(F(x)≦θ
k)であることが必要とされる。確率は、左辺ではモデルを用いて生成されたサンプルから推定され、右辺の確率は、提供されたデータセットから推定される。推測2)は、モデルを用いることによって得られる再現率の増大に関係するが、しかし、準最適なインスタンスの実際の数(通常の用語法では真陽率)を調べる方がより実用的である。DBNモデルのみを用いて得られた準最適の数に対する、ILP特徴有りのDBNモデルによって生成されたサンプル中の準最適の数。
【0040】
実験データ:
2つの合成データセットが用いられた。一方は、KRKチェス・エンドゲーム(ボード上にホワイトキング、ホワイトルーク、およびブラックキングだけのエンドゲーム)から生じ、他方は、制約付きであるが、それでも困難な5×5ジョブショップ・スケジューリング(各々が一度に1つのタスクだけを処理することが可能な、5つの機械上へ様々な長さの時間を要する5つのジョブをスケジュールする)から生じた。
【0041】
KRKエンドゲームについてここで調べられる最適化問題は、最適なプレイによるデプス・オブ・ウィンを予測することである。エンドゲームの態様は、「白が動く局面(White−to−move position)がイリーガルである」と予測するタスクほどILPではポピュラーでなかったが、興味深い種類の最適化問題に対するショウジョウバエ(Drosophila)として多くの利点を提供する。第1に、チェスの他のエンドゲームと同様に、KRK−winは、雑音のない完全なデータがある、複雑な可算ドメインである。第2に、すべてのデータインスタンスについて最適な「コスト」が知られている。第3に、この問題は、少なくともトーレス・イ・ケベード(Torres y Quevado)が、1910年に、KRKエンドゲームをプレイすることが可能な機械を構築して以来、チェスの専門家によって研究されてきた。これによって相当量のドメイン固有の知識がもたらされた。この問題は、最適化の形式で取り扱えば十分であり、ミニマックス最適プレイを仮定すると、コストは、ブラックが動く(Black−to−move)ことによるデプス・オブ・ウィンである。原理的に、KRKエンドゲームには64
3≒260,000の可能な局面があり、これらのすべてがリーガルというわけではない。イリーガルな局面、およびボードの対称性から生じる冗長性を除去すると、インスタンス空間のサイズが約28,000まで減少し、分布は、下の表1に示される。
【0043】
ここでのサンプリング・タスクは、デプス・オブ・ウィンが0に等しいインスタンスを生成することである。簡易なランダムサンプリングは、冗長性が除去されたときにかかるインスタンスを生成する約1/1000の確率を有する。
【0044】
ジョブショップ・スケジューリング問題は、チェスのエンドゲームより制御が不十分であるが、それでも(列車のスケジューリングのような)多くの実生活のアプリケーションを代表し、一般に、計算が難しいことが知られている。
【0045】
チェスに関するデータインスタンスは、関与する3つのピースのランクおよびファイル(XおよびY値)を表す、6タプルの形式である。RBMのために、これらが48次元の2進ベクトルとしてエンコードされ、各8ビットがピースのランクまたはファイルのワン・ホット・エンコーディングを表す。EODS手順の反復kごとに、デプス・オブ・ウィン≦θ
kのいくつかのインスタンスおよびデプス・オブ・ウィン>θ
kの残りのインスタンスを用いてILPモデルが構築され、結果として生じた特徴が上記のようにRBMモデルをトレーニングするために加えられる。
【0046】
ジョブショップに関するデータインスタンスは、スケジュールの総コストとともに機械上のタスクごとに対応付けられた開始および終了時刻を含む、スケジュールの形式である。EODS手順の反復iの際に、スケジュールのコストが≦θ
iとなるかまたはそうではないかを予測するためにモデルが構築されることになる。表2は、ジョブショップ・スケジューリングについて示す。
【0048】
上の表1および2は、コスト値の分布を示す。括弧内の数は、累積度数である。
【0049】
背景知識:
チェスに関しては、背景述語が以下をエンコードする(WKは白キング(WK denotes)、WRは白ルーク、およびBKは黒キングを表す):(a)ピース間距離WK−BK、WK−BK、WK−WR、(b)ファイルおよび距離パターン:WR−BK、WK−WR、WK−BK、(c)「アラインメント距離」:WR−BK、(d)隣接パターン:WK−WR、WK−BK、WR−BK、(e)「間」パターン:WKとBKとの間のWR、WRとBKとの間のWK、WKとWRとの間のBK、(f)最近接エッジへの距離:BK、(g)最近接コーナへの距離:BK、(h)中心への距離:WK、および(i)ピース間パターン:オポジション状態のキング、ほぼオポジション状態のキング、L状パターン。これらの概念を用いる歴史とそれらの定義とを扱う先行研究がなされてきた。デプス<=2に対して生成されるサンプル規則は、2つのキングのファイル間の距離がゼロ以上であり、これらのキングのランクが5未満の距離で分離され、白キングおよびルークのランクが3未満の距離で分離されることである。
【0050】
ジョブショップに関しては、背景述語が以下をエンコードする:(a)機械M上のジョブJ「早い」をスケジュールする(早いは、最初または2番目を意味する)、(b)機械M上のジョブJ「遅い」をスケジュールする(遅いは、最後または最後の1つ前を意味する)、(c)ジョブJは機械Mのための最も速いタスクを有する、(d)ジョブJは機械Mのための最も遅いタスクを有する、(e)ジョブJは、機械Mのための速いタスクを有する(速いは、最も速いかまたは2番目に速いことを意味する)、(f)ジョブJは機械Mのための遅いタスクを有する(遅いは、最も遅いかまたは2番目に遅いことを意味する)、(g)機械Mのための待機時間、(h)全待機時間、(i)機械上でタスクを実行する前に要する時間。正確には、(g)〜(i)のための熟語は、標準的な不等式述語≦および≧を用いて、時間に対する上限および下限をエンコードする。
【0051】
次の詳細が関連する:
チェスに関する閾値のシーケンスは、(8,4,2,0)である。ジョブショップに関しては、このシーケンスは、(900,890,880…600)である。従って、チェスではθ
*=0、ジョブショップでは600であり、これが意味するのは、チェスでは厳密に最適な解が必要なことである。
【0052】
ここで用いたILPモデル(Aleph)の使用の経験は、最も感度のよいパラメータが許容可能な節の精度に対する下限を定義するパラメータ(Alephにおけるminacc設定)であることを示唆する。minacc=0:7を用いて得られた実験結果、これがKRKデータセットを用いた前の実験に用いられた。ジョブショップに関する背景知識は、短い節による良い理論の特定を許容するのに十分強力であるようには思われない。すなわち、節当たり4リテラルまで(upto)の通常のAleph設定は、トレーニングデータの大部分を一般化されないままにしておく。それゆえに、ジョブショップに関しては、10リテラルまで(upto)の上限が許容され(allowed to)、対応する探索ノード数の10000までの増加を伴う(チェスは、これらのパラメータに4および5000のデフォルト設定を用いる)。
【0053】
EODS手順において、初期サンプルは、すべてのインスタンスにわたる一様分布を用いて得られる。これをP
oとしよう。EODSの第1の反復(k=1)の際に、P
o中のインスタンスについて(実際の)コストを計算することによりデータセットE
1+およびE
1−が得られて、ILPモデルM
1,B、または単にM
1が構築される。DBNモデルがILP特徴有りおよび無しの両方で構築される。サンプルは、CD
6を用いるか、またはギブス連鎖を6回反復して実行することによってDBNから得られる。各反復kの際に、値≦θ
kおよび>θ
kをもつインスタンスの経験的な度数分布からPr(F(x)≦θ
k)の推定値を得ることができる。本明細書における合成問題について、これらの推定値が上の表1および2中にある。Pr(F(x)≦θ)|M
k,B)に対して、P
kにおけるF(x)≦θ
kの度数を得て、用いられる。
【0054】
Pr(F(x)≦θ)|M
k,B)のPr(F(x)≦θ
k)に対する比は、ILPモデルを用いることによって得られる、非ILPモデルに優る精度の増大を計算するのと等価であることがわかるであろう。特に、この比がおよそ1であれば、ILPモデルを用いる価値はない。計算された確率は、モデルのサンプリング効率を推定する1つの方法も提供する(確率が高いほど、F(x)≦θ
kをもつインスタンスxを得るためにより少ないサンプルが必要とされるであろう)。
【0055】
結果:
それぞれチェスおよびジョブショップに関して推測1)および2)に関連する結果が下の表3、4、5および6に表示される。
【0058】
EODS手順の反復kごとに良いインスタンスxを得る確率。すなわち、列k=1は、反復1後のP(F(x)≦θ
1を表し、列k=2は、反復2後のP(F(x)≦θ
2を表すなどである。実際に、これは、F(x)≦θ
kを予測するときの精度の推定値である。モデル列における「なし」は、簡易なランダムサンプリング(M
k=φ)に対応する、インスタンスの確率を表す。
【0061】
EODSの各反復の際に生成された準最適なインスタンスF(x)≦θ
*の割合。実際に、これは、F(x)≦θ
*を予測するときの再現率(真陽性率、または感度)の推定値である。分数a/bは、b個のインスタンスが生成されることを表す。
【0062】
結果から引き出すことができる主要な結論が以下に示される、すなわち、a)両方の問題、および各閾値の値θ
kに関して、ILP誘導RBMサンプリングを用いて高々θ
kのコストでインスタンスを得る確率は、ILP無しより実質的により高い。これは、ILP誘導DBNサンプリングがDBNサンプリングのみより良いサンプルをもたらすことの証拠を与える(推測1)。
【0063】
両方の問題および各閾値θ
kに関して、ILP誘導サンプリングを用いて得られたサンプルは、DBNのみを用いて得られたサンプルより実質的に多数の準最適なインスタンスを含む(推測2)。
【0064】
加えて、本開示のある実施形態によれば、
図4A〜4Bは、ジョブショップ問題に関してILPの(a)得られた良い解の分布および(b)DBNのみに優る連鎖的な改善への累積的な効果を実証する。ILPを用いたDBNは、10回以内の反復で最適解に到達することが可能であった。より具体的には、
図4A〜4Bは、本開示のある実施形態によるジョブショップのためのEODS手順に対するILPの影響を示す(a)ILP有りおよび無しで反復1、5、10および13の際に生成された解エンドタイムの分布、(b)13回の反復にわたってILP特徴有りおよび無しで得られた累積的な準最適解。
【0065】
これらの実施形態を当業者が作製して用いることを可能にするために、文書による記載が本明細書の主題を説明する。本主題の実施形態の範囲は、請求項によって規定され、当業者が想起する他の修正を含んでもよい。かかる他の修正は、請求項の文言と異ならない同様の要素をそれらが有するか、または請求項の文言と非実質的に相違する同等の要素をそれらが含むならば、請求項の範囲内にあることが意図される。
【0066】
理解すべきは、保護の範囲がかかるプログラムへ、さらに加えてメッセージをその中に有するコンピュータ可読手段へ拡張されることであり、かかるコンピュータ可読記憶手段は、プログラムがサーバもしくはモバイルデバイスまたは任意の適切なプログラマブルデバイス上で作動するときに、方法の1つ以上のステップを実施するためのプログラムコード手段を含む。ハードウェアデバイスは、例えば、サーバもしくはパーソナルコンピュータなど、またはそれらの任意の組み合わせのような任意の種類のコンピュータを含めて、プログラムできる任意の種類のデバイスとすることができる。デバイスは、例えば、特定用途向け集積回路(ASIC:application−specific integrated circuit)、フィールドプログラマブルゲートアレイ(FPGA:field−programmable gate array)のような、例えば、ハードウェア手段、あるいは、ハードウェアおよびソフトウェア手段の組み合わせ、例えば、ASICおよびFPGA、または少なくとも1つのマイクロプロセッサおよびソフトウェア・モジュールがその中にある少なくとも1つのメモリとすることができる手段も含んでもよい。従って、これらの手段は、ハードウェア手段およびソフトウェア手段の両方を含むことができる。本明細書に記載される方法の実施形態をハードウェアおよびソフトウェアで実装できるであろう。デバイスがソフトウェア手段も含んでもよい。代わりに、例えば、複数のCPUを用いて、これらの実施形態が種々のハードウェアデバイス上に実装されてもよい。
【0067】
本明細書における実施形態は、ハードウェアおよびソフトウェア要素を備えることができる。ソフトウェアで実装される実施形態は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むがそれらには限定されない。本明細書に記載される様々なモジュールによって行われる機能が他のモジュールまたは他のモジュールの組み合わせで実装されてもよい。この記載の目的では、コンピュータで利用可能な媒体またはコンピュータ可読媒体は、命令実行システム、機器、もしくはデバイスによって、またはそれらと接続して用いるためのプログラムを備える、記憶する、通信する、伝搬するか、または輸送することができる任意の機器とすることができる。
【0068】
説明されるステップは、示される例示的な実施形態を説明するために提示され、予想すべきは、進展する技術開発が特定の機能を行う仕方を変化させるであろうということである。本明細書ではこれらの例が、限定ではなく、説明のために提示される。さらにまた、記載の便宜上、本明細書では機能的ビルディングブロックの境界が任意に定義された。指定される機能およびそれらの関係が然るべく行われる限り、代わりの境界を定義できる。(本明細書に記載されるものの等価物、拡張、変形、逸脱などを含む)選択肢は、関連技術分野(単数または複数)の当業者には本明細書に含まれる教示に基づいて明らかであろう。かかる選択肢は、開示される実施形態の範囲および精神の範囲内に入る。さらに、単語「備える(comprising)」、「有する(having)」、「含む(containing)」および「含む(including)」、ならびに他の同様の語形は、意味が同等であることが意図され、これらの単語のいずれかに続く項目(単数または複数)がかかる項目(単数または複数)の網羅的なリスティングであることを意味せず、あるいはリストされた項目(単数または複数)のみに限定されることも意味しないという点で非限定的であることが意図される。同様に留意すべきは、本明細書および添付される請求項では、文脈が明らかに別様に指示しない限り、単数形「1つの(a)」、「1つの(an)」、および「該(前記)(the)」が複数の参照を含むことである。
【0069】
そのうえ、本開示に適合する実施形態を実装するときに1つ以上のコンピュータ可読記憶媒体が利用されてもよい。コンピュータ可読記憶媒体は、プロセッサによって読むことができる情報またはデータが記憶されてもよい任意のタイプの物理メモリを指す。従って、コンピュータ可読記憶媒体は、本明細書に記載される実施形態に適合するステップまたは段階をプロセッサ(単数または複数)に行わせるための命令を含めて、1つ以上のプロセッサによる実行のための命令を記憶してもよい。用語「コンピュータ可読媒体」は、有形の品目を含み搬送波および過渡信号を除く、すなわち、非一時的であると理解すべきである。例は、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、揮発性メモリ、不揮発性メモリ、ハードドライブ、CD ROM、ブルーレイ、DVD、フラッシュドライブ、ディスクおよび任意の他の既知の物理記憶媒体を含む。
【0070】
本開示および例は、例示的であるに過ぎないと見なされることが意図され、開示される実施形態の真の範囲および精神は、添付の特許請求の範囲によって示される。