特表2024-502030 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ナチュラルコンピューテイションエルエルシーの特許一覧

特表2024-502030遺伝的プログラミングを使用する自動特徴抽出

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-01-17

(54)【発明の名称】遺伝的プログラミングを使用する自動特徴抽出

(51)【国際特許分類】

G06N 3/086 20230101AFI20240110BHJP

G06N 3/126 20230101ALI20240110BHJP

G06F 8/30 20180101ALI20240110BHJP

G06F 9/44 20180101ALI20240110BHJP

G06F 8/77 20180101ALI20240110BHJP

G06F 17/18 20060101ALI20240110BHJP

【ＦＩ】

G06N3/086

G06N3/126

G06F8/30

G06F9/44

G06F8/77

G06F17/18 D

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023539963

(86)(22)【出願日】2021-12-30

(85)【翻訳文提出日】2023-08-25

(86)【国際出願番号】 US2021065599

(87)【国際公開番号】W WO2022147190

(87)【国際公開日】2022-07-07

(31)【優先権主張番号】17/137,934

(32)【優先日】2020-12-30

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】522224449

【氏名又は名称】ナチュラルコンピューテイションエルエルシー

(74)【代理人】

【識別番号】100079108

【弁理士】

【氏名又は名称】稲葉良幸

(74)【代理人】

【識別番号】100109346

【弁理士】

【氏名又は名称】大貫敏史

(74)【代理人】

【識別番号】100117189

【弁理士】

【氏名又は名称】江口昭彦

(74)【代理人】

【識別番号】100134120

【弁理士】

【氏名又は名称】内藤和彦

(72)【発明者】

【氏名】ランダエタ，デイビッド，ジェイムズ

【テーマコード（参考）】

5B056

5B376

【Ｆターム（参考）】

5B056BB64

5B376BC31

5B376DA22

5B376DA24

5B376DA28

(57)【要約】

方法が汎用計算ビルディングブロックを進化させる。この方法は、ランダム生成プログラム、又はランダム化された標的を使用する遺伝的プログラミングインスタンスによって進化されるプログラムを用いて母集団を初期化する。この方法は、ランダム生成試験入力のリストも得る。この方法は、ランダム生成バイナリ文字列の入出力ペアを含む標的データセットを生成する。この方法は、標的データセットに基づいて各プログラムに適応度スコアを指定するために適応度関数も適用する。この方法は、遺伝的オペレータを適用し、新規性の条件を満たす子孫を選択することによってシードリストを増大させる。新規性の条件はランダム生成試験入力のリストについて固有の出力をもたらすプログラムの能力を表す。この方法は終了条件が満たされるまで反復される。終了条件は１つ又は複数の遺伝的プログラミングインスタンスを解くシードリスト内のプログラムの能力を表す。

【特許請求の範囲】

【請求項1】

汎用計算ビルディングブロックを進化させる方法であって、
（ｉ）プログラムをランダムに生成すること、又は（ｉｉ）ランダム化された標的を使用する遺伝的プログラミングインスタンスによって進化されるプログラムを使用することにより、関数を符号化する前記プログラムを用いて母集団を初期化すること、
ランダム生成試験入力のリストを得ること、
ランダム生成バイナリ文字列の初期の入出力ペアを含む標的データセットを生成すること、
前記母集団内の各プログラムに適応度スコアを指定するために適応度関数を適用することであって、前記適応度スコアは前記標的データセットの前記初期の入出力ペアとマッチする前記母集団内の個々のプログラムの能力を少なくとも表す、こと、
新規性の条件を満たす前記母集団内の前記プログラムのコピーを用いてシードリストを初期化することであって、前記新規性の条件はランダム生成試験入力の前記リストについて別個の及び固有の出力をもたらすプログラムの能力を表す、こと、
前記シードリストの終了条件が満たされているかどうかを判定することであって、前記終了条件は１つ又は複数の遺伝的プログラミングインスタンスを解く前記シードリスト内の１つ又は複数のプログラムの能力を表す、こと、
前記終了条件が満たされていないという判定に従い、
少なくとも１つの遺伝的オペレータを前記母集団に適用してプログラムの現在の子孫集団を得ることであって、前記少なくとも１つの遺伝的オペレータは、前記１つ又は複数の遺伝的プログラミングインスタンスを解くために前記母集団内のプログラムの適応度スコアに基づいて前記シードリストを増大させるために前記母集団に適用されるオペレータを含む、こと、並びに
前記終了条件が満たされるまで次のステップ、つまり
ランダム生成バイナリ文字列の新たな入出力ペアを含む新たな標的データセットを生成すること、
前記現在の子孫集団内の各プログラムに新たな適応度スコアを指定するために前記適応度関数を適用することであって、前記新たな適応度スコアは前記新たな標的データセットの前記新たな入出力ペアとマッチする前記現在の子孫集団内の個々のプログラムの能力を少なくとも表す、こと、
前記新規性の条件を満たす前記現在の子孫集団内の前記プログラムのコピーを前記シードリストに付加すること、及び
プログラムの新たな子孫集団を得るために前記現在の子孫集団に前記少なくとも１つの遺伝的オペレータを適用し、プログラムの前記新たな子孫集団を前記現在の子孫集団として設定すること
を繰り返すこと
を含む、方法。

【請求項2】

複数の問題を表す遺伝的プログラミングインスタンスの試験スイート内の集団を初期化するために前記シードリストを使用すること、及び
前記試験スイートの試験結果に基づいて前記終了条件が満たされているかどうかを判定すること
を更に含む、請求項１に記載の方法。

【請求項3】

前記少なくとも１つの遺伝的オペレータを前記現在の子孫集団に適用するとき、前記現在の子孫集団内の前記プログラムに優先して前記シードリスト内の前記プログラムをベルヌーイ分布に基づいて親として選択することを更に含み、前記シードリスト内の各プログラムは親として選択される可能性が同等である、請求項１に記載の方法。

【請求項4】

前記母集団又は前記現在の子孫集団内のプログラムが前記新規性の条件を満たすかどうかは、
前記ランダム生成試験入力に対して、前記シードリスト内の前記プログラムによって符号化される関数によって生成される出力シーケンスと異なる出力シーケンスを前記ランダム生成試験入力について生成する関数を前記プログラムが符号化しているという判定
に基づく、請求項１に記載の方法。

【請求項5】

前記シードリスト内の個々のプログラムごとに、前記ランダム生成試験入力について前記個々のプログラムによって符号化される前記関数によって生成される出力シーケンスを含む関数シグネチャを決定し記憶すること、及び
前記関数シグネチャを取得すること
を更に含み、
前記シードリスト内のプログラムによって符号化される関数と異なる関数を前記個々のプログラムが符号化するという判定が、
前記関数シグネチャと異なる出力シーケンスを前記ランダム生成試験入力について生成する前記関数を前記個々のプログラムが符号化するという判定
に更に基づく、
請求項４に記載の方法。

【請求項6】

前記終了条件が前記シードリストの少なくともサイズに依存する、請求項１に記載の方法。

【請求項7】

前記終了条件は前記シードリストが所定の増大率で増大しているかどうかという判定に少なくとも依存する、請求項１に記載の方法。

【請求項8】

前記適応度関数を適用するとき恣意的に均衡を破ることを更に含む、請求項１に記載の方法。

【請求項9】

前記シードリストを初期化し前記シードリストに付加するとき、入力を読み取らない自明な関数を符号化するプログラムを前記シードリストから破棄することを更に含む、請求項１に記載の方法。

【請求項10】

入力を読み取らない前記自明な関数を符号化する前記シードリスト内の前記プログラムを識別するために構文解析を行うことを更に含む、請求項９に記載の方法。

【請求項11】

前記シードリストを初期化し前記シードリストに付加するとき、異常なランタイム挙動を有する関数を符号化するプログラム、又は異常な資源要件を有する関数を符号化するプログラムを前記シードリストから破棄することを更に含む、請求項１に記載の方法。

【請求項12】

前記シードリスト内の所定数のプログラムを使用して遺伝的プログラミングの新たなインスタンスのための初期集団をシードすることを更に含む、請求項１に記載の方法。

【請求項13】

前記少なくとも１つの遺伝的オペレータが、選択オペレータ、突然変異オペレータ、及び交叉オペレータの１つ又は複数である、請求項１に記載の方法。

【請求項14】

前記ランダム生成試験入力の各入力及びランダム生成バイナリ文字列の前記入出力ペアの各入力が入力確率分布に基づいて生成され、前記ランダム生成バイナリ文字列の入出力ペアの各出力が出力確率分布に基づいて生成される、請求項１に記載の方法。

【請求項15】

前記入力確率分布がピクセル強度の範囲にわたるガウス分布であり、前記出力確率分布が［０．０，１．０］上のガウス分布である、請求項１４に記載の方法。

【請求項16】

前記適応度関数は同じ入力に対してビット単位で反対の出力をもたらす関数を符号化するプログラムに対して同じ適応度スコアを指定する、請求項１に記載の方法。

【請求項17】

前記適応度関数がプログラムの出力と標的データセットとの間のマッチ度を測定するために－１から１までの適応度スコアを前記プログラムに割り当て、より大きい値はより高いマッチ度を示す、請求項１に記載の方法。

【請求項18】

前記１つ又は複数の遺伝的プログラミングインスタンスが、手書き数字の部分的分類のための遺伝的プログラミングインスタンスを含み、ランダム生成バイナリ文字列の前記初期の入出力ペア及びランダム生成バイナリ文字列の前記新たな入出力ペアがＭＮＩＳＴデータベースからの画像に基づいて生成され、前記方法が２０００回の反復後に前記方法を終了することを更に含む、請求項１に記載の方法。

【請求項19】

１つ又は複数のプロセッサと、
メモリと
を含む、データ視覚表現を生成するためのコンピュータシステムであって、
前記メモリは前記１つ又は複数のプロセッサによって実行されるように構成される１つ又は複数のプログラムを記憶し、前記１つ又は複数のプログラムは
関数を符号化するランダム生成プログラムを用いて母集団を初期化すること、
ランダム生成試験入力のリストを得ること、
ランダム生成バイナリ文字列の初期の入出力ペアを含む標的データセットを生成すること、
前記母集団内の各プログラムに適応度スコアを指定するために適応度関数を適用することであって、前記適応度スコアは前記標的データセットの前記初期の入出力ペアとマッチする個々のプログラムの能力を少なくとも表す、こと、
新規性の条件を満たす前記母集団内の前記プログラムのコピーを用いてシードリストを初期化することであって、前記新規性の条件はランダム生成試験入力の前記リストについて別個の及び固有の出力をもたらすプログラムの能力を表す、こと、
前記シードリストの終了条件が満たされているかどうかを判定することであって、前記終了条件は１つ又は複数の遺伝的プログラミングインスタンスを解く前記シードリスト内の１つ又は複数のプログラムの能力を表す、こと、
前記終了条件が満たされていないという判定に従い、
少なくとも１つの遺伝的オペレータを前記母集団に適用してプログラムの現在の子孫集団を得ることであって、前記少なくとも１つの遺伝的オペレータは、前記１つ又は複数の遺伝的プログラミングインスタンスを解くために前記母集団内のプログラムの適応度スコアに基づいて前記シードリストを増大させるために前記母集団に適用されるオペレータを含む、こと、並びに
前記終了条件が満たされるまで次のステップ、つまり
ランダム生成バイナリ文字列の新たな入出力ペアを含む新たな標的データセットを生成すること、
前記現在の子孫集団内の各プログラムに新たな適応度スコアを指定するために前記適応度関数を適用することであって、前記新たな適応度スコアは前記新たな標的データセットの前記新たな入出力ペアとマッチする前記現在の子孫集団内の個々のプログラムの能力を少なくとも表す、こと、
前記新規性の条件を満たす前記現在の子孫集団内の前記プログラムのコピーを前記シードリストに付加すること、及び
プログラムの新たな子孫集団を得るために前記現在の子孫集団に前記少なくとも１つの遺伝的オペレータを適用し、プログラムの前記新たな子孫集団を前記現在の子孫集団として設定すること
を繰り返すこと
を行うための命令を含む、コンピュータシステム。

【請求項20】

ディスプレイ、１つ又は複数のプロセッサ、及びメモリを有するコンピュータシステムによって実行されるように構成される１つ又は複数のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、前記１つ又は複数のプログラムは
関数を符号化するランダム生成プログラムを用いて母集団を初期化すること、
ランダム生成試験入力のリストを得ること、
ランダム生成バイナリ文字列の初期の入出力ペアを含む標的データセットを生成すること、
前記母集団内の各プログラムに適応度スコアを指定するために適応度関数を適用することであって、前記適応度スコアは前記標的データセットの前記初期の入出力ペアとマッチする前記母集団内の個々のプログラムの能力を少なくとも表す、こと、
新規性の条件を満たす前記母集団内の前記プログラムのコピーを用いてシードリストを初期化することであって、前記新規性の条件はランダム生成試験入力の前記リストについて別個の及び固有の出力をもたらすプログラムの能力を表す、こと、
前記シードリストの終了条件が満たされているかどうかを判定することであって、前記終了条件は１つ又は複数の遺伝的プログラミングインスタンスを解く前記シードリスト内の１つ又は複数のプログラムの能力を表す、こと、
前記終了条件が満たされていないという判定に従い、
少なくとも１つの遺伝的オペレータを前記母集団に適用してプログラムの現在の子孫集団を得ることであって、前記少なくとも１つの遺伝的オペレータは、前記１つ又は複数の遺伝的プログラミングインスタンスを解くために前記母集団内のプログラムの適応度スコアに基づいて前記シードリストを増大させるために前記母集団に適用されるオペレータを含む、こと、並びに
前記終了条件が満たされるまで次のステップ、つまり
ランダム生成バイナリ文字列の新たな入出力ペアを含む新たな標的データセットを生成すること、
前記現在の子孫集団内の各プログラムに新たな適応度スコアを指定するために前記適応度関数を適用することであって、前記新たな適応度スコアは前記新たな標的データセットの前記新たな入出力ペアとマッチする前記現在の子孫集団内の個々のプログラムの能力を少なくとも表す、こと、
前記新規性の条件を満たす前記現在の子孫集団内の前記プログラムのコピーを前記シードリストに付加すること、及び
プログラムの新たな子孫集団を得るために前記現在の子孫集団に前記少なくとも１つの遺伝的オペレータを適用し、プログラムの前記新たな子孫集団を前記現在の子孫集団として設定すること
を繰り返すこと
を行うための命令を含む、非一時的コンピュータ可読記憶媒体。

【請求項21】

前記入力確率分布が、機械学習モデルのための訓練データセットに基づくサンプル空間を使用する、請求項１４に記載の方法。

【請求項22】

前記シードリストを１組の候補特徴と見なし、抽出特徴をもたらす部分集合を選択するために特徴選択技法を適用することにより前記訓練データセットの特徴を抽出することを更に含む、請求項２１に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

優先権の主張及び関連出願
[0001] 本願は、２０１９年１２月０６日に出願され「汎用計算ビルディングブロックを作成するためのプロセス（Process for Creating Generic Computational Building Blocks）」と題された米国仮特許出願第６２／９４４，４６８号の優先権を主張する、２０２０年５月１２日に出願され「汎用ビルディングブロックを作成するために遺伝的プログラミングを使用すること（Using Genetic Programming to Create Generic Building Blocks）」と題された米国特許出願第１６／７６３，２６８号の一部継続出願である、２０２０年１２月３０日に出願され「汎用ビルディングブロックを作成するために遺伝的プログラミングを使用すること（Using Genetic Programming to Create Generic Building Blocks）」と題された米国特許出願第１７／１３７，９３４号の優先権を主張し、それらのそれぞれは参照によりその全体を本明細書に援用する。

【0002】

技術分野
[0002] 本開示は遺伝的プログラミングシステムに関し、具体的には遺伝的プログラミングを使用する自動特徴抽出のためのシステム、方法、及び装置に関する。

【背景技術】

【0003】

背景
[0003] 機械学習では、特徴抽出は情報コンテンツを保ちながら冗長性を除去する測定データの変換を発見するプロセスである。変換済みデータ要素は元データの所謂特徴である。入力次元としても知られる入力データセットを記述するのに必要な要素の数を減らすことにより、特徴抽出は複雑さを減らし、未知のデータを予測するためにモデルを構築すること等の機械学習におけるその後のステップの有効度を高める。遺伝的プログラミング（ＧＰ）を使用する自動特徴抽出のための従来の方法は、教師なし学習に使用できず、任意の複雑さの特徴をもたらすことができず、及び／又は特徴をプログラミング言語で表すことができない。

【発明の概要】

【課題を解決するための手段】

【0004】

概要
[0004] 従って、遺伝的プログラミングを使用する自動特徴抽出のための新たな手法が求められている。本明細書に記載する技法は特徴を説明可能にする利点を有し、それは特徴が人間可読コンピュータプログラムによって記述されるからであり、ＧＰを使用する過去のかかる方法と異なり、本技法は教師なし学習及び教師あり学習の両方に適している。機械学習モデルのための訓練データセットを所与とし、本明細書に記載する技法による方法は汎用ビルディングブロックを作成することによって訓練データセットの特徴を抽出する。本方法がランダム生成入力を必要とするたびに、ランダムビット列を生成するのではなく、本方法は訓練データセットから入力をランダムに選択する。本方法は、シードリストを１組の候補特徴と見なし、抽出特徴をもたらす部分集合を選択するために特徴選択技法を適用することにより訓練データセットの特徴も抽出する。任意の更なる修正は、集団をランダムに初期化するのではなく過去に作成された汎用ビルディングブロックを使用して母集団を初期化する。

【0005】

[0005] 添付の特許請求の範囲内のシステム、方法、及び装置の様々な実装形態が幾つかの側面をそれぞれ有し、そのどれも本明細書に記載する所望の特質に単独で関与するわけではない。添付の特許請求の範囲を制限することなしに、一部の顕著な特徴を記載する。この解説を検討した後、及びとりわけ「詳細な説明」と題した節を読んだ後、様々な実装形態の特徴が遺伝的プログラミングを使用する自動特徴抽出にどのように使用されるのかが理解される。

【0006】

図面の簡単な説明
[0006] 本開示をより詳細に理解できるように、その一部を添付図面に示す様々な実装形態の特徴に関してより具体的な説明を行うことができる。但し、添付図面は本開示のより顕著な特徴を示すに過ぎず、従って限定的と見なすべきではなく、この説明は他の効果的な特徴を認める場合がある。

【図面の簡単な説明】

【0007】

【図1】[0007]一部の実施形態による、遺伝的プログラミングインスタンスをシードするための汎用ビルディングブロックを作成するために遺伝的プログラミングを使用するためのシステムのブロック図である。

【図2】[0008]一部の実施形態による、遺伝的プログラミングインスタンスをシードするための汎用ビルディングブロックを作成するために遺伝的プログラミングを使用するための方法の流れ図である。

【図3】[0009]一部の実施形態による、幾つかの試行にわたるランクに対する産出変数（product variable）のグラフプロットを示す。

【図4】[0010]一部の実施形態による、降順のランクに対する対立遺伝子１の最終頻度のグラフプロットを示す。

【発明を実施するための形態】

【0008】

[0011] 慣行に従って図示の様々な特徴を縮尺通りに描いていない場合がある。従って明瞭にするために様々な特徴の寸法を恣意的に拡大又は縮小する場合がある。加えて、図面の一部は所与のシステム、方法、又は装置のコンポーネントの全てを描いていない場合がある。最後に、本明細書及び図面の全体を通して同様の特徴を示すために同様の参照番号を使用する。

【0009】

詳細な説明
[0012] 本明細書に記載の様々な実装形態は、遺伝的プログラミングインスタンスをシードするための汎用計算ビルディングブロックを作成するために遺伝的プログラミングを使用するシステム、方法、及び／又は装置を含む。

【0010】

[0013] 添付図面に示す実装例の完全な理解を与えるために多数の詳細を本明細書に記載する。但し、本発明は特定の詳細の多くがなくても実践することができる。本明細書に記載する実装形態のより関係がある側面を無駄に不明瞭にしないために、よく知られている方法、コンポーネント、及び回路は網羅的な詳細さでは記載していない。

【0011】

[0014] 図１は、遺伝的プログラミングを使用して汎用計算ビルディングブロックを作成するためのシステム１００の図である。一定の具体的特徴を示すが、簡潔にするために、及び本明細書で開示する実装例のより関係がある側面を不明瞭にしないために他の様々な特徴が示されていないことを当業者なら本開示から理解されよう。

【0012】

[0015] ＧＰシステムは様々なやり方で実装することができるが、典型的にはプログラミング言語の選択、親プログラムを子プログラムに再結合するための１組の遺伝的オペレータ、解くための標的問題、及び所与のプログラムが標的問題をどの程度上手く解くのかを決定する適応度関数を規定する。典型的には、プログラム集団がランダム生成コードによって初期化され、何らかの適応度の閾値を上回るプログラムを得ること等の何らかの終了基準が満たされるまでその後のステップが繰り返される：
１．適応度関数を適用して集団内のプログラムごとにスコアをもたらす。
２．ルーレット盤選択等の確率論的方法を使用してプログラムをそのスコアに従って選択する。
３．被選択プログラムに遺伝的オペレータを適用して新たな集団をもたらす。

【0013】

[0016] 再び図１を参照し、サーバ１０２は典型的には１つ又は複数のプロセッサ、メモリ１０４、電源、入力／出力（Ｉ／Ｏ）サブシステム、及びそれらのコンポーネントを相互接続するための通信バスを含む。プロセッサはメモリ１０４内に記憶されるモジュール、プログラム、及び／又は命令を実行し、それにより一部の実施形態による本明細書に記載の方法を含む処理操作を実行する。一部の実施形態では、サーバ１０２が視覚表現（例えばスナップショット又はプログラム）を表示するためのディスプレイも含む。

【0014】

[0017] 一部の実施形態では、メモリ１０４が１つ又は複数のプログラム（例えば命令の組）及び／又はデータ構造を記憶する。一部の実装形態では、メモリ１０４又はメモリ１０４の非一時的コンピュータ可読記憶媒体が以下のプログラム、モジュール、及びデータ構造、又はその部分集合若しくは拡張集合を記憶する：
・オペレーティングシステム
・以下を含む汎用ビルディングブロック生成モジュール１２０：
○一部の実施形態に従ってその例を以下に記載する適応度関数（２）１２２
○（以下に記載の）プログラム１０６の集団の世代を進化させるために使用される典型的なオペレータ（例えば選択、突然変異、交叉）を含む汎用オペレータ１２４、及び
○（以下に記載の）標的データセット１１２を生成する標的データセット生成１２６
・以下を含む特徴抽出モジュール１６０：
○入力データセット１６２。一部の実施形態では（例えば以下の使用事例の例について記載する節の中で説明するように）特徴抽出モジュール１６０が入力データセットを正規化する、及び
○遺伝的プログラミングモジュール１２０によって計算される特徴候補から特徴を選択する特徴選択モジュール１６４。一部の実施形態によれば、モジュール１６４は入力データセット１６２のために選択される特徴を記憶する、及び
・以下を含むデータ構造１５０：
○自己完結型プログラム（例えば選択されたプログラミング言語の規則に従うプログラム）であるプログラム又はプログラム断片（例えばコードスニペット）を含むプログラム１０６の集団
○任意で（以下に記載の）関数シグネチャ１０８
○以下に記載の遺伝的プログラミングインスタンスをシードするために使用される、汎用ビルディングブロック生成モジュール１２０の出力である）シードリスト１１０、及び
○以下に記載の標的データセット１１２

【0015】

[0018] 上記で識別したモジュール（例えばデータ構造及び／又は命令の組を含むプログラム）は、別個のソフトウェアプログラム、手続き、又はモジュールとして実装する必要はなく、従って様々な実装形態においてこれらのモジュールの様々な部分集合を組み合わせ或いは再構成することができる。一部の実施形態では、メモリ１０４が上記で識別したモジュールの部分集合を記憶する。

【0016】

[0019] 一部の実施形態では、データベース１３０（例えばローカルデータベース及び／又はリモートデータベース）が、上記で識別した１つ又は複数のモジュール及びモジュールに関連するデータを記憶する。更に、メモリ１０４は上記で記載していない追加のモジュールを記憶し得る。データベース１３０は、プログラム１０６、関数シグネチャ１０８、シードリスト１１０、及び／又は標的データセット１１２のスナップショットを記憶する。一部の実施形態では、メモリ１０４又はメモリ１０４の非一時的コンピュータ可読記憶媒体内に記憶されるモジュールが、以下に記載する方法の中の個々の操作を実装するための命令を提供する。一部の実施形態では、これらのモジュールの一部又は全てが、モジュールの機能の一部又は全てを包含する専用ハードウェア回路を用いて実装され得る。上記で識別した要素の１つ又は複数が１つ又は複数のプロセッサによって実行され得る。

【0017】

[0020] 一部の実施形態は、有線及び／又は無線接続によるローカル及び／又は広域通信ネットワーク（例えばインターネット）を介してサーバ１０２をクライアント装置、データベース１３０等の１つ又は複数の装置に通信可能に結合するＩ／Ｏサブシステムを含む。一部の実施形態は、システムコンポーネント間の通信を相互接続し制御する回路（チップセットと呼ばれることもある）を任意で含む通信バスを含む。

【0018】

[0021] シードリスト１１０内のプログラム及び／又はデータベース１３０内に記憶されるスナップショットは、遺伝的プログラミングインスタンス１４０をシードし及び／又は試験するために使用される。遺伝的プログラミングインスタンス１４０の例は、（以下に記載の）手書きテキストの画像処理又は認識を含む。一部の実施形態では、シードリスト１１０が終了条件を満たすかどうかを判定するために使用される遺伝的プログラミングインスタンスをインスタンス１４０が記憶する（その例を以下に記載する）。

【0019】

汎用ビルディングブロックを作成するために遺伝的プログラミングを使用するための方法の例
[0022] 一部の実施形態によれば、或る方法は遺伝的プログラミングインスタンスをシードするための汎用ビルディングブロックを作成するために遺伝的プログラミングを使用する。この方法又はプロセス（コードファーミングと呼ばれることもある）はＧＰのインスタンスである。この方法は、プログラムであって、その入出力ペアがランダムに生成される入出力ペアの所与のデータセットと可能な限り密にマッチする、プログラムをもたらす。一部の実施形態は、プログラム集団のそれぞれの新たな世代を有する新たな標的データセットをランダムに生成する。一部の実施形態では、常に存在する多岐にわたる可能な解と共に集団が進化する。

【0020】

[0023] このプロセスを成功裏に実装することができるＧＰインスタンスの特性について広い許容度がある。一部の実施形態は、（ｉ）プログラミング言語がチューリング完全であること、つまりチューリングマシンが符号化できる如何なる関数も符号化できること、（ｉｉ）遺伝的オペレータが何らかの形の有性組み換え、例えば交叉を実装すること、及び（ｉｉｉ）弱選択の仮定が該当すること、つまり遺伝子型間の適応度のばらつきが組み換え率と比較して小さいことを要求する。要件（ｉ）は、このプロセスによって発見されるビルディングブロックの再利用可能性を確実にする。要件（ｉｉ）及び（ｉｉｉ）は、プログラムが汎用ビルディングブロックであることを確実にする。

【0021】

[0024] 一部の実施形態では、このプロセスがプログラム断片である汎用ビルディングブロックをもたらす。一部の実施形態では、プログラム集団内の特定の断片をビルディングブロックとして識別する代わりに、このプロセスによってもたらされる全プログラムがビルディングブロックとして使用される。一部の実施形態では、正しいビルディングブロックが集団内の何処かに存在する限り、ＧＰメカニクスがＧＰインスタンスの解へとビルディングブロックを決定し又は選択及び組み合わせる。

【0022】

[0025] 一部の実施形態では、ＧＰの新たなインスタンスが汎用ビルディングブロックでシードされるときは常に、その初期集団はコードファーミングプロセスによってもたらされたプログラムから選択される。一部の実施形態は、プロセスによってもたらされたプログラムの最後の世代からプログラムを選択する。一部の実施形態は、後の世代を優先させながらプロセスの各世代内の最も適応したプログラムを取ることによってプログラム集合からビルディングブロックを選択する。一部の実施形態は、プロセスの各世代に適応度関数を適用し、最も高い適応度スコアを有するプログラムのコピーを作成する。一部の実施形態では、均衡が恣意的に破られる。一部の実施形態は、最初は空であるシードリストと呼ばれる永続的なプログラムリストの末尾に最も適応したプログラムを追加する。一部の実施形態では、新たなＧＰインスタンスがサイズｎの初期集団を必要とする場合、シードリスト上の最後のｎ個のエントリが選択される。一部の実施形態では、シードリストがプロセスの最終成果物である。

【0023】

[0026] 一部の実施形態は、シードリストにフィルタを適用して重複する表現型（即ちプログラムによって符号化される関数）を除去してからリストを使用して集団を初期化する。このフィルタリングステップは集団のサイズを制限するのに役立つ。一部の実施形態は、重複する表現型を確率論的な意味で検出するために以下に記載の関数シグネチャを使用する技法を使用する。

【0024】

[0027] ＧＰのよく知られている問題は、とりわけチューリング完全である任意の十分リッチなプログラミング言語におけるランダム生成プログラムが、自らの入力を常に無視し一定の出力をもたらす関数等の自明な関数を符号化する傾向にあることである。これはＧＰシステムが決して上昇（aloft）しない可能性があること、換言すれば興味深い挙動を決してもたらさない可能性があることを意味する。更に、たとえ非自明な挙動がもたらされても、遺伝的オペレータによって容易に破壊される点でそれは脆弱である傾向があり、そのためシステムは上昇し続けない可能性がある。理論上、上昇しそのままとどまる可能性は十分大きいプログラム集団を保つことによって上がり得るが、それには膨大な計算資源が必要となり得る。一部の実施形態は、上昇したままであるために以下に記載の技法の一部を使用する。

【0025】

[0028] 一部の実施形態では、或る世代から次の世代へと残存する更なる保証が一定の極めて適応した個体又はプログラムに与えられる。様々な実施形態において、本明細書に記載の考えはシードリストを使用して実装することができる。

【0026】

[0029] 一部の実施形態では、或る世代から次の世代へと残存する通常よりも高い確率が現在の集団の小さい部分集合に与えられる。一部の実施形態では、新規性の条件を満たす現在の集団からのプログラムのコピーを追加することによって現在の集団とは別のシードリストが増大する。

【0027】

[0030] 一部の実施形態では、シードリストが親選択プロセスに独特なやり方で関与する。従来の遺伝的プログラミングでは、現在の集団から次の親を選択するためにルーレット盤が回される。一部の実施形態によれば、盤を回す前に、（例えばベルヌーイ分布を作成するために）表になる確率が小さい（例えば確率＝１／１６）バイアスコインが投げられる。一部の実施形態は、コインが表になる場合はこの親選択に関して盤を回さず、現在の集団から親を選択しない。代わりに、一部の実施形態は一様確率分布を使用してシードリストから親を選択する（即ちシードリスト上の各プログラムは等しく選択される可能性が高い）。他方でコインが裏になる場合、一部の実施形態は通常通り続行して盤を回して現在の集団から親を選択する。一部の実施形態では、親の全ての選択でこの全プロセスが繰り返される。

【0028】

[0031] 一部の実施形態では、シードリストがプロセスの最終成果物である（コードファーミングと呼ばれることがある）。一部の実施形態では、シードリストに直近に追加されたプログラムが、それよりも前に追加されたプログラムよりもＧＰインスタンスをシードするのに有用だと考えられる。

【0029】

[0032] 一部の実施形態では、シードリストが全世代にわたって永続し、最初は空である。各世代で、現在の集団に適応度関数が適用された後、以下の条件を満たす現在の集団の全てのプログラム（個体とも呼ばれる）がシードリストに追加される。
ａ．（以下に記載するように）そのプログラムが明らかに自明ではない個体である。
ｂ．そのプログラムが符号化する関数がシードリスト内の他の任意のプログラムによって符号化される関数と異なる。これはシステムの初期化中に試験入力の永続的リストをランダムに生成し、試験入力に対して異なる出力シーケンスを有するとき且つそのときに限り候補関数が異なると宣言することによって確率論的な意味で効率的に判定される。この出力シーケンスは関数のシグネチャと呼ばれることがある。

【0030】

[0033] 一部の実施形態では、非自明な関数がシードリストに本当に追加される何らかの保証を与えるために、自明な関数を符号化するプログラムの明らかな事例にフラグを立てるように適応度関数が修正され、それらのプログラムには可能な限り低いスコアが指定される。一部の実施形態は入力が決して読み取られないと判定するためにプログラムの自動構文解析を使用し、そのためプログラムを一度も実行することなしにそのプログラムに自明としてフラグを立てることができる。構文解析は、プログラムが読取命令を有さないかどうか又はそのような任意の命令が明らかに到達不能かどうかを判定する。明らかに自明なプログラムは、それを実行する試みが行われるとき異常終了するプログラムを含む。かかるプログラムは、メモリ空間又は総実行時間等の計算資源の限界を上回る任意のプログラムを含む。エラーのないプログラムを促進するために、一部の実施形態はそのようなプログラムに可能な限り低い適応度スコアを指定する。

【0031】

[0034] 上記で説明したように、シードリスト内のプログラムに与えられる利点は、次の世代の親になるための個体の選択が現在の世代ではなく小さい確率でシードリストから来ることであり、その場合はシードリスト内の全てのプログラムが選択される等しい確率を有する。

【0032】

進捗の測定
[0035] 一部の実施形態はこの節の中で説明する技法の一部を使用して進捗を測定し、プロセスを終了するのに十分な進捗があったかどうかを判定する。

【0033】

[0036] 一部の実施形態はシードリストのサイズを使用する。例えばシードリストが堅調なペースで増大している場合、堅調な進捗がある。一部の実施形態では、シードリスト内に少なくとも所定数のプログラム（例えば数千個のプログラム）がある場合、このプロセスが終わる。

【0034】

[0037] 一部の実施形態では、シードリストのコピーを周期的に（例えばプロセスの数百回の反復ごとに）使用して、様々な問題を表すＧＰインスタンスの試験スイート内の集団を初期化するために、より信頼できるがより資源集約的な手法が使用される。一部の実施形態は試験結果が時間と共に改善しているかどうかを判定する。試験結果が許容可能な解を与える場合、このプロセスが終えられる。

【0035】

スナップショット
[0038] 一部の実施形態は、プロセスが後で一時停止すること及び再開することを可能にするために必要なデータで構成されるシステムのスナップショットをロードし又は保存する。一部の実施形態では、スナップショットが以下の要素の一部又は全てを含む：
・プログラムの現在の集団及びその適応度スコア。
・シードリスト及び対応するシグネチャ。
・シグネチャを決定するための試験入力のリスト。

【0036】

標的データセット
[0039] 一部の実施形態では、標的データセットがプロセスのそれぞれの新たな世代を用いてランダムに生成される。一部の実施形態では、標的データセットが入出力ペアで構成される。一部の実施形態は、（ｉ）様々な脈絡において最終成果物（例えばシードリスト）が再利用可能な程度、及び（ｉｉ）それをもたらすことができる速度及び効率を含む様々な要因をトレードオフすることによって入出力ペアのための形式を決定する。例えば最終成果物が広範な問題に再利用可能である必要がある場合、入出力ペアは有限であることを除いて長さの制限がないバイナリ文字列のペアであり、それはかかる列が如何なる情報も符号化できるからである。一部の実施形態は、任意長のバイナリ文字列をランダムに生成するために、よく知られている一様密度関数の改変形態である確率密度関数を使用する。一部の実施形態は、Ｌ（ｘ）＝２^{－２ｌ（ｘ）－１}で定められる確率密度関数を使用し、但しｘは長さｌ（ｘ）の任意の恣意的な列である。

【0037】

[0040] 一部の実施形態は、入出力ペアを依然としてランダムに生成しながら、特定の問題領域に適した形式に入出力ペアを制限する。例えば一部の実施形態は、純粋なガウス雑音を入力として及び一様にランダムなラベルを出力として使用し、画像分類の問題領域に適したランダムデータセットを生成する。

【0038】

領域に固有の標的データセット
[0041] 説明を簡単にするために、この節は標的データセットの領域に固有の側面について記載し、その後、標的データセットのランダムな側面について記載する。

【0039】

[0042] 標的データセットの領域に固有の側面に関して、任意の問題領域において、入力が実数のシーケンスＸ＝（ｘ_１，．．．，ｘ_ｎ）で識別され、対応する出力が実数のシーケンスＹ＝（ｙ_１，．．．，ｙ_ｍ）で同様に識別されると仮定されたい。例えば画像分類では各ｘ_ｉがピクセル強度を表すことができ、ｎは入力画像内のピクセル数である。この事例ではｍは画像が有し得る別個のラベルの数であり、ｙ_ｊは入力画像がｊ番目のラベルを有する確率である。

【0040】

[0043] 次に標的データセットのランダムな側面を理解するために、問題領域に関係なく、興味深くあり得る全ての入出力ペアの莫大なデータセットＤを想像されたい。入出力ペア（Ｘ，Ｙ）の一様にランダムな選択がＤから得られると仮定されたい。Ｘ内の各ｘ_ｉはよく知られている確率分布ｐ_ｉ（ｘ）を有し、同様にＹ内の各ｙ_ｊはよく知られている確率分布ｐ_ｊ（ｙ）を有する。次いでこの領域について入出力ペア（Ｘ_ｒａｎｄ，Ｙ_ｒａｎｄ）をランダムに生成するために、一部の実施形態はＸ_ｒａｎｄ内の各ｘ_ｉ及びＹ_ｒａｎｄ内の各ｙ_ｊをその個々の確率分布に従ってランダムに生成する。このプロセスをｔ回繰り返すことにより、一部の実施形態はデータセットＤｒａｎｄ＝（（Ｘ_１，Ｙ_１），．．．，（Ｘ_ｔ，Ｙ_ｔ））をランダムに生成する。画像分類に関して、例えばｐ_ｉ（ｘ）はあり得る全てのピクセル強度の範囲にわたるガウス分布であり、ｐ_ｊ（ｙ）はあり得る全ての確率の範囲（即ち０から１）にわたるガウス分布である。

【0041】

適応度関数
[0044] 適応度関数は遺伝的プログラミング（ＧＰ）の確率論的性質を表す。基準が満たされるかどうかではなく、ＧＰはプログラムが基準を満たす程度を測定する適応度スコアを各プログラムに指定する。これは「適応度関数の適用」と呼ぶことがある。スコアは典型的には実数の範囲内に含まれる。高スコアのプログラムは低スコアのプログラムよりも次世代の親として選択される可能性が高い。しかし、あり得る最低スコアを有するプログラムさえ親として選択されるゼロを上回る確率を有し、そのためかかるプログラムは破棄される場合もされない場合もある。

【0042】

[0045] 一部の実施形態では、適応度関数は所与のプログラムによって符号化される関数が現在の標的データセットとどの程度マッチするのかを測定する。一部の実施形態では適応度関数が弱選択の仮定を満たし、それは全ての遺伝子型（プログラム）の適応度が互いに近いこと、例えば間隔［１－ε，１＋ε］の範囲内にあり、そのため遺伝子型ｇの適応度はＦ_ｇ＝１＋εΔ_ｇとして書くことができ、但しεは小さいと考えられる選択強度であり、Δ_ｇ∈［－１，１］は遺伝子型の差分適応度（differential fitness）と呼ばれる。一部の実施形態では、これらの要件はΔ_ｇを適切に定めることによって満たされる。例えばΔ_ｇ＝－１はｇが集合の他のメンバ（即ちプログラム）と比べて標的データセットに対する最悪のマッチを与えることを意味し、Δ_ｇ＝１はｇが集合の他のメンバと比べて最良のマッチを与えることを意味する。換言すれば、適応度関数はプログラムが標的データセットとどの程度合致するのかを測定するために所与のプログラムに－１から１までの差分適応度値を指定し、より大きい値はより優れた合致を示す。

【0043】

[0046] 一部の実施形態は、マッチと見なされるものに対して緩和された定義を使用する。一部の実施形態は、出力間の厳密なマッチを要求するのではなく出力間の相関度を検討する。一部の実施形態は、許容可能な解を見つける可能性を高めるためにこの戦略を使用する。例えば一部の実施形態は、完璧な解へと容易に変換されることを所与とし、標的出力の（ビット単位の意味で）正反対をもたらすプログラムを厳密なマッチとしての適応として検討する。

【0044】

[0047] 標的データセットが入出力ペアのシーケンスＤ＝（（Ｘ_１，Ｙ_１），．．．，（Ｘ_ｔ，Ｙ_ｔ））だと仮定し、所与のプログラムが関数ｆを符号化すると仮定されたい。Ｄ内の各ペア（Ｘ，Ｙ）に関して、Ｘは実数のシーケンスＸ＝（ｘ_１，．．．，ｘ_ｎ）であり、Ｙは実数のシーケンスＹ＝（ｙ_１，．．．，ｙ_ｍ）である。関数ｆはＸを入力として受け付け、シーケンスＹ’＝（ｙ_１’，．．．，ｙ_ｍ’）を出力としてもたらすことができる関数である。一部の実施形態は、差分適応度値ｄをもたらすためにＹとＹ’との間の合致を測定し、その値をＤ内の全ての（Ｘ，Ｙ）にわたって集約する。一部の実施形態は、Ｙ内の各ｙ_ｊがよく知られている確率分布ｐ_ｊ（ｙ）を有し、従って各ｙ_ｊがよく知られている平均値ｕ_ｊを有する事実を使用する。ｙ_ｊの可能な値の範囲は２つの部分に区分化されていると考えることができ、右の区分は平均を上回る全ての値を含み、左の区分は平均以下の全ての値を含む。一部の実施形態は、両方の値が同じ区分内にある場合に値ｙ_ｊが値ｙ_ｊ’と「合致する」と定める。

【0045】

[0048] 一部の実施形態は差分適応度ｄを計算するために以下のアルゴリズムを使用する：
１．実変数ｒを０に初期化する。
２．Ｄ内の（Ｘ，Ｙ）ごとに以下を行う：
ａ．上記のようにＹ’を計算する。
ｂ．１とｍとの間の位置ｊごとに以下を行う：
ｉ．ｙｊがｙｊ’と合致する場合、ｒに１を加え、
ｉｉ．さもなければｒから１を引く。
３．ｄ＝ａｂｓｏｌｕｔｅ＿ｖａｌｕｅ（ｒ）／（ｍ^＊ｔ）を計算する。

【0046】

[0049] このアルゴリズムは０から１までのｄの値をもたらす。一部の実施形態は適応度スコアをＦ＝１＋（ｅ^＊ｄ）として計算し、但しｅは小さい正の一定値だと見なされる選択強度である。

【0047】

[0050] 換言すれば、Ｆを離散確率変数と見なす場合、Ｆは全ての計算可能な関数ｆについて同じ平均及び同じ分散を有するべきである。関数ｆにその逆関数と、もしかかる関数が存在する場合は同じ適応度スコアが常に指定されるべきであることも要求される。

【0048】

確率論的選択
[0051] 一部の実施形態は、確率論的選択方法（「ルーレット盤選択」又は「適応度比例選択」と呼ばれることもある）を使用する。親の選択は、自らの適応度スコアに比例した盤上の空間量を集団内の各プログラムに割り当てながらルーレット盤を回すことによって行われる。換言すれば、次の世代のための親の全てを選択するのに十分な回数盤を回す。このステップはしばしば単に「選択」と呼ばれ、突然変異又は交叉等の遺伝的オペレータの１つとして見なされることが多い。

【0049】

[0052] 一部の実施形態は他の選択方法（例えば市販のＧＰソフトウェアで非常に人気のあるトーナメント選択）を使用する。

【0050】

汎用ビルディングブロック
[0053] 一部の実施形態では、有性組み換えがある中での進化は集団内の対立遺伝子（即ちプログラム断片）の混合性を最大化する。特定の遺伝子の対立遺伝子（即ちプログラム断片の遺伝子座）の混合性は、その対立遺伝子が他の遺伝子の対立遺伝子と結合して高度に適応した個体を形成することができる程度である。個々のプログラムが集団内の他の個体に比べてランダム生成データセットとどの程度マッチするのかに個々のプログラムの適応度が基づく場合、高い混合性を有する対立遺伝子は汎用計算ビルディングブロックに厳密に対応する。有性組み換えと共に弱選択がある場合、対立遺伝子の混合性は全ての世代にわたって累積的な意味で測定される。従って混合性が高い対立遺伝子は、多岐にわたる問題に対する優れた解を与えるプログラムのファミリー内にあるコード断片に対応する。かかる対立遺伝子は汎用ビルディングブロックである。

【0051】

[0054] 図２は、一部の実施形態による、遺伝的プログラミングインスタンスをシードするための汎用ビルディングブロックを作成するために遺伝的プログラミングを使用するための方法の流れ図である。一部の実施形態によれば、この方法はサーバ１０２等のサーバ（又はサーバのプロセッサ）によって実行される。図２に示す流れ図のステップは上記の技法を使用する。一部の実施形態では、この方法がスタートアップパラメータ（例えば関係する領域、プログラムの最大サイズ、プロセスの最大反復回数等のための１組のパラメータ）を読み出すこと（２０２）によって開始する（２００）。一部の実施形態によれば、「画像分類のために汎用ビルディングブロックを作成し使用する例」と題した以下の節の中でスタートアップパラメータの例を与える。一部の実施形態は、（シードリストを得るための）プロセスの新たなインスタンスを生成するかどうかを判定する（２０４）。それが新たなインスタンスではない場合、このプロセスは（上記の）システムのスナップショットをロードする（２２２）。

【0052】

[0055] 一部の実施形態は、（上記の）ランダム生成プログラムを用いて集団（例えばプログラム１０６の集団）を初期化する（２０６）。一部の実施形態は、（例えば標的データセット生成モジュール１２６を使用して上記の）標的データセットをランダムに生成もする。一部の実施形態は、集団内のプログラムに（例えば適応度関数モジュール１２２を使用して上記の）適応度関数を適用する（２１０）。一部の実施形態は、（上記の）スナップショットを取る又は捕捉するかどうかを判定し（２１２）、スナップショットを取る又は捕捉すると判定される場合、システムのスナップショットを（例えばデータベース１３０に）保存し（２１６）又は記憶する。一部の実施形態は、終了条件が満たされたかどうかを判定する（２１８）。例えばシードリストが１つ又は複数の遺伝的プログラミングインスタンスを解くかどうかを試験するために、スナップショット内のシードリストが使用される。終了条件が満たされている場合、この方法は実行を終える（２２０）。満たされていない場合はこのプロセスは続行し、集団に遺伝的オペレータ（例えば選択、突然変異、交叉）を適用して次の世代のための集団を得る（２１４）。このプロセス（即ちステップ２１４、２０８、２１０、２１２、２１６、及び２１８）は終了条件が満たされるまで繰り返される。

【0053】

[0056] 一部の実施形態によれば、方法が汎用計算ビルディングブロックを進化させる。この方法はサーバ（又はコンピュータ）によって実行される。例えばこの方法は実行される、サーバ１０２（又はサーバ１０２のモジュールの１つ）。この方法は、関数を符号化するランダム生成プログラムを用いて母集団を初期化する。この方法は、ランダム生成試験入力のリストを得ることも含む。この方法は、ランダム生成バイナリ文字列の入出力ペアを含む標的データセットを生成する。この方法は、母集団内の各プログラムに適応度スコアを指定するために適応度関数も適用する。適応度スコアは、標的データセットの入出力ペアとマッチするプログラムの能力を少なくとも表す。この方法は更に、新規性の条件を満たす母集団内のプログラムのコピーを用いてシードリストを初期化する。新規性の条件は、ランダム生成試験入力のリストについて別個の及び固有の出力をもたらすプログラムの能力を表す。シードリストは、遺伝的プログラミングのための初期集団をシードするための汎用プログラムビルディングブロックを含む。この方法は、シードリストの終了条件が満たされているかどうかを判定することも含む。終了条件は、１つ又は複数の遺伝的プログラミングインスタンスを解くシードリスト内の１つ又は複数のプログラムの能力を表す。終了条件が満たされていないという判定に従い、この方法は少なくとも１つの遺伝的オペレータを母集団に適用してプログラムの現在の子孫集団を得る。少なくとも１つの遺伝的オペレータは、１つ又は複数の遺伝的プログラミングインスタンスを解くためにプログラムの適応度スコアに基づいてシードリストを増大させるために母集団に適用されるオペレータを含む。この方法は前述の終了条件が満たされるまで次のステップ、つまり（ｉ）ランダム生成バイナリ文字列の入出力ペアを含む新たな標的データセットを生成すること、（ｉｉ）現在の子孫集団内の各プログラムに新たな適応度スコアを指定するために適応度関数を適用すること（新たな適応度スコアは新たな標的データセットの入出力ペアとマッチするプログラムの能力を少なくとも表す）、（ｉｉｉ）前述の新規性の条件を満たす現在の子孫集団内のプログラムのコピーをシードリストに付加すること、及び（ｉｖ）プログラムの新たな子孫集団を得るために現在の子孫集団に少なくとも１つの遺伝的オペレータを適用し、プログラムの新たな子孫集団を現在の子孫集団として設定することを繰り返すことも含む。

【0054】

[0057] 一部の実施形態では、この方法が、複数の問題を表す遺伝的プログラミングインスタンスの試験スイート内の集団を初期化するためにシードリストを使用すること、及び試験スイートの試験結果に基づいて終了条件が満たされているかどうかを判定することを更に含む。

【0055】

[0058] 一部の実施形態では、この方法が、少なくとも１つの遺伝的オペレータを現在の子孫集団に適用するとき、現在の子孫集団内のプログラムに優先してシードリスト内のプログラムをベルヌーイ分布に基づいて親として選択することを更に含む。シードリスト内の各プログラムは、親として選択されるように同等に好まれる。

【0056】

[0059] 一部の実施形態では、プログラムが新規性の条件を満たすかどうかを判定することは、ランダム生成試験入力に対してシードリスト内のプログラムによって符号化される関数によって生成される出力シーケンスと異なる出力シーケンスをランダム生成試験入力について生成する関数をプログラムが符号化しているという判定に基づく。

【0057】

[0060] 一部の実施形態では、この方法が、ランダム生成試験入力についてプログラムによって符号化される関数によって生成される出力シーケンスを含む関数シグネチャをシードリスト内のプログラムごとに決定し記憶すること、及び関数シグネチャを取得することを更に含む。そのような一部の実施形態では、シードリスト内のプログラムによって符号化される関数と異なる関数をプログラムが符号化するという判定が、関数シグネチャと異なる出力シーケンスをランダム生成試験入力について生成する関数をプログラムが符号化しているという判定に更に基づく。

【0058】

[0061] 一部の実施形態では、終了条件がシードリストのサイズに少なくとも依存する（例えば１０００個のプログラムで方法が停止する）。

【0059】

[0062] 一部の実施形態では、終了条件はシードリストが所定の増大率で増大しているかどうかという判定に少なくとも依存する。

【0060】

[0063] 一部の実施形態では、この方法が適応度関数を適用するとき恣意的に均衡を破ることを更に含む。

【0061】

[0064] 一部の実施形態では、この方法が、シードリストを初期化しシードリストに付加するとき、入力を読み取らない自明な関数を符号化するプログラムをシードリストから破棄することを更に含む。

【0062】

[0065] 一部の実施形態では、この方法が、入力を読み取らない自明な関数を符号化するプログラムを識別するために構文解析を行うことを更に含む。

【0063】

[0066] 一部の実施形態では、この方法が、シードリストを初期化しシードリストに付加するとき、異常なランタイム挙動を有する関数を符号化するプログラム（例えば実行するための試行が行われるとき異常終了するプログラム）、又は異常な資源要件を有する（例えばメモリ空間又は合計ランタイム等の計算資源の限界を上回るプログラム）関数を符号化するプログラムをシードリストから破棄することを更に含む。

【0064】

[0067] 一部の実施形態では、この方法が、シードリスト内の所定数のプログラムを使用して遺伝的プログラミングの新たなインスタンスのための初期集団をシードすることを更に含む。一部の実施形態では、初期集団をシードするとき、シードリストに直近に追加されたプログラムがそれよりも前のものに優先する。

【0065】

[0068] 一部の実施形態では、少なくとも１つの遺伝的オペレータが、選択オペレータ、突然変異オペレータ、及び交叉オペレータの１つ又は複数である。

【0066】

[0069] 一部の実施形態では、ランダム生成バイナリ文字列の入出力ペアの各入力が入力確率分布に基づいて生成され、ランダム生成バイナリ文字列の入出力ペアの各出力が出力確率分布に基づいて生成される。一部の実施形態では、入力確率分布がピクセル強度の範囲にわたるガウス分布であり、出力確率分布が［０．０，１．０］上のガウス分布である。

【0067】

[0070] 一部の実施形態では、適応度関数が、同じ入力に対してビット単位で反対の出力をもたらす関数を符号化するプログラムに対して同じ適応度スコアを指定する。換言すれば、一部の実施形態では、標的出力の（ビット単位の意味で）正反対をもたらすプログラムは厳密なマッチと同程度の適応である。

【0068】

[0071] 一部の実施形態では、適応度関数がプログラムの出力と標的データセットとの間のマッチ度を測定するために－１から１までの適応度スコアをプログラムに指定し、より大きい値はより高いマッチ度を示す。

【0069】

[0072] 一部の実施形態では、１つ又は複数の遺伝的プログラミングインスタンスが、（以下に記載する）手書き数字の部分的分類のための遺伝的プログラミングインスタンスを含み、ランダム生成バイナリ文字列の入出力ペアがＭＮＩＳＴデータベースからの画像に基づいて生成され、この方法が２０００回の反復後に方法を終了することを更に含む。

【0070】

画像分類のために汎用ビルディングブロックを作成し使用する例
[0073] この節は、一部の実施形態による画像分類のために汎用ビルディングブロックを作成し使用する例を記載する。典型的には、画像は１つ又は複数のラベルに関連する。解説のために、画像が２つのラベルのうちの１つしか有することができないと仮定されたい。各ピクセル値が単一ビットであるように画像データが単純化される。例えば各ピクセルは黒（０）又は白（１）である。更に、各画像が厳密に２８行×２８列のピクセルだと仮定されたい。この領域内のデータセットはＤ＝（（Ｘ_１，ｙ_１），．．．，（Ｘ_ｔ，ｙ_ｔ））の形を有する。Ｄ内の各（Ｘ，ｙ）は入出力ペアであり、Ｘは入力画像Ｘ＝（ｘ_１，．．．，ｘ_ｎ）を表し、但しｎ＝２８×２８＝７８４であり、各ｘ_ｉは位置ｉにおけるピクセルの強度を示す単一ビット（０又は１）であり、ｙは画像Ｘに関連するラベルを表す単一ビットである。

【0071】

[0074] 第１の段階では、一部の実施形態がこの領域に適したパラメータを使用して図２に関して上記で説明したプロセスによって汎用ビルディングブロックを作成する。その後第２の段階で、かかる一部の実施形態が第１の段階の最終成果物（例えばシードリスト）を使用して、この領域内の特定の問題を表すＧＰの２つのインスタンスの試験スイート内の初期集団をシードする。

【0072】

[0075] 付録に記載するように、この実験内のＧＰインスタンスに使用されるプログラミング言語がパーセプトロンチューリングマシン（ＰＴＭ）の言語だと仮定されたい。この言語はチューリング完全であり、ニューロエボリューションの一種を可能にし、各プログラムが人工ニューラルネットワーク（ＡＮＮ）を生成することを意味する。全てのＧＰインスタンスに共通の関連するＰＴＭ構成パラメータは以下の通りである：
・状態の数は５１２である。
・テープの数は２であり、画像の行インデックス又は列インデックスを符号化するために各テープは５ビットの長さを有する。両方のテープが入力インデックステープであり、出力は単一ビットなので出力インデックステープはない。
・全てのプログラムは４，０９６命令の固定長を有する。
・プログラムによって生成されるＡＮＮに対する資源限界を以下のように設定する。
○ノードの最大数は５０，０００である。
○最大深度は１００である。
○最大ファンアウトは１６である。

【0073】

[0076] 資源限界を超えた場合、それはエラーと見なされ、その場合プログラムに可能な限り低い適応度スコアが指定される。

【0074】

[0077] 以下の遺伝的オペレータもこの実験で使用される全てのＧＰインスタンスに共通である。
・遺伝子ごとに作用する０．５の確率の一様交叉を使用する。
・遺伝子型に関して作用する０．００３の確率の置換オペレータを使用する。つまり、各子孫について０．００３の確率でその遺伝子がランダムに並べ替えられる。
・遺伝子に関して作用する０．００１の確率の突然変異オペレータを使用する。つまり、各子孫の遺伝子ごとに０．００１の確率で対立遺伝子が異なる対立遺伝子に変更される。

【0075】

段階１の例：汎用ビルディングブロックの作成
[0078] このプロセスのためのＧＰインスタンスを以下のようにセットアップする。
・集団のサイズは１，０２４である。
・ランダム化された標的内の入出力ペアの数に３２を使用する。
・ランダム化された標的内の入力ピクセル値及び出力ラベル値の両方に使用するための自然確率分布は、０及び１の値の可能性が同等である（それぞれ０．５の確率を有する）ベルヌーイ分布である。
・関数シグネチャを生成するために使用する試験入力の数に３２を使用する。
・選択強度に０．５を使用する。
・現在の集団ではなくシードリストから親を選択する確率に０．０６２５を使用する。
・２００，０００個のシード（即ちシードリスト内のプログラム）が見つかったときこのプロセスを終了する。

【0076】

[0079] このプロセスは反復的であり、一部の例では世代ごとに数百個のプログラムをもたらす。例えばこのプロセスを２，２８９回反復すること（即ち２，２８９世代）は２００，０００個のシードをもたらす。

【0077】

段階２の例：手書き数字の部分的分類
[0080] 試験スイートに関して、一部の実施形態は手書き数字を分類する単純化された形式の改変形態を解くように設計される２つのＧＰインスタンスを使用する。０から９までの全ての数字を認識しようと試みるのではなく、単純化された問題（部分的分類と呼ぶことがある）は１０個の数字のうちの２つを認識しようと試みるだけである。ＧＰインスタンスＡが０及び１の数字を区別しようと試み、ＧＰインスタンスＢが６及び７の数字を区別しようと試みると仮定されたい。

【0078】

[0081] 訓練データセット及び試験データセットについて、一部の実施形態は手書き数字の走査画像をそれらの正しい分類と共に含むＭＮＩＳＴデータベースの部分集合を使用する。画像は（例えば６０，０００枚の画像及び１０，０００枚の画像をそれぞれ有する）訓練データセット及び試験データセットへと分けられる。画像はグレースケールであり、サイズは２８×２８ピクセルである。一部の実施形態は、０が［０，１２７］の間隔に対応し、１が［１２８，２５５］の間隔に対応する状態で、最初は０から２５５に及ぶ各ピクセル値が単一ビットに変換されるように全ての画像を再フォーマットする。ＧＰインスタンスＡは０と１の数字の画像だけを含む訓練データセット及び試験データセットの部分集合を使用し、ＧＰインスタンスＢは６と７の画像だけを使用する。

【0079】

[0082] ＧＰインスタンスＡ及びＢはどちらも以下の構成特性を有する：
・一部の実施形態では、訓練データセット及び試験データセットがそれぞれサイズｔ＝３２のミニバッチへとランダムに区分化される。全ての世代で、次の訓練ミニバッチＤが回転順に選ばれ、それがその世代の適応度スコアの基礎として使用される。
・現在の集団内のプログラムｇに適応度スコアＦを指定するために、一部の実施形態は差分適応度ｄを以下のように最初に計算する。
○実変数ｒを０に初期化する。
○Ｄ内の（Ｘ，ｙ）ごとに以下を行う：
■入力画像Ｘに対してプログラムｇを実行する。
■ｇが完了まで実行され出力ｙをもたらす場合、ｒに１を加える。
■さもなければｒから１を引く。
○ｄ＝ｒ割るｔを計算する。
これにより－１から１までの値がｄに与えられる。適応度スコアはＦ＝１＋εｄであり、εは０．５の一定値を有する選択強度である。
・集団のサイズは２５６である。
・終了条件は以下の通りである。全ての世代で、最大の適応度スコア（均衡は恣意的に破られる）を有するプログラムｇを再びスコアリングするが、試験データセットからの次のミニバッチを回転順に毎回使用する。ｇが訓練及び試験ミニバッチの両方で完璧なスコアを得る場合、このプロセスはｇが解である状態で成功裏に終了する。２０００世代の中でかかる解が見つからない場合、このプロセスは失敗として終了する。

【0080】

[0083] 加えて各ＧＰインスタンスは、自らの集団をランダムに（ランダムモードの初期化）又は段階１で作成した最後の２５６個のプログラム（又はシード）を使用して（シードモードの初期化）初期化する選択肢を有する。一部の実施形態は、各ＧＰインスタンスＡ及びＢを各モードで所定の回数（例えば１０回）実行する。或る実験では得られる結果が以下に示す通りである：
・ランダムモードのＧＰインスタンスＡは１個の成功と９個の失敗をもたらす。
・シードモードのＧＰインスタンスＡは８個の成功と２個の失敗をもたらす。
・ランダムモードのＧＰインスタンスＢは０個の成功と１０個の失敗をもたらす。
・シードモードのＧＰインスタンスＢは６個の成功と４個の失敗をもたらす。

【0081】

[0084] このようにして、図２に関して上記で説明したプロセスはそれらのＧＰインスタンスに（集団をシードする従来のやり方に勝る）著しい性能の改善をもたらす。

【0082】

数値関係を学習するための応用例
[0085] この節は、一部の実施形態による数値関係を学習するための汎用ビルディングブロックの作成及び使用例を記載する。問題は、実数の所与のシーケンスが特定の関係におけるメンバシップの条件を満たすかどうかを判定することができるコンピュータプログラムを見つけることだと仮定されたい。一部の実施形態では、関係を満たすシーケンスの例並びに関係を満たさないシーケンスの例のデータセットが訓練目的で存在する。この領域内のデータセットはＤ＝（（Ｘ_１，ｙ_１），．．．，（Ｘ_ｔ，ｙ_ｔ））の形を有する。Ｄ内の各（Ｘ，ｙ）は入出力ペアであり、Ｘは入力シーケンスＸ＝（ｘ_１，．．．，ｘ_ｎ）を表し、ｎは関係によって決定される固定された正の整数であり、各ｘ_ｉは関係によって決定される関連する確率分布ｐｉ（ｘ）を有する実数であり、ｙはＸが（ｙ＝１）の関係にあるか又はＸが（ｙ＝０）の関係にないかを示す単一ビットである。

【0083】

[0086] 例えば株売買人がかかるデータセットを編み出す可能性があり、但しＸは或る企業の貸借対照表内の情報であり、ｙはその企業の株を買うべきか又は売るべきかの指示である。この実験では、説明のためにｎ＝３と仮定し、ｘ_１、ｘ_２、ｘ_３のそれぞれに（０の平均及び０．５の分散を有する）ガウス分布を使用すると更に仮定されたい。出力ｙは、０及び１の値の可能性が同等である（それぞれ０．５の確率を有する）ベルヌーイ分布を有する。

【0084】

[0087] 一部の実施形態では、２つの段階がある。第１の段階では、一部の実施形態がこの領域に適したパラメータを使用して図２に関して上記で説明したプロセスによって汎用ビルディングブロックを作成する。その後第２の段階で、一部の実施形態が段階１の最終成果物（シードリスト）を使用して、この領域内の特定の問題を表すＧＰの２つのインスタンスの試験スイート内の初期集団をシードする。後で説明するように、初期集団をランダムにシードする従来の手法によって得られる結果に対して結果を比較することは、図２に関して上記で説明したプロセスの利点を示す。

【0085】

[0088] この実験で全てのＧＰインスタンスに使用されるプログラミング言語がArtur B.Adibによって開発されたSlash/A言語だと仮定し、Slash/A言語については参照によりその全開示を本明細書に援用する、ワールドワイドウェブのアドレスhttps://github.com/arturadib/shash-aで入手可能な“Slash/A: A programming language and C++ library for (quantitative) linear genetic programming,” 2011に記載されている。全ての入力及び出力が倍精度浮動小数点形式の実数なので、Slash/A言語は数値関係を実装するのに理想的なチューリング完全な命令型プログラミング言語である。以下の例は２つの入力を読み取り、それらを合計し、結果を出力として返す。
input/ #入力バッファから次の数字を得てそれをレジスタＦに保存する
0/ #レジスタＩ＝０に設定する
save/ #ＦのコンテンツをデータベクトルＤ［Ｉ］内に保存する（即ちＤ［０］：＝Ｆ）
input/ #別の入力を得てＦに保存する
add/ #Ｉによってポイントされる現在のデータをＦに加える（即ちＦ：＝Ｆ＋Ｄ［０］）
output/. #出力バッファにＦを付加する

【0086】

[0089] Slash/Aは、テキスト形式（例えば上記のテキスト）で与えられるプログラムを一連の符号なし整数であって、それぞれの符号なし整数は言語内の一意の命令にマップする、一連の符号なし整数であるバイトコード形式に変換するための関数を含むC++ライブラリとして実装される。ライブラリ内に含まれるSlash/Aインタプリタによって使用されるのはバイトコード形式である。一部の実施形態は、ＧＰの遺伝子型としてバイトコード形式を使用することによって遺伝的オペレータを実装する。例えば突然変異オペレータは、バイトコード内のランダムに選択された符号なし整数を（構成可能な命令セット内の命令の数によって決定される）適切な数値範囲内の新しいランダムに選択された符号なし整数と単純に置換する。インタプリタはゼロ除算又は有効なメモリ範囲外のインデックス作成等のエラーを黙って無視するが、かかるイベントに関する統計は追跡され、そのことはプログラムが自明かどうかを判定するためのカスタム条件を定めることを可能にする。

【0087】

[0090] 全てのＧＰインスタンスに共通の関連するSlash/A構成パラメータは以下の通りである：
・数値定数の数は１６である。一部の実施形態は、ループ又は高度な数学（例えば三角関数）を含まない既定の命令セットの部分集合を使用する。一部の実施形態は、命令セットの新たなインスタンスを生成するために以下のC++コードを使用する。
SlashA::InstructionSet* NewInstructionSet() {
SlashA::InstructionSet* iset_ptr = new SlashA::InstructionSet(16);
iset_ptr->insert_DIS_IO();//入力／出力コマンド
iset_ptr->insert_DIS_memreg();//メモリ－レジスタコマンド
iset_ptr->insert_DIS_regreg();//レジスタ－レジスタコマンド
iset_ptr->insert_DIS_basicmath(); //基本的な数学（加算、減算、乗算、除算）
iset_ptr->insert_DIS_misc();//空命令「ｎｏｐ」
return iset_ptr;
}
・メモリコマンドに使用されるデータベクトルの長さは１０である。
・プログラムは１００命令の固定長を有する。
・プログラムが出力を一切もたらさない場合、又はプログラムが出力をもたらす前に如何なる入力も読み取らない場合、そのプログラムは自明だと見なされ、従って最も低い適応度スコアが指定される。

【0088】

[0091] 一部の実施形態によれば、以下の遺伝的オペレータも全てのＧＰインスタンスに共通である：
１．０．５の確率の１点交叉オペレータを使用する。
２．遺伝子型に関して作用する０．０１２の確率の置換オペレータを使用する。つまり、各子孫について０．０１２の確率でその遺伝子がランダムに並べ替えられる。
３．遺伝子に関して作用する０．００４の確率の突然変異オペレータを使用する。つまり、各子孫の遺伝子ごとに０．００４の確率で対立遺伝子が異なる対立遺伝子に変更される。

【0089】

[0092] 一部の実施形態は、プログラムの出力値ｒが出力バッファに追加される最初の値であり、その後の値は無視されるという慣習を使用する。一部の実施形態は、ｒ＞０が成立する場合はｂ＝１に設定し、さもなければｂ＝０に設定することによってｒをビット値ｂにマップする。

【0090】

段階１の例：汎用ビルディングブロックの作成
[0093] このプロセスのためのＧＰインスタンスは以下のようにセットアップする。
１．集団のサイズは１，０２４である。
２．ランダム化された標的Ｄ内の入出力ペアの数にｔ＝３２を使用する。一部の実施形態では、Ｄ内のデータ要素が上記のガウス分布及びベルヌーイ分布を使用して生成される。
３．現在の集団内の非自明なプログラムｇに適応度スコアＦを指定するために、一部の実施形態は標的データセットＤを所与として差分適応度ｄを以下のように最初に計算する：
実変数ｒを０に初期化する。
Ｄ内の（Ｘ，ｙ）ごとに以下を行う：
入力Ｘに対してプログラムｇを実行する。
ｇが出力ｙをもたらす場合、ｒに１を加える。
さもなければｒから１を引く。
ｄ＝ａｂｓｏｌｕｔｅ＿ｖａｌｕｅ（ｒ）／ｔとする。
これにより０から１までの値がｄに与えられる。適応度スコアはＦ＝１＋εｄであり、εは０．５の一定値を有する選択強度である。このやり方で適応度を計算する動機は、このやり方がランダム化された標的システムに関する以下の２つの中心的な要件を満たすことである：
ａ．Ｆを離散確率変数と見なす場合、Ｆは全ての非自明なプログラムについて同じ平均及び分散を有するべきである。
ｂ．プログラムによって符号化される関数にはその逆関数と、もしかかる関数が存在する場合は同じ適応度スコアが常に指定されるべきである。元のプログラムが０を出力するときいつも別のプログラムが１を出力でき、その逆もまた同様なので、この例では逆が存在する。
４．関数シグネチャを生成するために使用する試験入力の数に３２を使用する。
５．選択強度に０．５を使用する。
６．現在の集団ではなくシードリストから親を選択する確率に０．０６２５を使用する。
７．２００，０００個のシードが見つかったときこのプロセスを終了する。

【0091】

[0094] このプロセスは反復的であり、一部の例では世代ごとに数百個のプログラムをもたらす。例えばこのプロセスを３，４９８回反復すること（即ち３，４９８世代）は２００，０００個のシードをもたらす。

【0092】

段階２の例：数値関係の学習
[0095] 試験スイートに関して、一部の実施形態は特定の数値関係を学習するように設計される、それぞれ３つの入力を有する２つのＧＰインスタンスを使用する。ＧＰインスタンスＡでは、所与の入力シーケンスＸ＝（ｘ_１，ｘ_２，ｘ_３）が狭義単調増加している場合、即ち条件ｘ_１＜ｘ_２＜ｘ_３を満たす場合、かかる入力シーケンスＸ＝（ｘ_１，ｘ_２，ｘ_３）は関係内にある。

【0093】

[0096] 一部の実施形態では、ＧＰインスタンスＢが以下の条件を使用してＸがその関係内にあるかどうかを判定する：ｘ_１ ^２＋ｘ_２ ^２＞ｘ_３ ^２。

【0094】

[0097] 一部の実施形態は、ほぼ等しい数の正の及び負のインスタンスを有する訓練データセット及び試験データセットをランダムに生成するために（上記の）ガウス分布及びベルヌーイ分布を使用する。とりわけ、生成しなければならない入出力ペア（Ｘ，ｙ）ごとに一部の実施形態は以下を行う：
・ｙを生成する。
・関係内のそのメンバシップがｙと合致するまでＸを繰り返し生成する。

【0095】

[0098] ＧＰインスタンスＡ及びＢはどちらも以下の構成特性を有する。
・全ての世代で、一部の実施形態は（上記のように）サイズｔ＝３２の新たな訓練データセットＤを生成し、新たな訓練データセットをその世代の適応度スコアの基礎として使用する。
・現在の集団内の非自明なプログラムｇに適応度スコアＦを指定するために、一部の実施形態は差分適応度ｄを以下のように最初に計算する。
○実変数ｒを０に初期化する。
○Ｄ内の（Ｘ，ｙ）ごとに以下を行う：
■入力Ｘに対してプログラムｇを実行する。
■ｇが出力ｙをもたらす場合、ｒに１を加える。
■さもなければｒから１を引く。
○ｄ＝ｒ割るｔを計算する。
これにより－１から１までの値がｄに与えられる。適応度スコアはＦ＝１＋εｄであり、εは０．５の一定値を有する選択強度である。
・集団のサイズは２５６である。
・終了条件は以下の通りである。全ての世代で、最大の適応度スコア（均衡は恣意的に破られる）を有するプログラムｇを再びスコアリングするが、今回は新たに生成されたサイズｔの試験データセットを使用する。ｇが訓練データセット及び試験データセットの両方で完璧なスコアを得る場合、このプロセスはｇが解である状態で成功裏に終了する。２，０００世代の中でかかる解が見つからない場合、このプロセスは失敗として終了する。

【0096】

[0099] 加えて各ＧＰインスタンスは、自らの集団をランダムに（ランダムモードの初期化）又は段階１で作成した最後の２５６個のシードを使用して（シードモードの初期化）初期化する選択肢を有する。一部の実施形態は、各ＧＰインスタンスＡ及びＢを各モードで所定の回数（例えば１０回）実行する。或る実験では得られる結果が以下に示す通りである：
■ランダムモードのＧＰインスタンスＡは６個の成功と４個の失敗をもたらす。
■シードモードのＧＰインスタンスＡは１０個の成功と０個の失敗をもたらす。
■ランダムモードのＧＰインスタンスＢは１個の成功と９個の失敗をもたらす。
■シードモードのＧＰインスタンスＢは６個の成功と４個の失敗をもたらす。

【0097】

[00100] このようにして、図２に関して上記で説明したプロセスはそれらのＧＰインスタンスに（集団をシードする従来のやり方に勝る）著しい性能の改善をもたらす。

【0098】

遺伝的プログラミングを使用する特徴抽出のための方法の例
[00101] 数学的解析がこの特徴抽出方法の正当化を行う。ＧＰシステムは、固定されたプログラミング言語Ｌ、並びにＬによるプログラムに関する可能な入力及び出力をそれぞれ与える組Ｉ及びＯを規定する。集団は遺伝子型の集合であり、各遺伝子型はＬによるプログラムである。遺伝子型ｇに対応する表現型は、ｇによって符号化される関数Φ_ｇ：Ｉ→Ｏである。対立遺伝子はプログラム内の固定遺伝子座において生じるプログラム断片であり、遺伝子は特定の遺伝子座において可能な１組の対立遺伝子である。

【0099】

[00102] 典型的には、ＧＰシステムは解決すべき問題、及び所与の遺伝子型がどの程度上手く問題を解くのかを測定する適応度関数も規定する。最も適応した遺伝子型を親であるように選択し、次いで規定の遺伝的オペレータを親に対して適用して集団の次の世代を構成する子孫をもたらすことにより、最初のランダムに生成された集団が進化する。新たな世代が古い世代を置換しながらこのプロセスが繰り返される。集団は多くの世代の後で解に収束する。このシステムを静的標的（ＳＴ）システムと呼ぶ。

【0100】

[00103] 他方でランダム化標的（ＲＴ）システムでは、集団の各世代と共に適応度の標的がランダムに選択される。多くの世代の後、単一の表現型に収束するのではなく、ＲＴシステムは多種多様な別個の表現型を有する集団をもたらす。ＲＴシステムの最終成果物は、全ての世代にわたってもたらされる別個の表現型を表すプログラムの全集合である。最終成果物の集合内のプログラムはＧＰシステム内の初期集団をシードするのに有用であり、それは新たな各ＧＰインスタンスと共にさもなければ再発見される必要がある複雑な汎用ビルディングブロックをかかるプログラムが含む傾向があるからである。本明細書に記載の技法を使用し、最終成果物の集合内のプログラムは入力セットＩのための１組の特徴としても使用され得る。従って、ＲＴシステムは一部の実施形態による特徴抽出を行うために使用することができる。

【0101】

[00104] 一部の実施形態によれば、高いレベルにおいて、ＲＴシステムのプロセスフローは以下の通りである。
１．ランダムに生成した遺伝子型を用いて集団を初期化する。
２．適応度の標的（ｘ，ｙ）∈ＩｘＯをランダムに生成する。
３．集団内の遺伝子型ｇごとに、Φ_ｇ（ｘ）の値がｙとどの程度上手く合致するのかに基づいて適応度スコアＦ_ｇ∈Ｒを計算する。
４．適応度比例選択又はトーナメント選択等の高い適応度を有するプログラムを支持する確率論的方法を使用して集団から親を選択する。
５．遺伝的オペレータを親に適用して集団の次の世代を構成する子孫をもたらす。
６．集団の次の世代で現在の世代を置換する。
７．ステップ２に進む。

【0102】

[00105] 自然にあるように遺伝子型の弱選択及び有性組み換えの両方が存在する場合、連鎖平衡内のプロセスによって進化が正確に記述される。換言すれば、任意の遺伝子型ｇの頻度が単にｇ内の対立遺伝子の頻度の積であるかのように集団はモデリングすることができる。この結果は、適応度がどのように測定されるのか及び遺伝子型がどのように組み換わるのかに関する広範な仮定の下で成り立つ。遺伝子型の適応度はここでもそうであるように世代に依存することが認められ、有性組み換えはＧＰシステム内で典型的に使用されるほぼ任意の形式の交叉オペレータによって実装され得る。

【0103】

[00106] 弱選択の仮定は、全ての遺伝子型の適応度が互いに近いこと、例えば間隔［１－ε，１＋ε］の範囲内にあり、そのため遺伝子型ｇの適応度はＦ_ｇ＝１＋εΔ_ｇとして書くことができることを要求し、但しは小さいと考えられる選択強度であり、Δ_ｇ∈［－１，１］は遺伝子型の差分適応度と呼ばれる。これらの要件は、適応度スコアだと通常考えられるものであるようにΔ_ｇを定めることによって容易に満たされ、例えばΔ_ｇ＝－１はｇが適応度の標的に関して予想される最悪のマッチを与えることを意味し、Δ_ｇ＝１はｇが予想される最良のマッチを与えることを意味する。

【0104】

[00107] 入力セットＩが機械学習モデルのための（ラベルなし）訓練データセットである機械学習の脈絡を検討されたい。Ｉ⊂Ｒ^ｎと仮定し、但しＲは１組の全ての実数である。機械学習の観点から、ｎは入力次元である。特徴抽出の目標は、以下の目的を可能な限り密に実現する計算可能関数ｆ_１，．．．，ｆ_ｋ：Ｉ→Ｒ（各関数は入力ｘ∈Ｉを実数にマップする）の有限列を見つけることである。
・全ての別個のペアｆ_ｉ、ｆ_ｊが無相関である。
・ｋは引き続きｎ未満でありながら可能な限り大きい。

【0105】

[00108] これにより入力次元がｎからｋに効果的に減り、それは関数のシーケンスが情報コンテンツを保ちながら冗長性を除去する単一の変換Ｔ：Ｉ→Ｒ^ｋと見なされ得るからであり、全てのｘ∈ＩについてＴ（ｘ）＝（ｆ_１（ｘ），．．．，ｆ_ｋ（ｘ））が成立する。関数ｆ_１，．．．，ｆ_ｋはＩの特徴である。

【0106】

[00109] 本明細書に記載の技法は、ＧＰを使用する特徴抽出に関する従来の技法のものと２つの主な点で根本的に異なる。第１に、本技法は教師なし学習に使用することができる。第２に、優れた特徴を見つけるために複雑な適応度関数に依拠するのではなく、本技法は進化自体の興味深い特性、つまり標的がランダム化されるとき進化が入力データセットの特徴を自然にもたらすことに依拠する。適応度関数がはるかに複雑ではないので、このことはより効率的なプロセスをもたらす。現在、教師なし設定における自動特徴抽出の最も人気のある方法は主成分解析だが、これはもたらすことができる実現可能な特徴の複雑さを制限する線形投影の一種である。他方で、本明細書に記載の技法は任意の計算可能関数が、利用可能な計算資源によってのみ制限される特徴であることを可能にする。更に、それらの特徴は我々の選択のプログラミング言語に関して記述することができ、ことによると特徴をより説明可能にする。

【0107】

[00110] 一部の実施形態は、適応度の標的（ｘ，ｙ）を適応度スコアＦ_ｇにマップする離散確率変数Ｘ_ｇ：ＩＸＯ→Ｒによって遺伝子型ｇの適応度をモデリングする。Ｘ_ｇは遺伝子型変数と呼ばれる。以下の例が実証するように、全ての遺伝子型変数は１に等しい同じ平均及びσ_０ ^２で以下示す同じ分散を有する。

【0108】

ＲＴシステムの例１
[00111] 一部の実施形態は、固定された正の整数ｍ及びｎに関してＩ＝｛０，１｝^ｎ及びＯ＝｛０，１｝^ｍを有するＲＴシステムをモデリングする。一部の実施形態は、それぞれのあり得る対（ｘ，ｙ）が同程度になるようにサンプル空間ＩｘＯ上の一様確率分布を使用する。所与の遺伝子型ｇについて、一部の実施形態はランダムに選択された適応度の標的（ｘ，ｙ）の差分適応度Δ_ｇ∈［－１，１］を以下の疑似コードによって計算する。
１．ｚ＝Φ_ｇ（ｘ）及びｄ＝０とする。
２．１からｍの間の全てのビット位置ｉについて、ビットｚ_ｉがｙ_ｉと合致する場合、ｄに１を加え、さもなければｄから１を引く。
３．Δ_ｇ＝ｄ／ｍとする。

【0109】

[00112] 上記のステップ２は１次元のランダムウォークと同等であり、ｄはｍステップ後の起源に対する最終位置である。ｄは平均が０である状態で全てのｇについて同じ平均及び分散を有するので、Ｘ_ｇは平均が１である状態で全てのｇについて同じ平均及び分散を有することになる。

【0110】

ＲＴシステムの例２
[00113] より汎用のＲＴシステムでは、一部の実施形態は、考えられる任意の情報を符号化し得る任意長の入力及び出力ビットシーケンスＩ＝Ｏ＝｛０，１｝^＊を使用する。一部の実施形態は、以下に示す一様確率密度関数の改変形態を使用する。
ｐ（ｘ）＝２^{－２ｌ（ｘ）－１}

【0111】

[00114] 上記の方程式では、ｘは長さｌ（ｘ）の任意のビットシーケンスである。一部の実施形態は、以下のようにこの密度関数を使用して組｛０，１｝^＊からｘのためのランダム値を選択する。
１．ｘを空のビットシーケンスとする。
２．０と１とが同程度の可能性である状態でビットｂをランダムに選択する。
３．ｂ＝０の場合、ｘの現在の値を最終的な選択として使用する。
４．さもなければ０と１とが同等の可能性である状態でランダムに選択されたビットをｘに付加し、ステップ２に進む。

【0112】

[00115] 所与の遺伝子型ｇ及び適応度の標的（ｘ，ｙ）に関するΔ_ｇの計算は、ｚの長さが短い場合はｚにゼロを付加することによって、又はｚの長さが長い場合はｚを切り捨てることによってｚの長さがｙの長さと同じになるように最初に強制されることを除いて前のＲＴシステムの例のものと同じである。これにより、ステップ数がｙの長さに等しくｇに依存しないランダムウォークがやはりもたらされ、そのため平均が１である状態で全てのＸ_ｇが同じ平均及び分散を有する。

【0113】

[00116] このＲＴシステムは弱選択及び有性組み換えを実装し、従って対立遺伝子の頻度が以下の方程式によって示すように経時変化する：

【数1】

【0114】

[00117] 上記の方程式では、

【数2】

は世代ｔにおける集団内の遺伝子座ｉの対立遺伝子ｊの頻度であり、

【数3】

は遺伝子座ｉにおける対立遺伝子ｊを含む全ての遺伝子型にわたる世代ｔにおける平均適応度であり、Ｗ^ｔは世代ｔにおいて頻度を合計すると１になることを保つように設計された正規化定数である。

【0115】

[00118] 遺伝子座ｉ及び世代ｔの全ての対立遺伝子ｊについて、適応度の標的（ｘ，ｙ）を対立遺伝子の平均適応度

【数4】

にマップする離散確率変数であるように対立遺伝子変数

【数5】

：Ｉ×Ｏ→Ｒ
が定められる。次いで、遺伝子型ｇが世代ｔ内にあり、遺伝子座ｉにおける対立遺伝子ｊを含むように

【数6】

を全てのＸ_ｇの平均として表すことができる。そのような全てのＸ_ｇに

【数7】

がリンクされる。全ての対立遺伝子変数が１の平均を有するが、それらの分散は異なり得る。

【0116】

[00119] ｊ及びｋが同じ遺伝子座ｉの２つの別個の対立遺伝子だと仮定されたい。上記の方程式（１）は、以下の不等式が真である場合、或る世代ｔ_１から後の世代ｔ_２までの期間中に対立遺伝子ｋよりも対立遺伝子ｊを支持する。

【数8】

【0117】

[00120] 一部の実施形態は、ｔ_１とｔ_２との間の全ての世代ｔについて

【数9】

の分散を

【数10】

の分散未満にすることによって上記の不等式を確率論的な意味で実現する。これに関する正当化を確認するために、方程式

【数11】

及び

【数12】

による産出変数を定める。

【0118】

[00121] 全ての世代が適応度の標的の独立した選択を行うことから、異なる世代からの任意の２つの対立遺伝子変数は統計的に独立しているということになる。この場合、積の平均は平均の積であり、そのため両方の産出変数が１の平均を有し、そのことはそれらの２つの産出変数が区別不能だと人に信じさせる可能性がある。しかし以下の例が示すように、産出変数の分布は、その構成対立遺伝子変数それぞれの分散が増加するとき低値方向により大きく偏る。

【0119】

ＲＴシステムの例３
[00122] C++プログラムが、１００世代にわたって２つの産出変数をシミュレートする実験の１００回の試行を行った。図３は、一部の実施形態による、１００回の試行にわたるランクに対する産出変数のプロットを示す。「小Ｖａｒ」とラベル付けした産出変数は小さい分散を有する構成対立遺伝子変数をシミュレートし、「大Ｖａｒ」とラベル付けしたもう一方の産出変数は大きい分散を有する構成体をシミュレートする。出力をスプレッドシートとしてフォーマットし、それを図３でグラフ化している。図３のグラフは、小さい分散の産出変数が大きい分散の産出変数よりも試行のおおよそ三分の二で大きい値になることを示す。このことは、ＲＴシステムが概して平均適応度において小さい分散を有する対立遺伝子を大きい分散を有する対立遺伝子よりも支持する結論につながる。

【0120】

[00123] 典型的な対立遺伝子変数

【数13】

の分散をそのリンクされた遺伝子型変数Ｘ_ｇ１，Ｘ_ｇ２，．．．，Ｘ_ｇｓに関して表す。

【数14】

【0121】

[00124]

【数15】

はＲＴシステムの定数なので、当該の対立遺伝子が多数のリンクされた遺伝子型を有し、それらの可能な限り多くのペアがゼロ又は負の共分散を有する場合、方程式（３）の右辺が最小化される。ゼロの共分散はペアが無相関であることを意味し、負の共分散はペアが反相関であることを意味する。何れの状況も表現型が互いに非常に異なるように振る舞うことを含意する。

【0122】

ＲＴシステムの例４
[00125] 別のC++プログラムは、単純なＲＴシステムを５００世代にわたって実行する実験の１００回の試行を繰り返した。

【0123】

[00126] このシステムの例における遺伝子型はｒ＋１ビットのシーケンスであり、各ビットは対立遺伝子０及び１を有する遺伝子である。最初の遺伝子は符号化される関数Φにおいて残りのｒ個の遺伝子がどのように使用されるのかを決定するマスタ制御であり、関数Φは２^ｒビットのシーケンスを入力として取り、単一ビットを出力としてもたらす。制御遺伝子の対立遺伝子０は残りの遺伝子を無視し、全ての入力に対して０を返す関数であるようにφを定めるのに対し、対立遺伝子１は残りの遺伝子のｒビットを入力シーケンス内の位置を表す符号なし整数として解釈し、φはその位置における入力ビットの値を自らの出力として返す。

【0124】

[00127] 制御遺伝子の対立遺伝子０は、任意の集団内の単一の表現型にしかリンクすることができない。対立遺伝子０にリンクされる遺伝子型の任意のペアが正の共分散を有する。しかし対立遺伝子１は、多くのペアが無相関である多くの別個の表現型にリンクされる可能性があり、それらがゼロの共分散を有することを意味する。このようにして、進化は対立遺伝子０よりも対立遺伝子１を支持する。

【0125】

[00128] 各試行の終了時に、対立遺伝子１のパーセントとしての最終頻度を記録する。一部の実施形態によれば、降順のランクに対する対立遺伝子１の最終頻度を与えるスプレッドシートとしてデータをフォーマットし、それを図４でグラフ化している。事実、対立遺伝子１は殆どの試行で支持されている。実際に対立遺伝子１は、約３分の２で８０％以上の頻度で試行を終える。

【0126】

[00129] 方程式３で表した量は、当該の対立遺伝子の分散である。入力データセットの特徴としてＲＴシステムの最終成果物の集合内のプログラムを使用する目標を実現するために、一部の実施形態は、対立遺伝子の低い分散が対立遺伝子のリンクされた表現型間の多くの無相関関数に対応することを求める。不都合なことに、大きい集団の全てのメンバにリンクされる単一の対立遺伝子をシステムが有することが可能であり、その場合、対立遺伝子はゼロのあり得る最小分散を有するが、無相関ではなく反相関の合計２つの表現型しかない。これは２つの表現型が互いの逆である場合に起こる可能性があり、そのためそれらの共分散は－σ_０ ^２のあり得る最小値を有し、集団は偶数のメンバを有し、その半分は１つの表現型であり、もう半分は他方の表現型である。

【0127】

[00130] この状況は（逆が存在するにはプログラミング言語の表現力が十分豊かではないので）上記のＲＴシステムの例４では不可能だが、成功裏の特徴抽出のためにプログラミング言語は非常に表現力豊かであるべきである。

【0128】

[00131] 一部の実施形態は、逆ではないペアの相対スコアをほぼ同じにしておきながら全ての表現型にその逆と同じスコアを与えるように適応度関数を修正することによって上記の問題を解く。一部の実施形態では、修正済みの適応度関数では（ｉ）以前は高度に反相関していた表現型のペアが高度に相関するようになり、（ｉｉ）高度に相関していたペアが高度に相関したままであり、（ｉｉｉ）高度に無相関だったペアが高度に無相関のままである。従って変更後、対立遺伝子の分散が低くなるための最も可能性のある方法はリンクされた表現型の多くのペアが高度に無相関であることであり、そのことは特徴抽出に適している。

【0129】

[00132] ＲＴシステムの例１及び２に関して上記で説明した一部の実施形態は、標的出力を実際の出力と比較することに基づいて一次元ランダムウォークの終わりの起源に対する位置と共に差分適応度値を識別する。一部の実施形態は、正、負、又はゼロであり得る位置ではなく常に非負の起源からの距離を使用する。この形態は互いに同じスコアを逆に対して与えるが、ランダムウォークが十分長くない場合、非逆を区別する能力が失われる。最悪の場合、出力が単一ビットでしかない場合、全ての表現型に同じスコアが指定される。この問題に対処するために、一部の実施形態はランダム化された標的（ｘ，ｙ）をランダムな入出力ペアの妥当に大きい固定サイズのシーケンス（（ｘ_１，ｙ_１），．．．，（ｘ_ｕ，ｙ_ｕ））に変更し、ランダムウォークが出力の全シーケンス上で生じる。要求される通り、この形態は非逆が以前と実質的に同じ関係を有しながら、逆が同じスコアを得ることをもたらす。遺伝子型変数の平均はもはや正確に１ではないが、全ての遺伝子型変数が同じ平均及び分散を有し、従って特徴抽出のための要件を満たしていることは依然として事実である。

【0130】

特徴抽出のためのＲＴシステムの例
[00133] この節は、一部の実施形態による特徴抽出を実装するためのＲＴシステムの他の特性を記載する。任意の計算可能な表現型が理論的に可能であるように、プログラミング言語Ｌはチューリング完全であることが望ましい。一部の実施形態はこのことを、任意の実装形態が計算資源、最も分かりやすいのはメモリ空間及びプロセッサ速度に対する制限を有することと比較検討する。一部の実施形態では、資源をスケールアップしたとき、ＲＴシステムがかつてないほど多くの様々な表現型をもたらすことができる。

【0131】

エラーを抑制するための例
[00134] チューリング完全なプログラミング言語におけるランダム生成プログラムは、出力をもたらすことなしに休止すること又は資源限界を上回ること等、人間のプログラマによって書かれる場合はエラーと見なされる挙動をもたらす可能性が高い。ＲＴシステムにおけるこの挙動を抑制するために、一部の実施形態はプログラム内のそのような任意のエラーを検出するように適応度関数を修正し、その場合はそのプログラムに可能な限り低いスコアを指定する。

【0132】

[00135] この修正は、全ての遺伝子型が同じ平均適応度を有するという先に与えた仮定に違反するが、同じ平均適応度を有する２つの対立遺伝子間の選択が、経時的な平均適応度における低い分散を有する対立遺伝子を支持するという結論には影響しない。

【0133】

表現型を保つための方法の例
[00136] 一部の実施形態は、図３のグラフの右側及び図４のグラフの右側に示す状況を最適化する。世代の任意のスパンの間、非常に少ない表現型にリンクされた悪い対立遺伝子が多くの表現型にリンクされたよい対立遺伝子を破る高い可能性がある。これは頻繁には起こらないが、起こる場合、悪い対立遺伝子にとっての決定的勝利になる傾向がある。特徴抽出に関してこれが意味するのは、十分に長い任意の世代数にわたり、多岐にわたる表現型が集団から消える大量絶滅事象があるということである。システムが突然変異オペレータを使用すると仮定し、損害は徐々に修復することができるが、それは最初からのやり直しを意味する。実際問題として、以下に記載するように一部の実施形態は絶滅事象から回復するためのより高速なやり方を提供する。

【0134】

[00137] 一部の実施形態は、新たな表現型が発見されるとき、その新たな表現型の目録を作り残しておく。このことは、もたらされる表現型の数に関してシステムの進捗を追跡できるようにする付加的利点を有する。端的な実装形態は以下の通りである。システムの初期化中、一部の実施形態はシステムの寿命にわたって固定されたままである試験入力のシーケンス（ｘ_１，ｘ_２，．．．，ｘ_ｖ）∈Ｉ^ｖをランダムに生成する。集団内の全ての世代及び全ての遺伝子型ｇで、出力のシーケンス（φ_ｇ（ｘ_１），φ_ｇ（ｘ_２），．．．，φ_ｇ（ｘ_ｖ））∈Ｏ^ｖであるように定められる表現型φ_ｇのシグネチャを計算する。表現型のシグネチャが過去に認められていない場合、その表現型は新しいと見なされ、その場合ｇがφ_ｇのシグネチャによってキー付けされた永続テーブル内に記憶される。シグネチャが新しいときを突き止めるためにこのテーブルを使用することに加え、一部の実施形態は知られている全ての表現型のアーカイブとしてこのテーブルを使用する。

【0135】

[00138] 大量絶滅が何時生じたのかを明らかにしようと試み、アーカイブから集団に表現型を復元するのではなく、全ての世代で集団内にアーカイブからの小さいランダムサンプルを混合する方が単純ながらも非常に効果的である。とりわけ次世代の親が選択されるたびに、一部の実施形態は小さな確率ｐ_０で親を集団の現在の世代から選択するのではなくアーカイブからランダムに選択する。よい対立遺伝子は悪い対立遺伝子よりもアーカイブ内でより高度に表される傾向にあるので、この形態はよい対立遺伝子に継続的な付加的利点を与える。

【0136】

[00139] 表現型アーカイブを使用する従来のＧＰシステムでは、アーカイブへの追加資格を得るには表現型が新しいだけでは不十分である。代わりに表現型が前の表現型と異なる量が測定され、資格を得るにはその量が幾らかの閾値を上回らなければならない。かかるシステムでは、表現型の多様性を実現するためにアーカイブの使用が必須である。他方でＲＴシステムは、方程式３に示すように表現型の多様性を測定するために進化自体のメカニクスに依拠するより効率的な手法を使用する。アーカイブを使用しなくてもＲＴシステムが表現型の多様性をもたらす傾向があることは、一部の実施形態による上記のＲＴシステムの例４の中で実証されている。

【0137】

最終成果物の例
[00140] 一部の実施形態では、上記の表現型アーカイブがＲＴシステムの最終成果物の基礎である。最終成果物をもたらすために、一部の実施形態は目標に応じて表現型アーカイブからサイズｗの特定の部分集合を選択し、ｗはプログラムの所望の数である。

【0138】

[00141] 一部の実施形態では、ＧＰインスタンスをシードするための汎用ビルディングブロックをもたらすために、表現型アーカイブはシードリストとしても知られており、リスト上のプログラムはシードと呼ばれる。最終成果物のために、一部の実施形態はリストに直近に追加されたｗ個のシードを選択し、但しｗはシードされるＧＰインスタンスの所望の集団サイズである。この方法は直近シード選択法と呼ばれることがある。

【0139】

[00142] 特徴抽出のために、一部の実施形態は表現型アーカイブを特徴候補のリストと見なし、抽出特徴としてｗ個の最良の候補を選択するために適用可能な１つ又は複数の十分に確立された特徴選択技法を使用する。機械学習では、特徴選択は入力次元を減らす手段として入力データ要素のリストに通常適用される（特徴抽出の代替策）。代わりに一部の実施形態は、特徴抽出プロセス内の最終ステップとして特徴候補のリストに対して特徴選択をここで適用する。一部の特徴選択技法は教師なし学習に適しており、一部は厳密に教師あり学習用であり、それらがラベル付き入力データを必要とすることを意味する。

【0140】

[00143] 入力データがラベルなしである教師なし学習の事例では、データ点を互いに区別しやすいように、自らの出力値における大きい標準偏差を有する候補を特徴選択が典型的には支持する。一部の実施形態は、特徴のペアが高度に無相関であるべき要件とこのことを組み合わせる。単純だが効果的な手法は、標準偏差の降順に候補のリストを最初にソートしてリストＳをもたらすことである。次にリストＳ上の候補ｃごとの相関スコアを計算し、この相関スコアはリストＳ上でｃに先行する他の任意の候補とのｃの相関の最大絶対値である。最後に、相関スコアの昇順にＳをソートしてリストＲをもたらし、Ｒ上の最初のｗ個の候補を抽出特徴として使用する。この方法は、最大標準偏差最小相関選択法と呼ばれることがある。

【0141】

[00144] 一部の実施形態では、入力データがラベル付きの場合、特徴抽出のためにラベルを使用するために１つ又は複数のラベルと（正又は負に）高度に相関する候補が支持される。この形態は１種類のラベルしかない場合に、及び／又はデータがそのラベルにどのように関係するのかを決定するのに特に適切である。この形態のための最も単純な手法は、特徴のペアが無相関である要件を緩和する。一部の実施形態は、ラベルとの相関の絶対値の降順に候補のリストを単純にソートし、ソートしたリスト上の最初のｗ個の候補を使用する。好都合なことに、各候補が別個の表現型を有することは抽出特徴間の重複がないことを確実にする。この方法は、最大相関選択法と呼ばれることがある。この方法は、或る特定のラベルに関してモデルを進化させるための汎用ビルディングブロックの作成にも適している。

【0142】

特徴のための汎用ビルディングブロック
[00145] 一部の実施形態は、ランダムにシードするのではなく汎用ビルディングブロックの作成を使用して初期集団をシードすることにより、消費される計算資源及び得られる結果の質の両方の観点から特徴抽出プロセスの性能を改善する。

【0143】

[00146] これは、目標が同じ問題領域内の複数のデータセットに対して特徴抽出を行うことである場合は確かに事実である。例えば手書き数字の画像の特徴に有用なビルディングブロックの多くは、手書きの英字の画像の特長にも、とりわけ何れの場合にも画像が同じサイズ及び形状を有する場合は有用である。一部の実施形態は、汎用ビルディングブロックを最初に作成し、両方の事例でそれらを再利用することによって計算資源を節約する。

【0144】

[00147] 一部の実施形態は、１つだけのデータセットでさえ汎用ビルディングブロックを使用する。この技法は、入力として測定データだけを使用してもたらすには困難であり得る複雑な多岐にわたる表現型を初期集団が含むことを可能にする。この技法は、単純なものよりも適切であり得る複雑な特徴を見つけることも助ける。

【0145】

使用事例の例
[00148] この節は、画像分類及び測定健康データに基づく疾患予測という２つのそれぞれ異なる設定において、ここで説明する及び上記で説明した技法を使用する成功裏の特徴抽出を実証する使用事例を記載する。各事例は問題領域に適した別個のプログラミング言語を使用する。訓練データセット及び試験データセットに区分化されるラベル付きデータが両方の事例で入手可能である。一部の実施形態では、特徴が抽出されるとき、教師なし学習を実証するために画像分類の場合はデータをラベルなしとして扱う。一部の実施形態では、特徴が抽出されるとき、教師あり学習を示すために疾患予測に関してデータをラベル付きとして扱う。両方の事例に共通の全般的な手法は以下の通りである。

【0146】

[00149] 一部の実施形態は、当該の問題領域の特徴のための汎用ビルディングブロックを作成するために第１のＲＴシステムを使用し、訓練データセットの特徴を抽出するために汎用ビルディングブロックを活用する第２のＲＴシステムを使用する。一部の実施形態は、訓練データセット及び試験データセットの両方の中の入力データを上記のように入力次元を減らしたビットシーケンスに変換するために抽出済みの特徴を使用する。

【0147】

[00150] 一部の実施形態は変換済みの訓練データセットに基づいて標準分類器を訓練し、変換済みの試験データセットに基づいて分類器の有効度を明らかにする。一部の実施形態は、ラベル（又はクラス）ごとに１つの出力ノードを有し、活性化関数のシグモイドを使用する、浅い（隠れ層なしの）全結合人工ニューラルネットワーク（ＡＮＮ）を分類器としてもたらす。一部の実施形態は訓練のための所望の平均二乗誤差（ＭＳＥ）として０．０４を設定する。実験は、本明細書に記載する技法の実施形態が訓練データセット及び試験データセットの両方に関して所望の誤差を実現することを示している。

【0148】

[00151] 上記の性能は、元の訓練データセットに基づいて訓練され、元の試験データセットに基づいて試験される、同様に構成された浅いＡＮＮの性能に匹敵することを実験が示した。前者のＡＮＮは後者と同程度の性能を示し、それにより成功裏の特徴抽出に要求されるように情報コンテンツの損失なしに入力次元が減らされていることを示している。

【0149】

使用事例の例１：手書き数字の分類
[00152] 一部の実施形態は、手書き数字の何万枚もの走査画像をそれらの正しい分類と共に含むＭＮＩＳＴデータベースを使用する。データベースは、６０，０００枚の画像及び１０，０００枚の画像をそれぞれ有する訓練データセット及び試験データセットへと分けられる。画像はグレースケールであり、サイズは２８×２８ピクセルである。

【0150】

セットアップの例
[00153] 一部の実施形態はＲＴシステムを以下のようにセットアップする：
１．０が［０，１２７］の間隔に対応し、１が［１２８，２５５］の間隔に対応する状態で、最初は０から２５５に及ぶ各ピクセル値が単一ビットに変換されるように全ての画像を再フォーマットする。汎用ビルディングブロックの作成に関して、Ｉ＝｛０，１｝^ｎとし、但し入力次元はｎ＝２８×２８＝７８４である。特徴抽出に関して、Ｉは訓練データセットに対応する｛０，１｝^ｎの部分集合である。
２．両方のＲＴシステムに関して、Ｏ＝｛０，１｝とする。
３．両方のＲＴシステムに関して、ランダム化された標的の確率分布をサンプル空間Ｉ×Ｏ上で一様とする。
４．両方のＲＴシステムのプログラミング言語Ｌに関して、パーセプトロンチューリングマシン（ＰＴＭ）の言語を使用する。この言語はチューリング完全であり、ニューロエボリューションの一種を可能にし、各プログラムがＡＮＮを生成することを意味する。関連するＰＴＭ構成パラメータは以下の通りである。
ａ．状態の数は５１２である。
ｂ．テープの数は２であり、入力画像の行インデックス又は列インデックスを含むのに十分長い５ビットの長さを各テープは有する。両方のテープが入力インデックステープであり、出力は単一ビットなので出力インデックステープはない。
ｃ．全てのプログラムは４，０９６命令の固定長を有する。
ｄ．プログラムによって生成されるＡＮＮに対する資源限界を以下のように設定する：
ｉ．ノードの最大数は５０，０００である。
ｉｉ．最大深度は１００である。
ｉｉｉ．最大ファンアウトは１６である。
ｉｖ．資源限界を超えた場合、それはエラーと見なされ、その場合プログラムに可能な限り低い適応度スコアが指定される。
５．両方のＲＴシステムに関して、集団のサイズを１，０２４に設定する。
６．少なくとも１００，０００個のシードがもたらされたとき汎用ビルディングブロックの作成を終了し、少なくとも１００，０００個の候補がもたらされたとき特徴抽出を終了する。
７．最終成果物の選択方法に関して、汎用ビルディングブロックの作成のために１，０２４のサイズ（パラメータｗ）を有する最近のシードを使用し、特徴抽出のために３００のサイズを有する最大標準偏差最小相関を使用する。
８．ランダム化された標的内の入出力ペアの数に３２を使用する。
９．表現型シグネチャを生成するために使用する試験入力の数に３２を使用する。
１０．選択強度に０．５を使用する。
１１．表現型アーカイブから親を選択する確率に０．０６２５を使用する。
１２．遺伝的オペレータを以下のように定める。
ａ．遺伝子ごとに作用する０．５の確率の一様交叉を使用する。
ｂ．遺伝子型に関して作用する０．００３の確率の置換オペレータを使用する。つまり、各子孫について０．００３の確率でその遺伝子がランダムに並べ替えられる。
ｃ．遺伝子に関して作用する０．００１の確率の突然変異オペレータを使用する。つまり、各子孫の遺伝子ごとに０．００１の確率で対立遺伝子が異なる対立遺伝子に変更される。

【0151】

結果の例
[00154] 第１のＲＴシステムは１００，０００個のシードをもたらし、直近にもたらされた１，０２４個のシードが第２のＲＴシステムの初期集団としての役割を果たす。第２のＲＴシステムは、入力次元を７８４から３００に減らすために訓練データセット及び試験データセットを変換する３００個の抽出特徴をもたらす。変換済みのデータセットに対してＡＮＮを実行することは以下の出力をもたらす。
最大エポック１０００．所望の誤差：０．０３９９９９９９９１．
エポック１．現在の誤差：０．３２００９２５２９１．ビットフェイル３３５９６３．
エポック１０．現在の誤差：０．０４８８９５５８２６．ビットフェイル３６３５３．
エポック１７．現在の誤差：０．０３８９７８６７３５．ビットフェイル２９４３３．
試験データに対し、ＭＳＥ：０．０３８６６１、ビットフェイル：４９２４．

【0152】

[00155] 以下の出力を有する、元のデータセットに対してＡＮＮを実行することとこれを比較する。
最大エポック１０００．所望の誤差：０．０３９９９９９９９１．
エポック１．現在の誤差：０．３１６２６４６２９４．ビットフェイル３１００９２．
エポック１０．現在の誤差：０．０９５１００４７７３．ビットフェイル７０８１３．
エポック１４．現在の誤差：０．０３２５１０９５８６．ビットフェイル２４３４９．
試験データに対し、ＭＳＥ：０．０３４３８７、ビットフェイル：４４１８．

【0153】

[00156] 上記で示したように、抽出特徴を使用するＡＮＮは、成功裏の特徴抽出を示す元のデータセットを使用するＡＮＮの性能に匹敵する性能を有する。

【0154】

使用事例の例２：心疾患の予測
[00157] 一部の実施形態は、３０３名の匿名患者のそれぞれに関する１３個の測定健康特性を、ラベル（又は標的クラス）として使用される、患者が心疾患を有するかどうかの指示（１＝はい、０＝いいえ）と共に含む公的に入手可能なデータセットを使用する。予備のステップとして、一部の実施形態は２４２名の患者を表す訓練データセット及び６１名の患者を表す試験データセットへとデータをランダムに分ける。

【0155】

セットアップの例
[00158] 一部の実施形態はＲＴシステムを以下のようにセットアップする。
１．１３個の入力データ要素のそれぞれを平均及び訓練データセットからの標準偏差に基づいて正規化する。つまり１≦ｉ≦１３である入力ｘ_ｉごとに、μ_ｉを平均とし、σ_ｉをｘ_ｉの標準偏差とし、以下の方程式によって与えられるｘ_ｉの正規化済みの値

【数16】

でｘ_ｉを置換する。

【数17】

σ_ｉが０に等しくない場合、さもなければ０。
汎用ビルディングブロックの作成に関して、Ｉ＝Ｒ^ｎとし、入力次元はｎ＝１３である。特徴抽出に関して、Ｉは（正規化後の）訓練データセットに対応するＲ^ｎの部分集合である。
２．両方のＲＴシステムに関して、Ｏ＝｛０，１｝とする。
３．汎用ビルディングブロックの作成に関して、ランダム化された標的の確率分布は、平均０、標準偏差１のガウス分布に従って各入力データ要素ｘ_ｉを独立に選択すること、及びＯ上の一様分布に従って出力を独立に選択することと同等である。ガウス分布φ（ｘ_ｉ）は以下の方程式によって与えられる。

【数18】

次いで、ｘ＝（ｘ_１，．．．，ｘ_ｎ）である（ｘ，ｙ）∈ＩｘＯに関して、確率分布が以下の方程式によって与えられる。

【数19】

特徴抽出に関して、ランダム化された標的の確率分布はサンプル空間ＩｘＯ上の一様分布である。
４．プログラミング言語ＬはArtur B.Adibによって開発されたSlash/Aである。全ての入力及び出力が倍精度浮動小数点形式の実数なので、Slash/Aは数値データセットを解析するのに理想的なチューリング完全な命令型プログラミング言語である。以下の例は２つの入力を読み取り、それらを合計し、結果を出力として返す。
input/ #入力バッファから次の数字を得てそれをレジスタＦに保存する
0/ #レジスタＩ＝０に設定する
save/ #ＦのコンテンツをデータベクトルＤ［Ｉ］内に保存する（即ちＤ［０］：＝Ｆ）
input/ #別の入力を得てＦに保存する
add/ #Ｉによってポイントされる現在のデータをＦに加える（即ちＦ：＝Ｆ＋Ｄ［０］）
output/. #出力バッファにＦを付加する
Slash/Aは、上記のようなテキスト形式で与えられるプログラムを単に一連の符号なし整数であって、それぞれの符号なし整数は言語内の一意の命令にマップする、一連の符号なし整数であるバイトコード形式に変換するための関数を含むC++ライブラリとして実装される。ライブラリ内に含まれるSlash/Aインタプリタによって使用されるのはバイトコード形式である。ＧＰの遺伝子型としてバイトコード形式を使用することによって遺伝的オペレータを実装するのが容易になる。例えば突然変異オペレータは、バイトコード内のランダムに選択された符号なし整数を（構成可能な命令セット内の命令の数によって決定される）適切な数値範囲内の新しいランダムに選択された符号なし整数と単純に置換する。インタプリタはゼロ除算又は有効なメモリ範囲外のインデックス作成等のエラーを無視するが、かかるイベントに関する統計は追跡され、そのことはプログラムが自明かどうかを判定するためのカスタム条件をシステムが定めることを可能にする。
一部の実施形態によれば、両方のＲＴシステムに共通の関連するSlash/A構成パラメータは以下の通りである。
ａ）２つの数値定数を使用し、ループ又は高度な数学（例えば三角関数）を含まない既定の命令セットの部分集合を使用する。一部の実施形態は、命令セットの新たなインスタンスを生成するために以下のC++コードを使用する。
SlashA::InstructionSet* NewInstructionSet() {
SlashA::InstructionSet* iset_ptr = new SlashA::InstructionSet(2);
iset_ptr->insert_DIS_IO();//入力／出力コマンド
iset_ptr->insert_DIS_memreg();//メモリ－レジスタコマンド
iset_ptr->insert_DIS_regreg();//レジスタ－レジスタコマンド
iset_ptr>insert_DIS_basicmath(); //基本的な数学（加算、減算、乗算、//除算）
iset_ptr->insert_DIS_misc();//空命令//「ｎｏｐ」
return iset_ptr;
}
ｂ）メモリコマンドに使用するデータベクトルの長さは１００である。
ｃ）全てのプログラムが１２８命令の固定長を有する。
ｄ）一部の実施形態は以下の場合にプログラムを自明だと見なし、従って最も低い適応度スコアを指定する：
ｉ．プログラムが出力を一切もたらさない
ｉｉ．プログラムが出力をもたらす前に如何なる入力も読み取らない
ｉｉｉ．プログラムが、浮動小数点演算のためのＩＥＥＥ規格によるＮａＮ又はＩＮＦＩＮＩＴＹである出力をもたらす
ｅ）プログラムの出力値ｒが出力バッファに追加される最初の値であり、その後の値は無視されるという慣習を使用する。一部の実施形態は、ｒ＞０が成立する場合はｂ＝１に設定し、さもなければｂ＝０に設定することによってｒをビット値ｂにマップする。
５．両方のＲＴシステムに関して集団のサイズを１，０２４に設定する。
６．少なくとも１００，０００個のシードがもたらされたとき汎用ビルディングブロックの作成を終了し、少なくとも１００，０００個の候補がもたらされたとき特徴抽出を終了する。
７．最終成果物の選択方法に関して、汎用ビルディングブロックの作成のために１，０２４のサイズ（パラメータｗ）を有する最近のシードを使用し、特徴抽出のために６のサイズを有する最大相関を使用する。
８．ランダム化された標的内の入出力ペアの数に３２を使用する。
９．表現型シグネチャを生成するために使用する試験入力の数に３２を使用する。
１０．選択強度に０．５を使用する。
１１．表現型アーカイブから親を選択する確率に０．０６２５を使用する。
１２．遺伝的オペレータを以下のように定める。
ａ．０．５の確率の一点交叉オペレータを使用する。
ｂ．遺伝子型に関して作用する０．００３の確率の置換オペレータを使用する。つまり、各子孫について０．００３の確率でその遺伝子がランダムに並べ替えられる。
ｃ．遺伝子に関して作用する０．００１の確率の突然変異オペレータを使用する。つまり、各子孫の遺伝子ごとに０．００１の確率で対立遺伝子が異なる対立遺伝子に変更される。

【0156】

結果の例
[00159] 第１のＲＴシステムは１００，０００個のシードをもたらし、直近にもたらされた１，０２４個のシードが第２のＲＴシステムの初期集団としての役割を果たす。第２のＲＴシステムは、入力次元を１３から６に減らすために訓練データセット及び試験データセットを変換する６個の抽出特徴をもたらす。変換済みのデータセットに対してＡＮＮを実行することは以下の出力をもたらす。
最大エポック１０００．所望の誤差：０．０３９９９９９９９１．
エポック１．現在の誤差：０．２８４０４２５６７０．ビットフェイル２０５．
エポック１００．現在の誤差：０．１１０４９１１０４４．ビットフェイル３６．
エポック２００．現在の誤差：０．１１０４９０２１７８．ビットフェイル３６．
エポック３００．現在の誤差：０．１１０４９３９３５６．ビットフェイル３６．
エポック４００．現在の誤差：０．１１０４９２７１３７．ビットフェイル３６．
エポック５００．現在の誤差：０．１１０４９２８６２８．ビットフェイル３６．
エポック６００．現在の誤差：０．１１０４９１４２４８．ビットフェイル３６．
エポック７００．現在の誤差：０．１１０４９２４２３２．ビットフェイル３６．
エポック８００．現在の誤差：０．１１０４９０００１７．ビットフェイル３６．
エポック９００．現在の誤差：０．１１０４９３２２７８．ビットフェイル３６．
エポック１０００．現在の誤差：０．１１０４９１１５６６．ビットフェイル３６．
試験データに対し、ＭＳＥ：０．１２８８７９、ビットフェイル：１１．
以下の出力を有する、元のデータセットに対してＦＡＮＮを実行することとこれを比較する。
最大エポック１０００．所望の誤差：０．０３９９９９９９９１．
エポック１．現在の誤差：０．２５０１８３１０５５．ビットフェイル１２９．
エポック１００．現在の誤差：０．１０３７６０８６０９．ビットフェイル３５．
エポック２００．現在の誤差：０．１０３７６１６５８１．ビットフェイル３５．
エポック３００．現在の誤差：０．１０３７５９７８０５．ビットフェイル３５．
エポック４００．現在の誤差：０．１０３７５９５５７０．ビットフェイル３５．
エポック５００．現在の誤差：０．１０３７６１３３７７．ビットフェイル３５．
エポック６００．現在の誤差：０．１０３７５９６６８８．ビットフェイル３５．
エポック７００．現在の誤差：０．１０３７５９５０４９．ビットフェイル３５．
エポック８００．現在の誤差：０．１０３７６３２８２３．ビットフェイル３５．
エポック９００．現在の誤差：０．１０３７５９３７０７．ビットフェイル３５．
エポック１０００．現在の誤差：０．１０３７６０３３９３．ビットフェイル３５．
試験データに対し、ＭＳＥ：０．１３８７２４、ビットフェイル：１６．

【0157】

[00160] 上記で示したように、抽出特徴を使用するＡＮＮは、成功裏の特徴抽出を示す元のデータセットを使用するＡＮＮの性能に匹敵する性能を有する。

【0158】

[00161] このようにして、ランダム化された標的の存在下での進化は入力データセットの特徴をもたらし、自動特徴抽出のための効率的で汎用の方法を与えるために使用することができる。従って、本システムは教師なし学習に使用することができ、恣意的な複雑さの特徴をもたらすことができ、選ばれた任意のプログラミング言語でその特徴を表すことができる。

【0159】

[00162] 本明細書で使用した用語は特定の実施形態を説明することを目的とするに過ぎず、特許請求の範囲の限定であることは意図しない。実施形態の説明及び添付の特許請求の範囲で使用するとき、文脈上明白に他の意味を示す場合を除いて単数形「a」、「an」、及び「the」は複数形も含むことを意図する。本明細書で使用するとき「及び／又は」という用語は、列挙される関連アイテムの１つ又は複数の任意の及びあらゆる全ての組み合わせを指し包含することも理解されよう。本明細書で使用するとき「含む」及び／又は「含んでいる」という用語は、述べられた特徴、完全体、ステップ、操作、要素、及び／又はコンポーネントの存在を規定するが、１つ又は複数の他の特徴、完全体、ステップ、操作、要素、コンポーネント、及び／又はそのグループの存在又は追加を除外しないことが更に理解されよう。

【0160】

[00163] 本明細書で使用するとき、「if（場合）」という用語は、文脈に応じて「when」、又は「upon」、又は述べられた先行条件が真「だと判定することに応答して」、又は「だという判定に応じて」、又は「だと検出することに応答して」を意味すると解釈することができる。同様に、「［述べられた先行条件が真である］と判定される場合（if it is determined）」、又は「［述べられた先行条件が真である］場合（if）」、又は「［述べられた先行条件が真である］とき（when）」という語句は、文脈に応じて述べられた先行条件が真「だと判定するとき（upon determining）」、又は「だと判定することに応答し（in response to determining）」、又は「だという判定に応じて（in accordance with a determination）」、又は「だと検出するとき（upon detecting）」、又は「だと検出することに応答し（in response to detecting）」を意味すると解釈することができる。

【0161】

[00164] 上記の説明は特定の実施形態に関して説明目的で記載してきた。但し、上記の説明的な解説は網羅的であることも開示した厳密な形態に本発明を限定することも意図しない。上記の教示に照らして多くの修正及び改変が可能である。実施形態は本発明の原理及びその実用的応用を最もよく説明するために、それにより考えられる特定の使用法に適した様々な修正を伴って他の当業者が本発明及び様々な実施形態を最もよく利用できるようにするために選択し記載した。

【図1】

【図2】

【図3】

【図4】

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版