特許7703390 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ＳＣＲＥＥＮホールディングスの特許一覧

特許7703390スケジュール作成方法、スケジュール作成装置、基板処理装置、基板処理システム、記録媒体、及びスケジュール作成プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-06-27

(45)【発行日】2025-07-07

(54)【発明の名称】スケジュール作成方法、スケジュール作成装置、基板処理装置、基板処理システム、記録媒体、及びスケジュール作成プログラム

(51)【国際特許分類】

H01L 21/02 20060101AFI20250630BHJP

G06N 20/00 20190101ALI20250630BHJP

【ＦＩ】

H01L21/02 Z

G06N20/00

【請求項の数】 19

(21)【出願番号】P 2021125528

(22)【出願日】2021-07-30

(65)【公開番号】P2023020264

(43)【公開日】2023-02-09

【審査請求日】2024-06-17

(73)【特許権者】

【識別番号】000207551

【氏名又は名称】株式会社ＳＣＲＥＥＮホールディングス

(74)【代理人】

【識別番号】110002310

【氏名又は名称】弁理士法人あい特許事務所

(74)【代理人】

【識別番号】100168583

【弁理士】

【氏名又は名称】前井宏之

(72)【発明者】

【氏名】河合淳

(72)【発明者】

【氏名】笠原敬

(72)【発明者】

【氏名】犬飼恵介

【審査官】堀江義隆

(56)【参考文献】

【文献】国際公開第２０２０／２０５３３９（ＷＯ，Ａ１）

【文献】特開２０２０－１７７５６５（ＪＰ，Ａ）

【文献】特開２０１５－０５２９９８（ＪＰ，Ａ）

【文献】特開２０２１－０６４０４９（ＪＰ，Ａ）

【文献】特開２０２１－０２６５０７（ＪＰ，Ａ）

【文献】国際公開第２０２０／２２５９９５（ＷＯ，Ａ１）

【文献】米国特許出願公開第２００４／００４８４６１（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０１Ｌ２１／０２

Ｇ０６Ｎ２０／００

Ｇ０５Ｂ１９／４１８

(57)【特許請求の範囲】

【請求項1】

基板の処理手順に関わる基板処理装置の各構成要素のタイムスケジュールを、機械学習を用いて作成するためのスケジュール作成方法であって、
学習ステップを複数回実行して前記タイムスケジュールを作成し、
前記学習ステップでは、前記基板処理装置の前記各構成要素のタイムスケジュールを規定するためのタイムテーブルに、前記処理手順を手順ごとに示す各パターンを順次配置していき、予め用意された前記各パターンの全てが前記タイムテーブルに配置された後に評価値を取得し、
前記各パターンを前記タイムテーブルに順次配置する際に、
既定の制約条件に基づいて、前記各パターンのうちから、前記タイムテーブルに配置可能な配置可能パターンを取得し、
前記機械学習により、前記配置可能パターンのうちから、前記評価値が最大化するパターンを予測して選択し、
選択した前記パターンを前記タイムテーブルに配置することにより、前記タイムテーブルを更新し、
前記評価値を取得する際に、
前記各パターンの全てが配置された前記タイムテーブルに基づいて最終報酬を取得し、
前記最終報酬を含む報酬に基づいて前記評価値を算出し、
前記報酬は、中間報酬を更に含み、
選択した前記パターンを前記タイムテーブルに配置して、前記タイムテーブルを更新した後、
前記タイムテーブルに最後に配置した前記パターンが、既定の中間報酬付与条件に合致するか否かを判定し、
前記中間報酬付与条件に合致すると判定した場合、前記中間報酬を取得する、スケジュール作成方法。

【請求項2】

前記評価値を算出する際に、
前記タイムテーブルによって示される時刻のうちから、前記中間報酬付与条件に合致する前記パターンの位置に対応する時刻を取得し、
取得した前記時刻に基づいて、前記中間報酬に割引率を割り当てるか否かを決定し、
前記中間報酬に割引率を割り当てると決定した場合、取得した前記時刻に応じて前記割引率の値を算出する、請求項１に記載のスケジュール作成方法。

【請求項3】

前記基板処理装置の前記各構成要素は、複数の基板を同時に搬送可能な搬送ロボットを含み、
前記中間報酬は、正の報酬である第１中間報酬を含み、
前記中間報酬付与条件は、前記第１中間報酬に対応する第１中間報酬付与条件を含み、
前記第１中間報酬付与条件は、前記搬送ロボットが互いに異なる基板を同時に搬送することを示す、請求項１又は請求項２に記載のスケジュール作成方法。

【請求項4】

前記基板処理装置の前記各構成要素は、基板を処理する処理部を含み、
前記中間報酬は、正の報酬である第２中間報酬を含み、
前記中間報酬付与条件は、前記第２中間報酬に対応する第２中間報酬付与条件を含み、
前記第２中間報酬付与条件は、前記処理部から基板が搬出された直後に前記処理部に他の基板が搬入されることを示す、請求項１から請求項３のいずれか１項に記載のスケジュール作成方法。

【請求項5】

前記パターンは、第１パターン及び第２パターンを含み、
前記タイムテーブルによって示される時刻において、前記第１パターンが配置される位置に対応する時刻は、前記第２パターンよりも早い時刻であり、
前記中間報酬は、負の報酬である第３中間報酬を含み、
前記中間報酬付与条件は、前記第３中間報酬に対応する第３中間報酬付与条件を含み、
前記第３中間報酬付与条件は、前記タイムテーブルに前記第２パターンが配置された後に前記第１パターンが配置されることを示す、請求項１から請求項４のいずれか１項に記載のスケジュール作成方法。

【請求項6】

前記制約条件は、前記処理手順の順序に従って、前記各パターンのうちから次に配置可能なパターンを取得させる条件を含む、請求項１から請求項５のいずれか１項に記載のスケジュール作成方法。

【請求項7】

前記制約条件は、前記基板処理装置が物理的に実行できない動作の実行を禁止する条件を含む、請求項１から請求項６のいずれか１項に記載のスケジュール作成方法。

【請求項8】

前記基板処理装置の前記各構成要素は、基板を処理する複数の処理部を含み、
前記最終報酬は、正の報酬である第１最終報酬を含み、
前記最終報酬を取得する際に、
前記複数の処理部のうち最後に基板を処理した処理部である最終処理部を特定し、
前記タイムテーブルによって示される時刻のうちから、前記最終処理部が最後に基板を処理した時刻を取得し、
取得した前記時刻に基づいて前記第１最終報酬を取得する、請求項１から請求項７のいずれか１項に記載のスケジュール作成方法。

【請求項9】

前記基板処理装置の前記各構成要素は、基板を処理する複数の処理部を含み、
前記最終報酬は、正の報酬である第２最終報酬を含み、
前記最終報酬を取得する際に、
前記タイムテーブルによって示される時刻のうちから、前記複数の処理部のそれぞれが最初に基板を処理した第１時刻と、前記複数の処理部のそれぞれが最後に基板を処理した第２時刻とを取得し、
前記複数の処理部のそれぞれの前記第１時刻から前記第２時刻までの経過時間を取得し、
前記経過時間の分散に基づいて前記第２最終報酬を取得する、請求項１から請求項８のいずれか１項に記載のスケジュール作成方法。

【請求項10】

基板の処理手順に関わる基板処理装置の各構成要素のタイムスケジュールを、機械学習を用いて作成するためのスケジュール作成方法であって、
学習ステップを複数回実行して前記タイムスケジュールを作成し、
前記学習ステップでは、前記基板処理装置の前記各構成要素のタイムスケジュールを規定するためのタイムテーブルに、前記処理手順を手順ごとに示す各パターンを順次配置していき、予め用意された前記各パターンの全てが前記タイムテーブルに配置された後に評価値を取得し、
前記各パターンを前記タイムテーブルに順次配置する際に、
既定の制約条件に基づいて、前記各パターンのうちから、前記タイムテーブルに配置可能な配置可能パターンを取得し、
前記機械学習により、前記配置可能パターンのうちから、前記評価値が最大化するパターンを予測して選択し、
選択した前記パターンを前記タイムテーブルに配置することにより、前記タイムテーブルを更新し、
前記評価値を取得する際に、
前記各パターンの全てが配置された前記タイムテーブルに基づいて最終報酬を取得し、
前記最終報酬を含む報酬に基づいて前記評価値を算出し、
前記基板処理装置の前記各構成要素は、基板を処理する複数の処理部を含み、
前記最終報酬は、正の報酬である第２最終報酬を含み、
前記最終報酬を取得する際に、
前記タイムテーブルによって示される時刻のうちから、前記複数の処理部のそれぞれが最初に基板を処理した第１時刻と、前記複数の処理部のそれぞれが最後に基板を処理した第２時刻とを取得し、
前記複数の処理部のそれぞれの前記第１時刻から前記第２時刻までの経過時間を取得し、
前記経過時間の分散に基づいて前記第２最終報酬を取得する、スケジュール作成方法。

【請求項11】

基板の処理手順に関わる基板処理装置の各構成要素のタイムスケジュールを、機械学習を用いて作成するスケジュール作成装置であって、
学習ステップを複数回実行して前記タイムスケジュールを作成する演算部を備え、
前記学習ステップは、前記基板処理装置の前記各構成要素のタイムスケジュールを規定するためのタイムテーブルに、前記処理手順を手順ごとに示す各パターンを順次配置していき、予め用意された前記各パターンの全てが前記タイムテーブルに配置された後に評価値を取得する処理を示し、
前記演算部は、
既定の制約条件に基づいて、前記各パターンのうちから、前記タイムテーブルに配置可能な配置可能パターンを取得し、
前記機械学習により、前記配置可能パターンのうちから、前記評価値が最大化するパターンを予測して選択し、
選択された前記パターンを前記タイムテーブルに配置することにより、前記タイムテーブルを更新し、
予め用意された前記各パターンの全てが前記タイムテーブルに配置された後に、前記演算部は、
前記各パターンの全てが配置された前記タイムテーブルに基づいて最終報酬を取得し、
前記最終報酬を含む報酬に基づいて前記評価値を算出し、
前記報酬は、中間報酬を更に含み、
前記演算部は、
選択した前記パターンを前記タイムテーブルに配置して、前記タイムテーブルを更新した後、
前記タイムテーブルに最後に配置した前記パターンが、既定の中間報酬付与条件に合致するか否かを判定し、
前記中間報酬付与条件に合致すると判定した場合、前記中間報酬を取得する、スケジュール作成装置。

【請求項12】

基板の処理手順に関わる基板処理装置の各構成要素のタイムスケジュールを、機械学習を用いて作成するスケジュール作成装置であって、
学習ステップを複数回実行して前記タイムスケジュールを作成する演算部を備え、
前記学習ステップは、前記基板処理装置の前記各構成要素のタイムスケジュールを規定するためのタイムテーブルに、前記処理手順を手順ごとに示す各パターンを順次配置していき、予め用意された前記各パターンの全てが前記タイムテーブルに配置された後に評価値を取得する処理を示し、
前記演算部は、
既定の制約条件に基づいて、前記各パターンのうちから、前記タイムテーブルに配置可能な配置可能パターンを取得し、
前記機械学習により、前記配置可能パターンのうちから、前記評価値が最大化するパターンを予測して選択し、
選択された前記パターンを前記タイムテーブルに配置することにより、前記タイムテーブルを更新し、
予め用意された前記各パターンの全てが前記タイムテーブルに配置された後に、前記演算部は、
前記各パターンの全てが配置された前記タイムテーブルに基づいて最終報酬を取得し、
前記最終報酬を含む報酬に基づいて前記評価値を算出し、
前記基板処理装置の前記各構成要素は、基板を処理する複数の処理部を含み、
前記最終報酬は、正の報酬である特定の最終報酬を含み、
前記演算部は、
前記最終報酬を取得する際に、
前記タイムテーブルによって示される時刻のうちから、前記複数の処理部のそれぞれが最初に基板を処理した第１時刻と、前記複数の処理部のそれぞれが最後に基板を処理した第２時刻とを取得し、
前記複数の処理部のそれぞれの前記第１時刻から前記第２時刻までの経過時間を取得し、
前記経過時間の分散に基づいて前記特定の最終報酬を取得する、スケジュール作成装置。

【請求項13】

基板の処理手順に関わる基板処理装置の各構成要素のタイムスケジュールを、機械学習を用いて作成するスケジュール作成装置であって、
学習ステップを複数回実行して前記タイムスケジュールを作成する第１演算部及び第２演算部を備え、
前記学習ステップは、前記基板処理装置の前記各構成要素のタイムスケジュールを規定するためのタイムテーブルに、前記処理手順を手順ごとに示す各パターンを順次配置していき、予め用意された前記各パターンの全てが前記タイムテーブルに配置された後に評価値を取得する処理を示し、
前記第１演算部は、
既定の制約条件に基づいて、前記各パターンのうちから、前記タイムテーブルに配置可能な配置可能パターンを取得し、
前記配置可能パターンを示す情報を前記第２演算部に入力し、
前記第２演算部は、
前記機械学習により、前記第１演算部によって取得された前記配置可能パターンのうちから、前記評価値が最大化するパターンを予測して選択し、
選択した前記パターンを示す情報を前記第１演算部に入力し、
前記第１演算部は、前記第２演算部によって選択された前記パターンを前記タイムテーブルに配置することにより、前記タイムテーブルを更新し、
予め用意された前記各パターンの全てが前記タイムテーブルに配置された後に、前記第１演算部は、
前記各パターンの全てが配置された前記タイムテーブルに基づいて最終報酬を取得し、
前記最終報酬を含む報酬に基づいて前記評価値を算出し、
前記報酬は、中間報酬を更に含み、
前記第１演算部は、
選択した前記パターンを前記タイムテーブルに配置して、前記タイムテーブルを更新した後、
前記タイムテーブルに最後に配置した前記パターンが、既定の中間報酬付与条件に合致するか否かを判定し、
前記中間報酬付与条件に合致すると判定した場合、前記中間報酬を取得する、スケジュール作成装置。

【請求項14】

基板の処理手順に関わる基板処理装置の各構成要素のタイムスケジュールを、機械学習を用いて作成するスケジュール作成装置であって、
学習ステップを複数回実行して前記タイムスケジュールを作成する第１演算部及び第２演算部を備え、
前記学習ステップは、前記基板処理装置の前記各構成要素のタイムスケジュールを規定するためのタイムテーブルに、前記処理手順を手順ごとに示す各パターンを順次配置していき、予め用意された前記各パターンの全てが前記タイムテーブルに配置された後に評価値を取得する処理を示し、
前記第１演算部は、
既定の制約条件に基づいて、前記各パターンのうちから、前記タイムテーブルに配置可能な配置可能パターンを取得し、
前記配置可能パターンを示す情報を前記第２演算部に入力し、
前記第２演算部は、
前記機械学習により、前記第１演算部によって取得された前記配置可能パターンのうちから、前記評価値が最大化するパターンを予測して選択し、
選択した前記パターンを示す情報を前記第１演算部に入力し、
前記第１演算部は、前記第２演算部によって選択された前記パターンを前記タイムテーブルに配置することにより、前記タイムテーブルを更新し、
予め用意された前記各パターンの全てが前記タイムテーブルに配置された後に、前記第１演算部は、
前記各パターンの全てが配置された前記タイムテーブルに基づいて最終報酬を取得し、
前記最終報酬を含む報酬に基づいて前記評価値を算出し、
前記基板処理装置の前記各構成要素は、基板を処理する複数の処理部を含み、
前記最終報酬は、正の報酬である特定の最終報酬を含み、
前記第１演算部は、
前記最終報酬を取得する際に、
前記タイムテーブルによって示される時刻のうちから、前記複数の処理部のそれぞれが最初に基板を処理した第１時刻と、前記複数の処理部のそれぞれが最後に基板を処理した第２時刻とを取得し、
前記複数の処理部のそれぞれの前記第１時刻から前記第２時刻までの経過時間を取得し、
前記経過時間の分散に基づいて前記特定の最終報酬を取得する、スケジュール作成装置。

【請求項15】

基板の処理手順に関わる各構成要素と、
請求項１１又は請求項１２に記載のスケジュール作成装置と
を備え、
前記スケジュール作成装置に含まれる前記演算部は、作成した前記タイムスケジュールに基づいて前記各構成要素のスケジュールを管理する、基板処理装置。

【請求項16】

基板の処理手順に関わる各構成要素と、
請求項１３又は請求項１４に記載のスケジュール作成装置とを備え、
前記スケジュール作成装置に含まれる前記第１演算部は、作成した前記タイムスケジュールに基づいて前記各構成要素のスケジュールを管理する、基板処理装置。

【請求項17】

請求項１１から請求項１４のいずれか１項に記載のスケジュール作成装置と、
前記スケジュール作成装置と通信可能に接続する基板処理装置と
を備え、
前記基板処理装置は、
基板の処理手順に関わる各構成要素と、
前記スケジュール作成装置からタイムスケジュールを受信する受信部と、
前記受信部が受信した前記タイムスケジュールに基づいて前記各構成要素のスケジュールを管理する管理部と
を備える、基板処理システム。

【請求項18】

コンピュータに実行させるスケジュール作成プログラムを記録した非一時的コンピュータ読取可能記録媒体であって、
前記スケジュール作成プログラムは、請求項１から請求項１０のいずれか１項に記載のスケジュール作成方法に従って前記コンピュータに演算を実行させる、記録媒体。

【請求項19】

コンピュータによって実行されるスケジュール作成プログラムであって、
請求項１から請求項１０のいずれか１項に記載のスケジュール作成方法に従って前記コンピュータに演算を実行させる、スケジュール作成プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、スケジュール作成方法、スケジュール作成装置、基板処理装置、基板処理システム、記録媒体、及びスケジュール作成プログラムに関する。

【背景技術】

【0002】

基板処理装置のスケジュール作成方法が知られている（例えば、特許文献１参照）。基板処理装置のスケジュール作成方法は、基板処理装置の各構成要素のタイムスケジュールを作成する方法である。基板処理装置のスケジュール作成方法によれば、基板処理装置が基板単位（１枚単位）又はロット単位（例えば、２５枚単位）で基板を効率的に処理できるようにタイムスケジュールを作成することができる。特許文献１のスケジュール作成方法は、バッチ式の基板処理装置に適用される。

【0003】

基板処理装置のスケジュール作成方法は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）及びカウンタ・タイマ等を含む制御部がコンピュータプログラムを実行することにより実施される。したがって、スケジュール作成方法の開発者は、ＣＰＵが実行する処理のフローを開発する。具体的には、開発者は、基板処理装置の装置構成を考慮して制約（ルール）を決定し、決定したルールが反映されたタイムスケジュールを作成できるようにフローを開発する。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２００９－４８３２０号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、基板処理装置の装置構成を考慮して制約（ルール）を決定し、決定したルールが反映されたタイムスケジュールを作成できるようにフローを開発する場合、機種ごとに装置構成が異なるため、開発者は、機種ごとにフロー全体を開発する必要がある。したがって、開発者の負担を考慮すれば、更なる改良の余地がある。

【0006】

本発明は上記課題に鑑みてなされたものであり、その目的は、開発者の負担を軽減できるスケジュール作成方法、スケジュール作成装置、基板処理装置、基板処理システム、記録媒体、及びスケジュール作成プログラムを提供することにある。

【課題を解決するための手段】

【0007】

本発明の一局面によれば、スケジュール作成方法は、基板の処理手順に関わる基板処理装置の各構成要素のタイムスケジュールを、機械学習を用いて作成するための方法である。当該方法は、学習ステップを複数回実行して前記タイムスケジュールを作成する。前記学習ステップでは、前記基板処理装置の前記各構成要素のタイムスケジュールを規定するためのタイムテーブルに、前記処理手順を手順ごとに示す各パターンを順次配置していき、予め用意された前記各パターンの全てが前記タイムテーブルに配置された後に評価値を取得する。前記各パターンを前記タイムテーブルに順次配置する際に、既定の制約条件に基づいて、前記各パターンのうちから、前記タイムテーブルに配置可能な配置可能パターンを取得し、前記機械学習により、前記配置可能パターンのうちから、前記評価値が最大化するパターンを予測して選択し、選択した前記パターンを前記タイムテーブルに配置することにより、前記タイムテーブルを更新する。前記評価値を取得する際に、前記各パターンの全てが配置された前記タイムテーブルに基づいて最終報酬を取得し、前記最終報酬を含む報酬に基づいて前記評価値を算出する。

【0008】

ある実施形態において、前記制約条件は、前記処理手順の順序に従って、前記各パターンのうちから次に配置可能なパターンを取得させる条件を含む。

【0009】

ある実施形態において、前記制約条件は、前記基板処理装置が物理的に実行できない動作の実行を禁止する条件を含む。

【0010】

ある実施形態において、前記基板処理装置の前記各構成要素は、基板を処理する複数の処理部を含む。前記最終報酬は、正の報酬である第１最終報酬を含む。上記のスケジュール作成方法は、前記最終報酬を取得する際に、前記複数の処理部のうち最後に基板を処理した処理部である最終処理部を特定し、前記タイムテーブルによって示される時刻のうちから、前記最終処理部が最後に基板を処理した時刻を取得し、取得した前記時刻に基づいて前記第１最終報酬を取得する。

【0011】

ある実施形態において、前記基板処理装置の前記各構成要素は、基板を処理する複数の処理部を含む。前記最終報酬は、正の報酬である第２最終報酬を含む。上記のスケジュール作成方法は、前記最終報酬を取得する際に、前記タイムテーブルによって示される時刻のうちから、前記複数の処理部のそれぞれが最初に基板を処理した第１時刻と、前記複数の処理部のそれぞれが最後に基板を処理した第２時刻とを取得し、前記複数の処理部のそれぞれの前記第１時刻から前記第２時刻までの経過時間を取得し、前記経過時間の分散に基づいて前記第２最終報酬を取得する。

【0012】

ある実施形態において、前記報酬は、中間報酬を更に含む。上記のスケジュール作成方法は、選択した前記パターンを前記タイムテーブルに配置して、前記タイムテーブルを更新した後、前記タイムテーブルに最後に配置した前記パターンが、既定の中間報酬付与条件に合致するか否かを判定し、前記中間報酬付与条件に合致すると判定した場合、前記中間報酬を取得する。

【0013】

ある実施形態において、上記のスケジュール作成方法は、前記評価値を算出する際に、前記タイムテーブルによって示される時刻のうちから、前記中間報酬付与条件に合致する前記パターンの位置に対応する時刻を取得し、取得した前記時刻に基づいて、前記中間報酬に割引率を割り当てるか否かを決定し、前記中間報酬に割引率を割り当てると決定した場合、取得した前記時刻に応じて前記割引率の値を算出する。

【0014】

ある実施形態において、前記基板処理装置の前記各構成要素は、複数の基板を同時に搬送可能な搬送ロボットを含む。前記中間報酬は、正の報酬である第１中間報酬を含む。前記中間報酬付与条件は、前記第１中間報酬に対応する第１中間報酬付与条件を含む。前記第１中間報酬付与条件は、前記搬送ロボットが互いに異なる基板を同時に搬送することを示す。

【0015】

ある実施形態において、前記基板処理装置の前記各構成要素は、基板を処理する処理部を含む。前記中間報酬は、正の報酬である第２中間報酬を含む。前記中間報酬付与条件は、前記第２中間報酬に対応する第２中間報酬付与条件を含む。前記第２中間報酬付与条件は、前記処理部から基板が搬出された直後に前記処理部に他の基板が搬入されることを示す。

【0016】

ある実施形態において、前記パターンは、第１パターン及び第２パターンを含む。前記タイムテーブルによって示される時刻において、前記第１パターンが配置される位置に対応する時刻は、前記第２パターンよりも早い時刻である。前記中間報酬は、負の報酬である第３中間報酬を含む。前記中間報酬付与条件は、前記第３中間報酬に対応する第３中間報酬付与条件を含む。前記第３中間報酬付与条件は、前記タイムテーブルに前記第２パターンが配置された後に前記第１パターンが配置されることを示す。

【0017】

本発明の他の局面によれば、スケジュール作成装置は、基板の処理手順に関わる基板処理装置の各構成要素のタイムスケジュールを、機械学習を用いて作成する。当該スケジュール作成装置は、学習ステップを複数回実行して前記タイムスケジュールを作成する演算部を備える。前記学習ステップは、前記基板処理装置の前記各構成要素のタイムスケジュールを規定するためのタイムテーブルに、前記処理手順を手順ごとに示す各パターンを順次配置していき、予め用意された前記各パターンの全てが前記タイムテーブルに配置された後に評価値を取得する処理を示す。前記演算部は、既定の制約条件に基づいて、前記各パターンのうちから、前記タイムテーブルに配置可能な配置可能パターンを取得する。前記演算部は、前記機械学習により、前記配置可能パターンのうちから、前記評価値が最大化するパターンを予測して選択する。前記演算部は、選択した前記パターンを前記タイムテーブルに配置することにより、前記タイムテーブルを更新する。予め用意された前記各パターンの全てが前記タイムテーブルに配置された後に、前記演算部は、前記各パターンの全てが配置された前記タイムテーブルに基づいて最終報酬を取得し、前記最終報酬を含む報酬に基づいて前記評価値を算出する。
ある実施形態において、前記報酬は、中間報酬を更に含む。前記演算部は、選択した前記パターンを前記タイムテーブルに配置して、前記タイムテーブルを更新した後、前記タイムテーブルに最後に配置した前記パターンが、既定の中間報酬付与条件に合致するか否かを判定し、前記中間報酬付与条件に合致すると判定した場合、前記中間報酬を取得する。
ある実施形態において、前記基板処理装置の前記各構成要素は、基板を処理する複数の処理部を含む。前記最終報酬は、正の報酬である特定の最終報酬を含む。前記演算部は、前記最終報酬を取得する際に、前記タイムテーブルによって示される時刻のうちから、前記複数の処理部のそれぞれが最初に基板を処理した第１時刻と、前記複数の処理部のそれぞれが最後に基板を処理した第２時刻とを取得し、前記複数の処理部のそれぞれの前記第１時刻から前記第２時刻までの経過時間を取得し、前記経過時間の分散に基づいて前記特定の最終報酬を取得する。

【0018】

本発明の他の局面によれば、基板処理装置は、基板の処理手順に関わる各構成要素と、上記のスケジュール作成装置とを備える。前記スケジュール作成装置に含まれる前記演算部は、作成した前記タイムスケジュールに基づいて前記各構成要素のスケジュールを管理する。

【0019】

本発明の他の局面によれば、スケジュール作成装置は、基板の処理手順に関わる基板処理装置の各構成要素のタイムスケジュールを、機械学習を用いて作成する。当該スケジュール作成装置は、学習ステップを複数回実行して前記タイムスケジュールを作成する第１演算部及び第２演算部を備える。前記学習ステップは、前記基板処理装置の前記各構成要素のタイムスケジュールを規定するためのタイムテーブルに、前記処理手順を手順ごとに示す各パターンを順次配置していき、予め用意された前記各パターンの全てが前記タイムテーブルに配置された後に評価値を取得する処理を示す。前記第１演算部は、既定の制約条件に基づいて、前記各パターンのうちから、前記タイムテーブルに配置可能な配置可能パターンを取得し、前記配置可能パターンを示す情報を前記第２演算部に入力する。前記第２演算部は、前記機械学習により、前記第１演算部によって取得された前記配置可能パターンのうちから、前記評価値が最大化するパターンを予測して選択し、選択した前記パターンを示す情報を前記第１演算部に入力する。前記第１演算部は、前記第２演算部によって選択された前記パターンを前記タイムテーブルに配置することにより、前記タイムテーブルを更新する。予め用意された前記各パターンの全てが前記タイムテーブルに配置された後に、前記第１演算部は、前記各パターンの全てが配置された前記タイムテーブルに基づいて最終報酬を取得し、前記最終報酬を含む報酬に基づいて前記評価値を算出する。
ある実施形態において、前記報酬は、中間報酬を更に含む。前記第１演算部は、選択した前記パターンを前記タイムテーブルに配置して、前記タイムテーブルを更新した後、前記タイムテーブルに最後に配置した前記パターンが、既定の中間報酬付与条件に合致するか否かを判定し、前記中間報酬付与条件に合致すると判定した場合、前記中間報酬を取得する。
ある実施形態において、前記基板処理装置の前記各構成要素は、基板を処理する複数の処理部を含む。前記最終報酬は、正の報酬である特定の最終報酬を含む。前記第１演算部は、前記最終報酬を取得する際に、前記タイムテーブルによって示される時刻のうちから、前記複数の処理部のそれぞれが最初に基板を処理した第１時刻と、前記複数の処理部のそれぞれが最後に基板を処理した第２時刻とを取得し、前記複数の処理部のそれぞれの前記第１時刻から前記第２時刻までの経過時間を取得し、前記経過時間の分散に基づいて前記特定の最終報酬を取得する。

【0020】

本発明の更に他の局面によれば、基板処理装置は、基板の処理手順に関わる各構成要素と、上記のスケジュール作成装置とを備える。前記スケジュール作成装置に含まれる前記第１演算部は、作成した前記タイムスケジュールに基づいて前記各構成要素のスケジュールを管理する。

【0021】

本発明の更に他の局面によれば、基板処理システムは、上記のスケジュール作成装置と、前記スケジュール作成装置と通信可能に接続する基板処理装置とを備える。前記基板処理装置は、基板の処理手順に関わる各構成要素と、受信部と、管理部とを備える。前記受信部は、前記スケジュール作成装置からタイムスケジュールを受信する。前記管理部は、前記受信部が受信した前記タイムスケジュールに基づいて前記各構成要素のスケジュールを管理する。

【0022】

本発明の更に他の局面によれば、記録媒体は、コンピュータに実行させるスケジュール作成プログラムを記録した非一時的コンピュータ読取可能記録媒体である。前記スケジュール作成プログラムは、上記のスケジュール作成方法に従って前記コンピュータに演算を実行させる。

【0023】

本発明の更に他の局面によれば、スケジュール作成プログラムは、コンピュータによって実行される。当該スケジュール作成プログラムは、上記のスケジュール作成方法に従って前記コンピュータに演算を実行させる。

【発明の効果】

【0024】

本発明に係るスケジュール作成方法、スケジュール作成装置、基板処理装置、基板処理システム、記録媒体、及びスケジュール作成プログラムによれば、開発者の負担を軽減することができる。

【図面の簡単な説明】

【0025】

【図1】本発明の実施形態１に係るスケジュール作成装置の構成を示すブロック図である。

【図2】基板処理装置の構成の一例を示す図である。

【図3】パターンの一例を示す図である。

【図4】タイムテーブルの一例を示す図である。

【図5】図２に示す基板処理装置が２枚の基板を処理する場合のタイムスケジュールを作成している途中のタイムテーブルを示す図である。

【図6】本発明の実施形態１に係るスケジュール作成装置が実行する学習ステップの流れの一例を示すシーケンス図である。

【図7】強化学習のネットワーク構造を示す図である。

【図8】第１演算部及び第２演算部の処理の流れを示すフロー図である。

【図9】学習ステップの処理の流れを示すフロー図である。

【図10】図２に示す基板処理装置が２枚の基板を処理する場合のタイムスケジュールを作成している途中のタイムテーブルの他例を示す図である。

【図11】タイムテーブルにパターンを配置する処理の流れを示すフロー図である。

【図12】タイムテーブルにパターンを配置する処理の流れの一例を示すフロー図である。

【図13】評価値を算出する処理の流れを示すフロー図である。

【図14】割引率割当処理の流れを示すフロー図である。

【図15】最終報酬を取得する処理の流れを示すフロー図である。

【図16】第１最終報酬を取得する処理の流れを示すフロー図である。

【図17】第２最終報酬を取得する処理の流れを示すフロー図である。

【図18】本発明の実施形態２に係る基板処理装置を示す図である。

【図19】本発明の実施形態３に係る基板処理システムを示す図である。

【図20】実施例で使用したパターンを示す図である。

【図21】実施例で作成されたタイムスケジュールを示す図である。

【図22】実施例で得られた学習曲線を示す図である。

【発明を実施するための形態】

【0026】

以下、図面（図１～図２２）を参照して本発明のスケジュール作成方法、スケジュール作成装置、基板処理装置、基板処理システム、記録媒体、及びスケジュール作成プログラムに係る実施形態を説明する。但し、本発明は以下の実施形態に限定されるものではなく、その要旨を逸脱しない範囲で種々の態様において実施することが可能である。なお、説明が重複する箇所については、適宜説明を省略する場合がある。また、図中、同一又は相当部分については同一の参照符号を付して説明を繰り返さない。

【0027】

本発明の実施形態における「基板」には、半導体ウエハ、フォトマスク用ガラス基板、液晶表示用ガラス基板、プラズマ表示用ガラス基板、ＦＥＤ（ＦｉｅｌｄＥｍｉｓｓｉｏｎＤｉｓｐｌａｙ）用基板、光ディスク用基板、磁気ディスク用基板、及び光磁気ディスク用基板などの各種基板を適用可能である。以下では主として、円盤状の半導体ウエハの処理に用いられるスケジュール作成方法、スケジュール作成装置、基板処理装置、基板処理システム、記録媒体、及びスケジュール作成プログラムを例に本発明の実施形態を説明するが、上に例示した各種の基板の処理にも同様に適用可能である。また、基板の形状についても各種のものを適用可能である。

【0028】

［実施形態１］
以下、図１～図１７を参照して本発明の実施形態１を説明する。まず、図１を参照して、本実施形態のスケジュール作成装置１００を説明する。図１は、本実施形態のスケジュール作成装置１００の構成を示すブロック図である。スケジュール作成装置１００は、基板Ｗの処理手順（レシピ）に関わる基板処理装置ＷＰの各構成要素のタイムスケジュールを、機械学習を用いて作成する。

【0029】

例えば、基板処理装置ＷＰが枚葉式である場合、処理手順に関わる各構成要素には、インデクサロボットＩＲのハンド部、受渡部ＰＳ、搬送ロボットＣＲのハンド部、及び、処理部ＰＵ（チャンバー）が含まれてもよい。各構成要素に、基板収容容器Ｃが更に含まれてもよい。処理部ＰＵが処理液により基板Ｗを処理する場合、各構成要素に、処理部ＰＵに処理液を供給する処理液供給ユニットＰＬが更に含まれてもよい。

【0030】

インデクサロボットＩＲのハンド部は、複数枚の基板Ｗを同時に把持可能なハンドを含み得る。また、インデクサロボットＩＲのハンド部は、それぞれ独立して動作可能な複数のハンドを含み得る。搬送ロボットＣＲのハンド部は、それぞれ独立して動作可能な複数のハンドを含み得る。

【0031】

枚葉式の基板処理装置ＷＰが受渡部ＰＳを備える場合、インデクサロボットＩＲは、基板収容容器Ｃと受渡部ＰＳとの間で基板Ｗを搬送し、搬送ロボットＣＲは、処理部ＰＵと受渡部ＰＳとの間で基板Ｗを搬送する。受渡部ＰＳは、基板Ｗを反転させる反転機構を有してもよく、反転機構を有していなくてもよい。受渡部ＰＳは省略されてもよい。枚葉式の基板処理装置ＷＰが受渡部ＰＳを備えていない場合、インデクサロボットＩＲは、基板収容容器Ｃと搬送ロボットＣＲとの間で基板Ｗを搬送し、搬送ロボットＣＲは、処理部ＰＵとインデクサロボットＩＲとの間で基板Ｗを搬送する。

【0032】

処理部ＰＵは、基板Ｗを処理する。処理部ＰＵが実行する処理の内容は特に限定されず、例えば、処理部ＰＵは、基板Ｗに対して、処理剤（処理液又は処理ガス、あるいは処理液及び処理ガス）を用いた処理、紫外線等の電磁波を用いた処理、あるいは、物理洗浄処理（ブラシ洗浄又はスプレーノズル洗浄等）を施す。具体的には、処理部ＰＵが実行する処理は、薬液洗浄処理、ブラシ洗浄処理、エッチング処理、感光膜塗布処理、現像処理、アニール処理、及び描画処理のいずれかであってもよい。基板処理装置ＷＰは、互いに異なる処理を実行できる複数の処理部ＰＵを備えてもよい。

【0033】

図１に示すように、スケジュール作成装置１００は、第１演算部１１１と、第２演算部１１２と、記憶部１１３とを備える。以下、基板Ｗの処理手順に関わる基板処理装置ＷＰの各構成要素のタイムスケジュールを、「タイムスケジュール」と記載する場合がある。

【0034】

第１演算部１１１及び第２演算部１１２は、学習ステップを複数回実行してタイムスケジュールを作成する。学習ステップは、基板処理装置ＷＰの各構成要素のタイムスケジュールを規定するためのタイムテーブルＴＢに、処理手順を手順ごとに示す各パターンＰＴを順次配置し、予め用意された各パターンＰＴの全てがタイムテーブルＴＢに配置された後に評価値を取得する処理を示す。学習ステップを繰り返す回数は予め設定されている。例えば、第１演算部１１１及び第２演算部１１２は、評価値又は報酬が収束するまで学習ステップを繰り返してもよい。各学習ステップ内でタイムテーブルＴＢに順次配置されるパターンＰＴは、タイムテーブルＴＢに未配置のパターンである。以下、各学習ステップ内でタイムテーブルＴＢに順次配置されるパターンＰＴを、「未配置パターンＮＰＴ」と記載する場合がある。

【0035】

第１演算部１１１は、プロセッサーを含む。第１演算部１１１は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、又は、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を含む。あるいは、第１演算部１１１は、汎用演算機又は専用演算器を含み得る。専用演算器は、例えば、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、又は、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）を含む。第１演算部１１１は、記憶部１１３に記憶されている第１制御プログラム（コンピュータプログラム）を実行することにより、種々の処理を実行する。第１制御プログラムは、スケジュール作成プログラムの一部である。記憶部１１３は、スケジュール作成プログラムを記録する記録媒体を含む。

【0036】

具体的には、第１演算部１１１は、既定の制約条件に基づいて、未配置パターンＮＰＴのうちから次配置可能パターンＡＰＴを取得する。以下、制約条件に基づいて、未配置パターンＮＰＴのうちから次配置可能パターンＡＰＴを取得する処理を、「次配置可能パターン取得処理」と記載する場合がある。なお、制約条件は、記憶部１１３に予め記憶されている。

【0037】

各パターンＰＴは、既定枚数の基板Ｗのそれぞれに対して予め用意されている。例えば、１枚の基板Ｗを処理するための処理手順に含まれる手順（パターン）の数がＸ個であり、既定枚数が２５枚である場合、パターンＰＴの総数は「２５×Ｘ個」となる。なお、タイムテーブルＴＢにパターンＰＴが配置されていない初期段階では、全てのパターンＰＴが未配置パターンＮＰＴである。処理が進み、パターンＰＴがタイムテーブルＴＢに配置される度に、未配置パターンＮＰＴの数が減少する。

【0038】

制約条件は、基板処理装置ＷＰの装置構成に依存する。例えば、制約条件は、処理手順（レシピ）に規定されている手順（処理）の順序で基板Ｗを処理する旨の条件、及び、基板処理装置ＷＰにおいて物理的に不可能な行為を禁止する旨の条件を含む。

【0039】

次配置可能パターンＡＰＴは、現段階のタイムテーブルＴＢに対して配置が可能なパターンＰＴを示す。詳しくは、タイムテーブルＴＢに少なくとも１つのパターンＰＴが既に配置されている場合、その少なくとも１つのパターンＰＴの次の手順（処理）に対応するパターンＰＴが、次配置可能パターンＡＰＴに相当する。但し、次の手順（処理）に対応するパターンＰＴであっても、制約条件によっては、次配置可能パターンＡＰＴに相当しないことがある。具体的には、次の手順（処理）に対応するパターンＰＴが、基板処理装置ＷＰにおいて物理的に不可能な行為に対応する場合、そのパターンＰＴは次配置可能パターンＡＰＴに相当しないため、次配置可能パターンＡＰＴとして取得されない。

【0040】

次配置可能パターンＡＰＴは、タイムテーブルＴＢが更新される度に変化する。換言すると、次配置可能パターンＡＰＴは、未配置パターンＮＰＴがタイムテーブルＴＢに配置される度に変化する。

【0041】

例えば、制約条件が以下の表１に示す制約条件１～４を含み、処理手順が以下の表２に示す手順１～３（パターン１～３）を含む場合、初期段階における次配置可能パターンＡＰＴは、基板収容容器Ｃに積層されている１枚目の基板Ｗ１（最上部の基板Ｗ）に対する手順１（パターン１－Ｗ１）である。タイムテーブルＴＢにパターン１－Ｗ１を配置した後の次配置可能パターンＡＰＴは、１枚目の基板Ｗ１に対する手順２（パターン２－Ｗ１）である。タイムテーブルＴＢにパターン２－Ｗ１を配置した後の次配置可能パターンＡＰＴは、１枚目の基板Ｗ１に対する手順３（パターン３－Ｗ１）、及び、基板収容容器Ｃに積層されている２枚目の基板Ｗ２（最上部の基板Ｗ）に対する手順１（パターン１－Ｗ２）である。

【表1】

【表2】

【0042】

第２演算部１１２は、プロセッサーを含む。第２演算部１１２は、例えば、ＣＰＵ又はＭＰＵを含む。あるいは、第２演算部１１２は、汎用演算機、専用演算器、ＮＣＵ（ＮｅｕｒａｌＮｅｔｗｏｒｋＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、又は、量子コンピュータを含み得る。専用演算器は、例えば、ＦＰＧＡ又はＡＳＩＣを含む。第２演算部１１２には、次配置可能パターンＡＰＴを示す情報が第１演算部１１１から入力される。詳しくは、第１演算部１１１は、次配置可能パターンＡＰＴを示す情報と、現段階のタイムテーブルＴＢを示す情報と、現段階の未配置パターンＮＰＴを示す情報とを第２演算部１１２に入力する。

【0043】

第２演算部１１２は、記憶部１１３に記憶されている第２制御プログラム（コンピュータプログラム）を実行することにより、第１演算部１１１によって取得された次配置可能パターンＡＰＴのうちから、評価値が最大化する次配置可能パターンＡＰＴを予測して選択する。第２制御プログラムは、スケジュール作成プログラムの一部である。

【0044】

詳しくは、第２制御プログラムは、機械学習用のプログラムを含む。より具体的には、第２制御プログラムは、強化学習用のプログラムを含む。強化学習のアルゴリズムは、特に限定されるものではないが、例えば、Ｑ学習、ＳＡＲＳＡ法、方策勾配法、Ａｃｔｏｒ－Ｃｒｉｔｉｃ法、又はモンテカルロ法に準拠するアルゴリズムであり得る。第２制御プログラム（強化学習のアルゴリズム）は、予測モデルを構築する。予測モデルは、次配置可能パターンＡＰＴごとに評価値（Ｑ値）を予測する。以下、第２演算部１１２によって予測される評価値を、「予測評価値」と記載する場合がある。

【0045】

予測モデルは、例えば、ニューラルネットワークを含む。ニューラルネットワークは、入力層、単数又は複数の中間層、及び、出力層を含む。具体的には、ニューラルネットワークは、ディープニューラルネットワーク（ＤＮＮ：ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）、再帰型ニューラルネットワーク（ＲＮＮ：ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）、畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）、又は、量子ニューラルネットワーク（ＱＮＮ：ＱｕａｎｔｕｍＮｅｕｒａｌＮｅｔｗｏｒｋ）であり、ディープラーニングを行う。例えば、ディープニューラルネットワークは、入力層、複数の中間層（隠れ層）、及び、出力層を含む。

【0046】

第２演算部１１２は、予測評価値に基づいて、次配置可能パターンＡＰＴのうちの１つを選択する。具体的には、第２演算部１１２は、予測評価値が最も大きくなる次配置可能パターンＡＰＴを選択する。

【0047】

例えば、表１及び表２を参照して説明したように、タイムテーブルＴＢにパターン２－Ｗ１を配置した後の次配置可能パターンＡＰＴが、１枚目の基板Ｗ１に対する手順３（パターン３－Ｗ１）、及び、２枚目の基板Ｗ２（最上部の基板Ｗ）に対する手順１（パターン１－Ｗ２）である場合、第２演算部１１２は、タイムテーブルＴＢにパターン３－Ｗ１を配置したときの予測評価値と、タイムテーブルＴＢにパターン１－Ｗ２を配置したときの予測評価値とを算出し、算出された予測評価値に基づいて、パターン３－Ｗ１及びパターン１－Ｗ２のうちの一方を選択する。

【0048】

第２演算部１１２は、次配置可能パターンＡＰＴを選択すると、選択した次配置可能パターンＡＰＴを示す情報を第１演算部１１１に入力する。以下、第１演算部１１１によって取得された次配置可能パターンＡＰＴのうちから、評価値が最大化する次配置可能パターンＡＰＴを予測して選択する処理を、「次配置可能パターン選択処理」と記載する場合がある。

【0049】

第１演算部１１１は、第２演算部１１２によって選択された次配置可能パターンＡＰＴをタイムテーブルＴＢに配置することにより、タイムテーブルＴＢを更新する。更に、第１演算部１１１は、次配置可能パターンＡＰＴをタイムテーブルＴＢに配置することに応じて未配置パターンＮＰＴを更新する。以下、第２演算部１１２によって選択された次配置可能パターンＡＰＴをタイムテーブルＴＢに配置することにより、タイムテーブルＴＢを更新する処理を、「タイムテーブル更新処理」と記載する場合がある。また、次配置可能パターンＡＰＴをタイムテーブルＴＢに配置することに応じて未配置パターンＮＰＴを更新する処理を、「未配置パターン更新処理」と記載する場合がある。

【0050】

第１演算部１１１及び第２演算部１１２は、全未配置パターンＮＰＴがタイムテーブルＴＢに配置されるまで、「次配置可能パターン取得処理」、「次配置可能パターン選択処理」、「タイムテーブル更新処理」、及び「未配置パターン更新処理」を繰り返す。

【0051】

全未配置パターンＮＰＴがタイムテーブルＴＢに配置されると、第１演算部１１１は、報酬に基づいて評価値を算出する。この結果、１回分の学習ステップが終了する。なお、第１演算部１１１は、学習ステップが終了すると、タイムテーブルＴＢ及び未配置パターンＮＰＴを初期の状態に戻す。

【0052】

本実施形態において、報酬は、中間報酬と、最終報酬とを含む。第１演算部１１１は、全未配置パターンＮＰＴがタイムテーブルＴＢに配置される前のタイムテーブル更新処理の度に、更新後のタイムテーブルＴＢに基づいて中間報酬を与えるか否かを決定する。そして、中間報酬を与えることを決定すると、中間報酬を取得する。また、第１演算部１１１は、全未配置パターンＮＰＴがタイムテーブルＴＢに配置されると、全未配置パターンＮＰＴが配置されたタイムテーブルＴＢに基づいて最終報酬を取得する。

【0053】

第１演算部１１１は、中間報酬を取得する度に、中間報酬の履歴を記憶部１１３に記憶させる。ここで、中間報酬の履歴には、中間報酬の値を示す情報と、中間報酬を取得する要因となったパターンＰＴ（タイムテーブル更新処理により配置された次配置可能パターンＡＰＴ）を示す情報とが含まれる。

【0054】

また、第１演算部１１１は、報酬及び評価値を算出する度に、報酬の履歴及び評価値の履歴の少なくとも一方を記憶部１１３に記憶させる。報酬の履歴には、報酬の値を示す情報と、報酬の対象となった学習ステップが何回目の学習ステップであるかを示す情報とが含まれる。同様に、評価値の履歴には、評価値を示す情報と、評価値の対象となった学習ステップが何回目の学習ステップであるかを示す情報とが含まれる。なお、本実施形態において、第１演算部１１１は、報酬の履歴又は評価値の履歴に基づいて学習曲線を示す画像情報を生成する。

【0055】

記憶部１１３は、主記憶装置を有する。主記憶装置は、例えば、半導体メモリである。記憶部１１３は、補助記憶装置を更に有する。補助記憶装置は、例えば、半導体メモリ及びハードディスクドライブの少なくも一方を含む。記憶部１１３はリムーバブルメディアを含んでいてもよい。

【0056】

記憶部１１３は、各種のコンピュータプログラム及び各種のデータを記憶する。各種のコンピュータプログラムには、第１演算部１１１によって実行される第１制御プログラムと、第２演算部１１２によって実行される第２制御プログラムとが含まれる。各種のデータには、学習ステップを繰り返す回数を示す設定情報、タイムテーブルＴＢを示す情報、未配置パターンＮＰＴを示す情報、制約条件を示す情報、及び、中間報酬の履歴を示す情報が含まれる。各種のデータには、報酬の履歴及び評価値の履歴の少なくとも一方を示す情報が更に含まれる。なお、以下の説明において、学習ステップを繰り返す回数を、「学習回数」と記載する場合がある。

【0057】

続いて、図１を参照して、スケジュール作成装置１００を更に説明する。図１に示すように、スケジュール作成装置１００は、入力部１２１と、出力部１２２とを更に備える。

【0058】

入力部１２１は、作業者が操作するユーザーインターフェース装置である。入力部１２１は、作業者の操作に応じた指示（制御信号）を第１演算部１１１に入力する。また、入力部１２１は、作業者の操作に応じたデータを第１演算部１１１に入力する。入力部１２１は、典型的には、キーボード及びマウスを有する。例えば、作業者は、入力部１２１を操作して、学習回数を設定することができる。

【0059】

出力部１２２は、外部の表示装置１３０と接続するためのインタフェースである。出力部１２２は、例えば、ＵＳＢポート、Ｄ－ＳＵＢ端子、ＨＤＭＩ（登録商標）端子、又はＤｉｓｐｌａｙｐｏｒｔである。出力部１２２は、表示装置１３０に画像情報を出力する。具体的には、出力部１２２は、表示装置１３０に、学習曲線を示す画像情報を出力する。なお、出力部１２２は無線により表示装置１３０と接続してもよい。この場合、出力部１２２は、例えばＢｌｕｅｔｏｏｔｈ（登録商標）のような近距離無線通信規格に準拠した通信回路を有する。

【0060】

表示装置１３０は、例えば、液晶表示装置又は有機ＥＬ（ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ）表示装置である。表示装置１３０は、学習曲線を表示する。表示装置１３０が学習曲線を表示することにより、作業者は、評価値又は報酬が目標値に収束しているか否かを確認することができる。したがって、作業者は、評価値又は報酬が目標値に収束していない場合、入力部１２１を操作して学習回数を増やすことができる。

【0061】

なお、スケジュール作成装置１００は表示部を備えてもよい。この場合、第１演算部１１１は、表示部に学習曲線を表示させてもよい。スケジュール作成装置１００が表示部を備える場合、入力部１２１は、表示部の表示面に重畳されるタッチセンサを有してもよい。表示部の表示面にタッチセンサが重畳されることにより、グラフィカルユーザーインターフェースが構成されてもよい。

【0062】

続いて、図１～図５を参照して、パターンＰＴ及びタイムテーブルＴＢを説明する。図２は、基板処理装置ＷＰの構成の一例を示す図である。図３は、パターンＰＴの一例を示す図である。図４は、タイムテーブルＴＢの一例を示す図である。詳しくは、図３は、図２に示す基板処理装置ＷＰに対応するパターンＰＴを示す。図４は、図２に示す基板処理装置ＷＰに対応するタイムテーブルＴＢを示す。なお、本実施形態において、強化学習には、環境としてタイムテーブルＴＢが与えられる。

【0063】

まず、図２に示す基板処理装置ＷＰの構成を説明する。図２に示す基板処理装置ＷＰは、４つの基板収容容器Ｃと、インデクサロボットＩＲと、搬送ロボットＣＲと、４つの処理部ＰＵ（処理部ＰＵ１～ＰＵ４）とを備える。

【0064】

基板収容容器Ｃはそれぞれ複数枚の基板Ｗを積層状態で収容する。具体的には、複数枚の基板Ｗは、基板収容容器Ｃ内で、水平姿勢で互いに間隔を開けて鉛直方向に積層される。ここで、水平姿勢とは、基板Ｗの厚み方向が鉛直方向に沿う状態を示す。基板収容容器Ｃは、例えば、ＦＯＵＰ（ＦｒｏｎｔＯｐｅｎｉｎｇＵｎｉｆｉｅｄＰｏｄ）であってもよいし、ＳＭＩＦ（ＳｔａｎｄａｒｄＭｅｃｈａｎｉｃａｌＩｎｔｅｒＦａｃｅ）ポッドであってもよいし、ＯＣ（ＯｐｅｎＣａｓｓｅｔｔｅ）であってもよい。

【0065】

インデクサロボットＩＲは、未処理の基板Ｗを基板収容容器Ｃから受渡部ＰＳに搬送し、処理後の基板Ｗを受渡部ＰＳから基板収容容器Ｃに搬送する。具体的には、インデクサロボットＩＲは、基台部６と、多関節アーム７と、２つのハンド８Ａ、８Ｂとを含む。

【0066】

基台部６は、多関節アーム７の基端部を支持する。より詳しくは、基台部６は、アーム回動機構と、アーム昇降機構とを有する。アーム回転機構は、多関節アーム７を鉛直軸線まわりに回動させる。アーム昇降機構は、多関節アーム７を昇降させる。したがって、多関節アーム７は、基台部６に対して回動自在である。また、多関節アーム７は、基台部６に対して昇降自在である。

【0067】

多関節アーム７は、水平方向に屈伸自在である。具体的には、多関節アーム７は、複数のアーム部と、複数の関節部と、複数の個別回動機構とを有する。各関節部には２本のアーム部が接続する。アーム部はそれぞれ、接続している関節部に対して回動自在である。個別回動機構は関節部に設けられて、対応するアーム部を水平面に沿って回動させる。

【0068】

ハンド８Ａ、８Ｂは、多関節アーム７の先端部に支持される。多関節アーム７は、ハンド８Ａ、８Ｂを鉛直軸線まわりに個別に回転させるハンド回転機構と、ハンド８Ａ、８Ｂを水平方向に個別に進退させるハンド進退機構とを更に有する。したがって、ハンド８Ａ、８Ｂは、多関節アーム７に対して個別に回動自在である。また、ハンド８Ａ、８Ｂは、多関節アーム７に対して個別に進退自在である。

【0069】

ハンド８Ａ、８Ｂはそれぞれ１枚の基板Ｗを把持する。なお、ハンド８Ａ、８Ｂは上下に重なるように配置されてもよいが、図２では、明瞭化のために、ハンド８Ａ、８Ｂを紙面に平行な方向（水平方向）にずらしている。

【0070】

受渡部ＰＳは、基板Ｗを支持する複数の棚を有する。詳しくは、受渡部ＰＳは、未処理の基板Ｗを支持する少なくとも１つの棚と、処理後の基板Ｗを支持する少なくとも１つの棚とを有する。本実施形態では、受渡部ＰＳは、未処理の基板Ｗを支持する１つの棚と、処理後の基板Ｗを支持する１つの棚とを有する。以下、未処理の基板Ｗを支持する１つの棚を「棚ＰＳ１」と記載し、処理後の基板Ｗを支持する棚を「棚ＰＳ２」と記載する場合がある。

【0071】

搬送ロボットＣＲは、未処理の基板Ｗを受渡部ＰＳから処理部ＰＵに搬送し、処理後の基板Ｗを処理部ＰＵから受渡部ＰＳに搬送する。具体的には、搬送ロボットＣＲは、基台部１１と、多関節アーム１２と、２つのハンド１３Ａ、１３Ｂとを含む。

【0072】

基台部１１は、多関節アーム１２の基端部を支持する。より詳しくは、基台部１１は、アーム回動機構と、アーム昇降機構とを有する。アーム回転機構は、多関節アーム１２を鉛直軸線まわりに回動させる。アーム昇降機構は、多関節アーム１２を昇降させる。したがって、多関節アーム１２は、基台部１１に対して回動自在である。また、多関節アーム１２は、基台部１１に対して昇降自在である。

【0073】

多関節アーム１２は、水平方向に屈伸自在である。具体的には、多関節アーム１２は、複数のアーム部と、複数の関節部と、複数の個別回動機構とを有する。各関節部には２本のアーム部が接続する。アーム部はそれぞれ、接続している関節部に対して回動自在である。個別回動機構は関節部に設けられて、対応するアーム部を水平面に沿って回動させる。

【0074】

ハンド１３Ａ、１３Ｂは、多関節アーム１２の先端部に支持される。多関節アーム１２は、ハンド１３Ａ、１３Ｂを鉛直軸線まわりに個別に回転させるハンド回転機構と、ハンド１３Ａ、１３Ｂを水平方向に個別に進退させるハンド進退機構とを更に有する。したがって、ハンド１３Ａ、１３Ｂは、多関節アーム１２に対して個別に回動自在である。また、ハンド１３Ａ、１３Ｂは、多関節アーム１２に対して個別に進退自在である。

【0075】

ハンド１３Ａ、１３Ｂはそれぞれ１枚の基板Ｗを把持する。なお、ハンド１３Ａ、１３Ｂは上下に重なるように配置されてもよいが、図２では、明瞭化のために、ハンド１３Ａ、１３Ｂを紙面に平行な方向（水平方向）にずらしている。

【0076】

処理部ＰＵは、基板Ｗを１枚ずつ処理する。例えば、処理部ＰＵは、基板Ｗに対して、薬液洗浄処理、ブラシ洗浄処理、エッチング処理、感光膜塗布処理、現像処理、アニール処理、及び描画処理のいずれかを実行する。

【0077】

続いて、図３を参照して、図２に示す基板処理装置ＷＰの構成に対応するパターンＰＴを説明する。図３に示すように、図２に示す基板処理装置ＷＰの構成に対応するパターンＰＴは、１３個のパターンＡ～Ｍを含む。

【0078】

パターンＡは、インデクサロボットＩＲが基板収容容器Ｃから未処理の基板Ｗを搬出する処理を示す。パターンＢは、インデクサロボットＩＲが受渡部ＰＳまで未処理の基板Ｗを搬送して、未処理の基板Ｗを受渡部ＰＳに搬入する処理を示す。パターンＣは、受渡部ＰＳに未処理の基板Ｗが搬入される処理を示す。パターンＤは、受渡部ＰＳから未処理の基板Ｗが搬出される処理を示す。パターンＥは、搬送ロボットＣＲが受渡部ＰＳから未処理の基板Ｗを搬出する処理を示す。パターンＦは、搬送ロボットＣＲが未処理の基板Ｗを処理部ＰＵまで搬送して、処理部ＰＵに未処理の基板Ｗを搬入する処理を示す。パターンＧは、処理部ＰＵに未処理の基板Ｗが搬入され、処理部ＰＵが未処理の基板Ｗを処理し、処理後の基板Ｗが処理部ＰＵから搬出されるまでの処理を示す。パターンＨは、搬送ロボットＣＲが処理部ＰＵから処理後の基板Ｗを搬出する処理を示す。パターンＩは、搬送ロボットＣＲが処理後の基板Ｗを受渡部ＰＳまで搬送して、受渡部ＰＳに処理後の基板Ｗを搬入する処理を示す。パターンＪは、受渡部ＰＳに処理後の基板Ｗが搬入される処理を示す。パターンＫは、受渡部ＰＳから処理後の基板Ｗが搬出される処理を示す。パターンＬは、インデクサロボットＩＲが受渡部ＰＳから処理後の基板Ｗを搬出する処理を示す。パターンＭは、インデクサロボットＩＲが処理後の基板Ｗを基板収容容器Ｃまで搬送して、基板収容容器Ｃに処理後の基板Ｗを搬入する処理を示す。

【0079】

ここで、図２に示す基板処理装置ＷＰの制約条件を説明する。図２に示す基板処理装置ＷＰの制約条件は、以下の表３に示す制約条件１～９を含む。

【表3】

【0080】

続いて、ブロックＢＬ（制約条件９）について説明する。ブロックＢＬは、タイムテーブルＴＢに連続して配置されるパターンＰＴを示す。パターンＰＴは、ブロック単位で区分される。ブロック単位でパターンＰＴを配置することにより、基板処理装置ＷＰにおいて物理的に不可能な行為を禁止することができる。例えば、図３に示すように、図２に示す基板処理装置ＷＰのパターンＡ～Ｍは、ブロックＢＬ１～ブロックＢＬ７に区分される。

【0081】

続いて、図１～図４を参照して、タイムテーブルＴＢを説明する。図４に示すように、タイムテーブルＴＢは、基板処理装置ＷＰの各構成要素のタイムスケジュールを規定する。具体的には、タイムテーブルＴＢの横軸は時刻を示す。タイムテーブルＴＢには、基板処理装置ＷＰの構成要素ごとに、対応するパターンＰＴがタイムテーブルＴＢの時間軸に沿って配置される。図４に示すタイムテーブルＴＢには、図３に示すパターンＡ～Ｍが制約条件１～９（表３）に基づいて配置されている。タイムテーブルＴＢは、例えば、ガントチャートである。なお、タイムテーブルＴＢに配置されるパターンＰＴは、数値情報であってもよいし、画像情報であってもよい。

【0082】

ここで、図１～図４を参照して、第１演算部１１１がタイムテーブルＴＢにパターンＰＴを配置する処理について更に説明する。本実施形態において、第１演算部１１１は、制約条件に基づいて、次配置可能パターンＡＰＴの配置可能時刻ＴＡを算出する。配置可能時刻ＴＡは、タイムテーブルＴＢによって示される時刻に対応する。詳しくは、配置可能時刻ＴＡは、次配置可能パターンＡＰＴに対応する処理を開始可能なタイムテーブルＴＢ上の時刻を示す。図３及び図４に示す例では、第１演算部１１１は、図３に示すように配置可能時刻ＴＡを算出する。そして、第１演算部１１１は、図４に示すように、第２演算部１１２によって選択されたパターンＰＴを配置可能時刻ＴＡに合わせてタイムテーブルＴＢに配置する。

【0083】

続いて、図１～図５を参照して、表３に示す制約条件９について説明する。図５は、図２に示す基板処理装置ＷＰが２枚の基板Ｗ１、Ｗ２を処理する場合のタイムスケジュールを作成している途中のタイムテーブルＴＢを示す図である。

【0084】

図５に示すタイムテーブルＴＢにおいて、基板Ｗ１のパターンＥ（パターンＥ１）が配置された後の次配置可能パターンＡＰＴは、基板Ｗ１のパターンＦ（パターンＦ１）、及び、基板Ｗ２のパターンＢ（パターンＢ２）である。

【0085】

このとき、第２演算部１１２が基板Ｗ１のパターンＦ（パターンＦ１）を選択した場合、図３に示すようにパターンＦ～Ｈが１つのブロックＢＬ（ブロックＢＬ４）を構成するため、第１演算部１１１は、基板Ｗ１のパターンＦ（パターンＦ１）をタイムテーブルＴＢに配置した後、次配置可能パターンＡＰＴとして、基板Ｗ１のパターンＧ（パターンＧ１）のみを取得する。この結果、基板Ｗ１のパターンＧ（パターンＧ１）がタイムテーブルＴＢに配置される。続いて、第１演算部１１１は、次配置可能パターンＡＰＴとして、基板Ｗ１のパターンＨ（パターンＧ１）のみを取得する。この結果、基板Ｗ１のパターンＨ（パターンＨ１）がタイムテーブルＴＢに配置される。

【0086】

あるいは、第２演算部１１２が基板Ｗ２のパターンＢ（パターンＢ２）を選択した場合、図３に示すようにパターンＢ、Ｃが１つのブロックＢＬ（ブロックＢＬ２）を構成するため、第１演算部１１１は、基板Ｗ１のパターンＢ（パターンＢ２）をタイムテーブルＴＢに配置した後、次配置可能パターンＡＰＴとして、基板Ｗ２のパターンＣ（パターンＣ２）のみを取得する。この結果、基板Ｗ２のパターンＣ（パターンＣ２）がタイムテーブルＴＢに配置される。

【0087】

以上、図１～図５を参照して説明したように、パターンＦがタイムテーブルＴＢに配置された場合、ブロックＢＬ４に含まれるパターンＦ、Ｇ、Ｈが連続してタイムテーブルＴＢに配置される。また、パターンＢがタイムテーブルＴＢに配置された場合、ブロックＢＬ２に含まれるパターンＢ、Ｃが連続してタイムテーブルＴＢに配置される。つまり、パターンＰＴがブロック単位でタイムテーブルＴＢに配置される。このようにパターンＰＴをブロック単位でタイムテーブルＴＢに配置することで、タイムスケジュールを作成する処理の効率化を図ることができる。

【0088】

続いて、図１、図６及び図７を参照して、本実施形態のスケジュール作成装置１００を更に説明する。図６は、本実施形態のスケジュール作成装置１００が実行する学習ステップの流れの一例を示すシーケンス図である。

【0089】

図６に示すように、第１演算部１１１は、記憶部１１３に記憶されている現段階のタイムテーブルＴＢ及び現段階の未配置パターンＮＰＴと、既定の制約条件とに基づいて、未配置パターンＮＰＴの配置可能時刻ＴＡを算出する。詳しくは、第１演算部１１１は、未配置パターンＮＰＴの配置可能時刻ＴＡを算出する過程で、制約条件が反映されるように配置可能時刻ＴＡを算出する。その結果、次に配置可能な未配置パターンＮＰＴ（次配置可能パターンＡＰＴ）の配置可能時刻ＴＡのみが算出される。

【0090】

第１演算部１１１は、次配置可能パターンＡＰＴの配置可能時刻ＴＡを算出した後、次配置可能パターンＡＰＴと、次配置可能パターンＡＰＴの配置可能時刻ＴＡとに基づいて、強化学習に用いるアクションＡＣ（Ａｃｔｉｏｎ）を生成する。具体的には、アクションＡＣは、次配置可能パターンＡＰＴを配置可能時刻ＴＡに合わせてタイムテーブルＴＢに配置する動作を示す。

【0091】

第１演算部１１１は、生成したアクションＡＣを第２演算部１１２に入力する。より具体的には、第１演算部１１１により、アクションＡＣと、現段階のタイムテーブルＴＢと、現段階の未配置パターンＮＰＴとが第２演算部１１２に入力される。

【0092】

第２演算部１１２は、第１演算部１１１から入力されたアクションＡＣ、現段階のタイムテーブルＴＢ、及び現段階の未配置パターンＮＰＴに基づいて、評価値が最大化するアクションＡＣを予測して選択する。

【0093】

第１演算部１１１は、第２演算部１１２によって選択されたアクションＡＣに対応するパターンＰＴ（次配置可能パターンＡＰＴ）をタイムテーブルＴＢに配置してタイムテーブルＴＢを更新するとともに、未配置パターンＮＰＴを更新する。更に、第１演算部１１１は、更新されたタイムテーブルＴＢに基づいて、中間報酬又は最終報酬を取得する。

【0094】

続いて、図７を参照して、強化学習のネットワーク構造ＮＷを説明する。図７は、強化学習のネットワーク構造ＮＷを示す図である。図１を参照して説明した強化学習用のプログラムによって、図７に示すネットワーク構造ＮＷが構築されてもよい。

【0095】

図７に示すように、ネットワーク構造ＮＷは、第１エンコーダ１ａ～第３エンコーダ１ｃと、予測器２とを有する。第１エンコーダ１ａは、現段階のタイムテーブルＴＢを潜在ベクトルに変換して、予測器２に入力する。第２エンコーダ１ｂは、現段階の未配置パターンＮＰＴを潜在ベクトルに変換して、予測器２に入力する。第３エンコーダ１ｃは、第１演算部１１１が生成したアクションＡＣを潜在ベクトルに変換して、予測器２に入力する。

【0096】

予測器２は、図１を参照して説明した予測モデルを含む。予測器２は、図１を参照して説明したように、予測モデルとして、ニューラルネットワークを含み得る。予測器２は、現段階のタイムテーブルＴＢを示す潜在ベクトルと、現段階の未配置パターンＮＰＴを示す潜在ベクトルと、第１演算部１１１が生成したアクションＡＣを示す潜在ベクトルとに基づいて、アクションＡＣごとに予測評価値を算出する。詳しくは、予測モデル（ニューラルネットワーク）の入力層に、現段階のタイムテーブルＴＢを示す潜在ベクトルと、現段階の未配置パターンＮＰＴを示す潜在ベクトルと、第１演算部１１１が生成したアクションＡＣを示す潜在ベクトルとが入力される。この結果、予測モデル（ニューラルネットワーク）の出力層から予測評価値が出力される。第２演算部１１２は、予測評価値に基づいて、アクションＡＣを１つ選択する。

【0097】

続いて、図１～図１７を参照して、本実施形態のスケジュール作成方法を説明する。本実施形態のスケジュール作成方法は、図１～図７を参照して説明したスケジュール作成装置１００によって実行される。

【0098】

図８は、本実施形態のスケジュール作成方法を示す図である。詳しくは、図８は、第１演算部１１１及び第２演算部１１２の処理の流れを示すフロー図である。図８に示す処理は、作業者が入力部１２１を操作して強化学習の開始を指示することにより開始する。

【0099】

図８に示すように、強化学習が開始すると、第１演算部１１１及び第２演算部１１２は、学習ステップを実行する（ステップＳ１）。学習ステップの終了後、第１演算部１１１が、学習回数が設定回数に達しているか否かを判定する（ステップＳ２）。

【0100】

学習回数が設定回数に達していると第１演算部１１１が判定した場合（ステップＳ２のＹｅｓ）、図８に示す処理（強化学習）は終了する。学習回数が設定回数に達していないと第１演算部１１１が判定した場合（ステップＳ２のＮｏ）、第１演算部１１１及び第２演算部１１２は学習ステップを再度実行する（ステップＳ１）。したがって、第１演算部１１１及び第２演算部１１２は、学習回数が設定回数に達するまで学習ステップを繰り返す。

【0101】

続いて、図９を参照して、学習ステップ（ステップＳ１）を説明する。図９は、学習ステップの処理の流れを示すフロー図である。図９に示すように、学習ステップは、ステップＳ１１～ステップＳ１５を含む。

【0102】

学習ステップが開始すると、第１演算部１１１及び第２演算部１１２は、タイムテーブルＴＢにパターンＰＴのうちの一つを配置する（ステップＳ１１）。その結果、タイムテーブルＴＢが更新される。

【0103】

タイムテーブルＴＢにパターンＰＴのうちの一つが配置されると、第１演算部１１１が、タイムテーブルＴＢに最後に配置されたパターンＰＴが、既定の中間報酬付与条件に合致するか否かを判定する（ステップＳ１２）。なお、中間報酬付与条件は、記憶部１１３に予め記憶されている。中間報酬付与条件は、基板処理装置ＷＰの装置構成に基づいて決定される。

【0104】

第１演算部１１１は、タイムテーブルＴＢに最後に配置されたパターンＰＴが中間報酬付与条件に合致すると判定した場合（ステップＳ１２のＹｅｓ）、更新後のタイムテーブルＴＢに基づいて中間報酬を取得する（ステップＳ１３）。

【0105】

第１演算部１１１は、タイムテーブルＴＢに最後に配置されたパターンＰＴが、中間報酬付与条件に合致しないと判定した場合（ステップＳ１２のＮｏ）、全パターンＰＴがタイムテーブルＴＢに配置されているか否かを判定する（ステップＳ１４）。あるいは、第１演算部１１１は、中間報酬を取得すると、全パターンＰＴがタイムテーブルＴＢに配置されているか否かを判定する（ステップＳ１４）。

【0106】

全パターンＰＴがタイムテーブルＴＢに配置されていないと第１演算部１１１が判定した場合（ステップＳ１４のＮｏ）、処理はステップＳ１１に戻る。したがって、全パターンＰＴがタイムテーブルＴＢに配置されるまで、ステップＳ１１～ステップＳ１４が繰り返される。

【0107】

第１演算部１１１は、全パターンＰＴがタイムテーブルＴＢに配置されていると判定した場合（ステップＳ１４のＹｅｓ）、評価値を算出する（ステップＳ１５）。この結果、学習ステップが終了する。

【0108】

本実施形態によれば、タイムテーブルＴＢの最終の状態に対応する報酬（最終報酬）に加えて、タイムテーブルＴＢの途中の状態に対応する報酬（中間報酬）を取得できるので、基板Ｗをより効率的に処理できるタイムスケジュールを作成するすることができる。

【0109】

ここで、中間報酬付与条件の３つの例（第１中間報酬付与条件～第３中間報酬付与条件）を説明する。なお、以下の説明において、タイムテーブルＴＢに最後に配置されたパターンＰＴを、「最後に配置したパターンＰＴ」と記載する場合がある。また、更新前のタイムテーブルＴＢに配置されていたパターンＰＴを、「更新前のパターンＰＴ」と記載する場合がある。

【0110】

まず、第１中間報酬付与条件を説明する。基板処理装置ＷＰの搬送ロボットＣＲが複数の基板Ｗを同時に搬送可能である場合、中間報酬付与条件は、第１中間報酬付与条件を含んでもよい。例えば、搬送ロボットＣＲが４つのハンドを有する場合、搬送ロボットＣＲは２枚の基板Ｗを同時に搬送可能である。第１中間報酬付与条件は、搬送ロボットＣＲが互いに異なる基板Ｗを同時に搬送することを示す。したがって、最後に配置したパターンＰＴと更新前のパターンＰＴとの組み合わせが、搬送ロボットＣＲによる複数の基板Ｗの同時搬送を示す場合、最後に配置したパターンＰＴは、第１中間報酬付与条件に合致する。

【0111】

第１演算部１１１は、最後に配置したパターンＰＴが第１中間報酬付与条件に合致する場合、第１中間報酬を取得する。第１中間報酬は、第１中間報酬付与条件に対応する中間報酬である。第１中間報酬の値は記憶部１１３に予め記憶されている。第１中間報酬は、正（プラス）の報酬である。第１中間報酬付与条件によれば、基板処理装置ＷＰの装置構成に特有の機能を発揮できるタイムスケジュールに対して報酬（中間報酬）を付与できるため、基板Ｗをより効率よく処理できるタイムスケジュールを作成することができる。

【0112】

続いて、第２中間報酬付与条件を説明する。基板処理装置ＷＰが処理部ＰＵを備える場合、中間報酬付与条件は、第２中間報酬付与条件を含んでもよい。第２中間報酬付与条件は、処理部ＰＵから基板Ｗが搬出された直後に処理部ＰＵに他の基板Ｗが搬入されることを示す。換言すると、第２中間報酬付与条件は、処理部ＰＵにおいて基板Ｗが交換されたことを示す。したがって、最後に配置したパターンＰＴと更新前のパターンＰＴとの組み合わせが、処理部ＰＵにおいて基板Ｗが交換されたことを示す場合、最後に配置したパターンＰＴは、第２中間報酬付与条件に合致する。

【0113】

第１演算部１１１は、最後に配置したパターンＰＴが第２中間報酬付与条件に合致する場合、第２中間報酬を取得する。第２中間報酬は、第２中間報酬付与条件に対応する中間報酬である。第２中間報酬の値は記憶部１１３に予め記憶されている。第２中間報酬は、正（プラス）の報酬である。第２中間報酬の値は、第１中間報酬と同じであってもよいし、異なっていてもよい。第２中間報酬付与条件によれば、処理部ＰＵが連続動作するタイムスケジュールを作成することができる。したがって、基板Ｗをより効率よく処理できるタイムスケジュールを作成することができる。

【0114】

続いて、第３中間報酬付与条件を説明する。中間報酬付与条件は、第３中間報酬付与条件を含んでもよい。第３中間報酬付与条件は、第１パターンＰＴ１の配置可能時刻ＴＡが第２パターンＰＴ２の配置可能時刻ＴＡよりも早い時刻である場合に、タイムテーブルＴＢに第２パターンＰＴ２が配置された後に第１パターンＰＴ１が配置されることを示す。したがって、タイムテーブルＴＢに第２パターンＰＴ２が配置された後に第１パターンＰＴ１（最後に配置したパターンＰＴ）が配置された場合、最後に配置したパターンＰＴは、第３中間報酬付与条件に合致する。

【0115】

第１演算部１１１は、最後に配置したパターンＰＴが第３中間報酬付与条件に合致する場合、第３中間報酬を取得する。第３中間報酬は、第３中間報酬付与条件に対応する中間報酬である。第３中間報酬の値は記憶部１１３に予め記憶されている。第３中間報酬は、負（マイナス）の報酬である。第３中間報酬付与条件によれば、基板Ｗを効率よく処理できないタイムスケジュールが作成される可能性を低減させることができる。

【0116】

続いて、図１０を参照して、第３中間報酬付与条件の一例を説明する。図１０は、図２に示す基板処理装置ＷＰが２枚の基板Ｗ１、Ｗ２を処理する場合のタイムスケジュールを作成している途中のタイムテーブルＴＢの他例を示す図である。図１０に示す例において、基板Ｗ２のパターンＢ（パターンＢ１）の配置可能時刻ＴＡ（ｔ＝１）は、基板Ｗ１のパターンＨ（パターンＨ１）の配置可能時刻ＴＡ（ｔ＝９）よりも早い時刻である。図１０に示す例では、パターンＨ１が配置された後にパターンＢ１が配置される。したがって、第１演算部１１１は、パターンＢ１をタイムテーブルＴＢに配置して、タイムテーブルＴＢを更新した場合、第３中間報酬を取得する。

【0117】

続いて、図１１を参照して、タイムテーブルＴＢにパターンＰＴを配置する処理（ステップＳ１１）を説明する。図１１は、タイムテーブルＴＢにパターンＰＴを配置する処理の流れを示すフロー図である。図１１に示すように、タイムテーブルＴＢにパターンＰＴを配置する処理は、ステップＳ１１１～ステップＳ１１３を含む。

【0118】

タイムテーブルＴＢにパターンＰＴを配置する処理が開始すると、第１演算部１１１が、既定の制約条件に基づいて、未配置パターンＮＰＴのうちから次配置可能パターンＡＰＴを取得する（ステップＳ１１１）。制約条件は、例えば、第１制約条件及び第２制約条件を含んでもよい。第１制約条件は、処理手順の順序に従って、各パターンＰＴのうちから次に配置可能なパターンを取得させる条件である。第２制約条件は、基板処理装置ＷＰが物理的に実行できない動作の実行を禁止する条件である。第１制約条件により、処理手順の順序に従って基板処理装置ＷＰが動作するタイムスケジュールを確実に作成することができる。第２制約条件により、物理的に実行できない動作を含むタイムスケジュールが作成されることを防止できる。

【0119】

第１演算部１１１が次配置可能パターンＡＰＴを取得すると、第２演算部１１２が、次配置可能パターンＡＰＴのうちから、評価値が最大化するパターンを予測して選択する（ステップＳ１１２）。

【0120】

第２演算部１１２が次配置可能パターンＡＰＴを選択すると、第１演算部１１１が、第２演算部１１２によって選択された次配置可能パターンＡＰＴをタイムテーブルＴＢに配置して、タイムテーブルＴＢを更新する（ステップＳ１１３）。この結果、図１１に示す処理が終了する。

【0121】

続いて、図１２を参照して、タイムテーブルＴＢにパターンＰＴを配置する処理（ステップＳ１１）の一例を説明する。図１２は、タイムテーブルＴＢにパターンＰＴを配置する処理の流れの一例を示すフロー図である。図１２に示す処理は、ステップＳ１１１ａ～ステップＳ１１３ａを含む。

【0122】

図１２に示すように、タイムテーブルＴＢにパターンＰＴを配置する処理が開始すると、第１演算部１１１が、既定の制約条件に基づいて、次配置可能パターンＡＰＴの配置可能時刻ＴＡを算出する（ステップＳ１１１ａ）。

【0123】

第１演算部１１１は、次配置可能パターンＡＰＴの配置可能時刻ＴＡを算出すると、次配置可能パターンＡＰＴと、次配置可能パターンＡＰＴの配置可能時刻ＴＡとに基づいて、強化学習に用いるアクションＡＣを生成して、第２演算部１１２に入力する（ステップＳ１１１ｂ）。より詳しくは、第１演算部１１１により、アクションＡＣと、現段階のタイムテーブルＴＢと、現段階の未配置パターンＮＰＴとが第２演算部１１２に入力される。

【0124】

第１演算部１１１から、現段階のタイムテーブルＴＢを示す情報と、現段階の未配置パターンＮＰＴを示す情報と、アクションＡＣとが入力されると、第２演算部１１２は、アクションＡＣのうちから、評価値が最大化するアクションＡＣを予測して選択する（ステップＳ１１２ａ）。

【0125】

第２演算部１１２がアクションＡＣを選択すると、第１演算部１１１は、第２演算部１１２によって選択されたアクションＡＣに対応する次配置可能パターンＡＰＴを配置可能時刻ＴＡに合わせてタイムテーブルＴＢに配置して、タイムテーブルＴＢを更新する（ステップＳ１１３ａ）。この結果、図１２に示す処理が終了する。

【0126】

続いて、図１３を参照して、評価値を算出する処理（ステップＳ１５）を説明する。図１３は、評価値を算出する処理の流れを示すフロー図である。図１３に示すように、評価値を算出する処理は、ステップＳ１５１～ステップＳ１５４を含む。

【0127】

評価値を算出する処理が開始すると、第１演算部１１１が、全パターンＰＴが配置されたタイムテーブルＴＢに対して中間報酬が付与されているか否かを判定する（ステップＳ１５１）。詳しくは、第１演算部１１１は、記憶部１１３に中間報酬の履歴が記憶されているか否かを判定する。

【0128】

第１演算部１１１は、中間報酬が付与されていると判定した場合（ステップＳ１５１のＹｅｓ）、割引率割当処理を実行する（ステップＳ１５２）。詳しくは、第１演算部１１１は、中間報酬に割引率を割り当てるか否かを決定し、中間報酬に割引率を割り当てることを決定した場合、中間報酬に割引率を割り当てる。この結果、中間報酬の値が割引率に応じて減少し、第１演算部１１１は、割引後の中間報酬を取得する。一方、中間報酬に割引率を割り当てないことを決定した場合、中間報酬の値は維持される。

【0129】

第１演算部１１１は、中間報酬が付与されていないと判定した場合（ステップＳ１５１のＮｏ）、最終報酬を取得する（ステップＳ１５３）。あるいは、第１演算部１１１は、割引率割当処理を実行した後に、最終報酬を取得する（ステップＳ１５３）。

【0130】

第１演算部１１１は、最終報酬を取得した後、評価値を算出して（ステップＳ１５４）、図１３に示す処理を終了する。詳しくは、全パターンＰＴが配置されたタイムテーブルＴＢに対して中間報酬が付与されている場合、第１演算部１１１は、中間報酬と最終報酬とに基づいて評価値を算出する。全パターンＰＴが配置されたタイムテーブルＴＢに対して中間報酬が付与されていない場合、第１演算部１１１は、最終報酬に基づいて評価値を算出する。

【0131】

続いて、図１４を参照して、割引率割当処理（ステップＳ１５２）を説明する。図１４は、割引率割当処理の流れを示すフロー図である。図１４に示すように、割引率割当処理は、ステップＳ１５２１～ステップＳ１５２５を含む。なお、割引率割当処理は、正の中間報酬に対して実行される。したがって、負の中間報酬には割引率は適用されず、負の中間報酬の値は維持される。

【0132】

割引率割当処理が開始すると、第１演算部１１１が、タイムテーブルＴＢによって示される時刻のうちから、中間報酬付与条件に合致するパターンＰＴの位置（パターンＰＴの配置位置）に対応する時刻（配置時刻）を取得する（ステップＳ１５２１）。以下、中間報酬付与条件に合致するパターンＰＴを、「条件合致パターンＣＰＴ」と記載する場合がある。

【0133】

第１演算部１１１は、配置時刻を取得すると、取得した配置時刻に基づいて、中間報酬に割引率を割り当てるか否かを決定する（ステップＳ１５２２）。具体的には、取得した配置時刻と、条件合致パターンＣＰＴが出現可能な最も早い時刻（タイムテーブルＴＢ上の時刻）とが一致するか否かを判定する。以下、条件合致パターンＣＰＴが出現可能な最も早い時刻を、「目標時刻」と記載する場合がある。目標時刻は、記憶部１１３に予め記憶されている。

【0134】

第１演算部１１１は、取得した配置時刻と目標時刻とが一致しないと判定した場合、中間報酬に割引率を割り当てることを決定する（ステップＳ１５２２のＹｅｓ）。第１演算部１１１は、中間報酬に割引率を割り当てることを決定した場合、取得した配置時刻に応じて割引率の値を算出する（ステップＳ１５２３）。具体的には、取得した配置時刻が目標時刻に対してより遅い時刻である程、割引率を大きくする。

【0135】

第１演算部１１１は、割引率の値を算出すると、割引率を中間報酬に割り当てる（ステップＳ１５２４）。その後、第１演算部１１１は、正の中間報酬の全てについて、割引率を割り当てるか否かを決定したか否かを判定する（ステップＳ１５２５）。

【0136】

あるいは、第１演算部１１１は、取得した配置時刻と目標時刻とが一致すると判定した場合、中間報酬に割引率を割り当てないことを決定する（ステップＳ１５２２のＮｏ）。第１演算部１１１は、中間報酬に割引率を割り当てないことを決定した場合、正の中間報酬の全てについて、割引率を割り当てるか否かを決定したか否かを判定する（ステップＳ１５２５）。

【0137】

第１演算部１１１は、正の中間報酬の全てについて割引率を割り当てるか否かを決定していると判定した場合（ステップＳ１５２５のＹｅｓ）、図１４に示す処理を終了する。一方、正の中間報酬の一部について割引率を割り当てるか否かを決定していないと第１演算部１１１が判定した場合（ステップＳ１５２５のＮｏ）、処理はステップＳ１５２１に戻る。したがって、正の中間報酬の全てについて割引率を割り当てるか否かを決定するまで、ステップＳ１５２１～ステップＳ１５２５の処理が繰り返される。

【0138】

続いて、図１５を参照して、最終報酬を取得する処理（ステップＳ１５３）を説明する。図１５は、最終報酬を取得する処理の流れを示すフロー図である。図１５に示すように、最終報酬を取得する処理は、ステップＳ１５３ａと、ステップＳ１５３ｂとを含む。

【0139】

第１演算部１１１は、ステップＳ１５３ａにおいて、正の報酬である第１最終報酬を取得する。第１演算部１１１は、ステップＳ１５３ｂにおいて、正の報酬である第２最終報酬を取得する。第１演算部１１１は、第１最終報酬及び第２最終報酬を取得すると、図１５に示す処理を終了する。

【0140】

続いて、図１６を参照して、第１最終報酬を取得する処理（ステップＳ１５３ａ）を説明する。図１６は、第１最終報酬を取得する処理の流れを示すフロー図である。図１６に示すように、第１最終報酬を取得する処理は、ステップＳ１５３１ａ～ステップＳ１５３３ａを含む。

【0141】

第１最終報酬を取得する処理を開始すると、第１演算部１１１は、全パターンＰＴが配置されたタイムテーブルＴＢに基づいて、複数の処理部ＰＵのうちから、最後に基板Ｗを処理した最終処理部を特定する（ステップＳ１５３１ａ）。

【0142】

第１演算部１１１は、最終処理部を特定すると、タイムテーブルＴＢによって示される時刻のうちから、最終処理部が最後に基板Ｗを処理した時刻（最終時刻）を取得する（ステップＳ１５３２ａ）。

【0143】

第１演算部１１１は、最終時刻を取得すると、最終時刻に基づいて第１最終報酬を取得して（ステップＳ１５３３ａ）、図１６に示す処理を終了する。具体的には、最終時刻がより早い時刻である程、第１最終報酬の値は大きくなる。つまり、既定枚数の基板Ｗをより短い時間で処理できるタイムスケジュールほど、第１最終報酬の値が大きくなる。したがって、第１最終報酬により、基板Ｗをより効率よく処理できるタイムスケジュールを作成することができる。

【0144】

続いて、図１７を参照して、第２最終報酬を取得する処理（ステップＳ１５３ｂ）を説明する。図１７は、第２最終報酬を取得する処理の流れを示すフロー図である。図１７に示すように、第２最終報酬を取得する処理は、ステップＳ１５３１ｂ～ステップＳ１５３３ｂを含む。

【0145】

第２最終報酬を取得する処理を開始すると、第１演算部１１１は、タイムテーブルＴＢによって示される時刻のうちから、複数の処理部ＰＵのそれぞれが最初に基板Ｗを処理した第１時刻Ｔ１と、複数の処理部ＰＵのそれぞれが最後に基板Ｗを処理した第２時刻Ｔ２とを取得する（ステップＳ１５３１ｂ）。

【0146】

第１演算部１１１は、第１時刻Ｔ１及び第２時刻Ｔ２を取得すると、複数の処理部ＰＵのそれぞれの第１時刻Ｔ１から第２時刻Ｔ２までの経過時間を取得する（ステップＳ１５３２ｂ）。

【0147】

第１演算部１１１は、複数の処理部ＰＵのそれぞれの経過時間を取得すると、経過時間の分散に基づいて第２最終報酬を取得して（ステップＳ１５３３ｂ）、図１７に示す処理を終了する。具体的には、経過時間の分散が小さい程、第２最終報酬の値が大きくなる。したがって、第２最終報酬により、複数の処理部ＰＵがより均等に使用されるタイムスケジュールを作成することができる。この結果、基板Ｗをより効率よく処理できるタイムスケジュールを作成することができる。

【0148】

以上、図１～図１７を参照して本発明の実施形態１を説明した。本実施形態によれば、スケジュールを作成する処理の一部を機械学習により実施できるので、開発者は、機種ごとにフロー全体を開発する必要がない。具体的には、開発者は、第１演算部１１１が実行する処理のフローを機種ごとに開発すればよい。したがって、開発者の負担を軽減できる。

【0149】

［実施形態２］
続いて図１８を参照して本発明の実施形態２について説明する。但し、実施形態１と異なる事項を説明し、実施形態１と同じ事項についての説明は割愛する。実施形態２は、基板処理装置２００Ａがスケジュール作成装置１００を備える点で実施形態１と異なる。

【0150】

図１８は、本実施形態の基板処理装置２００Ａを示す図である。図１８に示すように、基板処理装置２００Ａは、制御装置２０１Ａを備える。制御装置２０１Ａは、基板処理装置２００Ａの各構成要素を制御する。例えば、基板処理装置２００Ａは、図２に示す基板処理装置ＷＰと同様に、４つの基板収容容器Ｃと、インデクサロボットＩＲと、搬送ロボットＣＲと、４つの処理部ＰＵとを備えてもよい。この場合、制御装置２０１Ａは、インデクサロボットＩＲ、搬送ロボットＣＲ、及び４つの処理部ＰＵを制御する。

【0151】

制御装置２０１Ａは、スケジュール作成装置１００を含む。スケジュール作成装置１００は、実施形態１で説明したように、基板Ｗの処理手順に関わる各構成要素のタイムスケジュールを作成する。例えば、スケジュール作成装置１００は、インデクサロボットＩＲ、搬送ロボットＣＲ、及び４つの処理部ＰＵのタイムスケジュールを作成する。

【0152】

より具体的には、制御装置２０１Ａは、第１演算部１１１と、第２演算部１１２と、記憶部１１３とを含む。本実施形態において、記憶部１１３は、レシピデータを更に記憶する。レシピデータは、複数のレシピを示す情報を含む。複数のレシピの各々は、基板Ｗの処理内容及び処理手順等を規定する。また、第１演算部１１１は、レシピデータとタイムスケジュールとに基づいて、基板処理装置２００Ａの各構成要素を制御する。詳しくは、第１演算部１１１は、タイムスケジュールに基づいて基板処理装置２００Ａの各構成要素のスケジュールを管理する。

【0153】

以上、図１８を参照して本発明の実施形態２を説明した。本実施形態によれば、実施形態１と同様に、スケジュールを作成する処理の一部を機械学習により実施できるので、開発者は、機種ごとにフロー全体を開発する必要がない。したがって、開発者の負担を軽減できる。

【0154】

なお、本実施形態では、スケジュール作成装置１００の第１演算部１１１が基板処理装置２００Ａの各構成要素のスケジュールを管理したが、基板処理装置２００Ａは、スケジュール作成装置１００とは別に、基板処理装置２００Ａの各構成要素のスケジュールを管理する制御部を更に備えてもよい。

【0155】

また、本実施形態では、スケジュール作成装置１００の記憶部１１３がレシピデータを記憶したが、基板処理装置２００Ａは、スケジュール作成装置１００の記憶部１１３とは別に、レシピデータを記憶する記憶部を更に備えてもよい。

【0156】

［実施形態３］
続いて図１９を参照して本発明の実施形態３について説明する。但し、実施形態１、２と異なる事項を説明し、実施形態１、２と同じ事項についての説明は割愛する。実施形態３は、スケジュール作成装置１００と基板処理装置２００Ｂとが通信可能に接続されている点で実施形態１と異なる。

【0157】

図１９は、本実施形態の基板処理システム３００を示す図である。図１９に示すように、基板処理システム３００は、スケジュール作成装置１００と、基板処理装置２００Ｂとを備える。

【0158】

スケジュール作成装置１００は、実施形態１で説明したように、基板Ｗの処理手順に関わる各構成要素のタイムスケジュールを作成する。本実施形態において、スケジュール作成装置１００は、通信部１２３を更に備える。

【0159】

通信部１２３は、ネットワークに接続されて、基板処理装置２００Ｂとの間で通信を実行する。ネットワークは、例えば、インターネット、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、公衆電話網、及び、近距離無線ネットワークを含む。通信部１２３は、通信機であり、例えば、ネットワークインターフェースコントローラーである。通信部１２３は、基板処理装置２００Ｂへタイムスケジュールを送信する。

【0160】

基板処理装置２００Ｂは、通信部２０２Ｂを備える。通信部２０２Ｂは、ネットワークに接続されて、スケジュール作成装置１００の通信部１２３との間で通信を実行する。通信部２０２Ｂは、通信機であり、例えば、ネットワークインターフェースコントローラーである。通信部２０２Ｂは、基板処理装置２００Ｂからタイムスケジュールを受信する。通信部２０２Ｂは、受信部の一例である。

【0161】

基板処理装置２００Ｂは、制御装置２０１Ｂを更に備える。制御装置２０１Ｂは、基板処理装置２００Ｂの各構成要素を制御する。例えば、基板処理装置２００Ｂは、図２に示す基板処理装置ＷＰと同様に、４つの基板収容容器Ｃと、インデクサロボットＩＲと、搬送ロボットＣＲと、４つの処理部ＰＵとを備えてもよい。この場合、制御装置２０１Ｂは、インデクサロボットＩＲ、搬送ロボットＣＲ、及び４つの処理部ＰＵを制御する。より具体的には、制御装置２０１Ｂは、制御部２１１と、記憶部２１２とを含む。

【0162】

制御部２１１は、プロセッサーを含む。制御部２１１は、例えば、ＣＰＵ又はＭＰＵを含む。あるいは、制御部２１１は、汎用演算機又は専用演算器を含み得る。制御部２１１は、記憶部２１２に記憶されている制御プログラム及びデータに基づいて、基板処理装置２００Ｂの各構成要素を制御する。

【0163】

記憶部２１２は、制御プログラム及びデータを記憶する。制御プログラムは、コンピュータプログラムである。データは、レシピデータを含む。記憶部２１２は、主記憶装置を有する。主記憶装置は、例えば、半導体メモリである。記憶部２１２は、補助記憶装置を更に有してもよい。補助記憶装置は、例えば、半導体メモリ及びハードディスクドライブの少なくも一方を含む。記憶部２１２はリムーバブルメディアを含んでいてもよい。

【0164】

本実施形態において、制御部２１１は、通信部２０２Ｂが受信したタイムスケジュールを記憶部２１２に記憶させる。制御部２１１は、レシピデータとタイムスケジュールとに基づいて、基板処理装置２００Ｂの各構成要素を制御する。より詳しくは、制御部２１１は、タイムスケジュールに基づいて基板処理装置２００Ｂの各構成要素のスケジュールを管理する。制御部２１１は、管理部の一例である。

【0165】

以上、図１９を参照して本発明の実施形態３を説明した。本実施形態によれば、実施形態１、２と同様に、スケジュールを作成する処理の一部を機械学習により実施できるので、開発者は、機種ごとにフロー全体を開発する必要がない。したがって、開発者の負担を軽減できる。

【0166】

以上、図面（図１～図１９）を参照して本発明の実施形態について説明した。ただし、本発明は、上記の実施形態に限られるものではなく、その要旨を逸脱しない範囲で種々の態様において実施できる。また、上記の実施形態に開示される複数の構成要素は適宜改変可能である。例えば、ある実施形態に示される全構成要素のうちのある構成要素を別の実施形態の構成要素に追加してもよく、又は、ある実施形態に示される全構成要素のうちのいくつかの構成要素を実施形態から削除してもよい。

【0167】

図面は、発明の理解を容易にするために、それぞれの構成要素を主体に模式的に示しており、図示された各構成要素の厚さ、長さ、個数、間隔等は、図面作成の都合上から実際とは異なる場合もある。また、上記の実施形態で示す各構成要素の構成は一例であって、特に限定されるものではなく、本発明の効果から実質的に逸脱しない範囲で種々の変更が可能であることは言うまでもない。

【0168】

例えば、図１～図１９を参照して説明した実施形態において、基板処理装置ＷＰ、基板処理装置２００Ａ及び基板処理装置２００Ｂは枚葉式であったが、基板処理装置ＷＰ、基板処理装置２００Ａ及び基板処理装置２００Ｂはバッチ式であってもよい。

【0169】

また、図１～図１９を参照して説明した実施形態では、タイムテーブルＴＢにブロック単位でパターンＰＴを配置したが、パターンＰＴはタイムテーブルＴＢにパターン単位で配置されてもよい。

【0170】

また、図１～図１９を参照して説明した実施形態において、報酬は最終報酬と中間報酬とを含むが、報酬は、最終報酬と中間報酬とのうち、最終報酬のみを含んでもよい。

【0171】

また、図１～図１９を参照して説明した実施形態では、正の中間報酬に割引率が適用されたが、中間報酬に割引率を適用しなくてもよい。

【0172】

また、図１～図１９を参照して説明した実施形態では、配置時刻に応じて割引率が変化したが、割引率は一定値であってもよい。

【0173】

また、図１～図１９を参照して説明した実施形態において、最終報酬は第１最終報酬と第２最終報酬とを含むが、最終報酬は、第１最終報酬と第２最終報酬とのうちの一方のみを含んでもよい。

【0174】

また、図１～図１９を参照して説明した実施形態において、スケジュール作成装置１００は、２つの演算部（第１演算部１１１及び第２演算部１１２）を備えたが、スケジュール作成装置１００は演算部を１つ備えてもよい。この場合、１つの演算部により、第１演算部１１１が実行する処理と、第２演算部１１２が実行する処理とが実行される。

【実施例】

【0175】

以下、実施例を用いて本発明を更に具体的に説明する。なお、本発明は実施例の範囲に何ら限定されない。

【0176】

図２０は、本実施例で使用したパターンＰＴを示す図である。図２１は、本実施例で作成されたタイムスケジュールを示す図である。図２２は、本実施例で得られた学習曲線を示す図である。図２２において、横軸は、学習回数（学習ステップを繰り返した回数）を示す。縦軸は、得られた報酬を示す。

【0177】

本実施例において強化学習の環境として与えたタイムテーブルＴＢに対応する基板処理装置ＷＰは、搬送ロボットＣＲと、４つの処理部ＰＵ（処理部ＰＵ１～ＰＵ４）とを備える。また、搬送ロボットＣＲは、独立して動作可能な４つのハンド（ＣＲハンド１～４）を有する。

【0178】

制約条件として、以下の表４に示す制約条件１～９を与えた。

【表4】

【0179】

パターンＰＴとして、図２０に示すパターンＡ～Ｅを与えた。パターンＡは、未処理の基板Ｗを搬送するハンドが、未処理の基板Ｗを把持する処理を示す。パターンＢは、未処理の基板Ｗを搬送するハンドが、未処理の基板Ｗを搬送して処理部ＰＵに搬入する処理を示す。パターンＣは、処理部ＰＵ内に未処理の基板Ｗが搬入され、処理部ＰＵが未処理の基板Ｗを処理し、処理部ＰＵから処理後の基板Ｗが搬出される処理を示す。パターンＤは、処理後の基板Ｗを搬送するハンドが、処理後の基板Ｗを把持する処理を示す。パターンＥは、処理後の基板Ｗを搬送するハンドが、処理後の基板Ｗを搬送して処理部ＰＵから処理後の基板Ｗを搬出する処理を示す。

【0180】

本実施例では、報酬として、実施形態１で説明した第１中間報酬～第３中間報酬、第１最終報酬、及び第２最終報酬を与えた。更に、本実施例では、第１中間報酬及び第２中間報酬に対し、実施形態１で説明した割引率を適用した。

【0181】

本実施例では、８枚の基板Ｗを処理するタイムスケジュールを作成した。図２１に示すタイムテーブルＴＢは、本実施例において評価値が最も高くなったタイムスケジュールを示す。図２１に示すように、基板Ｗを効率よく処理できるタイムスケジュールを作成できた。また、図２２に示すように、学習ステップをおよそ５０００回繰り返すことで、報酬が目標値で安定した。

【産業上の利用可能性】

【0182】

本発明は、基板処理装置のタイムスケジュールを作成する技術に適用できる。

【符号の説明】

【0183】

１００：スケジュール作成装置
１１１：第１演算部
１１２：第２演算部
２００：基板処理装置
２００Ａ：基板処理装置
２００Ｂ：基板処理装置
２０１Ａ：制御装置
２０１Ｂ：制御装置
２０２Ｂ：通信部
２１１：制御部
２１２：記憶部
３００：基板処理システム
ＡＰＴ：次配置可能パターン
ＣＲ：搬送ロボット
ＮＰＴ：未配置パターン
ＰＴ：パターン
ＰＵ：処理部
ＰＵ１：処理部
ＰＵ２：処理部
ＰＵ３：処理部
ＰＵ４：処理部
Ｔ１：第１時刻
Ｔ２：第２時刻
ＴＡ：配置可能時刻
ＴＢ：タイムテーブル
Ｗ：基板
Ｗ１：基板
Ｗ２：基板
ＷＰ：基板処理装置

【図1】