特開2024-10278 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-10278推論リクエスト配分プログラム、推論リクエスト配分方法および情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024010278

(43)【公開日】2024-01-24

(54)【発明の名称】推論リクエスト配分プログラム、推論リクエスト配分方法および情報処理装置

(51)【国際特許分類】

G06F 9/50 20060101AFI20240117BHJP

【ＦＩ】

G06F9/50 150D

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2022111521

(22)【出願日】2022-07-12

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002918

【氏名又は名称】弁理士法人扶桑国際特許事務所

(72)【発明者】

【氏名】三輪真弘

(57)【要約】

【課題】リクエストを効率的に割り当てる。
【解決手段】記憶部１１は、複数のエッジデバイスから過去に受信した複数の第１リクエストに対する複数のエッジサーバによる推論処理の履歴情報１１ａを記憶する。処理部１２は、履歴情報１１ａから、１つのエッジサーバにおいて第１推論モデルによる第１推論処理の結果に応じて実行される、第２推論モデルによる第２推論処理が行われたリクエストの数の指標値を算出する。処理部１２は、新たに受信した複数の第２リクエストに対する第１推論処理の第１処理時間と複数の第２リクエストのうちの上記指標値を基に予測される数のリクエストに対する第２推論処理の第２処理時間とを合計した第３処理時間を得る。処理部１２は、第３処理時間が規定値以下の場合、複数の第２リクエストを１つのエッジサーバに送信し、第３処理時間が規定値を超える場合、複数の第２リクエストを２以上のエッジサーバに分配する。
【選択図】図１

【特許請求の範囲】

【請求項1】

コンピュータに、
複数のエッジデバイスから過去に受信した複数の第１リクエストに対する複数のエッジサーバによる推論処理の履歴から、１つのエッジサーバにおいて第１推論モデルによる第１推論処理の結果に応じて実行される、第２推論モデルによる第２推論処理が行われたリクエストの数の指標値を算出し、
前記複数のエッジデバイスから新たに受信した複数の第２リクエストに対する前記第１推論処理の第１処理時間と、前記複数の第２リクエストのうちの前記指標値を基に予測される数のリクエストに対する前記第２推論処理の第２処理時間とを合計した第３処理時間が規定値以下である場合、前記複数の第２リクエストを前記１つのエッジサーバに送信し、前記第３処理時間が規定値を超える場合、前記複数の第２リクエストを前記複数のエッジサーバのうちの２以上のエッジサーバに分配する、
処理を実行させる推論リクエスト配分プログラム。

【請求項2】

前記複数の第２リクエストの分配では、前記２以上のエッジサーバそれぞれに割り当てる第２リクエストの数の差が小さくなるように分配する、
処理を前記コンピュータに実行させる請求項１記載の推論リクエスト配分プログラム。

【請求項3】

前記複数の第２リクエストの分配では、分配先の候補のエッジサーバの台数を１つずつ増やすとともに、前記台数のエッジサーバそれぞれに前記複数の第２リクエストを分配した場合における当該エッジサーバによる前記第１推論処理および前記第２推論処理それぞれの処理時間を合計した第４処理時間が前記規定値以下であるか否かを判定し、前記第４処理時間が前記規定値以下であると判定されたときの前記台数を、前記２以上のエッジサーバの前記台数とする、
処理を前記コンピュータに実行させる請求項２記載の推論リクエスト配分プログラム。

【請求項4】

前記複数の第２リクエストの分配では、前記複数の第２リクエストのうち、前記第１推論処理および前記第２推論処理それぞれの処理時間を合計した第５処理時間が前記規定値を満たす第１の数の第２リクエストを前記１つのエッジサーバに送信し、残りの第２リクエストを他のエッジサーバに送信する、
処理を前記コンピュータに実行させる請求項１記載の推論リクエスト配分プログラム。

【請求項5】

前記履歴に基づいて前記指標値を算出可能であるか否かを判定し、
前記指標値を算出可能でない場合、所定数単位のリクエストに対する前記第１推論処理の第６処理時間が前記所定数単位のリクエストに対する前記第２推論処理の処理時間に所定割合を乗じた基準時間以下であるか否かの判定に応じて、前記複数のエッジサーバに対する前記複数の第２リクエストの分配方法を選択する、
処理を前記コンピュータに実行させる請求項１記載の推論リクエスト配分プログラム。

【請求項6】

前記分配方法の選択では、
前記第６処理時間が前記基準時間以下の場合、前記複数の第２リクエストを前記１つのエッジサーバに送信し、前記１つのエッジサーバによる前記複数の第２リクエストに対する前記第１推論処理の結果に応じて、前記複数の第２リクエストのうちの前記第２推論処理の対象となる第２リクエストの、他のエッジサーバへの再分配を前記１つのエッジサーバに実行させ、
前記第６処理時間が前記基準時間を超える場合、前記複数のエッジサーバの全てに対して、前記複数の第２リクエストを分散して送信する、
処理を前記コンピュータに実行させる請求項５記載の推論リクエスト配分プログラム。

【請求項7】

前記指標値を算出可能であるか否かの判定では、前記履歴における、前記複数のエッジサーバそれぞれによる前記第２推論処理の実行および不実行の変化の傾向に基づいて、前記指標値を算出可能であるか否かを判定する、
処理を前記コンピュータに実行させる請求項５記載の推論リクエスト配分プログラム。

【請求項8】

前記第２推論モデルは、前記第１推論モデルよりも高精度な推論処理に用いられる推論モデルである、請求項１記載の推論リクエスト配分プログラム。

【請求項9】

コンピュータが、
複数のエッジデバイスから過去に受信した複数の第１リクエストに対する複数のエッジサーバによる推論処理の履歴から、１つのエッジサーバにおいて第１推論モデルによる第１推論処理の結果に応じて実行される、第２推論モデルによる第２推論処理が行われたリクエストの数の指標値を算出し、
前記複数のエッジデバイスから新たに受信した複数の第２リクエストに対する前記第１推論処理の第１処理時間と、前記複数の第２リクエストのうちの前記指標値を基に予測される数のリクエストに対する前記第２推論処理の第２処理時間とを合計した第３処理時間が規定値以下である場合、前記複数の第２リクエストを前記１つのエッジサーバに送信し、前記第３処理時間が規定値を超える場合、前記複数の第２リクエストを前記複数のエッジサーバのうちの２以上のエッジサーバに分配する、
推論リクエスト配分方法。

【請求項10】

複数のエッジデバイスから過去に受信した複数の第１リクエストに対する複数のエッジサーバによる推論処理の履歴を記憶する記憶部と、
前記履歴から、１つのエッジサーバにおいて第１推論モデルによる第１推論処理の結果に応じて実行される、第２推論モデルによる第２推論処理が行われたリクエストの数の指標値を算出し、前記複数のエッジデバイスから新たに受信した複数の第２リクエストに対する前記第１推論処理の第１処理時間と、前記複数の第２リクエストのうちの前記指標値を基に予測される数のリクエストに対する前記第２推論処理の第２処理時間とを合計した第３処理時間が規定値以下である場合、前記複数の第２リクエストを前記１つのエッジサーバに送信し、前記第３処理時間が規定値を超える場合、前記複数の第２リクエストを前記複数のエッジサーバのうちの２以上のエッジサーバに分配する処理部と、
を有する情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は推論リクエスト配分プログラム、推論リクエスト配分方法および情報処理装置に関する。

【背景技術】

【0002】

現在、ＡＩ（Artificial Intelligence）を用いた推論処理を行うシステムが利用されている。推論処理は、機械学習により生成される推論モデルに基づいて実行される。推論モデルは、要因（説明変数や独立変数と言うことがある）と結果（目的変数や従属変数と言うことがある）との間の関係を一般化したモデルである。機械学習には、推論モデルとしてニューラルネットワーク（ＮＮ：Neural Network）を使用するものがある。例えば、深層ニューラルネットワーク（ＤＮＮ：Deep Neural Network）を使用する機械学習は深層学習（ＤＬ：Deep Learning）と言われる。

【0003】

ここで、推論処理を行うシステムの実現手法として、ＭＥＣ（Multi-access Edge Computing）が考えられている。ＭＥＣは、エッジデバイスで取得されたデータをエッジサーバに送信し、当該データを用いた推論処理をエッジサーバにオフロードする手法である。

【0004】

なお、ジョブキューに蓄積されている待ちジョブ数が増加条件を満たしたフローが存在する場合、当該フローの振分先とするジョブ処理部の数を増加させる分散処理システムの提案がある。提案の分散処理システムでは、増加条件として、一定期間（例えば１０分間）待ちジョブ数が１０という閾値を超えていた状態が続いたという条件が例示される。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２０１４－１９７３４０号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

複数のエッジデバイスから複数のリクエストを受信し、複数のリクエストを複数のエッジサーバに振り分ける情報処理装置が利用されることがある。また、エッジサーバは、情報処理装置から転送されたリクエストに対し、まずは第１推論モデルによる推論処理を実行し、第１推論モデルによる推論処理の結果に応じて、第２推論モデルによる推論処理を実行することがある。

【0007】

この場合、複数のリクエストのうち、第２推論モデルによる推論処理が行われるリクエストの数は不定となる。したがって、例えば上記提案のように情報処理装置が受信済のリクエストの数と閾値との比較結果だけでエッジサーバへの振り分けを行うと、当該エッジサーバで比較的多くのリクエストに対して第２推論モデルによる推論処理が行われ得る。このため、エッジサーバの処理負荷が過大になり、推論処理の結果を得るまでに時間がかかる可能性がある。

【0008】

１つの側面では、本発明は、リクエストを効率的に割り当てることを目的とする。

【課題を解決するための手段】

【0009】

１つの態様では、推論リクエスト配分プログラムが提供される。この推論リクエスト配分プログラムは、コンピュータに、複数のエッジデバイスから過去に受信した複数の第１リクエストに対する複数のエッジサーバによる推論処理の履歴から、１つのエッジサーバにおいて第１推論モデルによる第１推論処理の結果に応じて実行される、第２推論モデルによる第２推論処理が行われたリクエストの数の指標値を算出し、複数のエッジデバイスから新たに受信した複数の第２リクエストに対する第１推論処理の第１処理時間と、複数の第２リクエストのうちの指標値を基に予測される数のリクエストに対する第２推論処理の第２処理時間とを合計した第３処理時間が規定値以下である場合、複数の第２リクエストを１つのエッジサーバに送信し、第３処理時間が規定値を超える場合、複数の第２リクエストを複数のエッジサーバのうちの２以上のエッジサーバに分配する、処理を実行させる。

【0010】

また、１つの態様では、推論リクエスト配分方法が提供される。また、１つの態様では、記憶部と処理部とを有する情報処理装置が提供される。

【発明の効果】

【0011】

１つの側面では、リクエストを効率的に割り当てることができる。

【図面の簡単な説明】

【0012】

【図1】第１の実施の形態の情報処理装置を説明する図である。

【図2】第２の実施の形態の情報処理システムの例を示す図である。

【図3】ゲートウェイサーバのハードウェア例を示す図である。

【図4】エッジサーバにおける推論モデルの例を示す図である。

【図5】バッチング処理の例を示す図である。

【図6】ゲートウェイサーバの機能例を示す図である。

【図7】第１バッチテーブルの例を示す図である。

【図8】第２バッチテーブルの例を示す図である。

【図9】履歴テーブルの例を示す図である。

【図10】バッチテーブル作成例を示すフローチャートである。

【図11】履歴テーブル作成例を示すフローチャートである。

【図12】リクエスト割り当て例を示すフローチャートである。

【図13】推定可否判定例を示すフローチャートである。

【図14】見積り式による割り当て例を示すフローチャートである。

【図15】割り当て可否判定例を示すフローチャートである。

【図16】空きエッジサーバの選択例を示すフローチャートである。

【図17】集中・再分配による割り当て例を示すフローチャートである。

【図18】代表エッジサーバの処理例を示すフローチャートである。

【図19】ロードバランスによる割り当て例を示すフローチャートである。

【図20】サーバ数割り当て見直し例を示すフローチャートである。

【図21】ゲートウェイサーバによるリクエストの割り当て例を示す図である。

【図22】見積り式による他の割り当て例を示すフローチャートである。

【図23】ゲートウェイサーバによるリクエストの他の割り当て例を示す図である。

【発明を実施するための形態】

【0013】

以下、本実施の形態について図面を参照して説明する。
［第１の実施の形態］
第１の実施の形態を説明する。

【0014】

図１は、第１の実施の形態の情報処理装置を説明する図である。
情報処理装置１０およびエッジデバイス２１，２２，２３，２４は、ネットワーク１に接続される。エッジデバイス２１，２２，２３，２４は、推論処理に用いられるデータを取得し、当該データを含む推論処理のリクエストを情報処理装置１０に送信する。エッジデバイスは、エンドポイントと言われてもよい。

【0015】

情報処理装置１０およびエッジサーバ３１，３２，３３は、ネットワーク２に接続される。情報処理装置１０は、エッジデバイス２１，２２，２３，２４から受信した複数のリクエストをエッジサーバ３１，３２，３３に振り分ける。エッジサーバ３１，３２，３３は、情報処理装置１０から受信したリクエストに基づいて推論処理を実行する。

【0016】

エッジデバイス２１，２２，２３，２４は、例えば画像などのデータを取得するカメラなどのセンサとＣＰＵ（Central Processing Unit）とメモリと通信インタフェースとを備える。エッジサーバ３１，３２，３３は、ＣＰＵとＧＰＵ（Graphics Processing Unit）などの推論処理のアクセラレータとメモリと通信インタフェースとを備える。エッジサーバ３１，３２，３３が備える演算リソースは同等である。すなわち、エッジサーバ３１，３２，３３による推論処理に対する処理スペックは同等である。エッジデバイス２１，２２，２３，２４が備える演算リソースは、エッジサーバ３１，３２，３３の演算リソースに比べて小さい。エッジサーバ３１，３２，３３へ推論処理をオフロードするシステムの実現手法は、ＭＥＣと言われることがある。

【0017】

エッジサーバ３１は、第１推論モデル４１および第２推論モデル４２を有する。例えば、第１推論モデルおよび第２推論モデルは、ニューラルネットワークを示す情報である。エッジサーバ３１は、入力されるリクエストＲに対して、まずは第１推論モデル４１による第１推論処理を実行する。エッジサーバ３１は、第１推論処理の結果に応じて、第２推論モデル４２による第２推論処理を実行する。エッジサーバ３１は、リクエストＲに対して第２推論処理を実行しない場合は、リクエストＲに対して第１推論処理の結果Ｚ１を出力する。エッジサーバ３１は、リクエストＲに対して第２推論処理を実行する場合は、リクエストＲに対する第２推論処理の結果Ｚ２を出力する。エッジサーバ３２，３３も同様に、第１推論モデル４１および第２推論モデル４２を用いた推論処理を実行する。このように、エッジサーバ３１，３２，３３でリクエストＲに対して第２推論モデル４２を用いた第２推論処理が行われるか否かは、情報処理装置１０がリクエストＲを受信した時点では不定となる。

【0018】

第１推論モデル４１および第２推論モデル４２を用いた推論処理の例としては、自動車の識別が挙げられる。一例では、第１推論モデル４１による第１推論処理では、リクエストに含まれる画像データに、自動車に相当する部分が含まれるか否かを判定する。第２推論モデル４２による第２推論処理では、画像データに自動車に相当する部分が含まれる場合に、当該自動車の車種を識別する。この場合、第１推論処理による画像データに自動車に相当する部分が含まれないという判定結果は、結果Ｚ１の一例である。また、第２推論処理による自動車の車種の識別結果は、結果Ｚ２の一例である。

【0019】

ここで、第２推論処理では、第１推論処理よりも高精度な推論が行われるため、第２推論処理によるエッジサーバ３１，３２，３３それぞれの負荷は、第１推論処理による負荷よりも高くなる。第１推論モデル４１は、第２推論モデル４２に比べて認識精度が低く軽量なため、軽量モデルと言われてもよい。軽量モデルに対して、第２推論モデル４２は高精度モデルと言われてもよい。

【0020】

情報処理装置１０は、エッジデバイス２１，２２，２３，２４から受信する複数のリクエストをエッジサーバ３１，３２，３３に効率的に割り当てる機能を提供する。情報処理装置１０は、記憶部１１と処理部１２とキュー１３とを有する。

【0021】

記憶部１１は、ＲＡＭ（Random Access Memory）などの揮発性記憶装置でもよいし、ＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの不揮発性記憶装置でもよい。処理部１２は、ＣＰＵ、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）などを含み得る。処理部１２はプログラムを実行するプロセッサでもよい。「プロセッサ」には、複数のプロセッサの集合（マルチプロセッサ）が含まれ得る。

【0022】

キュー１３は、エッジデバイス２１，２２，２３，２４から受信したリクエストを保持する記憶部である。キュー１３は、記憶部１１の一部の記憶領域でもよい。例えば、キュー１３は、情報処理装置１０が備えるＲＡＭの記憶領域により実現されてもよい。

【0023】

処理部１２は、エッジデバイス２１，２２，２３，２４から受信した複数のリクエストをキュー１３に格納し、一定時間ごとにキュー１３に保持される複数のリクエストをエッジサーバ３１，３２，３３に転送する。このとき、処理部１２は次の処理を実行する。

【0024】

処理部１２は、記憶部１１に記憶された履歴情報１１ａに基づいて、１つのエッジサーバにおいて第２推論モデル４２による第２推論処理が行われたリクエストの数の指標値Ｐを算出する。ここで、履歴情報１１ａは、エッジデバイス２１，２２，２３，２４から過去に受信した複数の第１リクエストに対するエッジサーバ３１，３２，３３による推論処理の履歴を示す。例えば、第２推論処理が行われたリクエストの数の指標値Ｐは、一定時間ごとにエッジサーバ３１，３２，３３に転送される複数のリクエストのうち第２推論処理が行われるリクエストの数の割合でもよい。

【0025】

処理部１２は、エッジデバイス２１，２２，２３，２４から新たに受信した複数の第２リクエストに対する第１推論処理の第１処理時間Ｔ１を算出する。例えば、処理部１２は、１つのリクエスト当たりの第１推論処理の単位処理時間ｔ１を予め取得しておき、単位処理時間ｔ１に複数の第２リクエストの数Ｎ（Ｎは２以上の整数）を乗じることで、第１処理時間Ｔ１を算出してもよい。

【0026】

各エッジサーバによりバッチング処理が行われる場合、単位処理時間ｔ１は、２，３，…などの複数個のリクエスト当たりの処理時間でもよい。ここで、バッチング処理は、複数個のリクエストをまとめて推論モデルに入力することで、単一のリクエストを入力するよりも高速に推論結果を得る手法である。バッチング処理により、まとめて入力するリクエストの数が多いほど、推論処理の高速化が図られる。一まとめにするリクエストの数Ｍは、バッチサイズと言われる。Ｍは２以上の整数である。例えば、バッチサイズＭに対する単位処理時間ｔ１を用いる場合、複数の第２リクエストの数ＮをＭで割った値を単位処理時間ｔ１に乗じることで、第１処理時間Ｔ１が得られる。

【0027】

また、処理部１２は、複数の第２リクエストのうちの指標値Ｐを基に予測される数Ｑのリクエストに対する第２推論処理の第２処理時間Ｔ２を予測する。Ｑは正の実数である。例えば、指標値Ｐが、第２推論処理が行われるリクエストの数の割合を示す場合、処理部１２は、複数の第２リクエストの数に指標値Ｐを乗じることで、数Ｑを算出してもよい。処理部１２は、１つのリクエスト当たりの第２推論処理の単位処理時間ｔ２を予め取得しておき、単位処理時間ｔ２に数Ｑを乗じることで、第２処理時間Ｔ２を算出してもよい。

【0028】

各エッジサーバによりバッチング処理が行われる場合、単位処理時間は、２，３，…などの複数個のリクエスト当たりの処理時間でもよい。例えば、バッチサイズＭに対する単位処理時間ｔ２を用いる場合、数ＱをＭで割った値を単位処理時間ｔ２に乗じることで、第２処理時間Ｔ２が得られる。

【0029】

そして、処理部１２は、第１処理時間Ｔ１と第２処理時間Ｔ２とを合計した第３処理時間Ｔ（＝Ｔ１＋Ｔ２）が規定値以下であるか否かを判定する。処理部１２は、第３処理時間Ｔが規定値以下の場合、すなわち、Ｔ≦規定値の場合、複数の第２リクエストを１つのエッジサーバに送信する。処理部１２は、第３処理時間Ｔが規定値を超える場合、すなわち、Ｔ＞規定値の場合、複数の第２リクエストを複数のエッジサーバのうちの２以上のエッジサーバに分配する。ここで、第３処理時間Ｔと比較される規定値は、各リクエストに対するエッジサーバでの推論処理に許容される所要時間として、予め定められる。

【0030】

例えば、処理部１２は、キュー１３に保持されるリクエストＲ１，Ｒ２，Ｒ３，Ｒ４をエッジサーバ３１，３２，３３に振り分ける。図１（Ａ）は、第３処理時間Ｔ≦規定値の場合を例示する。第３処理時間Ｔ≦規定値の場合、処理部１２は、例えば１つのエッジサーバ３１にリクエストＲ１，Ｒ２，Ｒ３，Ｒ４を振り分ける。すなわち、処理部１２は、１つのエッジサーバ３１にリクエストＲ１，Ｒ２，Ｒ３，Ｒ４を送信する。一方、図１（Ｂ）は、第３処理時間Ｔ＞規定値の場合を例示する。第３処理時間Ｔ＞規定値の場合、処理部１２は、例えばエッジサーバ３１にリクエストＲ１，Ｒ２を振り分け、エッジサーバ３２にリクエストＲ３，Ｒ４を振り分ける。すなわち、処理部１２は、エッジサーバ３１にリクエストＲ１，Ｒ２を送信し、エッジサーバ３２にリクエストＲ３，Ｒ４を送信する。

【0031】

ここで、２以上のエッジサーバに分配する場合、処理部１２は、当該２以上のエッジサーバそれぞれに割り当てた第２リクエストに対する推論処理の実行時間が規定値以下になるように分配する。例えば、処理部１２は、当該２以上のエッジサーバそれぞれに割り当てる第２リクエストに対する推論処理の実行時間が規定値以下になるように、当該２以上のエッジサーバそれぞれに等しい数のリクエストを送信してもよい（等分配）。あるいは、処理部１２は、１つのエッジサーバでの推論処理の実行時間が規定値以下になるように当該エッジサーバに集中して第２リクエストを送信し、残った第２リクエストを他のエッジサーバに送信してもよい。後者の場合、例えば、処理部１２は、まずはエッジサーバ３１に集中して送信し、次に、残った第２リクエストをエッジサーバ３２に集中して送信し、更に残った第２リクエストをエッジサーバ３３に集中して送信するというように順番に割り当ててもよい。

【0032】

以上説明したように、情報処理装置１０によれば、過去に受信した複数の第１リクエストに対する複数のエッジサーバによる推論処理の履歴から、第２推論モデルによる第２推論処理が行われたリクエストの数の指標値Ｐが算出される。新たに受信した複数の第２リクエストに対する第１推論処理の第１処理時間Ｔ１と、複数の第２リクエストのうちの指標値Ｐを基に予測される数Ｑのリクエストに対する第２推論処理の第２処理時間Ｔ２とを合計した第３処理時間Ｔが規定値と比較される。第３処理時間Ｔが規定値以下である場合、複数の第２リクエストが１つのエッジサーバに送信される。第３処理時間Ｔが規定値を超える場合、複数の第２リクエストが複数のエッジサーバのうちの２以上のエッジサーバに分配される。

【0033】

これにより、情報処理装置１０は、リクエストを効率的に割り当てることができる。例えば、情報処理装置１０は、１つのエッジサーバによって規定の時間内に複数の第２リクエストの推論処理を完了できると予測される場合には、当該１つのエッジサーバに複数の第２リクエストを割り当てることで、余計なエッジサーバを割り当てずに済む。また、エッジサーバがバッチング処理を行う場合に、当該エッジサーバにおいて比較的多くの第２リクエストをまとめてバッチング処理が可能となるため、推論処理の効率化も図れる。

【0034】

また、情報処理装置１０は、１つのエッジサーバだけでは規定の時間内に推論処理を完了できないと予測される場合には、複数の第２リクエストを２以上のエッジサーバに分配することで、推論処理を規定の時間内に完了する可能性を高められる。

【0035】

以下では、より具体的な例により情報処理装置１０の機能を更に詳細に説明する。
［第２の実施の形態］
次に、第２の実施の形態を説明する。

【0036】

図２は、第２の実施の形態の情報処理システムの例を示す図である。
第２の実施の形態の情報処理システムは、ゲートウェイサーバ１００、エッジデバイス２００，２００ａ，２００ｂ，２００ｃおよびエッジサーバ３００，３００ａ，３００ｂ，…を有する。ゲートウェイサーバ１００は、ネットワーク５０，６０に接続される。エッジデバイス２００～２００ｃは、ネットワーク５０に無線で接続される。エッジサーバ３００，３００ａ，…は、ネットワーク６０に接続される。

【0037】

第２の実施の形態の情報処理システムは、ＭＥＣにより実現される推論処理システムである。すなわち、当該情報処理システムは、エッジデバイス２００～２００ｃで収集された画像データに基づく推論処理を、ゲートウェイサーバ１００を介してエッジサーバ３００，３００ａ，…にオフロードする。

【0038】

ゲートウェイサーバ１００は、画像データを含む複数のリクエストをエッジデバイス２００～２００ｃから受信するサーバコンピュータである。ゲートウェイサーバ１００は、エッジデバイス２００～２００ｃから受信した複数のリクエストを保持するキューを有する。ゲートウェイサーバ１００は、キューに保持される複数のリクエストを、エッジサーバ３００，３００ａ…に定期的に転送する。ゲートウェイサーバ１００は、第１の実施の形態の情報処理装置１０の一例である。

【0039】

エッジデバイス２００～２００ｃは、それぞれがカメラを備え、当該カメラにより周囲を撮影することで画像データを定期的に生成する。エッジデバイス２００～２００ｃは、生成した画像データを含む、推論処理のリクエストをゲートウェイサーバ１００に送信する。なお、一例として、エッジデバイスの数を４つとしているが、エッジデバイスの数は４以外の複数でもよい。また、エッジデバイスは、エンドポイントと言われてもよい。

【0040】

エッジサーバ３００，３００ａ，…は、ゲートウェイサーバ１００から受信したリクエストに基づいて推論処理を実行するサーバコンピュータである。エッジサーバ３００，３００ａ，…それぞれは物理的なコンピュータ（物理マシン）により実現されてもよいし、物理マシン上で動作する仮想的なコンピュータ（仮想マシン）により実現されてもよい。

【0041】

ここで、エッジサーバ３００，３００ａ，…を用いて実行される推論処理のタスクの一例として、自動車の識別を挙げる。エッジサーバ３００，３００ａ，…それぞれは、画像データに自動車に相当する部分が存在するか否かを判定し、存在する場合、自動車の車種を識別し、識別した車種の情報を出力する。このような情報処理システムは、例えば駐車場の監視、道路上の交通量のモニタリング、および、不審車両や盗難車の監視などに利用され得る。また、このような情報処理システムは、例えば道路上を走行する車種に応じた屋外広告を、運転者から視認可能な屋外のディスプレイに表示させるサービスなどの種々のサービスにも利用され得る。

【0042】

図３は、ゲートウェイサーバのハードウェア例を示す図である。
ゲートウェイサーバ１００は、ＣＰＵ１０１、ＲＡＭ１０２、ＨＤＤ１０３、ＧＰＵ１０４、入力インタフェース１０５、媒体リーダ１０６およびＮＩＣ（Network Interface Card）１０７，１０８を有する。なお、ＣＰＵ１０１は、第１の実施の形態の処理部１２の一例である。ＲＡＭ１０２またはＨＤＤ１０３は、第１の実施の形態の記憶部１１の一例である。

【0043】

ＣＰＵ１０１は、プログラムの命令を実行するプロセッサである。ＣＰＵ１０１は、ＨＤＤ１０３に記憶されたプログラムやデータの少なくとも一部をＲＡＭ１０２にロードし、プログラムを実行する。なお、ＣＰＵ１０１は複数のプロセッサコアを含んでもよい。また、ゲートウェイサーバ１００は複数のプロセッサを有してもよい。以下で説明する処理は複数のプロセッサまたはプロセッサコアを用いて並列に実行されてもよい。また、複数のプロセッサの集合を「マルチプロセッサ」または単に「プロセッサ」と言うことがある。

【0044】

ＲＡＭ１０２は、ＣＰＵ１０１が実行するプログラムやＣＰＵ１０１が演算に用いるデータを一時的に記憶する揮発性の半導体メモリである。なお、ゲートウェイサーバ１００は、ＲＡＭ以外の種類のメモリを備えてもよく、複数個のメモリを備えてもよい。

【0045】

ＨＤＤ１０３は、ＯＳ（Operating System）やミドルウェアやアプリケーションソフトウェアなどのソフトウェアのプログラム、および、データを記憶する不揮発性の記憶装置である。なお、ゲートウェイサーバ１００は、フラッシュメモリやＳＳＤ（Solid State Drive）などの他の種類の記憶装置を備えてもよく、複数の不揮発性の記憶装置を備えてもよい。

【0046】

ＧＰＵ１０４は、ＣＰＵ１０１からの命令に従って、ゲートウェイサーバ１００に接続されたディスプレイ７１に画像を出力する。ディスプレイ７１としては、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）、プラズマディスプレイ、有機ＥＬ（ＯＥＬ：Organic Electro-Luminescence）ディスプレイなど、任意の種類のディスプレイを用いることができる。

【0047】

入力インタフェース１０５は、ゲートウェイサーバ１００に接続された入力デバイス７２から入力信号を取得し、ＣＰＵ１０１に出力する。入力デバイス７２としては、マウス、タッチパネル、タッチパッド、トラックボールなどのポインティングデバイス、キーボード、リモートコントローラ、ボタンスイッチなどを用いることができる。また、ゲートウェイサーバ１００に、複数の種類の入力デバイスが接続されていてもよい。

【0048】

媒体リーダ１０６は、記録媒体７３に記録されたプログラムやデータを読み取る読み取り装置である。記録媒体７３として、例えば、磁気ディスク、光ディスク、光磁気ディスク（ＭＯ：Magneto-Optical disk）、半導体メモリなどを使用できる。磁気ディスクには、フレキシブルディスク（ＦＤ：Flexible Disk）やＨＤＤが含まれる。光ディスクには、ＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）が含まれる。

【0049】

媒体リーダ１０６は、例えば、記録媒体７３から読み取ったプログラムやデータを、ＲＡＭ１０２やＨＤＤ１０３などの他の記録媒体にコピーする。読み取られたプログラムは、例えば、ＣＰＵ１０１によって実行される。なお、記録媒体７３は可搬型記録媒体であってもよく、プログラムやデータの配布に用いられることがある。また、記録媒体７３やＨＤＤ１０３を、コンピュータ読み取り可能な記録媒体と言うことがある。

【0050】

ＮＩＣ１０７，１０８は、それぞれネットワーク５０，６０に接続され、ネットワーク５０，６０を介して、エッジデバイス２００～２００ｃおよびエッジサーバ３００，３００ａ，…を含む他のコンピュータと通信を行うインタフェースである。ＮＩＣ１０７は、例えば、ネットワーク５０におけるスイッチやルータなどの通信装置とケーブルで接続される。ＮＩＣ１０８は、例えば、ネットワーク６０におけるスイッチやルータなどの通信装置とケーブルで接続される。ＮＩＣ１０７，１０８は、無線通信インタフェースでもよい。

【0051】

なお、エッジデバイス２００～２００ｃは、カメラとＣＰＵとＲＡＭと無線通信インタフェースとを有する。例えば、エッジデバイス２００～２００ｃは、ネットワーク５０と無線で接続される。エッジサーバ３００，３００ａ，…は、ゲートウェイサーバ１００と同様のハードウェアで実現される。エッジサーバ３００，３００ａ，…は、推論処理に用いられるＧＰＵなどのアクセラレータを備える。エッジサーバ３００，３００ａ，…のハードウェアの性能（スペック）は同等である。

【0052】

図４は、エッジサーバにおける推論モデルの例を示す図である。
エッジサーバ３００は、軽量モデル３１０および高精度モデル３２０を有する。軽量モデル３１０および高精度モデル３２０は、ニューラルネットワークを示す情報である。軽量モデル３１０および高精度モデル３２０は、推論モデルと言われてもよい。推論モデルは、学習モデルやＡＩモデルなどと言われることもある。

【0053】

軽量モデル３１０は、リクエストの画像データにおける物体の有無を識別する推論処理に用いられる。例えば、物体は自動車である。高精度モデル３２０は、画像データにおける物体（例えば、自動車）の種別を識別する推論処理に用いられる。高精度モデル３２０による推論処理は、軽量モデル３１０で物体ありと識別される場合に実行される。

【0054】

軽量モデル３１０による推論処理で物体なしと識別される場合、エッジサーバ３００は、該当のリクエストに対する推論結果として、物体なしを出力する。軽量モデル３１０による推論処理で物体ありと識別され高精度モデル３２０による推論処理が実行される場合、エッジサーバ３００は、該当のリクエストに対する推論結果として、識別された物体の種別を出力する。

【0055】

高精度モデル３２０は、軽量モデル３１０に比べ、リクエストに含まれる画像データに対する高精度な認識を行う。例えば、軽量モデル３１０による推論処理のスループットは、２Ｋｆｐｓ（frame per second）～２０Ｋｆｐｓ程度である。高精度モデル３２０による推論処理のスループットは、３０ｆｐｓ～２００ｆｐｓ程度である。このため、エッジサーバ３００において、高精度モデル３２０による推論処理が多発すると、エッジサーバ３００の負荷が高まり、リクエストに対する推論結果を得られるまでの時間が長くなる可能性がある。

【0056】

なお、図４では、エッジサーバ３００を例示して説明したが、エッジサーバ３００ａ，３００ｂ，…も同様に、軽量モデル３１０および高精度モデル３２０による推論処理を行う。また、軽量モデル３１０は、第１の実施の形態の第１推論モデルの一例である。高精度モデル３２０は、第１の実施の形態の第２推論モデルの一例である。

【0057】

また、エッジサーバ３００，３００ａ，…による推論処理には、下記の文献１が参考にされてもよい。
文献１：C. Zhang, et al., “A Fast Filtering Mechanism to Improve Efficiency of Large-Scale Video Analytics,”IEEE Transactions on Computers, Volume:69, Issue:6, pp.914-928, June 2020.
ここで、エッジサーバ３００，３００ａ，…はバッチング処理を行う。

【0058】

図５は、バッチング処理の例を示す図である。
ゲートウェイサーバ１００は、リクエストキュー１１０を有する。リクエストキュー１１０は、例えばＲＡＭ１０２の記憶領域を用いて実現される。リクエストキュー１１０には、あるタイミングにおいて、４つのエッジデバイス２００～２００ｃから送信された４つのリクエストが保持されている。

【0059】

エッジサーバ３００は、軽量モデル３１０や高精度モデル３２０に所定数のリクエストをまとめて入力して推論処理を行える。このような推論処理の手法は、バッチング処理と言われる。バッチング処理により、１つにまとめるリクエストの数が多いほど、推論処理のスループットの向上を図れる。エッジサーバ３００，３００ａ，…も同様である。

【0060】

図５の例では、ゲートウェイサーバ１００により、リクエストキュー１１０に保持される４つのリクエストがエッジサーバ３００の軽量モデル３１０でまとめて処理され得る。例えば、エッジサーバ３００で最大で「４」までのバッチサイズを利用可能であれば４つのリクエストがまとめて処理される。ここで、前述のようにバッチサイズは、一まとめにするリクエストの数である。あるいは、エッジサーバ３００で最大で「２」までのバッチサイズを利用可能であれば４つのリクエストが２つずつまとめて処理される。

【0061】

エッジサーバ３００は、軽量モデル３１０による推論処理の結果、４つのリクエストのうちの２つに対して物体なしを出力し、残りに２つに対して物体ありと識別する。この場合、残りの２つのリクエストがエッジサーバ３００の高精度モデル３２０でまとめて処理され得る。エッジサーバ３００は、残りの２つのリクエストに対して識別した物体種別を出力する。

【0062】

ゲートウェイサーバ１００は、このような推論処理が行われる情報処理システムにおいて、各エッジサーバに対してリクエストを効率的に割り当てる機能を提供する。
図６は、ゲートウェイサーバの機能例を示す図である。

【0063】

ゲートウェイサーバ１００は、前述のリクエストキュー１１０に加えて、記憶部１２０、バッチテーブル作成部１３０、履歴テーブル作成部１４０および制御部１５０を有する。記憶部１２０は、ＲＡＭ１０２やＨＤＤ１０３の記憶領域により実現される。バッチテーブル作成部１３０、履歴テーブル作成部１４０および制御部１５０は、ＲＡＭ１０２に記憶されたプログラムがＣＰＵ１０１により実行されることで実現される。

【0064】

リクエストキュー１１０は、エッジデバイス２００～２００ｃから送信されたリクエストを保持するキューである。
記憶部１２０は、第１バッチテーブル１２１、第２バッチテーブル１２２および履歴テーブル１２３を記憶する。

【0065】

第１バッチテーブル１２１は、軽量モデル３１０による推論処理を１個のリクエストまたは複数個のリクエストに対して行う場合の単位処理時間を保持するテーブルである。複数個のリクエストに対する推論処理は、バッチング処理となる。

【0066】

第２バッチテーブル１２２は、高精度モデル３２０による推論処理を１個のリクエストまたは複数個のリクエストに対して行う場合の単位処理時間を保持するテーブルである。
履歴テーブル１２３は、ゲートウェイサーバ１００が過去に受信した複数のリクエストに対する、エッジサーバ３００，３００ａ，…による推論処理の履歴を保持するテーブルである。履歴テーブル１２３は、過去の複数のリクエストに対して、高精度モデル３２０による推論処理が行われたか否かを示す。

【0067】

バッチテーブル作成部１３０は、第１バッチテーブル１２１および第２バッチテーブル１２２を予め作成し、記憶部１２０に格納する。例えば、バッチテーブル作成部１３０は、ゲートウェイサーバ１００の運用の初期段階において、第１バッチテーブル１２１および第２バッチテーブル１２２を作成する。バッチテーブル作成部１３０は、テスト用のリクエストを用いてエッジサーバ３００，３００ａ，…による１個のリクエストや複数個のリクエストに対する推論処理を実行させる。そして、バッチテーブル作成部１３０は、テスト用のリクエストに対する当該推論処理の実行時間を基に、第１バッチテーブル１２１および第２バッチテーブル１２２を作成する。

【0068】

履歴テーブル作成部１４０は、履歴テーブル１２３を作成する。履歴テーブル作成部１４０は、エッジデバイス２００～２００ｃのリクエストに対し、エッジサーバ３００，３００ａ，…で推論処理が行われると、当該リクエストに対して高精度モデル３２０による推論処理が行われたか否かの情報を各エッジサーバから取得する。履歴テーブル作成部１４０は、各エッジサーバから取得した情報を、履歴テーブル１２３に記録する。

【0069】

制御部１５０は、各エッジサーバに対するリクエストの割り当てを制御する。制御部１５０は、受信部１５１、推定処理部１５２、割り当て処理部１５３および送信部１５４を有する。

【0070】

受信部１５１は、エッジデバイス２００～２００ｃそれぞれからリクエストを定期的に受信し、リクエストキュー１１０に格納する。
推定処理部１５２は、履歴テーブル１２３に基づいて、リクエストキュー１１０に保持されるＮ個のリクエストのうち、高精度モデル３２０による推論処理の対象となるリクエストの個数Ｎ_Ｈを推定する。

【0071】

割り当て処理部１５３は、リクエストキュー１１０に保持される複数のリクエストに対してリクエストの転送先のエッジサーバを割り当てる。まず、割り当て処理部１５３は、推定処理部１５２により推定された個数Ｎ_Ｈに基づいて、リクエストキュー１１０に保持される複数のリクエストを１つのエッジサーバに割り当てた場合の処理時間Ｔを見積もる。割り当て処理部１５３は、複数のリクエストを軽量モデル３１０で実行する場合の処理時間Ｔ１＝Ｔ_{Ｌ＿ｔｏｔａｌ}と、複数のリクエストのうちの推定された個数のリクエストを高精度モデル３２０で実行する場合の処理時間Ｔ２＝Ｔ_{Ｈ＿ｔｏｔａｌ}との合計により、処理時間Ｔを求める。Ｔ＝Ｔ１＋Ｔ２＝Ｔ_{Ｌ＿ｔｏｔａｌ}＋Ｔ_{Ｈ＿ｔｏｔａｌ}である。

【0072】

そして、割り当て処理部１５３は、処理時間Ｔが規定値以下であるか否かを、式（１）で表される見積り式により判定する。処理時間Ｔが規定値以下である場合、割り当て処理部１５３は、１つのエッジサーバに当該複数のリクエストを割り当てる。処理時間Ｔが規定値よりも長い場合、割り当て処理部１５３は、２以上のエッジサーバに当該複数のリクエストを配分する。

【0073】

【数1】

【0074】

ここで、Ｔ_{ｔａｒｇｅｔ}は、予め定められる時間期限である。Ｔ_{ｔａｒｇｅｔ}は、正の実数である。Ｔ_{ｔａｒｇｅｔ}は、各リクエストに対して共通に設定される。Ｔ_{Ｍａｒｇｉｎ}は、余分にかかる時間を考慮するための項である。具体的には、リクエストキュー１１０に複数のリクエストがある場合に先頭のリクエストは後ろのリクエストよりも長くリクエストキュー１１０内に待機しているため、当該待機の待ち時間分などがＴ_{Ｍａｒｇｉｎ}として設定される。Ｔ_{Ｍａｒｇｉｎ}は、Ｔ_{ｔａｒｇｅｔ}より小さい正の実数である。

【0075】

また、Ｔ_{Ｌ＿ｔｏｔａｌ}は、リクエストキュー１１０にあるＮ個のリクエストについて、軽量モデル３１０により１個当たりのリクエストにかかる単位処理時間Ｔ_Ｌをかけた値であり、式（２）で表される。

【0076】

【数2】

【0077】

一方、バッチング処理が可能な場合、軽量モデル３１０におけるバッチサイズＢ_Ｌ単位でリクエストが処理される。このため、Ｔ_{Ｌ＿ｔｏｔａｌ}は、Ｎ／Ｂ_Ｌに対して、バッチサイズＢ_Ｌごとにかかる単位処理時間Ｔ_Ｌ＿Ｂをかけた時間であり、式（３）で表される。

【0078】

【数3】

【0079】

Ｔ_{Ｈ＿ｔｏｔａｌ}は、高精度モデル３２０で処理されるリクエスト数Ｎ_Ｈについて、式（２）、（３）と同様にして算出される。バッチング処理を行わない場合、Ｔ_{Ｈ＿ｔｏｔａｌ}は、式（４）で表される。

【0080】

【数4】

【0081】

Ｔ_Ｈは、高精度モデル３２０により１個当たりのリクエストにかかる単位処理時間である。バッチング処理が可能な場合、Ｔ_{Ｈ＿ｔｏｔａｌ}は、Ｎ_Ｈ／Ｂ_Ｈに対して、バッチサイズＢ_Ｈごとにかかる単位処理時間Ｔ_Ｈ＿Ｂをかけた時間であり、式（５）で表される。

【0082】

【数5】

【0083】

よって、バッチング処理が可能な場合、式（１）で表される見積り式は、式（６）のように変形される。

【0084】

【数6】

【0085】

Ｔ_{ｔａｒｇｅｔ}－Ｔ_{Ｍａｒｇｉｎ}は、処理時間Ｔと比較される規定値に相当する。
なお、後述されるように、割り当て処理部１５３は、Ｎ_Ｈを推定可能な場合に、式（６）で表される見積り式に基づく割り当てを行い、Ｎ_Ｈを推定不可能な場合には当該見積り式による割り当てを行わずに、別の方法を用いる。

【0086】

送信部１５４は、割り当て処理部１５３による割り当て結果に基づいて、リクエストキュー１１０に保持されるリクエストを、割り当て先のエッジサーバに送信する。
次に、記憶部１２０に保持されるデータ構造例を説明する。

【0087】

図７は、第１バッチテーブルの例を示す図である。
第１バッチテーブル１２１は、記憶部１２０に保持される。第１バッチテーブル１２１は、バッチサイズＢ_Ｌおよび単位処理時間Ｔ_Ｌ＿Ｂの項目を含む。バッチサイズＢ_Ｌの項目には、エッジサーバ３００，３００ａ，…で利用可能な軽量モデル３１０に対するバッチサイズが登録される。単位処理時間Ｔ_Ｌ＿Ｂの項目には、該当のバッチサイズに対応する軽量モデル３１０による処理時間が登録される。単位処理時間Ｔ_Ｌ＿Ｂの単位は、ｍｓ（ミリ秒）である。

【0088】

例えば、第１バッチテーブル１２１は、バッチサイズＢ_Ｌ＝１、単位処理時間Ｔ_Ｌ＿Ｂ＝５のレコードを有する。このレコードは、バッチサイズＢ_Ｌ＝１のときの軽量モデル３１０による単位処理時間が５ｍｓであることを示す。

【0089】

また、第１バッチテーブル１２１は、バッチサイズＢ_Ｌ＝２、単位処理時間Ｔ_Ｌ＿Ｂ＝７のレコードを有する。このレコードは、バッチサイズＢ_Ｌ＝２のときの軽量モデル３１０による単位処理時間が７ｍｓであることを示す。

【0090】

第１バッチテーブル１２１には、他のバッチサイズに対する単位処理時間が登録されてもよい。
図８は、第２バッチテーブルの例を示す図である。

【0091】

第２バッチテーブル１２２は、記憶部１２０に保持される。第２バッチテーブル１２２は、バッチサイズＢ_Ｈおよび単位処理時間Ｔ_Ｈ＿Ｂの項目を含む。バッチサイズＢ_Ｈの項目には、エッジサーバ３００，３００ａ，…で利用可能な高精度モデル３２０に対するバッチサイズが登録される。単位処理時間Ｔ_Ｈ＿Ｂの項目には、該当のバッチサイズに対応する高精度モデル３２０による処理時間が登録される。単位処理時間Ｔ_Ｈ＿Ｂの単位は、ｍｓである。

【0092】

例えば、第２バッチテーブル１２２は、バッチサイズＢ_Ｈ＝１、単位処理時間Ｔ_Ｈ＿Ｂ＝３０のレコードを有する。このレコードは、バッチサイズＢ_Ｈ＝１のときの高精度モデル３２０による単位処理時間が３０ｍｓであることを示す。

【0093】

また、第２バッチテーブル１２２は、バッチサイズＢ_Ｈ＝２、単位処理時間Ｔ_Ｈ＿Ｂ＝４５のレコードを有する。このレコードは、バッチサイズＢ_Ｈ＝２のときの高精度モデル３２０による単位処理時間が４５ｍｓであることを示す。

【0094】

第２バッチテーブル１２２には、他のバッチサイズに対する単位処理時間が登録されてもよい。
例えば、Ｎ＝４、Ｎ_Ｈ＝２、Ｂ_Ｌ＝Ｂ_Ｈ＝２、Ｔ_{ｔａｒｇｅｔ}－Ｔ_{Ｍａｒｇｉｎ}＝６０のとき、式（６）は、４／２＊７＋２／２＊４５＝５９≦６０となる。この場合、式（６）は満たされるので、処理時間Ｔ＝Ｔ_{Ｌ＿ｔｏｔａｌ}＋Ｔ_{Ｈ＿ｔｏｔａｌ}が規定値（Ｔ_{ｔａｒｇｅｔ}－Ｔ_{Ｍａｒｇｉｎ}）以下であると判定される。

【0095】

図９は、履歴テーブルの例を示す図である。
履歴テーブル１２３は、記憶部１２０に保持される。履歴テーブル１２３は、エッジデバイスＩＤ、－１（前回）、－２（前々回）、－３、－４、－５、－６の項目を含む。エッジデバイスＩＤの項目には、エッジデバイスＩＤが登録される。エッジデバイスＩＤは、エッジデバイスの識別情報である。－１（前回）、－２（前々回）、－３、－４、－５、－６の各項目は、ゲートウェイサーバ１００からエッジサーバ３００，３００ａ，…へのリクエストの送信回を示す。「－１」は、前回である。「－２」は、前々回である。以降、－３、－４、…と１ずつ数が小さくなるたびに１回分ずつ送信回が遡る。－１（前回）、－２（前々回）、－３、－４、－５、－６の各項目には、該当の送信回において、該当のエッジデバイスからのリクエストに対し、高精度モデル３２０により推論処理が実行されたか否かを示すフラグが登録される。フラグ「１」は、高精度モデル３２０による推論処理が実行されたことを示す。フラグ「０」は、高精度モデル３２０による推論処理が実行されなかったことを示す。

【0096】

なお、エッジデバイス２００のエッジデバイスＩＤは「ＥＤ１」である。エッジデバイス２００ａのエッジデバイスＩＤは「ＥＤ２」である。エッジデバイス２００ｂのエッジデバイスＩＤは「ＥＤ３」である。エッジデバイス２００ｃのエッジデバイスＩＤは「ＥＤ４」である。

【0097】

例えば、履歴テーブル１２３は、エッジデバイスＩＤが「ＥＤ１」、－１が「０」、－２が「０」、－３が「０」、－４が「０」、－５が「０」、－６が「０」のレコードを有する。このレコードは、エッジデバイス２００では、過去６回の送信回において、高精度モデル３２０による推論処理が１回も実行されなかったことを示す。

【0098】

また、履歴テーブル１２３は、エッジデバイスＩＤが「ＥＤ２」、－１が「０」、－２が「１」、－３が「１」、－４が「０」、－５が「１」、－６が「０」のレコードを有する。このレコードは、エッジデバイス２００ａでは、過去６回の送信回のうち、－２、－３、－５に対応する送信回において、高精度モデル３２０による推論処理が実行され、それ以外の送信回では高精度モデル３２０による推論処理が実行されなかったことを示す。

【0099】

履歴テーブル１２３には、エッジデバイスＩＤ「ＥＤ３」、「ＥＤ４」に対するレコードも登録される。
ここで、推定処理部１５２は、高精度モデル３２０の処理個数を推定する前段階として、履歴テーブル１２３に基づき、当該処理個数を推定可能であるか否かを判定する。具体的には、推定処理部１５２は、高精度モデル３２０で処理されたか否かが、過去一定期間において概ねどちらかで安定しているエッジデバイスの割合が所定割合より大きい場合に推定可能と判定する。

【0100】

一例として、推定処理部１５２は、履歴テーブル１２３に基づいて、過去６期間において、高精度モデル３２０での処理の有無が変化した回数の割合が一定以上のエッジデバイスを計数する。過去６期間では、高精度モデル３２０での処理の有無が最大５回切り替わる可能性がある。推定処理部１５２は、履歴テーブル１２３を基に、実際に何回変化したかを計測する。

【0101】

履歴テーブル１２３の例によれば、高精度モデル３２０での処理の有無が変化した回数、および、変化した回数の割合は次の通りである。エッジデバイス２００では、変化した回数は０回であり、変化した回数の割合は０／５＝０である。エッジデバイス２００ａでは、変化した回数は４回であり、変化した回数の割合は４／５＝０．８である。エッジデバイス２００ｂでは、変化した回数は０回であり、変化した回数の割合は０／５＝０である。エッジデバイス２００ｃでは、変化した回数は１回であり、変化した回数の割合は１／５＝０．２である。

【0102】

例えば、推定処理部１５２は、変化した回数の割合が０．２以下のエッジデバイスの数の割合Ｖが７０％以上であれば、過去履歴の結果が安定しており、Ｎ_Ｈを推定可能と判断する。上記の場合、Ｖ＝（３／４）＊１００＝７５％であるので、推定処理部１５２は、Ｎ_Ｈを推定可能と判定する。

【0103】

このように、推定処理部１５２は、各エッジサーバによる高精度モデル３２０による推論処理の実行および不実行の変化の傾向に基づいて、高精度モデル３２０の処理個数を推定可能であるか否かを判定してもよい。

【0104】

Ｎ_Ｈが推定可能と判定された場合、推定処理部１５２は、履歴テーブル１２３を基に、Ｎ_Ｈの値を得る。例えば、リクエストキュー１１０にあるリクエストがエッジデバイス２００，２００ｂ，２００ｃの３個のリクエストである場合、過去に高精度モデル３２０で処理されたリクエストの平均の個数をエッジデバイスごとに求め、それらの和をＮ_Ｈとする。

【0105】

具体的には、エッジデバイス２００では、高精度モデル３２０で処理されたリクエストの平均の個数は、０／６＝０である。エッジデバイス２００ｂでは、高精度モデル３２０で処理されたリクエストの平均の個数は、０／６＝０である。エッジデバイス２００ｃでは、高精度モデル３２０で処理されたリクエストの平均の個数は、４／６＝０．６７である。よって、推定処理部１５２は、Ｎ_Ｈ＝０＋０＋０．６７＝０．６７とする。Ｎ_Ｈ＝０．６７は、３個のリクエスト当たり、０．６７個が高精度モデル３２０で処理されることを示す。すなわち、リクエストキュー１１０にあるリクエストの数が３個の場合、当該３個のリクエストを１台のエッジサーバに送信すると、当該１台のエッジサーバにおいて、３個のうちの０．６７個のリクエストが高精度モデル３２０で処理されることを示す。

【0106】

これは、高精度モデル３２０で処理されるリクエストの割合が、振分対象のリクエストの数のうちの０．６７／３＝０．２２であることを示しているとも言える。よって、例えばリクエストキュー１１０にあるリクエストがエッジデバイス２００，２００ｂ，２００ｃからの各２個、合計６個のリクエストの場合に、推定処理部１５２は、Ｎ_Ｈ＝６＊０．２２＝１．３個と推定することもできる。

【0107】

次に、ゲートウェイサーバ１００の処理手順を説明する。
図１０は、バッチテーブル作成例を示すフローチャートである。
（Ｓ１０）バッチテーブル作成部１３０は、軽量モデル３１０、高精度モデル３２０のそれぞれについて、バッチサイズを変更した場合の処理時間Ｔ_Ｌ＿Ｂ，Ｔ_Ｈ＿Ｂを計測する。バッチテーブル作成部１３０は、計測したバッチサイズごとのＴ_Ｌ＿Ｂ，Ｔ_Ｈ＿Ｂを、それぞれ第１バッチテーブル１２１および第２バッチテーブル１２２に記録する。そして、バッチテーブル作成が終了する。

【0108】

ステップＳ１０では、例えばバッチテーブル作成部１３０は、テスト用のリクエストをエッジサーバ３００に送信し、当該リクエストに対する軽量モデル３１０、高精度モデル３２０それぞれでの処理時間をエッジサーバ３００から取得してもよい。

【0109】

バッチテーブル作成が完了すると、ゲートウェイサーバ１００の本番運用が開始される。すると、ゲートウェイサーバ１００は、次の処理を行う。
図１１は、履歴テーブル作成例を示すフローチャートである。

【0110】

（Ｓ２０）履歴テーブル作成部１４０は、各エッジデバイスからのリクエストに対するエッジサーバの処理の履歴を取得し、履歴テーブル１２３に記録する。そして、履歴テーブル作成が終了する。

【0111】

なお、運用開始当初、履歴テーブル１２３に一定数の履歴が蓄積されるまでは、割り当て処理部１５３は、所定の負荷分散方法でリクエストの振分を行ってもよい。例えば、割り当て処理部１５３は、利用可能な全てのエッジサーバに、ラウンドロビンなどでリクエストを等分配してもよい。

【0112】

履歴テーブル１２３に一定数の履歴が蓄積されると、ゲートウェイサーバ１００は、次の手順によりリクエストの割り当てを行う。
図１２は、リクエスト割り当て例を示すフローチャートである。

【0113】

リクエスト割り当ては、例えば一定時間ごとに実行される。
（Ｓ３０）推定処理部１５２は、リクエストキュー１１０にある複数のリクエストに対して、高精度モデル３２０で処理されるリクエストの個数Ｎ_Ｈを推定可能であるか否かを判定する。推定可能である場合、ステップＳ３１に処理が進む。推定可能でない場合、ステップＳ３２に処理が進む。図９で説明したように、推定処理部１５２は、履歴テーブル１２３に基づいてステップＳ３０の判定を行える。

【0114】

（Ｓ３１）割り当て処理部１５３は、式（６）で表される見積り式による割り当てを実行する。見積り式による割り当ての詳細は後述される。そして、リクエスト割り当てが終了する。

【0115】

（Ｓ３２）割り当て処理部１５３は、第１バッチテーブル１２１および第２バッチテーブル１２２に基づいて、軽量モデル３１０の処理時間が高精度モデル３２０の処理時間の所定割合以下であるか否かを判定する。軽量モデル３１０の処理時間が高精度モデル３２０の処理時間の所定割合以下である場合、ステップＳ３３に処理が進む。軽量モデル３１０の処理時間が高精度モデル３２０の処理時間の所定割合よりも長い場合、ステップＳ３４に処理が進む。割り当て処理部１５３は、例えば、第１バッチテーブル１２１および第２バッチテーブル１２２の両方にあるバッチサイズのうちの最大のバッチサイズに対する単位処理時間Ｔ_Ｌ＿Ｂ，Ｔ_Ｈ＿Ｂに基づいて、ステップＳ３３の判定を実行してもよい。例えば、所定割合は、１／２０である。この場合、例えば、Ｔ_Ｌ＿Ｂ≦（Ｔ_Ｈ＿Ｂ／２０）の場合、ステップＳ３２はＹｅｓとなる。一方、Ｔ_Ｌ＿Ｂ＞（Ｔ_Ｈ＿Ｂ／２０）の場合、ステップＳ３２はＮｏとなる。

【0116】

（Ｓ３３）割り当て処理部１５３は、集中・再分配による割り当てを実行する。集中・再分配による割り当ては、リクエストキュー１１０にある複数のリクエストを、まずは１つのエッジサーバに割り当て、当該エッジサーバでの処理に応じて他のエッジサーバへの再分配を実行させる割り当て方法である。集中・再分配による割り当ての詳細は後述される。そして、リクエスト割り当てが終了する。

【0117】

（Ｓ３４）割り当て処理部１５３は、ロードバランスによる割り当てを実行する。ロードバランスによる割り当ては、予め定められた負荷分散方法によって、リクエストの割り当て先を決定する方法である。ロードバランスによる割り当ての詳細は後述される。そして、リクエスト割り当てが終了する。

【0118】

図１３は、推定可否判定例を示すフローチャートである。
推定可否判定の処理は、ステップＳ３０に相当する。
（Ｓ４０）推定処理部１５２は、履歴テーブル１２３に基づいて、過去一定期間における高精度モデル３２０での処理の有無が変化した回数が一定回数以下のエッジデバイスの数を取得する。図９で例示したように過去６回分の期間を処理対象とする場合、最大５回の変化回数に対し、例えば一定回数は１である。

【0119】

（Ｓ４１）推定処理部１５２は、リクエストの振分先候補のエッジデバイスの総数に対する、取得したエッジデバイスの数の割合は、一定割合以上であるか否かを判定する。当該エッジデバイスの数の割合が一定割合以上である場合、ステップＳ４２に処理が進む。当該エッジデバイスの数の割合が一定割合未満である場合、ステップＳ４３に処理が進む。ステップＳ４１の判定に用いられる一定割合は、例えば０．７である。

【0120】

（Ｓ４２）推定処理部１５２は、高精度モデル３２０で処理されるリクエストの数Ｎ_Ｈを推定可能と判定する。そして、推定可否判定が終了する。
（Ｓ４３）推定処理部１５２は、高精度モデル３２０で処理されるリクエストの数Ｎ_Ｈを推定不可と判定する。そして、推定可否判定が終了する。

【0121】

図１４は、見積り式による割り当て例を示すフローチャートである。
見積り式による割り当ての処理は、ステップＳ３１に相当する。
（Ｓ５０）割り当て処理部１５３は、変数Ｎｓ＝０に設定する。

【0122】

（Ｓ５１）割り当て処理部１５３は、Ｎｓ＋１台以上のエッジサーバがあるか否かを判定する。Ｎｓ＋１台以上のエッジサーバがある場合、ステップＳ５２に処理が進む。Ｎｓ＋１台以上のエッジサーバがない場合、ステップＳ５８に処理が進む。

【0123】

（Ｓ５２）割り当て処理部１５３は、Ｎｓに１を加算する（Ｎｓ＋＝１）。
（Ｓ５３）割り当て処理部１５３は、リクエストキュー１１０にある複数のリクエストに対するエッジサーバの現在の割り当てをキャンセルする。

【0124】

（Ｓ５４）割り当て処理部１５３は、リクエストキュー１１０にある複数のリクエストをＮｓ台で分割する。例えば、複数のリクエストの数をＮ個とすると、割り当て処理部１５３は、エッジサーバ１台当たりのリクエスト数をＮ／Ｎｓ個とする（等分配）。なお、ＮがＮｓで割り切れない場合、割り当て処理部１５３は、Ｎ÷Ｎｓの商をＮｓ台のエッジサーバに割り当て、Ｎ÷Ｎｓの剰余ｋをＮｓ台のエッジサーバのうちのｋ個のエッジサーバに１つずつ等分配すればよい。こうして、割り当て処理部１５３は、各エッジサーバに割り当てられるリクエスト数の差が小さくなるように各エッジサーバへ割り当てるリクエスト数を決定する。例えば、５個のリクエストを３台に割り当てる場合、２個，２個，１個のような割り当てとなる。

【0125】

（Ｓ５５）割り当て処理部１５３は、ステップＳ５４で分割した単位でＮｓ台のエッジサーバにリクエストを割り当て可能か判定する。割り当て可能かの判定、すなわち、割り当て可否判定の処理の詳細は後述される。

【0126】

（Ｓ５６）割り当て処理部１５３は、ステップＳ５５の判定結果が割り当て可能を示すか否かを判定する。割り当て可能である場合、ステップＳ５７に処理が進む。割り当て不可能である場合、ステップＳ５１に処理が進む。

【0127】

（Ｓ５７）割り当て処理部１５３は、ステップＳ５４で分割した単位でＮｓ台のエッジサーバにリクエストを割り当てる。なお、割り当て処理部１５３は、割り当て先の候補であるエッジサーバ３００，３００ａ，３００ｂ，…のうちの任意のエッジサーバを、割り当て先として選択可能である。例えば、割り当て処理部１５３は、後述される空きエッジサーバの選択を行い、当該空きエッジサーバを割り当て先としてもよい。送信部１５４は、割り当て処理部１５３の割り当て結果に基づいて、リクエストキュー１１０にある複数のリクエストそれぞれを、当該リクエストの割り当て先のエッジサーバに送信する。そして、見積り式による割り当てが終了する。

【0128】

（Ｓ５８）割り当て処理部１５３は、リクエストキュー１１０にある複数のリクエストをＮｓ台分に分割して、Ｎｓ台のエッジサーバに割り当てる。例えば、複数のリクエストの数をＮ個とすると、割り当て処理部１５３は、エッジサーバ１台当たりのリクエスト数をＮ／Ｎｓ個とする（等分配）。なお、ＮがＮｓで割り切れない場合、割り当て処理部１５３は、ステップＳ５４と同様にして各エッジサーバに割り当てるリクエストの個数を決定する。こうして、割り当て処理部１５３は、各エッジサーバに割り当てられるリクエスト数の差が小さくなるように各エッジサーバへ割り当てるリクエスト数を決定する。なお、割り当て処理部１５３は、ステップＳ５７と同様にして、割り当て先のエッジサーバを選択する。送信部１５４は、割り当て処理部１５３の割り当て結果に基づいて、リクエストキュー１１０にある複数のリクエストそれぞれを、当該リクエストの割り当て先のエッジサーバに送信する。そして、見積り式による割り当てが終了する。

【0129】

図１５は、割り当て可否判定例を示すフローチャートである。
割り当て可否判定の処理は、ステップＳ５５に相当する。
（Ｓ６０）割り当て処理部１５３は、式（６）で表される見積り式の条件を満たすか否かを判定する。具体的には、割り当て処理部１５３は、式（６）の左辺で表される処理時間Ｔを計算し、処理時間Ｔが式（６）の右辺で表される規定値以下であるか否かを判定する。Ｔが規定値以下（Ｔ≦規定値）の場合、見積り式の条件が満たされると判定され、ステップＳ６１に処理が進む。Ｔが規定値より長い（Ｔ＞規定値）の場合、見積り式の条件が満たされないと判定され、ステップＳ６２に処理が進む。

【0130】

（Ｓ６１）割り当て処理部１５３は、割り当て可能と判定する。そして、割り当て可否判定が終了する。
（Ｓ６２）割り当て処理部１５３は、割り当て不可と判定する。そして、割り当て可否判定が終了する。

【0131】

ここで、ステップＳ６０では、割り当て処理部１５３は、式（６）の左辺（＝処理時間Ｔ）を、ステップＳ５７で決定された各エッジサーバに対するリクエストの数ｎに基づいて計算する。各エッジサーバに対するリクエストの数ｎについて、エッジサーバごとに差がある場合、割り当て処理部１５３は、各エッジサーバに対するｎのうち最大のｎを用いる。そして、割り当て処理部１５３は、第１バッチテーブル１２１におけるバッチサイズのうちｎ以下の大きい値を優先して、処理時間Ｔ_{Ｌ＿ｔｏｔａｌ}の計算に用いるバッチサイズＢ_Ｌとしてもよい。例えば、ｎ＝５とする。第１バッチテーブル１２１では最大Ｂ_Ｌ＝２である。この場合、ｎ＝５＝４＋１として、割り当て処理部１５３は、Ｔ_{Ｌ＿ｔｏｔａｌ}＝４／２＊７＋１／１＊５＝１９（ｍｓ）のようにバッチサイズＢ_Ｌ＝１，２を組合せて処理時間Ｔ_{Ｌ＿ｔｏｔａｌ}を計算してもよい。

【0132】

また、割り当て処理部１５３は、エッジサーバ１台当たりの高精度モデル３２０により処理されるリクエストの数をｍ＝Ｎ_Ｈ／Ｎｓとする。なお、Ｎ_Ｈ／Ｎｓが割り切れない場合、割り当て処理部１５３は、小数点以下を切り上げ、切り捨て、または四捨五入などにより丸めることで、ｍを整数化して求めてもよい。そして、割り当て処理部１５３は、第２バッチテーブル１２２におけるバッチサイズのうちｍ以下の大きい値を優先して、処理時間Ｔ_{Ｈ＿ｔｏｔａｌ}の計算に用いるバッチサイズＢ_Ｈとしてもよい。例えば、ｍ＝３とする。第２バッチテーブル１２２では最大Ｂ_Ｈ＝２である。この場合、割り当て処理部１５３は、ｍ＝３＝２＋１として、Ｔ_{Ｈ＿ｔｏｔａｌ}＝２／２＊４５＋１／１＊３０＝７５（ｍｓ）のようにバッチサイズＢ_Ｈ＝１，２を組合せて処理時間Ｔ_{Ｈ＿ｔｏｔａｌ}を計算してもよい。

【0133】

図１６は、空きエッジサーバの選択例を示すフローチャートである。
空きエッジサーバの選択の処理は、ステップＳ５７，Ｓ５８で実行される。
（Ｓ７０）割り当て処理部１５３は、利用可能なエッジサーバ３００，３００ａ，…のうち、最近利用されていない方からＮｓ台を選択する。すなわち、割り当て処理部１５３は、最後にリクエストを処理してからの経過時間が長いエッジサーバを優先してＮｓ台を選択する。そして、割り当て処理部１５３は、選択したエッジサーバを、リクエストキュー１１０にある複数のリクエストの割り当て先とする。そして、空きエッジサーバの選択が終了する。

【0134】

図１７は、集中・再分配による割り当て例を示すフローチャートである。
集中・再分配による割り当ての処理は、ステップＳ３３に相当する。
（Ｓ８０）割り当て処理部１５３は、所定の準備処理を実行済であるか否かを判定する。準備処理は、ステップＳ８１～Ｓ８３の処理に相当する。準備処理を実行済の場合、ステップＳ８４に処理が進む。準備処理を未実行の場合、ステップＳ８１に処理が進む。

【0135】

（Ｓ８１）割り当て処理部１５３は、利用可能なエッジサーバ３００，３００ａ，…のうち、任意の１台を代表エッジサーバに選択する。例えば、割り当て処理部１５３は、エッジデバイスＩＤが番号を含む場合に、当該番号が最小のエッジサーバを代表エッジサーバとして選択してもよいし、代表エッジサーバをランダムに選択してもよい。

【0136】

（Ｓ８２）割り当て処理部１５３は、軽量モデル３１０および高精度モデル３２０のロードを代表エッジサーバに指示する。これにより、代表エッジサーバにおいて、軽量モデル３１０および高精度モデル３２０が、代表エッジサーバのＲＡＭにロードされる。

【0137】

（Ｓ８３）割り当て処理部１５３は、高精度モデル３２０のロードを作業エッジサーバに指示する。作業エッジサーバはエッジサーバ３００，３００ａ，…のうちの代表エッジサーバ以外のエッジサーバである。ステップＳ８３の指示により、作業エッジサーバにおいて、高精度モデル３２０が、作業エッジサーバのＲＡＭにロードされる。このように、作業エッジサーバでは、軽量モデル３１０がロードされなくてもよい。

【0138】

（Ｓ８４）割り当て処理部１５３は、リクエストキュー１１０にある複数のリクエストを代表エッジサーバに割り当てる。送信部１５４は、リクエストキュー１１０にある複数のリクエストを、代表エッジサーバに送信する。そして、集中・再分配による割り当てが終了する。

【0139】

なお、集中・再分配による割り当てを行う場合、作業エッジサーバにおいて、軽量モデル３１０がロード済の場合もある。その場合、割り当て処理部１５３は、作業エッジサーバに対し、ロード済の軽量モデル３１０のアンロードを指示してもよい。作業エッジサーバには高精度モデル３２０だけをロードさせることで、作業エッジサーバにおけるメモリ使用量を節約できる。

【0140】

なお、代表エッジサーバは、ゲートウェイサーバ１００から複数のリクエストを受信すると、代表エッジサーバの判断で、リクエストの再分配を行うことがある。そこで、次に代表エッジサーバの処理手順を説明する。

【0141】

図１８は、代表エッジサーバの処理例を示すフローチャートである。
一例として、代表エッジサーバがエッジサーバ３００であると仮定する。ただし、代表エッジサーバがエッジサーバ３００以外の場合も同様の手順となる。

【0142】

（Ｓ９０）エッジサーバ３００は、ゲートウェイサーバ１００から複数のリクエストを受信する。エッジサーバ３００は、受信した複数のリクエストに対して、軽量モデル３１０による推論処理を実行する。エッジサーバ３００は、軽量モデル３１０による推論処理の結果から、高精度モデル３２０による推論処理を実行すべきリクエストの数Ｎ_Ｈを特定する。

【0143】

（Ｓ９１）エッジサーバ３００は、代表エッジサーバ、すなわち、エッジサーバ３００のみで高精度モデル３２０による推論処理が可能か否か判定する。可能な場合、ステップＳ９２に処理が進む。不可能な場合、ステップＳ９３に処理が進む。

【0144】

ステップＳ９１では、エッジサーバ３００は、図１５の割り当て可否判定と同様の判定を行う。ただし、ステップＳ９１では軽量モデル３１０による処理時間Ｔ１＝Ｔ_{Ｌ＿ｔｏｔａｌ}は考慮しなくてよい。よって、式（１）は、式（７）のように変形される。

【0145】

【数7】

【0146】

バッチング処理が可能な場合、式（７）は、式（５）を基に式（８）に変形される。

【0147】

【数8】

【0148】

このため、エッジサーバ３００は、見積り式として、式（８）を用いて、図１５の割り当て可否判定と同様に、処理時間Ｔ＝Ｔ_{Ｈ＿ｔｏｔａｌ}が規定値（Ｔ_{ｔａｒｇｅｔ}－Ｔ_{Ｍａｒｇｉｎ}）以下であるか否かを判定する。処理時間Ｔ≦規定値の場合、代表エッジサーバのみで高精度モデル３２０による推論処理が可能と判定される。また、処理時間Ｔ＞規定値の場合、代表エッジサーバのみでは高精度モデル３２０による推論処理が不可能と判定される。

【0149】

ステップＳ９１を実行するため、エッジサーバ３００はＲＡＭやＨＤＤなどに、第２バッチテーブル１２２に相当する情報を予め保持する。エッジサーバ３００は、処理時間Ｔの算出に、エッジサーバ３００で利用可能なバッチサイズのうちのＮ_Ｈ以下の大きい値を優先して、処理時間Ｔ_{Ｈ＿ｔｏｔａｌ}の計算に用いるバッチサイズＢ_Ｈとしてもよい。例えば、Ｎ_Ｈ＝３とする。また、第２バッチテーブル１２２相当の情報において最大Ｂ_Ｈ＝２であるとする。この場合、エッジサーバ３００は、Ｎ_Ｈ＝３＝２＋１として、Ｔ_{Ｈ＿ｔｏｔａｌ}＝２／２＊４５＋１／１＊３０＝７５（ｍｓ）のように計算してもよい。

【0150】

（Ｓ９２）エッジサーバ３００は、代表エッジサーバ、すなわち、エッジサーバ３００だけで、Ｎ_Ｈ個のリクエストに対する高精度モデル３２０による推論処理を実行する。そして、代表エッジサーバの処理が終了する。

【0151】

（Ｓ９３）エッジサーバ３００は、Ｎ_Ｈ個のリクエストを特定のバッチサイズに分割し、代表エッジサーバおよび作業エッジサーバに、分割した単位でリクエストを分散する。その結果、代表エッジサーバ（エッジサーバ３００）および作業エッジサーバにより、Ｎ_Ｈ個のリクエストに対する高精度モデル３２０による推論処理が分散して処理される。そして、代表エッジサーバの処理が終了する。

【0152】

なお、ステップＳ９３では、ステップＳ５２～Ｓ５６と同様の手順により、式（８）の見積り式を満たすＮｓ（＝リクエストを分散するエッジサーバの数）の値やバッチサイズが特定されてもよい。

【0153】

なお、ステップＳ９０～Ｓ９３の手順は、エッジサーバ３００が有するプロセッサなどの処理部によって実行され得る。例えば、エッジサーバ３００のプロセッサは、エッジサーバ３００のＲＡＭに記憶されたプログラムを実行することで、ステップＳ９０～Ｓ９３の手順を実行し得る。

【0154】

図１９は、ロードバランスによる割り当て例を示すフローチャートである。
ロードバランスによる割り当ては、ステップＳ３４に相当する。
（Ｓ１００）割り当て処理部１５３は、リクエストキュー１１０にある複数のリクエストを、利用可能なエッジサーバ分に分割する。具体的には、割り当て処理部１５３は、利用可能な全てのエッジサーバ３００，３００ａ，…に対して割り当てるリクエストの数の差が小さくなるように、複数のリクエストを等分する。

【0155】

（Ｓ１０１）割り当て処理部１５３は、分割したリクエストを各エッジサーバに送信する。すなわち、割り当て処理部１５３は、全てのエッジサーバ３００，３００ａ，…それぞれに対して等分した数のリクエストを送信する。これにより、利用可能な全てのエッジサーバ３００，３００ａ，…に対して負荷が分散される。そして、ロードバランスによる割り当てが終了する。

【0156】

なお、エッジサーバ３００，３００ａ，…それぞれは、受信したリクエストに対して、軽量モデル３１０による推論処理を実行し、軽量モデル３１０による推論処理の結果に応じて高精度モデル３２０による推論処理を実行する。

【0157】

ところで、情報処理システムでは、エッジサーバのスケールアウトが可能な場合がある。例えば、ゲートウェイサーバ１００は、次のように、エッジサーバのスケールアウトを制御してもよい。

【0158】

図２０は、サーバ数割り当て見直し例を示すフローチャートである。
（Ｓ１１０）割り当て処理部１５３は、図１２で例示される見積り式による割り当て、集中・再分配による割り当て、および、ロードバランスによる割り当ての何れかの割り当てモードを選択した後、選択された割り当てモードを、継続して所定期間実行する。

【0159】

（Ｓ１１１）割り当て処理部１５３は、所定時間だけ当該割り当てモードでの割り当てを行った全回数に対し、各エッジサーバにおいて、推論処理が規定時間で完了しなかった回数の割合を求める。割り当て処理部１５３は、規定時間で完了しない当該割合が閾値よりも大きいか否かを判定する。規定時間で完了しない割合が閾値よりも大きい場合、ステップＳ１１２に処理が進む。規定時間で完了しない割合が閾値以下の場合、サーバ数割り当て見直しが終了する。

【0160】

（Ｓ１１２）割り当て処理部１５３は、エッジデバイス２００～２００ｃからのリクエストの振分に利用可能なエッジサーバを所定数だけ追加する。例えば、割り当て処理部１５３は、エッジデバイス２００～２００ｃからのリクエストの振分候補の物理マシンをエッジサーバとして新たに追加してもよい。あるいは、割り当て処理部１５３は、仮想マシンを動作させる物理マシン上に新たな仮想マシンを起動させて、当該仮想マシンをリクエストの振分候補のエッジサーバとして追加してもよい。そして、サーバ数割り当て見直しが終了する。

【0161】

こうして、ゲートウェイサーバ１００は、エッジデバイス２００～２００ｃからの複数の第２リクエストに対して、適切な数のエッジサーバを割り当て可能になる。
ここで、図１４で例示した、見積り式によるリクエストの割り当ての例を説明する。

【0162】

図２１は、ゲートウェイサーバによるリクエストの割り当て例を示す図である。
図２１（Ａ）は、リクエストキュー１１０に格納された４つのリクエストＲ１，Ｒ２，Ｒ３，Ｒ４を、１台のエッジサーバ３００に割り当てる例を示す。割り当て処理部１５３は、式（６）で表される見積り式に基づいて、１台のエッジサーバでの処理時間Ｔが規定値（Ｔ_{ｔａｒｇｅｔ}－Ｔ_{Ｍａｒｇｉｎ}）以下であると判定する。すると、割り当て処理部１５３は、リクエストＲ１，Ｒ２，Ｒ３，Ｒ４をエッジサーバ３００に割り当てる。

【0163】

図２１（Ｂ）は、４つのリクエストＲ１，Ｒ２，Ｒ３，Ｒ４を、２台のエッジサーバ３００，３００ａに割り当てる例を示す。割り当て処理部１５３は、式（６）で表される見積り式に基づいて、１台のエッジサーバでの処理時間Ｔが規定値（Ｔ_{ｔａｒｇｅｔ}－Ｔ_{Ｍａｒｇｉｎ}）より長いと判定する。すると、割り当て処理部１５３は、各エッジサーバでの処理時間Ｔが規定値（Ｔ_{ｔａｒｇｅｔ}－Ｔ_{Ｍａｒｇｉｎ}）以下となるように、リクエストＲ１，Ｒ２をエッジサーバ３００に割り当て、リクエストＲ３，Ｒ４をエッジサーバ３００ａに割り当てる。このとき、割り当て処理部１５３は、エッジサーバ３００，３００ａで処理されるリクエストの数の差が小さくなるように、すなわち、ほぼ等分配するように割り当てるので、エッジサーバ３００，３００ａに対しほぼ均等に負荷を分散できる。

【0164】

このように、ゲートウェイサーバ１００は、バッチング処理による推論処理の効率化を図りながら、最小限のエッジサーバにリクエストを割り当てることができる。
なお、ゲートウェイサーバ１００は、図１４で例示した手順に代えて、次の手順によりリクエストの割り当てを行ってもよい。

【0165】

図２２は、見積り式による他の割り当て例を示すフローチャートである。
見積り式による他の割り当ての処理は、ステップＳ３１に相当する。
（Ｓ１２０）割り当て処理部１５３は、リクエストキュー１１０にある複数のリクエストを１台のエッジサーバに割り当て可能であるか否かを判定する。ステップＳ１２０の判定方法は、Ｎｓ＝１の場合における図１５の手順と同じである。

【0166】

（Ｓ１２１）割り当て処理部１５３は、ステップＳ１２０の判定結果が割り当て可能を示すか否かを判定する。割り当て可能である場合、ステップＳ１２２に処理が進む。割り当て不可能である場合、ステップＳ１２３に処理が進む。

【0167】

（Ｓ１２２）割り当て処理部１５３は、リクエストキュー１１０にある複数のリクエストを１台のエッジサーバに割り当てる。送信部１５４は、割り当てられた１台のエッジサーバに、リクエストキュー１１０にある複数のリクエストを送信する。そして、見積り式による他の割り当てが終了する。

【0168】

（Ｓ１２３）割り当て処理部１５３は、式（６）で表される見積り式に基づいて、１台のエッジサーバに割り当て可能なリクエスト数を計算する。例えば、割り当て処理部１５３は、式（６）における、リクエストキュー１１０にある複数のリクエストの数Ｎを、Ｎより小さい数Ｎ’に置き換える。そして、割り当て処理部１５３は、数Ｎ’と当該数Ｎ’に対して予測されるＮ_Ｈとが、置き換え後の式（６）を満たすように最大のＮ’を求める。このときのＮ_Ｈは、推定処理部１５２により計算される、複数のリクエストの個数に対する高精度モデル３２０で処理される個数の割合をＮ’に乗じることで計算される。

【0169】

また、見積り式に用いるバッチサイズは、図１５の説明で例示した方法と同様の方法で選択される。例えば、割り当て処理部１５３は、第１バッチテーブル１２１におけるバッチサイズのうちＮ’以下の大きい値を優先して、処理時間Ｔ_{Ｌ＿ｔｏｔａｌ}の計算に用いるバッチサイズＢ_Ｌとしてもよい。また、割り当て処理部１５３は、第２バッチテーブル１２２におけるバッチサイズのうちＮ_Ｈ以下の大きい値を優先して、処理時間Ｔ_{Ｈ＿ｔｏｔａｌ}の計算に用いるバッチサイズＢ_Ｈとしてもよい。

【0170】

（Ｓ１２４）割り当て処理部１５３は、１台のエッジサーバに割り当て可能な分のリクエストを１台のエッジサーバに割り当て、残りのリクエストを他のエッジサーバに割り当てる。送信部１５４は、割り当て処理部１５３の割り当て結果に基づいて、リクエストキュー１１０にある複数のリクエストを、割り当て先のエッジサーバに送信する。そして、見積り式による他の割り当てが終了する。

【0171】

なお、ステップＳ１２４において、１台の他のエッジサーバだけでは、残りのリクエストに対する処理時間が見積り式の条件を満たせない場合もある。その場合、割り当て処理部１５３は、残りのリクエストのうちのステップＳ１２３で計算したリクエスト数の分を当該１台の他のエッジサーバに送信し、更に残りのリクエストを２台目の他のエッジサーバに割り当ててもよい。

【0172】

次に、図２２で例示した、見積り式によるリクエストの他の割り当ての例を説明する。
図２３は、ゲートウェイサーバによるリクエストの他の割り当て例を示す図である。
図２３（Ａ）は、リクエストキュー１１０に格納された４つのリクエストＲ１，Ｒ２，Ｒ３，Ｒ４を、１台のエッジサーバ３００に割り当てる例を示す。割り当て処理部１５３は、式（６）で表される見積り式に基づいて、１台のエッジサーバでの処理時間Ｔが規定値（Ｔ_{ｔａｒｇｅｔ}－Ｔ_{Ｍａｒｇｉｎ}）以下であると判定する。すると、割り当て処理部１５３は、リクエストＲ１，Ｒ２，Ｒ３，Ｒ４をエッジサーバ３００に割り当てる。

【0173】

図２３（Ｂ）は、４つのリクエストＲ１，Ｒ２，Ｒ３，Ｒ４を、２台のエッジサーバ３００，３００ａに割り当てる例を示す。割り当て処理部１５３は、式（６）で表される見積り式に基づいて、１台のエッジサーバでの処理時間Ｔが規定値（Ｔ_{ｔａｒｇｅｔ}－Ｔ_{Ｍａｒｇｉｎ}）より長いと判定する。すると、割り当て処理部１５３は、１台のエッジサーバでの処理時間Ｔが規定値（Ｔ_{ｔａｒｇｅｔ}－Ｔ_{Ｍａｒｇｉｎ}）以下となるように、リクエストＲ１，Ｒ２，Ｒ３をエッジサーバ３００に割り当て、残りのリクエストＲ４をエッジサーバ３００ａに割り当てる。

【0174】

このように、ゲートウェイサーバ１００は、バッチング処理による推論処理の効率化を図りながら、最小限のエッジサーバにリクエストを割り当てることができる。
また、ゲートウェイサーバ１００は、エッジサーバ３００，３００ａ，…における推論処理が完了するまでの時間が、規定値として指定される時間内に収まる可能性を高められる。このため、推論処理の結果を用いて提供される、不審車両の監視に応じた通報や車種のモニタリングに応じた広告提供などの種々のサービスにおけるレスポンス性能を高めることができる。

【0175】

ところで、ゲートウェイサーバ１００によるリクエストの割り当て方法の比較例として、図１７で例示した集中・再分配による割り当てのみを行うことも考えられる。しかし、この場合、リクエストを集中させた特定のエッジサーバにおいて他のエッジサーバへのリクエストの再転送のコストが発生する。例えば、再分配が行われる場合、ゲートウェイサーバから当該特定のエッジサーバにリクエストが転送され、その後、特定のエッジサーバから更に他のエッジサーバへリクエストが転送されるというように、追加の転送が行われる。また、特定のエッジサーバでは、軽量モデル３１０による処理時間として、受信したリクエスト個数分がかかるため、単純に特定のエッジサーバにリクエストを集中させると、規定値で定められる時間期限を超過する可能性がある。

【0176】

そこで、ゲートウェイサーバ１００は、リクエストキュー１１０に溜まった複数のリクエストに対し、各リクエストを送信するエッジデバイスの過去のリクエストの履歴から、リクエストが高精度モデル３２０で処理されるかどうかの個数を推定する。ゲートウェイサーバ１００は、それら高精度モデル３２０で処理されるリクエスト数および軽量モデル３１０で処理されるリクエスト数に対する処理時間Ｔが時間期限を満たす場合に特定のエッジサーバに送付する（見積り式による割り当て）。これにより、ゲートウェイサーバ１００は、再転送の発生や時間超過の発生を防げる。

【0177】

また、ゲートウェイサーバ１００は、処理時間Ｔが時間期限を満たさない場合は２以上のエッジサーバに分けてリクエストを送付する。なお、２以上のエッジサーバに分ける場合、単純に分割する方法や高精度モデル３２０で実施される可能性が高いものをまとめる方法なども考えられる。

【0178】

更に、過去の履歴から各エッジデバイスからのリクエストが高精度モデル３２０で実行されるかどうかの推定が困難と判断される場合もある。その場合、ゲートウェイサーバ１００は、所定バッチサイズに対する軽量モデル３１０の単位処理時間Ｔ_Ｌ＿Ｂを高精度モデル３２０の単位処理時間Ｔ_Ｈ＿Ｂと比較する。例えば、ゲートウェイサーバ１００は、当該Ｔ_Ｌ＿Ｂが当該Ｔ_Ｌ＿Ｈに所定割合（例えば１／２０）を乗じた基準値以下であれば、特定のエッジサーバに複数のリクエストを送信し、再分配を実行させる（集中・再分配による割り当て）。

【0179】

このように、各リクエストが高精度モデル３２０で実行されるかどうかが不透明の場合は、軽量モデル３１０での処理時間が非常に小さい場合であれば、特定のエッジサーバに処理させ、高精度モデルで処理される個数を明らかにすることが有効と考えられる。

【0180】

更に、ゲートウェイサーバ１００は、集中・再分配による割り当てを行えない場合には、利用可能な各エッジサーバの負荷を均等にするように、リクエストを割り当てる（ロードバランスによる割り当て）。

【0181】

こうして、ゲートウェイサーバ１００は、バッチング処理を有効活用するため、比較的少ないサーバリソースで推論処理のタスクを実行可能にできる。また、ゲートウェイサーバ１００は、単純に特定のエッジサーバにリクエストを集中して送付し、当該特定のエッジサーバに再分配させる比較例の方法に比べ、リクエストの再転送のコストや推論の時間超過の可能性を減らすことが可能になる。

【0182】

以上説明したように、ゲートウェイサーバ１００は次の処理を実行する。
制御部１５０は、複数のエッジサーバによる推論処理の履歴から、１つのエッジサーバにおいて第１推論モデルによる第１推論処理の結果に応じて実行される、第２推論モデルによる第２推論処理が行われたリクエストの数の指標値を算出する。履歴は、複数のエッジデバイスから過去に受信した複数の第１リクエストに対する複数のエッジサーバによる推論処理の履歴を示す。履歴は、過去の第１リクエストに対する第２推論モデルの実行有無を示す。制御部１５０は、複数のエッジデバイスから新たに受信した複数の第２リクエストに対する第１推論処理の第１処理時間と、複数の第２リクエストのうちの当該指標値を基に予測される数のリクエストに対する第２推論処理の第２処理時間とを求める。制御部１５０は、第１処理時間と第２処理時間とを合計した第３処理時間が規定値以下である場合、複数の第２リクエストを１つのエッジサーバに送信する。制御部１５０は、第３処理時間が規定値を超える場合、複数の第２リクエストを複数のエッジサーバのうちの２以上のエッジサーバに分配する。

【0183】

これにより、ゲートウェイサーバ１００は、各エッジサーバにリクエストを効率的に割り当てることができる。例えば、ゲートウェイサーバ１００は、１つのエッジサーバによって規定の時間内に複数の第２リクエストの推論処理を完了できると予測される場合には、１つのエッジサーバに複数の第２リクエストを割り当てることで、余計なエッジサーバを割り当てずに済む。また、エッジサーバがバッチング処理を行う場合に、当該エッジサーバにおいて比較的多くの第２リクエストをまとめてバッチング処理が可能となる。このため、ゲートウェイサーバ１００は、バッチング処理による推論処理の効率化も図れる。

【0184】

更に、ゲートウェイサーバ１００は、１つのエッジサーバだけでは規定の時間内に推論処理を完了できないと予測される場合には、複数の第２リクエストを２以上のエッジサーバに分配することで、推論処理を規定の時間内に完了する可能性を高められる。

【0185】

なお、軽量モデル３１０は、第１推論モデルの一例である。高精度モデル３２０は、第２推論モデルの一例である。履歴テーブル１２３は、複数のエッジサーバによる推論処理の履歴の一例である。図９の説明で例示された、高精度モデル３２０で処理されるリクエストの個数が、３個のリクエスト当たり０．６７個であるという計算結果は、上記指標値の一例である。また、図９の説明で例示された、振分対象のリクエストの数のうちの高精度モデル３２０で処理されるリクエストの割合が０．６７／３＝０．２２であるという計算結果も、上記指標値の一例である。

【0186】

また、制御部１５０は、第１処理時間や第２処理時間を、第１推論処理や第２推論処理で処理される単位リクエスト数に応じた単位処理時間に基づいて算出してもよい。これにより、ゲートウェイサーバ１００は、バッチング処理を行う場合の第１処理時間や第２処理時間の予測精度を高められる。ここで、単位リクエスト数は、エッジサーバで利用可能なバッチサイズに相当する。

【0187】

制御部１５０は、図１４で例示した方法で、リクエストの割り当てを行ってもよい。すなわち、制御部１５０は、複数の第２リクエストの分配では、２以上のエッジサーバそれぞれに割り当てる第２リクエストの数の差が小さくなるように分配してもよい。これにより、ゲートウェイサーバ１００は、分配先のエッジサーバの負荷をほぼ均等にできる。

【0188】

また、制御部１５０は、複数の第２リクエストの分配では、分配先の候補のエッジサーバの台数Ｎｓを１つずつ増やしてもよい。それとともに、制御部１５０は、台数Ｎｓのエッジサーバそれぞれに複数の第２リクエストを分配した場合における当該エッジサーバによる第１推論処理および第２推論処理それぞれの処理時間を合計した第４処理時間が規定値以下であるか否かを判定してもよい。制御部１５０は、第４処理時間が規定値以下であると判定されたときの台数Ｎｓを、リクエストの分配先とする２以上のエッジサーバの台数としてもよい。

【0189】

これにより、ゲートウェイサーバ１００は、バッチング処理による推論処理の効率化を図りながら、最小限のエッジサーバにリクエストを割り当てることができる。
あるいは、制御部１５０は、図２２で例示した方法で、リクエストの割り当てを行ってもよい。すなわち、制御部１５０は、複数の第２リクエストの分配では、複数の第２リクエストのうち、第１推論処理および第２推論処理それぞれの処理時間を合計した第５処理時間が規定値を満たす第１の数の第２リクエストを１つのエッジサーバに送信してもよい。そして、制御部１５０は、残りの第２リクエストを他のエッジサーバに送信してもよい。

【0190】

これにより、ゲートウェイサーバ１００は、バッチング処理による推論処理の効率化を図りながら、最小限のエッジサーバにリクエストを割り当てることができる。
また、図１２で例示されるように、制御部１５０は、複数のエッジサーバによる推論処理の履歴に基づいて上記指標値を算出可能であるか否かを判定してもよい。この判定は、ステップＳ３０に相当する。制御部１５０は、当該指標値を算出可能である場合に、当該指標値を算出する。一方、制御部１５０は、当該指標値を算出可能でない場合、所定数単位のリクエストに対する第１推論処理の第６処理時間が所定数単位のリクエストに対する第２推論処理の処理時間に所定割合を乗じた基準時間以下であるか否かを判定してもよい。この判定は、ステップＳ３２に相当する。制御部１５０は、当該判定に応じて複数のエッジサーバに対する複数の第２リクエストの分配方法を選択してもよい。この選択は、ステップＳ３３，Ｓ３４の何れかの選択に相当する。

【0191】

このように、ゲートウェイサーバ１００は、第２推論モデルで処理されるリクエストの個数を推定可能でない場合でも、他の分配方法を選択可能にすることができる。なお、所定数単位のリクエストに対する第１推論処理の第６処理時間は、第１バッチテーブル１２１に基づいて取得される。また、所定数単位のリクエストに対する第２推論処理の処理時間は、第２バッチテーブル１２２に基づいて取得される。

【0192】

例えば、制御部１５０は、分配方法の選択では、第６処理時間が基準時間以下の場合、複数の第２リクエストを１つのエッジサーバに送信する。また、制御部１５０は、当該１つのエッジサーバによる複数の第２リクエストに対する第１推論処理の結果に応じて、複数の第２リクエストのうちの第２推論処理の対象となる第２リクエストの、他のエッジサーバへの再分配を当該１つのエッジサーバに実行させる。一方、制御部１５０は、第６処理時間が基準時間を超える場合、複数のエッジサーバの全てに対して、複数の第２リクエストを分散して送信する。

【0193】

これにより、ゲートウェイサーバ１００は、第２推論モデルで処理されるリクエストの個数を推定可能でない場合でも、他の分配方法を適切に選択できる。
制御部１５０は、上記指標値を算出可能であるか否かの判定では、複数のエッジサーバによる推論処理の履歴における、複数のエッジサーバそれぞれによる第２推論処理の実行および不実行の変化の傾向に基づいて、指標値を算出可能であるか否かを判定してもよい。

【0194】

これにより、ゲートウェイサーバ１００は、当該指標値を適切に算出可能になる。例えば、第２推論処理の実行および不実行の変化が頻発している場合、各リクエストに対して第２推論処理の対象になるリクエストの数が安定していないことになる。第２推論処理の対象になるリクエストの数が安定していない場合、第２推論処理が行われるリクエストの数を適切に見積れない可能性がある。そこで、ゲートウェイサーバ１００は、複数のエッジサーバそれぞれによる第２推論処理の実行および不実行の変化の傾向に基づいて、指標値を算出可能であるか否かを判定することで、当該指標値を適切に得られるようになる。また、ゲートウェイサーバ１００は、当該指標値を適切に得られない場合には、他の分配方法（割り当て方法）を選択可能になる。

【0195】

また、第２推論モデルは、第１推論モデルよりも高精度な推論処理に用いられる推論モデルでもよい。このように、ゲートウェイサーバ１００の機能は、異なる推論モデルにより、前段の推論処理の結果に応じて後段の推論処理の精度を段階的に向上させる情報処理システム、または、推論処理システムに好適である。

【0196】

また、図２０で例示したように、制御部１５０は、エッジサーバのスケールアウトを行ってもよい。例えば、制御部１５０は、複数の第２リクエストの分配では、上記のように分配先の候補のエッジサーバの台数Ｎｓを１つずつ増やすとともに、第４処理時間と規定値との比較を行う。この場合、制御部１５０は、分配先の候補のエッジサーバの台数Ｎｓが複数のエッジサーバの数Ｎに達すると、Ｎｓ＝Ｎでの第４処理時間が規定値を超過すると判定された場合でも複数のエッジサーバの全てに複数の第２リクエストを分散して送信する。そして、制御部１５０は、第４処理時間が規定値を超過すると判定されて複数のエッジサーバの全てに複数の第２リクエストを分散して送信した回数の所定期間における割合が閾値よりも大きいことを検出する。すると、制御部１５０は、複数のエッジサーバに新たなエッジサーバを追加する。

【0197】

これにより、ゲートウェイサーバ１００は、エッジデバイス２００～２００ｃからの複数の第２リクエストに対して、適切な数のエッジサーバを割り当て可能になる。
なお、第１の実施の形態の情報処理は、処理部１２にプログラムを実行させることで実現できる。また、第２の実施の形態の情報処理は、ＣＰＵ１０１にプログラムを実行させることで実現できる。プログラムは、コンピュータ読み取り可能な記録媒体７３に記録できる。

【0198】

例えば、プログラムを記録した記録媒体７３を配布することで、プログラムを流通させることができる。また、プログラムを他のコンピュータに格納しておき、ネットワーク経由でプログラムを配布してもよい。コンピュータは、例えば、記録媒体７３に記録されたプログラムまたは他のコンピュータから受信したプログラムを、ＲＡＭ１０２やＨＤＤ１０３などの記憶装置に格納し（インストールし）、当該記憶装置からプログラムを読み込んで実行してもよい。

【符号の説明】

【0199】

１，２ネットワーク
１０情報処理装置
１１記憶部
１１ａ履歴情報
１２処理部
１３キュー
２１，２２，２３，２４エッジデバイス
３１，３２，３３エッジサーバ
４１第１推論モデル
４２第２推論モデル

【図1】