特開2024-180181 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日立ヴァンタラ株式会社の特許一覧

特開2024-180181データ処理システム及びデータ処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024180181

(43)【公開日】2024-12-26

(54)【発明の名称】データ処理システム及びデータ処理方法

(51)【国際特許分類】

G06F 11/20 20060101AFI20241219BHJP

【ＦＩ】

G06F11/20 628

【審査請求】有

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2023099670

(22)【出願日】2023-06-16

(71)【出願人】

【識別番号】524132520

【氏名又は名称】日立ヴァンタラ株式会社

(74)【代理人】

【識別番号】110001689

【氏名又は名称】青稜弁理士法人

(72)【発明者】

【氏名】鎌塚友幸

(72)【発明者】

【氏名】辰馬僚太

(72)【発明者】

【氏名】加藤将二

(72)【発明者】

【氏名】清田雄策

【テーマコード（参考）】

5B034

【Ｆターム（参考）】

5B034BB16

(57)【要約】

【課題】
ＦＰＧＡ回路に設置するソフトエラーに備えた通常の処理では動作しない予備の処理回路を無くしＦＰＧＡの使用リソースの効率化を図る。
【解決手段】
プログラマブルデバイスで構成された演算機と、前記演算機に接続される演算処理部とを含むデータ処理システムであって、前記演算機は、前記演算処理部から提供されるデータ処理命令を各々並列して実行する複数の処理回路と、データ処理命令を実行中の処理回路において発生したソフトエラーを検出するエラー検出部と、前記複数の処理回路の中からデータ処理命令を実行させる処理回路を選択する処理回路選択部とを有し、前記処理回路選択部は、前記エラー検出部のソフトエラー検出結果に基づいてソフトエラーが発生した処理回路を特定し、前記複数の処理回路のうちソフトエラーが発生した処理回路を除いてデータ処理命令を実行させる処理回路を選択する。
【選択図】図１

【特許請求の範囲】

【請求項1】

プログラマブルデバイスで構成された演算機と、前記演算機に接続される演算処理部とを含むデータ処理システムであって、
前記演算機は、
前記演算処理部から提供されるデータ処理命令を各々並列して実行する複数の処理回路と、
データ処理命令を実行中の処理回路において発生したソフトエラーを検出するエラー検出部と、
前記複数の処理回路の中からデータ処理命令を実行させる処理回路を選択する処理回路選択部とを有し、
前記処理回路選択部は、前記エラー検出部のソフトエラー検出結果に基づいてソフトエラーが発生した処理回路を特定し、前記複数の処理回路のうちソフトエラーが発生した処理回路を除いてデータ処理命令を実行させる処理回路を選択することを特徴とするデータ処理システム。

【請求項2】

前記演算機は、特定の周期で前記複数の処理回路に対するソフトエラーの検出および検出したソフトエラーの訂正を行うエラー検出訂正回路を有し、
前記処理回路選択部は、ソフトエラーが発生した処理回路の特定から前記周期の経過後、データ処理命令を実行させる処理回路として当該処理回路を選択対象とする請求項１記載のデータ処理システム。

【請求項3】

前記処理回路選択部は、特定の処理回路においてソフトエラーが規定回数以上発生した場合、当該処理回路をデータ処理命令を実行させる処理回路として選択しないことを特徴とする請求項１記載のデータ処理システム。

【請求項4】

前記演算機において、前記複数の処理回路は複数の処理回路群に分類され、
各処理回路群に対応して、前記処理回路選択部が設けられることを特徴とする請求項１から請求項３に記載のデータ処理システム。

【請求項5】

前記演算機は、前記複数の処理回路群の中からデータ処理命令を実行させる処理回路群を選択する処理回路群選択部を有し、
前記処理回路群選択部は、各処理回路群に属する処理回路のデータ処理命令の実行状況に基づいてデータ処理命令を実行させる処理回路群を選択する請求項４記載のデータ処理システム。

【請求項6】

プログラマブルデバイスで構成された演算機と、前記演算機に接続される演算処理部とを含むデータ処理システムにおけるデータ処理方法であって
前記演算機は、
前記演算処理部から提供されるデータ処理命令を各々並列して実行する複数の処理回路と、
データ処理命令を実行中の処理回路において発生したソフトエラーを検出するエラー検出部と、
前記複数の処理回路の中からデータ処理命令を実行させる処理回路を選択する処理回路選択部とを有し、
前記エラー検出部が、データ処理命令を実行中の処理回路においてソフトエラーの発生を検出し、
前記処理回路選択部が、前記エラー検出部のソフトエラー検出結果に基づきソフトエラーが発生した処理回路を特定し、前記複数の処理回路のうちソフトエラーが発生した処理回路を除いて前記データ処理命令を実行させる処理回路を選択することを特徴とするデータ処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、データ処理システム及びデータ処理方法に関する。

【背景技術】

【0002】

ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等、プログラミングによって所要の機能を果たす機能装置に関し、継続して機能を維持させることができる機能装置、機能維持方法及び機能維持プログラムが提供されている。複数の機能部を備え、障害が発生した機能部から待機中の機能部に切り替えることにより機能を維持させる。複数の機能部、障害検出部及び切替部を備え、動作中の機能部と待機中の機能部とを設定する。即ち、障害が発生した機能部を待機中にし、待機中であった機能部を動作させる。従って、機能部に生じた障害によるシステムの動作停止を伴うことなく、継続した機能を維持することができ、機能維持によりシステムの信頼性が高められる発明が開示されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２００６－５３８７３

【発明の概要】

【発明が解決しようとする課題】

【0004】

ＦＰＧＡはその構造上、中性子線やα線等のような放射線によってコンフィギュレーションメモリ（以下ＣＲＡＭ）に書き込まれたデータにビット反転が生じるソフトエラーが起こることがある。ＦＰＧＡでソフトエラーが起きると回路構成が変化する。そのため、ソフトエラーが発生したＦＰＧＡは、反転したｂｉｔが訂正されるまでの間、装置を誤作動させたり、誤った演算結果を出力したりする。ソフトエラーが起きている間のＦＰＧＡの出力は信頼性に欠けるためエラー訂正、およびエラーの発生前後のコマンドのリトライが必要である。

【0005】

ミッションクリティカルなシステムにＦＰＧＡを組み込む場合、通常動作している処理回路に加えて予備の処理回路（予備系）を用意し、ソフトエラーによる障害に耐性を持たせる方法がある。この方法ではインアクティブな予備系を実装する必要があり、通常の処理では動作しない予備系を実装するためにＦＰＧＡの回路リソースを消費してしまう問題がある。

【課題を解決するための手段】

【0006】

本発明の課題はプログラマブルデバイスで構成された演算機と、前記演算機に接続される演算処理部とを含むデータ処理システムであって、前記演算機は、前記演算処理部から提供されるデータ処理命令を各々並列して実行する複数の処理回路と、データ処理命令を実行中の処理回路において発生したソフトエラーを検出するエラー検出部と、前記複数の処理回路の中からデータ処理命令を実行させる処理回路を選択する処理回路選択部とを有し、前記処理回路選択部は、前記エラー検出部のソフトエラー検出結果に基づいてソフトエラーが発生した処理回路を特定し、前記複数の処理回路のうちソフトエラーが発生した処理回路を除いてデータ処理命令を実行させる処理回路を選択することを特徴とするデータ処理システムにより達成される。

【発明の効果】

【0007】

本発明によれば、半導体の容量を有効に利用した冗長性あるデータ処理システムを実現できる。

【0008】

上記した以外の課題、構成及び効果は以下の実施形態の説明により明らかにされる。

【図面の簡単な説明】

【0009】

【図1】本発明の実施例におけるシステム構成図の例

【図2】本発明の実施例における演算機のハードウェア構成の例

【図3】本発明の実施例におけるＤＭＡＣの例

【図4】本発明の実施例における演算機の詳細な構成の例

【図5】本発明の実施例におけるコマンド処理の例

【図6】本発明の実施例におけるエラー対応処理の例

【図7】本発明の実施例におけるソフトエラー発生時のシーケンスの例

【図8】本発明の実施例におけるアンコレクタブルエラー発生時の処理シーケンスの例

【図9】本発明の実施例におけるＩＰエラー回数管理テーブルの例

【図10】本発明の実施例におけるＤＭＡＣ管理テーブルの例

【図11】本発明の実施例におけるＩＰ管理テーブルの例

【発明を実施するための形態】

【0010】

以下、本発明の実施例を、図面を用いて説明する。なお、実施例を説明するための各図において、同一の構成要素には同一の名称、符号を付して、その繰り返しの説明を省略する。

【0011】

本発明は後述する実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例および同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。

【0012】

また、実施例で説明する処理部は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することによりソフトウェアで実現してもよい。

【0013】

実施例で説明するテーブル、領域等はデータベース（ＤＢ）であっても良く主記憶メモリに記憶されたデータであっても良い。

【実施例0014】

図１は本発明の実施例におけるシステム構成図の例である。データ処理システム１はＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２，主記憶メモリ３、演算機（ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ））４、ホストＩＦ（Ｉｎｔｅｒｆａｃｅ）５を含む。ＣＰＵ２と演算機４は、主記憶メモリ３に対するデータバスを共有しており、それぞれ当該データバスを通して主記憶メモリ３へのデータアクセスを行う。

【0015】

ＣＰＵ２にはホストＩＦ５からホストの処理要求を受け付け要求に含まれるコマンドを解析するホストコマンド処理部７、演算機４との間でコマンド及びその処理結果の通信処理を行う演算機処理部８、システム１におけるコマンド処理の制御を行う制御部９が含まれる。

【0016】

これらの制御部、処理部は主記憶メモリ３に格納されＣＰＵ２で実行されてもよく、ハードウェアで実現されても良い。

【0017】

演算機４には１又は複数のＤＭＡＣ（ＤｉｒｅｃｔＭｅｍｏｒｙＡｃｃｅｓｓＣｏｎｔｒｏｌｅｒ）１７、ＤＭＡコマンド処理を実行するＤＭＡＣ１７を選択するＤＭＡＣ選択部１３，ＤＭＡＣの状態情報等を格納するＤＭＡＣ管理テーブル１４、ＣＰＵ２とＤＭＡＣ選択部１３との間でＤＭＡコマンドの送受信を行うコマンド制御部１９が含まれる。また各ＤＭＡＣ１７には、ＤＭＡコマンドに基づきデータ処理を実行する複数の処理回路１８が格納されており、さらに処理回路を選択するＩＰ選択部１５、処理回路の状態情報等を格納するＩＰ管理テーブル１６が含まれる。

【0018】

またＤＭＡＣ選択部１３によって選択されたＤＭＡＣ１７は、ＤＭＡコマンドに基づくデータ処理に際し主記憶メモリ３との間のＤＭＡを実行する。すなわち主記憶メモリ３との間でダイレクトにコマンド・実行結果格納領域１０との間のコマンドの読み出しとコマンド実行結果の格納や、データ格納領域１１との間のコマンド処理用データ読み出しと処理後データの格納する。

【0019】

本実施例において演算機４にＤＭＡＣ１７が１つのみ搭載される場合には、ＤＭＡＣ選択部１３は必ずしも必要では無い。

【0020】

主記憶メモリ３にはＤＭＡコマンドの詳細とその実行結果を格納するコマンド・実行結果格納領域１０、処理回路がＤＭＡコマンドの処理を行う前のデータや処理を行った後のデータを格納するデータ格納領域１１、処理回路のエラー回数の管理のためのＩＰエラー回数管理テーブル１２が含まれる。

【0021】

ＣＰＵ２と演算機４はＰＣＩｅ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔｅｘｐｒｅｓｓ）インタフェース等で接続されている。ただし接続は他の通信プロトコルを用いても良い。

【0022】

図２は本発明の実施例における演算機のハードウェア構成の例である。

【0023】

ＣＰＵ２は演算機４と接続されている。この例では演算機にＰＣＩｅ２２とＩｎｔｅｒｎａｌＢｕｓＳｗｉｔｃｈ２３が実装されＤＭＡＣ選択部１３と接続されている。ＤＭＡＣ選択部１３は複数のＤＭＡＣ１７に接続され、ＤＭＡＣ１７には複数の処理回路１８が実装されたＩＰ群（処理回路群）２６、を含む。図４にて後述するように各処理回路１８は対応する各ＩＰ制御部内に設けられているが、機能の説明上図１乃至図３では簡略化して図示している。

【0024】

これらの処理回路でＤＭＡコマンドを実行する処理回路１８を選択するのがＩＰ選択部（アービタ）１５である。

【0025】

ＳＥＵ（ＳｉｎｇｌｅＥｖｅｎｔＵｐｓｅｔ）検出、訂正機構２８は処理回路１８のエラー訂正を行う。ＳＥＵ検出、訂正機構２８は具体的に、演算機４に含まれるＦＰＧＡの回路構成が格納されたＣＲＡＭ（図示せず）の巡回チェックを定期的に行い、処理回路１８のエラーを検知するとエラー訂正を行う。

【0026】

図３は本発明の実施例におけるＤＭＡＣの例である。ここではＤＭＡＣ選択部１３によってＤＭＡコマンドを実行するために一つのＤＭＡＣ１７が選択されたものとして説明する。

【0027】

ＤＭＡＣ選択部１３によって選択されたＤＭＡＣ１７は、ＤＭＡコマンドに基づき、ＤＭＡ転送により主記憶メモリ３のコマンド・実行結果格納領域１０からＤＭＡコマンドに関する情報を、取得したＤＭＡコマンドに基づきデータ格納領域１１から処理用データを読み出す。

【0028】

選択されたＤＭＡＣ１７におけるＩＰ選択部１５はＤＭＡコマンド及び処理用データを受け取り、データ処理対象として選択した処理回路１８へ送付する。図３では処理回路１８のうちＩＰ０が選択されたものとして図示されている。選択された処理回路ＩＰ０はＤＭＡコマンドを実行し、コマンド実行結果と処理後データとを出力する。選択されたＤＭＡＣ１７はＤＭＡにより、コマンド実行結果と処理後データとをそれぞれコマンド・実行結果格納領域１０とデータ格納領域１１にそれぞれ格納する。
選択された処理回路ＩＰ０がコマンド処理中にエラーを発生した場合は選択の対象から除外し、他の選択対象候補の処理回路を選択してコマンド処理を継続する。

【0029】

図４は発明の実施例における演算機４の詳細な構成の例である。ＤＭＡＣ１７にはＤＭＡＣ選択部１３からＤＭＡコマンドを受信する受信部４２、処理回路１８の処理結果をＤＭＡＣ選択部１３へ送信する送信部４３、ＤＭＡコマンドを実行する処理回路１８を選択して出力するＩＰ選択部１５を備える。

【0030】

各ＩＰ制御部４１はそれぞれ処理回路１８と処理回路１８で発生したソフトエラーを検出するエラー検出回路４５を備える。エラー検出回路４５は処理回路１８の回路構成の変化を検出することでソフトエラーの発生を検出する。回路構成の変化の検出方法としては（１）処理回路内部の伝送路に誤り訂正符号を付加する（２）圧縮したデータを即時伸長し、得られた結果を元データと突合する(処理回路１８がデータの圧縮伸長に対応する場合)（３）データの復号時、予め付与された誤り検出符号を検証する(処理回路１８がデータの暗号復号化に対応する場合)が挙げられるが、これ以外の方法を採用してもよい。

【0031】

次に本実施例で使用するテーブルについて図９－図１１を用いて説明する。

【0032】

図９は本発明の実施例におけるＩＰエラー回数管理テーブル１２の例である。ＩＰエラー回数管理テーブル１２は主記憶メモリ３に格納され、各ＤＭＡＣを識別する＃ＤＭＡＣ番号１１１欄と、各ＤＭＡＣにおいて各処理回路を識別する＃ＩＰ番号１１２欄と、＃ＩＰ番号に対応する処理回路でのエラー発生回数１１３欄と、＃ＩＰ番号に対応する処理回路におけるエラー回数閾値１１５欄とを備える。

【0033】

ＩＰエラー回数管理テーブル１２は、ＣＰＵ２の制御部１９によって参照され、各ＤＭＡＣが備える処理回路１８毎にエラーの発生回数１１３が格納される。そして、エラー発生回数１１３が予め定められた回数になったとき後述するＩＰ管理テーブル１６のアービタ参加不可欄１３４を１（ＯＮ）にして選択対象外とするために用いられる。

【0034】

図１０は本発明の実施例におけるＤＭＡＣ管理テーブル１４の例である。ＤＭＡＣ管理テーブル１４は演算機４に格納され、＃ＤＭＡＣ番号１２１欄と、＃ＤＭＡＣ番号に対応するＤＭＡＣに属するすべての処理回路が処理中かを示すＢｕｓｙ１２２欄と、＃ＤＭＡＣ番号に対応するＤＭＡＣがコマンドを受信可能かを示すコマンド受信可能欄１２３とを備える。
システムが複数のＤＭＡＣを備える場合にはＤＭＡＣ選択部１３は本テーブルを用いてＤＭＡＣの使用を管理する。ＤＭＡＣが備える全ての処理回路１８が処理中の場合は全ての処理回路１８がＢｕｓｙ欄１２２をＯＮ（１）にすることにより当該ＤＭＡＣが選択されないようにする。この例ではすべての処理回路１８が処理中のときコマンド受信可能欄１２３をＮｏにすることにより当該ＤＭＡＣが選択されないようにしている。

【0035】

当該ＤＭＡＣが保有する処理回路１８の数と処理中の処理回路１８の数を登録する欄を設け、ＤＭＡＣ選択部が選択したときに処理中の処理回路１８の数を１増やし、処理回路１８の処理が終わったときに処理中の処理回路１８の数を１減じることによりＤＭＡＣ中の処理回路１８の使用率を求め、使用率の低いＤＭＡＣを選択できるようにしても良い。

【0036】

この他にもホストから要求される処理毎のデータ処理量が大きく異なる場合には処理数をカウントするのではなく、処理したデータ量をカウントする欄を設け、データ処理量に基づいて使用するＤＭＡＣを選択するようにしても良い。

【0037】

このほかにも、ＤＭＡＣが保有する処理回路１８のうち使用されている処理回路１８の割合が多いことを示す負荷情報や、ＤＭＡＣの処理速度を示す性能情報等を設けて、使用優先順位の高いＤＭＡＣ、使用優先順位の低いＤＭＡＣがわかるようにすれば、システムを効率的に運用できる。

【0038】

さらにＤＭＡＣ毎に異なる種類の処理回路１８をインストールし、ホストから要求のあった処理に応じてＤＭＡＣを選択するようにしても良い。

【0039】

図１１は本発明の実施例におけるＩＰ管理テーブル１６の例である。ＩＰ管理テーブル１６はＤＭＡＣ毎に設けられ、各ＤＭＡＣにおいて処理回路１８毎に処理中かどうかを示す処理中欄１３２、巡回訂正を待っているかどうかを示す巡回訂正待機中欄１３３、処理を行うことができないことを示すアービタ参加不可欄１３４、コマンドの受信可否を示すコマンド受信可能欄１３５を備える。

【0040】

１３２－１３４の全ての欄がＯＦＦ（０）であればコマンド受信可能欄をＹｅｓとし、処理回路１８が処理可能であることを示す。このほか、処理回路１８の種別、バージョン等の情報を格納することにより使用可能な処理回路１８、使用優先順位の高い処理回路１８を表現できる。

【0041】

次に図５を用いて本実施例のシステムにおけるコマンド処理動作について説明する。

【0042】

ＣＰＵ２のホストコマンド処理部７はホストからの処理要求を受けて、要求に含まれるホストコマンドを解析し、解析結果を制御部９に受け渡す。ホストコマンドはシステム１が提供する、ホストが参照可能な論理的な記憶領域に対する指定のデータの読み出し又は書き込み命令であり、記憶領域は主記憶メモリ３に対応付けられて設定されている。

【0043】

制御部９は、受領したホストコマンドに対応した、演算機４との間でのデータ処理を伴うＤＭＡのコマンド（以下、ＤＭＡコマンド）と、ＤＭＡコマンドの処理対象となるデータ（以下、処理対象データ）を特定し、主記憶メモリ３のコマンド・実行結果格納領域１０にＤＭＡコマンドを、データ格納領域１１に処理対象データをそれぞれ格納する。

【0044】

ＤＭＡコマンドによる指示としては例えば「（主記憶メモリ３の）アドレスＸＸから平文を読み出して、圧縮したデータをアドレスＸＸに書きなさい」、「圧縮されたデータを（主記憶メモリ３の）アドレスＸＸから読み出して、伸長してアドレスＸＸに書きなさい」が挙げられる。本実施例ではＤＭＡコマンドで指定された処理対象データのアドレスを、そのままデータ格納領域１１のアドレスとしている。このような構成により、ＤＭＡコマンドが格納されたコマンド・実行結果格納領域１０のアドレスにアクセスし、当該ＤＭＡコマンドを参照することで処理対象データが格納されたデータ格納領域１１のアドレスを特定できる。

【0045】

その後、演算機処理部８は、コマンド・実行結果格納領域１０に格納されたＤＭＡコマンドのアドレスを含むコマンド受領通知を演算機４に送信する（Ｓ５０）。尚、コマンド受領通知にはＤＭＡコマンドのアドレスは含まれなくてもよい。この場合、ＤＭＡコマンドが格納されるコマンド・実行結果格納領域１０のアドレスが予めシステム１において決められており、演算機４においてコマンド受領通知を受信したコマンド制御部１９が当該アドレスにアクセスしてＤＭＡコマンドを読み出すようにしてもよい。

【0046】

演算機４においてコマンド受領通知はＰＣＩｅ２２、ＩｎｔｅｒｎａｌＢｕｓＳｗｉｔｃｈ２３を介してコマンド制御部１９に送信される。コマンド制御部１９は通知に含まれるコマンド・実行結果格納領域１０のアドレスに基づき、主記憶メモリ３からそれぞれＤＭＡコマンドと、当該ＤＭＡコマンドに基づき処理対象データを読み出し、ＤＭＡＣ選択部１３に送信する。ＤＭＡコマンド、処理対象データを受信したＤＭＡＣ選択部１３はＤＭＡＣ管理テーブル１４のコマンド受信可能欄１２３を参照し、コマンド受信可能なＤＭＡＣ１７があるかどうかを判定する（Ｓ５１）。ここでＤＭＡＣがコマンド受信可能であるということは閉塞されていないデータ処理可能な処理回路１８が少なくとも１つ、当該ＤＭＡＣに存在することを意味する。

【0047】

コマンド受信可能なＤＭＡＣ１７があったとき（Ｓ５１のＹｅｓ）、ＤＭＡＣ選択部１３はコマンド受信可能なＤＭＡＣ１７のうちいずれか一つを選択し、ＤＭＡコマンド、処理対象データを送信する。ＤＭＡＣを選択する条件は、最初に見つかったコマンド受信可能なＤＭＡＣを選択しても良いが、ＤＭＡＣの負荷状態を調べて負荷の低いＤＭＡＣを選択すれば、処理を分散することができ処理効率向上に寄与する。

【0048】

コマンド受信可能なＤＭＡＣ１７が存在しない場合（Ｓ５１のＮｏ）、例えばすべてのＤＭＡＣ１７における処理回路１８がコマンド処理中の場合には、ＤＭＡＣ選択部１３はいずれかの処理回路１８において処理が完了しＤＭＡＣ管理テーブル１４のＢｕｓｙ欄１２２がＯＦＦ（０）となったＤＭＡＣ１７が見つかるまで監視を続ける。

【0049】

選択されたＤＭＡＣ１７においてＤＭＡコマンド、処理対象データは受信部４２で受信され、ＩＰ選択部１５に出力される。ＩＰ選択部１５はＤＭＡコマンド、処理対象データを受信すると、ＩＰ管理テーブル１６のコマンド受信可能欄１３５を参照し、選択対象の処理回路１８の中からコマンド受信可能な処理回路１８があるかどうかを判定する（Ｓ５２）。コマンド受信可能な処理回路１８があるということは処理中ではなく、巡回訂正待機中でもなく、アービタ参加不可でもないデータ処理可能な処理回路１８があるということを意味する。

【0050】

コマンド受信可能な処理回路１８があるとき（Ｓ５２のＹｅｓ）、ＩＰ選択部１５はコマンド受信可能な処理回路１８のうちいずれか一つを選択し、コマンド受領通知を送信する。処理回路１８の選択についてもエラー発生回数等の情報により、エラー発生が少ない処理回路を選択するようにすれば、エラー低減につながりより効率的な処理を行うことが可能となる。

【0051】

コマンド受信可能な処理回路１８が存在しない場合（Ｓ５２のＮｏ）、ＩＰ選択部１５はＩＰ管理テーブル１６のコマンド受信可能欄１３５がＹｅｓとなった処理回路１８が見つかるまで監視を続ける。

【0052】

ＩＰ選択部１５はコマンド受信可能な処理回路１８を選択すると、対応するＩＰ制御部４１へＤＭＡコマンド、処理対象データを渡す。ＩＰ制御部４１は選択された処理回路１８へ送信すると、処理回路１８はコマンド処理を開始する（Ｓ５３）。

【0053】

処理回路１８はコマンド処理にあたり、処理対象であるデータが格納されたデータ格納領域１１のアドレスへアクセスするためのＤＭＡを行う。具体的には、受信部４２が該当アドレスから読み出されたデータを受信し、処理回路１８がデータの処理を行い、処理の完了を送信部４３へ通知する。処理回路１８の完了通知を受けて、送信部４３が処理したデータを主記憶メモリ３へ送信することでＤＭＡを実行する。

【0054】

図５の説明に戻り、データ格納領域１１から読み出された処理対象データは受信部４２で受信され、ＩＰ選択部１５を経由して選択された処理回路１８に出力されると、ＤＭＡコマンドに基づくデータ処理が実行される。処理回路１８は処理が正常に終了すると（Ｓ５４のＮｏ）、コマンドの処理結果を含むＤＭＡコマンドをＩＰ選択部１５、ＤＭＡＣ選択部１３を介してコマンド制御部１９に送信し、処理後データを送信部４３に送信する。

【0055】

送信部４３は処理後データを処理対象データが格納されたデータ格納領域１１のアドレスへ直接送信して書き込む。またコマンド制御部１９は処理結果と、ＤＭＡコマンドが格納されたコマンド・実行結果格納領域１０のアドレスをＣＰＵ２に送信する（Ｓ５７）。

【0056】

処理結果はＣＰＵ２において演算機処理部８が受信し、制御部９がＤＭＡコマンドが格納されたコマンド・実行結果格納領域１０のアドレスに応答結果を書き込む。さらに制御部９は処理結果をホストＩＦ５を介してホストに送信する。

【0057】

処理回路１８がコマンド処理中にエラー（ソフトエラーに起因するエラー含む）を発生した場合（Ｓ５４のＹｅｓ）、対応するエラー検出回路４５がエラーを検出し、ＩＰ選択部１５に通知する。エラー通知を受信したＩＰ選択部１５は、エラーが発生した処理回路の番号を含むエラーのＤＭＡコマンドをコマンド制御部１９へ送信する。コマンド制御部１９はエラーのＤＭＡコマンドをＣＰＵ２の演算機処理部８に送信し、当該ＤＭＡコマンドの受信後ＣＰＵ２の制御部９はエラー対応処理を実行する（Ｓ５５）。エラー対応処理の詳細は図６を用いて後述する。

【0058】

ＩＰ選択部１５はＩＰ管理テーブル１６のエラーの発生した処理回路１８に対応する巡回訂正待機中欄１３３をＯＮ（１）に、コマンド受信可能欄１３５をＮｏに設定する。

【0059】

ＳＥＵ検出、訂正機構２８は定期的にＣＲＡＭの巡回訂正チェックを行い、数百ミリ秒オーダーの巡回訂正周期でエラーが発生した処理回路１８のエラー訂正を行う（Ｓ５６）。エラーの訂正が完了するとＩＰ選択部１５はＩＰ管理テーブル１６のエラーの発生した処理回路１８に対応する巡回訂正待機中欄１３３をＯＦＦ（０）に設定し、対応する処理中欄１３２およびアービタ参加不可欄１３４も同じくＯＦＦ（０）であれば、コマンド受信可能欄１３５をＹｅｓに設定する。

【0060】

またエラー検出回路４５は予め定められた周期、例えば巡回訂正周期でＩＰ管理テーブル１６のアービタ参加不可欄１３４をリセットして対応する処理回路１８を選択できるようにしても良い。このような処理により使用可能な処理回路１８を有効に利用することが可能となる。

【0061】

図６にＣＰＵ２のエラー対応処理Ｓ５５の例を示す。エラーが発生したＤＭＡＣ１７のＩＰ選択部１５からエラーのＤＭＡコマンドを受信（Ｓ６０）すると、制御部９はＩＰエラー回数管理テーブル１２（図９）の該当する処理回路のエラー発生回数１１３を１増やす（Ｓ６１）。当該処理回路のエラー発生回数がＩＰエラー回数管理テーブル１２のエラー回数閾値以上かどうかを判定（Ｓ６２）し、エラー回数閾値以上であればエラーコマンドが送信されたＤＭＡＣ１７の設定レジスタ８１にアクセスし、ＩＰ管理テーブル１６（図１１）におけるエラーを発生した処理回路１８に対応するアービタ参加不可１３４欄のフラグをＯＮにする（Ｓ６３）。以後アービタ参加不可欄１３４がＯＦＦ（０）にリセットされない限り当該処理回路１８はＩＰ選択部１５による選択対象から外される。
処理回路１８への処理の割り当ては、ＤＭＡＣ管理テーブル１４、ＩＰ管理テーブル１６を参照して実行される。ＤＭＡＣ管理テーブル１４およびＩＰ管理テーブル１６の実体は、演算機４のレジスタ上に存在する。

【0062】

演算機処理部８はＤＭＡＣ内の設定レジスタ８１を参照し、ＤＭＡコマンドのリトライ要求を行う（Ｓ６５）。すなわち演算機処理部８は、コマンド・実行結果格納領域１０に格納されたＤＭＡコマンドのアドレスを含むコマンド受領通知を演算機４に再度送信し、以後図５で説明したフローに従い再度コマンド処理動作が行われる。または演算機４のコマンド制御部１９は、エラーのＤＭＡコマンドをＣＰＵ２に送信した後、ＤＭＡコマンドが格納されたコマンド・実行結果格納領域１０のアドレスにアクセスし、再度ＤＭＡコマンドを実行するようにしてもよい。

【0063】

Ｓ６２でエラー発生回数がエラー回数が閾値以上でなければ、制御部９は該当コマンドのリトライを行う。

【0064】

図７は本発明の実施例におけるソフトエラー発生時のシーケンスの例である。尚、図７では、演算機４にＤＭＡＣ１７が一つだけ存在するか、あるいは複数のＤＭＡＣ１７の中からホストコマンドを処理するＤＭＡＣ１７が既に選択されたものとして説明する。

【0065】

ＣＰＵ２の演算機処理部８からコマンド・実行結果格納領域１０に格納されたＤＭＡコマンドのアドレスを含むコマンド受領通知を受信すると、演算機４のコマンド制御部１９は、当該アドレスに基づき、主記憶メモリ３からそれぞれＤＭＡコマンド（以後図７、図８ではコマンドと表記）、処理対象データを読み出し、ＤＭＡＣ選択部１３に送信する（Ｓ７１）。

【0066】

ＤＭＡＣ１７においてＩＰ選択部１５はＤＭＡコマンド、処理対象データを受信すると、ＩＰ管理テーブル１６を参照してコマンド処理を行う処理回路１８を選択し、選択した処理回路１８へ転送する（Ｓ７２）。この例ではＤＭＡＣ１７のＩＰ＿０が選択されている。ＩＰ＿０でソフトエラーが発生し回路構成が変化すると、対応するエラー検出回路（図示せず）が故障を検出してエラー通知をＩＰ選択部１５へ通知する（Ｓ７３）。ＩＰ選択部１５はエラーが発生した処理回路の番号を含むエラーのＤＭＡコマンド（以後図７、図８ではエラーコマンドと表記）をコマンド制御部１９へ返送する（Ｓ７４）。

【0067】

コマンド制御部１９はエラーのＤＭＡコマンドを受信するとＣＰＵ２に送信して当該ＤＭＡコマンドのリトライ要求を行う。リトライに応じてＣＰＵ２の演算機処理部８から再度コマンド受理通知が送信されると、コマンド制御部１９は主記憶メモリ３から読み出したＤＭＡコマンドおよび処理対象データを再度ＤＭＡＣ１７に送信しＩＰ選択部１５がこれを受信する（Ｓ７５）。

【0068】

ＩＰ選択部１５は、エラーの発生していない処理回路ＩＰ＿ｘを選択して当該コマンドを転送する（Ｓ７６）。ＩＰ＿ｘが正しくコマンドを処理し要求内容のデータ処理が完了したときＤＭＡによりデータ処理結果をデータ格納領域１１へ書き込むと共にＩＰ選択部１５へ正常応答としての処理結果を含むＤＭＡコマンドを返す（Ｓ７７）。ＩＰ選択部１５はコマンド制御部１９へ当該ＤＭＡコマンドを返送する（Ｓ７８）。この間エラーの発生したＩＰ＿０ではＳＥＵ検出、訂正機構２８による巡回訂正周期（Ｓ７９）でコレクタブルなエラーの訂正を行う（Ｓ８０）。ＩＰ選択部１５はＩＰ＿０を巡回訂正周期以上の一定時間選択対象とせず、一定時間経過後に選択対象に加える。

【0069】

図８は本発明の実施例におけるアンコレクタブルエラー発生時の処理シーケンスの例である。この例では複数のＤＭＡＣを備えるシステムの場合のシーケンスを示すがＤＭＡＣが一つのシステムにも適用可能である。

【0070】

ＣＰＵ２の演算機処理部８からコマンド・実行結果格納領域１０に格納されたＤＭＡコマンドのアドレスを含むコマンド受領通知を受信すると（Ｓ８２）、演算機４のコマンド制御部１９は、当該アドレスに基づき、主記憶メモリ３からそれぞれＤＭＡコマンド、処理対象データを読み出し、ＤＭＡＣ選択部１３に送信する（Ｓ８３）。ＤＭＡＣ選択部１３はＤＭＡＣ管理テーブル１４を参照してコマンド処理を行うＤＭＡＣ１７としてＤＭＡＣ＿０を選択しＤＭＡコマンド、処理対象データを送信する（Ｓ８４）。

【0071】

ＤＭＡＣ＿０においてＤＭＡコマンド、処理対象データを受信したＩＰ選択部１５が処理回路ＩＰ＿０を選択してコマンド処理を実行し、ソフトエラーに基づく故障検出の通知を受けてエラーコマンドを送信する一連の動作（（Ｓ８５）－（Ｓ８８））は図７と同様のため詳細な説明は省略するが、ＩＰ選択部１５が送信するエラーのＤＭＡコマンドにはエラーが発生した処理回路ＩＰ＿０の番号の他、選択されたＤＭＡＣ＿０の番号が含まれる。

【0072】

コマンドリトライ要求に基づきコマンド制御部１９がＣＰＵ２の演算機処理部８から再度コマンド受理通知を受信すると（Ｓ９２）、主記憶メモリ３からＤＭＡコマンドおよび処理対象データを読み出して演算機４のＤＭＡＣ選択部１３に再度送信する（Ｓ９３）。ＤＭＡＣ選択部１３が再度ＤＭＡＣ＿０を選択した場合ＩＰ選択部１５にＤＭＡコマンド、処理対象データが送信される（Ｓ９４）。処理回路ＩＰ＿０はエラー訂正が実施されていれば選択対象として認識されるため、ＩＰ選択部１５が再度処理回路ＩＰ＿０を選択した場合、コマンド処理が実行される（Ｓ９５）。

【0073】

処理回路ＩＰ＿０のエラー訂正が失敗していた場合、すなわちアンコレクタブルなエラーであった場合には、再度ＩＰ選択部１５、ＤＭＡＣ選択部１３経由でエラーのＤＭＡコマンドが返送される（（Ｓ９６）－（Ｓ９８））。

【0074】

エラーのＤＭＡコマンドを受信するとＣＰＵ２の制御部９はＩＰエラー回数管理テーブル１２におけるＤＭＡＣ＿０および処理回路ＩＰ＿０に対応するエラー発生回数１１３欄の処理回路ＩＰ＿０の発生回数値をインクリメントすると共に、発生回数を対応するエラー回数閾値１１５と比較する。発生回数が閾値以上である場合には、ＤＭＡＣ＿０のＤＭＡＣ内設定レジスタ８１に格納されたＩＰ管理テーブル１６の処理回路ＩＰ＿０のアービタ参加不可欄１３４を１（ＯＮ）に設定すると共に、コマンド受信可能欄１３５をＮｏに設定する（Ｓ１０１）。以後ＩＰ選択部１５は処理回路ＩＰ＿０をコマンド受信不可と認識し選択対象とはしない。

【0075】

以上説明したシーケンス例によれば、訂正処理では修復不可能なソフトエラーが生じた処理回路ＩＰ＿０に対し、規定回数エラーコマンドが発生した場合には恒久的に選択対象から除外されるため、他のコマンド受信可能な処理回路によってコマンド処理が継続され、処理回路ＩＰ＿０が選択されることによるコマンドリトライの無限ループを防止できる。

【0076】

ＤＭＡＣ内設定レジスタ８１を用いて処理回路１８のアービタ参加を制御することにより、アービタ参加条件はソフトエラー処理を行うシステムのニーズに適合した条件にＩＰエラー回数管理テーブル１２に登録した情報を用いて決めることがより容易になる。

【0077】

１回のエラー訂正失敗で必ずしも閉塞する必要はないが、エラー訂正失敗が予め定めた回数に達したときに閉塞すれば良い。さらに、一度閉塞した処理回路１８も再度動作させるため、予め定められた期間で再度使用することが可能となる。処理回路１８を閉塞する条件、再度使用する条件は適用するシステムに応じて適宜調整することができる。

【0078】

上述した実施例によれば、ＦＰＧＡの演算機４に１又は複数のＤＭＡＣ１７が含まれ、各ＤＭＡＣ１７にはホスト１５０からのコマンドを処理する複数の処理回路１８と、当該コマンドを受信するとコマンドを実行可能な処理回路１８を選択するＩＰ選択部１５とが含まれる。コマンドを実行処理中の処理回路１８にソフトエラーが発生し回路構成が変更されると、当該処理回路１８のエラーがＩＰ選択部１５に通知され、ＩＰ選択部１５は当該通知を受けて当該処理回路１８を選択対象から除外し、他の実行可能な処理回路１８を選択できる。このため、コマンド実行中の処理回路でソフトエラーが発生しても、他の実行可能な処理回路においてコマンド実行を継続でき、ソフトエラー発生に伴うＦＰＧＡの誤作動の影響を低減することができる。

【0079】

各処理回路１８は通常動作する処理系として並列処理でコマンドを実行可能なため、インアクティブな予備系の回路を備えた場合と比較してＦＰＧＡの回路リソースの使用効率が高まる。またＤＭＡＣ１７に処理回路がＮ個搭載されている場合、Ｎ－１個の処理回路にエラーが発生するまでシステムダウンを回避できる。

【0080】

また、エラーが発生した処理回路１８に対し、ＳＥＵ検出、訂正機構２８が巡回訂正周期においてエラー訂正処理を行い、回路構成の修復を実施する。当該処理回路１８は周期経過後に再度ＩＰ選択部１５から選択可能に設定されることで、処理回路１８の冗長性が早急にリカバリーされ、ソフトエラー発生に伴うＦＰＧＡの誤作動の影響をより一層低減できる。

【0081】

またＣＰＵ２の制御部１９は、エラーを発生した処理回路１８からのエラーコマンドを受信することで各処理回路１８におけるエラー発生回数をカウントして監視し、規定回数以上のエラー発生を検知した処理回路を閉塞したものとし同じＤＭＡＣ１７におけるＩＰ選択部１５から選択されないように設定する。このため、エラー訂正では修復不可能なアンコレクタブルエラーの発生した処理回路に対し、当該処理回路がエラー訂正実施後に選択可能に設定されることに起因するコマンドリトライの無限ループを回避でき、アンコレクタブルエラー発生時の可用性を向上できる。

【符号の説明】

【0082】

１データ処理システム、２ＣＰＵ、３主記憶メモリ、４演算機（ＦＰＧＡ）、５ホストＩＦ、７ホストコマンド処理部、８演算機処理部、９処理要求受付部、１０コマンド・実行結果格納領域、１１データ格納領域、１２ＩＰエラー回数管理テーブル、１３ＤＭＡＣ選択部、１４ＤＭＡＣ管理テーブル、１５ＩＰ選択部、１６ＩＰ管理テーブル、１７ＤＭＡＣ、１８処理回路、１９コマンド制御部

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11】

IP Force 特許公報掲載プロジェクト 2022.1.31 β版