特許第5838103号(P5838103)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特許5838103電子装置、ソフトエラー耐性評価システム及び評価方法
<>
  • 特許5838103-電子装置、ソフトエラー耐性評価システム及び評価方法 図000002
  • 特許5838103-電子装置、ソフトエラー耐性評価システム及び評価方法 図000003
  • 特許5838103-電子装置、ソフトエラー耐性評価システム及び評価方法 図000004
  • 特許5838103-電子装置、ソフトエラー耐性評価システム及び評価方法 図000005
  • 特許5838103-電子装置、ソフトエラー耐性評価システム及び評価方法 図000006
  • 特許5838103-電子装置、ソフトエラー耐性評価システム及び評価方法 図000007
  • 特許5838103-電子装置、ソフトエラー耐性評価システム及び評価方法 図000008
  • 特許5838103-電子装置、ソフトエラー耐性評価システム及び評価方法 図000009
  • 特許5838103-電子装置、ソフトエラー耐性評価システム及び評価方法 図000010
  • 特許5838103-電子装置、ソフトエラー耐性評価システム及び評価方法 図000011
  • 特許5838103-電子装置、ソフトエラー耐性評価システム及び評価方法 図000012
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5838103
(24)【登録日】2015年11月13日
(45)【発行日】2015年12月24日
(54)【発明の名称】電子装置、ソフトエラー耐性評価システム及び評価方法
(51)【国際特許分類】
   G06F 11/14 20060101AFI20151203BHJP
   G06F 11/22 20060101ALI20151203BHJP
   G06F 11/16 20060101ALI20151203BHJP
【FI】
   G06F11/14 310L
   G06F11/22 310Z
   G06F11/22 320C
   G06F11/16 310E
   G06F11/22 330C
【請求項の数】4
【全頁数】18
(21)【出願番号】特願2012-32308(P2012-32308)
(22)【出願日】2012年2月17日
(65)【公開番号】特開2013-168092(P2013-168092A)
(43)【公開日】2013年8月29日
【審査請求日】2014年5月23日
(73)【特許権者】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】100100310
【弁理士】
【氏名又は名称】井上 学
(74)【代理人】
【識別番号】100098660
【弁理士】
【氏名又は名称】戸田 裕二
(74)【代理人】
【識別番号】100091720
【弁理士】
【氏名又は名称】岩崎 重美
(72)【発明者】
【氏名】新保 健一
(72)【発明者】
【氏名】鳥羽 忠信
【審査官】 井上 宏一
(56)【参考文献】
【文献】 特開2008− 27426(JP,A)
【文献】 特開2002−328153(JP,A)
【文献】 特開昭63−197251(JP,A)
【文献】 特開2010−161731(JP,A)
【文献】 特開2009− 70224(JP,A)
【文献】 特開平5− 53618(JP,A)
【文献】 特開平8−287030(JP,A)
【文献】 特開2004−125633(JP,A)
【文献】 米国特許出願公開第2008/0022152(US,A1)
【文献】 米国特許出願公開第2002/0140431(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 11/14
G06F 11/16
G06F 11/22−11/277
(57)【特許請求の範囲】
【請求項1】
放射線ビームを照射する照射システムと、
エラーを検出するエラー検出手段を備えた情報制御ユニットと、
前記情報制御ユニットのエラー情報を基に、エラーが生じた情報制御ユニットの再起動開始信号を送信する再起動制御部を有するユニット制御部と、
前記ユニット制御部からの再起動開始信号を検知し、再起動開始信号を検知した際に前記照射システムにビーム停止信号を送信する信号送信部と、を有する電子装置と、を備え、
前記情報制御ユニットにエラーが生じた際は、前記再起動開始信号により該情報制御ユニットが再起動されるとともに、前記信号送信部によって前記照射システムにビーム停止信号が送信され、前記照射システムの照射が停止されることを特徴とするソフトエラー耐性評価システム。
【請求項2】
前記再起動制御部は、再起動完了監視部を有し、
前記ビーム停止信号は、前記再起動開始信号のエッジを検出して出力が開始され、前記再起動完了監視部からの再起動完了信号のエッジを検出して出力を停止することを特徴とする請求項1記載のソフトエラー耐性評価システム。
【請求項3】
前記信号送信部は、時間計測手段を備え、
前記時間計測手段は、前記再起動制御部からの再起動開始信号を検知した際に、設定された時間情報分の時間を計測することを特徴とする請求項1及び2のいずれか1項に記載のソフトエラー耐性評価システム。
【請求項4】
前記再起動制御部は、前記情報制御ユニットへの再起動開始信号の送信を遅延させる遅延手段を有することを特徴とする請求項1に記載のソフトエラー耐性評価システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電子装置、ソフトエラー耐性評価システム及び評価方法に関する。
【背景技術】
【0002】
半導体デバイスの微細化および高集積化に伴い、環境放射線ソフトエラーの問題が拡大している。環境放射線ソフトエラーとは、自然界に存在するアルファ線や中性子線といった放射線によって、ロジックやメモリが保持しているデータが反転してしまう現象である。ソフトエラーは一過性の不良であり、ハードウェアが永久的に故障するハードエラーとは区別される。従来のソフトエラーはメモリデバイスにおける1ビット反転が主な現象であったが、近年では一度に複数ビットが反転する現象やフリップフロップなどのロジック回路における保持データ反転といった現象が顕在化してきている。
【0003】
また、ミッションクリティカルなシステムで稼動する電子装置においても上記の環境放射線ソフトエラーに起因する間欠的なシステム障害の増加が懸念されており、電子装置のソフトエラー耐性、すなわちソフトエラー率(SER:Soft Error Rate)はシステムの信頼性を示す重要な指標になりつつある。
【0004】
ソフトエラー率を評価する方法には主にフィールド試験と、加速器による加速試験の二つが挙げられる。フィールド試験とは、一般的な設置環境で複数個および複数種類の評価対象を長時間稼動させて、実際のソフトエラー発生率を評価する方法である。一方、加速器による加速試験とは、粒子加速器を利用し、人工的に生成した多量の放射線を評価対象に強制照射することでソフトエラー率を短時間で評価する方法である。
【0005】
上記ソフトエラー耐性評価に関する文献として、特開2004−125633号公報(
特許文献1)がある。この公報には、「半導体デバイスの実使用環境に設置し動作させることによってソフトエラー率を求める第一の工程と、異なるエネルギーを有する中性子ビームを各々前記半導体デバイスに照射することによって各々のエネルギーに対応する前記半導体デバイスのソフトエラーの断面積を求める第二の工程と、前記半導体デバイスの構造並びに動作情報と前記実使用環境における宇宙線中性子のスペクトルから前記半導体デバイスのソフトエラー率を計算する工程と前記異なるエネルギーを有する中性子ビームのスペクトルとから前記半導体デバイスのソフトエラーの断面積を計算する工程からなる第三の工程と、前記第一の工程により求められた前記半導体デバイスのソフトエラー率と前記第三の工程により計算された前記半導体デバイスのソフトエラー率とを比較する第四の工程と、前記第二の工程により求められた前記半導体デバイスのソフトエラーの断面積と前記第三の工程により計算された前記半導体デバイスのソフトエラーの断面積とを比較する第五の工程と、前記第四の工程と前記第五の工程により第三の工程における計算方法及び結果の精度を確認する第六の工程と、前記第六の工程により精度を確認された第三の工程における計算方法により任意の半導体デバイスの構造並びに動作情報と任意の使用環境における宇宙線中性子のスペクトルから前記任意の半導体デバイスの前記任意の使用環境における宇宙線中性子起因のソフトエラー率を計算する第七の工程からなることを特徴とする半導体デバイスの宇宙線中性子起因のソフトエラー耐性評価方法。」と記載されている。
【0006】
また、近年ではエラーに対する高信頼性装置に関する文献として、特開平8−287030号公報(特許文献2)がある。この公報には、「多重系計算機システムにおいて、システムダウンが発生したとき、停止したCPUを自動的に再起動し、システムの稼働率を上げ、信頼性を向上させる。」と記載されている。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2004−125633号公報
【特許文献2】特開平8−287030号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
ここで、フィールド試験によれば自然界に存在する環境放射線を利用するため、評価対象が持っている真のソフトエラー率を求めることができる。しかし、信頼度に足りるデータ数(エラー数)を収集するためには大量の評価サンプルと、年単位の試験時間が必要となる。一方、加速試験では、照射する環境放射線の特性(エネルギー分布など)を完全には再現できないため、真のソフトエラー率は得られないが、数時間でおおよそのソフトエラー率を推定することができる。
【0009】
現在でもサンプルを多量に用意できるメモリ系のデバイスでは長期に亘るフィールド試験が行われているが、あらゆる製品でフィールド試験をするのは困難であり、ソフトエラー耐性評価としては加速器による加速試験が一般的である。
【0010】
評価対象が、電子装置であるとき、従来のソフトエラー耐性評価では、中性子ビーム105aを照射し続け、システムエラーが発生した場合、手動で中性子ビーム105aを停止し、装置を再起動する方法で計測していた。
【0011】
また、装置レベルでのソフトエラー耐性評価が要求される一方で、特にミッションクリティカルな高信頼性装置では、冗長化構成を採用した装置が増えている。また、FPGAなどのプログラミングデバイスにおいても、中性子ソフトエラー起因の障害を少なくするため、実装する論理部を冗長化構成にする例が増えてきている。
【0012】
冗長化構成の一例としては2重系ホットスタンバイ構成が挙げられる。2重系ホットスタンバイ構成は、装置を2重化し、実行系と待機系として両装置が互いに同期制御を行いながら同一の動作を行う。通常は実行系で稼動しているが、実行系に異常が検出されると直ちに待機系の装置へ系切り替えを行い、エラーが検出された側の装置は再起動などで正常復帰させて再び待機系として稼動させることで、システムとしての正常動作を維持し、装置の信頼性を高めている。
【0013】
また、FPGAなどのプログラマブルデバイスにおける冗長化構成の一例としては、論理部をTMR(三重化多数決)化し、さらに部分再構成技術を組み合わせた高信頼化手法が挙げられる。本構成によれば、3重化している論理部のひとつがエラーになった場合も、多数決出力によって誤った出力はマスクされ、また、エラーとなった論理部についても部分再構成によって正常回路をプログラミングし直すことで高い信頼性を実現できる。
【0014】
しかし、上記のような冗長化構成で、かつ、動作中に再起動や再構成が行われる装置については、従来の加速試験による評価方法では正しくソフトエラー率を測定できない問題がある。
ソフトエラーの加速試験では、中性子ビームの強制照射によってソフトエラーが発生するまでの時間を短縮しているが、再起動や再コンフィギュレーションなどの復帰処理はハードウェアに依存する一定の時間が必要なため、上記ホットスタンバイ構成では、系切り替えし、待機系となったユニットの正常復帰が完了する前に、実行系でエラーが発生してしまう場合や、再起動処理中のユニットが再度エラーになるなどの多重エラー現象が発生する可能性が高くなってしまい、ソフトエラー率を正しく評価できない。
【0015】
また、従来の電子装置単体の評価方法では、システムエラーの度に手動で中性子ビームを停止し、装置の正常復帰を行っていたが、冗長化構成装置では内部の再起動や再コンフィギュレーションがいつ実行されたかが分からないため、正常復帰に合わせてビームを停止することができないという問題があった。
【0016】
そこで本発明は、ソフトエラー耐性評価における信頼性を向上することができる電子装置、評価システム及び評価方法を提供することを目的とするものである。
【課題を解決するための手段】
【0017】
上記課題を解決するために、特許請求の範囲に記載の構成をとるものである。その一例として、例えば、電子装置であって、エラーを検出するエラー検出手段を備えた情報制御ユニットと、前記情報制御ユニットのエラー情報を基に、エラーが生じた情報制御ユニットのリブート開始信号を送信するリブート制御部を有するユニット制御部と、前記ユニット制御部からのリブート開始信号を検知し、リブート開始信号を検知した際に外部に信号を送信する信号送信部と、を有し、前記情報制御ユニットにエラーが生じた際は、前記リブート開始信号により該情報制御ユニットがリブートされるとともに、前記信号送信部によって外部に信号が送信されることを特徴とする。
【発明の効果】
【0018】
本発明によれば電子装置のソフトエラー耐性評価の信頼性を向上することができる。
【図面の簡単な説明】
【0019】
図1】本発明の実施の形態1である、2重系ホットスタンバイ構成装置を評価する場合のソフトエラー耐性評価システムの構成例を示した図である。
図2】本発明の実施の形態1における情報制御ユニットの構成例を示した図である。
図3】本発明の実施の形態1における冗長ユニット制御部の構成例を示した図である。
図4】本発明の実施の形態1におけるビーム停止信号生成部の構成例を示した図である。
図5】本発明の実施の形態1におけるソフトエラー耐性評価方法の流れの例を示したフローチャートである。
図6】本発明の実施の形態3におけるビーム停止信号生成部の構成例を示した図である。
図7】本発明の実施の形態2であるTMR回路構成のFPGAを評価対象としたソフトエラー耐性評価システムの構成例を示した図である。
図8】本発明の実施の形態2におけるビーム停止信号生成部の構成例を示した図である。
図9】本発明の実施の形態2におけるソフトエラー耐性評価方法の流れの例を示したフローチャートである。
図10】電子装置を評価するときの、従来のソフトエラー耐性評価システム(ソフトエラー加速試験)の構成例を示す。
図11】電子装置を評価するときの、従来のソフトエラー耐性評価方法(ソフトエラー加速試験)の流れの例を示したフローチャートである。
【発明を実施するための形態】
【0020】
まずはじめに、加速器を用いたソフトエラー耐性評価システムについて図10図11を用いて説明する。
一般的なソフトエラー加速試験での評価対象は主にSRAMやDRAMなどのメモリ系のデバイスが多く、その評価方法は、中性子を照射し続け、照射した中性子線量(フルエンス)とビット反転数(エラー数)からソフトエラー率を求める方法であり、近年はデバイス単体の評価だけではなく、システムとして組み上げられた電子装置全体のソフトエラー耐性評価が行われている。
【0021】
図10に、評価対象が情報制御装置などの電子装置であるときの、従来のソフトエラー耐性評価システム(ソフトエラー加速試験)の構成例を示す。また、照射する環境放射線は中性子線とした場合の例を示す。
【0022】
本評価システムでは、電子装置200に、照射系101で生成された中性子ビーム105aを強制的に照射し、電子装置200で発生するシステムエラーを観測(エラー種類および発生数を計測)することで、電子装置200における中性子ソフトエラー率を評価する。
【0023】
また、電子装置200は診断部201を内蔵しており、ハードウェアの故障や一時的な動作異常を検出することができる。電子装置200は、制御端末201のGUI画面を介して操作することができる。制御端末201からは電子装置200のステータスやシステムエラーなどの情報を回収することができる。
【0024】
図10における照射系101は、中性子線ビームを生成するシステムであり、加速器102と、ビーム停止機構103と、検出器104と、ターゲット105と、図示しないコリメータで、構成される。
【0025】
照射系101における加速器102は、図示していないが外部の発生源から入力された陽子を加速し、陽子ビーム102aを生成する。加速された陽子ビーム102aはターゲット105へ照射する。タングステンや鉛、リチウムなどで形成されたターゲット105に陽子が衝突すると、原子核のスパレーション(破砕)反応によって中性子ビーム105aが生成される。
【0026】
中性子ビーム105aは、評価対象である電子装置200に照射される。図示していないがコリメータと呼ばれる遮蔽物によって中性子線の照射形状を成形することで、部分的な照射も可能である。
【0027】
また、陽子ビームライン上に配置されたビーム停止機構103は中性子ビームの出力を停止させるための機構である。本図では、制御端末107からのビーム停止信号107aに従って、陽子ビーム102aを遮断することで中性子ビーム105aの出力を停止する。
【0028】
本例では、ビーム停止信号107aのレベルがハイ(H)レベルの時に、陽子ビーム102aが遮断され、中性子ビーム105aの出力が停止されるものとする。また、ビーム停止機構103のさらに下流に配置された検出器104によって、中性子ビーム105aの照射フラックス量(フルエンス)を測定する。本図の検出器102は、ターゲット105に照射した陽子数を計測することで、ターゲット105と陽子の核反応後に出力される中性子ビーム105aのフルエンスを推定する。
【0029】
図11に、評価対象が電子装置であるときの、従来のソフトエラー耐性評価の流れの例を示す。
フロー上に図示していないが、まず、照射系101からの中性子ビーム105aは停止した状態で、評価対象である電子装置を起動させる(S300)。
【0030】
次に、装置の初期設定を行い、動作を開始させる(S301)。
ここで、動作というのは、実使用時と同じ負荷をかける動作が望ましいが、出荷検証用のテストプログラムや、一般的なベンチマークプログラムを実行した状態でも構わない。電子装置200が正常に稼働したら、次に、制御端末107からビーム停止信号107aを解除し、中性子ビーム105aの照射を開始する(S302)。
【0031】
中性子ビーム105aの照射を開始したら、電子装置でシステムエラーなどの障害が発生するまで制御端末201から監視を続ける(S303)。
ここで、電子装置200にシステムエラーが発生した場合、中性子ビーム105aをすぐに停止する(S304)。
【0032】
次に、電子装置200からはその時のシステムのステータスを含め、エラーに関連する情報を全て回収する(S305)。
エラー情報を回収したら、次に電子装置200をリブートする(S306)。
【0033】
なお、本発明におけるリブートとは、再起動や再構成等を含み、エラーを回復し正常復帰する動作をさすものであり、以下の実施例でも同様の意味をもつものである。
【0034】
次に、再計測を判断し、再計測するのであれば、S301へ戻って計測を継続する。一般的にはこのルーチンを数回〜数十回繰り返し、エラー情報を取得する。再計測をしない場合は、そのまま本加速試験を終了とする(S307)。
【実施例1】
【0035】
以下、本発明の実施例1について図1〜5を用いて説明する。なお、実施例を説明するための全図において、同一部には原則として同一符号を付し、その繰り返しの説明は省略する。
【0036】
本発明の実施例1においては、評価対象とする冗長化構成の電子装置の例として、2重系ホットスタンバイ構成の装置を対象とし、この装置のソフトエラー耐性評価の信頼性を向上することを可能とするソフトエラー耐性評価における電子装置、評価システム及び評価方法の例について説明する。
【0037】
図1は、本発明の実施例1にかかる2重系ホットスタンバイ構成装置を評価対象としたソフトエラー耐性評価システムの構成例を示した図である。
【0038】
本ソフトエラー耐性評価システムは、評価対象である電子装置1と、中性子ビームを生成して評価対象に照射する照射系101で構成され、さらに、電子装置1から出力されるビーム停止信号4aを照射系101のビーム停止機構103に入力することで、電子装置1の動作に同期して中性子ビーム105aを制御できる点を特徴としている。
【0039】
本システムによるソフトエラー評価方法の概要としては、稼動中の電子装置1に中性子ビーム105aを照射し、システムエラーの発生を制御端末6によって観測し、最終的に計数されたエラー回数と、照射系101の検出器104で計測した中性子線量(フルエンス)を基に電子装置1のソフトエラー率を推定することができる。
【0040】
照射系101の構成は、前述した図10の構成と同じであるためここでは説明を省略する。なお、ビーム停止機構103については、ビーム停止信号4a以外に、制御端末106からのビーム停止信号106aによっても中性子ビーム105aを停止することができる。
【0041】
2重系ホットスタンバイ構成の電子装置1は、同一の2台の情報制御ユニット2〜2'
と、冗長ユニット制御部3、ビーム停止信号生成部4によって構成される。初期状態として、ここでは情報制御ユニット2を実行系ユニット、もう一方のユニット2'を待機系ユニットとして動作させているものとする。ホットスタンバイ方式のため、両ユニットは互いに同期制御を行いながら同一の動作を行っているものとする。
【0042】
ここで、情報制御ユニットとは、ルータやサーバのような情報処理機能や、列車やエレベータの監視制御機能を持ったハードウェアシステムを指す。情報制御ユニットの一例として、図2にルータ機能を持ったユニットの構成を示す。ルータ機能とは、二つ以上のネットワークを相互接続し、ネットワーク間で情報パケットのやりとりをする機能である。
【0043】
本ユニットは、主にネットワークプロセッサ21とパケット送受信部22、メモリ23、汎用プロセッサ24で構成される。図示していないがあるネットワークから入力された情報パケット22aは、パケット送受信部22で受信した後、ネットワークプロセッサ21でパケットに付加されたヘッダ情報を解析し、ネットワークの経路情報が格納されたメモリ23を参照しながら再度ヘッダ情報を付加して、パケット送受信部22より次のネットワークへ送出する。
【0044】
汎用プロセッサ24は、ルータ間やネットワークの接続確認や自身の動作状態の診断・監視などを行う。ユニット内部で検出されたエラー情報や、自身のユニットがどちらの系で稼動しているかを示す系情報などは、汎用プロセッサ内部のステータスレジスタ25に格納されるものとする。
【0045】
情報制御ユニット内部のエラー情報には、例えばパケット輻輳によるタイムアウトエラーや、経路情報メモリデータの異常(パリティエラー)、プロセッサのスタックによる制御不能状態などのエラー情報が含まれる。これらのエラーのうち、ハードウェア故障起因のエラー以外は再起動または装置電源の再投入によって正常復帰することができる。
【0046】
冗長ユニット制御部3は、情報制御ユニット2〜2'のエラー情報を常時監視し、エラー発生時はユニットの系切替制御とエラーユニットの再起動制御を行う。図3に冗長ユニット制御部3の構成例を示す。冗長ユニット制御部3はエラー監視部31と、ユニット切替部32、再起動制御部33で構成される。
【0047】
エラー監視部31は、両ユニット内部のステータス情報を常時監視し、エラー情報2a、2a'を取得する。エラー情報を検出した場合、ユニットの切替信号31aをユニット切替部32に出力する。
【0048】
ユニット切替部32は、エラー監視部31からの切替信号31aを基に、ユニット2、2'のどちらが実行系かを示す選択信号2b、2b'を出力し、エラー状態のユニットの再起動を示す再起動信号32aを再起動制御部33に出力する。
【0049】
再起動制御部33は、再起動開始命令部34と、再起動完了監視部35、遅延部36で構成され、エラーユニットの再起動制御を行う。
【0050】
再起動開始命令部34は、ユニット切替部32から受信した再起動信号32aを基にエラー状態のユニットへ再起動開始信号2cまたは2c'を出力する。この時、再起動開始タイミングを調整するための遅延部36を介して出力される。さらに、再起動開始命令部34は、再起動が開始されたことを示す再起動開始信号3aを再起動完了監視部35とビーム停止信号生成部4へ出力する。
【0051】
再起動完了監視部35は、開始信号3aを受信すると両ユニット内部のステータスレジスタ情報の監視を開始し、再起動の完了を監視する。再起動完了が検出されたら、再起動完了信号3bをビーム停止信号生成部4へ出力する。
【0052】
また、再起動完了信号を受信し、両ユニットにエラーが無いことが確認できた場合、実行系と待機系のユニット間で同期動作を開始する。ここで、電子装置1全体の再起動以外に、情報制御ユニット2、2'が同時に再起動されることはないものとする。
【0053】
次に、装置内のビーム停止信号生成部4について説明する。ビーム停止信号生成部4は、エラーユニットの再起動開始タイミングと再起動終了タイミングを基に、再起動期間をパルス幅で表したパルス信号を生成し、その信号をビーム停止信号4aとして照射系101のビーム停止機構103に出力するものである。
【0054】
図4に、ビーム停止信号生成部4の構成の一例を示す(クロックの図示は省略する)。ここでは、再起動開始信号3aおよび再起動完了信号3bの立ち上がりがそのタイミングを示すものとする。パルス生成部41は、2つの立上り検出回路42とスタートストップ回路43で構成される。
【0055】
立上り検出回路42は、それぞれ入力される再起動開始信号3aと、再起動完了信号3bの立上りエッジを検出し、そのHiレベルを保持することができる。スタートストップ回路43は、スタート信号を受信してからストップ信号を受信するまでの間、Hiレベルのパルス信号を生成する。パルス生成までの動作例を図中のタイミングチャートに示す。これによりビーム停止信号生成部4では、再起動に要した時間をパルス幅で表したビーム停止信号4aとして出力する。
【0056】
また、照射系101のビーム停止機構103にはさまざまなタイプがあり、停止信号を受信してから完全にビームを停止するまでの時間(停止時間)が異なる。本実施例でのビーム停止機構103は、電磁石式のビームシャッターを想定しており、陽子ビームに強磁界をかけて陽子ビームをはじき飛ばすことで中性子ビームの出力を停止する。この場合、停止信号を受信してから数マイクロ秒オーダーでビームを停止することができる。
【0057】
しかし、機械式のコンクリートシャッターなどでは、数秒オーダーの時間が必要な場合もある。そのため、上記の冗長ユニット制御部3で生成された再起動開始信号3aのタイミングより、実際に中性子ビームが完全に止まるタイミングが遅れる場合があり、その場合、まだ照射されている間にリブートが開始されるため、先述した多重障害が発生してしまう可能性がある。
【0058】
そこで、図3に示すように情報制御ユニットの再起動開始信号2c、2c'を生成する再起動制御部33の出力には、任意の遅延時間を設定可能な遅延素子36を設ける。もし、ビーム停止機構103の停止時間が、リブート開始タイミングより遅い場合、遅延素子36にはビーム停止機構103の応答時間を考慮した遅延時間を入力することで、完全にビームが停止した状態でリブートを開始することができる。
【0059】
ただし、上記構成においては遅延素子を設けることに限らず、例えば冗長ユニット制御部3の再起動制御部33をビームが完全に停止した後に再起動を開始するように制御して、再起動対象ユニットに再起動開始信号を送信するようにした構成でもよい。
【0060】
図5は、本実施の形態(図1)におけるソフトエラー耐性評価方法の流れの例を示したフローチャートである。
まず、図示していないが、照射系101において中性子ビーム105aの出力条件を設定し、中性子ビーム105aの出力は停止した状態とする。
【0061】
次に、中性子ビームライン下流に評価対象である電子装置1を設置し、電子装置1を起動する(S100)。
次に、必要に応じて初期設定などを行い、電子装置1の動作を開始する(S101)。ここで、動作というのは、実使用時と同様の処理を継続している状態を指す。また、出荷検証用のテストプログラムや、一般的なベンチマークプログラムを用いた動作状態も含まれる。
【0062】
次に、制御端末106にてビーム停止信号106aを解除し、電子装置1への中性子ビーム105aの照射を開始する(S102)。照射中は、制御端末10を介して中性子ビーム105aが照射されている電子装置1の動作状態およびシステムエラー発生の有無を監視する(S103)。
ここで、ビーム照射中に、電子装置内の情報制御ユニット2または2'でエラーを検出した場合、電子装置1はエラーとなったユニットを特定し(S109)、例えばエラーのユニットが実行系の場合、待機系ユニットを実行系ユニットへ系切替を行う(S110)。
【0063】
次に、電子装置1は、特定したエラーユニットの再起動処理を開始する。同時に、再起動開始信号のタイミングで、ビーム停止信号生成部4から出力されるビーム停止信号4aがHiレベルとなり、照射系101のビーム停止機構103では中性子ビームの出力を停止する(S111)。
【0064】
エラーユニットの再起動が完了すると(S112)、電子装置1のビーム停止信号生成部から出力されるビーム停止信号4aがLoレベルとなり、照射系101のビーム停止機構103では中性子ビームの出力を再開し(S113)、ソフトエラーの観測を継続する。
つまり、エラーユニットの再起動が行われる場合、再起動時間をパルス幅で表したビーム停止信号77aに従って、自動で中性子ビームの照射を停止する。
【0065】
次に、照射中に、電子装置1において多重障害など、再起動でも復旧できないシステムエラーが発生した場合(S104)、制御端末106にてビーム停止信号106aを照射系101のビーム停止機構103へ送信し、中性子ビームの出力を停止する(S105)。また、ソフトエラーの観測を一旦中断する。
【0066】
次に、電子装置1からその時のシステムのステータスを含め、エラーに関連する情報を全て回収する(S106)。エラー情報を回収したら、電子装置全体を再起動する(S107)。
【0067】
次に、再度計測を実施するのであれば、S101へ戻ってソフトエラー評価を継続する(S108)。一般的には、このフローを繰り返し、数回〜数十回のエラー情報を取得する。再計測をしない場合は、本ソフトエラー評価を終了とする。
【0068】
なお、本実施例における冗長化構成の電子装置は、本実施例で示した筐体内部の情報制御ユニットが冗長化されている装置の他に、単体ボックス筐体型の装置のように、電子装置自体を複数台相互接続した冗長化構成も含まれる。
【0069】
以上に説明したように、本発明の実施例1であるソフトエラー耐性評価における電子装置、評価システム、および当該システムでソフトエラーを観測する方法によれば、中性子ビームの照射によって電子装置の内部ユニットでエラーが発生し、部分的な再起動処理が発生した場合に、電子装置側からその再起動期間をパルス幅で表したビーム停止信号を出力し、その信号に同期して照射系の中性子ビーム出力を自動停止することで、ソフトエラー加速試験特有の再起動中の多重エラーの発生を抑制し、ソフトエラー耐性評価の信頼性を向上することができる。
【0070】
さらに、装置の優劣やソフトエラー対策の効果を短時間で正しく評価できることで、装置の信頼性向上につながる。また、装置の信頼性が上がることで保守コスト低減も期待できる。また、従来に比べて加速試験中に無駄にする多重エラー時の照射時間を削減できることで試験効率を向上し、つまりは評価コストの削減に貢献することができる。
【実施例2】
【0071】
以下では、FPGA(Field-Programmable Gate Array)において、内部の論理部を3重化多数決(TMR:Triple Modular Redundancy)構成とし、さらに、部分再構成機能によってエラーとなった論理部の自動復旧が可能な高信頼性FPGAについて、そのソフトエラー率を適切に測定することを可能とするソフトエラー耐性評価システムの例について図7〜9を用いて説明する。
【0072】
図7は、本発明の実施例2である高信頼性FPGAを評価対象とした場合のソフトエラー耐性評価システムの構成例を示した図である。
本ソフトエラー耐性評価システムは、評価対象であるFPGA7と、中性子ビームを生成して評価対象に照射する照射系101で構成され、さらに、FPGA7から出力されるビーム停止信号77aを照射系101のビーム停止機構103に入力することで、FPGA内部の部分再構成の動作に同期して中性子ビーム105aを制御できる点を特徴としている。
【0073】
また、本FPGA7で生成されるビーム停止信号77aは、実施例1のように再構成(実施例1では再起動)の完了に従い、当該再構成が完了するまでの間生成するのではなく、事前に再構成に要する時間を設定しておくタイマ方式で生成する点を特徴とする。
ソフトエラー評価方法の概要については実施例1と同じであるためここでは説明を省略する。また、照射系101の構成についても、実施例1の構成と同じであるためここでは説明を省略する。
【0074】
本評価対象のFPGA7は、3重化された同一の論理部71と、多数決判定部74と、部分再構成制御部75と、ビーム停止信号生成部77と、遅延部78と、再構成時間設定レジスタ76によって構成され、論理部71と、多数決判定部74でTMRを構成している。論理部71は3つとも同一の論理回路であり、具体的な処理についてはここでは省略するが、各論理部は入力信号7aに対して同一の処理を行う。各論理部の処理結果71a、71b、71cは多数決判定部74に入力され、多数決の結果が出力信号7bとしてFPGA7の外部に出力される。
【0075】
また、多数決判定部74はエラー検出機能を有する。各論理部からの入力データの多数決をとるが、3つの入力データをそれぞれ比較することで、異常データを出力している論理回路部がどれかを特定できる。多数決判定部74においてエラー状態の論理部が検出された場合、その論理部を特定できる情報を含んだエラー検出信号74aを再構成制御部75へ送信する。
【0076】
再構成制御部75は、多数決判定部74からのエラー検出信号74aを受信すると、まず再構成開始信号75dをビーム停止信号生成部77へ送信する。次に、エラーとなった論理部に対し再構成信号を、遅延部78を介して送信し、エラー状態の論理部のみを部分再構成処理によって自動復旧させる。
【0077】
再構成信号75a〜75cは、先述したように完全にビームが停止してから再構成を開始できるように、遅延部78にはビーム停止機構の停止時間を考慮した遅延時間を設定する。例えば、論理部(1)71の出力がエラーと判定された場合、論理部(1)71に対して再構成信号75aを送信し、再構成を開始する。
【0078】
図8は、本発明の実施例2におけるビーム停止信号生成部77の構成例を示した図である。ビーム停止信号生成部77は、パルス生成部80とタイマ81で構成される。ここでタイマ81は設定された初期値から1クロックサイクル毎にダウンカウントするダウンカウンタとする。
【0079】
タイマ81には、再構成時間設定レジスタ76に設定された時間情報76aが入力されており、この時間情報がカウンタの初期値となる。パルス生成部80は、実施例1に示したパルス生成部41と同じ動作をする。
【0080】
パルス生成部80は、再構成制御部75からの再構成開始信号75dを受信すると、ビーム停止信号77aの出力はHiレベルとなる。同時に再構成開始信号75dを受信したタイマ81はダウンカウントを開始し、カウンタが0になるとカウント終了信号81aがパルス生成部80に入力され、ビーム停止信号77aがLoレベルに戻る。つまり、再構成を開始してからタイマに設定したサイクルだけビーム停止信号を生成する。パルス生成までの動作例を図中のタイミングチャートに示す。
【0081】
また、図7に示すFPGA7の入出力信号7a、7bは、図示していないが別の回路または制御端末70に接続されている。制御端末70からGUIを介して、FPGAのコンフィグレーションの他、内部のメモリや再構成時間設定レジスタ76を含むレジスタへのリード/ライト、中性子ビーム照射中の動作状態の監視や、出力信号7bの期待値判定などを行う。
【0082】
図9は、本実施例2におけるソフトエラー耐性評価方法の流れの例を示したフローチャートである。
まず、フロー上に図示していないが、照射系101において中性子ビーム105aの出力条件を設定し、ビームは停止した状態とする。次に、中性子ビームライン下流に評価対象であるFPGA7を設置し、FPGA7を起動する(S200)。
【0083】
次に、必要に応じてFPGAのプログラミングや初期設定などを行い、FPGA7の動作を開始する(S201)。ここで、動作というのは、実使用時と同様の処理を継続している状態を指す。また、出荷検証用のテストプログラムや、一般的なベンチマークプログラムを用いた動作状態も含まれる。
【0084】
次に、制御端末107にてビーム停止信号107aを解除し、FPGA7への中性子ビーム105aの照射を開始する(S202)。ここで、照射中にFPGA内部の論理部でエラーが検出された場合(S203)、FPGA7は、特定したエラー状態の論理部の部分再構成処理を開始する。同時に、再構成開始のタイミングで、ビーム停止信号生成部77から出力されるビーム停止信号4がHiレベルとなり、照射系101のビーム停止機構103では中性子ビーム105aの出力を停止する(S209)。
【0085】
エラー状態の論理部の再構成が完了したら(S210)、次に、ビーム停止信号生成部77から出力されるビーム停止信号77aがLoレベルとなり、照射系101のビーム停止機構103では中性子ビームの出力を再開し(S211)、ソフトエラーの観測を継続する。つまり、FPGA内部で再構成が行われる場合、再構成時間をパルス幅で表したビーム停止信号77aに従って、自動で中性子ビームの照射を停止する。
【0086】
次に、照射中に、FPGA7のシステムエラーが発生した場合(S204)、制御端末107からビーム停止信号107aを照射系101のビーム停止機構103へ送信し、中性子ビーム105aの出力を停止する(S205)。また、ソフトエラーの観測を一旦中断する。
【0087】
ここでのシステムエラーとは、多数決判定部74からの出力が期待値と異なるようなエラーや、論理部の多重エラーなどを表す。FPGA特有のコンフィギュレーションメモリにおけるソフトエラーによってプログラミングされた回路情報が破壊されることで発生する。この場合、FPGA7の現行ステータスを含め、エラーに関連する情報を全て回収する(S206)。
【0088】
エラー情報を回収したら、FPGA7の全体再構成を実行する(S207)。次に、再度計測を実施するのであれば、S201へ戻って同様にソフトエラー評価を継続する。一般的には、このフローを繰り返し、数回〜数十回のエラー情報を取得する。
再計測をしない場合は、本ソフトエラー評価を終了とする(S208)。
【0089】
ここで、本実施例のビーム停止信号生成部77におけるタイマ81はダウンカウンタの他にアップカウンタで構成してもよい。またタイマに設定する時間情報76aは、複数の時間情報から選択できる構成でも良い。また、再構成時間設定レジスタは1つに限らず複数の時間を設定できる構成でも良い。
【0090】
以上に説明したように、本発明の実施例2に記載のソフトエラー耐性評価における電子装置、評価システム、および当該システムでソフトエラーを観測する方法によれば、中性子ビームを照射することで、TMR構成のFPGAの論理部でエラーが発生し、部分的な再構成処理が発生した場合に、FPGA側からその再構成時間をパルス幅で表したビーム停止信号を出力し、その信号に同期して照射系の中性子ビーム出力を自動停止することで、ソフトエラー加速試験特有の再構成中の多重エラーの発生を抑制し、ソフトエラー耐性評価の信頼性を向上することができる。
【0091】
さらに、装置の優劣やソフトエラー対策の効果を短時間で正しく評価できることで、装置の信頼性向上につながる。また、装置の信頼性が上がることで保守コスト低減も期待できる。また、従来に比べて加速試験中に無駄にする多重エラー時の照射時間を削減できることで試験効率を向上し、つまりは評価コストの削減に貢献することができる。
【実施例3】
【0092】
本発明の実施例3においては、ソフトエラー耐性評価システムにおけるビーム停止信号生成部を高耐性化した例について説明する。
【0093】
ソフトエラー耐性評価システムにおけるビーム停止信号生成部4は、加速された環境放射線の影響によって、評価中に誤ってビーム停止信号を出力するなどの誤作動をしない、つまり、その他の構成要素に比べてソフトエラー耐性が高いことが望ましい。
【0094】
図6に、環境放射線に対する耐性を向上させたビーム停止信号生成部の構成の一例を示す。図6に示すビーム停止信号生成部400はパルス生成部41を3重化多数決(TMR:Triple Modular Redundancy)構成としたもので、3つのパルス生成部41と多数決判定部60で構成する。1つのパルス生成部41で誤作動しても、他の2つのパルス生成部41'〜41''が正常出力であれば多数決判定部60によって誤った出力はマスクされ、正常なビーム停止信号を出力することができる。
【0095】
また、図6では、ビーム停止信号生成部をTMR構成にすることで誤ったビーム停止信号が出力されることを抑制しているが、ビーム停止信号生成部4の機能を、情報制御ユニット2に比べて相対的にソフトエラーの起こりにくい半導体デバイスで構成しても良い。放射線起因のソフトエラーは半導体プロセスの微細化に伴い増加傾向にあるため、例えば、古い製造プロセス(数百ナノメートルオーダー)で製造された半導体デバイスで構成しても良い。また、ビーム停止信号生成部3を、ソフトエラー加速試験の際には中性子ビームが当たらない位置に離して配置できるよう、電子装置から着脱可能な外付けモジュールとして構成しても良い。
【0096】
以上に説明したように、本発明の実施例3に記載のソフトエラー耐性評価における電子装置、評価システム、および当該システムでソフトエラーを観測する方法によれば、ビーム停止信号生成部自身の誤動作を低減することができ、ソフトエラー耐性評価の信頼性を向上することができる。
【0097】
さらに、装置の優劣やソフトエラー対策の効果を短時間で正しく評価できることで、装置の信頼性向上につながる。また、装置の信頼性が上がることで保守コスト低減も期待できる。また、従来に比べて加速試験中に無駄にする多重エラー時の照射時間を削減できることで試験効率を向上し、つまりは評価コストの削減に貢献することができる。
【0098】
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
【0099】
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
【0100】
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
【符号の説明】
【0101】
1,200…電子装置、2…情報制御ユニット、3…冗長ユニット制御部、4,77,400…ビーム停止信号生成部、10,70,106,107,201…制御端末、7…FPGA、21…ネットワークプロセッサ、22…パケット送受信部、23…メモリ、24…汎用プロセッサ、25…ステータスレジスタ、31…エラー監視部、32…ユニット切替部、33…再起動制御部、34…再起動開始命令部、35…再起動完了監視部、36,78…遅延部、41,80…パルス生成部、42…立上り検出回路、43…スタートストップ回路、60,74…多数決判定部、71…論理部、75…再構成制御部、76…再構成時間設定レジスタ、81…タイマ、101…照射系、102…加速器、103…ビーム停止機構、104…検出器、105…ターゲット、202…診断部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11