特開2025-6761 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社富士通エフサスの特許一覧

特開2025-6761情報処理装置、ログ保存方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2025006761

(43)【公開日】2025-01-17

(54)【発明の名称】情報処理装置、ログ保存方法およびプログラム

(51)【国際特許分類】

G06F 11/07 20060101AFI20250109BHJP

【ＦＩ】

G06F11/07 181

G06F11/07 140A

G06F11/07 178

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2023107745

(22)【出願日】2023-06-30

(71)【出願人】

【識別番号】598057291

【氏名又は名称】エフサステクノロジーズ株式会社

(74)【代理人】

【識別番号】110004185

【氏名又は名称】インフォート弁理士法人

(72)【発明者】

【氏名】坂上洋一

(72)【発明者】

【氏名】山口博史

【テーマコード（参考）】

5B042

【Ｆターム（参考）】

5B042JJ36

5B042KK02

5B042KK07

5B042KK20

5B042MA06

5B042MA08

5B042MC40

(57)【要約】

【課題】初期化処理に関するログの保存領域の効率的な使用を可能にする。
【解決手段】ＮＶＲＡＭ６０に格納されているＢＩＯＳ１００は、情報処理装置１を初期化する処理と、初期化におけるエラーの発生を検知する処理と、初期化における情報処理装置１の稼働状況のログを取得する処理とをＣＰＵ１０に行わせる。但し、ログを取得する処理では、エラーの発生が検知された場合には、当該エラーの種別に予め対応付けられているレベルに応じた詳細度でログを取得する。ＢＭＣ５０は、情報処理装置１により取得されたログを保存する。
【選択図】図１

【特許請求の範囲】

【請求項1】

情報処理装置であって、
プロセッサと、
ＢＩＯＳであって、
前記情報処理装置を初期化する処理と、
前記初期化におけるエラーの発生を検知する処理と、
前記初期化における前記情報処理装置の稼働状況のログを取得し、前記エラーの発生が検知された場合には、前記エラーの種別に予め対応付けられているレベルに応じた詳細度で前記ログを取得する処理と、
を前記プロセッサに行わせる前記ＢＩＯＳが格納されている記憶部と、
前記プロセッサにより取得された前記ログを保存する保存部と、
を備えることを特徴とする情報処理装置。

【請求項2】

前記ログを取得する処理では、前記エラーの発生が検知された場合には、前記情報処理装置における前記エラーの発生が検知された位置について、前記レベルに応じた詳細度で前記ログを取得することを特徴とする請求項１に記載の情報処理装置。

【請求項3】

前記エラーの発生が検知された場合に取得される前記ログには、前記情報処理装置における前記エラーの発生が検知された位置を特定する情報が含まれることを特徴とする請求項２に記載の情報処理装置。

【請求項4】

前記ＢＩＯＳは、前記エラーの発生が検知された場合には、前記情報処理装置を初期化する処理を前記プロセッサに再度行わせ、
前記ログを取得する処理では、前記エラーの発生が検知された場合には、前記レベルに応じた詳細度の前記ログを、再度の前記初期化における前記情報処理装置の稼働状況から取得する
ことを特徴とする請求項１から３のうちのいずれか一項に記載の情報処理装置。

【請求項5】

前記プロセッサに接続されるメモリを更に備え、
前記情報処理装置を初期化する処理は、前記メモリを初期化する処理を含み、
前記エラーの発生を検知する処理は、前記メモリでのメモリエラーの発生を検知する処理を含み、
前記ログは、前記メモリの前記初期化における前記メモリの稼働状況のログを含む
ことを特徴とする請求項１から３のうちのいずれか一項に記載の情報処理装置。

【請求項6】

前記エラーの発生を検知する処理において発生が検知される前記メモリエラーについての前記エラーの種別は、誤り訂正不能なエラーを含み、
前記ＢＩＯＳは、前記誤り訂正不能なエラーである前記メモリエラーの発生が検知された前記メモリを縮退する処理を、該メモリについての前記レベルに応じた詳細度での前記ログを取得した後に前記プロセッサに更に行わせる
ことを特徴とする請求項５に記載の情報処理装置。

【請求項7】

前記ＢＩＯＳは、前記メモリの複数で前記メモリエラーの発生が検知された場合であって、且つ、複数の前記メモリのそれぞれで発生が検知された前記メモリエラーについての前記エラーの種別毎の発生数のいずれかが所定の制限数を超えた場合には、前記エラーの種別と前記レベルとの対応付けを、予め定められている対応付けから変更する処理を前記プロセッサに更に行わせることを特徴とする請求項５に記載の情報処理装置。

【請求項8】

情報処理装置を初期化し、
前記初期化におけるエラーの発生を検知し、
前記初期化における前記情報処理装置の稼働状況のログを取得すると共に、前記エラーの発生が検知された場合には、前記エラーの種別に予め対応付けられているレベルに応じた詳細度で前記ログを取得し、
前記ログを保存部に保存させる
処理をプロセッサが行うことを特徴とするログ保存方法。

【請求項9】

情報処理装置を初期化し、
前記初期化におけるエラーの発生を検知し、
前記初期化における前記情報処理装置の稼働状況のログを取得すると共に、前記エラーの発生が検知された場合には、前記エラーの種別に予め対応付けられているレベルに応じた詳細度で前記ログを取得し、
前記ログを保存部に保存させる
処理をプロセッサに行わせることを特徴とするプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、ログ保存方法およびプログラムに関する。

【背景技術】

【0002】

情報処理装置で発生した障害の検知を、ＢＩＯＳ（Basic Input/Output System）の処理によって行う技術が知られている（例えば特許文献１～特許文献２参照）。

【0003】

例えば、コンピュータに取得ステップと縮小ステップとを実行させるための障害情報処理プログラムの技術が知られている。なお、取得ステップは、当該コンピュータのＢＩＯＳによって生成された、自装置に発生した障害に関する第１障害情報を取得するステップである。また、縮小ステップは、第１障害情報のデータ量を縮小することで、管理装置に送信するための障害情報である第２障害情報を生成するステップである。

【0004】

また、ＢＩＯＳプログラムを記憶したメモリと、エラー情報記憶手段と、報知方法記憶手段と、制御手段と、を備えている電子機器の技術が知られている。なお、エラー情報記憶手段は、ＢＩＯＳプログラムによる起動処理にて検知され得るエラーの種別に当該エラーの重度を対応付けて記憶した手段である。また、報知方法記憶手段は、当該記重度に対応付けてエラーの報知方法を記憶した手段である。そして、制御手段は、システム起動時においてＢＩＯＳプログラムを実行し、エラーを検知したならばエラー情報記憶手段から当該エラーの重度を特定し、特定した重度に対応付けて報知方法記憶手段に記憶された報知方法にて当該エラーを報知する手段である。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２０１８－１６０００９号公報

【特許文献2】特開２０１０－２３１３８１号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

情報処理装置におけるＢＩＯＳによる初期化処理において出力される当該初期化処理の処理状況についてのログの保存を、情報処理装置が備えているＢＭＣ（Baseboard Management Controller）で行う場合には、当該ログの出力量を減らす必要がある。このようなログのために使用可能なＢＭＣのデータ保存領域は少量であるためである。

【0007】

しかしながら、当該ログの出力量を単純に減らしてしまうと、初期化処理において発生した障害の原因を突き止めるために必要な情報のログが保存されていない等といった事態が生じ得る。

【0008】

１つの側面において、本発明は、初期化処理に関するログの保存領域の効率的な使用を可能にすることを目的とする。

【課題を解決するための手段】

【0009】

１つの案では、情報処理装置が、プロセッサと、ＢＩＯＳが格納されている記憶部と、保存部とを備える。ＢＩＯＳは、情報処理装置を初期化する処理と、初期化におけるエラーの発生を検知する処理と、初期化における情報処理装置の稼働状況のログを取得する処理とをプロセッサに行わせる。但し、ログを取得する処理では、エラーの発生が検知された場合には、当該エラーの種別に予め対応付けられているレベルに応じた詳細度でログを取得する。保存部は、プロセッサにより取得されたログを保存する。

【発明の効果】

【0010】

１つの側面によれば、初期化処理に関するログの保存領域を効率的に使用できる。

【図面の簡単な説明】

【0011】

【図1】情報処理装置のハードウェア構成例を示す図である。

【図2】情報処理装置に格納されている各ソフトウェアの第１の構成例を示した図である。

【図3】情報処理装置に格納されている各ソフトウェアの第２の構成例を示した図である。

【図4】ログレベル情報のデータ構造例を示した図である。

【図5】メモリエラー情報のデータ構造例を示した図である。

【図6】起動時処理の処理内容を示すフローチャートである。

【図7】メモリトレーニング処理の処理内容を示すフローチャートである。

【発明を実施するための形態】

【0012】

以下、図面を参照しながら、実施形態を詳細に説明する。

【0013】

［１：ハードウェア構成例］

【0014】

まず、図１について説明する。図１は、実施形態に係る情報処理装置１のハードウェア構成例を示している。この情報処理装置は、例えばサーバ装置である。

【0015】

情報処理装置１は、プロセッサとしてＣＰＵ１０を備えている。なお、「ＣＰＵ」はCentral Processing Unitの略称である。以下の説明では、ＣＰＵ１０を「ＣＰＵ（０）」と表記することもある。

【0016】

情報処理装置１は、更に、メモリとしてＤＩＭＭ２０を８つ備えている。なお、「ＤＩＭＭ」はDual Inline Memory Moduleの略称である。

【0017】

ＣＰＵ（０）はメモリコントローラ１１を２つ内蔵している。メモリコントローラ１１は、２つのＤＩＭＭ２０を接続するチャネル３０を２つずつ有しており、ＤＩＭＭ２０はメモリコントローラ１１を介してＣＰＵ（０）に接続されている。

【0018】

以下の説明では、ＣＰＵ（０）が内蔵している２つのメモリコントローラ１１を区別する場合には、当該２つのメモリコントローラ１１を、それぞれ、「ＭＣ（０）」及び「ＭＣ（１）」と表記することとする。

【0019】

また、ＭＣ（０）が有している２つのチャネル３０を区別する場合には、当該２つのチャネル３０を、それぞれ、「ＣＨ（００）」及び「ＣＨ（０１）」と表記することとする。そして、ＭＣ（１）が有している２つのチャネル３０を区別する場合には、当該２つのチャネル３０を、それぞれ、「ＣＨ（１０）」及び「ＣＨ（１１）」と表記することとする。

【0020】

更に、情報処理装置１が備えている８つのＤＩＭＭ２０を区別する場合には、ＣＨ（００）に接続されている２つのＤＩＭＭ２０を、それぞれ、「ＤＩＭＭ（０００）」及び「ＤＩＭＭ（００１）」と表記することとする。また、ＣＨ（０１）に接続されている２つのＤＩＭＭ２０を、それぞれ、「ＤＩＭＭ（０１０）」及び「ＤＩＭＭ（０１１）」と表記することとする。そして、ＣＨ（１０）に接続されている２つのＤＩＭＭ２０を、それぞれ、「ＤＩＭＭ（１００）」及び「ＤＩＭＭ（１０１）」と表記することとする。更に、ＣＨ（１１）に接続されている２つのＤＩＭＭ２０を、それぞれ、「ＤＩＭＭ（１１０）」及び「ＤＩＭＭ（１１１）」と表記することとする。

【0021】

情報処理装置１は、更に、ＳＢ４０を備えている。ＳＢ４０はサウスブリッジと称される集積回路であり、ＣＰＵ（０）に接続されている。ＳＢ４０は、情報処理装置１が備えている各種のハードウェアとＣＰＵ（０）との間で行われる各種のデータの授受の管理を行う。

【0022】

情報処理装置１は、更に、ＢＭＣ５０とＮＶＲＡＭ６０とを備えている。

【0023】

ＢＭＣ５０はベースボード管理コントローラと称される集積回路であり、ＳＢ４０に接続されている。ＢＭＣ５０は、情報処理装置１のハードウェアの監視や電源の制御などの機能をＣＰＵ（０）とは独立して提供する。ＢＭＣ５０にはソフトウェアであるＢＭＣ－ＦＷ２００が格納されており、ＢＭＣ５０が備えている不図示のプロセッサがＢＭＣ－ＦＷ２００を実行することによって、当該機能の提供を実現する。なお、「ＦＷ」はFirmwareの略称である。

【0024】

ＮＶＲＡＭ６０は不揮発性ランダムアクセスメモリ（Non-Volatile Random Access Memory）であって、例えばフラッシュメモリである。このＮＶＲＡＭ６０は、ソフトウェアであるＢＩＯＳ１００が格納されている記憶部であり、ＳＢ４０に接続されている。

【0025】

情報処理装置１は上述したハードウェア構成を備えている。なお、図１に示されている構成はあくまでも一例であり、他の構成としてもよい。例えば、情報処理装置１が備えるＣＰＵ１０の個数、ＣＰＵ１０が備えるメモリコントローラ１１の数、メモリコントローラ１１が有するチャネル３０の数、１つのチャネル３０に接続されるＤＩＭＭ２０の数などが図１の構成と異なっていてもよい。

【0026】

［２：ログの取得と保存の手法の第１の例］

【0027】

次に、図１の情報処理装置１の起動時におけるログの取得と保存の手法の第１の例について説明する。

【0028】

初めに図２について説明する。図２は、情報処理装置１に格納されている各ソフトウェアの第１の構成例を示したものである。

【0029】

ＢＩＯＳ１００は、情報処理装置１の電源がオンとされて電力の供給が開始されたときにＣＰＵ（０）によって実行される。ＣＰＵ（０）は、ＢＩＯＳ１００を実行することによって情報処理装置１を初期化する処理を行う。この初期化の処理により、例えば、メモリ初期化部１１０、メモリエラー処理部１２０、及びログ送信部１３０などの各機能がＣＰＵ（０）によって提供される。

【0030】

メモリ初期化部１１０は、ＤＩＭＭ２０の初期化とＤＩＭＭ２０に対するトレーニングとを行う。トレーニングとは、メモリコントローラ１１に設定される、ＤＩＭＭ２０に対するデータの入出力のタイミングや当該データの信号波形などに関する各種のパラメータを調整して、メモリコントローラ１１とＤＩＭＭ２０との間の通信を最適化する作業である。また、メモリ初期化部１１０は、上述した初期化とトレーニングとの実行に関するログの取得も行う。

【0031】

メモリエラー処理部１２０は、ＤＩＭＭ２０で発生したエラーについてのログを取得する。

【0032】

ログ送信部１３０は、情報処理装置１の稼働状況のログ、例えばメモリ初期化部１１０やメモリエラー処理部１２０などの機能の実行時におけるログをＢＭＣ５０へ送信する。ログ送信部１３０は、通信方式として例えばＵＡＲＴ（Universal Asynchronous Receiver/Transmitter）を用いて、当該ログのＢＭＣ５０への送信を行う。

【0033】

ＢＭＣ－ＦＷ２００は、前述したように、ＢＭＣ５０が備えているプロセッサによって実行され、例えばログ受信部２１０などの各機能が提供される。

【0034】

ログ受信部２１０は、ＢＩＯＳ１００を実行するＣＰＵ（０）から送られてくるログを受信し、受信したログを、複数のログデータ２２０として、ＢＭＣ５０が備えている不図示の不揮発性記憶領域で保存する。

【0035】

図２に示されている第１の構成例では、情報処理装置１に格納されている各ソフトウェアによって、以上のような機能が提供される。

【0036】

次に、図１の情報処理装置１の起動時におけるログの取得と保存の手法の第１の例における、ログの取得及び保存の手順について説明する。

【0037】

まず、情報処理装置１の電源がオンとされて電力の供給が開始されると、ＣＰＵ（０）がＢＩＯＳ１００をＮＶＲＡＭ６０から読み出して実行し、情報処理装置１を初期化する処理を開始する。

【0038】

このとき、メモリ初期化部１１０は、ＤＩＭＭ２０の初期化を行うと共に、ＤＩＭＭ２０に対するトレーニングとを行う。このトレーニングはメモリコントローラ１１毎、チャネル３０毎、且つＤＩＭＭ２０毎に行われて、メモリコントローラ１１のそれぞれにおける各種のパラメータが適切な値に調整される。また、メモリ初期化部１１０は、上述した初期化とトレーニングとの実行に関するログの取得を行う。

【0039】

メモリ初期化部１１０によって取得されるログは、ＢＭＣ５０が備えている不揮発性記憶領域で保存される。しかしながら、この不揮発性記憶領域で保存可能なデータ量は少量である。このため、この第１の例では、メモリ初期化部１１０によるログの取得対象を、例えば、トレーニングでの実施項目名や実施項目毎の実施結果などといった情報に限定する。

【0040】

ところで、メモリ初期化部１１０による初期化やトレーニングの実行中に、メモリエラーがＤＩＭＭ２０で発生することがある。メモリエラー処理部１２０は、このメモリエラーの発生を検知した場合には、当該メモリエラーの発生に関するログの取得を行う。

【0041】

図１の情報処理装置１では、メモリコントローラ１１は、ＤＩＭＭ２０の記憶データについてのＥＣＣ（Error Checking and Correction）機能を有しているものとする。すなわち、メモリコントローラ１１は、ＤＩＭＭ２０の記憶データについての誤り（メモリエラー）を検出し、可能な場合には検出した記憶データの誤りを訂正する機能を有しているものとする。

【0042】

メモリエラー処理部１２０は、メモリコントローラ１１の動作を監視することによってＤＩＭＭ２０でのメモリエラーの発生の検知を行う。また、メモリエラー処理部１２０は、メモリエラーの発生が検知された場合に、当該メモリエラーが、誤り訂正可能なエラーと誤り訂正不能なエラーとのどちらかを示す情報をメモリコントローラ１１から取得してログに含める。なお、以下の説明では、誤り訂正可能なエラーを「ＣＥ」（Correctable Error）と表記し、誤り訂正不能なエラーを「ＵＥ」（Uncorrectable Error）と表記する。これらのＣＥやＵＥは、メモリエラーについてのエラーの種別の一例である。

【0043】

なお、ＢＩＯＳ１００を実行中のＣＰＵ（０）は、ＤＩＭＭ２０でのＵＥの発生をメモリコントローラ１１が検知した場合には、当該ＤＩＭＭ２０を縮退させて当該ＤＩＭＭ２０を使用しないようにする処理が行われる。

【0044】

以上のようにしてメモリ初期化部１１０やメモリエラー処理部１２０により取得されたログは、ログ送信部１３０によりＢＭＣ５０へ送信される。ＢＭＣ－ＦＷ２００が実行されているＢＭＣ５０では、送られてきたログをログ受信部２１０が受信し、当該ログを複数のログデータ２２０としてＢＭＣ５０の不揮発性記憶領域に保存する。なお、ＢＭＣ５０の不揮発性記憶領域で保存するログデータ２２０のデータ量にはＢＭＣ－ＦＷ２００によって制限がかけられており、当該制限を超えた場合には、最も古くに保存されたデータの消去（最新のデータの上書き）が行われる。

【0045】

図２に示した第１の例のように構成されている各ソフトウェアが格納されている図１の情報処理装置１では、以上のようにして起動時におけるログの取得と保存とが行われる。このようにしてＢＭＣ５０に保存されているログデータ２２０は、ＤＩＭＭ２０で発生したメモリエラーについての後日に行われる原因の解析や改善策の検討に利用される。

【0046】

［３：ログの取得と保存の手法の第２の例］

【0047】

次に、図１の情報処理装置１の起動時におけるログの取得と保存の手法の第２の例について説明する。

【0048】

前述した第１の例の手法では、メモリ初期化部１１０は、初期化やトレーニングの成否の結果などといった情報に限定したログを取得する。このため、ＢＭＣ５０に保存されているログデータ２２０では、ＤＩＭＭ２０で発生したメモリエラーの原因の解析に有益な情報が不足しているために、当該解析が困難となってしまうことがある。

【0049】

そこで、これより説明する第２の例では、情報処理装置１の初期化の処理においてエラーの発生が検知された場合には、第１の例で説明したような情報に限定されているログの詳細度を高めるようにする。但し、このときのログの詳細度を、当該エラーの種別に予め対応付けられているログレベルに応じた詳細度として、当該エラーの深刻度が低い場合における当該ログが過度に詳細なものにはならないようにして、当該ログの保存領域の効率的な使用を可能にする。

【0050】

［３－１：各ソフトウェアの構成］

【0051】

まず図３について説明する。図３は、情報処理装置１に格納されている各ソフトウェアの第２の構成例を示したものである。

【0052】

図３に示した第２の構成例において、図２に示した第１の構成例に示されている構成要素と同一の名称の構成要素には同一の符号を付している。図３に示したこれらの構成要素によって提供される機能には、図２において同一の符号を付した構成要素によって提供される機能が含まれる。これらの機能についての説明はここでは省略する。

【0053】

図３に示した第２の構成例では、図２に示した第１の構成例に、ログレベル情報７０とメモリエラー情報８０とが追加されている。なお、ログレベル情報７０及びメモリエラー情報８０は、ＮＶＲＡＭ６０（図１参照）で保存されることが示されている。また、ＢＩＯＳ１００は、メモリ初期化部１１０、メモリエラー処理部１２０、及びログ送信部１３０の各機能に加えて、エラー重度判定部１４０、及びログレベル情報管理部１５０の各機能を更に有している。また、メモリ初期化部１１０にログ制御部１１１の機能が追加されており、メモリエラー処理部１２０にエラー情報保存部１２１の機能が追加されている。

【0054】

エラー重度判定部１４０はログレベル情報７０の作成を行う。

【0055】

ここでログレベル情報７０について説明する。図４は、ログレベル情報７０のデータ構造例を示したものである。ログレベル情報７０は、「ＣＰＵ」、「ＭＣ」、「ＣＨ」、及び「ＤＩＭＭ」の各データに「level」のデータが対応付けられた情報である。

【0056】

図４においてテーブルとして示されているログレベル情報７０の各列の情報について説明する。

【0057】

なお、「Ｎｏ．」の列は、ログレベル情報７０の各行を特定するために付した番号である。また、「補足説明」の列は、ログレベル情報７０の各行の状況についての補足説明を記載したものである。これらの「Ｎｏ．」及び「補足説明」のデータは図４において便宜的に付した情報であって、ログレベル情報７０には含まれない情報である。

【0058】

「ＣＰＵ」の列にはＣＰＵ１０を特定する情報が配置される。この列におけるデータ「０」は、ＣＰＵ（０）を特定している。

【0059】

「ＭＣ」の列にはメモリコントローラ１１を特定する情報が配置される。この列におけるデータ「０」及び「１」は、それぞれ、ＭＣ（０）及びＭＣ（１）を特定している。

【0060】

「ＣＨ」の列にはチャネル３０を特定する情報が配置される。この列におけるデータ「００」、「０１」、「１０」、及び「１１」は、それぞれ、ＣＨ（００）、ＣＨ（０１）、ＣＨ（１０）、及びＣＨ（１１）を特定している。

【0061】

「ＤＩＭＭ」の列にはＤＩＭＭ２０を特定する情報が配置される。この列におけるデータ「０００」、「００１」、「０１０」、及び「０１１」は、それぞれ、ＤＩＭＭ（０００）、ＤＩＭＭ（００１）、ＤＩＭＭ（０１０）、及びＤＩＭＭ（０１１）を特定している。また、この列におけるデータ「１００」、「１０１」、「１１０」、及び「１１１」は、それぞれ、ＤＩＭＭ（１００）、ＤＩＭＭ（１０１）、ＤＩＭＭ（１１０）、及びＤＩＭＭ（１１１）を特定している。

【0062】

以上の「ＣＰＵ」、「ＭＣ」、「ＣＨ」、及び「ＤＩＭＭ」の各データによって、情報処理装置１における対象ポイント、すなわち、ＤＩＭＭ２０のメモリ動作についてのログの取得を行う情報処理装置１上の位置が特定される。

【0063】

「level」の列には、「ＣＰＵ」、「ＭＣ」、「ＣＨ」、及び「ＤＩＭＭ」の各データで特定される対象ポイントについてのログを取得するときのログレベルの情報が配置される。ログレベルとは、取得するログの詳細度を示す情報である。

【0064】

本実施形態では、ログレベルとして、「０」から「３」までの４段階のレベルが定義されている。

【0065】

ログレベル「０」はログの取得は行わないことを表している。

【0066】

ログレベル「１」は、前述したログの取得と保存の手法の第１の例で取得されるログと同等の詳細度のログの取得、すなわち、例えば、トレーニングでの実施項目名や実施項目毎の実施結果などといった情報に限定したログの取得を表している。

【0067】

ログレベル「２」は、ログレベル「１」で取得されるログよりも高い詳細度でのログの取得を表している。本実施形態では、ログレベル「２」は、ログレベル「１」で取得されるログに加えて、当該対象ポイントで特定されるＤＩＭＭ２０に対するトレーニングの実行に関するより詳細な情報のログの取得を表している。なお、より詳細な情報とは、例えば、当該トレーニングでの実施項目毎の、実施時の各パラメータ値や当該パラメータ値毎の実施結果などといった情報である。

【0068】

ログレベル「３」は、ログレベル「２」で取得されるログよりも更に高い詳細度でのログの取得を表している。すなわち、ログレベル「３」は、ログレベル「１」及びログレベル「２」で取得されるログに加えて、当該対象ポイントでの更に詳細な情報のログの取得を表している。更に詳細な情報とは、例えば、当該対象ポイントで特定されるＤＩＭＭ２０のＳＰＤのダンプ、当該対象ポイントで特定されるメモリコントローラ１１が備えているレジスタのダンプなどの情報である。なお、「ＳＰＤ」とは、Serial Presence Detectの略称である。

【0069】

図４に例示したログレベル情報７０は以上のようなデータ構造を有している。エラー重度判定部１４０は、メモリエラー情報８０を参照することによって、発生が検知されたエラーの深刻度を判定し、その深刻度に応じたログレベル情報７０の作成を行う。

【0070】

ここでメモリエラー情報８０について説明する。図５は、メモリエラー情報８０のデータ構造例を示したものである。メモリエラー情報８０は、「ＣＰＵ」、「ＭＣ」、「ＣＨ」、及び「ＤＩＭＭ」の各データに、「ＣＥ回数」、「ＵＥ回数」、及び「ＵＥ発生時間」の各データが対応付けられた情報である。

【0071】

図５においてテーブルとして示されているメモリエラー情報８０の各列の情報について説明する。

【0072】

なお、「Ｎｏ．」の列は、メモリエラー情報８０の各行を特定するために付した番号であって、図５において便宜的に付した情報であり、メモリエラー情報８０には含まれない情報である。

【0073】

「ＣＰＵ」、「ＭＣ」、「ＣＨ」、及び「ＤＩＭＭ」の各列には、それぞれ、図４に例示したログレベル情報７０における「ＣＰＵ」、「ＭＣ」、「ＣＨ」、及び「ＤＩＭＭ」の各列と同じデータが配置される。これらの「ＣＰＵ」、「ＭＣ」、「ＣＨ」、及び「ＤＩＭＭ」の各列のデータによって、メモリエラーの発生が検知された対象ポイントが特定される。

【0074】

「ＣＥ回数」は、ＤＩＭＭ２０で検知されたＣＥの発生回数のデータであり、ＣＥの発生が検知された対象ポイントを特定する「ＣＰＵ」、「ＭＣ」、「ＣＨ」、及び「ＤＩＭＭ」の各データに対応づけて「ＣＥ回数」のデータが配置される。

【0075】

「ＵＥ回数」は、ＤＩＭＭ２０で検知されたＵＥの発生回数のデータであり、ＵＥの発生が検知された対象ポイントを特定する「ＣＰＵ」、「ＭＣ」、「ＣＨ」、及び「ＤＩＭＭ」の各データに対応づけて「ＵＥ回数」のデータが配置される。

【0076】

「ＵＥ発生時間」は、ＤＩＭＭ２０で検知されたＵＥが発生した時を示すデータであって、ＵＥの発生が検知された対象ポイントを特定する「ＣＰＵ」、「ＭＣ」、「ＣＨ」、及び「ＤＩＭＭ」の各データに対応付けて「ＵＥ発生時間」のデータが配置される。本実施形態では、この時を示すデータとして、ＣＰＵ（０）に内蔵されているカウンタであって、ＣＰＵ（０）に供給されたクロック数をＣＰＵ（０）の動作開始から計数するカウンタであるＴＳＣ（Time Stamp Counter）の値のデータを用いることとする。

【0077】

図５に例示したメモリエラー情報８０は以上のようなデータ構造を有している。このメモリエラー情報８０はエラー情報保存部１２１によって作成される。

【0078】

メモリエラー処理部１２０は、ＤＩＭＭ２０でのメモリエラーの発生を検知すると、エラー情報保存部１２１を機能させて、メモリエラー情報８０の作成と保存とをエラー情報保存部１２１に行わせる。エラー情報保存部１２１は、メモリコントローラ１１を内蔵するＣＰＵ（０）から得られる情報に基づいて、メモリエラー処理部１２０により発生が検知されたメモリエラーについてのメモリエラー情報８０を作成してＮＶＲＡＭ６０に格納し、保存させる。

【0079】

エラー重度判定部１４０は、ＮＶＲＡＭ６０で保存されているメモリエラー情報８０を参照し、発生が検知されたメモリエラーについての「ＣＥ回数」及び「ＵＥ回数」に基づき、当該メモリエラーについてのログレベルを決定してログレベル情報７０を作成する。

【0080】

ログレベル情報管理部１５０は、エラー重度判定部１４０により作成されたログレベル情報７０をＮＶＲＡＭ６０で保存してＮＶＲＡＭ６０の管理を行う。

【0081】

ログ制御部１１１は、ＮＶＲＡＭ６０で保存されているログレベル情報７０で示されている対象ポイントについてのログを、当該ログレベル情報７０において当該対象ポイントに対応付けられているログレベルに応じた詳細度で取得する。ログ制御部１１１によって取得されたログも、ログ送信部１３０によってＢＭＣ５０に送信される。

【0082】

ＢＭＣ５０では、ＢＩＯＳ１００を実行するＣＰＵ（０）から送られてくるログが受信されて、ＢＭＣ５０が備えている不図示の不揮発性記憶領域において複数のログデータ２２０として保存される点は、前述したログの取得と保存の手法の第１の例と同様である。

【0083】

情報処理装置１の起動時におけるログの取得と保存の手法の第２の例では、以上のようにしてログの取得と保存とが行われる。

【0084】

［３－２：ログレベルの決定の手法］

【0085】

次に、エラー重度判定部１４０によるログレベルの決定の手法の一例について説明する。

【0086】

エラー重度判定部１４０は、ＤＩＭＭ２０のメモリ動作で発生が検知されたメモリエラーがＣＥであった場合には、ＣＥの発生が検知されたＤＩＭＭ２０についての対象ポイントのログレベルを「２」に決定する。また、エラー重度判定部１４０は、ＤＩＭＭ２０のメモリ動作で発生が検知されたメモリエラーが、ＣＥよりもエラーの深刻度が高いＵＥであった場合には、ＵＥの発生が検知されたＤＩＭＭ２０についての対象ポイントのログレベルを「３」に決定する。このように、エラー重度判定部１４０は、ＤＩＭＭ２０のメモリエラーの発生が検知された場合には、発生が検知されたエラーの種別に予め対応付けられているログレベルを、エラーの発生が検知されたＤＩＭＭ２０についての対象ポイントに対して決定する。

【0087】

なお、エラー重度判定部１４０は、メモリエラーの発生が検知されていないＤＩＭＭ２０についての対象ポイントに対してはログレベルを「１」に決定する。

【0088】

但し、情報処理装置１の複数のＤＩＭＭ２０でメモリエラーの発生が検知された場合には、上述の手法に従ったログレベルでのログの取得を行うと、ログの総量が過大となり、ＢＭＣ５０の不揮発性記憶領域で全てのログを保存できなくなることが考えられる。そこで、このような状況を未然に防止するために、エラー重度判定部１４０は、これより説明するルールに従ってログレベルの決定を行うようにする。

【0089】

まず、比較的高い詳細度でのログを取得することになるログレベル「２」及び「３」について、当該レベルをログレベルとしてエラー重度判定部１４０が決定することができる対象ポイントの数（エラーの発生数）を制限する。本実施形態では、ログレベル「３」と決定することができる対象ポイントを、情報処理装置１におけるいずれか１箇所のみに制限し、ログレベル「２」と決定することができる対象ポイントを、情報処理装置１におけるいずれか３箇所までに制限する。

【0090】

ここで、ログレベル「３」若しくはログレベル「２」と決定することができる対象ポイントの数が、上述した制限数を超えた場合には、エラーの種別とレベルとの対応付けの変更を行う。

【0091】

まず、ＣＥが情報処理装置１の複数のＤＩＭＭ２０で検知された場合には、エラー重度判定部１４０は、メモリエラー情報８０の「ＣＥ回数」のデータに基づき、ログレベル「２」と決定する対象ポイントを選択する。本実施形態では、ＣＥの発生が検知された複数のＤＩＭＭ２０のそれぞれについての対象ポイントのうち、ログレベル「２」と決定する対象ポイントを、「ＣＥ回数」の多い順に選択する。この「ＣＥ回数」の多い順の選択の結果、ログレベル「２」と決定する対象ポイントの数が上述した制限数を超えた場合には、制限数を超えた対象ポイントについてログレベル「１」と決定する。

【0092】

また、ＵＥが情報処理装置１の複数のＤＩＭＭ２０で検知された場合には、エラー重度判定部１４０は、メモリエラー情報８０の「ＵＥ発生時間」のデータに基づき、ＵＥが最初に発生したＤＩＭＭ２０についての対象ポイントのみをログレベル「３」と決定する。ここで、エラー重度判定部１４０は、ＵＥの発生が最初ではないＤＩＭＭ２０についての対象ポイントは、ＵＥの発生順にログレベル「２」と決定する対象ポイントを選択する。但し、このＵＥの発生順の選択の結果、ログレベル「２」と決定する対象ポイントの数が上述した制限数を超えた場合には、エラー重度判定部１４０は、制限数を超えた対象ポイントについてはログレベル「１」と決定する。

【0093】

また、ＤＩＭＭ２０でのメモリエラーの発生の検知が特定のメモリコントローラ１１のみに集中している場合には、エラー重度判定部１４０は、エラーの発生が検知されない残余のメモリコントローラ１１についての対象ポイントをログレベル「０」と決定する。つまり、エラーの発生が検知されない残余のメモリコントローラ１１についての対象ポイントは、ログの取得の優先度が低いと判断してログの取得を行わないようにして、ログの総量を削減する。

【0094】

エラー重度判定部１４０は、上述したルールに従ってログレベルを決定し、決定されたログレベルの情報と、メモリ動作においてメモリエラーの発生が検知された対象ポイントの情報とを対応付けることによってログレベル情報７０を作成する。

【0095】

なお、エラー重度判定部１４０が、更なる別のルールに従ってログレベルの決定を行うようにしてもよい。例えば、複数のＤＩＭＭ２０で検知されたメモリエラーが全てＣＥの場合には、エラー重度判定部１４０は、ＣＥが検知されたＤＩＭＭ２０についての対象ポイントのうちメモリエラー情報８０の「ＣＥ回数」が最多のものをログレベル「３」と決定してもよい。なお、当該別のルールは、本実施形態においては採用していない。

【0096】

［３－３：起動時処理］

【0097】

次に、情報処理装置１の起動時にＣＰＵ（０）により行われる起動時処理について説明する。図６は起動時処理の処理内容を示すフローチャートであり、上述したログの取得と保存の手法の第２の例によるログの取得及び保存を情報処理装置１で実現するためのものである。

【0098】

ＢＩＯＳ１００には、図６のフローチャートに示した処理をＣＰＵ（０）に行わせる起動時処理プログラムが含まれている。情報処理装置１の電源がオンとされて電力の供給が開始されると、ＣＰＵ（０）が起動してＢＩＯＳ１００をＮＶＲＡＭ６０から読み出して実行し、情報処理装置１の初期化の処理を開始する。すると、図６の起動時処理が開始される。

【0099】

図６において、Ｓ１０１及びＳ１０２の処理は、エラー重度判定部１４０としての機能を提供する処理である。すなわち、Ｓ１０１において、メモリエラー情報８０とログレベル情報７０とをＮＶＲＡＭ６０から読み出して取得する処理が行われる。そして、続くＳ１０２において、Ｓ１０１の処理により取得したログレベル情報７０を、Ｓ１０１の処理により取得したメモリエラー情報８０により更新すると共に、メモリエラー情報８０を初期化する処理が行われる。

【0100】

ログレベル情報７０の更新では、エラー重度判定部１４０による、メモリエラー情報８０に基づいたログレベル情報７０の作成が前述したようにして行われる。そして、ログレベル情報管理部１５０による、ＮＶＲＡＭ６０で保存されているログレベル情報７０についての、作成されたログレベル情報７０への置き換えが行われる。

【0101】

また、メモリエラー情報８０の初期化では、全ての対象ポイントについて、「ＣＥ回数」、「ＵＥ回数」、及び「ＵＥ発生時間」の各データがいずれも「０」とされる。

【0102】

Ｓ１０２に続いて、Ｓ１０３ではメモリトレーニング処理が行われる。メモリトレーニング処理は、メモリ初期化部１１０として、ＤＩＭＭ２０の初期化とＤＩＭＭ２０に対するトレーニングとを実行し、当該トレーニングに関するログをログレベル情報７０に従った詳細度で取得する処理である。また、メモリトレーニング処理では、メモリエラー処理部１２０として、当該トレーニングが行われているＤＩＭＭ２０を監視してメモリエラーの発生を検知し、当該メモリエラーに関するメモリエラー情報８０を作成する処理も行われる。このメモリトレーニング処理の詳細は後述する。

【0103】

Ｓ１０３に続くＳ１０４からＳ１１０までの各処理は、メモリエラー処理部１２０としての機能を提供する処理である。

【0104】

まず、Ｓ１０４では、Ｓ１０３のメモリトレーニング処理におけるメモリエラー情報８０の更新の有無を調べることによって、メモリエラーの発生が検知されたか否かを判定する処理が行われる。この判定処理において、メモリエラーの発生が検知されたと判定されたとき（判定結果がＹＥＳのとき）にはＳ１０５に処理を進める。一方、この判定処理において、メモリエラーの発生が検知されなかったと判定されたとき（判定結果がＮＯのとき）には、この起動時処理を終了する。

【0105】

Ｓ１０５では、メモリエラー情報８０を参照して、Ｓ１０３のメモリトレーニング処理において発生が検知されたメモリエラーのうちに、ＵＥが含まれていたか否かを判定する処理が行われる。この判定処理において、ＵＥの発生が検知されていたと判定されたとき（判定結果がＹＥＳのとき）にはＳ１０６に処理を進める。一方、この判定処理において、メモリエラーの発生が検知されなかったと判定されたとき（判定結果がＮＯのとき）にはＳ１０８に処理を進める。

【0106】

Ｓ１０６では、ＵＥの発生が検知されていたＤＩＭＭ２０についての対象ポイントにおいて、ログレベル「３」による高い詳細度のログの取得が既に済んでいるか否かを判定する処理が行われる。

【0107】

詳細は後述するが、Ｓ１０３のメモリトレーニング処理では、直近のＳ１０２の処理によるログレベル情報７０の更新後のログレベルでのログの取得が行われ、メモリトレーニング処理にはログレベル情報７０を更新する処理は含まれていない。従って、Ｓ１０６の判定処理は、この処理の時点でのＮＶＲＡＭ６０で保存されているログレベル情報７０を参照し、ＵＥの発生が検知されていたＤＩＭＭ２０についての対象ポイントがログレベル「３」とされているか否かを判定すればよい。

【0108】

このＳ１０６の判定処理において、ＵＥの発生が検知されていたＤＩＭＭ２０についての対象ポイントでログレベル「３」による高い詳細度のログの取得が済んでいると判定されたとき（判定結果がＹＥＳのとき）にはＳ１０７に処理を進める。一方、このＳ１０６の判定処理において、このような高い詳細度のログの取得が行われていないと判定されたとき（判定結果がＮＯのとき）にはＳ１１０に処理を進める。

【0109】

Ｓ１０７では、ＵＥの発生が検知されているＤＩＭＭ２０であって、ログレベル「３」による高い詳細度のログの取得が済んでいる対象ポイントについてのＤＩＭＭ２０を縮退させて使用しないようにする処理が行われ、その後はＳ１１０に処理を進める。

【0110】

Ｓ１０８では、Ｓ１０３のメモリトレーニング処理においてメモリエラーの発生が検知されたＤＩＭＭ２０についての対象ポイントのうちに、詳細ログの取得が行われていないものが残されているか否かを判定する処理が行われる。詳細ログの取得が行われていないものとは、ログレベル「０」であるもの、若しくは、対象ポイント数がログレベル「２」の制限数を超えていない場合のログレベル「１」であるものである。この判定処理において、メモリエラーの発生が検知されたＤＩＭＭ２０についての対象ポイントのうちに、詳細ログの取得が行われていないものが残されていると判定されたとき（判定結果がＹＥＳのとき）にはＳ１０９に処理を進める。一方、この判定処理において、メモリエラーの発生が検知されたＤＩＭＭ２０についての対象ポイントのうちに、詳細ログの取得が行われていないものは残されていないと判定されたとき（判定結果がＮＯのとき）には、この起動時処理を終了する。

【0111】

Ｓ１０９では、装置再起動カウンタのカウント値が、予め定めておいた規定値を超えたか否かを判定する処理が行われる。この判定処理において、カウント値が規定値を超えたと判定されたとき（判定結果がＹＥＳのとき）には、この起動時処理を終了する。一方、この判定処理において、カウント値が未だ規定値を超えてはいないと判定されたとき（判定結果がＮＯのとき）にはＳ１１０に処理を進める。

【0112】

ここで装置再起動カウンタについて説明する。

【0113】

情報処理装置１の再起動の度にＣＥの発生が、異なるＤＩＭＭ２０、あるいは、同一のＤＩＭＭ２０の異なるメモリ領域で検知される場合がある。装置再起動カウンタは、このような場合に生じ得る情報処理装置１の再起動の度重なる繰り返しを解消するためのものであって、情報処理装置１の再起動の回数を計数するカウンタである。なお、装置再起動カウンタのカウント値は、情報処理装置１の初めての起動時にリセットされる。

【0114】

Ｓ１１０では、装置再起動カウンタのカウント値を１つ進めると共に、情報処理装置１を再起動させる処理が行われる。この処理により、ＣＰＵ（０）は、ＢＩＯＳ１００を再度実行して情報処理装置１の初期化の処理を開始し、図６の処理をＳ１０１から再度実行する。但し、この再起動では、ＮＶＲＡＭ６０で保存されているログレベル情報７０及びメモリエラー情報８０の初期化は行わない。従って、図６の処理の再度の実行では、このＳ１１０の処理の時点においてＮＶＲＡＭ６０で保存されているログレベル情報７０及びメモリエラー情報８０が用いられる。

【0115】

以上までの処理が起動時処理である。

【0116】

［３－４：メモリトレーニング処理］

【0117】

次に、上述した図６の起動時処理におけるＳ１０３の処理である、メモリトレーニング処理の詳細について説明する。図７は、メモリトレーニング処理の処理内容を示すフローチャートである。

【0118】

図７の処理は、メモリ初期化部１１０によるＤＩＭＭ２０の初期化処理とＤＩＭＭ２０に対するトレーニングの実行の開始と並行してＣＰＵ（０）により開始される処理である。この図７の処理は、Ｓ２０７の判定処理の結果がＹＥＳとなるまでＳ２０１からＳ２０６までの処理が繰り返し実行される。

【0119】

図７の処理が開始されると、まず、Ｓ２０１では、初期化及びトレーニングが実行されているＤＩＭＭ２０についての対象ポイントでのログを、当該対象ポイントについてのログレベルに従った詳細度で取得してＢＭＣ５０へ出力する処理が行われる。当該対象ポイントについてのログレベルは、ＮＶＲＡＭ６０で保存されているログレベル情報７０で示されている。この処理は、ログ制御部１１１とメモリエラー処理部１２０とによるログの取得の機能を提供する処理である。

【0120】

なお、このＳ２０１処理によりＢＭＣ５０へ出力されるログには、当該対象ポイントの情報処理装置１における位置を特定する情報を含めるようにする。従って、メモリエラーの発生が検知されていた場合には、当該メモリエラーの発生が検知された対象ポイントの位置を特定する情報を含むログが当該対象ポイントについてのログレベルに従った詳細度で取得されてＢＭＣ５０へ出力される。出力されたログは、ログデータ２２０としてＢＭＣ５０で保存される。

【0121】

次に、Ｓ２０２では、初期化及びトレーニングが実行されているＤＩＭＭ２０のメモリ領域でメモリエラーの発生を検知したか否かを判定する処理が行われる。この処理はメモリエラー処理部１２０としての機能を提供する処理である。

【0122】

このＳ２０２の判定処理において、メモリエラーの発生を検知したと判定されたとき（判定結果がＹＥＳのとき）にはＳ２０３に処理を進め、メモリエラーの発生を検知してはいないと判定されたとき（判定結果がＮＯのとき）にはＳ２０７に処理を進める。

【0123】

Ｓ２０３からＳ２０６の処理は、メモリエラー処理部１２０のうちのエラー情報保存部１２１としての機能を提供する処理である。

【0124】

まず、Ｓ２０３では、ＮＶＲＡＭ６０で保存されている、メモリエラーの発生が検知されたＤＩＭＭ２０についての対象ポイントのメモリエラー情報８０を更新する処理が行われる。この処理では、Ｓ２０２の処理により発生を検知したと判定されたメモリエラーがＣＥである場合には、メモリエラー情報８０における当該対象ポイントについての「ＣＥ回数」の値をインクリメントする（１増加させる）処理が行われる。また、Ｓ２０２の処理により発生を検知したと判定されたメモリエラーがＵＥである場合には、メモリエラー情報８０における当該対象ポイントについての「ＵＥ回数」の値をインクリメントする（１増加させる）処理が行われる。

【0125】

次に、Ｓ２０４では、Ｓ２０２の処理により発生を検知したと判定されたメモリエラーがＵＥであるか否かを判定する処理が行われる。この判定処理において、当該メモリエラーがＵＥであると判定されたとき（判定結果がＹＥＳのとき）には、Ｓ２０５に処理を進めて、ＵＥの発生が検知されたＤＩＭＭ２０でのＵＥの発生は１回目（初めて）か否かを判定する処理が行われる。

【0126】

このＳ２０５の判定処理において、ＵＥの発生が検知されたＤＩＭＭ２０でのＵＥの発生は１回目であると判定されたとき（判定結果がＹＥＳのとき）には、Ｓ２０６に処理を進める。そして、Ｓ２０６において、ＮＶＲＡＭ６０で保存されている、ＵＥの発生が検知されたＤＩＭＭ２０についての対象ポイントのメモリエラー情報８０を更新する処理が行われる。この処理では、メモリエラー情報８０における当該対象ポイントについての「ＵＥ発生時間」として、Ｓ２０２の処理により発生を検知したと判定されたＵＥの発生時間の値を代入する処理が行われる。前述したように、この値としては、例えば、初めてのＵＥの発生が検知されたときにおけるＣＰＵ（０）におけるＴＳＣの値が用いられる。

【0127】

上述したＳ２０６の処理を終えたときにはＳ２０７に処理を進める。また、Ｓ２０４及びＳ２０５の判定処理のどちらかでの判定結果がＮＯのときにもＳ２０７に処理を進める。

【0128】

Ｓ２０７では、メモリ初期化部１１０による初期化及びトレーニングが、情報処理装置１が備えている全てのＤＩＭＭ２０の全てのメモリ領域に対して実施されたか否かを判定する処理が行われる。この処理はメモリエラー処理部１２０としての機能を提供する処理である。

【0129】

Ｓ２０７の判定処理において、全てのメモリ領域に対する初期化及びトレーニングの実施が完了したと判定されたとき（判定結果がＹＥＳのとき）には、この図７の処理を終了する。一方、この判定処理において、初期化及びトレーニングが実施されていないメモリ領域が残っていると判定されたとき（判定結果がＮＯのとき）にはＳ２０１へ処理を戻し、上述したＳ２０１以降の各処理が再度行われる。

【0130】

以上までの処理がメモリトレーニング処理である。

【0131】

図１の情報処理装置１の起動時におけるログの取得と保存の手法の第２の例では、図６及び図７に示した処理をＣＰＵ（０）が行うことによって、ログの取得と保存とが行われる。

【0132】

［３－５：実施例］

【0133】

次に、図６及び図７に示した処理に従ってログの取得と保存とを行う具体的な実施例について説明する。

【0134】

この実施例に係る情報処理装置１は図１に示したハードウェア構成を備えており、情報処理装置１に格納されている各ソフトウェアは、図３に示した第２の構成例に従うものとする。

【0135】

また、この実施例では、ＮＶＲＡＭ６０で保存されているログレベル情報７０は、初期状態として、図４に示したテーブルにおけるＮｏ．１からＮｏ．８の全てについてログレベル「１」が設定されているものとする。更に、ＮＶＲＡＭ６０で保存されているメモリエラー情報８０は、初期状態として、図５に示したテーブルにおけるＮｏ．１からＮｏ．８の全てについて、「ＣＥ回数」、「ＵＥ回数」、及び「ＵＥ発生時間」の各データがいずれも「０」とされているものとする。

【0136】

［３－５－１：１回目の起動時処理］

【0137】

情報処理装置１の電源がオンとされて電力の供給が開始されると、ＣＰＵ（０）が起動してＢＩＯＳ１００をＮＶＲＡＭ６０から読み出して実行する。すると、ＣＰＵ（０）が情報処理装置１の初期化の処理を開始して図６の起動時処理（１回目の起動時処理）を開始する。

【0138】

このとき、Ｓ１０１の処理により、メモリエラー情報８０とログレベル情報７０とがＮＶＲＡＭ６０から取得される。なお、このときにＮＶＲＡＭ６０で保存されているメモリエラー情報８０及びログレベル情報７０は、どちらも上述した初期状態のデータである。

【0139】

続くＳ１０２の処理では、メモリエラー情報８０に基づいたログレベル情報７０の更新とメモリエラー情報８０の初期化とが行われる。但し、このときのメモリエラー情報８０は、前述したように初期状態の情報であって、メモリエラーの発生が検知されていない状態の情報であるから、ログレベル情報７０が更新されることはない。つまり、この処理では初期状態のデータがそのまま維持される。また、この処理による初期化後のメモリエラー情報８０も初期状態のデータと同一である。

【0140】

次に、Ｓ１０３のメモリトレーニング処理により、メモリ初期化部１１０によるＤＩＭＭ２０に対する初期化とトレーニングの実行が開始され、並行して図７の処理が開始される。

【0141】

図７の処理が開始されると、まず、Ｓ２０１の処理により、初期化とトレーニングとが実行されているＤＩＭＭ２０についての対象ポイントでのログが、当該対象ポイントのログレベルに応じた詳細度で取得されてＢＭＣ５０へ出力される。このとき、ＮＶＲＡＭ６０で保存されているログレベル情報７０は初期状態のデータが維持されており、全ての対象ポイントについてログレベル「１」に設定されている。従って、このときのＳ２０１の処理では、初期化及びトレーニングが実行されているＤＩＭＭ２０についての対象ポイントにて、前述したようなログレベル「１」の詳細度でのログの取得が行われる。

【0142】

この処理に続くＳ２０２の判定処理により、初期化及びトレーニングが実行されているＤＩＭＭ２０のメモリ領域でメモリエラーの発生を検知したか否かが判定される。ここでは、このときにはメモリエラーが発生していないものとする。従って、この判定処理の結果としてＳ２０７に処理が進む。

【0143】

【0144】

その後、初期化及びトレーニングが実行されているＤＩＭＭ２０においてＣＥが発生したとする。すると、上述した各処理の繰り返しにおけるＳ２０２の判定処理により、メモリエラーの発生が検知されたと判定されて、Ｓ２０３に処理が進む。なお、ＣＥが発生したＤＩＭＭ２０についての対象ポイントは、ＣＰＵ（０）、ＭＣ（０）、ＣＨ（０１）、ＤＩＭＭ（０１１）で特定される対象ポイントであったとする。

【0145】

このとき、Ｓ２０３の処理により、ＮＶＲＡＭ６０で保存されている、メモリエラーの発生が検知されたＤＩＭＭ２０についての対象ポイントのメモリエラー情報８０が更新される。この更新により、図５に示したテーブルにおける、ＣＰＵ（０）、ＭＣ（０）、ＣＨ（０１）、ＤＩＭＭ（０１１）で特定される対象ポイントの行、すなわち、Ｎｏ．４の行における「ＣＥ回数」のデータが、初期状態の値である「０」から「１」へと変更される。

【0146】

その後、Ｓ２０４の判定処理により、Ｓ２０２の処理で発生を検知したと判定されたメモリエラーはＵＥではない（ＣＥである）と判定されて、Ｓ２０７に処理が進む。

【0147】

すると、Ｓ２０７の判定処理により、情報処理装置１が備えている全てのＤＩＭＭ２０の全てのメモリ領域に対して実施されたか否かが判定される。ここでは、このときには初期化及びトレーニングが実施されていないメモリ領域が依然として残されているものとする。従って、この判定処理の結果としてＳ２０１に処理が戻り、その後はＳ２０１、Ｓ２０２、及びＳ２０７の順序で各処理が暫く繰り返される。

【0148】

その後、初期化及びトレーニングが実行されているＤＩＭＭ２０においてＣＥが新たに発生したとする。すると、上述した各処理の繰り返しにおけるＳ２０２の判定処理により、メモリエラーの発生が検知されたと判定されて、Ｓ２０３に処理が進む。なお、この新たなＣＥの発生が検知されたＤＩＭＭ２０についての対象ポイントは、ＣＰＵ（０）、ＭＣ（０）、ＣＨ（０１）、ＤＩＭＭ（０１１）で特定される対象ポイントであったとする。すなわち、新たなＣＥの発生が検知されたＤＩＭＭ２０についての対象ポイントは、先にＣＥの発生が検知されたＤＩＭＭ２０についての対象ポイントと同一であったとする。

【0149】

【0150】

その後、Ｓ２０４の判定処理により、Ｓ２０２の処理により発生を検知したと判定されたメモリエラーがＵＥではない（ＣＥである）と判定されて、Ｓ２０７に処理が進む。

【0151】

すると、Ｓ２０７の判定処理により、情報処理装置１が備えている全てのＤＩＭＭ２０の全てのメモリ領域に対して実施されたか否かが判定される。ここでも、このときには初期化及びトレーニングが実施されていないメモリ領域が依然として残されているものとする。従って、この判定処理の結果としてＳ２０１に処理が戻り、その後はＳ２０１、Ｓ２０２、及びＳ２０７の順序で各処理が暫く繰り返される。

【0152】

その後、初期化及びトレーニングが実行されているＤＩＭＭ２０において今度はＵＥが発生したとする。すると、上述した各処理の繰り返しにおけるＳ２０２の判定処理により、メモリエラーの発生が検知されたと判定されて、Ｓ２０３に処理が進む。なお、このＵＥの発生が検知されたＤＩＭＭ２０についての対象ポイントは、ＣＰＵ（０）、ＭＣ（０）、ＣＨ（００）、ＤＩＭＭ（００１）で特定される対象ポイントであったとする。

【0153】

このとき、Ｓ２０３の処理により、ＮＶＲＡＭ６０で保存されている、メモリエラーの発生が検知されたＤＩＭＭ２０についての対象ポイントのメモリエラー情報８０が更新される。この更新では、図５に示したテーブルにおける、ＣＰＵ（０）、ＭＣ（０）、ＣＨ（００）、ＤＩＭＭ（００１）で特定される対象ポイントの行、すなわち、Ｎｏ．２の行における「ＵＥ回数」のデータが、初期状態の値である「０」から「１」へと変更される。

【0154】

その後、Ｓ２０４の判定処理により、Ｓ２０２の処理により発生を検知したと判定されたメモリエラーがＵＥであると今度は判定されるので、Ｓ２０５に処理が進む。すると、Ｓ２０５の判定処理により、ＵＥの発生が検知されたＤＩＭＭ２０でのＵＥの発生は１回目（初めて）であると判定されるので、Ｓ２０６に処理が進む。

【0155】

このとき、Ｓ２０６の処理により、ＮＶＲＡＭ６０で保存されている、ＵＥの発生が検知されたＤＩＭＭ２０についての対象ポイントのメモリエラー情報８０が更新される。この更新では、図５に示したテーブルのＮｏ．２の行における「ＵＥ発生時間」のデータとして、Ｓ２０２の処理により発生を検知したと判定されたＵＥの発生時間の値が代入される。本実施例では、この「ＵＥ発生時間」のデータとして、「１２３０００００」が代入されるものとする。

【0156】

その後、Ｓ２０７の判定処理により、情報処理装置１が備えている全てのＤＩＭＭ２０の全てのメモリ領域に対して実施されたか否かが判定される。ここでも、このときには初期化及びトレーニングが実施されていないメモリ領域が依然として残されているものとする。従って、この判定処理の結果としてＳ２０１に処理が戻り、その後はＳ２０１、Ｓ２０２、及びＳ２０７の順序で各処理が暫く繰り返される。この各処理の繰り返しにおいて、今度は、メモリエラーへの発生が検知されないまま、情報処理装置１が備えている全てのＤＩＭＭ２０の全てのメモリ領域に対する初期化及びトレーニングの実施が終了したとする。すると、Ｓ２０７の判定処理の結果がＹＥＳとなって図７の処理が終了する。

【0157】

なお、図５に示したメモリエラー情報８０のデータ例は、このときの図７のメモリトレーニング処理の終了時点においてＮＶＲＡＭ６０で保存されているものである。

【0158】

メモリトレーニング処理が終了すると、図６の起動時処理におけるＳ１０４に処理が戻る。このときのＳ１０４の判定処理により、メモリエラーの発生が検知されたと判定されてＳ１０５に処理が進む。すると、Ｓ１０５の判定処理により、Ｓ１０３のメモリトレーニング処理において発生が検知されたメモリエラーのうちに、ＵＥが含まれていたと判定されて、Ｓ１０６に処理が進む。

【0159】

このときのＳ１０６の判定処理では、ＵＥの発生が検知されていたＤＩＭＭ２０についての対象ポイントではログレベル「３」による高い詳細度のログの取得は行われていないと判定されるので、Ｓ１１０に処理が進む。

【0160】

すると、このときのＳ１１０の処理により、装置再起動カウンタのカウント値が進められて「０」から「１」とされると共に、情報処理装置１の再起動が行われる。すると、ＣＰＵ（０）が情報処理装置１の初期化の処理を開始して図６の起動時処理を再度開始する。

【0161】

［３－５－２：２回目の起動時処理］

【0162】

２回目の起動時処理が開始されると、まず、Ｓ１０１の処理により、メモリエラー情報８０とログレベル情報７０とがＮＶＲＡＭ６０から取得される。なお、このときにＮＶＲＡＭ６０で保存されているログレベル情報７０は初期状態のデータのままであるが、このときにＮＶＲＡＭ６０で保存されているメモリエラー情報８０は図５に例示したデータとなっている。

【0163】

続くＳ１０２の処理では、メモリエラー情報８０に基づいたログレベル情報７０の更新とメモリエラー情報８０の初期化とが行われる。

【0164】

ログレベル情報７０の更新では、エラー重度判定部１４０による前述したルールに従ったログレベルの決定が行われる。前述したように、このときのメモリエラー情報８０は図５に例示されているデータである。このデータに対して前述したルールを適用する。

【0165】

図５のデータ例では、Ｎｏ．２の行において示されている対象ポイントについてのＤＩＭＭ２０でのＵＥの発生、及び、Ｎｏ．４の行において示されている対象ポイントについてのＤＩＭＭ２０でのＣＥの発生が示されている。従って、前述したルールに従い、Ｎｏ．２の行において示されている対象ポイントについてはログレベル「３」との決定がなされ、Ｎｏ．４の行において示されている対象ポイントについてはログレベル「２」との決定がなされる。なお、この決定によってログレベル「３」と決定された対象ポイントは１か所のみであり、ログレベル「２」と決定された対象ポイントも１か所のみであり、どちらも対象ポイントの数が前述した制限数の範囲内に収まっている。

【0166】

ところで、図５のデータ例を参照すると、発生が検知されているメモリエラーはＭＣ（０）に集中しており、ＭＣ（１）についてはメモリエラーの発生は検知されていないことが分かる。従って、前述したルールに従い、ＭＣ（１）についての対象ポイントである、Ｎｏ．５からＮｏ．８までの各対象ポイントについてはログレベル「０」とする決定がなされる。

【0167】

上述したログレベルの決定の結果に従った更新後のログレベル情報７０が、図４に示されているデータ例である。また、メモリエラー情報８０の初期化により、メモリエラー情報８０は、図５に示したテーブルにおけるＮｏ．１からＮｏ．８の全てについて、「ＣＥ回数」、「ＵＥ回数」、及び「ＵＥ発生時間」の各データがいずれも「０」とされる。

【0168】

次に、Ｓ１０３のメモリトレーニング処理により、メモリ初期化部１１０によるＤＩＭＭ２０に対する初期化及びトレーニングの実行が開始され、並行して図７の処理が開始される。

【0169】

図７の処理が開始されると、まず、Ｓ２０１の処理により、初期化及びトレーニングが実行されているＤＩＭＭ２０についての対象ポイントでのログが取得されてＢＭＣ５０へ出力される。このログは、図４に示されているログレベル情報７０のデータ例で示されている、当該対象ポイントについてのログレベルに応じた詳細度で取得される。従って、図４のＮｏ．２の行において示されている対象ポイントでは、前述したようなログレベル「３」の詳細度でのログの取得が行われる。また、図４のＮｏ．４の行において示されている対象ポイントでは、前述したようなログレベル「２」の詳細度でのログの取得が行われる。そして、図４のＮｏ．１及びＮｏ．３の行においてそれぞれ示されている対象ポイントでは、前述したようなログレベル「１」の詳細度でのログの取得が行われる。一方、図４のＮｏ．５からＮｏ．８までの各対象ポイントでは、ログレベル「０」とされているので、ログの取得は行われない。

【0170】

この処理に続くＳ２０２の判定処理により、初期化及びトレーニングが実行されているＤＩＭＭ２０のメモリ領域でメモリエラーの発生を検知したか否かが判定される。ここでは、このときにはメモリエラーは発生していないものとする。従って、この判定処理の結果としてＳ２０７に処理が進む。

【0171】

【0172】

その後、初期化及びトレーニングが実行されているＤＩＭＭ２０においてＵＥが発生したとする。すると、上述した各処理の繰り返しにおけるＳ２０２の判定処理により、メモリエラーの発生が検知されたと判定されて、Ｓ２０３に処理が進む。なお、ＵＥが発生したＤＩＭＭ２０についての対象ポイントは、１回目の起動時処理のときと同一の対象ポイント、すなわち、ＣＰＵ（０）、ＭＣ（０）、ＣＨ（００）、ＤＩＭＭ（００１）で特定される対象ポイントであったとする。

【0173】

このとき、Ｓ２０３の処理により、ＮＶＲＡＭ６０で保存されている、メモリエラーの発生が検知されたＤＩＭＭ２０についての対象ポイントのメモリエラー情報８０が更新される。この更新では、図５に示したテーブルにおけるＮｏ．２の行における「ＵＥ回数」のデータが、初期状態の値である「０」から「１」へと変更される。

【0174】

その後、Ｓ２０４の判定処理により、Ｓ２０２の処理により発生を検知したと判定されたメモリエラーがＵＥであると判定されるので、Ｓ２０５に処理が進む。すると、Ｓ２０５の判定処理により、ＵＥの発生が検知されたＤＩＭＭ２０でのＵＥの発生は１回目（２回目の起動時処理の開始後初めて）であると判定されるので、Ｓ２０６に処理が進む。

【0175】

【0176】

【0177】

【0178】

このときには、ＵＥの発生が検知されていたＤＩＭＭ２０についての対象ポイントにて、ログレベル「３」による高い詳細度でのログの取得が行われている。従って、Ｓ１０６の判定処理の判定結果はＹＥＳとなり、Ｓ１０７に処理が進む。すると、Ｓ１０７の処理により、当該対象ポイントに関するＤＩＭＭ２０を縮退させて非使用とされ、その後はＳ１１０に処理が進む。

【0179】

すると、このときのＳ１１０の処理により、装置再起動カウンタのカウント値が進められて「１」から「２」とされると共に、情報処理装置１の再起動が行われる。すると、ＣＰＵ（０）が情報処理装置１の初期化の処理を開始して図６の起動時処理を再度開始する。

【0180】

［３－５－３：３回目の起動時処理］

【0181】

３回目の起動時処理が開始されると、まず、Ｓ１０１の処理により、メモリエラー情報８０とログレベル情報７０とがＮＶＲＡＭ６０から取得される。なお、このときにＮＶＲＡＭ６０で保存されているログレベル情報７０は図４に例示したデータとなっている。一方、このときにＮＶＲＡＭ６０で保存されているメモリエラー情報８０は、図５に示したテーブルのＮｏ．２の行における「ＵＥ回数」のデータが「１」となっている。また、当該Ｎｏ．２の行における「ＵＥ発生時間」のデータが、直近に実行された図７のＳ２０６の処理によって代入された値となっている。

【0182】

続くＳ１０２の処理では、メモリエラー情報８０に基づいたログレベル情報７０の更新とメモリエラー情報８０の初期化とが行われる。

【0183】

上述したメモリエラー情報８０のデータに対して前述したルールを適用すると、Ｎｏ．２の行において示されている対象ポイントについてはログレベル「３」との決定がなされる。但し、この時点でのログレベル情報７０が示されている図４のデータ例を参照すると、Ｎｏ．２の行において示されている対象ポイントは既にログレベル「３」とされている。この場合には、当該対象ポイントについてのログレベル「３」に相当する詳細度の高いログが取得されていると判断され、当該対象ポイントについてはログレベルが初期状態に戻されてログレベル「１」とされる。また、この他の対象ポイントついては、メモリエラーの発生が検知されていないので、いずれも初期状態であるログレベル「１」との決定がなされる。

【0184】

以上の結果、各対象ポイントについてのログレベル情報７０は、いずれもログレベル「１」とされる。また、メモリエラー情報８０の初期化により、メモリエラー情報８０は、図５に示したテーブルにおけるＮｏ．１からＮｏ．８の全てについて、「ＣＥ回数」、「ＵＥ回数」、及び「ＵＥ発生時間」の各データがいずれも「０」とされる。

【0185】

【0186】

図７の処理が開始されると、まず、Ｓ２０１の処理により、初期化及びトレーニングが実行されているＤＩＭＭ２０についての対象ポイントでのログが、当該対象ポイントのログレベルに応じた詳細度で取得されてＢＭＣ５０へ出力される。このとき、ＮＶＲＡＭ６０で保存されているログレベル情報７０は、全ての対象ポイントについてログレベル「１」に設定されている。従って、このときのＳ２０１の処理では、初期化及びトレーニングが実行されているＤＩＭＭ２０についての対象ポイントにて、ログレベル「１」の詳細度でのログの取得が行われる。

【0187】

【0188】

すると、Ｓ２０７の判定処理により、情報処理装置１が備えている全てのＤＩＭＭ２０の全てのメモリ領域に対して実施されたか否かが判定される。ここでは、このときには初期化及びトレーニングが実施されていないメモリ領域が残っているものとする。従って、この判定処理の結果としてＳ２０１に処理が戻り、その後はＳ２０１、Ｓ２０２、及びＳ２０７の順序で各処理が暫く繰り返される。この各処理の繰り返しにおいて、メモリエラーへの発生が検知されないまま、情報処理装置１が備えている全てのＤＩＭＭ２０の全てのメモリ領域に対する初期化及びトレーニングの実施が終了したとする。すると、Ｓ２０７の判定処理の結果がＹＥＳとなって図７の処理が終了する。

【0189】

メモリトレーニング処理が終了すると、図６の起動時処理におけるＳ１０４に処理が戻る。このときのＳ１０４の判定処理により、メモリエラーの発生が検知されてないと判定されて、図６の処理が終了する。

【0190】

ログの取得と保存の手法の第２の例では、以上のようにして、情報処理装置１の起動時におけるログが取得されて保存される。従って、初期化処理に関するログの保存領域の効率的な使用が可能になる。

【0191】

以上、開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。

【符号の説明】

【0192】

１０ＣＰＵ
１１メモリコントローラ
２０ＤＩＭＭ
３０チャネル
４０ＳＢ
５０ＢＭＣ
６０ＮＶＲＡＭ
７０ログレベル情報
８０メモリエラー情報
１００ＢＩＯＳ
１１０メモリ初期化部
１１１ログ制御部
１２０メモリエラー処理部
１２１エラー情報保存部
１３０ログ送信部
１４０エラー重度判定部
１５０ログレベル情報管理部
２００ＢＭＣ－ＦＷ
２１０ログ受信部
２２０ログデータ

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版