IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

<>
  • 特開-情報処理装置及び判定方法 図1
  • 特開-情報処理装置及び判定方法 図2
  • 特開-情報処理装置及び判定方法 図3
  • 特開-情報処理装置及び判定方法 図4
  • 特開-情報処理装置及び判定方法 図5
  • 特開-情報処理装置及び判定方法 図6
  • 特開-情報処理装置及び判定方法 図7
  • 特開-情報処理装置及び判定方法 図8
  • 特開-情報処理装置及び判定方法 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022164131
(43)【公開日】2022-10-27
(54)【発明の名称】情報処理装置及び判定方法
(51)【国際特許分類】
   G01N 25/18 20060101AFI20221020BHJP
【FI】
G01N25/18 D
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2021069427
(22)【出願日】2021-04-16
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100121083
【弁理士】
【氏名又は名称】青木 宏義
(74)【代理人】
【識別番号】100138391
【弁理士】
【氏名又は名称】天田 昌行
(74)【代理人】
【識別番号】100074099
【弁理士】
【氏名又は名称】大菅 義之
(72)【発明者】
【氏名】野々村 亮
(72)【発明者】
【氏名】池田 浩司
【テーマコード(参考)】
2G040
【Fターム(参考)】
2G040AA05
2G040AB09
2G040BA02
2G040BA18
2G040BA22
2G040CA01
2G040CB05
2G040CB07
2G040CB09
2G040DA02
2G040DA12
2G040EA02
2G040HA03
2G040HA10
(57)【要約】
【課題】情報処理装置における半導体装置と放熱器との間に位置する熱伝導材料の状態を判定する。
【解決手段】情報処理装置は、半導体装置、放熱器、半導体装置と放熱器との間に位置する熱伝導材料、計算部、及び判定部を含む。計算部は、半導体装置の温度と、放熱器を含む放熱環境の温度と、半導体装置の消費電力とに基づいて、半導体装置と放熱環境との間の熱抵抗値を計算する。判定部は、熱抵抗値を基準値と比較した比較結果に基づいて、熱伝導材料の状態を判定する。
【選択図】図1
【特許請求の範囲】
【請求項1】
半導体装置と、
放熱器と、
前記半導体装置と前記放熱器との間に位置する熱伝導材料と、
前記半導体装置の温度と、前記放熱器を含む放熱環境の温度と、前記半導体装置の消費電力とに基づいて、前記半導体装置と前記放熱環境との間の熱抵抗値を計算する計算部と、
前記熱抵抗値を基準値と比較した比較結果に基づいて、前記熱伝導材料の状態を判定する判定部と、
を備えることを特徴とする情報処理装置。
【請求項2】
前記放熱器を冷却する冷却ファンをさらに備え、
前記判定部は、前記冷却ファンの回転数を取得し、取得された前記冷却ファンの回転数に対応する閾値を前記基準値として用いて、前記熱伝導材料の状態を判定することを特徴とする請求項1記載の情報処理装置。
【請求項3】
前記冷却ファンの複数の回転数それぞれに対応付けられた閾値を記憶する記憶部をさらに備え、
前記判定部は、前記複数の回転数それぞれに対応付けられた閾値の中から、取得された前記冷却ファンの回転数に対応する閾値を選択することを特徴とする請求項2記載の情報処理装置。
【請求項4】
前記冷却ファンの排気温度を測定する温度センサをさらに備え、
前記計算部は、前記冷却ファンの排気温度を前記放熱環境の温度として用いて、前記熱抵抗値を計算することを特徴とする請求項2又は3記載の情報処理装置。
【請求項5】
前記判定部は、前記熱抵抗値が前記基準値よりも大きい場合、前記熱伝導材料の状態が警告対象の状態であると判定し、警告出力を指示する制御情報を出力することを特徴とする請求項1乃至4の何れか1項に記載の情報処理装置。
【請求項6】
前記判定部は、前記熱抵抗値が前記基準値よりも大きい場合、前記熱伝導材料の状態が異常であると判定し、前記情報処理装置の停止を指示する制御情報を出力することを特徴とする請求項1乃至4の何れか1項に記載の情報処理装置。
【請求項7】
半導体装置の温度と、放熱器を含む放熱環境の温度と、前記半導体装置の消費電力とに基づいて、前記半導体装置と前記放熱環境との間の熱抵抗値を計算し、
前記熱抵抗値を基準値と比較した比較結果に基づいて、前記半導体装置と前記放熱器との間に位置する熱伝導材料の状態を判定する、
処理をコンピュータが実行することを特徴とする判定方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、判定技術に関する。
【背景技術】
【0002】
近年のサーバには、サーバの監視及び制御を行うBMC(Baseboard Management Controller)が搭載されている。BMCは、サーバ内に配置された各種センサを用いて、各部品の温度、電圧等を常時監視し、センサから出力される値が事前に設定された範囲を逸脱した場合、そのイベントをログに記録して、異常の発生をユーザに通知する。
【0003】
これにより、ユーザは部品の異常に気づき、サーバの運用が困難になる前に、適切な保守対応を実施することができる。サーバの冷却系における異常の主な原因としては、CPU(Central Processing Unit)とヒートシンクとの間の放熱グリスの劣化による放熱能力の低下が挙げられる。
【0004】
放熱グリスの劣化に関連して、半導体素子を収容した半導体モジュールと冷却器の間に塗布されるグリスの劣化を予測する方法が知られている(例えば、特許文献1を参照)。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2019-174193号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
HPC(High-Performance Computing)システムに含まれる複数のサーバのCPUは、並列演算を実行するため、同時に高負荷で動作する。このため、各CPUとヒートシンクとの間の放熱グリスの劣化が同じ速さで進行し、同時期に大規模な異常が発生することがある。この場合、交換部品、作業員、及び費用の確保が困難になる。
【0007】
また、複数のサーバの保守作業が同時に行われるため、保守作業が行われている間はシステム全体が停止してしまう。放熱グリスの劣化が検出されないまま進行すると、システムのダーティシャットダウンが引き起こされる可能性もある。
【0008】
従来のサーバでは、BMCが、温度センサにより取得されたCPUのジャンクション温度を参照し、ジャンクション温度が閾値を超えた場合に異常が発生したと判断する。この場合、冷却ファンの回転数、室温、CPUの消費電力、又は放熱グリスの劣化の何れが異常の原因となっているかを判別することは難しい。
【0009】
放熱グリスの劣化は熱抵抗値の増大により検知できることが知られているが、サーバ内に配置されたセンサの中には、熱抵抗値を測定するセンサが含まれていない。
【0010】
なお、かかる問題は、CPUとヒートシンクとの間の放熱グリスの劣化に限らず、半導体装置と放熱器との間に位置する様々な熱伝導材料の劣化によって生ずるものである。
【0011】
1つの側面において、本発明は、情報処理装置における半導体装置と放熱器との間に位置する熱伝導材料の状態を判定することを目的とする。
【課題を解決するための手段】
【0012】
1つの案では、情報処理装置は、半導体装置、放熱器、半導体装置と放熱器との間に位置する熱伝導材料、計算部、及び判定部を含む。
【0013】
計算部は、半導体装置の温度と、放熱器を含む放熱環境の温度と、半導体装置の消費電力とに基づいて、半導体装置と放熱環境との間の熱抵抗値を計算する。判定部は、熱抵抗値を基準値と比較した比較結果に基づいて、熱伝導材料の状態を判定する。
【発明の効果】
【0014】
1つの側面によれば、情報処理装置における半導体装置と放熱器との間に位置する熱伝導材料の状態を判定することができる。
【図面の簡単な説明】
【0015】
図1】実施形態の情報処理装置の構成図である。
図2】判定処理のフローチャートである。
図3】サーバのハードウェア構成図である。
図4】ヒートシンクを示す図である。
図5】BMCのハードウェア構成図である。
図6】データテーブルを示す図である。
図7】閾値テーブルを示す図である。
図8】熱抵抗値を示す図である。
図9】放熱グリス判定処理のフローチャートである。
【発明を実施するための形態】
【0016】
以下、図面を参照しながら、実施形態を詳細に説明する。
【0017】
図1は、実施形態の情報処理装置の構成例を示している。図1の情報処理装置101は、半導体装置111、放熱器112、半導体装置111と放熱器112との間に位置する熱伝導材料113、計算部114、及び判定部115を含む。
【0018】
図2は、図1の情報処理装置101が行う判定処理の例を示すフローチャートである。まず、計算部114は、半導体装置111の温度と、放熱器112を含む放熱環境の温度と、半導体装置111の消費電力とに基づいて、半導体装置111と放熱環境との間の熱抵抗値を計算する(ステップ201)。次に、判定部115は、熱抵抗値を基準値と比較した比較結果に基づいて、熱伝導材料113の状態を判定する(ステップ202)。
【0019】
図1の情報処理装置101によれば、半導体装置111と放熱器112との間に位置する熱伝導材料113の状態を判定することができる。
【0020】
図3は、図1の情報処理装置101に対応するサーバのハードウェア構成例を示している。図3のサーバ301は、CPU311、メモリ312、補助記憶装置313、BMC321、冷却ファン322、温度センサ323、及び温度センサ324を含む。これらの構成要素はハードウェアである。サーバ301は、例えば、HPCシステムに含まれるサーバである。
【0021】
CPU311、メモリ312、及び補助記憶装置313は、バス314により互いに接続されている。BMC321は、信号線331によりCPU311と接続されており、信号線332により冷却ファン322と接続されており、信号線333により温度センサ323と接続されており、信号線334により温度センサ324と接続されている。
【0022】
メモリ312は、例えば、RAM(Random Access Memory)等の半導体メモリである。補助記憶装置313は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)等である。
【0023】
CPU311は、メモリ312を利用してプログラムを実行することにより、情報処理を行う。BMC321は、サーバ301の監視及び制御を行う。CPU311は、温度及び消費電力を測定するセンサを内蔵しており、測定された温度及び消費電力を、信号線331を介してBMC321へ出力する。CPU311の温度は、例えば、ジャンクション温度である。CPU311は、図1の半導体装置111に対応する。
【0024】
冷却ファン322は、回転することによって、CPU311を冷却するためのエアフローを発生させ、回転数を信号線332を介してBMC321へ出力する。
【0025】
温度センサ323は、冷却ファン322の排気側の空気の温度を測定し、測定された温度を信号線333を介してBMC321へ出力する。温度センサ324は、冷却ファン322の吸気側の空気の温度を測定し、測定された温度を信号線334を介してBMC321へ出力する。吸気側の空気の温度は、室温等の外気温度であり、排気側の空気の温度は、吸気側の空気の温度よりも高温である。
【0026】
図4は、図3のCPU311を冷却するために設けられたヒートシンクの例を示している。マザーボード401は、図3のサーバ301内に設けられ、マザーボード401上には、CPU311、冷却ファン322、温度センサ323、及び温度センサ324が配置されている。メモリ312、補助記憶装置313、及びBMC321もマザーボード401上に配置されているが、図4では省略されている。
【0027】
CPU311上には、放熱グリス412を介して、放熱フィンを有するヒートシンク411が載置されている。ヒートシンク411及び放熱グリス412は、図1の放熱器112及び熱伝導材料113にそれぞれ対応する。CPU311とヒートシンク411との間の放熱グリス412は、CPU311において発生する熱をヒートシンク411へ伝える役割を果たす。
【0028】
冷却ファン322は、回転することによって、矢印421が示す向きのエアフローを発生させ、ヒートシンク411を冷却する。マザーボード401上において、温度センサ323は、冷却ファン322の排気側に配置されており、温度センサ324は、冷却ファン322の吸気側に配置されている。
【0029】
ヒートシンク411、冷却ファン322、及び冷却ファン322の排気側の空気は、放熱器を含む放熱環境の一例である。BMC321は、冷却ファン322の排気側の空気の温度を放熱環境の温度として用いる。
【0030】
図5は、図3のBMC321のハードウェア構成例を示している。図5のBMC321は、プロセッサ511、メモリ512、及びインタフェース513を含む。これらの構成要素はハードウェアである。プロセッサ511は、図1の計算部114及び判定部115として動作する。メモリ512は、記憶部の一例である。
【0031】
インタフェース513は、図3の信号線331~信号線334と接続されている。インタフェース513は、不図示のLED(Light Emitting Diode)とも接続されている。
【0032】
メモリ512は、例えば、RAM等の半導体メモリであり、データテーブル521及び閾値テーブル522を記憶する。データテーブル521は、サーバ301内から収集された各種データを含む。閾値テーブル522は、冷却ファン322の複数の回転数それぞれに対応付けられた閾値を含む。
【0033】
図6は、データテーブル521の例を示している。図6のデータテーブル521は、種別、現在値、LW、LC、HW、及びHCを含む。種別は、収集されたデータの種別を表す。データテーブル521は、少なくとも、外気温度、CPU温度、CPU消費電力、回転数、及び排気温度を種別として含む。
【0034】
外気温度は、温度センサ324から出力される、冷却ファン322の吸気側の空気の温度を表す。CPU温度は、CPU311から出力される、CPU311の温度を表し、CPU消費電力は、CPU311から出力される、CPU311の消費電力を表す。回転数は、冷却ファン322から出力される、冷却ファン322の回転数を表し、排気温度は、温度センサ323から出力される、冷却ファン322の排気側の空気の温度を表す。
【0035】
現在値は、直近のデータの値を表し、LWは、低い方の警告閾値を表し、LCは、低い方の停止閾値を表し、HWは、高い方の警告閾値を表し、HCは、高い方の停止閾値を表す。rpmは、1分間当たりの回転数を表す。ただし、CPU温度のLW及びLCと、CPU消費電力のLW、LC、HW、及びHCと、排気温度のLW、LC、HW、及びHCは、設定されていない。
【0036】
プロセッサ511は、インタフェース513を介して、CPU311からCPU311の温度及び消費電力を取得し、CPU温度及びCPU消費電力の現在値としてデータテーブル521に記録する。プロセッサ511は、インタフェース513を介して、冷却ファン322から回転数を取得し、回転数の現在値としてデータテーブル521に記録する。
【0037】
プロセッサ511は、インタフェース513を介して、温度センサ324から冷却ファン322の吸気側の空気の温度を取得し、外気温度の現在値としてデータテーブル521に記録する。プロセッサ511は、インタフェース513を介して、温度センサ323から冷却ファン322の排気側の空気の温度を取得し、排気温度の現在値としてデータテーブル521に記録する。
【0038】
プロセッサ511は、何れかのデータの現在値がLWよりも小さくなった場合、サーバ301の状態が警告対象の状態であると判定し、警告出力を指示する制御情報を、インタフェース513を介してLEDへ出力する。LEDは、受信した制御情報に従って点滅することで、ユーザに対して警告を発する。
【0039】
プロセッサ511は、何れかのデータの現在値がLCよりも小さくなった場合、サーバ301の状態が異常であると判定し、サーバ301の停止を指示する制御情報を、インタフェース513を介してCPU311へ出力する。CPU311は、受信した制御情報に従ってサーバ301をシャットダウンする。
【0040】
プロセッサ511は、何れかのデータの現在値がHWよりも大きくなった場合、サーバ301の状態が警告対象の状態であると判定し、警告出力を指示する制御情報を、インタフェース513を介してLEDへ出力する。LEDは、受信した制御情報に従って点滅することで、ユーザに対して警告を発する。
【0041】
プロセッサ511は、何れかのデータの現在値がHCよりも大きくなった場合、サーバ301の状態が異常であると判定し、サーバ301の停止を指示する制御情報を、インタフェース513を介してCPU311へ出力する。CPU311は、受信した制御情報に従ってサーバ301をシャットダウンする。
【0042】
図7は、閾値テーブル522の例を示している。図7の閾値テーブル522は、回転数及び熱抵抗値を含む。回転数は、冷却ファン322の回転数を表し、熱抵抗値は、CPU311とヒートシンク411との間の放熱グリス412の熱抵抗値を表す。放熱グリス412の熱抵抗値は、CPU311と放熱環境との間の熱抵抗値の一例である。
【0043】
熱抵抗値は、温度の伝えにくさを表す物性値である。物質中を熱量が通過する際に、熱の入口と出口との間に温度差が発生する。このとき、温度差、熱抵抗値、及び熱量の間の関係は、次式により表される。
【0044】
温度差=熱抵抗値×熱量 (1)
【0045】
式(1)より、熱抵抗値は、次式により計算することができる。
【0046】
熱抵抗値=温度差/熱量 (2)
【0047】
図8は、半導体装置の表面における熱抵抗値の例を示している。半導体装置801は熱の入口に対応し、空気は熱の出口に対応し、半導体装置801の消費電力Pは熱量に対応する。矢印811が示すように、熱量は、半導体装置801から空気中へ向かって伝わっていく。空気は、放熱環境の一例である。
【0048】
この場合、半導体装置801と空気との間の温度差ΔTは、半導体装置801のジャンクション温度T1と空気の温度T2とを用いて、次式により計算される。
【0049】
ΔT=T1-T2 (3)
【0050】
半導体装置801と空気との間の熱抵抗値TRは、ΔT及びPを用いて、次式により計算される。
【0051】
TR=ΔT/P (4)
【0052】
図4のCPU311を半導体装置801として用いた場合、T1、T2、及びPは、図6のCPU温度、排気温度、及びCPU消費電力にそれぞれ対応し、TRは、放熱グリス412の熱抵抗値に対応する。この場合、放熱グリス412の熱抵抗値は、CPU温度、排気温度、及びCPU消費電力から、式(3)及び式(4)により計算される。
【0053】
このように、プロセッサ511は、排気温度を放熱環境の温度として用いることで、CPU311と放熱環境との間の熱抵抗値である、放熱グリス412の熱抵抗値を計算することができる。
【0054】
しかし、サーバ301の運用中は、冷却制御によって冷却ファン322の回転数が常に変化し、回転数に応じてCPU温度及び排気温度も変化する。このため、放熱グリス412の熱抵抗値は、回転数に応じて変化し、回転数が大きくなるほど熱抵抗値は小さくなる。
【0055】
そこで、図7の閾値テーブル522には、複数の回転数それぞれに対応付けられた熱抵抗値が記録されており、各熱抵抗値は、正常値、TW、及びTCを含む。正常値は、放熱グリス412の状態が正常であり、かつ、対応する回転数で冷却ファン322が回転している場合の放熱グリス412の熱抵抗値を表す。放熱グリス412が正常である状態は、放熱グリス412の劣化が始まっていない状態に対応する。
【0056】
放熱グリス412の劣化が始まると、冷却ファン322の回転数が一定であっても、劣化が進行するにつれて熱抵抗値は増加する。このような放熱グリス412の特性を利用して、放熱グリス412の劣化の度合いを判定することができる。
【0057】
プロセッサ511は、サーバ301の運用開始前の放熱グリス412が正常である状態において、各回転数で冷却ファン322が回転しているときのCPU温度、排気温度、及びCPU消費電力を取得し、式(3)及び式(4)によりTRを計算する。そして、プロセッサ511は、計算されたTRを熱抵抗値の正常値として、回転数に対応付けて閾値テーブル522に記録する。
【0058】
TWは警告閾値を表し、TCは停止閾値を表す。TCはTWよりも大きな値に設定される。図7の例では、TWは正常値の1.2倍であり、TCは正常値の1.5倍である。このような閾値テーブル522を事前に用意しておくことで、サーバ301の運用中に取得された冷却ファン322の回転数に対応するTW及びTCを容易に選択することができる。
【0059】
プロセッサ511は、サーバ301の運用中に、CPU温度、CPU消費電力、回転数、及び排気温度を取得してデータテーブル521に記録するとともに、式(3)及び式(4)によりTRを計算する。そして、プロセッサ511は、閾値テーブル522から、取得された回転数に対応するTW及びTCを選択し、それらを基準値として用いて、放熱グリス412の状態を判定する。
【0060】
冷却ファン322の回転数に対応するTW及びTCを選択することで、回転数に適した基準値を用いて放熱グリス412の状態を判定することができ、判定精度が向上する。
【0061】
放熱グリス412の状態を判定する際、プロセッサ511は、計算されたTRをTW及びTCと比較する。TRがTWよりも大きく、かつ、TC以下である場合、プロセッサ511は、放熱グリス412の状態が警告対象の状態であると判定し、警告出力を指示する制御情報を、インタフェース513を介してLEDへ出力する。そして、プロセッサ511は、熱抵抗値が警告閾値よりも大きいことを示す情報を、ログとしてメモリ512に記録する。この場合、警告対象の状態は、放熱グリス412の劣化が進行しつつある状態に対応する。
【0062】
LEDは、受信した制御情報に従って点滅することで、ユーザに対して警告を発する。LEDが点滅した場合、ユーザは、速やかに保守作業の準備を行い、計画的に予防保守を実施する。これにより、放熱グリス412の劣化の予兆を検知して、サーバ301における異常の発生を未然に防止することができる。
【0063】
TRがTCよりも大きい場合、プロセッサ511は、放熱グリス412の状態が異常であると判定し、サーバ301の停止を指示する制御情報を、インタフェース513を介してCPU311へ出力する。放熱グリス412が異常である状態は、放熱グリス412の劣化がかなり進行している状態に対応する。
【0064】
CPU311は、受信した制御情報に従ってサーバ301をシャットダウンする。これにより、放熱グリス412の劣化を検知して、サーバ301のダーティシャットダウンを防止することができる。
【0065】
図3のサーバ301によれば、放熱グリス412の劣化により熱抵抗値が増加する特性を利用して、外気温度、CPU消費電力、及び冷却ファン322の回転数の影響を受けることなく、放熱グリス412の劣化又は劣化の予兆を検知することができる。
【0066】
これにより、HPCシステムのような大規模システムにおいて、計画的に予防保守を実施することができ、システム全体が停止する機会が低減されるため、ユーザへの影響を最小限に抑えることが可能になる。さらに、放熱グリス412の劣化によるシステムのダーティシャットダウンを防止することができる。
【0067】
BMC321は、冷却ファン322の排気側の空気の温度の代わりに、ヒートシンク411の温度を放熱環境の温度として用いて、熱抵抗値を計算してもよい。この場合、BMC321は、ヒートシンク411の表面に取り付けられた温度センサから、ヒートシンク411の温度を取得する。
【0068】
図9は、図5のBMC321が行う放熱グリス判定処理の例を示すフローチャートである。プロセッサ511は、図1の計算部114として動作することで、ステップ901及びステップ902の処理を行い、判定部115として動作することで、ステップ903~ステップ910の処理を行う。
【0069】
サーバ301の運用が開始されると、プロセッサ511は、インタフェース513を介して、CPU311からCPU311の温度及び消費電力を取得し、温度センサ323から冷却ファン322の排気側の空気の温度を取得する(ステップ901)。
【0070】
そして、プロセッサ511は、取得されたCPU311の温度及び消費電力を、CPU温度及びCPU消費電力の現在値としてデータテーブル521に記録し、取得された排気側の空気の温度を、排気温度の現在値としてデータテーブル521に記録する。
【0071】
次に、プロセッサ511は、CPU温度、CPU消費電力、及び排気温度の現在値を、T1、P、及びT2として用いて、式(3)及び式(4)によりTRを計算する(ステップ902)。
【0072】
次に、プロセッサ511は、インタフェース513を介して、冷却ファン322から回転数を取得し(ステップ903)、取得された回転数を、回転数の現在値としてデータテーブル521に記録する。
【0073】
次に、プロセッサ511は、閾値テーブル522から、回転数の現在値に対応するTW及びTCを選択し(ステップ904)、計算されたTRをTCと比較する(ステップ905)。
【0074】
TRがTCよりも大きい場合(ステップ905,YES)、プロセッサ511は、放熱グリス412の状態が異常であると判定し、サーバ301の停止を指示する制御情報を、インタフェース513を介してCPU311へ出力する(ステップ908)。CPU311は、受信した制御情報に従ってサーバ301をシャットダウンする。
【0075】
一方、TRがTC以下である場合(ステップ905,NO)、プロセッサ511は、計算されたTRをTWと比較する(ステップ906)。
【0076】
TRがTWよりも大きい場合(ステップ906,YES)、プロセッサ511は、放熱グリス412の状態が警告対象の状態であると判定し、熱抵抗値が警告閾値よりも大きいことを示す情報を、ログとしてメモリ512に記録する(ステップ909)。そして、プロセッサ511は、警告出力を指示する制御情報を、インタフェース513を介してLEDへ出力し(ステップ910)、ステップ901以降の処理を繰り返す。LEDは、受信した制御情報に従って点滅することで、ユーザに対して警告を発する。
【0077】
一方、TRがTW以下である場合(ステップ906,NO)、プロセッサ511は、放熱グリス412の状態が正常であると判定し(ステップ907)、ステップ901以降の処理を繰り返す。
【0078】
なお、サーバ301は、LEDの代わりにテキストメッセージ、音声等を用いて、ユーザに対する警告を出力することも可能である。この場合、ステップ910において、プロセッサ511は、警告出力を指示する制御情報を、インタフェース513を介してCPU311へ出力する。CPU311は、受信した制御情報に従って、警告メッセージ、警告音声等を出力する処理を行う。
【0079】
図1の情報処理装置101の構成は一例に過ぎず、情報処理装置101の用途又は条件に応じて一部の構成要素を省略又は変更してもよい。図3のサーバ301の構成は一例に過ぎず、サーバ301の用途又は条件に応じて一部の構成要素を省略又は変更してもよい。監視対象の半導体装置は、CPU311には限られず、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)、ゲートアレイ等であってもよい。
【0080】
図4に示したヒートシンク411は一例に過ぎず、ヒートシンク411の代わりに別の形状の放熱器を用いてもよい。CPU311とヒートシンク411との間の放熱グリス412の代わりに、樹脂、ゴム、金属等の別の熱伝導材料を用いてもよい。図5のBMC321の構成は一例に過ぎず、サーバ301の構成又は条件に応じて一部の構成要素を省略又は変更してもよい。
【0081】
図2及び図9のフローチャートは一例に過ぎず、情報処理装置101又はサーバ301の構成又は条件に応じて一部の処理を省略又は変更してもよい。例えば、図9の放熱グリス判定処理において、ユーザに対する警告を発する必要がない場合は、ステップ906、ステップ909、及びステップ910の処理を省略することができる。サーバ301をシャットダウンする必要がない場合は、ステップ905及びステップ908の処理を省略することができる。
【0082】
図6に示したデータテーブル521は一例に過ぎず、別の形式のデータテーブル521を用いてもよい。図7に示した閾値テーブル522は一例に過ぎず、別の形式の閾値テーブル522を用いてもよい。図8に示した熱抵抗値の計算方法は一例に過ぎず、別の計算方法を用いてもよい。式(1)~式(4)は一例に過ぎず、別の計算式を用いて熱抵抗値を計算してもよい。
【0083】
開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。
【0084】
図1乃至図9を参照しながら説明した実施形態に関し、さらに以下の付記を開示する。
(付記1)
半導体装置と、
放熱器と、
前記半導体装置と前記放熱器との間に位置する熱伝導材料と、
前記半導体装置の温度と、前記放熱器を含む放熱環境の温度と、前記半導体装置の消費電力とに基づいて、前記半導体装置と前記放熱環境との間の熱抵抗値を計算する計算部と、
前記熱抵抗値を基準値と比較した比較結果に基づいて、前記熱伝導材料の状態を判定する判定部と、
を備えることを特徴とする情報処理装置。
(付記2)
前記放熱器を冷却する冷却ファンをさらに備え、
前記判定部は、前記冷却ファンの回転数を取得し、取得された前記冷却ファンの回転数に対応する閾値を前記基準値として用いることを特徴とする付記1記載の情報処理装置。
(付記3)
前記冷却ファンの複数の回転数それぞれに対応付けられた閾値を記憶する記憶部をさらに備え、
前記判定部は、前記複数の回転数それぞれに対応付けられた閾値の中から、取得された前記冷却ファンの回転数に対応する閾値を選択することを特徴とする付記2記載の情報処理装置。
(付記4)
前記冷却ファンの排気温度を測定する温度センサをさらに備え、
前記計算部は、前記冷却ファンの排気温度を前記放熱環境の温度として用いて、前記熱抵抗値を計算することを特徴とする付記2又は3記載の情報処理装置。
(付記5)
前記判定部は、前記熱抵抗値が前記基準値よりも大きい場合、前記熱伝導材料の状態が警告対象の状態であると判定し、警告出力を指示する制御情報を出力することを特徴とする付記1乃至4の何れか1項に記載の情報処理装置。
(付記6)
前記判定部は、前記熱抵抗値が前記基準値よりも大きい場合、前記熱伝導材料の状態が異常であると判定し、前記情報処理装置の停止を指示する制御情報を出力することを特徴とする付記1乃至4の何れか1項に記載の情報処理装置。
(付記7)
半導体装置の温度と、放熱器を含む放熱環境の温度と、前記半導体装置の消費電力とに基づいて、前記半導体装置と前記放熱環境との間の熱抵抗値を計算し、
前記熱抵抗値を基準値と比較した比較結果に基づいて、前記半導体装置と前記放熱器との間に位置する熱伝導材料の状態を判定する、
処理をコンピュータが実行することを特徴とする判定方法。
(付記8)
前記半導体装置と前記放熱器との間に位置する熱伝導材料の状態を判定する処理は、
前記放熱器を冷却する冷却ファンの回転数を取得する処理と、
取得された前記冷却ファンの回転数に対応する閾値を前記基準値として用いる処理と、
を含むことを特徴とする付記7記載の判定方法。
(付記9)
取得された前記冷却ファンの回転数に対応する閾値を前記基準値として用いる処理は、前記冷却ファンの複数の回転数それぞれに対応付けられた閾値の中から、取得された前記冷却ファンの回転数に対応する閾値を選択する処理を含むことを特徴とする付記8記載の判定方法。
(付記10)
前記熱抵抗値を計算する処理は、温度センサによって測定された前記冷却ファンの排気温度を前記放熱環境の温度として用いて、前記熱抵抗値を計算する処理を含むことを特徴とする付記8又は9記載の判定方法。
(付記11)
前記半導体装置と前記放熱器との間に位置する熱伝導材料の状態を判定する処理は、前記熱抵抗値が前記基準値よりも大きい場合、前記熱伝導材料の状態が警告対象の状態であると判定し、警告出力を指示する制御情報を出力する処理を含むことを特徴とする付記7乃至10の何れか1項に記載の判定方法。
(付記12)
前記半導体装置と前記放熱器との間に位置する熱伝導材料の状態を判定する処理は、前記熱抵抗値が前記基準値よりも大きい場合、前記熱伝導材料の状態が異常であると判定し、前記情報処理装置の停止を指示する制御情報を出力する処理を含むことを特徴とする付記7乃至10の何れか1項に記載の判定方法。
【符号の説明】
【0085】
101 情報処理装置
111、801 半導体装置
112 放熱器
113 熱伝導材料
114 計算部
115 判定部
301 サーバ
311 CPU
312、512 メモリ
313 補助記憶装置
314 バス
322 冷却ファン
323、324 温度センサ
331~334 信号線
401 マザーボード
411 ヒートシンク
412 放熱グリス
421、811 矢印
511 プロセッサ
513 インタフェース
521 データテーブル
522 閾値テーブル
図1
図2
図3
図4
図5
図6
図7
図8
図9