IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ NECプラットフォームズ株式会社の特許一覧

特許7683973温度監視装置、温度監視方法および温度監視プログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2025-05-19
(45)【発行日】2025-05-27
(54)【発明の名称】温度監視装置、温度監視方法および温度監視プログラム
(51)【国際特許分類】
   G06F 1/20 20060101AFI20250520BHJP
   H05K 7/20 20060101ALI20250520BHJP
【FI】
G06F1/20 E
H05K7/20 Z
【請求項の数】 10
(21)【出願番号】P 2024034546
(22)【出願日】2024-03-07
【審査請求日】2024-03-07
(73)【特許権者】
【識別番号】000227205
【氏名又は名称】NECプラットフォームズ株式会社
(74)【代理人】
【識別番号】100080816
【弁理士】
【氏名又は名称】加藤 朝道
(74)【代理人】
【識別番号】100098648
【弁理士】
【氏名又は名称】内田 潔人
(72)【発明者】
【氏名】佛木 孝史
【審査官】佐藤 実
(56)【参考文献】
【文献】特開2022-164131(JP,A)
【文献】特開2022-114802(JP,A)
【文献】特開2010-152740(JP,A)
【文献】特開2017-028833(JP,A)
【文献】特開2012-064975(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 1/20
H05K 7/20
(57)【特許請求の範囲】
【請求項1】
1以上のプロセッサを含み、電子部品と、前記電子部品に取り付けられた冷却装置と、前記電子部品に取り付けられて前記電子部品の温度を計測する第1の温度センサと、前記冷却装置に取り付けられて前記冷却装置の温度を計測する第2の温度センサとを備える電子機器の温度を監視する温度監視装置であって、
前記1以上のプロセッサは、
予め決められた複数の計測期間それぞれに含まれ、前記電子部品が無負荷状態にある第1の時刻において、少なくとも前記第1の温度センサにより計測された前記電子部品の温度を取得し、
前記予め決められた複数の計測期間それぞれに含まれる前記第1の時刻の後に、前記電子部品に負荷がかけられてから所定の時間が経過した第2の時刻において、前記第1の温度センサにより計測された前記電子部品の温度および前記第2の温度センサにより計測された前記冷却装置の温度を取得し、
前記予め決められた複数の計測期間それぞれに含まれる前記第2の時刻の後に、前記電子部品が無負荷状態とされてから所定の時間が経過した第3の時刻において、少なくとも前記第2の温度センサにより計測された前記冷却装置の温度を取得し、
前記予め決められた複数の計測期間それぞれの少なくとも前記第1の時刻において取得された前記電子部品の温度と前記第2の時刻において取得された前記電子部品の温度との第1の温度変化を計算し、
前記予め決められた複数の計測期間それぞれの少なくとも前記第2の時刻において取得された前記冷却装置の温度と前記第3の時刻において取得された前記冷却装置の温度との第2の温度変化を計算し、
前記第1の温度変化と第1のリファレンスの温度変化との第1の差分を計算し、前記第2の温度変化と第2のリファレンスの温度変化との第2の差分を計算し、計算した前記第1の差分および前記第2の差分に基づいて、前記電子部品の冷却異常の発生を判定し、前記電子部品の冷却異常の発生の原因を判定して通報する
処理を実行するように構成される温度監視装置。
【請求項2】
判定された前記電子部品の冷却異常の発生と、判定された前記電子部品の冷却異常の原因とを通報する
請求項1に記載の温度監視装置。
【請求項3】
前記複数の計測期間それぞれにおいて、前記電子部品の温度は、前記第1の時刻から前記第2の時刻までの間に最高となり、前記冷却装置の温度は、前記第2の時刻から前記第3の時刻までの間に最高となる
請求項2に記載の温度監視装置。
【請求項4】
前記予め決められた複数の計測期間それぞれにおいて求められる前記第1の温度変化から1回以上の予め決められた前記計測期間において取得された前記第1の温度変化から求められるリファレンスの前記第1の温度変化を減算した値が、予め決められた第1の閾値より高いときに、前記電子部品の冷却異常が発生していると判定する
請求項3に記載の温度監視装置。
【請求項5】
前記予め決められた複数の計測期間それぞれにおいて求められる前記第2の温度変化から1回以上の予め決められた前記計測期間において取得された前記第2の温度変化から求められるリファレンスの前記第2の温度変化を減算した値が、予め決められた第2の閾値より低いときに、前記電子部品から前記冷却装置への熱伝導の効率が低下したことを原因とする前記電子部品の冷却異常が発生していると判定する
請求項4に記載の温度監視装置。
【請求項6】
前記予め決められた複数の計測期間それぞれにおいて求められる前記第2の温度変化から1回以上の予め決められた前記計測期間において取得された前記第2の温度変化から求められるリファレンスの前記第2の温度変化を減算した値が、予め決められた第2の閾値より高いときに、前記冷却装置から周囲への熱伝導の効率が低下したことを原因とする前記電子部品の冷却異常が発生していると判定する
請求項4に記載の温度監視装置。
【請求項7】
前記予め決められた複数の計測期間それぞれにおいて求められる前記第2の温度変化から1回以上の予め決められた前記計測期間において取得された前記第2の温度変化から求められるリファレンスの前記第2の温度変化を減算した値が、予め決められた第2の閾値より低いときに、前記電子部品から前記冷却装置への熱伝導の効率が低下し、かつ、前記冷却装置から周囲への熱伝導の効率が低下したことを原因とする前記電子部品の冷却異常が発生していると判定する
請求項6に記載の温度監視装置。
【請求項8】
前記電子部品から前記冷却装置への熱伝導の効率が低下したことを原因とする前記電子部品の冷却異常が発生していると判定すること、前記冷却装置から周囲への熱伝導の効率が低下したことを原因とする前記電子部品の冷却異常が発生していること、および、前記電子部品から前記冷却装置への熱伝導の効率が低下し、かつ、前記冷却装置から周囲への熱伝導の効率が低下したことを原因とする前記電子部品の冷却異常が発生していることのいずれかが、予め決められた回数より多く発生したときに、判定された前記電子部品の冷却異常の発生と、判定された前記電子部品の冷却異常の原因とを通報する
請求項7に記載の温度監視装置。
【請求項9】
1以上のプロセッサを含み、電子部品と、前記電子部品に取り付けられた冷却装置と、前記電子部品に取り付けられて前記電子部品の温度を計測する第1の温度センサと、前記冷却装置に取り付けられて前記冷却装置の温度を計測する第2の温度センサとを備える電子機器の温度を監視する温度監視装置による温度監視方法であって、
前記1以上のプロセッサに、
予め決められた複数の計測期間それぞれに含まれ、前記電子部品が無負荷状態にある第1の時刻において、少なくとも前記第1の温度センサにより計測された前記電子部品の温度を取得する第1の取得ステップと、
前記予め決められた複数の計測期間それぞれに含まれる前記第1の時刻の後に、前記電子部品に負荷がかけられてから所定の時間が経過した第2の時刻において、前記第1の温度センサにより計測された前記電子部品の温度および前記第2の温度センサにより計測された前記冷却装置の温度を取得する第2の取得ステップと、
前記予め決められた複数の計測期間それぞれに含まれる前記第2の時刻の後に、前記電子部品が無負荷状態とされてから所定の時間が経過した第3の時刻において、少なくとも前記第2の温度センサにより計測された前記冷却装置の温度を取得する第3の取得ステップと、
前記予め決められた複数の計測期間それぞれの少なくとも前記第1の時刻において取得された前記電子部品の温度と前記第2の時刻において取得された前記電子部品の温度との第1の温度変化を計算する第1の計算ステップと、
前記予め決められた複数の計測期間それぞれの少なくとも前記第2の時刻において取得された前記冷却装置の温度と前記第3の時刻において取得された前記冷却装置の温度との第2の温度変化を計算する第2の計算ステップと、
前記第1の温度変化と第1のリファレンスの温度変化との第1の差分を計算し、前記第2の温度変化と第2のリファレンスの温度変化との第2の差分を計算し、計算した前記第1の差分および前記第2の差分に基づいて、前記電子部品の冷却異常の発生を判定し、前記電子部品の冷却異常の発生の原因を判定して通報する判定・通報ステップと
実行させる温度監視方法。
【請求項10】
電子部品と、前記電子部品に取り付けられた冷却装置と、前記電子部品に取り付けられて前記電子部品の温度を計測する第1の温度センサと、前記冷却装置に取り付けられて前記冷却装置の温度を計測する第2の温度センサとを備える電子機器の温度を監視する温度監視装置の1以上のプロセッサに、
予め決められた複数の計測期間それぞれに含まれ、前記電子部品が無負荷状態にある第1の時刻において、少なくとも前記第1の温度センサにより計測された前記電子部品の温度を取得する第1の取得プロセスと、
前記予め決められた複数の計測期間それぞれに含まれる前記第1の時刻の後に、前記電子部品に負荷がかけられてから所定の時間が経過した第2の時刻において、前記第1の温度センサにより計測された前記電子部品の温度および前記第2の温度センサにより計測された前記冷却装置の温度を取得する第2の取得プロセスと、
前記予め決められた複数の計測期間それぞれに含まれる前記第2の時刻の後に、前記電子部品が無負荷状態とされてから所定の時間が経過した第3の時刻において、少なくとも前記第2の温度センサにより計測された前記冷却装置の温度を取得する第3の取得プロセスと、
前記予め決められた複数の計測期間それぞれの少なくとも前記第1の時刻において取得された前記電子部品の温度と前記第2の時刻において取得された前記電子部品の温度との第1の温度変化を計算する第1の計算プロセスと、
前記予め決められた複数の計測期間それぞれの少なくとも前記第2の時刻において取得された前記冷却装置の温度と前記第3の時刻において取得された前記冷却装置の温度との第2の温度変化を計算する第2の計算プロセスと、
前記第1の温度変化と第1のリファレンスの温度変化との第1の差分を計算し、前記第2の温度変化と第2のリファレンスの温度変化との第2の差分を計算し、計算した前記第1の差分および前記第2の差分に基づいて、前記電子部品の冷却異常の発生を判定し、前記電子部品の冷却異常の発生の原因を判定して通報する判定・通報プロセスと
を実行させる温度監視プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電子部品などの温度を監視するための温度監視装置、温度監視方法および温度監視プログラムに関する。
【背景技術】
【0002】
コンピュータなどの装置において、CPU(Central Processing Unit)といった電子部品、およびHDD(Hard Disk Drive)といったモジュールが用いられ、これらの電子部品およびモジュールは電力を消費し、発熱するので、これらに対する適宜の冷却が必要とされる。なお、以下の記載においては、電子部品およびモジュールは、「電子部品」と記載される。特に、コンピュータおよびサーバなどの情報処理装置において、CPUは情報処理の性能に最も大きな影響を与え、また、一般に電子部品のなかで最も電力を多く消費するので発熱量も多い。CPUが過度に高熱になると、その内部の保護機能が作動し、動作を抑制したり、停止させたりする。このように、CPUが高熱になると、情報処理装置による処理の性能が低下したり、さらに、処理ができなくなったりしてしまう。
【0003】
このような事態を防ぎ、正常な動作を保つため、CPUには、通常、ヒートシンク(放熱板)などの冷却部品、あるいは冷却用ファンなどを用いた冷却装置が、熱伝送を高める放熱用のグリースを介して取り付けられる。なお、このように、部品を回路基板などに取り付けることは、一般に「実装する」とも記載される。また、CPUに冷却用ファンを用いた冷却装置が実装されたときには、計測されたCPUの温度に応じて冷却用ファンの回転数が制御されることもある。さらに、CPUの冷却装置が正常に動作しているか否かを診断するために、例えば、CPUの負荷が一定に維持されているときの温度と、CPUが正常に冷却されているときに予め計測された温度とを比較することにより、冷却装置の故障などを検出する方法が知られている(特許文献1)。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2009-187347号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
なお、上記先行技術文献の各開示は、引用によりこの書類に組み込まれる。以下の分析は、本発明者らによってなされた。
【0006】
しかしながら、特許文献1に開示された方法では、CPUの冷却装置の異常を検出できるが、CPUから冷却装置までの熱伝導が正常に行われているか否かといったことまでは検出できない。CPUから冷却装置までの熱伝導が正常でなければ、冷却装置の故障だけが検出されても、CPUの冷却が妨げられている根本的な原因がわからないことがある。つまり、例えば、CPUの冷却が妨げられている根本的な原因が、冷却装置とその周囲の空気などとの間の熱伝導の効率低下にあるようなときには、冷却装置を交換しても、CPUは正常に冷却されない。
【0007】
上述した課題を鑑み、本開示は、情報処理装置などの装置において放熱が必要とされる電子部品およびモジュールなどが、正常に冷却されないことを判定し、その根本的な原因を求めることに寄与することを目的とする。
【課題を解決するための手段】
【0008】
本開示の第1の視点では、1以上のプロセッサを含み、電子部品と、前記電子部品に取り付けられた冷却装置と、前記電子部品に取り付けられて前記電子部品の温度を計測する第1の温度センサと、前記冷却装置に取り付けられて前記冷却装置の温度を計測する第2の温度センサとを備える電子機器の温度を監視する温度監視装置が提供される。前記温度監視装置の前記1以上のプロセッサは、予め決められた複数の計測期間それぞれに含まれる第1の時刻において、少なくとも前記第1の温度センサにより計測された前記電子部品の温度を取得し、前記予め決められた複数の計測期間それぞれに含まれる前記第1の時刻の後の第2の時刻において、前記第1の温度センサにより計測された前記電子部品の温度および前記第1の温度センサにより計測された前記冷却装置の温度を取得し、前記予め決められた複数の計測期間それぞれに含まれる前記第2の時刻の後の第3の時刻において、少なくとも前記第2の温度センサにより計測された前記冷却装置の温度を取得し、前記予め決められた複数の計測期間それぞれの少なくとも前記第1の時刻において取得された前記電子部品の温度と前記第2の時刻において取得された前記電子部品の温度との第1の温度変化を計算し、前記予め決められた複数の計測期間それぞれの少なくとも前記第2の時刻において取得された前記冷却装置の温度と前記第3の時刻において取得された前記冷却装置の温度との第2の温度変化を計算し、計算された前記第1の温度変化と前記第2の温度変化とに基づいて、前記電子部品の冷却異常の発生を判定し、前記電子部品の冷却異常の発生の原因を判定して通報するように構成される。
【0009】
本開示の第2の視点では、電子部品と、前記電子部品に取り付けられた冷却装置と、前記電子部品に取り付けられて前記電子部品の温度を計測する第1の温度センサと、前記冷却装置に取り付けられて前記冷却装置の温度を計測する第2の温度センサとを備える電子機器の温度を監視する温度監視方法が提供される。前記温度監視方法は、第1の取得ステップと、第2の取得ステップと、第3の取得ステップと、第1の計算ステップと、第2の計算ステップと、判定・通報ステップとを含む。第1の取得ステップは、予め決められた複数の計測期間それぞれに含まれる第1の時刻において、少なくとも前記第1の温度センサにより計測された前記電子部品の温度を取得する。前記第2の取得ステップは、前記予め決められた複数の計測期間それぞれに含まれる前記第1の時刻の後の第2の時刻において、前記第1の温度センサにより計測された前記電子部品の温度および前記第1の温度センサにより計測された前記冷却装置の温度を取得する。前記第3の取得ステップは、前記予め決められた複数の計測期間それぞれに含まれる前記第2の時刻の後の第3の時刻において、少なくとも前記第2の温度センサにより計測された前記冷却装置の温度を取得する。前記第1の計算ステップは、前記予め決められた複数の計測期間それぞれの少なくとも前記第1の時刻において取得された前記電子部品の温度と前記第2の時刻において取得された前記電子部品の温度との第1の温度変化を計算する。前記第2の計算ステップは、前記予め決められた複数の計測期間それぞれの少なくとも前記第2の時刻において取得された前記冷却装置の温度と前記第3の時刻において取得された前記冷却装置の温度との第2の温度変化を計算する。前記判定・通報ステップは、計算された前記第1の温度変化と前記第2の温度変化とに基づいて、計算された前記第1の温度変化と前記第2の温度変化とに基づいて、前記電子部品の冷却異常の発生を判定し、前記電子部品の冷却異常の発生の原因を判定して通報する。
【0010】
本開示の第3の視点では、電子部品と、前記電子部品に取り付けられた冷却装置と、前記電子部品に取り付けられて前記電子部品の温度を計測する第1の温度センサと、前記冷却装置に取り付けられて前記冷却装置の温度を計測する第2の温度センサとを備える電子機器の温度を監視する温度監視装置の1以上のプロセッサに、第1の取得プロセスと、第2の取得プロセスと、第3の取得プロセスと、第1の計算プロセスと、第2の計算プロセスと、判定・通報プロセスとを実行させる温度監視プログラムが提供される。前記第1の取得プロセスは、予め決められた複数の計測期間それぞれに含まれる第1の時刻において、少なくとも前記第1の温度センサにより計測された前記電子部品の温度を取得する。前記第2の取得プロセスは、前記予め決められた複数の計測期間それぞれに含まれる前記第1の時刻の後の第2の時刻において、前記第1の温度センサにより計測された前記電子部品の温度および前記第1の温度センサにより計測された前記冷却装置の温度を取得する。前記第3の取得プロセスは、前記予め決められた複数の計測期間それぞれに含まれる前記第2の時刻の後の第3の時刻において、少なくとも前記第2の温度センサにより計測された前記冷却装置の温度を取得する。前記第1の計算プロセスは、前記予め決められた複数の計測期間それぞれの少なくとも前記第1の時刻において取得された前記電子部品の温度と前記第2の時刻において取得された前記電子部品の温度との第1の温度変化を計算する。前記第2の計算プロセスは、前記予め決められた複数の計測期間それぞれの少なくとも前記第2の時刻において取得された前記冷却装置の温度と前記第3の時刻において取得された前記冷却装置の温度との第2の温度変化を計算する。前記判定・通報プロセスは、計算された前記第1の温度変化と前記第2の温度変化とに基づいて、前記電子部品の冷却異常の発生を判定し、前記電子部品の冷却異常の発生の原因を判定して通報する。
なお、このプログラムは、コンピュータが読み取り可能な記憶媒体に記録することができる。記憶媒体は、半導体メモリ、ハードディスク、磁気記録媒体、光記録媒体等の非トランジトリ(non-transitory)でありうる。本開示は、コンピュータプログラム製品として具現されうる。
【発明の効果】
【0011】
本開示の各視点は、電子機器などの装置において放熱が必要とされる電子部品およびモジュールなどが、正常に冷却されないことを判定し、その根本的な原因を求めることに寄与できる。
【図面の簡単な説明】
【0012】
図1A図1Aは、本開示の基礎をなすことができるサーバ装置のハードウェアの一構成例を例示する図である。
図1B図1Bは、図1Aに示したCPU部の断面を例示する図である。
図2図2は、サーバ装置の監視装置により実現される温度監視機能の機能ブロックの一例を例示する図である。
図3A図3Aは、初回の計測期間において時刻t1,t2,t3を含む期間のCPUの温度TCおよびヒートシンクの温度THの経時的な変化をグラフ形式で例示する図である。
図3B図3Bは、2回目以降の計測期間において時刻t1,t2,t3を含む期間のCPUの温度TC’およびヒートシンクの温度TH’の経時的な変化をグラフ形式で例示する図である。
図3C図3Cは、2回目以降の計測期間において時刻t1,t2,t3を含む期間のCPUの温度TC’およびヒートシンクの温度TH’の経時的な変化をグラフ形式で例示する図である。
図3D図3Dは、2回目以降の計測期間において時刻t1,t2,t3を含む期間のCPUの温度TC’およびヒートシンクの温度TH’の経時的な変化をグラフ形式で例示する図である。
図3E図3Eは、2回目以降の計測期間において時刻t1,t2,t3を含む期間のCPUの温度TC’およびヒートシンクの温度TH’の経時的な変化をグラフ形式で例示する図である。
図4A図4Aは、図2に示した温度監視機能の処理を示すフローチャートである。
図4B図4Bは、図2に示した温度監視機能の処理を示すフローチャートである。
図4C図4Cは、図2に示した温度監視機能の処理を示すフローチャートである。
【発明を実施するための形態】
【0013】
以下、図面を参照しつつ、本開示の実施形態を説明する。ただし、以下に説明する実施形態により本開示は限定されない。また、各図面において、同一または対応する要素には適宜、同一の符号が付され、同一または対応する処理および通信にも適宜、同一の符号が付される。さらに、図面は模式的であり、各要素の間の寸法およびそれらの比率などが現実とは異なりうることに留意の必要がある。また、以下に示される閾値の値は例示であり、本開示にかかる実施形態の用途および構成により、適宜、変更されうる。さらに、以下に示される閾値は大まかな値であり、多少の幅を有する値であると解されるべきであり、「閾値以上」および「閾値より大きい」との記載には実質的な差異はなく、また、「閾値以下」および「閾値未満」との記載には実質的な差異はない。
【0014】
図1Aは、本開示の基礎をなすことができるサーバ装置1のハードウェアの一構成例を例示する図である。図1Bは、図1Aに示したCPU部10の断面を例示する図である。図2は、サーバ装置1の監視装置144により実現される温度監視機能部2の機能ブロックの一例を例示する図である。なお、サーバ装置1は、コンピュータ、信号処理装置、シーケンサおよび制御装置など、CPU(電子部品)を用いる電子機器(電子機器)の一例である。図1Aに例示するように、サーバ装置1は、マザーボード120に実装されたCPU部10、主記憶装置142、監視装置144、補助記憶装置146およびインターフェース(IF(InterFace))装置148などが、サーバ装置1の内部のバスを介してデータを相互に入出力可能に接続された構成を採る。ただし、図1Aに示した構成は、いわゆるサーバ装置だけでなく、PC(Personal Computer)、PDA(Personal Digital Assistant)およびスマートフォンなど、情報処理を行いうる装置一般に適用されうる。
【0015】
図1Bに示すように、CPU部10は、CPU100、グリース102およびヒートシンク104を備える。マザーボード120に実装されたCPU100の上面には、熱伝導性が高く、CPU100からヒートシンク104への熱伝導の効率を高めるグリース102が施される。つまり、CPU100は、グリース102を介してヒートシンク104と接触し、CPU100からヒートシンク104に効率的に熱が伝導する。CPU100としては、一例として図1Bに示す配置構成のものを用いることができるが、CPU100は、マザーボード120に直接に実装されず、ソケットを介して実装されることもできる。また、CPU部10において、ヒートシンク104の代わりに、冷却用のファンまたはペルチェ素子などが用いられた空冷式の冷却、あるいは、冷媒として水などが用いられた液冷式の冷却装置が用いられることもある。つまり、ヒートシンク104は、CPU100の冷却装置の一例である。
【0016】
さらに、図1A図1Bに示すように、CPU100には、その温度の計測に用いられる温度センサ152が取り付けられ、ヒートシンク104には、その温度の計測に用いられる温度センサ150が取り付けられる。温度センサ150,152の出力端子は、配線などを介してインターフェース装置148に接続され、温度センサ150,152は、計測したヒートシンク104およびCPU100の温度を、インターフェース装置148に対して出力する。また、インターフェース装置148には、CPU部10におけるCPU100の冷却効率の低下という異常(以下、「冷却異常」と記載)の発生をサーバ装置1のユーザに通報し、その原因をユーザに表示する通報装置154が、ケーブルなどを介してさらに接続される。
【0017】
通報装置154は、発光装置および音声出力装置の少なくとも一方と、ディスプレイ(いずれも不図示)とを含む。発光装置は、CPU部10における冷却異常の発生を光信号として出力するLEDなどの発光素子を含み、音声出力装置は、CPU部10における冷却異常の発生を音声信号として出力するスピーカおよび音声合成装置などを含む。ディスプレイ装置は、CPU部10における冷却異常の原因をユーザに対して表示する。なお、通報装置154は、サーバ装置1に含まれる発光素子、音声出力装置およびディスプレイを利用して構成されうる。
【0018】
図1Aに示すサーバ装置1の主記憶装置142は、RAM(Random Access Memory)などの揮発性メモリ素子、および、ROM(Read Only Memory)およびフラッシュメモリなどの不揮発性メモリ素子を含む。主記憶装置142の不揮発性メモリ素子は、OS(operating system)106の機能、このOS(operating system)106上で動作するアプリケーションの機能、ブートローダの機能などを実現するための指示命令を含むプログラム、およびこれらのプログラムの実行に必要とされるデータを、中期的または長期的に記憶する。
【0019】
なお、図1Aに点線で示すように、OS106は、CPU100に所与のプログラムを実行させてその使用率を上げ、負荷を与える負荷実行機能と、CPU100による実行中のプログラムがその処理時間を占有している割合を示すCPU100の使用率を計測する機能とを含む。また、ブートローダの機能は、サーバ装置1の電源がOFF状態からON状態にされたときにOS106の起動を行う機能などを含む。主記憶装置142の揮発性メモリ素子は、OS106、アプリケーションプログラムおよびブートローダなどのプログラムをCPU100が実行するために必要とされるデータを一時的に記憶する。
【0020】
CPU部10は、1以上のCPU(プロセッサ)を含むことができ、主記憶装置142および補助記憶装置146などに記憶されたプログラムを実行する。ただし、以下の説明においては、図1Bに示したように、説明の具体化および明確化のために、CPU部10がCPU100を1つだけ含む場合が具体例とされる。
【0021】
補助記憶装置146は、HDDおよびSSD(Solid State Drive)などの不揮発性記憶装置を備える。補助記憶装置146もまた、主記憶装置142の不揮発性記憶素子と同様に、プログラムおよびこれらの実行に必要なデータを記憶しうる。また、補助記憶装置146は、USB(Universal Serial Bus)メモリなどの接続に用いられるUSBインターフェースをさらに備え、USBメモリなどのUSBデバイスへのデータの書き込み、および、USBデバイスからのデータの読み出しを行いうる。
【0022】
インターフェース装置148は、ユーザの操作を受け入れるキーボードなどの入力デバイスおよびユーザに対して情報を出力するディスプレイなどの出力デバイスと、サーバ装置1とのインターフェースのための処理を行う。インターフェース装置148は、さらに、温度センサ150,152により計測されたヒートシンク104およびCPU100の温度の値を受け入れ、監視装置144に対して出力する。また、インターフェース装置148は、監視装置144により検出されたCPU100の冷却異常の発生とその原因とをディスプレイに表示し、ユーザに通報する。
【0023】
監視装置144は、BMC(Baseboard Management Controller)などとも呼ばれ、例えば、マザーボード120に実装されたいわゆる汎用の1チップマイコンでありうる。監視装置144は、例えば、その内部に、CPU100とは独立した処理を行う1以上のプロセッサと、ROMおよびRAMなどの記憶素子(いずれも不図示)とを含む。監視装置144に内蔵されたROMは、図2に示す温度監視機能部2と、BMCとしての機能とを実現するための指示命令を含むプログラムを記憶できる。
【0024】
監視装置144に内蔵されたプロセッサは、ROMに記憶されたプログラムを実行し、BMCの機能として、サーバ装置1の管理およびサーバ装置1の内部で発生する障害などのイベントの監視を行う。また、監視装置144に内蔵されたプロセッサは、同様に、図2に示す温度監視機能部2の機能を実現する。ただし、BMCとしての機能および温度監視機能部2を実現するための指示命令を含むプログラムは、主記憶装置142または補助記憶装置146に記憶されてよい。この場合には、監視装置144は、監視装置144または補助記憶装置146に記憶されたプログラムを実行することにより、BMCの機能と温度監視機能部2とを実現する。なお、BMCとしての機能および温度監視機能部2の機能は、プログラムの実行を伴わない専用のハードウェアにより実現されうる。また、BMCとしての機能はOS106に含まれてよく、また、温度監視機能部2の機能は追加的にOS106に含まれてよい。この場合には、監視装置144は省略される。
【0025】
図2に示すように、温度監視機能部2は、温度情報収集部200、温度監視部202、温度変化監視テーブルデータベース(温度変化監視テーブルDB(Data Base))204、冷却異常判定部212および冷却異常通報部214を備える。温度監視部202は、第1要因カウンタ206、第2要因カウンタ208および第3要因カウンタ210を含む。温度監視機能部2は、これらの構成要素により、温度センサ150,152によるヒートシンク104およびCPU100の温度の計測、CPU100の冷却異常の発生の検出を行う。
【0026】
温度監視機能部2は、冷却異常の発生が、第1~第3要因のいずれに起因するかを判定し、冷却異常の発生と、この冷却異常が第1~第3要因のいずれに起因するかとを、サーバ装置1のユーザに通報する。なお、サーバ装置1が複数のCPU部10を含む場合には、複数のCPU部10のCPU100およびヒートシンク104それぞれに温度センサ150,152それぞれが接続される。この場合には、温度監視機能部2は、複数のCPU部10それぞれに含まれるヒートシンク104およびCPU100に取り付けられた温度センサ152,150により温度の計測を行い、CPU100の冷却異常の発生の検出を行う。
【0027】
なお、冷却異常の第1要因は、CPU100からヒートシンク104への熱伝導に異常が生じて熱伝導の効率が低下することである。また、第2要因は、CPU100からヒートシンク104への熱伝導が正常であるにもかかわらず、ヒートシンク104から周囲の空気への放熱の効率が低下することである。冷却異常の第3要因は、第1要因および第2要因の両方が同時に発生していることである。
【0028】
まず、CPU100の冷却異常が発生していないと判定される条件と、第1~第3のいずれかの原因で、CPU100の冷却異常が発生していると判定される条件を、図3A図3Eおよび表1~表4を参照して説明する。監視装置144において実行される温度監視機能部2によるCPU100およびヒートシンク104の温度計測および冷却異常の判定などの処理は、予め決められた複数回の計測期間それぞれにおいて行われる。図3Aは、初回の計測期間において時刻t1,t2,t3(第1~第3の時刻)を含む期間のCPU100の温度TC(単位「℃」)およびヒートシンク104の温度THの経時的な変化をグラフ形式で例示する図である。
【0029】
図3Aは、初回の計測期間において算出されたCPU100およびヒートシンク104の温度変化ΔTC(=TC1-TC2),ΔTH(=TH1-TH2)を含む。また、初回の計測期間において算出された温度変化ΔTC,ΔTH(第1の温度変化,第2の温度変化)は、2回目以降の計測期間において、CPU100の冷却異常が第1~第3要因により発生したか否かを判断する処理において、参照値(リファレンス)として用いられる。ただし、これらのリファレンスの温度変化は、1回だけの計測期間において算出される必要はなく、例えば、初回から数回目までの予め決められた計測期間において算出された温度変化ΔTC,ΔTHの平均値がリファレンスとされてよい。
【0030】
図3B図3Eは、2回目以降の計測期間において時刻t1,t2,t3を含む期間のCPU100の温度TC’およびヒートシンク104の温度TH’の経時的な変化をグラフ形式で例示する図である。なお、図3B図3Eは、リファレンスとして用いられる温度変化ΔTC,ΔTHと、2回目以降の計測期間において算出された温度変化ΔTC’(=TC1’-TC2’),ΔTH’(=TH1’-TH2’)とをさらに含む。
【0031】
図3B図3Eそれぞれにおいて、点線は、第1~第3要因のいずれかに起因するCPU100の冷却異常が発生した場合の温度TC’,TH’の変化を示し、実線は、図3Aに示した温度TC,THを示す。また、複数の計測期間それぞれにおいて、時刻t1,t2,t3は一致しなくてよいことはいうまでもないが、時刻t1,t2の時間間隔は一致し、時刻t2,t3の時間間隔は一致する。また、ここでは、1つの計測期間において3つの時刻t1,t2,t3においてCPU100およびヒートシンク104の温度が計測される場合が具体例とされた。一方、温度の計測は、CPU100の温度変化とヒートシンク104の温度変化の時間差に応じて行われればよく、例えば、4つ以上の時刻における温度の計測および計測された温度に基づく処理は、本開示の範囲内である。さらに具体的には、時刻t2において温度TC2が計測され、時刻t2と少しずれた時刻t2’において温度TH2が計測されてよい。
【0032】
図3Aに示す初回の計測期間は、例えば、所定の場所に設置されたサーバ装置1の電源が最初にOFF状態からON状態にされ、さらにOS106が起動された後でCPU100の使用率が低く、無負荷状態にあるタイミングである。あるいは、初回の計測期間は、サーバ装置1に対するメンテナンスが終了した後などに最初にサーバ装置1の電源がOFF状態からON状態にされ、さらにOS106が起動された後でCPU100が無負荷状態にあるタイミングである。
【0033】
また、図3B図3Eに示す2回目以降の計測期間は、例えば、サーバ装置1が設置されている企業が営業時間外となる深夜などにおいて、サーバ装置1を利用するユーザがいなくなるか非常に少なくなり、CPU100がほぼ無負荷状態となる時刻である。あるいは、2回目以降の計測期間は、サーバ装置1に対するメンテナンスが終了した後など、何らかの理由でサーバ装置1の電源がOFF状態からON状態にされ、さらにOS106が起動された後でCPU100が無負荷状態にあるタイミングである。
【0034】
初回および2回目以降の計測期間における所定の時刻が時刻t1とされる。また、これらの計測期間における時刻t2は、時刻t1の後にOS106によりCPU100の使用率が上げられ、負荷がかけられて時間Δt(単位「秒」)が経過した時刻t2である。また、時刻t3は、時刻t2の後にOS106によりCPU100が無負荷状態にされた後に所定の時間が経過した時刻である。
【0035】
表1~表4それぞれは、図3B図3Eそれぞれに対応する温度変化管理テーブルを示す。表1~表4に示す温度変化管理テーブルの各エントリには、リファレンスの温度変化ΔTC,ΔTHと、2回目以降の測定タイミングそれぞれにおいて算出された温度変化ΔTC’,ΔTH’と、温度変化ΔTC,ΔTHと温度変化ΔTC’,ΔTH’との差分α,βとが対応付けられて含まれる。なお、α=ΔTC’-ΔTCであり、β=ΔTH’-ΔTHである。また、表1は、CPU100の冷却異常が発生していないときの上記数値を示す。また、表2~表4それぞれは、第1~第3要因それぞれに起因して、CPU100の冷却異常が発生したときの上記数値を示す。
【0036】
温度変化ΔTC,ΔTH,ΔTC’,ΔTH’の計算において、いずれの温度から他のいずれの温度を減算するかは本質的ではない。つまり、具体的に例示すると、温度差ΔTCを計算するために、温度TC1から温度TC2を減算するか、温度TC2から温度TC1を減算するかは本質的な問題とはならない。ここでの記載において、前者の減算を行っている理由は、発明の説明を具体化し、明確化するためである。同様に、差分α,βの計算を計算するために、温度変化ΔTC’,ΔTH’から温度変化ΔTC,ΔTHを減算するか、温度変化ΔTC,ΔTHから温度変化ΔTC’,ΔTH’を減算するかもまた、本質的な問題とはならない。いずれの温度から他のいずれかの温度が減算されても、これらの温度の関係に応じて、CPU100の冷却異常などの判定に用いられる後述の閾値の正負が適宜、変更されるだけである。
【0037】
まず、図3Bおよび表1を参照して、温度監視機能部2により、CPU100の冷却異常が発生していないと判定される条件を説明する。図3Aに示すように、CPU100の冷却異常が発生していないときには、CPU100の温度TCは、時刻t1から時刻t2にかけて上昇して最高となり、時刻t2から時刻t3にかけて下降する。ヒートシンク104の温度は、時刻t1に遅れて上昇し始め、時刻t2から時刻t3の間に最高となり、時刻t3の後に下降する。このように、CPU100の温度TCの変化とヒートシンク104の温度THの変化との間には遅延が生じる。
【0038】
【表1】
【0039】
図3Bに点線および実線で示すように、2回目以降の計測期間において、CPU100の温度TCおよびヒートシンク104の温度変化ΔTC’,ΔTH’が、図3Aに示した変化と実質的に同じ(ΔTC≒ΔTC=TC1’-TC2’,ΔTH≒=ΔTH’=TH2-TH3’)であれば、CPU100の冷却異常が発生していないと判断できる。温度変化ΔTC’,ΔTH’が、図3Aに示した変化と実質的に同じということは、リファレンスの温度変化ΔTC,ΔTHと温度変化ΔTC’,ΔTH’との差分α,βも誤差の範囲内とみなせる範囲内(例えば、±1°程度)となることでもある。以上説明したように、2回目以降の計測期間において、リファレンスの温度変化ΔTC,ΔTHと温度変化ΔTC’,ΔTH’の変化の差分α,βが、誤差の範囲内とみなせるほどに小さいときに、温度監視機能部2は、CPU100の冷却異常が発生していないと判断できる。
【0040】
次に、図3Cおよび表2を参照して、温度監視機能部2により、CPU100からグリース102を介したヒートシンク104への熱伝導の異常(第1要因)に起因してCPU100の冷却異常が発生したと判定される条件を説明する。2回目以降の計測期間において、図3Cに示すように、点線で示すCPU100の温度TC’は、実線で示すリファレンスの温度TCより高い。一方、点線で示すヒートシンク104の温度TH’は、実線で示すリファレンスの温度TCより低い。
【0041】
これらは、CPU100からヒートシンク104にかけての温度勾配が急であるにも関わらず、ヒートシンク104の温度が低いままであるということ、つまり、CPU100からグリース102を介した熱伝導に異常が生じ、冷却異常が生じていることを意味する。このことは、差分αが誤差の範囲を超えてプラス側に大きくなり、差分βが誤差の範囲を超えてマイナス側に大きくなることでもある。このようなときに、温度監視機能部2は、第1要因によりCPU100の冷却異常が発生したと判断できる。
【0042】
【表2】
【0043】
次に、図3Dおよび表3を参照して、温度監視機能部2により、ヒートシンク104から周囲の空気への放熱の効率が低下する異常(第2要因)に起因してCPU100の冷却異常が発生したと判定される条件を説明する。2回目以降の計測期間において、図3Dに示すように、点線で示すCPU100の温度TC’,TH’は、実線で示すリファレンスの温度TC,THより高い。これらは、CPU100からヒートシンク104にかけての温度勾配が正常であり、CPU100からグリース102を介したヒートシンク104への熱伝導に異常がないにもかかわらず、CPU100およびヒートシンク104の温度が高くなっていること、つまり、ヒートシンク104から周囲の空気への放熱の効率が低下したことを示す。このことは、差分α,βの両方が、誤差の範囲を超えてプラス側に大きくなることでもある。このようなときに、温度監視機能部2は、第2要因によりCPU100の冷却異常が発生したと判断できる。
【0044】
【表3】
【0045】
次に、図3Eおよび表4を参照して、温度監視機能部2により、第1要因および第2要因の両方(第3要因)に起因してCPU100の冷却異常が発生したと判定される条件を説明する。2回目以降の計測期間において、図3Eに示すように、点線で示すCPU100の温度TCは、実線で示すリファレンスの温度TCよりも誤差の範囲を超えて高い。一方、点線で示すヒートシンク104の温度THは、実線で示すリファレンスの温度THと誤差の範囲内で同じである。このことは、差分αが誤差の範囲を超えてプラス側に大きくなり、差分βが誤差の範囲内で0となることでもある。
【0046】
これらは、CPU100からグリース102を介したヒートシンク104への熱伝導に異常が生じ、かつ、ヒートシンク104から周囲の空気への放熱の効率が低下した可能性を示唆する。このようなときに、温度監視機能部2は、第3要因によりCPU100の冷却異常が発生したと判断できる。
【0047】
【表4】
【0048】
再び図2を参照する。温度監視機能部2の温度情報収集部200は、初回から2回目以降の計測期間を始める時刻になると、OS106を介してCPU100の使用率を取得する。温度情報収集部200は、CPU100の使用率が十分に低い無負荷の状態が続いたことを確認すると、OS106を介してCPU100に時間Δtの長さの期間、負荷をかける。温度情報収集部200は、この期間において、CPU100に負荷がかけられていることを、OS106からCPU100の使用率を取得して確認する。さらに、温度情報収集部200は、この期間が終了すると、OS106を介してCPU100の使用率を下げさせ、無負荷状態に戻す。
【0049】
温度情報収集部200は、以上のように、初回から2回目以降の計測期間それぞれにおいて、CPU100の負荷を制御する。また、初回から2回目以降の計測期間それぞれにおいて、温度情報収集部200は、温度センサ150からCPU100の温度TC1~TC3(少なくともTC1,TC2),TC1’~TC3’(少なくともTC1’,TC2’)、および、ヒートシンク104の温度TH1~TH3(少なくともTH2,TH3),TH1’~TH3’(少なくともTH2’,TH3’)の値を取得する。温度情報収集部200は、初回から2回目以降の計測期間それぞれにおいて取得した温度TC1~TC3,TC1’~TC3’,TH1~TH3,TH1’~TH3’を、温度監視部202に対して出力する。
【0050】
温度監視部202は、温度情報収集部200から初回から2回目以降の計測期間それぞれにおいて入力された温度TC1~TC3,TC1’~TC3’,TH1~TH3,TH1’~TH3’から、温度変化ΔTC,ΔTC’,ΔTH,ΔTH’を算出し、さらに、これらの差分α,βを算出する。温度監視部202は、算出した温度変化ΔTC,ΔTC’,ΔTH,ΔTH’および差分α,βを、表1~表4に例示したように対応付け、温度変化監視テーブルDB204に記憶されている温度変化管理テーブルの各エントリに記憶する。
【0051】
さらに、温度監視部202は、温度変化監視テーブルDB204に記憶された温度変化監視テーブルを処理し、第1~第3要因に起因するCPU100の冷却異常が発生したか否かを判定する。温度監視部202は、第1~第3要因それぞれに起因するCPU100の冷却異常が発生したと判定すると、第1要因カウンタ206、第2要因カウンタ208および第3要因カウンタ210それぞれの計数値をインクリメントする(計測値に1を加える)。
【0052】
温度監視部202は、初回の計測期間の開始時と、CPU100の冷却異常をサーバ装置1のユーザに通知したときには、第1要因カウンタ206、第2要因カウンタ208および第3要因カウンタ210の計測値を0とする。温度監視部202は、初回から2回目以降の計測期間それぞれが終了すると、第1要因カウンタ206、第2要因カウンタ208および第3要因カウンタ210の計測値を冷却異常判定部212に対して出力する。
【0053】
冷却異常判定部212は、第1要因カウンタ206、第2要因カウンタ208および第3要因カウンタ210の計測値それぞれを処理し、CPU100の冷却異常が発生したか否かと、その原因の第1~第3要因のいずれかを示す情報を冷却異常通報部214に対して出力する。なお、第1要因カウンタ206、第2要因カウンタ208および第3要因カウンタ210の計測値それぞれには、第1~第3閾値が設定される。冷却異常判定部212は、第1要因カウンタ206、第2要因カウンタ208および第3要因カウンタ210の計測値のいずれかが、その第1~第3閾値のいずれかに達したときに、CPU100の冷却異常の発生を冷却異常通報部214に通知し、その原因(第1~第3閾値のいずれか)を冷却異常通報部214に対して出力する。
【0054】
冷却異常通報部214は、冷却異常判定部212からCPU100の冷却異常の発生が通知され、その原因が入力されると、通報装置154を制御して光信号および音声信号により冷却異常の発生を、サーバ装置1の管理者などのユーザに通報する。冷却異常通報部214は、さらに、冷却異常の発生の原因(第1~第3要因のいずれか)をディスプレイに表示し、ユーザに示す。
【0055】
温度監視機能部2により冷却異常の発生が通報され、その原因が示されたユーザは、冷却異常の発生の原因を解消する作業を行う。第1要因に起因するCPU100の冷却異常が通報されると、ユーザは、CPU100とヒートシンク104をさらに密着させたり、ヒートシンク104の実装位置を変更したり、グリース102を塗り直したりするなどの作業を行う。第2要因に起因するCPU100の冷却異常が通報されると、ユーザは、ヒートシンク104の周囲を清掃するなど、ヒートシンク104による冷却効果を向上させるための作業を行う。第3要因に起因するCPU100の冷却異常が通報されると、ユーザは、CPU100とヒートシンク104をさらに密着させたり、ヒートシンク104の実装位置を変更したり、グリース102を塗り直したり、ヒートシンク104の周囲を清掃したりするなどの作業(第1および第2要因を解消する作業)を行う。
【0056】
以下、図2に示した温度監視機能部2の処理を、フローチャートを参照して説明する。図4A図4Cは、図2に示した温度監視機能部2の処理を示すフローチャートである。図4Aに示すように、S100において、サーバ装置1のユーザが、サーバ装置1を企業などに設定した後に、最初にサーバ装置1の電源をOFF状態からON状態にする。
【0057】
S102において、サーバ装置1の主記憶装置142(図1A)などに記憶されたブートローダは、同じく監視装置144などに記憶されたOSを読み出して主記憶装置142にロードし、OS106を起動する。OS106は、温度監視機能部2を起動し、温度監視機能部2の温度変化監視テーブルDB204は、第1要因カウンタ206、第2要因カウンタ208および第3要因カウンタ210の計数値をゼロクリア(0にする)する。温度監視機能部2は、図4Bおよび図4Cに示すS2の処理に進む。
【0058】
図4Bに示すように、S200において、温度監視機能部2の温度情報収集部200は、OS106を介してCPU100の使用率を取得し、取得した使用率と予め決められた閾値とを比較する。この比較の結果、温度情報収集部200が、取得した使用率が予め決められた閾値以下でCPU100が無負荷状態にあり、初回またはi(2≦i)回目の計測期間が開始したと判断したときにはS202の処理に進む(S200の処理においてY)。温度情報収集部200は、取得した使用率が予め決められた閾値より大きく、無負荷状態にないと判断したときにはS200の処理に留まる(同、N)。
【0059】
S202において、初回の計測期間が開始した後、所定の時間が経過して時刻t1になると、温度情報収集部200は、温度センサ150,152から、ヒートシンク104およびCPU100の温度TC1,TH1を読み出す。i回目の計測期間が開始した後、所定の時間が経過して時刻t1になると、温度情報収集部200は、温度センサ150,152から、ヒートシンク104およびCPU100の温度TC1’,TH1’を読み出す。ただし、ヒートシンク104の温度TH1’の読み出しは必須ではない。S204において、温度情報収集部200は、OS106を介してCPU100に所与のプログラムを実行させ、時刻t1~t2の間、つまり、Δtの時間長の期間、CPU100の使用率を上げて負荷をかける。
【0060】
S206において、初回の計測期間において、時刻t2になると、温度情報収集部200は、温度センサ150,152からヒートシンク104およびCPU100の温度TH2,TC2を読み出す。i回目の計測期間において、時刻t2になると、温度情報収集部200は、温度センサ150,152からヒートシンク104およびCPU100の温度TH2’,TC2’を読み出す。さらに、温度情報収集部200は、OS106を介してCPU100に所与のプログラムの実行を停止させ、時刻t2~t3の間、CPU100の使用率を0に近づけ、無負荷状態にする。
【0061】
S208において、初回の計測期間において、時刻t3になると、温度情報収集部200は、温度センサ150,152からヒートシンク104およびCPU100の温度TH3,TC3を読み出す。また、i回目の計測期間において、時刻t3になると、温度情報収集部200は、温度センサ150,152からヒートシンク104およびCPU100の温度TH3’,TC3’を読み出す。ただし、CPU100からの温度TC3’の読み出しは必須ではない。
【0062】
S210において、温度監視部202は、初回の計測期間において、温度変化ΔTC(=TC1-TC2),ΔTH(=TH1-TH2)を計算する(図3Aを参照)。また、i回目の計測期間において温度監視部202は、温度変化ΔTC’ (=TC1’-TC2’),ΔTH’(=TC1’-TC2’)を計算する。S212において、温度監視部202は、温度変化ΔTC,ΔTHと温度変化ΔTC’,ΔTH’の差分α(=ΔTC’-ΔTC),β(=ΔTH’-ΔTH)を計算する。温度監視部202は、温度変化ΔTC,ΔTC’,ΔTH,ΔTH’およびこれらの差分α,βを表1~表4に示したように対応付け、温度変化監視テーブルに含まれる1つのエントリを作成し、温度変化監視テーブルDB204に記憶させる。
【0063】
S214において、温度情報収集部200は、S200~S212の処理が、初回の計測期間において行われたか否かを判断する。温度監視機能部2は、S200~S212の処理が、初回の計測期間において行われたとき(S214の処理においてY)にはS220の処理に進む。温度監視機能部2は、S200~S212の処理が、i回目の計測期間において行われたとき(S214の処理においてN)にはS230(図4C)の処理に進む。
【0064】
S220において、温度情報収集部200は、2回目の計測期間が開始したか否かを判断する。温度監視機能部2は、2回目の計測期間が開始したとき(S220の処理においてY)にはS200の処理に戻る。温度監視機能部2は、2回目の計測期間が開始されないときにはS220の処理に留まる。
【0065】
図4Cに示すように、S230において、温度監視部202は、i回目の計測期間において計算された差分αが予め決められた閾値+3℃より高い(α≦+3)か否かを判断する。温度監視部202は、i回目の計測期間において計算された差分αが+3℃以下のときには、図3A図3Bおよび表1,表2を参照して節目したように、CPU100の冷却異常が発生していないと判定し、S200の処理に戻る(図3B,表1を参照)。温度監視機能部2は、差分αが+3℃より高いときにはS232の処理に進む。
【0066】
S232において、温度監視部202は、i回目の計測期間において計算された差分βが予め決められた閾値-2℃より低いか否かを判断する。温度監視機能部2は、i回目の計測期間において計算された差分αが-2℃より低いとき(S232の処理においてY)にはS234の処理に進む。温度監視機能部2は、差分αが-2℃より高いとき(同N)にはS240の処理に進む。
【0067】
S234において、温度監視部202は、図3Cおよび表2を参照して説明した第1要因、つまり、CPU100からヒートシンク104への熱伝導に異常が生じて熱伝導の効率が低下したことが原因でCPU100の冷却異常が発生したと判定する。S236において、温度監視部202は、第1要因カウンタ206の計数値をインクリメントする。
【0068】
S240において、温度監視部202は、i回目の計測期間において計算された差分βが予め決められた閾値+2℃より高いか否かを判断する。温度監視機能部2は、差分βが+2℃より高いとき(S240の処理においてY)にはS242の処理に進む。温度監視機能部2は、差分βが+2℃以下のとき(S240の処理においてN)にはS250の処理に進む。
【0069】
S242において、温度監視部202は、図3Dおよび表3を参照して説明した第2要因、つまり、CPU100からヒートシンク104への熱伝導が正常であるにもかかわらず、ヒートシンク104から周囲の空気への放熱の効率が低下したことが原因でCPU100の冷却異常が発生したと判定する。S244において、温度監視部202は、第2要因カウンタ208の計数値をインクリメントする。
【0070】
S250において、温度監視部202は、図3Eおよび表4を参照して説明した第3要因、つまり、第1要因および第2要因の両方が原因でCPU100の冷却異常が発生したと判定する。S252において、温度監視部202は、第3要因カウンタ210の計数値をインクリメントする。
【0071】
S260において、冷却異常判定部212は、第1要因カウンタ206、第2要因カウンタ208および第3要因カウンタ210の計数値の1以上が、第1要因カウンタ206、第2要因カウンタ208および第3要因カウンタ210それぞれに対して予め決められた閾値を超えたか否かを判断する。第1要因カウンタ206、第2要因カウンタ208および第3要因カウンタ210の計数値の1以上が閾値を超えたとき、冷却異常判定部212は、何らかの原因で一時的にCPU100の冷却異常が発生したのではなく、実際にCPU100の冷却異常が発生していると判定する(S260の処理においてY)。さらに、温度監視機能部2は、S262の処理に進む。冷却異常判定部212が、実際にCPU100の冷却異常が発生していないと判定したとき(S260の処理においてN)、温度監視機能部2は、S200の処理に戻る。
【0072】
S262において、冷却異常通報部214は、CPU100の冷却異常の発生およびその原因を、サーバ装置1のユーザに対して、光信号、音声信号およびディスプレイへの表示により通知する。
【0073】
以上説明した温度監視機能部2の処理によれば、CPU100に冷却異常が発生したときに、その旨とその原因とを適切にサーバ装置1のユーザに通報できる。従って、サーバ装置1のユーザは、CPU100の冷却異常の原因を、適切かつ根本的に解消でき、サーバ装置1の動作が遅くなったり、停止してしまうという不具合を予防できる。また、温度監視機能部2は、ファンなどを使用してCPU100を冷却する冷却装置をヒートシンク104の代わりに使用したCPU部10に適用されうる。このようなときであっても、温度監視機能部2によれば、冷却ファンを定常的に高速回転することによりCPU100の冷却異常を防ぐときに比べて、冷却装置の騒音および消費電力の増大が防がれる。
【0074】
上記の実施形態の一部または全部は、以下の付記のようにも記載され得るが、以下には限られない。
[付記1]
1以上のプロセッサを含み、電子部品と、前記電子部品に取り付けられた冷却装置と、前記電子部品に取り付けられて前記電子部品の温度を計測する第1の温度センサと、前記冷却装置に取り付けられて前記冷却装置の温度を計測する第2の温度センサとを備える電子機器の温度を監視する温度監視装置。前記温度監視装置の前記1以上のプロセッサは、予め決められた複数の計測期間それぞれに含まれる第1の時刻において、少なくとも前記第1の温度センサにより計測された前記電子部品の温度を取得し、前記予め決められた複数の計測期間それぞれに含まれる前記第1の時刻の後の第2の時刻において、前記第1の温度センサにより計測された前記電子部品の温度および前記第1の温度センサにより計測された前記冷却装置の温度を取得し、前記予め決められた複数の計測期間それぞれに含まれる前記第2の時刻の後の第3の時刻において、少なくとも前記第2の温度センサにより計測された前記冷却装置の温度を取得し、前記予め決められた複数の計測期間それぞれの少なくとも前記第1の時刻において取得された前記電子部品の温度と前記第2の時刻において取得された前記電子部品の温度との第1の温度変化を計算し、前記予め決められた複数の計測期間それぞれの少なくとも前記第2の時刻において取得された前記冷却装置の温度と前記第3の時刻において取得された前記冷却装置の温度との第2の温度変化を計算し、計算された前記第1の温度変化と前記第2の温度変化とに基づいて、前記電子部品の冷却異常の発生を判定し、前記電子部品の冷却異常の発生の原因を判定して通報するように構成される。
[付記2]
判定された前記電子部品の冷却異常の発生と、判定された前記電子部品の冷却異常の原因とを通報する付記1に記載の温度監視装置。
[付記3]
前記第1の時刻において、前記電子部品は無負荷の状態にあり、前記第1の時刻から所定の第1の時間が経過した前記第2の時刻まで、前記電子部品は負荷がかけられた状態にあり、前記第2の時刻から所定の第2の時間が経過した前記第3の時刻まで、前記電子部品は無負荷の状態にあり、前記複数の計測期間それぞれにおいて、前記電子部品の温度は、前記第1の時刻から前記第2の時刻までの間に最高となり、前記冷却装置の温度は、前記第2の時刻から前記第3の時刻までの間に最高となる付記1または2に記載の温度監視装置。
[付記4]
前記予め決められた複数の計測期間それぞれにおいて求められる前記第1の温度変化から1回以上の予め決められた前記計測期間において取得された前記第1の温度変化から求められるリファレンスの前記第1の温度変化を減算した値が、予め決められた第1の閾値より高いときに、前記電子部品の冷却異常が発生していると判定する付記1~3のいずれかに記載の温度監視装置。
[付記5]
前記予め決められた複数の計測期間それぞれにおいて求められる前記第2の温度変化から1回以上の予め決められた前記計測期間において取得された前記第2の温度変化から求められるリファレンスの前記第2の温度変化を減算した値が、予め決められた第2の閾値より低いときに、前記電子部品から前記冷却装置への熱伝導の効率が低下したことを原因とする前記電子部品の冷却異常が発生していると判定する付記1~4のいずれかに記載の温度監視装置。
[付記6]
前記予め決められた複数の計測期間それぞれにおいて求められる前記第2の温度変化から1回以上の予め決められた前記計測期間において取得された前記第2の温度変化から求められるリファレンスの前記第2の温度変化を減算した値が、予め決められた第2の閾値より低いときに、前記冷却装置から周囲への熱伝導の効率が低下したことを原因とする前記電子部品の冷却異常が発生していると判定する付記1~5のいずれかに記載の温度監視装置。
[付記7]
前記予め決められた複数の計測期間それぞれにおいて求められる前記第2の温度変化から1回以上の予め決められた前記計測期間において取得された前記第2の温度変化から求められるリファレンスの前記第2の温度変化を減算した値が、予め決められた第2の閾値より高いときに、前記電子部品から前記冷却装置への熱伝導の効率が低下し、かつ、前記冷却装置から周囲への熱伝導の効率が低下したことを原因とする前記電子部品の冷却異常が発生していると判定する付記1~6のいずれかに記載の温度監視装置。
[付記8]
前記電子部品から前記冷却装置への熱伝導の効率が低下したことを原因とする前記電子部品の冷却異常が発生していると判定すること、前記冷却装置から周囲への熱伝導の効率が低下したことを原因とする前記電子部品の冷却異常が発生していること、および、前記電子部品から前記冷却装置への熱伝導の効率が低下し、かつ、前記冷却装置から周囲への熱伝導の効率が低下したことを原因とする前記電子部品の冷却異常が発生していることのいずれかが、予め決められた回数より多く発生したときに、判定された前記電子部品の冷却異常の発生と、判定された前記電子部品の冷却異常の原因とを通報する付記1~7のいずれかに記載の温度監視装置。
[付記9]
電子部品と、前記電子部品に取り付けられた冷却装置と、前記電子部品に取り付けられて前記電子部品の温度を計測する第1の温度センサと、前記冷却装置に取り付けられて前記冷却装置の温度を計測する第2の温度センサとを備える電子機器の温度を監視する温度監視方法。前記温度監視方法は、第1の取得ステップと、第2の取得ステップと、第3の取得ステップと、第1の計算ステップと、第2の計算ステップと、判定・通知ステップとを含む。第1の取得ステップは、予め決められた複数の計測期間それぞれに含まれる第1の時刻において、少なくとも前記第1の温度センサにより計測された前記電子部品の温度を取得する。前記第2の取得ステップは、前記予め決められた複数の計測期間それぞれに含まれる前記第1の時刻の後の第2の時刻において、前記第1の温度センサにより計測された前記電子部品の温度および前記第1の温度センサにより計測された前記冷却装置の温度を取得する。前記第3の取得ステップは、前記予め決められた複数の計測期間それぞれに含まれる前記第2の時刻の後の第3の時刻において、少なくとも前記第2の温度センサにより計測された前記冷却装置の温度を取得する。前記第1の計算ステップは、前記予め決められた複数の計測期間それぞれの少なくとも前記第1の時刻において取得された前記電子部品の温度と前記第2の時刻において取得された前記電子部品の温度との第1の温度変化を計算する。前記第2の計算ステップは、前記予め決められた複数の計測期間それぞれの少なくとも前記第2の時刻において取得された前記冷却装置の温度と前記第3の時刻において取得された前記冷却装置の温度との第2の温度変化を計算する。前記判定・通知ステップは、計算された前記第1の温度変化と前記第2の温度変化とに基づいて、前記電子部品の冷却異常の発生を判定し、前記電子部品の冷却異常の発生の原因を判定して通報する。
[付記10]
電子部品と、前記電子部品に取り付けられた冷却装置と、前記電子部品に取り付けられて前記電子部品の温度を計測する第1の温度センサと、前記冷却装置に取り付けられて前記冷却装置の温度を計測する第2の温度センサとを備える電子機器の温度を監視する温度監視装置の1以上のプロセッサに、第1の取得プロセスと、第2の取得プロセスと、第3の取得プロセスと、第1の計算プロセスと、第2の計算プロセスと、判定・通知プロセスとを実行させる温度監視プログラム。前記第1の取得プロセスは、予め決められた複数の計測期間それぞれに含まれる第1の時刻において、少なくとも前記第1の温度センサにより計測された前記電子部品の温度を取得する。前記第2の取得プロセスは、前記予め決められた複数の計測期間それぞれに含まれる前記第1の時刻の後の第2の時刻において、前記第1の温度センサにより計測された前記電子部品の温度および前記第1の温度センサにより計測された前記冷却装置の温度を取得する。前記第3の取得プロセスは、前記予め決められた複数の計測期間それぞれに含まれる前記第2の時刻の後の第3の時刻において、少なくとも前記第2の温度センサにより計測された前記冷却装置の温度を取得する。前記第1の計算プロセスは、前記予め決められた複数の計測期間それぞれの少なくとも前記第1の時刻において取得された前記電子部品の温度と前記第2の時刻において取得された前記電子部品の温度との第1の温度変化を計算する。前記第2の計算プロセスは、前記予め決められた複数の計測期間それぞれの少なくとも前記第2の時刻において取得された前記冷却装置の温度と前記第3の時刻において取得された前記冷却装置の温度との第2の温度変化を計算する。前記判定・通知プロセスは、計算された前記第1の温度変化と前記第2の温度変化とに基づいて、前記電子部品の冷却異常の発生を判定し、前記電子部品の冷却異常の発生の原因を判定して通報する。
本開示の付記にかかる各形態の組み合わせ、または、各視点、実施形態に記載された各要素の任意の組み合わせ(一部要素の非選択も含む)は、本開示の基本的コンセプトに応じて、当業者により随時なされうることはいうまでもない。あるいは、付記9,10において記載された温度監視方法および温度監視プログラムが、付記2~8に記載された温度監視装置の構成に展開されて実現されることもまた、本開示に含まれる。
【0075】
なお、引用した上記の特許文献等の各開示は、引用により本書に繰り込まれる。本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の全開示の枠内において種々の開示要素(各請求項の各要素、各実施形態ないし実施例の各要素、各図面の各要素等を含む)の多様な組み合わせ、ないし、選択(部分的削除を含む)が可能である。つまり、本発明は、請求の範囲を含む全開示、技術的思想に従って、当業者であればなし得るであろう各種変形、修正を当然に含む。特に、本書に記載した数値範囲は、当該範囲内に含まれる任意の数値ないし小範囲を、特記なき場合でも具体的に記載すると解釈されるべきである。さらに、上記引用した文献の各開示事項は、必要に応じ、本発明の趣旨に則り、本発明の開示の一部として、その一部または全部を、本書の記載事項と組み合わせて用いられうる本願の開示事項に含まれるとみなされる。
【符号の説明】
【0076】
1 サーバ装置
10 CPU部
100 CPU
102 グリース
104 ヒートシンク
106 OS
120 マザーボード
142 主記憶装置
144 監視装置
146 補助記憶装置
148 インターフェース装置
150,152 温度センサ
154 通報装置
2 温度監視機能部
200 温度情報収集部
202 温度監視部
204 温度変化監視テーブルデータベース(DB)
206 第1要因カウンタ
208 第2要因カウンタ
210 第3要因カウンタ
212 冷却異常判定部
214 冷却異常通報部
【要約】
【課題】放熱が必要とされる電子部品およびモジュールなどが、正常に冷却されないことを判定し、その根本的な原因を求めることに寄与する。
【解決手段】本発明にかかる温度監視装置は、複数の計測期間それぞれに含まれる第1の時刻、第2の時刻および第3の時刻における電子部品とその冷却装置の温度を取得し、第1の時刻において取得された電子部品の温度と第2の時刻において取得された電子部品の温度との第1の温度変化を計算し、第2の時刻において取得された冷却装置の温度と第3の時刻において取得された冷却装置の温度との第2の温度変化を計算し、計算された第1の温度変化と第2の温度変化とに基づいて、電子部品の冷却異常の発生を判定する処理を実行する。
【選択図】図2
図1A
図1B
図2
図3A
図3B
図3C
図3D
図3E
図4A
図4B
図4C