Smartmontools

今天在Mobile01看文章,突然想到,在win系統中,有圖形化的硬碟檢測工具,那linux有嗎?圖形化很方便,但能寄mail給我並告知狀況更方便,畢竟那是台server,遠端監控才是王道阿!

上網找了一下,發現了這工具-smartmontools。

安裝很簡單,只要

 apt-get install smartmontools 

就大公告成了。

可以使用smartctl的指令進行一次性、暫時性的硬碟掃描。這邊就不po圖了。因為截圖很長一串。

接下來,就是進到設定檔設定了。


vi /etc/smartd.conf

# 全域設定寄發郵件的對象。
DEVICESCAN -H -m admin@mail

# 掃描所有的 ATA/SCSI 設備並將報告寄送給管理者。
DEVICESCAN -d removable -n standby -m admin@mail -M exec /usr/share/smartmontools/smartd-runner

# 每日 01:00 快速檢查 sda,每週六 02:00 完整檢查 sda。
/dev/sda -a -o on -S on -s (S/../.././01|L/../../6/02) -m admin@mail (-m這邊是我自己加的,效果未知)

# 每日 04:00 快速檢查 sdb,每週六 05:00 完整檢查 sdb。
/dev/sdb -a -o on -S on -s (S/../.././04|L/../../6/05) -m admin@mail (-m這邊是我自己加的,效果未知)
# 監控 SMART 狀態
/dev/sda -H -l error -l selftest -t -I 194
/dev/sdb -H -l error -l selftest -t -I 194

# 安靜的檢查,有異常狀況時郵寄狀態給 admin@mail
/dev/sda -H -C 0 -U 0 -m admin@mail
/dev/sdb -H -C 0 -U 0 -m admin@mail

# 溫度檢查,並郵寄狀態給 admin@mail
/dev/sda -a -I 194 -W 4,45,55 -R 5 -m admin@mail
/dev/sdb -a -I 194 -W 4,45,55 -R 5 -m admin@mail
/dev/sdc -a -I 194 -W 4,45,55 -R 5 -m admin@mail

最後,就是啟動smartd,並將其設定開機啟動,如果使用webmin,可以很輕鬆的點點按鈕完成。

據說,搭配nagios效果更好,但這方面就沒再研究了,有空再說吧!

 

2014/11/25 補充

作者: wahaha99 (成為鄉民中道的力量) 站內: hardware
標題: 教你看硬碟SMART狀態~與硬碟保健
時間: Thu Dec 21 14:57:41 2006

SMART就是硬碟自我診斷監視的功能 這不用贅述吧
反正就是用軟體去看 這個不用講了吧
現在要講的是該怎麼看

Worst = 曾經發生過最壞時的值
Value = 目前的值
Threshold = 門檻值,超過此值代表硬碟瑕疵已超過容許的範圍
T.E.C. = 一個預估你的硬碟壽命的日期

要怎麼看? 如果當一個參數的數值(Value)往門檻值(Threshold)變化,
就代表該項參數在劣化,也許是常態的老化現象,也許是出現了瑕疵,
相反的,如果往門檻值的反方向變化時,則代表該問題在改善,或是狀況已經暫時解除.

但不管怎樣,只要數值曾低於門檻值(包括Worst),就代表這顆硬碟快掛了,
該快點備份資料送廠了(這時廠商一般會承認故障)

另,下列紅字為重要事項,若出現劣化跡象,也應立即進行資料備份以策安全

代碼 / 項目 (代碼請自行換算16進位供查詢用)

1  Raw Read Error Rate 讀取錯誤率 
代表硬碟出現瑕疵

2  Throughput Performance 輸出性能
硬碟可能出現瑕疵,或是整體性能老化

3  Spin Up Time 旋上時間 
可能代表主軸馬達老化

4  Start/Stop Count 啟/停次數
這個值是硬碟主軸馬達啟動/關閉的次數,一般來說就是你開關電源的次數
由於硬碟馬達啟/停時磨耗最大,所以這是一個壽命參考值,但本身不具任何指標性

5  Reallocated Sector Count 重分配磁區數量
硬碟內部在發現弱磁區時會將弱磁區的資料重新分配到備用區,
這個值代表碟片可能出現瑕疵

6  Read Channel Margin 讀取通道臨界
代表硬碟可能出現瑕疵

7  Seek Error Rate 尋軌錯誤率
代表硬碟可能出現瑕疵

8  Seek Time Performance 尋軌效能
代表硬碟可能出現瑕疵,或是性能老化

9  Power-On Hours Count 總通電時間
硬碟總通電時間,這是一個壽命參考值,但本身不具任何指標性

10  Spin-up Retry Count 旋上重試次數
可能是電源供應不良,或是主軸馬達快掛了

11  Calibration Retry Count 校準重試次數
這個值下降代表硬碟可能出現瑕疵

12  Power Cycle Count 電源次數
這個值是硬碟電源/關閉的次數,一般來說就是你開關電源的次數
由於硬碟馬達啟/停時磨耗最大,所以這是一個壽命參考值,但本身不具任何指標性

13  Soft Read Error Rate 軟體讀取錯誤率
無法校正的讀取錯誤,通報給作業系統的次數,代表硬碟出現瑕疵

190 BE Airflow Temperature (WDC)
WD硬碟專有的氣流溫度偵測(與194同)

191  G-Sense Error Rate 衝擊偵測錯誤率
發生碰撞衝擊造成的錯誤率

192  Power-Off Retract Cycle 電源關閉次數 (Fujitsu: Emergency Retract Cycle
Count)
電源被關閉的次數

193  Load/Unload Cycle Count 從降落區起降的次數
這是一個壽命參考值,但本身不具任何指標性

194  HDA Temperature Temperature 硬碟總成溫度
溫度越低越好

195  Hardware ECC Recovered 硬體錯誤修正編碼修正
代表經由ECC修正的資料變多,讀出的資料狀態劣化,可能是出現老化或瑕疵

196  Reallocated Event Count 重分配事件數量
參照 5  Reallocated Sector Count ,這是發生的次數,越多次代表瑕疵越嚴重

197  Current Pending Sector Count 待決磁區數量
參照 5  Reallocated Sector Count ,這是有待重分配(尚未分配)的磁區數量

198  Off-line Scan Uncorrectable Count 離線掃描不可修正數量
在離線掃描時無法修正的錯誤數量,表示硬碟出現瑕疵

199  UltraDMA CRC Error Rate UDMA33傳輸錯誤率
是指電腦到硬碟間的資料傳輸錯誤率,一般是由不良的排線引起,與硬碟壽命較無關

200  Write Error Rate 寫入錯誤率 (WD:Multi Zone Error Rate)
這個值代表硬碟出現瑕疵

201  Soft Read Error Rate (Maxtor: Off Track Errors) 
Frequency of the off track errors

202  Data Address Mark Errors 資料位置標記錯誤
代表硬碟可能出現瑕疵

203  Run Out Cancel ECC錯誤發生的頻率 (Maxtor: ECC Errors) 
代表硬碟可能出現瑕疵

204  Soft ECC Correction 軟體ECC修正次數
由軟體修正的ECC次數,可能代表硬碟有瑕疵

205  Thermal Asperity Rate 過溫率
溫度過高的頻率,代表主軸馬達可能受損,或是散熱不良

206  Flying Height 磁頭飛行高度
可能意味主軸馬達老化,或磁頭出現瑕疵

207  Spin High Current 旋上高電流
主軸馬達旋上時所使用的電流量,耗電流變大意味著軸承可能有磨損

209  Offline Seek Performance 離線尋軌性能
可能代表硬碟老化

220  Disk Shift 磁碟位移
可能是磁碟遭受過強烈撞擊或熱漲冷縮

221  G-Sense Error Rate 震動偵測錯誤率
由外部引起的震動導致的錯誤率

222  Loaded Hours 作業時間
作業的總時間,這是一個壽命參考值,本身不具任何指標性

224  Load Friction 摩擦力
作業時的摩擦阻力

231  Temperature 溫度
溫度越低越好(由SMART軟體告知的溫度)

240  Head Flying Hours 磁頭飛行時間
這是一個壽命參考值,但本身不具任何指標性

250  Read Error Retry Rate 讀取錯誤重試率
代表硬碟出現瑕疵

----

至於一般的硬碟保養:

1.電源品質不可太差 接頭必須牢靠
否則常常斷電就會一下啟動一下停止 讓他很快歸西

2.任何時候避免衝擊與震動 尤其是開關機時
這是很精密的東西...

3.通氣孔不可遮蔽
檢查一下上蓋有個寫著 "Do not cover"的孔就對了

4.保持低溫
現在的硬碟最大的殺手之一就是高溫,放置硬碟時應考慮散熱問題
盡量不要讓溫度超過40度為佳

5.不可斜放使用
請務必水平或垂直放置 (建議水平)

6.避免時開時關
好比說暫時離開座位幾分鐘不要關電腦,一天如果固定上班要用八小時,
就上下班開關就好.

最後要提醒各位,SMART不是萬靈丹,但絕對有他的效果性,不要不信邪,
平常多備分,燒好香.....祝各位資料永保安康!

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料