常見運維指南
一、硬件檢查
檢查黑方硬件面板工作指示燈,是否存在異常或警報聲,并拍照留存。
| 巡檢項
|
正常
|
異常
|
備注
|
| 硬盤燈
|
亮藍(lán)燈
|
亮紅燈
|
硬盤故障、RAID掉線、組RAID等都會導(dǎo)致此燈亮
|
| 1+1冗余電源 |
亮黃色
|
亮紅
有蜂鳴聲
|
電源出現(xiàn)故障
|
| 網(wǎng)卡燈 |
閃黃燈
|
不亮
|
網(wǎng)絡(luò)不通或網(wǎng)卡有問題
|
| 其他異常現(xiàn)象 |
如風(fēng)扇異常聲音過大
|
|
|
二、容量空間檢查
穩(wěn)定運行3個月后
1. 系統(tǒng)盤空間剩余20%以上為健康,10-20%為緊張,10%以下為風(fēng)險,建議擴容
2. 介質(zhì)空間剩余20%以上為健康,10-20%為緊張,10%以下為風(fēng)險,建議擴容
2.1查看服務(wù)器系統(tǒng)盤和整體介質(zhì)使用情況
2.2查看介質(zhì)使用情況
2.3查看重刪介質(zhì)使用情況
2.4授權(quán)使用情況
三、告警檢查
每條告警都處理,有對應(yīng)解決方案,確保問題解決。

四、保護業(yè)務(wù)檢查
4.1定時備份
請檢查是否存在備份失敗的作業(yè),尤其是那些持續(xù)出現(xiàn)失敗情況的作業(yè)。
4.2數(shù)據(jù)副本
請檢查是否存在備份失敗的作業(yè),尤其是那些持續(xù)出現(xiàn)失敗情況的作業(yè)。
4.3恢復(fù)演練
檢查恢復(fù)演練作業(yè)是否都正常

4.4實時備份
每個代理都需要,檢查cdp是否保護狀態(tài),以及最近快照是否正常
4.5容災(zāi)演練


五、數(shù)據(jù)同步歸檔任務(wù)
5.1異地復(fù)制
進(jìn)入任務(wù)日志頁面,過濾 警告 和 錯誤,查看警告信息是否近期存在重復(fù)警告,錯誤信息是否都已處理。
5.2本地復(fù)制
進(jìn)入任務(wù)日志頁面,過濾 警告 和 錯誤,查看警告信息是否近期存在重復(fù)警告,錯誤信息是否都已處理。

5.3歸檔
進(jìn)入任務(wù)日志頁面,過濾 警告 和 錯誤,查看警告信息是否近期存在重復(fù)警告,錯誤信息是否都已處理。
六、重刪庫檢查
重刪庫清理時間是否合理,同一介質(zhì)服務(wù)器上的重刪庫清理不存在重疊時間段,可以按星期間隔配置。
七、系統(tǒng)日志檢查
進(jìn)入任務(wù)日志頁面,過濾 警告 和 錯誤,查看警告信息是否近期存在重復(fù)警告,錯誤信息是否都已處理。
使用sec_admin登錄,查看錯誤和警告日志
八、其他檢查
8.1檢查存在計劃外開關(guān)機情況
1. 檢查各節(jié)點最近運行時長,未超過1個月(720小時)的,需要溝通是否存在計劃外的開關(guān)機行為。
2. 未超過1個月,查看 /var/crash 下是否存在崩潰文件,將此文件和系統(tǒng)message日志以及nmon日志收集
8.2檢查程序異常崩潰情況
檢查目錄,是否存在1個月內(nèi)的崩潰文件
/var/corefile/
/opt/bksoft/ubackup/bin/ 下的hs_err_pid.log文件
/opt/bksoft/ubackup/lib/ 下的hs_err_pid.log文件
/opt/bksoft/ubackup/logs/heapdump/ 堆棧溢出的dump文件
/var/spool/abrt/ 目錄下存在進(jìn)程崩潰但未生成core文件情況下的文件
8.3檢查nmon執(zhí)行情況(6.8版本之后加入)
1、查看監(jiān)控腳本是否在定時任務(wù)內(nèi),monitorlog.sh
2、查看是否產(chǎn)生監(jiān)控日志,每天產(chǎn)生一個日志文件,觀察是否有最新的。