故障现象:
服务型号为华为 RH2288 V3 和 RH5588 V3
从VMware VCenter Server上发现有警告生成,硬件运行状态提示告警,具体的传感器报警如下:
[Device] System Board 0 SEL Status 0
[Device] System Board 0 LCD Status 0
解决方案:
报错1:
针对[Device] System Board 0 SEL Status 0报错,通过华为BMC登录未发现报错。比对华为官方支持文档,发现知识MC日志要满了的报错,不需要进行处理。具体分析日志如下:
1、根据截图sensor id,查看vm-support log,日志名:commands/localcli_hardware-ipmi-sdr-list--p--i--n-all.txt
sensor id 102对应的报错信息为sel almost full,如下图:
2、ESXi host主机下的硬件sensor信息是通过ipmi和BMC进行通信获取,BMC下对应的sensor id为16进制0x66,值为0x8020(0x8000代表正常值,0x8020代表sel almost full)
3、通过以上分析,BMC和vSphere上的信息一致,可以确认两者之间的通信正常。下一步需要确认为什么传感器值变化BMC中没有报错信息。
4、传感器“0x66 SEL Status”对应的是文件sel.db的状态。根据BMC的工作机制,此传感器变化不会产生告警,可以忽略。
sel.db最多可以保存2000条记录:
- 当记录在0-1800的时候,传感器状态正常0x8000;
- 当记录在1801-2000条的时候(超过总数量的90%),传感器状态变为0x8020;
- 当超过2000条时,BMC会自动删除最旧部分日志信息以释放空间,此时传感器状态又变为正常0x8000。
5、BMC下可以通过以下命令进行清除sel动作,使传感器状态变为0x8000,但日志删除后不可恢复,不建议操作。
解决方案:
1、联系VMware进行告警优化
2、BMC下可以通过以下命令进行清除sel动作,使传感器状态变为0x8000,但日志删除后不可恢复,不建议操作。
ipmcset -d sel -v clear
结论:
vSphere下识别传感器状态变化,误识别为告警,该告警可以忽略。
报错2:
暂未找到解决方案
参考文档:
https://support.huawei.com/enterprise/zh/knowledge/EKB1100018649/