故障现象:

服务型号为华为 RH2288 V3 和 RH5588 V3
从VMware VCenter Server上发现有警告生成,硬件运行状态提示告警,具体的传感器报警如下:

[Device] System Board 0 SEL Status 0
[Device] System Board 0 LCD Status 0

54607-z9wnchfzmus.png
08332-9fbcv5v062h.png

解决方案:

报错1:

针对[Device] System Board 0 SEL Status 0报错,通过华为BMC登录未发现报错。比对华为官方支持文档,发现知识MC日志要满了的报错,不需要进行处理。具体分析日志如下:
1、根据截图sensor id,查看vm-support log,日志名:commands/localcli_hardware-ipmi-sdr-list--p--i--n-all.txt
sensor id 102对应的报错信息为sel almost full,如下图:
55912-6qqa68agqjr.png

2、ESXi host主机下的硬件sensor信息是通过ipmi和BMC进行通信获取,BMC下对应的sensor id为16进制0x66,值为0x8020(0x8000代表正常值,0x8020代表sel almost full)
26764-qw0glh8omjh.png

3、通过以上分析,BMC和vSphere上的信息一致,可以确认两者之间的通信正常。下一步需要确认为什么传感器值变化BMC中没有报错信息。

4、传感器“0x66 SEL Status”对应的是文件sel.db的状态。根据BMC的工作机制,此传感器变化不会产生告警,可以忽略。
sel.db最多可以保存2000条记录:

  • 当记录在0-1800的时候,传感器状态正常0x8000;
  • 当记录在1801-2000条的时候(超过总数量的90%),传感器状态变为0x8020;
  • 当超过2000条时,BMC会自动删除最旧部分日志信息以释放空间,此时传感器状态又变为正常0x8000。

5、BMC下可以通过以下命令进行清除sel动作,使传感器状态变为0x8000,但日志删除后不可恢复,不建议操作。

解决方案:

1、联系VMware进行告警优化
2、BMC下可以通过以下命令进行清除sel动作,使传感器状态变为0x8000,但日志删除后不可恢复,不建议操作。

ipmcset -d sel -v clear

结论:

vSphere下识别传感器状态变化,误识别为告警,该告警可以忽略。

报错2:

暂未找到解决方案

参考文档:
https://support.huawei.com/enterprise/zh/knowledge/EKB1100018649/



最后修改:2023 年 04 月 30 日
如果觉得我的文章对你有用,请随意赞赏