一、故障背景
某客户IBM XIV存储一个interface类型节点失效,导致整个存储数据进行重新分布。
二、故障描述
IBM XIV存储一个Interface类型节点失效,节点中的12块硬盘模块状态全部不可用,且通过管理软件无法获取节点的硬件状态(包括风扇、电源等)。
相关故障现象截图如下:
进一步查证故障原因发现,涉及此节点相关的故障信息时间点为同一时刻,数据服务状态与节点状态均为Failed。
相关故障事件截图如下:
三、故障处理
IBM XIV存储每个节点采用的是通用x86服务器硬件架构,节点后端预留VGA接口,通过VGA接口连接显示器。但接上USB键盘,并没有显示输出。
1、尝试重启节点
由于显示器没有显示任何输出,通过节点前面板电源键按钮,强制关机并重新开机,仍无输出,工程师初步判断节点模块硬件损坏。
2、更换节点硬件
将节点模块下电,移除节点后端Flash卡、电源模块和连接线缆,移除节点前端12块物理硬盘模块,将节点模块下架;
上架新节点模块,恢复此前移除的硬盘模块、Flash卡、电源模块和连接线缆;
重新开机,此时显示器有信息输入,最终显示器出现Login登录字样,表示节点模块底层系统已经完全启动成功。
3、测试与初始化
在管理软件中,对目标节点模块进行Test操作,使XIV系统识别新的节点模块。模块6硬件处理初始化的过程及状态变更信息如下:
初始化成功后,变为Ready状态,变更信息如下:
识别到节点模块,12块硬盘及节点模块状态就绪,变更信息如下:
4、开始阶段采用
节点模块状态为Ready,对其进行阶段采用操作,进行阶段采用操作后,整个XIV存储数据将进行重新分布。变更信息如下:
经过一段时间的数据重新分布,最终XIV存储状态恢复正常,数据完全冗余,变更信息如下:
四、故障总结
IBM XIV存储整个节点模块完全坏死的情况比较少见,首先需要确定故障节点模块并未逻辑假死,再进行下一步的更换处理。这里需要注意的是,在更换处理时,XIV的节点模块不能更换Flash卡,且不需强制更换硬盘模块、电源模块。最终节点模块状态就绪可用,直到阶段采用数据重新分布完全冗余后,方能确认故障完全解决。
如欲了解更多,请登录365bet足球比分官方网站:wys.31totsuka.com