(我修复我自己) HP Gen8 raid1 掉盘分区损坏修复记
面板底部状态灯闪红色,查看 iLO 系统诊断,提示raid1其中一个盘 FAILD
, 阵列状态为 Degraded
。
按提示关机替换问题的硬盘,并使阵列进入修复模式。再度发现挂载 /dev/sdb1/的 /home/目录下部分目录权限和用户描述变为 ????。
等待阵列自动修复完成后对上述问题进行修复,重启后问题处理完毕。
以下是详细备忘:
忘记了如何进入 iLO
除了这台NAS刚买回来那会,确实很多年没有折腾过HP的iLO远程管理系统了,以至于web登录界面都忘了IP是多少。
通过局域网扫描工具Advanced IP Scanner
解决。
iLO中的Remote Console
实时看到和操作gen8的显示器输出画面是下一个步骤不可或缺的远程监视管理工具,除非打算给gen8接上显示器和键盘。
说重点,win11连 IE都已经没有了,而 Edge浏览器明显是无法像 IE那样集成MS家的老环境可以直接启动遥控界面的。
也就是说默认情况下 .NET / Java Web/ Java Applet 都不好用..
我们还有第四个隐藏的选择: 浏览器输入 http://{iOL IP]/html/IRC.EXE ,直接下载IRC.exe 打开的时候按提示自动下载安装.net,打开填写IP 和iLO的管理员账号密码就能用了。
正确的替换raid1故障硬盘的步骤
不同厂牌型号的阵列盘柜设计不一样,本文只针对 HP Gen8。打开前面板看见每个硬盘抽屉把手上印着醒目的 “Non-Hot plug” (不可热插拔)。
- 进系统关机。等机器安静下来,
- 电源灯为黄色的时候,根据硬盘抽屉下的数字对应找到iLO提示故障的盘,卸下。
- 难得关机,顺便给里里外外除尘。
- 换上同型号的新硬盘(没有同型号的话换上更大的), 插回原来的硬盘槽
- 打开上文准备的iLO的远控软件,点开机,等待自检步骤中
smart array
的提示出现,当提示是否进行自动的修复时,按 [F1] - 之后系统会继续加载进入Linux, 机身面板底部状态灯为黄色闪烁状态。
- 而从iLO上看阵列状态显示为
Degraded(Rebuilding)
, 此状态会维持长达十数小时(视乎磁盘性能和容量),期间阵列性能受限。 - 盘阵重建期间,手动关闭所有无关的服务和程序,避免重建阵列期间有大量数据变化(特别是下载程序) 减少重构难度和时间。
- 完毕后状态灯恢复为常亮蓝色
分区故障的解决
rebuild期间,发现 nginx 无启动,进而发现 磁盘挂载的目录 /home 下部分文件夹无法访问和操作。
网上找了下解决办法..输入 命令 dmesg
看到末尾输出大量磁盘错误提示
EXT3-fs error (device sdb1): ext3_get_inode_loc: unable to read inode block - inode=119160833, block=476643328
sd 0:0:1:0: rejecting I/O to offline device
EXT3-fs error (device sdb1): ext3_get_inode_loc: unable to read inode block - inode=172384257, block=689537024
sd 0:0:1:0: rejecting I/O to offline device
EXT3-fs error (device sdb1): ext3_get_inode_loc: unable to read inode block - inode=118972417, block=475889664
sd 0:0:1:0: rejecting I/O to offline device
EXT3-fs error (device sdb1): ext3_get_inode_loc: unable to read inode block - inode=140058625, block=560234496
sd 0:0:1:0: rejecting I/O to offline device
sd 0:0:1:0: rejecting I/O to offline device
EXT3-fs error (device sdb1): ext3_get_inode_loc: unable to read inode block - inode=72884225, block=291536896
sd 0:0:1:0: rejecting I/O to offline device
EXT3-fs error (device sdb1): ext3_get_inode_loc: unable to read inode block - inode=72884225, block=291536896
sd 0:0:1:0: rejecting I/O to offline device
EXT3-fs error (device sdb1): ext3_get_inode_loc: unable to read inode block - inode=72884225, block=291536896
sd 0:0:1:0: rejecting I/O to offline device
EXT3-fs error (device sdb1): ext3_get_inode_loc: unable to read inode block - inode=72884225, block=291536896
不确定是否由于阵列修复中造成的暂时现象还是因为故障前的异常被保留了下来,决定继续观察等rebuild完成后再做进一步处理。
尽可能不要在rebuild期间骚操作以免造成不可逆的进一步破坏,此时已经做好的心理准备数据全损进行恢复抢救。
... 漫长的12个小时后,磁盘阵列修复结束。再次查看 /home 目录依然是一堆问号,分区故障还是存在,尝试修复。
此时系统内有两个逻辑磁盘, dev/sda
和 dev/sdb
前者是运行操作系统的SSD 后者是刚经历重建的盘阵。
[root@gen8 ]# df -hT
Filesystem Type Size Used Avail Use% Mounted on
/dev/sda3 ext3 189G 7.0G 172G 4% /
tmpfs tmpfs 7.8G 0 7.8G 0% /dev/shm
/dev/sda1 ext3 194M 57M 127M 31% /boot
/dev/sdb1 ext3 2.7T 1.9T 687G 74% /home
出现问题的是 /dev/sdb1
, 是 EXT3
类型的分区
取消挂载
umount /dev/sdb1
提示设备忙,执行:
fuser -km /dev/sdb1
修复
fsck -t ext3 -y /dev/sdb1
一通操作后,reboot
重启(fstab会重启后自动再次挂载上sdb1)
EXT3-fs (sdb1): using internal journal
EXT3-fs (sdb1): mounted filesystem with ordered data mode
重启后, 终于恢复如常。松一口气
关于拆下来的故障盘
插入移动硬盘盒。通电启动识别都貌似没有问题,容量显示也正常。尝试把它格式化,然后写入读取几个大文件。也可以。
不过发现 硬盘的SMART信息没了,只剩下一项 C6 的提示。而且硬盘的读写速度被限制在 30M/s 。
感觉还是有说不出的问题,决定妥善刷除旧数据后报废。
参考文:
https://blog.csdn.net/zhidc/article/details/105230054
https://blog.csdn.net/qq_40907977/article/details/109815052
https://www.cxybb.com/article/huoyuanshen/73604545
