单服务器 2OSD CEPH集群故障说明

系统盘故障
demsg日志当中出现了ext4元数据不一致,引起系统盘上的mon数据无法使用
解决方法:
通过重启修复系统盘进行解决

mon数据损坏
mon无法启动,启动显示目录内的数据异常
解决方法:
在修复了系统盘后,还有部分数据异常,通过修复mon数据目录下的leveldb的数据库进行修 复

osd数据盘损坏
osd.2的文件系统损坏,出现xfs_log异常
解决方法:
修复xfs文件系统

osd内的有少量元数据异常
启动日志内显示有部分数据异常解决办法:

通过集群内其他的osd上的相同数据,拷贝过来进行修复

pg状态异常
有一个pg无法恢复正常,经过检查是有一个对象文件丢失
解决办法:
通过集群的命令进行修复后,环境恢复正常

总结
以上所有问题均为掉电下引起的文件系统异常,丢失部分磁盘上的数据引起的异常,这个建议 采用多节点集群的形式,减小数据丢失的概率,多节点的时候可以从其他节点恢复
能多mon建议多mon,无法多mon就对mon的数据进行定期备份

如果对性能要求不高,建议可以关闭raid卡上面的写缓存,有的机器老旧后,raid卡上的电池 不能很好的完成掉电保护的作用