Monthly Archives: 10月 2018

后台ceph检测mon数据库目录store.db过大,提示警告 的处理

环境:
mhflex2.3.188
ceph 10.2.10

问题:
后台ceph检测mon数据库目录store.db过大,提示警告。

检测过程:
1、确保环境mon在线数量后,尝试压缩修复。ceph tell mon.wy03 compact。
2、设置日志级别,ceph daemon mon.wy03 config set debug_mon 10,监控mon日志发现数据库在进行压缩。
3、等待压缩完成,检查集群mon状态与store.db目录,问题依然存在。
4、设置日志级别为20,发现mon进程同步超时。
5、监控集群状态日志,发现大量刷新blacklist更新,过量的更新变更osdmap导致数据库文件压大,此时同步过慢导致mon挂住。
6、查看进程ps -ef|grep qemu,发现平台同时多次对同一rbd进行heartbeat检测。
7、检查ceph osd blacklist ls|wc -l,发现后台在大量刷新。怀疑是平台的heartbeat进程导致。
8、在平台上设置-高级设置-物理机自检主存储检查超时时间-为15。
9、取消所有云主机高可用状态,设置为none。重启mn服务。
10、疑似平台同时发起多个heartbeat检测进程引起。
11、检查发现平台心跳服务正常,监控心跳rbd的连接watcher(rados listwatchers -p pl-root rbd_header.f5277b8b4567),发现单台服务器同时存在多个链接会话。
12、监控ceph日志发现新建心跳会话时,mon存在了相同记录,此时新的拉黑老的。
13、查看ceph黑名单(ceph osd blacklist ls|wc -l),集群维持有三千多个。
14、跟踪日志发现老会话依旧占用上锁。
15、设置ceph上锁机制为false(rbd_blacklist_on_break_lock)。
16、检查日志发现没有追加黑名单,并监控心跳rbd的watcher发现数量维持在一个。
17、清理ceph的老黑名单。

结论:
ceph会话broken掉的老锁依然存在IO占用,此时平台新建心跳会话会不断拉黑老会话并自我broken,致使ceph大量的压黑名单列表,从而store.db直线上涨。

处理操作:
1、平台上操作设置-高级设置-物理机自检主存储检查超时时间-为15。
2、每台服务器后台操作
vim /etc/ceph/ceph.conf 添加参数rbd_blacklist_on_break_lock=false。
3、清理黑名单ceph osd blacklist clear。

明和公司 四条价值观

客户第一

1、尊重他人,随时随地维护 明和公司形象

2、微笑面对投诉和受到的委屈,积极主动地在工作中为客户解决问题

3、与客户交流过程中,即使不是自己的责任,也不推诿

4、站在客户的立场思考问题,在坚持原则的基础上,最终达到客户和公司都满意

5、具有超前服务意识,防患于未然

团队合作

1、有主人翁意识,积极正面地影响团队,改善团队士气和氛围

2、决策前积极发表建设性意见,充分参与团队讨论,决策后,无论个人是否有异议,必须从言行上完全予以支持

3、积极融入团队,乐意接受同事的帮助,配合团队完成工作

4、善于和不同类型的同事合作,不将个人喜好带入工作,充分体现“对事不对人”的原则

5、积极主动分享业务知识和经验,主动给予同事必要的帮助,善于利用团队的力量解决问题和困难

守时守信

1、守时 ,不浪费时间;

2、严守公司商业机密,维护公司利益

3、通过正确的渠道和流程,准确表达自己的观点;表达批评意见的同时能提出相应建议,直言有讳;

4、不传播未经证实的消息,不背后不负责任地议论事和人,并能正面引导,对于任何意见和反馈“有则改之,无则加勉”

5、勇于承认错误,敢于承担责任,并及时改正

6、对损害公司利益的行为正确有效的制止

艰苦奋斗

1、 顾全大局,不过分计较个人得失

2、 喜欢自己的工作,认同公司价值观

3、 以积极乐观的心态面对日常工作,碰到困难和挫折的时候永不放弃,不断自我激励,努力提升业绩

4、 始终以乐观主义的精神和必胜的信念,影响并带动同事和团队

5、 不断设定更高的目标,今天的最好表现是明天的最低的要求

6、 今天的事不推到明天,上班时间只作与工作有关的事情

7、 遵循必要的工作流程,没有因工作失职而造成的重复错误

8、 持续学习,自我完善,做事情充分体现以结果为导向

9、 能根据轻重缓急来正确安排工作优先级,做正确的事

10、遵循但不拘泥于流程,化繁为简,以较小的投入获得较大的工作成果