PVE集群踩的一些坑

集群脑裂

起因

某天,集群新加了三台机器,于是在终端用 Ansible 跑刚写的 Playbook 进行初始化
等到跑 pvecm add ... 的时候,突然就寄了几台正常的机器

起因2

某天,集群新加了两台机器,有了之前的经验以后,Playbook 去掉了在加入集群,打算在web界面手动加入
因为在web界面粘贴密钥 --> 输入密码 --> 选择网卡 这些步骤太过于繁琐并且还得复制粘贴好多次,所以决定先贴密钥,在贴密码,最后一个一个确认就好
结果..........在第二台机器的web界面上点确定的时候..............

现象

  • Web界面卡住
  • 有机器无法加入集群,并且机器上的数据库与集群的数据库冲突,corosync 一直在panic
  • 除去集群内成功总裁的机器以外(集群数量-总裁数量),其他全部像是内核panic一样的强制重启,在上面的所有虚拟机全部挂掉

解决方案

别批量添加节点,别批量打开web界面,一台一台手动慢慢来

Last change: 2023-10-26, commit: a2dbab2