2010-08-22
Brain Split?
真正出现脑裂的几率并不高,但确实让我们碰上了。2个月前为一套AIX6.1上的10.2.0.4双节点RAC系统做故障测试,主要内容是拔除RAC interconnect网线,测试CRS能否正确处理私有网络挂掉的情况。 正式测试时发现2台主机都没有重启,而两端的CSS都认为对方节点已经down了。这就造成2个节点都以为自身是幸存者,也就是我们说的脑裂(brain split),此时实例一般会因为LMON进程的缘故而hang住。 我们来比对当时2个节点上的日志进一步分析: STEP 1 :20:41:19物理拔出网线后,节点间无法正常通信,进入misscount倒计时600s 节点1: [ CSSD]2010-06-22 20:41:21.465 [3342] >TRACE: clssnmPollingThread: node gis2…
#POST
9 MIN READ