交换机升级导致部分网络通信超时, 集群的namenode主从切换后,主namenode进程被杀死。
网络问题导致namenode与zk间的连接超时触发了hadoop集群的防脑裂机制而主动kill掉了超时的namenode进程。

日志分析发现zk和namenode之间的网络连接超时:

超时触发了namenode切换,并将超时的active状态的namenode杀掉来防止集群脑裂。查看日志发现namenode切换为active之前为了防止集群脑裂,主动ssh到原来的namenode集群上把namenode端口杀掉了。 日志如下:

集群就直接ssh到强制kill原namenode进程














![P2196 [NOIP1996 提高组] 挖地雷](https://img-blog.csdnimg.cn/2ce5d94f700443b99ad82c99988c452c.png)





