一、概述
 
        故障转移是指在集群中某个节点发生故障时,自动将服务转移到其他正常节点上的
 
过程。在MariaDB高可用集群中,通常使用主从复制的方式来实现故障转移。其中一个
 
节点被指定为主节点,负责处理所有的写操作和部分读操作,其他节点作为从节点,负
 
责复制主节点的数据并处理读操作。当主节点发生故障时,集群中的其他节点会自动选
 
举一个新的主节点,接管服务。
 
二、步骤流程
 
1. 检测故障:集群中的监控组件会定期检测各个节点的状态,一旦发现某个节点不可用,就会触发
 
故障转移的流程。
 
2. 选举新的主节点:当主节点发生故障时,集群中的其他节点会通过选举算法选择一个新的主节
 
点。选举算法通常基于节点的健康状态和性能指标,确保选出的节点能够正常提供服务。
 
3. 数据同步:新的主节点被选出后,从节点会与新的主节点进行数据同步,确保数据的一致性。这
 
通常通过主从复制的方式实现,新的主节点将自己的数据变更同步给从节点。
 
4. 客户端重连:一旦故障转移完成,客户端需要重新连接到新的主节点,以继续进行数据库操作。
 
三、准备工作
 

 
1、mariadb完成主从复制 (主从复制有问题的话可以去看我之前的文章哦)
 
2、关闭防火墙
 
3、mariadb服务器上安装mha4mysql-node
 
4、5台服务器完成ssh免密登录
 
5、manager节点安装mha4mysql-manager
 
四、部署
 
1、四台mariadb创建mha监控用户
 
grant all privileges on *.* to 'root'@'192.168.77.%' identified  by '123456'
 
2、为自己的主机授权
 
grant all privileges on *.* to 'root'@'syh1' identified  by '123456';
grant all privileges on *.* to 'root'@'syh2' identified  by '123456';
grant all privileges on *.* to 'root'@'syh3' identified  by '123456';
grant all privileges on *.* to 'root'@'syh4' identified  by '123456';
 
3、更新mariadb权限
 
flush privileges;
 
4、部署manager管理节点
 
mkdir /etc/masterha  创建配置目录复制模板文件
cp mha4mysql-manager-0.56/samples/conf/app1.cnf /etc/masterha 复制manager的配置文件到etc下
 
修改配置文件
[server default]
manager_workdir=/var/log/masterha/app1    #设置manager的工作日志
manager_log=/var/log/masterha/app1/manager.log  #设置manager的日志,这两条都是默认存在的
master_binlog_dir=/var/lib/mysql  #设置master默认保存binlog的位置,以便MHA可以找到master日志
master_ip_failover_script= /usr/local/bin/master_ip_failover #设置自动failover时候的切换脚本
password=123456   #设置mysql中root用户的密码
user=root
ping_interval=1   #ping包的时间间隔
remote_workdir=/tmp  #设置远端mysql在发生切换时保存binlog的具体位置
repl_password=123456  #设置复制用户的密码和用户名(这个是主从复制用的那个用户)
repl_user=repl
[server1]
hostname=syh1          提供服务的主机
port=3306              监听的端口号
[server2]
hostname=syh2
candidate_master=1     声明这个服务器是主的候选
port=3306
check_repl_delay=0      
[server3]
hostname=syh3
port=3306
[server4]
hostname=syh4
port=3306
 

 
5、编辑故障转移脚本
 
vim /usr/local/bin/master_ip_failover
#!/usr/bin/env perl 
use strict; 
use warnings FATAL => 'all'; 
use Getopt::Long; 
my ( 
$command, $ssh_user, $orig_master_host, $orig_master_ip, 
$orig_master_port, $new_master_host, $new_master_ip, $new_master_port, 
); 
my $vip = '192.168.77.100';          	这个是虚拟IP 只要是本网段的就可以
my $key = "1"; 	
my $ssh_start_vip = "/sbin/ifconfig ens33:$key $vip";
my $ssh_stop_vip = "/sbin/ifconfig ens33:$key down"; 
$ssh_user = "root"; 
GetOptions( 
'command=s' => \$command, 
'ssh_user=s' => \$ssh_user, 
'orig_master_host=s' => \$orig_master_host, 
'orig_master_ip=s' => \$orig_master_ip, 
'orig_master_port=i' => \$orig_master_port, 
'new_master_host=s' => \$new_master_host, 
'new_master_ip=s' => \$new_master_ip, 
'new_master_port=i' => \$new_master_port, 
); 
exit &main(); 
sub main { 
print "\n\nIN SCRIPT TEST====$ssh_stop_vip==$ssh_start_vip===\n\n"; 
if ( $command eq "stop" || $command eq "stopssh" ) { 
# $orig_master_host, $orig_master_ip, $orig_master_port are passed. 
# If you manage master ip address at global catalog database, 
# invalidate orig_master_ip here. 
my $exit_code = 1; 
#eval { 
# print "Disabling the VIP on old master: $orig_master_host \n"; 
# &stop_vip(); 
# $exit_code = 0; 
#}; 
eval { 
print "Disabling the VIP on old master: $orig_master_host \n"; 
#my $ping=`ping -c 1 10.0.0.13 | grep "packet loss" | awk -F',' '{print $3}' | awk '{print $1}'`; 
#if ( $ping le "90.0%"&& $ping gt "0.0%" ){ 
#$exit_code = 0; 
#} 
#else { 
&stop_vip(); 
# updating global catalog, etc 
$exit_code = 0; 
#} 
}; 
if ($@) { 
warn "Got Error: $@\n"; 
exit $exit_code; 
} 
exit $exit_code; 
} 
elsif ( $command eq "start" ) {
# all arguments are passed. 
# If you manage master ip address at global catalog database, 
# activate new_master_ip here. 
# You can also grant write access (create user, set read_only=0, etc) here. 
my $exit_code = 10; 
eval { 
print "Enabling the VIP - $vip on the new master - $new_master_host \n"; 
&start_vip(); 
$exit_code = 0; 
}; 
if ($@) { 
warn $@; 
exit $exit_code; 
} 
exit $exit_code; 
} 
elsif ( $command eq "status" ) { 
print "Checking the Status of the script.. OK \n"; 
`ssh $ssh_user\@$orig_master_ip \" $ssh_start_vip \"`; 
exit 0; 
} 
else { 
&usage(); 
exit 1; 
} 
} 
# A simple system call that enable the VIP on the new master 
sub start_vip() { 
`ssh $ssh_user\@$new_master_host \" $ssh_start_vip \"`; 
} 
# A simple system call that disable the VIP on the old_master 
sub stop_vip() { 
`ssh $ssh_user\@$orig_master_host \" $ssh_stop_vip \"`; 
} 
sub usage { 
print 
"Usage: master_ip_failover --command=start|stop|stopssh|status --orig_master_host=host --orig_master_ip=ip --orig_master_port=port --
new_master_host=host --new_master_ip=ip --new_master_port=port\n"; }
 

 

 
五、检查mha的状态
 
1、检查MHA ssh通信状态(返回 successfully表示没有问题)
 
masterha_check_ssh --conf=/etc/masterha/app1.cnf
 

 
 2、检查整个集群的状态(返回IS OK表示没有问题)
 
 masterha_check_repl --conf=/etc/masterha/app1.cnf
 

 
3、检查manager状态
 
如果正常会显示"PING_OK"
 
NOT_RUNNING",代表MHA监控没有开启
 
masterha_check_status --conf=/etc/masterha/app1.cnf  检查命令
开启命令
nohup masterha_manager --conf=/etc/masterha/app1.cnf --remove_dead_master_conf --ignore_last_failover< /dev/null >/var/log/masterha/app1/manager.log 2>&1 &
 
 六、测试
 
首先停掉主服务器的状态
 

 
查看配置文件 (可以看到server1的配置文件已经没有了 server2变成了master)
 

 
 再去mariadb中查看从的状态(可以看到主服务器的IP已经变成了113)
 

 
查看现在这个主的IP(可以看到他的ip地址中多了一个100的IP 这个就是我们在脚本中定义的VIP ip)
 

 
 
以上就是mha高可用集群的故障转移的操作
 
如有问题欢迎各位大佬批评指正,我们共同进步