Redis哨兵

基本概念

Redis哨兵(Sentinel)是Redis提供的一种高可用实现方案,Redis在主从复制下,一旦主节点出现问题,需要人工干预,手动将一个从节点更新为主节点(slaveof no one),同时还要通知应用方新的主节点,让其他从节点去复制新的从节点。这种方式存在弊端大,Redis Sentinel高可用方案就是为了解决这种问题

Redis Sentinel的高可用性

Redis Sentinel是一个分布式架构,其中包含若干个Sentinel节点和Redis数据节点,每个Sentinel节点会对数据节点和其余Sentinel节点进行监控,当它发现节点不可达时,会对节点做下线标识。如果被标识的是主节点,它还会和其他Sentinel节点进行“协商”,当大多数Sentinel节点都认为主节点不可达时,它们会选举出一个Sentinel节点来完成自动故障转移的工作,同时会将这个变化实时通知给Redis应用方。

部署方式

  • 首先部署主节点和从节点
  • 部署sentinel节点
    在Redis安装目录下有一个sentinel.conf的文件,是默认的sentinel节点配置文件,对其进行复制和修改
  • 启动Sentinel节点

    Sentinel节点默认的端口是26379

启动节点的方式有两种:

  1. 使用redis-sentinel命令

    redis-sentinel sentinel配置文件.conf

  2. 使用redis-server命令加上--sentinel参数

    redis-server sentinel配置文件.conf —sentinel

每个sentinel节点会对主节点和所有从节点进行监控,同时Sentinel节点之间也会相互监控

Sentinel相关配置

  • port :端口
  • dir:Sentinel工作目录
  • sentinel monitor:master-name是对要监控的节点起一个名字,quorum是用于判断主节点最终不可达需要的票数。
sentinel monitor <master-name> <ip> <port> <quorum>

领导者选举至少要有sentinel节点个数/2+1和quorum的较大值个节点,才能选举出领导者

如果一个Sentinel要监控多个主节点,只需要指定多个masterName来区分不同的主节点即可,即写两个sentinel monitor

动态调整

Sentinel提供了sentinel set命令用于动态设置参数

sentinel set <param> <value>
  1. sentinel set 命令只对当前Sentinel节点有效
  2. sentinel set命令如果执行成功会立即刷新配置文件,和Redis普通数据节点需要执行config rewrite刷新配置文件不同

API

Sentinel节点是一个特殊的Redis节点,有自己专属的API

  1. sentinel masters:展示所有被监控的主节点状态以及相关的统计信息
  2. sentinel master masterName:展示指定的主节点状态以及相关的统计信息
  3. sentinel slaves masterName:展示指定主节点的从节点状态及相关统计信息
  4. sentinel get-master-addr-by-name masterName:返回指定主节点的IP地址和端口
  5. sentinel sentinels masterName:展示指定的Sentinel节点集合(不包含当前Sentinel节)
  6. sentinel failover masterName:对指定主节点进行强制故障转移(没有和其他Sentinel节点“协商”),当故障转移完成后,其他Sentinel节点按照故障转移的结果更新自身配置

实现原理

三个定时监控任务

Redis Sentinel通过三个定时监控任务完成对每个节点发现和监控

  1. 每隔10秒,每个Sentinel节点会向主节点和从节点发送info命令获取最新的拓扑结构,Sentinel节点可以通过info replication的结果进行解析找到相应的从节点。
    该定时任务的作用:
  • 通过向主节点执行info命令,获取从节点的信息,这也是为什么 Sentinel节点不需要显式配置监控从节点
  • 当有新的从节点加入时都可以立刻感知出来。
  • 节点不可达或者故障转移后,可以通过info命令实时更新节点拓扑信息。
  1. 每隔2秒,每个Sentinel会向Redis数据节点的__sentinel__:hello频道发送该Sentinel节点的信息,同时每个Sentinel节点也会订阅该频道,来了解其他Sentinel节点以及他们对主节点的判断
    该定时任务的作用
  • 发现新的Sentinel节点:通过订阅主节点的__sentinel__:hello了解其他 的Sentinel节点信息,如果是新加入的Sentinel节点,将该Sentinel节点信息保存起来,并与该Sentinel节点创建连接
  • Sentinel节点之间交换主节点的状态,作为后面客观下线以及领导者选举的依据。
  1. 每隔1秒,每个Sentinel节点会向主节点、从节点、其余Sentinel节点发送一条ping命令做一次心跳检测,来却仍这些节点当前是否可达。
    该定时任务的作用:
    通过对上面的定时任务,Sentinel节点对主节点,从节点,其余Sentinel节点都建立起连接,实现对每个节点的监控,这个定时任务是节点失败判定的重要依据。

主观下线和客观下线

主观下线

每个Sentinel节点每隔1秒对主节点、从节点、其他Sentinel节点发送ping命令做心脏检测,当这些节点超过down-after-milliseconds没有进行有效恢复时,Seintinel节点会对该节点做失败判定,这个行为称为主观下线。

客观下线

当Sentinel主观下线的节点是主节点时,该Sentinel节点会通过sentinel is-master-down-by-addr命令向其他Sentinel节点询问对主节点的判断。当超过quorum个数Sentinel节点认为主节点确实有问题,这时就会做出客观下线的决定

关于sentinel is-master-down-by-addr命令

sentinel is-master-down-by-addr <ip> <port> <current_epoch> <runid>
  • current_epoch:当前配置纪元
  • runid:此参数有两种类型:
    1. 当runid等于*时,作用是Sentinel节点直接交换对主节点下线的判定。
    2. 当runid等于当前Sentinel节点的runid时,作用是当前Sentinel节点希望目 标Sentinel节点同意自己成为领导者的请求

此命令返回结果包含三个参数:

  • down_state:目标Sentinel节点对于主节点的下线判断,1是下线,0是在线
  • leader_runid:当leader_runid等于“*”时,代表返回结果是用来做主节点是否不可达,当leader_runid等于具体的runid,代表目标节点同意runid成为领导者。
  • leader_epoch:领导者纪元。

领导者Sentinel节点的选取

1. 每个在线的Sentinel节点都有资格成为领导者,当它确认主节点主观下线时候,会向其他Sentinel节点发送`sentinel is-master-down-by-addr`命令, 要求将自己设置为领导者。
2. 收到命令的Sentinel节点,如果没有同意过其他Sentinel节点的sentinel is-master-down-by-addr命令,将同意该请求,否则拒绝。
3.  如果该Sentinel节点发现自己的票数已经大于等于max(quorum, num(sentinels)/2+1),那么它将成为领导者。 
4. 如果此过程没有选举出领导者,将进入下一次选举。

事实上每个Sectinel只有一票,会最先给发起请求的节点。基本上谁先完成客观下线,就会成为领导者

故障转移

  1. 在从节点列表中选出一个节点作为新的主节点,选择方法如下:
  • 过滤:“不健康”(主观下线、断线)、5秒内没有回复过Sentinel节点ping响应、与主节点失联超过down-after-milliseconds*10秒。
  • 选择slave-priority(从节点优先级)最高的从节点列表,如果存在则返回,不存在则继续。
  • 选择复制偏移量最大的从节点(复制的最完整),如果存在则返回,不存在则继续。
  • 选择runid最小的从节点。
  1. Sentinel领导者节点会对第一步选出来的从节点执行slaveof no one命令让其成为主节点。
  2. Sentinel领导者节点会向剩余的从节点发送命令,让它们成为新主节点的从节点,复制规则和parallel-syncs参数有关
  3. Sentinel节点集合会将原来的主节点更新为从节点,并保持着对其关注,当其恢复后命令它去复制新的主节点。