做了“负载均衡”就可以随便加机器了吗?
作者:网友投稿 时间:2018-12-03 16:45
前面的一篇分享《如何搭建应对亿级流量的高可用负载均衡?》相信大家看完后对负载均衡的应用有了一些了解。这篇主要为大家解答做了“负载均衡”是否能随便加机器。

下面这个场景不知是否在你面前出现过:
开发Z哥对运维Y弟喊:“Y弟,现在系统好卡,刚上了一波活动,赶紧帮我加几台机器上去顶一下。”
Y弟回复说:“没问题,分分钟搞定”。
然后就发现数据库的压力迅速上升,DBA就吼了:“Z哥,你丫的搞什么呢?数据库要被你弄垮了”。
然后客服那边接框也爆炸了,越来越多的用户说刚登陆后没多久,操作着就退出了,接着登陆,又退出了,到底还做不做生意了。
这些问题背后都是由于一个「Session丢失」问题导致的。
什么是Session丢失
相信Session对大部分Coder来说应该都知道。它是为了将同一个用户的多次访问在系统中被识别为“同一个用户”而产生的概念。除此之外,还可以基于它来减少重复往DB或者远程服务处获取与该用户相关的信息,以起到提升性能的作用。
在我们做了负载均衡的场景中,如果选择的负载策略是hash策略,那么会使得Session产生一个副作用,这个副作用就如上面举的案例那样,用户一旦由于某种原因从原先访问服务器A变成访问服务器B,就会出现“登陆状态丢失”、“缓存穿透”等问题。
为什么hash策略会出现这个问题呢?首先有必要先了解一下hash是如何进行的。hash策略就是下图这样的一个散列函数。在函数不变的情况下,A永远对应01,B对应04,C对应08。

以nginx中的ip_hash策略来举个例子。因为我们认为正常情况下用户的ip不会在短时间内发生变化。
所以当我们选择使用ip_hash策略进行负载均衡时,意味着期望同一个用户能够一直访问到同一台服务器上,就像下图这样:

如此一来,我们只需要在这一台服务器上将这个用户相关的信息缓存在进程内,就能起到非常高性价比的提升性能的效果。
这时,客户端与服务端之间的相当于建立了一个信任,相互认识。这个信任就是「Session」。
但是,当我们加了一台服务器之后,事情就发生变化了,图中的hash函数是最简单的随意举例。

这个时候我们原先的预期就被破坏了。因为用户与序号0节点的链接变成了与序号3的链接,所以产生了前面提到的「Session丢失」问题。
与此同时,在序号0节点上做的进程内缓存都无效了,而在序号3节点上又没有用户相关的任何缓存,导致大量数据需要从下游的DB或者远程服务处获取。
你要知道,一旦涉及到网络通信,性能必然明显下降,I/O、序列化都是耗时的工作。
更重要的是,一旦同时有大量用户产生这个情况,由于后端的DB和远程服务瞬时无法承载激增的高密度请求,可能会导致它挂起。
这还没完,如果当前程序没有一些故障隔离或者降级策略,还会进一步产生蝴蝶效应,导致整个大系统响应缓慢。可谓“一颗老鼠屎坏了一锅粥”。
Nginx如何来解决这个问题的
既然以nginx举例,还是从nginx开始聊。通过在nginx中引入nginx-sticky-module模块可以来解决这个问题。

可以看到,当client第一次进入到nginx匹配节点的时候,在给它分配一个节点的同时,会将这个节点的唯一标识进行md5后写入到cookie中一并返回。
如果下次再发起请求的时候发现带有这个cookie值,就直接转发到该值所对应的节点上去。这个机制被专业的称之为「Session保持」。
虽然可以利用cookie来解决这个问题,但是cookie也有一个潜在的问题,如果客户端未开启cookie功能,这个机制就失效了。不过好在目前主流浏览器都是默认打开cookie的。
题外话:nginx是2004年发布的,在nginx-sticky-module出现之前的7年间也是nginx相比竞品HAProxy最大的一个短板,因为HAProxy支持Session保持。
Session保持的其它方案
除了cookie之外,还有2种方式也可以最终达到类似的效果。分别被称为「Session复制」、「Session共享」。
Session复制
这是最简单粗暴的方式。根据第一节的案例来看,导致问题的原因是节点3没有用户的Session。
那么很容易想到,在节点3运行之前把Session相关的Cache数据复制过去呗。
并且在多个节点之间持续保证数据的同步,也就是说,每一台节点上都存在每个用户的Session数据。




