云服务商是如何保障服务的安全性和可靠性的?

大型网站面临的挑战

大型网站都要面对庞大的用户量,高并发,海量数据等挑战。为了提升系统整体的性能,可以采用垂直扩展和水平扩展两种方式。

  • 垂直扩展:在网站发展早期,可以从单机的角度通过增加硬件处理能力,比如 CPU 处理能力,内存容量,磁盘等方面,实现服务器处理能力的提升。但是,单机是有性能瓶颈的,一旦触及瓶颈,再想提升,付出的成本和代价会极高。这显然不能满足大型分布式系统(网站)所有应对的大流量,高并发,海量数据等挑战。

  • 水平扩展:通过集群来分担大型网站的流量。集群中的应用服务器(节点)通常被设计成无状态,用户可以请求任何一个节点,这些节点共同分担访问压力。水平扩展有两个要点:

    1. 应用集群:将同一应用部署到多台机器上,组成处理集群,接收负载均衡设备分发的请求,进行处理,并返回相应数据。
    2. 负载均衡:将用户访问请求,通过某种算法,分发到集群中的节点。

什么是负载均衡?

负载均衡(Load Balance,简称 LB)是高并发、高可用系统必不可少的关键组件,目标是尽力将网络流量平均分发到多个服务器上,以提高系统整体的响应速度和可用性。

负载均衡的主要作用如下:

  1. 高并发:负载均衡通过算法调整负载,尽力均匀的分配应用集群中各节点的工作量,以此提高应用集群的并发处理能力(吞吐量)。
  2. 伸缩性:添加或减少服务器数量,然后由负载均衡进行分发控制。这使得应用集群具备伸缩性。
  3. 高可用:负载均衡器可以监控候选服务器,当服务器不可用时,自动跳过,将请求分发给可用的服务器。这使得应用集群具备高可用的特性。
  4. 安全防护:有些负载均衡软件或硬件提供了安全性功能,如:黑白名单处理、防火墙,防 DDos 攻击等。

负载均衡的分类

载体维度分类

从支持负载均衡的载体来看,可以将负载均衡分为两类:硬件负载均衡、软件负载均衡。

硬件负载均衡

硬件负载均衡,一般是在定制处理器上运行的独立负载均衡服务器,价格昂贵,土豪专属。硬件负载均衡的主流产品有:F5 和 A10。

优点:

  • 功能强大:支持全局负载均衡并提供较全面的、复杂的负载均衡算法。
  • 性能强悍:硬件负载均衡由于是在专用处理器上运行,因此吞吐量大,可支持单机百万以上的并发。
  • 安全性高:往往具备防火墙,防 DDos 攻击等安全功能。

缺点:

  • 成本昂贵:购买和维护硬件负载均衡的成本都很高。
  • 扩展性差:当访问量突增时,超过限度不能动态扩容。

软件负载均衡

软件负载均衡,应用最广泛,无论大公司还是小公司都会使用。
软件负载均衡从软件层面实现负载均衡,一般可以在任何标准物理设备上运行。
软件负载均衡的 主流产品 有:Nginx、HAProxy、LVS。

优点:

  • 扩展性好:适应动态变化,可以通过添加软件负载均衡实例,动态扩展到超出初始容量的能力。
  • 成本低廉:软件负载均衡可以在任何标准物理设备上运行,降低了购买和运维的成本。

缺点:

  • 性能略差:相比于硬件负载均衡,软件负载均衡的性能要略低一些。

网络通信分类

软件负载均衡从通信层面来看,又可以分为四层和七层负载均衡。

  1. 七层负载均衡

    可以根据访问用户的 HTTP 请求头、URL 信息将请求转发到特定的主机。

    • DNS 重定向
    • HTTP 重定向
    • 反向代理
  2. 四层负载均衡

    基于 IP 地址和端口进行请求的转发。

    • 修改 IP 地址
    • 修改 MAC 地址

DNS 负载均衡

DNS 负载均衡一般用于互联网公司,复杂的业务系统不适合使用。大型网站一般使用 DNS 负载均衡作为 第一级负载均衡手段,然后在内部使用其它方式做第二级负载均衡。DNS 负载均衡属于七层负载均衡。

DNS 即 域名解析服务,是 OSI 第七层网络协议。DNS 被设计为一个树形结构的分布式应用,自上而下依次为:根域名服务器,一级域名服务器,二级域名服务器,… ,本地域名服务器。显然,如果所有数据都存储在根域名服务器,那么 DNS 查询的负载和开销会非常庞大。

因此,DNS 查询相对于 DNS 层级结构,是一个逆向的递归流程,DNS 客户端依次请求本地 DNS 服务器,上一级 DNS 服务器,上上一级 DNS 服务器,… ,根 DNS 服务器(又叫权威 DNS 服务器),一旦命中,立即返回。为了减少查询次数,每一级 DNS 服务器都会设置 DNS 查询缓存。

DNS 负载均衡的工作原理就是:基于 DNS 查询缓存,按照负载情况返回不同服务器的 IP 地址。

DNS 重定向的优点:

  • 使用简单:负载均衡工作,交给 DNS 服务器处理,省掉了负载均衡服务器维护的麻烦
  • 提高性能:可以支持基于地址的域名解析,解析成距离用户最近的服务器地址(类似 CDN 的原理),可以加快访问速度,改善性能

DNS 重定向的缺点:

  • 可用性差:DNS 解析是多级解析,新增/修改 DNS 后,解析时间较长;解析过程中,用户访问网站将失败;
  • 扩展性低:DNS 负载均衡的控制权在域名商那里,无法对其做更多的改善和扩展;
  • 维护性差:也不能反映服务器的当前运行状态;支持的算法少;不能区分服务器的差异(不能根据系统与服务的状态来判断负载)

HTTP 负载均衡

HTTP 负载均衡是基于 HTTP 重定向实现的。HTTP 负载均衡属于七层负载均衡。

HTTP 重定向原理是:根据用户的 HTTP 请求计算出一个真实的服务器地址,将该服务器地址写入 HTTP 重定向响应中,返回给浏览器,由浏览器重新进行访问。

HTTP 重定向的优点:

  • 方案简单

HTTP 重定向的缺点:

  • 性能较差:每次访问需要两次请求服务器,增加了访问的延迟
  • 降低搜索排名:使用重定向后,搜索引擎会视为 SEO 作弊
  • 如果负载均衡器宕机,就无法访问该站点

由于其缺点比较明显,所以这种负载均衡策略实际应用较少

DNS负载均衡是通过域名解析服务,将同一个域名指向多个IP地址,从而将用户的请求分配到不同的服务器上。HTTP负载均衡是通过一个负载均衡器,将用户的请求转发到后端的多个服务器上,根据服务器的负载情况和算法进行选择。

反向代理负载均衡

反向代理(Reverse Proxy)方式是指以代理服务器来接受网络请求,然后将请求转发给内网中的服务器,并将从内网中的服务器上得到的结果返回给网络请求的客户端。反向代理负载均衡属于七层负载均衡。

反向代理服务的主流产品:Nginx、Apache。一般我们使用服务器搭建一些小应用的时候,常常会用到反向代理。

正向代理:发生在客户端,是由用户主动发起的。翻墙软件就是典型的正向代理,客户端通过主动访问代理服务器,让代理服务器获得需要的外网数据,然后转发回客户端。

反向代理:发生在服务端,用户不知道代理的存在。

以 Nginx 为例:

首先,在代理服务器上设定好负载均衡规则。然后,当收到客户端请求,反向代理服务器拦截指定的域名或 IP 请求,根据负载均衡算法,将请求分发到候选服务器上。其次,如果某台候选服务器宕机,反向代理服务器会有容错处理,比如分发请求失败 3 次以上,将请求分发到其他候选服务器上。

反向代理的优点:

  • 多种负载均衡算法:支持多种负载均衡算法,以应对不同的场景需求
  • 可以监控服务器:基于 HTTP 协议,可以监控转发服务器的状态,如:系统负载、响应时间、是否可用、连接数、流量等,从而根据这些数据调整负载均衡的策略

反向代理的缺点:

  • 额外的转发开销:反向代理的转发操作本身是有性能开销的,可能会包括创建连接,等待连接响应,分析响应结果等操作
  • 增加系统复杂度:反向代理常用于做分布式应用的水平扩展,但反向代理服务存在以下问题,为了解决以下问题会给系统整体增加额外的复杂度和运维成本:
    1. 反向代理服务如果自身宕机,就无法访问站点,所以需要有高可用方案,常见的方案有:主备模式(一主一备)、双主模式(互为主备)。
    2. 反向代理服务自身也存在性能瓶颈,随着需要转发的请求量不断攀升,需要有可扩展方案。

IP 负载均衡

IP 负载均衡是在网络层通过修改请求目的地址进行负载均衡。

如上图所示,IP 均衡处理流程大致为:

  1. 客户端请求 192.168.137.10,由负载均衡服务器接收到报文。
  2. 负载均衡服务器根据算法选出一个服务节点 192.168.0.1,然后将报文请求地址改为该节点的 IP。
  3. 真实服务节点收到请求报文,处理后,返回响应数据到负载均衡服务器。
  4. 负载均衡服务器将响应数据的源地址改负载均衡服务器地址,返回给客户端。

IP 负载均衡在内核进程完成数据分发,较反向代理负载均衡有更好的从处理性能。但是,由于所有请求响应都要经过负载均衡服务器,集群的吞吐量受制于负载均衡服务器的带宽。

数据链路层负载均衡

数据链路层负载均衡是指在通信协议的数据链路层修改 mac 地址进行负载均衡。

负载均衡算法

两步:

  1. 根据负载均衡算法在候选服务器列表选出一个服务器
  2. 将请求数据发送到该服务器上

本文仅介绍最为常见的负载均衡算法的特性及原理:轮询、随机、最小活跃数、源地址哈希、一致性哈希。

推荐阅读Dubbo 官方负载均衡算法说明,有源码详解。

随机

随机算法

随机(Random) 算法将请求随机分发到候选服务器。
随机算法 适合服务器硬件相同的场景。学习过概率论的都知道,调用量较小的时候,可能负载并不均匀,调用量越大,负载越均衡。

加权随机算法

由于随机算法可能导致服务器的负载不均匀,尤其是当服务器的性能或资源不一致的时候。想要解决这个问题,可以给每个服务器设置一个权重,表示其相对的处理能力或资源分配。权重越高的服务器,被选中的概率就越大,从而分配更多的请求。

根据服务器的实际情况,动态调整权重,以达到更好的负载均衡效果。例如,如果某个服务器的负载过高,可以降低其权重,减少其被选中的概率,从而缓解压力。反之,如果某个服务器的负载较低,可以提高其权重,增加其被选中的概率,从而提高资源利用率。

轮询

轮询算法

轮询(Round Robin)算法的策略是:将请求依次分发到候选服务器。

如下图所示,负载均衡器收到来自客户端的 6 个请求,(1, 3, 5) 的请求会被发送到服务器 1,(2, 4, 6) 的请求会被发送到服务器 2。

该算法适合场景:各服务器处理能力相近,且每个事务工作量差异不大。如果存在较大差异,那么处理较慢的服务器就可能会积压请求,最终无法承担过大的负载。

加权轮询算法

加权轮询(Weighted Round Robbin)算法在轮询算法的基础上,增加了权重属性来调节转发服务器的请求数目。性能高、处理速度快的节点应该设置更高的权重,使得分发时优先将请求分发到权重较高的节点上。

如下图所示,服务器 A 设置权重为 5,服务器 B 设置权重为 1,负载均衡器收到来自客户端的 6 个请求,那么 (1, 2, 3, 4, 5) 请求会被发送到服务器 A,(6) 请求会被发送到服务器 B。

最小活跃数

最小活跃数(Least Active)算法:将请求分发到连接数/请求数最少的候选服务器(目前处理请求最少的服务器)。

  • 根据候选服务器当前的请求连接数,动态分配
  • 适用于对系统负载较为敏感或请求连接时长相差较大的场景

由于每个请求的连接时长不一样,如果采用简单的轮询或随机算法,都可能出现某些服务器当前连接数过大,而另一些服务器的连接过小的情况,这就造成了负载并非真正均衡。虽然,轮询或算法都可以通过加权重属性的方式进行负载调整,但加权方式难以应对动态变化。

例如下图中,(1, 3, 5) 请求会被发送到服务器 1,但是 (1, 3) 很快就断开连接,此时只有 (5) 请求连接服务器 1;(2, 4, 6) 请求被发送到服务器 2,只有 (2) 的连接断开。该系统继续运行时,服务器 2 会承担过大的负载。

最小活跃数算法会记录当前时刻,每个候选节点正在处理的连接数,然后选择连接数最小的节点。该策略能够动态、实时地反应服务器的当前状况,较为合理地将负责分配均匀,适用于对当前系统负载较为敏感的场景。

加权最小活跃数(Weighted Least Connection)在最小活跃数的基础上,根据服务器的性能为每台服务器分配权重,再根据权重计算出每台服务器能处理的连接数。

最小活跃数算法实现要点:活跃调用数越小,表明该服务节点处理能力越高,单位时间内可处理更多的请求,应优先将请求分发给该服务。在具体实现中,每个服务节点对应一个活跃数 active。初始情况下,所有服务提供者活跃数均为 0。每收到一个请求,活跃数加 1,完成请求后则将活跃数减 1。在服务运行一段时间后,性能好的服务提供者处理请求的速度更快,因此活跃数下降的也越快,此时这样的服务提供者能够优先获取到新的服务请求、这就是最小活跃数负载均衡算法的基本思想。

源地址哈希

源地址哈希(IP Hash)算法:根据请求源 IP,通过哈希计算得到一个数值,用该数值在候选服务器列表的进行取模运算,得到的结果便是选中的服务器。可以保证同一IP的客户端的请求会转发到同一台服务器上,用来实现会话粘滞(Sticky Session)。

  • 保证特定用户总是请求到相同的服务器,若服务器宕机,会话会丢失

一致性哈希

一致性哈希(Consistent Hash)算法的目标是:相同的请求尽可能落到同一个服务器上。

一致性哈希可以很好的解决稳定性问题,可以将所有的存储节点排列在首尾相接的Hash环上,每个key在计算Hash后会顺时针找到临接的存储节点存放。而当有节点加入或退出时,仅影响该节点在Hash环上顺时针相邻的后续节点。

  • 相同的请求是指:一般在使用一致性哈希时,需要指定一个 key 用于 hash 计算,可能是:

    1. 用户 ID
    2. 请求方 IP
    3. 请求服务名称,参数列表构成的串
  • 尽可能是指:服务器可能发生上下线,少数服务器的变化不应该影响大多数的请求,当某台候选服务器宕机时,原本发往该服务器的请求,会基于虚拟节点,平摊到其它候选服务器,不会引起剧烈变动。

Anycast——任播技术

这个技术最成功的应用就是DNS和CDN。在我看来,任播主要有以下两个重要作用:

  • 负载均衡:通过将请求路由到最近的可用服务器,任播能够分摊网络流量,减轻特定服务器的负荷。这在大规模的分布式系统中非常有用,如内容分发网络(CDN)、域名系统(DNS)等,可以提高系统的性能和可扩展性。
  • 近程服务访问:通过在多个地理位置部署相同的服务并使用任播方式路由请求,用户可以访问最近的服务节点,减少访问延迟。这在内容交付、在线购物等需要低延迟的应用中非常重要,可以提供更好的用户体验。

简单来说,使用了任播以后,服务器对外就拥有了同一个IP,对于一个请求,就会使用距离最近的服务器进行响应。

任播使用特殊的路由协议来确定网络中的最近节点,这些节点是一组具有相同任播地址的目标节点。它可以将数据包从源节点发送到一组具有相同任播地址的目标节点中的最近节点。任播的实现依赖于特殊的路由协议,如边界网关协议(BGP),来根据网络拓扑和路由策略来选择最近的节点。任播节点可以位于同一子网或跨越多个网络区域。

关于边界网关协议(BGP)的细节,大家感兴趣请自行了解学习。

总结

上面提到的负载均衡和任播技术,两者相辅相成,它们不仅能有效缓解服务器的压力,还能在很大程度上缓解大规模、大流量的DDos攻击。这两大特性就在一定程度上保障了安全性和可靠性。