双11大队长霜波:从手忙脚乱到胸有成竹,我们如何走过这十年?
作者:媒体转发 时间:2018-11-08 16:33

2018年,双11迎来了十周年。
十年间,依赖于迅速崛起的互联网技术以及各项新兴技术的沉淀,阿里巴巴缔造了全球数字经济时代的第一“操作系统”。在这个操作系统上,让全球消费者和商家买、卖、逛、听、看、游得顺心、放心、舒心。
十年间,阿里巴巴的技术同学和全球开发者们,一起把互联网前沿技术转化为全球消费者、全球数字经济参与者可以感知的便利。
它如今已经不仅仅是全球消费者的狂欢节,更是名副其实的全球互联网技术的演练场。
第十个双11即将来临之际,阿里技术推出《十年牧码记》系列,邀请参与历年双11备战的核心技术大牛,一起回顾阿里技术的变迁。
今天,天猫技术质量部资深总监、双11大队长霜波,将带领大家,细数每一年双11的重要节点和突破,遗憾与不足。我们相信,无论是双11,还是你正在经历的项目,都需要敬畏和细致的态度。所有的成功,一定是每个人极致努力的结果。

双11大队长霜波
2009年
2009年是淘宝商城成立的第二年,这一年的秋天,运营的同学想搞一场营销活动,逍遥子喜欢四个一,而11.11又是网民创造的“光棍节”,所以就选择了这一天。谁也没有想到,这样一个带着点随意的选择,竟然在若干年后成为影响中国乃至全球的大事件,造就了电商行业最具影响力的品牌——双11。
第一届双11的活动口号是全场五折,拉了几十个商户参加,未曾想效果惊人,淘宝商城的成交额是平时的十倍。幸运的是,在2009年初,“五彩石”项目,将淘宝和商城的系统底层架构统一了,虽然商城的成交额增加十倍,但由于基数还比较小,这个成交额和淘宝的日常成交额比起来并不大,因此系统上没有出现特别重大的事故。
尽管如此,暴增的流量还是让工程师们措手不及。采访当年第一届的工程师四虎时,他回忆说:“第一年双11,作为交易系统的owner,接到老板指示,光棍节要搞个活动,你值一下班。那年我们啥都没做,就坐在那看服务器的情况。0点一到,发现服务器流量暴增,一下子服务器就挂了。我们就手忙脚乱地去重启服务器,恢复系统。系统起来后,发现店铺和商品图片又出不来了。第一次双11,可以说完全是意料之外,没有做任何准备的,不仅仅是把我们的交易和商品系统压挂了,同时把很多商家的外部图片空间也给压挂了。服务器容量、网络带宽容量、系统保护都是没有的。”
2010年
吸取了上一年的经验,2010年双11之前技术部门专门成立了大促小分队,负责保障稳定性的同学在创业大厦10楼集中办公。那一年,高峰不在0点,而是出现在第二天白天,早上10点左右CDN的容量很快达到上限,图片展示越来越慢,眼看就要出不来了。大家紧张起来,激烈地讨论还有什么办法。有人提出搜索的图片展示占了很大的容量,可以将搜索的大图降级为小图。然后给搜索的负责人打电话,通知他:“对不起了,我们要对搜索的图片降级了,双11结束就给你们恢复过来。”这一招帮助当年的双11渡过了容量的最大风险。
之后,每一年的搜索大图降级小图都成了双11的必备降级方法之一,虽然后面再也没有启用过。同时,每一年双11之前CDN都会拉一个大会,让所有业务评估自己双11当天的CDN使用量,提早2个月就开始扩容的准备。“所有的苦难都是用来帮助我们成长的”,这句话用在双11当中特别合适。
四虎回忆第二年的情景:“第二年,我们开始有了心理准备,预计流量是平时的3倍5倍,但是实际流量远远超出我们的想象,达到了平时流量的十几倍。不过基于前一年的经验,这一年我们做了很多工作,分布式系统的防雪崩、核心系统的自治,这些技术改进让我们的系统比上一年好了很多,虽然0点高峰还是出现大量的购买失败,但是服务器没有大面积宕机,流量下降后能够继续良好地服务。”
2011年
2011年淘宝商城成为独立的事业部,双11对于刚刚成立的淘宝商城技术部已经是一件相当重要的大事,各团队提早几个月就开始准备,并且上线了第一期的价格申报系统,完成了双11的商家商品报名的工作,一切似乎都很顺利,可是……
11月10日晚上23点,有人反馈设置的优惠价格写错了,3折的商品写成了0.3折。


