云原生芯片创新加速,亚马逊云科技重构云计算格局

2022-12-05 16:51 36氪

来源:36氪

这俨然是激情澎湃的演唱会现场。
四天的时间里、这里有音乐节、冬令营、运动会、还有各种有趣的黑科技和行为艺术。


在被戏称为“云计算春晚”的亚马逊云科技re:lnvent 大会上,永远不缺乏天马行空的灵感碰撞。

相比之下,5场主题演讲、22场决策者论坛、700+前沿技术话题、以及年度重量级新技术发布倒像是配角了。

但是,让业界翘首以盼的重磅发布绝不会缺席,毕竟这里还是云计算的“行业风向标”。

而且,本届 re:lnvent 大会首发新品的密度远超往届,突破性的创新覆盖了云计算的方方面面。

在北京时间11月30日凌晨0:30开始的亚马逊云科技 CEO Adam Selipsky 主题演讲中,为时2小时全程共发布了16款新品,不止数量让人咋舌,亚马逊云科技对于创新和探索的理解更是发人深省。

Adam Selipsky 在演讲中广征博引,从太空探索(数据服务的广度)、到人类对大洋深处未知世界进行的持续探寻(安全服务的深度),再到上世纪初英国、挪威探险队对于南极腹地发起的探险竞赛(计算性能在极限条件的表现)以及作家J.R.R Tolkien通过研究不同的文明和语言,把他们连接起来,然后创造了魔戒的故事 (行业应用的无限可能)。

演讲中,Adam Selipsky 谈到:当亚马逊云科技在不同的领域进行探索时,客户告诉我们如何对待从来没有进入过的领域,我们帮助客户获得大量数据进行更好的洞察,在非常极端的情况下挑战极限、探索无限可能。我们共同持续探索,在不同环境中取得更好的成绩,在探索中改变改变行业,甚至未来。

值得注意的是,演讲中,对于全球可持续发展及碳中和的思考和实践贯穿始终,既有Engie这样的零碳行业客户案例分享,又有 Amazon SimSpace Weaver 这样面向数字地球的重磅仿真应用发布。亚马逊已经是全球最大的可再生能源企业级采购商,在其所启用的超过12000兆瓦可再生能源容量基础上,每年能够减少1370万吨的碳排放,这个数字相当于300万辆汽车一年的碳排放量。


亚马逊云科技将信心和能力通过产品、服务的不断创新,与客户共同推动云计算产业的可持续发展。Adam Selipsky 表示,尽管亚马逊云科技目前已经提供超过200项云服务,但创新还远没有结束。“我不知道什么时候会是终点。”他说,“我们不断发布新服务,因为客户需要,他们希望我们提供这些服务。同时,我们也付出了巨大的努力在现有服务中不断增加新功能。这两个方面都很重要。”
从17年前亚马逊云科技开创了云计算市场,计算和存储能力可以像水电一样随取随用,到今天,云计算已经通过海底电缆、卫星网络无死角的覆盖整个地球。re:lnvent十一年的历史中承载着Serverless、云原生、云+AI等几乎所有关于云计算的前沿探索。


而这些对于亚马逊云科技永远是不断探索的起点。

1关于极限挑战

摩尔定律,在1965年由英特尔联合创始人戈登·摩尔(Gordon Moore)提出,揭示了计算能力相对于时间周期呈指数式的上升的规律,为公众所熟知的解读是“微处理器的性能每隔18个月提高一倍,而价格下降一半”。

2005年CPU高主频竞赛结束之后,尽管凭借多核设计及制程工艺的提升,芯片性能仍然保持增长,但摩尔定律却明显开始放缓。2014年,在从14nm进入10nm制程的节点,芯片大厂们遇到了史无前例的麻烦,两年一次的芯片架构和工艺升级一再拖延,摩尔定律也被认为即将失效。

2015年,亚马逊云科技已无疑是云计算市场的领导者,占据了全球31%的市场份额,比其后二到五位的份额加在一起还要多。也是这一年,亚马逊云科技开始布局将影响未来十年甚至更久的全新云计算硬件架构。在以3.5亿美元收购以色列芯片公司Annapurna Labs之后,亚马逊云科技的芯片设计逐渐覆盖了全方位设计;2017年推出了新一代Nitro系列基础平台。接下来是基于Arm架构的Graviton芯片机器学习推理芯片Inferentia、以及机器学习训练芯片Trainium。

至此,亚马逊云科技的自研芯片已全面覆盖三大产品线:并且都在快速发展中,到今天,虚拟化芯片nitro发展到第五代,云通用处理器Graviton发展到第三代,AI/ML产品线,包括发展到第二代Inferentia推理芯片、和第一代Trainium训练芯片。

亚马逊云科技首席执行官 Adam Selipsky 曾表示,“尽管我们已经如此努力地创新,但我们依然意识到,如果希望针对所有可能的工作负载彻底变革计算的性价比,我们需要彻底重新思考实例。为了实现这个目的,我们需要深入底层技术,一直到芯片。因此,我们开始自己设计基于 Arm 的芯片。

”亚马逊云科技一直在探索,一直在创新,也一直在快速发展云计算的硬件核心。2021年发布的Graviton3已经成为重要的创新芯片,集成了大约550亿个晶体管,相比Graviton2单核性能提升25%,浮点性能提升2倍,加解密性能提升2倍,机器学习性能提升3倍。今年的re:lnvent 2022上又推出了针对高性能计算优化的Graviton3E,相比现有 Graviton3系列,针对机器学习中的浮点和矢量数学计算有更高的性能提升,在HPL基线测试中,工作负载的性能提高35%。

“我们一直在创新。” 亚马逊云科技高级副总裁 Peter DeSantis 强调:“在不牺牲安全的情况下,不断降低我们的成本,同时提高我们的性能,让客户及应用获得更好的体验。”

re:lnvent 2022重磅发布了Nitro v5系统,比起上一代,晶体管数量比前一代增加了一倍,提供了更高的计算性能,同时带来50%的 DRAM 内存性能提升,2倍的PCle 带宽提升,改善30%延迟,同时每瓦性能提高40%,PPS 提高60%。

目前,在Nitro系统的加持下,亚马逊云科技已发布超过600款计算实例,可以几乎满足一切云上负载的需求,每天更是有超过6000万个新的EC2实例在亚马逊云科技上被创建。

传统高性能计算市场出现全新的竞争格局。

基于 Graviton3E 芯片,亚马逊云科技推出了面向高性能计算的 HPC7g ,最多具有64个 vCPU和128GiB 内存,适用于天气预报、生命科学、工程计算等高性能计算场景,以及支持高达200Gbps 的网络带宽,可以提高50%的数据包处理性能的C7gn ,为要求更为严苛的网络虚拟设备、数据分析和紧密耦合的集群计算等,网络密集型作业场景而设计。

在分布式环境下运行高性能计算,网络也成为了关键。Peter DeSantis 正式介绍了亚马逊云科技的 SRD for Everything的策略。SRD(Scalable Reliable Datagram )基于 Nitro 硬件进行了调整和优化,协议使用了多路径路由,支持在数据包乱序到达时进行快速整理,提供优于TCP的性能。SRD 作为亚马逊云科技核心加速的基础创新,已经不仅用于网络加速功能,还支持 EFA 高性能计算、EBS io2型存储等,以全面提升性能。

Adam Selipsky 用实例展示了亚马逊云科技所应对的各种极端环境,比如:F1赛车有5亿个不同的数据点需要得到监控,从60到12个小时的减少时间;Epic Game 需要支持上亿个不同的玩家,所以他们有很多的要求,他们需要处理成亿的不同的要求,亚马逊云科技要给他们提供非常小的延迟;Nielsen 每天有数十亿的数据需要处理。

亚马逊云科技无法模仿的增长飞轮

亚马逊云科技不在高性能、高安全性和低成本这三方面进行妥协,在选择悖论中,亚马逊云科技给出的答案是:通过自身技术的不断演进和创新,让云计算可以兼顾高性能、高安全性和低成本。亚马逊云科技也不断将规模与技术的红利反馈给客户,从2006年起到2022年4月,亚马逊云科技宣布降价115次,不断降低云上成本。

2引领Serverless时代

Peter DeSantis 回顾了2014年以来Serverless 计算的发展历史。至今,亚马逊云科技已累计发布了超过100款新的功能,活跃用户超过100万,同时每月的调用请求量超过100万亿次。在2021年12月re:lnvent发布了4个Serverless服务组件,包括EMR Serverless、Redshift Serverless、MSK Serverless、Kinesis on-demand。


今年的re:Invent上,Adam Selipsky 正式发布了Amazon OpenSearch Serverless(Preview),支持Serverless 化的数据分析服务又增加了一员。亚马逊云科技已经先后在数据分析PaaS服务领域实现了数据仓库、大数据平台、流式数据分析的Serverless化,从而将整个数据Serverless能力拓展到了全栈。
Serverless的演进践行了端到端数据旅程,数据服务与人工智能是Serverless创新的新高地,亚马逊云科技全程领跑,已经率先完成了Serverless在云服务上的全面布局。亚马逊云科技通过Serverless的不断创新,降低开发门槛,提升构建效率,使得Serverless成为云计算的新常态。


由亚马逊云科技引领的Serverless时代已经全面到来

Serverless并不仅是计算,更是一种端到端的架构。除计算服务Lambda外,亚马逊云科技提供了全栈式的Serverless服务,广泛覆盖计算、存储、网络、容器、数据库、应用集成等多个方面,帮助客户快速构建现代化应用。

这些领域的客户正在受益于Serverless架构的不断创新,各行各业拥抱Serverless也成为不可逆转的趋势。

Serverless让开发者可以更关注于构建产品中的应用,而不需要管理和维护底层堆栈,相比传统云计算带来更大的成本优势,因此Serverless被誉为“开发新应用最快速的方式,同时也是总成本最低的方式”。

2019年,亚马逊云科技发布了 Amazon Lambda 的“预置并发(Provisioned Concurrency)”功能,它允许亚马逊云科技 Serverless 计算用户使其函数保持“已初始化”的状态,极大程度地减少了工作负载突然增加时的扩容时间,这种技术突破也意味着行业达到一个成熟点。

而今年re:lnvent 大会上,亚马逊云科技更进一步布的发Amazon Lambda SnapStart 则实现高达90%的冷启动延时,将 Lambda 函数冷启动持续时间降低至不到200毫秒,让用户几乎可以无感知的实现应用的扩展。

3从万物上云到云原生

今年以来,AIGC借助图片生成领域的爆款应用成功出圈,让整个人工智能领域看到了向2.0阶段跃进的希望。

Stability AI的图片生成引擎由其开源算法Stable Diffusion驱动,其用关键词生成的图片不但拿到了比赛大奖,还让美工、设计师们感受到了空前的竞争压力。


Stable Diffusion在训练阶段就跑了15万个GPU时,商业化之后Stability AI迅速和亚马逊云科技合作建了一个4000块A100组成的大型云计算集群。
而下一步,Stability AI凭借着超强的算力资源,雄心勃勃准备进军下一个热门领域AI for Science,已经聚集了EleutherAI和LAION等知名开源项目,以及生物模型OpenBioML、音频生成Harmonai、人类偏好学习Carperai等更多前沿探索。


未来使用扩散模型去生成DNA序列,更将是有望惠及全球数十亿人的研究方向。

Stability AI的成功绝不是偶然,AI与云计算的高度融合正在推动各类应用快速落地,过去是把各种应用迁移到云端,而现在应用本身向云原生演进已经为更具前瞻视野的科技大厂们共识。

云原生应用不只是在云端训练算法,而是在云端集成整个开发、交付、部署、运维的全过程。

AI采用云原生开发环境,既可以大幅缩减配置服务器的开销,又可以节约海量训练数据的传输成本。

使用亚马逊云科技的重磅产品Amazon SageMaker,在浏览器中即可轻松部署预训练模型,此后的微调模型和二次开发过程更可省去繁琐的配置。

在Gartner近期发布的《Solution Comparison for Cloud Data Science and Machine Learning Platforms》报告中,对多个数据科学和机器学习平台从不同维度共52项标准进行了对比。

Amazon SageMaker作为一个综合性的数据科学和机器学习平台,凭借着包括JumpStart在内的强大的端到端DSML全生命周期功能,获得了核心标准95分,竞争标准90分的高分。

4开放世界承载未来十年云计算的创新


日前,亚马逊旗下游戏公司Amazon Games公布了开放世界游戏“新世界New World ”的最新数据,作为一款完全诞生于云端的3A级MMO游戏大作,在Steam平台首周线就有超过90万玩家同时在线,位列 Steam 历史 TOP5,在过去一年中玩家总计在游戏中投入了5.69亿小时。
亚马逊云科技为新世界 New World 的几乎所有工作负载提供了安全和弹性的计算能力,并使得每秒模拟、重绘、分析和处理用户状态和行动达到了30次,远超传统MMO游戏的数值。


新世界New World 已经开始践行全Serverless架构。

新世界New World 是一款非常复杂的大规模分布式实时游戏,处理30次 /s 的动作或状态,重绘和计算需要大量的 CPU 资源。

90万玩家同时在线对无服务器的性能提出了非常大的挑战 ,Serverless架构在多人游戏中发挥了非常重要的作用。Amazon Lambda 达到了每分钟1.5亿次的调用频率,这比行业里的平均水准高出数倍。

通过每30秒80万次写入将用户的状态存储在 Amazon DynamoDB 中,这样用户即使意外中断游戏也能及时恢复到之前的游戏状态。同时通过日志记录用户操作,然后使用 Amazon Kinesis 传输日志事件,速度可达2300万事件 / 分钟,随后将事件流推送到 Amazon S3中,再用 Amazon Athena 进行分析处理。

亚马逊云科技的全Serverless架构使游戏团队可即时预测游戏用户行为和更改游戏中的策略。游戏环境中的运营,比如登录、交易、通知等操作事件,则都是通过 Amazon Lambda 无服务器计算来实现的。

构建云原生的游戏开发、测试环境,再到发行和云游戏服务,这几乎是一个完美的闭环。

再进一步来看,游戏是大范围开放世界的雏形,而开放世界的未来是元宇宙。

尽管元宇宙目前可能连雏形都还不具备,但在彭博行业研究报告预计元宇宙将在2024年达到8000亿美元市场规模,普华永道则预计元宇宙市场规模在2030年将达到1.5万亿美元。

未来任何一家科技巨头都不会希望错过这个风口,不但游戏化内容和游戏引擎的重要性愈发凸显,云计算作为元宇宙最底层的基石更将起到决定性的作用。

如果我们仔细看看头部云计算企业的近期动态,就会发现关于元宇宙的种种技术支撑正在云端成为现实。

2021亚马逊云科技 re:Invent,亚马逊云科技发布了 Amazon IoT TwinMaker 与 Amazon Private 5G,可以让开发人员可以轻松汇集来自多个来源的数据,并将这些数据结合起来创建一个知识图谱,对现实世界环境进行建模,也是构建工业元宇宙的底层应用。


今年,全新发布的 Amazon Simspace Weaver ,只需要简单的几个操作就能在云端运行大规模空间模拟工作,支持主流3D 引擎,包括 Unreal Engine 和 Unity。该服务旨在将仿真开发人员从他们自己的硬件限制中解放出来。使用SimSpace Weaver,可以创建无缝的虚拟世界,其中包含数百万个对象,这些对象可以实时交互,而无需管理后端基础设施。

5结语

亚马逊云科技提供超过200项服务,他们无一不在解决企业所面临的各种问题, 纵观历届re:lnvent大会,各种新产品再降低开发者进入全新领域的门槛;新服务帮助软件工程师们提升数据分析的效率。

永远可以期待re:lnvent大会发布影响未来十年的产品和服务,永远可以充满好奇地和亚马逊云科技共同探索未知。