随着AI技术的普及和深入应用,数据和算力需求急剧增长,传统网络无法满足业务的需求。华为推出星河AI智算广域网解决方案,通过构建高运力、泛在灵活接入、长距无损和任务式服务的IP网络系统,满足AI时代对数据网络更严苛的要求,和运营商一起为行业数智化转型提供网络支撑。
智算时代传统广域网面临的挑战
人工智能的快速发展正推动人类社会加速步入智能时代。未来几年,人人都有AI助理,家家都有智能管家,行行都有具身智能,无论是2B、2C还是2H领域,对算力的需求都将急剧上升。AI深度融入各行各业和家庭生活,对广域网络提出了前所未有的挑战。特别是在企业入算、协同训练和推理这3个新兴业务场景中,网络的高运力、弹性、可靠性、服务化能力、低时延和安全性等方面都面临新的要求。
企业入算:企业入算包含海量样本上传和存算分离两个场景。在海量样本上传场景中,大模型训练需要处理的数据量巨大,且数据产生地与训练地往往不同,企业需要将大量样本数据实时传输至智算中心。在存算分离场景中,部分企业对敏感数据的安全性要求极高, 要求敏感数据不落盘,以确保数据安全。然而,传统广域网基于流量类型的负载均衡算法较为粗放,无法有效识别和处理大数据流,且智算流大量使用RDMA的报文,对丢包率非常敏感,传统广域网的可靠性也难以满足需求。
推理:根据最新发布的DCA推理模型,中心推理正逐渐成为流量高地,对网络的时延和带宽提出了差异化的要求;边缘推理中心也将大量出现,传统IP网络缺乏差异化承载识别能力、确定性时延能力以及更高等级安全防护能力。
协同训练:随着数据模型规模的增大,单个算力中心已无法满足超大模型的算力需求。运营商和企业需要整合不同地域的算力资源,打造大规模智算集群,这需要将传统的数据中心扩展到广域网范围。将算力卡之间的通讯距离扩展到几百甚至上千公里,跨DC算力效率对于样本数据丢失十分敏感,带来了丢包、大数据流承载和大流量收敛等挑战。
星河AI智算广域网的创新特性
华为推出的星河AI智算广域网解决方案具备高吞吐、泛在灵活接入、无损传输和任务式服务的IP网络能力。通过部署华为星河AI路由器,可以为各行业提供高效、安全、无损的数据传输环境,为行业数智化转型提供网络支撑。
高吞吐:支持TB级数据分钟达的高吞吐能力,通过全局负载均衡技术,实现90%的高吞吐率。这一技术突破确保了大规模数据集的快速传输,从而显著提升了AI训练的效率。
泛在灵活接入:支持100K以上租户的泛在接入能力,通过弹性调优算法和千万级流调度,实现整网运力的最优配置,不仅提高资源利用率,也确保算网资源的高效分配,避免了浪费。
无损传输:支持10-7无损可靠性能力,通过采用流级精准流控技术,实现千公里范围内的“0”丢包率。结合RDMA大象流识别与调度技术,关键帧保障了数据传输的完整性和准确性。
任务式服务:支持秒级开通任务式服务能力,用户可以享受到100M-100G任务式弹性带宽的秒级开通服务。通过运力地图、带宽日历和SLA承诺保障,星河AI智算广域网为用户提供了灵活、可靠的网络服务。
场景化技术支撑与实践
企业入算:在企业入算场景中,通过内置大数据流识别的AI能力,并对负载分担算法进行精细化优化,实现千万流的秒级调度。同时,设备内部协同处理机制,支持任务式的弹性调度,实现TB级数据分钟达。
推理:在推理场景中,通过新增基于AI的应用感知能力,配合控制器的时延算路,实现不同租户的差异化时延路径。内置的基于AI的安全攻击感知能力,实现了安全攻击的秒级响应和逐包检测。
协同训练:在协同训练场景中,通过拥塞微秒级感知和流级精准流控的能力,实现千公里“0”丢包。流感知引擎与全局调度能力的结合,实现了不同数据中心跨广域网的全局协同调度,吞吐率达95%以上。
部署应用 引领行业新标准
华为星河AI智算广域网解决方案已在三大运营商成功完成试点。12月23日举办的智算IP广域网产业交流会发布了运营商智算IP广域网首批创新应用成果,来自上海电信、浙江联通、重庆移动和北京电信的运营商代表们进行了现场案例分享,阐述了如何加速智算IP广域网的建设和应用。
持续创新 共筑数智化未来
华为数据通信产品线将持续加大在智算广域场景的研发投入,加速广域网的能力提升,并与客户一起在行业应用中持续识别新需求和新问题,与客户携手持续创新,加速行业数智化的转型和发展。