找回密码
 立即注册
博润通 热门资讯 商业资讯 查看内容

打破AIGC基础设施壁垒,新华三这样破解算力调度难题

触碰你的小妹妹 2024-5-7 14:13

当数字员工“灵犀”全程主持新华三集团以“×AI”为主题的2024媒体与分析师沟通会,在场的嘉宾对“算力×联接”有了切身的体验和更为具象的想象空间。

面对AIGC时代的挑战,新华三给出了答卷——最新的全栈灵犀智算解决方案将以高效多元算力供给、高品质网络联接、海量数据并行处理、智能能耗治理、主动安全、智能运维的六大能力支撑算力赋能百行百业。

“通过多元化算力和标准化联接的深度融合,新华三集团能够打破AIGC基础设施内各种‘看不见的壁垒’,让算力得以更灵活地调度和释放,给模型的训练、推理带来更高效、更稳定的支持,为迎接不断变革的未来做好充分的准备。”新华三集团联席总裁、首席技术官兼技术委员会主席尤学军说。

怎么做?这是媒体的关注重点。

新华三数据和调度的能力来自绿洲大模型数据治理平台和傲飞算力平台。绿洲大模型数据治理平台通过从原始语料、日常清洗、过滤、去重、去隐私、增强、多维的评估,包括训练的语料,为整个数据的循环提供全方位的工具链。傲飞算力平台能够实现万卡规模异构算力的统一智能调度,并能实现智算和科学计算业务的融合管理,为AIGC时代的集群建设提供算力调度、业务开发、运维管理的全方位服务。

新华三集团高级副总裁、云与计算存储产品线总裁徐润安

“异构之后的算力调度是很关键的。我们现在通过傲飞来实现通用算力跟智能算力、高效多元算力的调度,能够支持万卡集群多元算力的调度,以数据资产为中心,打通大模型各环节端到端业务全流程开发的服务,一站式提供AI相关的服务。”新华三集团高级副总裁、云与计算存储产品线总裁徐润安说。

新华三集团在异构算力的突破上采取了分阶段的策略,目前已经实现了对异构GPU的纳管,让不同的算力资源池在统一云平台上得到高效管理。目前,已经能够实现异构算力资源的标准化连接、度量、分配和计费,让模型和应用能够在不同算力资源池间进行无缝迁移。接下来,新华三将集中攻关异构混训,通过资源的合理配置,提升模型训练的效率,并保护客户的投资价值。最终目标是实现异构服务的无感使用,让客户在不关注具体硬件的前提下,顺利完成训练任务。

“我们主要的定位就是在AIGC的场景下提升整个大模型训练的效果,缩短GPU训练时间,要做整个的存算融合,也在做性能加速,包括存储的协议融合和资源的池化。”新华三集团存储产品线首席产品经理关天舒说。

在训练过程中,GPU访问存储数据的时候要绕到CPU去处理,造成GPU的利用率不高,对大模型训练效果有影响,解决方案就是存算融合。在GPU侧做一个存储折中的方案,通过本地私有客户端再去做数据处理,可以大大缩短GPU访问数据的时间,降低整个数据训练的时长。

这可不是一家厂商所能独立完成的。“既然我们是多元异构的战略,存储也会联合更多的GPU合作伙伴,要把整个生态建立起来。从我们接触到国内的GPU厂商来看,他们其实还处于GPU互连的阶段,并没有考虑GPU连接之后如何去访问存储,让整个训练的过程更加便捷。”关天舒说。

在徐润安看来,“随着智算中心的建设,未来存储的需求也将会迎来一个爆发式的增长。”

但挑战远不止这些。大模型训练的规模可能需要上万卡的集群规模,而超大规模的集群处理需要云化的技术运行。这种大的集群还可以拆为更小的颗粒去给云化提供算力服务,算力本身的池化是一个主要的演进路径。

“调度的单元从原来通用的算力,可能更多往智能的算力调度去演进,云化是必然的,不会走回头路。”徐润安认为,后面还会有新的演进,“现在流行的要么是8卡、16卡PCIe,要么是OAM模组,里面有很多变化,未来迭代可能会有新的硬件形态,我们会紧跟这些趋势。”

让产品和解决方案更智能是深化“AI in ALL”,用自身的技术、产品、解决方案赋能百行百业是加速“AI for ALL”,而充分发挥新华三在算力和联接领域的核心优势,激发乘数效应,放大智算资源价值,让算力更快、更强、更澎湃是新华三期待的未来。


路过

雷人

握手

鲜花

鸡蛋
原作者: 触碰你的小妹妹 来自: https://www.yicai.com/news/102098201.html
开云体育 九游娱乐 星空体育 开云体育 九游体育 星空体育 开云体育 开运体育 德州扑克平台 开云百家乐 老虎机游戏 ag百家乐 虚拟足球 虚拟体育 沙巴体育 真人ag 真人赌场 足球投注 美女百家乐 欧洲杯投注