大模型爆发倒逼算力升级,火山引擎分享「全栈云」经验

AI 大模型的爆发式增长,正驱动着算力需求不断升级,云基础设施在集群建设和管理、性能、稳定性等方面都面临着严峻挑战。

AI 大模型的爆发式增长,正驱动着算力需求不断升级,云基础设施在集群建设和管理、性能、稳定性等方面都面临着严峻挑战。

火山引擎基于字节跳动在大模型领域的实践沉淀,带来更高性价比的算力资源和一站式资源服务,持续助力企业 AI 转型落地。8 月 21 日,2024 火山引擎 AI 创新巡展上海站活动成功举办,火山引擎云基础产品负责人罗浩发表演讲,详细介绍了面对算力需求的升级,火山引擎的具体应对方法和措施。

罗浩表示,早在 2019 年,火山引擎已经观察到了由 Transformer 带来的更大规模算力需求。并且随着算力大规模爆发式增长,也带来了计算模式的变化,计算从「单节点模式」向「集群模式」演化。

为了满足 AI 领域的算力增长,火山引擎首先打造更新的基础设施,如新一代 GPU 型算力,以及能够容纳这些算力的新一代机房等。

在此基础上,则是打造新一代互联技术,将多达数十万个计算节点互联起来,支持近似线性加速比。

罗浩介绍,由于不同算力资源池的节点阈值不同,当小于 8 个节点的时候,调度都在一台服务器内部完成,但当节点大于 500 的时候,可能就需要跨机架调度,而当节点大于 1000 或更多时,需要跨两至三层的交换机调度,所涉及到的网络架构管理内容,包括通信协议、拥塞控制等等,其性能挑战的难度将逐步增大。

因此,随着 AI 大模型的爆发,任务已从单节点来到多节点,甚至达到万卡规模,故障域也变得更大。

如此大的故障域中,如何在当某个节点发生故障时能快速识别问题,及时剔除故障节点,节省计算成本,就存在相当严峻的挑战。

火山引擎云基础产品负责人罗浩

因此火山引擎提出「AI 全栈云」,包含三个方面。

一、集中使用资源和算力。最大程度上避免由于分布式数据中心建设带来的算力孤岛和存储孤岛问题。

二、所有的 IaaS 层产品、PaaS 层产品、数据产品、安全产品甚至推荐算法还有 AI 产品,都在同一朵云上,采用同样的软件架构、通信协议,使得数据流动、业务通信保持最高效的,同时也更加安全。

三、大算力资源池建设和自研硬件,以及自研网络通信协议、拥塞控制算法等能力相结合,实现规模更大、性能更强、稳定性更高和成本更优。

罗浩表示,目前火山引擎能够做到在分钟级别调度千卡规模资源池,以应对弹性任务。互联能力方面,单机互联能力已经从 800G 提升到了 3.2T,增长了 4 倍。同时火山引擎还提供覆盖全球的网络,能够支持 2TB/秒吞吐并行文件存储。

在高可用方面,火山引擎做了充分的压测左移体系,会在批量机器交付之前,抽样比较大的集群同时部署上容器、虚拟机、物理机进行测试,确保高可用性。拥有这样的压测能力,即可快速发现问题,结合冷迁移技术,将故障节点在离线状态或在线状态剥离出去,使得任务持续运行。

成本方面,火山引擎除对大规模算力资源池集中使用之外,对于 loadbook、DevOps 等短期任务,只会用单张卡或 0.5 张卡,提供更加灵活、更小粒度的资源使用方式。同时,火山引擎的网络负载均衡还能够感知到训练推理体系里的 KV Cache、过热导致的调度不均匀问题,达到更高的调度效能。

在存储方面,除 VPFS 超大规模、超大性能存储之外,火山引擎还提供 LAS 缓冲层、CFS、TOS 分层性价比更高的存储。

罗浩表示,火山引擎基于字节跳动在大模型领域的实践沉淀,以技术驱动的极致性价比让大模型人人用得起,陪伴客户一起成长。未来,火山引擎全栈 AI 服务将持续助力企业 AI 转型落地,激发业务增长潜能。(作者:杨欣)

用极客视角,追踪你不可错过的科技圈.

聊科技,谈商业。

公司地址:北京市朝阳区酒仙桥路4号751 D·Park     正东集团院内 C8座105室 极客公园

THE END
0.IDC:2025年上半年大模型公有云市场,火山引擎占比49.2%排名第一IDC:2025年上半年大模型公有云市场,火山引擎占比49.2%排名第一Video Player is loading.00:00/00:00 Loaded: 0% 视频加载失败,请查看其他精彩视频 相关视频 猜你喜欢 00:05:39 美媒:想买安世的芯片可以,但中方 00:02:06 Dexmal开源Dexbotic 00:07:03 越南在南沙疯狂造岛,中国为何不阻 jvzquC41xkjfq7xkpc4dqv3ep1v0hrscpek04977/2?.3B4fgvgjn6nphs€d{w>99:7857i0jvsm
1.抖音大规模实践火山引擎向量数据库对外开放服务快科技解决方案就是,将火山知识库文档和数据通过向量特征提取,然后存储到向量数据库中,应用LLM大语言模型与向量化的知识库检索和比对知识,构建火山引擎Oncall智能问答,可以让聊天机器人的回答更具专业性和时效性,构建专属Chatbot。未来,火山引擎Oncall的FAQ知识将持续沉淀,知识库持续完善,同时还能提供大模型训练数据,处理大量客jvzquC41pg}t0v~ftk|ft|3eqo521B871;968:;0jvs
2.万有商城云市场大模型AISaaS应用火山引擎万有商城荟聚优秀SaaS伙伴,为企业提供内容创意、直播工具、电商运营、广告营销、企业办公、网站建设等软件产品与服务,一站式助力客户运营提效和生意增长。jvzquC41ocxlg}3xqnifppnpg0ipo8
3.產學研齊聚楊浦,共話大模型產業創新未來火山引擎推出火山方舟大模型,提供模型訓練、推理、評測、精調等全方位功能和穩定可靠的安全互信方案﹔優刻得推出智能雲平台,提高全要素生產力﹔復旦大學與阿裡雲共同建設CFFF智算平台,推出多學科融合創新的AI for Science計算集群“切問1號”和專用高性能計算集群的“近思1號”,聚焦高性能、低能耗、靈活穩定、強拓展jvzq<84uj0vfqyqg0eun0ls1DKM61w71428419>471i25=<8:/:17A94:24ivvq
4.火山引擎大模型应用启动邀测,抖音十多个业务团队已试用6月28日,火山引擎发布大模型服务平台“火山方舟”,面向企业提供模型精调、评测、推理等全方位的平台服务(MaaS,即Model-as-a-Service)。目前,“火山方舟”集成了百川智能、出门问问、复旦大学MOSS、IDEA研究院、澜舟科技、MiniMax、智谱AI等多家AI科技公司及科研院所的大模型,并已启动邀测。 jvzquC41hktbplj0gcyuoxsg{0ipo8sgyu525>9.42842?7;49<63B:85;4ivvq
5.火山引擎大模型生态:“SaaS+AI”商业化的新解法转动“数据飞轮”,需要更多 SaaS 伙伴使用大模型技术;随着调用量和使用深度的增加,大模型也会越用越好用。这也是火山引擎“万有计划·豆包企服联盟”期望带给 SaaS 伙伴的帮助:通过政策、技术、服务等资源上的支持,鼓励更多 SaaS 伙伴尝试大模型技术,解除在大模型探索、商业化过程中的种种顾虑。 jvzquC41yy}/gkwwp0ipo87246683B4p/3=82=3jvor
6.升级云服务火山引擎要做AI大模型“发动机”火山引擎总裁谭待表示,AI大模型有巨大潜力和创新空间,火山引擎会服务客户做好大模型,共同推动各行业的智能化升级。据悉,火山引擎机器学习平台经过抖音等海量用户业务长期打磨,支持单任务万卡级别的超大规模分布式并行训练场景。jvzq<84yyy4djrscpg}t0lto1ep0497512:.3A4;;;816B3ujvsm
7.海尔消金携手火山引擎,共建消费金融大模型产经在生成式人工智能浪潮的推动下,金融科技正迎来新一轮的创新与变革。5月10日,海尔消费金融(以下简称“海尔消金”)与火山引擎正式宣布,双方将共同成立金融大模型联合创新实验室,致力于构建消费金融垂直大模型,并在精准营销、智能客服、贷后管理、风控等业务场景中持续探索大模型的创新应用,从而加速海尔消金的智能化转型jvzquC41yy}/eny0eqs/ew4y|u0e‚z1361796530yivvq
8.火山模型和优化(向量化执行编译执行)文章讨论了现代CPU的处理特性,包括超标量流水线、乱序执行、分支预测、多级存储和SIMD优化,以及这些特性如何影响数据库查询性能。文章提到了火山模型和向量化执行模型在数据库执行器中的应用,分析了各自的优劣,并探讨了编译执行和数据预取等优化策略。 文章目录 jvzquC41dnuh0lxfp0tfv8vsa6:88?=:51gsvrhng1jfvjnnu1743<:588;
9.字节终于掀桌子了快科技5月 15 日,字节跳动首次向外界“推销”旗下 AI 大模型——其自研豆包“全家桶”官宣将通过火山引擎(字节旗下六大业务板块之一,其余五块分别是抖音、大立教育、飞书、朝夕光年、TikTok)对外提供服务。 至此,字节跳动纵身跳入国内大模型混战,其大模型版图正式浮出水面。 jvzquC41pg}t0v~ftk|ft|3eqo521B=21;>1;<;0jvs
10.火山引擎云上实战:DeepSeekR1大模型(全尺寸)本文将介绍两种在火山引擎云上部署 DeepSeek-R1 全尺寸模型服务的方案,涵盖大模型推理服务的 Terraform 一键部署、容器化部署、资源弹性伸缩和模型可观测。 来源| 火山引擎云基础 在AI 大模型日新月异的当下,企业在使用大模型时往往面临着数据隐私保护和性能优化的挑战。为了解决这些问题,企业 AI 大模型在云端进行私jvzquC41zkk/kwkqs0io1jwvkerf1;:8:h::h?5d37k83;=;99l39k
11.火山引擎吴迪:带你了解大模型的应用和未来技术解析火山引擎提供了火山方舟这个平台,火山方舟平台上面有众多优质的、精选的国内的高质量商用模型,像智谱AI的ChatGLM的商用版本,像MiniMax的MiniMax-ABAB 5.5以及字节跳动的云雀模型等等。我们有很多客户基于方舟平台,在这些优质的商用模型上去开发自己的应用。 大模型,将在哪些方面帮助职场人? jvzquC41yy}/xxqegpmjpn3eqo5eqlx185<11:6742=5