刚上 AI 大模型的牌桌,字节跳动就要掀桌子了。
近日,字节跳动自研豆包大模型家族产品首次亮相,包括通用模型 pro、通用模型 lite、语音识别模型、语音合成模型、文生图模型等九款模型。
" 豆包家族 " 并不是第一次发布,而是整合升级了此前字节跳动的云雀大模型和一系列细分模型,统一为一个体系。
据了解,豆包家族将通过字节跳动云计算业务火山引擎正式 " 营业 ",值得注意的是,在现场火山引擎的大模型服务全矩阵图中,底层的大模型服务已经由此前的多个第三方大模型(MiniMax、百川等),全部替换为了豆包家族。
2024 年大模型落地元年,大模型将在越来越多的企业场景中,从 PoC(验证性测试)走到真实的生产系统。
" 不过,落地过程中,仍面临着模型效果不够好、推理成本高、落地应用难等挑战。" 火山引擎总裁谭待表示。
激烈的竞争和迫切的需求之下,各家大模型和云厂商都拿出了自己的杀手锏。
随着豆包家族的就位,火山引擎也打出了一张自己的 " 杀手锏 " ——降价,将大模型的计价从以 " 分 " 计带到以 " 厘 " 计的阶段。
以豆包通用模型 pro-32k 版为例,模型推理输入价格仅为 0.0008 元 / 千 Tokens,而市面上同规格模型的定价一般为 0.12 元 / 千 Tokens,是豆包模型价格的 150 倍。
也就是说,豆包通用模型比行业便宜 99.3%。
据火山引擎公布的价格计算,一元钱就能买到豆包主力模型的 125 万 Tokens,大约是 200 万个汉字,相当于三本《三国演义》。
谭待认为,降低成本是推动大模型快进到 " 价值创造阶段 " 的一个关键因素。
事实上,在云计算领域,以价换规模,是近两年来云厂商们的主流做法。
火山引擎作为云计算领域的后来者,从成立之初就一直致力于成为国内的第四朵云,但时至今日,火山引擎在云市场份额统计表中仍属于 Other。
现如今,在大模型刚刚落地应用初期,火山引擎就直接开 " 卷 " 价格战,想要以大模型落地来抢占云计算市场份额。
就像谭待对光锥智能表示:" 大模型尚未真正大规模落地,只要把价格降下来就还有机会。火山引擎最重要的,就是如何把最佳实践做好、市场做大。"
豆包大模型
产品思维下的大模型矩阵
字节跳动产品和战略副总裁朱骏
棒球帽、T 恤和短裤,字节跳动产品和战略副总裁朱骏的这身日常着装,像是刚从公司开完上一个日常沟通会,就上了火山引擎的发布会。
他还用自己没有西装的梗,让大模型做了一张宣传照,批评现在大模型的华而不实。
朱骏的不拘一格,也是字节文化的体现,在拘谨的 ToB 赛道里格外显眼。朱骏的实用主义和产品价值观也在豆包家族上体现的淋漓尽致。
在朱俊看来,大模型不只是服务器上的一堆代码,而是需要找到最适合的应用形态,以足够自然的交互形式,才能够让更多用户用起来。
相比于其他厂商,字节跳动做大模型的思路,是以做产品的思维,先推动豆包产品用户规模的增长,从而带动大模型能力的提升。
这个思路非常实际,近期一众 ToC 的大模型应用,也都在疯狂砸钱做增长。同时,在具体产品应用方向上,则更贴近用户。
此前,字节跳动的通用大模型并不叫豆包,而是叫 " 云雀大模型 "。去年,字节跳动内部准备开发大模型产品时,需要为产品取名,最终被命名为豆包。
朱俊现场讲述了最后取名为豆包的三个原则:拟人化、离用户近,以及个性化。
从改名这件小事,其实我们就能够看出字节跳动在大模型落地过程中,现阶段的主要打法之一,是基于大模型的能力,构建更像人,也更懂人的智能体,并使其成为人类的 AI 助手。
如北京一个五年级的小学生,通过火山引擎旗下的扣子开发平台,开发出了一个青蛙外教智能体。现在,这个小朋友不仅自己使用青蛙外教学习英语,还分享给她的同学和朋友们一起使用。
去年,飞书也上线了基于豆包大模型开发的智能伙伴,目前每天都有大量的企业员工通过飞书的智能伙伴进行工作总结、会议纪要和知识辅助。
朱骏也表示:当前虽然技术在快速演化,但用户核心的需求没有改变,包括高效获取信息、工作提效、自我表达、社交娱乐等等。
与此同时,为了满足不同场景中对智能体的不同需求,此次豆包大模型是以家族矩阵式亮相,不同的大模型,可以满足不同的场景需求。
豆包大模型有两款通用大模型,其中豆包通用模型 pro 是主力模型,具备理解、生成、逻辑、记忆等强综合能力,支持 128k 长文本精调,且支持问答、总结、分类、创作等丰富的场景。
在长文本理解的场景中,豆包可以总结分析上传三篇论文中的亮点,还可以让它触及和论文相关的题目,来考察其是否对文档、论文等有非常清楚的理解。
" 豆包 pro 模型非常强大,但在有些场景里,用户对延时和成本会非常敏感,这个时候,豆包通用模型 lite 是大家更好的选择。" 谭待如此说道。
豆包通用模型 lite 是更具性价比的通用模型,千 Tokens 成本降低 84%,延迟降低 50%,它支持闲聊、天气及实时信息查询、音乐视频播放、导航等场景,效果领先传统语音处理 50% 以上。
如智能汽车的座舱交互,就是一个非常适合 lite 模型的应用场景。通过豆包 lite,汽车厂商可以在低延迟下实现对话,支持闲聊、搜索、娱乐、导航、车控等多个座舱智能助手场景,效果要比传统语音处理高 50% 以上,让汽车变得更 " 聪明 "。
除了通用大模型外,火山引擎还发布豆包角色扮演模型、语音系列模型、文生图模型、Function call 模型、向量化模型等其他细分领域模型。
其中,角色扮演模型支持角色高度定制,能够基于上下文感知自适应用户扮演或陪伴需求,且具有强剧情推动能力,能够持续引导聊天。
豆包语音系列模型中:
豆包语音识别模型具有高准确率和个性化特征,支持多语种识别;
豆包合成模型具有自然、多情绪和多演绎特征;
豆包声音复刻模型支持 5 秒复刻,跨语种迁移,与原声具有高相似度。
按照以往字节跳动产品发布的情况来看,基本都是已经在内部经过多个业务线进行测试,并已经相对成熟的产品,才会拿到市场中做泛化应用,如飞书、火山引擎。
字节跳动去年开始加速大模型的研发,谭待现场表示,过去一年中,字节内部 50 多个业务已大量使用豆包进行 AI 创新,包括抖音、头条、番茄小说等多个产品。
据朱骏透露,豆包上已有超过 800 万个智能体被创建,月度活跃用户达到 2600 万。
同时,火山引擎也以邀测的方式,和不同行业的头部客户对基于豆包大模型进行深度共创,包括手机、汽车、金融、消费、互娱等等领域。
" 好的技术,一定是在大规模应用,在不断应用情况下不断打磨才能形成的。大模型也一样,只有在真实场景中落地,用的人越多,调用量越大,才能让模型越来越好。"
官方数据显示,经过一年时间的迭代和市场验证,豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一,目前日均处理 1200 亿 Tokens 文本,生成 3000 万张图片。
" 这么大的使用量,这么多的场景,让我们觉得一切已经就绪。"谭待的这句话,无疑表露了字节跳动大模型要向企业端落地应用的决心。
除了价格
火山引擎还有什么牌?
豆包家族的首次亮相,可以看作是字节跳动大模型发展的转折点,即经过内部 AI 产品赛马之后,字节收拢了经过产品验证的大模型能力,并通过与火山引擎的结合,开始全面做增长。
于火山引擎而言,相比较目前主流云厂商们来说,受制于字节本身大模型开发节奏问题,火山引擎在自研大模型的应用上的步伐,始终迟了一步。
迟来的开局,B 端业务的 " 慢 " 特点,让火山引擎没办法像短视频一样,快速实现弯道超车。但从豆包的能力,和火山引擎当前大模型落地的思路来看,其与行业头部的差距,正不断缩小。
" 一定要降低门槛去做。" 谭待对光锥智能说明了火山引擎推动大模型向 B 端落地应用的策略,降低门槛,不光是价格上的降低,更重要的是能够大模型能够更简单快速的实现落地应用。
AI 应用开发平台 " 扣子 ",是火山引擎加速大模型快速落地应用的关键抓手。目前主流云厂商和大模型企业,都在推 AI 应用开发平台,比如阿里云的魔搭、百度的千帆等等。
扣子,也可以理解为是智能体定义平台,无论是否有编程基础,都可以在扣子上快速搭建基于大模型的各类 Bot,并将 Bot 发布到各个社交平台、通讯软件或部署到网站等其他渠道。
此次大会上,火山引擎也发布了扣子专业版,相比于面向 C 端的扣子平台,企业版会根据企业的需求,以扣子平台为基础做进一步封装。
据介绍,扣子专业版会额外提供企业级 SLA 保障,并且还有很多高级特性,包括自定义精调模型、自定义算力单元等,能够让企业在应用扣子便利性的同时,也能够保障它的高性能和它的定制化,让企业能够高效便捷地开发专属智能体。
现场,扣子产品经理潘宇扬表示,目前扣子平台已经有了海底捞、超猩猩、招商银行、猎聘等多位 B 端客户。而扣子之所以能够被这些企业所应用,主要还在于基于 C 端积累的优势,即使用门槛低,一句话或一张图就可以组成一个 Bot,并且这个 Bot 更了解用户。
一方面,扣子平台可以提供长期记忆、数据库、文件盒子等功能,可以让 Bot 记住用户喜好,并做个性化推荐。另一方面,其可以提供插件、触发器、知识库等能力,可让 Bot 不断获取新的信息,从而更了解用户周边世界。
" 大模型的到来,让开发变得更加简单。通过 AI 原生开发平台,我们有机会让每个人、每家企业都成为 AI 的开发者。" 谭待说道。
AI 应用开发平台和云底层基础设施,要同步升级,火山引擎才能赶上大模型时代的快车。
自从去年发布 MaaS 服务平台火山方舟以来,火山引擎就希望通过推动基础设施的方式,加速大模型在行业的落地。
在豆包大模型亮相后,火山方舟也推出 2.0 版,发布了 3 个重要插件,包括联网插件、大模型内容插件、知识库插件等,帮助企业大模型实现应用落地。同时,方舟 2.0 还全面升级了系统承载能力、安全保护能力和算法服务能力。
借大模型
抢云计算市场
大模型带来的全新 AI 时代,正在成为云计算市场中的最大变量。
自成立之初,火山引擎就一直希望成为国内 " 第四朵云 "。火山引擎借大模型,能否实现弯道超车?
从战略打法来看,火山引擎放出了三个大招:
第一就是低价。于当下企业而言,算力成本、推理成本十分高昂,而做企业市场,企业的痛点就是第一驱动力,因此火山引擎以低价为引子,切入企业市场。
火山引擎直接将豆包大模型的价格低于行业 99%。
不过,谭待也表示:"To B 的业务要求长期的定力,用亏损换收入是不可持续的,未来我们也会持续通过技术降低成本以降低价格。"
低价是吸引企业客户的一个手段,但并不能成为影响企业选择火山引擎的唯一因素。
因此,火山引擎的第二个战略打法,就是聚焦字节的核心产品生态资源上,以 C2B 的形式,更好的推动模型在各行各业的落地应用。
本次会上,光锥智能发现火山引擎大模型服务全景图,其大模型服务主要聚焦三类应用场景,包括 ToC 的终端应用、ToB 的场景应用以及行业应用。
其中,在ToB 场景应用上,火山引擎也推出具有字节特色的产品,即搭载豆包大模型的智能创作云 2.0 版本,这是一个批量生成视频的智能 SaaS 平台,主要帮助电商卖家批量生成商品素材。
通过大模型的支持,用户只需要输入简单的营销描述,智创云 2.0 就能生成视频文案、脚本和相关素材,并通过模板与混剪能力的搭配,帮助客户在电商、生活服务等场景快速创作营销视频。
另外,在面向ToC 的终端应用上,除了早就推出的豆包和扣子,也新加入了 4 个垂类领域的 AI 平台,分别面向智能学习、生成式 AI、AI 互动娱乐和 AI 分身。这 4 个垂类领域,也跟字节的核心业务优势息息相关。
C2B 虽然能够给火山引擎带来一定的生态资源优势,但对于云计算市场而言,更简单粗暴且真正有用的策略,在于买卡卖算力。
据光锥智能了解到,受大模型浪潮影响,字节的云计算业务火山引擎的营收增长也比较可观。得益于字节前期储备了大量英伟达的 GPU,很多大模型创业公司都愿意主动加入到火山引擎的生态中,从而拉动了火山引擎的增长。
同时,在底层基础设施上,火山引擎也推出了针对大规模 AI 场景的混合云产品 veStack 智算版。
据介绍,veStack 智算版提供了从 IaaS 到机器学习平台全栈的智算解决方案,可支持万卡集群、3.2T 高性能无损网络;并且能提供端到端工程优化的 97.78% 训练加速比,分钟级故障发现和自愈恢复;支持十余种主流 GPU 卡的主流型号,能够去兼容各种各样的异构算力。
通过 veStack 智算版,企业能够非常容易地搭建超高稳定性、超高效率的 AI 基础设施,能够大幅提升自己的算力效率,能够轻松地实现对万卡集群的管理。
不过,虽然第一波先靠卖算力赚到第一桶金,但对火山引擎来说,未来靠使用这些大模型公司的算法而再次为云计算业务付费的客户,才是更吸引人的。
同时,于云厂商们来说,生态联合会比单打独斗更能够为企业提供一体化服务,加强云厂商与企业之间的粘性。
因此,此次火山引擎也发布了 " 万有计划 " ——豆包企服联盟,这是 " 万有计划 " 针对大模型应用的一个专项计划,豆包企服联盟将提供一揽子的支持措施,帮助 SaaS 企业实现自身的 AI 升级,最后这些 SaaS 企业与火山引擎一起为客户提供更多开箱即用的 AI 应用。
现阶段,火山引擎已经从底层基础设施,到中间工具链、开发平台,再到上层 AI 应用,以及最终的生态体系,搭建了全栈 AI 服务体系。AI 大模型时代的来临,给云厂商们提供了第二增长曲线,于火山引擎而言,则是其是否成为国内第四朵云的机会。