攻破视频大模型训练挑战!火山引擎送上“神助攻”,方案已应用于豆包,披露视频云出海全景图

智东西10月15日报道,今日,火山引擎在视频云技术大会上发布大模型训练视频预处理方案,助力解决视频大模型训练的成本、质量、性能等方面的技术挑战。该技术方案现已应用于豆包视频生成模型。

火山引擎还发布并开源了移动端后处理解决方案BMF lite版本。BMF lite支持端侧大模型接入和算子加速,更加轻量、通用。

同时,火山引擎推出跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式AI实时交互方案和AIG3D&大场景重建方案,从视频的生产端、交互端到消费端,全链路融入AI能力。

去年推出的字节自研视频编解码芯片,经过抖音集团内部的实践验证,在同等视频压缩效率下,成本节省了95%以上,还在2024MSU世界编码器大赛中一举夺得最佳ASIC编码器。该芯片将于近期正式对外开放测试,招募首批种子用户,共同探索商业价值的可复制性。

火山引擎也与出海先锋携手,从趋势、技术、玩法等角度共同探索出海新增长机遇。火山引擎视频云国际业务负责人梁建在会上发布了出海全景图。

火山引擎总裁谭待在致辞时谈道,汹涌而来的技术浪潮带来前所未有的挑战:1)生成式AI带动视频数据指数级增长,对计算效能提出严峻考验;2)多模态媒体处理需求日益凸显,对音视频处理的生产端、交互端、消费端提出了全新要求;3)如何让技术应用真正落地并带来世纪业务价值,是当前必须面对的问题。

应对这些挑战,火山引擎视频云基于抖音真实业务实践和与行业客户共创,正积极探索大模型AI与视频技术的深度融合;在技术底座层面,依托自研的算力编解码技术和多媒体处理框架,致力于优化成本并提升计算效率;在处理链路层面,结合大模型和AI技术,全面优化了生产交互和消费链路,以打造更智能、更交互、更沉浸的用户体验;在业务增长层面,与抖音平台生态紧密联动,构建从内容分发到变现的全链条业务增长模式。

一、应对AI视频时代技术挑战:自研芯片对外开测,BML视频处理框架上新

抖音集团视频架构负责人王悦分享了一组来自市场调研机构的数据:视频是云业务中增长最快的工作负载之一;到2026年,视频在数据中心基础设施中的占比将从10%增长到20%~25%;到2024~2030年,市场规模预计将达千亿美元。

他谈道,AI视频时代面临三重挑战:一是计算效能,生成式AI技术大幅降低视频生成的门槛,导致视频数据以惊人的20倍速增长;二是编解码极限,编解码技术的智能化升级正推动与AI/大模型技术的深度融合,不仅提升了编解码效率,而且为用户带来了更加优质的视频体验;三是框架瓶颈,需要构建更强大、更灵活的多媒体处理框架,满足日多模态/跨模态预训练处理需求。

王悦宣布,火山引擎去年推出的自研视频编解码芯片取得显著进展,在抖音集团内部实践验证中实现了效率的显著提升和成本的大幅降低,在同等视频压缩效率下,成本节省了95%以上。火山引擎也将首次正式对外开放测试,招募首批种子用户,共同探索商业价值的可复制性。该芯片的BVE1.2编码器,在2024MSU世界编码器大赛中首次亮相就以其优异的编解码性能和吞吐率的大幅领先,夺得最佳ASIC编码器。

在智能编解码的算法层,火山引擎的图像视频压缩技术也取得了突破性进展,其自研编解码技术BVC升级到更高效的第二代,并融合了深度学习技术,推出了传统-智能混合编解码解决方案。

该方案在充分理解传统编码技术和深度学习压缩技术各自原理的基础上,将二者有机的融合成一体。传统编码框架加入了非对称四叉树划分等创新技术,智能编码模块则引入了基于深度学习的环路滤波、自适应变采样等技术。这种结合极大提升了编解码的效率,该方案在第六届深度学习图像压缩挑战赛的高码率和低马力两个压缩赛道上均取得了主观和客观的双料指标冠军。

在框架层面,火山引擎自研视频处理框架BMF自去年开源以来,在助力AI初创项目落地和移动端开源层面不断演进,今日进一步发布并开源移动端后处理解决方案BMF lite版本。

BMF lite具有更轻量、更通用、更高效、更前沿等特点,比如它没有第三方依赖,具有轻量化的结构设计、多平台统一的接口形式、Kernel融合方案等,支持端侧大模型接入和算子加速、算法间复用资源。

目前BMF lite已广泛应用于抖音各业务上,每天服务超10亿名用户,处理视频图片万亿次。

由于端侧对功耗和内存非常敏感,火山引擎重点建设基于跨平台资源复用的算法包框架设计,整体对外将采用跨平台的数据结构设计,适配安卓、iOS、Web、PC等平台,复用相同的算法实例,不同算法可复用算子及数据资源。这个方案针对点播和直播后处理的场景收益明显。

在模块算法层面,火山引擎此次开源对外输出了超分、降噪、大模型文生图算法能力,选取的模型是开源的,将在一些抖音实际落地的工程优化方案应用到模型加速中。火山引擎也同步开源了基于GPU加速的7种常用基础图像算子能力,并充分扩充了客户端的一些异构能力,包括DSP、NPU、端侧GPU。

二、依托BMF框架,视频生成大模型已上线火山引擎

对训练视频进行预处理是保障大模型训练效果的重要前提。预处理过程可统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息,从而使模型能更高效地学习视频中的特征和知识,提升训练效果和效率。

随着视频生成模型兴起,训练大模型的处理框架面临诸多挑战:首先是成本挑战,超大规模视频训练数据集导致计算和处理成本激增;其次是质量挑战,视频样本数据质量参差不齐,处理链路环节多、工程复杂,数据样本待分类、分段和清洗;三是性能挑战,涉及多种异构算力资源的调度和部署。

借助英特尔CPU等资源,火山引擎大模型训练视频预处理方案依托于自研多媒体处理框架BMF,能有效应对模型训练的算力成本挑战。该方案还在算法和工程方面进行了调优,可以对海量视频数据高质量预处理,短时间内实现处理链路的高效协同,提高模型训练效率。

BMF通过和豆包大模型团队合作,对海量视频数据进行了预处理。基于火山引擎视频处理平台和BMF框架,火山引擎短时间内生产了足够多高质量的视频素材用于模型训练,也有力支撑了视频生成大模型的上线与调优。

火山BMF大模型训练视频预处理方案应对成本挑战,使用了海量的潮汐资源和精细化混部调度;应对质量及性能挑战,使用30+种算子对视频进行了多维度分析和筛选,利用DMF框架灵活调度将复杂的算子处理流程灵活部署在多种资源上,实现了快速的性能调优;应对协同挑战,利用BMF动态模块特性,实现插件化解耦、多语言开发,相比传统框架将迭代效率提升了数倍。

英特尔大数据高级首席工程师程从超分享说,大模型和生成式AI时代面临高算力、高质量数据集、改善描述复杂性、构建开源生态等方面的挑战。视频转码性能对CPU的计算能力敏感,CPU的频率、核数和cache的大小都很重要。通常视频处理的节点都是数据中心里性能较为高端的服务器。

英特尔能够为不同的视频处理选择最合适的平台,比如一机多卡高密度GPU可满足编解码密度和成本需求,CPU和GPU方案的灵活配置能够根据具体应用来分配资源,至强CPU可实现视频质量最优、编码灵活、稳定可靠。

三、多项“音视频+AI”技术方案,助力企业全链路适配AIGC

火山引擎视频云团队为字节跳动提供音视频技术,并通过火山引擎服务外部客户。

Bytedance Research负责人李航谈道,豆包视频生成模型PixelDance在训练过程中采用了火山引擎大模型训练视频预处理方案,充分利用了大量潮汐资源,为模型训练提供了有力支撑。

火山引擎视频云团队提供的点播解决方案还为PixelDance生产的视频提供了从编辑、上传、转码、分发、播放的全生命周期一站式服务,让模型的商业化应用有了保障。

豆包视频生成模型PixelDance于9月24日发布,该模型采用DiT架构,通过高效的DiT融合计算单元和全新设计的扩散模型训练方法,突破了多主体运动的复杂交互、多镜头切换的内容一致性难题。目前,豆包视频生成模型已通过火山引擎面向企业开启邀测。

PixelDance1.4新版本有四大特点:1、能生成人物的复杂连续动作;2、能生成复杂的多主体交互;3、能一次性生成多镜头视频;4、拥有超强的运镜控制能力。

其核心技术包括大规模扩散生成模型、高压缩比&高还原性视频编码解码模型、精准视频描述模型、大规模公开视频数据处理管线等。

火山引擎视频云负责人Yongyuan谈道,在AI视频时代,人和AI交互变得更加动态和生动,这要求处理链路更加智能和交互。

会上,火山引擎发布了跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式AI实时交互方案和AIG3D&大场景重建方案,从视频的生产端、交互端到消费端,全链路融入AI能力。

在生产端,跨语言同声复刻直播方案能够优化同传直播,实现更加精准的字幕识别、更快输出并带有自然断句,还通过虚拟人技术调整口型,支持6国以上的语言输出;多模态视频理解与生成方案能够应用于短剧、赛事、教育等场景;多模态电商素材生成方案可生成图文、解说、AIGC视频和3D模型。

在交互端,依托豆包大模型和火山引擎视频云自研的多项算法,对话式AI实时交互方案使得人与AI的交互更加自然,提供了智能对话和自然语言处理的强大能力、媲美真人的自然生动音色,也支持声音复刻,可实现毫秒级人声检测和打断响应,能过滤90%噪声,精准识别打断意图,并通过流式处理将端到端响应延时降低至1秒。

在消费端,AIG3D方案使3D构建更便捷;大场景重建方案具有高效渲染速度,支持二次创作,可低成本生成直播布景,使场景重建更真实;6DoF直播方案提供实时3D模型渲染、低延时6DoF并能降低采集成本,让空间体验更沉浸。

例如,火山引擎通过AI生成3D内容和大场景重建方案,为山西高平二郎庙金代戏台和北京正乙祠两座珍贵的历史建筑生成了3D数字资产,并以虚拟直播间的形式应用于抖音戏曲直播场景。

抖音开放平台开发者运营负责人李建男分享了AI新产能助力业务增长的三个关键词——创建新场景、制造新体验、塑造新产能。她分享了一些数据:AI智能体将直播间变现效率提升了36%;生成式AI大大降低创作门槛,带动图片、视频、故事、IP、办公、学习等优质内容量级增长200%;引入AI创作工具能带动视频投稿量、平均W数、内容丰富度的有效增长。

李建男总结道,通过三方模型引入数据场景开放,能够实现垂类深度支持,带动线索转化率提升,从而提升营销效果,这对服务商是一个非常好的机遇,可带动服务商商业价值提升,进而带来更多精准语料,进一步驱动技术进步,实现更好的模型训练效果提升。

结语:AI+视频技术深度融合,推动用户体验多维度转变

生成式AI为视频化社会带来了革命性变化,不仅能提升内容创作效果,还丰富了交互体验。在AIGC、多模态等技术的共同推动下,用户体验在多个维度上经历着深刻转变。

与此同时,AI+视频也给底层技术的效能化、编解码的智能化、处理框架的广泛化带来新挑战。作为AI视频时代智能底座的构建商,火山引擎希望让多媒体处理框架的部署更加规模化、普惠化,进一步控制算力成本和提高计算效率,推动编解码与智能技术更好融合,从而提升最终的体验效果。

Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”

THE END
0.捷成股份——与“豆包”“火山引擎”“剪映”深度合作版权合作:捷成股份作为影视版权运营和服务的公司,是字节跳动旗下产品包括火山引擎相关业务的影视版权核心供应商之一。火山引擎所服务的企业客户在进行视频内容创作、分发等业务时,需要大量正版影视版权内容,捷成股份的丰富版权资源为其提供了有力支持,满足了企业客户对优质内容的需求6.虚拟人合作:捷成股份旗下的虚拟人公司jvzquC41iwhb0|npc0ipo7hp1Ay>vqwgcf,ckmB438?'vri?3:;26=
1.火山引擎2025原动力大会点评:豆包家族产品革新AGENT落地进入加速期字节跳动在北京召开火山引擎大会,意在展示AI 技术与产业链融合的新机遇,我们看好豆包模型产品革新下,成本革命驱动普惠化,AI Agent 落地进入加速器。 投资要点: 我们认为本次 大会标志着火山引擎正式进入“全产品升级+成本下探+Agent 落地”新阶段,通过技术、定价和生态三重驱动,正在推进 AI 从实验室走向生产;同时,也为整个jvzquC41uvudm7mgzwt/exr14286/9;/4253498974?60qyon
2.字节跳动豆包大模型发布,火山引擎全栈AI服务助力企业智能化转型火山引擎一直致力于构建开放共享的生态理念,自2021年发布万有计划以来,已经帮助100+家 SaaS 企业实现了业务增长,实现近万单客户签约。豆包企服联盟,是万有计划针对大模型落地的专项计划。万有计划·豆包企服联盟将提供一揽子支持规划,帮助 SaaS 企业实现 AI 升级,为行业客户提供更多开箱即用的 AI 应用。 jvzquC41yy}/frfpmgpj0lto1pku1?:5294ivvq
3.字节跳动豆包大模型发布,火山引擎全栈AI服务助力企业智能化转型豆包APP 是字节跳动重点投入的大模型应用,据朱骏透露,豆包平台月度活跃用户达到2,600万,已有超过800万个智能体被创建。 豆包大模型在服务字节内部的同时,也在与火山引擎的众多企业客户合作共创。谭待认为,企业在不同业务场景中,需要不同特点的模型,从而实现最佳效果和性价比。为此,豆包大模型提供的是一个多模态模型家jvzquC41pg}t0|npc0ipo7hp1unbpp}wph{tjns14285/9:/395eg}fkn/oocuesw733:>680yivvq
4.火山引擎发布大模型训练视频预处理方案已应用于豆包视频生成模型10月15日,火山引擎在视频云技术大会上发布了大模型训练视频预处理方案,助力解决视频大模型训练的成本、质量和性能等方面的技术挑战。目前,该技术方案已应用于豆包视频生成模型。 火山引擎总裁谭待在活动致辞时表示,在AIGC、多模态等技术的共同推动下,用户体验在多个维度上经历着深刻转变。“基于抖音业务实践和与行业客户共创,火山引擎视频 jvzq<84dl0vfqyqg0eun0ls1p4532;9132771l66766.6:52;8820qyon
5.火山引擎总裁回应大模型“价格战”:现在回归合理水平,原来太贵  8月21日,字节跳动旗下火山引擎总裁谭待在接受澎湃新闻记者采访时,谈到了此前轰动行业的大模型“价格战”。   当天,火山引擎AI创新巡展在上海举办。会上,火山引擎发布了豆包大模型产品升级,并携手多点 DMALL成立零售大模型生态联盟,基于豆包大模型打造零售AI解决方案。谭待透露,字节跳动旗下最新版豆包大语jvzq<84yyy4ykwmwcpku0lto1fohk}fn146369=451
6.火山引擎发布豆包最新深度思考模型每经北京4月17日电(记者杨昕怡)在今日火山引擎AI创新巡展杭州站现场,火山引擎总裁谭待发布了最新的豆包1.5 深度思考模型。据介绍,该模型在数学、编程、科学推理等专业领域及创意写作等通用任务中表现突出。同时,模型采用MoE架构,总参数200B,激活参数为20B,低于业界同类模型参数规模的50%,具备显著的推理成本优势。同时,jvzq<84zkpybpkfp036kstf0eqs/ew4424;16:<1e8<87<8:;74tj}rn
7.豆包概念股涨超11%本周机构密集调研相关上市公司|火山引擎南凌科技(23.530,0.13,0.56%)周五发布机构调研纪要,在回答公司和字节跳动火山引擎豆包AI的合作细节时表示,南凌科技与火山引擎在多个领域开展合作,是火山引擎全线产品的代理商。同时,南凌科技融合火山引擎生态资源,优化网络架构,在新一代的零信任网络安全架构开展紧密合作,进行优势互补,在双赢的基础上进行更多业务方面的深度jvzq<84hkpgoen3ukpg/exr0ep5kl|14285/:7/375eql2kpe€rcƒu565;:3@3ujvsm
8.火山引擎回应“字节跳动被曝将打造‘豆包汽车’”:纯属谣言,没有据网友爆料,字节跳动将打造“豆包汽车”,该计划将协同字节跳动旗下火山引擎的汽车云业务,围绕智能汽车的“座舱 + 智驾”两大板块,提供汽车智能智驾终端解决方案,可视为对标华为鸿蒙智行中软件解决方案的布局。 对此,火山引擎相关负责人对界面新闻回应称,纯属谣言。火山引擎为众多汽车客户提供高效的算法训练平台,自身并没jvzq<84o0etiwkjk0eun1ltpvgtu1;547/681;>1eqtugwya3;988:<30jznn
9.火山引擎总裁谭待:建议企业家先个人使用豆包APP火山引擎总裁谭待:建议企业家先个人使用豆包APP发现更多热门视频 王楚钦暴扣全场欢呼 北京时间3.6万次播放 美国博主震撼发言:要救美国,必须搞社会主义混合制! 闻新洞察1.5万次播放 40岁男子坚持面部刮痧一年,脸部红润紧致效果显著 于晓攀6916次播放 台湾一军官表示别整那些没用的花活,真遇上解放军无人机,直接投降保住战车 慢吞吞得熊爪子2.8万次jvzquC41xkjfq7xkpc4dp8kkpctdg8724731667;1fkucrq/kpkvxw}u648:;=90f0nuou
10.蓝色光标:与火山引擎合作基于豆包模型等推动AI营销深度整合蓝色光标在互动平台表示,11月,蓝色光标已与火山引擎达成深度合作,双方将基于火山方舟、豆包·视频生成模型、扣子专业版智能体开发平台,在视频生成、视频服务解决方案以及营销行业智能体应用等领域展开深入合作,共同推动AI与营销体系的深度整合、加速营销行业AI化进程。jvzquC41o0jejn0eqs0d{ngh1714=57697/j}rn
11.OPPO、vivo、荣耀、小米、三星、华硕、字节跳动成立智能终端大据IT之家此前报道,字节跳动在 2024 春季火山引擎 Force 原动力大会上正式宣布自家豆包大模型正式开启对外服务。 据介绍,豆包大模型包含豆包通用模型 Pro、豆包通用模型 liti、豆包・角色扮演模型、豆包・语音合成模型、豆包・声音复刻模型、豆包・语音识别模型、豆包・文生图模型、豆包・Function Call 模型。 jvzquC41yy}/k}mqog4dqv4219<919:50jzn
12.国产大模型到了“后发先至”时刻?火山引擎新浪财经另外,还有许多人不太清楚“火山引擎”“火山方舟”“豆包大模型”“扣子”之间的关系。 火山引擎是字节跳动旗下云服务平台,大模型只是其中一个业务板块。 火山方舟是大模型服务平台,可以调用、训练和评测大模型,理论上应该可以使用各家的产品,不过事实上,除了豆包大模型,只提供了GLM3、Mistral和Moonshot三款开源模型,jvzq<84hkpgoen3ukpg/exr0ep5xo872463246781fud/rsgcw{zv<9:4:630|mvon
13.火山引擎携手蜜度共启豆包大模型合作新篇章产2024年7月5日,在2024世界人工智能大会暨人工智能全球治理高级别会议上,北京火山引擎科技有限公司(以下简称:火山引擎)与蜜度科技股份有限公司(以下简称:蜜度)举行豆包大模型合作备忘录签约仪式。双方将聚焦内容洞察,深入探索细分垂直行业的需求,通过“AI+”的深度链接,推进人工智能技术的全时、全域应用,为各行各业的数智jvzquC41yy}/eny0eqs/ew4y|u0e‚z13619>7320yivvq
14.智能体浪潮里,豆包的崛起之路对专业开发者来说,豆包背靠火山引擎的联动如同一个智能体开发加速器,提供强大的算力支撑和模块化组件,省去了模型训练、算力调试等复杂环节,还打通了从创作到变现的闭环。开发者在火山引擎上开发的智能体,可通过豆包生态快速触达海量用户,借助抖音、今日头条等流量入口实现精准分发。 jvzquC41yy}/rltpnktf0lto0et0cr4ctvodnn4355;96=3jvor
15.字节跳动发布豆包大模型主力模型比行业价格低99.3%中国青年网讯(记者 张亚云)今日,字节跳动豆包大模型在火山引擎原动力大会上正式发布。火山引擎是字节跳动旗下云服务平台,据火山引擎总裁谭待介绍,经过一年时间的迭代和市场验证,豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一,目前日均处理1200亿Tokens文本,生成3000万张图片。 jvzq<84hkpgoen3{qwzi0ls1hktbpljaif~x1;5462;0v;5462;27h6747:46A3jvo
16.火山引擎回应筹备“豆包汽车”:纯属谣言火山引擎回应筹备“豆包汽车”:纯属谣言发现更多热门视频 孙颖莎成功复仇陈熠,展现强大实力! 耳中的影视2.9万次播放 梅德韦杰夫:美方对俄“最后通牒”加剧战争威胁 滚动播报3.3万次播放 女子发声反对女性胸部被性化,呼吁拒绝物化价值观 道哥日记1.2万次播放 平野美宇在厦门增重一公斤,全因蒯曼和覃予萱频繁投喂,张成教练jvzquC41xkjfq7xkpc4dp8kkpctdg8724731967;1fkucrq/kplje€yy99997=<0f0nuou
17.比行业价格低99%,豆包家族开“卷”?火山引擎谭待:人人用得起才是好这是一只搭载AI应用平台“扣子”所生成的bot(机器人程序)的机器狗。在5月15日的火山引擎原动力大会上,火山引擎总裁谭待现场宣布扣子以及扣子所属的字节跳动豆包大模型家族正式出道,豆包大模型将通过火山引擎对外提供服务,推出新一代全栈AI服务,帮助企业用更低的成本和更易落地的方案进行AI转型。 jvzquC41zwkrk~3eqo5:8<:476:2887;24?:39:
18.火山引擎发布行业首个大模型IT赋能平台,接入豆包大模型10月16日,火山引擎在上海推出行业首个大模型IT赋能平台“飞连”。该平台接入豆包大模型,通过All in One产品架构统管身份、网络、终端、数据等IT的核心要素,在多场景落地AI应用。飞连从2021年开始通过火山引擎对外开放服务。从字节跳动内部大规模使用,到多行业场景实践,飞连目前服务20多个行业,超过1500家客户,覆盖30jvzquC41o0zigyfrgt4dp8sgyuJfvjnnahusyjwfa4?15::47