为人工智能训练和推理扩展存储的技巧

GPU 在扩展 AI 方面有很多好处,从更快的模型训练到 GPU 加速的欺诈检测。在规划人工智能模型和部署的应用程序时,必须考虑到可扩展性的挑战,特别是性能和存储。

无论使用情况如何,人工智能解决方案都有四个共同的要素:

1.训练模型

2.推理应用

3.数据存储

4.加速计算

在这些要素中,数据存储往往是在规划过程中最被忽视的。为什么?因为数据存储需求是随着时间的推移发生变化的,在创建和部署人工智能解决方案时,并不总是会被考虑。大多数人工智能部署的要求通过 POC 或测试环境迅速确认。

然而,挑战在于,POCs 往往解决一个单一的时间点。培训或推理部署可能存在几个月或几年。因为许多公司迅速扩大其人工智能项目的范围,基础设施也必须扩展以适应不断增长的模型和数据集。

这篇博客解释了如何提前规划和扩展训练和推理的数据存储。

图1. 训练和推理的基础

用于人工智能的数据存储层次结构

要想开始,请先了解人工智能的数据存储层次,其中包括 GPU 内存、数据结构和存储设备(图2)。

一般来说,你在存储层次中的位置越高,存储性能就越快,特别是延迟。在本讨论中,存储被定义为在电源开启或关闭时存储数据的任何东西,包括内存。

图2. 人工智能的数据存储层次结构

存储设备

硬盘和闪存驱动器是存储层次的基础。也有混合阵列,它们是各自的组合。硬盘可能以快速缓存层为前端,而全闪存阵列可能使用存储级内存(SCM)来提高读取性能。

当大型数据集加载到 GPU 内存的时间很重要时,快速存储很有用。当需要训练一个不再适合存储设备的模型时,很容易扩展存储容量。也可能是必须存储多个数据集--这是拥有可扩展存储的另一个原因。

数据结构

在层次结构的中间,数据结构被用来连接存储设备和 GPU 内存。

这一层包括:

- PCIe 总线

- 网卡

- DPU

- 数据通路中的任何其他卡存储和 GPU 内存之间。

为了简单起见,结构可以简单地被看作是存储设备和 GPU 内存之间的一个直通数据层。

GPU内存

由于 GPU 内存速度快且直接与 GPU 相连,当整个模型位于内存中时,训练数据集的处理速度很快。CPU 内存也在层次结构的顶端,仅次于 GPU 内存。

另外,模型数据可以分多批发送到 GPU 内存。大的 GPU 内存会导致更少的批次和更快的训练时间。如果 GPU 为模型或数据集的任何部分传送数据结构到内部或外部存储,将活动交换到磁盘会大大降低训练性能。

请记住,虽然存储设备和数据结构可以扩展,但 GPU 内存是固定的。这意味着 GPU 内存是配置给 GPU 的,内存大小不能升级以支持更大的训练模型和数据集。

如果制造商支持,例如通过英伟达 NVLink,原始 GPU 可以使用新增 GPU 的内存。然而,并不是所有的系统都能容纳第二个 GPU 和增加内存的可能性。

最终,部署计划应包括一个内存远远超过当前需求的 GPU 。在未来解决内存不足的问题可能会很昂贵。

为推理扩大存储规模时的考虑因素

推理是人工智能解决方案的价值传递所在。出于这个原因,需要有效的存储。

为了确保推理的存储是可扩展的,请考虑以下因素:

- 纵向扩展与横向扩展

- 无缝升级

- 实时要求

纵向扩展与水平扩展

存储的可扩展性并不仅仅是以容量来衡量。它也是以性能来衡量的。真正的扩展性确保当容量和性能要求增加时,存储系统会根据需要提供更多的容量和性能。

让我们来研究一个与纵向扩展的现实世界的例子。在旧金山旅游区有几十辆三轮车。一个骑自行车的人或司机为三轮车提供动力,三轮车的乘客人数为2人、4人甚至6人。

在只有一名乘客的情况下,司机可以快速蹬车,更快地到达目的地,并更快地寻找新的乘客。装载更多乘客的三轮车会导致加速变慢,最高速度降低,并且一天的行程减少。三轮车是一种纵向扩展的机器。

你可以很容易地增加容量,但在性能上没有相应的增加,因为你被限制在一个司机的力量。对于横向扩展的机器,每增加一个乘客,就有一个额外的司机为三轮车提供动力。当功率和容量线性增加时,性能永远不会成为一个瓶颈。

对于推理来说,容量和性能的真正扩展是关键。推理服务器可以随着时间的推移存储大量的数据。存储的读写性能必须扩展,以防止推理结果的延迟。

但是,随着推理应用的执行,语音、图像、客户资料和其他数据被写入磁盘,存储容量也必须扩展。此外,还需要有效地存储再训练数据,以便反馈到模型中。

无缝升级

某些推理应用不能很好地容忍停机。例如,什么是关闭网店的欺诈检测的最佳时机?当你禁用网店推荐引擎以升级存储容量或存储性能时,会有什么损失的订单?

可能受到维护升级影响的推理应用的清单是非常广泛的,例子包括:

- 用于客户服务的对话式AI应用。

- 对视频流进行24/7分析,以获得智能洞察力。

- 关键的图像识别应用。

除非推理能够容忍维护窗口,否则扩展容量和性能会成为一个挑战。在致力于特定的存储部署之前,最好先考虑一下存储升级和可用性方案。

实时要求

作为一个实时推理的例子,考虑一下在线交易的欺诈检测。推理应用正在寻找显示出不可接受的风险的异常行为和交易概况。在用户等待交易批准时,必须在几分之一秒内做出数百项决定。低延迟存储和高性能数据结构连接是实时交易的关键,特别是当风险参数必须快速从存储中检索时。

亚毫秒的存储性能是某些实时应用程序的起点,这些应用程序受益于存储和 GPU 内存之间的高性能途径。英伟达利用 RDMA 协议来加速从存储到 vRAM 的传输,其功能称为英伟达 GPUDirect Storage。这可以缩短 GPU 对实时需要的存储数据(如风险概况数据)的检索时间。检索到的概况和风险数据点以后可以重新进行分析,以提高准确性。

NVIDIA GPUDirect 技术支持 GPU 内存和本地 NVMe 存储之间的 DMA 直接数据通路交易,或者通过 NVMe-oF进行远程存储。

解决疏忽问题

在规划过程中往往有改进的余地。训练和推理的一些常见的存储相关的疏忽包括可扩展性、性能、可用性和成本。

在训练和推理过程中,有一些方法可以避免这种情况。

训练:

- 始终使用远远超过当前要求的 GPU 内存进行部署。

- 始终考虑未来模型和数据集的大小,因为 GPU 内存是不可扩展的。

推理:

- 当预期性能和容量都会随着时间的推移而增长时,选择横向扩展存储。

- 选择支持无缝升级的存储,特别是对于那些很少或没有提供维护窗口的应用程序。

- 未来支持实时推理应用的存储升级可能不可能或不实际。在最初的 GPU、存储和结构部署之前做出这些决定。

主要收获

应尽早以整体的方式解决存储的扩展问题。这包括容量、性能、网络硬件和数据传输协议。最重要的是,确保充足的 GPU 资源,因为如果不这样做,就会否定所有其他的训练和推理工作。

关于作者

About André Franklin André Franklin 是英伟达公司数据科学营销团队的一员,主要负责跨英伟达驱动的工作站和服务器的基础设施解决方案。他在多个企业解决方案方面拥有广泛的经验,包括 NetApp、惠普企业和 Nimble 存储阵列与预测分析。

THE END
0.“层次结构”类型SmartArt图形说明Office 中“层次结构”类型的所有 SmartArt 图形布局的完整列表和图片。 使用此选项来快速确定创建哪种“层次结构”类型的 SmartArt。jvzquC41uwvqq{y0okisq|thv0ipo8j/et0qokkeg5.'N:'D3+94.J8'CI&C:*G9'HC'B8'G8+:G.=6/'K8'K6'DD+F7.>G':H.uvftvcxu/.J7';H&DN*G7'HE'J7'G:+BH.G6'G<&;A*:G/gdd<5;f832do>/6;=f/Bf49/h939959:h3gm
1.物理学的“语法”——物理定律的层次结构与物理理论的构建方法|物理定律的层次结构 社会语言学家伯恩斯坦曾将人类获得的知识分为水平知识结构(horizontal knowledge structure)和等级知识结构(hierarchical knowledge structure),图1展示了等级知识结构和水平知识结构的差异[2]。 图1 水平知识结构和金字塔式等级知识结构图示 jvzq<84m0uooc7hqo0io1jwvkerfa?7:;6:16@6a39
2.顾家家居:首次公开发行股票招股说明书股票频道水平较高的品牌企业。在公司所处的中高端软体家具行业,企业之间的竞争已 经从低层次的价格竞争逐渐升级到品牌、网络、质量、服务、管理等的综合能 力竞争。另外,中国巨大的消费市场吸引了国外软体家具厂商进入。市场竞争 的加剧可能导致行业平均利润率的下滑,从而对公司的生产经营带来不利影 响。 虽然近年来软体家具行jvzquC41uvudm7xvqeqtvjw0eqs0pxykeg5KE;5382?3895222885h90ujznn
3.办公自动化论文范文2管理层次结构 2.1系统层次结构 层次结构是一个物理模型,它体现实际机构设置。肇庆电力工业局办公系统是一个整体,其中局本部和各县局分别是一个管理子系统,整个层次结构共分4级,即肇庆电力工业局办公自动化系统、子系统、工作部门、工作人员。 2.2管理层次 jvzquC41yy}/i€~qq0ipo8mcqyko1@859:4ivvq
4.3.29脑科学日报|全球城市化对人类大脑、行为及心理健康的影响Science子刊封面:绘制人类感觉神经元图 2,大脑是否具有“与生俱来的语法意识”? 来源:Life博士 层次语言结构的神经追踪 人类语言之所以独特,是由于它具有无限的组合性质:在语法系统的基础上,较小的语言单元可以组合成较大的语言结构,从而形成语言单元的层次结构。然而,大脑是如何表征这些不同大小的语法结构的呢?近日,jvzq<84yyy4489iqe0ipo8hqpvkov87412:1;87319;3;;:34a714>;529>:0|mvon
5.课例丨如何基于学业质量标准,实现“教学以上的水平层次框架,是根据评价内容制订的不同层次的等级测评框架,不再是简单的根据标准答案进行对或错的评定。在具体的评价中,可以根据等级测评框架,清楚地了解每一个学生分别达到的哪个水平层次,为改进教学指明了方向。比如在表1中,水平1的案例图,学生知道36-8=28,但不能把先算什么、再算什么说清楚,处于算理理jvzquC41yy}/3?80eqs0f‚4ctvodnn4JQH?SX\R273
6.电子政务研究论文通用12篇另外,电子政务数据仓库中对数据不同粒度的集成和综合,更有效地支持了多层次、多种知识的挖掘。4、查询支持 电子政务数据仓库面向决策支持,电子政务数据仓库的体系结构努力保证查询(Query)和分析的实时性。电子政务数据仓库设计成只读方式,用户可以直接访问电子政务数据仓库,挖掘过程可以做到实时交互,使决策者的思维保持jvzquC41yy}/z~jujw4dqv4jcq}fp86545920qyon
7.北票网页设计层级关系图表(网页设计简述层的概念)首先,依次单击“插入”菜单,然后选择插图框中的“SmartArt”。在出现的对话框中,选择“层次结构”,在右边的“组织结构图”中选择竖排或横排的结构图例,双击出现的“文本”,然后填写家谱姓氏、辈份等信息。如果家族人丁兴旺,可以在不同的辈份(行或列)添加多个文本。 jvzq<84dgkvjcx3{knohwojp0et0c{ykenk04l75h7?f0qyon
8.周光礼、耿孟茹:雄安新区高等教育规模与结构的预测——基于高等2.层次结构。图1呈现了北京、上海及粤港澳大湾区的高等教育层次结构。统计显示:①三地专科在校生占比整体呈下降趋势,研究生(硕博)在校生占比不断上升。②各地区本科在校生数占比约五成,高等教育层次结构呈“橄榄球型”。③北京、上海层次结构重心高于粤港澳大湾区。与北京、上海2019年研究生在校生占比高达39.4%、28.7jvzq<84uqg4swl3gfw4dp8nphq523<7153=:0qyo
9.组织结构及其优缺点矩阵结构与传统的层次结构不一致。在这种结构中,员工具有双重报告关系。通常,员工会根据他们的工作职能向某人报告,而另一位领导会根据他们的产品或部门向他们报告。在矩阵组织结构图上,直接下属关系用实线表示,二级下属关系用虚线表示。拥有多个指挥链可以促进平衡的决策和灵活性,由于项目由多个业务部门监督,因此有充足的jvzq<84yyy4489iqe0ipo8hqpvkov87612>3785919;27?626a725;755:<10|mvon