如何构建数据底座助力生成式AI

如何构建数据底座助力生成式AI

发布时间：2024-10-10 来源：金属加工

随着AI大模型的兴起，数字基础设施行业正面临前所未有的变革压力，尤其是作为“三大件”之一的存储领域。AI大模型，如ChatGPT和Sora，以其卓越的表现刷新了人们对人工智能的认知，但这些成就背后是对计算资源、网络连接和数据存储能力的极限挑战。

传统上，存储被视为数据的仓库，但在AI大模型的背景下，存储系统已转变为数据处理和分析的积极参与者。存储设备不仅要提供足够的空间来容纳快速增长的数据量，还要具备高效的数据管理能力，以确保数据可以被迅速地访问、处理和利用。特别是在数据预处理、模型训练和实时应用等关键环节，存储性能直接影响到AI模型的训练速度和最终的业务效果。

长久以来，AI领域的焦点集中在算法模型的开发与训练上，企业投入大量资源构建复杂模型以提升预测准确率和任务执行能力。然而，随着模型的不断成熟和应用场景的多样化，如何高效地将这些模型应用于实际业务场景，即AI推理，成为了新的关注点。推理阶段涉及到模型在实时环境中处理数据、做出决策的过程，它直接影响到用户体验和业务效率。

存储性能差异：

训练阶段：AI模型训练是一个高度数据密集型的过程，需要频繁地读取大量训练数据，对存储的读取速度和带宽有着极高的要求。同时，训练过程中还会产生大量中间结果和模型检查点，需要快速写入存储以备后续使用或恢复训练状态。
推理阶段：相比之下，推理过程更多地依赖于模型而非原始数据，对存储的读写性能要求相对较低，但对响应时间和低延迟有更高要求。推理系统需要快速地从存储中检索模型参数，并对输入数据进行实时处理，确保用户体验的流畅性。

存储容量与成本差异：

在训练阶段，企业可能会选择高性能的全闪存存储来满足大数据量和高IOPS的需求，这通常意味着较高的成本。
随着重点转向推理，对存储容量的需求可能减少，但同时对成本效益的追求增加，企业可能会倾向于采用更为经济的存储解决方案，如混合存储或分层存储策略，以平衡成本与性能。

数据访问模式差异：

训练阶段数据访问往往涉及大量随机读写
推理则主要是模型参数的读取和少量的输出数据写入，这要求存储系统能够优化读取路径，减少读取延迟，提高I/O效率。

AI应用程序在处理大规模数据集和复杂模型训练时，往往展现出独特的IO模型，特别是当提到"数百万个小IO读写操作"时，AI工作负载，尤其是在深度学习训练阶段，经常涉及对大量小块数据的频繁读取和写入操作。

小IO请求相比大块连续读写更容易造成存储设备的随机访问压力，降低IOPS和吞吐量。AI训练对数据访问延迟非常敏感，频繁的小I/O可能会累积延迟，影响训练效率和模型收敛速度。大量并发的小I/O请求可能导致存储资源过度碎片化，影响存储空间的有效利用率。

为了优化训练效率，实践中可能采取以下策略：

分层存储：采用多层次存储方案，将频繁访问的数据或活跃数据缓存在高速存储（如SSD）中，而较少访问的数据则存储在低成本但容量大的存储（如HDD）中。
数据预处理：在训练前进行数据预处理，如数据压缩、数据增强等，减少实际需要从存储中读取的数据量。
I/O优化：利用软件层面的优化，如异步I/O、数据预读取策略，减少I/O等待时间，提高数据读取效率。
分布式训练：采用分布式训练策略，将数据集分割到多个计算节点上，每个节点独立处理一部分数据，这样可以分散对单一存储系统的读取压力，同时利用多个存储设备的总带宽。
分布式存储：采用分布式文件系统或对象存储解决方案，通过并行处理小I/O请求来分散负载，提高整体系统吞吐量。
数据预加载和预处理：提前将数据加载到内存或更快的存储层，并进行必要的预处理，减少实时I/O需求。

根据相关预测，到2028年，四分之三拥有生成式 AI 训练数据的组织将部署单一存储平台来存储数据，这一比例高于 2024 年的 10%。大多数企业将不必为生成式AI构建新的存储基础设施，因为他们将微调现有的大型语言模型（LLMs），而不是训练新模型。

大规模生成式AI部署将需要独特的存储性能和数据管理功能，用于生成式AI工作流程的数据摄取、训练、推理和归档阶段。将数据直接引入现成的LLM或部署生成式AI时，获取“GenAI in a box”融合存储解决方案。

在使用少量数据进行训练或采用预训练模型时，使用现有的企业存储平台：存储区域网络 (SAN)、网络附加存储 (NAS)、对象存储或超融合基础设施 (HCI)。如果要运行大规模生成式AI应用程序，需要构建一个端到端存储基础设施平台，该平台可以支持生成式AI工作流程的所有应用阶段：数据摄取、训练和微调、推理和归档。它应该能够灵活地管理来自多个来源的数据，包括数据中心、边缘和公有云。

在大多数情况下，组织在架构生成式AI基础设施时，服务器可能需要进行重大更新，从基于 CPU 迁移到基于 GPU，以满足对计算能力的极端需求，特别是在语言模型具有许多参数的情况下。然而，虽然存储是生成式AI堆栈中的关键层，完成模型训练时很容易成为瓶颈，但存储经常被组织所忽视。如果选型不当，存储可能会减慢 GPU 的整体数据传输以及模型检查点和恢复过程，从而造成GPU速度的降低和关键计算资源的浪费。

没有一种存储部署类型适合所有企业，也没有一个单一的功能列表可以指出生成式AI 应用程序的最佳存储类型。如果选择错误的存储部署类型或忽略生成式AI所需的关键功能，那么可能会带来一个高昂的代价。

生成式AI使用的存储需要三组独特的功能：

单一、可扩展的数据湖存储平台，可以托管用于模型训练的所有数据。无论是基于文件或基于对象的用例、吞吐量或延迟敏感的工作负载、大型或小型文件、元数据密集型或数据密集型访问量大的工作负载。
一个可提供足够高的性能的特定功能集，以在训练阶段保持服务器上的 GPU 占用，并足够快地完成模型检查点和恢复过程。如果存储无法足够快地将数据提供给 GPU，这些 GPU 就会闲置，这相当于浪费。
一组可提供跨本地部署、多个云和边缘位置的全局数据管理功能。训练或完善模型所需的数据可能来自多个位置。如果没有全局数据管理数据，则必须对其进行复制，这会导致操作复杂性和容量浪费。

大多数组织将采用现有的人工智能模型，或根据其现有业务数据重新训练现有模型，并可选择根据其业务需求添加特定的外部数据。对于在少量数据上使用现有 LLMs 的企业来说，一体化、全栈、生成式AI一体式融合存储解决方案很可能是最佳选择。

当主要使用现有数据进行微调时，有两种部署存储的方法：投资专用的生成式AI盒装解决方案。这些通常是超融合解决方案，由适当大小的存储、计算和网络以及预训练的 LLM（类似于 Nutanix 的 GPT-in-a-Box）组成。使用现有的存储基础设施，无论数据是存储在文件、对象或块存储、外部或直连存储还是超融合存储中。对于这种方法，如果组织拥有一个数据管理软件层，可以提供跨不同存储孤岛、本地、边缘和/或公共云中的数据访问，则会有所帮助。

大规模生成式AI部署需要先进的模型训练和推理能力以及全面的数据管理能力。一些 GenAI 工作负载以 PB 级数据量而闻名，这些数据量对于 GenAI 工作流程的各个阶段有不同的性能和操作要求。对于这些工作负载，通常使用数据湖或分布式存储系统（例如 Hadoop 或 Spark）来存储训练数据和中间输出。在训练、微调和推理方面，专门的 GPU 优化的高吞吐量基础设施堆栈至关重要。对于整个流程，具体实践者应该：

将数据直接引入现成的LLM或运行生成式AI部署时，获取生成式AI盒装融合存储解决方案。
使用现有的企业存储平台（SAN、NAS、DFS 或 HCI）来运行小规模生成式AI试点。
投资数据管理解决方案，以提供跨现有存储的通用访问，以及支持自定义标记和基于元数据搜索能力。
在考虑其他供应商的新产品之前，请先了解现有存储供应商的生成式AI功能。供应商正在快速为 GenAI 构建新功能并推出新的专用解决方案。

存储在此堆栈中发挥着重要作用，存储解决方案的选择取决于人工智能模型的大小。对于较小的型号，本地连接的磁盘存储可能就足够了。但较大的模型通常需要基于对象存储或并行文件系统的共享存储。对于大规模 GenAI 系统，可扩展、高容量和低延迟存储组件的集成对于处理非结构化数据操作时的最佳性能至关重要。

大规模 GenAI 部署将通过增加数据量、需要支持不同的数据类型以及需要高效的数据版本控制和生命周期管理来影响非结构化数据存储领域。网络和存储基础设施必须适应高吞吐量，同时将数据丢失降至最低。它还必须是可组合的，从而支持 GenAI 工作负载不断变化的需求。此外，GenAI 数据平台必须在 GenAI 工作负载的不同阶段之间实现混合数据管理，以实现数据管道的自动化。最后，GenAI数据平台必须支持高于平常的数据安全标准，以保护敏感数据。

传统的存储基础设施方法不适用于 GenAI 工作负载，因为其工作流程具有异构性。不仅应该关注用于训练 GenAI 模型的高性能存储，还应该构建端到端工作流程策略，包括跨边缘、公共云和本地存储解决方案提供数据管理功能的能力。上表概述了如何评估存储平台以满足大规模实施的要求。

目前，GenAI 的早期采用者正在与超大规模公共云提供商合作，因为这些提供商可以快速容纳任何规模的试点。为大规模 GenAI 部署构建基础设施，应该：

选择能够为面向带宽/顺序批处理工作负载和小文件/随机 I/O 工作负载提供高性能的供应商和产品，因为大多数传统解决方案无法为提供良好的性能。
使用共享存储方法来整合数据平台并消除生成式AI数据管道阶段之间的移动，并提高存储效率。
通过使用高性能结构消除瓶颈并最大限度地提高 GPU 利用率，实现现有存储网络的现代化。
开发跨不同人工智能数据管道阶段和部署选项（边缘、核心和公共云）的集成数据管理方法，以避免引入存储孤岛。

总而言之，AI市场正经历着快速的增长，这一增长动力来源于技术的进步、数据可用性的增加以及对自动化和智能决策的需求。各行各业的企业开始认识到AI在提升效率、改善客户体验以及获取竞争优势方面的价值。AI市场涵盖了广泛的产品和服务，包括AI软件平台、支持AI的硬件以及AI服务。随着算法的不断优化，尤其是深度学习和机器学习领域的突破，AI技术得以迅速发展，能够处理更复杂的问题。同时，互联网、物联网（IoT）设备和社交媒体等产生的海量数据为AI模型提供了丰富的学习素材，促进了AI解决方案的优化和创新，选择合理的数据存储方案，进一步加速AI落地。

通知

如何构建数据底座 助力生成式AI

存储性能差异：

存储容量与成本差异：

数据访问模式差异：