会员服务 登录 注册
×
资讯活动

边缘智能的新时代:端侧大模型的研究进展综述

发布时间:2024-09-14 来源:金属加工

1 序言:边缘智能的新纪元

在人工智能的飞速发展中,大型语言模型(LLMs)以其在自然语言处理(NLP)领域的革命性突破,引领着技术进步的新浪潮。自 2017 年 Transformer 架构的诞生以来,我们见证了从 OpenAI 的 GPT 系列到 Meta 的 LLaMA 系列等一系列模型的崛起,它们不仅在技术层面上不断刷新我们对机器理解与生成人类语言能力的认知,更在实际应用中展现出巨大的潜力和价值。

然而,这些模型传统上主要部署在云端服务器上,这种做法虽然保证了强大的计算力支持,却也带来了一系列挑战:网络延迟、数据安全、持续的联网要求等。这些问题在一定程度上限制了 LLMs 的广泛应用和用户的即时体验。正因如此,将 LLMs 部署在端侧设备上的探索应运而生,它不仅能够提供更快的响应速度,还能在保护用户隐私的同时,实现个性化的用户体验。

随着技术的不断进步,边缘 AI 市场的全球规模正以惊人的速度增长。预计从 2022 年的 152 亿美元增长到 2032 年的 1436 亿美元,这一近十倍的增长不仅反映了市场对边缘 AI 解决方案的迫切需求,也预示着在制造、汽车、消费品等多个行业中,边缘 AI 技术将发挥越来越重要的作用。

在这样的背景下,本综述文章深入探讨了在边缘设备上部署 LLM 的策略和进展。我们将详细分析模型压缩技术、能效计算策略以及轻量级模型架构的创新设计。此外,文章还将讨论硬件加速策略、边缘 - 云协同部署方法,并重点介绍在边缘场景中有效利用 LLM 的部署策略,以及这些技术在行业中的应用实例和带来的益处。

2 技术进展:探索端侧 LLMs 部署

在人工智能的浪潮中,端侧大型语言模型(On-Device LLMs)正以其迅猛的发展速度和广泛的应用前景,成为技术革新的新宠。自 2023 年起,随着参数量低于 10B 的模型系列如 Meta 的 LLaMA、Microsoft 的 Phi 系列等的涌现,我们见证了 LLMs 在边缘设备上运行的可行性和重要性。这些模型不仅在性能上取得了长足的进步,更通过混合专家、量化和压缩等技术,保持了参数量的优化,为边缘设备的多样化应用场景提供了强大支持。

进入 2024 年,新模型的推出愈发密集,Nexa AI 的 Octopus 系列、Google 的 Gemma 系列等,它们不仅在文本处理上有所增强,更在多模态能力上展现了新的可能性,如结合文本与图像等多模态输入,以适应更复杂的用户交互需求。

然而,要在资源受限的设备上部署这些强大的模型,我们必须面对内存和计算能力的双重挑战。研究者们通过量化感知缩放、稀疏更新等创新方法,有效解决了这些问题,使得大型模型即便在参数量巨大的情况下,也能在设备端高效运行。

相较于完全依赖云端的 LLM 服务,端侧推理的优势显而易见。它不仅减少了数据传输的延迟,更保护了用户数据的隐私安全。图 4 的投票分布显示,大多数参与者更倾向于边缘云协作的架构,对现有仅云端的解决方案并不满意。端侧推理的低延迟特性,尤其适用于需要实时响应的应用场景,如 Google 的 Gemini Nano 支持的 TalkBack 功能,即便在完全离线的情况下也能正常工作。

衡量端侧 LLMs 性能的指标包括延迟、推理速度、内存消耗等。这些指标直接关系到模型在边缘设备上的实际运行效果,以及用户的使用体验。随着技术的不断成熟,我们期待这些性能指标能得到进一步的优化,使得端侧大语言模型能在更多场景下发挥其潜力。

3 架构创新:优化边缘设备的性能

在智能手机和边缘设备上部署大型语言模型(LLMs)正成为人工智能领域的新挑战。面对有限的内存和计算能力,研究者们提出了一系列创新的架构设计原则和方法,旨在实现资源的高效利用和性能的最大化。架构创新变得尤为关键,其中包括参数共享、模块化设计以及紧凑的表示形式。例如,MobileLLM 通过深度和瘦长的模型结构优化了参数量在十亿以下的模型,而 EdgeShard 框架则通过边缘云协作计算实现了模型的分布式处理,显著降低了延迟并提高了吞吐量。

同时,模型压缩与参数共享技术的应用,如 AWQ 方法和 MobileLLM,不仅减少了模型尺寸,还在保持性能的同时加快了推理速度。这些技术通过保护关键权重和优化模型结构,为 LLMs 在端侧的部署提供了新的可能性。协作和层次化模型方法通过分散计算负载和利用不同能力模型的组合,解决了资源受限设备的部署难题。EdgeShard 和 LLMCad 的研究成果展示了这种方法的有效性,它们通过在多个设备上分配计算任务,提升了 LLMs 的可扩展性和效率。

在内存和计算效率的优化方面,Samsung Electronics 提出的 PIM 和 PNM 技术,以及 MELT 基础设施,都显著提升了内存带宽和容量,同时降低了能耗,为 LLMs 的移动部署铺平了道路。MoE 架构的应用,如 EdgeMoE 和 LocMoE,通过稀疏激活和动态路由,进一步提高了 LLMs 的效率。这些方法通过优化专家网络的选择和路由,减少了模型的内存占用和提高了计算速度。

此外,总体效率和性能提升的研究,如 Any-Precision LLM 和 LCDA 框架,通过提供多精度支持和软硬件协同设计,为 LLMs 在边缘设备上的高效运行提供了新的视角。随着这些创新技术的迅速发展,我们期待在移动设备和边缘设备上享受到与云端相媲美的智能体验,这将为用户带来更加快速、个性化的服务,同时确保数据的安全性和隐私保护。智能边缘计算的未来正变得愈发清晰,它将为人工智能领域带来深远的影响和无限的可能性。

4 模型压缩:平衡性能与效率

在边缘设备上部署大型语言模型(LLMs)时,保持性能的同时提升计算效率尤为关键。本文综述了四种关键的模型压缩技术:量化、剪枝、知识蒸馏和低秩分解,这些方法通过在性能、内存占用和推理速度之间找到平衡,确保了 LLMs 在端侧应用的可行性。

量化是一种通过降低模型权重和激活的精度来减少模型大小的技术。这种方法能够在几乎不损失模型性能的情况下,显著减少模型所需的存储空间和计算资源。后训练量化(PTQ)是一种在模型训练完成后应用的技术,它通过一些先进的补偿策略,如 GPTQ,可以在将模型权重量化到 3 或 4 位的情况下,保持模型的高准确度。而量化感知训练(QAT)则将量化集成到模型的训练过程中,使模型在训练时就适应低精度的约束,从而在量化后保持更高的准确度。

剪枝是另一种通过减少模型复杂性来提升计算效率的方法。结构化剪枝通过移除模型中的整个参数子集,如层、通道或过滤器,来优化硬件性能。无结构化剪枝则在更细的粒度上工作,移除单个权重,提供更高的压缩率。此外,上下文剪枝根据模型的运行上下文动态地移除权重,确保在不同条件下都能保持最优的性能。

知识蒸馏是一种将大型模型的知识迁移到小型模型的技术。黑盒 KD 只使用教师模型的输出进行学习,而白盒 KD 则允许学生模型访问教师模型的内部状态,实现更深入的学习。这种方法可以在不牺牲性能的情况下,显著减少模型的大小和计算需求。

低秩分解是一种将大型矩阵分解为较小矩阵的技术。这种方法利用了矩阵的低秩结构,减少了计算复杂性,同时保持了模型的准确性。Yao 等人的研究将 LRF 与 PTQ 结合,提出了低秩补偿(LoRC),在显著减少模型大小的同时,通过补偿策略保持了模型的准确性。

5 硬件加速:推动端侧 LLMs 的高效运行

硬件加速器在大型语言模型(LLMs)的端侧部署中扮演着至关重要的角色。GPU 和 TPU 等专用硬件提供了强大的计算能力和高内存带宽,它们是训练和加速 LLMs 的重要基础。NVIDIA 的 Tensor Cores 以及 Google TPU 的高效矩阵乘法能力,都为基于 Transformer 的模型提供了强有力的支持。同时,FPGA 以其灵活性,通过稀疏矩阵乘法和量化技术,在 Transformer 层的推理任务中展现出高效能,为特定模型架构提供了定制优化的可能。

软硬件协同设计的方法,如量化感知训练和模型压缩,进一步提升了 LLMs 的效率,使得它们能够跨越从高功率服务器到低功率边缘设备的广泛部署。这些技术通过参数共享和先进的内存管理,减少了模型的存储需求,确保了快速且成本效益更高的部署。此外,各种框架如 Llama.cpp、MNN、PowerInfer 等,根据不同的硬件平台和用例需求,提供了优化的部署策略,从而实现从云端到边缘的无缝协作。

在边缘云部署方面,MLC-LLM 和 VLLM 等技术通过支持高效的量化方法和关键内存管理,优化了 LLMs 在边缘设备和云环境中的部署。OpenLLM 等项目通过 BentoML 等工具,实现了开源 LLMs 的快速部署,提供了与 OpenAI 兼容的 API 服务。随着硬件技术的不断进步,如 NVIDIA A100 GPU 和 Google TPU v4,我们看到了端侧 LLMs 性能的显著提升,这些硬件不仅提供了巨大的计算能力,还通过混合精度训练等技术,大幅减少了模型的内存占用并提高了计算效率。

6 实例与应用:端侧 LLMs 的实践探索

端侧语言模型的实例:Gemini Nano 模型通过 Google AI Edge SDK 为移动操作系统提供了一个小型但功能强大的 LLM,它通过 4 位量化部署,提供了一流的性能和低延迟的推理速度。Nexa AI Octopus 系列模型则在边缘设备上运行,以超越 GPT-4 的准确性和延迟,同时减少了 95% 的上下文长度。Apple 的 OpenELM 和 Ferret-v2 模型通过 iOS 集成,提供了类似系统服务的功能扩展。Microsoft 的 Phi 系列,特别是 Phi-3-mini 模型,即使在移动部署中也展现出与大型模型相媲美的性能。此外,MiniCPM-Llama3-V 2.5 和 Gemma2-9B 等开源模型也在各自的领域内展现出卓越的性能。

端侧大语言模型的应用:端侧 LLMs 的应用范围极为广泛,从即时消息生成、实时语言翻译、会议摘要到医疗咨询、科研支持、陪伴机器人、残障人士辅助以及自动驾驶等。例如,Google 的 Gboard 应用利用 Gemini Nano 模型提供基于聊天内容的快速回复建议。在翻译领域,端侧模型能够在离线环境中快速响应,同时保证翻译质量。会议摘要应用通过分析会议内容,实时生成摘要,避免了云模型订阅服务费用和网络延迟问题。在医疗领域,端侧模型能够在本地处理患者数据,保护隐私同时提供紧急情况下的快速响应。

科研支持方面,端侧 LLMs 能够利用特定领域的大量专业数据进行训练,加速科研进展。陪伴机器人和 IoT 设备通过端侧 LLMs 提升了理解自然语言指令的能力。对于视障人士,端侧多模态模型能够将图像转换为文字,提供丰富的图像描述,并支持离线使用。此外,手语识别和翻译项目也利用了端侧模型的低延迟和离线可用性。

自动驾驶领域,结合大规模视觉语言模型的系统正在改善车辆对复杂和长尾场景的理解,提供即时响应并处理动态场景。