DIGIPUNK
去投稿
发表于:2024年11月06日

Arm与ExecuTorch合作推出新量化模型,提升边缘设备上的生成式AI性能

数智朋克
发布者:数智朋克
阅读:1 分钟
我要投稿
要点速达👈
  • 🖥️ Arm和ExecuTorch合作推出高效AI模型部署框架
  • 🤖 新的Llama量化模型减少内存需求,提高精度与性能
  • ⚡ KleidiAI优化4位量化,加速模型在边缘设备的执行
  • 💡 2,000万开发者能更快在数十亿设备上部署生成式AI
  • 🌍 生成式AI应用如虚拟助手和实时文本生成得以普及

数智朋克消息,在推动边缘侧生成式AI应用的进程中,Arm公司携手Meta的PyTorch团队发布了ExecuTorch框架测试版,面向全球数亿边缘设备,为大规模生成式AI应用提供了深度优化的支持。ExecuTorch框架特别设计用于在移动设备和边缘计算环境中部署PyTorch原生AI模型。通过这一合作,开发者能轻松在小型设备上部署包括新发布的Llama 3.2 1B和3B量化模型在内的优化模型,应用场景涵盖虚拟聊天、文本生成和摘要、AI助手等。

借助ExecuTorch与KleidiAI的集成,这些量化模型无需额外修改,即可在Arm设备上实现高效执行。特别是,KleidiAI的4位量化优化技术和XNNPACK集成,使得边缘设备上的AI工作负载能够更快、更灵活地运行。例如,在Llama 3.2 1B模型的预填充阶段,速度提升20%,一些基于Arm架构的移动设备上文本生成速度可达每秒400词元,显著提高了终端用户的响应速度和体验。

对于开发者而言,ExecuTorch框架和量化模型的结合大幅简化了AI模型的开发和部署流程,开发者可以不经额外优化就将新模型集成到应用中,在大规模边缘设备上实现AI应用落地。同时,随着ExecuTorch测试版的发布,全球2,000万名Arm开发者将能够利用这一框架,在未来数十亿台边缘设备上大规模部署生成式AI。

随着Llama 3.2新版本发布,Arm与Meta的这一创新合作为边缘计算环境中的生成式AI应用提供了新的可能性。开发者可利用量化模型带来的精确度与可移植性,支持虚拟助手、智能客服、实时文本生成等功能,以最低的硬件资源实现最佳的用户体验。

本文链接: https://www.shuzhipunk.com/articles/dubNnQzA8Ec
转载请注明文章出处

文章所属标签
Arm
ExecuTorch
量化模型