要点速达👈
- 💻 数澈软件发布GPUStack,简化企业级大语言模型部署。
- 🔗 GPUStack支持异构GPU集群管理,兼容多种操作系统。
- 🌐 GPUStack提供OpenAI兼容API,方便集成私有LLM服务。
- 📊 GPUStack具备全面性能监控和身份验证功能。
- 🚀 GPUStack助力企业快速高效地开启LLM创新。
数智朋克讯,数澈软件近日发布了最新开源产品GPUStack,这是一款专门用于运行大型语言模型(LLM)的开源GPU集群管理器。尽管大语言模型作为公共云服务已经广泛推广,但企业在私有环境中部署和管理这些模型仍面临复杂挑战。GPUStack的推出将这一过程大大简化。
企业在部署私有LLM时,通常需要安装和管理如Kubernetes等复杂的集群软件,并研究如何在其上管理AI工具栈。当前流行的本地运行LLM的方法如LMStudio和LocalAI,通常只支持单台机器运行,不适用于多节点复杂集群环境。GPUStack通过支持各种品牌的异构GPU,构建统一的算力集群,无论是Apple Mac、Windows PC还是Linux服务器,都可以统一管理并形成一致的算力集群。
数澈软件联合创始人兼CTO梁胜博士表示,GPUStack能够让管理员从Hugging Face等模型仓库中轻松部署任意LLM,开发人员则可以像使用OpenAI或Microsoft Azure等公有LLM服务的API一样,简便地调用OpenAI兼容的API访问私有LLM。GPUStack集成了GPU集群管理、推理引擎和推理加速、租户和配额管理、使用和计量、性能度量、统一认证授权和访问控制等功能,构建了一个完整的平台,帮助企业轻松快速地开启LLM创新。
GPUStack通过聚合集群内的所有GPU资源,支持包括Nvidia、Intel、AMD、苹果、高通和华为在内的所有主要GPU厂商。其兼容MacOS、Windows和Linux操作系统的设备,使得模型部署和推理更加灵活。在资源充足时,GPUStack默认将模型卸载到GPU以实现最佳性能的推理加速;在资源不足时,支持混合使用GPU和CPU进行推理;甚至在没有GPU的情况下,也支持纯CPU推理。
此外,GPUStack提供了与OpenAI兼容的API,并设置了大模型试验场,开发人员可以调试大模型并快速集成到应用中。GPUStack还提供全面的性能、利用率和状态监控指标,帮助管理员实时监控资源利用情况和系统状态,并为开发人员优化应用提供数据支持。
为了保证安全性,GPUStack提供了身份验证和基于角色的访问控制(RBAC)功能,确保只有授权的管理员和开发人员可以访问和管理大模型,确保企业数据和资源的安全。
数澈软件联合创始人兼CEO秦小康表示,GPUStack团队的使命是帮助企业快速开启LLM创新,通过支持异构GPU集群,在保证高效性能的同时为企业节省成本。GPUStack将企业从繁琐的集群管理中解放出来,使其能够专注于大语言模型带来的创新和效益。