数澈软件发布GPUStack：简化企业级大语言模型部署与管理

要点速达👈

💻 数澈软件发布GPUStack，简化企业级大语言模型部署。
🔗 GPUStack支持异构GPU集群管理，兼容多种操作系统。
🌐 GPUStack提供OpenAI兼容API，方便集成私有LLM服务。
📊 GPUStack具备全面性能监控和身份验证功能。
🚀 GPUStack助力企业快速高效地开启LLM创新。

数智朋克讯，数澈软件近日发布了最新开源产品GPUStack，这是一款专门用于运行大型语言模型（LLM）的开源GPU集群管理器。尽管大语言模型作为公共云服务已经广泛推广，但企业在私有环境中部署和管理这些模型仍面临复杂挑战。GPUStack的推出将这一过程大大简化。

企业在部署私有LLM时，通常需要安装和管理如Kubernetes等复杂的集群软件，并研究如何在其上管理AI工具栈。当前流行的本地运行LLM的方法如LMStudio和LocalAI，通常只支持单台机器运行，不适用于多节点复杂集群环境。GPUStack通过支持各种品牌的异构GPU，构建统一的算力集群，无论是Apple Mac、Windows PC还是Linux服务器，都可以统一管理并形成一致的算力集群。

数澈软件联合创始人兼CTO梁胜博士表示，GPUStack能够让管理员从Hugging Face等模型仓库中轻松部署任意LLM，开发人员则可以像使用OpenAI或Microsoft Azure等公有LLM服务的API一样，简便地调用OpenAI兼容的API访问私有LLM。GPUStack集成了GPU集群管理、推理引擎和推理加速、租户和配额管理、使用和计量、性能度量、统一认证授权和访问控制等功能，构建了一个完整的平台，帮助企业轻松快速地开启LLM创新。

GPUStack通过聚合集群内的所有GPU资源，支持包括Nvidia、Intel、AMD、苹果、高通和华为在内的所有主要GPU厂商。其兼容MacOS、Windows和Linux操作系统的设备，使得模型部署和推理更加灵活。在资源充足时，GPUStack默认将模型卸载到GPU以实现最佳性能的推理加速；在资源不足时，支持混合使用GPU和CPU进行推理；甚至在没有GPU的情况下，也支持纯CPU推理。

此外，GPUStack提供了与OpenAI兼容的API，并设置了大模型试验场，开发人员可以调试大模型并快速集成到应用中。GPUStack还提供全面的性能、利用率和状态监控指标，帮助管理员实时监控资源利用情况和系统状态，并为开发人员优化应用提供数据支持。

为了保证安全性，GPUStack提供了身份验证和基于角色的访问控制（RBAC）功能，确保只有授权的管理员和开发人员可以访问和管理大模型，确保企业数据和资源的安全。

数澈软件联合创始人兼CEO秦小康表示，GPUStack团队的使命是帮助企业快速开启LLM创新，通过支持异构GPU集群，在保证高效性能的同时为企业节省成本。GPUStack将企业从繁琐的集群管理中解放出来，使其能够专注于大语言模型带来的创新和效益。

数澈软件发布GPUStack：简化企业级大语言模型部署与管理

数智资讯订阅