Petuum与MBZUAI推出开源项目LLM360，发布万亿级数据集TxT360助力AI研究

要点速达👈

🌐 Petuum与MBZUAI推出LLM360，推动AI研究透明化。
📊 TxT360数据集整合并去重99个CommonCrawl快照和14个高质量数据源。
🏆 TxT360在Hugging Face上排名第一，击败22万个其他数据集。
🛠️ LLM360为开发者提供详细的训练步骤和代码，支持更先进的数据加权技术。
🔍 5万亿token语料库让LLM预训练更加快捷高效，支持高质量AI模型开发。

数智朋克讯，Petuum与MBZUAI共同启动了名为LLM360的开源项目，旨在推动大型语言模型（LLM）的开发过程更加透明化，并为全球开发者提供易于获取和使用的开源资源。该项目特别关注提升开源代码透明度，通过公开完整的模型训练过程、代码、数据和开发最佳实践，帮助研究人员更快、更经济地构建开源LLM，从而推动AI研究的民主化。

LLM360目前已经推出13个开源模型，其中包括K2在内的四大模型系列，提供详细的模型检查点、代码、数据以及开发过程中的见解。该项目的核心亮点之一是最新发布的TxT360数据集。这一数据集由99个CommonCrawl快照和14个高质量来源（如FreeLaw、PG-19、StackExchange、Arxiv等）经过严格的合并与去重处理而成，覆盖了法律、文学等多个领域。TxT360数据集专注于数据的高质量与清洁度，为开发者提供了开箱即用的预训练资源，同时提供了一个用于创建超过15万亿个token的上采样配方。

截至2024年10月18日，TxT360在Hugging Face平台上排名第一，击败了超过22万个其他数据集。该数据集不仅在规模上占据优势，还通过丰富的元数据存储使开发者能够精准控制数据分布，支持更为先进的加权技术探索。TxT360对LLM预训练者而言是一个强有力的工具，特别是在数据去重、清理和数据质量管理方面，它提供了详尽的流程和技术指导，极大降低了创建高质量数据集的门槛。

LLM360的研究团队设计了一条全面的数据处理流水线，结合常用的数据源与清理技术，生成了约5万亿个唯一token的语料库，并开放了全部细节，包括代码、决策理由和统计数据等。这一详细记录对于LLM开发者来说，是研究和开发大型模型的重要资源。此外，TxT360项目的技术博客也为预训练数据集管理提供了宝贵的指导。

TxT360的成功表明，LLM360项目正逐步成为开源AI研究领域的重要推动力量，其透明化的做法也为更多开发者创造了广阔的创新空间。

Petuum与MBZUAI推出开源项目LLM360，发布万亿级数据集TxT360助力AI研究

数智资讯订阅