Llama3背后的秘密:HuggingFace发布万亿级数据集Fineweb 原创 精华
Llama3是在15万亿个公共数据标记上进行训练的。但是,您可以在哪里找到这样的数据集和处理方法呢?
近日,HuggingFace发布🍷Fineweb,一个高质量的大规模筛选网络数据集,优于目前所有同等规模的数据集。HuggingFace训练了200多个消融模型,精心制作了这个数据集,对Common Crawl进行了解析和过滤。HuggingFace对2013年至2024年间的所有CommonCrawl数据进行了筛选和去重。在FineWeb上训练的模型优于RefinedWeb、C4、DolmaV1.6、The Pile和SlimPajama
所有的处理方法、数据、消融模型和超参数都是开源的,并且HuggingFace计划持续改进Fineweb。
这是什么?
🍷 FineWeb数据集由超过15T标记的英文网络数据组成,经过了清洗和去重处理,数据来源于CommonCrawl。数据处理流程针对LLM性能进行了优化,并在我们的大规模数据处理库🏭 datatrove上运行。
🍷 FineWeb最初旨在成为🦅 RefinedWeb的完全开放复制品,全套数据集将根据ODC-By 1.0许可证发布。然而,通过谨慎添加额外的过滤步骤,研究人员成功将🍷 FineWeb的性能推高到原始🦅 RefinedWeb的水平之上,并且在基准任务组上,基于数据集训练的模型也优于基于其他常用高质量网络数据集(如C4、Dolma-v1.6、The Pile、SlimPajama)训练的模型。
发布了什么?
除了数据集之外,还包括自2013年以来的所有CommonCrawl转储数据。HuggingFace还在此处共享了使用🏭 datatrove库完全重现我们处理设置所需的所有代码。为了实现对结果的完全复制,HuggingFace还发布了我们使用nanotron训练的小型消融模型,以验证数据集并与其他参考数据集进行比较。您可以在此处找到它们,每1000步进行一次检查点。HuggingFace还在此处发布了我们的评估结果。
如何下载和使用🍷 FineWeb
方法1
from datasets import load_dataset
fw = load_dataset("HuggingFaceFW/fineweb", name="CC-MAIN-2024-10", split="train", streaming=True)
方法2
from huggingface_hub import snapshot_download
folder = snapshot_download(
"HuggingFaceFW/fineweb",
repo_type="dataset",
local_dir="./fineweb/",
allow_patterns="data/CC-MAIN-2023-50/*")
译自(有删改):https://huggingface.co/datasets/HuggingFaceFW/fineweb
本文转载自公众号AIGC最前线