DeepSeek 开源进度 5/5:高性能并行文件系统 3FS 实现聚合吞吐 6.6 TiB/s

人工智能 开源
DeepSeek 在开源周第五天发布了 3FS,这是一个专为充分利用现代 SSD 和 RDMA 网络带宽而设计的并行文件系统,具备惊人的数据访问性能,为深度学习等数据密集型应用提供了强大的支持。

2 月 28 日消息,DeepSeek 在开源周第五天发布了 3FS(Fire-Flyer File System),这是一个专为充分利用现代 SSD 和 RDMA 网络带宽而设计的并行文件系统,具备惊人的数据访问性能,为深度学习等数据密集型应用提供了强大的支持。

IT之家附上开源地址:https://github.com/deepseek-ai/3FS

基于 3FS 的数据处理框架 Smallpond:https://github.com/deepseek-ai/smallpond

3FS 性能亮点

  • 集群高吞吐: 在 180 节点集群中,3FS 实现了高达 6.6 TiB/s 的聚合读取吞吐量。
  • 基准测试优异: 在 25 节点集群的 GraySort 基准测试中,3FS 达到了 3.66 TiB / min 的吞吐量。
  • 单节点高性能: 每个客户端节点的 KVCache 查找峰值吞吐量超过 40 GiB/s。
  • 架构先进:  3FS 采用去中心化架构,并具备强一致性语义。

3FS 应用场景

3FS (Fire-Flyer File System) 是一款高性能的分布式文件系统,旨在解决 AI 训练和推理工作负载带来的挑战,利用现代 SSD 和 RDMA 网络提供共享存储层,简化分布式应用程序的开发。

其核心优势在于高性能、强一致性和易用性,能够有效支持各种 AI 工作负载,包括数据准备、数据加载、检查点设置和推理缓存。

3FS 在 DeepSeek 的 V3 / R1 版本中得到广泛应用,涵盖了训练数据预处理、数据集加载、检查点保存 / 重新加载、嵌入向量搜索以及推理过程中的 KVCache 查找等关键环节。

Smallpond

此外,DeepSeek 还开源了基于 3FS 的数据处理框架 Smallpond,是一款构建于 DuckDB 和 3FS 之上的轻量级数据处理框架。它拥有高性能数据处理能力,可扩展至 PB 级数据集,并且操作简便,无需长期运行的服务。

责任编辑:庞桂玉 来源: IT之家
相关推荐

2016-08-18 09:36:53

IBM

2012-09-12 15:30:19

分布式集群

2020-01-07 16:16:57

Kafka开源消息系统

2019-10-17 09:23:49

Kafka高性能架构

2021-07-06 10:35:46

分布式KafkaLinux

2019-06-26 07:25:47

NoSQL数据库开发

2023-04-27 09:00:35

2017-02-06 16:18:57

微软GitGVFS

2015-07-20 11:19:22

Amazon S3AWS加密文件配置

2023-07-19 14:00:50

OverlayC语言

2025-02-25 11:35:36

2018-09-27 11:25:07

开源日志聚合

2023-04-12 15:09:25

Overlay fs鸿蒙

2015-08-13 09:58:09

HproseNode.js

2015-09-23 09:04:30

java高性能

2024-12-25 14:03:03

2020-07-22 14:53:06

Linux系统虚拟文件

2021-09-10 10:26:45

PyTorch数据集S3 Plugin

2013-10-25 17:14:20

iOS7性能

2011-10-24 15:16:03

宏基笔记本
点赞
收藏

51CTO技术栈公众号