(转载)DeepSeek 开源周第 5 弹 - 3FS 和 smallpond(转贴)

版主: hci

回复
头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 469
帖子: 9928
注册时间: 2022年 7月 22日 15:29

#1 (转载)DeepSeek 开源周第 5 弹 - 3FS 和 smallpond(转贴)

帖子 hci(海螺子)楼主 »

此帖转自 snowman 在 军事天地(Military) 的帖子:DeepSeek 开源周第 5 弹 - 3FS 和 smallpond(转贴)

Fire-Flyer File System(3FS):高性能分布式文件系统

火速提升AI工作负载效率🚀
Fire-Flyer File System (3FS) 是一个专为解决AI训练和推理工作负载挑战而设计的高性能分布式文件系统。它利用现代SSD和RDMA网络提供一个共享存储层,使得分布式应用开发变得更加简便。

📈 性能与易用性
分离架构:结合数千个SSD的吞吐量和数百个存储节点的网络带宽,使应用能够以无关地域的方式访问存储资源。
强一致性:通过实现链式复制与分配查询(CRAQ),确保强一致性,使得应用代码更简洁且易于推理。
文件接口:采用无状态元数据服务,背后支持事务型键值存储(如FoundationDB)。熟悉的文件接口,无需学习新的存储API。

🔄 多样化工作负载支持
数据准备:将数据分析管道的输出组织成层次化目录结构,有效管理大量中间输出。
数据加载器:通过支持跨计算节点随机访问训练样本,消除预读取或数据洗牌的需求。
检查点:支持大规模训练的高吞吐量并行检查点。
推理KV缓存:提供一种基于成本效益的替代方案,替代DRAM缓存,提供更高吞吐量并大大提高容量。
smallpond:轻量级数据处理框架,基于DuckDB和3FS构建
轻松处理PB级数据🚀
smallpond 是一个轻量级的数据处理框架,基于 DuckDB 和 3FS,提供高效的数据处理能力,专为大规模数据集而设计。它无须长时间运行的服务,支持大数据集的高效处理,轻松集成到您的工作流中。
🔥 主要特点
高性能数据处理:由 DuckDB 提供强大支持,确保数据处理过程高效且快速。
PB级数据集处理能力:无论数据量多大,smallpond 都能轻松应对。
简易操作:无需长时间运行的服务,简单易用的API,节省开发时间。
⚡ 性能评估
通过 GraySort 基准测试,smallpond 在一个由50个计算节点和25个存储节点构成的集群上运行 3FS 存储系统,成功将110.5TiB的数据排序,仅用了30分钟14秒,达到了每分钟3.66TiB的平均吞吐量!
回复

回到 “葵花宝典(Programming)”