Fire-Flyer File System(3FS):高性能分布式文件系统
火速提升AI工作负载效率
Fire-Flyer File System (3FS) 是一个专为解决AI训练和推理工作负载挑战而设计的高性能分布式文件系统。它利用现代SSD和RDMA网络提供一个共享存储层,使得分布式应用开发变得更加简便。
分离架构:结合数千个SSD的吞吐量和数百个存储节点的网络带宽,使应用能够以无关地域的方式访问存储资源。
强一致性:通过实现链式复制与分配查询(CRAQ),确保强一致性,使得应用代码更简洁且易于推理。
文件接口:采用无状态元数据服务,背后支持事务型键值存储(如FoundationDB)。熟悉的文件接口,无需学习新的存储API。
数据准备:将数据分析管道的输出组织成层次化目录结构,有效管理大量中间输出。
数据加载器:通过支持跨计算节点随机访问训练样本,消除预读取或数据洗牌的需求。
检查点:支持大规模训练的高吞吐量并行检查点。
推理KV缓存:提供一种基于成本效益的替代方案,替代DRAM缓存,提供更高吞吐量并大大提高容量。
smallpond:轻量级数据处理框架,基于DuckDB和3FS构建
轻松处理PB级数据
smallpond 是一个轻量级的数据处理框架,基于 DuckDB 和 3FS,提供高效的数据处理能力,专为大规模数据集而设计。它无须长时间运行的服务,支持大数据集的高效处理,轻松集成到您的工作流中。
高性能数据处理:由 DuckDB 提供强大支持,确保数据处理过程高效且快速。
PB级数据集处理能力:无论数据量多大,smallpond 都能轻松应对。
简易操作:无需长时间运行的服务,简单易用的API,节省开发时间。
通过 GraySort 基准测试,smallpond 在一个由50个计算节点和25个存储节点构成的集群上运行 3FS 存储系统,成功将110.5TiB的数据排序,仅用了30分钟14秒,达到了每分钟3.66TiB的平均吞吐量!