关于 DeepSeek

bhold · 帖子由 **bhold楼主** » 2025年 1月 28日 21:54

看到 DeepSeek 的进展很是高兴

1 DeepSeek（DS）的算法

DS模型的加速主要有 3个算法技巧

1. Multi-head Latent Attention (MLA): MLA is designed to compress the Key-Value cache into a latent vector, significantly reducing memory usage during inference.

Key-Value降维压缩可减少内存使用提高读取速度
压缩不是新技术但用在这里是 DS 的首创
压缩缺点是会带来讯息损失

2. Mixture-of-Experts (MoE) Architecture: DeepSeek employs a sparse computation approach through its MoE architecture, enabling the model to activate only a subset of its parameters during processing. For instance, in DeepSeek-R1, while the total parameter count is 671 billion, only 37 billion parameters are activated per token.

MoE 的好处是每次只激活（计算）一小部分参数（6%这里）大大降低计算量
这是 DS 减少计算量最主要的地方
MoE 的缺点是精度损失
且需要各种复杂的调制且结果很难稳定
毕竟每次只算了一小部分参数
MoE 是 Shazeer et al. 2017 首创 "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer", published at Google Brain. Link: https://arxiv.org/abs/1701.06538

3. Used FP8 运算
8位浮点数相对于 16 和 32 优点是比较快
FP8 缺点是截断误差大结果不可靠

DS的一大创新算法是
Reinforcement Learning without Supervised Fine-Tuning: In developing DeepSeek-R1, they utilized reinforcement learning techniques without relying on supervised fine-tuning. This approach allows the model to improve its reasoning capabilities autonomously, reducing the need for extensive labeled datasets and associated training costs.

这个也是DS模型进步的核心因素
虽然 Reinforcement Learning不是新东西
Reinforcement Learning without Supervised Fine-Tuning 的实现算是 DS 独立研发
这个东西OpenAI-o1 也开发出来了并在使用但没有开源公布
这个算是DS的新东西但文章里语焉不详没有透露细节 LOL
也没有公开模型训练代码核心内容还是有所保留
以各大厂的人才济济如果一个月内搞不定这个我会很鄙视他们 LOL

2 DeepSeek 拥有什么芯片
DeepSeek 属于幻方量化公司的产品
幻方量化是中国一家对冲基金公司从事量化股票交易
它不是一家小公司曾管理基金1000亿 RMB
既做股票又做大模型听上去是不是有点魔幻

手里有的是钱在2021年其手中就已经有了1万张 A100 GPU
Aug 26 2024, 他们的paper宣称拥有 10,000 块 A100 GPUs
在文章摘要里可以看到 https://arxiv.org/abs/2408.14158

Dec 27 2024, 他们的 DeepSeek-V3 paper claimed used H800 GPUs
See the abstract of the paper, Deepseek-V3: https://arxiv.org/html/2412.19437v1

最近 Alexandr Wang (born 1997，身价 $2 billions ) , the founder and CEO of Scale AI, said DeepSeek actually has 50,000 H100s
See the video starts at 2:50

DeepSeek 到底拥有多少高级芯片确实是个谜
不过用阉割版H800 训练模型几个月而不用手里高级的A100
确实不是常人能够理解的

3 DeepSeek 开源吗
算是开了半个源
DeepSeek 训练好的权重和推理源代码都开放了大家可以使用
Inference model 在 https://github.com/deepseek-ai/DeepSeek-V3
但是他训练的源代码源程序并没有开放也就是说你并不知道他到底是怎么练出来的

且重要部分在 report 里也语焉不详 https://arxiv.org/abs/2501.12948
（备注一下 arxiv.org 是大家自己往上发文章的不需要同行评审）
有人想把源代码拿过来自己也练一个想得太简单了

以上图片引自小红书还有这个评论 “铁匠打造了一把锋利无比的斧子，斧子公开卖，你用起来也确实锋利无比（开源了模型权重），但是怎么锻造（训练）的确实含糊其辞”

4 DeepSeek 的花费
文章里说用了2080块 H800
每块H800 的价格是$ 30,603美元
2080 x $ 30,603 = $ 63,654,240

文章里说只花 $5M 这个花费实际是模型调好以后最后一次训练成型的花费
做过研究的都知道成功之前的无数次失败和调试运算
不知道是几百倍的 5M
有人觉得以后花个5百万也可以弄出个大模型幼稚

5 总的来说
DS 的模型推动了行业的发展是AI行业的一大喜事
其中 Reinforcement Learning without Supervised Fine-Tuning 是其独门进展
任何算法的改进都会促进行业的发展
使我们离AI又近了一步

DS的3个加速技巧则是是不得已而逼出来的是牺牲精度换取速度
（更感觉像给自行车装了个电瓶让自行车跑得像汽车那么快）
这些加速算法在模型开发初期是非常实用的可以快速便宜地训练迅速建立起一个差不多的模型
在落地上则还有很长的路要走最后还是要回到提高精度上来
觉得国内会想尽一切办法弄高级卡
比如这个神医常年蹲守2手版
viewtopic.php?t=197101
不会是只为了游戏玩家吧 LOL

一亿美元或许可以把模型训练到90%
十亿可以把模型训练到99%
百亿可以把模型训练到99.9%
千亿可以把模型训练到99.99%
要万亿可以把模型训练到99.999%

特斯拉的自动驾驶觉得目标怎么也得 99.99%

===========================================================
Update:
上面说的加速算法都是次要的
关键的是DS 蒸馏了OpenAI-o1
所以模型训练收敛块这属于作弊行为
怪不得在训练上含糊其辞
别人用同样的技术路线却做不出来

所以DS的真实成本应该是
OpenAI 的成本 + DS 的成本

（ヅ） · 帖子由 **（ヅ）** » 2025年 1月 28日 21:56

>>> Deepseek模型的加速算法技巧
<think>
好的，用户现在明确询问关于“DeepSeek模型”的加速算法技巧。首先，我需要确认“DeepSeek”是哪个公司或项目的产品。

经过搜索，“深度求索（DeepSeek）”可能是一个AI研究机构，专注于开发和优化各种机器学习模型。因此，用户的需求可能是如何提
升这些模型的训练和推理速度。

为了提供有效的建议，我需要考虑以下方面：硬件优化、算法调整、分布式计算等。但目前信息有限，我需要进一步澄清用户的具体
需求，如他们使用的是哪种模型、应用场景以及当前遇到的问题。
</think>

关于**DeepSeek模型**的加速算法技巧，可以参考以下几种常见的方法来提升模型的训练和推理效率：

---

### 1. **硬件优化**
- **并行计算**：利用GPU/CPU的多线程或分布式计算能力，通过数据并行或模型并行加速模型训练。
- **专用硬件**：使用TPU（张量处理单元）等专为AI设计的硬件来加速模型推理和训练。

---

### 2. **算法优化**
- **梯度剪裁（Gradient Clipping）**：防止梯度爆炸，加速收敛。
- **学习率调度器（Learning Rate Scheduler）**：动态调整学习率，避免陷入局部极小值或过早收敛。
- **批量归一化（Batch Normalization）**：加快训练速度并减少对初始化的敏感性。
- **知识蒸馏（Knowledge Distillation）**：将大模型的知识迁移到小模型，提升效率。

---

### 3. **模型优化**
- **网络剪枝（Network Pruning）**：移除冗余神经元或权重，降低计算复杂度。
- **模型量化（Quantization）**：通过降低数据精度（如从FP32到INT8）减少计算量和内存占用。
- **模型蒸馏（Model Distillation）**：使用小模型模仿大模型的行为，提升效率。

---

### 4. **分布式训练**
- **数据并行（Data Parallelism）**：将数据分块到多个设备上进行训练，同步梯度更新。
- **模型并行（Model Parallelism）**：将模型层分布在多个设备上，适用于内存受限的场景。

---

### 5. **优化工具**
- **TensorFlow/PyTorch 的优化库**：利用这些框架提供的优化器和加速工具（如XLA、Graph Optimization）。
- **自动混合并行（Automatic Mixed Parallelism）**：结合数据并行和模型并行，最大化硬件利用率。

---

### 6. **算法选择与调整**
- **选择适合任务的模型架构**：使用轻量级模型（如MobileNet、EfficientNet）替代复杂模型。
- **调整超参数**：优化批量大小、学习率、动量等参数以提升训练效率。

---

如果你能提供更多关于DeepSeek模型的具体信息或应用场景，我可以为你提供更针对性的建议！

biggestballs

bhold 写了： 2025年 1月 28日 21:54 看到 DeepSeek 的进展很是高兴

1 DeepSeek（DS）的算法

DS模型的加速主要有 3个算法技巧

1. Multi-head Latent Attention (MLA): MLA is designed to compress the Key-Value cache into a latent vector, significantly reducing memory usage during inference.

Key-Value降维压缩可减少内存使用提高读取速度
压缩不是新技术但用在这里是 DS 的首创
压缩缺点是会带来讯息损失

2. Mixture-of-Experts (MoE) Architecture: DeepSeek employs a sparse computation approach through its MoE architecture, enabling the model to activate only a subset of its parameters during processing. For instance, in DeepSeek-R1, while the total parameter count is 671 billion, only 37 billion parameters are activated per token.

MoE 的好处是每次只激活（计算）一小部分参数（6%这里）大大降低计算量
这是 DS 减少计算量最主要的地方
MoE 的缺点是精度损失
且需要各种复杂的调制且结果很难稳定
毕竟每次只算了一小部分参数
MoE 是 Shazeer et al. 2017 首创 "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer", published at Google Brain. Link: https://arxiv.org/abs/1701.06538

3. Used FP8 运算
8位浮点数相对于 16 和 32 优点是比较快
FP8 缺点是截断误差大结果不可靠

DS的一大创新算法是
Reinforcement Learning without Supervised Fine-Tuning: In developing DeepSeek-R1, they utilized reinforcement learning techniques without relying on supervised fine-tuning. This approach allows the model to improve its reasoning capabilities autonomously, reducing the need for extensive labeled datasets and associated training costs.

这个也是DS模型进步的核心因素
虽然 Reinforcement Learning不是新东西
Reinforcement Learning without Supervised Fine-Tuning 的实现算是 DS 独立研发
这个东西OpenAI-o1 也开发出来了并在使用但没有开源公布
这个算是DS的新东西但文章里语焉不详没有透露细节 LOL
也没有公开模型训练代码核心内容还是有所保留
以各大厂的人才济济如果一个月内搞不定这个我会很鄙视他们 LOL

2 DeepSeek 拥有什么芯片
DeepSeek 属于幻方量化公司的产品
幻方量化是中国一家对冲基金公司从事量化股票交易
它不是一家小公司曾管理基金1000亿 RMB
既做股票又做大模型听上去是不是有点魔幻

手里有的是钱在2021年其手中就已经有了1万张 A100 GPU
Aug 26 2024, 他们的paper宣称拥有 10,000 块 A100 GPUs
在文章摘要里可以看到 https://arxiv.org/abs/2408.14158

Dec 27 2024, 他们的 DeepSeek-V3 paper claimed used H800 GPUs
See the abstract of the paper, Deepseek-V3: https://arxiv.org/html/2412.19437v1

最近 Alexandr Wang (born 1997，身价 $2 billions ) , the founder and CEO of Scale AI, said DeepSeek actually has 50,000 H100s
See the video starts at 2:50

DeepSeek 到底拥有多少高级芯片确实是个谜
不过用阉割版H800 训练模型几个月而不用手里高级的A100
确实不是常人能够理解的

3 DeepSeek 开源吗
算是开了半个源
DeepSeek 训练好的权重和推理源代码都开放了大家可以使用
Inference model 在 https://github.com/deepseek-ai/DeepSeek-V3
但是他训练的源代码源程序并没有开放也就是说你并不知道他到底是怎么练出来的

且重要部分在 report 里也语焉不详 https://arxiv.org/abs/2501.12948
（备注一下 arxiv.org 是大家自己往上发文章的不需要同行评审）
有人想把源代码拿过来自己也练一个想得太简单了

以上图片引自小红书还有这个评论 “铁匠打造了一把锋利无比的斧子，斧子公开卖，你用起来也确实锋利无比（开源了模型权重），但是怎么锻造（训练）的确实含糊其辞”

4 DeepSeek 的花费
文章里说用了2080块 H800
每块H800 的价格是$ 30,603美元
2080 x $ 30,603 = $ 63,654,240

文章里说只花 $5M 这个花费实际是模型调好以后最后一次训练成型的花费
做过研究的都知道成功之前的无数次失败和调试运算
不知道是几百倍的 5M
有人觉得以后花个5百万也可以弄出个大模型幼稚

5 总的来说
DS 的模型推动了行业的发展是AI行业的一大喜事
其中 Reinforcement Learning without Supervised Fine-Tuning 是其独门进展
任何算法的改进都会促进行业的发展
使我们离AI又近了一步

DS的3个加速技巧则是是不得已而逼出来的是牺牲精度换取速度
（更感觉像给自行车装了个电瓶让自行车跑得像汽车那么快）
这些加速算法在模型开发初期是非常实用的可以快速便宜地训练迅速建立起一个差不多的模型
在落地上则还有很长的路要走最后还是要回到提高精度上来
觉得国内会想尽一切办法弄高级卡
比如这个神医常年蹲守2手版
viewtopic.php?t=197101
不会是只为了游戏玩家吧 LOL

一亿美元或许可以把模型训练到90%
十亿可以把模型训练到99%
百亿可以把模型训练到99.9%
千亿可以把模型训练到99.99%
要万亿可以把模型训练到99.999%

特斯拉的自动驾驶觉得目标怎么也得 99.99%

写的很全面，谢谢分享，自动驾驶确实需要高精度，毕竟人命关天，但文本生成，某些场景下精确度应该不需要那么高，牺牲精度换速度/更小算力应该可行

另外，补充一下，我之前查到的A100和H800的区别：H800被阉割掉的部分是双精度浮点运算；单精度，H800比A100更快；A100不支持FP8运算，只能用H800

jiml · 帖子由 **jiml** » 2025年 1月 28日 22:14

bhold 写了： 2025年 1月 28日 21:54 看到 DeepSeek 的进展很是高兴

1 DeepSeek（DS）的算法

DS模型的加速主要有 3个算法技巧

1. Multi-head Latent Attention (MLA): MLA is designed to compress the Key-Value cache into a latent vector, significantly reducing memory usage during inference.

Key-Value降维压缩可减少内存使用提高读取速度
压缩不是新技术但用在这里是 DS 的首创
压缩缺点是会带来讯息损失

2. Mixture-of-Experts (MoE) Architecture: DeepSeek employs a sparse computation approach through its MoE architecture, enabling the model to activate only a subset of its parameters during processing. For instance, in DeepSeek-R1, while the total parameter count is 671 billion, only 37 billion parameters are activated per token.

MoE 的好处是每次只激活（计算）一小部分参数（6%这里）大大降低计算量
这是 DS 减少计算量最主要的地方
MoE 的缺点是精度损失
且需要各种复杂的调制且结果很难稳定
毕竟每次只算了一小部分参数
MoE 是 Shazeer et al. 2017 首创 "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer", published at Google Brain. Link: https://arxiv.org/abs/1701.06538

3. Used FP8 运算
8位浮点数相对于 16 和 32 优点是比较快
FP8 缺点是截断误差大结果不可靠

DS的一大创新算法是
Reinforcement Learning without Supervised Fine-Tuning: In developing DeepSeek-R1, they utilized reinforcement learning techniques without relying on supervised fine-tuning. This approach allows the model to improve its reasoning capabilities autonomously, reducing the need for extensive labeled datasets and associated training costs.

这个也是DS模型进步的核心因素
虽然 Reinforcement Learning不是新东西
Reinforcement Learning without Supervised Fine-Tuning 的实现算是 DS 独立研发
这个东西OpenAI-o1 也开发出来了并在使用但没有开源公布
这个算是DS的新东西但文章里语焉不详没有透露细节 LOL
也没有公开模型训练代码核心内容还是有所保留
以各大厂的人才济济如果一个月内搞不定这个我会很鄙视他们 LOL

2 DeepSeek 拥有什么芯片
DeepSeek 属于幻方量化公司的产品
幻方量化是中国一家对冲基金公司从事量化股票交易
它不是一家小公司曾管理基金1000亿 RMB
既做股票又做大模型听上去是不是有点魔幻

手里有的是钱在2021年其手中就已经有了1万张 A100 GPU
Aug 26 2024, 他们的paper宣称拥有 10,000 块 A100 GPUs
在文章摘要里可以看到 https://arxiv.org/abs/2408.14158

Dec 27 2024, 他们的 DeepSeek-V3 paper claimed used H800 GPUs
See the abstract of the paper, Deepseek-V3: https://arxiv.org/html/2412.19437v1

最近 Alexandr Wang (born 1997，身价 $2 billions ) , the founder and CEO of Scale AI, said DeepSeek actually has 50,000 H100s
See the video starts at 2:50

DeepSeek 到底拥有多少高级芯片确实是个谜
不过用阉割版H800 训练模型几个月而不用手里高级的A100
确实不是常人能够理解的

3 DeepSeek 开源吗
算是开了半个源
DeepSeek 训练好的权重和推理源代码都开放了大家可以使用
Inference model 在 https://github.com/deepseek-ai/DeepSeek-V3
但是他训练的源代码源程序并没有开放也就是说你并不知道他到底是怎么练出来的

且重要部分在 report 里也语焉不详 https://arxiv.org/abs/2501.12948
（备注一下 arxiv.org 是大家自己往上发文章的不需要同行评审）
有人想把源代码拿过来自己也练一个想得太简单了

以上图片引自小红书还有这个评论 “铁匠打造了一把锋利无比的斧子，斧子公开卖，你用起来也确实锋利无比（开源了模型权重），但是怎么锻造（训练）的确实含糊其辞”

4 DeepSeek 的花费
文章里说用了2080块 H800
每块H800 的价格是$ 30,603美元
2080 x $ 30,603 = $ 63,654,240

文章里说只花 $5M 这个花费实际是模型调好以后最后一次训练成型的花费
做过研究的都知道成功之前的无数次失败和调试运算
不知道是几百倍的 5M
有人觉得以后花个5百万也可以弄出个大模型幼稚

5 总的来说
DS 的模型推动了行业的发展是AI行业的一大喜事
其中 Reinforcement Learning without Supervised Fine-Tuning 是其独门进展
任何算法的改进都会促进行业的发展
使我们离AI又近了一步

DS的3个加速技巧则是是不得已而逼出来的是牺牲精度换取速度
（更感觉像给自行车装了个电瓶让自行车跑得像汽车那么快）
这些加速算法在模型开发初期是非常实用的可以快速便宜地训练迅速建立起一个差不多的模型
在落地上则还有很长的路要走最后还是要回到提高精度上来
觉得国内会想尽一切办法弄高级卡
比如这个神医常年蹲守2手版
viewtopic.php?t=197101
不会是只为了游戏玩家吧 LOL

一亿美元或许可以把模型训练到90%
十亿可以把模型训练到99%
百亿可以把模型训练到99.9%
千亿可以把模型训练到99.99%
要万亿可以把模型训练到99.999%

特斯拉的自动驾驶觉得目标怎么也得 99.99%

强贴留名
内行看一眼，就知有没有，赞！

Tea · 帖子由 **Tea** » 2025年 1月 28日 22:58

他的这些优化，都是为了适应低级显卡，这样是不是就知道他是用了高级显卡还是低级显卡吗？

azhuzjh

MaLaRabbit · 帖子由 **MaLaRabbit** » 2025年 1月 28日 23:16

\(≧▽≦)/
现在解释的最简洁清晰的文章

新未名空间

关于 DeepSeek

#1 关于 DeepSeek

#2 Re: 关于 DeepSeek

#3 Re: 关于 DeepSeek

#4 Re: 关于 DeepSeek

#5 Re: 关于 DeepSeek

#6 Re: 关于 DeepSeek

#7 Re: 关于 DeepSeek