属实 浙江假货世界闻名赖美豪中 写了: 2025年 1月 21日 14:40 别的公司不敢这么玩啊,llm这玩意没有捷径,有的捷径就是作弊。不要低估了老中再这方面的天赋。我老知道国内某个计算软件为了通过评审,直接把测试集答案存起来,直接print出来,这还是当年的某973项目。
(转载)deepseek R1推理全面接近O1
版主: verdelite, TheMatrix
#21 Re: (转载)deepseek R1推理全面接近O1
标签/Tags:
-
- 论坛支柱
2024年度优秀版主
TheMatrix 的博客 - 帖子互动: 253
- 帖子: 13110
- 注册时间: 2022年 7月 26日 00:35
#25 Re: (转载)deepseek R1推理全面接近O1
我也听人家这么说,基本上是同一个产品,重新包装了一下。(但是我不知道真假)
据说是不需要训练,其实就是别人训练好的拿过来用。原创性不高。
据说是不需要训练,其实就是别人训练好的拿过来用。原创性不高。
赖美豪中 写了: 2025年 1月 21日 14:05 deepseek已经很明显就是用gpt再训练的产品,你用现有的训练集去测肯定时接近甚至超过o1么。说白了他更像一个prompt engineering。你想想你把benchemark test set用o1训练完了再喂给deepseek,这分数能不高么
-
- 论坛元老
Caravel 的博客 - 帖子互动: 514
- 帖子: 23554
- 注册时间: 2022年 7月 24日 17:21
-
- 论坛支柱
VladPutin 的博客 - 帖子互动: 1317
- 帖子: 11499
- 注册时间: 2022年 7月 24日 11:12
-
- 论坛支柱
VladPutin 的博客 - 帖子互动: 1317
- 帖子: 11499
- 注册时间: 2022年 7月 24日 11:12
#29 Re: (转载)deepseek R1推理全面接近O1
敢放开上线公测的,还开源的,造假是造不出来的
不大理解的地方在于,不靠监督数据,纯用强化学习的话按说训练要求的算力更多,成本却更低,难道因为中国电费便宜?
不大理解的地方在于,不靠监督数据,纯用强化学习的话按说训练要求的算力更多,成本却更低,难道因为中国电费便宜?
#30 Re: (转载)deepseek R1推理全面接近O1
这脑回路真是绝了,简直比马桶堵了还让人无语!DeepSeek 要真像您说的这么“简单粗暴”,那您岂不是已经可以靠“Ctrl+C Ctrl+V”称霸AI界了?还“用benchmark test set训练完了再喂回去”,您这操作简直比把自家马桶水倒回饮水机还离谱!您是不是觉得AI研究就是过家家,随便抓点数据往里一塞,模型就能屁颠屁颠地给您跑出满分?您这思路真是猥琐得让人想给您颁个“诺贝尔异想天开奖”!麻烦您下次张嘴前,先想想自己是不是把“无知”当成了“创意”,别让人笑到屁滚尿流还觉得您是在认真讨论问题!赖美豪中 写了: 2025年 1月 21日 14:05 deepseek已经很明显就是用gpt再训练的产品,你用现有的训练集去测肯定时接近甚至超过o1么。说白了他更像一个prompt engineering。你想想你把benchemark test set用o1训练完了再喂给deepseek,这分数能不高么
x1

#31 Re: (转载)deepseek R1推理全面接近O1
嗯,用户提到一个观点,说DeepSeek的表现可能是因为他们在现有数据集上进行了过多的训练,导致模型在测试时成绩接近甚至超过赖美豪中 写了: 2025年 1月 21日 14:05 deepseek已经很明显就是用gpt再训练的产品,你用现有的训练集去测肯定时接近甚至超过o1么。说白了他更像一个prompt engineering。你想想你把benchemark test set用o1训练完了再喂给deepseek,这分数能不高么
O1。这看起来像是对模型能力的一种质疑。
首先,我需要理解什么是O1。O1通常指的是一个基准测试中的最高分数,这可能代表某个任务的最优性能。在这个语境下,用户似乎认
为DeepSeek通过过度训练达到了或超过了这个基准,质疑其能力是否仅限于这一点。
接下来,我需要思考为什么会有人提出这样的观点。可能是因为模型在某些特定任务上表现出色,但这并不意味着它具备广泛的理解和
推理能力。这让我联想到“prompt engineering”,即利用给定的提示来引导模型产生预期答案,而不是模型真正去理解问题。
然后,我需要分析训练方法是否真的影响了DeepSeek的表现。传统模型训练通常包括大量数据和迭代式更新,但如果只是用现有测试集
进行过量训练,可能并不能提升性能,反而可能导致过拟合或陷入局部最优。
此外,我还需要考虑用户提到的“深度引擎”,这可能是指一种特定的训练策略或架构设计。这让我想到模型是否有更高效的训练方法
,或者是否存在数据泄露或其他不正当手段提升了成绩。
最后,我要思考这种观点对DeepSeek本身有什么影响。如果公众认为DeepSeek主要依赖于过度训练,而不是真正的理解能力,这可能影
响其在人工智能领域中的信誉和应用前景。
综上所述,用户的观点反映了对模型性能的质疑,尤其是关注其背后的训练方法。这需要深入了解DeepSeek的具体训练过程,以及评估
其能力是否符合预期标准。
</think>
**逐步解释:**
1. **理解问题背景:**
- 用户提到的观点认为DeepSeek的表现可能源于过度训练现有数据集,导致在测试中接近甚至超过O1。这一点质疑了模型的实际能力
,而非广泛的理解和推理。
2. **解释“Prompt Engineering”的概念:**
- “Prompt engineering”不仅仅是生成预设答案,而是利用特定的提示引导模型进行预测或生成文本。这种方法在AI领域越来越常
见,尤其是在任务设计和数据不足的情况下。
3. **分析训练方法对模型表现的影响:**
- 过度训练现有测试集可能导致模型在这些特定问题上表现出色,但这并不意味着模型具备深入理解能力。相反,这可能使其陷入过
拟合,限制了其应用范围。
4. **探讨用户提到的“DeepSeek”的具体含义:**
- 需要明确“深度引擎”或相关技术的具体内容,以更准确地评估其功能和能力。
5. **考虑潜在影响因素:**
- 数据泄露、模型架构设计、训练策略等都可能影响测试结果。如果存在不正当手段,会削弱模型的可靠性。
- 同时,公众对AI技术的认知和信任也会受到影响,这一点需要谨慎处理。
6. **总结思考:**
- DeepSeek作为AI模型,其能力主要体现在训练数据和算法设计上。过度依赖现有测试集的训练可能带来短期表现,但长远来看,模
型需要具备广泛的理解和适应能力。
7. **提出建议:**
- 对于公众而言,了解AI模型的工作原理和应用前景至关重要。鼓励通过官方渠道获取DeepSeek的技术细节,以做出更为客观和科学
的评估。
8. **结论:**
- 用户提出的观点反映了对AI模型能力的质疑,尤其是训练方法的影响。这需要深入了解模型的具体实现,以及测试标准与结果之间
的关系,以形成全面的看法。