DS 蒸馏了OpenAI-o1
所以模型训练收敛块 属于作弊行为
怪不得在文章在训练上含糊其辞
所以DS的真实成本应该是
OpenAI 的成本 + DS 的成本
当年某东方培训GRE考试
玉米糊派老师们进考场考试
把题目记出来 再培训学生
用真题库培训学生当然时间短效果好
美国没把培训学校怎么样
倒让习主席一刀喀嚓了
就说苍天饶过谁 LOL
真是 Deep Sick

版主: 牛河梁, alexwlt1024
拟合/ML里Overfit也是问题。DollarMore 写了: 2025年 1月 30日 11:15 ---------------------
搞数值计算的,都知道 算法收敛的关键 是初值。
谢谢 open AI 提供了初值可行解 供大家参考使用。。
首先你丫对ai 理解基本出于文盲水平bhold 写了: 2025年 1月 30日 08:07 低估了国内走捷径的无所不用
DS 蒸馏了OpenAI-o1
所以模型训练收敛块 属于作弊行为
怪不得在文章在训练上含糊其辞
所以DS的真实成本应该是
OpenAI 的成本 + DS 的成本
当年某东方培训GRE考试
玉米糊派老师们进考场考试
把题目记出来 再培训学生
用真题库培训学生当然时间短效果好
美国没把培训学校怎么样
倒让习主席一刀喀嚓了
就说苍天饶过谁 LOL
真是 Deep Sick
![]()
老牛没去看源代码。不过从看到的感觉训练代码量不多。大多数都是调已有的库。除非DS重写了底层的库。否则可能也就改了10来行代码的样子。
还调库呢,连cuda都不用牛河梁 写了: 2025年 1月 30日 11:48 老牛没去看源代码。不过从看到的感觉训练代码量不多。大多数都是调已有的库。除非DS重写了底层的库。否则可能也就改了10来行代码的样子。
不过需要强调的是。不是说10来行就不牛逼。这些评估函数(老牛老了不知道该如何称呼命名)改一点点对最终结果的优劣影响都极大。当然,副作用就是Overfit。
做题交作业刷分很有用。靠这个搞不出AGI。
overfitting 了还有reinforce learning 纠正牛河梁 写了: 2025年 1月 30日 11:48 老牛没去看源代码。不过从看到的感觉训练代码量不多。大多数都是调已有的库。除非DS重写了底层的库。否则可能也就改了10来行代码的样子。
不过需要强调的是。不是说10来行就不牛逼。这些评估函数(老牛老了不知道该如何称呼命名)改一点点对最终结果的优劣影响都极大。当然,副作用就是Overfit。
做题交作业刷分很有用。靠这个搞不出AGI。