厉害了我的国!刚刚DeepSeek又发布新模型!开源!

对应老买买提的军事天地,观点交锋比较激烈,反驳不留情面,请作好心理准备。因为此版帖子太多,所以新帖不出现在首页新帖列表,防止首页新帖刷屏太快。


版主: Softfist

YG196T(ftsy)
职业作家
职业作家
帖子互动: 52
帖子: 582
注册时间: 2022年 10月 28日 17:35

#41 Re: 厉害了我的国!刚刚DeepSeek又发布新模型!开源!

帖子 YG196T(ftsy) »

sgisp2 写了: 昨天 04:33

兔子家缺算力,所以能搞出无穷的优质高效算法,又把老米甩得远远滴

这就像以前的理工科教授,那时没有计算机,所以数理功底深。现在的都只会用matlab

wyr
正式会员
正式会员
帖子互动: 1
帖子: 27
注册时间: 2022年 7月 24日 00:11

#42 Re: 厉害了我的国!刚刚DeepSeek又发布新模型!开源!

帖子 wyr »

这样看起来中文这样的象形文字比拼写文字有天然优势,拼写文字的上下文关联需要的矩阵比象形文字需要的矩阵要大很多

longtian
见习点评
见习点评
帖子互动: 106
帖子: 1381
注册时间: 2023年 5月 12日 16:15

#43 Re: 厉害了我的国!刚刚DeepSeek又发布新模型!开源!

帖子 longtian »

图片tokenize这维度太高了,需要算力指数增长才够用吧

wanmeishijie 写了: 昨天 04:12

直观上文本必须tokenize再向量化。这个空间维度不低。
而图片如果是16色很有限

xiaoju(可爱的龙猫)
论坛元老
论坛元老
帖子互动: 1121
帖子: 26618
注册时间: 2023年 9月 5日 20:18

#44 Re: 厉害了我的国!刚刚DeepSeek又发布新模型!开源!

帖子 xiaoju(可爱的龙猫) »

实际上LLM的token计算才是最大瓶颈,减少了token数就等于提高了算力

另外LLM对于长context有严重问题,减少token数也会提高模型潜力

longtian 写了: 今天 00:50

图片tokenize这维度太高了,需要算力指数增长才够用吧

longtian
见习点评
见习点评
帖子互动: 106
帖子: 1381
注册时间: 2023年 5月 12日 16:15

#45 Re: 厉害了我的国!刚刚DeepSeek又发布新模型!开源!

帖子 longtian »

token数量减少,容易overfitting

xiaoju 写了: 今天 00:55

实际上LLM的token计算才是最大瓶颈,减少了token数就等于提高了算力

另外LLM对于长context有严重问题,减少token数也会提高模型潜力

xiaoju(可爱的龙猫)
论坛元老
论坛元老
帖子互动: 1121
帖子: 26618
注册时间: 2023年 9月 5日 20:18

#46 Re: 厉害了我的国!刚刚DeepSeek又发布新模型!开源!

帖子 xiaoju(可爱的龙猫) »

你思维方式还停留在上古时代

现在的LLM都是要先干到overfitting,然后继续训练才行

这个叫做Grokking

longtian 写了: 今天 02:22

token数量减少,容易overfitting

回复

回到 “军事天地(Military)”