分页: 3 / 3

#41 Re: 厉害了我的国!刚刚DeepSeek又发布新模型!开源!

发表于 : 2025年 10月 21日 21:20
YG196T
sgisp2 写了: 昨天 04:33

兔子家缺算力,所以能搞出无穷的优质高效算法,又把老米甩得远远滴

这就像以前的理工科教授,那时没有计算机,所以数理功底深。现在的都只会用matlab


#42 Re: 厉害了我的国!刚刚DeepSeek又发布新模型!开源!

发表于 : 2025年 10月 21日 22:51
wyr

这样看起来中文这样的象形文字比拼写文字有天然优势,拼写文字的上下文关联需要的矩阵比象形文字需要的矩阵要大很多


#43 Re: 厉害了我的国!刚刚DeepSeek又发布新模型!开源!

发表于 : 2025年 10月 22日 00:50
longtian

图片tokenize这维度太高了,需要算力指数增长才够用吧

wanmeishijie 写了: 昨天 04:12

直观上文本必须tokenize再向量化。这个空间维度不低。
而图片如果是16色很有限


#44 Re: 厉害了我的国!刚刚DeepSeek又发布新模型!开源!

发表于 : 2025年 10月 22日 00:55
xiaoju

实际上LLM的token计算才是最大瓶颈,减少了token数就等于提高了算力

另外LLM对于长context有严重问题,减少token数也会提高模型潜力

longtian 写了: 今天 00:50

图片tokenize这维度太高了,需要算力指数增长才够用吧


#45 Re: 厉害了我的国!刚刚DeepSeek又发布新模型!开源!

发表于 : 2025年 10月 22日 02:22
longtian

token数量减少,容易overfitting

xiaoju 写了: 今天 00:55

实际上LLM的token计算才是最大瓶颈,减少了token数就等于提高了算力

另外LLM对于长context有严重问题,减少token数也会提高模型潜力


#46 Re: 厉害了我的国!刚刚DeepSeek又发布新模型!开源!

发表于 : 2025年 10月 22日 03:44
xiaoju

你思维方式还停留在上古时代

现在的LLM都是要先干到overfitting,然后继续训练才行

这个叫做Grokking

longtian 写了: 今天 02:22

token数量减少,容易overfitting