分页: 3 / 3
#41 Re: 厉害了我的国!刚刚DeepSeek又发布新模型!开源!
发表于 : 2025年 10月 21日 21:20
由 YG196T
sgisp2 写了: 昨天 04:33
兔子家缺算力,所以能搞出无穷的优质高效算法,又把老米甩得远远滴
这就像以前的理工科教授,那时没有计算机,所以数理功底深。现在的都只会用matlab
#42 Re: 厉害了我的国!刚刚DeepSeek又发布新模型!开源!
发表于 : 2025年 10月 21日 22:51
由 wyr
这样看起来中文这样的象形文字比拼写文字有天然优势,拼写文字的上下文关联需要的矩阵比象形文字需要的矩阵要大很多
#43 Re: 厉害了我的国!刚刚DeepSeek又发布新模型!开源!
发表于 : 2025年 10月 22日 00:50
由 longtian
图片tokenize这维度太高了,需要算力指数增长才够用吧
wanmeishijie 写了: 昨天 04:12
直观上文本必须tokenize再向量化。这个空间维度不低。
而图片如果是16色很有限
#44 Re: 厉害了我的国!刚刚DeepSeek又发布新模型!开源!
发表于 : 2025年 10月 22日 00:55
由 xiaoju
实际上LLM的token计算才是最大瓶颈,减少了token数就等于提高了算力
另外LLM对于长context有严重问题,减少token数也会提高模型潜力
longtian 写了: 今天 00:50
图片tokenize这维度太高了,需要算力指数增长才够用吧
#45 Re: 厉害了我的国!刚刚DeepSeek又发布新模型!开源!
发表于 : 2025年 10月 22日 02:22
由 longtian
token数量减少,容易overfitting
xiaoju 写了: 今天 00:55
实际上LLM的token计算才是最大瓶颈,减少了token数就等于提高了算力
另外LLM对于长context有严重问题,减少token数也会提高模型潜力
#46 Re: 厉害了我的国!刚刚DeepSeek又发布新模型!开源!
发表于 : 2025年 10月 22日 03:44
由 xiaoju
你思维方式还停留在上古时代
现在的LLM都是要先干到overfitting,然后继续训练才行
这个叫做Grokking
longtian 写了: 今天 02:22
token数量减少,容易overfitting