厉害了我的国！刚刚DeepSeek又发布新模型！开源！

YG196T · 帖子由 **YG196T（ftsy）** » 昨天 21:20

sgisp2 写了：昨天 04:33
兔子家缺算力，所以能搞出无穷的优质高效算法，又把老米甩得远远滴

这就像以前的理工科教授，那时没有计算机，所以数理功底深。现在的都只会用matlab

wyr · 帖子由 **wyr** » 昨天 22:51

这样看起来中文这样的象形文字比拼写文字有天然优势，拼写文字的上下文关联需要的矩阵比象形文字需要的矩阵要大很多

longtian · 帖子由 **longtian** » 今天 00:50

图片tokenize这维度太高了，需要算力指数增长才够用吧

wanmeishijie 写了：昨天 04:12
直观上文本必须tokenize再向量化。这个空间维度不低。
而图片如果是16色很有限

xiaoju · 帖子由 **xiaoju（可爱的龙猫）** » 今天 00:55

实际上LLM的token计算才是最大瓶颈，减少了token数就等于提高了算力

另外LLM对于长context有严重问题，减少token数也会提高模型潜力

longtian 写了：今天 00:50
图片tokenize这维度太高了，需要算力指数增长才够用吧

longtian · 帖子由 **longtian** » 今天 02:22

token数量减少，容易overfitting

xiaoju 写了：今天 00:55
实际上LLM的token计算才是最大瓶颈，减少了token数就等于提高了算力

另外LLM对于长context有严重问题，减少token数也会提高模型潜力

xiaoju · 帖子由 **xiaoju（可爱的龙猫）** » 今天 03:44

你思维方式还停留在上古时代

现在的LLM都是要先干到overfitting，然后继续训练才行

这个叫做Grokking

longtian 写了：今天 02:22
token数量减少，容易overfitting

新未名空间