新未名空间

sgisp2 写了：昨天 04:33
兔子家缺算力，所以能搞出无穷的优质高效算法，又把老米甩得远远滴

这就像以前的理工科教授，那时没有计算机，所以数理功底深。现在的都只会用matlab

这样看起来中文这样的象形文字比拼写文字有天然优势，拼写文字的上下文关联需要的矩阵比象形文字需要的矩阵要大很多

图片tokenize这维度太高了，需要算力指数增长才够用吧

wanmeishijie 写了：昨天 04:12
直观上文本必须tokenize再向量化。这个空间维度不低。
而图片如果是16色很有限

实际上LLM的token计算才是最大瓶颈，减少了token数就等于提高了算力

另外LLM对于长context有严重问题，减少token数也会提高模型潜力

longtian 写了：今天 00:50
图片tokenize这维度太高了，需要算力指数增长才够用吧

token数量减少，容易overfitting

xiaoju 写了：今天 00:55
实际上LLM的token计算才是最大瓶颈，减少了token数就等于提高了算力

另外LLM对于长context有严重问题，减少token数也会提高模型潜力

你思维方式还停留在上古时代

现在的LLM都是要先干到overfitting，然后继续训练才行

这个叫做Grokking

longtian 写了：今天 02:22
token数量减少，容易overfitting

厉害了我的国！刚刚DeepSeek又发布新模型！开源！