对应老买买提的军事天地,观点交锋比较激烈,反驳不留情面,请作好心理准备。因为此版帖子太多,所以新帖不出现在首页新帖列表,防止首页新帖刷屏太快。
版主: Softfist
-
fanqie
- 论坛元老

- 帖子互动: 1143
- 帖子: 16903
- 注册时间: 2023年 2月 22日 13:23
-
xiaozhao
- 正式会员

- 帖子互动: 0
- 帖子: 10
- 注册时间: 2024年 10月 30日 10:42
帖子
由 xiaozhao »
确实牛b, 这个模型的论文,揭露一个结论, 文本可能不是llm的最好输入, 图片和视频才是。 而图片和视频可以压缩很小,所以给一个图片的txt,运算量小很多。
-
foofy(自带干粮五毛)
- 论坛元老

- 帖子互动: 521
- 帖子: 17550
- 注册时间: 2022年 8月 10日 01:38
帖子
由 foofy(自带干粮五毛) »
x1
-
xiaoju(可爱的龙猫)
- 论坛元老

- 帖子互动: 1114
- 帖子: 26586
- 注册时间: 2023年 9月 5日 20:18
帖子
由 xiaoju(可爱的龙猫) »
叔去年就这么说
但是你弟业界折腾一年,除了烧器材的砸钱的,一个实质性成就也没有
xiaozhao 写了: 今天 03:41
确实牛b, 这个模型的论文,揭露一个结论, 文本可能不是llm的最好输入, 图片和视频才是。 而图片和视频可以压缩很小,所以给一个图片的txt,运算量小很多。
-
wanmeishijie(石昊)楼主
- 论坛元老

wanmeishijie 的博客
- 帖子互动: 2301
- 帖子: 71800
- 注册时间: 2022年 12月 10日 23:58
帖子
由 wanmeishijie(石昊)楼主 »
xiaozhao 写了: 今天 03:41
确实牛b, 这个模型的论文,揭露一个结论, 文本可能不是llm的最好输入, 图片和视频才是。 而图片和视频可以压缩很小,所以给一个图片的txt,运算量小很多。
直观上文本必须tokenize再向量化。这个空间维度不低。
而图片如果是16色很有限

理解了老将是代入狗的视角之后,你就理解了老将
viewtopic.php?t=120513
理解了它们是代入狗的视角之后,它们为什么会嘲笑不愿意当狗的人,以及为什么会害怕想要反抗的人,就都可以理解了:
“放着好好的狗不当”

-
sgisp2
- 著名点评

- 帖子互动: 136
- 帖子: 4823
- 注册时间: 2022年 7月 25日 01:12
帖子
由 sgisp2 »
兔子家缺算力,所以能搞出无穷的优质高效算法,又把老米甩得远远滴
x1
x1
-
redot(红薯林)
- 论坛元老

- 帖子互动: 691
- 帖子: 21393
- 注册时间: 2024年 7月 4日 23:40
帖子
由 redot(红薯林) »
注意力权重,是人的本能之一
如对号码的记忆,是恨明显的例子
x1
x1
-
老蛆
- 正式会员

- 帖子互动: 5
- 帖子: 24
- 注册时间: 2025年 10月 17日 16:25
-
coltzhao(bigdumbdumpling)
- 论坛点评

- 帖子互动: 115
- 帖子: 2046
- 注册时间: 2022年 8月 1日 01:01
帖子
由 coltzhao(bigdumbdumpling) »
这个按发表的数字是很牛的,而且很新,以前没人走过的路。
-
zheliemit(繁体中文)
- 论坛点评

- 帖子互动: 177
- 帖子: 2396
- 注册时间: 2022年 11月 16日 00:03
帖子
由 zheliemit(繁体中文) »
现在开源大模型都被你憋包揽了前三名:智谱、QWen、Deepseek
-
民主自由是婊子的遮羞布(谁的帝)
- 论坛元老

- 帖子互动: 1073
- 帖子: 16508
- 注册时间: 2022年 8月 31日 10:43
帖子
由 民主自由是婊子的遮羞布(谁的帝) »
sgisp2 写了: 今天 04:33
兔子家缺算力,所以能搞出无穷的优质高效算法,又把老米甩得远远滴
麻痹的,兔子太猛
就像兔子家的发动机不行
就在气动外形和模型上下功夫
最后搞出极致的气动模型
x2
x1
你帝,我帝,他帝,谁的帝?
-
xiaoju(可爱的龙猫)
- 论坛元老

- 帖子互动: 1114
- 帖子: 26586
- 注册时间: 2023年 9月 5日 20:18
帖子
由 xiaoju(可爱的龙猫) »
缺算力是个伪命题,你只要有钱token要多少有多少
你弟的本质问题是明明没钱,却装成大款无限烧钱,所以研发停滞不前
sgisp2 写了: 今天 04:33
兔子家缺算力,所以能搞出无穷的优质高效算法,又把老米甩得远远滴
-
xiaoju(可爱的龙猫)
- 论坛元老

- 帖子互动: 1114
- 帖子: 26586
- 注册时间: 2023年 9月 5日 20:18
帖子
由 xiaoju(可爱的龙猫) »
deepseek-ocr的玩法是把重复信息忽略掉,比如100页稿纸,后面的只看内容不看格式,节省大量token
人也是这么阅读的
wanmeishijie 写了: 今天 04:12
直观上文本必须tokenize再向量化。这个空间维度不低。
而图片如果是16色很有限
x1
-
sgisp2
- 著名点评

- 帖子互动: 136
- 帖子: 4823
- 注册时间: 2022年 7月 25日 01:12
-
xiaoju(可爱的龙猫)
- 论坛元老

- 帖子互动: 1114
- 帖子: 26586
- 注册时间: 2023年 9月 5日 20:18
帖子
由 xiaoju(可爱的龙猫) »
我觉得本质上deekseek-ocr还是一个tokenizer
不过因为其基于现代LLM,而不是古典的BPE算法,所以可以更高效的降噪,只提取有用信息
-
Newsmax
- 著名点评

- 帖子互动: 449
- 帖子: 4432
- 注册时间: 2025年 1月 11日 11:06
-
Narcotics07
- 论坛精英

- 帖子互动: 404
- 帖子: 7531
- 注册时间: 2022年 7月 23日 21:58
帖子
由 Narcotics07 »
Photographic memory, 不是雨人类自闭症有的嘛
这类人在米国被当特殊人(aka 傻子)
-
windy(文帝)
- 著名点评

- 帖子互动: 1022
- 帖子: 5202
- 注册时间: 2023年 2月 7日 18:53
帖子
由 windy(文帝) »
看了下,显然是Deepseek在模型的能力上拼不过,改打这种小trick来抓眼球。这种东西有用吗?有。但是用处不大。类似的东西,包括多态模型,现在研究的多了。产品也多如牛毛。几个主打的大语言模型(其实这些都早不仅仅是“语言”模型了)都支持多模态输入。DS作为产品的卖点可以理解,从创新角度上真没啥好吹的
x1
-
Bush(不是)
- 论坛支柱

- 帖子互动: 409
- 帖子: 9126
- 注册时间: 2022年 11月 3日 06:12
帖子
由 Bush(不是) »
sgisp2 写了: 今天 04:33
兔子家缺算力,所以能搞出无穷的优质高效算法,又把老米甩得远远滴