对应老买买提的军事天地,观点交锋比较激烈。因为此版帖子太多,所以新帖不出现在首页新帖列表,防止首页新帖刷屏太快。
版主: Softfist
-
一紙荒唐楼主
- 论坛点评

- 帖子互动: 162
- 帖子: 3001
- 注册时间: 2025年 2月 8日 09:23
帖子
由 一紙荒唐楼主 »
舍不得把干货
白白的Open source 了...

-
一紙荒唐楼主
- 论坛点评

- 帖子互动: 162
- 帖子: 3001
- 注册时间: 2025年 2月 8日 09:23
帖子
由 一紙荒唐楼主 »
DeepSeek 也许就有了新的突破... 这几个月!
所以不大情愿白白的免费了
-
魔术强森
- 著名写手

- 帖子互动: 29
- 帖子: 267
- 注册时间: 2024年 6月 7日 10:31
帖子
由 魔术强森 »
一紙荒唐 写了: 2025年 5月 23日 03:02
舍不得把干货
白白的Open source 了...
第一个版本开源秀一下肌肉,后面没必要开源了。OpenAI不是也闭源。
-
zheliemit(繁体中文)
- 论坛点评

- 帖子互动: 138
- 帖子: 2166
- 注册时间: 2022年 11月 16日 00:03
帖子
由 zheliemit(繁体中文) »
deepseek R2的架构做了重大修改,不再用transformer架构了,这个transformaer架构是谷歌用来做翻译软件用的架构,不适合做逻辑推理。
新的LLM架构更牛逼,据说自己能设计数学概念,并自行推理,在测试环境下已经解决了不少物理难题。
-
一紙荒唐楼主
- 论坛点评

- 帖子互动: 162
- 帖子: 3001
- 注册时间: 2025年 2月 8日 09:23
帖子
由 一紙荒唐楼主 »
zheliemit 写了: 2025年 5月 23日 04:59
deepseek R2的架构做了重大修改,不再用transformer架构了,这个transformaer架构是谷歌用来做翻译软件用的架构,不适合做逻辑推理。
新的LLM架构更牛逼,据说自己能设计数学概念,并自行推理,在测试环境下已经解决了不少物理难题。
Wow!
-
TSG(VV)
- 论坛支柱

- 帖子互动: 815
- 帖子: 11914
- 注册时间: 2022年 8月 2日 09:59
帖子
由 TSG(VV) »
zheliemit 写了: 2025年 5月 23日 04:59
deepseek R2的架构做了重大修改,不再用transformer架构了,这个transformaer架构是谷歌用来做翻译软件用的架构,不适合做逻辑推理。
新的LLM架构更牛逼,据说自己能设计数学概念,并自行推理,在测试环境下已经解决了不少物理难题。
粉酱又瞎JB口high了,deep seek里面的那两distillation能手早被Qwen给挖了LOL
-
张雅婷粉58Red2(张雅婷粉)
- 论坛精英

- 帖子互动: 85
- 帖子: 6316
- 注册时间: 2022年 8月 13日 16:22
帖子
由 张雅婷粉58Red2(张雅婷粉) »
一紙荒唐 写了: 2025年 5月 23日 03:02
舍不得把干货
白白的Open source 了...
等时机打脸
-
anesthetic
- 职业作家

- 帖子互动: 55
- 帖子: 637
- 注册时间: 2022年 8月 30日 01:02
帖子
由 anesthetic »
国内两周前就limited access了,人家学精灵了,好东西为啥要给霉蒂分享
-
shuiya
- 论坛支柱

- 帖子互动: 393
- 帖子: 10751
- 注册时间: 2023年 3月 24日 00:02
帖子
由 shuiya »
出了名气后,人多数就被挖走了,接下去要看Qwen。deepseek以后就半死不活的挂着吧。