新未名空间

只有3B的模型，达到了SOTA。小模型才是未来。美帝走错路了。

DS-OCR不光是个OCR模型，还是DS开始搞通用多模态信息处理的开端。据某些大佬评论，有一定理论突破，因为做到了根据上下文的高度信息压缩；用视觉通道来实现文本信息压缩，算是一个新思路。

文章：

https://github.com/deepseek-ai/DeepSeek ... _paper.pdf

hci 写了： 2025年 10月 21日 11:27
只有3B的模型，达到了SOTA。小模型才是未来。美帝走错路了。

DS-OCR不光是个OCR模型，还是DS开始搞通用多模态信息处理的开端。据某些大佬评论，有一定理论突破，因为做到了根据上下文的高度信息压缩；用视觉通道来实现文本信息压缩，算是一个新思路。

文章：

https://github.com/deepseek-ai/DeepSeek ... _paper.pdf

你怎么知道美国不搞小模型？

专用小模型也是美国开始的

美国现在唯一能做的是关闭互联网，50年后见分晓

美国比中国早半年、一年没有意义

互联网，开源，技术报告，都是八旗子弟的玩具

hci 写了： 2025年 10月 21日 11:27
只有3B的模型，达到了SOTA。小模型才是未来。美帝走错路了。

DS-OCR不光是个OCR模型，还是DS开始搞通用多模态信息处理的开端。据某些大佬评论，有一定理论突破，因为做到了根据上下文的高度信息压缩；用视觉通道来实现文本信息压缩，算是一个新思路。

文章：

https://github.com/deepseek-ai/DeepSeek ... _paper.pdf

微軟也有小模型。

Meta只有开除Lecun，才有可能开发ai

按照现在标准，这是能拿诺贝尔奖的成果

我估计DS的下一个大的发布版本会用同样技术，如果出来一个SOTA的多模态模型，只有30 B，美帝AI就完了，股市要腰斩。

hci 写了： 2025年 10月 21日 11:27
只有3B的模型，达到了SOTA。小模型才是未来。美帝走错路了。

DS-OCR不光是个OCR模型，还是DS开始搞通用多模态信息处理的开端。据某些大佬评论，有一定理论突破，因为做到了根据上下文的高度信息压缩；用视觉通道来实现文本信息压缩，算是一个新思路。

文章：

https://github.com/deepseek-ai/DeepSeek ... _paper.pdf

小模型不创新有卵用。

ds这个模型可怕之处在于新思路。

参数量降一个数量级，效果一样的话，就是大地震。

wass 写了： 2025年 10月 21日 13:38
你怎么知道美国不搞小模型？

专用小模型也是美国开始的

大模型小模型两条腿走路挺好

wass 写了： 2025年 10月 21日 13:40
美国现在唯一能做的是关闭互联网，50年后见分晓

美国比中国早半年、一年没有意义

DS-OCR这波可能把gemini的long context优化秘密给直接揭开了。美帝现在挺难受，御三家吭哧提高上限，费时费力，然后墙国两家开源模型动不动免费放出只落后半年到一年的。白嫖党是最爽的，只需要付一点算力钱自己推理就行，不需要分摊研发成本。
归功于墙国的刷题机制，现在美帝与墙国的AI公司人力成本差10倍（其实各行各业都这个成本差距）。御三家需要能长期证明其正版API和和其配套的企业级服务相对于开源模型的溢价，搞的美帝从御三家扩展到其它AI公司再扩展到整个相关IT行业越来越被迫通过全面996来压低人力成本，作为从业者感觉还是挺烦躁的。

美帝早就走小模型了，你是多久不涉及AI

hci 写了： 2025年 10月 21日 11:27
只有3B的模型，达到了SOTA。小模型才是未来。美帝走错路了。

DS-OCR不光是个OCR模型，还是DS开始搞通用多模态信息处理的开端。据某些大佬评论，有一定理论突破，因为做到了根据上下文的高度信息压缩；用视觉通道来实现文本信息压缩，算是一个新思路。

文章：

https://github.com/deepseek-ai/DeepSeek ... _paper.pdf

☆ 发自新买提 Android 25.09.28

toraasakusa 写了： 2025年 10月 22日 01:56
美帝早就走小模型了，你是多久不涉及AI

☆ 发自新买提 Android 25.09.28

别期待太高了，这个论坛上基本全是从来没训过LLM的。从用户体验角度讨论还可以，但碰到真正的技术话题，比如ds最近几篇paper是真创新还是沿用了类似idea，实战效果如何，就别指望得到验证过的信息了。他们的认知全是不知道传了几手的自媒体noise，还特自信。

fantasist 写了： 2025年 10月 22日 01:32
DS-OCR这波可能把gemini的long context优化秘密给直接揭开了。美帝现在挺难受，御三家吭哧提高上限，费时费力，然后墙国两家开源模型动不动免费放出只落后半年到一年的。白嫖党是最爽的，只需要付一点算力钱自己推理就行，不需要分摊研发成本。
归功于墙国的刷题机制，现在美帝与墙国的AI公司人力成本差10倍（其实各行各业都这个成本差距）。御三家需要能长期证明其正版API和和其配套的企业级服务相对于开源模型的溢价，搞的美帝从御三家扩展到其它AI公司再扩展到整个相关IT行业越来越被迫通过全面996来压低人力成本，作为从业者感觉还是挺烦躁的。

想想几十年前的微软、苹果，公司只做产品，保密工作做得好

现在的ai公司，天天发paper、开源

别人用1/10成本做出跟你们效果差不多的产品。
那除了说你们蠢，真没有别的词了。

fantasist 写了： 2025年 10月 22日 01:32
DS-OCR这波可能把gemini的long context优化秘密给直接揭开了。美帝现在挺难受，御三家吭哧提高上限，费时费力，然后墙国两家开源模型动不动免费放出只落后半年到一年的。白嫖党是最爽的，只需要付一点算力钱自己推理就行，不需要分摊研发成本。
归功于墙国的刷题机制，现在美帝与墙国的AI公司人力成本差10倍（其实各行各业都这个成本差距）。御三家需要能长期证明其正版API和和其配套的企业级服务相对于开源模型的溢价，搞的美帝从御三家扩展到其它AI公司再扩展到整个相关IT行业越来越被迫通过全面996来压低人力成本，作为从业者感觉还是挺烦躁的。

这些美帝的LLM从业人员很抓狂，可以理解。哈哈。蠢不蠢不知道。抓狂是明显的。

这其实反映了美帝的抓狂。AI的技术路线本身就没有探明，全力押宝到一个路线上，除了是因为抓狂了，还真没法解释。

至于这些从业人员，除了知道自己是来捞一把的那种（这些人干不过国内小年轻没有悬念），别的就是没有眼光的。

老蛆写了： 2025年 10月 22日 06:42
别人用1/10成本做出跟你们效果差不多的产品。
那除了说你们蠢，真没有别的词了。

hci 写了： 2025年 10月 22日 10:17
这些美帝的LLM从业人员很desperate，可以理解。哈哈。蠢不蠢不知道。desperate是明显的。

是国家傻逼，公司傻逼。人总是贪心的

国家傻逼是加州不允许no compete，外地签no compete的可以去加州

公司天天开源，发paper，参加会议

“国家傻逼，公司傻逼”，输得心服口服不就行了。

可偏偏要不服，最后要撒泼。

这就是我说大家要做好逃难的准备的原因。别跟着傻逼了。

wass 写了： 2025年 10月 22日 10:30
是国家傻逼，公司傻逼。人总是贪心的

国家傻逼是加州不允许no compete，外地签no compete的可以去加州

公司天天开源，发paper，参加会议

在技术领导层对技术路线都还没有共识的情况下，举国力量投入其中一个路线，除了“国家傻逼公司傻逼”之外，没有什么更好的解释。

曼哈顿计划的时候，难道有前沿物理学家认为原子弹技术路线是错的么？没有呀。

wass 写了： 2025年 10月 21日 19:00
Meta只有开除Lecun，才有可能开发ai

老蛆写了： 2025年 10月 22日 06:42
别人用1/10成本做出跟你们效果差不多的产品。
那除了说你们蠢，真没有别的词了。

你是资本阶级？听到人力成本被压到1/10，觉得太棒了，还能再傻逼点？

新未名空间

Deepseek-OCR

#1 Deepseek-OCR

#2 Re: Deepseek-OCR

#3 Re: Deepseek-OCR

#4 Re: Deepseek-OCR

#5 Re: Deepseek-OCR

#6 Re: Deepseek-OCR

#7 Re: Deepseek-OCR

#8 Re: Deepseek-OCR

#9 Re: Deepseek-OCR

#10 Re: Deepseek-OCR

#11 Re: Deepseek-OCR

#12 Re: Deepseek-OCR

#13 Re: Deepseek-OCR

#14 Re: Deepseek-OCR

#15 Re: Deepseek-OCR

#16 Re: Deepseek-OCR

#17 Re: Deepseek-OCR

#18 Re: Deepseek-OCR

#19 Re: Deepseek-OCR

#20 Re: Deepseek-OCR