此帖转自 cokecoke 在 军事天地(Military) 的帖子:DeepSeek 无意中暴漏了硅谷大肠的阴谋
硅谷大肠的目的无疑是要垄断AI,怎么垄断呢?首先就是提高门槛,所以他们一个劲地鼓吹算力为王,训练大模型你需要成千上万的GPU,你需要付巨额的电费,你需要招大批高薪马工,等等骇人听闻的数字。这样可以吓退一大波小厂,个人就更不用说了,根本没有财力来问津。没想到半路杀出来个DeepSeek, 就像皇帝的新衣里的小男孩,告诉天下人,他们说的都是假的,大模型谁都可以玩。这对AI的发展当然是件大好事,但是硅谷大肠就恼羞成怒了。
(转载)DeepSeek 无意中暴漏了硅谷大肠的阴谋
版主: 牛河梁, alexwlt1024
#3 Re: (转载)DeepSeek 无意中暴漏了硅谷大肠的阴谋
大家不用看了,这个5毛一天上窜下跳发这么多贴。
这个bigball在10月也是发一堆贴让大家去买中概。谁要是10月信他,现在账面起码亏20%,还要再错过美股这边20%涨幅。
也不妨告诉你们,我10月轻仓抄底中概亏了6万刀,拼多多140多跑了,现在拼多多100不到)
-----------
DeepSeek新闻这么铺天盖地,肯定有大资金做空,但是你们要是忘记抄底,就要被5毛忽悠瘸了。
这个bigball在10月也是发一堆贴让大家去买中概。谁要是10月信他,现在账面起码亏20%,还要再错过美股这边20%涨幅。
也不妨告诉你们,我10月轻仓抄底中概亏了6万刀,拼多多140多跑了,现在拼多多100不到)
-----------
DeepSeek新闻这么铺天盖地,肯定有大资金做空,但是你们要是忘记抄底,就要被5毛忽悠瘸了。
#4 Re: (转载)DeepSeek 无意中暴漏了硅谷大肠的阴谋
一个月前的旧闻突然拿出来炒,就是有人要砸盘,和基本业务逻辑没关系。
真要纠业务逻辑的话,你真相信就它家独门秘方成本一步到位能削到5%,同时其它家(包括中国自己几家大厂)连削到30%成本的都没有?
砸完盘后,过一阵发个新闻,说验证了deepseek只是在特定条件下才能达到,不具备普适性,再把股价一拉,小散不加被割了么?
雪球上早有人在说了,下面这段话你信不信嘛?
-----------
雨止凭栏望昨天 23:49· 来自Android
$英伟达(NVDA)$ 说利空算力的,我觉得真得好好捶捶脑子了,首先 llama3 是一个 405B. 的 dense 模型,deepseekv3 是一个 600B 大小,但是实际激活只有 30B 左右,模型的实际激活量只有 llama 的十分之一,deepseek 用一个更小更快的模型,达到了和 llama3 405B 一样的效果。但是把这件事和算力需求只有十分之一画等号是很离谱的。为啥不全激活?训一个更大的模型之前总得逐渐积累经验,以后会有更大的,1000B moe 2000b moe,在实现 agi 之前,并且没有更好的模型架构之前。只能这样不断扩大尺寸。就好比你刚学会了爬行,你就满足了?不尝试发挥你的能力试着走路,跑步?
@Laughing星仔
达人认证实盘认证
:
deepseek 采用专家混合模型,加载671b参数,只激活37b参数,这样好处是推理成本下降,
但还是很难和别人完全激活几百b参数的性能对等,参数量的差距摆在那。
另外,假如提示词里面混合多学科多环境背景交叉场合,专家模型也很难取舍应该激活哪些类型专家的参数,这和完全激活全部参数的模型的有差距。
再有,它本身模型加载要几百b参数,硬件要求太高,个人和小企业部署利用成本非常高,不适合小型部署开发。
总体上看,这模型适合大公司对垂直业务内容运用。减少推理成本。理论上,在跨学科下,回复缺乏深度。
有说成本大降,本身对应的就是这玩意性能和投入非等比例回报。
假如每一项都不将就,都要用最好,这个东西本身额外提升几个百分比的性能提升就要花数倍乃至数十倍的投入差距,
可以容忍那几个百分点的性能差距的话,当然可以节省一半以上成本。
给人感受性能更强,是对比国内之前给普遍用的诸如豆包之类,豆包加载和激活的参数大概只有deepseek的几分之一不到,差距较大。deepseek上来就给用户体验大于37b的模型,体感好,但单用户成本投入更高了。
本人使用感受上,综合能力还是不如顶级72b开源模型。
真要纠业务逻辑的话,你真相信就它家独门秘方成本一步到位能削到5%,同时其它家(包括中国自己几家大厂)连削到30%成本的都没有?
砸完盘后,过一阵发个新闻,说验证了deepseek只是在特定条件下才能达到,不具备普适性,再把股价一拉,小散不加被割了么?
雪球上早有人在说了,下面这段话你信不信嘛?
-----------
雨止凭栏望昨天 23:49· 来自Android
$英伟达(NVDA)$ 说利空算力的,我觉得真得好好捶捶脑子了,首先 llama3 是一个 405B. 的 dense 模型,deepseekv3 是一个 600B 大小,但是实际激活只有 30B 左右,模型的实际激活量只有 llama 的十分之一,deepseek 用一个更小更快的模型,达到了和 llama3 405B 一样的效果。但是把这件事和算力需求只有十分之一画等号是很离谱的。为啥不全激活?训一个更大的模型之前总得逐渐积累经验,以后会有更大的,1000B moe 2000b moe,在实现 agi 之前,并且没有更好的模型架构之前。只能这样不断扩大尺寸。就好比你刚学会了爬行,你就满足了?不尝试发挥你的能力试着走路,跑步?
@Laughing星仔
达人认证实盘认证
:
deepseek 采用专家混合模型,加载671b参数,只激活37b参数,这样好处是推理成本下降,
但还是很难和别人完全激活几百b参数的性能对等,参数量的差距摆在那。
另外,假如提示词里面混合多学科多环境背景交叉场合,专家模型也很难取舍应该激活哪些类型专家的参数,这和完全激活全部参数的模型的有差距。
再有,它本身模型加载要几百b参数,硬件要求太高,个人和小企业部署利用成本非常高,不适合小型部署开发。
总体上看,这模型适合大公司对垂直业务内容运用。减少推理成本。理论上,在跨学科下,回复缺乏深度。
有说成本大降,本身对应的就是这玩意性能和投入非等比例回报。
假如每一项都不将就,都要用最好,这个东西本身额外提升几个百分比的性能提升就要花数倍乃至数十倍的投入差距,
可以容忍那几个百分点的性能差距的话,当然可以节省一半以上成本。
给人感受性能更强,是对比国内之前给普遍用的诸如豆包之类,豆包加载和激活的参数大概只有deepseek的几分之一不到,差距较大。deepseek上来就给用户体验大于37b的模型,体感好,但单用户成本投入更高了。
本人使用感受上,综合能力还是不如顶级72b开源模型。