分页: 1 / 2

#1 其实用cpu硬跑满血LLM是相当可用的啊

发表于 : 2025年 8月 18日 18:43
HouseMD

5.6 token/s 还行吧


#2 Re: 其实用cpu硬跑满血LLM是相当可用的啊

发表于 : 2025年 8月 18日 18:46
苍井吱
HouseMD 写了: 2025年 8月 18日 18:43

5.6 token/s 还行吧

又慢又费电,图啥


#3 Re: 其实用cpu硬跑满血LLM是相当可用的啊

发表于 : 2025年 8月 18日 18:51
HouseMD
苍井吱 写了: 2025年 8月 18日 18:46

又慢又费电,图啥

嘿嘿,有些情况还是只能本地跑的


#4 Re: 其实用cpu硬跑满血LLM是相当可用的啊

发表于 : 2025年 8月 18日 18:58
苍井吱
HouseMD 写了: 2025年 8月 18日 18:51

嘿嘿,有些情况还是只能本地跑的

不明觉厉

写小黄文?


#5 Re: 其实用cpu硬跑满血LLM是相当可用的啊

发表于 : 2025年 8月 18日 19:52
oxo

点着看了一下。这个是玩票性质,简直跑个空调。目前本地LLM大模型最实际的是apple silicon 的统一内存架构,就是贵,只为了本地跑inference得想想值不值。LLM模型的问题的得上到一定规模才智商在线,而且愿意开源的很多略次的模型,恶心竞争对手的。我的老机器用hybrid模式跑llama 70B也能有大概2 T/S,不过表现不怎么样。

其实APU跑这个很效率,有点类似apple的架构。就是目前还没有一款支持大容量高频DDR5的APU。之前的5700G也就最大16GB 显存,还是DDR4。这点intel可能比AMD先发布,它家显卡本来就是搅局的,vram舍得给。之前的iris xe核显其实挺不错了。


#6 Re: 其实用cpu硬跑满血LLM是相当可用的啊

发表于 : 2025年 8月 18日 22:55
HouseMD
oxo 写了: 2025年 8月 18日 19:52

点着看了一下。这个是玩票性质,简直跑个空调。目前本地LLM大模型最实际的是apple silicon 的统一内存架构,就是贵,只为了本地跑inference得想想值不值。LLM模型的问题的得上到一定规模才智商在线,而且愿意开源的很多略次的模型,恶心竞争对手的。我的老机器用hybrid模式跑llama 70B也能有大概2 T/S,不过表现不怎么样。

其实APU跑这个很效率,有点类似apple的架构。就是目前还没有一款支持大容量高频DDR5的APU。之前的5700G也就最大16GB 显存,还是DDR4。这点intel可能比AMD先发布,它家显卡本来就是搅局的,vram舍得给。之前的iris xe核显其实挺不错了。

x86 cpu硬跑有个好处,就是加内存不怎么费劲.
能不能跑,和跑起来快不快,是两个维度的事。


#7 Re: 其实用cpu硬跑满血LLM是相当可用的啊

发表于 : 2025年 8月 18日 23:05
oxo
HouseMD 写了: 2025年 8月 18日 22:55

x86 cpu硬跑有个好处,就是加内存不怎么费劲.
能不能跑,和跑起来快不快,是两个维度的事。

对啊,DIY就是开放平台的乐趣。Mac配超大内存得克肾。


#8 Re: 其实用cpu硬跑满血LLM是相当可用的啊

发表于 : 2025年 8月 18日 23:09
HouseMD
oxo 写了: 2025年 8月 18日 23:05

对啊,DIY就是开放平台的乐趣。Mac配超大内存得克肾。

其实他这个cpu相当于12个9700x 串起来了,所以功耗惊人,cpu硬跑LLM的瓶颈主要在内存带宽,弄个一样8通道但是少点core的thread ripper/epyc不会比他慢太多。


#9 Re: 其实用cpu硬跑满血LLM是相当可用的啊

发表于 : 2025年 8月 18日 23:36
oxo
HouseMD 写了: 2025年 8月 18日 23:09

其实他这个cpu相当于12个9700x 串起来了,所以功耗惊人,cpu硬跑LLM的瓶颈主要在内存带宽,弄个一样8通道但是少点core的thread ripper/epyc不会比他慢太多。

对,关键是RAM的I/O throughput,这点我Apple silicon是消费级PC平台的4倍以上。记得以前AMD还有四通道内存控制器,现在桌面平台都是双通道了。


#10 Re: 其实用cpu硬跑满血LLM是相当可用的啊

发表于 : 2025年 8月 19日 11:09
anesthetic
oxo 写了: 2025年 8月 18日 23:36

对,关键是RAM的I/O throughput,这点我Apple silicon是消费级PC平台的4倍以上。记得以前AMD还有四通道内存控制器,现在桌面平台都是双通道了。

苏妈ai 395 max 早就把你的apple打趴下了,1000多刀就128gb vram

单机+rocm跑出50% h100的水平,灰常牛x


#11 Re: 其实用cpu硬跑满血LLM是相当可用的啊

发表于 : 2025年 8月 19日 12:04
oxo
anesthetic 写了: 2025年 8月 19日 11:09

苏妈ai 395 max 早就把你的apple打趴下了,1000多刀就128gb vram

单机+rocm跑出50% h100的水平,灰常牛x

我的apple?纯属typo,个人不喜欢抠门mac。酥麻这个还没上市,如果实际疗效好可以考虑。上面也说了,我更期待这类带AI unit的CPU出桌面版。


#12 Re: 其实用cpu硬跑满血LLM是相当可用的啊

发表于 : 2025年 8月 19日 12:17
anesthetic
oxo 写了: 2025年 8月 19日 12:04

我的apple?纯属typo,个人不喜欢抠门mac。酥麻这个还没上市,如果实际疗效好可以考虑。上面也说了,我更期待这类带AI unit的CPU出桌面版。

你搞笑吧,3月就上市了,小林还专门做了评测


#13 Re: 其实用cpu硬跑满血LLM是相当可用的啊

发表于 : 2025年 8月 19日 12:28
oxo
anesthetic 写了: 2025年 8月 19日 12:17

你搞笑吧,3月就上市了,小林还专门做了评测

搜了一下,有个测试:
https://forum.level1techs.com/t/strix-h ... lts/233796

第二张图是text generation。这个Shisa model的速度大概是4 T/S。
Shisa V2 70B i1-Q4_K_M Llama 3 70 70
我目前电脑hybrid mode跑Llama 3 70B Q4大概是2.x T/S。

大致两倍提升。我记得Apple silicon比我的电脑要快很多。这东西有潜力,目前还是等等看。


#14 Re: 其实用cpu硬跑满血LLM是相当可用的啊

发表于 : 2025年 8月 19日 12:46
RobotII

落伍了吧,Ebay 上搞一个10年前的Xeon 双 CPU workstation,再加上500G以上的DDR4 内存,搞个魔改2080 22G GPU,就可以在家跑满血MOE LLM(DeepSeek 或 Kimi).关键是CPU core要足够多 (大于30个物理cores).

用清华学生们做的transformer (FastLLM 或 Ktransformers),满血Q4 Deepseek实测可以做到3-5TPS,超过个人阅读速度,你就拥有了一个属于自己的LLM.

全套装备~$2000。模型是满血671B的,效果刚刚的。


#15 Re: 其实用cpu硬跑满血LLM是相当可用的啊

发表于 : 2025年 8月 19日 12:48
YouHi
RobotII 写了: 2025年 8月 19日 12:46

落伍了吧,Ebay 上搞一个10年前的Xeon 双 CPU workstation,再加上500G以上的DDR4 内存,搞个魔改2080 22G GPU,就可以在家跑满血MOE LLM(DeepSeek 或 Kimi).关键是CPU core要足够多 (大于30个物理cores).

用清华学生们做的transformer (FastLLM 或 Ktransformers),满血Q4 Deepseek实测可以做到3-5TPS,超过个人阅读速度,你就拥有了一个属于自己的LLM.

全套装备~$2000。模型是满血671B的,效果刚刚的。

冬天跑,暖气都不用开了。


#16 Re: 其实用cpu硬跑满血LLM是相当可用的啊

发表于 : 2025年 8月 19日 12:51
RobotII
YouHi 写了: 2025年 8月 19日 12:48

冬天跑,暖气都不用开了。

实测小于500瓦,房间微热


#17 Re: 其实用cpu硬跑满血LLM是相当可用的啊

发表于 : 2025年 8月 19日 12:57
oxo
RobotII 写了: 2025年 8月 19日 12:46

落伍了吧,Ebay 上搞一个10年前的Xeon 双 CPU workstation,再加上500G以上的DDR4 内存,搞个魔改2080 22G GPU,就可以在家跑满血MOE LLM(DeepSeek 或 Kimi).关键是CPU core要足够多 (大于30个物理cores).

用清华学生们做的transformer (FastLLM 或 Ktransformers),满血Q4 Deepseek实测可以做到3-5TPS,超过个人阅读速度,你就拥有了一个属于自己的LLM.

全套装备~$2000。模型是满血671B的,效果刚刚的。

是个思路,就是折腾,一堆旧的/魔改部件,出了问题也麻烦。更重要的是这看似省钱性价比高,经常只是满足玩票内心需求,本质上是买了个玩具,享受折腾的乐趣 :D


#18 Re: 其实用cpu硬跑满血LLM是相当可用的啊

发表于 : 2025年 8月 19日 12:59
oxo
RobotII 写了: 2025年 8月 19日 12:51

实测小于500瓦,房间微热

杀一娃测的?大概10年前玩过双路Xeon,只有64GB 内存,记得待机就有100W+,满载200-300W。


#19 Re: 其实用cpu硬跑满血LLM是相当可用的啊

发表于 : 2025年 8月 19日 13:19
RobotII
oxo 写了: 2025年 8月 19日 12:59

杀一娃测的?大概10年前玩过双路Xeon,只有64GB 内存,记得待机就有100W+,满载200-300W。

对呀,再加200W给GPU


#20 Re: 其实用cpu硬跑满血LLM是相当可用的啊

发表于 : 2025年 8月 19日 13:23
anesthetic
RobotII 写了: 2025年 8月 19日 12:46

落伍了吧,Ebay 上搞一个10年前的Xeon 双 CPU workstation,再加上500G以上的DDR4 内存,搞个魔改2080 22G GPU,就可以在家跑满血MOE LLM(DeepSeek 或 Kimi).关键是CPU core要足够多 (大于30个物理cores).

用清华学生们做的transformer (FastLLM 或 Ktransformers),满血Q4 Deepseek实测可以做到3-5TPS,超过个人阅读速度,你就拥有了一个属于自己的LLM.

全套装备~$2000。模型是满血671B的,效果刚刚的。

不需要这么麻烦,m3 pro魔改512gb更便宜还更快,还可以stack。