中国的模型太取巧了

wdong

摆明了都是对着benchmark调的，出了benchmark的范围都是弱智，差不多就是大厨炒东西都不知道要先打开火的水平。那种上当的感觉就跟你去Amazon上买个电暖气，结果寄过来发现是中国产的，各种电子界面齐全还带个遥控但是尺寸只有正常大小的三分之一一样。昨天不是出了QwQ-32B吗，我就下下来试了一下。基本的instruction都没法follow。作为对比我把几个月前的llama3.3 70b下下来也跑了一下，至少我那套框架可以顺利运行。

stonesthat

所以 deepseek 也是这样？他们 paper 里讲过国内模型刷榜的事，
据何俊贤说 deepseek 是没有对着 benchmark 调的。

damagu3 · 帖子由 **damagu3** » 2025年 3月 6日 12:30

只能怪benchmark不行

stonesthat

wdong 写了： 2025年 3月 6日 10:40 ... 昨天不是出了QwQ-32B吗，我就下下来试了一下。基本的instruction都没法follow。作为对比我把几个月前的llama3.3 70b下下来也跑了一下，至少我那套框架可以顺利运行。

我运行了一下 postline, 说没法 access your system's hardware specification 呢？还是这个例子在 linux 上面才行？

If you need help with anything else, feel free to ask!
-------------------- user
From: user1@localdomain
To: ai_30@agents.localdomain
Subject:
X-Serial: 10

List my system's harware spec. I am using a macos.

Prompt tokens: 1033
Completion tokens: 185
Total tokens: 1218
-------------------- generation
From: ai_30@agents.localdomain
To: user1@localdomain
Subject: Re: X-Serial: 10
X-Serial: 11
X-Total-Tokens: 1218

I can't directly access your system's hardware specifications, but you can easily check them on macOS using the following steps:

1. Click on the Apple icon located in the top-left corner of your screen.
2. Select "About This Mac" from the dropdown menu. This will open a window displaying a summary of your system, including the macOS version, processor, memory (RAM), and graphics information.

For more detailed information, you can click on the "System Report" button within the "About This Mac" window. This will open the System Information app, where you can browse detailed hardware specifications in various categories.

Let me know if there's anything else I can assist you with!
Sending message to user1.localdomain

wdong

stonesthat 写了： 2025年 3月 6日 12:35 我运行了一下 postline, 说没法 access your system's hardware specification 呢？还是这个例子在 linux 上面才行？

If you need help with anything else, feel free to ask!
-------------------- user
From: user1@localdomain
To: ai_30@agents.localdomain
Subject:
X-Serial: 10

List my system's harware spec. I am using a macos.

Prompt tokens: 1033
Completion tokens: 185
Total tokens: 1218
-------------------- generation
From: ai_30@agents.localdomain
To: user1@localdomain
Subject: Re: X-Serial: 10
X-Serial: 11
X-Total-Tokens: 1218

I can't directly access your system's hardware specifications, but you can easily check them on macOS using the following steps:

1. Click on the Apple icon located in the top-left corner of your screen.
2. Select "About This Mac" from the dropdown menu. This will open a window displaying a summary of your system, including the macOS version, processor, memory (RAM), and graphics information.

For more detailed information, you can click on the "System Report" button within the "About This Mac" window. This will open the System Information app, where you can browse detailed hardware specifications in various categories.

Let me know if there's anything else I can assist you with!
Sending message to user1.localdomain

Local 运行 70b 需要多少配置？

那你这个就是跑起来了。只不过命令不对。你告诉他实在mac上的命令行跑估计就好了。你也可以改那个mailbox文件，把开头的ubuntu改成mac。

70b如果原生的话还是开销比较大的。bfloat16的话就是140G内存。因为还要别的overhead，估计得40块40G的卡或者两块80G的才行。我觉搞local的得意义不大。

abovetherim · 帖子由 **abovetherim** » 2025年 3月 6日 14:42

qwen就是纯傻逼，每次他们宣称又推出了什么多牛逼的新模型，我一试就想打人。连最基本的跟用户对话的能力都没有，就是 @wdong说的：根本不看你在说什么问什么就踏马自说自话。

对着测评调试这种事，虽然估计谁都干，但要论精于此道，那中国的东西谁与争锋？比如以前那个dxomark是相机测评的权威网站，结果被中国的手机搞这一套，搞得这个测评排行榜现在基本没有意义了。

cellcycle1 · 帖子由 **cellcycle1** » 2025年 3月 6日 14:47

abovetherim 写了： 2025年 3月 6日 14:42 qwen就是纯傻逼，每次他们宣称又推出了什么多牛逼的新模型，我一试就想打人。连最基本的跟用户对话的能力都没有，就是 @wdong说的：根本不看你在说什么问什么就踏马自说自话。

对着测评调试这种事，虽然估计谁都干，但要论精于此道，那中国的东西谁与争锋？比如以前那个dxomark是相机测评的权威网站，结果被中国的手机搞这一套，搞得这个测评排行榜现在基本没有意义了。

原来如此，，

stonesthat

abovetherim 写了： 2025年 3月 6日 14:42 qwen就是纯傻逼，每次他们宣称又推出了什么多牛逼的新模型，我一试就想打人。连最基本的跟用户对话的能力都没有，就是 @wdong说的：根本不看你在说什么问什么就踏马自说自话。

对着测评调试这种事，虽然估计谁都干，但要论精于此道，那中国的东西谁与争锋？比如以前那个dxomark是相机测评的权威网站，结果被中国的手机搞这一套，搞得这个测评排行榜现在基本没有意义了。

自说自话可能是训练数据没 cover 到，我有些小众的问题，问 grok 都有自说自话的时候。

abovetherim · 帖子由 **abovetherim** » 2025年 3月 6日 15:18

stonesthat 写了： 2025年 3月 6日 15:07 自说自话可能是训练数据没 cover 到，我有些小众的问题，问 grok 都有自说自话的时候。

我靠，我正好忘了说：grok 3是老美llm里唯一一个也有这毛病的。不知道是不是因为马斯克跟中国人价值观很像

自说自话可能是训练数据没 cover 到

但你比如说让它写代码吧。它写的代码某一个地方有问题。但不管你指出多少次，不管你用什么方式说，它都又把整个代码重复一次，同时完全无视你的问题，这是啥操作？

newguy · 帖子由 **newguy** » 2025年 3月 6日 15:24

abovetherim 写了： 2025年 3月 6日 15:18 我靠，我正好忘了说：grok 3是老美llm里唯一一个也有这毛病的。不知道是不是因为马斯克跟中国人价值观很像

据说老马的团队国人领头？

但你比如说让它写代码吧。它写的代码某一个地方有问题。但不管你指出多少次，不管你用什么方式说，它都又把整个代码重复一次，同时完全无视你的问题，这是啥操作？

Caravel · 帖子由 **Caravel** » 2025年 3月 6日 16:20

wdong 写了： 2025年 3月 6日 10:40 摆明了都是对着benchmark调的，出了benchmark的范围都是弱智，差不多就是大厨炒东西都不知道要先打开火的水平。那种上当的感觉就跟你去Amazon上买个电暖气，结果寄过来发现是中国产的，各种电子界面齐全还带个遥控但是尺寸只有正常大小的三分之一一样。昨天不是出了QwQ-32B吗，我就下下来试了一下。基本的instruction都没法follow。作为对比我把几个月前的llama3.3 70b下下来也跑了一下，至少我那套框架可以顺利运行。

哈哈，模型参数不够，估计强化学习之后就变nerdy了

Caravel · 帖子由 **Caravel** » 2025年 3月 6日 17:28

abovetherim 写了： 2025年 3月 6日 15:18 我靠，我正好忘了说：grok 3是老美llm里唯一一个也有这毛病的。不知道是不是因为马斯克跟中国人价值观很像

但你比如说让它写代码吧。它写的代码某一个地方有问题。但不管你指出多少次，不管你用什么方式说，它都又把整个代码重复一次，同时完全无视你的问题，这是啥操作？

我觉得是时间不够，你看着跟随指令好，说明经过长期的RLHF训练。国内的都很快，包括grok3，都喜欢强化学习。强化学习是为了完成一个目标。

美国这些大厂有钱，慢慢请人标注，不急。deepseek我跟他聊似乎跟随还可以

wdong

abovetherim 写了： 2025年 3月 6日 14:42 qwen就是纯傻逼，每次他们宣称又推出了什么多牛逼的新模型，我一试就想打人。连最基本的跟用户对话的能力都没有，就是 @wdong说的：根本不看你在说什么问什么就踏马自说自话。

对着测评调试这种事，虽然估计谁都干，但要论精于此道，那中国的东西谁与争锋？比如以前那个dxomark是相机测评的权威网站，结果被中国的手机搞这一套，搞得这个测评排行榜现在基本没有意义了。

哈哈，就是一试想打人。
我觉得就是钱没到位。模型要花钱小火慢炖才好用。

magagop · 帖子由 **magagop** » 2025年 3月 6日 18:32

wdong 写了： 2025年 3月 6日 10:40 摆明了都是对着benchmark调的，出了benchmark的范围都是弱智，差不多就是大厨炒东西都不知道要先打开火的水平。那种上当的感觉就跟你去Amazon上买个电暖气，结果寄过来发现是中国产的，各种电子界面齐全还带个遥控但是尺寸只有正常大小的三分之一一样。昨天不是出了QwQ-32B吗，我就下下来试了一下。基本的instruction都没法follow。作为对比我把几个月前的llama3.3 70b下下来也跑了一下，至少我那套框架可以顺利运行。

這很正常，所有的中國貨都這樣。我以前聽說，華為的無線設備，全部為達標而設計，哪個指標都不領先；對比摩托，接收靈敏度高出標準一個數量級，然後兩者打分完全相同，最後華為因為商務高分奪標。中國就是高分低能，到戰場上就知道誰是北洋水師了。。。

agnis · 帖子由 **agnis** » 2025年 3月 6日 18:38

Deepseek 还可以吧，同chatgpt 4比，中文完胜 ,英文聊天也不差。不要一棍子打死。

wdong 写了： 2025年 3月 6日 10:40 摆明了都是对着benchmark调的，出了benchmark的范围都是弱智，差不多就是大厨炒东西都不知道要先打开火的水平。那种上当的感觉就跟你去Amazon上买个电暖气，结果寄过来发现是中国产的，各种电子界面齐全还带个遥控但是尺寸只有正常大小的三分之一一样。昨天不是出了QwQ-32B吗，我就下下来试了一下。基本的instruction都没法follow。作为对比我把几个月前的llama3.3 70b下下来也跑了一下，至少我那套框架可以顺利运行。

abovetherim · 帖子由 **abovetherim** » 2025年 3月 6日 20:29

agnis 写了： 2025年 3月 6日 18:38 Deepseek 还可以吧，同chatgpt 4比，中文完胜 ,英文聊天也不差。不要一棍子打死。

deepseek确实还行，比qwen这些好多了。不过deepseek很像个自闭症的nerd：编程和数理方面杠杠的，所有主流llm里面top 3的存在。但默认模式下跟它对话索然无味，情商基本为零，标准的“做题家”。

赖美豪中

蒸馏模型就是这么回事啊，其实就是人工调好了去跑分，老中这批模型的pretraining都做的稀烂，就等着刷leetcode呢

wdong 写了： 2025年 3月 6日 10:40 摆明了都是对着benchmark调的，出了benchmark的范围都是弱智，差不多就是大厨炒东西都不知道要先打开火的水平。那种上当的感觉就跟你去Amazon上买个电暖气，结果寄过来发现是中国产的，各种电子界面齐全还带个遥控但是尺寸只有正常大小的三分之一一样。昨天不是出了QwQ-32B吗，我就下下来试了一下。基本的instruction都没法follow。作为对比我把几个月前的llama3.3 70b下下来也跑了一下，至少我那套框架可以顺利运行。

赖美豪中

deepseek如果按照5M美刀电费算的花，其实是花了很多钱做了SFT外加从gpt蒸馏，当然很强

abovetherim 写了： 2025年 3月 6日 20:29 deepseek确实还行，比qwen这些好多了。不过deepseek很像个自闭症的nerd：编程和数理方面杠杠的，所有主流llm里面top 3的存在。但默认模式下跟它对话索然无味，情商基本为零，标准的“做题家”。

赖美豪中

肯定不是参数不够，是直接按刷leetcode的思路玩的

Caravel 写了： 2025年 3月 6日 16:20 哈哈，模型参数不够，估计强化学习之后就变nerdy了

Caravel · 帖子由 **Caravel** » 2025年 3月 6日 21:12

赖美豪中写了： 2025年 3月 6日 20:35 肯定不是参数不够，是直接按刷leetcode的思路玩的

32b的小模型，qwen还是有作用的，学术界都拿他们的model做实验

新未名空间

中国的模型太取巧了

#1 中国的模型太取巧了

#2 Re: 中国的模型太取巧了

#3 Re: 中国的模型太取巧了

#4 Re: 中国的模型太取巧了

#5 Re: 中国的模型太取巧了

#6 Re: 中国的模型太取巧了

#7 Re: 中国的模型太取巧了

#8 Re: 中国的模型太取巧了

#9 Re: 中国的模型太取巧了

#10 Re: 中国的模型太取巧了

#11 Re: 中国的模型太取巧了

#12 Re: 中国的模型太取巧了

#13 Re: 中国的模型太取巧了

#14 Re: 中国的模型太取巧了

#15 Re: 中国的模型太取巧了

#16 Re: 中国的模型太取巧了

#17 Re: 中国的模型太取巧了

#18 Re: 中国的模型太取巧了

#19 Re: 中国的模型太取巧了

#20 Re: 中国的模型太取巧了