拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

对应老买买提的军事天地,观点交锋比较激烈,反驳不留情面,请作好心理准备。因为此版帖子太多,所以新帖不出现在首页新帖列表,防止首页新帖刷屏太快。


版主: Softfist

windy(文帝)
著名点评
著名点评
帖子互动: 986
帖子: 5060
注册时间: 2023年 2月 7日 18:53

#21 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

帖子 windy(文帝) »

尼玛,土鳖一贯的田忌赛马式的骗局。而且我查了几个,里面关于Opus4的好多数据是错的。

AIME25 ChatGPT5已经100%了,这个才80.6,但是对照表没有ChatGPT.

SuperGPQA Chatgpt5 66.7, 这个64.6.

Opus4 我看到的是63.2. 这个表里说人家是56.5.

Livecodebench v6看看这个leaderboard,Owen的57.5看看在什么位置。 https://www.kaggle.com/benchmarks/open- ... versions/1

newguy
职业作家
职业作家
帖子互动: 39
帖子: 698
注册时间: 2024年 1月 9日 01:41

#22 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

帖子 newguy »

windy 写了: 2025年 9月 6日 09:00

尼玛,土鳖一贯的田忌赛马式的骗局。而且我查了几个,里面关于Opus4的好多数据是错的。

AIME25 ChatGPT5已经100%了,这个才80.6,但是对照表没有ChatGPT.

SuperGPQA Chatgpt5 66.7, 这个64.6.

Opus4 我看到的是63.2. 这个表里说人家是56.5.

Livecodebench v6看看这个leaderboard,Owen的57.5看看在什么位置。 https://www.kaggle.com/benchmarks/open- ... versions/1

这个都猜得出来。打人不打脸嘛

x1 图片
windy(文帝)
著名点评
著名点评
帖子互动: 986
帖子: 5060
注册时间: 2023年 2月 7日 18:53

#23 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

帖子 windy(文帝) »

而且跑分和实际应用的效果虽然有关联,但根本不是一码事。ChatGPT的跑分比Claude好看,但现在的编程agent做的最好的都是Claude,所以claude收费比别的贵好多。

xiaoju(可爱的龙猫)
论坛元老
论坛元老
帖子互动: 1049
帖子: 25707
注册时间: 2023年 9月 5日 20:18

#24 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

帖子 xiaoju(可爱的龙猫) »

现在你弟认为赔的越多希望越大,美国人民的社保都压在上面,不急

newguy 写了: 2025年 9月 6日 08:56

都烧钱,但有不错的收入至少有希望赚钱嘛,平均来说, vc还是比屁民高明的

newguy
职业作家
职业作家
帖子互动: 39
帖子: 698
注册时间: 2024年 1月 9日 01:41

#25 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

帖子 newguy »

xiaoju 写了: 2025年 9月 6日 09:06

现在你弟认为赔的越多希望越大,美国人民的社保都压在上面,不急

vc和社保不一样吧,你是真不懂还是胡扯?

windy(文帝)
著名点评
著名点评
帖子互动: 986
帖子: 5060
注册时间: 2023年 2月 7日 18:53

#26 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

帖子 windy(文帝) »

等它家的推理模型出来再看最后结局吧。如果达不到GPT5的效果,可能可以证明靠扩大参数来跑分的办法可能不是一条可行的路子。

Deepseek其实还是有亮点的,就是和Temu一样走低成本的路线。性能比不过你,但是价格便宜死你。这个千问的模型这么大,跑起来成本绝对不低。

xiaoju(可爱的龙猫)
论坛元老
论坛元老
帖子互动: 1049
帖子: 25707
注册时间: 2023年 9月 5日 20:18

#27 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

帖子 xiaoju(可爱的龙猫) »

去年底学术界就已经达成共识,LLM的盛宴早就结束了,没有更多数据可用,scaling law在粪坑里折腾也不会提高

但是为了骗投资,openai什么的还不敢承认

windy 写了: 2025年 9月 6日 09:09

等它家的推理模型出来再看最后结局吧。如果达不到GPT5的效果,可能可以证明靠扩大参数来跑分的办法可能不是一条可行的路子。

Deepseek其实还是有亮点的,就是和Temu一样走低成本的路线。性能比不过你,但是价格便宜死你。这个千问的模型这么大,跑起来成本绝对不低。

x1 图片
宇宙
职业作家
职业作家
帖子互动: 155
帖子: 772
注册时间: 2025年 2月 26日 07:12

#28 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

帖子 宇宙 »

你这是连是否用 thinking 都没搞懂就上来喷了 反华这么急的吗,迟一步funding就给别人了?

windy 写了: 2025年 9月 6日 09:00

尼玛,土鳖一贯的田忌赛马式的骗局。而且我查了几个,里面关于Opus4的好多数据是错的。

AIME25 ChatGPT5已经100%了,这个才80.6,但是对照表没有ChatGPT.

SuperGPQA Chatgpt5 66.7, 这个64.6.

Opus4 我看到的是63.2. 这个表里说人家是56.5.

Livecodebench v6看看这个leaderboard,Owen的57.5看看在什么位置。 https://www.kaggle.com/benchmarks/open- ... versions/1

newguy
职业作家
职业作家
帖子互动: 39
帖子: 698
注册时间: 2024年 1月 9日 01:41

#29 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

帖子 newguy »

xiaoju 写了: 2025年 9月 6日 09:19

去年底学术界就已经达成共识,LLM的盛宴早就结束了,没有更多数据可用,scaling law在粪坑里折腾也不会提高

但是为了骗投资,openai什么的还不敢承认

这个可以看,但看了伊利亚最新的采访,我这外行还是谁名声大听谁的。

windy(文帝)
著名点评
著名点评
帖子互动: 986
帖子: 5060
注册时间: 2023年 2月 7日 18:53

#30 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

帖子 windy(文帝) »

切,揭穿你们的骗局就成了反华。五毛粉红的心理好脆弱啊。

我当然知道差别。就用Opus 4de livecodebench来说,在这个表里: https://www.vals.ai/benchmarks/lcb-06-1 ... hatgpt.com
Opus 4 nonthinking是56.4, thinking是63.1. 千问给的表里说人家是44.6.它家自己也就57.5而已。

现在的模型都用thinking,你看阿里的那张表,除了Claude,别的模型都没说人家是nonthinking,包括他家自己的235B模型.也就是把人家的残疾人队伍拿来和自己比,还特意挑了一个2-25号,半年前的旧数据来比(你看那种表,别的benchmark没写日期吧?)。这种小九九是土鳖国公司的惯用伎俩,就是骗你们这种SB小粉红的

宇宙 写了: 2025年 9月 6日 09:21

你这是连是否用 thinking 都没搞懂就上来喷了 反华这么急的吗,迟一步funding就给别人了?

rtscts
论坛精英
论坛精英
帖子互动: 775
帖子: 7843
注册时间: 2023年 9月 10日 15:11

#31 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

帖子 rtscts »

newguy 写了: 2025年 9月 6日 08:04

又遥遥领先了:) cladude好像今年收入已经过50亿美刀了,他们过50亿人民币没有?

马云的阿里巴巴还用得着靠大模型挣钱?

腾讯还用得着靠大模型挣钱?

字节跳动今年的收入已经超过Meta,还用得着靠大模型挣钱?

连送外卖的美团都搞了个大模型出来,

我弟M7里面只有狗脸两家有大模型吧?这已经说明了我弟人才资源的枯竭。

都是一团一团不停到处拱的三哥死死堵在我弟公司里。

newguy
职业作家
职业作家
帖子互动: 39
帖子: 698
注册时间: 2024年 1月 9日 01:41

#32 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

帖子 newguy »

rtscts 写了: 2025年 9月 6日 09:55

马云的阿里巴巴还用得着靠大模型挣钱?

腾讯还用得着靠大模型挣钱?

字节跳动今年的收入已经超过Meta,还用得着靠大模型挣钱?

连送外卖的美团都搞了个大模型出来,

我弟M7里面只有狗脸两家有大模型吧?这已经说明了我弟人才资源的枯竭。

都是一团一团不停到处拱的三哥死死堵在我弟公司里。

这个主题是在比大模型,不是在比谁现在最赚钱吧?

2000年Yahoo还是唯一赚钱的互联网公司呢:)

rtscts
论坛精英
论坛精英
帖子互动: 775
帖子: 7843
注册时间: 2023年 9月 10日 15:11

#33 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

帖子 rtscts »

newguy 写了: 2025年 9月 6日 10:02

这个主题是在比大模型,不是在比谁现在最赚钱吧?

2000年Yahoo还是唯一赚钱的互联网公司呢:)

赚钱这事不就是你说的吗?

我弟这些公司还敢在土鳖公司面前提赚钱两个字?

newguy
职业作家
职业作家
帖子互动: 39
帖子: 698
注册时间: 2024年 1月 9日 01:41

#34 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

帖子 newguy »

rtscts 写了: 2025年 9月 6日 10:13

赚钱这事不就是你说的吗?

我弟这些公司还敢在土鳖公司面前提赚钱两个字?

老黄谷歌苹果比所有的土鳖公司赚钱吧?

newguy
职业作家
职业作家
帖子互动: 39
帖子: 698
注册时间: 2024年 1月 9日 01:41

#35 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

帖子 newguy »

rtscts 写了: 2025年 9月 6日 10:13

赚钱这事不就是你说的吗?

我弟这些公司还敢在土鳖公司面前提赚钱两个字?

这个主题是在比大模型谁最厉害,赚钱或者接近赚钱是厉害的标准之一。土鳖无论技术还是赚钱离第一还边都碰不上。

rtscts
论坛精英
论坛精英
帖子互动: 775
帖子: 7843
注册时间: 2023年 9月 10日 15:11

#36 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

帖子 rtscts »

newguy 写了: 2025年 9月 6日 10:19

这个主题是在比大模型谁最厉害,赚钱或者接近赚钱是厉害的标准之一。土鳖无论技术还是赚钱离第一还边都碰不上。

瞎几把扯淡,

土鳖这几个公司富的流油,根本不用大模型赚钱。

小札投进去150亿的大模型赚了多少钱?

用大模型赚钱只是openAI和Anthropic这两个小不点startup骗投资的。

大公司根本不在乎这点屁钱。

头像
foofy(自带干粮五毛)楼主
论坛元老
论坛元老
帖子互动: 473
帖子: 16521
注册时间: 2022年 8月 10日 01:38

#37 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

帖子 foofy(自带干粮五毛)楼主 »

newguy 写了: 2025年 9月 6日 10:19

这个主题是在比大模型谁最厉害,赚钱或者接近赚钱是厉害的标准之一。土鳖无论技术还是赚钱离第一还边都碰不上。

中国不能用claude。钱都中国公司赚。

newguy
职业作家
职业作家
帖子互动: 39
帖子: 698
注册时间: 2024年 1月 9日 01:41

#38 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

帖子 newguy »

rtscts 写了: 2025年 9月 6日 10:23

瞎几把扯淡,

土鳖这几个公司富的流油,根本不用大模型赚钱。

小札投进去150亿的大模型赚了多少钱?

用大模型赚钱只是openAI和Anthropic这两个小不点startup骗投资的。

大公司根本不在乎这点屁钱。

你就接着流油好了,别吹啥寒武纪是东大的英伟达陶瓷。走私的老黄芯片咋回事?

rtscts
论坛精英
论坛精英
帖子互动: 775
帖子: 7843
注册时间: 2023年 9月 10日 15:11

#39 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

帖子 rtscts »

newguy 写了: 2025年 9月 6日 10:27

你就接着流有好了,别吹啥寒武纪是东大的英伟达陶瓷

你个几把傻逼,

小札早就看open ai这帮傻逼不顺眼了,

没钱穷鬼一个,搞什么几把大模型,纯属浪费我弟的时间,

deepseek出来之后,open ai只能从孙正义那里敲诈点投资,

小札看着烦闷,直接扔了150亿美刀挖人,主持我弟的大模型研发工作。

newguy
职业作家
职业作家
帖子互动: 39
帖子: 698
注册时间: 2024年 1月 9日 01:41

#40 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

帖子 newguy »

foofy 写了: 2025年 9月 6日 10:26

中国不能用claude。钱都中国公司赚。

这个还有道理,实事求是嘛,性能相近当然培养自己的公司。

从长期来看,东大如果完全脱钩,是以大约三分之一的市场打三分之二的市场,还得假定部长们比硅谷的vc英明,毫无胜算。他们从来没有英明过好不好?

回复

回到 “军事天地(Military)”