分页: 2 / 3

#21 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

发表于 : 2025年 9月 6日 09:00
windy

尼玛,土鳖一贯的田忌赛马式的骗局。而且我查了几个,里面关于Opus4的好多数据是错的。

AIME25 ChatGPT5已经100%了,这个才80.6,但是对照表没有ChatGPT.

SuperGPQA Chatgpt5 66.7, 这个64.6.

Opus4 我看到的是63.2. 这个表里说人家是56.5.

Livecodebench v6看看这个leaderboard,Owen的57.5看看在什么位置。 https://www.kaggle.com/benchmarks/open- ... versions/1


#22 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

发表于 : 2025年 9月 6日 09:03
newguy
windy 写了: 2025年 9月 6日 09:00

尼玛,土鳖一贯的田忌赛马式的骗局。而且我查了几个,里面关于Opus4的好多数据是错的。

AIME25 ChatGPT5已经100%了,这个才80.6,但是对照表没有ChatGPT.

SuperGPQA Chatgpt5 66.7, 这个64.6.

Opus4 我看到的是63.2. 这个表里说人家是56.5.

Livecodebench v6看看这个leaderboard,Owen的57.5看看在什么位置。 https://www.kaggle.com/benchmarks/open- ... versions/1

这个都猜得出来。打人不打脸嘛


#23 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

发表于 : 2025年 9月 6日 09:03
windy

而且跑分和实际应用的效果虽然有关联,但根本不是一码事。ChatGPT的跑分比Claude好看,但现在的编程agent做的最好的都是Claude,所以claude收费比别的贵好多。


#24 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

发表于 : 2025年 9月 6日 09:06
xiaoju

现在你弟认为赔的越多希望越大,美国人民的社保都压在上面,不急

newguy 写了: 2025年 9月 6日 08:56

都烧钱,但有不错的收入至少有希望赚钱嘛,平均来说, vc还是比屁民高明的


#25 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

发表于 : 2025年 9月 6日 09:08
newguy
xiaoju 写了: 2025年 9月 6日 09:06

现在你弟认为赔的越多希望越大,美国人民的社保都压在上面,不急

vc和社保不一样吧,你是真不懂还是胡扯?


#26 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

发表于 : 2025年 9月 6日 09:09
windy

等它家的推理模型出来再看最后结局吧。如果达不到GPT5的效果,可能可以证明靠扩大参数来跑分的办法可能不是一条可行的路子。

Deepseek其实还是有亮点的,就是和Temu一样走低成本的路线。性能比不过你,但是价格便宜死你。这个千问的模型这么大,跑起来成本绝对不低。


#27 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

发表于 : 2025年 9月 6日 09:19
xiaoju

去年底学术界就已经达成共识,LLM的盛宴早就结束了,没有更多数据可用,scaling law在粪坑里折腾也不会提高

但是为了骗投资,openai什么的还不敢承认

windy 写了: 2025年 9月 6日 09:09

等它家的推理模型出来再看最后结局吧。如果达不到GPT5的效果,可能可以证明靠扩大参数来跑分的办法可能不是一条可行的路子。

Deepseek其实还是有亮点的,就是和Temu一样走低成本的路线。性能比不过你,但是价格便宜死你。这个千问的模型这么大,跑起来成本绝对不低。


#28 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

发表于 : 2025年 9月 6日 09:21
宇宙

你这是连是否用 thinking 都没搞懂就上来喷了 反华这么急的吗,迟一步funding就给别人了?

windy 写了: 2025年 9月 6日 09:00

尼玛,土鳖一贯的田忌赛马式的骗局。而且我查了几个,里面关于Opus4的好多数据是错的。

AIME25 ChatGPT5已经100%了,这个才80.6,但是对照表没有ChatGPT.

SuperGPQA Chatgpt5 66.7, 这个64.6.

Opus4 我看到的是63.2. 这个表里说人家是56.5.

Livecodebench v6看看这个leaderboard,Owen的57.5看看在什么位置。 https://www.kaggle.com/benchmarks/open- ... versions/1


#29 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

发表于 : 2025年 9月 6日 09:47
newguy
xiaoju 写了: 2025年 9月 6日 09:19

去年底学术界就已经达成共识,LLM的盛宴早就结束了,没有更多数据可用,scaling law在粪坑里折腾也不会提高

但是为了骗投资,openai什么的还不敢承认

这个可以看,但看了伊利亚最新的采访,我这外行还是谁名声大听谁的。


#30 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

发表于 : 2025年 9月 6日 09:54
windy

切,揭穿你们的骗局就成了反华。五毛粉红的心理好脆弱啊。

我当然知道差别。就用Opus 4de livecodebench来说,在这个表里: https://www.vals.ai/benchmarks/lcb-06-1 ... hatgpt.com
Opus 4 nonthinking是56.4, thinking是63.1. 千问给的表里说人家是44.6.它家自己也就57.5而已。

现在的模型都用thinking,你看阿里的那张表,除了Claude,别的模型都没说人家是nonthinking,包括他家自己的235B模型.也就是把人家的残疾人队伍拿来和自己比,还特意挑了一个2-25号,半年前的旧数据来比(你看那种表,别的benchmark没写日期吧?)。这种小九九是土鳖国公司的惯用伎俩,就是骗你们这种SB小粉红的

宇宙 写了: 2025年 9月 6日 09:21

你这是连是否用 thinking 都没搞懂就上来喷了 反华这么急的吗,迟一步funding就给别人了?


#31 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

发表于 : 2025年 9月 6日 09:55
rtscts
newguy 写了: 2025年 9月 6日 08:04

又遥遥领先了:) cladude好像今年收入已经过50亿美刀了,他们过50亿人民币没有?

马云的阿里巴巴还用得着靠大模型挣钱?

腾讯还用得着靠大模型挣钱?

字节跳动今年的收入已经超过Meta,还用得着靠大模型挣钱?

连送外卖的美团都搞了个大模型出来,

我弟M7里面只有狗脸两家有大模型吧?这已经说明了我弟人才资源的枯竭。

都是一团一团不停到处拱的三哥死死堵在我弟公司里。


#32 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

发表于 : 2025年 9月 6日 10:02
newguy
rtscts 写了: 2025年 9月 6日 09:55

马云的阿里巴巴还用得着靠大模型挣钱?

腾讯还用得着靠大模型挣钱?

字节跳动今年的收入已经超过Meta,还用得着靠大模型挣钱?

连送外卖的美团都搞了个大模型出来,

我弟M7里面只有狗脸两家有大模型吧?这已经说明了我弟人才资源的枯竭。

都是一团一团不停到处拱的三哥死死堵在我弟公司里。

这个主题是在比大模型,不是在比谁现在最赚钱吧?

2000年Yahoo还是唯一赚钱的互联网公司呢:)


#33 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

发表于 : 2025年 9月 6日 10:13
rtscts
newguy 写了: 2025年 9月 6日 10:02

这个主题是在比大模型,不是在比谁现在最赚钱吧?

2000年Yahoo还是唯一赚钱的互联网公司呢:)

赚钱这事不就是你说的吗?

我弟这些公司还敢在土鳖公司面前提赚钱两个字?


#34 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

发表于 : 2025年 9月 6日 10:15
newguy
rtscts 写了: 2025年 9月 6日 10:13

赚钱这事不就是你说的吗?

我弟这些公司还敢在土鳖公司面前提赚钱两个字?

老黄谷歌苹果比所有的土鳖公司赚钱吧?


#35 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

发表于 : 2025年 9月 6日 10:19
newguy
rtscts 写了: 2025年 9月 6日 10:13

赚钱这事不就是你说的吗?

我弟这些公司还敢在土鳖公司面前提赚钱两个字?

这个主题是在比大模型谁最厉害,赚钱或者接近赚钱是厉害的标准之一。土鳖无论技术还是赚钱离第一还边都碰不上。


#36 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

发表于 : 2025年 9月 6日 10:23
rtscts
newguy 写了: 2025年 9月 6日 10:19

这个主题是在比大模型谁最厉害,赚钱或者接近赚钱是厉害的标准之一。土鳖无论技术还是赚钱离第一还边都碰不上。

瞎几把扯淡,

土鳖这几个公司富的流油,根本不用大模型赚钱。

小札投进去150亿的大模型赚了多少钱?

用大模型赚钱只是openAI和Anthropic这两个小不点startup骗投资的。

大公司根本不在乎这点屁钱。


#37 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

发表于 : 2025年 9月 6日 10:26
foofy
newguy 写了: 2025年 9月 6日 10:19

这个主题是在比大模型谁最厉害,赚钱或者接近赚钱是厉害的标准之一。土鳖无论技术还是赚钱离第一还边都碰不上。

中国不能用claude。钱都中国公司赚。


#38 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

发表于 : 2025年 9月 6日 10:27
newguy
rtscts 写了: 2025年 9月 6日 10:23

瞎几把扯淡,

土鳖这几个公司富的流油,根本不用大模型赚钱。

小札投进去150亿的大模型赚了多少钱?

用大模型赚钱只是openAI和Anthropic这两个小不点startup骗投资的。

大公司根本不在乎这点屁钱。

你就接着流油好了,别吹啥寒武纪是东大的英伟达陶瓷。走私的老黄芯片咋回事?


#39 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

发表于 : 2025年 9月 6日 10:31
rtscts
newguy 写了: 2025年 9月 6日 10:27

你就接着流有好了,别吹啥寒武纪是东大的英伟达陶瓷

你个几把傻逼,

小札早就看open ai这帮傻逼不顺眼了,

没钱穷鬼一个,搞什么几把大模型,纯属浪费我弟的时间,

deepseek出来之后,open ai只能从孙正义那里敲诈点投资,

小札看着烦闷,直接扔了150亿美刀挖人,主持我弟的大模型研发工作。


#40 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此

发表于 : 2025年 9月 6日 10:35
newguy
foofy 写了: 2025年 9月 6日 10:26

中国不能用claude。钱都中国公司赚。

这个还有道理,实事求是嘛,性能相近当然培养自己的公司。

从长期来看,东大如果完全脱钩,是以大约三分之一的市场打三分之二的市场,还得假定部长们比硅谷的vc英明,毫无胜算。他们从来没有英明过好不好?