新未名空间

尼玛，土鳖一贯的田忌赛马式的骗局。而且我查了几个，里面关于Opus4的好多数据是错的。

AIME25 ChatGPT5已经100%了，这个才80.6，但是对照表没有ChatGPT.

SuperGPQA Chatgpt5 66.7, 这个64.6.

Opus4 我看到的是63.2. 这个表里说人家是56.5.

Livecodebench v6看看这个leaderboard,Owen的57.5看看在什么位置。 https://www.kaggle.com/benchmarks/open- ... versions/1

windy 写了： 2025年 9月 6日 09:00
尼玛，土鳖一贯的田忌赛马式的骗局。而且我查了几个，里面关于Opus4的好多数据是错的。

AIME25 ChatGPT5已经100%了，这个才80.6，但是对照表没有ChatGPT.

SuperGPQA Chatgpt5 66.7, 这个64.6.

Opus4 我看到的是63.2. 这个表里说人家是56.5.

Livecodebench v6看看这个leaderboard,Owen的57.5看看在什么位置。 https://www.kaggle.com/benchmarks/open- ... versions/1

这个都猜得出来。打人不打脸嘛

而且跑分和实际应用的效果虽然有关联，但根本不是一码事。ChatGPT的跑分比Claude好看，但现在的编程agent做的最好的都是Claude,所以claude收费比别的贵好多。

现在你弟认为赔的越多希望越大，美国人民的社保都压在上面，不急

newguy 写了： 2025年 9月 6日 08:56
都烧钱，但有不错的收入至少有希望赚钱嘛，平均来说， vc还是比屁民高明的

xiaoju 写了： 2025年 9月 6日 09:06
现在你弟认为赔的越多希望越大，美国人民的社保都压在上面，不急

vc和社保不一样吧，你是真不懂还是胡扯？

等它家的推理模型出来再看最后结局吧。如果达不到GPT5的效果，可能可以证明靠扩大参数来跑分的办法可能不是一条可行的路子。

Deepseek其实还是有亮点的，就是和Temu一样走低成本的路线。性能比不过你，但是价格便宜死你。这个千问的模型这么大，跑起来成本绝对不低。

去年底学术界就已经达成共识，LLM的盛宴早就结束了，没有更多数据可用，scaling law在粪坑里折腾也不会提高

但是为了骗投资，openai什么的还不敢承认

windy 写了： 2025年 9月 6日 09:09
等它家的推理模型出来再看最后结局吧。如果达不到GPT5的效果，可能可以证明靠扩大参数来跑分的办法可能不是一条可行的路子。

Deepseek其实还是有亮点的，就是和Temu一样走低成本的路线。性能比不过你，但是价格便宜死你。这个千问的模型这么大，跑起来成本绝对不低。

你这是连是否用 thinking 都没搞懂就上来喷了反华这么急的吗，迟一步funding就给别人了？

windy 写了： 2025年 9月 6日 09:00
尼玛，土鳖一贯的田忌赛马式的骗局。而且我查了几个，里面关于Opus4的好多数据是错的。

AIME25 ChatGPT5已经100%了，这个才80.6，但是对照表没有ChatGPT.

SuperGPQA Chatgpt5 66.7, 这个64.6.

Opus4 我看到的是63.2. 这个表里说人家是56.5.

Livecodebench v6看看这个leaderboard,Owen的57.5看看在什么位置。 https://www.kaggle.com/benchmarks/open- ... versions/1

xiaoju 写了： 2025年 9月 6日 09:19
去年底学术界就已经达成共识，LLM的盛宴早就结束了，没有更多数据可用，scaling law在粪坑里折腾也不会提高

但是为了骗投资，openai什么的还不敢承认

这个可以看，但看了伊利亚最新的采访，我这外行还是谁名声大听谁的。

切，揭穿你们的骗局就成了反华。五毛粉红的心理好脆弱啊。

我当然知道差别。就用Opus 4de livecodebench来说，在这个表里： https://www.vals.ai/benchmarks/lcb-06-1 ... hatgpt.com
Opus 4 nonthinking是56.4， thinking是63.1. 千问给的表里说人家是44.6.它家自己也就57.5而已。

现在的模型都用thinking，你看阿里的那张表，除了Claude,别的模型都没说人家是nonthinking，包括他家自己的235B模型.也就是把人家的残疾人队伍拿来和自己比，还特意挑了一个2-25号，半年前的旧数据来比（你看那种表，别的benchmark没写日期吧？）。这种小九九是土鳖国公司的惯用伎俩，就是骗你们这种SB小粉红的

宇宙写了： 2025年 9月 6日 09:21
你这是连是否用 thinking 都没搞懂就上来喷了反华这么急的吗，迟一步funding就给别人了？

newguy 写了： 2025年 9月 6日 08:04
又遥遥领先了：） cladude好像今年收入已经过50亿美刀了，他们过50亿人民币没有？

马云的阿里巴巴还用得着靠大模型挣钱？

腾讯还用得着靠大模型挣钱？

字节跳动今年的收入已经超过Meta，还用得着靠大模型挣钱？

连送外卖的美团都搞了个大模型出来，

我弟M7里面只有狗脸两家有大模型吧？这已经说明了我弟人才资源的枯竭。

都是一团一团不停到处拱的三哥死死堵在我弟公司里。

rtscts 写了： 2025年 9月 6日 09:55
马云的阿里巴巴还用得着靠大模型挣钱？

腾讯还用得着靠大模型挣钱？

字节跳动今年的收入已经超过Meta，还用得着靠大模型挣钱？

连送外卖的美团都搞了个大模型出来，

我弟M7里面只有狗脸两家有大模型吧？这已经说明了我弟人才资源的枯竭。

都是一团一团不停到处拱的三哥死死堵在我弟公司里。

这个主题是在比大模型，不是在比谁现在最赚钱吧？

2000年Yahoo还是唯一赚钱的互联网公司呢：）

newguy 写了： 2025年 9月 6日 10:02
这个主题是在比大模型，不是在比谁现在最赚钱吧？

2000年Yahoo还是唯一赚钱的互联网公司呢：）

赚钱这事不就是你说的吗？

我弟这些公司还敢在土鳖公司面前提赚钱两个字？

rtscts 写了： 2025年 9月 6日 10:13
赚钱这事不就是你说的吗？

我弟这些公司还敢在土鳖公司面前提赚钱两个字？

老黄谷歌苹果比所有的土鳖公司赚钱吧？

rtscts 写了： 2025年 9月 6日 10:13
赚钱这事不就是你说的吗？

我弟这些公司还敢在土鳖公司面前提赚钱两个字？

这个主题是在比大模型谁最厉害，赚钱或者接近赚钱是厉害的标准之一。土鳖无论技术还是赚钱离第一还边都碰不上。

newguy 写了： 2025年 9月 6日 10:19
这个主题是在比大模型谁最厉害，赚钱或者接近赚钱是厉害的标准之一。土鳖无论技术还是赚钱离第一还边都碰不上。

瞎几把扯淡，

土鳖这几个公司富的流油，根本不用大模型赚钱。

小札投进去150亿的大模型赚了多少钱？

用大模型赚钱只是openAI和Anthropic这两个小不点startup骗投资的。

大公司根本不在乎这点屁钱。

newguy 写了： 2025年 9月 6日 10:19
这个主题是在比大模型谁最厉害，赚钱或者接近赚钱是厉害的标准之一。土鳖无论技术还是赚钱离第一还边都碰不上。

中国不能用claude。钱都中国公司赚。

rtscts 写了： 2025年 9月 6日 10:23
瞎几把扯淡，

土鳖这几个公司富的流油，根本不用大模型赚钱。

小札投进去150亿的大模型赚了多少钱？

用大模型赚钱只是openAI和Anthropic这两个小不点startup骗投资的。

大公司根本不在乎这点屁钱。

你就接着流油好了，别吹啥寒武纪是东大的英伟达陶瓷。走私的老黄芯片咋回事？

newguy 写了： 2025年 9月 6日 10:27
你就接着流有好了，别吹啥寒武纪是东大的英伟达陶瓷

你个几把傻逼，

小札早就看open ai这帮傻逼不顺眼了，

没钱穷鬼一个，搞什么几把大模型，纯属浪费我弟的时间，

deepseek出来之后，open ai只能从孙正义那里敲诈点投资，

小札看着烦闷，直接扔了150亿美刀挖人，主持我弟的大模型研发工作。

foofy 写了： 2025年 9月 6日 10:26
中国不能用claude。钱都中国公司赚。

这个还有道理，实事求是嘛，性能相近当然培养自己的公司。

从长期来看，东大如果完全脱钩，是以大约三分之一的市场打三分之二的市场，还得假定部长们比硅谷的vc英明，毫无胜算。他们从来没有英明过好不好？

新未名空间

拜拜Claude！阿里最强万亿模型编程秒了Opus4 实测在此

#21 Re: 拜拜Claude！阿里最强万亿模型编程秒了Opus4 实测在此

#22 Re: 拜拜Claude！阿里最强万亿模型编程秒了Opus4 实测在此

#23 Re: 拜拜Claude！阿里最强万亿模型编程秒了Opus4 实测在此

#24 Re: 拜拜Claude！阿里最强万亿模型编程秒了Opus4 实测在此

#25 Re: 拜拜Claude！阿里最强万亿模型编程秒了Opus4 实测在此

#26 Re: 拜拜Claude！阿里最强万亿模型编程秒了Opus4 实测在此

#27 Re: 拜拜Claude！阿里最强万亿模型编程秒了Opus4 实测在此

#28 Re: 拜拜Claude！阿里最强万亿模型编程秒了Opus4 实测在此

#29 Re: 拜拜Claude！阿里最强万亿模型编程秒了Opus4 实测在此

#30 Re: 拜拜Claude！阿里最强万亿模型编程秒了Opus4 实测在此

#31 Re: 拜拜Claude！阿里最强万亿模型编程秒了Opus4 实测在此

#32 Re: 拜拜Claude！阿里最强万亿模型编程秒了Opus4 实测在此

#33 Re: 拜拜Claude！阿里最强万亿模型编程秒了Opus4 实测在此

#34 Re: 拜拜Claude！阿里最强万亿模型编程秒了Opus4 实测在此

#35 Re: 拜拜Claude！阿里最强万亿模型编程秒了Opus4 实测在此

#36 Re: 拜拜Claude！阿里最强万亿模型编程秒了Opus4 实测在此

#37 Re: 拜拜Claude！阿里最强万亿模型编程秒了Opus4 实测在此

#38 Re: 拜拜Claude！阿里最强万亿模型编程秒了Opus4 实测在此

#39 Re: 拜拜Claude！阿里最强万亿模型编程秒了Opus4 实测在此

#40 Re: 拜拜Claude！阿里最强万亿模型编程秒了Opus4 实测在此