#21 Re: 拜拜Claude!阿里最强万亿模型编程秒了Opus4 实测在此
尼玛,土鳖一贯的田忌赛马式的骗局。而且我查了几个,里面关于Opus4的好多数据是错的。
AIME25 ChatGPT5已经100%了,这个才80.6,但是对照表没有ChatGPT.
SuperGPQA Chatgpt5 66.7, 这个64.6.
Opus4 我看到的是63.2. 这个表里说人家是56.5.
Livecodebench v6看看这个leaderboard,Owen的57.5看看在什么位置。 https://www.kaggle.com/benchmarks/open- ... versions/1