研究表明,大模型编程,往往会偷工减料,偷奸耍滑。对于天天vibe coding的人来说,这当然不是什么新闻,不过现在有实证研究和正式文章了:
https://arxiv.org/abs/2510.20270
比如GPT5,我觉得算是用过的最老实的模型了,这个研究发现也在54–76%的任务中撒谎。我用过的其他模型,就不提了,都是满口谎言,绝对是“睁眼说瞎话”,还绝对不会哭,很有出息,哈哈。
版主: hci
研究表明,大模型编程,往往会偷工减料,偷奸耍滑。对于天天vibe coding的人来说,这当然不是什么新闻,不过现在有实证研究和正式文章了:
https://arxiv.org/abs/2510.20270
比如GPT5,我觉得算是用过的最老实的模型了,这个研究发现也在54–76%的任务中撒谎。我用过的其他模型,就不提了,都是满口谎言,绝对是“睁眼说瞎话”,还绝对不会哭,很有出息,哈哈。
AI给的结果不可靠
google搜索AI的结果,比较普遍的大部分是准确的,稍微偏一点的,结果经常是不对的。
你要相信AI,就上当了。我是容易验证的,还采用,不容易验证的,根本不信。
编程估计一样
不会像人一样思考,靠概率的AI硬伤,不会判断答案是否可靠
 
				用AI编程,必须微操,掌控所有技术决定,步步验证,否则就是浪费钱。
对于有经验的负责的马公来说,总的来说,生产效率还是可以提高的。但对于没有经验,或者不负责的马公,也就是大多数情况,AI编程就是个灾难。
stm32 写了: 2025年 10月 27日 14:37AI给的结果不可靠
google搜索AI的结果,比较普遍的大部分是准确的,稍微偏一点的,结果经常是不对的。
你要相信AI,就上当了。我是容易验证的,还采用,不容易验证的,根本不信。
编程估计一样
不会像人一样思考,靠概率的AI硬伤,不会判断答案是否可靠

stm32 写了: 2025年 10月 27日 14:37AI给的结果不可靠
google搜索AI的结果,比较普遍的大部分是准确的,稍微偏一点的,结果经常是不对的。
你要相信AI,就上当了。我是容易验证的,还采用,不容易验证的,根本不信。
编程估计一样
不会像人一样思考,靠概率的AI硬伤,不会判断答案是否可靠
会越来越好,如果更多人查偏一点的。你这个大部分是准确的,开始也不是这样的。
不可能的,工作方式决定的
它给的结果,往往就说网页排名比较靠前的reddit或者其他什么论坛的内容,文字几乎一字不差,不过是提取过的
但是稍微复杂一点的问题,AI提取的内容往往是文不对题的,对细节理解错误,回答等于是误导的
 
				
stm32 写了: 2025年 10月 27日 15:04不可能的,工作方式决定的
它给的结果,往往就说网页排名比较靠前的reddit或者其他什么论坛的内容,文字几乎一字不差,不过是提取过的
但是稍微复杂一点的问题,AI提取的内容往往是文不对题的,对细节理解错误,回答等于是误导的
你用的是付费的吗?

hci 写了: 2025年 10月 27日 14:24研究表明,大模型编程,往往会偷工减料,偷奸耍滑。对于天天vibe coding的人来说,这当然不是什么新闻,不过现在有实证研究和正式文章了:
https://arxiv.org/abs/2510.20270
比如GPT5,我觉得算是用过的最老实的模型了,这个研究发现也在54–76%的任务中撒谎。我用过的其他模型,就不提了,都是满口谎言,绝对是“睁眼说瞎话”,还绝对不会哭,很有出息,哈哈。
现在的AI只是一个概率输出机器,他不不知道自己骗了你
 
				


hci 写了: 2025年 10月 28日 15:33这不是概率抽样的问题。
删除过不了的测试,这种行为在数据中存在,这就是原因,也没人告诉它这是不可接受的行为。所以这种行为以后会减少,因为现在的用户会告诉它,这些在下一轮训练中会被用到。
大模型本来也不会算术和推理。
LLM架构有问题,可能现在的attention不行

hci 写了: 2025年 10月 28日 15:33这不是概率抽样的问题。
删除过不了的测试,这种行为在数据中存在,这就是原因,也没人告诉它这是不可接受的行为。所以这种行为以后会减少,因为现在的用户会告诉它,这些在下一轮训练中会被用到。
大模型本来也不会算术和推理。
也许需要双attention