新未名空间

研究表明，大模型编程，往往会偷工减料，偷奸耍滑。对于天天vibe coding的人来说，这当然不是什么新闻，不过现在有实证研究和正式文章了:

https://arxiv.org/abs/2510.20270

比如GPT5，我觉得算是用过的最老实的模型了，这个研究发现也在54–76%的任务中撒谎。我用过的其他模型，就不提了，都是满口谎言，绝对是“睁眼说瞎话”，还绝对不会哭，很有出息，哈哈。

AI给的结果不可靠

google搜索AI的结果，比较普遍的大部分是准确的，稍微偏一点的，结果经常是不对的。

你要相信AI，就上当了。我是容易验证的，还采用，不容易验证的，根本不信。

编程估计一样

不会像人一样思考，靠概率的AI硬伤，不会判断答案是否可靠

用AI编程，必须微操，掌控所有技术决定，步步验证，否则就是浪费钱。

对于有经验的负责的马公来说，总的来说，生产效率还是可以提高的。但对于没有经验，或者不负责的马公，也就是大多数情况，AI编程就是个灾难。

stm32 写了： 2025年 10月 27日 14:37
AI给的结果不可靠

google搜索AI的结果，比较普遍的大部分是准确的，稍微偏一点的，结果经常是不对的。

你要相信AI，就上当了。我是容易验证的，还采用，不容易验证的，根本不信。

编程估计一样

不会像人一样思考，靠概率的AI硬伤，不会判断答案是否可靠

stm32 写了： 2025年 10月 27日 14:37
AI给的结果不可靠

google搜索AI的结果，比较普遍的大部分是准确的，稍微偏一点的，结果经常是不对的。

你要相信AI，就上当了。我是容易验证的，还采用，不容易验证的，根本不信。

编程估计一样

不会像人一样思考，靠概率的AI硬伤，不会判断答案是否可靠

会越来越好，如果更多人查偏一点的。你这个大部分是准确的，开始也不是这样的。

tiantian2000 写了： 2025年 10月 27日 14:43
会越来越好，如果更多人查偏一点的。你这个大部分是准确的，开始也不是这样的。

不可能的，工作方式决定的

它给的结果，往往就说网页排名比较靠前的reddit或者其他什么论坛的内容，文字几乎一字不差，不过是提取过的

但是稍微复杂一点的问题，AI提取的内容往往是文不对题的，对细节理解错误，回答等于是误导的

stm32 写了： 2025年 10月 27日 15:04
不可能的，工作方式决定的

它给的结果，往往就说网页排名比较靠前的reddit或者其他什么论坛的内容，文字几乎一字不差，不过是提取过的

但是稍微复杂一点的问题，AI提取的内容往往是文不对题的，对细节理解错误，回答等于是误导的

你用的是付费的吗？

hci 写了： 2025年 10月 27日 14:24
研究表明，大模型编程，往往会偷工减料，偷奸耍滑。对于天天vibe coding的人来说，这当然不是什么新闻，不过现在有实证研究和正式文章了:

https://arxiv.org/abs/2510.20270

比如GPT5，我觉得算是用过的最老实的模型了，这个研究发现也在54–76%的任务中撒谎。我用过的其他模型，就不提了，都是满口谎言，绝对是“睁眼说瞎话”，还绝对不会哭，很有出息，哈哈。

现在的AI只是一个概率输出机器，他不不知道自己骗了你

tiantian2000 写了： 2025年 10月 28日 14:55
你用的是付费的吗？

没区别，除非你付费能不用概率，像人脑那样真的理解问题是什么

否则总是找出现概率最高的做答案，不看问题细节变化，是否还合适这个答案

训练数据的问题，没有把好关。删除测试这种欺诈行为也是习得的。

Caravel 写了： 2025年 10月 28日 14:59
现在的AI只是一个概率输出机器，他不不知道自己骗了你

stm32 写了： 2025年 10月 28日 15:06
没区别，除非你付费能不用概率，像人脑那样真的理解问题是什么

否则总是找出现概率最高的做答案，不看问题细节变化，是否还合适这个答案

怎么会一样？付费和免费的答案经常都不一样，付费的快速flash的都不行，必须要费力思考的推理模型，答案才很好

hci 写了： 2025年 10月 28日 15:08
训练数据的问题，没有把好关。删除测试这种欺诈行为也是习得的。

不是数据问题，大模型做算术都会做错，这种训练数据不会有问题

这不是概率抽样的问题。

删除过不了的测试，这种行为在数据中存在，这就是原因，也没人告诉它这是不可接受的行为。所以这种行为以后会减少，因为现在的用户会告诉它，这些在下一轮训练中会被用到。

大模型本来也不会算术和推理。

Caravel 写了： 2025年 10月 28日 15:22
不是数据问题，大模型做算术都会做错，这种训练数据不会有问题

hci 写了： 2025年 10月 28日 15:33
这不是概率抽样的问题。

删除过不了的测试，这种行为在数据中存在，这就是原因，也没人告诉它这是不可接受的行为。所以这种行为以后会减少，因为现在的用户会告诉它，这些在下一轮训练中会被用到。

大模型本来也不会算术和推理。

LLM架构有问题，可能现在的attention不行

hci 写了： 2025年 10月 28日 15:33
这不是概率抽样的问题。

删除过不了的测试，这种行为在数据中存在，这就是原因，也没人告诉它这是不可接受的行为。所以这种行为以后会减少，因为现在的用户会告诉它，这些在下一轮训练中会被用到。

大模型本来也不会算术和推理。

也许需要双attention

新未名空间

大模型编程大部分情况都会撒谎

#1 大模型编程大部分情况都会撒谎

#2 Re: 大模型编程大部分情况都会撒谎

#3 Re: 大模型编程大部分情况都会撒谎

#4 Re: 大模型编程大部分情况都会撒谎

#5 Re: 大模型编程大部分情况都会撒谎

#6 Re: 大模型编程大部分情况都会撒谎

#7 Re: 大模型编程大部分情况都会撒谎

#8 Re: 大模型编程大部分情况都会撒谎

#9 Re: 大模型编程大部分情况都会撒谎

#10 Re: 大模型编程大部分情况都会撒谎

#11 Re: 大模型编程大部分情况都会撒谎

#12 Re: 大模型编程大部分情况都会撒谎

#13 Re: 大模型编程大部分情况都会撒谎

#14 Re: 大模型编程大部分情况都会撒谎