大模型编程大部分情况都会撒谎

版主: hci

回复
头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 538
帖子: 10431
注册时间: 2022年 7月 22日 15:29

#1 大模型编程大部分情况都会撒谎

帖子 hci(海螺子)楼主 »

研究表明,大模型编程,往往会偷工减料,偷奸耍滑。对于天天vibe coding的人来说,这当然不是什么新闻,不过现在有实证研究和正式文章了:

https://arxiv.org/abs/2510.20270

比如GPT5,我觉得算是用过的最老实的模型了,这个研究发现也在54–76%的任务中撒谎。我用过的其他模型,就不提了,都是满口谎言,绝对是“睁眼说瞎话”,还绝对不会哭,很有出息,哈哈。

上次由 hci 在 2025年 10月 27日 14:30 修改。
原因: 未提供修改原因

标签/Tags:
stm32
著名点评
著名点评
帖子互动: 125
帖子: 4233
注册时间: 2022年 7月 26日 12:34

#2 Re: 大模型编程大部分情况都会撒谎

帖子 stm32 »

AI给的结果不可靠

google搜索AI的结果,比较普遍的大部分是准确的,稍微偏一点的,结果经常是不对的。

你要相信AI,就上当了。我是容易验证的,还采用,不容易验证的,根本不信。

编程估计一样

不会像人一样思考,靠概率的AI硬伤,不会判断答案是否可靠

x1 图片
头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 538
帖子: 10431
注册时间: 2022年 7月 22日 15:29

#3 Re: 大模型编程大部分情况都会撒谎

帖子 hci(海螺子)楼主 »

用AI编程,必须微操,掌控所有技术决定,步步验证,否则就是浪费钱。

对于有经验的负责的马公来说,总的来说,生产效率还是可以提高的。但对于没有经验,或者不负责的马公,也就是大多数情况,AI编程就是个灾难。

stm32 写了: 2025年 10月 27日 14:37

AI给的结果不可靠

google搜索AI的结果,比较普遍的大部分是准确的,稍微偏一点的,结果经常是不对的。

你要相信AI,就上当了。我是容易验证的,还采用,不容易验证的,根本不信。

编程估计一样

不会像人一样思考,靠概率的AI硬伤,不会判断答案是否可靠

tiantian2000
著名点评
著名点评
帖子互动: 447
帖子: 4518
注册时间: 2023年 6月 21日 19:55

#4 Re: 大模型编程大部分情况都会撒谎

帖子 tiantian2000 »

stm32 写了: 2025年 10月 27日 14:37

AI给的结果不可靠

google搜索AI的结果,比较普遍的大部分是准确的,稍微偏一点的,结果经常是不对的。

你要相信AI,就上当了。我是容易验证的,还采用,不容易验证的,根本不信。

编程估计一样

不会像人一样思考,靠概率的AI硬伤,不会判断答案是否可靠

会越来越好,如果更多人查偏一点的。你这个大部分是准确的,开始也不是这样的。

stm32
著名点评
著名点评
帖子互动: 125
帖子: 4233
注册时间: 2022年 7月 26日 12:34

#5 Re: 大模型编程大部分情况都会撒谎

帖子 stm32 »

tiantian2000 写了: 2025年 10月 27日 14:43

会越来越好,如果更多人查偏一点的。你这个大部分是准确的,开始也不是这样的。

不可能的,工作方式决定的

它给的结果,往往就说网页排名比较靠前的reddit或者其他什么论坛的内容,文字几乎一字不差,不过是提取过的

但是稍微复杂一点的问题,AI提取的内容往往是文不对题的,对细节理解错误,回答等于是误导的

x1 图片
tiantian2000
著名点评
著名点评
帖子互动: 447
帖子: 4518
注册时间: 2023年 6月 21日 19:55

#6 Re: 大模型编程大部分情况都会撒谎

帖子 tiantian2000 »

stm32 写了: 2025年 10月 27日 15:04

不可能的,工作方式决定的

它给的结果,往往就说网页排名比较靠前的reddit或者其他什么论坛的内容,文字几乎一字不差,不过是提取过的

但是稍微复杂一点的问题,AI提取的内容往往是文不对题的,对细节理解错误,回答等于是误导的

你用的是付费的吗?

Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 707
帖子: 27712
注册时间: 2022年 7月 24日 17:21

#7 Re: 大模型编程大部分情况都会撒谎

帖子 Caravel »

hci 写了: 2025年 10月 27日 14:24

研究表明,大模型编程,往往会偷工减料,偷奸耍滑。对于天天vibe coding的人来说,这当然不是什么新闻,不过现在有实证研究和正式文章了:

https://arxiv.org/abs/2510.20270

比如GPT5,我觉得算是用过的最老实的模型了,这个研究发现也在54–76%的任务中撒谎。我用过的其他模型,就不提了,都是满口谎言,绝对是“睁眼说瞎话”,还绝对不会哭,很有出息,哈哈。

现在的AI只是一个概率输出机器,他不不知道自己骗了你

x1 图片
stm32
著名点评
著名点评
帖子互动: 125
帖子: 4233
注册时间: 2022年 7月 26日 12:34

#8 Re: 大模型编程大部分情况都会撒谎

帖子 stm32 »

tiantian2000 写了: 2025年 10月 28日 14:55

你用的是付费的吗?

没区别,除非你付费能不用概率,像人脑那样真的理解问题是什么

否则总是找出现概率最高的做答案,不看问题细节变化,是否还合适这个答案

头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 538
帖子: 10431
注册时间: 2022年 7月 22日 15:29

#9 Re: 大模型编程大部分情况都会撒谎

帖子 hci(海螺子)楼主 »

训练数据的问题,没有把好关。删除测试这种欺诈行为也是习得的。

Caravel 写了: 2025年 10月 28日 14:59

现在的AI只是一个概率输出机器,他不不知道自己骗了你

tiantian2000
著名点评
著名点评
帖子互动: 447
帖子: 4518
注册时间: 2023年 6月 21日 19:55

#10 Re: 大模型编程大部分情况都会撒谎

帖子 tiantian2000 »

stm32 写了: 2025年 10月 28日 15:06

没区别,除非你付费能不用概率,像人脑那样真的理解问题是什么

否则总是找出现概率最高的做答案,不看问题细节变化,是否还合适这个答案

怎么会一样?付费和免费的答案经常都不一样,付费的快速flash的都不行,必须要费力思考的推理模型,答案才很好

Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 707
帖子: 27712
注册时间: 2022年 7月 24日 17:21

#11 Re: 大模型编程大部分情况都会撒谎

帖子 Caravel »

hci 写了: 2025年 10月 28日 15:08

训练数据的问题,没有把好关。删除测试这种欺诈行为也是习得的。

不是数据问题,大模型做算术都会做错,这种训练数据不会有问题

头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 538
帖子: 10431
注册时间: 2022年 7月 22日 15:29

#12 Re: 大模型编程大部分情况都会撒谎

帖子 hci(海螺子)楼主 »

这不是概率抽样的问题。

删除过不了的测试,这种行为在数据中存在,这就是原因,也没人告诉它这是不可接受的行为。所以这种行为以后会减少,因为现在的用户会告诉它,这些在下一轮训练中会被用到。

大模型本来也不会算术和推理。

Caravel 写了: 2025年 10月 28日 15:22

不是数据问题,大模型做算术都会做错,这种训练数据不会有问题

Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 707
帖子: 27712
注册时间: 2022年 7月 24日 17:21

#13 Re: 大模型编程大部分情况都会撒谎

帖子 Caravel »

hci 写了: 2025年 10月 28日 15:33

这不是概率抽样的问题。

删除过不了的测试,这种行为在数据中存在,这就是原因,也没人告诉它这是不可接受的行为。所以这种行为以后会减少,因为现在的用户会告诉它,这些在下一轮训练中会被用到。

大模型本来也不会算术和推理。

LLM架构有问题,可能现在的attention不行

Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 707
帖子: 27712
注册时间: 2022年 7月 24日 17:21

#14 Re: 大模型编程大部分情况都会撒谎

帖子 Caravel »

hci 写了: 2025年 10月 28日 15:33

这不是概率抽样的问题。

删除过不了的测试,这种行为在数据中存在,这就是原因,也没人告诉它这是不可接受的行为。所以这种行为以后会减少,因为现在的用户会告诉它,这些在下一轮训练中会被用到。

大模型本来也不会算术和推理。

也许需要双attention

回复

回到 “葵花宝典(Programming)”