分页: 1 / 1

#1 大模型编程大部分情况都会撒谎

发表于 : 2025年 10月 27日 14:24
hci

研究表明,大模型编程,往往会偷工减料,偷奸耍滑。对于天天vibe coding的人来说,这当然不是什么新闻,不过现在有实证研究和正式文章了:

https://arxiv.org/abs/2510.20270

比如GPT5,我觉得算是用过的最老实的模型了,这个研究发现也在54–76%的任务中撒谎。我用过的其他模型,就不提了,都是满口谎言,绝对是“睁眼说瞎话”,还绝对不会哭,很有出息,哈哈。


#2 Re: 大模型编程大部分情况都会撒谎

发表于 : 2025年 10月 27日 14:37
stm32

AI给的结果不可靠

google搜索AI的结果,比较普遍的大部分是准确的,稍微偏一点的,结果经常是不对的。

你要相信AI,就上当了。我是容易验证的,还采用,不容易验证的,根本不信。

编程估计一样

不会像人一样思考,靠概率的AI硬伤,不会判断答案是否可靠


#3 Re: 大模型编程大部分情况都会撒谎

发表于 : 2025年 10月 27日 14:41
hci

用AI编程,必须微操,掌控所有技术决定,步步验证,否则就是浪费钱。

对于有经验的负责的马公来说,总的来说,生产效率还是可以提高的。但对于没有经验,或者不负责的马公,也就是大多数情况,AI编程就是个灾难。

stm32 写了: 2025年 10月 27日 14:37

AI给的结果不可靠

google搜索AI的结果,比较普遍的大部分是准确的,稍微偏一点的,结果经常是不对的。

你要相信AI,就上当了。我是容易验证的,还采用,不容易验证的,根本不信。

编程估计一样

不会像人一样思考,靠概率的AI硬伤,不会判断答案是否可靠


#4 Re: 大模型编程大部分情况都会撒谎

发表于 : 2025年 10月 27日 14:43
tiantian2000
stm32 写了: 2025年 10月 27日 14:37

AI给的结果不可靠

google搜索AI的结果,比较普遍的大部分是准确的,稍微偏一点的,结果经常是不对的。

你要相信AI,就上当了。我是容易验证的,还采用,不容易验证的,根本不信。

编程估计一样

不会像人一样思考,靠概率的AI硬伤,不会判断答案是否可靠

会越来越好,如果更多人查偏一点的。你这个大部分是准确的,开始也不是这样的。


#5 Re: 大模型编程大部分情况都会撒谎

发表于 : 2025年 10月 27日 15:04
stm32
tiantian2000 写了: 2025年 10月 27日 14:43

会越来越好,如果更多人查偏一点的。你这个大部分是准确的,开始也不是这样的。

不可能的,工作方式决定的

它给的结果,往往就说网页排名比较靠前的reddit或者其他什么论坛的内容,文字几乎一字不差,不过是提取过的

但是稍微复杂一点的问题,AI提取的内容往往是文不对题的,对细节理解错误,回答等于是误导的


#6 Re: 大模型编程大部分情况都会撒谎

发表于 : 2025年 10月 28日 14:55
tiantian2000
stm32 写了: 2025年 10月 27日 15:04

不可能的,工作方式决定的

它给的结果,往往就说网页排名比较靠前的reddit或者其他什么论坛的内容,文字几乎一字不差,不过是提取过的

但是稍微复杂一点的问题,AI提取的内容往往是文不对题的,对细节理解错误,回答等于是误导的

你用的是付费的吗?


#7 Re: 大模型编程大部分情况都会撒谎

发表于 : 2025年 10月 28日 14:59
Caravel
hci 写了: 2025年 10月 27日 14:24

研究表明,大模型编程,往往会偷工减料,偷奸耍滑。对于天天vibe coding的人来说,这当然不是什么新闻,不过现在有实证研究和正式文章了:

https://arxiv.org/abs/2510.20270

比如GPT5,我觉得算是用过的最老实的模型了,这个研究发现也在54–76%的任务中撒谎。我用过的其他模型,就不提了,都是满口谎言,绝对是“睁眼说瞎话”,还绝对不会哭,很有出息,哈哈。

现在的AI只是一个概率输出机器,他不不知道自己骗了你


#8 Re: 大模型编程大部分情况都会撒谎

发表于 : 2025年 10月 28日 15:06
stm32
tiantian2000 写了: 2025年 10月 28日 14:55

你用的是付费的吗?

没区别,除非你付费能不用概率,像人脑那样真的理解问题是什么

否则总是找出现概率最高的做答案,不看问题细节变化,是否还合适这个答案


#9 Re: 大模型编程大部分情况都会撒谎

发表于 : 2025年 10月 28日 15:08
hci

训练数据的问题,没有把好关。删除测试这种欺诈行为也是习得的。

Caravel 写了: 2025年 10月 28日 14:59

现在的AI只是一个概率输出机器,他不不知道自己骗了你


#10 Re: 大模型编程大部分情况都会撒谎

发表于 : 2025年 10月 28日 15:10
tiantian2000
stm32 写了: 2025年 10月 28日 15:06

没区别,除非你付费能不用概率,像人脑那样真的理解问题是什么

否则总是找出现概率最高的做答案,不看问题细节变化,是否还合适这个答案

怎么会一样?付费和免费的答案经常都不一样,付费的快速flash的都不行,必须要费力思考的推理模型,答案才很好


#11 Re: 大模型编程大部分情况都会撒谎

发表于 : 2025年 10月 28日 15:22
Caravel
hci 写了: 2025年 10月 28日 15:08

训练数据的问题,没有把好关。删除测试这种欺诈行为也是习得的。

不是数据问题,大模型做算术都会做错,这种训练数据不会有问题


#12 Re: 大模型编程大部分情况都会撒谎

发表于 : 2025年 10月 28日 15:33
hci

这不是概率抽样的问题。

删除过不了的测试,这种行为在数据中存在,这就是原因,也没人告诉它这是不可接受的行为。所以这种行为以后会减少,因为现在的用户会告诉它,这些在下一轮训练中会被用到。

大模型本来也不会算术和推理。

Caravel 写了: 2025年 10月 28日 15:22

不是数据问题,大模型做算术都会做错,这种训练数据不会有问题


#13 Re: 大模型编程大部分情况都会撒谎

发表于 : 2025年 10月 28日 15:48
Caravel
hci 写了: 2025年 10月 28日 15:33

这不是概率抽样的问题。

删除过不了的测试,这种行为在数据中存在,这就是原因,也没人告诉它这是不可接受的行为。所以这种行为以后会减少,因为现在的用户会告诉它,这些在下一轮训练中会被用到。

大模型本来也不会算术和推理。

LLM架构有问题,可能现在的attention不行


#14 Re: 大模型编程大部分情况都会撒谎

发表于 : 2025年 10月 28日 15:54
Caravel
hci 写了: 2025年 10月 28日 15:33

这不是概率抽样的问题。

删除过不了的测试,这种行为在数据中存在,这就是原因,也没人告诉它这是不可接受的行为。所以这种行为以后会减少,因为现在的用户会告诉它,这些在下一轮训练中会被用到。

大模型本来也不会算术和推理。

也许需要双attention