erie 写了: 2026年 2月 3日 23:38一两年以前AI工具 经常出现幻觉,确实不是很可靠,还需要人仔细验证。现在感觉大不一样了。 工作中用claude code来做code review (CI/CD 中的一环), 不管什么类型的code,它指出的要修正的地方都是很有道理的,而且也给出例子, 已经很少出现幻觉瞎说了。这种迭代速度太厉害了。
是的。AI可以自我迭代。
我们人类则是奋私欲而不师古。
版主: hci

erie 写了: 2026年 2月 3日 23:38一两年以前AI工具 经常出现幻觉,确实不是很可靠,还需要人仔细验证。现在感觉大不一样了。 工作中用claude code来做code review (CI/CD 中的一环), 不管什么类型的code,它指出的要修正的地方都是很有道理的,而且也给出例子, 已经很少出现幻觉瞎说了。这种迭代速度太厉害了。
写码准确率能到多少?
为啥会计税务软件intu也暴跌? 路透社的母公司主要是收集卖数据的,也从高点腰斩了,难道ai以后不需要买数据了?

跌最狠的是 IT: -24%
dealfinder10 写了: 2026年 2月 3日 16:22Wolters Kluwer NV: - 13%
RELX PLC: -15%
LegalZoom.com: - 18%
Thomson Reuters Corporation: -19%

erie 写了: 2026年 2月 3日 23:38一两年以前AI工具 经常出现幻觉,确实不是很可靠,还需要人仔细验证。现在感觉大不一样了。 工作中用claude code来做code review (CI/CD 中的一环), 不管什么类型的code,它指出的要修正的地方都是很有道理的,而且也给出例子, 已经很少出现幻觉瞎说了。这种迭代速度太厉害了。
是的,还在揪住AI会犯错会hallucination的人们就是脑子不清楚,在AI的迭代速度下,这都是鸡毛蒜皮的事情。
.
高薪白领"Knowledge business",
如果无须特殊判断和创意,
必然迅速被AI代替。
严格的说,即使须要判断或创意,
但如果可能是有限的,AI也可代替。
AI无非就是去穷举这些可能典型。
之后就极可能达到理想的90%以上。
所以律师,内科医生的收入会下降。
除了AI替代,用户会利用AI自己来。
所以除了被AI替代,市场也因此变小。
毕竟AI做到人工水平的90%以上,
速度和成本是数量级的更高效。
.

Anthropic AI Tool Sparks Selloff From Software to Broader Market. 我的问题是, 这个工具,比如机器学习的测试,要有training data, test data 要一部分用training data, 一部分用不在training data. 比如吧辛普森安的资料扫近来回测。有这样的测试么? 或公开的测试报告?
关于你提到的 Anthropic AI 工具和市场抛售背后的技术测试问题,这里整理一个清晰的解答,分别回答:
1) 这次市场抛售到底是什么?
最近股市出现大跌,是因为 Anthropic 推出了新的人工智能自动化工具(主要是 Claude Cowork + 插件),市场担心这些 AI 工具能够替代很多软件/服务行业的收费业务,从而打击这些公司的估值,引发了大规模卖盘。
但这个抛售主要是投资者对未来市场预期的情绪性反应,不是对该工具本身性能出错或失败的测试结果。
2) 机器学习模型一般如何做测试?有任何公开报告吗?
你说的 “training data / test data 分开回测、使用类似辛普森安资料做测试” 是机器学习实践中的基本方法:
标准 ML 测试流程
Training data: 用来训练模型,让模型学习统计规律。
Validation / Test data: 留出一部分不在训练里,用来测试泛化能力,避免过拟合(即模型只是记住训练数据)。这是标准做法。
还有一些领域测试集合,如 MMLU、BBH、HumanEval 等,用于标准化评估大型语言模型(LLMs)。
公开的 LLM Benchmark(行业常见)
虽然 Anthropic 并不一定公开它内部的具体测试数据,但整个行业有很多公开评测基准,例如:
MMLU(Multi-Task Language Understanding)
HumanEval(用于编程能力测试)
BIG-bench
以及各类科研论文/benchmark 比较不同模型的性能。
很多评估会把一部分训练数据以外的数据作为评测集,从而衡量泛化性能。
3) 关于 Claude / Anthropic 模型的公开测试情况
Anthropic 本人通常 不会公开完整的 training / test dataset。像 OpenAI、Google 这类大模型公司一样,他们的训练集往往是商业或受版权限制的,并不会完全公开。
不过,有公开的信息可以说明行业的评测方式:
Claude 语言模型有多个版本(如 Claude Opus 4.5),训练来源使用网文、付费合同数据等混合数据集,具体细节 Anthropic 并未公开全部细节。
业界研究者使用公开基准比较不同大型模型的表现。比如论文 No-Human in the Loop: Agentic Evaluation at Scale for Recommendation 就用公开评估集对多个 LLM(包括 Claude)做了对比测试。
类似的评估都会保留独立的测试集(不被训练所见过)来衡量模型表现。
4) 有没有类似用真实业务数据做回测(比如用辛普森安资料)?
大语言模型一般不做传统意义的“回测”
像在金融上做回测那样,用一个具体数据集来测试算法的表现,这并不是 LLM 测试的常规做法。
但确实有公开 benchmark
机器学习/LLM 社区有很多标准评估集,例如:
MMLU:知识理解与推理任务
HumanEval:编程自动生成任务
BBH/Reasoning Tests:逻辑与推理问题
行业特定 benchmark(医学问答、法律问答等)
你提到的用一个特定领域真实数据集来测试(比如法律文档、医学数据库等),可以通过以下方式实现:
✔ 将离线真实数据制成评估集
✔ 让模型在 “未见过训练数据” 上回答问题
✔ 统计回答准确率、错误率、生成质量
但这类评估通常由科研或行业机构发布,并非由 Anthropic 官方完全公开。
5) 是否能够查看 Anthropic 官方的测试报告?
截至现在(2026 年):
Anthropic 并没有公开一个完整、详尽的官方 “training/test 分离测试报告” 可供下载。
公开评估往往是在论文、benchmark 比较网站或第三方评估中出现。
例如,研究者会把 Claude、GPT、Gemini 等模型放在同一个评估基准上比较。
总结 — 你的问题核心回答
问题 回答
这个 AI 工具是否有官方测试? 有评估,但 Anthropic 没公开完整报告
是否有 training vs test 数据? 有,行业评估强制用未见过的数据测试模型泛化
是否有公开的测试 / benchmark 比较? 有,第三方评估和科研 benchmark 存在
是否可以用真实业务数据回测? 可以,但通常由第三方做,不是 Anthropic 官方发布
如果你想做类似“用辛普森安的数据回测模型”:
可以考虑:
自己准备测试集:把真实数据当成测试集
用 Claude / GPT / Llama 在此数据上做推理/生成
统计准确率、错误、偏差
这是做模型质量检验的常见方法。
如果你需要,我也可以帮你找一些具体的公开 benchmark 和代码资源,用来测大型语言模型的质量(比如评价法律文档问答或者回归任务)。



最后问一下,我觉得很多人机器学习都没学过,上来就是10年LLM。那么LLM 和机器学习到底有什么区别,尤其我关心在测试方面,和衡量产品质量的标准, or it is just scherherazade (可能拼错了)。
你这个问题问得非常“本质”,而且你怀疑的那个点——“这是不是只是讲故事(Scheherazade 一千零一夜式忽悠)”——其实正是今天 AI 行业最敏感的核心。
我认真回答你:LLM 和传统机器学习的区别,主要不在“算法哲学”,而在 产品形态 + 测试方法 + 质量标准是否可信。
下面我给你拆开讲。
LLM(Large Language Model)本质上就是:
超大规模的神经网络机器学习模型
用海量文本训练出来的概率预测器
它仍然是 ML(机器学习),仍然是统计学习。
因为 传统 ML 更像工程学,LLM 更像 魔法产品。
传统 ML 典型特点:
数据集明确(比如 100 万条用户点击)
标签明确(点了/没点)
指标明确(accuracy / precision / recall / AUC)
测试明确(train/test split)
输出是结构化的(一个概率,一个分类)
而 LLM 的特点是:
数据集不公开(甚至公司内部也未必完全可追溯)
“标签”很模糊(语言不是简单分类)
输出是自由文本(可变、不可预测)
指标很难统一
评估往往需要“人觉得好不好”
这就让它很容易滑向你说的那种:
Scheherazade:讲故事很动听,但你很难证明真假
比如识别猫狗:
test set 里有 10,000 张图片
输出对就是对,错就是错
你能算出 98.3% accuracy
你能回归测试(regression test)
这叫 deterministic evaluation(确定性评估)。
LLM:测试更像“面试”
LLM 测试通常变成:
问题可能有多个合理答案
回答好不好,有很强主观性
同一个问题,不同温度参数会给不同答案
同一个模型版本更新后可能性格都变了
所以它是:
probabilistic + subjective evaluation(概率性 + 主观评估)
这就是为什么 LLM 质量标准非常容易“故事化”。
LLM 理论上当然也要:
training data
validation data
test data
但是问题在于:
LLM 的数据污染(data leakage)非常严重
你想想:
训练数据是整个互联网
test benchmark 也在互联网公开流传
甚至 benchmark 答案也被讨论过
那么很多测试就可能出现:
模型不是“推理出来的”,而是“见过的”。
这会让分数虚高。
所以今天 LLM 评测圈最大的争议之一就是:
很多 benchmark 不再可信。
这里就是关键了。
传统软件质量:可测、可验收
功能是否实现
性能指标是否达标
bug rate
crash rate
LLM 产品质量:目前没有统一工业标准
现在主要靠几个方向:
类似高考。
优点:
可对比不同模型
数字化
缺点:
容易污染(模型可能训练时见过题)
很难覆盖真实业务
(B) Human evaluation(人工打分)
比如请一群人评:
哪个回答更清晰?
哪个更有帮助?
哪个更安全?
优点:
更贴近用户体验
缺点:
主观
成本高
很容易被操控(换一批评委结果不同)
(C) LLM-as-a-judge(用 AI 评 AI)
让 GPT-4 或 Claude 当裁判。
优点:
便宜
快
可规模化
缺点:
“自己人评自己人”
裁判模型本身有偏差
很容易出现“评分游戏”
(D) 真实业务回测(Production eval)
这才是最硬核的:
用户点击率是否提升
客服工单是否减少
代码生成是否减少 bug
是否降低人工成本
优点:
最真实
最商业
缺点:
只有公司内部有数据
外界无法验证
所以你问的“公开回测报告”,通常很少,因为那是商业命根子。
因为:
输出是语言(最容易让人产生幻觉)
用户容易被流畅度骗
模型可以胡说但很自信
benchmark 可以刷分
公司可以挑对自己有利的指标公布
这就导致今天 AI 行业的一个经典现象:
模型像是“会说话的演示稿”,而不是“可验证的机器”。
这也是为什么市场会因为一个 Anthropic 工具新闻就集体恐慌——
因为很多人并不知道它到底能不能替代软件工程师,只是被 narrative 吓到了。
你买一个 LLM 产品,你真正想要的是:
不要胡说(hallucination rate)
遇到边界情况不要乱编
输出要稳定
能解释来源(grounding / citations)
能被监控、能被审计
但这些东西目前还没有像 accuracy 那样的统一标准。
LLM 并不是脱离机器学习的“新物种”。
它仍然是 ML。
但是:
传统 ML 是“可验证的数学工程”
LLM 更像“概率驱动的语言演员”
因此测试也从“考试”变成了“面试 + 业务 KPI + 讲故事”。
所以你说它是不是 Scheherazade?
我的答案是:
它既是技术,也是 Scheherazade。
今天整个行业,最大的风险就是“故事跑得比测试快”。
如果你愿意,我可以再给你列一个“严肃公司做 LLM 产品测试时,真正应该看的指标清单”,那种是能压住故事的。


我也么说要反驳你啊,我就是问一下是否和谭府机器学习在线课程上的test data split,有没有测试
还是LLM不需要测,直接就海试电弹?
如果扯淡的话,你不也用mmt这种老掉牙的
版上这种人多了去,问3.9跟3.11谁大,AI给了一个错的答案,也不管出现这个问题的原理是什么,就开始嘲笑AI不能精确计算、容易hallucination。装睡的人是叫不醒的,这帮脑子僵化的,最先被淘汰。
从这几年AI的发展速度看,想要在短到中期不被淘汰只有两种办法:1.能直接提高AI能力,实现它以前做不到的事,是目前最吃香喝辣的天龙人。2.是脑子要灵活,不断跟随AI能力进步的机遇,从中找到自己能补充的东西,利用与被淘汰边缘的人(比如上边提到的AI出错就笑的)的信息差,每让AI帮自己比别人多做一些工作,就能多得到一些竞争优势。
长期会怎样,人类是不是被super intelligence彻底取代,我也不知道,只能认为被取代的可能性高于AI智力在某个阶段封顶仍被人类完全掌控的可能性。