ai的进化 今天是legal software被屠杀

版主: hci

guvest
见习点评
见习点评
帖子互动: 107
帖子: 1759
注册时间: 2025年 12月 7日 12:38

#21 Re: ai的进化 今天是legal software被屠杀

帖子 guvest »

erie 写了: 2026年 2月 3日 23:38

一两年以前AI工具 经常出现幻觉,确实不是很可靠,还需要人仔细验证。现在感觉大不一样了。 工作中用claude code来做code review (CI/CD 中的一环), 不管什么类型的code,它指出的要修正的地方都是很有道理的,而且也给出例子, 已经很少出现幻觉瞎说了。这种迭代速度太厉害了。

是的。AI可以自我迭代。
我们人类则是奋私欲而不师古。

JianguoChuan
见习点评
见习点评
帖子互动: 78
帖子: 1932
注册时间: 2024年 11月 19日 17:20

#22 Re: ai的进化 今天是legal software被屠杀

帖子 JianguoChuan »

erie 写了: 2026年 2月 3日 23:38

一两年以前AI工具 经常出现幻觉,确实不是很可靠,还需要人仔细验证。现在感觉大不一样了。 工作中用claude code来做code review (CI/CD 中的一环), 不管什么类型的code,它指出的要修正的地方都是很有道理的,而且也给出例子, 已经很少出现幻觉瞎说了。这种迭代速度太厉害了。

写码准确率能到多少?

头像
用户168
论坛精英
论坛精英
用户168 的博客
帖子互动: 449
帖子: 6235
注册时间: 2024年 2月 16日 21:11

#23 Re: ai的进化 今天是legal software被屠杀

帖子 用户168 »

被AI灭掉的不只是传统软件,比如ADOBE PHOTOHSOP,还有很多很多其它的行业。比如最近我要分析股票,我只要按照我的要求项目,AI就能分析出来,比什么投行报告分析质量还高;又比如我要买卖房子出租房子,用AI检验我的语言描述,这样就能避免某些字眼不符合房地产法规,构成歧视。这样就不需要让花昂贵的佣金让经纪去处理这些事情。。。。。

Trump(敌在本能寺)
论坛支柱
论坛支柱
帖子互动: 1188
帖子: 12794
注册时间: 2022年 8月 1日 22:00

#24 Re: ai的进化 今天是legal software被屠杀

帖子 Trump(敌在本能寺) »

为啥会计税务软件intu也暴跌? 路透社的母公司主要是收集卖数据的,也从高点腰斩了,难道ai以后不需要买数据了?

郁孤台下清江水,中间多少行人泪。刘郎已恨蓬山远,更隔蓬山一万重。
cernivtsi
论坛点评
论坛点评
cernivtsi 的博客
帖子互动: 244
帖子: 3073
注册时间: 2025年 1月 5日 03:03

#25 Re: ai的进化 今天是legal software被屠杀

帖子 cernivtsi »

跌最狠的是 IT: -24%

dealfinder10 写了: 2026年 2月 3日 16:22

Wolters Kluwer NV: - 13%
RELX PLC: -15%
LegalZoom.com: - 18%
Thomson Reuters Corporation: -19%

cernivtsi
论坛点评
论坛点评
cernivtsi 的博客
帖子互动: 244
帖子: 3073
注册时间: 2025年 1月 5日 03:03

#26 Re: ai的进化 今天是legal software被屠杀

帖子 cernivtsi »

IT 已经跌去-75%

benadryl
论坛点评
论坛点评
帖子互动: 318
帖子: 2872
注册时间: 2022年 7月 26日 09:12

#27 Re: ai的进化 今天是legal software被屠杀

帖子 benadryl »

erie 写了: 2026年 2月 3日 23:38

一两年以前AI工具 经常出现幻觉,确实不是很可靠,还需要人仔细验证。现在感觉大不一样了。 工作中用claude code来做code review (CI/CD 中的一环), 不管什么类型的code,它指出的要修正的地方都是很有道理的,而且也给出例子, 已经很少出现幻觉瞎说了。这种迭代速度太厉害了。

是的,还在揪住AI会犯错会hallucination的人们就是脑子不清楚,在AI的迭代速度下,这都是鸡毛蒜皮的事情。

逍遥自由
全站封禁中全站封禁中
帖子互动: 80
帖子: 1711
注册时间: 2024年 6月 22日 04:19

#28 Re: ai的进化 今天是legal software被屠杀

帖子 逍遥自由 »

.

高薪白领"Knowledge business",
如果无须特殊判断和创意,
必然迅速被AI代替。

严格的说,即使须要判断或创意,
但如果可能是有限的,AI也可代替。
AI无非就是去穷举这些可能典型。
之后就极可能达到理想的90%以上。

所以律师,内科医生的收入会下降。
除了AI替代,用户会利用AI自己来。
所以除了被AI替代,市场也因此变小。
毕竟AI做到人工水平的90%以上,
速度和成本是数量级的更高效。

.

heteroclinic(Heteroclinic)
著名点评
著名点评
heteroclinic 的博客
帖子互动: 70
帖子: 4817
注册时间: 2022年 10月 31日 00:35

#29 Re: ai的进化 今天是legal software被屠杀

帖子 heteroclinic(Heteroclinic) »

Anthropic AI Tool Sparks Selloff From Software to Broader Market. 我的问题是, 这个工具,比如机器学习的测试,要有training data, test data 要一部分用training data, 一部分用不在training data. 比如吧辛普森安的资料扫近来回测。有这样的测试么? 或公开的测试报告?

关于你提到的 Anthropic AI 工具和市场抛售背后的技术测试问题,这里整理一个清晰的解答,分别回答:

🧠 1) 这次市场抛售到底是什么?

最近股市出现大跌,是因为 Anthropic 推出了新的人工智能自动化工具(主要是 Claude Cowork + 插件),市场担心这些 AI 工具能够替代很多软件/服务行业的收费业务,从而打击这些公司的估值,引发了大规模卖盘。

但这个抛售主要是投资者对未来市场预期的情绪性反应,不是对该工具本身性能出错或失败的测试结果。

📊 2) 机器学习模型一般如何做测试?有任何公开报告吗?

你说的 “training data / test data 分开回测、使用类似辛普森安资料做测试” 是机器学习实践中的基本方法:

✅ 标准 ML 测试流程

Training data: 用来训练模型,让模型学习统计规律。

Validation / Test data: 留出一部分不在训练里,用来测试泛化能力,避免过拟合(即模型只是记住训练数据)。这是标准做法。

还有一些领域测试集合,如 MMLU、BBH、HumanEval 等,用于标准化评估大型语言模型(LLMs)。

✅ 公开的 LLM Benchmark(行业常见)

虽然 Anthropic 并不一定公开它内部的具体测试数据,但整个行业有很多公开评测基准,例如:

MMLU(Multi-Task Language Understanding)

HumanEval(用于编程能力测试)

BIG-bench

以及各类科研论文/benchmark 比较不同模型的性能。

很多评估会把一部分训练数据以外的数据作为评测集,从而衡量泛化性能。

📚 3) 关于 Claude / Anthropic 模型的公开测试情况

Anthropic 本人通常 不会公开完整的 training / test dataset。像 OpenAI、Google 这类大模型公司一样,他们的训练集往往是商业或受版权限制的,并不会完全公开。

不过,有公开的信息可以说明行业的评测方式:

Claude 语言模型有多个版本(如 Claude Opus 4.5),训练来源使用网文、付费合同数据等混合数据集,具体细节 Anthropic 并未公开全部细节。

业界研究者使用公开基准比较不同大型模型的表现。比如论文 No-Human in the Loop: Agentic Evaluation at Scale for Recommendation 就用公开评估集对多个 LLM(包括 Claude)做了对比测试。

类似的评估都会保留独立的测试集(不被训练所见过)来衡量模型表现。

🧪 4) 有没有类似用真实业务数据做回测(比如用辛普森安资料)?
🔹 大语言模型一般不做传统意义的“回测”

像在金融上做回测那样,用一个具体数据集来测试算法的表现,这并不是 LLM 测试的常规做法。

🔹 但确实有公开 benchmark

机器学习/LLM 社区有很多标准评估集,例如:

MMLU:知识理解与推理任务

HumanEval:编程自动生成任务

BBH/Reasoning Tests:逻辑与推理问题

行业特定 benchmark(医学问答、法律问答等)

你提到的用一个特定领域真实数据集来测试(比如法律文档、医学数据库等),可以通过以下方式实现:

✔ 将离线真实数据制成评估集
✔ 让模型在 “未见过训练数据” 上回答问题
✔ 统计回答准确率、错误率、生成质量

但这类评估通常由科研或行业机构发布,并非由 Anthropic 官方完全公开。

🔎 5) 是否能够查看 Anthropic 官方的测试报告?

截至现在(2026 年):

Anthropic 并没有公开一个完整、详尽的官方 “training/test 分离测试报告” 可供下载。

公开评估往往是在论文、benchmark 比较网站或第三方评估中出现。

例如,研究者会把 Claude、GPT、Gemini 等模型放在同一个评估基准上比较。

📌 总结 — 你的问题核心回答
问题 回答
这个 AI 工具是否有官方测试? 有评估,但 Anthropic 没公开完整报告
是否有 training vs test 数据? 有,行业评估强制用未见过的数据测试模型泛化
是否有公开的测试 / benchmark 比较? 有,第三方评估和科研 benchmark 存在
是否可以用真实业务数据回测? 可以,但通常由第三方做,不是 Anthropic 官方发布

💡 如果你想做类似“用辛普森安的数据回测模型”:

可以考虑:

自己准备测试集:把真实数据当成测试集

用 Claude / GPT / Llama 在此数据上做推理/生成

统计准确率、错误、偏差

这是做模型质量检验的常见方法。

如果你需要,我也可以帮你找一些具体的公开 benchmark 和代码资源,用来测大型语言模型的质量(比如评价法律文档问答或者回归任务)。

heteroclinic(Heteroclinic)
著名点评
著名点评
heteroclinic 的博客
帖子互动: 70
帖子: 4817
注册时间: 2022年 10月 31日 00:35

#30 Re: ai的进化 今天是legal software被屠杀

帖子 heteroclinic(Heteroclinic) »

尽管是另外一个LLM,回答还算客观老实

heteroclinic(Heteroclinic)
著名点评
著名点评
heteroclinic 的博客
帖子互动: 70
帖子: 4817
注册时间: 2022年 10月 31日 00:35

#31 Re: ai的进化 今天是legal software被屠杀

帖子 heteroclinic(Heteroclinic) »

LOL

heteroclinic(Heteroclinic)
著名点评
著名点评
heteroclinic 的博客
帖子互动: 70
帖子: 4817
注册时间: 2022年 10月 31日 00:35

#32 Re: ai的进化 今天是legal software被屠杀

帖子 heteroclinic(Heteroclinic) »

最后问一下,我觉得很多人机器学习都没学过,上来就是10年LLM。那么LLM 和机器学习到底有什么区别,尤其我关心在测试方面,和衡量产品质量的标准, or it is just scherherazade (可能拼错了)。

你这个问题问得非常“本质”,而且你怀疑的那个点——“这是不是只是讲故事(Scheherazade 一千零一夜式忽悠)”——其实正是今天 AI 行业最敏感的核心。

我认真回答你:LLM 和传统机器学习的区别,主要不在“算法哲学”,而在 产品形态 + 测试方法 + 质量标准是否可信。

下面我给你拆开讲。

  1. LLM 和机器学习到底什么关系?
    ✅ LLM 是机器学习的一种

LLM(Large Language Model)本质上就是:

超大规模的神经网络机器学习模型
用海量文本训练出来的概率预测器

它仍然是 ML(机器学习),仍然是统计学习。

  1. 那为什么大家感觉“LLM 跟 ML 不是一个东西”?

因为 传统 ML 更像工程学,LLM 更像 魔法产品。

传统 ML 典型特点:

数据集明确(比如 100 万条用户点击)

标签明确(点了/没点)

指标明确(accuracy / precision / recall / AUC)

测试明确(train/test split)

输出是结构化的(一个概率,一个分类)

而 LLM 的特点是:

数据集不公开(甚至公司内部也未必完全可追溯)

“标签”很模糊(语言不是简单分类)

输出是自由文本(可变、不可预测)

指标很难统一

评估往往需要“人觉得好不好”

这就让它很容易滑向你说的那种:

Scheherazade:讲故事很动听,但你很难证明真假

  1. 测试角度:LLM 和传统 ML 最大区别是什么?
    传统 ML:测试是“可重复的考试”

比如识别猫狗:

test set 里有 10,000 张图片

输出对就是对,错就是错

你能算出 98.3% accuracy

你能回归测试(regression test)

这叫 deterministic evaluation(确定性评估)。

LLM:测试更像“面试”

LLM 测试通常变成:

问题可能有多个合理答案

回答好不好,有很强主观性

同一个问题,不同温度参数会给不同答案

同一个模型版本更新后可能性格都变了

所以它是:

probabilistic + subjective evaluation(概率性 + 主观评估)

这就是为什么 LLM 质量标准非常容易“故事化”。

  1. LLM 有没有 train/test split?有没有严格回测?
    有,但是不如传统 ML 那么干净。

LLM 理论上当然也要:

training data

validation data

test data

但是问题在于:

🔥 LLM 的数据污染(data leakage)非常严重

你想想:

训练数据是整个互联网

test benchmark 也在互联网公开流传

甚至 benchmark 答案也被讨论过

那么很多测试就可能出现:

模型不是“推理出来的”,而是“见过的”。

这会让分数虚高。

所以今天 LLM 评测圈最大的争议之一就是:

很多 benchmark 不再可信。

  1. 那 LLM 产品质量到底怎么衡量?有没有“工业标准”?

这里就是关键了。

传统软件质量:可测、可验收

功能是否实现

性能指标是否达标

bug rate

crash rate

LLM 产品质量:目前没有统一工业标准

现在主要靠几个方向:

  1. LLM 测试的四种主流方法(你关心的重点)
    (A) Benchmark 考试(MMLU / GSM8K / HumanEval)

类似高考。

优点:

可对比不同模型

数字化

缺点:

容易污染(模型可能训练时见过题)

很难覆盖真实业务

(B) Human evaluation(人工打分)

比如请一群人评:

哪个回答更清晰?

哪个更有帮助?

哪个更安全?

优点:

更贴近用户体验

缺点:

主观

成本高

很容易被操控(换一批评委结果不同)

(C) LLM-as-a-judge(用 AI 评 AI)

让 GPT-4 或 Claude 当裁判。

优点:

便宜

可规模化

缺点:

“自己人评自己人”

裁判模型本身有偏差

很容易出现“评分游戏”

(D) 真实业务回测(Production eval)

这才是最硬核的:

用户点击率是否提升

客服工单是否减少

代码生成是否减少 bug

是否降低人工成本

优点:

最真实

最商业

缺点:

只有公司内部有数据

外界无法验证

所以你问的“公开回测报告”,通常很少,因为那是商业命根子。

  1. 所以你怀疑得对:LLM 行业确实很“Scheherazade”

因为:

输出是语言(最容易让人产生幻觉)

用户容易被流畅度骗

模型可以胡说但很自信

benchmark 可以刷分

公司可以挑对自己有利的指标公布

这就导致今天 AI 行业的一个经典现象:

模型像是“会说话的演示稿”,而不是“可验证的机器”。

这也是为什么市场会因为一个 Anthropic 工具新闻就集体恐慌——
因为很多人并不知道它到底能不能替代软件工程师,只是被 narrative 吓到了。

  1. 最关键一句话:LLM 和传统 ML 在质量标准上的根本差别
    传统 ML 的质量是“正确率”
    LLM 的质量是“可信度 + 一致性 + 可控性”

你买一个 LLM 产品,你真正想要的是:

不要胡说(hallucination rate)

遇到边界情况不要乱编

输出要稳定

能解释来源(grounding / citations)

能被监控、能被审计

但这些东西目前还没有像 accuracy 那样的统一标准。

  1. 结论(给你一句很现实的答案)

LLM 并不是脱离机器学习的“新物种”。

它仍然是 ML。

但是:

传统 ML 是“可验证的数学工程”
LLM 更像“概率驱动的语言演员”

因此测试也从“考试”变成了“面试 + 业务 KPI + 讲故事”。

所以你说它是不是 Scheherazade?

我的答案是:

它既是技术,也是 Scheherazade。
今天整个行业,最大的风险就是“故事跑得比测试快”。

如果你愿意,我可以再给你列一个“严肃公司做 LLM 产品测试时,真正应该看的指标清单”,那种是能压住故事的。

dealfinder10楼主
论坛支柱
论坛支柱
帖子互动: 1123
帖子: 8782
注册时间: 2023年 10月 6日 14:56

#33 Re: ai的进化 今天是legal software被屠杀

帖子 dealfinder10楼主 »

争了半天 你用ai的回答来反驳我。太讽刺了。

ai不行 不准确 但是你拿ai来回答我的问题 反驳ai不准确。

自己打自己的脸啊。

heteroclinic(Heteroclinic)
著名点评
著名点评
heteroclinic 的博客
帖子互动: 70
帖子: 4817
注册时间: 2022年 10月 31日 00:35

#34 Re: ai的进化 今天是legal software被屠杀

帖子 heteroclinic(Heteroclinic) »

dealfinder10 写了: 2026年 2月 4日 15:12

争了半天 你用ai的回答来反驳我。太讽刺了。

ai不行 不准确 但是你拿ai来回答我的问题 反驳ai不准确。

自己打自己的脸啊。

我也么说要反驳你啊,我就是问一下是否和谭府机器学习在线课程上的test data split,有没有测试
还是LLM不需要测,直接就海试电弹?

如果扯淡的话,你不也用mmt这种老掉牙的

fantasist
见习点评
见习点评
帖子互动: 281
帖子: 1987
注册时间: 2022年 7月 24日 19:52

#35 Re: ai的进化 今天是legal software被屠杀

帖子 fantasist »

benadryl 写了: 2026年 2月 4日 10:05

是的,还在揪住AI会犯错会hallucination的人们就是脑子不清楚,在AI的迭代速度下,这都是鸡毛蒜皮的事情。

版上这种人多了去,问3.9跟3.11谁大,AI给了一个错的答案,也不管出现这个问题的原理是什么,就开始嘲笑AI不能精确计算、容易hallucination。装睡的人是叫不醒的,这帮脑子僵化的,最先被淘汰。
从这几年AI的发展速度看,想要在短到中期不被淘汰只有两种办法:1.能直接提高AI能力,实现它以前做不到的事,是目前最吃香喝辣的天龙人。2.是脑子要灵活,不断跟随AI能力进步的机遇,从中找到自己能补充的东西,利用与被淘汰边缘的人(比如上边提到的AI出错就笑的)的信息差,每让AI帮自己比别人多做一些工作,就能多得到一些竞争优势。
长期会怎样,人类是不是被super intelligence彻底取代,我也不知道,只能认为被取代的可能性高于AI智力在某个阶段封顶仍被人类完全掌控的可能性。

回复

回到 “葵花宝典(Programming)”