AI Agent还是不行

mmking · 帖子由 **mmking（上水）** » 2025年 7月 8日 18:52

然，第二个问题看上去已经是技术上feasible的

WideAnimals 写了： 2025年 7月 8日 18:41 明白了。第一个问题不难解决，也许需要amazon的配合。
第二个不好说，觉得是根据用户的prompt来作商品mining，然后拿到前端根据用户的benchmark比较? 这实际结果和使用的不同llm model有关系吧？不只是agent的问题。

fantasist · 帖子由 **fantasist** » 2025年 7月 8日 18:52

hahan 写了： 2025年 7月 8日 18:28 那都是demo

1, 没有native api
靠爬网站点add to cart很不稳定

2, 最重要的是理解我的意图如果我很确定要买什么那我自己买比用agent还快在线购物的痛点主要是商品对比决定买什么这个ai现在还是做不了
比如你把你想要的东西告诉agent 基本不会有满意的结果

第一点说的不稳定问题具体是啥？在我印象里，去年靠图像识别模型+frontier模型组合出来的agent demo（几个人的小团队几星期内搭出来）都不太有点不到add to cart button之类的低级错误。
第二点是吹毛求疵，为了喷而喷。现在AI还是初级阶段，主要作为人的助手工作，帮你分析比较不同商品很轻松。下单的操作是相当简单的，而决定买什么才能让你满意，衡量标准因人而异，其实是个混沌的过程，当然要你亲自把关。这个阶段的能力虽然有限制，已经足以造成大规模失业（比如无特长的初级码工）。
如果能完全复制你的个人喜好，其实等价于实现了科幻小说中的意识上传，人类肉体已经没有什么价值了，我认为它可以称为AI发展的中级阶段。如果非要找个理由说AI不行，还不如说AI怎么还没造出星际舰队把人类消灭。

hahan · 帖子由 **hahan楼主** » 2025年 7月 8日 19:00

fantasist 写了： 2025年 7月 8日 18:52 第一点说的不稳定问题具体是啥？在我印象里，去年靠图像识别模型+frontier模型组合出来的agent demo（几个人的小团队几星期内搭出来）都不太有点不到add to cart button之类的低级错误。
第二点是吹毛求疵，为了喷而喷。现在AI还是初级阶段，主要作为人的助手工作，帮你分析比较不同商品很轻松。下单的操作是相当简单的，而决定买什么才能让你满意，衡量标准因人而异，其实是个混沌的过程，当然要你亲自把关。这个阶段的能力虽然有限制，已经足以造成大规模失业（比如无特长的初级码工）。
如果能完全复制你的个人喜好，其实等价于实现了科幻小说中的意识上传，人类肉体已经没有什么价值了，我认为它可以称为AI发展的中级阶段。如果非要找个理由说AI不行，还不如说AI怎么还没造出星际舰队把人类消灭。

1, 现在稍微正规的网站都是dynamic 的就是1 layout 本身会变 2 不同情境下rendering 可能不同比如layer一变就点不到 3 浏览器的rendering 本身会变

2, 我老说得很清楚了如果我确定要买什么那我自己点两下鼠标比agent 还快还简单还放心我为什么要用agent?

3, 我老没否定ai 不行事实上我老是ai convert 但ai agent 就是不行你能找出来一个有用而且能用的ahent吗 oai的operator 现在都没人提了

hahan · 帖子由 **hahan楼主** » 2025年 7月 8日 19:08

还有一个技术问题
但也不见得能通过engineering 解决
就是inference 速度问题

现代网站通过server rendering, single page application etc已经做到了instant 体验就是你点一下网站是瞬间反应的各种action 基本都是100ms 以内的
Agent通过模型得到plan 需要的inference 花的时间很长
而且目前看不到有什么能瞬间得到inference 的
比如100ms以内
事实上就是把往左上的图片tokenizing 的时间就很长

fantasist · 帖子由 **fantasist** » 2025年 7月 8日 19:20

hahan 写了： 2025年 7月 8日 19:00 1, 现在稍微正规的网站都是dynamic 的就是1 layout 本身会变 2 不同情境下rendering 可能不同比如layer一变就点不到 3 浏览器的rendering 本身会变

2, 我老说得很清楚了如果我确定要买什么那我自己点两下鼠标比agent 还快还简单还放心我为什么要用agent?

3, 我老没否定ai 不行事实上我老是ai convert 但ai agent 就是不行你能找出来一个有用而且能用的ahent吗 oai的operator 现在都没人提了

"如果我确定要买什么那我自己点两下鼠标比agent 还快还简单还放心我为什么要用agent"
所以这个是你的问题啊。按你的描述，如果agent是个人，你也不会让他去帮你做这个事。凭啥上来就要求AI agent能做的更好呢？
我觉得讨论之前首先要把对AI的期待搞清楚。最基本的定义是，给定一个task，如果让一个人或一堆人帮你做，需要$x和时间T_h。而用agent做，在达到同样的效果和成功率时，只需要$y (y < x)和T_ai （T_ai < T_h），即可以宣告在这个task上ai agent是超越人类的。你的例子里，$x和T_h基本都是0，所以这个问题本身就没价值。

hahan · 帖子由 **hahan楼主** » 2025年 7月 8日 19:39

fantasist 写了： 2025年 7月 8日 19:20 "如果我确定要买什么那我自己点两下鼠标比agent 还快还简单还放心我为什么要用agent"
所以这个是你的问题啊。按你的描述，如果agent是个人，你也不会让他去帮你做这个事。凭啥上来就要求AI agent能做的更好呢？
我觉得讨论之前首先要把对AI的期待搞清楚。最基本的定义是，给定一个task，如果让一个人或一堆人帮你做，需要$x和时间T_h。而用agent做，在达到同样的效果和成功率时，只需要$y (y < x)和T_ai （T_ai < T_h），即可以宣告在这个task上ai agent是超越人类的。你的例子里，$x和T_h基本都是0，所以这个问题本身就没价值。

我的需求就是ai agent帮我购物
这自然包括对比和make a decision
我自己做当然花时间
怎么会没有价值

这也是大众心中agent 的use case
Ai agent 做不到

WideAnimals · 帖子由 **WideAnimals** » 2025年 7月 8日 19:50

嗯，有道理，不过如果希望出标准，那现在各大ecommerce business的网站，包括amazon的是否都要配合改？而且等startup的购物agent出来，恐怕amazon已经推出自己的了吧？第二个你要的是customized, 现在model只是general llm，怎么可能满足你呢？除非用户可以用domain knowledge train出一个来。

wass · 帖子由 **wass** » 2025年 7月 8日 19:59

qiangjin 写了： 2025年 7月 8日 18:09 有个开源agent项目，炒股赚钱

link?

WideAnimals · 帖子由 **WideAnimals** » 2025年 7月 8日 20:01

hahan 写了： 2025年 7月 8日 19:08 还有一个技术问题
但也不见得能通过engineering 解决
就是inference 速度问题

现代网站通过server rendering, single page application etc已经做到了instant 体验就是你点一下网站是瞬间反应的各种action 基本都是100ms 以内的
Agent通过模型得到plan 需要的inference 花的时间很长
而且目前看不到有什么能瞬间得到inference 的
比如100ms以内
事实上就是把往左上的图片tokenizing 的时间就很长

这个performance的问题可以有两个思路，一是选用mini model, or shopping specific, 二是可以设计用agent的step by step entries去break down the inference，后台做scaling, 当然有点骗。

qiangjin

wass 写了： 2025年 7月 8日 19:59link?

我新闻上看到的，没试过
https://github.com/TauricResearch/TradingAgents

hahan · 帖子由 **hahan楼主** » 2025年 7月 8日 20:57

WideAnimals 写了： 2025年 7月 8日 20:01 这个performance的问题可以有两个思路，一是选用mini model, or shopping specific, 二是可以设计用agent的step by step entries去break down the inference，后台做scaling, 当然有点骗。

现代网页包括native app的experience 都是instant 的
Mini model inference 也不行

fantasist · 帖子由 **fantasist** » 2025年 7月 8日 20:58

hahan 写了： 2025年 7月 8日 19:39 我的需求就是ai agent帮我购物
这自然包括对比和make a decision
我自己做当然花时间
怎么会没有价值

这也是大众心中agent 的use case
Ai agent 做不到

你的需求其实是已有技术。如果能用狗脸两家的广告算法来做personalized ranking，选择的商品大概会符合你的个人口味。不过这类数据分散在各家，social在狗脸，以往的购物数据在亚麻costco，想打通会遇到很大的商业阻力。厂家未来可能会以api形式分享数据给大模型供应商调用，或者等大模型厂家收集到足够的个人数据自行做ranking，或者从中间商购买。

hahan · 帖子由 **hahan楼主** » 2025年 7月 8日 21:01

fantasist 写了： 2025年 7月 8日 20:58 这个技术不是难点。如果能用狗脸两家的广告算法来做personalized ranking，选商品大概相对符合你的个人需求。不过这个数据分散在各家，social等在狗脸，以往的购物数据在亚麻costco，想打通会遇到很大的商业阻力。厂家未来可能会以api形式分享数据给大模型供应商调用，或者等大模型厂家收集到足够的个人数据做ranking。

看你怎么定义技术难点
比如两双鞋
哪个好看？
现在的llm还没法分辨

fantasist · 帖子由 **fantasist** » 2025年 7月 8日 21:53

hahan 写了： 2025年 7月 8日 21:01 看你怎么定义技术难点
比如两双鞋
哪个好看？
现在的llm还没法分辨

LLM显然不是无法分辨，你只要问肯定能给你个答案，也许跟人类的平均审美倾向差不多。但这个答案并不personalized，随便问一些东西可能它回答的关注点都跟你不一样，更别说最终结论，于是你认为LLM无法分辨。你只要想明白，就会发现这个只是你对一个general的LLM有错误的期望。
如果“两双鞋哪个好看”这个问题有固定解，那么一个简单的decision tree都能轻松学会。但从常识看，人类社会的审美是多元的，所以不可能实现一个general的模型去回答这种问题，必须要在模型的输入里加入个人的preference，而这是个在LLM时代之前已解决的工程问题。

minren · 帖子由 **minren** » 2025年 7月 9日 08:34

hahan 写了： 2025年 7月 8日 18:28 2, 最重要的是理解我的意图如果我很确定要买什么那我自己买比用agent还快在线购物的痛点主要是商品对比决定买什么这个ai现在还是做不了
比如你把你想要的东西告诉agent 基本不会有满意的结果

这本质上是你个人的问题，不是AI的问题。

你的准则要明确，你想要的是价格，还是好用，好看，耐用，，，等等，你自己的准则不明确，当然AI无法做“商品对比”。举个例子，即使你只考虑 “最好价格” 与 “最好用” 这两个准则，它们之间都是矛盾的，需要你决定一个平衡点。你不告诉AI你心理的平衡点，AI怎么给会你满意的结果。每个人心理的平衡点都不同，因此这不是AI的问题。

noktard · 帖子由 **noktard** » 2025年 7月 9日 08:45

hahan 写了： 2025年 7月 8日 18:50 第一个问题难
需要各个网站开发ai native api
需要标准
需要incentive
要是有incentive 这个早就像雨后春笋一样做起来了
现在并没有

第二个问题
实际是
1, 让llm理解我理解我的心情需求喜欢
2, 并且有健全的人类常识比如一个鞋好不好看
现在2都做不到
你可以找个agent 让它比较Amazon两个鞋告诉你应该买哪个就这个现在做不到

买什么东西是一个非常主观的问题，连自己都不能确定。比如一件东西我今天想买了，货还没寄到，明天就不想要了。网上下单之后cancel的次数太多了。这个问题Agent肯定没法解决

当然有些东西，用后感觉好，一直会买下去，只要价格合适。Amazon上有类似的功能提示repurchase

ccmath · 帖子由 **ccmath** » 2025年 7月 9日 11:41

AI的确刺破了马公和教育这两大泡沫

更深一层来看，AI本质是我帝从互联网以来 digital colonialism的延伸。是把全世界变成数字殖民地的升级版。

但是出了土鳖这个不兼容的系统，自己又遇到了能源供给的瓶颈、现在正在自断经脉，以为把华人当 bug清除掉就能干得过土鳖

gounahaozi 写了： 2025年 7月 8日 13:34 我2023年就是这个观点

您老2025年才有这个观点

而且我是一开始（pre-2023）看好AI，并且跟美国助推AI的这批deep state有过浅尝辄止的打交道的经验

2022年底ChatGPT被刻意捧红，我很快就意识到这是在故意推高股市，为经济造假，而且想模仿登月，把中国吓死

但是美国这样搞已经很多次了，挥舞指挥棒就是这样的

AI这几年投入的钱，根本就没有改变AI稳步发展的趋势，也就是说，多投入的这几千倍，几万倍的钱，从科技角度是白投了，但是从经济角度，可能还是有一定效益的

也就是你说的，从头到尾就是骗，但是这个没有什么好surprised的，美国从来就是这样的，美国的科技中心，硅谷，motto就是fake it until you make it，Elon Musk也是一个玩概念的大骗子，但是美国的innovation一直就是这么搞的，似乎也没有什么大问题

我感觉你是开了公司，创业了，但是没有在这波AI泡泡中收获多少，所以开始攻击AI，其实你的遭遇是美国科技界整体对华人打压的一个注脚。现在的一些华人AI人才，也基本上都是被美国系统里tag的汉奸（现在你在国内，不是汉奸家庭，上两代当过汉奸的，你还真的很难上到清华），大多数华人科技人才，是被打压的，很多非CS的PhD项目，现在基本上华人都绝迹了，很明显的和产业链一样，在刻意的转移

hahan · 帖子由 **hahan楼主** » 2025年 7月 9日 11:50

minren 写了： 2025年 7月 9日 08:34 这本质上是你个人的问题，不是AI的问题。

你的准则要明确，你想要的是价格，还是好用，好看，耐用，，，等等，你自己的准则不明确，当然AI无法做“商品对比”。举个例子，即使你只考虑 “最好价格” 与 “最好用” 这两个准则，它们之间都是矛盾的，需要你决定一个平衡点。你不告诉AI你心理的平衡点，AI怎么给会你满意的结果。每个人心理的平衡点都不同，因此这不是AI的问题。

我希望AI帮我解决这个问题
绝大多数人也是这么期望的

现在AI agent实现不了
你告诉我这是我自己的问题
有啥意义

hahan · 帖子由 **hahan楼主** » 2025年 7月 9日 11:51

fantasist 写了： 2025年 7月 8日 21:53 LLM显然不是无法分辨，你只要问肯定能给你个答案，也许跟人类的平均审美倾向差不多。但这个答案并不personalized，随便问一些东西可能它回答的关注点都跟你不一样，更别说最终结论，于是你认为LLM无法分辨。你只要想明白，就会发现这个只是你对一个general的LLM有错误的期望。
如果“两双鞋哪个好看”这个问题有固定解，那么一个简单的decision tree都能轻松学会。但从常识看，人类社会的审美是多元的，所以不可能实现一个general的模型去回答这种问题，必须要在模型的输入里加入个人的preference，而这是个在LLM时代之前已解决的工程问题。

大多数人希望AI做的
就是这么模糊的 indefinite的事情

如果是requirement很明确
那还要AI干什么
if else 就是你说的决策树就搞定了

minren · 帖子由 **minren** » 2025年 7月 9日 12:09

hahan 写了： 2025年 7月 9日 11:50 我希望AI帮我解决这个问题
绝大多数人也是这么期望的

现在AI agent实现不了
你告诉我这是我自己的问题
有啥意义

你的那个问题是你个人偏好问题，哪怕让世界最聪明的肉身agent替你拿主意，甚至爱因斯坦，也无法让你满意，他要不断地具体深入地问你的偏好，不如你自己做决定。因此那不是AI的问题。

新未名空间

AI Agent还是不行

#21 Re: AI Agent还是不行

#22 Re: AI Agent还是不行

#23 Re: AI Agent还是不行

#24 Re: AI Agent还是不行

#25 Re: AI Agent还是不行

#26 Re: AI Agent还是不行

#27 Re: AI Agent还是不行

#28 Re: AI Agent还是不行

#29 Re: AI Agent还是不行

#30 Re: AI Agent还是不行

#31 Re: AI Agent还是不行

#32 Re: AI Agent还是不行

#33 Re: AI Agent还是不行

#34 Re: AI Agent还是不行

#35 Re: AI Agent还是不行

#36 Re: AI Agent还是不行

#37 Re: AI Agent还是不行

#38 Re: AI Agent还是不行

#39 Re: AI Agent还是不行

#40 Re: AI Agent还是不行