如何在这波产业革命中立足

laomei9 · 帖子由 **laomei9** » 2025年 1月 6日 16:59

美团外卖，吴博滴滴，这算什么AI，就是互联网经济吧

uws · 帖子由 **uws** » 2025年 1月 6日 17:40

laomei9 写了： 2025年 1月 6日 16:59 美团外卖，吴博滴滴，这算什么AI，就是互联网经济吧

互联网是AI的基石吧
AI 必然基于互联网/移动互联网

helpme · 帖子由 **helpme** » 2025年 1月 6日 20:45

这不胡扯么？雷军董明珠啥的，打工的时候就是绝大部分公司梦寐以求的人才

hahan 写了： 2025年 1月 6日 09:00 国内也一样啊
做生意成功的都是找不到工作的

wass · 帖子由 **wass** » 2025年 1月 6日 20:55

fantasist 写了： 2025年 1月 6日 14:10 GenAI现在能力和应用仍然有限制，是因为逻辑推理能力还不如人类。一旦解决了这个问题，AI的能力有质变，就不再受人类控制了。
人类在AI加持下不断进步，只是很多人想象出来的正确方向，实际上很可能不是稳态，而是人类被AI列车碾压而过时的惊鸿一瞥。

o3

hahan · 帖子由 **hahan** » 2025年 1月 6日 21:02

helpme 写了： 2025年 1月 6日 20:45 这不胡扯么？雷军董明珠啥的，打工的时候就是绝大部分公司梦寐以求的人才

雷军是
董明珠是从销售爬起来的
而且他们都不是中小business

newstart · 帖子由 **newstart** » 2025年 1月 7日 01:11

"然而这波AI的发力点应该会转移到工业和基础科学"，那应该首先盯着的是几个头部的vector database公司吧。这些公司的企业用户迅猛增长才能反映出来。

是不是应该有几个

wdong 写了： 2025年 1月 5日 09:44 大家2025年好！老买买提倒闭后，虽然我也一直在这里潜水，但是一直没有正式报到。因为当时我觉得我想要一种更加年轻一点的上网方式。虽然但是，大概什么时代的人还是要活在什么时代吧。这两年发生了很多以前想都不敢想的事情，迫使我进行了大量的思考。我打算慢慢把我的想法发到这个版上，希望有一二老友看到并能有些碰撞。

Short term strategy: 以自己和自己的（或者自己了解的）行业为中心，把自己定位成“带路党”的角色。如果现在还拿着工资，不妨暂时不要考虑“转方向”了。往未来看5年，我感觉没什么方向看起来比别的方向更好。显然未来几年AI需要渗透各个产业。AI会以agent的方式慢慢代替人类，但是这中间会出现大量硬的（软硬件对接）和软的（思维方式，domain know how)问题。也就是这些agent会需要有师傅手把手教。这里面大家需要解决的核心问题是，一方面，需要了解AI的接口；另一方面，怎么把自己行业的问题和语言翻译成AI可以接受的形式。再说得直接一点，就是做benchmark，并且在新版本AI出现的时候测试和改进这些benchmark。IT业发展到今天，consumer market都是大头。然而这波AI的发力点应该会转移到工业和基础科学。

Mid term strategy: 学会新的编程方式。我们现在已经进入魔法时代了。现在的编程语言不再是狭义的编程语言，而是包括所有自然语言和编程语言和机器语言在内的“人类语言”。编程的内容也不再是一行一行写代码，而是会有点像social engineering。很多事情已经不需要实现了，只要说出来 AI就能实现（念咒，召唤AI，所以说我们已经进入魔法时代了）。关键是说的内容得对。所以设计会变得越来越重要。AI会对“知识就是力量”这句话有新的诠释。这种更大的自由度需要更高的思维层次来匹配。“带路党”角色的下一步是指手画脚的“股东”。你不是程序员，不是架构师，甚至不是CEO。这些角色都需要AI来充当。你最好的角色是director，手里有若干AI团队给你干活。当然你经常需要下降到基层进行指手画脚。但是随着AI版本的改进，这种指手画脚的需求会越来越少。我们需要用发展的眼光来看问题，如果按照今天gpt 4o的水平来设计系统，那么这个系统的寿命很可能就是一年。必须看着5年后gpt的水平来设计系统。

Long term strategy: 不管是个人还是社会，都需要准备退休计划，慢慢从“社会需要我干啥”转变到“我乐意干啥”。从管理者的角度来说，怎么分批把权力交接给AI。从社会层面说，比如显然AI需要取代大部分医生。但是实际操作不能让这些医生一波都失业了。所以政策上需要对医疗领域进行划分（考虑学科年龄，从业者年龄，社会成本等），然后分批次批准AI进入。以后的社会没工作会是大部分人的常态，需要从没工作可耻的传统思维中解放出来。Andrew Yang was ahead of his time。

先起个头，具体慢慢再聊。

webdriver

53老将们就别琢磨AI 创业了，还是立足用AI更加高效的摸鱼才是正道，反正过几年干不动了，此时不摸更待何时

magagop · 帖子由 **magagop** » 2025年 1月 7日 12:17

newstart 写了： 2025年 1月 7日 01:11 "然而这波AI的发力点应该会转移到工业和基础科学"，那应该首先盯着的是几个头部的vector database公司吧。这些公司的企业用户迅猛增长才能反映出来。

是不是应该有几个

AI Database的王者難道不應該是微軟？

wass · 帖子由 **wass** » 2025年 1月 7日 12:29

magagop 写了： 2025年 1月 7日 12:17 AI Database的王者難道不應該是微軟？

什么产品？

newstart · 帖子由 **newstart** » 2025年 1月 7日 14:23

magagop 写了： 2025年 1月 7日 12:17 AI Database的王者難道不應該是微軟？

不清楚，我只用过Meta的。所以我才问那几个讨论的专家。直觉上应该是某个单独的独角兽才对。

fantasist · 帖子由 **fantasist** » 2025年 1月 7日 22:13

vector db是个典型的死亡赛道，创业是基本不可能的。prototype直接faiss；搭中小型系统，直接开源的Milvus，很可能整个产品周期都根本不需要付费。如果有幸做成large scale，有钱了自然不难找到更成熟的解决方案。

wdong

fantasist 写了： 2025年 1月 7日 22:13 vector db是个典型的死亡赛道，创业是基本不可能的。prototype直接faiss；搭中小型系统，直接开源的Milvus，很可能整个产品周期都根本不需要付费。如果有幸做成large scale，有钱了自然不难找到更成熟的解决方案。

说起来我还是vector db其中一路的先驱。高维向量索引是一个非常老的问题，各路算法大神多多少少都碰过，姚期智早年也做过。2005年我开始读博时princeton已经是content-based retrieval的重镇了。各种对象通过手工算法提取特征，然后放到vector db里就可以按内容检索。但是当时离AlexNet的突破还有五六年时间，其实检索的效果一直都不尽人意。当时解决vector db的基本架构已经确立了，就是索引算法外加数据压缩算法。索引是缩小搜索空间，压缩则是减少单个对象匹配时的计算量。索引算法主要是两个套路，LSH和tree。2006年师姐吕琴做出来Multi-Probe LSH，解决了LSH需要维护几千个散列表的问题，至今仍是一篇高引用论文。压缩算法一开始叫sketch (就是把对象embed到bit vector，然后可以用位操作进行高速对比)。后来法国人H Jégou搞出来product quantization，并成为了对象压缩算法的主流。Jégou后来到了facebook弄出来了faiss 。到2010年左右，学术界对高维空间索引普遍持悲观态度(curse of dimensionality)。甚至有人发了一篇paper，测出来什么kdtree和各种fancy tree，其实性能都不如用k-means clustering做索引。然后因为brutal force linear scan可以通过体系结构性能优化做得很快，而各种索引一般都依赖random access，所以很多时候还不如不用。原始的faiss就是不带索引的，只是在压缩后的数据上做linear scan。当时我博士已经读到第五年了，没有任何建树，天天来老论坛这个版灌水。然后某天就突然想出来图算法。LSH虽然快，但是有个很大的问题就是准确度做不上去。2011年我的图算法出来以后直接在Erik Bernhardsson的benchmark上霸榜，可以说是石破天惊。然后俄国人Boytsov迅速接过接力棒把性能提升到了极致(nmslib)。再之后的发展其实都是非常incremental的改进。至今为止所有的高分实现基本上都逃不出图算法的套路。后来我再回过头去做literature survey的时候发现图算法的思路其实日本人早就提过了，但是一直没有引起重视。原因是图算法的基础数据结构是k-NN graph。而构建这个索引图本身要依赖某种vector index，就成了鸡生蛋蛋生鸡了。我那篇论文则是以一种非常通用的方法把鸡和蛋都解决了。

吹完牛，回过头来说vector db。我觉得RAG是LLM发展早期的一朵浪花而已。Vector db作为RAG的工具，必然也是朵浪花。这里面最主要的原因是，chunking和embedding对于信息及其连续性的损耗是极大的。 Chunking这一步不是AI，然后基于embedding的匹配也不是AI。这两个瓶颈必然会导致整个方案的智能性被拖垮。我觉得目前比较promising的方向是把context做大，然后上面提到的各种思路可能会在context这块换一个形式又出来。

绿竹猗猗 · 帖子由 **绿竹猗猗** » 2025年 1月 8日 10:06

能贴一下您那篇图算法的论文链接吗？我想学学。谢谢！

wdong 写了： 2025年 1月 8日 09:48 说起来我还是vector db的一路先驱。高维向量索引是一个非常老的问题，各路算法大神多多少少都碰过，姚期智早年也做过。2005年我开始读博时princeton已经是content-based retrieval的重镇了。各种对象通过手工算法提取特征，然后放到vector db里就可以按内容检索。但是当时还没有CNN，其实检索的效果一直都不尽人意。当时解决vector db的基本架构已经确立了，就是索引算法外加数据压缩算法。索引是缩小搜索空间，压缩则是减少单个对象匹配时的计算量。索引算法主要是两个套路，LSH和tree。2006年师姐吕琴做出来Multi-Probe LSH，解决了LSH需要维护几千个散列表的问题，至今仍是一篇高引用论文。压缩算法一开始叫sketch (就是把对象embed到bit vector，然后可以用位操作进行高速对比)。后来法国人H Jégou搞出来product quantization，并成为了对象压缩算法的主流。Jégou后来到了facebook弄出来了faiss 。到2010年左右，学术界对高维空间索引普遍持悲观态度(curse of dimensionality)。甚至有人发了一篇paper，测出来什么kdtree和各种fancy tree，其实性能都不如用k-means clustering做索引。然后因为brutal force linear scan可以通过体系结构性能优化做得很快，而各种索引一般都依赖random access，所以很多时候还不如不用。原始的faiss就是不带索引的，只是在压缩后的数据上做linear scan。当时我博士已经读到第五年了，没有任何建树，天天来老论坛这个版灌水。然后某天就突然想出来图算法。LSH虽然快，但是有个很大的问题就是准确度做不上去。2011年我的图算法出来以后直接在Erik Bernhardsson的benchmark上霸榜，可以说是石破天惊。然后俄国人Boytsov迅速接过接力棒把性能提升到了极致(nmslib)。再之后的发展其实都是非常incremental的改进。至今为止所有的高分实现基本上都逃不出图算法的套路。后来我再回过头去做literature survey的时候发现图算法的思路其实日本人早就提过了，但是一直没有引起重视。原因是图算法的基础数据结构是k-NN graph。而构建这个索引图本身要依赖某种vector index，就成了鸡生蛋蛋生鸡了。我那篇论文则是以一种非常通用的方法把鸡和蛋都解决了。

吹完牛，回过头来说vector db。我觉得RAG是LLM发展早期的一朵浪花而已。Vector db作为RAG的工具，必然也是朵浪花。这里面最主要的原因是，chunking和embedding对于信息及其连续性的损耗是极大的。 Chunking这一步不是AI，然后基于embedding的匹配也不是AI。这两个瓶颈必然会导致整个方案的智能性被拖垮。我觉得目前比较promising的方向是把context做大，然后上面提到的各种思路可能会在context这块换一个形式又出来。

wdong

绿竹猗猗写了： 2025年 1月 8日 10:06 能贴一下您那篇图算法的论文链接吗？我想学学。谢谢！

https://cs.princeton.edu/cass/papers/www11.pdf

代码 https://github.com/aaalgo/kgraph/

这个算法的厉害之处是，并不依赖被索引对象的具体格式，抽象度极高。需要检索N个对象，只要提供一个计算相似度的回调函数 S(a,b)，这个算法就可以跑了（传进去两个对象指针，返回一个表示相似度的数字，越大越好或越小越好都行）。效果怎么样由数据和相似度定义的高维空间自身的几何结构决定，但是一般都能吊打tree等算法。遗憾的是我数学能力不行，这是个经验算法，没法从数学上对准确度和效率进行证明。

绿竹猗猗 · 帖子由 **绿竹猗猗** » 2025年 1月 8日 10:47

谢谢！

wdong 写了： 2025年 1月 8日 10:08 https://cs.princeton.edu/cass/papers/www11.pdf

代码 https://github.com/aaalgo/kgraph/

这个算法的厉害之处是，并不依赖被索引对象的具体格式，抽象度极高。需要检索N个对象，只要提供一个计算相似度的回调函数 S(a,b)，这个算法就可以跑了（传进去两个对象指针，返回一个表示相似度的数字，越大越好或越小越好都行）。效果怎么样由数据和相似度定义的高维空间自身的几何结构决定，但是一般都能吊打tree等算法。遗憾的是我数学能力不行，这是个经验算法，没法从数学上对准确度和效率进行证明。

hci · 帖子由 **hci（海螺子）** » 2025年 1月 8日 11:41

wdong的kgraph我司用过几年，还是不错的。的确是先驱。

不过，我和你对AI的看法又一次完全相反了。“chunking和embedding对于信息及其连续性的损耗是极大的。”，你觉得这不是智能，我认为这就是能够人造的智能的本质，也就是压缩。

本人的独特认识：不能够人造的智能的本质是逻辑，能够人造的智能的本质是压缩。前者曰“元神”，后者曰“识神”。

wdong 写了： 2025年 1月 8日 09:48 说起来我还是vector db其中一路的先驱。高维向量索引是一个非常老的问题，各路算法大神多多少少都碰过，姚期智早年也做过。2005年我开始读博时princeton已经是content-based retrieval的重镇了。各种对象通过手工算法提取特征，然后放到vector db里就可以按内容检索。但是当时离AlexNet的突破还有五六年时间，其实检索的效果一直都不尽人意。当时解决vector db的基本架构已经确立了，就是索引算法外加数据压缩算法。索引是缩小搜索空间，压缩则是减少单个对象匹配时的计算量。索引算法主要是两个套路，LSH和tree。2006年师姐吕琴做出来Multi-Probe LSH，解决了LSH需要维护几千个散列表的问题，至今仍是一篇高引用论文。压缩算法一开始叫sketch (就是把对象embed到bit vector，然后可以用位操作进行高速对比)。后来法国人H Jégou搞出来product quantization，并成为了对象压缩算法的主流。Jégou后来到了facebook弄出来了faiss 。到2010年左右，学术界对高维空间索引普遍持悲观态度(curse of dimensionality)。甚至有人发了一篇paper，测出来什么kdtree和各种fancy tree，其实性能都不如用k-means clustering做索引。然后因为brutal force linear scan可以通过体系结构性能优化做得很快，而各种索引一般都依赖random access，所以很多时候还不如不用。原始的faiss就是不带索引的，只是在压缩后的数据上做linear scan。当时我博士已经读到第五年了，没有任何建树，天天来老论坛这个版灌水。然后某天就突然想出来图算法。LSH虽然快，但是有个很大的问题就是准确度做不上去。2011年我的图算法出来以后直接在Erik Bernhardsson的benchmark上霸榜，可以说是石破天惊。然后俄国人Boytsov迅速接过接力棒把性能提升到了极致(nmslib)。再之后的发展其实都是非常incremental的改进。至今为止所有的高分实现基本上都逃不出图算法的套路。后来我再回过头去做literature survey的时候发现图算法的思路其实日本人早就提过了，但是一直没有引起重视。原因是图算法的基础数据结构是k-NN graph。而构建这个索引图本身要依赖某种vector index，就成了鸡生蛋蛋生鸡了。我那篇论文则是以一种非常通用的方法把鸡和蛋都解决了。

吹完牛，回过头来说vector db。我觉得RAG是LLM发展早期的一朵浪花而已。Vector db作为RAG的工具，必然也是朵浪花。这里面最主要的原因是，chunking和embedding对于信息及其连续性的损耗是极大的。 Chunking这一步不是AI，然后基于embedding的匹配也不是AI。这两个瓶颈必然会导致整个方案的智能性被拖垮。我觉得目前比较promising的方向是把context做大，然后上面提到的各种思路可能会在context这块换一个形式又出来。

wdong

hci 写了： 2025年 1月 8日 11:41 wdong的kgraph我司用过几年，还是不错的。的确是先驱。

不过，我和你对AI的看法又一次完全相反了。“chunking和embedding对于信息及其连续性的损耗是极大的。”，你觉得这不是智能，我认为这就是能够人造的智能的本质，也就是压缩。

本人的独特认识：不能够人造的智能的本质是逻辑，能够人造的智能的本质是压缩。前者曰“元神”，后者曰“识神”。

认识不一致是好事，等大家思想统一了，那就连我们这些老帮菜都没得混了。

cmrhm2008 · 帖子由 **cmrhm2008** » 2025年 1月 8日 13:36

我现在在尝试做我的领域的benchmark trainner，主要是给LLM喂难题

cmrhm2008 · 帖子由 **cmrhm2008** » 2025年 1月 8日 13:38

wdds 写了： 2025年 1月 5日 19:27 zt

2025 AI agent proliferation 看来AI 的实际business 用要全面铺开了

最近看到两则报道
1）微软 CEO 的大胆预言：“AI Agent将替代所有SaaS”
2）CRM 老板宣布2025停止招收软件工程师,专攻AI agent

对就业和投资的影响会越来越大。

AI agent是谁最先提出来的？不是Jensen 吗？

cmrhm2008 · 帖子由 **cmrhm2008** » 2025年 1月 8日 13:40

wdong 写了： 2025年 1月 8日 09:48 说起来我还是vector db其中一路的先驱。高维向量索引是一个非常老的问题，各路算法大神多多少少都碰过，姚期智早年也做过。2005年我开始读博时princeton已经是content-based retrieval的重镇了。各种对象通过手工算法提取特征，然后放到vector db里就可以按内容检索。但是当时离AlexNet的突破还有五六年时间，其实检索的效果一直都不尽人意。当时解决vector db的基本架构已经确立了，就是索引算法外加数据压缩算法。索引是缩小搜索空间，压缩则是减少单个对象匹配时的计算量。索引算法主要是两个套路，LSH和tree。2006年师姐吕琴做出来Multi-Probe LSH，解决了LSH需要维护几千个散列表的问题，至今仍是一篇高引用论文。压缩算法一开始叫sketch (就是把对象embed到bit vector，然后可以用位操作进行高速对比)。后来法国人H Jégou搞出来product quantization，并成为了对象压缩算法的主流。Jégou后来到了facebook弄出来了faiss 。到2010年左右，学术界对高维空间索引普遍持悲观态度(curse of dimensionality)。甚至有人发了一篇paper，测出来什么kdtree和各种fancy tree，其实性能都不如用k-means clustering做索引。然后因为brutal force linear scan可以通过体系结构性能优化做得很快，而各种索引一般都依赖random access，所以很多时候还不如不用。原始的faiss就是不带索引的，只是在压缩后的数据上做linear scan。当时我博士已经读到第五年了，没有任何建树，天天来老论坛这个版灌水。然后某天就突然想出来图算法。LSH虽然快，但是有个很大的问题就是准确度做不上去。2011年我的图算法出来以后直接在Erik Bernhardsson的benchmark上霸榜，可以说是石破天惊。然后俄国人Boytsov迅速接过接力棒把性能提升到了极致(nmslib)。再之后的发展其实都是非常incremental的改进。至今为止所有的高分实现基本上都逃不出图算法的套路。后来我再回过头去做literature survey的时候发现图算法的思路其实日本人早就提过了，但是一直没有引起重视。原因是图算法的基础数据结构是k-NN graph。而构建这个索引图本身要依赖某种vector index，就成了鸡生蛋蛋生鸡了。我那篇论文则是以一种非常通用的方法把鸡和蛋都解决了。

吹完牛，回过头来说vector db。我觉得RAG是LLM发展早期的一朵浪花而已。Vector db作为RAG的工具，必然也是朵浪花。这里面最主要的原因是，chunking和embedding对于信息及其连续性的损耗是极大的。 Chunking这一步不是AI，然后基于embedding的匹配也不是AI。这两个瓶颈必然会导致整个方案的智能性被拖垮。我觉得目前比较promising的方向是把context做大，然后上面提到的各种思路可能会在context这块换一个形式又出来。

真是厉害，Respect！

新未名空间

如何在这波产业革命中立足

#101 Re: 如何在这波产业革命中立足

#102 Re: 如何在这波产业革命中立足

#103 Re: 如何在这波产业革命中立足

#104 Re: 如何在这波产业革命中立足

#105 Re: 如何在这波产业革命中立足

#106 Re: 如何在这波产业革命中立足

#107 Re: 如何在这波产业革命中立足

#108 Re: 如何在这波产业革命中立足

#109 Re: 如何在这波产业革命中立足

#110 Re: 如何在这波产业革命中立足

#111 Re: 如何在这波产业革命中立足

#112 Re: 如何在这波产业革命中立足

#113 Re: 如何在这波产业革命中立足

#114 Re: 如何在这波产业革命中立足

#115 Re: 如何在这波产业革命中立足

#116 Re: 如何在这波产业革命中立足

#117 Re: 如何在这波产业革命中立足

#118 Re: 如何在这波产业革命中立足

#119 Re: 如何在这波产业革命中立足

#120 Re: 如何在这波产业革命中立足