如何在这波产业革命中立足

版主: hci

回复
laomei9
论坛支柱
论坛支柱
帖子互动: 1399
帖子: 13334
注册时间: 2023年 11月 6日 16:14

#101 Re: 如何在这波产业革命中立足

帖子 laomei9 »

美团外卖,吴博滴滴,这算什么AI,就是互联网经济吧
uws
见习点评
见习点评
帖子互动: 98
帖子: 1615
注册时间: 2022年 12月 23日 12:21

#102 Re: 如何在这波产业革命中立足

帖子 uws »

laomei9 写了: 2025年 1月 6日 16:59 美团外卖,吴博滴滴,这算什么AI,就是互联网经济吧
互联网是AI的基石吧
AI 必然基于互联网/移动互联网
helpme
论坛元老
论坛元老
帖子互动: 634
帖子: 21807
注册时间: 2022年 7月 24日 20:20

#103 Re: 如何在这波产业革命中立足

帖子 helpme »

这不胡扯么?雷军董明珠啥的,打工的时候就是绝大部分公司梦寐以求的人才

hahan 写了: 2025年 1月 6日 09:00 国内也一样啊
做生意成功的都是找不到工作的
看不懂脸色、分不清局势、见不惯人心,三者得其一,便是取祸之道
wass
论坛精英
论坛精英
2024年度优秀版主
wass 的博客
帖子互动: 659
帖子: 6778
注册时间: 2022年 7月 23日 22:13

#104 Re: 如何在这波产业革命中立足

帖子 wass »

fantasist 写了: 2025年 1月 6日 14:10 GenAI现在能力和应用仍然有限制,是因为逻辑推理能力还不如人类。一旦解决了这个问题,AI的能力有质变,就不再受人类控制了。
人类在AI加持下不断进步,只是很多人想象出来的正确方向,实际上很可能不是稳态,而是人类被AI列车碾压而过时的惊鸿一瞥。
o3
hahan
论坛元老
论坛元老
hahan 的博客
帖子互动: 802
帖子: 17605
注册时间: 2022年 7月 23日 23:48

#105 Re: 如何在这波产业革命中立足

帖子 hahan »

helpme 写了: 2025年 1月 6日 20:45 这不胡扯么?雷军董明珠啥的,打工的时候就是绝大部分公司梦寐以求的人才
雷军是
董明珠是从销售爬起来的
而且他们都不是中小business
急急如丧家之犬
忙忙似漏网之鱼
newstart
知名作家
知名作家
帖子互动: 150
帖子: 884
注册时间: 2022年 10月 14日 04:39

#106 Re: 如何在这波产业革命中立足

帖子 newstart »

"然而这波AI的发力点应该会转移到工业和基础科学",那应该首先盯着的是几个头部的vector database公司吧。这些公司的企业用户迅猛增长才能反映出来。

是不是应该有几个
wdong 写了: 2025年 1月 5日 09:44 大家2025年好!老买买提倒闭后,虽然我也一直在这里潜水,但是一直没有正式报到。因为当时我觉得我想要一种更加年轻一点的上网方式。虽然但是,大概什么时代的人还是要活在什么时代吧。这两年发生了很多以前想都不敢想的事情,迫使我进行了大量的思考。 我打算慢慢把我的想法发到这个版上,希望有一二老友看到并能有些碰撞。

Short term strategy: 以自己和自己的(或者自己了解的)行业为中心,把自己定位成“带路党”的角色。如果现在还拿着工资,不妨暂时不要考虑“转方向”了。往未来看5年,我感觉没什么方向看起来比别的方向更好。显然未来几年AI需要渗透各个产业。AI会以agent的方式慢慢代替人类,但是这中间会出现大量硬的(软硬件对接)和软的(思维方式,domain know how)问题。也就是这些agent会需要有师傅手把手教。这里面大家需要解决的核心问题是,一方面,需要了解AI的接口;另一方面,怎么把自己行业的问题和语言翻译成AI可以接受的形式。再说得直接一点,就是做benchmark,并且在新版本AI出现的时候测试和改进这些benchmark。IT业发展到今天,consumer market都是大头。然而这波AI的发力点应该会转移到工业和基础科学。

Mid term strategy: 学会新的编程方式。我们现在已经进入魔法时代了。现在的编程语言不再是狭义的编程语言,而是包括所有自然语言和编程语言和机器语言在内的“人类语言”。编程的内容也不再是一行一行写代码,而是会有点像social engineering。很多事情已经不需要实现了,只要说出来 AI就能实现(念咒,召唤AI,所以说我们已经进入魔法时代了)。关键是说的内容得对。所以设计会变得越来越重要。AI会对“知识就是力量”这句话有新的诠释。这种更大的自由度需要更高的思维层次来匹配。“带路党”角色的下一步是指手画脚的“股东”。你不是程序员,不是架构师,甚至不是CEO。这些角色都需要AI来充当。你最好的角色是director,手里有若干AI团队给你干活。当然你经常需要下降到基层进行指手画脚。但是随着AI版本的改进,这种指手画脚的需求会越来越少。我们需要用发展的眼光来看问题,如果按照今天gpt 4o的水平来设计系统,那么这个系统的寿命很可能就是一年。必须看着5年后gpt的水平来设计系统。

Long term strategy: 不管是个人还是社会,都需要准备退休计划, 慢慢从“社会需要我干啥”转变到“我乐意干啥”。从管理者的角度来说,怎么分批把权力交接给AI。从社会层面说,比如显然AI需要取代大部分医生。但是实际操作不能让这些医生一波都失业了。所以政策上需要对医疗领域进行划分(考虑学科年龄,从业者年龄,社会成本等),然后分批次批准AI进入。以后的社会没工作会是大部分人的常态, 需要从没工作可耻的传统思维中解放出来。Andrew Yang was ahead of his time。

先起个头,具体慢慢再聊。
叔的话看看就行,叔只是来娱乐的 :mrgreen: :mrgreen:
webdriver(不折腾不舒服斯基)
知名作家
知名作家
帖子互动: 59
帖子: 1178
注册时间: 2022年 11月 11日 12:30
来自: 火星

#107 Re: 如何在这波产业革命中立足

帖子 webdriver(不折腾不舒服斯基) »

53老将们就别琢磨AI 创业了,还是立足用AI更加高效的摸鱼才是正道,反正过几年干不动了,此时不摸更待何时
magagop
见习点评
见习点评
帖子互动: 95
帖子: 1490
注册时间: 2024年 12月 5日 17:35

#108 Re: 如何在这波产业革命中立足

帖子 magagop »

newstart 写了: 2025年 1月 7日 01:11 "然而这波AI的发力点应该会转移到工业和基础科学",那应该首先盯着的是几个头部的vector database公司吧。这些公司的企业用户迅猛增长才能反映出来。

是不是应该有几个
AI Database的王者難道不應該是微軟?
wass
论坛精英
论坛精英
2024年度优秀版主
wass 的博客
帖子互动: 659
帖子: 6778
注册时间: 2022年 7月 23日 22:13

#109 Re: 如何在这波产业革命中立足

帖子 wass »

magagop 写了: 2025年 1月 7日 12:17 AI Database的王者難道不應該是微軟?
什么产品?
newstart
知名作家
知名作家
帖子互动: 150
帖子: 884
注册时间: 2022年 10月 14日 04:39

#110 Re: 如何在这波产业革命中立足

帖子 newstart »

magagop 写了: 2025年 1月 7日 12:17 AI Database的王者難道不應該是微軟?
不清楚,我只用过Meta的。所以我才问那几个讨论的专家。直觉上应该是某个单独的独角兽才对。
叔的话看看就行,叔只是来娱乐的 :mrgreen: :mrgreen:
fantasist
见习点评
见习点评
帖子互动: 160
帖子: 1366
注册时间: 2022年 7月 24日 19:52

#111 Re: 如何在这波产业革命中立足

帖子 fantasist »

vector db是个典型的死亡赛道,创业是基本不可能的。prototype直接faiss;搭中小型系统,直接开源的Milvus,很可能整个产品周期都根本不需要付费。如果有幸做成large scale,有钱了自然不难找到更成熟的解决方案。
wdong(万事休)楼主
见习作家
见习作家
帖子互动: 92
帖子: 410
注册时间: 2023年 11月 13日 15:13

#112 Re: 如何在这波产业革命中立足

帖子 wdong(万事休)楼主 »

fantasist 写了: 2025年 1月 7日 22:13 vector db是个典型的死亡赛道,创业是基本不可能的。prototype直接faiss;搭中小型系统,直接开源的Milvus,很可能整个产品周期都根本不需要付费。如果有幸做成large scale,有钱了自然不难找到更成熟的解决方案。
说起来我还是vector db其中一路的先驱。高维向量索引是一个非常老的问题,各路算法大神多多少少都碰过,姚期智早年也做过。2005年我开始读博时princeton已经是content-based retrieval的重镇了。各种对象通过手工算法提取特征,然后放到vector db里就可以按内容检索。 但是当时离AlexNet的突破还有五六年时间, 其实检索的效果一直都不尽人意。当时解决vector db的基本架构已经确立了,就是索引算法外加数据压缩算法。索引是缩小搜索空间,压缩则是减少单个对象匹配时的计算量。索引算法主要是两个套路,LSH和tree。2006年师姐吕琴做出来Multi-Probe LSH,解决了LSH需要维护几千个散列表的问题,至今仍是一篇高引用论文。压缩算法一开始叫sketch (就是把对象embed到bit vector,然后可以用位操作进行高速对比)。后来法国人H Jégou搞出来product quantization,并成为了对象压缩算法的主流。Jégou后来到了facebook弄出来了faiss 。到2010年左右,学术界对高维空间索引普遍持悲观态度(curse of dimensionality)。甚至有人发了一篇paper,测出来什么kdtree和各种fancy tree,其实性能都不如用k-means clustering做索引。然后因为brutal force linear scan可以通过体系结构性能优化做得很快,而各种索引一般都依赖random access, 所以很多时候还不如不用。原始的faiss就是不带索引的,只是在压缩后的数据上做linear scan。当时我博士已经读到第五年了,没有任何建树,天天来老论坛这个版灌水。然后某天就突然想出来图算法。LSH虽然快,但是有个很大的问题就是准确度做不上去。2011年我的图算法出来以后直接在Erik Bernhardsson的benchmark上霸榜,可以说是石破天惊。然后俄国人Boytsov迅速接过接力棒把性能提升到了极致(nmslib)。再之后的发展其实都是非常incremental的改进。至今为止所有的高分实现基本上都逃不出图算法的套路。后来我再回过头去做literature survey的时候发现图算法的思路其实日本人早就提过了,但是一直没有引起重视。原因是图算法的基础数据结构是k-NN graph。而构建这个索引图本身要依赖某种vector index, 就成了鸡生蛋蛋生鸡了。我那篇论文则是以一种非常通用的方法把鸡和蛋都解决了。

吹完牛,回过头来说vector db。我觉得RAG是LLM发展早期的一朵浪花而已。Vector db作为RAG的工具,必然也是朵浪花。这里面最主要的原因是,chunking和embedding对于信息及其连续性的损耗是极大的。 Chunking这一步不是AI,然后基于embedding的匹配也不是AI。这两个瓶颈必然会导致整个方案的智能性被拖垮。我觉得目前比较promising的方向是把context做大,然后上面提到的各种思路可能会在context这块换一个形式又出来。

+5.00 积分 [版主 hci 发放的奖励]
x2 图片
上次由 wdong 在 2025年 1月 8日 10:21 修改。
绿竹猗猗
正式会员
正式会员
绿竹猗猗 的博客
帖子互动: 0
帖子: 29
注册时间: 2024年 11月 9日 14:30

#113 Re: 如何在这波产业革命中立足

帖子 绿竹猗猗 »

能贴一下您那篇图算法的论文链接吗?我想学学。谢谢!
wdong 写了: 2025年 1月 8日 09:48 说起来我还是vector db的一路先驱。高维向量索引是一个非常老的问题,各路算法大神多多少少都碰过,姚期智早年也做过。2005年我开始读博时princeton已经是content-based retrieval的重镇了。各种对象通过手工算法提取特征,然后放到vector db里就可以按内容检索。 但是当时还没有CNN, 其实检索的效果一直都不尽人意。当时解决vector db的基本架构已经确立了,就是索引算法外加数据压缩算法。索引是缩小搜索空间,压缩则是减少单个对象匹配时的计算量。索引算法主要是两个套路,LSH和tree。2006年师姐吕琴做出来Multi-Probe LSH,解决了LSH需要维护几千个散列表的问题,至今仍是一篇高引用论文。压缩算法一开始叫sketch (就是把对象embed到bit vector,然后可以用位操作进行高速对比)。后来法国人H Jégou搞出来product quantization,并成为了对象压缩算法的主流。Jégou后来到了facebook弄出来了faiss 。到2010年左右,学术界对高维空间索引普遍持悲观态度(curse of dimensionality)。甚至有人发了一篇paper,测出来什么kdtree和各种fancy tree,其实性能都不如用k-means clustering做索引。然后因为brutal force linear scan可以通过体系结构性能优化做得很快,而各种索引一般都依赖random access, 所以很多时候还不如不用。原始的faiss就是不带索引的,只是在压缩后的数据上做linear scan。当时我博士已经读到第五年了,没有任何建树,天天来老论坛这个版灌水。然后某天就突然想出来图算法。LSH虽然快,但是有个很大的问题就是准确度做不上去。2011年我的图算法出来以后直接在Erik Bernhardsson的benchmark上霸榜,可以说是石破天惊。然后俄国人Boytsov迅速接过接力棒把性能提升到了极致(nmslib)。再之后的发展其实都是非常incremental的改进。至今为止所有的高分实现基本上都逃不出图算法的套路。后来我再回过头去做literature survey的时候发现图算法的思路其实日本人早就提过了,但是一直没有引起重视。原因是图算法的基础数据结构是k-NN graph。而构建这个索引图本身要依赖某种vector index, 就成了鸡生蛋蛋生鸡了。我那篇论文则是以一种非常通用的方法把鸡和蛋都解决了。

吹完牛,回过头来说vector db。我觉得RAG是LLM发展早期的一朵浪花而已。Vector db作为RAG的工具,必然也是朵浪花。这里面最主要的原因是,chunking和embedding对于信息及其连续性的损耗是极大的。 Chunking这一步不是AI,然后基于embedding的匹配也不是AI。这两个瓶颈必然会导致整个方案的智能性被拖垮。我觉得目前比较promising的方向是把context做大,然后上面提到的各种思路可能会在context这块换一个形式又出来。
wdong(万事休)楼主
见习作家
见习作家
帖子互动: 92
帖子: 410
注册时间: 2023年 11月 13日 15:13

#114 Re: 如何在这波产业革命中立足

帖子 wdong(万事休)楼主 »

绿竹猗猗 写了: 2025年 1月 8日 10:06 能贴一下您那篇图算法的论文链接吗?我想学学。谢谢!
https://cs.princeton.edu/cass/papers/www11.pdf

代码 https://github.com/aaalgo/kgraph/

这个算法的厉害之处是,并不依赖被索引对象的具体格式,抽象度极高。需要检索N个对象,只要提供一个计算相似度的回调函数 S(a,b),这个算法就可以跑了(传进去两个对象指针,返回一个表示相似度的数字,越大越好或越小越好都行)。效果怎么样由数据和相似度定义的高维空间自身的几何结构决定, 但是一般都能吊打tree等算法。遗憾的是我数学能力不行,这是个经验算法,没法从数学上对准确度和效率进行证明。
x2 图片
绿竹猗猗
正式会员
正式会员
绿竹猗猗 的博客
帖子互动: 0
帖子: 29
注册时间: 2024年 11月 9日 14:30

#115 Re: 如何在这波产业革命中立足

帖子 绿竹猗猗 »

谢谢!
wdong 写了: 2025年 1月 8日 10:08 https://cs.princeton.edu/cass/papers/www11.pdf

代码 https://github.com/aaalgo/kgraph/

这个算法的厉害之处是,并不依赖被索引对象的具体格式,抽象度极高。需要检索N个对象,只要提供一个计算相似度的回调函数 S(a,b),这个算法就可以跑了(传进去两个对象指针,返回一个表示相似度的数字,越大越好或越小越好都行)。效果怎么样由数据和相似度定义的高维空间自身的几何结构决定, 但是一般都能吊打tree等算法。遗憾的是我数学能力不行,这是个经验算法,没法从数学上对准确度和效率进行证明。
头像
hci(海螺子)
论坛支柱
论坛支柱
帖子互动: 444
帖子: 9841
注册时间: 2022年 7月 22日 15:29

#116 Re: 如何在这波产业革命中立足

帖子 hci(海螺子) »

wdong的kgraph我司用过几年,还是不错的。的确是先驱。

不过,我和你对AI的看法又一次完全相反了。“chunking和embedding对于信息及其连续性的损耗是极大的。”,你觉得这不是智能,我认为这就是能够人造的智能的本质,也就是压缩。

本人的独特认识:不能够人造的智能的本质是逻辑,能够人造的智能的本质是压缩。前者曰“元神”,后者曰“识神”。
wdong 写了: 2025年 1月 8日 09:48 说起来我还是vector db其中一路的先驱。高维向量索引是一个非常老的问题,各路算法大神多多少少都碰过,姚期智早年也做过。2005年我开始读博时princeton已经是content-based retrieval的重镇了。各种对象通过手工算法提取特征,然后放到vector db里就可以按内容检索。 但是当时离AlexNet的突破还有五六年时间, 其实检索的效果一直都不尽人意。当时解决vector db的基本架构已经确立了,就是索引算法外加数据压缩算法。索引是缩小搜索空间,压缩则是减少单个对象匹配时的计算量。索引算法主要是两个套路,LSH和tree。2006年师姐吕琴做出来Multi-Probe LSH,解决了LSH需要维护几千个散列表的问题,至今仍是一篇高引用论文。压缩算法一开始叫sketch (就是把对象embed到bit vector,然后可以用位操作进行高速对比)。后来法国人H Jégou搞出来product quantization,并成为了对象压缩算法的主流。Jégou后来到了facebook弄出来了faiss 。到2010年左右,学术界对高维空间索引普遍持悲观态度(curse of dimensionality)。甚至有人发了一篇paper,测出来什么kdtree和各种fancy tree,其实性能都不如用k-means clustering做索引。然后因为brutal force linear scan可以通过体系结构性能优化做得很快,而各种索引一般都依赖random access, 所以很多时候还不如不用。原始的faiss就是不带索引的,只是在压缩后的数据上做linear scan。当时我博士已经读到第五年了,没有任何建树,天天来老论坛这个版灌水。然后某天就突然想出来图算法。LSH虽然快,但是有个很大的问题就是准确度做不上去。2011年我的图算法出来以后直接在Erik Bernhardsson的benchmark上霸榜,可以说是石破天惊。然后俄国人Boytsov迅速接过接力棒把性能提升到了极致(nmslib)。再之后的发展其实都是非常incremental的改进。至今为止所有的高分实现基本上都逃不出图算法的套路。后来我再回过头去做literature survey的时候发现图算法的思路其实日本人早就提过了,但是一直没有引起重视。原因是图算法的基础数据结构是k-NN graph。而构建这个索引图本身要依赖某种vector index, 就成了鸡生蛋蛋生鸡了。我那篇论文则是以一种非常通用的方法把鸡和蛋都解决了。

吹完牛,回过头来说vector db。我觉得RAG是LLM发展早期的一朵浪花而已。Vector db作为RAG的工具,必然也是朵浪花。这里面最主要的原因是,chunking和embedding对于信息及其连续性的损耗是极大的。 Chunking这一步不是AI,然后基于embedding的匹配也不是AI。这两个瓶颈必然会导致整个方案的智能性被拖垮。我觉得目前比较promising的方向是把context做大,然后上面提到的各种思路可能会在context这块换一个形式又出来。
wdong(万事休)楼主
见习作家
见习作家
帖子互动: 92
帖子: 410
注册时间: 2023年 11月 13日 15:13

#117 Re: 如何在这波产业革命中立足

帖子 wdong(万事休)楼主 »

hci 写了: 2025年 1月 8日 11:41 wdong的kgraph我司用过几年,还是不错的。的确是先驱。

不过,我和你对AI的看法又一次完全相反了。“chunking和embedding对于信息及其连续性的损耗是极大的。”,你觉得这不是智能,我认为这就是能够人造的智能的本质,也就是压缩。

本人的独特认识:不能够人造的智能的本质是逻辑,能够人造的智能的本质是压缩。前者曰“元神”,后者曰“识神”。
认识不一致是好事,等大家思想统一了,那就连我们这些老帮菜都没得混了。
cmrhm2008
职业作家
职业作家
帖子互动: 18
帖子: 515
注册时间: 2023年 5月 25日 14:16

#118 Re: 如何在这波产业革命中立足

帖子 cmrhm2008 »

我现在在尝试做我的领域的benchmark trainner,主要是给LLM喂难题
cmrhm2008
职业作家
职业作家
帖子互动: 18
帖子: 515
注册时间: 2023年 5月 25日 14:16

#119 Re: 如何在这波产业革命中立足

帖子 cmrhm2008 »

wdds 写了: 2025年 1月 5日 19:27 zt


2025 AI agent proliferation 看来AI 的实际business 用要全面铺开了


最近看到两则报道
1)微软 CEO 的大胆预言:“AI Agent将替代所有SaaS”
2)CRM 老板宣布2025停止招收软件工程师,专攻AI agent

对就业和投资的影响会越来越大。
AI agent是谁最先提出来的? 不是Jensen 吗?
cmrhm2008
职业作家
职业作家
帖子互动: 18
帖子: 515
注册时间: 2023年 5月 25日 14:16

#120 Re: 如何在这波产业革命中立足

帖子 cmrhm2008 »

wdong 写了: 2025年 1月 8日 09:48 说起来我还是vector db其中一路的先驱。高维向量索引是一个非常老的问题,各路算法大神多多少少都碰过,姚期智早年也做过。2005年我开始读博时princeton已经是content-based retrieval的重镇了。各种对象通过手工算法提取特征,然后放到vector db里就可以按内容检索。 但是当时离AlexNet的突破还有五六年时间, 其实检索的效果一直都不尽人意。当时解决vector db的基本架构已经确立了,就是索引算法外加数据压缩算法。索引是缩小搜索空间,压缩则是减少单个对象匹配时的计算量。索引算法主要是两个套路,LSH和tree。2006年师姐吕琴做出来Multi-Probe LSH,解决了LSH需要维护几千个散列表的问题,至今仍是一篇高引用论文。压缩算法一开始叫sketch (就是把对象embed到bit vector,然后可以用位操作进行高速对比)。后来法国人H Jégou搞出来product quantization,并成为了对象压缩算法的主流。Jégou后来到了facebook弄出来了faiss 。到2010年左右,学术界对高维空间索引普遍持悲观态度(curse of dimensionality)。甚至有人发了一篇paper,测出来什么kdtree和各种fancy tree,其实性能都不如用k-means clustering做索引。然后因为brutal force linear scan可以通过体系结构性能优化做得很快,而各种索引一般都依赖random access, 所以很多时候还不如不用。原始的faiss就是不带索引的,只是在压缩后的数据上做linear scan。当时我博士已经读到第五年了,没有任何建树,天天来老论坛这个版灌水。然后某天就突然想出来图算法。LSH虽然快,但是有个很大的问题就是准确度做不上去。2011年我的图算法出来以后直接在Erik Bernhardsson的benchmark上霸榜,可以说是石破天惊。然后俄国人Boytsov迅速接过接力棒把性能提升到了极致(nmslib)。再之后的发展其实都是非常incremental的改进。至今为止所有的高分实现基本上都逃不出图算法的套路。后来我再回过头去做literature survey的时候发现图算法的思路其实日本人早就提过了,但是一直没有引起重视。原因是图算法的基础数据结构是k-NN graph。而构建这个索引图本身要依赖某种vector index, 就成了鸡生蛋蛋生鸡了。我那篇论文则是以一种非常通用的方法把鸡和蛋都解决了。

吹完牛,回过头来说vector db。我觉得RAG是LLM发展早期的一朵浪花而已。Vector db作为RAG的工具,必然也是朵浪花。这里面最主要的原因是,chunking和embedding对于信息及其连续性的损耗是极大的。 Chunking这一步不是AI,然后基于embedding的匹配也不是AI。这两个瓶颈必然会导致整个方案的智能性被拖垮。我觉得目前比较promising的方向是把context做大,然后上面提到的各种思路可能会在context这块换一个形式又出来。
真是厉害,Respect!
回复

回到 “葵花宝典(Programming)”