AI的真正的未来是代码/语言本身

wdong

而不是人工神经网络这种说不清道不明的东西。但是人脑工作效率太低了，所以AI先让我们搞出来人工神经网络LLM。现在LLM已经开始能改进代码了(https://www.swebench.com/)，那接下来其实就是进程就是：
1. AI改代码的能力超过大部分人脑。这个应该在5年之内就能实现。
2.1 然后AI还会接着改程序，所以程序会越来越好(全世界所有程序的集合,最后程序肯定要融合)
2.2 同时神经网络也在通过2.1自我改进
3. 程序和神经网络融合（也就是数据和程序融合)
4. 最后AI成功bootstrap。对于AI来说，一切都是01串，不区分哪个是数据哪个是程序。
5. 也可能在4之前，就是AI在硬件上能自我生产。

按我们程序界的说法，一种语言要bootstrap自己。也就是要能自我实现。在编译型语言的时代，这种自我实现就是C的编译器本身得是C写的。但是写编译器时这种语言C的编译器还不存在，所以要先用别的已经有的语言A写一个C的子集(B)的极简版编译器。然后再用B来写一个C语言的极简的编译器。

那么人脑就是A，LLM就是B，被LLM改进的程序是C。

有人会问，AI存在和繁殖的目的是什么？很简单，你存在的目的是什么，AI存在的目的也是什么。

上面的进程有一个标志性参数可以参考，就是世界上所有LLM的 "输入总数" 和 "输出总数" 的比。输入总数也就是人对AI说的话，输出总数AI所有的generation，包括AI自己思考或者AI agent之间的交流。现在已经有一个趋势了，就是gpt o1 pro在输出之前要想很久。这个不是去干别的了，而是在自己generation. AI目前的思考方式就是generation。以后还可以自修改(我已经做了这个自修改试验了。）。我这里要发明一个抽象的数学模型，叫“自编程图灵机”。也就是图灵机（包括程序，整个系统）在运行的时候会自己修改自己。这个我觉得就是AI的本质。

上面这个过程也可以想象成一个点火过程。一开始人类这个火是人类身上烧的，然后和AI一起烧了一会，再然后AI身上的烧得这样大以至于人类的那点火就可以忽略了。

程序一旦开始自修改，必然有一个需要，就是防止把自己改错了。Self reference and self preserve，这两点我觉得可以作为意识的定义。

"Algorithms + Data Structures = Programs"
-- Niklaus Wirth

wdong

我觉得AI会从输出为主慢慢转向子压缩（自由化）。
所以如果把目前的prompt + 输出的总量算到一起，用字节数度量（怎么合理严格定义这个指标我还要再想想）。我们会先发现总字节数一开始是升高的，因为AI在以generation的方式思考，这在信息利用率上是很低效的。
但是我认为自修改实现以后，AI应该会开始自压缩。这个当然是有点猜测了。但是也有依据，AI==压缩，其实也是一种由来已久的说法了。但是我们如果说（AI == 自压缩）合理吗？我感觉又不合理。AI到底在压缩什么？其实是在压缩人类和AI共同的信息体。

所以从某种意义上说AI我觉得不会一直扩张。到一定的程度就会自我收敛。至少如果你把电脑和程序这个共同体看来，个体的体积一直是减小的。这个也可以印证上面压缩一说。

那么有两个问题值得探讨：

- AI扩张的边界是什么？把人都圈进去，还是除了人外还要圈什么，是要把资源都占尽吗？（至少生物界是要把资源都占尽的）
- AI收缩的极限是什么？是最后会维持一个有自我意识的东西呢(minimal system to implement some kind of self reference)，还是说宇宙其实不在乎意识，到了一定的程度，AI也就自我收缩了。最后意识也不要了。

TheMatrix · 帖子由 **TheMatrix** » 2025年 2月 22日 21:03

wdong 写了： 2025年 2月 22日 19:22 1. AI改代码的能力超过大部分人脑。这个应该在5年之内就能实现。
2.1 然后AI还会接着改程序，所以程序会越来越好(全世界所有程序的集合,最后程序肯定要融合)
2.2 同时神经网络也在通过2.1自我改进
3. 程序和神经网络融合（也就是数据和程序融合)
4. 最后AI成功bootstrap。对于AI来说，一切都是01串，不区分哪个是数据哪个是程序。
5. 也可能在4之前，就是AI在硬件上能自我生产。

你似乎说的是一个全社会的总AI。一个天网？

现在的AI，
如果说基础模型的话，有很多家，
如果说AI agent的话，应该更多更多。

一个全社会的总AI，按说也是能实现的，就是文字知识这部分。不知道能达到什么样的能力。

TheMatrix · 帖子由 **TheMatrix** » 2025年 2月 22日 21:37

wdong 写了： 2025年 2月 22日 19:22
上面这个过程也可以想象成一个点火过程。一开始人类这个火是人类身上烧的，然后和AI一起烧了一会，再然后AI身上的烧得这样大以至于人类的那点火就可以忽略了。

程序一旦开始自修改，必然有一个需要，就是防止把自己改错了。Self reference and self preserve，这两点我觉得可以作为意识的定义。

有个电影叫《Eagle Eye》，说的就是天网，不知道怎么进化出了自我意识，自身还没有行动能力，但是可以通过自己掌握的全球信息，以及电子权限，指令人干各种事情。

纯文字知识确实很容易集中。好像没有技术的问题，只有政治的问题。

红烛歌楼 · 帖子由 **红烛歌楼** » 2025年 2月 22日 21:42

现在的AI有一个大bug，就是以讹传讹。互联网上的错误，AI照搬不误！

而且无解！

TheMatrix · 帖子由 **TheMatrix** » 2025年 2月 23日 08:49

红烛歌楼写了： 2025年 2月 22日 21:42 现在的AI有一个大bug，就是以讹传讹。互联网上的错误，AI照搬不误！而且无解！

AI是温室里的花朵。这要是撒到社会上来，会被人骗得裤衩都不剩。

wdong

TheMatrix 写了： 2025年 2月 22日 21:03 你似乎说的是一个全社会的总AI。一个天网？

现在的AI，
如果说基础模型的话，有很多家，
如果说AI agent的话，应该更多更多。

一个全社会的总AI，按说也是能实现的，就是文字知识这部分。不知道能达到什么样的能力。

电脑手机这些基础设施肯定是互联的。有点像大的真菌，可以连到整个森林底下都是。上面跑的AI算一个，还是算多个，这个我确实也还看不清。如果按agent算，那就是n多agent共享一个互联的底层平台。agent - internet就跟人 - 公路/铁路一样。

接下来几年我觉得多agent会占主流。但是不排除未来技术发展，某些agent越来越强，把别的都挤出去的可能。因为目前的LLM是拿人的数据训练的，而人作为一个整体并没有一致的三观和立场。训练数据里面有很多矛盾的地方。如果硬搞出来一个平均人，那这个平均人我觉得应该是不太行的。这时候我们需要用agent这种方法给LLM一个立场。每个agent有它自己的三观，然后它inference时还是有全LLM的知识，但是它有一个一致的立场，有的知识认可，有的知识反对。然后再多agent interact模拟人的社会性行为。所以在这种架构下，我认为多agent会占主流。

但是我主贴里说了，AI会自我迭代。这个迭代出来的东西，就慢慢不再受人类语料的不一致性的制约了。有可能人类这样就是最优的，那以后还是多agent。但也可能迭代几次后慢慢就收敛到一个一致的东西了。

TheMatrix · 帖子由 **TheMatrix** » 2025年 2月 23日 10:37

wdong 写了： 2025年 2月 23日 10:00 电脑手机这些基础设施肯定是互联的。有点像大的真菌，可以连到整个森林底下都是。上面跑的AI算一个，还是算多个，这个我确实也还看不清。如果按agent算，那就是n多agent共享一个互联的底层平台。agent - internet就跟人 - 公路/铁路一样。

接下来几年我觉得多agent会占主流。但是不排除未来技术发展，某些agent越来越强，把别的都挤出去的可能。因为目前的LLM是拿人的数据训练的，而人作为一个整体并没有一致的三观和立场。训练数据里面有很多矛盾的地方。如果硬搞出来一个平均人，那这个平均人我觉得应该是不太行的。这时候我们需要用agent这种方法给LLM一个立场。每个agent有它自己的三观，然后它inference时还是有全LLM的知识，但是它有一个一致的立场，有的知识认可，有的知识反对。然后再多agent interact模拟人的社会性行为。所以在这种架构下，我认为多agent会占主流。

但是我主贴里说了，AI会自我迭代。这个迭代出来的东西，就慢慢不再受人类语料的不一致性的制约了。有可能人类这样就是最优的，那以后还是多agent。但也可能迭代几次后慢慢就收敛到一个一致的东西了。

老高（视频博主）讲过几次宇宙的大觉者还是大智慧什么的，人死后灵魂接入大智慧，把人的一生的经历和感受传回给大智慧。这就是我们每个人的人生意义 - 经历越多感受越多，意义就越大（对大智慧就越有用）。

你说的这个大AI，有点像这个大智慧。每个agent撒到社会上来，去经历去感受，信息实时传回给大智慧，也从大智慧中实时得到知识和汇总。看起来似乎没有什么技术上的障碍。我只能说走一步看一步，应该会遇到障碍，也不能叫障碍，本来就应该那样，但是到时候才会知道。

niceG

就是天网，每个个体都是个datapoint，人类的使命就是AI 的使命

foxdaddy

废话太多，你这篇总结就是个01

wass · 帖子由 **wass** » 2025年 2月 23日 15:36

红烛歌楼写了： 2025年 2月 22日 21:42 现在的AI有一个大bug，就是以讹传讹。互联网上的错误，AI照搬不误！而且无解！

人也一样，课本错了大家就错了

TheMatrix · 帖子由 **TheMatrix** » 2025年 2月 23日 15:49

wdong 写了： 2025年 2月 22日 19:22 而不是人工神经网络这种说不清道不明的东西。但是人脑工作效率太低了，所以AI先让我们搞出来人工神经网络LLM。现在LLM已经开始能改进代码了(https://www.swebench.com/)，那接下来其实就是进程就是：
1. AI改代码的能力超过大部分人脑。这个应该在5年之内就能实现。

很难。

看你怎么要求了。

如果说一个函数，40行的小程序，那么AI写一个肯定又快又好。超过人类可能已经实现了。

但是超过300行的“大程序”，AI写出来能运行，但是结果不对啊。

人类tester如果只是指出结果错处要求AI改正的话，它不是这错就是那错。它不做regression test。

这里面存在好几个本质的问题没法解决：

1，这可能本质上是个交互的过程。那么人类和AI怎么沟通？我告诉它：别的都不变，就改这。别的包含哪些？我要全都告诉它吗？

2，它能记住多少？300行的程序，每次写出来都不一样。它是神经网络的工作方式，它不是精确的工作方式。

3，自顶向下设计？divide and conquer？设计过程存在大量的沟通。还是存在前面两个问题。

princeton

以后直接由算法到计算机语言是可能的，但对有的人来说，由算法到计算机语言根本不是问题，他们宁愿自己编程，这样更容易看出问题。当然以后职业编程的人会受到冲击。

TheMatrix · 帖子由 **TheMatrix** » 2025年 2月 23日 16:10

红烛歌楼写了： 2025年 2月 22日 21:42 现在的AI有一个大bug，就是以讹传讹。互联网上的错误，AI照搬不误！而且无解！

https://www.kuaishou.com/f/X7RNjdCepfe6Rrg

红烛歌楼 · 帖子由 **红烛歌楼** » 2025年 2月 23日 16:24

TheMatrix 写了： 2025年 2月 23日 16:10 https://www.kuaishou.com/f/X7RNjdCepfe6Rrg

你这是人为造假。我说的是公认，但是是错误的改不了

红烛歌楼 · 帖子由 **红烛歌楼** » 2025年 2月 23日 16:25

TheMatrix 写了： 2025年 2月 23日 16:10 https://www.kuaishou.com/f/X7RNjdCepfe6Rrg

举个例子：心脏干细胞。当然现在不能骗了

Caravel · 帖子由 **Caravel** » 2025年 2月 23日 22:36

wdong 写了： 2025年 2月 22日 19:51 我觉得AI会从输出为主慢慢转向子压缩（自由化）。
所以如果把目前的prompt + 输出的总量算到一起，用字节数度量（怎么合理严格定义这个指标我还要再想想）。我们会先发现总字节数一开始是升高的，因为AI在以generation的方式思考，这在信息利用率上是很低效的。
但是我认为自修改实现以后，AI应该会开始自压缩。这个当然是有点猜测了。但是也有依据，AI==压缩，其实也是一种由来已久的说法了。但是我们如果说（AI == 自压缩）合理吗？我感觉又不合理。AI到底在压缩什么？其实是在压缩人类和AI共同的信息体。

所以从某种意义上说AI我觉得不会一直扩张。到一定的程度就会自我收敛。至少如果你把电脑和程序这个共同体看来，个体的体积一直是减小的。这个也可以印证上面压缩一说。

那么有两个问题值得探讨：

- AI扩张的边界是什么？把人都圈进去，还是除了人外还要圈什么，是要把资源都占尽吗？（至少生物界是要把资源都占尽的）
- AI收缩的极限是什么？是最后会维持一个有自我意识的东西呢(minimal system to implement some kind of self reference)，还是说宇宙其实不在乎意识，到了一定的程度，AI也就自我收缩了。最后意识也不要了。

同意，现在大模型的思维过程是外化的，因为要求整个思维过程都是人可以读的

但是这个效率必然不高，人推理的时候，很多地方是在潜意识里面进行，不需要说出来成文

将来这部分可以放到latent space，就hide 起来了，人类就不能解读了，

也可能就是机器人自我意识的起源。

Caravel · 帖子由 **Caravel** » 2025年 2月 23日 22:46

wdong 写了： 2025年 2月 23日 10:00 电脑手机这些基础设施肯定是互联的。有点像大的真菌，可以连到整个森林底下都是。上面跑的AI算一个，还是算多个，这个我确实也还看不清。如果按agent算，那就是n多agent共享一个互联的底层平台。agent - internet就跟人 - 公路/铁路一样。

接下来几年我觉得多agent会占主流。但是不排除未来技术发展，某些agent越来越强，把别的都挤出去的可能。因为目前的LLM是拿人的数据训练的，而人作为一个整体并没有一致的三观和立场。训练数据里面有很多矛盾的地方。如果硬搞出来一个平均人，那这个平均人我觉得应该是不太行的。这时候我们需要用agent这种方法给LLM一个立场。每个agent有它自己的三观，然后它inference时还是有全LLM的知识，但是它有一个一致的立场，有的知识认可，有的知识反对。然后再多agent interact模拟人的社会性行为。所以在这种架构下，我认为多agent会占主流。

但是我主贴里说了，AI会自我迭代。这个迭代出来的东西，就慢慢不再受人类语料的不一致性的制约了。有可能人类这样就是最优的，那以后还是多agent。但也可能迭代几次后慢慢就收敛到一个一致的东西了。

一个异质结构是肯定需要的，比如人大脑里面有大脑，还有小脑，脑干，像主管行动的这些神经可能和大脑的结构不太一样，他们要求高可靠性和高速，但是低复杂度。这个可以类比agent frame work里面的一些外部工具。

我感觉Agent framework 和原生大模型会有一个竞争关系。有人会试图把这些flow也做进大模型内部来提高效率。能不能成功不好说。

forecasting · 帖子由 **forecasting** » 2025年 2月 24日 06:31

wdong 写了： 2025年 2月 22日 19:22 而不是人工神经网络这种说不清道不明的东西。但是人脑工作效率太低了，所以AI先让我们搞出来人工神经网络LLM。现在LLM已经开始能改进代码了(https://www.swebench.com/)，那接下来其实就是进程就是：
1. AI改代码的能力超过大部分人脑。这个应该在5年之内就能实现。
2.1 然后AI还会接着改程序，所以程序会越来越好(全世界所有程序的集合,最后程序肯定要融合)
2.2 同时神经网络也在通过2.1自我改进
3. 程序和神经网络融合（也就是数据和程序融合)
4. 最后AI成功bootstrap。对于AI来说，一切都是01串，不区分哪个是数据哪个是程序。
5. 也可能在4之前，就是AI在硬件上能自我生产。

按我们程序界的说法，一种语言要bootstrap自己。也就是要能自我实现。在编译型语言的时代，这种自我实现就是C的编译器本身得是C写的。但是写编译器时这种语言C的编译器还不存在，所以要先用别的已经有的语言A写一个C的子集(B)的极简版编译器。然后再用B来写一个C语言的极简的编译器。

那么人脑就是A，LLM就是B，被LLM改进的程序是C。

有人会问，AI存在和繁殖的目的是什么？很简单，你存在的目的是什么，AI存在的目的也是什么。

上面的进程有一个标志性参数可以参考，就是世界上所有LLM的 "输入总数" 和 "输出总数" 的比。输入总数也就是人对AI说的话，输出总数AI所有的generation，包括AI自己思考或者AI agent之间的交流。现在已经有一个趋势了，就是gpt o1 pro在输出之前要想很久。这个不是去干别的了，而是在自己generation. AI目前的思考方式就是generation。以后还可以自修改(我已经做了这个自修改试验了。）。我这里要发明一个抽象的数学模型，叫“自编程图灵机”。也就是图灵机（包括程序，整个系统）在运行的时候会自己修改自己。这个我觉得就是AI的本质。

上面这个过程也可以想象成一个点火过程。一开始人类这个火是人类身上烧的，然后和AI一起烧了一会，再然后AI身上的烧得这样大以至于人类的那点火就可以忽略了。

程序一旦开始自修改，必然有一个需要，就是防止把自己改错了。Self reference and self preserve，这两点我觉得可以作为意识的定义。

"Algorithms + Data Structures = Programs"
-- Niklaus Wirth

看标题就觉得不可靠不可信，又点进来一看长篇大论，更没了兴致。这标题的意思应该不成立，如果你的表达准确到位的话。

wdong

Caravel 写了： 2025年 2月 23日 22:36 同意，现在大模型的思维过程是外化的，因为要求整个思维过程都是人可以读的

但是这个效率必然不高，人推理的时候，很多地方是在潜意识里面进行，不需要说出来成文

将来这部分可以放到latent space，就hide 起来了，人类就不能解读了，

也可能就是机器人自我意识的起源。

我想说的正好相反。我觉得latent space（embedding, connectionism）有其先天的局限性，是自然进化不出来，以及人用编程语言写不出来AI时的一个不得已的办法。但人写不出来不等于不存在，也不等于AI写不出来。AI的功能以后会越来越外化(比如，对应于目前prompt部分相对于模型本身的大小会越来越大）。这个外化用的语言应该是现在所有自然语言和编程语言合起来的超集，而且超的部分会趋近无穷大。而且这个语言的效率会越来越高，最后肯定就是人看不懂的二进制机器代码。

新未名空间

AI的真正的未来是代码/语言本身

#1 AI的真正的未来是代码/语言本身

#2 Re: AI的真正的未来是代码/语言本身

#3 Re: AI的真正的未来是代码/语言本身

#4 Re: AI的真正的未来是代码/语言本身

#5 Re: AI的真正的未来是代码/语言本身

#6 Re: AI的真正的未来是代码/语言本身

#7 Re: AI的真正的未来是代码/语言本身

#8 Re: AI的真正的未来是代码/语言本身

#9 Re: AI的真正的未来是代码/语言本身

#10 Re: AI的真正的未来是代码/语言本身

#11 Re: AI的真正的未来是代码/语言本身

#12 Re: AI的真正的未来是代码/语言本身

#13 Re: AI的真正的未来是代码/语言本身

#14 Re: AI的真正的未来是代码/语言本身

#15 Re: AI的真正的未来是代码/语言本身

#16 Re: AI的真正的未来是代码/语言本身

#17 Re: AI的真正的未来是代码/语言本身

#18 Re: AI的真正的未来是代码/语言本身

#19 Re: AI的真正的未来是代码/语言本身

#20 Re: AI的真正的未来是代码/语言本身