大模型的工作原理还是高维条件概率分布

Caravel · 帖子由 **Caravel楼主** » 2025年 2月 15日 13:56

学过cs理论的都知道，计算机语言是context free 语言，自然语言则需要context，下一步的输出取决于之前context的条件。

打个比分，大模型学习了金庸的书，就取得了以金庸为条件的，遣词造句的概率分布，他又学习了鲁迅的书，就取得了以鲁迅为条件的遣词造句的概率为分布。

所以作者说用这两个人风格为文章就可以写出来，甚至鲁迅，金庸混合条件概率输出也是肯能的。

下面我就是让 deepseek用一半金庸一半鲁迅的风格输出一段话评论中美关系

沪上弄堂深处，茶馆檐角悬着西洋自鸣钟。穿灰布长衫的老者摆开紫砂壶，忽以判官笔蘸着咖啡在八仙桌上写"战略定力"，对面洋装青年反手甩出镀金怀表，表盖上"竞争合作"四字竟是用小篆镌刻。

黄浦江面汽笛声里，隐约听得终南山巅剑鸣——原是华山派使一招"长河落日"，华尔街以"熔金掌"相迎。两股罡风相撞，震落满城梧桐叶，叶片背面印着关税清单，正面却拓着熊猫与鹰徽的水印。

码头苦力卸货时，红木箱里青花瓷与硅晶片碎作一堆。戴毡帽的账房先生摇头叹道："这乾坤大挪移心法，终究练岔了气脉。"忽有报童举着《申报》号外奔过，头版照片里白宫玫瑰园摆着太极石，中南海紫光阁却悬起西部牛仔鞍。

虹口教堂敲晚钟时分，穿中山装的说书人啪地收起折扇："要知这降龙十八掌如何接住自由女神火炬，且看下回——"话音未落，跑堂已给每位客官斟上半盏龙井半杯威士忌，杯中倒影恍惚凝成南海浪涛与密西西比河的漩涡。（全段298字）

TheMatrix · 帖子由 **TheMatrix** » 2025年 2月 15日 14:16

Caravel 写了： 2025年 2月 15日 13:56 学过cs理论的都知道，计算机语言是context free 语言，自然语言则需要context，下一步的输出取决于之前context的条件。

打个比分，大模型学习了金庸的书，就取得了以金庸为条件的，遣词造句的概率分布，他又学习了鲁迅的书，就取得了以鲁迅为条件的遣词造句的概率为分布。

所以作者说用这两个人风格为文章就可以写出来，甚至鲁迅，金庸混合条件概率输出也是肯能的。

下面我就是让 deepseek用一半金庸一半鲁迅的风格输出一段话评论中美关系

沪上弄堂深处，茶馆檐角悬着西洋自鸣钟。穿灰布长衫的老者摆开紫砂壶，忽以判官笔蘸着咖啡在八仙桌上写"战略定力"，对面洋装青年反手甩出镀金怀表，表盖上"竞争合作"四字竟是用小篆镌刻。

黄浦江面汽笛声里，隐约听得终南山巅剑鸣——原是华山派使一招"长河落日"，华尔街以"熔金掌"相迎。两股罡风相撞，震落满城梧桐叶，叶片背面印着关税清单，正面却拓着熊猫与鹰徽的水印。

码头苦力卸货时，红木箱里青花瓷与硅晶片碎作一堆。戴毡帽的账房先生摇头叹道："这乾坤大挪移心法，终究练岔了气脉。"忽有报童举着《申报》号外奔过，头版照片里白宫玫瑰园摆着太极石，中南海紫光阁却悬起西部牛仔鞍。

虹口教堂敲晚钟时分，穿中山装的说书人啪地收起折扇："要知这降龙十八掌如何接住自由女神火炬，且看下回——"话音未落，跑堂已给每位客官斟上半盏龙井半杯威士忌，杯中倒影恍惚凝成南海浪涛与密西西比河的漩涡。（全段298字）

语言模型的context的建立看来是最容易的，直接把相关信息扔给它就行。

multimodal的context，也就是场景的建立，可能还是很难的。

wdong

Caravel 写了： 2025年 2月 15日 13:56 学过cs理论的都知道，计算机语言是context free 语言，自然语言则需要context，下一步的输出取决于之前context的条件。

打个比分，大模型学习了金庸的书，就取得了以金庸为条件的，遣词造句的概率分布，他又学习了鲁迅的书，就取得了以鲁迅为条件的遣词造句的概率为分布。

所以作者说用这两个人风格为文章就可以写出来，甚至鲁迅，金庸混合条件概率输出也是肯能的。

下面我就是让 deepseek用一半金庸一半鲁迅的风格输出一段话评论中美关系

沪上弄堂深处，茶馆檐角悬着西洋自鸣钟。穿灰布长衫的老者摆开紫砂壶，忽以判官笔蘸着咖啡在八仙桌上写"战略定力"，对面洋装青年反手甩出镀金怀表，表盖上"竞争合作"四字竟是用小篆镌刻。

黄浦江面汽笛声里，隐约听得终南山巅剑鸣——原是华山派使一招"长河落日"，华尔街以"熔金掌"相迎。两股罡风相撞，震落满城梧桐叶，叶片背面印着关税清单，正面却拓着熊猫与鹰徽的水印。

码头苦力卸货时，红木箱里青花瓷与硅晶片碎作一堆。戴毡帽的账房先生摇头叹道："这乾坤大挪移心法，终究练岔了气脉。"忽有报童举着《申报》号外奔过，头版照片里白宫玫瑰园摆着太极石，中南海紫光阁却悬起西部牛仔鞍。

虹口教堂敲晚钟时分，穿中山装的说书人啪地收起折扇："要知这降龙十八掌如何接住自由女神火炬，且看下回——"话音未落，跑堂已给每位客官斟上半盏龙井半杯威士忌，杯中倒影恍惚凝成南海浪涛与密西西比河的漩涡。（全段298字）

我最近查了chomsky那篇论文，明确用了马尔科夫这个字眼。CS那帮人把概率的内容去掉了。其实确实是一回事。但也不是，不然为啥CNN和LLM都是CS搞出来的，也没有明显用到概率的概念？概率学派，特别是贝叶斯，至此完全扑街。

为什么漂亮的理论搞不下去，反而泥腿子突破了，值得深思。

FoxMe · 帖子由 **FoxMe（令狐）** » 2025年 2月 16日 09:52

我的理解是，机器学习是从先验概率到后验概率的转换（即贝叶斯）。Generative model中，先验概率来自于训练样本，依后验概率产生内容。但是直接产生高维概率分布是很困难的，一般用个马尔科夫链，分成多步来做（比如diffusion model）。

pseudo

wdong 写了： 2025年 2月 16日 09:42 我最近查了chomsky那篇论文，明确用了马尔科夫这个字眼。CS那帮人把概率的内容去掉了。其实确实是一回事。但也不是，不然为啥CNN和LLM都是CS搞出来的，也没有明显用到概率的概念？概率学派，特别是贝叶斯，至此完全扑街。

为什么漂亮的理论搞不下去，反而泥腿子突破了，值得深思。

搞统计的内心认为语言模型太复杂了，所以这个问题暂时没有好的解决办法。现在只能做些具体语言模型点的建模，为将来做些铺垫。但现在却发现暴力是管用的，这当然打了搞统计人的脸。

过去出现过这种情况，一个暴力算法被发明后，一旦在统计上有了很好的解释后，就会造成这个算法的爆炸性发展。不知道在大模型上，有没有可能重现。

我个人觉得，语言模型太复杂了，这个论断是正确的。统计现有的工具，无论是概率学派还是贝叶斯学派，其实不太适合做大模型的工作。大模型需要的是在系统级别上的分析，这应该算是一个新的学科。

牛河梁

Caravel 写了： 2025年 2月 15日 13:56 学过cs理论的都知道，计算机语言是context free 语言

老牛看来觉得自己没学过西爱死理论

牛河梁

wdong 写了： 2025年 2月 16日 09:42 我最近查了chomsky那篇论文，明确用了马尔科夫这个字眼。CS那帮人把概率的内容去掉了。其实确实是一回事。但也不是，不然为啥CNN和LLM都是CS搞出来的，也没有明显用到概率的概念？概率学派，特别是贝叶斯，至此完全扑街。

为什么漂亮的理论搞不下去，反而泥腿子突破了，值得深思。

老牛记起来20年多前老牛在鳖唯一的传世（据说获奖）水作里面有“马尔科夫”这个字眼。原来这么高大上啊。

Chomsky的哪篇文章。老牛拜读一下。老牛也没用到什么概率概念。

看来老牛当年太不自信了。LoL。

forecasting · 帖子由 **forecasting** » 2025年 2月 17日 05:38

wdong 写了： 2025年 2月 16日 09:42 我最近查了chomsky那篇论文，明确用了马尔科夫这个字眼。CS那帮人把概率的内容去掉了。其实确实是一回事。但也不是，不然为啥CNN和LLM都是CS搞出来的，也没有明显用到概率的概念？概率学派，特别是贝叶斯，至此完全扑街。

为什么漂亮的理论搞不下去，反而泥腿子突破了，值得深思。

Chomsky Hierarchy是没啥异议的，它们和自动机以及有限状态马尔科夫链的对应都是定理，也没问题。但Chomsky提出的人类语言机制（自然语言）虽然有一些理论支持，但带着一些假设（他认为已经证明了的假设）。所以是不是正确刻画了人类自然语言的机制，还没法确定。他的论文是Three models for decription of languages？

wdong

forecasting 写了： 2025年 2月 17日 05:38 Chomsky Hierarchy是没啥异议的，它们和自动机以及有限状态马尔科夫链的对应都是定理，也没问题。但Chomsky提出的人类语言机制（自然语言）虽然有一些理论支持，但带着一些假设（他认为已经证明了的假设）。所以是不是正确刻画了人类自然语言的机制，还没法确定。他的论文是Three models for decription of languages？

就是那篇。

netflix · 帖子由 **netflix（nf）** » 2025年 2月 17日 11:29

我有一点不明白，让AI生成文字可以用概率来解释。但是，AI解数学题不是概率吧

hahan · 帖子由 **hahan** » 2025年 2月 17日 12:21

netflix 写了： 2025年 2月 17日 11:29 我有一点不明白，让AI生成文字可以用概率来解释。但是，AI解数学题不是概率吧

就是概率
和抛硬币组合解题一个意思
只要你的硬币足够多
按某些人的说法这叫神经网络能够逻辑运算

牛河梁

hahan 写了： 2025年 2月 17日 12:21 就是概率
和抛硬币组合解题一个意思
只要你的硬币足够多
按某些人的说法这叫神经网络能够逻辑运算

你别被忽悠进沟里去了。

他们搞领导船可能一流。

TheMatrix · 帖子由 **TheMatrix** » 2025年 2月 20日 17:38

netflix 写了： 2025年 2月 17日 11:29 我有一点不明白，让AI生成文字可以用概率来解释。但是，AI解数学题不是概率吧

AI解数学题可以看成是：罗列解题路径，在其中找到最大概率的，然后按这个路径走下来。它不保证正确。

heteroclinic

是你被心理暗示接受其为你的预期。是幻象的选择,不是
实相的物理运动。解释很多个梨吃

heteroclinic

这个维度也没有正交规范基能拿得出来,既不是数学,也不是cs,是心理学,是种粘性blob

heteroclinic

DS: Ah, I see! In shell scripting, a blob (or more accurately, a glob pattern) refers to a string of characters used for filename expansion or pathname matching. It’s a way to match filenames or paths using wildcard characters, rather than using formal regular expressions.

you are trapped by the wildcards of mirage.

heteroclinic

我的预期是用它解决我的问题,赚到钱。prove it

新未名空间

大模型的工作原理还是高维条件概率分布

#1 大模型的工作原理还是高维条件概率分布

#2 Re: 大模型的工作原理还是高维条件概率分布

#3 Re: 大模型的工作原理还是高维条件概率分布

#4 Re: 大模型的工作原理还是高维条件概率分布

#5 Re: 大模型的工作原理还是高维条件概率分布

#6 Re: 大模型的工作原理还是高维条件概率分布

#7 Re: 大模型的工作原理还是高维条件概率分布

#8 Re: 大模型的工作原理还是高维条件概率分布

#9 Re: 大模型的工作原理还是高维条件概率分布

#10 Re: 大模型的工作原理还是高维条件概率分布

#11 Re: 大模型的工作原理还是高维条件概率分布

#12 Re: 大模型的工作原理还是高维条件概率分布

#13 Re: 大模型的工作原理还是高维条件概率分布

#14 Re: 大模型的工作原理还是高维条件概率分布

#15 Re: 大模型的工作原理还是高维条件概率分布

#16 Re: 大模型的工作原理还是高维条件概率分布

#17 Re: 大模型的工作原理还是高维条件概率分布