大模型的工作原理还是高维条件概率分布

STEM版,合并数学,物理,化学,科学,工程,机械。不包括生物、医学相关,和计算机相关内容。

版主: verdeliteTheMatrix

回复
Caravel楼主
论坛元老
论坛元老
Caravel 的博客
帖子互动: 560
帖子: 24533
注册时间: 2022年 7月 24日 17:21

#1 大模型的工作原理还是高维条件概率分布

帖子 Caravel楼主 »

学过cs理论的都知道,计算机语言是context free 语言,自然语言则需要context,下一步的输出取决于之前context的条件。

打个比分,大模型学习了金庸的书,就取得了以金庸为条件的,遣词造句的概率分布,他又学习了鲁迅的书,就取得了以鲁迅为条件的遣词造句的概率为分布。

所以作者说用这两个人风格为文章就可以写出来,甚至鲁迅,金庸混合条件概率输出也是肯能的。

下面我就是让 deepseek用一半金庸一半鲁迅的风格输出一段话评论中美关系

沪上弄堂深处,茶馆檐角悬着西洋自鸣钟。穿灰布长衫的老者摆开紫砂壶,忽以判官笔蘸着咖啡在八仙桌上写"战略定力",对面洋装青年反手甩出镀金怀表,表盖上"竞争合作"四字竟是用小篆镌刻。

黄浦江面汽笛声里,隐约听得终南山巅剑鸣——原是华山派使一招"长河落日",华尔街以"熔金掌"相迎。两股罡风相撞,震落满城梧桐叶,叶片背面印着关税清单,正面却拓着熊猫与鹰徽的水印。

码头苦力卸货时,红木箱里青花瓷与硅晶片碎作一堆。戴毡帽的账房先生摇头叹道:"这乾坤大挪移心法,终究练岔了气脉。"忽有报童举着《申报》号外奔过,头版照片里白宫玫瑰园摆着太极石,中南海紫光阁却悬起西部牛仔鞍。

虹口教堂敲晚钟时分,穿中山装的说书人啪地收起折扇:"要知这降龙十八掌如何接住自由女神火炬,且看下回——"话音未落,跑堂已给每位客官斟上半盏龙井半杯威士忌,杯中倒影恍惚凝成南海浪涛与密西西比河的漩涡。(全段298字)
x3 图片

标签/Tags:
头像
TheMatrix
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 264
帖子: 13241
注册时间: 2022年 7月 26日 00:35

#2 Re: 大模型的工作原理还是高维条件概率分布

帖子 TheMatrix »

Caravel 写了: 2025年 2月 15日 13:56 学过cs理论的都知道,计算机语言是context free 语言,自然语言则需要context,下一步的输出取决于之前context的条件。

打个比分,大模型学习了金庸的书,就取得了以金庸为条件的,遣词造句的概率分布,他又学习了鲁迅的书,就取得了以鲁迅为条件的遣词造句的概率为分布。

所以作者说用这两个人风格为文章就可以写出来,甚至鲁迅,金庸混合条件概率输出也是肯能的。

下面我就是让 deepseek用一半金庸一半鲁迅的风格输出一段话评论中美关系

沪上弄堂深处,茶馆檐角悬着西洋自鸣钟。穿灰布长衫的老者摆开紫砂壶,忽以判官笔蘸着咖啡在八仙桌上写"战略定力",对面洋装青年反手甩出镀金怀表,表盖上"竞争合作"四字竟是用小篆镌刻。

黄浦江面汽笛声里,隐约听得终南山巅剑鸣——原是华山派使一招"长河落日",华尔街以"熔金掌"相迎。两股罡风相撞,震落满城梧桐叶,叶片背面印着关税清单,正面却拓着熊猫与鹰徽的水印。

码头苦力卸货时,红木箱里青花瓷与硅晶片碎作一堆。戴毡帽的账房先生摇头叹道:"这乾坤大挪移心法,终究练岔了气脉。"忽有报童举着《申报》号外奔过,头版照片里白宫玫瑰园摆着太极石,中南海紫光阁却悬起西部牛仔鞍。

虹口教堂敲晚钟时分,穿中山装的说书人啪地收起折扇:"要知这降龙十八掌如何接住自由女神火炬,且看下回——"话音未落,跑堂已给每位客官斟上半盏龙井半杯威士忌,杯中倒影恍惚凝成南海浪涛与密西西比河的漩涡。(全段298字)
语言模型的context的建立看来是最容易的,直接把相关信息扔给它就行。

multimodal的context,也就是场景的建立,可能还是很难的。
x1 图片
wdong(万事休)
见习作家
见习作家
帖子互动: 92
帖子: 410
注册时间: 2023年 11月 13日 15:13

#3 Re: 大模型的工作原理还是高维条件概率分布

帖子 wdong(万事休) »

Caravel 写了: 2025年 2月 15日 13:56 学过cs理论的都知道,计算机语言是context free 语言,自然语言则需要context,下一步的输出取决于之前context的条件。

打个比分,大模型学习了金庸的书,就取得了以金庸为条件的,遣词造句的概率分布,他又学习了鲁迅的书,就取得了以鲁迅为条件的遣词造句的概率为分布。

所以作者说用这两个人风格为文章就可以写出来,甚至鲁迅,金庸混合条件概率输出也是肯能的。

下面我就是让 deepseek用一半金庸一半鲁迅的风格输出一段话评论中美关系

沪上弄堂深处,茶馆檐角悬着西洋自鸣钟。穿灰布长衫的老者摆开紫砂壶,忽以判官笔蘸着咖啡在八仙桌上写"战略定力",对面洋装青年反手甩出镀金怀表,表盖上"竞争合作"四字竟是用小篆镌刻。

黄浦江面汽笛声里,隐约听得终南山巅剑鸣——原是华山派使一招"长河落日",华尔街以"熔金掌"相迎。两股罡风相撞,震落满城梧桐叶,叶片背面印着关税清单,正面却拓着熊猫与鹰徽的水印。

码头苦力卸货时,红木箱里青花瓷与硅晶片碎作一堆。戴毡帽的账房先生摇头叹道:"这乾坤大挪移心法,终究练岔了气脉。"忽有报童举着《申报》号外奔过,头版照片里白宫玫瑰园摆着太极石,中南海紫光阁却悬起西部牛仔鞍。

虹口教堂敲晚钟时分,穿中山装的说书人啪地收起折扇:"要知这降龙十八掌如何接住自由女神火炬,且看下回——"话音未落,跑堂已给每位客官斟上半盏龙井半杯威士忌,杯中倒影恍惚凝成南海浪涛与密西西比河的漩涡。(全段298字)
我最近查了chomsky那篇论文,明确用了马尔科夫这个字眼。CS那帮人把概率的内容去掉了。其实确实是一回事。但也不是,不然为啥CNN和LLM都是CS搞出来的,也没有明显用到概率的概念?概率学派,特别是贝叶斯,至此完全扑街。

为什么漂亮的理论搞不下去,反而泥腿子突破了,值得深思。
x1 图片
FoxMe(令狐)
论坛精英
论坛精英
帖子互动: 143
帖子: 5300
注册时间: 2022年 7月 26日 16:46

#4 Re: 大模型的工作原理还是高维条件概率分布

帖子 FoxMe(令狐) »

我的理解是,机器学习是从先验概率到后验概率的转换(即贝叶斯)。Generative model中,先验概率来自于训练样本,依后验概率产生内容。但是直接产生高维概率分布是很困难的,一般用个马尔科夫链,分成多步来做(比如diffusion model)。
头像
pseudo(small man)
论坛点评
论坛点评
pseudo 的博客
帖子互动: 140
帖子: 2579
注册时间: 2022年 7月 28日 10:04

#5 Re: 大模型的工作原理还是高维条件概率分布

帖子 pseudo(small man) »

wdong 写了: 2025年 2月 16日 09:42 我最近查了chomsky那篇论文,明确用了马尔科夫这个字眼。CS那帮人把概率的内容去掉了。其实确实是一回事。但也不是,不然为啥CNN和LLM都是CS搞出来的,也没有明显用到概率的概念?概率学派,特别是贝叶斯,至此完全扑街。

为什么漂亮的理论搞不下去,反而泥腿子突破了,值得深思。
搞统计的内心认为语言模型太复杂了,所以这个问题暂时没有好的解决办法。现在只能做些具体语言模型点的建模,为将来做些铺垫。但现在却发现暴力是管用的,这当然打了搞统计人的脸。

过去出现过这种情况,一个暴力算法被发明后,一旦在统计上有了很好的解释后,就会造成这个算法的爆炸性发展。不知道在大模型上,有没有可能重现。

我个人觉得,语言模型太复杂了,这个论断是正确的。统计现有的工具,无论是概率学派还是贝叶斯学派,其实不太适合做大模型的工作。大模型需要的是在系统级别上的分析,这应该算是一个新的学科。
头像
牛河梁(别问我是谁)
论坛元老
论坛元老
2023年度十大优秀网友
2024年度优秀版主
牛河梁 的博客
帖子互动: 1488
帖子: 26770
注册时间: 2022年 11月 17日 21:21
联系:

#6 Re: 大模型的工作原理还是高维条件概率分布

帖子 牛河梁(别问我是谁) »

Caravel 写了: 2025年 2月 15日 13:56 学过cs理论的都知道,计算机语言是context free 语言
老牛看来觉得自己没学过西爱死理论
头像
牛河梁(别问我是谁)
论坛元老
论坛元老
2023年度十大优秀网友
2024年度优秀版主
牛河梁 的博客
帖子互动: 1488
帖子: 26770
注册时间: 2022年 11月 17日 21:21
联系:

#7 Re: 大模型的工作原理还是高维条件概率分布

帖子 牛河梁(别问我是谁) »

wdong 写了: 2025年 2月 16日 09:42 我最近查了chomsky那篇论文,明确用了马尔科夫这个字眼。CS那帮人把概率的内容去掉了。其实确实是一回事。但也不是,不然为啥CNN和LLM都是CS搞出来的,也没有明显用到概率的概念?概率学派,特别是贝叶斯,至此完全扑街。

为什么漂亮的理论搞不下去,反而泥腿子突破了,值得深思。
老牛记起来20年多前老牛在鳖唯一的传世(据说获奖)水作里面有“马尔科夫”这个字眼。原来这么高大上啊。

Chomsky的哪篇文章。老牛拜读一下。老牛也没用到什么概率概念。

看来老牛当年太不自信了。LoL。
forecasting
著名点评
著名点评
帖子互动: 296
帖子: 4101
注册时间: 2023年 4月 17日 08:26

#8 Re: 大模型的工作原理还是高维条件概率分布

帖子 forecasting »

wdong 写了: 2025年 2月 16日 09:42 我最近查了chomsky那篇论文,明确用了马尔科夫这个字眼。CS那帮人把概率的内容去掉了。其实确实是一回事。但也不是,不然为啥CNN和LLM都是CS搞出来的,也没有明显用到概率的概念?概率学派,特别是贝叶斯,至此完全扑街。

为什么漂亮的理论搞不下去,反而泥腿子突破了,值得深思。
Chomsky Hierarchy是没啥异议的,它们和自动机以及有限状态马尔科夫链的对应都是定理,也没问题。但Chomsky提出的人类语言机制(自然语言)虽然有一些理论支持,但带着一些假设(他认为已经证明了的假设)。所以是不是正确刻画了人类自然语言的机制,还没法确定。他的论文是Three models for decription of languages?
wdong(万事休)
见习作家
见习作家
帖子互动: 92
帖子: 410
注册时间: 2023年 11月 13日 15:13

#9 Re: 大模型的工作原理还是高维条件概率分布

帖子 wdong(万事休) »

forecasting 写了: 2025年 2月 17日 05:38 Chomsky Hierarchy是没啥异议的,它们和自动机以及有限状态马尔科夫链的对应都是定理,也没问题。但Chomsky提出的人类语言机制(自然语言)虽然有一些理论支持,但带着一些假设(他认为已经证明了的假设)。所以是不是正确刻画了人类自然语言的机制,还没法确定。他的论文是Three models for decription of languages?
就是那篇。
netflix(nf)
论坛元老
论坛元老
帖子互动: 928
帖子: 21868
注册时间: 2022年 8月 2日 04:48

#10 Re: 大模型的工作原理还是高维条件概率分布

帖子 netflix(nf) »

我有一点不明白,让AI生成文字可以用概率来解释。但是,AI解数学题不是概率吧
hahan
论坛元老
论坛元老
hahan 的博客
帖子互动: 828
帖子: 18019
注册时间: 2022年 7月 23日 23:48

#11 Re: 大模型的工作原理还是高维条件概率分布

帖子 hahan »

netflix 写了: 2025年 2月 17日 11:29 我有一点不明白,让AI生成文字可以用概率来解释。但是,AI解数学题不是概率吧
就是概率
和抛硬币组合解题一个意思
只要你的硬币足够多
按某些人的说法这叫神经网络能够逻辑运算
急急如丧家之犬
忙忙似漏网之鱼
头像
牛河梁(别问我是谁)
论坛元老
论坛元老
2023年度十大优秀网友
2024年度优秀版主
牛河梁 的博客
帖子互动: 1488
帖子: 26770
注册时间: 2022年 11月 17日 21:21
联系:

#12 Re: 大模型的工作原理还是高维条件概率分布

帖子 牛河梁(别问我是谁) »

hahan 写了: 2025年 2月 17日 12:21 就是概率
和抛硬币组合解题一个意思
只要你的硬币足够多
按某些人的说法这叫神经网络能够逻辑运算
你别被忽悠进沟里去了。

他们搞领导船可能一流。
头像
TheMatrix
论坛支柱
论坛支柱
2024年度优秀版主
TheMatrix 的博客
帖子互动: 264
帖子: 13241
注册时间: 2022年 7月 26日 00:35

#13 Re: 大模型的工作原理还是高维条件概率分布

帖子 TheMatrix »

netflix 写了: 2025年 2月 17日 11:29 我有一点不明白,让AI生成文字可以用概率来解释。但是,AI解数学题不是概率吧
AI解数学题可以看成是:罗列解题路径,在其中找到最大概率的,然后按这个路径走下来。它不保证正确。
heteroclinic(Heteroclinic)
著名点评
著名点评
heteroclinic 的博客
帖子互动: 38
帖子: 3792
注册时间: 2022年 10月 31日 00:35

#14 Re: 大模型的工作原理还是高维条件概率分布

帖子 heteroclinic(Heteroclinic) »

是你被心理暗示接受其为你的预期。是幻象的选择,不是
实相的物理运动。解释很多个梨吃
heteroclinic(Heteroclinic)
著名点评
著名点评
heteroclinic 的博客
帖子互动: 38
帖子: 3792
注册时间: 2022年 10月 31日 00:35

#15 Re: 大模型的工作原理还是高维条件概率分布

帖子 heteroclinic(Heteroclinic) »

这个维度也没有正交规范基能拿得出来,既不是数学,也不是cs,是心理学,是种粘性blob
heteroclinic(Heteroclinic)
著名点评
著名点评
heteroclinic 的博客
帖子互动: 38
帖子: 3792
注册时间: 2022年 10月 31日 00:35

#16 Re: 大模型的工作原理还是高维条件概率分布

帖子 heteroclinic(Heteroclinic) »

DS: Ah, I see! In shell scripting, a blob (or more accurately, a glob pattern) refers to a string of characters used for filename expansion or pathname matching. It’s a way to match filenames or paths using wildcard characters, rather than using formal regular expressions.

you are trapped by the wildcards of mirage.
heteroclinic(Heteroclinic)
著名点评
著名点评
heteroclinic 的博客
帖子互动: 38
帖子: 3792
注册时间: 2022年 10月 31日 00:35

#17 Re: 大模型的工作原理还是高维条件概率分布

帖子 heteroclinic(Heteroclinic) »

我的预期是用它解决我的问题,赚到钱。prove it
回复

回到 “STEM”