大模型的工作原理还是高维条件概率分布
版主: verdelite, TheMatrix
-
- 论坛元老
Caravel 的博客 - 帖子互动: 560
- 帖子: 24533
- 注册时间: 2022年 7月 24日 17:21
#1 大模型的工作原理还是高维条件概率分布
学过cs理论的都知道,计算机语言是context free 语言,自然语言则需要context,下一步的输出取决于之前context的条件。
打个比分,大模型学习了金庸的书,就取得了以金庸为条件的,遣词造句的概率分布,他又学习了鲁迅的书,就取得了以鲁迅为条件的遣词造句的概率为分布。
所以作者说用这两个人风格为文章就可以写出来,甚至鲁迅,金庸混合条件概率输出也是肯能的。
下面我就是让 deepseek用一半金庸一半鲁迅的风格输出一段话评论中美关系
沪上弄堂深处,茶馆檐角悬着西洋自鸣钟。穿灰布长衫的老者摆开紫砂壶,忽以判官笔蘸着咖啡在八仙桌上写"战略定力",对面洋装青年反手甩出镀金怀表,表盖上"竞争合作"四字竟是用小篆镌刻。
黄浦江面汽笛声里,隐约听得终南山巅剑鸣——原是华山派使一招"长河落日",华尔街以"熔金掌"相迎。两股罡风相撞,震落满城梧桐叶,叶片背面印着关税清单,正面却拓着熊猫与鹰徽的水印。
码头苦力卸货时,红木箱里青花瓷与硅晶片碎作一堆。戴毡帽的账房先生摇头叹道:"这乾坤大挪移心法,终究练岔了气脉。"忽有报童举着《申报》号外奔过,头版照片里白宫玫瑰园摆着太极石,中南海紫光阁却悬起西部牛仔鞍。
虹口教堂敲晚钟时分,穿中山装的说书人啪地收起折扇:"要知这降龙十八掌如何接住自由女神火炬,且看下回——"话音未落,跑堂已给每位客官斟上半盏龙井半杯威士忌,杯中倒影恍惚凝成南海浪涛与密西西比河的漩涡。(全段298字)
打个比分,大模型学习了金庸的书,就取得了以金庸为条件的,遣词造句的概率分布,他又学习了鲁迅的书,就取得了以鲁迅为条件的遣词造句的概率为分布。
所以作者说用这两个人风格为文章就可以写出来,甚至鲁迅,金庸混合条件概率输出也是肯能的。
下面我就是让 deepseek用一半金庸一半鲁迅的风格输出一段话评论中美关系
沪上弄堂深处,茶馆檐角悬着西洋自鸣钟。穿灰布长衫的老者摆开紫砂壶,忽以判官笔蘸着咖啡在八仙桌上写"战略定力",对面洋装青年反手甩出镀金怀表,表盖上"竞争合作"四字竟是用小篆镌刻。
黄浦江面汽笛声里,隐约听得终南山巅剑鸣——原是华山派使一招"长河落日",华尔街以"熔金掌"相迎。两股罡风相撞,震落满城梧桐叶,叶片背面印着关税清单,正面却拓着熊猫与鹰徽的水印。
码头苦力卸货时,红木箱里青花瓷与硅晶片碎作一堆。戴毡帽的账房先生摇头叹道:"这乾坤大挪移心法,终究练岔了气脉。"忽有报童举着《申报》号外奔过,头版照片里白宫玫瑰园摆着太极石,中南海紫光阁却悬起西部牛仔鞍。
虹口教堂敲晚钟时分,穿中山装的说书人啪地收起折扇:"要知这降龙十八掌如何接住自由女神火炬,且看下回——"话音未落,跑堂已给每位客官斟上半盏龙井半杯威士忌,杯中倒影恍惚凝成南海浪涛与密西西比河的漩涡。(全段298字)
x3

标签/Tags:
-
- 论坛支柱
2024年度优秀版主
TheMatrix 的博客 - 帖子互动: 264
- 帖子: 13241
- 注册时间: 2022年 7月 26日 00:35
#2 Re: 大模型的工作原理还是高维条件概率分布
语言模型的context的建立看来是最容易的,直接把相关信息扔给它就行。Caravel 写了: 2025年 2月 15日 13:56 学过cs理论的都知道,计算机语言是context free 语言,自然语言则需要context,下一步的输出取决于之前context的条件。
打个比分,大模型学习了金庸的书,就取得了以金庸为条件的,遣词造句的概率分布,他又学习了鲁迅的书,就取得了以鲁迅为条件的遣词造句的概率为分布。
所以作者说用这两个人风格为文章就可以写出来,甚至鲁迅,金庸混合条件概率输出也是肯能的。
下面我就是让 deepseek用一半金庸一半鲁迅的风格输出一段话评论中美关系
沪上弄堂深处,茶馆檐角悬着西洋自鸣钟。穿灰布长衫的老者摆开紫砂壶,忽以判官笔蘸着咖啡在八仙桌上写"战略定力",对面洋装青年反手甩出镀金怀表,表盖上"竞争合作"四字竟是用小篆镌刻。
黄浦江面汽笛声里,隐约听得终南山巅剑鸣——原是华山派使一招"长河落日",华尔街以"熔金掌"相迎。两股罡风相撞,震落满城梧桐叶,叶片背面印着关税清单,正面却拓着熊猫与鹰徽的水印。
码头苦力卸货时,红木箱里青花瓷与硅晶片碎作一堆。戴毡帽的账房先生摇头叹道:"这乾坤大挪移心法,终究练岔了气脉。"忽有报童举着《申报》号外奔过,头版照片里白宫玫瑰园摆着太极石,中南海紫光阁却悬起西部牛仔鞍。
虹口教堂敲晚钟时分,穿中山装的说书人啪地收起折扇:"要知这降龙十八掌如何接住自由女神火炬,且看下回——"话音未落,跑堂已给每位客官斟上半盏龙井半杯威士忌,杯中倒影恍惚凝成南海浪涛与密西西比河的漩涡。(全段298字)
multimodal的context,也就是场景的建立,可能还是很难的。
x1

#3 Re: 大模型的工作原理还是高维条件概率分布
我最近查了chomsky那篇论文,明确用了马尔科夫这个字眼。CS那帮人把概率的内容去掉了。其实确实是一回事。但也不是,不然为啥CNN和LLM都是CS搞出来的,也没有明显用到概率的概念?概率学派,特别是贝叶斯,至此完全扑街。Caravel 写了: 2025年 2月 15日 13:56 学过cs理论的都知道,计算机语言是context free 语言,自然语言则需要context,下一步的输出取决于之前context的条件。
打个比分,大模型学习了金庸的书,就取得了以金庸为条件的,遣词造句的概率分布,他又学习了鲁迅的书,就取得了以鲁迅为条件的遣词造句的概率为分布。
所以作者说用这两个人风格为文章就可以写出来,甚至鲁迅,金庸混合条件概率输出也是肯能的。
下面我就是让 deepseek用一半金庸一半鲁迅的风格输出一段话评论中美关系
沪上弄堂深处,茶馆檐角悬着西洋自鸣钟。穿灰布长衫的老者摆开紫砂壶,忽以判官笔蘸着咖啡在八仙桌上写"战略定力",对面洋装青年反手甩出镀金怀表,表盖上"竞争合作"四字竟是用小篆镌刻。
黄浦江面汽笛声里,隐约听得终南山巅剑鸣——原是华山派使一招"长河落日",华尔街以"熔金掌"相迎。两股罡风相撞,震落满城梧桐叶,叶片背面印着关税清单,正面却拓着熊猫与鹰徽的水印。
码头苦力卸货时,红木箱里青花瓷与硅晶片碎作一堆。戴毡帽的账房先生摇头叹道:"这乾坤大挪移心法,终究练岔了气脉。"忽有报童举着《申报》号外奔过,头版照片里白宫玫瑰园摆着太极石,中南海紫光阁却悬起西部牛仔鞍。
虹口教堂敲晚钟时分,穿中山装的说书人啪地收起折扇:"要知这降龙十八掌如何接住自由女神火炬,且看下回——"话音未落,跑堂已给每位客官斟上半盏龙井半杯威士忌,杯中倒影恍惚凝成南海浪涛与密西西比河的漩涡。(全段298字)
为什么漂亮的理论搞不下去,反而泥腿子突破了,值得深思。
x1

#4 Re: 大模型的工作原理还是高维条件概率分布
我的理解是,机器学习是从先验概率到后验概率的转换(即贝叶斯)。Generative model中,先验概率来自于训练样本,依后验概率产生内容。但是直接产生高维概率分布是很困难的,一般用个马尔科夫链,分成多步来做(比如diffusion model)。
-
- 论坛点评
pseudo 的博客 - 帖子互动: 140
- 帖子: 2579
- 注册时间: 2022年 7月 28日 10:04
#5 Re: 大模型的工作原理还是高维条件概率分布
搞统计的内心认为语言模型太复杂了,所以这个问题暂时没有好的解决办法。现在只能做些具体语言模型点的建模,为将来做些铺垫。但现在却发现暴力是管用的,这当然打了搞统计人的脸。wdong 写了: 2025年 2月 16日 09:42 我最近查了chomsky那篇论文,明确用了马尔科夫这个字眼。CS那帮人把概率的内容去掉了。其实确实是一回事。但也不是,不然为啥CNN和LLM都是CS搞出来的,也没有明显用到概率的概念?概率学派,特别是贝叶斯,至此完全扑街。
为什么漂亮的理论搞不下去,反而泥腿子突破了,值得深思。
过去出现过这种情况,一个暴力算法被发明后,一旦在统计上有了很好的解释后,就会造成这个算法的爆炸性发展。不知道在大模型上,有没有可能重现。
我个人觉得,语言模型太复杂了,这个论断是正确的。统计现有的工具,无论是概率学派还是贝叶斯学派,其实不太适合做大模型的工作。大模型需要的是在系统级别上的分析,这应该算是一个新的学科。
#7 Re: 大模型的工作原理还是高维条件概率分布
老牛记起来20年多前老牛在鳖唯一的传世(据说获奖)水作里面有“马尔科夫”这个字眼。原来这么高大上啊。wdong 写了: 2025年 2月 16日 09:42 我最近查了chomsky那篇论文,明确用了马尔科夫这个字眼。CS那帮人把概率的内容去掉了。其实确实是一回事。但也不是,不然为啥CNN和LLM都是CS搞出来的,也没有明显用到概率的概念?概率学派,特别是贝叶斯,至此完全扑街。
为什么漂亮的理论搞不下去,反而泥腿子突破了,值得深思。
Chomsky的哪篇文章。老牛拜读一下。老牛也没用到什么概率概念。
看来老牛当年太不自信了。LoL。
#8 Re: 大模型的工作原理还是高维条件概率分布
Chomsky Hierarchy是没啥异议的,它们和自动机以及有限状态马尔科夫链的对应都是定理,也没问题。但Chomsky提出的人类语言机制(自然语言)虽然有一些理论支持,但带着一些假设(他认为已经证明了的假设)。所以是不是正确刻画了人类自然语言的机制,还没法确定。他的论文是Three models for decription of languages?wdong 写了: 2025年 2月 16日 09:42 我最近查了chomsky那篇论文,明确用了马尔科夫这个字眼。CS那帮人把概率的内容去掉了。其实确实是一回事。但也不是,不然为啥CNN和LLM都是CS搞出来的,也没有明显用到概率的概念?概率学派,特别是贝叶斯,至此完全扑街。
为什么漂亮的理论搞不下去,反而泥腿子突破了,值得深思。
#9 Re: 大模型的工作原理还是高维条件概率分布
就是那篇。forecasting 写了: 2025年 2月 17日 05:38 Chomsky Hierarchy是没啥异议的,它们和自动机以及有限状态马尔科夫链的对应都是定理,也没问题。但Chomsky提出的人类语言机制(自然语言)虽然有一些理论支持,但带着一些假设(他认为已经证明了的假设)。所以是不是正确刻画了人类自然语言的机制,还没法确定。他的论文是Three models for decription of languages?
-
- 论坛支柱
2024年度优秀版主
TheMatrix 的博客 - 帖子互动: 264
- 帖子: 13241
- 注册时间: 2022年 7月 26日 00:35
-
- 著名点评
heteroclinic 的博客 - 帖子互动: 38
- 帖子: 3792
- 注册时间: 2022年 10月 31日 00:35
-
- 著名点评
heteroclinic 的博客 - 帖子互动: 38
- 帖子: 3792
- 注册时间: 2022年 10月 31日 00:35
-
- 著名点评
heteroclinic 的博客 - 帖子互动: 38
- 帖子: 3792
- 注册时间: 2022年 10月 31日 00:35
#16 Re: 大模型的工作原理还是高维条件概率分布
DS: Ah, I see! In shell scripting, a blob (or more accurately, a glob pattern) refers to a string of characters used for filename expansion or pathname matching. It’s a way to match filenames or paths using wildcard characters, rather than using formal regular expressions.
you are trapped by the wildcards of mirage.
you are trapped by the wildcards of mirage.
-
- 著名点评
heteroclinic 的博客 - 帖子互动: 38
- 帖子: 3792
- 注册时间: 2022年 10月 31日 00:35