分页: 1 / 1
#1 大模型的工作原理还是高维条件概率分布
发表于 : 2025年 2月 15日 13:56
由 Caravel
学过cs理论的都知道,计算机语言是context free 语言,自然语言则需要context,下一步的输出取决于之前context的条件。
打个比分,大模型学习了金庸的书,就取得了以金庸为条件的,遣词造句的概率分布,他又学习了鲁迅的书,就取得了以鲁迅为条件的遣词造句的概率为分布。
所以作者说用这两个人风格为文章就可以写出来,甚至鲁迅,金庸混合条件概率输出也是肯能的。
下面我就是让 deepseek用一半金庸一半鲁迅的风格输出一段话评论中美关系
沪上弄堂深处,茶馆檐角悬着西洋自鸣钟。穿灰布长衫的老者摆开紫砂壶,忽以判官笔蘸着咖啡在八仙桌上写"战略定力",对面洋装青年反手甩出镀金怀表,表盖上"竞争合作"四字竟是用小篆镌刻。
黄浦江面汽笛声里,隐约听得终南山巅剑鸣——原是华山派使一招"长河落日",华尔街以"熔金掌"相迎。两股罡风相撞,震落满城梧桐叶,叶片背面印着关税清单,正面却拓着熊猫与鹰徽的水印。
码头苦力卸货时,红木箱里青花瓷与硅晶片碎作一堆。戴毡帽的账房先生摇头叹道:"这乾坤大挪移心法,终究练岔了气脉。"忽有报童举着《申报》号外奔过,头版照片里白宫玫瑰园摆着太极石,中南海紫光阁却悬起西部牛仔鞍。
虹口教堂敲晚钟时分,穿中山装的说书人啪地收起折扇:"要知这降龙十八掌如何接住自由女神火炬,且看下回——"话音未落,跑堂已给每位客官斟上半盏龙井半杯威士忌,杯中倒影恍惚凝成南海浪涛与密西西比河的漩涡。(全段298字)
#2 Re: 大模型的工作原理还是高维条件概率分布
发表于 : 2025年 2月 15日 14:16
由 TheMatrix
Caravel 写了: 2025年 2月 15日 13:56
学过cs理论的都知道,计算机语言是context free 语言,自然语言则需要context,下一步的输出取决于之前context的条件。
打个比分,大模型学习了金庸的书,就取得了以金庸为条件的,遣词造句的概率分布,他又学习了鲁迅的书,就取得了以鲁迅为条件的遣词造句的概率为分布。
所以作者说用这两个人风格为文章就可以写出来,甚至鲁迅,金庸混合条件概率输出也是肯能的。
下面我就是让 deepseek用一半金庸一半鲁迅的风格输出一段话评论中美关系
沪上弄堂深处,茶馆檐角悬着西洋自鸣钟。穿灰布长衫的老者摆开紫砂壶,忽以判官笔蘸着咖啡在八仙桌上写"战略定力",对面洋装青年反手甩出镀金怀表,表盖上"竞争合作"四字竟是用小篆镌刻。
黄浦江面汽笛声里,隐约听得终南山巅剑鸣——原是华山派使一招"长河落日",华尔街以"熔金掌"相迎。两股罡风相撞,震落满城梧桐叶,叶片背面印着关税清单,正面却拓着熊猫与鹰徽的水印。
码头苦力卸货时,红木箱里青花瓷与硅晶片碎作一堆。戴毡帽的账房先生摇头叹道:"这乾坤大挪移心法,终究练岔了气脉。"忽有报童举着《申报》号外奔过,头版照片里白宫玫瑰园摆着太极石,中南海紫光阁却悬起西部牛仔鞍。
虹口教堂敲晚钟时分,穿中山装的说书人啪地收起折扇:"要知这降龙十八掌如何接住自由女神火炬,且看下回——"话音未落,跑堂已给每位客官斟上半盏龙井半杯威士忌,杯中倒影恍惚凝成南海浪涛与密西西比河的漩涡。(全段298字)
语言模型的context的建立看来是最容易的,直接把相关信息扔给它就行。
multimodal的context,也就是场景的建立,可能还是很难的。
#3 Re: 大模型的工作原理还是高维条件概率分布
发表于 : 2025年 2月 16日 09:42
由 wdong
Caravel 写了: 2025年 2月 15日 13:56
学过cs理论的都知道,计算机语言是context free 语言,自然语言则需要context,下一步的输出取决于之前context的条件。
打个比分,大模型学习了金庸的书,就取得了以金庸为条件的,遣词造句的概率分布,他又学习了鲁迅的书,就取得了以鲁迅为条件的遣词造句的概率为分布。
所以作者说用这两个人风格为文章就可以写出来,甚至鲁迅,金庸混合条件概率输出也是肯能的。
下面我就是让 deepseek用一半金庸一半鲁迅的风格输出一段话评论中美关系
沪上弄堂深处,茶馆檐角悬着西洋自鸣钟。穿灰布长衫的老者摆开紫砂壶,忽以判官笔蘸着咖啡在八仙桌上写"战略定力",对面洋装青年反手甩出镀金怀表,表盖上"竞争合作"四字竟是用小篆镌刻。
黄浦江面汽笛声里,隐约听得终南山巅剑鸣——原是华山派使一招"长河落日",华尔街以"熔金掌"相迎。两股罡风相撞,震落满城梧桐叶,叶片背面印着关税清单,正面却拓着熊猫与鹰徽的水印。
码头苦力卸货时,红木箱里青花瓷与硅晶片碎作一堆。戴毡帽的账房先生摇头叹道:"这乾坤大挪移心法,终究练岔了气脉。"忽有报童举着《申报》号外奔过,头版照片里白宫玫瑰园摆着太极石,中南海紫光阁却悬起西部牛仔鞍。
虹口教堂敲晚钟时分,穿中山装的说书人啪地收起折扇:"要知这降龙十八掌如何接住自由女神火炬,且看下回——"话音未落,跑堂已给每位客官斟上半盏龙井半杯威士忌,杯中倒影恍惚凝成南海浪涛与密西西比河的漩涡。(全段298字)
我最近查了chomsky那篇论文,明确用了马尔科夫这个字眼。CS那帮人把概率的内容去掉了。其实确实是一回事。但也不是,不然为啥CNN和LLM都是CS搞出来的,也没有明显用到概率的概念?概率学派,特别是贝叶斯,至此完全扑街。
为什么漂亮的理论搞不下去,反而泥腿子突破了,值得深思。
#4 Re: 大模型的工作原理还是高维条件概率分布
发表于 : 2025年 2月 16日 09:52
由 FoxMe
我的理解是,机器学习是从先验概率到后验概率的转换(即贝叶斯)。Generative model中,先验概率来自于训练样本,依后验概率产生内容。但是直接产生高维概率分布是很困难的,一般用个马尔科夫链,分成多步来做(比如diffusion model)。
#5 Re: 大模型的工作原理还是高维条件概率分布
发表于 : 2025年 2月 16日 22:21
由 pseudo
wdong 写了: 2025年 2月 16日 09:42
我最近查了chomsky那篇论文,明确用了马尔科夫这个字眼。CS那帮人把概率的内容去掉了。其实确实是一回事。但也不是,不然为啥CNN和LLM都是CS搞出来的,也没有明显用到概率的概念?概率学派,特别是贝叶斯,至此完全扑街。
为什么漂亮的理论搞不下去,反而泥腿子突破了,值得深思。
搞统计的内心认为语言模型太复杂了,所以这个问题暂时没有好的解决办法。现在只能做些具体语言模型点的建模,为将来做些铺垫。但现在却发现暴力是管用的,这当然打了搞统计人的脸。
过去出现过这种情况,一个暴力算法被发明后,一旦在统计上有了很好的解释后,就会造成这个算法的爆炸性发展。不知道在大模型上,有没有可能重现。
我个人觉得,语言模型太复杂了,这个论断是正确的。统计现有的工具,无论是概率学派还是贝叶斯学派,其实不太适合做大模型的工作。大模型需要的是在系统级别上的分析,这应该算是一个新的学科。
#6 Re: 大模型的工作原理还是高维条件概率分布
发表于 : 2025年 2月 16日 22:53
由 牛河梁
Caravel 写了: 2025年 2月 15日 13:56
学过cs理论的都知道,计算机语言是context free 语言
老牛看来觉得自己没学过西爱死理论
#7 Re: 大模型的工作原理还是高维条件概率分布
发表于 : 2025年 2月 16日 22:58
由 牛河梁
wdong 写了: 2025年 2月 16日 09:42
我最近查了chomsky那篇论文,明确用了马尔科夫这个字眼。CS那帮人把概率的内容去掉了。其实确实是一回事。但也不是,不然为啥CNN和LLM都是CS搞出来的,也没有明显用到概率的概念?概率学派,特别是贝叶斯,至此完全扑街。
为什么漂亮的理论搞不下去,反而泥腿子突破了,值得深思。
老牛记起来20年多前老牛在鳖唯一的传世(据说获奖)水作里面有“马尔科夫”这个字眼。原来这么高大上啊。
Chomsky的哪篇文章。老牛拜读一下。老牛也没用到什么概率概念。
看来老牛当年太不自信了。LoL。
#8 Re: 大模型的工作原理还是高维条件概率分布
发表于 : 2025年 2月 17日 05:38
由 forecasting
wdong 写了: 2025年 2月 16日 09:42
我最近查了chomsky那篇论文,明确用了马尔科夫这个字眼。CS那帮人把概率的内容去掉了。其实确实是一回事。但也不是,不然为啥CNN和LLM都是CS搞出来的,也没有明显用到概率的概念?概率学派,特别是贝叶斯,至此完全扑街。
为什么漂亮的理论搞不下去,反而泥腿子突破了,值得深思。
Chomsky Hierarchy是没啥异议的,它们和自动机以及有限状态马尔科夫链的对应都是定理,也没问题。但Chomsky提出的人类语言机制(自然语言)虽然有一些理论支持,但带着一些假设(他认为已经证明了的假设)。所以是不是正确刻画了人类自然语言的机制,还没法确定。他的论文是Three models for decription of languages?
#9 Re: 大模型的工作原理还是高维条件概率分布
发表于 : 2025年 2月 17日 09:29
由 wdong
forecasting 写了: 2025年 2月 17日 05:38
Chomsky Hierarchy是没啥异议的,它们和自动机以及有限状态马尔科夫链的对应都是定理,也没问题。但Chomsky提出的人类语言机制(自然语言)虽然有一些理论支持,但带着一些假设(他认为已经证明了的假设)。所以是不是正确刻画了人类自然语言的机制,还没法确定。他的论文是Three models for decription of languages?
就是那篇。
#10 Re: 大模型的工作原理还是高维条件概率分布
发表于 : 2025年 2月 17日 11:29
由 netflix
我有一点不明白,让AI生成文字可以用概率来解释。但是,AI解数学题不是概率吧
#11 Re: 大模型的工作原理还是高维条件概率分布
发表于 : 2025年 2月 17日 12:21
由 hahan
netflix 写了: 2025年 2月 17日 11:29
我有一点不明白,让AI生成文字可以用概率来解释。但是,AI解数学题不是概率吧
就是概率
和抛硬币组合解题一个意思
只要你的硬币足够多
按某些人的说法这叫神经网络能够逻辑运算
#12 Re: 大模型的工作原理还是高维条件概率分布
发表于 : 2025年 2月 20日 13:23
由 牛河梁
hahan 写了: 2025年 2月 17日 12:21
就是概率
和抛硬币组合解题一个意思
只要你的硬币足够多
按某些人的说法这叫神经网络能够逻辑运算
你别被忽悠进沟里去了。
他们搞领导船可能一流。
#13 Re: 大模型的工作原理还是高维条件概率分布
发表于 : 2025年 2月 20日 17:38
由 TheMatrix
netflix 写了: 2025年 2月 17日 11:29
我有一点不明白,让AI生成文字可以用概率来解释。但是,AI解数学题不是概率吧
AI解数学题可以看成是:罗列解题路径,在其中找到最大概率的,然后按这个路径走下来。它不保证正确。
#14 Re: 大模型的工作原理还是高维条件概率分布
发表于 : 2025年 2月 20日 20:57
由 heteroclinic
是你被心理暗示接受其为你的预期。是幻象的选择,不是
实相的物理运动。解释很多个梨吃
#15 Re: 大模型的工作原理还是高维条件概率分布
发表于 : 2025年 2月 20日 21:01
由 heteroclinic
这个维度也没有正交规范基能拿得出来,既不是数学,也不是cs,是心理学,是种粘性blob
#16 Re: 大模型的工作原理还是高维条件概率分布
发表于 : 2025年 2月 20日 21:04
由 heteroclinic
DS: Ah, I see! In shell scripting, a blob (or more accurately, a glob pattern) refers to a string of characters used for filename expansion or pathname matching. It’s a way to match filenames or paths using wildcard characters, rather than using formal regular expressions.
you are trapped by the wildcards of mirage.
#17 Re: 大模型的工作原理还是高维条件概率分布
发表于 : 2025年 2月 20日 21:06
由 heteroclinic
我的预期是用它解决我的问题,赚到钱。prove it