Hinton的博士导师

STEM版,合并数学,物理,化学,科学,工程,机械。不包括生物、医学相关,和计算机相关内容。

版主: verdeliteTheMatrix

forecasting
著名点评
著名点评
帖子互动: 297
帖子: 4110
注册时间: 2023年 4月 17日 08:26

#21 Re: Hinton的博士导师

帖子 forecasting »

hci 写了: 2024年 10月 14日 11:20 哈哈哈,当你知道Hinton是个心理学家之后,他就不是个聪明人了。那咋没把奖发给聪明人呢?

真正公认的深学之父是frank rosenblatt,就更是一个心理学家了,1956年康乃尔心理系博士毕业,也是研究知觉的。两年后,在《心理学评论》发表了他关于"知觉机"的文章,一举奠定DNN的基础。现在神经网络的基本方法,包括吹的牛皮,都是他发明的。哈哈。无非是他死得早,1971年就出事故死亡了,你们不知道而己。

看看我老对genAI的历史现状和未来展望的talk吧,看不懂的我可以答疑。在心理所讲的,视频没有公开,也太长了,我讲了三个多小时,用中文讲的,slides倒是英文。

https://www.slideshare.net/slideshow/genaipdf/260536464

其实我讲的这些,对心理系的同学,大都是符合他们理解的常理的。当时我讲完,我的师姐(其实是与我同年心理所硕士入学的,同一个导师,她是武大数学系本科,但她年龄比我大很多,所以我叫她师姐),现在是心理所的党委书记,说她唯一从我这学到的,是总算听我讲明白了“attention is all your need"一文里面的attention到底是啥意思。她说她问了计算所的很多人,都没讲明白,我一讲,她就明白了,原来就是心理学里面的attention,只不过是外源性的那种。我老的硕士论文,就是研究内源性和外源性注意在视觉中的作用的,题目就叫《内源性和外源性视觉选择性注意》,哈哈。所以我一读transformer这个文,就看清楚了它的本质。而学计算机的人只知道公式,不知道那到底是在干什么,用处是什么,所以也不能给别人讲明白,哈哈。我老的厉害之处,就在于总能把复杂的技术问题,用简单的语言讲得让一个聪明人茅塞顿开。我的清华学霸老婆,当年是我助教班上的学生,就是这么看上我的。哈哈。所以我坚信,一个东西,如果不能给一个聪明人讲明白,说明自己还不明白。其实“明白”的本意,就是化繁为简。老子曰,大道至简。

这么说把,深学发展到现在,里面用到的techinique,就没有超出一个认知心理学基础扎实的学生学到的东西的范畴的,都是觉得自然的东西。

深学要在理论上进一步突破,就需要有心理学学生力所不能及的数学,具体我也给你们说了,就是information theory on geometric structures。这个我老碰过,力不能及,走不下去了。我老当年从烂校information science法考题一举跳到CS殿堂级研究机构,就是因为认识到了这个方向,一个talk,就语惊四座,立马给了我一个offer. 这个领域,唯一相关的现有研究,就是日本数学家Amari搞的information geometry(也就LSTM发明人争论的发明backprop的那位日本数学家)。但我觉得他搞得过于复杂了,其实应该反过来,geometric information theory会更简单,也才是我们需要的。但用到的数学工具,应该差不多。我以前请教过一个同事,中国人,数学博士专门研究information geometry的,他说这个很难。既然他都这么说,我就放弃了。他是码工,不过写码很烂,跟我老不能比。他当年被招来的原因,也是因为招他的人,一个印度人,觉得information geometry有前途。这位后来因为发明sentiment analysis这个领域,成了ibm fellow,他也是学数学出身的,其实是数学世家,他的祖辈是最早发现阿马努金,介绍给哈代的。

其实只要搞AI,搞深下去, 最后大家对方向的认识差不了太远,英雄所见略同。当然了,最后为了生计,大部分人都得干别的。Hinton的独特之处,在于坚持,这个我们大家都比不上他。可他是根正苗红的白皮,没有生存危机。我们中国人印度人都没有这种奢侈。

如上面所说,认知科学的真正原理,如果最后真正被理解了,应该是非常简单的,大致就是利用空间的对称性进行信息压缩。具体的方向,我也指出了,就是空间上的信息学。但这个方向,我唯一公开发表的相关文章,因为整个理论总是被拒,发不了,就发了一篇留下实验去掉理论的文章。但这个文章目前是零引用,0。只有一个出版社让我把它扩充一下,变成了一本书里的一章。就是这篇:

https://web-archive.southampton.ac.uk/c ... 2-yang.pdf
给你一点阳光你就灿烂!真能吹!
神经网络起源于仿生,你笨死了!
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 563
帖子: 24656
注册时间: 2022年 7月 24日 17:21

#22 Re: Hinton的博士导师

帖子 Caravel »

hci 写了: 2024年 10月 14日 11:20 哈哈哈,当你知道Hinton是个心理学家之后,他就不是个聪明人了。那咋没把奖发给聪明人呢?

真正公认的深学之父是frank rosenblatt,就更是一个心理学家了,1956年康乃尔心理系博士毕业,也是研究知觉的。两年后,在《心理学评论》发表了他关于"知觉机"的文章,一举奠定DNN的基础。现在神经网络的基本方法,包括吹的牛皮,都是他发明的。哈哈。无非是他死得早,1971年就出事故死亡了,你们不知道而己。

看看我老对genAI的历史现状和未来展望的talk吧,看不懂的我可以答疑。在心理所讲的,视频没有公开,也太长了,我讲了三个多小时,用中文讲的,slides倒是英文。

https://www.slideshare.net/slideshow/genaipdf/260536464

其实我讲的这些,对心理系的同学,大都是符合他们理解的常理的。当时我讲完,我的师姐(其实是与我同年心理所硕士入学的,同一个导师,她是武大数学系本科,但她年龄比我大很多,所以我叫她师姐),现在是心理所的党委书记,说她唯一从我这学到的,是总算听我讲明白了“attention is all your need"一文里面的attention到底是啥意思。她说她问了计算所的很多人,都没讲明白,我一讲,她就明白了,原来就是心理学里面的attention,只不过是外源性的那种。我老的硕士论文,就是研究内源性和外源性注意在视觉中的作用的,题目就叫《内源性和外源性视觉选择性注意》,哈哈。所以我一读transformer这个文,就看清楚了它的本质。而学计算机的人只知道公式,不知道那到底是在干什么,用处是什么,所以也不能给别人讲明白,哈哈。我老的厉害之处,就在于总能把复杂的技术问题,用简单的语言讲得让一个聪明人茅塞顿开。我的清华学霸老婆,当年是我助教班上的学生,就是这么看上我的。哈哈。所以我坚信,一个东西,如果不能给一个聪明人讲明白,说明自己还不明白。其实“明白”的本意,就是化繁为简。老子曰,大道至简。

这么说把,深学发展到现在,里面用到的techinique,就没有超出一个认知心理学基础扎实的学生学到的东西的范畴的,都是觉得自然的东西。

深学要在理论上进一步突破,就需要有心理学学生力所不能及的数学,具体我也给你们说了,就是information theory on geometric structures。这个我老碰过,力不能及,走不下去了。我老当年从烂校information science法考题一举跳到CS殿堂级研究机构,就是因为认识到了这个方向,一个talk,就语惊四座,立马给了我一个offer. 这个领域,唯一相关的现有研究,就是日本数学家Amari搞的information geometry(也就LSTM发明人争论的发明backprop的那位日本数学家)。但我觉得他搞得过于复杂了,其实应该反过来,geometric information theory会更简单,也才是我们需要的。但用到的数学工具,应该差不多。我以前请教过一个同事,中国人,数学博士专门研究information geometry的,他说这个很难。既然他都这么说,我就放弃了。他是码工,不过写码很烂,跟我老不能比。他当年被招来的原因,也是因为招他的人,一个印度人,觉得information geometry有前途。这位后来因为发明sentiment analysis这个领域,成了ibm fellow,他也是学数学出身的,其实是数学世家,他的祖辈是最早发现阿马努金,介绍给哈代的。

其实只要搞AI,搞深下去, 最后大家对方向的认识差不了太远,英雄所见略同。当然了,最后为了生计,大部分人都得干别的。Hinton的独特之处,在于坚持,这个我们大家都比不上他。可他是根正苗红的白皮,没有生存危机。我们中国人印度人都没有这种奢侈。

如上面所说,认知科学的真正原理,如果最后真正被理解了,应该是非常简单的,大致就是利用空间的对称性进行信息压缩。具体的方向,我也指出了,就是空间上的信息学。但这个方向,我唯一公开发表的相关文章,因为整个理论总是被拒,发不了,就发了一篇留下实验去掉理论的文章。但这个文章目前是零引用,0。只有一个出版社让我把它扩充一下,变成了一本书里的一章。就是这篇:

https://web-archive.southampton.ac.uk/c ... 2-yang.pdf
赞,买买提很少能读到有这么dense信息量的文章。

深学发展到今天,其实很多突破是借用了很多别的学科的概念,心理学的,物理学以及神经科学。中国现在的深学虽然做的很快,但是原创概念搞不出来,其实不是CS或者是深学本身不行,而是基础科学的积累不够。项立刚之流鄙视基础科学,认为只要有几万工程师就什么能做出来,大错而错。

现在LLM的局限性也渐渐出来了,下一步突破还需要理念上的更新。
forecasting
著名点评
著名点评
帖子互动: 297
帖子: 4110
注册时间: 2023年 4月 17日 08:26

#23 Re: Hinton的博士导师

帖子 forecasting »

FoxMe 写了: 2024年 10月 14日 16:13 哈哈,我老婆也是教授女儿(不是导师),从来没看不起穷小子
贴出来显摆一下,贴年轻时的,最风华正茂的
forecasting
著名点评
著名点评
帖子互动: 297
帖子: 4110
注册时间: 2023年 4月 17日 08:26

#24 Re: Hinton的博士导师

帖子 forecasting »

FoxMe 写了: 2024年 10月 14日 16:21 景仰景仰。我原来读研究生时是准备学人工智能的,不过后来转数论方向了。现在衣食无忧,但不是老板,买不了公司。不过平时可以帮关注/推介一下。

我对人工智能有些了解,现在作为业余爱好。但是感觉你说的方向大有可为。
学数论的还被HCI这家伙忽悠得找不着北了?
jiujianoufu
论坛精英
论坛精英
帖子互动: 298
帖子: 6967
注册时间: 2022年 7月 25日 06:54

#25 Re: Hinton的博士导师

帖子 jiujianoufu »

hci 写了: 2024年 10月 14日 11:20 哈哈哈,当你知道Hinton是个心理学家之后,他就不是个聪明人了。那咋没把奖发给聪明人呢?

真正公认的深学之父是frank rosenblatt,就更是一个心理学家了,1956年康乃尔心理系博士毕业,也是研究知觉的。两年后,在《心理学评论》发表了他关于"知觉机"的文章,一举奠定DNN的基础。现在神经网络的基本方法,包括吹的牛皮,都是他发明的。哈哈。无非是他死得早,1971年就出事故死亡了,你们不知道而己。

看看我老对genAI的历史现状和未来展望的talk吧,看不懂的我可以答疑。在心理所讲的,视频没有公开,也太长了,我讲了三个多小时,用中文讲的,slides倒是英文。

https://www.slideshare.net/slideshow/genaipdf/260536464

其实我讲的这些,对心理系的同学,大都是符合他们理解的常理的。当时我讲完,我的师姐(其实是与我同年心理所硕士入学的,同一个导师,她是武大数学系本科,但她年龄比我大很多,所以我叫她师姐),现在是心理所的党委书记,说她唯一从我这学到的,是总算听我讲明白了“attention is all your need"一文里面的attention到底是啥意思。她说她问了计算所的很多人,都没讲明白,我一讲,她就明白了,原来就是心理学里面的attention,只不过是外源性的那种。我老的硕士论文,就是研究内源性和外源性注意在视觉中的作用的,题目就叫《内源性和外源性视觉选择性注意》,哈哈。所以我一读transformer这个文,就看清楚了它的本质。而学计算机的人只知道公式,不知道那到底是在干什么,用处是什么,所以也不能给别人讲明白,哈哈。我老的厉害之处,就在于总能把复杂的技术问题,用简单的语言讲得让一个聪明人茅塞顿开。我的清华学霸老婆,当年是我助教班上的学生,就是这么看上我的。哈哈。所以我坚信,一个东西,如果不能给一个聪明人讲明白,说明自己还不明白。其实“明白”的本意,就是化繁为简。老子曰,大道至简。

这么说把,深学发展到现在,里面用到的techinique,就没有超出一个认知心理学基础扎实的学生学到的东西的范畴的,都是觉得自然的东西。

深学要在理论上进一步突破,就需要有心理学学生力所不能及的数学,具体我也给你们说了,就是information theory on geometric structures。这个我老碰过,力不能及,走不下去了。我老当年从烂校information science法考题一举跳到CS殿堂级研究机构,就是因为认识到了这个方向,一个talk,就语惊四座,立马给了我一个offer. 这个领域,唯一相关的现有研究,就是日本数学家Amari搞的information geometry(也就LSTM发明人争论的发明backprop的那位日本数学家)。但我觉得他搞得过于复杂了,其实应该反过来,geometric information theory会更简单,也才是我们需要的。但用到的数学工具,应该差不多。我以前请教过一个同事,中国人,数学博士专门研究information geometry的,他说这个很难。既然他都这么说,我就放弃了。他是码工,不过写码很烂,跟我老不能比。他当年被招来的原因,也是因为招他的人,一个印度人,觉得information geometry有前途。这位后来因为发明sentiment analysis这个领域,成了ibm fellow,他也是学数学出身的,其实是数学世家,他的祖辈是最早发现阿马努金,介绍给哈代的。

其实只要搞AI,搞深下去, 最后大家对方向的认识差不了太远,英雄所见略同。当然了,最后为了生计,大部分人都得干别的。Hinton的独特之处,在于坚持,这个我们大家都比不上他。可他是根正苗红的白皮,没有生存危机。我们中国人印度人都没有这种奢侈。

如上面所说,认知科学的真正原理,如果最后真正被理解了,应该是非常简单的,大致就是利用空间的对称性进行信息压缩。具体的方向,我也指出了,就是空间上的信息学。但这个方向,我唯一公开发表的相关文章,因为整个理论总是被拒,发不了,就发了一篇留下实验去掉理论的文章。但这个文章目前是零引用,0。只有一个出版社让我把它扩充一下,变成了一本书里的一章。就是这篇:

https://web-archive.southampton.ac.uk/c ... 2-yang.pdf
Slides 太长了,能不能简约点,介绍一下?
头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 469
帖子: 9928
注册时间: 2022年 7月 22日 15:29

#26 Re: Hinton的博士导师

帖子 hci(海螺子)楼主 »

给社会压力呢。你屁干货没有,有什么资格说三道四呢?
forecasting 写了: 2024年 10月 14日 20:23 学数论的还被HCI这家伙忽悠得找不着北了?
头像
ccmath
论坛精英
论坛精英
帖子互动: 378
帖子: 7265
注册时间: 2022年 9月 17日 19:18

#27 Re: Hinton的博士导师

帖子 ccmath »

你对David Marr那一套怎么看?
hci 写了: 2024年 10月 14日 18:30 注意的简单概念,也就是其字面意思:一个特征被用在计算中的被重视程度,那些被提高了重视程度的,权重增加的,就是被注意了,其他的,就没被注意,甚至被压制了。这也是心理学里的注意的意思。

这种增加压制的产生来源,自然就有两种,一种是系统主动产生的,就是内源性注意,目前的AI还不会这个,是很有前途的研究方向,我这个talk也讲了,我也是世界上唯一这么说的。另一种,就是刺激本身带来的注意,外源性注意。transformer实现的,就是这种注意。本质上,这种注意的根源是刺激与刺激内在的相似性,相似性用矢量内积来实现计算。明白这个,基本原理就明白了。其他的都是数字结果规整化的细节,scale啊,softmax啊,等等。Note:不是相似性更大就更受注意,反之也是可能的。比如人类视觉,外源性注意其实主要是反的,相似度高的刺激,反而一般不容易产生外源性注意,就是不出众的东西不会引起注意。

Q是代表当前考察的输入符号在注意上的作用的矢量,与一个代表当前刺激情景的矢量K,两者的内积,在被规整之后的量,就是被选中的注意的索引,然后在代表注意变化量的V中去找到相应的变化量,让一些输入信号被重视,一些被忽视。最后,从这种被注意改变了的输入中,产生输出,这步与其他的多层知觉器一样。那这些QKV从哪里来的?训练的时候学习的,这个体系结构就定义了QKV这些网络层,自然其权重会被学出来。一套QKV, 就叫一个注意头。搞上多个这样的注意头,每个关注输入空间的不同部分,这就有了transformer。

就这。所以为啥说“attention is all you need",因为transformer真就是这么点特色,没有循环, 没有卷积,比其他的网络结构,什么CNN, LSTM之类,简单多了。

从数学上说,为啥要学QKV这三个矩阵?没有任何道理。但是,从认知心理学角度,道理很清楚,就是我上面说的,这是用来实现外源性注意的一个最简单的机制。如果让人手写注意机制,也会有这么三个东西:当前輸入刺激在注意中的表征,当前场景的表征,当前场景应導致注意改变的量的表征,三者缺一不可。Q,K和V到底哪个是哪个,其实并不重要。所以上面也只是一种解释,也可以有其他说法。
forecasting
著名点评
著名点评
帖子互动: 297
帖子: 4110
注册时间: 2023年 4月 17日 08:26

#28 Re: Hinton的博士导师

帖子 forecasting »

hci 写了: 2024年 10月 14日 23:33 给社会压力呢。你屁干货没有,有什么资格说三道四呢?
那你有屁干货!大家快来看哪,hci说他自己有屁干货。
wass
论坛精英
论坛精英
2024年度优秀版主
wass 的博客
帖子互动: 695
帖子: 7097
注册时间: 2022年 7月 23日 22:13

#29 Re: Hinton的博士导师

帖子 wass »

hci 写了: 2024年 10月 14日 01:42 Hinton的博士导师是Christopher Longuet-Higgins, 爱丁堡大学的认知科学家,理论化学出身,1967年到爱丁堡大学与人合作办了机器智能和知觉系,Hinton1977年在那儿博士毕业。但那时候,Longuet-Higgins已经在1974年转到了萨克森大学实验心理学系。

所以说Hinton是个心理学家,本科和博士都是心理学。他的1977年博士论文是《松弛法和它在视觉中的作用》。所以,Hinton这一辈子的研究,都是关于知觉的,他并不懂心理学其他的领域。

就如我一再指出的一样,深度学习解决的是个知觉问题,算是解决了认知的底层功能。在知觉问题解决了的基础上,人工智能才可能有个比较好的发展。但是,知觉问题从一开始就被认为是最简单的问题,50年代的AI开创者们认为一个暑假几个学生就可以解决,结果花了70年才解决。但是,它的确是第一个被解决的问题。说明开创者们的估计并不算太错。只是没想到这个最简单的问题都有这么难而已。
知觉英文是什么?

一般认为,深度学习是直觉,perception

所以不用思考,出口成章
头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 469
帖子: 9928
注册时间: 2022年 7月 22日 15:29

#30 Re: Hinton的博士导师

帖子 hci(海螺子)楼主 »

根本性的东西。
ccmath 写了: 2024年 10月 15日 01:46 你对David Marr那一套怎么看?
头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 469
帖子: 9928
注册时间: 2022年 7月 22日 15:29

#31 Re: Hinton的博士导师

帖子 hci(海螺子)楼主 »

知觉英文是perception

直觉是intuition
wass 写了: 2024年 10月 15日 07:52 知觉英文是什么?

一般认为,深度学习是直觉,perception

所以不用思考,出口成章
x1 图片
上次由 hci 在 2024年 10月 15日 10:28 修改。
头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 469
帖子: 9928
注册时间: 2022年 7月 22日 15:29

#32 Re: Hinton的博士导师

帖子 hci(海螺子)楼主 »

GenAI =知觉
机器学习=行为主义
以GenAI为核心的AI =还原论

这些用语,都是狗哨,学心理学的,一听就知,意思就是gen AI是"幼兒園水平",不过是文雅的说法而己。
jiujianoufu 写了: 2024年 10月 14日 22:48 Slides 太长了,能不能简约点,介绍一下?
头像
ccmath
论坛精英
论坛精英
帖子互动: 378
帖子: 7265
注册时间: 2022年 9月 17日 19:18

#33 Re: Hinton的博士导师

帖子 ccmath »

为什么Marr预测的架构没有成功的?
hci 写了: 2024年 10月 15日 10:05 根本性的东西。
头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 469
帖子: 9928
注册时间: 2022年 7月 22日 15:29

#34 Re: Hinton的博士导师

帖子 hci(海螺子)楼主 »

马尔的东西,是哲学,是基本的思路。

什么没有成功?

知觉本来以为要一年,结果用了70年。

所以还早。

成功不成功,不是这么看的,急功近利,就要走火入魔,进入死胡同。
ccmath 写了: 2024年 10月 15日 11:30 为什么Marr预测的架构没有成功的?
FoxMe(令狐)
论坛精英
论坛精英
帖子互动: 144
帖子: 5331
注册时间: 2022年 7月 26日 16:46

#35 Re: Hinton的博士导师

帖子 FoxMe(令狐) »

多谢回答,我要仔细阅读。经典的信息论不考虑人的因素,你的工作把知觉和信息论联系上了,很有意思。

其实信息论的创始人也意识到最终信息要与智能挂钩,提出了三个层次,但是他们只研究了第一层。

https://pure.mpg.de/rest/items/item_238 ... 63/content
Three Levels of Communications Problems
LEVEL A. How accurately can the symbols of communication be transmitted? (The technical problem.)
LEVEL B. How precisely do the transmitted symbols convey the desired meaning? (The semantic problem.)
LEVEL C. How effectively does the received meaning affect conduct in the desired way? (The effectiveness problem.)

第一层的技术问题已经研究得差不多了,第二层的语意信息论是目前需要突破的。
hci 写了: 2024年 10月 14日 16:41 pointing就是字面意思,用手指一个东西的这个动作。

这儿是用鼠标指。屏幕上画个方框,鼠标在外面,让你把它移动到方框里面,越快越准为好。

测量移动的时间,就是Fitts' law这个公式预测的因变量T,自变量就是方框的宽度W和最初鼠标与方框的距离D。

这为啥叫定律, law?就是这个公式的预测准确性相当高,你看那些回归数据,R方都在0.9以上。

一维的情况只考虑方框的宽度,移动方向与宽度一致。

二维的情况,要同时考虑方框的高度和宽度,移动方向也是任意的。就是我的文章研究的被式的实验任务。

我的文章,主要是比较各种不同的模型,和在不同模型里,用信息论推导出的不同的公式,到底哪个与实验数据最符合。一共考察8个公式,5个是我推导的,三个是前人提出的。

理论上,我认定脑子事先计算好一个动作所需要的时间,以保证移动的准确性,所以这就是个信息通量问题,人计划用的运动时间的长短,就反映信息通量的大小,如Fitts在1954年所说。

我的文章是承认这个信息论基础,研究更复杂的情况。最后发现,在二维的情况,一种基于规范空间模型推导出的信息通量公式,与实验结果最契合。

所以我的讨论就在假设,可能认知有一个原则,就是最大规范化原则:认知先把问题的参数空间(configuration space)规范化,再在这个规范化之后的空间里来进行信息论的计算。
上次由 FoxMe 在 2024年 10月 15日 15:51 修改。
cokecoke(bbscoke)
论坛精英
论坛精英
帖子互动: 331
帖子: 8076
注册时间: 2022年 9月 9日 15:41

#36 Re: Hinton的博士导师

帖子 cokecoke(bbscoke) »

hci 写了: 2024年 10月 14日 14:03 McCulloch和Pitts的模型是基于逻辑的,把逻辑表达式变成几何表达式,这个关键的概念上的跳跃,是Rosenblatt做的。所以一般认他为奠基者。当然了,没有前两者,也不会有他的工作。

McCulloch是生理学家,所以神经网络来源于生物学,这个没啥可说的。没有动作电位的发现,就没有神经网络。

Pitts也是一个传奇人物,算是真正意义上的天才,电影里面那种。中学都没读完,在图书馆里找到一本书,罗素的数学原理,指出其中的错误,就这样开始发达了,最后因为发现逻辑解释不了自己的生物实验结果,心灰意冷,又因为与维纳的女儿多说了几句话,与维纳闹翻了,最后潦倒而死。

西方是个世袭乡绅权贵社会,阶级之间,等级森严,有生殖隔离。维纳这个犹太人,看到Pitts这样的狗蝇流浪汉居然也想泡自己的女儿,就爆发了,哈哈。当然wiki上对这段公案进行了美化,说维纳“这可能由他的神经质性格引起。他的家族中包括弟弟等,有严重的精神分裂症病史,而维纳本身则有重度的近视与严重的躁郁症。躁症发作时,他疯狂似的跑遍校园,向别人宣传他的发现。而躁郁症症状产生时,他则多次向麻省的同事列文森诉说自己的自杀念头。”

其实我觉得,他就是看不起Pitts,尼玛一个流浪汉出身的,居然也敢来泡我的女儿,反了简直。
Pitts 是在公园流浪偶遇罗素的那位吗?
FoxMe(令狐)
论坛精英
论坛精英
帖子互动: 144
帖子: 5331
注册时间: 2022年 7月 26日 16:46

#37 Re: Hinton的博士导师

帖子 FoxMe(令狐) »

噢,解释了

Attention(Q, K, V ) = softmax(QK^T/√d_k)V

where queries are packed together into a matrix Q. The keys and values are also packed together into matrices K and V.
hci 写了: 2024年 10月 14日 18:30 注意的简单概念,也就是其字面意思:一个特征被用在计算中的被重视程度,那些被提高了重视程度的,权重增加的,就是被注意了,其他的,就没被注意,甚至被压制了。这也是心理学里的注意的意思。

这种增加压制的产生来源,自然就有两种,一种是系统主动产生的,就是内源性注意,目前的AI还不会这个,是很有前途的研究方向,我这个talk也讲了,我也是世界上唯一这么说的。另一种,就是刺激本身带来的注意,外源性注意。transformer实现的,就是这种注意。本质上,这种注意的根源是刺激与刺激内在的相似性,相似性用矢量内积来实现计算。明白这个,基本原理就明白了。其他的都是数字结果规整化的细节,scale啊,softmax啊,等等。Note:不是相似性更大就更受注意,反之也是可能的。比如人类视觉,外源性注意其实主要是反的,相似度高的刺激,反而一般不容易产生外源性注意,就是不出众的东西不会引起注意。

Q是代表当前考察的输入符号在注意上的作用的矢量,与一个代表当前刺激情景的矢量K,两者的内积,在被规整之后的量,就是被选中的注意的索引,然后在代表注意变化量的V中去找到相应的变化量,让一些输入信号被重视,一些被忽视。最后,从这种被注意改变了的输入中,产生输出,这步与其他的多层知觉器一样。那这些QKV从哪里来的?训练的时候学习的,这个体系结构就定义了QKV这些网络层,自然其权重会被学出来。一套QKV, 就叫一个注意头。搞上多个这样的注意头,每个关注输入空间的不同部分,这就有了transformer。

就这。所以为啥说“attention is all you need",因为transformer真就是这么点特色,没有循环, 没有卷积,比其他的网络结构,什么CNN, LSTM之类,简单多了。

从数学上说,为啥要学QKV这三个矩阵?没有任何道理。但是,从认知心理学角度,道理很清楚,就是我上面说的,这是用来实现外源性注意的一个最简单的机制。如果让人手写注意机制,也会有这么三个东西:当前輸入刺激在注意中的表征,当前场景的表征,当前场景应導致注意改变的量的表征,三者缺一不可。Q,K和V到底哪个是哪个,其实并不重要。所以上面也只是一种解释,也可以有其他说法。
Caravel
论坛元老
论坛元老
Caravel 的博客
帖子互动: 563
帖子: 24656
注册时间: 2022年 7月 24日 17:21

#38 Re: Hinton的博士导师

帖子 Caravel »

hci 写了: 2024年 10月 15日 11:34 马尔的东西,是哲学,是基本的思路。

什么没有成功?

知觉本来以为要一年,结果用了70年。

所以还早。

成功不成功,不是这么看的,急功近利,就要走火入魔,进入死胡同。
现在的LLM本质上是一种数据库,

普通数据库是用结构化的SQL语言来query,存不了特别复杂的逻辑

LLM是用自然语言来query,自然语言的表现力远远大于SQL语言
FoxMe(令狐)
论坛精英
论坛精英
帖子互动: 144
帖子: 5331
注册时间: 2022年 7月 26日 16:46

#39 Re: Hinton的博士导师

帖子 FoxMe(令狐) »

解释得非常好!我有点感觉了。

注意力,QKV这一套东西,应该是从心理学里来的,或者收到启发。维基百科上说:

Selective attention in humans had been well studied in neuroscience and cognitive psychology.[3] In 1953, Colin Cherry studied selective attention in the context of audition, known as the cocktail party effect.[4]

QKV的训练非常关键,用矢量来表示语意,把数学和语意联系起来了,以前是做不到的。
hci 写了: 2024年 10月 14日 18:30 注意的简单概念,也就是其字面意思:一个特征被用在计算中的被重视程度,那些被提高了重视程度的,权重增加的,就是被注意了,其他的,就没被注意,甚至被压制了。这也是心理学里的注意的意思。

这种增加压制的产生来源,自然就有两种,一种是系统主动产生的,就是内源性注意,目前的AI还不会这个,是很有前途的研究方向,我这个talk也讲了,我也是世界上唯一这么说的。另一种,就是刺激本身带来的注意,外源性注意。transformer实现的,就是这种注意。本质上,这种注意的根源是刺激与刺激内在的相似性,相似性用矢量内积来实现计算。明白这个,基本原理就明白了。其他的都是数字结果规整化的细节,scale啊,softmax啊,等等。Note:不是相似性更大就更受注意,反之也是可能的。比如人类视觉,外源性注意其实主要是反的,相似度高的刺激,反而一般不容易产生外源性注意,就是不出众的东西不会引起注意。

Q是代表当前考察的输入符号在注意上的作用的矢量,与一个代表当前刺激情景的矢量K,两者的内积,在被规整之后的量,就是被选中的注意的索引,然后在代表注意变化量的V中去找到相应的变化量,让一些输入信号被重视,一些被忽视。最后,从这种被注意改变了的输入中,产生输出,这步与其他的多层知觉器一样。那这些QKV从哪里来的?训练的时候学习的,这个体系结构就定义了QKV这些网络层,自然其权重会被学出来。一套QKV, 就叫一个注意头。搞上多个这样的注意头,每个关注输入空间的不同部分,这就有了transformer。

就这。所以为啥说“attention is all you need",因为transformer真就是这么点特色,没有循环, 没有卷积,比其他的网络结构,什么CNN, LSTM之类,简单多了。

从数学上说,为啥要学QKV这三个矩阵?没有任何道理。但是,从认知心理学角度,道理很清楚,就是我上面说的,这是用来实现外源性注意的一个最简单的机制。如果让人手写注意机制,也会有这么三个东西:当前輸入刺激在注意中的表征,当前场景的表征,当前场景应導致注意改变的量的表征,三者缺一不可。Q,K和V到底哪个是哪个,其实并不重要。所以上面也只是一种解释,也可以有其他说法。
FoxMe(令狐)
论坛精英
论坛精英
帖子互动: 144
帖子: 5331
注册时间: 2022年 7月 26日 16:46

#40 Re: Hinton的博士导师

帖子 FoxMe(令狐) »

了解了一下,信息几何就是用微分几何来研究概率,信息等等,感觉是有点用力过度。

比如这个Fisher information,是统计和信息论里的常见概念,怎么就变成黎曼流形的度量了?

https://en.wikipedia.org/wiki/Fisher_information_metric

在多元情况下,Fisher information是一个矩阵。是不是用这个矩阵来定义内积,就变成度量了?
hci 写了: 2024年 10月 14日 11:20 哈哈哈,当你知道Hinton是个心理学家之后,他就不是个聪明人了。那咋没把奖发给聪明人呢?

真正公认的深学之父是frank rosenblatt,就更是一个心理学家了,1956年康乃尔心理系博士毕业,也是研究知觉的。两年后,在《心理学评论》发表了他关于"知觉机"的文章,一举奠定DNN的基础。现在神经网络的基本方法,包括吹的牛皮,都是他发明的。哈哈。无非是他死得早,1971年就出事故死亡了,你们不知道而己。

看看我老对genAI的历史现状和未来展望的talk吧,看不懂的我可以答疑。在心理所讲的,视频没有公开,也太长了,我讲了三个多小时,用中文讲的,slides倒是英文。

https://www.slideshare.net/slideshow/genaipdf/260536464

其实我讲的这些,对心理系的同学,大都是符合他们理解的常理的。当时我讲完,我的师姐(其实是与我同年心理所硕士入学的,同一个导师,她是武大数学系本科,但她年龄比我大很多,所以我叫她师姐),现在是心理所的党委书记,说她唯一从我这学到的,是总算听我讲明白了“attention is all your need"一文里面的attention到底是啥意思。她说她问了计算所的很多人,都没讲明白,我一讲,她就明白了,原来就是心理学里面的attention,只不过是外源性的那种。我老的硕士论文,就是研究内源性和外源性注意在视觉中的作用的,题目就叫《内源性和外源性视觉选择性注意》,哈哈。所以我一读transformer这个文,就看清楚了它的本质。而学计算机的人只知道公式,不知道那到底是在干什么,用处是什么,所以也不能给别人讲明白,哈哈。我老的厉害之处,就在于总能把复杂的技术问题,用简单的语言讲得让一个聪明人茅塞顿开。我的清华学霸老婆,当年是我助教班上的学生,就是这么看上我的。哈哈。所以我坚信,一个东西,如果不能给一个聪明人讲明白,说明自己还不明白。其实“明白”的本意,就是化繁为简。老子曰,大道至简。

这么说把,深学发展到现在,里面用到的techinique,就没有超出一个认知心理学基础扎实的学生学到的东西的范畴的,都是觉得自然的东西。

深学要在理论上进一步突破,就需要有心理学学生力所不能及的数学,具体我也给你们说了,就是information theory on geometric structures。这个我老碰过,力不能及,走不下去了。我老当年从烂校information science法考题一举跳到CS殿堂级研究机构,就是因为认识到了这个方向,一个talk,就语惊四座,立马给了我一个offer. 这个领域,唯一相关的现有研究,就是日本数学家Amari搞的information geometry(也就LSTM发明人争论的发明backprop的那位日本数学家)。但我觉得他搞得过于复杂了,其实应该反过来,geometric information theory会更简单,也才是我们需要的。但用到的数学工具,应该差不多。我以前请教过一个同事,中国人,数学博士专门研究information geometry的,他说这个很难。既然他都这么说,我就放弃了。他是码工,不过写码很烂,跟我老不能比。他当年被招来的原因,也是因为招他的人,一个印度人,觉得information geometry有前途。这位后来因为发明sentiment analysis这个领域,成了ibm fellow,他也是学数学出身的,其实是数学世家,他的祖辈是最早发现阿马努金,介绍给哈代的。

其实只要搞AI,搞深下去, 最后大家对方向的认识差不了太远,英雄所见略同。当然了,最后为了生计,大部分人都得干别的。Hinton的独特之处,在于坚持,这个我们大家都比不上他。可他是根正苗红的白皮,没有生存危机。我们中国人印度人都没有这种奢侈。

如上面所说,认知科学的真正原理,如果最后真正被理解了,应该是非常简单的,大致就是利用空间的对称性进行信息压缩。具体的方向,我也指出了,就是空间上的信息学。但这个方向,我唯一公开发表的相关文章,因为整个理论总是被拒,发不了,就发了一篇留下实验去掉理论的文章。但这个文章目前是零引用,0。只有一个出版社让我把它扩充一下,变成了一本书里的一章。就是这篇:

https://web-archive.southampton.ac.uk/c ... 2-yang.pdf
回复

回到 “STEM”