Hinton的博士导师

STEM版,合并数学,物理,化学,科学,工程,机械。不包括生物、医学相关,和计算机相关内容。

版主: verdeliteTheMatrix

头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 465
帖子: 9926
注册时间: 2022年 7月 22日 15:29

#1 Hinton的博士导师

帖子 hci(海螺子)楼主 »

Hinton的博士导师是Christopher Longuet-Higgins, 爱丁堡大学的认知科学家,理论化学出身,1967年到爱丁堡大学与人合作办了机器智能和知觉系,Hinton1977年在那儿博士毕业。但那时候,Longuet-Higgins已经在1974年转到了萨克森大学实验心理学系。

所以说Hinton是个心理学家,本科和博士都是心理学。他的1977年博士论文是《松弛法和它在视觉中的作用》。所以,Hinton这一辈子的研究,都是关于知觉的,他并不懂心理学其他的领域。

就如我一再指出的一样,深度学习解决的是个知觉问题,算是解决了认知的底层功能。在知觉问题解决了的基础上,人工智能才可能有个比较好的发展。但是,知觉问题从一开始就被认为是最简单的问题,50年代的AI开创者们认为一个暑假几个学生就可以解决,结果花了70年才解决。但是,它的确是第一个被解决的问题。说明开创者们的估计并不算太错。只是没想到这个最简单的问题都有这么难而已。
x1 图片
forecasting
著名点评
著名点评
帖子互动: 297
帖子: 4105
注册时间: 2023年 4月 17日 08:26

#2 Re: Hinton的博士导师

帖子 forecasting »

hci 写了: 2024年 10月 14日 01:42 Hinton的博士导师是Christopher Longuet-Higgins, 爱丁堡大学的认知科学家,理论化学出身,1967年到爱丁堡大学与人合作办了机器智能和知觉系,Hinton1977年在那儿博士毕业。但那时候,Longuet-Higgins已经在1974年转到了萨克森大学实验心理学系。

所以说Hinton是个心理学家,本科和博士都是心理学。他的1977年博士论文是《松弛法和它在视觉中的作用》。所以,Hinton这一辈子的研究,都是关于知觉的,他并不懂心理学其他的领域。

就如我一再指出的一样,深度学习解决的是个知觉问题,算是解决了认知的底层功能。在知觉问题解决了的基础上,人工智能才可能有个比较好的发展。但是,知觉问题从一开始就被认为是最简单的问题,50年代的AI开创者们认为一个暑假几个学生就可以解决,结果花了70年才解决。但是,它的确是第一个被解决的问题。说明开创者们的估计并不算太错。只是没想到这个最简单的问题都有这么难而已。
觉得Hinton真不是个聪明人。

你又不懂DNN,知道一点心理学皮毛,就别轻易评论DNN和心理学的关系, :lol: :lol: :lol: 我宽恕你!大家都宽恕你! :D :D :D
x1 图片
头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 465
帖子: 9926
注册时间: 2022年 7月 22日 15:29

#3 Re: Hinton的博士导师

帖子 hci(海螺子)楼主 »

哈哈哈,当你知道Hinton是个心理学家之后,他就不是个聪明人了。那咋没把奖发给聪明人呢?

真正公认的深学之父是frank rosenblatt,就更是一个心理学家了,1956年康乃尔心理系博士毕业,也是研究知觉的。两年后,在《心理学评论》发表了他关于"知觉机"的文章,一举奠定DNN的基础。现在神经网络的基本方法,包括吹的牛皮,都是他发明的。哈哈。无非是他死得早,1971年就出事故死亡了,你们不知道而己。

看看我老对genAI的历史现状和未来展望的talk吧,看不懂的我可以答疑。在心理所讲的,视频没有公开,也太长了,我讲了三个多小时,用中文讲的,slides倒是英文。

https://www.slideshare.net/slideshow/genaipdf/260536464

其实我讲的这些,对心理系的同学,大都是符合他们理解的常理的。当时我讲完,我的师姐(其实是与我同年心理所硕士入学的,同一个导师,她是武大数学系本科,但她年龄比我大很多,所以我叫她师姐),现在是心理所的党委书记,说她唯一从我这学到的,是总算听我讲明白了“attention is all your need"一文里面的attention到底是啥意思。她说她问了计算所的很多人,都没讲明白,我一讲,她就明白了,原来就是心理学里面的attention,只不过是外源性的那种。我老的硕士论文,就是研究内源性和外源性注意在视觉中的作用的,题目就叫《内源性和外源性视觉选择性注意》,哈哈。所以我一读transformer这个文,就看清楚了它的本质。而学计算机的人只知道公式,不知道那到底是在干什么,用处是什么,所以也不能给别人讲明白,哈哈。我老的厉害之处,就在于总能把复杂的技术问题,用简单的语言讲得让一个聪明人茅塞顿开。我的清华学霸老婆,当年是我助教班上的学生,就是这么看上我的。哈哈。所以我坚信,一个东西,如果不能给一个聪明人讲明白,说明自己还不明白。其实“明白”的本意,就是化繁为简。老子曰,大道至简。

这么说把,深学发展到现在,里面用到的techinique,就没有超出一个认知心理学基础扎实的学生学到的东西的范畴的,都是觉得自然的东西。

深学要在理论上进一步突破,就需要有心理学学生力所不能及的数学,具体我也给你们说了,就是information theory on geometric structures。这个我老碰过,力不能及,走不下去了。我老当年从烂校information science法考题一举跳到CS殿堂级研究机构,就是因为认识到了这个方向,一个talk,就语惊四座,立马给了我一个offer. 这个领域,唯一相关的现有研究,就是日本数学家Amari搞的information geometry(也就LSTM发明人争论的发明backprop的那位日本数学家)。但我觉得他搞得过于复杂了,其实应该反过来,geometric information theory会更简单,也才是我们需要的。但用到的数学工具,应该差不多。我以前请教过一个同事,中国人,数学博士专门研究information geometry的,他说这个很难。既然他都这么说,我就放弃了。他是码工,不过写码很烂,跟我老不能比。他当年被招来的原因,也是因为招他的人,一个印度人,觉得information geometry有前途。这位后来因为发明sentiment analysis这个领域,成了ibm fellow,他也是学数学出身的,其实是数学世家,他的祖辈是最早发现阿马努金,介绍给哈代的。

其实只要搞AI,搞深下去, 最后大家对方向的认识差不了太远,英雄所见略同。当然了,最后为了生计,大部分人都得干别的。Hinton的独特之处,在于坚持,这个我们大家都比不上他。可他是根正苗红的白皮,没有生存危机。我们中国人印度人都没有这种奢侈。

如上面所说,认知科学的真正原理,如果最后真正被理解了,应该是非常简单的,大致就是利用空间的对称性进行信息压缩。具体的方向,我也指出了,就是空间上的信息学。但这个方向,我唯一公开发表的相关文章,因为整个理论总是被拒,发不了,就发了一篇留下实验去掉理论的文章。但这个文章目前是零引用,0。只有一个出版社让我把它扩充一下,变成了一本书里的一章。就是这篇:

https://web-archive.southampton.ac.uk/c ... 2-yang.pdf
forecasting 写了: 2024年 10月 14日 06:08 觉得Hinton真不是个聪明人。

你又不懂DNN,知道一点心理学皮毛,就别轻易评论DNN和心理学的关系, :lol: :lol: :lol: 我宽恕你!大家都宽恕你! :D :D :D
x3 图片
FoxMe(令狐)
论坛精英
论坛精英
帖子互动: 144
帖子: 5317
注册时间: 2022年 7月 26日 16:46

#4 Re: Hinton的博士导师

帖子 FoxMe(令狐) »

高!我也觉得要发展一种新的信息论,但是往哪个方向发展?我不清楚。除了信息几何,可能要与语义,感知,理解,心理等人的因素结合。经典的信息论,与人是完全无关的。

对,attention/transformer我一直没有搞懂,光看公式不行,准备拜读您的大作。可是下载slides要交钱啊,怎么办?

您还在IBM工作吗?
hci 写了: 2024年 10月 14日 11:20 哈哈哈,当你知道Hinton是个心理学家之后,他就不是个聪明人了。那咋没把奖发给聪明人呢?

真正公认的深学之父是frank rosenblatt,就更是一个心理学家了,1956年康乃尔心理系博士毕业,也是研究知觉的。两年后,在《心理学评论》发表了他关于"知觉机"的文章,一举奠定DNN的基础。现在神经网络的基本方法,包括吹的牛皮,都是他发明的。哈哈。无非是他死得早,1971年就出事故死亡了,你们不知道而己。

看看我老对genAI的历史现状和未来展望的talk吧,看不懂的我可以答疑。在心理所讲的,视频没有公开,也太长了,我讲了三个多小时,用中文讲的,slides倒是英文。

https://www.slideshare.net/slideshow/genaipdf/260536464

其实我讲的这些,对心理系的同学,大都是符合他们理解的常理的。当时我讲完,我的师姐(其实是与我同年心理所硕士入学的,同一个导师,她是武大数学系本科,但她年龄比我大很多,所以我叫她师姐),现在是心理所的党委书记,说她唯一从我这学到的,是总算听我讲明白了“attention is all your need"一文里面的attention到底是啥意思。她说她问了计算所的很多人,都没讲明白,我一讲,她就明白了,原来就是心理学里面的attention,只不过是外源性的那种。我老的硕士论文,就是研究内源性和外源性注意在视觉中的作用的,题目就叫《内源性和外源性视觉选择性注意》,哈哈。所以我一读transformer这个文,就看清楚了它的本质。而学计算机的人只知道公式,不知道那到底是在干什么,用处是什么,所以也不能给别人讲明白,哈哈。我老的厉害之处,就在于总能把复杂的技术问题,用简单的语言讲得让一个聪明人茅塞顿开。我的清华学霸老婆,当年是我助教班上的学生,就是这么看上我的。哈哈。所以我坚信,一个东西,如果不能给一个聪明人讲明白,说明自己还不明白。其实“明白”的本意,就是化繁为简。老子曰,大道至简。

这么说把,深学发展到现在,里面用到的techinique,就没有超出一个认知心理学基础扎实的学生学到的东西的范畴的,都是觉得自然的东西。

深学要在理论上进一步突破,就需要有心理学学生力所不能及的数学,具体我也给你们说了,就是information theory on geometric structures。这个我老碰过,力不能及,走不下去了。我老当年从烂校information science法考题一举跳到CS殿堂级研究机构,就是因为认识到了这个方向,一个talk,就语惊四座,立马给了我一个offer. 这个领域,唯一相关的现有研究,就是日本数学家Amari搞的information geometry(也就LSTM发明人争论的发明backprop的那位日本数学家)。但我觉得他搞得过于复杂了,其实应该反过来,geometric information theory会更简单,也才是我们需要的。但用到的数学工具,应该差不多。我以前请教过一个同事,中国人,数学博士专门研究information geometry的,他说这个很难。既然他都这么说,我就放弃了。他是码工,不过写码很烂,跟我老不能比。他当年被招来的原因,也是因为招他的人,一个印度人,觉得information geometry有前途。这位后来因为发明sentiment analysis这个领域,成了ibm fellow,他也是学数学出身的,其实是数学世家,他的祖辈是最早发现阿马努金,介绍给哈代的。

其实只要搞AI,搞深下去, 最后大家对方向的认识差不了太远,英雄所见略同。当然了,最后为了生计,大部分人都得干别的。Hinton的独特之处,在于坚持,这个我们大家都比不上他。可他是根正苗红的白皮,没有生存危机。我们中国人印度人都没有这种奢侈。

如上面所说,认知科学的真正原理,如果最后真正被理解了,应该是非常简单的,大致就是利用空间的对称性进行信息压缩。具体的方向,我也指出了,就是空间上的信息学。但这个方向,我唯一公开发表的相关文章,因为整个理论总是被拒,发不了,就发了一篇留下实验去掉理论的文章。但这个文章目前是零引用,0。只有一个出版社让我把它扩充一下,变成了一本书里的一章。就是这篇:

https://web-archive.southampton.ac.uk/c ... 2-yang.pdf
FoxMe(令狐)
论坛精英
论坛精英
帖子互动: 144
帖子: 5317
注册时间: 2022年 7月 26日 16:46

#5 Re: Hinton的博士导师

帖子 FoxMe(令狐) »

McCulloch, Pitts, Rosenblatt三位应为神经网络奠基者。
头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 465
帖子: 9926
注册时间: 2022年 7月 22日 15:29

#6 Re: Hinton的博士导师

帖子 hci(海螺子)楼主 »

为了生存,我们都得放弃理想。哈哈。

我2014年就从IBM出来搞startup了,搞了十年多了。现在这个startup也快完蛋了,我可能要找工作了,各位内推一个呗。我司的对话AI,也就是聊天机器人技术还是目前最领先的,能够在使用GenAI情况下,让用户继续保持对机器人的全面控制。事实上,有的我们的用户干脆把GenAI关了,怕乱说。但是,没有GenAI,对话效果要差很多。如我所说,GenAI的确解决了知觉问题,自然语言理解,就是一个知觉问题。

可我们在商业上真的不会弄,技术优势变成商业优势有太多不可控因素了,我们作为黄皮,真是不受待见。做到大公司高层的,想搞对话机器人,可以考虑买我们公司,私信我。我们可以贱卖啊。哈哈。

不要自己搞,你们搞不出来的。看着简单,其实水很深。OpenAI有那么多钱,都搞不出能企业使用的应用,所以其实你们也搞不出来,就不要做梦了。而我们已经搞出来了,我们的顾客,都心甘情愿一年付费几万美刀。所以还是买我们这种已经搞出来的比较划算。

认知心理学里面的高度成功的少数几个数量理论,都是基于信息论的。读读我那篇configuration space文章,我的观念在里面讲得很清楚。不懂可以问问题。学数学出身的,也可以和我合作,我有直觉,你能算,搞出了东西,这个牛顿爱因斯坦式的名头,我可以让给你。哈哈哈。我老是修道之人,已经不在乎名利了。
FoxMe 写了: 2024年 10月 14日 13:40 高!我也觉得要发展一种新的信息论,但是往哪个方向发展?我不清楚。除了信息几何,可能要与语义,感知,理解,心理等人的因素结合。经典的信息论,与人是完全无关的。

对,attention/transformer我一直没有搞懂,光看公式不行,准备拜读您的大作。可是下载slides要交钱啊,怎么办?

您还在IBM工作吗?
上次由 hci 在 2024年 10月 14日 14:48 修改。
头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 465
帖子: 9926
注册时间: 2022年 7月 22日 15:29

#7 Re: Hinton的博士导师

帖子 hci(海螺子)楼主 »

McCulloch和Pitts的模型是基于逻辑的,把逻辑表达式变成几何表达式,这个关键的概念上的跳跃,是Rosenblatt做的。所以一般认他为奠基者。当然了,没有前两者,也不会有他的工作。

McCulloch是生理学家,所以神经网络来源于生物学,这个没啥可说的。没有动作电位的发现,就没有神经网络。

Pitts也是一个传奇人物,算是真正意义上的天才,电影里面那种。中学都没读完,在图书馆里找到一本书,罗素的数学原理,指出其中的错误,就这样开始发达了,最后因为发现逻辑解释不了自己的生物实验结果,心灰意冷,又因为与维纳的女儿多说了几句话,与维纳闹翻了,最后潦倒而死。

西方是个世袭乡绅权贵社会,阶级之间,等级森严,有生殖隔离。维纳这个犹太人,看到Pitts这样的狗蝇流浪汉居然也想泡自己的女儿,就爆发了,哈哈。当然wiki上对这段公案进行了美化,说维纳“这可能由他的神经质性格引起。他的家族中包括弟弟等,有严重的精神分裂症病史,而维纳本身则有重度的近视与严重的躁郁症。躁症发作时,他疯狂似的跑遍校园,向别人宣传他的发现。而躁郁症症状产生时,他则多次向麻省的同事列文森诉说自己的自杀念头。”

其实我觉得,他就是看不起Pitts,尼玛一个流浪汉出身的,居然也敢来泡我的女儿,反了简直。

FoxMe 写了: 2024年 10月 14日 13:44 McCulloch, Pitts, Rosenblatt三位应为神经网络奠基者。
FoxMe(令狐)
论坛精英
论坛精英
帖子互动: 144
帖子: 5317
注册时间: 2022年 7月 26日 16:46

#8 Re: Hinton的博士导师

帖子 FoxMe(令狐) »

尼玛,Pitts混得这么惨。

在中国,导师会把女儿嫁给得意门生。苏步青在日本留学时娶了导师女儿。
hci 写了: 2024年 10月 14日 14:03 McCulloch和Pitts的模型是基于逻辑的,把逻辑表达式变成几何表达式,这个关键的概念上的跳跃,是Rosenblatt做的。所以一般认他为奠基者。当然了,没有前两者,也不会有他的工作。

McCulloch是生理学家,所以神经网络来源于生物学,这个没啥可说的。没有动作电位的发现,就没有神经网络。

Pitts也是一个传奇人物,算是真正意义上的天才,电影里面那种。中学都没读完,在图书馆里找到一本书,罗素的数学原理,指出其中的错误,就这样开始发达了,最后因为发现逻辑解释不了自己的生物实验结果,心灰意冷,又因为与维纳的女儿多说了几句话,与维纳闹翻了,最后潦倒而死。

西方是个世袭乡绅权贵社会,阶级之间,等级森严,有生殖隔离。维纳这个犹太人,看到Pitts这样的狗蝇流浪汉居然也想泡自己的女儿,就爆发了,哈哈。当然wiki上对这段公案进行了美化,说维纳“这可能由他的神经质性格引起。他的家族中包括弟弟等,有严重的精神分裂症病史,而维纳本身则有重度的近视与严重的躁郁症。躁症发作时,他疯狂似的跑遍校园,向别人宣传他的发现。而躁郁症症状产生时,他则多次向麻省的同事列文森诉说自己的自杀念头。”

其实我觉得,他就是看不起Pitts,尼玛一个流浪汉出身的,居然也敢来泡我的女儿,反了简直。
头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 465
帖子: 9926
注册时间: 2022年 7月 22日 15:29

#9 Re: Hinton的博士导师

帖子 hci(海螺子)楼主 »

所以要看开点。名利都是浮云。
FoxMe 写了: 2024年 10月 14日 15:40 尼玛,Pitts混得这么惨
头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 465
帖子: 9926
注册时间: 2022年 7月 22日 15:29

#10 Re: Hinton的博士导师

帖子 hci(海螺子)楼主 »

犹太人能像中国人这么想,也不会混成人见人恨的样子了。

民族性不一样。
FoxMe 写了: 2024年 10月 14日 15:40 尼玛,Pitts混得这么惨。

在中国,导师会把女儿嫁给得意门生。苏步青在日本留学时娶了导师女儿。
FoxMe(令狐)
论坛精英
论坛精英
帖子互动: 144
帖子: 5317
注册时间: 2022年 7月 26日 16:46

#11 Re: Hinton的博士导师

帖子 FoxMe(令狐) »

噢,hci是human-computer interaction.

T = a + b log_2(D/W+1)这个公式很像信息论里的信道容量啊
头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 465
帖子: 9926
注册时间: 2022年 7月 22日 15:29

#12 Re: Hinton的博士导师

帖子 hci(海螺子)楼主 »

不是像,就是呀。这公式原本就是Fitts从信息论里推导出的。一维的情况简单,直接推,直接就与实验结果一致。

P. M. Fitts. The information capacity of the human motor system in controlling amplitude of movement. Journal of Experimental Psychology, 47:381–391, 1954.

二维的情况,就需要用到空间对称压缩的概念了,如我的文章所言,也就是我所谓的Principle of maximum regularity.
FoxMe 写了: 2024年 10月 14日 15:54 噢,hci是human-computer interaction.

T = a + b log_2(D/W+1)这个公式很像信息论里的信道容量啊
FoxMe(令狐)
论坛精英
论坛精英
帖子互动: 144
帖子: 5317
注册时间: 2022年 7月 26日 16:46

#13 Re: Hinton的博士导师

帖子 FoxMe(令狐) »

有意思。可是你的文章,除了这个公式,我啥也没看懂 :D

你的大作讲了什么问题呢?pointing在这里是啥意思?
hci 写了: 2024年 10月 14日 16:04 不是像,就是呀。这公式原本就是Fitts从信息论里推导出的。一维的情况简单,直接推,直接就与实验结果一致。

二维就需要用到空间对称压缩的概念了,如我的文章所言。
FoxMe(令狐)
论坛精英
论坛精英
帖子互动: 144
帖子: 5317
注册时间: 2022年 7月 26日 16:46

#14 Re: Hinton的博士导师

帖子 FoxMe(令狐) »

哈哈,我老婆也是教授女儿(不是导师),从来没看不起穷小子
hci 写了: 2024年 10月 14日 15:51 犹太人能像中国人这么想,也不会混成人见人恨的样子了。

民族性不一样。
FoxMe(令狐)
论坛精英
论坛精英
帖子互动: 144
帖子: 5317
注册时间: 2022年 7月 26日 16:46

#15 Re: Hinton的博士导师

帖子 FoxMe(令狐) »

景仰景仰。我原来读研究生时是准备学人工智能的,不过后来转数论方向了。现在衣食无忧,但不是老板,买不了公司。不过平时可以帮关注/推介一下。

我对人工智能有些了解,现在作为业余爱好。但是感觉你说的方向大有可为。
hci 写了: 2024年 10月 14日 13:56 为了生存,我们都得放弃理想。哈哈。

我2014年就从IBM出来搞startup了,搞了十年多了。现在这个startup也快完蛋了,我可能要找工作了,各位内推一个呗。我司的对话AI,也就是聊天机器人技术还是目前最领先的,能够在使用GenAI情况下,让用户继续保持对机器人的全面控制。事实上,有的我们的用户干脆把GenAI关了,怕乱说。但是,没有GenAI,对话效果要差很多。如我所说,GenAI的确解决了知觉问题,自然语言理解,就是一个知觉问题。

可我们在商业上真的不会弄,技术优势变成商业优势有太多不可控因素了,我们作为黄皮,真是不受待见。做到大公司高层的,想搞对话机器人,可以考虑买我们公司,私信我。我们可以贱卖啊。哈哈。

不要自己搞,你们搞不出来的。看着简单,其实水很深。OpenAI有那么多钱,都搞不出能企业使用的应用,所以其实你们也搞不出来,就不要做梦了。而我们已经搞出来了,我们的顾客,都心甘情愿一年付费几万美刀。所以还是买我们这种已经搞出来的比较划算。

认知心理学里面的高度成功的少数几个数量理论,都是基于信息论的。读读我那篇configuration space文章,我的观念在里面讲得很清楚。不懂可以问问题。学数学出身的,也可以和我合作,我有直觉,你能算,搞出了东西,这个牛顿爱因斯坦式的名头,我可以让给你。哈哈哈。我老是修道之人,已经不在乎名利了。
FoxMe(令狐)
论坛精英
论坛精英
帖子互动: 144
帖子: 5317
注册时间: 2022年 7月 26日 16:46

#16 Re: Hinton的博士导师

帖子 FoxMe(令狐) »

《内源性和外源性视觉选择性注意》:原来你早就研究attention了。人的机遇很关键,这可是诺贝尔奖级的贡献。

大道至简:非常同意。能把很复杂的东西,以非常简单的方式讲清楚,需要非常深入的理解和体会。

40年代二战前后,是美帝科技的高光时刻:信息论,控制论,人工智能,晶体管,计算机等等,都是这段时间发明的,确实太逆天了。
hci 写了: 2024年 10月 14日 11:20 哈哈哈,当你知道Hinton是个心理学家之后,他就不是个聪明人了。那咋没把奖发给聪明人呢?

真正公认的深学之父是frank rosenblatt,就更是一个心理学家了,1956年康乃尔心理系博士毕业,也是研究知觉的。两年后,在《心理学评论》发表了他关于"知觉机"的文章,一举奠定DNN的基础。现在神经网络的基本方法,包括吹的牛皮,都是他发明的。哈哈。无非是他死得早,1971年就出事故死亡了,你们不知道而己。

看看我老对genAI的历史现状和未来展望的talk吧,看不懂的我可以答疑。在心理所讲的,视频没有公开,也太长了,我讲了三个多小时,用中文讲的,slides倒是英文。

https://www.slideshare.net/slideshow/genaipdf/260536464

其实我讲的这些,对心理系的同学,大都是符合他们理解的常理的。当时我讲完,我的师姐(其实是与我同年心理所硕士入学的,同一个导师,她是武大数学系本科,但她年龄比我大很多,所以我叫她师姐),现在是心理所的党委书记,说她唯一从我这学到的,是总算听我讲明白了“attention is all your need"一文里面的attention到底是啥意思。她说她问了计算所的很多人,都没讲明白,我一讲,她就明白了,原来就是心理学里面的attention,只不过是外源性的那种。我老的硕士论文,就是研究内源性和外源性注意在视觉中的作用的,题目就叫《内源性和外源性视觉选择性注意》,哈哈。所以我一读transformer这个文,就看清楚了它的本质。而学计算机的人只知道公式,不知道那到底是在干什么,用处是什么,所以也不能给别人讲明白,哈哈。我老的厉害之处,就在于总能把复杂的技术问题,用简单的语言讲得让一个聪明人茅塞顿开。我的清华学霸老婆,当年是我助教班上的学生,就是这么看上我的。哈哈。所以我坚信,一个东西,如果不能给一个聪明人讲明白,说明自己还不明白。其实“明白”的本意,就是化繁为简。老子曰,大道至简。

这么说把,深学发展到现在,里面用到的techinique,就没有超出一个认知心理学基础扎实的学生学到的东西的范畴的,都是觉得自然的东西。

深学要在理论上进一步突破,就需要有心理学学生力所不能及的数学,具体我也给你们说了,就是information theory on geometric structures。这个我老碰过,力不能及,走不下去了。我老当年从烂校information science法考题一举跳到CS殿堂级研究机构,就是因为认识到了这个方向,一个talk,就语惊四座,立马给了我一个offer. 这个领域,唯一相关的现有研究,就是日本数学家Amari搞的information geometry(也就LSTM发明人争论的发明backprop的那位日本数学家)。但我觉得他搞得过于复杂了,其实应该反过来,geometric information theory会更简单,也才是我们需要的。但用到的数学工具,应该差不多。我以前请教过一个同事,中国人,数学博士专门研究information geometry的,他说这个很难。既然他都这么说,我就放弃了。他是码工,不过写码很烂,跟我老不能比。他当年被招来的原因,也是因为招他的人,一个印度人,觉得information geometry有前途。这位后来因为发明sentiment analysis这个领域,成了ibm fellow,他也是学数学出身的,其实是数学世家,他的祖辈是最早发现阿马努金,介绍给哈代的。

其实只要搞AI,搞深下去, 最后大家对方向的认识差不了太远,英雄所见略同。当然了,最后为了生计,大部分人都得干别的。Hinton的独特之处,在于坚持,这个我们大家都比不上他。可他是根正苗红的白皮,没有生存危机。我们中国人印度人都没有这种奢侈。

如上面所说,认知科学的真正原理,如果最后真正被理解了,应该是非常简单的,大致就是利用空间的对称性进行信息压缩。具体的方向,我也指出了,就是空间上的信息学。但这个方向,我唯一公开发表的相关文章,因为整个理论总是被拒,发不了,就发了一篇留下实验去掉理论的文章。但这个文章目前是零引用,0。只有一个出版社让我把它扩充一下,变成了一本书里的一章。就是这篇:

https://web-archive.southampton.ac.uk/c ... 2-yang.pdf
头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 465
帖子: 9926
注册时间: 2022年 7月 22日 15:29

#17 Re: Hinton的博士导师

帖子 hci(海螺子)楼主 »

pointing就是字面意思,用手指一个东西的这个动作。

这儿是用鼠标指。屏幕上画个方框,鼠标在外面,让你把它移动到方框里面,越快越准为好。

测量移动的时间,就是Fitts' law这个公式预测的因变量T,自变量就是方框的宽度W和最初鼠标与方框的距离D。

这为啥叫定律, law?就是这个公式的预测准确性相当高,你看那些回归数据,R方都在0.9以上。

一维的情况只考虑方框的宽度,移动方向与宽度一致。

二维的情况,要同时考虑方框的高度和宽度,移动方向也是任意的。就是我的文章研究的被式的实验任务。

我的文章,主要是比较各种不同的模型,和在不同模型里,用信息论推导出的不同的公式,到底哪个与实验数据最符合。一共考察8个公式,5个是我推导的,三个是前人提出的。

理论上,我认定脑子事先计算好一个动作所需要的时间,以保证移动的准确性,所以这就是个信息通量问题,人计划用的运动时间的长短,就反映信息通量的大小,如Fitts在1954年所说。

我的文章是承认这个信息论基础,研究更复杂的情况。最后发现,在二维的情况,一种基于规范空间模型推导出的信息通量公式,与实验结果最契合。

所以我的讨论就在假设,可能认知有一个原则,就是最大规范化原则:认知先把问题的参数空间(configuration space)规范化,再在这个规范化之后的空间里来进行信息论的计算。
FoxMe 写了: 2024年 10月 14日 16:11 有意思。可是你的文章,除了这个公式,我啥也没看懂 :D

你的大作讲了什么问题呢?pointing在这里是啥意思?
FoxMe(令狐)
论坛精英
论坛精英
帖子互动: 144
帖子: 5317
注册时间: 2022年 7月 26日 16:46

#18 Re: Hinton的博士导师

帖子 FoxMe(令狐) »

知道了,多谢回答。

slides也拜读了,感觉有独到之处。可是attention/transformer我还是不懂,虽然你提了。你有没有有简单的解释?
hci 写了: 2024年 10月 14日 16:41 pointing就是字面意思,用手指一个东西的这个动作。

这儿是用鼠标指。屏幕上画个方框,鼠标在外面,让你把它移动到方框里面,越快越准为好。

测量移动的时间,就是Fitts' law这个公式预测的因变量T,自变量就是方框的宽度W和最初鼠标与方框的距离D。

这为啥叫定律, law?就是这个公式的预测准确性相当高,你看那些回归数据,R方都在0.9以上。

一维的情况只考虑方框的宽度,移动方向与宽度一致。

二维的情况,要同时考虑方框的高度和宽度,移动方向也是任意的。就是我的文章研究的被式的实验任务。

我的文章,主要是比较各种不同的模型,和在不同模型里,用信息论推导出的不同的公式,到底哪个与实验数据最符合。一共考察8个公式,5个是我推导的,三个是前人提出的。

理论上,我认定脑子事先计算好一个动作所需要的时间,以保证移动的准确性,所以这就是个信息通量问题,人计划用的运动时间的长短,就反映信息通量的大小,如Fitts在1954年所说。

我的文章是承认这个信息论基础,研究更复杂的情况。最后发现,在二维的情况,一种基于规范空间模型推导出的信息通量公式,与实验结果最契合。

所以我的讨论就在假设,可能认知有一个原则,就是最大规范化原则:认知先把问题的参数空间(configuration space)规范化,再在这个规范化之后的空间里来进行信息论的计算。
头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 465
帖子: 9926
注册时间: 2022年 7月 22日 15:29

#19 Re: Hinton的博士导师

帖子 hci(海螺子)楼主 »

注意的简单概念,也就是其字面意思:一个特征被用在计算中的被重视程度,那些被提高了重视程度的,权重增加的,就是被注意了,其他的,就没被注意,甚至被压制了。这也是心理学里的注意的意思。

这种增加压制的产生来源,自然就有两种,一种是系统主动产生的,就是内源性注意,目前的AI还不会这个,是很有前途的研究方向,我这个talk也讲了,我也是世界上唯一这么说的。另一种,就是刺激本身带来的注意,外源性注意。transformer实现的,就是这种注意。本质上,这种注意的根源是刺激与刺激内在的相似性,相似性用矢量内积来实现计算。明白这个,基本原理就明白了。其他的都是数字结果规整化的细节,scale啊,softmax啊,等等。Note:不是相似性更大就更受注意,反之也是可能的。比如人类视觉,外源性注意其实主要是反的,相似度高的刺激,反而一般不容易产生外源性注意,就是不出众的东西不会引起注意。

Q是代表当前考察的输入符号在注意上的作用的矢量,与一个代表当前刺激情景的矢量K,两者的内积,在被规整之后的量,就是被选中的注意的索引,然后在代表注意变化量的V中去找到相应的变化量,让一些输入信号被重视,一些被忽视。最后,从这种被注意改变了的输入中,产生输出,这步与其他的多层知觉器一样。那这些QKV从哪里来的?训练的时候学习的,这个体系结构就定义了QKV这些网络层,自然其权重会被学出来。一套QKV, 就叫一个注意头。搞上多个这样的注意头,每个关注输入空间的不同部分,这就有了transformer。

就这。所以为啥说“attention is all you need",因为transformer真就是这么点特色,没有循环, 没有卷积,比其他的网络结构,什么CNN, LSTM之类,简单多了。

从数学上说,为啥要学QKV这三个矩阵?没有任何道理。但是,从认知心理学角度,道理很清楚,就是我上面说的,这是用来实现外源性注意的一个最简单的机制。如果让人手写注意机制,也会有这么三个东西:当前輸入刺激在注意中的表征,当前场景的表征,当前场景应導致注意改变的量的表征,三者缺一不可。Q,K和V到底哪个是哪个,其实并不重要。所以上面也只是一种解释,也可以有其他说法。
FoxMe 写了: 2024年 10月 14日 17:27 知道了,多谢回答。

slides也拜读了,感觉有独到之处。可是attention/transformer我还是不懂,虽然你提了。你有没有有简单的解释?
x1 图片
上次由 hci 在 2024年 10月 14日 20:22 修改。
forecasting
著名点评
著名点评
帖子互动: 297
帖子: 4105
注册时间: 2023年 4月 17日 08:26

#20 Re: Hinton的博士导师

帖子 forecasting »

hci 写了: 2024年 10月 14日 11:20 哈哈哈,当你知道Hinton是个心理学家之后,他就不是个聪明人了。那咋没把奖发给聪明人呢?

真正公认的深学之父是frank rosenblatt,就更是一个心理学家了,1956年康乃尔心理系博士毕业,也是研究知觉的。两年后,在《心理学评论》发表了他关于"知觉机"的文章,一举奠定DNN的基础。现在神经网络的基本方法,包括吹的牛皮,都是他发明的。哈哈。无非是他死得早,1971年就出事故死亡了,你们不知道而己。

看看我老对genAI的历史现状和未来展望的talk吧,看不懂的我可以答疑。在心理所讲的,视频没有公开,也太长了,我讲了三个多小时,用中文讲的,slides倒是英文。

https://www.slideshare.net/slideshow/genaipdf/260536464

其实我讲的这些,对心理系的同学,大都是符合他们理解的常理的。当时我讲完,我的师姐(其实是与我同年心理所硕士入学的,同一个导师,她是武大数学系本科,但她年龄比我大很多,所以我叫她师姐),现在是心理所的党委书记,说她唯一从我这学到的,是总算听我讲明白了“attention is all your need"一文里面的attention到底是啥意思。她说她问了计算所的很多人,都没讲明白,我一讲,她就明白了,原来就是心理学里面的attention,只不过是外源性的那种。我老的硕士论文,就是研究内源性和外源性注意在视觉中的作用的,题目就叫《内源性和外源性视觉选择性注意》,哈哈。所以我一读transformer这个文,就看清楚了它的本质。而学计算机的人只知道公式,不知道那到底是在干什么,用处是什么,所以也不能给别人讲明白,哈哈。我老的厉害之处,就在于总能把复杂的技术问题,用简单的语言讲得让一个聪明人茅塞顿开。我的清华学霸老婆,当年是我助教班上的学生,就是这么看上我的。哈哈。所以我坚信,一个东西,如果不能给一个聪明人讲明白,说明自己还不明白。其实“明白”的本意,就是化繁为简。老子曰,大道至简。

这么说把,深学发展到现在,里面用到的techinique,就没有超出一个认知心理学基础扎实的学生学到的东西的范畴的,都是觉得自然的东西。

深学要在理论上进一步突破,就需要有心理学学生力所不能及的数学,具体我也给你们说了,就是information theory on geometric structures。这个我老碰过,力不能及,走不下去了。我老当年从烂校information science法考题一举跳到CS殿堂级研究机构,就是因为认识到了这个方向,一个talk,就语惊四座,立马给了我一个offer. 这个领域,唯一相关的现有研究,就是日本数学家Amari搞的information geometry(也就LSTM发明人争论的发明backprop的那位日本数学家)。但我觉得他搞得过于复杂了,其实应该反过来,geometric information theory会更简单,也才是我们需要的。但用到的数学工具,应该差不多。我以前请教过一个同事,中国人,数学博士专门研究information geometry的,他说这个很难。既然他都这么说,我就放弃了。他是码工,不过写码很烂,跟我老不能比。他当年被招来的原因,也是因为招他的人,一个印度人,觉得information geometry有前途。这位后来因为发明sentiment analysis这个领域,成了ibm fellow,他也是学数学出身的,其实是数学世家,他的祖辈是最早发现阿马努金,介绍给哈代的。

其实只要搞AI,搞深下去, 最后大家对方向的认识差不了太远,英雄所见略同。当然了,最后为了生计,大部分人都得干别的。Hinton的独特之处,在于坚持,这个我们大家都比不上他。可他是根正苗红的白皮,没有生存危机。我们中国人印度人都没有这种奢侈。

如上面所说,认知科学的真正原理,如果最后真正被理解了,应该是非常简单的,大致就是利用空间的对称性进行信息压缩。具体的方向,我也指出了,就是空间上的信息学。但这个方向,我唯一公开发表的相关文章,因为整个理论总是被拒,发不了,就发了一篇留下实验去掉理论的文章。但这个文章目前是零引用,0。只有一个出版社让我把它扩充一下,变成了一本书里的一章。就是这篇:

https://web-archive.southampton.ac.uk/c ... 2-yang.pdf
心理学基本都是忽悠!
上次由 forecasting 在 2024年 10月 14日 20:19 修改。
回复

回到 “STEM”