新未名空间

backpropagation大意是从最后一层优化weight和bias。

既然最后一层能够优化达到目的

为啥还需要继续往前优化？

最后一层只是softmax线性函数。表达能力等于0。
一层一层往下去，加上非线性的算子，比如dropout，Relu，
还有resnet架构引入非线性短路机制。等等。
所有这些函数都是可导的。而且不需要人工推导导数，
都是机器求导。到了这个时候，就是大力出奇迹了。

懂？

谁说的“最后一层能够优化达到目的”？

最后一层的表现能力只有一层而已，除非你本身就是微调一个预训练的网络，否则不可能只碰最后一层

monday 写了： 2025年 6月 8日 17:44 backpropagation大意是从最后一层优化weight和bias。

既然最后一层能够优化达到目的

为啥还需要继续往前优化？

monday 写了： 2025年 6月 8日 17:44 backpropagation大意是从最后一层优化weight和bias。

既然最后一层能够优化达到目的

为啥还需要继续往前优化？

It's a composite function. Back propagation is to dynamically adjust parameters to minimize testing errors. The idea is similar to finding the fixed point of a monotone function.

Each layer is a function. A network is a composed function. Optimization by partial gradient requires updates to function parameters at each level. Of course, you can always freeze some layers.

新未名空间

问一个神经网络的backpropagation问题

#1 问一个神经网络的backpropagation问题

#2 Re: 问一个神经网络的backpropagation问题

#3 Re: 问一个神经网络的backpropagation问题

#4 Re: 问一个神经网络的backpropagation问题