ml

Softmax

Posted by kifish on May 15, 2018

[1]这份材料相当深入浅出。

李航的书里把第K类另外处理了,其实是没有必要的,因为第K类和其他类的地位是一样的。[1]中的公式更好理解。

[1]中讲到softmax具有overparameterized,有多解,换句话说两组不同参数的softmax,给出的分布也有可能完全一样。 有点类似线性代数中不同参数的平行向量。

使用牛顿迭代法会遇到问题。

one could instead set \(\theta_1 = \vec{0}\)

and optimize only with respect to the (k − 1)(n + 1) remaining parameters, and this would work fine.

加上正则化之后就变成唯一解了。

softmax 和 k Binary Classifiers

前者只能解决一个样本只对应一个类的多分类问题,后者可以解决一个样本具有多个类别的问题。

[1]http://deeplearning.stanford.edu/wiki/index.php/Softmax_Regression