神经网络之父 Geoff Hinton 推翻毕生心血「反向传播演算法」:打掉重来,AI 才有未来!(1)

以「深度学习之父」和「神经网络先驱」闻名于世的 Geoffrey Hinton 提出了对现在最核心的 back-propagation(反向传播)演算法的深沉反思。 Hinton 说:「我的观点是把它(反向传播)全部丢下,重起炉灶。」

反向传播演算法是 Siri、图像辨识等 AI 技术的核心,为何 Geoffrey Hinton 希望推翻它? Google 首席AI 科学家李飞飞不只同意Hinton 的说法,还这样比喻「反向传播的重要性,就像劳斯莱斯发动机之于飞机,非常重要,但还不足以让我们像鸟儿一样自由翱翔。」这篇文章解释了究竟反向传播演算法是什么?而 Hinton 提出的 capsule 有何全新见解? 两个人工神经网络算法的区别何在?

现在的深度学习发展似乎已经陷入了大型化、深度化的怪圈,我们设计的模型容易被对抗样本欺骗,同时又需要大量的训练数据——在无监督学习上我们取得的突破还很少。作为反向传播这一深度学习核心技术的提出者之一,Geoffrey Hinton 很早就意识到反向传播并不是自然界生物大脑中存在的机制。那么,在技术上,反向传播还有哪些值得怀疑的地方?

反向传播的问题在哪?
Geoffrey Hinton 对人工智能的未来非常担忧。在最近的一次人工智能会议上,Hinton 表示自己对于反向传播「非常怀疑」,并提出「应该抛弃它并重新开始」。

在人工智慧多年的发展过程中,反向传播已经成为了深度学习不可或缺的一部分。研究人员发现,只要层是可微分的,我们就可以在求解时使用任何计算层。换句话说,层的梯度是可以被计算的。更为清楚地说,在寻物游戏中,准确表现出被蒙住眼睛的玩家与他的目标之间的距离。

在反向传播上,存在着几个问题:第一个是计算出来的梯度是否真的是学习的正确方向。这在直观上是可疑的。人们总是可以寻找到某些看起来可行的方向,但这并不总是意味着它最终通向问题的解。所以,忽略梯度或许也可以让我们找到解决方案(当然,我们也不能永远忽略梯度)。适应性方法和优化方法之间存在着很多不同。

现在,让我们回顾一下反向传播思想的起源。历史上,机器学习起源于曲线拟合的整体思路。在线性回归的具体情况下(如对一条线进行拟合预测),计算梯度是求解最小二乘问题。在优化领域,除了使用梯度找到最优解之外,还有许多其他方法。不过,事实上,随机梯度下降可能是最基本的优化方法之一。所以它只是我们能想到的很多方法中最为简单的一个,虽然也非常好用。

大多数研究优化的学者很长一段时间以来都认为深度学习的高维空间需要非凸解,因此非常难以优化。但是,由于一些难以解释的原因。深度学习使用随机梯度下降(SGD)的效果却非常好。许多研究人员对于为什么深度学习用 SGD 优化如此简单提出了不同解释,其中最具说服力的说法是这种方法倾向于找到真正的鞍点——而不是小范围内的谷地 。使用这种方法的情况下,总是有足够的维度让我们找到最优解。

DeepMind 研究的合成梯度是一种解耦层方法,以便于我们不总是需要反向传播,或者梯度计算可推迟。这种方法同样非常有效。这一发现可能也是一种暗示,正在产生更通用的方法。好像关于这个方向的任何升级都是有益的(随意提了一下合成梯度),不管效果是不是一样。

还有一个使用目标函数的典型问题: 反向传播是相对于目标函数计算的 。通常,目标函数是预测分布与实际分布之间差异的量度。通常,它是从 Kullback-Liebler 散度衍生出来的,或者是像 Wassertsein 这样的其他相似性分布数值。但是,在这些相似性计算中,「标签」是监督训练必不可少的一部分。在 Hinton 抛出反向传播言论的同时,他也对于监督学习发表了自己的看法:「我认为这意味着放弃反向传播……我们确实不需要所有数据都有标签。」

简而言之,没有目标函数就无法进行反向传播。如果你无法评估预测值和标签(实际或训练数据)的 value 值,你就没有目标函数。因此,为了实现「无监督学习」,你需要抛弃计算梯度的能力。

发表评论

电子邮件地址不会被公开。 必填项已用*标注