宝玉 (@dotey) “【4】父母家卧室的两块GPU 2012年，多伦多 Alex Krizhevsky不想写文献综述。这是多伦”

2025.12.27 23:06

【4】父母家卧室的两块GPU 2012年，多伦多 Alex Krizhevsky不想写文献综述。这是多伦多大学博士生的必经之路：你得读一大堆论文，写一篇综述，证明你了解这个领域，然后才能正式开始做研究。没人喜欢这件事，Alex尤其不喜欢。 Hinton看出来了。 "这样吧，"他说，"你每周在ImageNet上提升1%的准确率，就可以推迟一周写综述。" 这是Hinton做过的最好的管理决策。 Alex开始疯狂刷分。一周，又一周，又一周。准确率一直在涨，综述一直没写。训练用的硬件很简陋：两块Nvidia GPU，放在Alex父母家的卧室里。 "学校付的GPU的钱，"Hinton后来说，"但电费是他父母付的。我这是在帮多伦多大学省钱。" 刚开始的时候，Alex其实什么都不懂。有一次他跑来跟Hinton说："不行，跑不动。" Hinton走过去一看，发现Alex把权重衰减参数设成了1。 "为什么设成1？" "我觉得这个数看起来不错。" "应该是0.001。" Hinton后来总结说，学生看起来蠢，不是因为真的蠢，只是因为还不知道。Alex学得很快，很快就变成了顶尖高手。另一个学生Ilya Sutskever一直在推动这件事。"我们得把这东西用在ImageNet上，"他说，"必须赶在Yann LeCun之前。" Yann LeCun当时在纽约大学，也在做卷积神经网络。他一直想让自己的学生把这技术用在ImageNet竞赛上，但那些学生总觉得有更重要的事情要做。 Ilya没那么多顾虑。他亲自把ImageNet的数据预处理好，全部裁剪成统一尺寸，让Alex可以直接开始训练。 2012年秋天，ImageNet竞赛的结果公布。Alex他们的模型赢了，而且不是赢了一点点——是碾压式的胜利。那个模型后来被叫做AlexNet。整个计算机视觉领域都被震动了。深度学习不再是一小撮人的信仰，而是被证明真正有用的东西。而这一切的起点，是一个不想写综述的博士生，两块GPU，和一间父母家的卧室。

显示更多