如果您在观看最新的人工智能生成视频时惊掉了下巴,欺诈检测系统从犯罪分子手中拯救了您的银行余额,或者您的一天因为能够在逃亡时口述短信而变得更加轻松,那么您已经要感谢许多科学家、数学家和工程师。
但有两个名字因对深度学习技术的基础性贡献而脱颖而出,使这些体验成为可能:普林斯顿大学物理学家约翰·霍普菲尔德和多伦多大学计算机科学家杰弗里·辛顿。
这两位研究人员分别是荣获诺贝尔物理学奖2024 年 10 月 8 日,表彰他们在人工神经网络领域的开创性工作。
尽管人工神经网络是以生物神经网络为模型的,但这两位研究人员的工作都借鉴了统计物理学,因此获得了物理学奖。
神经元如何计算
人工神经网络起源于对活体大脑中生物神经元的研究。 1943 年,神经生理学家 Warren McCulloch 和逻辑学家 Walter Pitts 提出了神经元如何工作的简单模型。
在 McCulloch-Pitts 模型中,神经元与其相邻神经元相连,并可以接收来自它们的信号。然后它可以组合这些信号以将信号发送到其他神经元。
但有一个不同之处:它可以对来自不同邻居的信号进行不同的衡量。想象一下,您正在尝试决定是否购买一款新的畅销手机。您与您的朋友交谈并询问他们的建议。
一个简单的策略是收集所有朋友的推荐,然后决定遵循大多数人的意见。例如,你问三个朋友,爱丽丝、鲍勃和查理,他们分别说是、是和否。这会导致您决定购买这款手机,因为您有两种赞成和一种反对。
然而,你可能会更信任一些朋友,因为他们对技术小工具有深入的了解。因此,您可能会决定更加重视他们的建议。
例如,如果查理非常有知识,你可能会数他三遍“不”,现在你的决定是不买手机?两声赞成,三声反对。
如果你不幸有一个在技术小工具问题上完全不信任的朋友,你甚至可以给他们分配负权重。因此,他们的赞成算作反对,他们的反对也算作赞成。
一旦您自己决定了新手机是否是一个不错的选择,其他朋友就可以向您征求推荐。
同样,在人工和生物神经网络中,神经元可以聚合来自邻居的信号并向其他神经元发送信号。
这种能力导致了一个关键的区别:网络中是否存在循环?例如,如果我今天问 Alice、Bob 和 Charlie,明天 Alice 又问我的推荐,那么就存在一个循环:从 Alice 到我,再从我回到 Alice。
如果神经元之间的连接没有循环,那么计算机科学家将其称为前馈神经网络。前馈网络中的神经元可以分层排列。
第一层由输入组成。第二层从第一层接收信号,依此类推。最后一层代表网络的输出。
然而,如果网络中存在循环,计算机科学家将其称为循环神经网络,并且神经元的排列可能比前馈神经网络更复杂。
霍普菲尔德网络
人工神经网络的最初灵感来自生物学,但很快其他领域开始影响其发展。这些包括逻辑、数学和物理。
物理学家约翰·霍普菲尔德利用物理学的思想来研究特定的循环神经网络的类型,现在称为 Hopfield 网络。他特别研究了它们的动态:随着时间的推移,网络会发生什么变化?
当信息通过社交网络传播时,这种动态也很重要。每个人都知道模因的传播和在线社交网络中形成的回声室。这些都是集体现象,最终源于网络中人们之间简单的信息交换。
霍普菲尔德是这一领域的先驱使用物理学模型,特别是那些为研究磁性、理解循环神经网络的动力学而开发的技术。他还表明,他们的动态可以给这样的神经网络一种记忆形式。
玻尔兹曼机和反向传播
在 20 世纪 80 年代,Geoffrey Hinton、计算神经生物学家 Terrence Sejnowski 等人扩展了 Hopfield 的想法,创建了一类新的模型,称为玻尔兹曼机,以 19 世纪物理学家的名字命名路德维希·玻尔兹曼。
顾名思义,这些模型的设计植根于玻尔兹曼开创的统计物理学。
与可以存储模式并纠正模式中的错误的 Hopfield 网络不同?就像拼写检查器一样?玻尔兹曼机器可以生成新的模式,从而播下现代生成人工智能革命的种子。
Hinton 也是 20 世纪 80 年代发生的另一项突破的一部分:反向传播。如果您希望人工神经网络执行有趣的任务,则必须以某种方式为人工神经元之间的连接选择正确的权重。
反向传播是一种关键算法,可以根据网络在训练数据集上的性能来选择权重。然而,训练多层人工神经网络仍然具有挑战性。
在 2000 年代,Hinton 和他的同事巧妙地使用玻尔兹曼机训练多层网络首先逐层预训练网络,然后在预训练网络之上使用另一种微调算法来进一步调整权重。
多层网络被重新命名为深度网络,深度学习革命已经开始。
人工智能回报物理学
诺贝尔物理学奖展示了物理学思想如何促进深度学习的兴起。现在,深度学习已经开始回报物理学,它能够准确、快速地模拟从分子和材料一直到整个地球气候的系统。
通过将诺贝尔物理学奖授予霍普菲尔德和辛顿,颁奖委员会表达了对人类利用这些进步促进人类福祉和建设可持续发展世界的潜力的希望。