我们总是听说如何(人工智能)和自动化技术将在不久的将来取代我们的工作,现在美国的研究人员开发了一个能够完成 11 年级任务的人工智能程序SAT水平几何问题。这也不是一个理论主张——他们实际上给软件提供了来自 SAT 的真实问题(包括该程序以前从未见过的问题),以了解它的表现。
那么进展如何呢?嗯,相当令人惊讶的是,考虑到这是以前从未做过的——但我们也可以沾沾自喜地相信人工智能不会很快取代人类数学家。在练习题中,该系统的得分高达 61%,但在关键时刻表现不佳,官方 SAT 问题的得分仅为 49%(哎呀,太接近了!)。
这研究结果,本周在自然语言处理实证方法会议在里斯本,展示人工智能系统已经取得了多大的进步,但也表明仍然有相当大的改进空间。 (我们想象人工智能的成绩单会读到一些经典的内容:“人工智能显示出希望,但需要运用自己来获得更好的成绩。”)
你可以看到软件在线测试的问题类型。如果你之前学过这个级别的数学,那么这并不是特别困难的东西(对于人类来说),但研究人员面临的真正挑战是教软件正确识别页面上的所有视觉信息,以便理解什么它被要求做。
作为研究人员之一,华盛顿大学的阿里·法哈迪 (Ali Farhadi) 告诉约翰·马尔科夫 (John Markoff)纽约时报即使是儿童也很容易理解的视觉标记(例如,测试图中绘制的箭头)目前还不是最先进的人工智能能够在上下文中正确识别的东西。
“我的很多同事都说机器视觉问题已经解决了,”法哈迪说。 “我的回答是,‘解决了这个问题后给我打电话。’”
虽然人工智能并不总是能够准确地理解问题,但它在 SAT 数学水平上获得及格分数或接近及格分数这一事实本身就是一个相当惊人的成就。也许并非总是如此,但在很多时候,该软件可以结合对页面上的图表、箭头、数字、形状和书面句子的足够理解,以正确识别和回答向其提出的几何问题。
下一步:哲学 101!