同行评审有其缺陷。人类(即便是科学家)会有偏向性,懒惰和自私。而且即使是科学工作者,有时候数学也会不很灵光。所以不可避免的,一些人想要将人工从同行评审中剔除,以人工智能取而代之。计算机以其公正、不知疲倦和无自我身份定位著称,而且它们在本质上精通算数。科学家并不只是干等着二进制大脑来参与科研同行评审,期刊出版商已经在着手将之建立。
最近,一个名为“ScienceIE”的竞赛为程序开发者设下挑战。参赛团队需要开发程序,要求这些程序能够从科学论文的句子中提取基本事实,并将其同其他论文所提取的基本事实进行比较。“我的项目的大目标是帮助科学家和从业者更快速地获得有关其研究领域的知识。”伦敦大学学院博士后AI研究员Isabelle Augenstein说,正是她设计了这个竞赛。
竞赛涉及到处理自然人类语言,这是诸多人工智能难题中的一个。参赛者设计程序来解决三个子任务:阅读每篇论文并确定其关键概念,按类型组织关键词,以及识别不同关键短语之间的关系。竞赛不仅仅是一场学术活动:Augenstein与世界最大的科学出版商之一的Elsevier签订了为期两年的合同,为后者的图书馆开发计算机工具。
Elsevier出版超过7500种不同期刊。每个期刊的编辑都必须为每份来稿找到合适的审稿人。(2015年,70万同行评审人员在Elsevier上评审了超过180万份稿件,其中40万份最终得到出版。)“能够评审稿件的人通常仅限于该领域的专家。”数字地图公司Descartes的CEO迈克·沃伦(Mike Warren)说。“你将这么一小群拥有博士学位的专家按学科和子学科进行细分,最后,全世界可能只有100人有资格审阅某份来稿。”Augenstein帮助Elsevier使用科技手段为每篇稿件自动寻找合适的审稿人。
Elsevier开发了一套名为“Evise”的自动化工具来帮助进行同行评审。该程序能够检查抄袭(这只是搜索和匹配功能,还谈不上AI),为审稿做最基础的把关。此外还有处理作者、编辑和审稿人之间的工作流程。另外几家主要的出版商也都有自动化软件来帮助进行同行评审。Springer-Nature当下正在测试一个名为“StatReviewer”的软件,确保每份来稿具有完整和准确的统计数据。
不过这些同行在能力和愿景上都无法同Elsevier相提并论。“我们正在调查更有抱负的任务,”Augenstein说。“当你对一篇论文有疑问,机器学习模型能够通读论文并回答你的问题。”
不过并非所有人都被“机器人博士”的前景所迷惑。上个月,芬兰赫尔辛基大学环境政策教授Janne Hukkinen和Elsevier杂志《生态经济学》的编辑为WIRED撰写了一篇文章,提醒人们对完全自动的AI同行评审保持警惕:
“通过查询出版商审阅着资料的数据库,分析过往评审中审稿人和编辑之间的交流,并识别从提交到最终编辑拍板这一整个流程中的变化模式——学习型算法完全可以接管从最初提交到最终决定的整个评审过程。更重要的是,将人工从同行评审之中剔除,能够减轻力求开放的学者与反对开放的商业出版商之间的紧张关系。”
按照Hukkinen的逻辑,一个能够胜任同行评审的AI同样也可以动笔写论文。最终,人类将成为科研中的遗留系统——冗余、低效又过时。他最终的观点是:“不经人类产生的新知将会动摇人类文化的基础。”
不过Hukkinen的警惕有点忧虑过早。“尽管AI在象棋、围棋和扑克这样的游戏中取得巨大成功,但仍然不能理解大多数普通的英文句子,更别说科学文本了。”艾伦人工智能研究所(Allen Institute for Artificial Intelligence)首席执行官Oren Etzioni说。ScienceIE竞赛团队的实例或可为其提供佐证:最终获胜的团队在三个子任务挑战中只达到43%的分数。
充斥着被动句式的科学论文晦涩至极,即便是在人脑看来也很难理解。所描述的对象经常隐身于层层前述之后,被动句式在日常语言面前显得深奥难懂。语言学家将任何人类所写的东西称为“自然语言”,而自然语言在计算机科学家看来实在是一团乱麻。
“自然语言给AI带来的一大难题是其模糊性”纽约大学计算机科学家Ernest Davis说。斯坦福大学名誉计算机科学家Terry Winograd有一个经典的歧义例子:
市议会拒绝给示威者许可,因为他们(担心/主张)暴力。
(The city councilmen refused the demonstrators a permit because they [feared/advocated] violence.)
这句子你我都能看明白,动词“担心”暗示了“他们”指的是“市议会”而非示威者。我们轻而易举地明白:示威者“主张”暴力;市议会“担心”暴力。但是一个计算机大脑可是会在此花费经年累月的时间最终也还是搞不清楚到底哪个动词指向哪个代词。这种类型的歧义只是自然语言缠结的一个缩影,同形异义词和叙事逻辑将让AI更加困扰。
这还没涉及科学论文中的具体问题,比如将文本论点同数据模式进行连接等。即便在纯数学论文中这一需求也很常见。“从英语到数学中的形式逻辑不是我们可以自动化的。”Davis说。“这是最简单的工作之一。它是高度限制性的,而我们理解目标。”心理学等同数学比较远的学科更是如此。在心理学论文中,我们几乎无法检查其论证的合理性。Davis说。“我们不知道如何以计算机的方式来表达一个实验。”
当然,一个完全自动的AI同行评审不仅需要对人类有所了解,还必须对其进行深入思考。“当你考虑AI问题时,同行评审可能是最难的一部分。因为同行评审最重要的职责是确保研究是新颖的,没有重复前人老路。”沃伦说。计算机程序能够查阅文献,找出那些问题仍然悬而未决。但是它却可能无力辨认出颠覆性的科学新发现。
俄勒冈州立大学AI研究员Tom Dietterich说:“也许我么只是需要改变我们做科学出版的方式。不是将我们的研究用英语写成一个故事,而是将我们的意见和论据链接到一个正式化的结构中。比如一个涵盖人类在某主题下所有知识的数据库。”换句话说,将同行评审的程序电脑化,而不是其解决方案。在这一点上,人们所要重新编程的不是计算机,而是人类行为。