由于规格高、论文多,顶会论文审稿过程的公平性和透明度,向来是业界关注和争议的焦点。
本届ICLR在放榜后就有人在Reddit上发帖,质疑委员会接收了违反匿名政策的论文,且没有在评审过程中遵守双盲原则。
而且这种情况绝不是个例。ICLR官方发布的文章表示,关于审稿过程的问题已经收到了7000多封意见书。
很快,随着大会正式拉开帷幕,ICLR也亲自下场表示,目前已经针对这种「串通」行为展开了调查。
所谓Collusion(串通)就是,一些审稿人通过操纵投标系统与特定作者匹配。
不仅如此,部分领域主席(AC)可能也通过类似的方式操作系统并指派同谋的审稿人。
然后,这些审稿人就会给出极高的评价,从而提高论文被接收的可能性。
对此,ICLR表示:
- 目前已发现多起审稿人与作者之间的勾结行为,其中一些案例有直接证据。
- 这些行为均直接违反了道德守则。
- 道德委员会正审查,并评估可能的处罚。
AI辅助审稿
除此之外,关于评审委员会在审稿时能否使用AI工具的问题也一直饱受争议。
相比其他顶会,ICLR审稿较为独特的一点在于,无论是否被接受,每篇论文的评分和评审意见都会被公开发布。
于是,来自洛桑联邦理工学院的研究人员,就利用ICLR 2024的相关公开数据,研究了用AI进行辅助评审的情况。
这篇论文不仅揭示了评审过程中可能存在的大范围使用AI辅助工具的情况,也采用对比分析的方法研究了这种行为对评审结果可能存在的影响。
论文地址:https://arxiv.org/abs/2405.02150
论文作者首先采用了一个商用的LLM检测器GPTZero来评估所有的文字评审意见。GPTZero可以将给定文本分为「完全由人类生成」,「完全由AI生成」和「混合生成」三类,并给出相应的置信度。
这篇研究中,如果GPTZero认为「完全由人类生成」的置信度低于0.5,则被认定为使用了AI辅助。结果显示,AI辅助评审比想象中的更广泛。
2024年评委们给出的28028条评审意见中至少有15.8%是由AI辅助生成的,全部接收文章中的49.9%收到了至少一条由GPTZero判定为AI辅助的评审意见。
基于GPTZero的检测结果,论文继续研究AI辅助生成的评论是否会对论文的评分和接受率产生影响。
文章包括三部分,第一部分分析AI参与审稿的范围,第二、三部分研究AI辅助可能产生的影响
对于每篇既有AI辅助评审意见又有人类评审意见的论文,作者收集了这些等级制评分的结果(包含5个等级:1分、3分、5分、6分、8分),并使用了比例赔付模型(proportional odds model)拟合估计AI辅助评审会打出更高分数的可能性。
总体上,AI给论文的评分会高于人类。对于一篇给定的论文,AI评分有53.4%的可能性高于人类评分。
无论在哪个分数区间,AI辅助评审打出的分数相比人类都会更高
为了研究AI辅助的评审意见会如何影响论文入选结果,作者从全部论文中挑选了内容相似的文章匹配成对,其中一篇全部被判定为由人类评审,另一篇则只含有一条AI辅助评审,且除去AI的给分后,审稿委员会为它们打出了完全相同的分数。
通过以上标准筛选出5132个论文样本后,作者对比了它们的接收情况从而分析AI辅助评分的影响。
总体而言,一条AI辅助的评分让论文有3.1%的更高可能入选,而且对于评分徘徊在接收分数线边缘的论文,这个数字还会提升到4.9%。
评分在5~6分、处于接收线边缘时,AI评分会对论文入选有正面影响
近年来大语言模型的快速发展,尤其是ChatGPT诞生后,学术界就涌现出了对AI参与审稿过程的质疑,自己工作都在「996」的教授们面对审稿的重担很有可能让大语言模型帮自己撰写评审意见。
这篇论文探究了当今顶会的审稿现状,通过控制变量的方法追踪并量化了因果关系,进而揭示了AI辅助评审对论文接收结果可能产生的影响。
大语言模型的快速发展是否会威胁学术界长久以来实行的同行评审制度,一直是期刊和论文的委员会所担忧的。论文作者表示,这项研究的意义之一在于,用量化的证据坐实了这种负面影响。
由于论文投稿数量的激增以及发展得越来越快的文字生成工具,疲于审稿工作的委员们采用AI辅助工具似乎是不可避免的趋势。
以ICLR为例,2023年的总投稿数仅为4955篇,今年就激增了将近一倍,达到7262篇,这无疑给会议的评审委员会带来了很大的工作负担。
论文的最后一部分诚实地表达了作者的担忧,认为审稿过程的准则和评价指标需要跟随大语言模型的发展一同进化。
否则,任由AI放肆地将自己不成熟的价值观投射到学术论文的筛选过程上,尤其是那些含有更多观点和价值表述的论文,将会产生更严重的危机。
最后,作者还分享了他们基于GPTZero打造的检测网站,只要输入你的论文标题,就能看到自己的ICLR论文是不是被「幸运」地分配到了AI辅助评审。
测试地址:http://aireviewlottery.com