每年AI领域的国际顶会,少不了「大事」发生。
前段时间,NeurIPS 2024论文评审结果终于出炉了,网友们开始「拉群」吵成了一片。
这时,有网友爆出黑料:
「一些评审人严重贬低论文贡献,用不合理的标准评判,甚至忽视论文相对于其他工作的实际改进」
他认为,这可能是竞品的作者,发现后做出不诚实的评审。
就连LeCun大佬也来围观,立即转发了该帖。
作为领域主席,我告诉作者:如果你遇到了这种情况,请联系领域主席(AC)。
作为一个作者,我想问:如何恰当地指出这种行为,并在合法批评和过度把关之间找到平衡点?
另有网友放出NeurIPS评审员经典评论:这个解决方案不是新的,并且已经被大量研究过了。
今年,是NeurIPS第38届年会,将于12月9日-15日在温哥华召开。
根据Paper Copilot收集的数据统计,截至目前,得分平均分布均在3-6分之间居多。
论文被打低分,究竟是谁的问题?
NeurIPS论文低分一片?
一位来自UT Austin的副教授,也是NeurIPS这届顶会的领域主席(AC)之一,阐述了自己所看到的现象。
他表示,在自己负责的一批论文中,已提交了48篇中的16篇评审。
到目前为止,我还没有看到一个正面评价,要么是评审员变得非常严格,要么是论文质量下降了?
今年,NeurIPS收到了很多「回收利用」的论文。
另一位AI研究员同样表示,要么就是论文质量下降,要么我就是大家口中讨厌的2号评审员。
在他审阅的论文中,基本上都给了2-4分。
另有评审员表示,「在我负责的这批62篇论文中,平均评分是4.3分,标准差为1。所以如果你最初得到低分,也不要灰心」!
可见,这次NeurIPS顶会论文作者都挺不好受,想要获取高分并不容易。
大模型参与评审
而且AI火了之后,大模型也被用来论文评审。
这次,NeurIPS 2024也不例外。
Reddit网友评论道,自己用一个月的时间审核6篇论文,当看到自己得到的是LLM的评价,真的很受伤。
还有人指出,在自己审阅的论文中,至少发现了3篇由大模型生成的评审意见,很可能还有更多,其中3篇明显是直接复制粘贴了ChatGPT输出,完全没有阅读论文。
这些评审都给了6分,Confidence为4,与其他所有人的评价完全不一致。
更有网友评价道,「论文评论的质量很低」。
一个评审者混淆了我们方法的基线,另一个评审者混淆了基线的派生(正如我们的工作所批评的那样)和我们方法的派生。我怀疑一些评论是由LLM产生的。
这届评审怎么肥事?
有人指出这本是NeurIPS官方组委会的问题。
对于NeurIPS的评审,6分的描述完全、彻底、奇怪地错误。
通常情况下,给6分就意味着拒稿。但它却被描述为一篇有中等到高影响力,且没有问题的论文?
难怪新评审员给出如此低的分数!
在NeurIPS评分规则中,给6分的介绍——Weak Accept。
技术上扎实,具有中等到高影响力的论文,在评估、资源、可重复性、伦理考虑方面没有重大问题。
今年6月,NeurIPS一位AC分享了很多关于顶会评审的更多信息:
他负责的一批共有13篇投稿,所有论文都已自动分配了四位评审员。
有趣的是,50%的评审员是博士生,还有几位硕士生和本科生也是评审员。
13篇论文中有5篇的评审员中,没有任何一位的职位高于博士生。
在这位AC负责的所有评审员中,有3位正教授,1位副教授,4位助理教授,9位业界专业人士,以及2位来自国家实验室的人员。其余的是博士后/研究科学家、博士生、硕士生和本科生。