NeurIPS24评审结果遭全网吐槽，惊动LeCun！评审员打低分，严重贬低论文贡献-51CTO.COM

每年AI领域的国际顶会，少不了「大事」发生。

前段时间，NeurIPS 2024论文评审结果终于出炉了，网友们开始「拉群」吵成了一片。

这时，有网友爆出黑料：

「一些评审人严重贬低论文贡献，用不合理的标准评判，甚至忽视论文相对于其他工作的实际改进」

他认为，这可能是竞品的作者，发现后做出不诚实的评审。

就连LeCun大佬也来围观，立即转发了该帖。

作为领域主席，我告诉作者：如果你遇到了这种情况，请联系领域主席（AC）。

作为一个作者，我想问：如何恰当地指出这种行为，并在合法批评和过度把关之间找到平衡点？

另有网友放出NeurIPS评审员经典评论：这个解决方案不是新的，并且已经被大量研究过了。

今年，是NeurIPS第38届年会，将于12月9日-15日在温哥华召开。

根据Paper Copilot收集的数据统计，截至目前，得分平均分布均在3-6分之间居多。

论文被打低分，究竟是谁的问题？

一位来自UT Austin的副教授，也是NeurIPS这届顶会的领域主席（AC）之一，阐述了自己所看到的现象。

他表示，在自己负责的一批论文中，已提交了48篇中的16篇评审。

到目前为止，我还没有看到一个正面评价，要么是评审员变得非常严格，要么是论文质量下降了？

今年，NeurIPS收到了很多「回收利用」的论文。

另一位AI研究员同样表示，要么就是论文质量下降，要么我就是大家口中讨厌的2号评审员。

在他审阅的论文中，基本上都给了2-4分。

另有评审员表示，「在我负责的这批62篇论文中，平均评分是4.3分，标准差为1。所以如果你最初得到低分，也不要灰心」！

可见，这次NeurIPS顶会论文作者都挺不好受，想要获取高分并不容易。

而且AI火了之后，大模型也被用来论文评审。

这次，NeurIPS 2024也不例外。

Reddit网友评论道，自己用一个月的时间审核6篇论文，当看到自己得到的是LLM的评价，真的很受伤。

还有人指出，在自己审阅的论文中，至少发现了3篇由大模型生成的评审意见，很可能还有更多，其中3篇明显是直接复制粘贴了ChatGPT输出，完全没有阅读论文。

这些评审都给了6分，Confidence为4，与其他所有人的评价完全不一致。

更有网友评价道，「论文评论的质量很低」。

一个评审者混淆了我们方法的基线，另一个评审者混淆了基线的派生（正如我们的工作所批评的那样）和我们方法的派生。我怀疑一些评论是由LLM产生的。

有人指出这本是NeurIPS官方组委会的问题。

对于NeurIPS的评审，6分的描述完全、彻底、奇怪地错误。

通常情况下，给6分就意味着拒稿。但它却被描述为一篇有中等到高影响力，且没有问题的论文？

难怪新评审员给出如此低的分数！

在NeurIPS评分规则中，给6分的介绍——Weak Accept。

技术上扎实，具有中等到高影响力的论文，在评估、资源、可重复性、伦理考虑方面没有重大问题。

今年6月，NeurIPS一位AC分享了很多关于顶会评审的更多信息：

他负责的一批共有13篇投稿，所有论文都已自动分配了四位评审员。

有趣的是，50%的评审员是博士生，还有几位硕士生和本科生也是评审员。

13篇论文中有5篇的评审员中，没有任何一位的职位高于博士生。

在这位AC负责的所有评审员中，有3位正教授，1位副教授，4位助理教授，9位业界专业人士，以及2位来自国家实验室的人员。其余的是博士后/研究科学家、博士生、硕士生和本科生。