对话程序主席黄萱菁:EMNLP从投稿到接收,我们是如何工作的( 二 )


AI科技评论:EMNLP如何评选审稿人和保证审稿质量?您如何看待投稿量与审稿人不平衡的问题?
EMNLP 2021有将近4000名审稿人 。 我们先是参考ACL等其它顶会创建了一个9000人的审稿人池子, 大概有4000多人接受了审稿邀请, 然后高级领域主席根据其他客观指标做了一些增删处理, 确定了最终的审稿人名单 。
我们邀请的审稿人除了NLP领域知名的教授、学者, 还有一些在读博士生和硕士生, 当然他们都需要在顶会上至少发表3-4篇文章 。 今年整体评审下来, 我们发现很多初次评审的博士生很活跃, 审稿质量不比其他人差 。
其实不仅是EMNLP, 很多顶会都面临审稿人紧缺的问题 。 投稿量每年都在增加, 如果不增加审稿人, 现有审稿人的工作量和压力就会非常大, 也会影响审稿的质量 。 所以在保证专业能力的基础上, 扩大审稿人的评选范围是一个不错的选择 。
今年EMNLP收到3000多篇有效论文, 每篇论文会分配3-4名审稿人 。 我们会根据审稿人所在的高校、职位、论文发表数量等指标判定其资深程度, 然后合理分配审稿人, 基本可以保证每篇论文都有资深学者参与 。
对于评审质量, 领域主席会进行人工评估, 推荐一批优秀的审稿人 。 我们也会采用自动化程序评判审稿质量, 比如哪篇审稿意见过于简短, 综合评价是否全面等等 。 另外, 审稿人和领域主席也会评估论文是不是有潜在的伦理风险 。 有潜在风险并且作者在论文中没有给出伦理和影响力声明的论文会提交给专门的伦理委员会评审, 今年接受伦理评审的论文大概有200多篇 。
AI科技评论:EMNLP如何匹配审稿人与论文?对于社交媒体上存在的“审稿人不专业”的质疑, 您怎么看?
过去很多会议的论文分配方式都是审稿人自己去竞标, 这里面存在的一个问题就是, 审稿人可能会出于兴趣选择论文, 而不是自己的研究方向, 这在一定程度上会影响评审质量 。 所以近几年我们取消了论文投标的方式, 利用NLP技术去自动化匹配审稿人和论文 。
凡是被邀请的审稿人已经发表了不少顶会文章, 我们采用的NLP算法会搜集和分析这些文章的标题和摘要, 并训练出一个语义表示模型, 这样我们就可以了解审稿人擅长的研究方向 。 用这些特长再去和投稿论文的摘要做匹配, 可以最大限度地避免“不匹配”的问题, 提高审稿的公平性 。
自动分配只是一个基础, 领域主席和高级领域主席还会做进一步的调整, 刚刚我们提到, 一篇论文的审稿人不能全是资历浅的年轻人, 为了兼顾比例平衡, 他们会推荐一些资深学者, 因为不同经验的审稿人看文章的角度是不一样的 。 这项工作之所以由领域主席来负责, 是因为他们与审稿人是小同行, 更能做出精准的调整 。
另外, 论文作者、审稿人以及领域主席对于高级领域主席来说都是公开的, 所以他们也会检查这些人是否来自同一个大学或者存在合作关系, 避免利益冲突的问题 。 总之, 系统自动分配结合领域主席调整的方式分配论文, 基本能够解决审稿人推荐不对口, 不公平的问题 。
AI科技评论:EMNLP是否存在“SOTA决定论”的现象, 就是说只要论文没有超过现有研究的SOTA就会被拒掉, 或者打低分 。 您如何看待这种性能指标对论文质量的影响?
我们之前在审稿规范上就有提出不能搞SOTA论, 不能因为这项研究没有超过现有研究的性能就打低分 。 在这方面, 我们首先定义投稿之前三个月内的文章属于同期工作, 作者可能会不了解 。 另一方面, 如果工作只收录在arxiv上, 也不一定需要进行比较, 因为它不属于同行评议的正式出版物 。 另外, 对于那些结果不错, 数据可靠, 但方法又不是特别新颖的论文, 我们从去年起设置了Findings类别 。 所以我们在这方面做了很多的工作, SOTA并不是一个特别强调的指标 。


特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。