斯坦福等机构实测 GPT-4 论文评审：给出意见与人类审稿人有超过 50% 的相似性

据量子位 10 月 7 日报道，近日，来自斯坦福大学等机构的研究者对 3096 篇 Nature 系列论文和 1709 篇 ICLR 论文的人类反馈和 LLM 反馈进行了对比。斯坦福学者发现，GPT-4 对于 Nature、ICLR 的论文给出的审稿意见，竟然和人类审稿人有超过 50% 的相似性。并且超过 82.4% 的作者表示，GPT-4 给出的意见相当有帮助。论文作者 James Zou 总结道：我们仍然需要高质量的人工反馈，但 LLM 可以帮助作者在正式的同行评审之前，改进自己的论文初稿。

据悉，这项研究有美国 110 个 AI 机构和计算生物学机构的 308 名研究员参与。