原创 | arXiv上成功发表的预印本有什么特征?这样写,你的论文也能中!

news2025/6/7 2:45:45

0d9762be817d240a6aedf66bc0391279.png

作者:林嘉亮审校:陈之炎

本文约4400字,建议阅读8分钟本文介绍了专注于科学和工程领域的印刷本平台——arXiv的特征。

“预印本(preprint)是一份完整的科学论文手稿(通常也会同时提交给需要同行评审的期刊),由作者在未经过评审的状态下上传至公共平台”。预印本平台的用户可以不经过严格的同行评审,在简单的审查之后,发布自己的手稿。尽管预印本的“预”表示出版前的预提交概念,但也存在大量出版后提交给预印本平台的后印本(post-print)。在本文中,将“预印本”定义为“e-print”,同时代表预印本平台上的“预印本”和“后印本”。“未发表”一词用于描述一篇预印本尚未被任何类型的出版物接收的状态。“发表”一词用于描述预印本已经过同行评审,并在期刊、会议、书籍、报告或其他类型的出版物中正式刊登(包括在线优先刊登)的状态。

arXiv,成立于1991年,是专注于科学和工程领域的预印本平台。从成立到2014年,经过23年的发展,arXiv共收录了100万篇稿件。至2019年,它平均每月收稿量达13,000份。Computing Research Repository(CoRR)是arXiv一个重要的组成部分。该文库涵盖了计算机科学的各种子类别,经过多年发展后,越来越受到计算机科学领域研究人员的重视,提交量处于快速增长之中。很多计算机科学领域的手稿在完成时,甚至在半完成的状态时就会被提交到CoRR。CoRR是当前计算机科学领域最著名和使用最广泛的预印本平台。

对于数量巨大的预印本,究竟有多少可以正式发表?为什么可以发表?通过挖掘和分析成功发表的预印本,可以获得优质论文的特征,为学术论文写作提供建议。来自厦门大学自然语言处理实验室的团队通过对2008年至2017年arXiv上计算机科学的相关预印本进行案例研究,回答了这两个问题。论文信息如图1所示。

edfad9b727c4a23491374a8f219c04ac.png

图1 本文相关学术论文信息

预印本在提交到平台后一般会同时投递到期刊或会议,作者会收到来自审稿人、编辑和学术同行等各方面的反馈。这样的反馈可能会包括对手稿原始标题的修改。原始标题修改后的文章正式发表后,作者并不一定会及时更新预印本平台上的版本。所以,用字符串匹配方法匹配预印本和正式发表的论文是不恰当的。为此论文作者提出了一种基于语义的方法,用于判断一篇预印本与其他论文是否是同源论文。所提方法的准确度为0.78,F1分值达0.72,其中准确度比前人的方法提高了56%。

用这个方法,将2008年至2017年arXiv上计算机科学的相关预印本共141,961篇与它们正式发表的版本进行了映射,一一匹配。最后发现,有65.7%的预印本以相同的标题发表在经过同行评审的出版物上,有11.4%的预印本经过修改后以不同的标题发表。发表情况可分为四种类型。详细情况见图2。

058b219e6fe5af9316b266d39bf52ff7.png

图2 预印本不同发表情况分布

接着,论文作者对已发表预印本与未发表预印本进行了版本历史、作者数量与文章各部分长度、参考文献数量及其总被引次数、图表数量、附带源代码等方面的比较,以确定哪些特征能使预印本最终“印刷”发表。

Science Parse可用于解析arXiv上的PDF文件,该工具将PDF文件转化为结构化的XML文件,包括标题、作者、摘要、引言、结论和参考文献等在内的文章信息和结构会被分割和标识。为了进行深入的比较,论文作者将已发表预印本分为两类:期刊论文和会议论文。在已发表预印本、期刊论文、会议论文和未发表预印本之间进行了比较。此外,书籍章节和其他类型的出版物在本次比较中被排除。一方面,书籍章节的写作风格与会议和期刊论文的写作风格大相径庭;另一方面,其他类型的出版物只占总数的极小份额,因此代表性不强。对于以不同标题发表的论文,它们存放在arXiv上的版本可能不是最终版本,因此也被排除在数据之外。除此之外,本次比较还排除了发表后没有向arXiv提交更新版本的论文,以确保只在已发表预印本的正式出版版本中进行比较。

arXiv允许用户对预印本的内容和元数据进行修改,没有时间限制。这种自由是预印本平台提供的对比传统出版行业的显著优势,作者可以持续更新他们的工作,而不需要经过复杂的审查过程。论文作者比较了已发表预印本与未发表预印本之间的提交次数。详细情况见表1。

e7482f42ced393ebb1bce50764c54c81.png

表1 不同提交次数预印本的分布比例比较

表1显示,单一版本的预印本在已发表预印本与未发表预印本中占比最大,这表明arXiv主要被研究人员用作与他人分享成果的平台。已发表预印本中的无修订版本的比例低于未发表预印本。而就更新一个以上版本的比例而言,已发表预印本则超过了未发表预印本。这一结果可以解释为:(1)反复修改通常会带来更高的质量,因此反复修改的预印本有更大的机会被接收;(2)在他们的预印本被接收发表后,大多数作者会将接收的版本上传到arXiv以确保工作的完整性和一致性。此外,在arXiv上很少有超过5个版本的预印本,这是因为第5个版本之后的修订不会再被列入arXiv的每日通知服务中。

读者在阅读文章时第一个最直观的感受就是文章的长度,其中也包括作者的数量。论文作者对这两个因素进行了比较。在统计中,会排查缺失的章节。详细情况见表2。

e8e2cc348e950a3245c44968eaf306e0.png

表2 作者数量与文章各部分长度中位数比较

从表2中可以看到,就作者数量而言,已发表预印本的中位数高于未发表预印本的中位数。这意味着多作者是被接收论文的一个特点。从文章长度来看,已发表预印本的中位数都大于未发表预印本的中位数。这些结果说明,文章的篇幅是审稿人看重的其中一个质量指标。篇幅从某一个角度来说,是工作量的体现,工作量扎实则是高质量文章的一个重要特征。值得注意的是,已发表预印本的摘要和引言明显较长,分别比未发表预印本多出9%和23%的长度。这表明,详细的摘要和引言是已发表预印本的显著特征。在会议论文和期刊论文的比较中,除了作者数量,期刊论文在其他项目均超过了会议论文。根据论文作者的分析,造成这一结果的原因是会议出版物对文章长度有更严格的限制(多为8或12页),因此会议论文通常采用更简洁的写作风格。

对于学术论文来说,参考文献是不可或缺的,而且在某种程度上,引用行为与论文的学术质量高度相关。为此,论文作者对参考文献的数量以及这些参考文献的总被引次数进行了比较。爬取海量文献的被引次数是非常耗时耗力的,为此采用了一种折中的可行方案,即用2016年至2017年标有人工智能(cs.AI)子类标签的预印本子集作为代表。在这个子集中共有4,743篇预印本。详细情况见表3。需要注意的是,参考文献数据并不包括在arXiv的API中,它们是通过解析PDF文件获得的。由于PDF文件的解析可能会出现错误,即解析出的有效数量比真实数量少,所以表中呈现的参考文献数和总被引次数会比实际值要低一些。

d3b87b8d8da56bc43fab758dba150886.png

表3 参考文献中位数及其总被引次数中位数比较

从表3中可以清楚地看到,与未发表预印本相比,已发表预印本的参考文献更多。这一结果表明,参考文献的数量与论文是否可以发表呈正相关。从参考文献数量的中位数来看,已发表预印本比未发表预印本多了30%。已发表预印本参考文献总被引次数的中位数也比未发表的高45%。从中位数来看,期刊论文的参考文献比会议论文多,而会议论文的参考文献被引的情况更多。

参考文献被引总次数相当高,这是因为一篇论文的参考文献中,经常会出现一到数篇被引次数极高的文献。例如,“R: A Language and Environment for Statistical Computing”获得了超过14万次的引用。这些高被引文献把参考文献被引总次数推高了。

图片与表格是学术写作中的两个基本组成部分。它们能以直截了当的方式突出和强化关键信息,极大地增加了论文的可读性。论文作者对抽样预印本中的图与表进行了解析,并分别计算他们的中位数。详细情况见表4。

dc898935e29c4d8ce4226c10498a5680.png

表4 图表数量的中位数比较

表4中显示的结果与预期不同。已发表预印本与未发表预印本在图片数量中位数上一致。出人意料的是期刊论文和未发表预印本的表格数量中位数都是零,论文作者担心这些数值是由解析工具的错误造成的,所以从未发表预印本中随机选择了100个样本,手动统计了PDF文件中的表格数量,结果其中位数仍然为零。另外值得注意的是,期刊论文比会议论文使用了更多的图片和更少的表格。总的来说,能成功发表的论文不一定有更多的图和表。然而,可以从这些结果中得出一个结论:计算机科学论文普遍会在论文中使用图片,这表明现在的研究人员很清楚图片是一种有效的展示说明形式。

计算机科学研究的可复现性在很大程度上基于其源代码,是否提供源代码可以被认为是研究的可靠性和可信度的一个指标。源代码是研究人员对其学术工作信心的坚实证明,因为其他研究人员可以借此再现作者的方法和复现作者的结果。本文统计了已发表预印本与未发表预印本中附带源代码论文的百分比,以确定附带源代码对论文接收率的影响。

论文作者使用Papers With Code提供的数据对抽样预印本和其相应的源代码仓库进行了映射。共发现5,319篇预印本提供了源代码,仅占总样本的3.7%。占比非常少,一种解释是,计算机科学某些领域的论文是纯理论的,因此不涉及实现代码。所以,统计范围被限定在了至少属于以下类别之一的预印本:Artificial Intelligence, Computation and Language、Computer Vision and Pattern Recognition、Information Retrieval、Machine Learning和Neural and Evolutionary Computing。总共有46,937篇预印本,其中11.3%有可用的源代码。这个比例还是略低的。有一种解释是,Papers With Code倾向于收录最近几年发表的论文。因此,对于本研究抽样范围

里的某些预印本,特别是早期的样本,即使有提供源代码,也可能不包括在Papers With Code中。

在有附带源代码的预印本中,有79.7%经过同行评审后在出版物上发表,20.3%未发表,这强有力地表明附带源代码与接收率紧密相关。因此,作者建议研究人员在论文中提供相关的源代码。这样不仅有利于论文的接收,而且对整个领域的发展也有很大的帮助。

总之,与未发表的预印本相比,计算机科学领域中大多数已发表的预印本具有充分的修改版本、多作者、详细的摘要和引言、广泛而权威的参考文献和提供可用的源代码等诸多特点。

编辑:王菁

校对:杨学俊

数据派研究部介绍

数据派研究部成立于2017年初,以兴趣为核心划分多个组别,各组既遵循研究部整体的知识分享实践项目规划,又各具特色:

算法模型组:积极组队参加kaggle等比赛,原创手把手教系列文章;

调研分析组:通过专访等方式调研大数据的应用,探索数据产品之美;

系统平台组:追踪大数据&人工智能系统平台技术前沿,对话专家;

自然语言处理组:重于实践,积极参加比赛及策划各类文本分析项目;

制造业大数据组:秉工业强国之梦,产学研政结合,挖掘数据价值;

数据可视化组:将信息与艺术融合,探索数据之美,学用可视化讲故事;

网络爬虫组:爬取网络信息,配合其他各组开发创意项目。

点击文末“阅读原文”,报名数据派研究部志愿者,总有一组适合你~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派THUID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

未经许可的转载以及改编者,我们将依法追究其法律责任。

6c7bb9671977bbceb01d0d3158e5aebb.png点击“阅读原文”加入组织~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/334641.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux centos系统安装argoverse-api问题解决

1、遇到带有sklearn关键字的报错 将setup.py中的sklearn改为scikit-learn 2、遇到CMake 3.1 or higher is required. You are running version 2.8.12.2....... 在python包管理器发现版本正常 于是使用centos命令手动安装 1、移除老版本cmake版本并安装依赖包 yum remove c…

[Unity 打包WebGL用本地服务器Tomcat测试]

打包WebGLUnity-WebGL-环境部署、打包1、 步骤流程图:不要忘记把场景加上去发布时不要勾选Development Build,勾选后文件非常大,然后点击上图左下角的 Player Settings设置一下分辨率、做一个 UI 自适应。strip engine code:官方文…

从降本增效到电机控制知识树

回顾永磁同步电机控制应用场景,电机控制算法的发展大体归结于四个字,降本增效。以下内容围绕这四个字,增效、降本两个方面梳理该领域相关知识,串联永磁同步电机控制技术体系。 1、 增效 增效即提高控制性能,具体落脚…

[Nginx]Ngnix基础

文章目录一、基础1.1 what can nginx do1.1.1 基本HTTP服务1.1.2 高级HTTP服务1.1.3 Nginx常用的功能模块1.1.4 Nginx的核心组成1.2 why nginx?1.3 安装(略)1.4 nginx的目录结构1.5 nginx.conf的几个关键配置keepalive_timeoutkeepalive_requestsserver块和locatio…

Python自动化测试实战篇(4)selenium+unttest+ddt实现自动化用例测试,模拟用户登陆点击交互测试,Assert捕获断言多种断言

这些是之前的文章,里面有一些基础的知识点在前面由于前面已经有写过,所以这一篇就不再详细对之前的内容进行描述 Python自动化测试实战篇(1)读取xlsx中账户密码,unittest框架实现通过requests接口post登录网站请求&…

详讲常见的字符函数

👦个人主页:Weraphael ✍🏻作者简介:目前是C语言学习者 ✈️专栏:C语言航路 🐋 希望大家多多支持,咱一起进步!😁 如果文章对你有帮助的话 欢迎 评论💬 点赞&a…

最近大火的chatGPT是什么?它是怎样聊天的?

ChatGPT是一款革命性的聊天机器人软件, ChatGPT( ChatGPT AI,聊天机器人欢迎您!)的核心功能是自动回复,可以根据客户的输入自动生成回复,从而提高客户服务的效率。还可以根据客户的输入自动生成…

四种幂等性解决方案

什么是幂等性? 幂等是一个数学与计算机学概念,在数学中某一元运算为幂等时,其作用在任一元素两次后会和其作用一次的结果相同。 在计算机中编程中,一个幂等操作的特点是其任意多次执行所产生的影响均与一次执行的影响相同。 幂等…

C++学习记录——유 类和对象(3)

文章目录1、赋值运算符重载1、运算符重载1、理解2、运算符重载实例2、赋值运算符重载2、日期类的实现1、加减函数1、加函数2、减函数2、前/后置--重载3.两个日期相减其他1、流插入2、流提取日期类的整体实现代码: https://gitee.com/kongqizyd/start-some-c-codes-for-learning…

WebDAV之葫芦儿·派盘+KMPlayer

KMPlayer 支持WebDAV方式连接葫芦儿派盘。 KMPlayer几乎可以播放您系统上所有的影音文件,支持几乎全部音视频格式。通过其强大的插件功能,可以支持层出不穷的新格式。软件还具有齐全的操控功能,支持捕获音频、捕获AVI、捕获画面、外挂字幕、自定义编辑设置,是视频爱好者的不…

吞噬互联网:边缘计算和新商业网络的兴起

五年前,Gartner博客的一篇文章写道:“边缘将吞噬云。”表达的大概意思是,当大家都在特别关注云端时,Gartner看到了另一个方向——边缘,更能满足大家对低延迟和近乎实时处理的需求。如果快进五年,到2028 年&…

【Spark分布式内存计算框架——Spark Core】4. RDD函数(下) 重分区函数、聚合函数

重分区函数 如何对RDD中分区数目进行调整(增加分区或减少分区),在RDD函数中主要有如下三个函数。 1)、增加分区函数 函数名称:repartition,此函数使用的谨慎,会产生Shuffle。 2)、…

回归预测 | MATLAB实现PSO-LSSVM粒子群算法优化最小二乘支持向量机多输入单输出

回归预测 | MATLAB实现PSO-LSSVM粒子群算法优化最小二乘支持向量机多输入单输出 目录回归预测 | MATLAB实现PSO-LSSVM粒子群算法优化最小二乘支持向量机多输入单输出预测效果基本介绍模型描述程序设计参考资料预测效果 基本介绍 MATLAB实现PSO_LSSVM粒子群算法优化最小二乘支持…

车道线检测-LaneATT 论文学习笔记

论文:《Keep your Eyes on the Lane: Real-time Attention-guided Lane Detection》 地址:https://arxiv.org/abs/2010.12035v2 代码:https://github.com/lucastabelini/LaneATT 整体结构 车道线的表示方式 Lane{(xi,yi)}i0Npts−1,yii⋅Hima…

【23种设计模式】结构型模式详细介绍

前言 本文为 【23种设计模式】结构型模式 相关内容介绍,下边将对适配器模式,桥接模式,组合模式,装饰模式,外观模式,亨元模式,代理模式,具体包括它们的特点与实现等进行详尽介绍~ &a…

mysql物理innobackupex备份脚本和自动备份脚本

目录 备份命令 恢复命令 自动备份脚本 innobackupex是一款MySQL备份工具,备份速度快(通过直接copy物理文件),而且支持压缩、流式传输、加密等功能 新安装的数据库自带innobackupex,如果找不到命令,需安装percona-xtrabackup-2…

python数据结构:数组、链表、栈、队列、树

目录1.数组1.1 数组的数据结构1.1.1 数组的定义1.1.2 随机访问和连续内存1.1.3 静态内存和动态内存1.1.4 物理大小和逻辑大小1.2 数组的操作1.2.1 增加数组大小1.2.2 减小数组大小1.2.3 插入一项1.2.4 删除一项1.2.5 复杂度权衡1.3 二维数组2.链表2.1 链表分类2.2 链表特点2.3 …

OKCC呼叫中心使用中常见问题及处理方法

经常有客户咨询在使用OKCC呼叫中心系统时遇到的一些常见但不复杂的问题,下面整理了一些问题和处理方法给伙伴们参考:一、外呼任务为何启动后会自动暂停?1.检查该账户余额是否充足;2.外呼任务班组中是否有空闲坐席;3.分…

终于找到blender渲染总是崩溃的原因了

如果您开始渲染,Blender 会崩溃,并在渲染过程中自动关闭,可能是由于这两个主要原因之一。Blender 用完了可用内存显卡有问题在本文中,我们将了解如何处理 Blender 在渲染时崩溃的情况。Blender内存不足如果我们从 RAM 问题开始。要…

卸载Node.js

0 写在前面 无论您是因为什么原因要卸载Node.js都必须要卸载干净。 请阅读: 1 卸载步骤 1.1通过控制面板卸载node.js winR—>control.exe—>卸载程序—>卸载Node.js 等待—>卸载成功 1.2 删除安装时的nodejs文件夹 通过记忆或者Everthing搜索找…