原标题:论文查重系统,为何渐渐沦为失效的“测谎仪”?
重点
临近毕业,学生在上交论文前要面临一道无法逾越的关卡——论文查重。即将写好的论文放入专业数据库,和已有论文比对,防范抄袭、剽窃等行为的发生。
一个固定的重复率“过关”百分比数字,是学生追求的终极目标。为了让论文符合要求,不少学生会付费在网络平台先行检测。缺乏监管、鱼龙混杂之下,学生付出少则一天饭钱,多则半月生活费后拿到的查重报告很有可能良莠不齐。
更重要的是,为预防学术不端而设计的查重系统,使用中又渐成学生可以参照修改,规避重复之处的重要辅助。这台防范学术不端的“测谎仪”,正面临成为“帮凶”的尴尬局面。
现状
“没有一个人不怕重复率”
学生对查重的重视,背后无疑体现了学校在此方面的严格要求。多名高校教师均表示,近年来,尤其在翟天临学术不端事件后,学校普遍更为强调对学生论文重复率的检查力度。
中国人民大学文学院教授孟小良介绍,上交毕业论文前,学生需先自行查重,相当一部分学生会查两三次甚至更多。“因为你不可能每句话每个字都是自己写的,重复率对现在的毕业生很重要,没有一个人能说自己不怕重复率。”
关于重复率的标准,各个学校、学院规定不同。据孟小良观察,大多设置在百分之十几的范畴,最高也不过20%左右。学校层次越高、偏研究型的大学,会将重点放在对硕士和博士生的查重上,二三本院校则重点检查本科生论文。
北京交通大学建筑与艺术学院副教授吴涛称,学院对重复率有个控制的经验值,“大致在10%以内”。据他了解,学生上交论文前会“各显神通”,搜寻多种途径进行查重,网络上“已经形成了一条产业链”。
吴涛介绍,学院查重使用的是校图书馆所购买的数据库,常用的为知网、维普、万方等。而学生自行查重的数据库未必符合这些标准,若重复率过高,则需在1至2周期限内修改降重,再次提交。
中国传媒大学新闻学院副教授陈京表示,本科与硕士生向院里提交论文时,还要附有一份相应的查重报告。通常本科生要求重复率在20%以内,硕士生15%以内。“学校给每位毕业生两次中国知网查重使用权限,但可能不太够,就得自己找地方去查。”
陈京透露,自去年起,教育部对高校论文的抽查比例和力度均大大提高。比如硕士论文往年只是5%、10%的抽检,去年许多高校全部送检。有些高校送审后,经外校专家审查不通过的比例高达百分之十几。“就是说送了100份出去,居然有15份存在争议。无论是否最终认定为剽窃或不规范,对高校都有很大影响。甚至可能会限制、削减研究生的招生名额。如此压力下,学校对重复率三令五申、如履薄冰也就不奇怪了。”
手段
“换词注水只为降重”
得到了查重结果后,学生们要做的就是想方设法“降重”,即降低重复率至学校允许的范围。令学生稍感“庆幸”的是,重复率虽然卡得很死,但将系统比对出的重复之处一一进行“加工”,使其变得“不重复”,还算有操作路径可循。
这两年,研究生郑磊没少为查重头疼。学校要求严格,不仅毕业论文,日常无论必修选修,只要是写论文,都有重复率的要求。
“学校规定重复率要低于20%,一开始没太多概念,觉得比较容易,没想到竟成了我一块儿心病。”第一学期,有门科目要求提交一份关于数字经济的研究报告,收集各种数据资料,再整合自己观点和课堂上老师教授的一些理论,郑磊撰写了一篇4000字左右的小论文。
交作业之前,信心满满的郑磊本想“走个形式”,找了一家网络平台查重,没想到结果让他吓了一跳:“重复率高达50%多!”连“具体来看,数字经济具有以下特征属性……”这样单纯的过渡语句,都被判定为“轻度抄袭”。查重平台给出的修改建议是“详细来看,数码经济具备以下特色属性”。
“这不就是同义词替换吗?”虽不太认同,为了保证论文能顺利过关,郑磊只好按照平台给出的建议,把论文重新改了一遍。
两个学期下来,郑磊已经总结出降重规律——少引用、多注水。即尽量不引述别人的观点和数据,尤其避免大段的理论描述。实在需要引用,要再用自己的语言反复解释“注水”,以降低重复率。
身为指导老师,吴涛表示自己关注并询问过学生降重的办法。“主要就是修改重复段落语句措辞,一句话正着说、倒着说、删字加字、用同义词替代,系统就查不出来了。”网络上,不少为论文查重所苦的网友还贡献了更多形形色色的“降重宝典”——将外文文献译成中文再用;将图标中的文字敲出来或将文字以图表呈现;甚至瞄准重复部分加标点、加空格……在人类“智慧”面前,机器自然不是对手。
争议
“重复率越低不等于学术性越高”
防线虽可突破,束缚和障碍却真实存在。以那篇50%重复率的论文为例,郑磊觉得冤屈——自己并没有抄袭,为什么重复率这么高?
仔细阅读检测报告,他发现文中所有引用的理论和数据,以及一些常用句式和观点,都被判定为重复。将它们全部删除或改掉,降低重复率的同时也无形降低了论文质量。“少了支撑,论文显得虚头巴脑。多多注水,写得全是废话,我自己都不好意思。”郑磊坦言,明白学校查重的苦心,也会努力在作业里体现自身观点。但被“查重”困扰的同学绝不止他一人,“感觉与学校初衷背道而驰。”
“引用的资料注明来源出处,从学术上其实不应属于‘复制粘贴’范畴,但软件基于目前的算法,还是会将其归为‘重复’来计算。”孟小良坦言,本科生包括硕士生的论文,很难要求全部独创,一点参考也不用。加之论文写作常会不自觉使用一些高频表述方式,即便完全原创,也有可能相似或雷同。“实事求是讲,设定的重复率很容易突破。”
此外,单纯看重复率还可能会造成“误伤”,例如研究古代汉语、古典文献等,常常需要大量引用史料。“当然学校也允许导师和学生提出申请,说论文要写这种特殊类型。但说是允许,操作起来很麻烦。所以导师和学生一开始就会觉得算了,选一个尽量能通过查重的题目,对付着写写吧。”
在孟小良看来,重复率是论文最明确最硬性的标准之一,自然会引得学生付出精力与之斡旋。“但重复率越低,学术性越高吗?并不是这个逻辑。表面文字不重复了,实际上论文的核心价值——创新、独立的见解,这些更重要的东西软件反倒无能为力,查重只能解决最低层次的问题。”
陈京认为,每年毕业生选题千奇百怪,就算是老师也无法穷尽。而学生的自觉性、老师的责任心……这些无形的标准难以考核。查重系统作为客观把关机制,更加具有效率,也不能轻易割舍。
至于改头换面的“洗稿”,陈京直言以目前的评价体系的确无法彻底解决。“对高校来说,应该有两道把关。依靠AI机器查重,毕竟是‘死’的办法,人的把关是另一重,老师们要尽职尽责,学校多开设文献阅读和写作相关课程,尽到培养机构100%的努力。”
承认查重系统局限性的同时,吴涛也肯定其积极意义。“硕士论文这几年越写越多,一般三五万字,到六七万字的也有。”他坦言,学院对硕士培训的定位本就偏向应用性,在校时间也短。“通过强调查重让学生心存敬畏,在道德规范、引用方式方法上要求严格,完成一次正统的学术训练,还是有一定意义的。”
(文中受访者为化名)