首页 > 国际新闻 > 正文

一周4000篇:新冠论文太多 科学家们看不过来了

原标题:一周4000篇、全球超2.3万篇新冠论文太多,科学家们看不过来了

疫情下,尽快将有关新冠病毒的最新研究发表,供全球科学家分析和研究,是科研人员们为终结疫情所做的努力之一。然而,令人目不暇接的论文,也让一些科学家感到“烦恼”。

美国《科学》杂志5月13日报道称,美国病毒学家蒂莫西·谢汉(Timothy Sheahan)希望自己能够赶上新冠论文发表的速度,但他苦恼地发现这实在太困难了,因为论文实在太多了,仅仅上周就有4000篇相关论文被发表。“我确实跟不上……”在北卡罗来纳大学教堂山分校工作的谢汉表示,“这几乎是不可能的!”

论文太多,该怎么办呢?一些数据科学家、软件开发者和论文发布机构正致力于改变这一现状。

△图据《科学》杂志

△图据《科学》杂志

论文“井喷”,20天翻一番

根据估算,自从今年1月第一篇关于新冠病毒的论文被发表以来,现在全世界已经有超过2.3万篇关于新冠病毒的论文了。而且这一数字几乎每20天翻一番,是科研史上最大的一次论文“井喷”。

“人们根本没有时间读完整篇论文,提取出有价值的信息。”约翰斯·霍普金斯大学彭博公共卫生学院的传染流行病学家凯特·格拉博夫斯基说。

在数家科技巨头和白宫的支持下,一支由数据科学家、软件开发者和论文发布机构组成的团队,希望尽快创建出一个集纳成千上万免费论文的电子数据库,并开发出搜索工具、帮助科学家们尽快找到他们需要的信息,尽早终结这场疫情。

虽然还不能说有重大进展,但是研发这种搜索工具的努力仅仅开始数周,已然获得了突破。目前,全球正在努力劝说论文的发行机构迅速将所有涉及新冠病毒的论文免费化、使得大家都可以查看。然而研究发现,目前存在的障碍是,仍有20%的论文是需要付费阅读的,而且这一数字可能会增长至50%;还有一些研发的新搜索工具是由不知名机构所研发出来的,权威性待考证。

例如,谢汉就从未听过几个新近研发出来的工具论文数据算法背后的机构。还有一些搜索工具的接口设置得不是那么友好。科学家们怀疑这些工具是否能够帮他们找到真正想要的信息,搜索质量如何?“人们总是倾向于过度渲染他们的产品,这样出来的一些论文数据根本不支持他们的结论。”谢汉无奈地表示,“真是一团糟!”

有数百个团队正在为之努力,希望基于两个基本的原则把一切理顺:一是建立简单可查的论文集纳器,包括条理清晰的排列方式和重点核心论文置顶推荐;二是建立自动搜索工具,利用人工智能(AI)来管理数据。

已收集5.9万篇论文,但仍问题重重

3月16日,创建新冠病毒论文库的努力得到了美国白宫科学技术政策办公室的鼎力支持,帮助发行机构和科技企业共同建立了新冠病毒开放研究数据集库(CORD-19)。该数据库是迄今为止最大的单一馆藏,目前已收集了5.9万篇已发表论文和科研成果预印本,关于冠状病毒的研究可以追溯到上世纪50年代。

△资料图片

△资料图片

为了达到建立数据库的目标,一些科技巨头的机器学习小组开始介入。谷歌、陈-扎克伯格研究协会、美国国立卫生研究院、艾伦人工智能研究所等机构都在致力于用不同算法来检测和搜集论文。看上去,利用数字编码关键词已经初步能够搜索出想要的信息。参与者们还能将PDF文件转化成为一种可供数据集库辨识的格式。研发者希望CORD-19不仅仅是能搜索出相关的文献,还能汲取出多篇论文中的信息价值模式。

阿姆斯特丹大学文献计量学研究员乔奥瓦尼·克拉维扎高度赞赏了CORD-19,称这是一个“令人惊喜的成果”。但是他和同事们也发现了该系统的一些问题,比如CORD-19中,超过60%的论文没有说明集库创造者的搜索项目,比如无法分清“新冠病毒”和“SARS病毒”(两种病毒都可能引发严重急性呼吸综合征),从它们的属目、摘要、关键词来看都很模糊。这些论文都由研发者在今年4月17日上传到生命科学预印本平台“ bioRxiv”。这也意味着,克拉维扎表示,这部分论文可能不仅仅是针对新冠病毒的研究成果。

克拉维扎的团队还发现,CORD-19中只有4万篇论文能看到全部的文本,且很多数据的设置只针对用英语写作的论文。

此外,不是所有的流行病学论文都是免费的。应科学赞助者和政府科研顾问的要求,大部分主流论文发布机构已经保证尽快将所有涉及新冠病毒的论文免费化。但荷兰代尔夫特理工大学的尼古拉斯·罗宾逊·加西亚教授的研究表明,尚有20%今年发表的新冠研究论文需要付费阅读,且付费的发行方比免费的发展还快。4月26日,加西亚将研究结果发表在bioRxiv的一篇预印本上,他预计,如果这种趋势继续,到今年6月1日,将有一半的新冠病毒论文都需要付费阅读,这也将会成为构建数据论文库的一大障碍。

要质量,而非数量

在约翰斯·霍普金斯大学彭博公共卫生学院,凯特·格拉博夫斯基的团队尝试用另一种方式来创建新冠论文数据库,他们更多的是看重质量而非数量。为了创建其4月17日发布的新冠病毒概要库,40位科学家仔细梳理大量的论文,精选了涉及8个类目的80篇论文,比如疫苗研究和药物干预等,并对每个类目进行了精编。

△资料图

△资料图

格拉博夫斯基教授表示,这项工作的重点是研究人类的论文,潜在读者主要是医疗保健工作者和政策制定者,当然也有科学研究者。“我们希望能够借此填补空白,因为已经存在的数据库包括了如此多的信息,但是这些研究并没有很好地被分类。”这个团队在新冠病毒概要库中排除了大部分论文,因为他们只选取需要的评论、保护措施、模型类研究,并非原始的发现类论文。

有些人担心论文的质量,因为很多科学家已经发布了他们的预印本,但这些预印本并没有得到同行的评审。据加西亚教授的研究显示,这些预印本只是初稿,由一小部分为赶制新冠论文的研究者写就。截至4月14日,在其审查的1.1万篇新冠论文中,约80%出现在了参考期刊上,其中一些以预印本的形式出现。

某种程度上,这个数据也反映出,论文发表机构需要加速同行评审过程和出版计划。根据拉德堡德大学的塞吉·霍巴赫统计,自从疫情爆发后,14家医学期刊发布了大部分关于新冠的论文,从提交论文到发表,周期大约为60天。“一些人担心,还未发表的论文也在排队中了,是否这样的快速发表可能会让研究质量为此买单。”霍巴赫在一篇4月18日发表于bioRxiv的预印本中如此写道。

现在去检测那些已发表论文的质量还为时过早,因为新冠疫情目前仍然在发展中。但加西亚的团队发现,还有一种方法能够检测论文的影响力:社交平台的引用数据。根据Altmetric.com的研究数据,今年新冠论文在社交平台上的讨论量已经是2019年前五月所有科研论文的十倍了。其中,谈论量最高的12篇科研论文全部是关于新冠病毒的。

Altmetric.com的数据是基于对推特、脸书和其他社交平台的数据来源分析。科学家们经常在推特上测试他们各自的研究成功的反馈,这也是自媒体时代的一种自测方式。

建立工具虽急迫,可也需要人性化

为了厘清这海量的论文,很多团队都在寻求计算机的帮助。白宫就求助于数据科学家们来研究分析CORD-19设置的工具,目的是帮助研究者回答十个由美国国家科学院和世界卫生组织提供、与流行病相关的问题。超过1500个项目在谷歌云开发的在线机器学习研究者平台Kaggle上被发布。

△资料图

△资料图

最早得出结果的是“人工智能论文概要”的数据工作。通过利用算法工具,研究者们将783篇关于新冠病毒的论文分为17个大类,然后每个话题建立一个网页呈现研究成果。东弗吉尼亚医学院的免疫学家塔亚·瓦西姆是该项目的主要研究员之一。他介绍称,比如关于心脏病患者由于新冠病毒致死的分析,使用者通过检索平台,立马就能从很多论文中得到这个OR值,还能点击论文的文本来看到更多的内容。

自从4月10日上线之后,这个工具已经提取了超过12.2万页论文。然而算法不能总是提取出最精确的数据,瓦西姆表示,医学学生和志愿者们必须要再次核对论文来保证准确率。

还有一个挑战是如何让搜索工作更加人性化。墨尔本大学计算机语言学者卡莉·威斯布尔表示。“直到目前,使用端的人仍然不能理解该如何使用这个工具。”虽然数据工程师已经花费了超过20年时间来开发搜索工具,但在帮助用户探索文章内容的微调方法上却仍然落后。

华盛顿大学数据科学家贾维·韦斯特和同事们一起研发一个名为SciSight的搜索工具,这个工具以使用者体验为主,可以更好地让人们检索新冠论文。SciSight上周才刚刚发布,创建了多个主题来帮助人们快捷地找到自己需要的东西。

尽管已经研发出了不少搜索工具,但是一大半科研人员仍然表示自己尚未听过任何类似的工具。还有一些人表示自己没有时间去尝试这些工具。

红星新闻记者胡敏娟

相关阅读:
欧盟将就“欧盟公民自由受限”对英国采取法律行动 土耳其新冠肺炎病例确诊超14万例 12个省份强制要求佩戴口罩