就像你在工作中也会被Excel的自动更正误伤一样。本文来自微信公众号:Nature Portfolio(ID:nature-portfolio),作者:Dyani Lewis,头图来自:视觉中国


尽管遗传学家已经知道要注意电子表格的问题,30%已发表论文的补充数据中,仍包含错乱的基因名称。


自动更正功能所引发的尴尬错误不仅常见于网络文章和推文中,更困扰着使用微软Excel等电子表格软件的遗传学家。曾有一项研究表明,自动更正问题是广泛存在的,而五年之后对已发表基因列表的分析表明,学术文献中依然可见这种充斥着离谱错误的电子表格,而且问题可能比当初发现时更加严重。


引发这一长期问题的罪魁祸首是一些基因名称(也叫基因符号)的缩写,它们可能会被Excel或Google表格错误识别并自动更正成日期。例如,SEPT4(septin蛋白4)MARCH1(膜相关RING-CH型蛋白1)就会被自动修改成4-Sep(9月4日)1-Mar(3月1日)


澳大利亚悉尼大学的分子生物学家Auriol Purdie说,“这个问题会对你的研究造成严重影响。”Purdie处理基因微阵列和基因转录数据集已有20年,对这种无心之失已经见得多了,但她说这经常会让新手措手不及。


扭曲结果


Purdie致力于找出与牛羊等家畜疾病早期阶段相关的基因网络。如果电子表格软件修改了基因名称,当把数据导入基因网络分析软件时,这些名称错误的基因就会丢失,这会导致错误的结果。她说,分析软件“会提示你丢失了一些基因”,但并不会指出是哪些基因丢失了。她补充说,当处理包含两万个基因的数据集时,通过手工比对来找出丢失的基因是一项艰巨的任务。


这个问题首次记录是在2004年,美国国家癌症研究所的分子药理学家Barry Zeeberg和同事提醒研究人员,要当心在处理基因组学数据时的基因符号改变[1]


2016年,当时就职于澳大利亚Baker IDI心脏和糖尿病研究所的Mark Ziemann及同事对这一问题进行了定量分析[2]。他们发现,发表在顶级基因组学期刊的论文中,有五分之一在其以Excel电子表格形式提供的补充数据中包含基因名称转换错误。其他遗传学家经常会访问和使用这些数据集,因而这些错误可能会持续产生影响,并扭曲后续研究的结果。


尽管研究者已经注意到了这个问题(并且人们已采取措施来修正错误),但根据Ziemann(现就职于澳大利亚迪肯大学)领导的一项更大规模分析表明,这个问题现在依然很普遍[3]。Ziemann的团队发现,在2014至2020年间发表的、提供Excel基因列表补充文件的11000余篇论文中,有三分之一包含了基因名称错误(见“日趋严重的问题”)


Ziemann从事遗传学的计算可重复性研究,他说,一些简单的检查可以发现自动更正功能导致的错误,但如果不做检查,这些错误就很容易被忽视,因为表格中的数据量太大了。


来源:参考文献3<br>
来源:参考文献3


修改命名规则


2017年,负责规范人类基因名称的国际人类基因命名委员会(HGNC)宣布,由于科研社区的呼吁(包括一条2016年发表的YouTube视频)未见成效,委员会将采取重大举措,修改那些常受影响的基因符号。此后,HGNC更新了27个基因符号,其中就包括SEPT4(改为SEPTIN4MARCH1(改为MARCHF1


Elspeth Bruford说,这一举措有违HGNC维持命名稳定的倾向。她在英国欣克斯顿的欧洲生物信息学研究所与HGNC协作。HGNC发布的指南中提出了在影响数据处理时修改基因符号的新规则[4],其他基因命名机构也纷纷效仿。


Bruford表示,现在要看到文献中错误率的变化还为时过早,因为发表的数据集里基因列表常常是过时的。“命名的修改需要过很多年才能发挥作用。”她说,也正是出于这个原因,HGNC建议研究者访问公共数据集获取最新的数据,并建议期刊也要求论文作者在发表前这么做。


今年年初以来,Ziemann每月都会发布一个犯错期刊排行榜,其中经常会出现如《自然-通讯》Nature CommunicationseLifePLoSGenetics、《科学报告》Scientific Repots等知名期刊。Ziemann说,可能是因为这些期刊中发表的文章包含更多的基因列表和更大的数据集。


回避还是适应


Ziemann建议,办法之一是避免使用电子表格软件。尽管有些电子表格软件(例如开源软件LibreOffice和Gnumetric)没有这个问题,但电子表格很难审查。Ziemann说,“如果出问题了,那么问题到底出在哪是很不明显的”,因为没有记录表明这些软件采取了什么步骤。


一些计算生物学家会使用脚本编程语言,例如Python和R语言。Ziemann说,这些脚本语言不会自动更正基因符号,而且研究者也可以追踪错误来源。不过,用户得先学习这些编程语言才能编写代码分析数据。


Purdie坦言她没有时间学习编程语言。她已经适应了 Excel的怪癖,会在常见的受影响基因前面加一个单引号避免触发自动转换,或者在导入数据之前先手工设置好单元格格式。“我就是接受现实了”,她说。


Bruford表示,Excel中的自动更正问题不太可能会在近期内被修复,“相对于所有Excel用户来说,我们只是小众”,而且微软也从未表示将会为遗传学群体的需求修改他们的软件。


对于那些需要继续使用问题软件的研究者,Ziemann建议在分享或发布数据之前做一个快速检查,例如以基因符号排序,就可以让那些被错误转换成日期的条目排到最上面。


参考文献

1. Zeeberg, B. R. et al. BMC Bioinformatics 5, 80 (2004).

2. Ziemann, M., Eren, Y. & El-Osta, A. Genome Biol. 17, 177 (2016).

3. Abeysooriya, M., Soria, M., Kasu, M. S. & Ziemann, M. PLoS Comput. Biol. 17, e1008984 (2021).

4. Bruford, E. A. et al. Nature Genet. 52, 754–758 (2020).


原文以Autocorrect errors in Excel still creating genomics headache为标题发表在2021年8月13日《自然》的新闻版块上,© nature,doi: 10.1038/d41586-021-02211-4


本文来自微信公众号:Nature Portfolio(ID:nature-portfolio),作者:Dyani Lewis