系统进化树可复现性评估的流程图 | Shen et al., 2020分析结果发现,在不同的数据集中,IQ-TREE和RAxML-NG分别有81.9%和90.7%的系统发育树是可重复的。而比较IQ-TREE和RAxML-NG之间,系统进化树的可重复率甚至低至20.3%。利用UCE、AHE等捕获技术收集的数据存在更高比例的不可重复性。
不同数据集中,IQ-TREE与RAxML-NG分别构建的系统树中均存在不可重复的现象 | Shen et al., 2020
相同的数据集中,基于IQ-TREE与RAxML-NG的系统进化树构建的复现率仅为20.3% | Shen et al., 2020更有趣的是,除了基本必备的参数(如基因、软件信息、替换模型、树搜索的数量),处理器类型、线程数量和随机起始数的信息同时也会影响系统树构建的结果。
不同处理器、线程数以及随机种子对系统树构建的复现情况 | Shen et al., 2020可以看到,在输入数据、使用软件、参数、随机种子、线程数以及处理器任一指标的改变,均可能导致不可复现的情况出现。而在以上均一致的情况下,系统发育树的复现率达到了百分之百。这也说明,影响系统发育树构建的因素,比我们了解的要多。那么,在今后的研究中,我们保证研究工作中的系统发育树是可被他人重复的呢?考虑到系统发育基因组数据集中存在的成百上千个基因,因此公布每个分析的日志文件是目前最为全面的方法。由于日志文件包含所有关键参数 (例如基因名、程序名、树搜索的数量、替代模型、处理器类型、线程数量和随机起始数),今后的研究者亦可回溯已发表工作原先的分析结果,亦或分析可能产生不一致结果的原因。当然,碍于很多源自主观与客观的因素,很多系统进化树构建的研究场合下,难以控制所有影响因素。或者说,可能对于一些确切的研究结果而言,这些因素的调整或许影响也不大。但任何使用系统进化树工具的研究者,都需要留意有此种现象的存在,避免仅根据系统进化树就得出一些也许武断的结论。
图自 Xing-Xing Shen浙江大学农业与生物技术学院沈星星研究员为论文第一作者兼共同通讯作者,美国范德堡大学Antonis Rokas教授为共同通讯作者。特别值得一提是浙江大学陈学新教授给予大力支持和悉心指导。另外,范德堡大学和威斯康星大学麦迪逊分校的李远宁博士后、Chris Hittinger教授也参与了该研究。原文链接:https://www.nature.com/articles/s41467-020-20005-6沈星星课题组主页:https://shenxlab.com/参考资料Shen X X, Li Y, Hittinger C T, et al. An investigation of irreproducibility in maximum likelihood phylogenetic inference[J]. Nature Communications, 2020, 11(1): 1-14.图 文 | Jerry校 对 | 沈星星