進(jìn)化樹“再現(xiàn)性危機(jī)”新研究發(fā)現(xiàn)系統(tǒng)發(fā)育樹存在9% -18%的不可重復(fù)性
近日,浙江大學(xué)農(nóng)業(yè)與生物技術(shù)學(xué)院沈星星研究員、陳學(xué)新教授以及美國范德堡大學(xué)Antonis Rokas教授課題組聯(lián)合在Nature Communications發(fā)表題為An investigation of irreproducibility in maximum likelihood phylogenetic inference的研究論文,闡明了系統(tǒng)發(fā)育樹存在9% -18%的不可重復(fù)性危機(jī)。
研究結(jié)果可重復(fù)或可再現(xiàn)性是科學(xué)界的基石。在過去的幾年里,科學(xué)家對已發(fā)表結(jié)果可重復(fù)性的擔(dān)憂不斷增加,導(dǎo)致了“再現(xiàn)性危機(jī)”一詞的出現(xiàn)。系統(tǒng)發(fā)育樹是進(jìn)化生物學(xué)研究的基礎(chǔ)。例如,系統(tǒng)發(fā)育樹通常被用來研究基因、基因組、物種的演化過程。2013年報(bào)告稱:由于缺乏數(shù)據(jù)公開化,6277/7539(83.3%)研究課題的系統(tǒng)發(fā)育樹是不可重復(fù)的。這一研究促使了多個(gè)公共存儲(chǔ)數(shù)據(jù)庫的誕生(如figshare)。
公共數(shù)據(jù)庫提供的信息是否足夠系統(tǒng)發(fā)育樹的重復(fù)構(gòu)建?此外,系統(tǒng)發(fā)育樹的構(gòu)建參數(shù)、計(jì)算資源(CPU處理器型號(hào)、線程數(shù)等)均存在差異。這些差異是否會(huì)導(dǎo)致不可重復(fù)的系統(tǒng)發(fā)育樹?什么原因?qū)е虏豢芍貜?fù)的系統(tǒng)發(fā)育樹? 如何規(guī)避不可重復(fù)危機(jī)?回答這一系列問題有利于提高系統(tǒng)發(fā)育樹的再現(xiàn)性,同時(shí)為系統(tǒng)發(fā)育學(xué)軟件開發(fā)者提供重要的指導(dǎo)依據(jù)。
該研究收集了15個(gè)動(dòng)物、植物、真菌系統(tǒng)發(fā)育基因組學(xué)數(shù)據(jù)集(總共19414個(gè)基因比對數(shù)據(jù))。這15個(gè)數(shù)據(jù)集包含非編碼DNA 、外顯子、氨基酸三類數(shù)據(jù)集?;?9414個(gè)基因數(shù)據(jù)集,該研究檢驗(yàn)了常用系統(tǒng)發(fā)育樹構(gòu)建軟件IQ-TREE和RAxML-NG可重復(fù)性。對每一個(gè)基因,運(yùn)行兩次*相同的參數(shù)(Run1和Run2),并比較Run1和Run2產(chǎn)生的系統(tǒng)發(fā)育樹是否一致(圖2A)。研究結(jié)果表明:IQ-TREE和RAxML-NG分別存在81.9%和90.7%的系統(tǒng)發(fā)育樹可重復(fù)。比較IQ-TREE和RAxML-NG之間,僅20.3%系統(tǒng)發(fā)育樹可重復(fù)(圖2B和C)。利用UCE、AHE等捕獲技術(shù)收集的數(shù)據(jù)存在更高比例的不可重復(fù)性。
如何提高系統(tǒng)發(fā)育樹的可重復(fù)性?除了基本*的參數(shù)(如基因、軟件信息、替換模型、樹搜索的數(shù)量),還應(yīng)該提供處理器類型、線程數(shù)量和隨機(jī)起始數(shù)的信息(圖3)??紤]到系統(tǒng)發(fā)育基因組數(shù)據(jù)集中存在的成百上千個(gè)基因,一個(gè)更實(shí)用的方是公布每個(gè)分析的日志文件。因?yàn)槿罩疚募嘘P(guān)鍵參數(shù) (例如基因名、程序名、樹搜索的數(shù)量、替代模型、處理器類型、線程數(shù)量和隨機(jī)起始數(shù))。
浙江大學(xué)農(nóng)業(yè)與生物技術(shù)學(xué)院沈星星研究員為論文作者兼共同通訊作者,美國范德堡大學(xué)Antonis Rokas教授為共同通訊作者。浙江大學(xué)陳學(xué)新教授給予大力支持和悉心指導(dǎo)。范德堡大學(xué)和威斯康星大學(xué)麥迪遜分校的李遠(yuǎn)寧博士后、Chris Hittinger教授也參與了該研究。