在地球生態(tài)系統(tǒng)中，細(xì)菌、真菌、古菌、病毒以及真核生物共同構(gòu)成了生命的基礎(chǔ)，并在多個層面上發(fā)揮著重要的作用。人類和其他大型生物的反應(yīng)往往可以直接觀察到，但看不見的微生物的作用和影響也同樣重要。

在微生物研究中，一直面臨著一個棘手的難題：想要準(zhǔn)確識別環(huán)境樣本中的微生物，卻常常遇到技術(shù)和成本障礙。傳統(tǒng)上，研究人員需要分別測序16S和18S兩種核糖體RNA，這不僅增加了研究成本，還可能因為使用"通用"引物導(dǎo)致鑒定結(jié)果產(chǎn)生偏差。

為解決這一問題，加州理工學(xué)院的研究團(tuán)隊在2024年10月創(chuàng)建了一個數(shù)據(jù)庫——CABO-16S。這個數(shù)據(jù)庫的獨特之處在于將兩個知名數(shù)據(jù)庫(SILVA和PR2)中的微生物序列巧妙整合，讓研究人員可以用更簡單、更經(jīng)濟(jì)的方式獲取微生物分類信息。

具體來說，CABO-16S將細(xì)菌、古細(xì)菌的序列與細(xì)胞器(如葉綠體)的16S rRNA序列結(jié)合，大大提高了微生物鑒定的準(zhǔn)確性。特別是在海洋、湖泊和海草環(huán)境中，這個數(shù)據(jù)庫在識別光合真核生物方面表現(xiàn)出色。

此外，CABO-16S還提供了一個靈活的框架，研究者可以添加專業(yè)的、尚未被其他數(shù)據(jù)庫收錄的微生物序列。本文以甲烷滲漏沉積物中的特定微生物為例，展示了如何通過添加精選序列來揭示微生物群落的細(xì)微差別。

這項創(chuàng)新不僅降低了研究成本，還為探索極端或獨特環(huán)境中的微生物提供了新的可能性。

傳統(tǒng)方法的不足

在過去20年中，小亞基(SSU)核糖體RNA(rRNA)的高通量測序用于研究陸地和海洋環(huán)境中的微生物生態(tài)學(xué)，并加深了對植物和動物微生物組的理解。通常16S rRNA基因用于原核生物鑒定，而優(yōu)化的18S rRNA基因用于真核生物鑒定，ITS區(qū)域則被證明最適合真菌。

用單個PCR反應(yīng)擴(kuò)增原核和真核微生物是更為理想的，與使用單獨引物進(jìn)行16S和18S rRNA基因測序相比，可以將擴(kuò)增子文庫制備成本降低兩到三倍。盡管一些“通用”引物 (515f/926r)可以擴(kuò)增真核生物 18S rRNA 和 16S rRNA ，但同時準(zhǔn)確分析來自 16S 和 18S rRNA 的真核生物和原核生物具有一定的難度。

? 真核生物被低估

首先，當(dāng)試圖擴(kuò)增更廣泛的目標(biāo)群體時，引物與其模板之間的不匹配可能更常見，事實上，在模擬群落中，僅與反向引物的單個不匹配就會導(dǎo)致真核生物被低估3-8倍。

其次，18S序列通常比16S序列長160- 180bp，并且 PCR 和測序都偏向于較長的擴(kuò)增子。天然樣品可能含有較長的18S序列或較高比例的甲藻，這些甲藻往往存在錯****配，這表明在一些天然樣品中，515f/926r引物擴(kuò)增真核生物可能被嚴(yán)重低估。

? 不能完全可靠地表示相對分類豐度

最后，在大多數(shù)細(xì)菌中，16S rRNA基因拷貝數(shù)在1-15之間，在大多數(shù)古細(xì)菌門中平均只有1個拷貝，而在浮游植物中，18S基因拷貝數(shù)可以在1-12,000之間變化。盡管18S基因計數(shù)可能與生物量顯著相關(guān)，但它們不能可靠地用于表示相對分類豐度。

CABO-16S的優(yōu)勢

? 同時分析原核和真核生物更全面、更精準(zhǔn)

CABO-16S作為一個整合16S rRNA序列的創(chuàng)新數(shù)據(jù)庫，為微生物生態(tài)學(xué)研究提供了更全面和精確的分類工具。CABO-16S將細(xì)菌、古細(xì)菌的序列與細(xì)胞器(如葉綠體)的16S rRNA序列結(jié)合，特別適合需要同時分析原核生物和真核生物(尤其是光合真核生物)的環(huán)境樣本研究，尤其是海洋、湖泊和沿海生態(tài)系統(tǒng)。

? 可根據(jù)研究需求添加自定義序列

研究者可以根據(jù)自身研究需求，向數(shù)據(jù)庫添加自定義序列，但需謹(jǐn)慎操作，避免引入分類學(xué)不一致性。對于特定環(huán)境或復(fù)雜微生物群落的研究，建議結(jié)合基因組系統(tǒng)發(fā)育信息來驗證16S rRNA分類結(jié)果。

在具體使用時由于數(shù)據(jù)庫仍在持續(xù)更新，研究者應(yīng)關(guān)注SILVA和PR2數(shù)據(jù)庫的最新版本，并及時更新CABO-16S數(shù)據(jù)庫，以獲得更準(zhǔn)確的微生物分類信息。

參考數(shù)據(jù)庫集合

? 獲取SILVA數(shù)據(jù)

為構(gòu)建 CABO-16S 數(shù)據(jù)庫，下載最新版本的 Silva(138.2)序列 (SILVA_138.2_SSURef_NR99_tax_silva.fasta.gz) 以及映射的分類法(taxmap_slv_ssu_ref_nr_138.2.txt.gz)和質(zhì)量值 (SILVA_138.2_SSURef_Nr99.quality.gz)。

去除了針尾值 < 50 或比對質(zhì)量值 < 75 的所有序列。去掉鑒定為葉綠體、線粒體和真核生物的序列，隨機(jī)選擇100個真核生物作為外群重新添加。真核生物外群的分類學(xué)僅保留門水平。

對原核生物分類學(xué)進(jìn)行清理，特別是在物種水平，以刪除基于生物宿主、樣本收集、不明確的細(xì)菌分組或?qū)僦貜?fù)(即“Genus sp.”)的命名方案。為了便于直接比較，使用相同的方法構(gòu)建了一個簡化的 SILVA 數(shù)據(jù)庫，但保留了鑒定為葉綠體的序列。

? PR2數(shù)據(jù)庫獲取葉綠體、染色質(zhì)等序列

將質(zhì)體、頂質(zhì)體、葉綠體和染色質(zhì)序列從PR 2數(shù)據(jù)庫(v 5.0.0)添加到CABO-16S數(shù)據(jù)庫中，用R包“pr 2database”（pr2database.github.io/pr2database/articles/pr2database.html）獲取。

為了與SILVA分類中的7個分類等級相匹配，從PR2序列中刪除了超群和亞群的等級。

? 將SILVA數(shù)據(jù)與PR2數(shù)據(jù)相結(jié)合

最后，將從甲烷滲漏 Sanger 測序中獲得的定制的16S rRNA序列與來自 SILVA 和 PR2 的數(shù)據(jù)相結(jié)合，形成 CABO-16S 數(shù)據(jù)集的基礎(chǔ)。

CABO-16S和簡化的SILVA 138.2訓(xùn)練集是根據(jù)DECIPHER的建議和IDTAXA算法制作的。簡而言之，在使用LearnTasa函數(shù)進(jìn)行三次迭代訓(xùn)練之前，將過采樣組被隨機(jī)子集化為100個序列。

Kmer長度設(shè)置為8nt，以匹配RDP和QIIME2默認(rèn)值。注意，使用全長16S rRNA參考序列用于訓(xùn)練；截斷擴(kuò)增子窗口的可能會略微提高準(zhǔn)確性，但代價是可能產(chǎn)生模糊性。因此，我們呈現(xiàn)全長序列并從全長序列進(jìn)行比較，并將是否截斷的選擇留給用戶。

基準(zhǔn)測試數(shù)據(jù)集的分類

利用CABO-16S和SILVA-132.1對已發(fā)表的廣泛來源16S rRNA序列進(jìn)行分類比較，包括已知細(xì)菌分離株的模擬群落和環(huán)境樣品。

對于所有比較的樣品，使用古細(xì)菌/細(xì)菌引物(515 f/926 r)擴(kuò)增16S rRNA基因的V4-V5區(qū)域，并在Illumina MiSeq平臺上測序。在5個以上樣本的環(huán)境數(shù)據(jù)集中，選擇任意一組子樣本進(jìn)行分類比較。

對所有下載的原始序列進(jìn)行了相同的處理，除了Needham和Fuhrman(2016)的數(shù)據(jù)，這些數(shù)據(jù)直接下載并使用了已經(jīng)分析的OTU序列和觀測矩陣?？芍噩F(xiàn)的工作流程（github.com/emelissa3/CABO-16S commit 472d7fc)報告了用于從NCBI SRA上可用的原始FASTQ文件生成擴(kuò)增子序列變體（ASVs）的全部細(xì)節(jié)和參數(shù)。

簡言之，使用Cutadapt去除引物，然后修剪序列（240 f/200 r），合并12 bp重疊，去噪，并使用DADA2 進(jìn)行比對。刪除嵌合體，并通過IDTAXA的IdTaxa函數(shù)進(jìn)行分類。

CABO-16S數(shù)據(jù)庫

CABO-16S將常用的16S rRNA數(shù)據(jù)庫統(tǒng)一整合，提供了一個用戶可以輕松擴(kuò)展的單一數(shù)據(jù)庫，包含了數(shù)據(jù)庫更新或未發(fā)表的序列。來自SILVA 138.2的389144個細(xì)菌和19213個古細(xì)菌16S rRNA序列用作CABO-16S數(shù)據(jù)庫的初始框架，同時保留了來自SILVA的隨機(jī)100個真核生物序列作為外群。

這些序列與來自PR 2數(shù)據(jù)庫的細(xì)胞器16S rRNA基因的8540個16S rRNA序列相結(jié)合。最后，可以組合自定義序列，以最大限度地提高目標(biāo)群落的分辨率;這里還添加了一組未發(fā)表的全長16S rRNA序列，這些序列是從甲烷滲漏沉積物的Sanger測序中獲得的，以及一份精選的代表性seep-SRB1序列列表。

doi.org/10.1101/2024.10.23.619938

以相當(dāng)?shù)臏?zhǔn)確度注釋先前未分類的ASV

CABO-16S與SILVA 138.2比較了先前發(fā)表的代表不同系統(tǒng)的數(shù)據(jù)集，包括模擬群落和環(huán)境樣本。該數(shù)據(jù)集包含基于模擬群落、哺乳動物腸道和住宅土壤、北方森林土壤、葉和周圍沉積物、來自冷甲烷滲漏的深海沉積物、熱液噴口沉積物、具有豐富浮游植物群落的海水以及最后來自以微藻Picocystis為主的封閉盆地湖泊的水的特征良好的基準(zhǔn)集。合并數(shù)據(jù)集由64402個擴(kuò)增子序列變體（ASVs）組成，單個數(shù)據(jù)集范圍在45-32090個ASV之間。

CABO-16S的分類能力顯著提高

在所有分類水平上接受分類分配的ASVs總數(shù)方面，CABO-16S數(shù)據(jù)庫的表現(xiàn)優(yōu)于未經(jīng)修改的SILVA 138.2數(shù)據(jù)庫。最大的差異是具有最多光合真核生物的數(shù)據(jù)集，如淺海草環(huán)境、海水和湖水。

例如，在海水?dāng)?shù)據(jù)集中，CABO-16S在門水平上比SILVA 138.2多分類了約10%的ASV。其他數(shù)據(jù)集差異不大，表明納入PR2數(shù)據(jù)庫的細(xì)胞器16S序列并沒有對分類器繼續(xù)準(zhǔn)確預(yù)測細(xì)菌和古菌分類的能力產(chǎn)生有意義的影響。

唯一值得注意的例外是，SILVA 138.2中的海水?dāng)?shù)據(jù)集的分類率略高于CABO-16S，我們將其歸因于PR2中的浮游植物目數(shù)比SILVA中的單一“葉綠體”標(biāo)簽增加。在這兩個數(shù)據(jù)集中，絕大多數(shù)ASV都無法在物種水平上進(jìn)行分類，盡管這可能部分是由于標(biāo)記到物種水平的參考序列相對較少，特別是對于非人類環(huán)境特有的微生物。

doi.org/10.1101/2024.10.23.619938

A）SILVA 138.2（虛線）和CABO-16S（實線）在給定分類水平（x軸）上按數(shù)據(jù)集（彩色線）分類的ASV百分比。隨著ASV在較高級別（如域）缺乏注釋，這些線也在不斷減少，根據(jù)定義，ASV在較低級別（如物種）也缺乏注釋。

B）A.缺乏分類的ASV的絕對數(shù)量。

C）兩個數(shù)據(jù)庫之間未分類的百分比差異。陽性百分比反映CABO-16S注釋的ASVs比SILVA 138.2更多，反之亦然。

CABO-16S和SILVA都揭示了分類模糊性的兩種類型之間的區(qū)別，這是妨礙分類注釋的主要原因。模糊性是最常考慮的精度形式，其中一個序列位于兩個或多個參考分類群之間，因此不能在選定的置信閾值（本研究中為40%）下分配給單個分類群。

IDTAXA和其他類似的分類器通過將序列分類到競爭參考分類群的最低共同水平來處理此類事件，有時會在沖突的分類等級中添加‘unclassified’未分類前綴。相反，一個序列可以被確信地分配給一個單一的分類單元，但是如果參考序列在給定的等級上缺乏注釋，那么在該等級上仍然可能缺乏分類學(xué)。

這種情況會影響許多未培養(yǎng)的譜系，例如，候選門級輻射類群candidate phyla radiation（Patescibacter門）中的SR1 科在SILVA 138.2中沒有屬或種分類，所有121個序列僅在科水平上進(jìn)行注釋。

因此，缺乏屬分類的SR1 ASV不是由于分類器的不確定性，而是由于分類學(xué)的不確定性。此外，一些譜系可能同時包含這兩種不確定性來源，例如，在SILVA 138.2中，Desulfosarcinacae脫硫桿菌科下有53個序列標(biāo)記為種水平、676個序列標(biāo)記為屬水平和345個序列標(biāo)記為科水平。而脫硫桿菌科的ASV缺乏屬水平注釋可能是由于與僅標(biāo)記到科級的一組序列有密切相似性（taxonomic ambiguity 分類學(xué)模糊性）或與不同屬無法區(qū)分（classifier ambiguity 分類器模糊性）。

因此，我們依照IDTAXA慣例在分類器模糊的情況下加上“unclassified_”，以及在參考序列模糊的情況下在最低分類層級上添加“unspecied_”來區(qū)分兩者。

CABO-16S能夠分類出幾乎占一半讀數(shù)的真核葉綠體

在分類序列中，CABO-16S和SILVA在大部分?jǐn)?shù)據(jù)集中都產(chǎn)生了相似的群落組成。事實上，由于CABO-16S古菌和細(xì)菌序列的非藍(lán)藻部分與SILVA 138.2完全相同，因此預(yù)期會有這種一致性。然而，在含有光養(yǎng)真核生物的數(shù)據(jù)集中（例如海草、海洋和湖泊水柱數(shù)據(jù)集），CABO-16S數(shù)據(jù)庫允許對真核葉綠體進(jìn)行分類，這些葉綠體占某些樣本讀取量的近50%（Mono Lake數(shù)據(jù)集）。

迄今為止，海水?dāng)?shù)據(jù)集的浮游植物多樣性是所有數(shù)據(jù)集中最大的；這種多樣性中的大部分都可以用CABO-16S進(jìn)行分類標(biāo)記。在Mono Lake數(shù)據(jù)集中，通過與NCBI人工對比，剩余的未分類多樣性可歸因于浮游植物線粒體序列。雖然目前的PR2數(shù)據(jù)庫包括大約1842個線粒體序列，但絕大多數(shù)（1782個 96.7%）屬于Opisthokonta，只有22個序列屬于泛植物界Archaeplastida（植物和許多藻類）。

雖然并非在所有真核細(xì)胞中都發(fā)現(xiàn)線粒體，但我們預(yù)計未來PR2的擴(kuò)展將包括更多來自植物和藻類譜系的線粒體16S，這將改善這一問題。

CABO-16S與原始SILVA 138.2的每個數(shù)據(jù)集的組成

ASV被聚合到類級別（用不同顏色表示）。在樣本中含量在5%以上的類別在圖中展示。無法分配特定類別的ASV同樣被匯總在最低注釋級別。相對豐度<5%的剩余ASV被歸為一類。

鑒定光合真核生物的精度更高

通過每個光養(yǎng)真核生物數(shù)據(jù)集對比不同ASV分類，以闡明數(shù)據(jù)庫之間的差異點。對于富含真核浮游植物的沿海海水?dāng)?shù)據(jù)集，SILVA 138.2能夠準(zhǔn)確地對細(xì)菌群落進(jìn)行分類，但是大部分reads(推測為真核生物)沒有被分類到域水平或簡單地注釋為科水平的葉綠體。

擴(kuò)增子序列變體序列得到進(jìn)一步分類

而在CABO-16S數(shù)據(jù)集中，這些相同的質(zhì)體ASV序列得到了進(jìn)一步的分類。值得注意的是，序列的多樣性并不總能對較低水平進(jìn)行明確的分類注釋，圖中的分類注釋顯示在類或目水平上出現(xiàn)了許多歧義。

一些分類單元等級包括‘ _X ’后綴，這是PR2使用的中間占位符，類似于其他分類中使用的‘ Incertae Sedis ’。然而，通過質(zhì)體分類獲得的分類注釋是有用的，因為主要的浮游植物類群(如硅藻、鞭毛藻、隱生植物等)是有區(qū)別的。

CABO-16S解析海洋數(shù)據(jù)集中的真核和細(xì)菌浮游植物

SILVA 138.2和CABO-16S的沖積圖追蹤了至少有100個ASV從域（最左側(cè)）到科（最右側(cè)）的ASV分類。對于每個層級，柱狀圖代表不同的分類群，每個柱狀圖的大小按比例反映了ASV的數(shù)量。條形圖之間的空白是為了便于可視化。連接層級的流根據(jù)這些ASV的門級分類進(jìn)行著色。僅顯示了基于任一數(shù)據(jù)庫的與藍(lán)藻或質(zhì)體序列相關(guān)的ASV。

自定義序列增加了多系進(jìn)化枝的鑒定

向CABO-16S中添加自定義序列可以增加目前未納入SILVA或PR2數(shù)據(jù)庫中的物種的分類。增加了Sanger測序獲得的甲烷滲漏沉積物序列和代表性SEEP-SRB1序列的精選列表。

SEEP-SRB 1是硫酸鹽還原菌的多系分支，包括已知的ANME在甲烷厭氧氧化(AOM)過程中的共生性成員，如SEEP-SRB1a和SEEP-SRB1g，以及其他非共生性成員(SEEP-SRB1b、SEEP-SRB1c、SEEP-SRB1d、SEEP-SRB1e和SEEP-SRB1f)。

雖然目前在SILVA 138.2中被確定為屬級進(jìn)化枝，但這是這些生物的一個過于簡化的分組。事實上，雖然一些成員，如SEEP-SRB1g和SEEP-SRB1c，被描述為物種水平的分支，但其他成員，如SEEP-SRB1a，更準(zhǔn)確地描述為屬水平的分支。

分辨率的提高揭示了不同SEEP-SRB 1亞組的不同分布****

進(jìn)一步使SEEP-SRB分類學(xué)復(fù)雜化的是SEEP-SRB1亞群之間不對稱的系統(tǒng)發(fā)育距離——例如，基于基因組樹，SEEP-SRB1g和SEEP-SRB1a可能位于不同的序列中。雖然用分類學(xué)分類糾正系統(tǒng)發(fā)育距離超出了本工作的范圍，但這種歷史命名慣例之間的沖突在環(huán)境微生物學(xué)中很常見并且難以解決。

然而，使用精確命名的組擴(kuò)展數(shù)據(jù)庫提供了一種避免這些差異的方法。因此，我們將SEEP-SRB亞群的代表性序列添加為SEEP-SRB1的“種”，但將SRB1g添加為“種”，這是SILVA 138.2中與SRB1g最相似的序列的分類名稱。

將這些額外的SEEP-SRB序列納入CABO-16S數(shù)據(jù)庫，將部分環(huán)境SRB1組ASVs分解為各自的亞組。在甲烷滲漏和熱液噴口數(shù)據(jù)集中，分辨率的提高揭示了不同SEEP-SRB 1亞組的不同分布。在噴口數(shù)據(jù)集中，只有一部分樣本含有同營養(yǎng)型Seep-SRB1a和非同營養(yǎng)型Seep-SRB1d，這一區(qū)別無法用默認(rèn)的SILVA 138.2數(shù)據(jù)庫解決。與SILVA 138.2相比，CABO-16S如何將SILVA中注釋為SEEP-SRB1、未分類的脫硫藻科或脫硫藻的ASVs分類時，分類分配的進(jìn)一步差異變得清晰。

雖然CABO-16S對整個數(shù)據(jù)集中相對較小比例的ASV進(jìn)行了不同的分類，但在特定環(huán)境中，如本研究中包括的沉積熱液噴口，分類差異是顯著的。有趣的是，一些SILVA 138.2分類為脫硫菌科的ASV在CABO-16S的較高級別上未分類（例如，unclassified_Desulfobacterales）或不同的分類。我們將這種差異歸因于IDTAXA算法中的運行間差異，因為它對每次運行隨機(jī)進(jìn)行kmer的子采樣，因此分類置信閾值邊緣的一小部分ASV在運行之間會收到不同的分類。為了支持這一觀察結(jié)果，將分析納入歸類為SEEP-SRB1、、Desulfosarcinaceae或LCP-80的ASVs，結(jié)果與一些歸類為CABO-16S的asv在SILVA 138.2中未分類的結(jié)果大體一致。

CABO-16S通過添加特定序列，以更高的分辨率對SEEP-SRB1進(jìn)行分類。

A) SEEP-SRB1及其相關(guān)分類群在最低分類水平的相對豐度。對于甲烷滲漏和熱液噴口數(shù)據(jù)集，左側(cè)子面板顯示SILVA 138.2分類，右側(cè)子面板顯示CABO-16S分類。y軸表示每個樣本總讀取次數(shù)的百分比。

B)沖積圖顯示了數(shù)據(jù)庫中相同ASV序列的分類。每一列都是一個不同的等級（從科到種），用CABO-16S標(biāo)記的物種等級為不同的顏色。流量高度反映asv的數(shù)量。

縮寫：unc，未分類；unsp不明;sed,沉積物。請注意，我們區(qū)分了由于分類沖突（未分類）而缺乏注釋與由于參考分類群的注釋不完整（未指定）而缺乏注釋，如上圖所述。

添加自定義序列相關(guān)的挑戰(zhàn)

雖然Seep-SRB1亞型的注釋可以通過添加具有特定注釋的已知序列來實現(xiàn)，但這些分支的分類學(xué)、層級命名系統(tǒng)和系統(tǒng)發(fā)育，進(jìn)化史之間仍然存在差異。

其他小組可能需要比我們用于SEEP-SRB1的方法更復(fù)雜的方法。志賀氏菌屬和埃希氏菌屬是這種矛盾的象征，因為兩者在進(jìn)化上都有很深的重疊，但分類學(xué)繼續(xù)使參考數(shù)據(jù)庫層次結(jié)構(gòu)復(fù)雜化。

幾十年來，聚球藻等其他環(huán)境群體同樣對糾正分類學(xué)和系統(tǒng)發(fā)育提出了挑戰(zhàn)。對于此類群體，添加具有特定、系統(tǒng)發(fā)育正確層次結(jié)構(gòu)的序列不太可能改善分類，因為解決歧義的LCA方法假設(shè)所有序列共享相同的層次結(jié)構(gòu)。

因此，所有現(xiàn)有序列都需要按照所需的系統(tǒng)發(fā)育框架進(jìn)行類似的重新分類，并需要額外的管理，以確保新的分類層次與序列相似性的兼容性。最終，糾正系統(tǒng)發(fā)育和分類學(xué)的可行性受到16S rRNA基因中嵌入的信號的限制，雖然基于基因組的系統(tǒng)發(fā)育和16S rRNA系統(tǒng)發(fā)育在很大程度上是一致的，但它們并不完全相同。

? 分類分配的錯誤或不一致

提高分辨率的另一個障礙是分類分配中的錯誤或不一致，即相似的序列具有沖突的名稱；據(jù)估計，這類錯誤占SILVA序列的1.5-17%。

基于大多數(shù)序列被正確且一致地標(biāo)記的假設(shè)，IDTAXA等方法結(jié)合了工具來識別和刪除在訓(xùn)練期間與大多數(shù)相似命名的序列沖突的單個序列，并且也存在獨立的工具。

然而，這種方法對于由許多序列代表的分類群效果最好，對于需要提高分辨率的環(huán)境譜系并不總是如此。分類器的分辨率和準(zhǔn)確性也可以通過限制數(shù)據(jù)庫只包括特定于采樣棲息地的微生物來提高，正如許多動物微生物組已經(jīng)成功做到的那樣。

這種特定棲息地的訓(xùn)練集無疑是對特定系統(tǒng)進(jìn)行集中研究的最佳方法。但是，要了解具有廣泛分布的特定分類群(如SEEP-SRB)的環(huán)境背景，就需要使用諸如SILVA之類的通用數(shù)據(jù)庫最大化分辨率的方法。

結(jié)語

CABO-16S成功地將來自SILVA 138.2的細(xì)菌和原始16S rRNA序列以及來自PR2數(shù)據(jù)庫的細(xì)胞器16S rRNA序列與自定義選擇的序列結(jié)合起來。與SILVA 138.2相比，**增加了****擴(kuò)增子序列變體(ASVs)**的分類定位。

具體來說，通過添加PR2的質(zhì)體序列，CABO-16S無需額外測序16S和18S引物，就能在海洋和湖泊水體中出色地鑒定光養(yǎng)真核生物。盡管一些16S序列，如來自植物和藻類的線粒體仍然很少，可能會影響特定環(huán)境的分類，但CABO-16S減少了未分配的光養(yǎng)生物的數(shù)量從而可以快速提取剩余的豐富序列。

CABO-16S也被構(gòu)建為可以添加自定義序列。隨著SEEP-SRB1多系分支序列的加入，我們看到熱液噴口沉積物樣本的分類分化增加。這有助于確定特定環(huán)境中綜合征的可能性，并加深對AOM的社區(qū)的理解。盡管添加自定義序列必須謹(jǐn)慎進(jìn)行，但考慮到SILVA中未指定序列的數(shù)量以及將多系分支限制在當(dāng)前分類結(jié)構(gòu)的難度，CABO-16S的這一功能使用戶可以自由定制16S分類，并可能增加對特定環(huán)境的理解。

最后，CABO-16S提供了一個框架，可以隨著SILVA和PR2數(shù)據(jù)庫未來版本的發(fā)布而輕松更新。R腳本和工作區(qū)可在github.com/emelissa3/CABO-16S上獲得。自定義序列和其他東西永久托管在Figshare（doi.org/10.6084/m9.figshare.27288090）。

參考文獻(xiàn)：

CABO-16S – A Combined Archaea, Bacteria, Organelle 16S database for amplicon analysis of prokaryotes and eukaryotes in environmental samples.

Eryn M.Eitel, Daniel Utter, Stephanie Connon, Victoria J. Orphan, Ranjani MuralibioRxiv 2024.10.23.619938

CABO-16S：用于環(huán)境樣本中原核生物和真核生物的16S擴(kuò)增子分析數(shù)據(jù)庫

參考數(shù)據(jù)庫集合

基準(zhǔn)測試數(shù)據(jù)集的分類

CABO-16S數(shù)據(jù)庫

結(jié)語