Logo Pic


基础分子生物学




DNA序列可以干嘛?


蘑菇的DNA序列可以用于物种鉴定、系统发育和进化分子钟等分析。



物种鉴定是利用蘑菇基因组中称为“DNA条形码”的特定序列,通过测序DNA条形码并和数据库中已知物种的序列进行比对,来鉴定物种。DNA条形码是指在同一个物种内相似,在不同的物种间存在区别,从而能用于鉴定物种的特定DNA片段。除此之外,DNA条形码一般还具有以下特征:序列较短,容易扩增;在不同种类的真菌中都存在。鉴定蘑菇常用的DNA条形码序列包括ITS和LSU序列。



系统发育是基于通过不同的算法,分析不同蘑菇的特定基因序列,推测其分化过程并构建系统发育树。真菌中常用的系统发育算法包括最大简约法(Maximum Parsimony,MP)、最大似然法(Maximum Likehood,ML)和贝叶斯法(Bayes)。
系统发育树可以分为无根树和有根树。无根树仅表示物种之间分化关系的远近,并不知道谁更早分化;有根树则是在无根树“置根”之后得到的,可以显示物种分化的先后顺序。置根通常采用外类群法——在树中引入一个外类群,其亲缘关系足够远,必定是树中最早分化出来的,基于该外类群推测其他所有剩余类群的分化关系,也可以采用中点法——取分化最远的两个枝条的中点为根。


根据枝长的含义,有根树还可以进一步分为cladogram(枝条长度无意义,整个树仅显示系统发育的结构)、chronogram(枝条长度表征分化时间)和phylogram(枝条长度表征序列的变化程度)。
为了检验系统发育树的可靠程度,可以采用一些算法(如bootstrap法)来计算各个分支的自展支持率,该数值一般会标在树枝上,单位为%但百分号常省略不写,一般大于50或70被认为是可接受的。
构建系统发育树可以采用多种序列,最常用的还是ITS和LSU,也可以用SSU、β-tubulin、rbp1、rbp2或tef1DNA序列,有时甚至可以用蛋白质序列建树。一般来说,研究近缘物种,要用变化快(不保守)的序列,因为保守序列在近缘物种内往往都很相似;研究远缘物种,要用变化慢(保守)的序列,因为不保守序列常常会变化到无法比较的程度。



分子钟是利用DNA序列推断物种分化时间的一种方法。其理论基础是分子进化的中性理论,该理论认为,同一个基因的演化速度是相对恒定的,因此我们可以通过已知的化石记录确定某一个基因的演化速度,再通过物种之间基因的差异程度倒推物种的分化程度。





常用的DNA序列


典型的高等真菌细胞核核糖体DNA(rDNA)结构示意图。
真菌的rDNA由18S(橙)、5.8S(深蓝)、28S(黄,实际根据物种的不同,可能为25-28S)和5S(绿)四种组成。它们在基因组内按上述顺序排列并重复多次出现。其中,前三者在转录时作为同一个转录单位(图中淡蓝色区域)被转录,而5S rDNA则被独立转录。
18S rDNA转录产物构成核糖体的小亚基,因此被称为核糖体小亚基基因序列(SSU),剩下三者共同构成核糖体大亚基,但一般仅有28S rDNA被称为核糖体大亚基基因序列(LSU)。在18S、5.8S和28S基因之间的片段称为ITS序列。注意,实际研究中测序的SSU和LSU序列通常不完整,而获得的ITS序列往往还包括一部分的SSU、完整5.8S和一部分LSU序列。
除了上述序列,转录单位(淡蓝色)的头和尾都有ETS序列。在一个转录单位和下一个转录单位之间的部分称作NTS序列,NTS包含5S rDNA基因。NTS、ETS统称为IGS序列。



ITS
全称为内部转录间隔区(internal transcribed spacer)。如上图所示,ITS位于rDNA基因内部,是隔开18S、5.8S和28S rDNA序列的间隔序列。其中,18S和5.8S之间的间隔序列为ITS1,5.8S和28S之间的间隔序列为ITS2。虽然ITS序列在转录本内,但后续它会被切除,因此ITS序列仅仅起到“隔开”不同rDNA的作用,并不会参与核糖体的形成。因而,ITS受到的选择压力很小,是变化快的非保守序列。
实际研究中,利用ITS1、IST4引物扩增得到的“ITS序列”实际是部分18S序列+全部ITS1、5.8S、ITS2序列+部分28S序列。

LSU
全称为核糖体大亚基基因序列(large subunit ribosomal RNA gene)。真菌中,细胞核内和线粒体内都有LSU序列,分别称为nLSU和mtLSU。细胞核的核糖体大亚基序列包括5S、5.8S和28S rDNA,其中nLSU通常指28S rDNA,如上图所示。
实际研究中,LSU测序得到的是nLSU(28S rDNA)的部分片段,该片段包含D1-D2高度可变区,可用于属、种级别的分类和鉴定。

SSU
全称为核糖体小亚基基因序列(small subunit ribosomal RNA gene)。和LSU类似,SSU也分为nSSU和mtSSU,其中nSSU=16S rDNA,如上图所示。
实际研究中,若无特殊说明,SSU通常特指nSSU(16S rDNA)的部分片段,该片段包含完整V4可变区和部分V5可变区序列。


rbp1、2
全称为RNA聚合酶II的最大/第二大亚基基因[RNA polymerase II (second) largest subunit]。前文所述的ITS、LSU、SSU都是rDNA的一部分,而rDNA是串联重复基因,单个细胞内有多个拷贝,拷贝次数在不同物种乃至不同个体间都可能有差异;而rbp1、2和rDNA没有关系,它们参与编码真菌细胞内的RNA聚合酶II,属于单拷贝基因,一个单倍体细胞内总是仅有1份拷贝。并且,rbp1、2相对于ITS更保守。这些特性使得rbp1、2适合用于环境DNA研究、分子钟或分析远缘物种的系统发育关系。

β-tubulin基因
全称为β-微管蛋白基因,它编码β-微管蛋白。β-微管蛋白是细胞内参与构成微管的蛋白质之一,它在细胞内的表达很稳定——不同的细胞内都存在β-tubulin的表达,表达量也通常稳定在一定程度。β-tubulin常在蛋白质表达的研究中作为内参使用,也可用于系统发育分析或分子标记。

tef1(或ef-1α)
全称为translation elongation factor 1,它编码真核延伸因子1-α(eukaryotic elongation factor 1-α,或eEF1α)。该蛋白是核糖体在进行翻译时的辅助因子之一,其作用是将氨酰tRNA运输到核糖体,并水解GTP。此基因可以作为分子标记、在一些属中作为DNA条形码进行物种鉴定、进行系统发育分析等。


如何查找序列?


可以在NCBI核酸数据库搜索DNA序列,在NCBI蛋白数据库搜索蛋白序列。例如,查询DNA序列,打开核酸数据库,在搜索框中输入Agaricus campestris ITS region,搜索四孢蘑菇的ITS序列。结果如下:

在搜索结果中寻找自己想要的序列,点击即可进入详情页面。


如何下载序列?


通过在NCBI数据库中搜索进入序列详细信息界面(见上文)。
或者在菌物志网站提供的序列信息中,点击VERSION NO.跳转到NCBI网站的序列详细信息界面。

打开详细信息界面后,默认展示的是GenBank格式的序列信息。页面中央即为详细信息,GenBank格式包括以下信息:LOCUS(序列标识)、DEFINITION(序列标题)、ACCESSION和VERSION(序列编号和版本号)、SOURCE(序列来源的物种信息)、REFERENCES(序列来源的文献信息)、FEATURES(序列的特征描述)、ORIGIN(原始序列数据等)。

点击右上处的Send to,选择File,在下载界面选择不同的Format(默认为GenBank),可以指定不同格式的序列文件,再点击Create File即可下载指定格式的序列文件(.gb)。除了上述的GenBank格式,常用的另一个格式是FASTA(.fasta),该格式仅包含序列编号、序列标题和原始序列数据。
下载完成后,可以用记事本打开.gb或.fasta文件。GenBank格式的内容和网页上展示的内容是一样的。Fasta格式的文件如下:

>NR_151745.1 Agaricus campestris MA Fungi:80998 ITS region; from TYPE material
GGAAGGATCATTATTGAATTATGTTTCTAGATGGGTTGTAGCTGGCTCTTTGGAGCATGTGCACACCTGT
TTGGATTTCATTTTCATCCACCTGTGCACCTATTGTAGTCTTTGGTTTGGGTATTGAGGAAGTGGTCAGC
CTATCAGCATTTGCTGGATGTGAGGAGTTTGCAGTGTGAAAGCATTGCTGTCCTTTACTTGGCCATGGAG
TCTTTTGCCTACCAGAGTCTATGTCATTCATTATACCCTGTCGAATGTTATCGAATGTCTTTACATGGGC
TTTCATGCCTATGAAAATTATAATACAACTTTCAGCAACGGATCTCTTGGCTCTCGCATCGATGAAGAAC
GCAGCGAAATGCGATAAGTAATGTGAATTGCAGAATTCAGTGAATCATCGAATCTTTGAACGCATCTTGC
GCTCCTTGGTACTCCGAGGAGCATGCCTGTTTGAGTGTCATTAAATTCTCAACTCTCTTATACTTTGTTG
TATAGGAGGGCTTGGATTGTGGAGGTTTGCTGGCAACTTGTTTGTGGTCAGCTCCTCTGAAATGCATTAG
CGGAACCGTTTGCGATCTGCCACAAGTGTGATAAACTATCTACACTGGCGAGGGGATTGCTCTCTGTGTT
TGTTCAGCTTCTAATCGTCTCAGTTTGAGACAACTTTTGAATACTTGACCTCANATCAGGTAGGACTACC
CGCTGAACTTAA

其中>后的内容是序列的版本号(VERSION NUMBER,此示例中为NR_151745.1)和序列标题(DEFINITION),之后则是详细的序列信息。


(正文完)

标签:[无]
发表时间:2025-08-22
历史版本:1
上次编辑:2025-08-22