基础分子生物学

DNA序列可以干嘛？

蘑菇的DNA序列可以用于物种鉴定、系统发育和进化分子钟等分析。

物种鉴定是利用蘑菇基因组中称为“DNA条形码”的特定序列，通过测序DNA条形码并和数据库中已知物种的序列进行比对，来鉴定物种。DNA条形码是指在同一个物种内相似，在不同的物种间存在区别，从而能用于鉴定物种的特定DNA片段。除此之外，DNA条形码一般还具有以下特征：序列较短，容易扩增；在不同种类的真菌中都存在。鉴定蘑菇常用的DNA条形码序列包括ITS和LSU序列。

系统发育是基于通过不同的算法，分析不同蘑菇的特定基因序列，推测其分化过程并构建系统发育树。真菌中常用的系统发育算法包括最大简约法（Maximum Parsimony，MP）、最大似然法（Maximum Likehood，ML）和贝叶斯法（Bayes）。
系统发育树可以分为无根树和有根树。无根树仅表示物种之间分化关系的远近，并不知道谁更早分化；有根树则是在无根树“置根”之后得到的，可以显示物种分化的先后顺序。置根通常采用外类群法——在树中引入一个外类群，其亲缘关系足够远，必定是树中最早分化出来的，基于该外类群推测其他所有剩余类群的分化关系，也可以采用中点法——取分化最远的两个枝条的中点为根。

根据枝长的含义，有根树还可以进一步分为cladogram（枝条长度无意义，整个树仅显示系统发育的结构）、chronogram（枝条长度表征分化时间）和phylogram（枝条长度表征序列的变化程度）。
为了检验系统发育树的可靠程度，可以采用一些算法（如bootstrap法）来计算各个分支的自展支持率，该数值一般会标在树枝上，单位为%但百分号常省略不写，一般大于50或70被认为是可接受的。
构建系统发育树可以采用多种序列，最常用的还是ITS和LSU，也可以用SSU、β-tubulin、rbp1、rbp2或tef1DNA序列，有时甚至可以用蛋白质序列建树。一般来说，研究近缘物种，要用变化快（不保守）的序列，因为保守序列在近缘物种内往往都很相似；研究远缘物种，要用变化慢（保守）的序列，因为不保守序列常常会变化到无法比较的程度。

分子钟是利用DNA序列推断物种分化时间的一种方法。其理论基础是分子进化的中性理论，该理论认为，同一个基因的演化速度是相对恒定的，因此我们可以通过已知的化石记录确定某一个基因的演化速度，再通过物种之间基因的差异程度倒推物种的分化程度。

常用的DNA序列

典型的高等真菌细胞核核糖体DNA（rDNA）结构示意图。
真菌的rDNA由18S（橙）、5.8S（深蓝）、28S（黄，实际根据物种的不同，可能为25-28S）和5S（绿）四种组成。它们在基因组内按上述顺序排列并重复多次出现。其中，前三者在转录时作为同一个转录单位（图中淡蓝色区域）被转录，而5S rDNA则被独立转录。
18S rDNA转录产物构成核糖体的小亚基，因此被称为核糖体小亚基基因序列（SSU），剩下三者共同构成核糖体大亚基，但一般仅有28S rDNA被称为核糖体大亚基基因序列（LSU）。在18S、5.8S和28S基因之间的片段称为ITS序列。注意，实际研究中测序的SSU和LSU序列通常不完整，而获得的ITS序列往往还包括一部分的SSU、完整5.8S和一部分LSU序列。
除了上述序列，转录单位（淡蓝色）的头和尾都有ETS序列。在一个转录单位和下一个转录单位之间的部分称作NTS序列，NTS包含5S rDNA基因。NTS、ETS统称为IGS序列。

ITS
全称为内部转录间隔区（internal transcribed spacer）。如上图所示，ITS位于rDNA基因内部，是隔开18S、5.8S和28S rDNA序列的间隔序列。其中，18S和5.8S之间的间隔序列为ITS1，5.8S和28S之间的间隔序列为ITS2。虽然ITS序列在转录本内，但后续它会被切除，因此ITS序列仅仅起到“隔开”不同rDNA的作用，并不会参与核糖体的形成。因而，ITS受到的选择压力很小，是变化快的非保守序列。
实际研究中，利用ITS1、IST4引物扩增得到的“ITS序列”实际是部分18S序列+全部ITS1、5.8S、ITS2序列+部分28S序列。

LSU
全称为核糖体大亚基基因序列（large subunit ribosomal RNA gene）。真菌中，细胞核内和线粒体内都有LSU序列，分别称为nLSU和mtLSU。细胞核的核糖体大亚基序列包括5S、5.8S和28S rDNA，其中nLSU通常指28S rDNA，如上图所示。
实际研究中，LSU测序得到的是nLSU（28S rDNA）的部分片段，该片段包含D1-D2高度可变区，可用于属、种级别的分类和鉴定。

SSU
全称为核糖体小亚基基因序列（small subunit ribosomal RNA gene）。和LSU类似，SSU也分为nSSU和mtSSU，其中nSSU=16S rDNA，如上图所示。
实际研究中，若无特殊说明，SSU通常特指nSSU（16S rDNA）的部分片段，该片段包含完整V4可变区和部分V5可变区序列。

rbp1、2
全称为RNA聚合酶II的最大/第二大亚基基因[RNA polymerase II (second) largest subunit]。前文所述的ITS、LSU、SSU都是rDNA的一部分，而rDNA是串联重复基因，单个细胞内有多个拷贝，拷贝次数在不同物种乃至不同个体间都可能有差异；而rbp1、2和rDNA没有关系，它们参与编码真菌细胞内的RNA聚合酶II，属于单拷贝基因，一个单倍体细胞内总是仅有1份拷贝。并且，rbp1、2相对于ITS更保守。这些特性使得rbp1、2适合用于环境DNA研究、分子钟或分析远缘物种的系统发育关系。

β-tubulin基因
全称为β-微管蛋白基因，它编码β-微管蛋白。β-微管蛋白是细胞内参与构成微管的蛋白质之一，它在细胞内的表达很稳定——不同的细胞内都存在β-tubulin的表达，表达量也通常稳定在一定程度。β-tubulin常在蛋白质表达的研究中作为内参使用，也可用于系统发育分析或分子标记。

tef1（或ef-1α）
全称为translation elongation factor 1，它编码真核延伸因子1-α（eukaryotic elongation factor 1-α，或eEF1α）。该蛋白是核糖体在进行翻译时的辅助因子之一，其作用是将氨酰tRNA运输到核糖体，并水解GTP。此基因可以作为分子标记、在一些属中作为DNA条形码进行物种鉴定、进行系统发育分析等。

如何查找序列？

可以在NCBI核酸数据库搜索DNA序列，在NCBI蛋白数据库搜索蛋白序列。例如，查询DNA序列，打开核酸数据库，在搜索框中输入Agaricus campestris ITS region，搜索四孢蘑菇的ITS序列。结果如下：

在搜索结果中寻找自己想要的序列，点击即可进入详情页面。

如何下载序列？

通过在NCBI数据库中搜索进入序列详细信息界面（见上文）。
或者在菌物志网站提供的序列信息中，点击VERSION NO.跳转到NCBI网站的序列详细信息界面。

打开详细信息界面后，默认展示的是GenBank格式的序列信息。页面中央即为详细信息，GenBank格式包括以下信息：LOCUS（序列标识）、DEFINITION（序列标题）、ACCESSION和VERSION（序列编号和版本号）、SOURCE（序列来源的物种信息）、REFERENCES（序列来源的文献信息）、FEATURES（序列的特征描述）、ORIGIN（原始序列数据等）。

点击右上处的Send to，选择File，在下载界面选择不同的Format（默认为GenBank），可以指定不同格式的序列文件，再点击Create File即可下载指定格式的序列文件（.gb）。除了上述的GenBank格式，常用的另一个格式是FASTA（.fasta），该格式仅包含序列编号、序列标题和原始序列数据。

下载完成后，可以用记事本打开.gb或.fasta文件。GenBank格式的内容和网页上展示的内容是一样的。Fasta格式的文件如下：

>NR_151745.1 Agaricus campestris MA Fungi:80998 ITS region; from TYPE material
GGAAGGATCATTATTGAATTATGTTTCTAGATGGGTTGTAGCTGGCTCTTTGGAGCATGTGCACACCTGT
TTGGATTTCATTTTCATCCACCTGTGCACCTATTGTAGTCTTTGGTTTGGGTATTGAGGAAGTGGTCAGC
CTATCAGCATTTGCTGGATGTGAGGAGTTTGCAGTGTGAAAGCATTGCTGTCCTTTACTTGGCCATGGAG
TCTTTTGCCTACCAGAGTCTATGTCATTCATTATACCCTGTCGAATGTTATCGAATGTCTTTACATGGGC
TTTCATGCCTATGAAAATTATAATACAACTTTCAGCAACGGATCTCTTGGCTCTCGCATCGATGAAGAAC
GCAGCGAAATGCGATAAGTAATGTGAATTGCAGAATTCAGTGAATCATCGAATCTTTGAACGCATCTTGC
GCTCCTTGGTACTCCGAGGAGCATGCCTGTTTGAGTGTCATTAAATTCTCAACTCTCTTATACTTTGTTG
TATAGGAGGGCTTGGATTGTGGAGGTTTGCTGGCAACTTGTTTGTGGTCAGCTCCTCTGAAATGCATTAG
CGGAACCGTTTGCGATCTGCCACAAGTGTGATAAACTATCTACACTGGCGAGGGGATTGCTCTCTGTGTT
TGTTCAGCTTCTAATCGTCTCAGTTTGAGACAACTTTTGAATACTTGACCTCANATCAGGTAGGACTACC
CGCTGAACTTAA

其中>后的内容是序列的版本号（VERSION NUMBER，此示例中为NR_151745.1）和序列标题（DEFINITION），之后则是详细的序列信息。