摘要
近年来,基于单分子测序技术的ISO⁃seq数据以其超长读段长度被越来越多地应用于转录组新型异构体预测研究,但目前大多数研究工作只用到全长读段数据,丢失了非全长读段数据中较多有用信息,因而数据没有得到充分利用。针对这一问题,本文在保留非全长读段的基础上提出了两个能同时预测异构体结构和计算其表达比例的模型基于狄利克雷采样的异构体探测与预测(Dirichlet sampling for isoform detection and prediction, DSIDP)和基于马尔科夫链的异构体探测与预测(Markov chain for isoform detection and predition, MCIDP)。两个模型均从全长读段中建立异构体预测集,并采用全长读段和非全长读段计算异构体表达比例。DSIDP将所有读段比对至异构体预测集,并使用Dirichlet采样解决多源映射问题,MCIDP使用马尔科夫链模拟基因外显子之间的选择性剪切,该模型还能预测出数据中没有全长读段的异构体。本文采用模拟数据和真实数据验证了两个模型的有效性。
由于选择性剪切(Alternative splicing, AS)的存在,一条前体mRNA可以剪切出多条mRNA并指导蛋白质的生成,这种转录组一对多的剪切方式是造成生物多样性的最重要原因之一。而各项研究都表明选择性剪切现象普遍存在于高等真核生物
基因及异构体表达水平计算是研究选择性剪切的一种重要途径,具有高通量特性的第二代测序技术RNA⁃seq拥有量化转录片段的突出优势,在这一领域具有较多有效的应
近几年诞生的第三代测序技术以其读段长度长、无聚合酶链式反应(Polymerase chain reaction, PCR)过程引入的误差等特点,迅速得到研究者的关注,并应用于RNA⁃seq技术不适用的场景。ISO⁃seq技术是PacBio公司开发的用于转录组研究的第三代测序技术,该技术从细胞中分离出mRNA,在size⁃selection(长度选择)之后制备成ISO⁃seq文库,用于测序仪测序。整个测序过程没有对测序片段作任何打断处理,这样的测序结果可认为是测序片段的完整读段,因此ISO⁃seq技术在诞生之后,被大多数研究者应用于转录组重构和基因组组装等领
IDP在除去冗余全长读段时,不仅去掉了信息一致的全长读段,还删除了全长读段之间的包含情况,即当一条较短的全长读段包含于一条较长全长读段时,只保留较长的读段。但从ISO⁃seq测序技术原理来看,在制备cDNA文库时并没有进行类似RNA⁃seq测序技术的随机打断,因此本文认为一条全长读段等价一个异构体,去掉包含关系的读段会遗漏异构体,最终影响到异构体的预测结果。另外,大多数研究工作认为ISO⁃seq数据的通量低,不适合计算表达水平,其主要原因在于这些研究工作大都丢弃了占到所有数据50%~60%的非全长读
本文首次提出仅利用ISO⁃seq数据,且保留非全长读段进行基于狄利克雷采样的探测与预测(Dirichlet sampling for isoform detection and prediction, DSIDP)方法。同时,第三代测序技术虽然拥有超长读长测序,但也无法保证全长读段数据涵盖所有表达异构体,针对一些没有全长读段数据的异构体预测问题,本文在沿用DSIDP预测异构体思想的基础之上,还提出了一种基于马尔科夫链的异构体探测与预测(Markov chain for isoform detection and prediction, MCIDP)方法。两种模型均在模拟数据集和真实数据上得到了有效验证。

图1 ISO⁃seq数据中读段长度分布直方图
Fig.1 Histograms of ISO⁃seq reads
Cell编号 | 长度范围/Kb | 全长读段数量/百分比/% | 非全长读段数量/百分比/% | 总计 |
---|---|---|---|---|
Cell 1 | 1~2 | 56 085/56.63 | 42 960/43.37 | 99 045 |
Cell 2 | 1~2 | 60 805/60.11 | 40 352/39.89 | 101 157 |
Cell 3 | 2~3 | 43 139/47.51 | 47 665/52.49 | 90 804 |
Cell 4 | 2~3 | 42 831/48.27 | 45 897/51.73 | 88 728 |
Cell 5 | >3 | 39 892/41.36 | 56 565/58.64 | 96 457 |
Cell 6 | >3 | 6 333/40.82 | 9 182/59.18 | 15 515 |
为了进一步说明ISO⁃seq数据用于计算表达水平的可行性,随机选择了4个基因并统计它们在ISO⁃seq数据和RNA⁃seq数据中外显子上读段数分布情况,结果如

图2 4个基因在ISO⁃seq数据和RNA⁃seq数据中外显子上的读段分布
Fig.2 Distribution of reads on exons of four genes in ISO⁃seq data and RNA⁃seq data
ISO⁃seq的下机数据中全长和非全长读段是混合在一起的,需要按照一定的准则将其区分开。PacBio公司提供的SMRT Analysis软件根据读段数据两端是否均存在接头序列,将其分为全长读段和非全长读段,但这样的方式需要原始读段数据之间的比对,对计算效率影响较大。

图3 PacBio测序原理
Fig.3 PacBio sequencing principle
ISO⁃seq数据的另一特征是较高的测序错误率,目前的大多数研究工作均使用RNA⁃seq数据对其进行纠正,本文使用LoRDE
MCF⁃7数据集中共有119个Cell,且测序时间并不都是一致,因此本文在建模之前验证了数据的有效性。选取6个Cell的真实数据,分为两组,每组均包含Size⁃selection的3个长度范围,即Cell 1,Cell 3,Cell 5为一组记为Group 1,Cell 2,Cell 4,Cell 6为另一组记为Group 2。对两组数据中的5 665个公共基因通过计算RPK

图4 MCF⁃7数据集重复实验结果对比
Fig.4 Comparison of repeated experiment results of MCF⁃7 data set
PacBio测序技术从细胞中提取到mRNA后没有进行分子随机打断,因此本文认为经过对下机原始数据的处理后,得到的所有非冗余全长读段数据即为细胞中表达的异构体集合,并将这个集合作为模型的异构体预测结果。
借鉴RNA⁃seq数据计算表达水平时统计外显子上读段数量的方式,本文将所有ISO⁃seq读段数据映射至异构体预测集,并统计各预测异构体上读段数量,在总读段数上做归一化得到其表达水平。映射过程中,ISO⁃seq数据也将面临相同基因下多个异构体之间的多源映射问题。MCF⁃7数据集的6个Cell中,35%的读段存在多源映射的情况,这远低于二代数据70%读段的多源映射情
算法1 DSIDP
输入:全长读段数据,非全长读段数据以及异构体预测集合,和均代表一条读段数据,代表一个异构体,;
输出:预测异构体的表达水平向量,每一维代表相应预测异构体的表达水平。
(1) 将读段数据矩阵和映射至异构体预测集合矩阵,统计每个异构体上唯一映射读段数量,得到一个维向量,并对每一维在所有维度上做归一化记为。
(2) 将发生多源映射的读段数据合并记为,则每一个均对应一个()和一个(),是归一化的结果,。
(3) 从中采样得到变量,其中各维度上的概率值表示属于对应异构体的可能性,选择概率最大的异构体,在其读段计数上加一。
(4) 遍历完所有之后得到新的异构体读段计数向量,归一化处理结果记为表达水平。
在RNA⁃seq数据的处理中, LeGault
MCIDP使用马尔科夫链对异构体junction之间的跳转进行建模。一个基本的马尔科夫链包含3元素:状态节点、初始状态概率向量、状态转移概率矩阵,因此,模型可以表示为。其中状态节点由基因结构决定,将基因外显子由编号从小到大进行排列,并在该排列的两端加上起始点和终止点,即为状态节点集合;表示状态节点转移至状态节点的概率值,且有;表示由状态节点作为路径起始点的概率值,且有。从模型建立的整个过程可以看出,MCIDP方法只需要知道基因外显子组成,不依赖注释库中异构体的注释信息。

图5 MCIDP建模示意图
Fig.5 Modeling diagram of MCIDP
模型的一条路径即代表一个可能存在的异构体,例如
(1) |
使用极大似然估计出马尔科夫链模型的参数和,令表示状态节点与状态节点之间的junction总个数,则对于和的极大似然估计有
(2) |
MCIDP沿用了DSIDP从全长读段中建立异构体预测集的思想,将所有非冗余全长读段数据作为模型预测异构体的初始集合。由于构造的图模型中有些路径的junction结构较为相似,可以进行合并计算,所以需对所有其他可能存在的异构体根据定义的距离公式,将其路径概率累加到结构最近的预测异构体中。这里距离公式的定义同时考虑到了两个junction之间局部跨区域的差异和所有junction之间累积起来的全局差异,具体描述如下:
令表示一个异构体的外显子序列,基因的第个外显子包含于其中,则,否则。对于两个异构体外显子序列,若,则认为节点处存在这两个异构体的相似junction,且为开始位置,若,则认为节点处为该相似junction的结束位置。由此,两个异构体中相似junction的初步距离定义为,可表示为
(3) |
式中为度量因子,作为指数距离公式中的底数。考虑到差异区域长度对距离的影响,令表示基因第个外显子的长度,表示异构体的长度,则两个junction的差异区域长度对距离的影响可以定义为,可表示为
(4) |
式中可视为惩罚因子,所以两个异构体中相似junction的最终距离定义为,可表示为
(5) |
则两个可能存在的异构体的距离可表示为
(6) |
对于超出距离阈值的可能存在的异构体,对其作Kmeans聚类处理,距离公式使用式(6),并将聚类中心作为新的预测异构体添加至异构体预测集合,该预测异构体的表达比率等价于以其为聚类中心的所有可能存在的异构体路径概率之和。最终,模型输出异构体预测集合及集合元素各自的概率值,该概率值即为该基因每个可能存在的异构体的表达比例。
本文使用了一个模拟数据集和一个真实数据集来验证两个模型的有效性。模拟数据集中,假设了一个拥有10个外显子和4个异构体的基因,并设置异构体的表达比例分别为t1=0.3,t2=0.3,t3=0.2和t4=0.2,如

图6 模拟数据结构
Fig.6 Structure of simulation data
从
nFL比例/% | 真实表达比例 | FL单独计算结果 | 加入nFL计算结果 |
---|---|---|---|
25 | (0.3,0.3,0.2,0.2) | (0.243 2,0.324 3,0.243 3,0.189 2) | (0.272 8,0.292 9,0.242 4,0.191 9) |
50 | (0.3,0.3,0.2,0.2) | (0.285 7,0.285 7,0.204 1,0.224 5) | (0.293 0,0.303 0,0.196 7,0.207 3) |
75 | (0.3,0.3,0.2,0.2) | (0.291 6,0.208 4,0.375 0,0.125 0) | (0.252 6,0.272 7,0.232 3,0.242 4) |
nFL 比例/% | FL单独 计算误差 | 加入nFL 计算误差 | 误差变化 |
---|---|---|---|
25 | 0.076 2 | 0.051 5 | -0.024 7 |
50 | 0.032 0 | 0.011 1 | -0.020 9 |
75 | 0.211 1 | 0.076 3 | -0.134 7 |
MCIDP的提出是为了预测出数据中没有全长读段的超长异构体,本文将模拟数据中t1异构体的所有全长读段随机打断,这时t1异构体即可作为没有全长读段的超长异构体,检验模型的预测能力。实验结果如
异构体输出 | 表达比率输出 | 真实比率 | 误差 |
---|---|---|---|
t2 | 0.311 1 | 0.3 | -0.011 1 |
t3 | 0.170 4 | 0.2 | 0.029 6 |
t4 | 0.339 4 | 0.2 | -0.139 4 |
t1 | 0.179 2 | 0.3 | 0.120 8 |
在异构体表达水平上,虽然ISO⁃seq数据和RNA⁃seq数据均反映出样本中原始转录本的浓度,但是由于测序技术本身和数据特性的较大差异,尤其读段长度的差异导致异构体构建上的明显差别,造成两种数据在异构体表达比例计算上的不一致,故无法采用RNA⁃seq数据的计算结果对ISO⁃seq分析结果进行验证。因此,对本文中6个cell数据进行分组,分为两次技术性重复实验,具体分组方式和1.3节中的相同。其中Group 1包含139 116个全长读段,147 190个非全长读段;Group 2包含109 969个全长读段,95 431个非全长读段。将本文提出的两个模型应用到这两组重复实验数据中,检验在公共异构体上获得的表达比例的吻合程度,验证本文方法的有效性。
RPKM>10基因数 | 注释库已有异构体数 | 模型 | 预测异构体数 | 与注释库交集数 |
---|---|---|---|---|
2 321 | 17 783 | DSIDP | 16 552 | 5 430 |
MCIDP | 19 918 | 7 953 |

图7 模型预测异构体数量韦恩图
Fig.7 Venn diagram of isoform numbers predicted from various methods
另外,注释库是对人类基因的所有已知异构体进行注释,在一些分化后的人体细胞中并不是所有基因都表达,所以

图8 MCF⁃7数据集异构体层面重复实验结果对比
Fig.8 Comparison of repeated experiment results of isoforms in MCF⁃7 data set
本文在保留ISO⁃seq数据非全长读段的基础上提出了两个适用于不同场景的异构体预测和表达比例计算模型,DSIDP和MCIDP。两个模型首次仅采用PacBio第三代测序数据用于异构体预测以及表达水平的计算。DSIDP从全长读段中建立异构体预测集合,将所有读段映射至这个集合之中,统计集合元素各自的读段数量,进而计算表达水平,采用Dirichlet采样的方法解决了读段多源映射的问题。实验结果表明DSIDP在异构体表达水平计算上具有较好的准确性。MCIDP是基于马尔科夫链的一个概率模型,通过构造概率图模型,考虑了转录本中所有可能的转录路径,以获得所有可能的异构体。在一些超长异构体无法获得全长读段的情况下,使用MCIDP可以有效地预测出超长异构体。与IDP相比,该模型不依赖异构体的注释信息,只需获取基因的外显子组成即可预测出数据中的异构体,但该模型在计算异构体表达水平上具有一定不足,这与模型存在的低概率相似路径合并这一难点有关。模型中使用的最近距离划分和聚类处理,实际上都是对相似路径的合并,在后续的工作中,拟尝试采用二阶马尔科夫链模型提高相似路径聚类的准确性,以进一步提高异构体比例计算的准确性。
参考文献
Wang E T,Sandberg R,Luo S,et al. Alternative isoform regulation in human tissue transcriptomes[J]. Nature,2008,456(7221): 470⁃476.
Wang Z,Gerstein M,Snyder M. RNA⁃Seq: A revolutionary tool for transcriptomics [J]. Nature Reviews Genetics,2009,10(1): 57⁃63.
Denoeud F,Aury J M,Da Silva C,et al. Annotating genomes with massive scale RNA sequenceing [J]. Genome Biology,2008,9(12): R175.
Liu X J,Zhang L,Chen S C. Modeling exon⁃specific bias distribution improves the analysis of RNA⁃seq data [J]. Plos One,2015,10(10): e0140032.
Wu Z,Wang X,Zhang X. Using non⁃uniform read distribution models to improve isoform expression inference in RNA⁃Seq[J]. Bioinformatics,2010,27(4): 502⁃508.
Trapnell C,Williams B A,Pertea G,et al. Transcript assembly and quantification by RNA⁃Seq reveals unannotated transcripts and isoform switching during cell differentiation[J]. Nature biotechnology,2010,28(5): 511⁃515.
Li B,Rutti V,Stewart R M,et al. RNA⁃seq gene expression estimation with read mapping uncertianty [J]. Bioinformatics,2010,26(4): 493⁃500.
Li B,Dewey C N. RSEM: Accurate transcript quantification from RNA⁃seq data with or without a reference genome [J]. BMC Bioinformatics,2011,12(1): 323⁃338.
Turro E,Su Shuyi,Goncalves  ,et al. Haplotype and isoform specific expression estimation using multi⁃mapping RNA⁃seq reads [J]. Genome Biology,2011,12(2): R13.
Garber M,Grabherr M G,Guttman M,et al. Computational methods for transcriptome annotation and quantification using RNA⁃seq [J]. Nature Methods,2011,8(6): 469⁃477.
Steijger T,Abril J F,Engström P G,et al. Assessment of transcript reconstruction methods for RNA⁃seq[J]. Nature Methods,2013,10(12): 1177⁃1184.
Koren S,Harhay G P,Smith T P L,et al. Reducing assembly complexity of microbial genomes with single⁃molecule sequencing[J]. Genome Biology,2013,14(9): R101.
Koren S,Schatz M C,Walenz B P,et al. Hybrid error correction and de novo assembly of single⁃molecule sequencing reads[J]. Nature Biotechnology,2012,30(7): 693⁃700.
Au K F,Sebastiano V,Afshar P T,et al. Characterization of the human ESC transcriptome by hybrid sequencing[J]. Proceedings of the National Academy of Sciences,2013,110(50): E4821⁃E4830.
Weirather J L,de Cesare M,Wang Y,et al. Comprehensive comparison of pacific biosciences and oxford nanopore technologies and their applications to transcriptome analysis [J]. F1000Research,2017,6: 100⁃117.
Rhoads A,Au K F. PacBio sequencing and its applications [J]. Genomics,Proteomics & Bioinformatics,2015,13(5): 278⁃289.
Salmela L,Rivals E. LoRDEC: Accurate and efficient long read error correction [J]. Bioinformatics,2014,30(24): 3506⁃3514.
Li H. Aligning sequence reads, clone sequences and assembly contigs with BWA⁃MEM [J]. arXiv preprint arXiv:1303.3997,2013: 1⁃3.
Chin C S,Alexander D H,Marks P,et al. Nonhybrid, finished microbial genome assemblies from long⁃read SMRT sequencing data.[J]. Nature Methods,2013,10(6): 563⁃569.
Mortazavi A,Williams B A,McCue K,et al. Mapping and quantifying mammalian transcriptomes by RNA⁃Seq [J]. Nature Methods,2008,5(7): 621⁃628.
Legault L H,Dewey C N. Inference of alternative splicing from RNA⁃Seq data with probabilistic splice graphs [J]. Bioinformatics,2013,29(18): 2300⁃2310.