本文聚焦于使用Hisat2、StringTie与Ballgown进行RNA-seq分析的技术流程,该流程基于2016年Nature Protocols上发表的《Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown》一文。分析主要涉及三个软件工具,用于转录组研究。
1. HISAT:ccb.jhu.edu/software/hi... HISAT利用大量FM索引,能快速比对RNA-Seq读取与基因组,相较于STAR、Tophat,它在比对速度和内存使用上更具优势。
2. StringTie:ccb.jhu.edu/software/st... 该工具应用流神经网络算法及可选的de novo组装,用于转录本组装与表达水平预测。相较于Cufflinks,StringTie在基因重建的完整性和表达水平预测上表现更佳。
3. Ballgown:github.com/alyssafrazee... 是R语言中用于基因差异表达分析的工具,能利用StringTie、RSEM、Cufflinks等结果预测基因、转录本的差异表达。
该流程包含多个关键步骤,以确保全面且准确的转录组分析:
使用HISAT将读段匹配到参考基因组上,支持提供注释文件,并检测注释文件未列出的剪切位点。
比对结果由StringTie处理,进行转录本组装,每个样本独立组装,并估算基因及isoform的表达水平。
StringTie的merge函数整合所有样本的转录本,确保所有样本中都存在的转录本,便于后续比较。
merge数据再次输入StringTie,进行转录本丰度再估算,提供给Ballgown进行进一步分析。
Ballgown根据实验条件,分析并统计基因、转录本的差异表达。
Hisat2比对与Samtools处理:通过脚本将sam文件转换为bam文件,作为StringTie的输入。
StringTie组装与预测新基因:使用StringTie组装转录组,生成gtf文件记录转录本信息,合并为单个gtf文件,与已知注释文件比较筛选新基因。
筛选新基因:通过GTf文件中的class codes筛选新转录本,特别关注内含子区、基因间区及已知外显子的反义链转录本。
转录本序列转换:通过特定代码生成新基因的gff或gtf格式文件及转录本序列,用于后续分析。
TransDecoder预测CDS:识别转录本序列中的潜在编码区域,预测蛋白质编码区。
过滤:设定50的ORF长度阈值,过滤掉较短的编码蛋白新基因,降低假阳性率。
合并已知基因与预测基因:整合所有基因,包括已知和预测的新基因。
准备Ballgown文件:利用StringTie生成的表达文件作为Ballgown的输入。
差异分析:参考Ballgown官网说明进行,执行差异表达分析,识别基因、转录本的显著差异。
通过这一系统化的流程,研究人员能够深入解析转录组数据,发现新的转录本、预测编码区,并识别基因表达差异,为后续的生物学研究提供重要信息。
本文如未解决您的问题请添加抖音号:51dongshi(抖音搜索懂视),直接咨询即可。