博文

目前显示的是 十月, 2018的博文

RNAseq学习与总结

图片
RNAseq pepline 必读文献: Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis 数据下载与处理 将数据从sra格式转化为fastq.gz格式 对于双端测序,用 fastq-dump 命令的 --split-3 选项 fastq-dump --split-3 -A xxx.sra \ --gzip \ -O outpath 检测数据质量QC fastqc -o outpath --noextarct xxx.fastq.gz 自动化处理数据 可同时处理双端数据 fastp -i xxx.1.fastq.gz -o xxx.1.out.fastq.gz -I xxx.2.fastq.gz -O xxx.2.out.fastq.gz 序列比对 收集并了解不同的比对软件 比较不同的比对软件的优势以及劣势 。常用的比对软件包括:STAR, TopHat和HISAT2 STAR具有最高比例的在基因组上有唯一比对位置的reads,尤其是对读长为300 nt的MCF7样品也有最高的比对率。与TopHat和HISAT2不同,STAR只保留双端reads都比对到基因组的序列,但对低质量的比对 (允许更多的错配碱基和soft-clip事件) 容忍度高。这一点在长reads >(MCF7-300)样品中的体现更为明显。TopHat则不允许soft-clip事件。 在比对速度方面,HISAT2比STAR快2.5倍,比TopHat快大约100倍。 soft-clip事件: 即reads末端存在低质量碱基或接头导致比对不上的, STAR会自动尝试截去未比对部分,只保留比对上的部分。 接下来,我们对这三种软件都安装并且进行尝试: STAR安装 , TopHat2安装 , HISAT2安装 在了解这三种软件的创始人以及使用目的时,我发现TopHat2和HISAT2都是约翰霍普金斯大学计算生物学中心发表的软件,而且再TopHat2的首页上也已经提出了: Please note that TopHat has entered a low mai...