Chip-seq的实战学习
Chip-seq pipline
Chip-seq属于蛋白组学,利用蛋白和DNA序列的结合以及蛋白和抗体的结合讲DNA片段拉下来,实验步骤主要包括一下几步:
第一步: 将蛋白交联到DNA上。 也就是保证蛋白和DNA能够结合,找到互作位点
第二步: 通过超声波剪切DNA链
第三步: 加上附上抗体的磁珠用于免疫沉淀靶蛋白;抗体很重要
第四步: 解除蛋白交联;纯化DNA
第一步: 将蛋白交联到DNA上。 也就是保证蛋白和DNA能够结合,找到互作位点
第二步: 通过超声波剪切DNA链
第三步: 加上附上抗体的磁珠用于免疫沉淀靶蛋白;抗体很重要
第四步: 解除蛋白交联;纯化DNA
下载数据
数据来源:GSE42466
for i in `seq 4 9`;do
mwget -d ~/project/chipseq/fastq/ ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP017/SRP017311/SRR62020$i/SRR62020$i.sra
done
将sra格式的数据转换为fastq.gz格式
cd ~/project/chipseq/fastq/
for i in `ls *.sra`;do
fastq-dump --split-3 $i
done
我们注意到,这次的测序数据是单段测序的数据,read length为40bp和36bp.
数据质控
- fastqc批量检测数据质量
ls *fastq|xargs fastqc -t 10 -o ~/project/chipseq/fastqc/
- 使用multiqc综合多个文件的测序质量报告
multiqc ~/project/chipseq/fastqc/
multiqc在使用是可能会因为编码问题报错,解决办法参考python3官网
在使用multiqc的过程中遇到了另外一个问题,pkg_resource.VersionConfilct,更新了一下Multiqc,突然就又能用了,一脸懵….
序列比对
- bowtie2
使用bowtie2进行比对,由于上面的质控报告显示3’端有几个碱基的质量很低,所以我们用-3 5切掉5个bp。bowtie2 -p 10 -3 5 -x /home/j..x../ref/mm10/mm10 -U ~/project/chipseq/fastq/SRR620204.fastq | samtools sort -@ 10 -O bam -o ring1B.bam
bowtie2的索引文件需要给出索引文件的前缀,比如mm10.1.bt2,mm10.2.bt2需要写出mm10
bowtie2的比对过程很快,3个G的数据我用—local的参数只用了20分钟就比对外加排序结束
使用samtools flagstat统计比对上的比例:samtools flagstat xxx.bam
比对率:cbx7: 86.88% IgG: 81.74% IgGold: 56.88% ringB1: 59.75% RYBP: 83.28% suz12: 66.05%
-
#过滤没有比对上或者质量小于5的reads for i in cbx7 IgG IgGold ringB1 RYBP suz12;do samtools view -h -F 4 -q 5 $i.bam | samtools view -bS > $i.filter.bam done #去除pcr重复 for i in cbx7 IgG IgGold ringB1 RYBP suz12;do samtools rmdup -s $i.filter.bam $i.filter.rmdup.bam done
怎么没后续了呢
回复删除