Chip-seq pipline

Chip-seq属于蛋白组学，利用蛋白和DNA序列的结合以及蛋白和抗体的结合讲DNA片段拉下来，实验步骤主要包括一下几步：
第一步：将蛋白交联到DNA上。也就是保证蛋白和DNA能够结合，找到互作位点
第二步：通过超声波剪切DNA链
第三步：加上附上抗体的磁珠用于免疫沉淀靶蛋白；抗体很重要
第四步：解除蛋白交联；纯化DNA

下载数据

数据来源：GSE42466

for i in `seq 4 9`;do
mwget -d ~/project/chipseq/fastq/ ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP017/SRP017311/SRR62020$i/SRR62020$i.sra
done

将sra格式的数据转换为fastq.gz格式

cd ~/project/chipseq/fastq/

for i in `ls *.sra`;do
fastq-dump --split-3 $i
done

我们注意到，这次的测序数据是单段测序的数据，read length为40bp和36bp.

数据质控

fastqc批量检测数据质量

ls *fastq|xargs fastqc -t 10 -o ~/project/chipseq/fastqc/

使用multiqc综合多个文件的测序质量报告
```
multiqc ~/project/chipseq/fastqc/
```
multiqc在使用是可能会因为编码问题报错，解决办法参考python3官网
在使用multiqc的过程中遇到了另外一个问题，pkg_resource.VersionConfilct，更新了一下Multiqc,突然就又能用了，一脸懵….

序列比对

bowtie2
使用bowtie2进行比对，由于上面的质控报告显示3’端有几个碱基的质量很低,所以我们用-3 5切掉5个bp。
```
bowtie2 -p 10 -3 5 -x /home/j..x../ref/mm10/mm10 -U ~/project/chipseq/fastq/SRR620204.fastq | samtools sort -@ 10 -O bam -o ring1B.bam
```
bowtie2的索引文件需要给出索引文件的前缀，比如mm10.1.bt2,mm10.2.bt2需要写出mm10
bowtie2的比对过程很快，3个G的数据我用—local的参数只用了20分钟就比对外加排序结束
使用samtools flagstat统计比对上的比例：
```
samtools flagstat xxx.bam
```
比对率：
```
cbx7: 86.88%
IgG: 81.74%
IgGold: 56.88%
ringB1: 59.75%
RYBP: 83.28%
suz12: 66.05%
```

过滤bam文件
这步为选作选项
我们需要去除没有比对上的，以及重复比对的和pcr扩增的重复序列

#过滤没有比对上或者质量小于5的reads
for i in cbx7 IgG IgGold ringB1 RYBP suz12;do
samtools view -h -F 4 -q 5 $i.bam | samtools view -bS > $i.filter.bam
done
#去除pcr重复
for i in cbx7 IgG IgGold ringB1 RYBP suz12;do
samtools rmdup -s $i.filter.bam $i.filter.rmdup.bam
done

序列富集

Unknown2019年7月22日 17:32
怎么没后续了呢
回复删除
回复

添加评论

搜索此博客

吃瓜少女

Chip-seq的实战学习

Chip-seq pipline

下载数据

数据质控

序列比对

序列富集

评论

发表评论

此博客中的热门博文

WGCNA全流程

RNAseq学习与总结

10X Genomics单细胞转录组测序数据的处理