Chip-seq的实战学习

Chip-seq pipline

Chip-seq属于蛋白组学,利用蛋白和DNA序列的结合以及蛋白和抗体的结合讲DNA片段拉下来,实验步骤主要包括一下几步:
第一步: 将蛋白交联到DNA上。 也就是保证蛋白和DNA能够结合,找到互作位点
第二步: 通过超声波剪切DNA链
第三步: 加上附上抗体的磁珠用于免疫沉淀靶蛋白;抗体很重要
第四步: 解除蛋白交联;纯化DNA

下载数据

数据来源:GSE42466
for i in `seq 4 9`;do
mwget -d ~/project/chipseq/fastq/ ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP017/SRP017311/SRR62020$i/SRR62020$i.sra
done
将sra格式的数据转换为fastq.gz格式
cd ~/project/chipseq/fastq/

for i in `ls *.sra`;do
fastq-dump --split-3 $i
done
我们注意到,这次的测序数据是单段测序的数据,read length为40bp和36bp.

数据质控

  1. fastqc批量检测数据质量
    ls *fastq|xargs fastqc -t 10 -o ~/project/chipseq/fastqc/
    
  2. 使用multiqc综合多个文件的测序质量报告
    multiqc ~/project/chipseq/fastqc/
    
    multiqc在使用是可能会因为编码问题报错,解决办法参考python3官网
    在使用multiqc的过程中遇到了另外一个问题,pkg_resource.VersionConfilct,更新了一下Multiqc,突然就又能用了,一脸懵….

序列比对

  1. bowtie2
    使用bowtie2进行比对,由于上面的质控报告显示3’端有几个碱基的质量很低,所以我们用-3 5切掉5个bp。
    bowtie2 -p 10 -3 5 -x /home/j..x../ref/mm10/mm10 -U ~/project/chipseq/fastq/SRR620204.fastq | samtools sort -@ 10 -O bam -o ring1B.bam
    
    bowtie2的索引文件需要给出索引文件的前缀,比如mm10.1.bt2,mm10.2.bt2需要写出mm10
    bowtie2的比对过程很快,3个G的数据我用—local的参数只用了20分钟就比对外加排序结束
    使用samtools flagstat统计比对上的比例:
    samtools flagstat xxx.bam
    
    比对率:
    cbx7: 86.88%
    IgG: 81.74%
    IgGold: 56.88%
    ringB1: 59.75%
    RYBP: 83.28%
    suz12: 66.05%
    
  2. #过滤没有比对上或者质量小于5的reads
    for i in cbx7 IgG IgGold ringB1 RYBP suz12;do
    samtools view -h -F 4 -q 5 $i.bam | samtools view -bS > $i.filter.bam
    done
    #去除pcr重复
    for i in cbx7 IgG IgGold ringB1 RYBP suz12;do
    samtools rmdup -s $i.filter.bam $i.filter.rmdup.bam
    done
    

序列富集

评论

发表评论

此博客中的热门博文

RNAseq学习与总结

10X Genomics单细胞转录组测序数据的处理

WGCNA全流程