博文

WGCNA全流程

图片
WGCNA WGCNA是最初接触到课题的时候学习的,最近要帮别的课题组做一个四组数据的WGCNA分析,去寻找每组的特征基因,趁着个机会,整理一下WGCNA的全流程 什么是WGCNA? WGCNA的全称为Weighted correlation network analysis, 基本的原理就是通过对基因的聚类将基因划分为多个模块,去分析模块和性状,包括性别,年龄,以及分组情况等的关系. WGCNA流程 导入数据 导入基因表达数据. # 数据的行为基因,列为样本 dat <- read.table( "~/project/other.data/AD_USP25_4_GT/AllSamplesGeneExpressionCount.txt" ,header= T ,stringsAsFactors= F ) sample.info <- read.table( "~/project/other.data/AD_USP25_4_GT/sample.info.txt" ,header= T ,stringsAsFactors= F ) # 将 counts 转换为 log2(counts+1),并且将数据转置 datExpr0 <- t(log2(dat+ 1 )) datExpr0[datExpr0== 0 ] <- NA 数据清洗 检查基因或者样本是否有过多的缺失值. gsg = goodSamplesGenes(datExpr0, verbose = 3 ) gsg$allOK # 如果 gsg$allOK 返回 TRUE, 所有的基因和样本都通过了检测,如果返回FALSE,我们酒需要删除那些缺失值过多的基因和样本 if (!gsg$allOK) { if (sum(!gsg$goodGenes)> 0 ) printFlush(paste( "Removing genes:" , paste(names(datExpr0)[!gsg$goodGenes], collapse = ", " ))); if (sum(!gsg$goodSamples)> 0 ) ...

Chip-seq的实战学习

Chip-seq pipline 参考文章: CHIP-seq基础入门 一个CHIP-seq的实战 Chip-seq属于蛋白组学,利用蛋白和DNA序列的结合以及蛋白和抗体的结合讲DNA片段拉下来,实验步骤主要包括一下几步: 第一步: 将蛋白交联到DNA上。 也就是保证蛋白和DNA能够结合,找到互作位点 第二步: 通过超声波剪切DNA链 第三步: 加上附上抗体的磁珠用于免疫沉淀靶蛋白;抗体很重要 第四步: 解除蛋白交联;纯化DNA 下载数据 数据来源:GSE42466 for i in `seq 4 9`;do mwget -d ~/project/chipseq/fastq/ ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP017/SRP017311/SRR62020$i/SRR62020$i.sra done 将sra格式的数据转换为fastq.gz格式 cd ~/project/chipseq/fastq/ for i in `ls *.sra`;do fastq-dump --split-3 $i done 我们注意到,这次的测序数据是单段测序的数据,read length为40bp和36bp. 数据质控 fastqc批量检测数据质量 ls *fastq|xargs fastqc -t 10 -o ~/project/chipseq/fastqc/ 使用multiqc综合多个文件的测序质量报告 multiqc ~/project/chipseq/fastqc/ multiqc在使用是可能会因为编码问题报错,解决办法参考 python3官网 在使用multiqc的过程中遇到了另外一个问题,pkg_resource.VersionConfilct,更新了一下Multiqc,突然就又能用了,一脸懵…. 序列比对 bowtie2 使用bowtie2进行比对,由于上面的质控报告显示3’端有几个碱基的质量很低,所以我们用-3 5切掉5个bp。 bowtie2 -p 10 -3 5 -x /home/j..x../ref/mm10/mm10 -U ~/project/chipseq/fastq/SRR...

Ensembl和symbol的相互转换

ibrary(biomaRt) human = useMart(“ensembl”, dataset = “hsapiens_gene_ensembl”) mouse = useMart(“ensembl”, dataset = “mmusculus_gene_ensembl”) mouse: ensembl to symbol gene_trans = getLDS(attributes = c(“ensembl_gene_id”), filters = “ensembl_gene_id”, values = x , mart = mouse, attributesL = c(“mgi_symbol”), martL = mouse, uniqueRows=T) human: ensembl to symbol gene_trans = getLDS(attributes = c(“ensembl_gene_id”), filters = “ensembl_gene_id”, values = x , mart = human, attributesL = c(“hgnc_symbol”), martL = human uniqueRows=T) mouse ensembl to human symbol gene_trans = getLDS(attributes = c(“ensembl_gene_id”), filters = “ensembl_gene_id”, values = x , mart = mouse, attributesL = c(“hgnc_symbol”), martL = human uniqueRows=T) human ensembl to mouse symbol gene_trans = getLDS(attributes = c(“ensembl_gene_id”), filters = “ensembl_gene_id”, values = x , mart = human, attributesL = c(“mgi_symbol”), martL = mouse, uniqueRows=T) ​

鲁迅梁实秋论战实录-读书笔记

图片
鲁迅梁实秋论战实录 20181204 开头第一篇,梁实秋的<现代中国文学之浪漫的趋势>,里面有一段形容抒情派的描写,实在是妙极,称他们为嚎啕的虚幻. 上面关于浪漫主义派的文人论证十分有趣,但是下面这段未免有些武断,人力车夫的血汗甚至可能做不到养家糊口,归根结底,是社会的本身状态使他们不能处于一个平稳的状态,随时面临破产的威胁,当然,并不局限与人力车夫,人人都不得安稳的社会,人人都可怜. 第二篇是讯哥的<革命时代的文学>,开头便讲自己其实是个开矿的,叫他讲文学肯定不如让他讲掘煤讲的好.讯哥在文里直指梁实秋关于人力车夫派诗歌的评论,说中了我的心.讯哥说文学吓不走孙传芳,一炮就把他吓走了,大炮的声音比文学的声音好听的多,这大概跟真理在大炮射程之内异曲同工吧 ​

10X Genomics单细胞转录组测序数据的处理

Cellranger一步处理单细胞转录组测序数据 #!/bin/bash #Single Cell 3' v2 #R1----cell barcode and UMI 16+10bp --r1-length must >= 26 #R2----cDNA length #--expect-cells总是会遇到拿到的细胞数过少的问题,所以选用--force-cells强制规定细胞的数目 if [ $# -ne 7 ] then echo "Usage: ./cellranger.sh [id] [fastqpath] [sampleID] \ [cell_num] [t] [r1_length] [r2_length]" exit 65 fi id=$1 fastqpath=$2 sampleID=$3 cell_num=$4 t=$5 r1_length=$6 r2_length=$7 cellranger count --id=$id --fastqs=$fastqpath \ --transcriptome=/home/xxx/reference/refdata-cellranger-hg19-1.2.0 \ # download from cellranger website --sample=$sampleID --force-cells=$cell_num --localcores=$t --chemistry='SC3Pv2' \ --r1-length=$r1_length --r2-length=$r2_length ​

RNAseq学习与总结

图片
RNAseq pepline 必读文献: Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis 数据下载与处理 将数据从sra格式转化为fastq.gz格式 对于双端测序,用 fastq-dump 命令的 --split-3 选项 fastq-dump --split-3 -A xxx.sra \ --gzip \ -O outpath 检测数据质量QC fastqc -o outpath --noextarct xxx.fastq.gz 自动化处理数据 可同时处理双端数据 fastp -i xxx.1.fastq.gz -o xxx.1.out.fastq.gz -I xxx.2.fastq.gz -O xxx.2.out.fastq.gz 序列比对 收集并了解不同的比对软件 比较不同的比对软件的优势以及劣势 。常用的比对软件包括:STAR, TopHat和HISAT2 STAR具有最高比例的在基因组上有唯一比对位置的reads,尤其是对读长为300 nt的MCF7样品也有最高的比对率。与TopHat和HISAT2不同,STAR只保留双端reads都比对到基因组的序列,但对低质量的比对 (允许更多的错配碱基和soft-clip事件) 容忍度高。这一点在长reads >(MCF7-300)样品中的体现更为明显。TopHat则不允许soft-clip事件。 在比对速度方面,HISAT2比STAR快2.5倍,比TopHat快大约100倍。 soft-clip事件: 即reads末端存在低质量碱基或接头导致比对不上的, STAR会自动尝试截去未比对部分,只保留比对上的部分。 接下来,我们对这三种软件都安装并且进行尝试: STAR安装 , TopHat2安装 , HISAT2安装 在了解这三种软件的创始人以及使用目的时,我发现TopHat2和HISAT2都是约翰霍普金斯大学计算生物学中心发表的软件,而且再TopHat2的首页上也已经提出了: Please note that TopHat has entered a low mai...