博文

目前显示的是 十二月, 2018的博文

WGCNA全流程

图片
WGCNA WGCNA是最初接触到课题的时候学习的,最近要帮别的课题组做一个四组数据的WGCNA分析,去寻找每组的特征基因,趁着个机会,整理一下WGCNA的全流程 什么是WGCNA? WGCNA的全称为Weighted correlation network analysis, 基本的原理就是通过对基因的聚类将基因划分为多个模块,去分析模块和性状,包括性别,年龄,以及分组情况等的关系. WGCNA流程 导入数据 导入基因表达数据. # 数据的行为基因,列为样本 dat <- read.table( "~/project/other.data/AD_USP25_4_GT/AllSamplesGeneExpressionCount.txt" ,header= T ,stringsAsFactors= F ) sample.info <- read.table( "~/project/other.data/AD_USP25_4_GT/sample.info.txt" ,header= T ,stringsAsFactors= F ) # 将 counts 转换为 log2(counts+1),并且将数据转置 datExpr0 <- t(log2(dat+ 1 )) datExpr0[datExpr0== 0 ] <- NA 数据清洗 检查基因或者样本是否有过多的缺失值. gsg = goodSamplesGenes(datExpr0, verbose = 3 ) gsg$allOK # 如果 gsg$allOK 返回 TRUE, 所有的基因和样本都通过了检测,如果返回FALSE,我们酒需要删除那些缺失值过多的基因和样本 if (!gsg$allOK) { if (sum(!gsg$goodGenes)> 0 ) printFlush(paste( "Removing genes:" , paste(names(datExpr0)[!gsg$goodGenes], collapse = ", " ))); if (sum(!gsg$goodSamples)> 0 ) ...

Chip-seq的实战学习

Chip-seq pipline 参考文章: CHIP-seq基础入门 一个CHIP-seq的实战 Chip-seq属于蛋白组学,利用蛋白和DNA序列的结合以及蛋白和抗体的结合讲DNA片段拉下来,实验步骤主要包括一下几步: 第一步: 将蛋白交联到DNA上。 也就是保证蛋白和DNA能够结合,找到互作位点 第二步: 通过超声波剪切DNA链 第三步: 加上附上抗体的磁珠用于免疫沉淀靶蛋白;抗体很重要 第四步: 解除蛋白交联;纯化DNA 下载数据 数据来源:GSE42466 for i in `seq 4 9`;do mwget -d ~/project/chipseq/fastq/ ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP017/SRP017311/SRR62020$i/SRR62020$i.sra done 将sra格式的数据转换为fastq.gz格式 cd ~/project/chipseq/fastq/ for i in `ls *.sra`;do fastq-dump --split-3 $i done 我们注意到,这次的测序数据是单段测序的数据,read length为40bp和36bp. 数据质控 fastqc批量检测数据质量 ls *fastq|xargs fastqc -t 10 -o ~/project/chipseq/fastqc/ 使用multiqc综合多个文件的测序质量报告 multiqc ~/project/chipseq/fastqc/ multiqc在使用是可能会因为编码问题报错,解决办法参考 python3官网 在使用multiqc的过程中遇到了另外一个问题,pkg_resource.VersionConfilct,更新了一下Multiqc,突然就又能用了,一脸懵…. 序列比对 bowtie2 使用bowtie2进行比对,由于上面的质控报告显示3’端有几个碱基的质量很低,所以我们用-3 5切掉5个bp。 bowtie2 -p 10 -3 5 -x /home/j..x../ref/mm10/mm10 -U ~/project/chipseq/fastq/SRR...

Ensembl和symbol的相互转换

ibrary(biomaRt) human = useMart(“ensembl”, dataset = “hsapiens_gene_ensembl”) mouse = useMart(“ensembl”, dataset = “mmusculus_gene_ensembl”) mouse: ensembl to symbol gene_trans = getLDS(attributes = c(“ensembl_gene_id”), filters = “ensembl_gene_id”, values = x , mart = mouse, attributesL = c(“mgi_symbol”), martL = mouse, uniqueRows=T) human: ensembl to symbol gene_trans = getLDS(attributes = c(“ensembl_gene_id”), filters = “ensembl_gene_id”, values = x , mart = human, attributesL = c(“hgnc_symbol”), martL = human uniqueRows=T) mouse ensembl to human symbol gene_trans = getLDS(attributes = c(“ensembl_gene_id”), filters = “ensembl_gene_id”, values = x , mart = mouse, attributesL = c(“hgnc_symbol”), martL = human uniqueRows=T) human ensembl to mouse symbol gene_trans = getLDS(attributes = c(“ensembl_gene_id”), filters = “ensembl_gene_id”, values = x , mart = human, attributesL = c(“mgi_symbol”), martL = mouse, uniqueRows=T) ​

鲁迅梁实秋论战实录-读书笔记

图片
鲁迅梁实秋论战实录 20181204 开头第一篇,梁实秋的<现代中国文学之浪漫的趋势>,里面有一段形容抒情派的描写,实在是妙极,称他们为嚎啕的虚幻. 上面关于浪漫主义派的文人论证十分有趣,但是下面这段未免有些武断,人力车夫的血汗甚至可能做不到养家糊口,归根结底,是社会的本身状态使他们不能处于一个平稳的状态,随时面临破产的威胁,当然,并不局限与人力车夫,人人都不得安稳的社会,人人都可怜. 第二篇是讯哥的<革命时代的文学>,开头便讲自己其实是个开矿的,叫他讲文学肯定不如让他讲掘煤讲的好.讯哥在文里直指梁实秋关于人力车夫派诗歌的评论,说中了我的心.讯哥说文学吓不走孙传芳,一炮就把他吓走了,大炮的声音比文学的声音好听的多,这大概跟真理在大炮射程之内异曲同工吧 ​