吃瓜少女

博文

目前显示的是十二月, 2018的博文

WGCNA全流程

十二月 20, 2018

WGCNA WGCNA是最初接触到课题的时候学习的，最近要帮别的课题组做一个四组数据的WGCNA分析，去寻找每组的特征基因，趁着个机会，整理一下WGCNA的全流程什么是WGCNA？ WGCNA的全称为Weighted correlation network analysis, 基本的原理就是通过对基因的聚类将基因划分为多个模块，去分析模块和性状，包括性别，年龄，以及分组情况等的关系． WGCNA流程导入数据导入基因表达数据． # 数据的行为基因，列为样本 dat <- read.table( "~/project/other.data/AD_USP25_4_GT/AllSamplesGeneExpressionCount.txt" ,header= T ,stringsAsFactors= F ) sample.info <- read.table( "~/project/other.data/AD_USP25_4_GT/sample.info.txt" ,header= T ,stringsAsFactors= F ) # 将 counts 转换为 log2(counts+1)，并且将数据转置 datExpr0 <- t(log2(dat+ 1 )) datExpr0[datExpr0== 0 ] <- NA 数据清洗检查基因或者样本是否有过多的缺失值． gsg = goodSamplesGenes(datExpr0, verbose = 3 ) gsg$allOK # 如果 gsg$allOK 返回 TRUE, 所有的基因和样本都通过了检测，如果返回FALSE，我们酒需要删除那些缺失值过多的基因和样本 if (!gsg$allOK) { if (sum(!gsg$goodGenes)> 0 ) printFlush(paste( "Removing genes:" , paste(names(datExpr0)[!gsg$goodGenes], collapse = ", " ))); if (sum(!gsg$goodSamples)> 0 ) ...

阅读全文

Chip-seq的实战学习

十二月 20, 2018

Chip-seq pipline 参考文章： CHIP-seq基础入门一个CHIP-seq的实战 Chip-seq属于蛋白组学，利用蛋白和DNA序列的结合以及蛋白和抗体的结合讲DNA片段拉下来，实验步骤主要包括一下几步：第一步：将蛋白交联到DNA上。也就是保证蛋白和DNA能够结合，找到互作位点第二步：通过超声波剪切DNA链第三步：加上附上抗体的磁珠用于免疫沉淀靶蛋白；抗体很重要第四步：解除蛋白交联；纯化DNA 下载数据数据来源：GSE42466 for i in `seq 4 9`;do mwget -d ~/project/chipseq/fastq/ ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP017/SRP017311/SRR62020$i/SRR62020$i.sra done 将sra格式的数据转换为fastq.gz格式 cd ~/project/chipseq/fastq/ for i in `ls *.sra`;do fastq-dump --split-3 $i done 我们注意到，这次的测序数据是单段测序的数据，read length为40bp和36bp. 数据质控 fastqc批量检测数据质量 ls *fastq|xargs fastqc -t 10 -o ~/project/chipseq/fastqc/ 使用multiqc综合多个文件的测序质量报告 multiqc ~/project/chipseq/fastqc/ multiqc在使用是可能会因为编码问题报错，解决办法参考 python3官网在使用multiqc的过程中遇到了另外一个问题，pkg_resource.VersionConfilct，更新了一下Multiqc,突然就又能用了，一脸懵…. 序列比对 bowtie2 使用bowtie2进行比对，由于上面的质控报告显示3’端有几个碱基的质量很低,所以我们用-3 5切掉5个bp。 bowtie2 -p 10 -3 5 -x /home/j..x../ref/mm10/mm10 -U ~/project/chipseq/fastq/SRR...

阅读全文

Ensembl和symbol的相互转换

十二月 19, 2018

ibrary(biomaRt) human = useMart(“ensembl”, dataset = “hsapiens_gene_ensembl”) mouse = useMart(“ensembl”, dataset = “mmusculus_gene_ensembl”) mouse: ensembl to symbol gene_trans = getLDS(attributes = c(“ensembl_gene_id”), filters = “ensembl_gene_id”, values = x , mart = mouse, attributesL = c(“mgi_symbol”), martL = mouse, uniqueRows=T) human: ensembl to symbol gene_trans = getLDS(attributes = c(“ensembl_gene_id”), filters = “ensembl_gene_id”, values = x , mart = human, attributesL = c(“hgnc_symbol”), martL = human uniqueRows=T) mouse ensembl to human symbol gene_trans = getLDS(attributes = c(“ensembl_gene_id”), filters = “ensembl_gene_id”, values = x , mart = mouse, attributesL = c(“hgnc_symbol”), martL = human uniqueRows=T) human ensembl to mouse symbol gene_trans = getLDS(attributes = c(“ensembl_gene_id”), filters = “ensembl_gene_id”, values = x , mart = human, attributesL = c(“mgi_symbol”), martL = mouse, uniqueRows=T)

阅读全文

鲁迅梁实秋论战实录-读书笔记

十二月 03, 2018

鲁迅梁实秋论战实录 20181204 开头第一篇，梁实秋的＜现代中国文学之浪漫的趋势＞，里面有一段形容抒情派的描写，实在是妙极，称他们为嚎啕的虚幻．上面关于浪漫主义派的文人论证十分有趣，但是下面这段未免有些武断，人力车夫的血汗甚至可能做不到养家糊口，归根结底，是社会的本身状态使他们不能处于一个平稳的状态，随时面临破产的威胁，当然，并不局限与人力车夫，人人都不得安稳的社会，人人都可怜．第二篇是讯哥的＜革命时代的文学＞，开头便讲自己其实是个开矿的，叫他讲文学肯定不如让他讲掘煤讲的好．讯哥在文里直指梁实秋关于人力车夫派诗歌的评论，说中了我的心．讯哥说文学吓不走孙传芳，一炮就把他吓走了，大炮的声音比文学的声音好听的多，这大概跟真理在大炮射程之内异曲同工吧

阅读全文