二维码

RNA-seq基础入门传送门

1445 人阅读 | 时间:2021年01月22日 14:56
转录组入门(1):计算机资源的准备
最好是有mac或者linux系统,8G+的内存,500G的存储即可。
如果你是Windows,那么安装必须安装 git,notepad++,everything,还有虚拟机,在虚拟机里面安装linux,最好是ubuntu。
需要安装的软件包括 sratoolkit,fastqc,hisats,samtools,htseq-count,R,Rstudio
软件安装的代码,在生信技能树公众号后台回复老司机即可拿到。
进阶作业,每个软件都收集一个中文教程链接,并自己阅读,发在论坛里面。
目前有5份优秀作业,请大家学习:
转录组(一)作业  ( HOPTOP )
转录组入门(1)-作业  (青山屋主)
转录组入门(1)Mac上软件准备作业  RNA-seq基础入门传送门
PANDA姐的转录组入门(1):计算机资源的准备
转录组作业(一):来自零基础的小白
转录组入门作业(1)软件准备 (yojoy123
(1)转录组之软件安装(ZGN1)
小白生信学习记4:Linux系统下,RNAseq分析软件的安装
转录组入门(2):读文章拿到测序数据
本系列课程学习的文章是:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034 很容易在文章里面找到数据地址GSE81916 这样就可以下载sra文件
作业,看文章里的methods部分,把它用到的软件和参数摘抄下来,然后理解GEO/SRA数据库的数据存放形式,把规律和笔记发在论坛上面!优秀作业如下:
转录组入门(二)作业 New(HOPTOP)
转录组入门(2)-作业(青山屋主)
PANDA姐的转录组入门(2):读文章拿到测序数据
(2)转录组之数据获取(ZGN1)



转录组入门(3):了解fastq测序数据
需要用安装好的sratoolkit把sra文件转换为fastq格式的测序文件,并且用fastqc软件测试测序文件的质量!
作业,理解测序reads,GC含量,质量值,接头,index,fastqc的全部报告,搜索中文教程,并发在论坛上面。
目前优秀作业有:
转录组(三):作业HOPTOP
转录组入门(3)-作业(青山屋主)
PANDA姐的转录组入门(3):了解fastq测序数据
(3)转录组之数据质控(ZGN1)转录组(3):了解fastq测序数据(兮兮狼)


转录组入门(4):了解参考基因组及基因注释
在UCSC下载hg19参考基因组,我博客有详细说明,从gencode数据库下载基因注释文件,并且用IGV去查看你感兴趣的基因的结构,比如TP53,KRAS,EGFR等等。
作业,截图几个基因的IGV可视化结构!还可以下载ENSEMBL,NCBI的gtf,也导入IGV看看,截图基因结构。了解IGV常识。
目前优秀作业是:
hoptop的:转录组作业(四) - [阅读权限 10]New



转录组入门(5): 序列比对
比对软件很多,首先大家去收集一下,因为我们是带大家入门,请统一用hisat2,并且搞懂它的用法。
直接去hisat2的主页下载index文件即可,然后把fastq格式的reads比对上去得到sam文件。
接着用samtools把它转为bam文件,并且排序(注意N和P两种排序区别)索引好,载入IGV,再截图几个基因看看!
顺便对bam文件进行简单QC,参考直播我的基因组系列。
目前优秀作业是:
转录组入门(5): 序列比对(HOPTOP)

转录组入门(6): reads计数
实现这个功能的软件也很多,还是烦请大家先自己搜索几个教程,入门请统一用htseq-count,对每个样本都会输出一个表达量文件。
需要用脚本合并所有的样本为表达矩阵。参考:生信编程直播第四题:多个同样的行列式文件合并起来
对这个表达矩阵可以自己简单在excel或者R里面摸索,求平均值,方差。
看看一些生物学意义特殊的基因表现如何,比如GAPDH,β-ACTIN等等。
转录组入门(6):reads技术(HOPTOP)


这是一个分水岭,后面的分析主要靠R了,前面的分析都最好是在linux系统下面完成,主要是安装软件,下载数据,运行。有几个笔记不错的整合作业:
转录组入门(1-6)从测序数据到生成count矩阵(alan)
http://www.zd200572.com/2017/07/15/2017-RNAseq-executing/ (JD加栋 的个人博客)

PANDA姐的转录组入门(0-6)合辑
转录组入门(7): 差异基因分析
这个步骤推荐在R里面做,载入表达矩阵,然后设置好分组信息,统一用DEseq2进行差异分析,当然也可以走走edgeR或者limma的voom流程。
基本任务是得到差异分析结果,进阶任务是比较多个差异分析结果的异同点。

转录组入门(8): 差异基因结果注释
我们统一选择p<0.05而且abs(logFC)大于一个与众的基因为显著差异表达基因集,对这个基因集用R包做KEGG/GO超几何分布检验分析。
然后把表达矩阵和分组信息分别作出cls和gct文件,导入到GSEA软件分析。
基本任务是完成这个分析。



最后,把同样的代码实践与其它几篇转录组文章,并且把代码和分析结果发在论坛上面;
http://biotrainee.com/jmzeng/RNA ... E81916-two-group.sh
http://biotrainee.com/jmzeng/RNA-seq/DEG.zip
我以前在博客写过的
http://www.bio-info-trainee.com/2218.html
比如可以来一个实战:
生信技能树»生信技能树互动作业项目实战mRNA-seq数据分析实战
最后:点击加入转录组学小组开始招人啦


©著作权归作者所有:来自ZhiKuGroup博客作者没文化的原创作品,如需转载,请注明出处,否则将追究法律责任 来源:ZhiKuGroup博客,欢迎分享。

评论专区
  • 昵 称必填
  • 邮 箱选填
  • 网 址选填
◎已有 0 人评论
搜索
作者介绍
30天热门
×
×
本站会员尊享VIP特权,现在就加入我们吧!登录注册×
»
会员登录
新用户注册
×
会员注册
已有账号登录
×